JP2005302040A - 目標変数の自動データパースペクティブ生成 - Google Patents

目標変数の自動データパースペクティブ生成 Download PDF

Info

Publication number
JP2005302040A
JP2005302040A JP2005117562A JP2005117562A JP2005302040A JP 2005302040 A JP2005302040 A JP 2005302040A JP 2005117562 A JP2005117562 A JP 2005117562A JP 2005117562 A JP2005117562 A JP 2005117562A JP 2005302040 A JP2005302040 A JP 2005302040A
Authority
JP
Japan
Prior art keywords
variable
data
conditioning
variables
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005117562A
Other languages
English (en)
Other versions
JP4233541B2 (ja
JP2005302040A5 (ja
Inventor
Allan Folting
フォルティング アラン
Bo Thiesson
ティーソン ボー
Carl M Kadie
エム.カダイ カール
Christopher A Meek
エー.ミーク クリストファー
David E Heckerman
イー.へッカーマン デービッド
David M Chickering
エム.チッカリング デービッド
Eric B Vigesaa
ビー.ビーゲッサ エリック
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2005302040A publication Critical patent/JP2005302040A/ja
Publication of JP2005302040A5 publication Critical patent/JP2005302040A5/ja
Application granted granted Critical
Publication of JP4233541B2 publication Critical patent/JP4233541B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Air Conditioning Control Device (AREA)
  • Feedback Control In General (AREA)

Abstract

【課題】 機械学習手法を活用して目標変数のデータパースペクティブを構成する条件付け変数の自動生成を実現する。
【解決手段】 目標変数の最良の目標変数プレディクタを決定し、分析し、これを使用して、目標変数に関する情報をユーザに伝えるのを容易にする。目標変数プレディクタとして使用される連続変数および離散変数を自動的に離散化して、その細かさを確立する。複雑さパラメータおよび/またはユーティリティパラメータを指定して、最良の目標変数プレディクタ対条件付け変数の複雑さおよび/またはユーティリティの分析を介してデータパースペクティブの生成を容易にする。データパースペクティブの条件付け変数(すなわち目標変数プレディクタ)を調整して、最適のビューを提供し、かつ/またはデータパースペクティブの生成を案内し/制御するためにユーザからの制御入力を受け入れる。
【選択図】 図1

Description

本発明は、全般的にはデータマイニングに関し、より詳細には、ユーザ指定の入力に基づくデータパースペクティブ(data perspective;直訳すると、データのバランスのとれた見方、データの大局観)の条件付け変数(conditioning variable)の自動生成を実現するシステムおよび方法に関する。
情報のデジタル化は、膨大な量のデータを、信じられないほど狭いスペースに記憶することを可能にする。この処理は、たとえば、図書館の内容を記憶し、単一のコンピュータハードディスクにキャプチャすることを可能にする。これが可能なのは、データが、ハードドライブ、CD−ROMディスク、およびフロッピー(登録商標)ディスクなどの様々なタイプのデジタル記憶媒体にデジタル符号化装置を介して記憶できる2進データの状態に変換されるからである。デジタル記憶技術が進歩するに連れて、記憶装置の密度は、実質的により多くのデータを所与のスペースに記憶することを可能にし、データの密度は、主に物理的特性および製造プロセスによって制限される。
記憶容量が増えるにつれて、効果的なデータ検索という課題も増大し、データが簡単にアクセス可能であることが重要事項になる。たとえば、図書館が、ある本を有するが、それを突き止めることができないと、その本を読みたいと望む図書館利用者の助けにならない。同様に、単にデータをデジタル化するだけでは、それに簡単にアクセスできない限り、情報の提供を申し出ることにはならない。このことは、データ検索を容易に効率的にできるデータ構造の創設を引き起こすこととなった。これらのデータ構造は、一般に「データベース」と称されている。データベースには、データへの効率的なアクセスを提供する構造化されたフォーマットのデータが含まれる。データストレージ(データ記憶)を構造化すると、データを取り出す際に、構造化されないデータストレージによるよりも効率が高められる。インデクシング(指標付け、索引作業)および他の編成手法も適用することができる。データの間の関係も、データと共に記憶し、データの価値を高めることができる。
データベース開発の初期には、ユーザは、一般に、「生データ(未加工データ、原資料)」またはデータベースに入力されたとおりに表示されるデータを見ることになる。より効率的な形でデータをフォーマットし、操作し、表示できるようにする手法が、ついに開発された。これによって、たとえば、ユーザが、データに数学演算子を適用することが、さらにはレポートを作成することが可能になった。ビジネスユーザは、個々の売上だけを含むデータベース内のデータから、「総売上」などの情報にアクセスすることができるようになった。使いやすい利用者本位のフォーマットでのデータの取り出しおよび表示をさらに容易にするために、ユーザインターフェースの開発が続けられた。ユーザは、ついに、個々の売上からの総売上などのデータの様々なビュー(視察)により、データベース内の生データから追加情報(付加情報)を得ることができることを、高く評価するようになった。この追加データを探り出すことを、「データマイニング(大量のデータからある傾向を取り出すこと)」と称し、これによって「メタデータ」(すなわち、データに関するデータ;例えばデータを管理するための情報)が作られる。データマイニングを用いると、生データから追加情報を抽出できるようになる。これは、情報が、データベースの生入力データだけから生じるものを超えて、ビジネス上の売上および生産高の説明を見つけられるので、ビジネスにとって特に有用である。
このように、データ操作によって、非常に重要な情報を生データから抽出できるようになる。このデータの操作は、記憶されたデータのデジタル的な性質のゆえに可能になる。膨大な量のデジタル化されたデータを、手作業によって試みた場合よりも大幅に高速に、色々な側面から見ることができる。データについての各新規なパースペクティブによって、ユーザが、データに関する追加の洞察を得ることが可能である。これは、それがあると商売を成功させ、あるいはそれがないと失敗させることができる非常に強力なコンセプト(基本構想)である。たとえば、傾向分析、因果分析、影響度調査、および予測を、データベースに入力された生データから割り出すことができ、それらの数値データおよび適時性は、デジタル化された情報に直観的に、使いやすい利用者本位にアクセスすることができることによって示される。
現在、データマイニング機能を高めるためのデータ操作は、どのようにデータを見て所望のパラメータを抽出するのが最適かを操作プログラムに指示するために、かなりのユーザの入力および知識を必要とする。これは、ユーザが、データの深い知識と、データから探り出すことができるものに関する洞察を有することを必要とする。この事前の知識がなければ、ユーザは、所望の追加情報(マイニングされたデータ)を取り出すために、データの正しいパースペクティブをたまたま見つけることを期待して、「いきあたりばったり」のやり方を試みなければならない。この手法は、通常、アドバンスドユーザ(上級ユーザ)の技量を超え、かつ/または上級ユーザにとって時間がかかりすぎる。記憶されたデータの量は、一般に膨大、かつユーザとの関係において非常に複雑であり、ユーザは、関連する貴重な情報についてデータをマイニングするために使用可能な戦略を効率的に展開することができない。したがって、ユーザが、どの特定の情報(すなわち「目標変数」)を抽出したいかを知っている可能性があるという事実にかかわらず、ユーザは、所望のマイニングされたデータ(mined data)を提供するデータのパースペクティブを見られるようにする的確な次元パラメータ(たとえば表示パラメータ)も知っていなければならない。
以下では、本発明のいくつかの態様を基本的に理解するために、本発明の簡単な概要を提供する。この概要は、本発明の広範な全体像ではない。本発明の主要な/重要な要素を特定すること、または本発明の範囲を線引きすることは、意図されていない。その唯一の目的は、後で示すより詳細な説明の前置きとして、単純化された形で本発明のいくつかの概念(コンセプト)を提示することである。
本発明は、全般的にはデータマイニングに関し、具体的には、ユーザ指定の入力に基づくデータパースペクティブの自動生成を実現するシステムおよび方法に関する。機械学習手法を活用して、所与の目標変数の条件付け変数の自動生成を実現する。これによって、たとえばピボットテーブルおよび/またはOLAP(多次元分析)キューブビューワなどのデータパースペクティブの、ユーザが望むパラメータおよびデータベースからの構成が可能になる。自動データパースペクティブ生成を実現することによって、本発明は、経験不足のユーザが、データベースから追加の貴重な情報を探り出すか、あるいは「データマイニングする(data mine)」ことを可能にする。本発明は、所与の目標変数の最良の目標変数プレディクタ(predictor:予測の判断材料)を決定し、分析し、これらを使用して、目標変数に関する情報をユーザに伝達するのを容易にする。本発明は、目標変数プレディクタとして使用される連続変数および離散変数を自動的に離散化(discretize)して、その細かさ(granularity;粒度、精度)を確立し、ユーザへの情報伝達の質を高める。
本発明の他の実例では、ユーザが、複雑さパラメータ(complexity parameter)を指定して、最良の目標変数プレディクタおよびその複雑さのセット(たとえば、条件付け変数の複雑さ)を決定する際のデータパースペクティブの自動生成を容易にすることもできる。また、本発明は、データパースペクティブの条件付け変数(すなわち、目標変数プレディクタ)を調整して、最適のビューを提供し、かつ/またはデータパースペクティブの生成を導き/制御するためにユーザからの制御入力を受け入れる。したがって、本発明は、初心者ユーザでも最大の最も複雑なデータベースから素早く情報をマイニングできるようにする、強力で直観的な手段を提供する。
上述したまた関連する目的を達成するために、本発明のいくつかの例示的な態様を、以下の説明および添付図面に関して本明細書で説明する。しかし、これらの態様は、本発明の原理を用いてできる様々なタイプの少数の例にすぎず、本発明は、そのような態様および同等物のすべてを含むことが意図されている。本発明の他の長所および新規の特徴は、添付図面と併せて考慮される時の本発明の以下の詳細な説明から明白になる。
本発明を、図面を参照してこれから説明するが、図面では、同符号が、図面全体を通じて同様な要素を指すのに使用される。以下の説明で、説明のために、本発明の完全な理解を提供するために多数の特定の詳細を示す。しかし、本発明を、これらの特定の詳細なしで実践できることは明白であろう。他の場合に、本発明の説明を容易にするために、周知の構造およびデバイスはブロック図形式で示した。
本明細書で使用される用語「コンポーネント」(component)は、ハードウェア、ハードウェアおよびソフトウェアの組合せ、ソフトウェア、または実行中のソフトウェアのいずれであれ、コンピュータ関連のエンティティー(要素、実体)を指すことが意図されている。たとえば、コンポーネントは、プロセッサで動作中のプロセス、プロセッサ、オブジェクト、実行可能ファイル、実行のスレッド、プログラム、および/またはコンピュータとすることができるが、これらであることに制限はされない。例として、サーバで動作中のアプリケーションとサーバの両方を、コンピュータコンポーネントとすることができる。1つまたは複数のコンポーネントが、1つのプロセスおよび/または実行のスレッドに常駐することができ、1つのコンポーネントが、1つのコンピュータにローカライズされ、かつ/または複数のコンピュータの間で分散されることができる。「スレッド」(thread; 発言とそれに対するコメントからなる一連のメッセージ群)は、オペレーティングシステムカーネルが実行についてスケジューリングする、プロセス内のエンティティー(要素、実体)である。当業者に周知のように、各スレッドは、スレッドの実行に関連する揮発性データである関連する「コンテキスト」(文脈)を有する。スレッドのコンテキストに、そのスレッドのプロセスに属するシステムレジスタの内容および仮想アドレスが含まれる。したがって、スレッドのコンテキストを含む実際のデータは、そのスレッドが実行されたとき変化する。
本発明は、データベースのデータマイニングを容易にするデータパースペクティブを自動的に生成することによって、ユーザを支援するシステムおよび方法を提供する。本発明の1つの実例では、ユーザが、関心のあるデータを選択し、目標変数、集約関数、および結果のテーブルがどれほど複雑にならなければならないかを決定する「複雑さ」パラメータを指定する。次に、本発明は、機械学習手法を使用して、たとえば、Microsoft Excel商標のスプレッドシート(表計算)ピボットテーブルのトップセットおよび左セット(ピボットテーブルは、関心を持ったデータの所望のビューまたは「パースペクティブ」を得るためにスプレッドシートおよび/またはデータベーステーブル内のデータの選択された列および行をユーザが再編成し、要約できるようにするデータ表示の道具である)など、どの条件付け変数をデータパースペクティブに含めるかを特定する。さらに、これらの変数のそれぞれの細かさを、連続変数および離散変数の両方の自動的離散化によって決定する。連続変数の範囲は、自動的に査定され、最適の変数範囲のために新しい代表変数が割り当てられる。これによって、本発明は、データの最良のビュー/パースペクティブを、目標変数に関する最良のプレディクタ/条件付け変数と共に提供できるようになる。同様に、本発明は、OLAPキューブなどのような複数次元(プレディクタ/条件付け変数)を提供するのにも使用することができる。OLAPキューブは、素早く、かつ信頼性があり、対話型のプロセスを介して情報への洞察を可能にする集約データの多次元ビューである。
図1に、本発明の一実施形態による、自動データパースペクティブ生成システム100のブロック図を示す。自動データパースペクティブ生成システム100は、入力データ104を受け取り、データベース106にアクセスするデータパースペクティブ生成コンポーネント102が含まれる。データパースペクティブ生成コンポーネント102は、出力データ108を自動的に生成し、この出力データ108には、ピボットテーブルおよび/またはOLAPキューブならびに類似物が含まれるが、これに制限はされない。本発明の他の実例を、所与の目標変数に関するプレディクタ/条件付け変数の自動生成ソースとして使用することもできる。したがって、本発明は、完全なピボットテーブルおよび/またはOLAPキューブならびに類似物を完全には生成しない(すなわち、集約関数を使用しない)システムで使用することができる。入力データ104は、たとえば目標変数および関心を持ったデータなどの情報を提供する。これらのパラメータは、本発明が目標変数を最もよく予測する条件付け変数を自動的に分析し、生成することを可能にする。データパースペクティブ生成コンポーネント102は、データベース106にアクセスして、入力データ104に基づくデータパースペクティブ生成に使用される関連データを取り出す。入力データ104は、一般に、データパースペクティブを生成するのに使用されるパラメータを選択するユーザ110から発する。
当業者は、オプションの他のデータソース112によって表されるように、本発明によって追加のデータおよびソースを使用できることを十分理解することができる。他のデータソース112は、入力データ104におよび/またはデータパースペクティブ生成コンポーネント102にパラメータを供給することができる。他のデータソース112に、環境コンテキストデータ(たとえば、ユーザコンテキスト環境)、ユーザプロファイルデータ、総合的なシステムユーティリティ情報(たとえば、経費節約対策に向けて結果を必ずゆがめるように指定されたシステム)、使用可能な代替データベースデータ(たとえば、目標変数のよりよいプレディクタを提供できる代替ソースからのデータの選択および/または取出に関する分析情報)、ならびに類似物を含めることができるが、これに制限はされない。
本発明の他の実例では、ユーザ110が、データパースペクティブ生成コンポーネント102と対話し、自動データパースペクティブ生成に関するユーザ制御/フィードバックを提供することができる。たとえば、ユーザ110は、データパースペクティブが構成される前に、自動的に選択された条件付け変数を再検討し、調整し、かつ/または拒否することができる。適当なデータベース選択、データソース、および/または連続条件付け変数の範囲の適当さならびに類似物などの追加の制御/フィードバックも、本発明によって使用することができる。これらの例は、例示であることだけを意味し、本発明の範囲を制限することを意味しない。
図2を参照すると、本発明の態様による、自動データパースペクティブ生成システム200のもう1つのブロック図が示されている。自動データパースペクティブ生成システム200は、データパースペクティブ生成コンポーネント202からなり、データパースペクティブ生成コンポーネント202は、ユーザ208から入力データ210から220を受け取り、入力データ210から220およびデータベース222に基づいて出力データ224を自動的に生成する。入力データ210から220は、本発明のこの実例では、関心を持ったデータ210、目標変数212、複雑さパラメータ214、ユーティリティパラメータ216、集約関数218、および他の入力データ220からなる。通常、ユーザ208が、入力データ210から220を供給するが、本発明の他の実例は、ユーザ208以外のソースから入力データ210から220を受け入れることができる。同様に、本発明の一部の実例は、入力データ210から220によって表されるデータのすべてを必要とはしない。本発明の諸実例は、入力データとして関心を持ったデータ210および目標変数212だけを用いて適当に機能する。本発明のこれらの実例は、入力データ複雑さパラメータ214として、デフォルトの固定された複雑さパラメータを前提とし、かつ/または内部でおよび/または外部で生成された動的複雑さパラメータを使用することができる。同様に、ユーティリティパラメータ216を、オプションの入力データとすることができ、かつ/またはユーザプリファレンスおよび/またはユーザプロファイルなどに基づいて内部で生成することができる。本発明の他の実例は、出力データ224として条件付け変数を生成し、したがって、集約関数218を使用も/要求もしない。集約関数218は、たとえば、ピボットテーブルの合計関数など、データパースペクティブの構成中に使用される。他の入力データ220に、環境データ、ユーザプロファイルデータ、ユーザプリファレンス、および総合的なシステム機能目標ならびに類似物を含めることができるが、これに制限はされない。
データパースペクティブ生成コンポーネント202は、変数決定コンポーネント204およびデータパースペクティブビルダコンポーネント206からなる。本発明の通常の実例では、変数決定コンポーネント204は、関心を持ったデータ210、目標変数212、および複雑さパラメータ214を受け取る。変数決定コンポーネント204は、これらの入力を使用して、データベース222に基づいて、目標変数212の最良のプレディクタ/条件付け変数を特定し、決定する。変数決定コンポーネント204は、特定された連続条件付け変数の範囲を含む条件付け変数の細かさも自動的に決定する。変数決定コンポーネント204は、機械学習手法を使用して、目標変数212の最良のプレディクタを見つけるのを容易にする。データパースペクティブビルダコンポーネント206は、選択された条件付け変数を受け取り、これらの条件付け変数、データベース222、および集約関数218に基づいてデータパースペクティブを構成する。データパースペクティブビルダコンポーネント206は、出力データ224としてデータパースペクティブを出力する。データパースペクティブは、ピボットテーブルおよび/またはOLAPキューブならびに類似物とすることができるが、これに制限はされない。本発明の他の実例では、データパースペクティブビルダコンポーネント206が、オプションであり、出力データ224が、変数決定コンポーネント204からの特定された条件付け変数からなり、集約関数218の使用が否定される。
変数決定コンポーネント204は、条件付け変数特性入力を使用して、条件付け変数の特定を制御し/これに影響することができる。本発明の他の実例は、これらの条件付け変数特性入力を使用しない。この入力に、複雑さパラメータ214、ユーティリティパラメータ216、および類似物が含まれる。条件付け変数特性入力は、変数決定コンポーネント204によって、その機械学習プロセスで使用されて、データパースペクティブに所望の特性が組み込まれる。この特性には、データパースペクティブの複雑さ、データパースペクティブのユーティリティ、および類似物が含まれるが、これに制限はされない。当業者は、本発明の範囲内で他の特性を組み込めることを理解することができる。
図3に移ると、本発明の態様による、自動データパースペクティブ生成システム300のもう1つのブロック図が示されている。自動データパースペクティブ生成システム300は、データパースペクティブ生成コンポーネント302からなり、データパースペクティブ生成コンポーネント302は、入力データ304を受け取り、入力データ304およびデータベース(図示せず)に基づいて、出力データ306を自動的に生成する。入力データ304には、目標変数および関心を持ったデータが含まれるが、これに制限はされない。データパースペクティブ生成コンポーネント302は、オプションのデータ前置フィルタコンポーネント308、変数決定コンポーネント310、およびデータパースペクティブビルダコンポーネント312からなる。オプションのデータ前置フィルタコンポーネント308は、入力データ304を受け取り、たとえばオプションのユーザコンテキストデータ320に基づいて、入力データ304のフィルタリングを実行する。これによって、処理の前に入力データ304を条件付けて、データパースペクティブ生成コンポーネント302がどのデータをどのように使用するかにおける柔軟性を可能にすることができるようになる。変数決定コンポーネント310は、変数オプティマイザコンポーネント314、決定木ジェネレータコンポーネント316、および決定木エバリュエータ(評価)コンポーネント318からなる。変数オプティマイザコンポーネント314は、データ前置フィルタコンポーネント308からオプションでフィルタリングされた入力データを受け取り、完全な決定木ラーナー(learner)などの機械学習手法を使用することによって、目標変数に最良のプレディクタを特定する(決定木は、木のすべてのパスが、その木で使用されるすべての予測変数(プレディクタ変数)の値の範囲の独自のセットを定義し、これらの変数の値のすべての組合せがその木に含まれる場合に、完全である)。したがって、本発明のこの実例では、予測変数なし(プレディクタがない自明な決定木に対応する)から開始して、変数決定コンポーネント310が、最長マッチで、次のように予測変数およびその細かさの最良のセットを決定する。決定木ジェネレータコンポーネント316は、変数オプティマイザコンポーネント314から初期データを受け取り、現在の最良の決定木より1つ多い予測変数または現在の最良の決定木の変数のもう1つの分割のいずれかを用いて完全な決定木を生成する。この代替の完全な決定木のスコアは、決定木エバリュエータコンポーネント318によって評価される。変数オプティマイザコンポーネント314は、決定木スコアを受け取り、その特定の木が現在最高のスコアを有する完全な決定木であるかどうかに関する決定を行う。変数決定コンポーネント310は、条件付け変数およびその細かさの最高スコアのセットが見つかるまで、決定木の作成、評価、および最適決定を継続する。データパースペクティブビルダコンポーネント312は、最適の条件付け変数を受け取り、集約関数322を使用して、データパースペクティブを自動的に構成し、このデータパースペクティブが、出力データ306として出力される。
上記の例のシステムは、本発明によって提供される処理を使用するのに使用される。これらの処理は、経験不足のユーザによる場合であっても効率的なデータマイニングを可能にする。本発明は、データパースペクティブの自動生成を実現する機械学習手法を使用することによって、これを達成する。これらの手法が本発明にどのように組み込まれるかをよりよく理解するために、たとえばピボットテーブルなど、様々なデータパースペクティブのコンパイルコンポーネントを理解することが役に立つ。ピボットテーブルは、データベースからの大量のデータを効率的に組み合わせ、比較する、対話型のテーブルである。ピボットテーブルの行および列を操作して、関心を持った領域の詳細の表示を含めて、ソースデータの様々な異なる要約を見ることができる。これらのデータパースペクティブは、ユーザが関連する総計を分析したい時、特に、合計すべき数字の長いリストがあり、各数字に関する複数の事実を比較することが望ましいとき使用することができる。
ピボットテーブルのより技術的な説明は、他の変数の値に条件付けながら、目標変数の集約関数をユーザが見られるようにするテーブルである。条件付け変数は、ピボットテーブルでは2つのセット、トップセットおよび左セットに分類される。このテーブルには、トップセットの変数のドメインのクロス乗積の値のすべての別個のセットの列が含まれる。このテーブルには、左セットの変数のドメインのクロス乗積の値のすべての別個のセットの行が含まれる。たとえば、トップセットが、それぞれが2つおよび3つの状態を有する2つの離散変数からなる場合に、6つの列を有するテーブルがもたらされ、左セット変数によって定義される行も同様である。このテーブル(表)のすべてのセル(マス目)に、データがそのセルに対応するトップセットおよび左セットの両方の値の所与のセットに制限される時の目標変数の集約関数が含まれる。
たとえば、地域別、販売代理人別、および月別の売上を含む売上データが存在すると仮定する。このデータのサブセットは、図4に示されているもののようになり、図4には、データベースからのデータを示す表400が示されている。このデータの変数(すなわち列)は、地域402、販売代理人404、月406、および売上408である。売上408を目標変数として使用し、Sum()を集約関数として使用することによって、ピボットテーブルを使用して、ピボットテーブルのトップセットの条件付け変数として地域402を選択し(トップセットに単一の変数である地域402が含まれることを指定し)、テーブルの左セットの条件付け変数として販売代理人404を選択し(すなわち、左セットに単一の変数である販売代理人404が含まれることを指定し)、集約関数にSum()をセットすることによって、各地域の各販売代理人に関する売上合計を見ることができる。これによって、図5に示された表500が作られるが、図5には、所与の目標変数(たとえば売上)に関するデータパースペクティブ(たとえばピボットテーブル)が示されている。
上記で示したものなどの単純なデータサンプルについて、ピボットテーブルで使用される適当な条件付け変数(すなわち予測変数)を選択することは、簡単である可能性がある。選択すべき多数の変数および/または多数のデータレコードを有するより複雑な状況では、それがはるかに困難になる。本発明は、部分的に、これに関する2つの関連する問題を解決する。下記で詳細に説明するように、本発明は、条件付け変数およびこれらの変数のそれぞれの詳細(または細かさ)を自動的に選択する。
本質的に、本発明は、まず、入力変数およびこれらの変数の細かさのセットを決定する。次に、入力変数およびそれに対応する細かさのあらゆるセットについて、本発明は、たとえば対応する完全な決定木を評価することによって、ピボットテーブルを生成するためにそのセットの品質を決定する。完全な決定木は、木のすべてのパスが、その木で使用されるすべての予測変数の値の範囲の独自のセットを指定し、これらの変数の値の組合せのすべてがその木に含まれるものとして定義される。たとえば、図6に、完全な決定木のグラフ600が示されている。この例では、3つの入力変数A、B、およびCがあり、AおよびBは2値変数であり、Cは3値変数である。この例では、2進データの状態が、0および1の値によって表される。しかし、0および1の値は、代表にすぎず、当業者は、これらの状態を離散エンティティおよび/または連続エンティティの範囲とすることができることを十分理解するであろう。完全な決定木は、変数A、B、およびCの値の2×2×3=12個の異なる可能な組合せのそれぞれの別々の葉も備える。グラフ600からわかるように、1つ(多数の可能なもののうちの)の完全な決定木は、変数Aでのルート分割、次のレベルでは変数Bでの分割、第3レベルで変数Cでのすべての分割を有することができる。破線602は、可能な組合せ#3が最高の評価スコアを有する、可能な最適評価パスを表す。
候補予測変数およびそれに対応する細かさは、「標準」決定木ヒューリスティック(heuristic;試行錯誤により問題を解決する方法)を使用して同時に特定される。したがって、任意の所与の決定木について、予測変数は、木で分割されたすべての変数として木によって定義され、細かさは、分割点自体によって定義される。たとえば、ある木が、X=2が一方の分岐に進み、X=1または3が他方の分岐に進む3値変数Xでの分割を含み、この木が、一方の分岐でY<5、他方の分岐でY≧5を有する連続変数Yでの分割を含むと仮定する。この木は、両方が離散的である2つの「新しい」変数X’およびY’を定義し、X’は、2つの値「2」および「1または3」を有し、Y’は、2つの値「<5」および「≧5」を有する。たとえば、この木に、X=1が一方の分岐に進み、X=2または3が他方の分岐に進む、Xでの新しい分割が追加される。この新しい木は、3つの値(1、2、および3)を有する新しい変数X”を定義する。したがって、予測変数の状態は、分割によって定義される範囲の交差によって定義される。したがって、単一の決定木は、予測変数および対応するこれらの変数の値のセットに変換される。
本発明によって使用されるヒューリスティックは、単一の決定木を学習し、その後、その決定木の部分木を検索して、予測変数および細かさのよいセットを見つけることを可能にする。一般に検討される最初の部分木は、ルートノードであり、これは、予測変数なしに対応する。この木から開始して、「次」に検討される木は、フルの木から単一の分割を追加することによって選択される。したがって、第1の木の後に、次に可能な唯一の木は、単一のルート分割を有する木である。追加できる複数の分割がある場合に、最良の予測変数および細かさスコアを有する(すなわち、対応する完全木スコアを評価する)木が使用される。現在の木の展開は、追加の分割によってスコアが増えない(または、現在の木がフルの木まで展開された)場合に停止する。
本発明の1つの実例では、ユーザは、単に(1)関心を持ったデータを選択し、(2)目標変数を指定し、(3)集約関数を指定し、(4)結果のテーブルがどれほど複雑でなければならないかを決定する「複雑さ」パラメータを指定する。その後、本発明が、機械学習手法を使用して、どの変数をトップセットまたは左セットに含めるかを特定する。さらに、これらの変数のそれぞれの細かさが、連続変数および離散変数の両方の自動離散化によって決定される。伝統的に、連続変数がトップセットまたは左セットのいずれかのメンバとして指定される場合に、データ内のその変数の別個の値のそれぞれが、別々のカテゴリ的状態として扱われる。たとえば、データに、変数「Age」が含まれ、データに98個の別個の年齢値がある場合に、伝統的なピボットテーブルは、98個の状態を有するカテゴリ変数としてAgeを扱う。「Age」をピボットテーブルの上(左)セットに追加した結果は、列(行)の数が98倍に増えることであるが、各個々の別個の年齢によってデータを見ることが有用である可能性は低い。本発明は、連続変数の興味深い範囲を自動的に検出し、これらの範囲に対応する新しい変数を作成する。たとえば、本発明は、Age>25またはAge≦25であるかどうかを知っていることが重要であることを決定することができ、この場合に、本発明は、その2つの値がこれらの範囲に対応する新しいカテゴリ的変数を作成し、この新しい変数をデータパースペクティブに挿入する。色などのカテゴリ的変数について、本発明の自動離散化は、状態を一緒にグループ化することができる。たとえば、3つの色、赤、緑、および青がある場合に、本発明は、赤対他の色がより興味深い(変換される)変数であることを検出し、それをピボットテーブルのトップセットまたは左セットのメンバとして使用することができる。
本発明の1つの実例は、トップセットと左セットのすべての変数を与えられれば、ピボットテーブルを目標変数に関する完全なテーブル(またはこれとと同等に完全な決定木)として解釈できるという事実を利用することによって動作する。この情況でどの変数が目標変数の予測に最適であるかを特定する標準的な学習アルゴリズムが存在する。たとえば、潜在的な予測変数がすべて離散変数である場合に、最長マッチの検索アルゴリズムを使用して、プレディクタを選択することができる。連続変数があるときは、検索アルゴリズムは、これらの変数の様々な離散化されたバージョンをプレディクタとして追加することを検討することもできる。同様に、検索アルゴリズムは、カテゴリ的変数の状態の様々なグループ化を検討することができる。
本発明のもう1つの実例は、次の非常に単純な検索アルゴリズムを使用して、プレディクタを特定する。まず、(標準)決定木を、標準的な最長マッチのアルゴリズムを使用して、目標変数について学習する。次に、その決定木を使用して、予測変数を最長マッチで追加する。決定木のすべての部分木が、予測変数の対応する離散化を伴う予測変数のセットを定義することに留意することが重要である。ルートノードだけからなる部分木から開始することによって、対応する変数の完全な決定木スコアが増えなくなるまで葉の子を含めることによって、部分木を最長マッチで展開する。この処理中に、特定の部分木が、完全でなくなる場合がある。この場合には、この木を、この段階で検討される変数について完全な木に展開する。
当業者は、完全な決定木スコアを多数の形で定義できることを理解することができる。本発明の1つの実例は、決定木へのデータのあてはめ(たとえば、ターゲットの所与のプレディクタの条件対数尤度によって測定される)と木に従って構成されるピボットテーブルの視覚的複雑さ(たとえば、予測変数の状態のクロス乗積によって与えられる、ピボットテーブル内のセルの個数によって測定される)とのバランスをとるスコアを使用する。完全な決定木スコアは、この形で、次のように定義される。
スコア=条件対数尤度−c×視覚的複雑さ;
ここで、cは、ユーザによって選択される「複雑さ」要因である。ユーザは、さらに、変数の数の閾値および/または結果のピボットテーブル内のセルの個数の閾値を指定することができる。
たとえば、図7に、本発明の態様による、学習された決定木を示すグラフ700を示す。まず、部分木は、単にノードA 702であり、これはプレディクタなしに対応する。この決定木は、葉B 704およびC 706からなる木を検討することによって展開される。この部分木は、対応する単一の2値プレディクタすなわち、状態「<25」および「≧25」を有するDAge(Ageの離散化されたバージョン)を有する。この部分木は、完全であるが、目標変数のプレディクタとしてDAgeを追加することによって完全な決定木スコアが改善されると仮定すると、ノードC 706が、展開について次に検討され、その結果、新しい葉ノードは、B 704、D 708、およびE 710になる。ここで、2つのプレディクタ:DAgeおよびGenderがある。この決定部分木は、完全ではないが、B 704の下にも(仮想の)Gender分割を追加することによって完全にすることができる。完全な決定木スコアが、DAgeだけよりこの2つのプレディクタによってよくなると仮定すると、D 708が展開され、その結果、部分木の葉は、B 704、F 712、G714、およびE 710になる。まだ2つのプレディクタがあるが、Ageの離散化が異なり、この部分木では、状態{<25,(25,65),≧65}を有する変数DAge2が定義される。やはり、対応する(仮想の)完全な決定木が構成され、プレディクタDAge2およびGenderに関する完全な決定木スコアが、プレディクタDAgeおよびGenderのスコアよりよい場合には、DAge2がその代わりに使用される。この例では、必ず展開される単一の葉ノードがある。複数のはノードがある場合には、各展開を前と同様にスコアリングし、完全な決定木スコアを最もよく改善する展開(存在する場合に)が、次にコミットされる。
本発明のこの実例の最終的な態様は、予測変数のセットを与えられて、トップセットに含める変数および左セットに含める変数を判断することである。この選択は、チャートが視覚的に最も魅力的になるように行うことができる。たとえば、結果のピボットテーブルの列の数が行の数とほぼ等しくなるように変数を配置することができる。
当業者は、本発明を使用して、OLAPキューブ内の次元階層などのデータパースペクティブの他の態様を自動的に構成できることを十分理解するであろう。具体的に言うと、変数のグループ化および離散化によって、この階層が定義される。
図示し、上記で説明した例示的システムに鑑みて、本発明に従って実施することができる方法論は、図8から図11の流れ図を参照してよりよく理解される。説明を単純にするために、この方法論を、一連のブロックとして図示し、説明するが、本発明によれば、一部のブロックを、図示され、本明細書で説明するものと異なる順序でおよび/または他のブロックと同時に行うことができるので、本発明がブロックのこの順序によって制限されないことを理解し、認識されたい。さらに、図示のブロックのすべてが、本発明による方法論を実施するのに必要なわけではない。
本発明を、プログラムモジュールなど、1つまたは複数のコンポーネントによって実行されるコンピュータ実行可能命令の全般的な文脈で説明することができる。一般に、プログラムモジュールには、特定のタスクを実行するか特定の抽象データ型を実装する、ルーチン、プログラム、オブジェクト、データ構造などが含まれる。通常、プログラムモジュールの機能性を、本発明の様々な実例で望み通りに組み合わせまたは分散させることができる。
図8に、本発明の態様による自動データパースペクティブ生成を容易にする方法800の流れ図が示されている。方法800は、目標変数、関心を持ったデータ、およびオプションの集約関数を入力すること804によって開始802される。集約関数は、データパースペクティブの構成に使用されるが、本発明は、データパースペクティブの実際の構成の前であっても、処理を実行し、条件付け変数を使用可能にすることができる。したがって、集約関数は、所与のターゲットの条件付け変数の決定に必要ではない。次に、機械学習手法の使用を介して、目標変数を最もよく予測する条件付け変数を自動的に決定する806。機械学習手法に、決定木学習、人口の神経回路網、ベイズ(Bayesian)学習、インスタンスベース(事例ベース)学習および類似物を含めることができるが、これに制限はされない。本質的に、機械学習手法を使用して変数およびその細かさの最適のセットが決定されるまで、提案された条件付け変数のそれぞれが評価される。これは、本発明の他の実例でユーザが影響することのできる自動化されたステップである。ユーザは、選択された条件付け変数、その特性(たとえば、詳細、細かさ、範囲など)、および/またはこれらの処理の別の態様を再検討し、これらの要素を制限し、変更し、かつ/または再初期化することによってこれらの要素の決定に影響することを選択することができる。条件付け変数が自動的に選択されたならば、選択された条件付け変数および集約関数を使用して、データパースペクティブを生成する808。このデータパースペクティブには、ピボットテーブルおよび/またはOLAPキューブならびに類似物を含めることができるが、これに制限はされない。上述したように、本発明の他の実例では、データパースペクティブの実際の生成が、オプションであり、本発明は、データパースペクティブを生成せずに、条件変数だけを出力することができる。実際のデータパースペクティブのビューを、本発明によって自動的に調整することができ810、この流れが終了する812。機械学習手法および/またはユーザインターフェース制限ならびに類似物が、結果の最初のデータパースペクティブビューに適用される。これによって、ユーザが見るためにデータパースペクティブの質をさらに高めることができ、本発明によって提供される自動化された処理によってデータベースからマイニングされる情報を広める際の価値が高まる。
図9を参照すると、本発明の態様による、自動データパースペクティブ生成を容易にする方法900のもう1つの流れ図が示されている。この方法900は、所与の目標変数の最良のプレディクタ(すなわち条件付け変数)の特性の自動決定および連続プレディクタの興味深い範囲を表す新しい変数の生成の処理を示す。方法900は、選択された条件付け変数を供給すること904によって開始902される。選択された条件付け変数は、上述した従来の機械学習手法によって選択されており、離散変数と連続変数の両方を含めることができる。次に、変数の自動離散化を介して、選択された条件付け変数の細かさを決定する906。変数の離散化は、完全な決定木処理および類似物などの機械学習手法を使用することができる。機械学習手法から得られる最高のスコアを有する離散化された変数が、データパースペクティブ生成のために選択される。選択された条件付け変数に、連続変数が含まれる場合に、その連続変数の興味深い範囲を検出する908。関心を持たれる範囲に、情報内容密度が高い範囲、ユーザが好む範囲(たとえばユーザ制御入力)、可能性/尤度が高い範囲、および/または効率的なデータビュー範囲ならびに類似物を含めることができるが、これに制限はされない。範囲が選択されたならば、本発明は、その範囲に対応する新しい変数を作成することができる910。カテゴリ的変数に関して、自動離散化ステップは、データパースペクティブでの利用について状態を一緒にグループ化することができる。新しい条件付け変数(ある場合に)および/または条件付け特性を出力し912、この流れが終了する914。
図10に移ると、本発明の態様による、自動データパースペクティブ生成を容易にする方法1000のもう1つの流れ図が示されている。方法1000は、目標変数、関心を持ったデータ、変数選択パラメータ、およびオプションの集約関数を入力すること1004によって開始される1002。前に上記で指摘したように、集約関数は、データパースペクティブの構成に使用される。しかし、本発明は、データパースペクティブを実際に構成する前に、処理を実行し、条件付け変数を使用可能にすることができる。したがって、集約関数は、所与のターゲットの条件付け変数の決定に必要ではない。本発明のこの実例では、条件付け変数の選択が、変数選択パラメータをアカウントしながら目標変数を最もよく予測する変数を、機械学習手法によって決定することに基づく1006。使用される機械学習手法に、たとえば、完全な決定木学習処理を含めることができる。変数選択パラメータに、複雑さおよび/またはユーティリティならびに類似物などのパラメータを含めることができるが、これに制約はされない。したがって、ユーザは、複雑さパラメータおよび/またはユーティリティパラメータを入力することによって、自動化されたデータパースペクティブ生成処理に影響することができる。機械学習処理では、条件付け変数の最良のプレディクタ態様だけではなく、複雑さおよび/またはユーティリティならびに類似物などの選択パラメータもアカウントする。したがって、本発明のこの実例では、予測変数なし(プレディクタがない自明な決定木に対応する)から開始して、最長マッチで決定を行って、次のように予測変数およびその細かさの最良のセットを選択する。最初のデータが入力され、現在の最良の決定木より1つ多い予測変数または現在の最良の決定木の変数のもう1つの分割のいずれかを用いて完全な決定木を生成する。この代替の完全な決定木のスコアを評価して、その特定の木が現在の最高スコアの完全な決定木であるかどうかに関して判定する。条件付け変数およびその細かさの最高スコアを有するセットが見つかるまで、決定木の構成、評価、および最適判定を継続する。条件付け変数が、その特性と共に決定されたならば、その変数およびその特性を使用してデータパースペクティブを生成し1008、この流れは終了する1010。本発明を実施するために、データパースペクティブの実際の生成が必要でないことに留意されたい。本発明を利用して、条件付け変数だけを供給することができる。
図11を見ると、本発明の態様による、自動データパースペクティブ生成を容易にする方法1100を示すもう1つの流れ図が示されている。方法1100は、決定木機械学習手法によって使用されるヒューリスティック処理である。方法1100は、まず最長マッチのアルゴリズムを介して目標変数の標準決定木を学習すること1104によって開始される1102。現在の最良の標準部分木を、ルートノードとして初期化し、点数付けする1106。現在の最良の標準部分木のスコアを、このスコアとしてセットする1107。現在の最良の標準部分木が、学習された標準決定木と等しいかどうかに関する判定を行う1108。もし、そうである場合には、この流れが1110で終了する。そうでない場合には、最良の代替スコアにマイナス無限大をセットする1112。次に、現在の最良の部分木より1つ多い分割を有する代替部分木を作成し、学習された標準決定木に適合させる1114。代替部分木から代替の完全な部分木を構成し1118、点数付けする1120。代替の完全な部分木スコアが最良の代替の完全な部分木スコアより大きいかどうかに関する判定を行う1122。大きい場合には、最良の代替(非完全)部分木を、代替(非完全)部分木と等しくなるようにセットし、最良の代替スコアを、代替スコアと等しくなるようにセットし1124、その後、検討すべき「1つ多い分割」代替案がまだあるかどうかに関する判定を行う1126。そうである場合には、次の代替案を作成し1114、上述したように継続する。検討すべき代替案がもう存在しない場合には、最良の代替スコアが最良の標準部分木スコアを超えるかどうかに関する判定を行う1128。そうでない場合には、この流れが終了する1110。超える場合には、最良の規則的部分木を、現在の最良の代替規則的部分木と等しくなるようにセットし、最良の規則的部分木スコアを、最良の代替スコアと等しくなるようにセットする1130。この流れは、その後、現在の最適の標準部分木が学習された標準決定木と等しいかどうかの判定1108に戻り、上述したように継続することによって継続される。このヒューリスティック処理を使用して、条件付け変数とその範囲および/または細かさならびに類似物の選択を評価することができる。
本発明の様々な態様を実施するための追加の文脈を提供するために、図12および以下の説明は、本発明の様々な態様を実施することができる適切なコンピューティング環境1200の短い全般的な説明を提供することを意図されたものである。上記では、ローカルコンピュータおよび/またはリモートコンピュータで動作するコンピュータプログラムのコンピュータ実行可能命令の全般的な文脈で本発明を説明したが、当業者は、本発明を他のプログラムモジュールと組み合わせて実施できることを十分理解するであろう。一般に、プログラムモジュールには、特定のタスクを実行し、かつ/または特定の抽象データ型を実施する、ルーチン、プログラム、コンポーネント、データ構造などが含まれる。さらに、単一プロセッサまたはマルチプロセッサのコンピュータシステム、ミニコンピュータ、メインフレームコンピュータ、ならびにパーソナルコンピュータ、ハンドヘルドコンピューティングデバイス、マイクロプロセッサベースおよび/またはプログラマブルの家電、ならびに類似物を含む、それぞれが1つまたは複数の関連するデバイスと機能的に通信することができる、他のコンピュータシステム構成と共に本発明を実践できることを、当業者は十分理解するであろう。本発明の例示された態様は、通信ネットワークを介してリンクされたリモート処理デバイスによってあるタスクが実行される分散コンピューティング環境でも実践することができる。しかし、本発明の、すべてではないとしてもいくつかの態様は、独立型コンピュータで実践することができる。分散コンピューティング環境では、プログラムモジュールを、ローカルメモリ記憶装置および/またはリモートメモリ記憶装置に配置することができる。
本明細書で使用される用語「コンポーネント」は、ハードウェア、ハードウェアおよびソフトウェアの組合せ、ソフトウェア、または実行中のソフトウェアのいずれであれ、コンピュータ関連の実体を指すことが意図されている。たとえば、コンポーネントは、プロセッサで動作中のプロセス、プロセッサ、オブジェクト、実行可能ファイル、実行のスレッド、プログラム、およびコンピュータとすることができるが、これらに制限はされない。例として、サーバで動作中のアプリケーションおよび/またはサーバを、コンポーネントとすることができる。さらに、コンポーネントに、1つまたは複数のサブコンポーネントを含めることができる。
図12を参照すると、本発明の様々な態様を実施する例示的なシステム環境1200に、普通のコンピュータ1202が含まれ、このコンピュータ1202に、処理ユニット1204、システムメモリ1206、およびシステムメモリを含む様々なシステムコンポーネントを処理ユニット1204に結合するシステムバス1208が含まれる。処理ユニット1204は、任意の市販のまたはメーカ独自のプロセッサとすることができる。さらに、処理ユニットを、並列に接続できるものなど、複数のプロセッサから形成されるマルチプロセッサとして実施することができる。
システムバス1208は、メモリバスまたはメモリコントローラ、周辺バス、ならびにたとえばPCI、VESA、マイクロチャネル、ISA、およびEISAなどの様々な普通のバスアーキテクチャのいずれかを使用するローカルバスを含む、複数のタイプのバス構造のいずれかとすることができる。システムメモリ1206に、読取専用メモリ(ROM)1210およびランダムアクセスメモリ(RAM)1212が含まれる。スタートアップ中などにコンピュータ1202内の要素の間で情報を転送するのを助ける基本ルーチンを含む基本入出力システム(BIOS)1214が、ROM 1210に記憶される。
コンピュータ1202に、たとえば、ハードディスクドライブ1216、たとえば取外し可能ディスク1220から読み取るかこれに書き込む磁気ディスクドライブ1218、およびたとえばCD−ROMディスク1224または他の光ディスクから読み取るかこれに書き込む光ディスクドライブ1222を含めることができる。ハードディスクドライブ1216、磁気ディスクドライブ1218、および光ディスクドライブ1222は、それぞれハードディスクドライブインターフェース1226、磁気ディスクドライブインターフェース1228、および光ドライブインターフェース1230を介してシステムバス1208に接続される。ドライブ1216から1222およびこれらに関連するコンピュータ読取可能媒体は、データ、データ構造、コンピュータ可読命令などの不揮発性ストレージをコンピュータ1202に提供する。上記のコンピュータ可読媒体の説明では、ハードディスク、取外し可能な磁気ディスクおよびCDに言及したが、磁気カセット、フラッシュメモリカード、デジタルビデオディスク、ベルヌーイカートリッジ、ならびに類似物などのコンピュータによって可読の他のタイプのメディアも、例示的なオペレーティング環境1200で使用することができ、さらに、そのようなメディアのいずれにも、本発明の方法を実行するコンピュータ実行可能命令を含めることができることを、当業者は十分理解するであろう。
オペレーティングシステム1232、1つまたは複数のアプリケーションプログラム1234、他のプログラムモジュール1236、およびプログラムデータ1238を含む複数のプログラムモジュールを、ドライブ1216から1222およびRAM 1212に記憶することができる。オペレーティングシステム1232は、適切なオペレーティングシステムのいずれかまたはオペレーティングシステムの組合せとすることができる。たとえば、アプリケーションプログラム1234およびプログラムモジュール1236に、本発明の態様による自動データパースペクティブ生成方式を含めることができる。
ユーザは、キーボード1240およびポインティングデバイス(たとえばマウス1242)などの1つまたは複数のユーザ入力デバイスを介して、コンピュータ1202にコマンドおよび情報を入力することができる。他の入力デバイス(図示せず)に、マイクロホン、ジョイスティック、ゲームパッド、衛星パラボラアンテナ、無線リモート、スキャナ、または類似物を含めることができる。上記および他の入力デバイスは、しばしば、システムバス1208に結合されたシリアルポートインターフェース1244を介して処理ユニット1204に接続されるが、パラレルポート、ゲームポート、またはuniversal serial bus(USB)などの他のインターフェースによって接続することができる。モニタ1246および他のタイプのディスプレイデバイスも、ビデオアダプタ1248などのインターフェースを介してシステムバス1208に接続される。モニタ1246のほかに、コンピュータ1202に、スピーカ、プリンタなどの他の周辺出力デバイス(図示せず)を含めることができる。
1つまたは複数のリモートコンピュータ1260への論理接続を使用してネットワーク化された環境でコンピュータ1202を動作させることができることを理解されたい。リモートコンピュータ1260は、ワークステーション、サーバコンピュータ、ルータ、ピアデバイス、または他の一般的なネットワークノードとすることができ、通常は、コンピュータ1202に関して説明した要素の多数またはすべてが含まれるが、図を簡潔にするために、図12にはメモリ記憶装置1262だけを示した。図12に示された論理接続に、ローカルエリアネットワーク(LAN)1264および広域ネットワーク(WAN)1266が含まれる。そのようなネットワーキング環境は、オフィス、会社全体のコンピュータネットワーク、イントラネット、およびインターネットで平凡なものである。
たとえば、LANネットワーキング環境で使用されたとき、コンピュータ1202は、ネットワークインターフェースまたはネットワークアダプタ1268を介してローカルネットワーク1264に接続される。WANネットワーキング環境で使用されたとき、コンピュータ1202は、通常、モデム(たとえば電話、DSL、ケーブルなど)1270を含むか、LAN上の通信サーバに接続されるか、インターネットなどのWAN 1266を介する通信を確立する他の手段を有する。モデム1270は、コンピュータ1202に関して内蔵または外付けとすることができるが、シリアルポートインターフェース1244を介してシステムバス1208に接続される。ネットワーク化された環境では、プログラムモジュール(アプリケーションプログラム1234を含む)および/またはプログラムデータ1238を、リモートメモリ記憶装置1262に記憶することができる。図示のネットワーク接続が、例示であり、本発明の態様を実行するとき、コンピュータ1202よび1260の間の通信リンクを確立する他の手段(たとえば、有線または無線の)を使用できることを理解されたい。
コンピュータプログラミングの技術の技量を有する者の実践に従って、本発明を、他の形で示されない限り、コンピュータ1202またはリモートコンピュータ1260などのコンピュータによって実行される行為および動作の記号表現に関して説明した。そのような行為および動作を、時々、コンピュータ実行されると称する。行為および記号表現された動作に、電気信号表現の結果の変換または変形を引き起こす、データビットを表す電気信号の処理ユニット1204による操作と、メモリシステム(システムメモリ1206、ハードドライブ1216、フロッピー(登録商標)ディスク1220、CD−ROM 1224、およびリモートメモリ1262を含む)内のメモリロケーションでデータビットを維持し、これによってコンピュータシステムの動作を再構成するか他の形で変更することならびに信号の他の処理が含まれることを理解されたい。そのようなデータビットが維持されるメモリロケーションは、そのデータビットに対応する特定の電気特性、磁気特性、または光学特性を有する物理的位置である。
図13は、本発明が相互作用することができる例のオペレーティング環境1300のもう1つのブロック図である。システム1300には、さらに、1つまたは複数のクライアント1302を含むシステムが示されている。クライアント1302は、ハードウェアおよび/またはソフトウェア(たとえば、スレッド、プロセス、コンピューティングデバイス)とすることができる。システム1300には、1つまたは複数のサーバ1304も含まれる。サーバ1304も、ハードウェアおよび/またはソフトウェア(たとえば、スレッド、プロセス、コンピューティングデバイス)とすることができる。サーバ1304は、たとえば、本発明を使用することによる変換を実行するスレッドを収容することができる。クライアント1302とサーバ1304の間の可能な通信の1つを、複数のコンピュータプロセスの間で送信されるように適合されたデータパケットの形とすることができる。システム1300には、クライアント1302とサーバ1304の間の通信を容易にするのに使用することができる通信フレームワーク1308が含まれる。クライアント1302は、クライアント1302にローカルに情報を記憶するのに使用することができる1つまたは複数のクライアントデータストア1310に接続される。同様に、サーバ1304は、サーバ1304にローカルに情報を記憶するのに使用することができる1つまたは複数のサーバデータストア1306に接続される。
本発明の1つの実例で、データパースペクティブ生成を容易にする複数のコンピュータコンポーネントの間で伝送されるデータパケットは、データベースからの目標変数のデータベースパースペクティブの少なくとも1つの条件付け変数を自動的に生成するために、データベースの目標変数を含むユーザ指定のデータを少なくとも部分的に使用する、データパースペクティブ生成システムに関連する情報から少なくとも部分的に構成される。
本発明のシステムおよび/または方法を、コンピュータコンポーネントおよび同様に非コンピュータ関連コンポーネントを容易にする自動データパースペクティブ生成で使用できることを理解されたい。さらに、当業者は、本発明のシステムおよび/または方法を、コンピュータ、サーバ、および/またはハンドヘルド電子デバイスならびに類似物を含むがこれに制限されない、膨大な数の電子関連テクノロジで使用可能であることを十分理解するであろう。
上述したものに、本発明の例が含まれる。もちろん、本発明の記述においてコンポーネントまたは方法のすべての考えられる組合せを記述することは不可能であるが、当業者は、本発明の多数のさらなる組合せおよび置換が可能であることを十分理解するであろう。したがって、本発明は、請求項の趣旨および範囲に含まれるそのような代替物(置換物)、修正形態(変更形態)、および変形形態のすべてを含むことが意図されている。さらに、用語「includes」が詳細な説明または請求項のいずれかで使用される範囲まで、そのような用語が、用語「comprising」が請求項で前後を接続する単語として使用されたとき「comprising」が解釈されるのと類似する形で包含的であることが意図されている。
本発明の態様による、自動データパースペクティブ生成システムを示すブロック図である。 本発明の態様による、自動データパースペクティブ生成システムを示すもう1つのブロック図である。 本発明の態様による、自動データパースペクティブ生成システムを示すもう1つのブロック図である。 本発明の態様による、データベースからの情報を示す表図である。 本発明の態様による、データベースからの所与の目標変数に関するデータパースペクティブを示す表図である。 本発明の態様による、完全な決定木を示すグラフ図である。 本発明の態様による、決定木を示すグラフ図である。 本発明の態様による、自動データパースペクティブ生成を容易にする方法を示す流れ図である。 本発明の態様による、自動データパースペクティブ生成を容易にする方法を示すもう1つの流れ図である。 本発明の態様による、自動データパースペクティブ生成を容易にする方法を示すもう1つの流れ図である。 本発明の態様による、自動データパースペクティブ生成を容易にする方法を示すもう1つの流れ図である。 本発明が機能することができる例示的オペレーティング環境を示す図である。 本発明が機能することができるもう1つの例示的オペレーティング環境を示す図である。
符号の説明
102 データパースペクティブ生成コンポーネント
104 入力データ
106 データベース
108 出力データ
110 ユーザ
112 他のデータソース
202 データパースペクティブ生成コンポーネント
204 変数決定コンポーネント
206 データパースペクティブビルダコンポーネント
208 ユーザ
210 関心を持ったデータ
212 目標変数
214 複雑さパラメータ
216 ユーティリティパラメータ
218 集約関数
220 他の入力データ
222 データベース
224 出力データ
302 データパースペクティブ生成コンポーネント
304 入力データ
306 出力データ
308 データ前置フィルタコンポーネント
310 変数決定コンポーネント
312 データパースペクティブビルダコンポーネント
314 変数オプティマイザコンポーネント
316 決定木ジェネレータコンポーネント
318 決定木エバリュエータコンポーネント
320 ユーザコンテキストデータ
322 集約関数
402 地域
404 販売販売代理人
406 月
408 売上
1204 処理ユニット
1206 システムメモリ
1208 バス
1226 ハードディスクドライブインターフェース
1228 磁気ディスクドライブインターフェース
1230 光ドライブインターフェース
1232 オペレーティングシステム
1234 アプリケーションプログラム
1236 他のプログラムモジュール
1238 プログラムデータ
1244 シリアルポートインターフェース
1246 モニタ
1248 ビデオアダプタ
1260 リモートコンピュータ
1264 ローカルエリアネットワーク
1266 広域ネットワーク
1268 ネットワークインターフェース
1270 モデム
1302 クライアント
1304 サーバ
1306 サーバデータストア
1308 通信フレームワーク
1310 クライアントデータストア

Claims (42)

  1. データパースペクティブ生成を容易にするシステムであって、
    データベースからの目標変数を含むユーザ指定の入力データを受け取るコンポーネントと、
    少なくとも部分的に前記ユーザ指定の入力データおよび前記データベースから導出される、前記目標変数のデータパースペクティブの少なくとも1つの条件付け変数の自動生成を実現する生成コンポーネントと
    を含むことを特徴とするシステム。
  2. 前記データパースペクティブは、ピボットテーブルおよび多次元分析(OLAP)キューブからなる群から選択される少なくともその1つを含むことを特徴とする請求項1に記載のシステム。
  3. 少なくとも1つの自動的に生成された条件付け変数を使用して、前記データパースペクティブを自動的に生成するデータパースペクティブコンポーネント
    をさらに含むことを特徴とする請求項1に記載のシステム。
  4. 前記データパースペクティブコンポーネントは、少なくとも部分的に機械学習手法に基づいて、ユーザへの提示の質を高めるために前記データパースペクティブのユーザビューをさらに自動的に調整することを特徴とする請求項3に記載のシステム。
  5. 前記システムは、少なくとも1つのユーザ制御入力を使用することを特徴とする請求項4に記載のシステム。
  6. 前記生成コンポーネントは、前記条件付け変数の前記自動生成を容易にする少なくとも1つの機械学習手法を使用することを特徴とする請求項1に記載のシステム。
  7. 前記機械学習手法は、前記目標変数の前記データパースペクティブのトップセットおよび左セットからなる群から選択される少なくとも1つについて少なくとも1つの条件付け変数を特定することを特徴とする請求項6に記載のシステム。
  8. 前記条件付け変数は、ユーザ制御入力を介して制御可能であることを特徴とする請求項7に記載のシステム。
  9. 前記機械学習手法は、前記目標変数を予測する能力対前記条件付け変数の複雑さに基づいて前記条件付け変数を特定することを特徴とする請求項7に記載のシステム。
  10. 前記機械学習手法は、さらに、前記条件付け変数を特定する際に変数のユーティリティを適用することを特徴とする請求項9に記載のシステム。
  11. 前記機械学習手法は、前記条件付け変数の特定を容易にする少なくとも1つの完全な決定木を使用することを特徴とする請求項7に記載のシステム。
  12. 前記機械学習手法は、前記完全な決定木を構成する少なくとも1つのヒューリスティック方法(発見的方法)を使用することを特徴とする請求項11に記載のシステム。
  13. 前記条件付け変数は、離散条件付け変数および連続条件付け変数からなる群から選択される少なくとも1つを含むことを特徴とする請求項7に記載のシステム。
  14. 前記機械学習手法は、さらに、離散化を介して前記条件付け変数の細かさを自動的に決定することを特徴とする請求項13に記載のシステム。
  15. 前記細かさは、ユーザ制御入力を介して調整可能であることを特徴とする請求項14に記載のシステム。
  16. 前記機械学習手法は、前記目標変数を予測する能力対前記条件付け変数の前記複雑さに基づいて前記条件付け変数の前記細かさを決定することを特徴とする請求項14に記載のシステム。
  17. 前記機械学習手法は、さらに、前記条件付け変数の前記細かさを特定する際に条件付け変数の細かさのユーティリティを適用することを特徴とする請求項16に記載のシステム。
  18. 前記機械学習手法は、前記条件付け変数の前記細かさの決定を容易にする少なくとも1つの完全な決定木を使用することを特徴とする請求項16に記載のシステム。
  19. 前記機械学習手法は、前記完全な決定木を構成する少なくとも1つのヒューリスティック方法を使用することを特徴とする請求項18に記載のシステム。
  20. 前記機械学習手法は、前記連続条件付け変数の少なくとも1つの範囲を自動的に決定し、前記範囲を新しい条件付け変数として表すことを特徴とする請求項13に記載のシステム。
  21. 前記範囲は、ユーザ制御入力を介して調整可能であることを特徴とする請求項20に記載のシステム。
  22. 前記機械学習手法は、前記目標変数を予測する能力対前記条件付け変数の前記複雑さに基づいて前記連続条件付け変数の前記範囲を決定することを特徴とする請求項20に記載のシステム。
  23. 前記機械学習手法は、さらに、前記連続条件付け変数の前記範囲を特定する際に連続変数の範囲のユーティリティを適用することを特徴とする請求項22に記載のシステム。
  24. 前記機械学習手法は、前記条件付け変数の前記範囲の決定を容易にする少なくとも1つの完全な決定木を使用することを特徴とする請求項22に記載のシステム。
  25. 前記機械学習手法は、前記完全な決定木を構成する少なくとも1つのヒューリスティック方法を使用することを特徴とする請求項24に記載のシステム。
  26. データパースペクティブ再生を容易にする方法であって、
    データベースからの目標変数を含むユーザ指定の入力データを受け取るステップと、
    少なくとも部分的に前記ユーザ指定の入力データおよび前記データベースから導出される、前記目標変数のデータパースペクティブの少なくとも1つの条件付け変数を自動的に生成するステップと
    を含むことを特徴とする方法。
  27. 前記データパースペクティブを自動的に生成するステップは、
    前記条件付け変数の自動的生成を容易にする少なくとも1つの機械学習処理を使用するステップ
    をさらに含むことを特徴とする請求項26に記載の方法。
  28. 前記機械学習処理は、
    前記目標変数の前記データパースペクティブのトップセットおよび左セットからなる群から選択される少なくとも1つに関する少なくとも1つの条件付け変数を特定するステップであって、前記条件付け変数は、前記目標変数を予測する能力対前記条件付け変数の複雑さに基づいて特定されるステップと、
    離散条件付け変数の細かさを自動的に決定するステップであって、前記条件付け変数の前記細かさは、前記目標変数を予測する能力対前記条件付け変数の前記複雑さに基づくステップと、
    連続条件付け変数の少なくとも1つの範囲を決定し、前記範囲を新しい条件付け変数として表すステップであって、前記条件付け変数の前記範囲は、前記目標変数を予測する能力対前記条件付け変数の前記複雑さに基づくステップと
    を含むことを特徴とする請求項27に記載の方法。
  29. 前記条件付け変数を特定するステップは、
    前記目標変数を最もよく予測する少なくとも1つの最適条件付け変数およびその細かさを決定するために少なくとも1つの完全な決定木を使用するステップであって、前記完全な決定木は、少なくとも1つのヒューリスティック方法を使用して構成されるステップ
    を含むことを特徴とする請求項28に記載の方法。
  30. 前記ヒューリスティック方法は、
    前記完全な決定木を含む単一の決定木を学習するステップと、
    前記単一の決定木を、予測変数および前記予測変数の対応する値のセットに変換するステップと、
    予測変数およびその細かさの少なくとも1つの最適セットを見つけるために、前記単一の決定木の少なくとも1つの部分木から検索するステップと
    を含むことを特徴とする請求項29に記載の方法。
  31. 少なくとも1つの部分木から検索するステップは、
    予測変数なしのルートノードを有する第1部分木を選択するステップと、
    前記単一の決定木から単一の分割を追加することによって第2部分木を選択するステップであって、前記単一の分割は、最適スコアに関する分割の評価を介して選択されるステップと、
    最適スコアを増やす追加の分割がないことの発生および前記単一の決定木と等しい前記第2部分木の発生からなる群から選択される少なくとも1つのとき停止するステップと
    を含むことを特徴とする請求項30に記載の方法。
  32. 少なくとも1つのユーザ制御入力に基づいて、条件付け変数、条件付け変数の細かさ、および連続条件付け変数の範囲からなる群から選択される少なくとも1つを調整するステップ
    をさらに含むことを特徴とする請求項28に記載の方法。
  33. 条件付け変数、条件付け変数の細かさ、および連続条件付け変数の範囲からなる群から選択される少なくとも1つの特定および/または決定を容易にするためにユーティリティ値を適用するステップ
    をさらに含むことを特徴とする請求項28に記載の方法。
  34. 少なくとも1つの自動的に生成された条件付け変数を使用して前記データパースペクティブを自動的に生成するステップ
    をさらに含むことを特徴とする請求項26に記載の方法。
  35. 少なくとも部分的に機械学習手法に基づいて、ユーザへの提示の質を高めるために前記データパースペクティブのビューを自動的に調整するステップ
    をさらに含むことを特徴とする請求項34に記載の方法。
  36. 前記方法は、少なくとも1つのユーザ制御入力を使用することを特徴とする請求項35に記載の方法。
  37. 前記データパースペクティブは、ピボットテーブルおよび多次元分析(OLAP)キューブからなる群から選択される少なくとも1つを含むことを特徴とする請求項26に記載の方法。
  38. データパースペクティブ生成を容易にするシステムであって、
    データベースからの目標変数を含むユーザ指定の入力データを受け取る手段と、
    少なくとも部分的に前記ユーザ指定の入力データおよび前記データベースから導出される、前記目標変数のデータパースペクティブの少なくとも1つの条件付け変数を自動的に生成する手段と
    を含むことを特徴とするシステム。
  39. データパースペクティブ生成を容易にする、複数のコンピュータコンポーネントの間で伝送されるデータパケットであって、データベースからの目標変数のデータパースペクティブの少なくとも1つの条件付け変数を自動的に生成するために、前記データベースの前記目標変数を含むユーザ指定のデータを少なくとも部分的に使用するデータパースペクティブ生成システムに関係する情報を少なくとも部分的に含むことを特徴とするデータパケット。
  40. 請求項1に記載のシステムのコンピュータ実行可能コンポーネントが記憶されていることを特徴とするコンピュータ読取可能媒体。
  41. コンピュータ、サーバ、およびハンドヘルド電子デバイスからなる群から選択される少なくともその1つを含む、請求項26に記載の方法を使用することを特徴とするデバイス。
  42. コンピュータ、サーバ、およびハンドヘルド電子デバイスからなる群から選択される少なくともその1つを含む、請求項1に記載のシステムを使用することを特徴とするデバイス。
JP2005117562A 2004-04-14 2005-04-14 目標変数の自動データパースペクティブ生成 Expired - Fee Related JP4233541B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/824,108 US7225200B2 (en) 2004-04-14 2004-04-14 Automatic data perspective generation for a target variable

Publications (3)

Publication Number Publication Date
JP2005302040A true JP2005302040A (ja) 2005-10-27
JP2005302040A5 JP2005302040A5 (ja) 2008-02-21
JP4233541B2 JP4233541B2 (ja) 2009-03-04

Family

ID=34939156

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005117562A Expired - Fee Related JP4233541B2 (ja) 2004-04-14 2005-04-14 目標変数の自動データパースペクティブ生成

Country Status (5)

Country Link
US (1) US7225200B2 (ja)
EP (1) EP1587008A3 (ja)
JP (1) JP4233541B2 (ja)
KR (1) KR101130524B1 (ja)
CN (1) CN100426289C (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011054156A (ja) * 2009-08-31 2011-03-17 Accenture Global Services Gmbh 適応分析多次元処理システム
US9123052B2 (en) 2009-07-09 2015-09-01 Accenture Global Services Limited Marketing model determination system
WO2018079225A1 (ja) * 2016-10-31 2018-05-03 日本電気株式会社 自動予測システム、自動予測方法および自動予測プログラム
US10885011B2 (en) 2015-11-25 2021-01-05 Dotdata, Inc. Information processing system, descriptor creation method, and descriptor creation program
US11514062B2 (en) 2017-10-05 2022-11-29 Dotdata, Inc. Feature value generation device, feature value generation method, and feature value generation program
US11727203B2 (en) 2017-03-30 2023-08-15 Dotdata, Inc. Information processing system, feature description method and feature description program

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10233609A1 (de) * 2002-07-24 2004-02-19 Siemens Ag Verfahren zur Ermittlung einer in vorgegebenen Daten vorhandenen Wahrscheinlichkeitsverteilung
EP1577792B1 (en) * 2004-03-16 2010-10-13 Sap Ag A method, computer program product and data processing system for displaying a plurality of data objects
US20050234761A1 (en) * 2004-04-16 2005-10-20 Pinto Stephen K Predictive model development
EP1643364A1 (en) * 2004-09-30 2006-04-05 Sap Ag Systems and methods for general aggregation of characteristics and key figures
WO2006066556A2 (de) * 2004-12-24 2006-06-29 Panoratio Database Images Gmbh Relationale komprimierte datenbank-abbilder (zur beschleunigten abfrage von datenbanken)
US7587410B2 (en) * 2005-03-22 2009-09-08 Microsoft Corporation Dynamic cube services
US8457997B2 (en) * 2005-04-29 2013-06-04 Landmark Graphics Corporation Optimization of decisions regarding multiple assets in the presence of various underlying uncertainties
EP1941432A4 (en) 2005-10-25 2011-04-20 Angoss Software Corp STRATEGY TREES FOR DATA MINING
US20080172671A1 (en) * 2007-01-11 2008-07-17 International Business Machines Corporation Method and system for efficient management of resource utilization data in on-demand computing
US8645390B1 (en) * 2007-08-31 2014-02-04 Google Inc. Reordering search query results in accordance with search context specific predicted performance functions
US8001158B2 (en) * 2007-12-13 2011-08-16 Hewlett-Packard Development Company, L.P. Systems and processes for evaluating database complexities
US8015129B2 (en) * 2008-04-14 2011-09-06 Microsoft Corporation Parsimonious multi-resolution value-item lists
US20120005151A1 (en) * 2010-07-01 2012-01-05 Vineetha Vasudevan Methods and systems of content development for a data warehouse
US8712989B2 (en) 2010-12-03 2014-04-29 Microsoft Corporation Wild card auto completion
US8774515B2 (en) * 2011-04-20 2014-07-08 Xerox Corporation Learning structured prediction models for interactive image labeling
US9135233B2 (en) 2011-10-13 2015-09-15 Microsoft Technology Licensing, Llc Suggesting alternate data mappings for charts
US10061473B2 (en) 2011-11-10 2018-08-28 Microsoft Technology Licensing, Llc Providing contextual on-object control launchers and controls
US8793567B2 (en) * 2011-11-16 2014-07-29 Microsoft Corporation Automated suggested summarizations of data
US9275334B2 (en) 2012-04-06 2016-03-01 Applied Materials, Inc. Increasing signal to noise ratio for creation of generalized and robust prediction models
US9304746B2 (en) * 2012-06-07 2016-04-05 Carmel-Haifa University Economic Corporation Ltd. Creating a user model using component based approach
CN104428734A (zh) 2012-06-25 2015-03-18 微软公司 输入法编辑器应用平台
US9563674B2 (en) * 2012-08-20 2017-02-07 Microsoft Technology Licensing, Llc Data exploration user interface
US10001897B2 (en) 2012-08-20 2018-06-19 Microsoft Technology Licensing, Llc User interface tools for exploring data visualizations
BR112015027371A2 (pt) * 2013-05-31 2017-08-29 Landmark Graphics Corp Método para determinação de importância de atributos, e, dispositivo transportador de programa não transitório
US10416871B2 (en) 2014-03-07 2019-09-17 Microsoft Technology Licensing, Llc Direct manipulation interface for data analysis
US10824799B2 (en) 2014-06-30 2020-11-03 Microsoft Technology Licensing, Llc Summary data autofill
US20170011418A1 (en) 2015-05-29 2017-01-12 Claude Denton System and method for account ingestion
US10410258B2 (en) 2015-05-29 2019-09-10 Nanigans, Inc. Graphical user interface for high volume data analytics
US10140344B2 (en) 2016-01-13 2018-11-27 Microsoft Technology Licensing, Llc Extract metadata from datasets to mine data for insights
US10581953B1 (en) * 2017-05-31 2020-03-03 Snap Inc. Real-time content integration based on machine learned selections
CN107562821A (zh) * 2017-08-17 2018-01-09 平安科技(深圳)有限公司 基于数据库的数据透视方法、装置和计算机存储介质
KR20200068043A (ko) * 2018-11-26 2020-06-15 전자부품연구원 영상 기계학습을 위한 객체 gt 정보 생성 방법 및 시스템
CN112783890B (zh) * 2019-11-08 2024-05-07 珠海金山办公软件有限公司 一种生成数据透视表行的方法及装置
CN115618193A (zh) * 2022-12-01 2023-01-17 北京维恩咨询有限公司 基于数据透视表的超级时间维度分析方法、装置和设备

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5537589A (en) 1994-06-30 1996-07-16 Microsoft Corporation Method and system for efficiently performing database table aggregation using an aggregation index
JPH1010995A (ja) 1996-06-20 1998-01-16 Fujitsu General Ltd 液晶プロジェクタ照明装置
US6191792B1 (en) 1997-02-10 2001-02-20 Nippon Telegraph And Telephone Corporation Scheme for automatic data conversion definition generation according to data feature in visual multidimensional data analysis tool
JP3431482B2 (ja) * 1998-01-23 2003-07-28 株式会社日立情報システムズ 分類項目解析方法及びこのプログラムを記録した記録媒体
US6430545B1 (en) * 1998-03-05 2002-08-06 American Management Systems, Inc. Use of online analytical processing (OLAP) in a rules based decision management system
US6298342B1 (en) 1998-03-16 2001-10-02 Microsoft Corporation Electronic database operations for perspective transformations on relational tables using pivot and unpivot columns
US6044366A (en) 1998-03-16 2000-03-28 Microsoft Corporation Use of the UNPIVOT relational operator in the efficient gathering of sufficient statistics for data mining
US6374251B1 (en) 1998-03-17 2002-04-16 Microsoft Corporation Scalable system for clustering of large databases
US6216134B1 (en) 1998-06-25 2001-04-10 Microsoft Corporation Method and system for visualization of clusters and classifications
US6360224B1 (en) 1999-04-23 2002-03-19 Microsoft Corporation Fast extraction of one-way and two-way counts from sparse data
US6411313B1 (en) 1999-06-14 2002-06-25 Microsoft Corporation User interface for creating a spreadsheet pivottable
US6626959B1 (en) 1999-06-14 2003-09-30 Microsoft Corporation Automatic formatting of pivot table reports within a spreadsheet
US6405207B1 (en) 1999-10-15 2002-06-11 Microsoft Corporation Reporting aggregate results from database queries
US6484163B1 (en) 2000-03-01 2002-11-19 International Business Machines Corporation Technique for data mining of large scale relational databases using SQL
US6519599B1 (en) 2000-03-02 2003-02-11 Microsoft Corporation Visualization of high-dimensional data
US6505185B1 (en) 2000-03-30 2003-01-07 Microsoft Corporation Dynamic determination of continuous split intervals for decision-tree learning without sorting
EP1195694A3 (en) 2000-10-06 2006-01-11 International Business Machines Corporation Automatic determination of OLAP Cube dimensions
US7818286B2 (en) * 2001-01-22 2010-10-19 Sas Institute Inc. Computer-implemented dimension engine
US20040193633A1 (en) 2003-03-28 2004-09-30 Cristian Petculescu Systems, methods, and apparatus for automated dimensional model definitions and builds utilizing simplified analysis heuristics
US7089266B2 (en) * 2003-06-02 2006-08-08 The Board Of Trustees Of The Leland Stanford Jr. University Computer systems and methods for the query and visualization of multidimensional databases
US20050021489A1 (en) * 2003-07-22 2005-01-27 Microsoft Corporation Data mining structure

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9123052B2 (en) 2009-07-09 2015-09-01 Accenture Global Services Limited Marketing model determination system
JP2011054156A (ja) * 2009-08-31 2011-03-17 Accenture Global Services Gmbh 適応分析多次元処理システム
US8600709B2 (en) 2009-08-31 2013-12-03 Accenture Global Services Limited Adaptive analytics multidimensional processing system
US10885011B2 (en) 2015-11-25 2021-01-05 Dotdata, Inc. Information processing system, descriptor creation method, and descriptor creation program
WO2018079225A1 (ja) * 2016-10-31 2018-05-03 日本電気株式会社 自動予測システム、自動予測方法および自動予測プログラム
JPWO2018079225A1 (ja) * 2016-10-31 2019-09-12 日本電気株式会社 自動予測システム、自動予測方法および自動予測プログラム
JP7069029B2 (ja) 2016-10-31 2022-05-17 ドットデータ インコーポレイテッド 自動予測システム、自動予測方法および自動予測プログラム
US11727203B2 (en) 2017-03-30 2023-08-15 Dotdata, Inc. Information processing system, feature description method and feature description program
US11514062B2 (en) 2017-10-05 2022-11-29 Dotdata, Inc. Feature value generation device, feature value generation method, and feature value generation program

Also Published As

Publication number Publication date
US7225200B2 (en) 2007-05-29
JP4233541B2 (ja) 2009-03-04
EP1587008A3 (en) 2006-07-05
CN1684068A (zh) 2005-10-19
KR20060045677A (ko) 2006-05-17
CN100426289C (zh) 2008-10-15
EP1587008A2 (en) 2005-10-19
US20050234960A1 (en) 2005-10-20
KR101130524B1 (ko) 2012-03-28

Similar Documents

Publication Publication Date Title
JP4233541B2 (ja) 目標変数の自動データパースペクティブ生成
Zappia et al. Clustering trees: a visualization for evaluating clusterings at multiple resolutions
US10713572B2 (en) Data discovery nodes
KR101083519B1 (ko) 데이터 퍼스펙티브들에서의 변칙 검출
JP5025891B2 (ja) 単純化された発見型分析(analysisheuristics)を利用する自動化されたディメンション・モデルの定義および構築のためのシステム、方法および装置
Arredondo et al. Inferring number of populations and changes in connectivity under the n-island model
EP1240566B1 (en) Determining whether a variable is numeric or non-numeric
Khan et al. A three-way approach for learning rules in automatic knowledge-based topic models
Pynam et al. An extensive study of data analysis tools (rapid miner, weka, r tool, knime, orange)
Maâtouk et al. Evolutionary biclustering algorithms: an experimental study on microarray data
US10509800B2 (en) Visually interactive identification of a cohort of data objects similar to a query based on domain knowledge
Zhou et al. Structural factor equation models for causal network construction via directed acyclic mixed graphs
JP2000040079A (ja) 並列データ分析装置
Richter Spectral analysis of transient amplifiers for death–birth updating constructed from regular graphs
Hatwágner et al. Behavioral analysis of fuzzy cognitive map models by simulation
Al-Najdi et al. Multiple consensuses clustering by iterative merging/splitting of clustering patterns
Olsson et al. Hard cases in source code to architecture mapping using Naive Bayes
Kim " Designated communities": through the lens of the web
Munoz‐Erazo et al. Creation of High‐Dimensional Reduction Analysis‐Compatible Histocytometry Files from Images of Densely‐Packed Cells and/or Variable Stain Intensity
US20190050467A1 (en) Method and System for Content Creation and Management
Uluwiyah Trusted big data for official statistics: Study case: Statistics Indonesia (BPS)
Cinar et al. Clustering of short time-course gene expression data with dissimilar replicates
Loterman et al. Learning algorithm selection for comprehensible regression analysis using datasetoids
Verbruggen et al. avatar—Automated Feature Wrangling for Machine Learning
Guido et al. Searching issues: a survey on data exploration techniques

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20071122

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20071226

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071228

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071228

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20071228

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20080212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080515

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081022

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081028

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081126

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081209

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111219

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4233541

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111219

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121219

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131219

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees