JP2005276225A - テーブルを使用したツリーの学習 - Google Patents

テーブルを使用したツリーの学習 Download PDF

Info

Publication number
JP2005276225A
JP2005276225A JP2005088779A JP2005088779A JP2005276225A JP 2005276225 A JP2005276225 A JP 2005276225A JP 2005088779 A JP2005088779 A JP 2005088779A JP 2005088779 A JP2005088779 A JP 2005088779A JP 2005276225 A JP2005276225 A JP 2005276225A
Authority
JP
Japan
Prior art keywords
edge
network
score
complete
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005088779A
Other languages
English (en)
Other versions
JP2005276225A5 (ja
Inventor
M Chickering David
エム.チッカリング デビッド
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2005276225A publication Critical patent/JP2005276225A/ja
Publication of JP2005276225A5 publication Critical patent/JP2005276225A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • AHUMAN NECESSITIES
    • A47FURNITURE; DOMESTIC ARTICLES OR APPLIANCES; COFFEE MILLS; SPICE MILLS; SUCTION CLEANERS IN GENERAL
    • A47GHOUSEHOLD OR TABLE EQUIPMENT
    • A47G21/00Table-ware
    • A47G21/04Spoons; Pastry servers
    • AHUMAN NECESSITIES
    • A47FURNITURE; DOMESTIC ARTICLES OR APPLIANCES; COFFEE MILLS; SPICE MILLS; SUCTION CLEANERS IN GENERAL
    • A47GHOUSEHOLD OR TABLE EQUIPMENT
    • A47G21/00Table-ware
    • A47G21/06Combined or separable sets of table-service utensils; Oyster knives with openers; Fish servers with means for removing bones
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching

Abstract

【課題】 学習アルゴリズムを利用して完全テーブルを有するベイズネットワークを学習することを介して、決定木を有するベイズネットワークの学習を促進するシステムおよび方法を提供する。
【解決手段】 学習アルゴリズムは、完全テーブルを有するベイズネットワーク中のエッジを反転することのできる探索アルゴリズムを、それに関連する有向非周期グラフ(DAG)を精緻化するために備えることができる。次に、精緻化された完全テーブルDAGを利用して、決定木ベイズネットワーク内の決定木を成長させるのに利用される学習アルゴリズムの制約のセットを導出することができる。
【選択図】 図1

Description

本発明は一般に、データモデリングおよび分析に関し、より詳細には、完全データテーブル(complete data table)を利用してモデル(またはパターン)を生み出すことに関する。
インターネット、特にインターネットを介した電子商取引(「eコマース」)の出現に伴って、データ分析ツールの使用は劇的に増加した。eコマース、ならびにその他のインターネットおよび非インターネットのアプリケーションでは、天文学的に膨大な量の情報を有するデータベースが生成され維持されている。通常、このような情報は、顧客、ユーザ、製品などに関する追加情報を学習するために分析されるか、または「マイニング」される。この情報により、ビジネスおよびその他のユーザがその製品および/またはアイデアをよりよく実施することが可能になる。
データマイニング(データベースにおける知識の発見−KDD(Knowledge Discovery in Databases)としても知られる)は、「暗示的で、以前は知られていなかった、潜在的に有用な情報のデータからの自明でない抽出」と定義されている。データマイニングは、機械学習技法、統計的技法、および/または視覚化技法を利用して、知識を発見し、人間にとって容易に理解可能な形で提示することができる。一般的に言って、人間は、テキストアイテムよりもグラフィカルアイテムの方が認識または解釈しやすい。したがって、この手段を利用して、他の方法よりも多くの情報を中継することができる。このように、グラフィカルな統計モデルは、データマイニングでは非常に有益であることが証明されている。
コンピュータ科学における人工知能の出現は、多くの決定支援システムをもたらした。決定支援システムは、人間によって通常行われる決定が推奨され、時には決定が行われもするコンピュータシステムである。決定支援システムを開発する際、コンピュータ科学者らは、なしうる最も高い精度で決定を提供しようとする。したがって、コンピュータ科学者らは、人間の専門家と同等以上の決定支援システムを生み出そうと努力する。決定支援システムのアプリケーションには、医療診断、コンピュータネットワークのトラブルシューティング、または、決定が識別可能な基準に基づくその他のシステムが含まれる。
決定支援システムの研究で最も有望な新しい領域の1つは、ベイズネットワークである。ベイズネットワークは、世界に関する特徴(distinctions)間の確率的関係を表したものである。各特徴は変数と呼ばれることもあり、相互に排他的で網羅的な考えられる状態のセットのうちの1つをとることができる。ベイズネットワークは、変数がノードに対応し、ノード間の関係がアークに対応する非周期有向グラフ(acyclic−directed graph)として表現される。
ベイズネットワークは、対象の変数間の確率的関係を符号化するグラフィカルな統計モデルである。この10年にわたり、ベイズネットワークは、エキスパートシステムにおける不確かな専門知識を符号化するためのポピュラーな表現になった。より最近になり、研究者らは、データからベイズネットワークを学習するための方法を開発した。統計的技法と共に使用される場合、グラフィカルモデルは、データ分析にとっていくつかの利点がある。第1に、このモデルはすべての変数間の依存性を符号化するので、いくつかのデータエントリが欠けている状況を容易に扱える。第2に、ベイズネットワークを使用して因果関係を学習することができ、それゆえ、問題領域に関する理解を獲得し、介入(intervention)の帰結を予測するために使用することができる。第3に、このモデルは因果的および確率的なセマンティクスの両方を有するので、先験知識(因果的な形でもたらされることが多い)とデータとを組み合わせるための理想的な表現である。第4に、ベイズの統計的方法とベイズネットワークとにより、データのオーバーフィッティングを回避するための効率的で理に適ったアプローチが提供される。
決定木や決定グラフなどの統計モデルを構築するための従来のアプローチには、知識ベースのアプローチと、データベースのアプローチの2つがある。知識ベースのアプローチを使用して、ある人(知識技術者と呼ばれる)が、ある特定の分野の専門家と面接して、専門家の専門知識分野に関する専門家の知識を得る。知識技術者と専門家はまず、専門家の分野における意思決定に重要な、世界の特徴を決定する。これらの特徴は、対象の領域における変数に対応する。例えば、顧客が店で購入した製品に基づいて顧客の年齢を予測するために決定グラフを使用することにする場合、「年齢」についての変数と、すべての該当する製品についての変数があることになる。知識技術者と専門家は次に、決定グラフの構造と、条件付き確率分布を定量化する対応するパラメータ値を判定する。
データベースのアプローチでは、知識技術者と専門家はまず、領域の変数を判定する。次に、これらの変数についてデータを蓄積し、このデータから1つまたは複数の決定グラフを生み出すアルゴリズムを適用する。蓄積されるデータは、その領域の実世界のインスタンスに由来する。すなわち、ある特定の分野における意思決定の実世界のインスタンスである。
通常、データベースのアプローチの方が、一般的な見地からよりよく利用される。しかし、この数年にわたり、データをより効率的に収集する能力が高まるにつれて、これらデータベースのサイズは指数関数的に増大している。これにより、コンピュータ処理技術およびストレージアクセス技法において得られる速度が向上し続けているにもかかわらず、分析に非常に時間のかかる巨大なデータベースが生み出されている。
本発明のいくつかの態様の基本的な理解を提供する目的で、本発明の簡潔な概要を以下に提示する。この概要は、本発明の広範な概観ではない。この概要は、本発明の鍵となる要素または重要な要素を特定するものでもなく、本発明の範囲を画定するものでもない。その唯一の目的は、本発明のいくつかの概念を、後で提示するより詳細な説明の前置きとして簡潔な形で提示することである。
本発明は一般に、データモデリングおよび分析に関し、より詳細には、完全テーブル(complete table)を備えたベイズネットワークを利用して、決定木(decision tree)を備えたベイズネットワークモデル(またはパターン)を生み出すことに関する。本発明の一態様によれば、完全テーブルを有するベイズネットワーク中のエッジを反転して、このネットワークに追加されたエッジの訂正を容易にすることができる。例えば、分布として完全テーブルでベイズネットワークを学習することができ、この場合、学習アルゴリズムはエッジを反転することができる探索アルゴリズムを利用する。結果として得られる有向非周期グラフ(DAG:Directed Acyclic Graph)を利用して、局所分布(local distribution)として決定木を使用するベイズネット学習アルゴリズムを制限することができる。この態様によれば、完全テーブルDAGの半順序(partial order)が、決定木および/または完全テーブル探索から得られるDAGにおいて考慮される。このようにして、完全テーブルDAG中でXからYへのダイレクトパスが存在する場合、Xの木においてYに関する分岐を禁止することができる。
本発明の別の態様によれば、完全テーブルを有するベイズネット中のエッジを評価して、それに関連するスコアを査定することができる。このようなスコアは、そのエッジによって接続されたノード間の依存性の度合いを示すことができる。代替のノード/エッジ構成を考慮することができ、既存のエッジが考えられる最良のスコアを有するかどうかに関して判定を行うことができる。エッジスコアを改善することができる場合は、既存のエッジを操作(例えば反転、削除、新しいエッジと置換するなど)して、スコアの増加を達成することができる。このようにして、本発明は、ベイズネットが良好な順序を有することを確実にすることができる。
上記の目的および関連の目的を達成するために、本発明のいくつかの例示的な態様を、以下の説明および添付の図面に関連して本明細書に記述する。しかし、これらの態様は、本発明の原理を利用することのできる様々な方法のいくつかを示すだけであり、本発明はそのような態様およびその均等物すべてを含むものとする。本発明のその他の利点および新規な特徴は、本発明の以下の詳細な説明を図面と共に検討すると明らかになるであろう。
本発明について図面を参照しながら説明する。図面全体を通して、同様の要素を指すために同様の参照番号を使用する。以下の記述では、本発明の完全な理解を提供するために、説明上、多くの具体的な詳細を示す。しかし、本発明はこれらの具体的な詳細がなくても実施できることは明白であろう。他の場合では、本発明の記述を容易にするために、周知の構造およびデバイスはブロック図で示す。
本明細書で使用されるように、用語「コンピュータコンポーネント」は、コンピュータ関連のエンティティを指すものとし、ハードウェア、ハードウェアとソフトウェアの組合せ、ソフトウェア、実行中のソフトウェアのいずれかである。例えばコンピュータコンポーネントは、限定しないが、プロセッサ上で稼働しているプロセス、プロセッサ、オブジェクト、実行ファイル、実行のスレッド、プログラム、および/またはコンピュータとすることができる。例示の目的で、サーバ上で稼働しているアプリケーションもサーバも両方とも、コンピュータコンポーネントとすることができる。1つまたは複数のコンピュータコンポーネントがあるプロセスおよび/または実行のスレッド内に存在することができ、コンポーネントは1台のコンピュータ上に局在してもよく、そして/または2台以上のコンピュータ間に分散されてもよい。本明細書で述べるモデル、ネットワーク、クエリエンジン、ユーザインターフェース、コンパレータ、モデル(またはパターン)は、コンピュータコンポーネントとすることができることを理解されたい。
本発明は、ベイズネットワークをデータから学習するのを促進し、これには、データ中の独立性を最もよく表すモデル(例えばDAG)の構造を探索することを伴う。ベイズネットワークは、DAGと、対応する局所分布のセットとを備え、局所分布のセットは、DAGによって含意される独立性制約(independence constraints)がすべて考慮される結合分布(joint distribution)を集合的に定義する。例えば、各局所分布p(X|親)が完全テーブルであるとき(例えば、親_値のすべての可能な値について個々の分布p(X|親=親_値)があるとき)、典型的な探索手順は、エッジの追加、削除、反転を考慮することができる。
局所分布が決定木であるときは、探索問題はより難しくなることがある。何らかのターゲットTについての決定木が変数R上の分岐を含むときは常に、RはDAGにおいてTの親になることになる。このようなシナリオでは、完全テーブル分布とは対照的に、あるノードの親のセットはそのノードについての局所分布を一意に識別しない。したがって、探索アルゴリズムはまた、分布の「下位構造(sub−structure)」(例えば木の構造など)も探索することができる。
多くの場合、学習されたモデルの品質は、DAGにおいて正しい半順序を導出することに依存する。例えば、構造X→Y←Zが学習された場合、このようなモデル構造は、XとZの周辺独立性(marginal independence)を符号化しているので、X→Y→Z,X→Zよりも優れている可能性がある。局所分布が完全テーブルであるときは、探索オペレータはエッジの方向を反転することができる。このようにして、アルゴリズムが最初にエッジの方向を誤って適用した場合、アルゴリズムは後でこの誤りを訂正することができる。上の例で、貪欲なアルゴリズム(greedy algorithm)が空のネットワークで開始した場合、X→Yを追加することのスコアは、Y→Xの追加と同じになることになる。というのは、モデルX→YZとX←YZは、同じ独立性制約を符号化しているからである。これらオペレータの両方が最良だと仮定すると、貪欲なアルゴリズムはこれらの間で任意に選択することになる。最適モデルがX→Y←Zである場合、アルゴリズムは、後で反転することによってX←Yの追加から回復することができる。前述のように、同等のクラスのDAGが適切なオペレータと共に利用される場合、アルゴリズムはこのような任意のエラーから回復することができる。
しかし、局所分布が木であるときは、従来のシステムおよび方法は、明確に定義されたエッジ反転の概念を提供しない。エッジX→Yを反転することは、(1)Yの親としてのXを削除することと、(2)Xの親としてのYを追加することとを含む。Yの親としてのXを削除することは、Yについて決定木中でX上のいかなる分岐も削除することを含む。X上の分岐に従属する分岐が他にある場合は、このような削除によって他の親を削除する可能性がある。さらに、「Xの親としてのYを追加する」ことは、従来のシステムおよび/または方法を使用した決定木分布には明確に定義されていない。むしろ、Xについて木の中でY上の分岐が必要である。
前述の欠点の結果として、決定木分布を有するベイズネットを学習するための従来の探索オペレータは、通常、木に分岐を追加することを考える。このようなオペレータは、新しい親である場合はエッジをDAGに追加し、またはその親の上で分岐がすでに存在していた場合はエッジをDAGに追加しないことになる。残念ながら、従来のシステムはエッジを追加するだけなので、このような従来システムを使用して、エッジを誤った方向に追加することから回復することは不可能である。さらに、完全テーブルの場合のように、エッジの方向の間での選択(例えば、Yの木の中のX上で分岐するか、Xの木の中のY上で分岐するかなど)は、貪欲な探索の初期段階では任意とすることができる。
本発明は、前述の困難の多くを軽減しながら、決定木を有するベイズネットワークを学習するのを促進する。例えば、エッジを反転することのできる探索アルゴリズムを使用して、完全テーブルとともに分布中でベイズネットワークを学習することができる。結果として得られたDAGを利用して、決定木探索アルゴリズムを制限することができる。とりわけ、本発明のシステムおよび方法は、完全テーブルDAGの半順序を決定木探索から得られるDAG中で考慮することを要求することができる。言い換えれば、完全テーブルDAG中でXからYへの有向パスがある場合、Xの木の中でY上の分岐を禁止することができる。
図1に、ベイズネットワーク100の一例を示す。図1では3つの変数X、X、Xがあり、これらをそれぞれノード102、106、110で表す。このベイズネットワークは、2つのアーク104および108を備える。ベイズネットワーク中の各変数には、確率分布のセットが関連付けられる。条件付き確率の概念を用いると、ある変数の確率分布のセットはp(x|Π,ξ)で表すことができ、「p」は確率分布を指し、「Π」は変数Xの親を示し、「ξ」は専門家の知識を示す。ギリシャ文字「ξ」は、ベイズネットワークがある特定の分野の専門家の知識を反映していることを示す。したがって、この式は、変数Xの親と専門家の知識とが与えられた場合のXの確率分布として読むことができる。例えば、XはXの親である。確率分布は、変数間の関係の強さを指定する。例えば、Xが2つの状態(真と偽)を有する場合、Xには単一の確率分布p(x|ξ)が関連付けられ、Xには2つの確率分布p(x|x=t,ξ)およびp(x|x=f,ξ)が関連付けられる。本明細書の残りの部分では、ξについては特に言及しない。
ベイズネットワーク中のアークは、ノード間の依存性を表す。2つのノード間にアークがあるとき、アークの方向が第2のノードから第1のノードを指している場合は、第1のノードの確率分布は第2のノードの値に依存する。例えば、ノード106はノード102に依存する。それゆえ、ノード102と106は条件付きで依存すると言われる。ベイズネットワーク中にアークが欠けている場合、これは条件付き独立を表す。例えば、ノード102とノード110は、ノード106が与えられた場合に条件付きで独立である。しかし、中間変数を介して間接的に接続された2つの変数は、中間変数の値(「状態」)の知識の欠如を仮定すると条件付きで依存する。それゆえ、ノード106の値が知られている場合、ノード102とノード110は条件付きで依存する。
言い換えれば、変数Zが与えられた場合の変数Xの確率分布が変数Yに依存しない場合、XとYのセットは、Zのセットが与えられた場合に条件付きで独立であると言われる。しかし、Zが空の場合、XとYは「条件付きで独立」ではなく「独立」と言われる。Zが与えられた場合にXとYが条件付きで独立でない場合、XとYは、Zが与えられた場合に条件付きで依存すると言われる。
各ノードに使用される変数は、異なるタイプとすることができる。具体的には、変数は、離散または連続の2つのタイプとすることができる。離散変数は、有限または可算の数の状態を有する変数であり、連続変数は、無限数の状態を有する変数である。離散変数の一例はブール変数である。このような変数は、「真」と「偽」の2つの状態の一方のみをと想定することができる。連続変数の一例は、−1と1の間の任意の実数を想定することができる変数である。離散変数は関連する確率分布を有する。しかし、連続変数は関連する確率密度関数(「密度」)を有する。あるイベントが、可能な結果のセットである場合、変数「x」とイベント「a」および「b」についての密度p(x)は、次のように定義される。
Figure 2005276225
ここで、p(a≦x≦b)は、xがaとbの間にある確率である。
図2に、本発明の一態様によるベイズネット学習システム200を示す。図2は、データセット204によって構成されたデータを分析するベイズネットワークコンストラクタ202を示している。ベイズネットワークコンストラクタ202は、データセット204から収集した情報に基づいて、データの半順序を決定するために、完全テーブルを有するベイズネットワーク206を作り出すことができる。ベイズネットワークコンストラクタ202は次いで、データセット204と、完全テーブルを有するベイズネットワーク206とを、探索アルゴリズムを使用して分析して、ベイズネットワーク内でエッジの他の潜在的な構成を識別することができ、このような他の構成を、完全テーブルを有するベイズネットワーク206によって定義される半順序と比較することができる。よりよい順序が存在すると判定された場合は、ベイズネットワークコンストラクタ202は、局所分布を形成する決定木を有する新しいベイズネットワーク208を構築するために、ベイズネット中のエッジを操作(例えば反転、削除、および/または置換など)することができる。新しいベイズネットワーク208の決定木は、判定されたよりよい順序に従って構成されたエッジで成長することができる。完全テーブルから導出された有向非周期グラフ(DAG)を利用して、ベイズネットワークコンストラクタ202によって利用される学習アルゴリズムを、決定木を有する新しいベイズネットワーク208の構築が決定木および/または完全テーブル探索から得られるDAG中で完全テーブルDAGの半順序が考慮されるという主張とともに実施できるように制限することができる。例えば、完全テーブルのDAGがXからYへのダイレクトパスを備える場合、ベイズネットワーク学習アルゴリズムは、決定木を有するベイズネットワーク208におけるXの木の中でY上の分岐を禁止することができる。
コンストラクタ202は、データセット、DAG、ベイズネットなどの分析を容易にすることのできるプロセッサ(図示せず)を備えることができる。さらに、プロセッサは、例えばベイズネットワーク中のエッジの潜在的な構成を推定するのを促進するために、人工知能技法を利用することができる。本明細書で使用されるように、用語「推定」は一般に、イベントおよび/またはデータを介して取り込まれた観察のセットからシステム、環境、および/またはユーザの状態を推理または推定するプロセスを指す。推定を利用して、例えば、特定のコンテキストまたは動作を識別することができ、あるいは複数の状態にわたる確率分布を生成することができる。推定は、確率的、すなわちデータおよびイベントの考慮に基づいて、対象の複数の状態にわたる確率分布の算定とすることができる。推定はまた、イベントおよび/またはデータのセットからより高いレベルのイベントを構成するのに利用される技法を指すこともできる。このような推定の結果、観察されたイベントおよび/または記憶されたイベントデータのセットから、イベントが時間的に近接して相関していようとなかろうと、またイベントおよびデータが1つまたはいくつかのイベントおよびデータソースに由来していようとなかろうと、新しいイベントまたはアクションが構築される。様々な分類方式および/またはシステム(例えばサポートベクターマシン、ニューラルネットワーク、エキスパートシステム、ベイズ信念ネットワーク、ファジィ論理、データ融合エンジン、回帰法など)を、本発明と共に自動的および/または推定されたアクションを行うことに関連して利用することができる。
本明細書に述べる本発明は、局所分布として決定木を利用することを強調しているが、このような強調は本発明の説明を簡単にするために提供するものであり、本発明を利用して、決定木以外の条件付き分布を備えるベイズネットワークの構築および/または改良を促進することもできることを理解されたい。例えば、条件付き分布は、ニューラルネットワーク、ロジスティック/線形回帰モデル、サポートベクターマシン(SVM)などでもよい。さらに、あるノードで利用される条件付き分布のタイプは、別のノードで利用される条件付き分布のタイプと異なっていてもよい。前述の分布タイプに関して当業者には理解されるであろうが、学習アルゴリズムは、分布に対する該当する入力を識別するために特徴選択アルゴリズム(feature−selection algorithm)を必要とし、これらは次にベイズネットワーク中の親を定義する。決定木の中の変数上での分岐は、分岐が由来する変数を入力として選択する効果を有するので、従来の決定木学習アルゴリズムは自動的に特徴選択を行う。本明細書に開示するシステムおよび方法は、従来方法の欠点を克服することのできる、ベイズネットワークの改良されたヒューリスティック探索アルゴリズムを容易にする。このために、本発明は、例えば、コンピュータシステムにおける音声認識および/または手書き認識、蛋白質の構造および/または配列の分析、遺伝子配列決定などを促進するSVM分布のセットが入っている統計モデルの識別を向上することができる。この潜在的なアプリケーションのリストは、網羅的ではなく例示的な性質のものであり、本発明の範囲をどんな形でも限定するものではない。
図3は、本発明の一態様による、データセットからの決定木を有するベイズネットの構築を容易にするデータ操作の様々な段階を示すベイズネットワーク学習システム300の図である。学習システム300は、データセット302と、データセットから情報を抽出する手段306を有する完全テーブルを含むベイズネットワーク304と、完全テーブル304を有するベイズネットワークによって定義される半順序を使用して決定木を備えたベイズネットワーク308を学習するための学習手段310を有する決定木を備えたベイズネットワーク308とを備える。一実施例によれば、学習システム300は、データセット302にによって構成される情報を分析し、学習アルゴリズムを介して、完全テーブルを有するベイズネットワーク304を構築することができる。学習アルゴリズムは、完全テーブルネットワーク304中のエッジを反転することのできる探索アルゴリズムを備えることができる。このようなベイズネットワーク304に基づいて、完全テーブルDAGの半順序は、完全テーブルを有するベイズネットワーク304中のエッジの分析を介して、決定および/または定義することができる。半順序が評価されると、データセット302を手段312を介して再訪し再査定して、半順序を改善できるかどうかの分析を促進するために、完全テーブルを有するベイズネットワーク304によって定義されるDAGをデータセット302の他の潜在的な構成に対して評価および/または比較することができる。例えば、完全テーブルを有するベイズネットワーク304中の特定のエッジの操作(例えば反転、削除、追加など)がより最適な順序の達成を促進することになるかどうかに関して決定を行うことができる。このような判定が、順序を改善できることを示す場合は、よりよい順序の達成を促進するために、エッジを操作することができ、新しいベイズネットワーク308を決定木と共に局所分布中で学習することができる。このようなことは、決定木DAGを構築するときに完全テーブルDAGの半順序を考慮するベイズネット学習アルゴリズムを利用することによって促進することができる。
図4は、完全テーブルを備える単純な例示的ベイズネットワーク400の図である。完全テーブルは、分布の形状に関する情報を備えることができるので、ベイズネットワーク中のエッジを学習するのに有用である。例えば、決定木は、不完全な局所分布を備えることがあり、それにより形状情報が不足するということになることがある。完全テーブルを利用してベイズネットワークを学習することによって、従来の方法で必要とされるよりも貪欲でない探索を行なうことができ、それにより、データ依存の良好な順序を判定するのを促進する。図4に示す「V」構造は、このような情報豊富な順序構造の1つである。この図によれば、XおよびZがYに先行するはずである。このような順序が学習されると、これを例えば決定木学習モデルに対する制約として適用することができる。例えば、このような制約は、ある変数が元の順序において子孫である場合はその変数にエッジを追加することはできないと主張することができる。このようにして、ベイズネットワークなどの決定木を成長するために、順序化の高品質な近似を提供し、次いで微調整することができる。
本発明のこの態様によれば、図4に示すように、最初にXとZは互に独立している(例えばXに関する知識はZを知ることによって得ることはできない)。例えば、Xが雨の発生を表し、Zがランダムに時間指定されたスプリンクラーシステムを表し、Yが湿った草を表す場合、雨が降った(例えばXが真である)という知識は、スプリンクラーシステムも作動していなかった(例えばZもまた真である)ということを推測しない。しかし、第2の概略図は、Yが与えられた場合にXが統計的にZに依存することを示しており、したがって、スプリンクラーシステムが作動していて、草が湿っていることが分かっている場合は、雨が降った確率は低くなる。このようにして、本発明は、完全テーブルの検索中にデータの順序に関する情報を収集することができ、次いでこの順序情報を利用して、決定木の展開を促進することができる。
図4には、本発明の一態様により2つの変数間のエッジの方向を能動的に反転できるというアクションが起こりうるということを示すために、第1の概略図から第2の概略図への破線矢印が示されている。このようなエッジ反転は、ベイズネットワークを学習するときに葉ノードや木などについて最良のスコアを達成するのを促進する。
図5に、本発明の一態様によるエッジ反転手順500を示す。最初に、XとYの間にエッジを挿入し、XがYに依存することを示す。YとZの間に第2のエッジを挿入し、YがZに依存すること、および、Yが与えられた場合にXが今やZに依存することを示す。前述のように、例えばベイズネットワークを学習するのを促進するために、X−Y−Zの葉ノードにスコアを割り当てることができる。この時点で、最初に加えたエッジが誤った方向で挿入されたと判定することができる(例えばXはYに依存すべきでないなど)。このような判定は、例えば、葉ノード中の変数間における他の可能な依存関係に関して葉ノードのスコアを判定することによって行うことができる。代替の組合せの方が高いスコアを生じる(例えば正しさの尤度がより高い)場合は、そのような組合せはエッジ方向の反転によって実現することができる。このようにして、本発明は、従来の決定木を利用することに関連する問題を克服することができ、これはこれまで、エッジ方向の考慮がなかったために訂正することができなかった。
この例によれば、構造Z→Y←Xが学習された場合、このようなモデル構造は、XとZの周辺独立性を符号化しているので、例えばZ→Y→X,Z→Xよりも優れている可能性がある。局所分布が完全テーブルであるときは、探索オペレータは、エッジの方向を反転して、このような優れた順序または構造を促進することができる。このようにして、アルゴリズムが最初にエッジの方向を誤って適用した場合、アルゴリズムは後でこの誤りについて訂正することができる。上の例で、貪欲なアルゴリズムが空のネットワークで開始した場合、X→Yを追加することのスコアは、Y→Xの追加と同じになることになる。というのは、モデルX→YZとX←YZは、同じ独立性制約を符号化しているためである。これらのオペレータの両方が最良だと想定すると、貪欲なアルゴリズムはこれらの間で任意に選択することになる。最適モデルがX→Y←Zである場合、アルゴリズムは、後で反転することによってX←Yの追加から回復することができる。前述のように、同等のクラスのDAGが適切なオペレータと共に利用される場合、アルゴリズムはそのような任意のエラーから回復することができる。
上に図示し、記述した例示的なシステムに照らして、本発明により実施することのできる方法は、図6および7のフローチャートを参照してよりよく理解されるであろう。説明を簡単にするために、本方法を一連のブロックとして図示および記述するが、本発明によるいくつかのブロックは本明細書に図示および記述したのとは異なる順序で、そして/または他のブロックと同時に起こりうるので、本発明はブロックの順序によって制限されないことを理解および認識されたい。さらに、本発明による方法を実施するために、例示したすべてのブロックが必要であるとは限らない。
本発明は、1つまたは複数のコンポーネントによって実行されるプログラムモジュールなどのコンピュータ実行可能命令の一般的なコンテキストで述べることができる。一般に、プログラムモジュールは、特定のタスクを行うか特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、データ構造などを含む。通常、プログラムモジュールの機能は、様々な実施形態での要望に応じて組み合わせたり、分散したりすることができる。
図6に、本発明の一態様に従って、局所分布を表すために決定木を利用してベイズネットワークを学習する方法600を示す。方法600によれば、602で、完全なデータセットが入力される。604で、エッジを反転することのできる探索アルゴリズムを利用して、完全テーブルを有するベイズネットを学習することができる。606で、完全テーブルベイズネットワークから結果として得られるDAGを分析して、604で学習したベイズネットの半順序を判定することができる。
608で、DAGを利用して、決定木の成長に対する境界および/または制限を画定することができる。例えば、完全テーブルベイズネットのDAGがXからYへのダイレクトパスを備える場合、決定木ベイズネットにおいてXの木の中でY上の分岐を禁止することができる。このようにして、完全テーブルベイズネットから導出された順序を、決定木の成長に関する制約として適用することができ、それにより、高品質の順序近似が完全テーブルベイズネットによって達成することができ、ベイズネットワーク内の局所分布として決定木を成長させるために後でこれを微調整することができる。610で、決定木を局所分布中で利用する新しいベイズネットを構築するために、完全テーブルDAGによって定義される半順序を考慮した決定木を成長させることができる。
図7は、本発明の一態様に従って、完全データテーブルを使用してベイズネットワークを学習するための方法700の図である。702で、完全なデータセットが入力され、完全テーブルを有するベイズネットの半順序を判定するために、704で、学習アルゴリズムを利用してその中のノード間のエッジを識別する。学習アルゴリズムはさらに、完全テーブルベイズネット中のエッジを操作することのできる探索アルゴリズムを備えることができる。706で、完全テーブルベイズネット中でエッジスコアを増加することができるかどうかに関して判定が行われる。このような判定は、例えば、ノード間の相関性を測定して、ノードが統計的に依存する度合いを査定することによって行うことができる。このような判定は、従来利用可能であった方法よりも効率的な方法で順序構造を判定するのを促進する。例えば、エッジが2つのノード間に存在すると判定することは、これらのノードが統計的に依存することを示すことができるが、依存の大きさに関する情報を提供することはできない。エッジスコアを査定することにより、依存性の度合いを定量化することができる。これにより、最良の順序を判定して、ベイズネットなどの統計モデルの学習を促進することができる。
706での検討により、エッジスコアを増加することができることが示された場合は、708でこのような検討に従うことができ、スコアの低いエッジを、特定のエッジのスコアを改善するために削除、置換、反転するなどすることができ、したがって統計モデルの良好な順序を促進する。エッジを操作してより高いエッジスコアが達成されると、この方法をさらなる繰り返しのために704に戻ることができる。このようにして、方法700は、フィードバック/フィードフォワードループを利用して、データテーブル中の頂点の最適な順序を実現するために、繰り返しのエッジ置換および/または調整を可能にすることができる。加えて、706でエッジスコアを改善することができない(例えば現在のエッジの方が他の潜在的な構成よりも正しい確率が高いなど)と判定された場合は、方法は710に進むことができ、完全データテーブルを有するベイズネットから得られる半順序に少なくとも部分的に基づいて、決定木の成長を介してベイズネットワークを学習することができる。最適な決定木を有するベイズネットを学習すると、712でベイズネットを出力することができる。このように、方法700は、よりスコアの高いモデルの学習を可能にする順序を識別するのを促進するために、完全データテーブルを有するベイズネット中のエッジを操作することができ、これにより、改良された決定木ベイズネットの学習が容易になる。
本発明の様々な態様を実施するための追加のコンテキストを提供する目的で、図8および図9と後続の論考では、本発明の様々な態様を実施することのできる適したコンピューティング環境800および900の簡単かつ一般的な記述を提供する。本発明を、ローカルコンピュータおよび/またはリモートコンピュータ上で稼働しているコンピュータプログラムのコンピュータ実行可能命令の一般的なコンテキストで上述したが、本発明はその他のプログラムモジュールと組み合わせて実施することもできることを当業者は理解するであろう。一般に、プログラムモジュールは、特定のタスクを行うか、特定の抽象データ型を実装するルーチン、プログラム、コンポーネント、データ構造などを含む。さらに、本発明の方法は、その他のコンピュータシステム構成で実施することもできることを当業者は理解するであろう。その他のコンピュータシステム構成には、シングルプロセッサまたはマルチプロセッサのコンピュータシステム、ミニコンピュータ、メインフレームコンピュータ、ならびにパーソナルコンピュータ、ハンドヘルドコンピューティングデバイス、マイクロプロセッサベースまたはプログラム可能な民生用電子機器などが含まれ、これらはそれぞれ、1つまたは複数の関連するデバイスと動作可能に通信することができる。本発明の例示した態様はまた、通信ネットワークを介してリンクされたリモート処理デバイスによって特定のタスクが行なわれる分散コンピューティング環境で実施することもできる。しかし、本発明の態様でなければいくつかは、スタンドアローンコンピュータ上で実施することができる。分散コンピューティング環境では、プログラムモジュールは、ローカルおよび/またはリモートのメモリストレージデバイスに位置することがある。
本明細書で使用するように、用語「コンポーネント」は、コンピュータ関連のエンティティを指し、ハードウェア、ハードウェアとソフトウェアの組合せ、ソフトウェア、実行中のソフトウェアのいずれかとする。例えばコンポーネントは、限定しないが、プロセッサ上で稼働しているプロセス、プロセッサ、オブジェクト、実行ファイル、実行のスレッド、プログラム、コンピュータとすることができる。例示の目的で、サーバ上で稼働しているアプリケーションおよび/またはサーバは、コンポーネントとすることができる。加えて、コンポーネントは1つまたは複数のサブコンポーネントを含むことができる。
図8を参照すると、本発明の様々な態様を実施するための例示的なシステム環境800は、従来型のコンピュータ802を備え、コンピュータ802は、処理ユニット804と、システムメモリ806と、システムメモリを含む様々なシステムコンポーネントを処理ユニット804に結合するシステムバス808とを含む。処理ユニット804は、任意の市販のまたは独自仕様のプロセッサとすることができる。加えて、処理ユニットは、並列に接続できるものなど、複数のプロセッサで形成されたマルチプロセッサとして実装することができる。
システムバス808は、メモリバスまたはメモリコントローラ、周辺バス、様々な従来のバスアーキテクチャのいずれかを用いたローカルバスを含むいくつかのタイプのバス構造のいずれかとすることができ、従来のバスアーキテクチャのいくつかの例としては、PCI、VESA、マイクロチャンネル、ISA、EISAなどが挙げられる。システムメモリ806は、読取り専用メモリ(ROM)810およびランダムアクセスメモリ(RAM)812を備える。起動中などにコンピュータ802内の要素間で情報を転送するのを助ける基本ルーチンが入ったBIOS(basic input/output system)814はROM810に格納されている。
コンピュータ802はまた、例えば、ハードディスクドライブ816、例えばリムーバブルディスク820に対して読み書きするための磁気ディスクドライブ818、例えばCD−ROMディスク824またはその他の光学媒体に対して読み書きするための光ディスクドライブ822を備えることもできる。ハードディスクドライブ816、磁気ディスクドライブ818、光ディスクドライブ822は、それぞれハードディスクドライブインターフェース826、磁気ディスクドライブインターフェース828、光ドライブインターフェース830によってシステムバス808に接続される。ドライブ816〜822およびそれらの関連するコンピュータ可読媒体は、データ、データ構造、コンピュータ実行可能命令など、コンピュータ802の不揮発性記憶域を提供する。上記のコンピュータ可読媒体の記述ではハードディスク、リムーバブル磁気ディスク、CDについて言及したが、磁気カセット、フラッシュメモリカード、デジタルビデオディスク、ベルヌーイカートリッジなど、コンピュータによって読取り可能なその他のタイプの媒体をこの例示的な動作環境800で使用することもでき、さらにこのような媒体はいずれも、本発明の方法を行うためのコンピュータ実行可能命令を収容することができることを当業者は理解されたい。
ドライブ816〜822およびRAM812には、オペレーティングシステム832、1つまたは複数のアプリケーションプログラム834、その他のプログラムモジュール836、プログラムデータ838を含む、いくつかのプログラムモジュールを格納することができる。オペレーティングシステム832は、任意の適したオペレーティングシステム、またはオペレーティングシステムの組合せとすることができる。例として、アプリケーションプログラム834およびプログラムモジュール836は、本発明の一態様にしたがってデータセットを利用するモデル(またはパターン)および/または依存性ネットワークを備えることができる。加えて、プログラムデータ838は、本発明の一態様に従ってモデル(またはパターン)が生成される入力データ、および/または照会が行われる入力データを備えることができる。
ユーザは、キーボード840やポインティングデバイス(例えばマウス842)など、1つまたは複数のユーザ入力デバイスを介して、コマンドおよび情報をコンピュータ802に入力することができる。その他の入力デバイス(図示せず)には、マイクロフォン、ジョイスティック、ゲームパッド、衛星アンテナ、ワイヤレスリモート、スキャナなどを含めることができる。これらおよび他の入力デバイスは、システムバス808に結合されたシリアルポートインターフェース844を介して処理ユニット804に接続されることが多いが、パラレルポート、ゲームポート、ユニバーサルシリアルバス(USB)など、その他のインターフェースによって接続することもできる。モニタ846または他のタイプの表示デバイスも、ビデオアダプタ848などのインターフェースを介してシステムバス808に接続される。モニタ846に加えて、コンピュータ802は、スピーカやプリンタなど、その他の周辺出力デバイス(図示せず)を備えることができる。
コンピュータ802は、1つまたは複数のリモートコンピュータ860との論理接続を用いて、ネットワーク化された環境で動作することができることを理解されたい。リモートコンピュータ860は、ワークステーション、サーバコンピュータ、ルータ、ピアデバイス、またはその他の共通ネットワークノードとすることができ、通常はコンピュータ802に関して述べた要素の多くまたはすべてを備える。ただし、簡単にするために図8にはメモリストレージデバイス862のみを示している。図8に示した論理接続は、ローカルエリアネットワーク(LAN)864およびワイドエリアネットワーク(WAN)866を備えることができる。このようなネットワーキング環境は、オフィス、企業全体のコンピュータネットワーク、イントラネット、インターネットで一般的である。
例えば、LANネットワーキング環境で利用されるときは、コンピュータ802は、ネットワークインターフェースまたはアダプタ868を介してローカルネットワーク864に接続される。WANネットワーキング環境で利用されるときは、コンピュータ802は通常、モデム(例えば電話、DSL、ケーブルなど)870を備えるか、またはLAN上の通信サーバに接続されるか、インターネットなどのWAN866を介して通信を確立するための他の手段を有する。モデム870はコンピュータ802に対して内蔵でも外付けでもよく、シリアルポートインターフェース844を介してシステムバス808に接続される。ネットワーク化された環境では、プログラムモジュール(アプリケーションプログラム834を含む)および/またはプログラムデータ838を、リモートのメモリストレージデバイス862に格納することができる。図示したネットワーク接続は例示的であり、本発明の一態様を履行するときに、コンピュータ802と860との間で通信リンクを確立する他の手段(例えば有線または無線)を使用することができることは理解されるであろう。
コンピュータプログラミングに精通した者のプラクティスに従い、本発明は、特に指示しない限り、コンピュータ802やリモートコンピュータ860などのコンピュータによって行われる操作のアクトおよびシンボル表現を参照して述べた。このようなアクトおよび操作は、時にコンピュータにより実行されると言われる。アクトおよびシンボル的に表した操作には、データビットを表す電気信号の処理ユニット804による操作を含み、これにより、結果として得られる電気信号表現を変換または圧縮し、メモリシステム(システムメモリ806、ハードドライブ816、フロッピー(登録商標)ディスク820、CD−ROM824を含む)中のメモリロケーションでデータビットを維持し、それによってコンピュータシステムの動作ならびに信号のその他の処理を再構成するか、そうではなければ変更させることが理解されるであろう。このようなデータビットが維持されるメモリロケーションは、そのデータビットに対応する特定の電気的、磁気的、または光学的特性を有する物理的位置である。
図9は、本発明が対話することのできる例示的なコンピューティング環境900の別のブロック図である。システム900はさらに、1つまたは複数のクライアント902を備えるシステムを示している。クライアント902は、ハードウェアおよび/またはソフトウェア(例えばスレッド、プロセス、コンピューティングデバイス)とすることができる。システム900はまた、1つまたは複数のサーバ904を含む。サーバ904もまた、ハードウェアおよび/またはソフトウェア(例えばスレッド、プロセス、コンピューティングデバイス)とすることができる。サーバ904は、例えば、本発明を利用することにより変換を行うためのスレッドを収納することができる。クライアント902とサーバ904との間の可能な通信の1つは、複数のコンピュータプロセス間で伝送されるように適合されたデータパケットの形態とすることができる。システム900は、クライアント902およびサーバ904の間の通信を容易にするのに利用することができる通信フレームワーク908を備える。クライアント902は、クライアント902に対してローカルな情報を格納するのに利用することができる1つまたは複数のクライアントデータストア910に動作可能に接続される。同様に、サーバ904は、サーバ904に対してローカルな情報を格納するのに利用することができる1つまたは複数のサーバデータストア906に動作可能に接続される。
本発明の装置、システム、および/または方法は、コンピュータコンポーネントおよび非コンピュータ関連コンポーネントなどを促進する節電方式全体で利用することができることを理解されたい。さらに、本発明の装置、システム、および/または方法は、限定しないがコンピュータ、サーバ、および/またはハンドヘルド電子デバイスなどを含む様々な電子関連技術で利用することができることを当業者は理解するであろう。
上記の記述は、本発明の実施例を含む。当然、本発明を記述する目的で考えられるあらゆるコンポーネントまたは方法の組合せについて述べることは不可能であるが、本発明の多くのさらなる組合せおよび置換が可能であることを当業者は理解するであろう。したがって本発明は、添付の請求項の趣旨および範囲内に入るすべてのそのような代替形態、修正形態、変更形態を包含するものとする。さらに、詳細な説明または特許請求の範囲で「含む、備える(include)」という語が使用される限りにおいて、このような語は、請求項における移行語として用いられた場合に解釈される「含む、備える(comprising)」という語と同様に包含的であるものとする。
本発明の一態様による例示的なベイズネットワークを示す図である。 本発明の一態様によるベイズネットワーク学習システムのブロック図である。 本発明の一態様によるベイズネットワーク学習システムの別のブロック図である。 本発明の一態様による例示的なノード−エッジ構成を示す図である。 本発明の一態様による葉ノード接続を示す図である。 本発明の一態様による決定木を有するベイズネットワークを学習するための方法を示す流れ図である。 本発明の一態様による決定木を有するベイズネットワークを学習するための方法を示す別の流れ図である。 本発明が機能することのできる例示的な動作環境を示す図である。 本発明が機能することのできる別の例示的な動作環境を示す図である。
符号の説明
100 ベイズネットワーク
102、106、110 ノード
104、108 アーク
200 ベイズネット学習システム
202 ベイズネットワークコンストラクタ
204 データセット
206 完全表を有するベイズネット
208 決定木を有するベイズネット
300 ベイズネットワーク学習システム
302 データセット
304 完全データ表を備えるベイズネット
306 情報を抽出する手段
308 決定木を供えるベイズネット
310 学習するための学習手段
312 再訪および再査定する手段
400 完全テーブルを備える単純な例示的ベイズネットワーク
800 コンピューティング環境
802 コンピュータ
804 処理ユニット
806 システムメモリ
808 バス
810 ROM
812 RAM
814 BIOS
816 ハードディスクドライブ
818 磁気ディスクドライブ
820 リムーバブルディスク
822 光ディスクドライブ
824 CD−ROMディスク
826 ハードディスクドライブインターフェース
828 磁気ディスクドライブインターフェース
830 光ドライブインターフェース
832 オペレーティングシステム
834 アプリケーションプログラム
836 その他のプログラムモジュール
838 プログラムデータ
840 キーボード
842 マウス
844 シリアルポートインターフェース
846 モニタ
848 ビデオアダプタ
860 リモートコンピュータ
862 メモリストレージデバイス
864 ローカルエリアネットワーク
866 ワイドエリアネットワーク
868 ネットワークインターフェース
870 モデム
900 コンピューティング環境
902 クライアント
904 サーバ
906 サーバデータストア
908 通信フレームワーク
910 クライアントデータストア

Claims (29)

  1. 局所分布を有するベイズネットワークの学習を促進するシステムであって、少なくとも1つの分布は完全テーブルではなく、
    完全なデータセットと、
    完全テーブルベイズネットワークを構築して前記完全なデータセット中のデータの局所分布を表し、完全テーブルベイズネットワーク中のエッジを反転することのできる学習アルゴリズムを利用して決定木ベイズネットワークの学習を促進するベイズネットワークコンストラクタコンポーネントと
    を備えたことを特徴とするシステム。
  2. 前記ベイズネットワークコンストラクタコンポーネントはさらに、前記完全テーブルベイズネットワークから結果として得られる有向非周期グラフを分析して、前記完全テーブルベイズネットワークの半順序を判定することを特徴とする請求項1に記載のシステム。
  3. 前記学習アルゴリズムは、前記完全テーブルベイズネットワークの有向非周期グラフの半順序に対して前記局所分布の構築を可能にすることを特徴とする請求項2に記載のシステム。
  4. 前記ベイズネットワークコンストラクタコンポーネントは、前記完全テーブルベイズネットワーク中の各エッジのスコアを判定することを特徴とする請求項1に記載のシステム。
  5. 前記ベイズネットワークコンストラクタコンポーネントは、前記完全テーブルベイズネットワーク中の少なくとも1つの他の潜在的なエッジ構成のスコアを判定して、エッジのスコアを改善できるかどうか査定することを特徴とする請求項4に記載のシステム。
  6. 前記ベイズネットワークコンストラクタコンポーネントは、前記完全テーブルベイズネットワーク中の少なくとも1つのエッジの操作により前記エッジのスコアが改善される場合に、前記エッジを操作することを特徴とする請求項5に記載のシステム。
  7. 前記局所分布は、少なくとも1つの決定木を備えたことを特徴とする請求項6に記載のシステム。
  8. 前記局所分布は、少なくとも1つのサポートベクターマシンを備えたことを特徴とする請求項6に記載のシステム。
  9. 前記局所分布は、少なくとも1つのロジスティック回帰を備えたことを特徴とする請求項6に記載のシステム。
  10. 完全テーブルではない少なくとも1つの分布を有するベイズネットワークを学習するための方法であって、
    完全なデータセットを入力することと、
    完全テーブルを備える第1のベイズネットワークを学習することと、
    完全テーブルベイズネットワークの有向非周期グラフを分析することと、
    少なくとも1つの完全テーブルではない分布を有する分布を備える第2のベイズネットワークを学習することと
    を備えることを特徴とする方法。
  11. 前記第1のベイズネットワークを学習することは、前記完全テーブルベイズネットワーク中のエッジを反転することができる探索アルゴリズムを利用することを備えることを特徴とする請求項10に記載の方法。
  12. 前記完全テーブルベイズネットワーク中の少なくとも1つのエッジのスコアを判定することをさらに備えることを特徴とする請求項11に記載の方法。
  13. 前記完全テーブルベイズネットワーク中の他の潜在的なエッジ構成のスコアを判定することをさらに備えることを特徴とする請求項12に記載の方法。
  14. 前記少なくとも1つのエッジのスコアを別の潜在的なエッジ構成のスコアと比較して、前記少なくとも1つのエッジのスコアを改善できるかどうか判定することをさらに備えることを特徴とする請求項13に記載の方法。
  15. 前記少なくとも1つのエッジのスコアを改善できると判定された場合に、前記少なくとも1つのエッジを操作して前記少なくとも1つのエッジのスコアを改善することによって、前記完全テーブルベイズネットワークを精緻化することをさらに備えることを特徴とする請求項14に記載の方法。
  16. どのエッジスコアも改善できないと判定された場合に、前記完全テーブルベイズネットワーク中のエッジを操作するのを控えることをさらに備えることを特徴とする請求項15に記載の方法。
  17. どのエッジスコアも改善できないと判定されると、前記完全テーブルベイズネットワークの有向非周期グラフに基づいて、前記第2のベイズネットワーク中の局所分布の構築に関する制約のセットを導出することをさらに備えることを特徴とする請求項16に記載の方法。
  18. 前記制約のセットを導出することは、前記完全テーブルベイズネットワークの有向非周期グラフを評価して、精緻化された完全テーブルベイズネットワーク中のすべてのエッジを識別することを備えることを特徴とする請求項17に記載の方法。
  19. 前記第2のベイズネットワークを学習することは、前記精緻化された完全テーブルベイズネットワークの有向非周期グラフの半順序を考慮する制約付き学習アルゴリズムを利用することを備えることを特徴とする請求項18に記載の方法。
  20. 前記第2のベイズネットワークを規定する局所分布として決定木を成長させることをさらに備えることを特徴とする請求項19に記載の方法。
  21. 少なくとも1つのエッジのスコアを判定することは、
    前記少なくとも1つのエッジによって接続されたノード間の依存性の度合いを判定することと、
    前記少なくとも1つのエッジによって接続されたノード間の依存性の方向を判定することと、
    前記少なくとも1つのエッジによって接続されたノード間の依存性の方向に少なくとも部分的に基づいて、前記少なくとも1つのエッジの方向が正しいかどうか査定することと
    を備えることを特徴とする請求項12に記載の方法。
  22. 前記少なくとも1つのエッジのスコアを前記ノードと前記少なくとも1つのエッジとの他のすべての考えられる構成のスコアと比較することによって、前記少なくとも1つのエッジのスコアが考えられる最良のスコアであるかどうか判定することをさらに備えることを特徴とする請求項21に記載の方法。
  23. 前記少なくとも1つのエッジのスコアが前記ノードと前記少なくとも1つのエッジとの別の考えられる構成のスコアよりも低い場合は、前記エッジの方向を反転してエッジスコアを改善することをさらに備えることを特徴とする請求項22に記載の方法。
  24. 複数のコンピュータコンポーネント間で伝送され、データアクセスを容易にするデータパケットであって、完全データテーブルに基づくモデルまたはパターンに少なくとも部分的に基づくデータセット情報を備えたことを特徴とするデータパケット。
  25. 前記データパケットは、前記データセットに直接基づくデータセット情報をさらに備えたことを特徴とする請求項24に記載のデータパケット。
  26. 前記データパケットは、完全データテーブルに基づくデータセット情報をさらに備えたことを特徴とする請求項25に記載のデータパケット。
  27. 複数のコンピュータコンポーネント間で伝送され、データアクセスを容易にするデータパケットであって、前記データパケットは、完全データテーブルを有するベイズネットワークに部分的に基づいて決定木を有するベイズネットワークを学習するために使用可能なデータセット情報を備えたことを特徴とするデータパケット。
  28. コンピュータ、サーバ、ハンドヘルド電子デバイスのうちの少なくとも1つを備えたことを特徴とする請求項1に記載のシステムを利用するデバイス。
  29. 決定木を有するベイズネットワークを学習するのを促進するシステムであって、
    データセットから完全テーブルベイズネットワークを学習するための手段と、
    前記完全テーブルベイズネットワークから結果として得られる有向非周期グラフを精緻化するための手段と、
    少なくとも1つの完全テーブルではない分布を有するベイズネットワークを学習するための手段であって、前記完全テーブルベイズネットの有向非周期グラフの半順序によって課される制約に従って局所分布が構築される手段と
    を備えたことを特徴とするシステム。
JP2005088779A 2004-03-25 2005-03-25 テーブルを使用したツリーの学習 Pending JP2005276225A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/809,054 US7320002B2 (en) 2004-03-25 2004-03-25 Using tables to learn trees

Publications (2)

Publication Number Publication Date
JP2005276225A true JP2005276225A (ja) 2005-10-06
JP2005276225A5 JP2005276225A5 (ja) 2008-05-08

Family

ID=34939031

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005088779A Pending JP2005276225A (ja) 2004-03-25 2005-03-25 テーブルを使用したツリーの学習

Country Status (5)

Country Link
US (1) US7320002B2 (ja)
EP (1) EP1589473A2 (ja)
JP (1) JP2005276225A (ja)
KR (1) KR20060044772A (ja)
CN (1) CN100419754C (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014089191A (ja) * 2007-02-09 2014-05-15 Ge Healthcare Bioscience Corp 生体物質の動きを追跡するシステム及び方法
JP2019204499A (ja) * 2018-03-29 2019-11-28 日本電気株式会社 データ処理方法および電子機器
JP2019207685A (ja) * 2018-04-16 2019-12-05 日本電気株式会社 観測変数間の因果関係を推定するための方法、装置、およびシステム

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006016942A1 (en) * 2004-07-07 2006-02-16 Exxonmobil Upstream Research Company Predicting sand-grain composition and sand texture
MX2007000170A (es) * 2004-07-07 2007-03-30 Exxonmobil Upstream Res Co Aplicaciones de red bayesiana para geologia y geografia.
US20060212279A1 (en) * 2005-01-31 2006-09-21 The Board of Trustees of the University of Illinois and Methods for efficient solution set optimization
AU2007231209B2 (en) 2006-03-24 2011-02-03 Bae Systems Plc Method and system of decision making for distributed information distribution networks
US7562088B2 (en) * 2006-12-27 2009-07-14 Sap Ag Structure extraction from unstructured documents
US7739213B1 (en) * 2007-03-06 2010-06-15 Hrl Laboratories, Llc Method for developing complex probabilistic models
US8140301B2 (en) * 2007-04-30 2012-03-20 International Business Machines Corporation Method and system for causal modeling and outlier detection
US8005770B2 (en) * 2008-06-09 2011-08-23 Microsoft Corporation Parallel generation of a bayesian network
JP2010044637A (ja) * 2008-08-14 2010-02-25 Just Syst Corp データ処理装置、方法、及びプログラム
US8040798B2 (en) * 2008-09-25 2011-10-18 Microsoft Corporation Discovering communication rules in a network trace
US9286371B2 (en) * 2010-12-23 2016-03-15 Sap Se Presenting a multidimensional decision table
GB2510422A (en) * 2013-02-05 2014-08-06 Inst Of Comp Science Learning a Bayesian network from data in parallel
CN103324750A (zh) * 2013-07-04 2013-09-25 莫志鹏 一种基于贝叶斯网络的图片集个性化筛选方法
US9489639B2 (en) 2013-11-13 2016-11-08 Microsoft Technology Licensing, Llc Memory facilitation using directed acyclic graphs
US9760835B2 (en) * 2014-08-20 2017-09-12 International Business Machines Corporation Reasoning over cyclical directed graphical models
US10487649B2 (en) * 2015-03-26 2019-11-26 Schlumberger Technology Corporation Probabalistic modeling and analysis of hydrocarbon-containing reservoirs
CA2960505C (en) * 2016-03-10 2018-12-11 Tata Consultancy Services Limited System and method for visual bayesian data fusion
US10678967B2 (en) * 2016-10-21 2020-06-09 International Business Machines Corporation Adaptive resource reservoir development
WO2020180479A1 (en) * 2019-03-05 2020-09-10 Hrl Laboratories, Llc Network -composition. module for a bayesian neuromorphic compiler
CN114691342B (zh) * 2022-05-31 2022-09-20 蓝象智联(杭州)科技有限公司 一种联邦学习算法组件优先级调度实现方法、装置及存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6128613A (en) * 1997-06-26 2000-10-03 The Chinese University Of Hong Kong Method and apparatus for establishing topic word classes based on an entropy cost function to retrieve documents represented by the topic words
US6807537B1 (en) * 1997-12-04 2004-10-19 Microsoft Corporation Mixtures of Bayesian networks
US6532305B1 (en) * 1998-08-04 2003-03-11 Lincom Corporation Machine learning method
US6502082B1 (en) 1999-06-01 2002-12-31 Microsoft Corp Modality fusion for object tracking with training system and method
US6499025B1 (en) 1999-06-01 2002-12-24 Microsoft Corporation System and method for tracking objects by fusing results of multiple sensing modalities
US6727914B1 (en) * 1999-12-17 2004-04-27 Koninklijke Philips Electronics N.V. Method and apparatus for recommending television programming using decision trees
US7113988B2 (en) 2000-06-29 2006-09-26 International Business Machines Corporation Proactive on-line diagnostics in a manageable network
US6895398B2 (en) * 2000-07-18 2005-05-17 Inferscape, Inc. Decision engine and method and applications thereof
WO2002057946A1 (en) * 2001-01-18 2002-07-25 The Board Of Trustees Of The University Of Illinois Method for optimizing a solution set
US8140569B2 (en) * 2003-05-29 2012-03-20 Microsoft Corporation Dependency network based model (or pattern)
US20040199484A1 (en) * 2003-04-04 2004-10-07 Laurence Smith Decision tree analysis

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG200401858006, 木村 陽一, "ベイズ統計・統計力学と情報処理", 計測と制御, 20030810, 第42巻第8号, p.649〜p.654, JP, 社団法人計測自動制御学会 *
JPN6010049223, 木村 陽一, "ベイズ統計・統計力学と情報処理", 計測と制御, 20030810, 第42巻第8号, p.649〜p.654, JP, 社団法人計測自動制御学会 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014089191A (ja) * 2007-02-09 2014-05-15 Ge Healthcare Bioscience Corp 生体物質の動きを追跡するシステム及び方法
JP2019204499A (ja) * 2018-03-29 2019-11-28 日本電気株式会社 データ処理方法および電子機器
JP2021061055A (ja) * 2018-03-29 2021-04-15 日本電気株式会社 データ処理方法および電子機器
US11461344B2 (en) 2018-03-29 2022-10-04 Nec Corporation Data processing method and electronic device
JP7392668B2 (ja) 2018-03-29 2023-12-06 日本電気株式会社 データ処理方法および電子機器
JP2019207685A (ja) * 2018-04-16 2019-12-05 日本電気株式会社 観測変数間の因果関係を推定するための方法、装置、およびシステム

Also Published As

Publication number Publication date
CN100419754C (zh) 2008-09-17
CN1674008A (zh) 2005-09-28
US7320002B2 (en) 2008-01-15
KR20060044772A (ko) 2006-05-16
US20050216496A1 (en) 2005-09-29
EP1589473A2 (en) 2005-10-26

Similar Documents

Publication Publication Date Title
JP2005276225A (ja) テーブルを使用したツリーの学習
Shrikumar et al. Technical note on transcription factor motif discovery from importance scores (TF-MoDISco) version 0.5. 6.5
Waring et al. Automated machine learning: Review of the state-of-the-art and opportunities for healthcare
Chen et al. Harp: Hierarchical representation learning for networks
Jin et al. Bayesian symbolic regression
Bosman et al. Continuous iterated density estimation evolutionary algorithms within the IDEA framework
Fu et al. Markov blanket based feature selection: a review of past decade
US7324981B2 (en) System and method of employing efficient operators for Bayesian network search
Acid et al. Learning Bayesian network classifiers: Searching in a space of partially directed acyclic graphs
Tsirlis et al. On scoring maximal ancestral graphs with the max–min hill climbing algorithm
US11651216B2 (en) Automatic XAI (autoXAI) with evolutionary NAS techniques and model discovery and refinement
Hameed et al. An optimized case-based software project effort estimation using genetic algorithm
Liu et al. A survey on computationally efficient neural architecture search
Auliac et al. Evolutionary approaches for the reverse-engineering of gene regulatory networks: A study on a biologically realistic dataset
Khanteymoori et al. A novel method for Bayesian networks structure learning based on Breeding Swarm algorithm
Deac et al. Neural algorithmic reasoners are implicit planners
Shyam et al. Competitive analysis of the top gradient boosting machine learning algorithms
Pahariya et al. Software cost estimation using computational intelligence techniques
de Castro et al. BAIS: A Bayesian Artificial Immune System for the effective handling of building blocks
Vento et al. Traps, pitfalls and misconceptions of machine learning applied to scientific disciplines
CN111126443A (zh) 基于随机游走的网络表示学习方法
Banga Computational hybrids towards software defect predictions
JPWO2011016281A1 (ja) ベイジアンネットワーク構造学習のための情報処理装置及びプログラム
Loyola et al. Learning graph representations for defect prediction
CN109255722B (zh) 一种基于邻居拓扑的复杂网络层次分析系统及方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080325

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080325

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100827

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110204