JP2019204499A

JP2019204499A - データ処理方法および電子機器

Info

Publication number: JP2019204499A
Application number: JP2019063338A
Authority: JP
Inventors: チュンチェンリュウ; Chunchen Liu; ウェンジュアンウェイ; Wenjuan Wei; ルーフェン; Lu Feng
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2018-03-29
Filing date: 2019-03-28
Publication date: 2019-11-28
Anticipated expiration: 2039-03-28
Also published as: JP6822509B2; US11461344B2; US20190303368A1; JP2021061055A; CN110555047B; JP7392668B2; WO2019185039A1; CN110555047A

Abstract

【課題】データマイニングおよび機械学習の分野に関し、複数の変数間の因果関係を正確に決定することができるデータ処理方法および電子機器を提供する。【解決手段】複数の変数の観測データに基づいて、複数の変数間の因果関係を表すモデルを取得し、取得されたモデルに基づいて、複数の変数の中で直接の因果関係を有する第１および第２の変数を決定し、第１および第２の変数が互いに独立しているかどうかを決定し、第１および第２の変数が互いに独立していることに応答して、取得されたモデルから第１および第２の変数との間の直接の因果関係を削除する。【選択図】図４

Description

本開示の実施形態は、データマイニングおよび機械学習の分野に関し、より詳細には、複数の変数間の因果関係を決定するためのデータ処理方法、電子機器、およびコンピュータ可読記憶媒体に関する。

情報技術の急速な発展に伴い、データは規模が拡大している。ビッグデータの時代には、さまざまなデータ収集アプローチを通じて大量のデータが取得される可能性がある。そのようなデータに対してデータ分析およびマイニングを実行することによって、多くの有用な情報を得ることができる。しかしながら、様々な応用分野では、システムの外観または実行性能しか観察することができず、システムの背後にある複雑なメカニズムおよび動作のプロセスについての洞察を得ることは困難であり、経験的な理解しか得られない。

因果関係学習は、システムの背後にある複雑な動作メカニズムを自動的にコンピュータで復元し、システムの観測データに基づいてデータ生成プロセスを再現することを目的とする。現在、因果関係学習は、市場分析、薬局、製造業などのさまざまな分野に適用されており、システムの性質に関する洞察を得て、さらに意思決定を導く。例えば、商品小売の分野では、商品売上が減少した場合、因果関係学習技術は、売上関連データを分析することによって売上減少の原因を突き止めることができ、それによって販売者が売上を改善するのを助ける。別の例として、ヘルスケアの分野では、因果関係学習技術は、彼らの顧客の解約の根本的原因を分析することによってヘルスケアセンターを支援し、彼らの顧客保持スキームの開発を支援することができる。別の例として、ソフトウェア開発の分野では、因果関係学習技術は、開発中のプロジェクトに遅延や低品質などのリスクがあるかどうかのタイムリーな予測を支援し、ソフトウェア開発の自動管理を支援するようにリスクの原因を突き止めることができる。

現在、因果関係ベイズネットワークは、因果関係を発見するための主流の方法である。それはさらに統計的独立性ベースの方法（例えば、制約に基づく方法）とスコアベースの方法に分けられる。しかしながら、これら２種類の方法で得られる因果関係の精度は、一般的に満足のいくものではない。

本開示の実施形態は、因果関係を正確に得ることができるデータ処理方法、電子機器、およびコンピュータ可読記憶媒体を提供する。

本開示の第１の態様では、データ処理方法が提供される。前記方法は、複数の変数の観測データのセットに基づいて、前記複数の変数間の因果関係を表すモデルを取得することを備える。前記方法は、前記モデルに基づいて、前記複数の変数の中で直接の因果関係を有する第１および第２の変数を決定することをさらに備える。前記方法は、前記第１および第２の変数が互いに独立しているかどうかを決定することをさらに備える。前記方法は、前記第１および第２の変数が互いに独立していることに応答して、前記モデルから前記第１および第２の変数との間の前記直接の因果関係を削除することをさらに備える。

本開示の第２の態様では、プロセッサと、前記プロセッサによって実行されると電子機器に以下の動作を実行させる命令を記憶したメモリとを備える電子機器が提供される。以下の動作は、複数の変数の観測データのセットに基づいて、前記複数の変数間の因果関係を表すモデルを取得し、前記モデルに基づいて、前記複数の変数の中で直接の因果関係を有する第１および第２の変数を決定し、前記第１および第２の変数が互いに独立しているかどうかを決定し、前記第１および第２の変数が互いに独立していることに応答して、前記モデルから前記第１および第２の変数との間の前記直接の因果関係を削除する。

第３の態様では、コンピュータ実行可能命令が記憶され、前記コンピュータ実行可能命令が実行されると、本開示の第１の態様による方法をコンピュータに実行させるコンピュータ可読記憶媒体が提供される。

この概要は、詳細な説明において以下でさらに説明される概念の選択を単純化された形で紹介するために提供される。この概要は、請求される主題の主要な特徴または本質的な特徴を識別することを意図されておらず、特許請求される主題の範囲を限定するために使用されることも意図されていない。

添付の図面を参照した以下の詳細な説明を通して、本開示の例示的な実施形態の上記および他の目的、特徴、および利点がより明らかになるであろう。本開示の実施形態例において、同じ参照符号は通常同じ構成要素を表す。

図１は、本開示の実施形態を実施することができる例示的なランタイム環境を示す概略図である。

図２は、図１のモデルトレーニングシステムを用いて取得された初期因果関係モデルを示す図である。

図３は、図１のモデルオプティマイゼーションシステムによって出力された最適化因果関係モデルを示す図である。

図４は、本開示の実施形態によるデータ処理方法のフローチャートを示す。

図５は、本開示の実施形態による、２つの変数が独立しているかどうかを決定する方法のフローチャートを示す。

図６は、本開示の実施形態を実施するために使用することができる例示的な機器の概略ブロック図である。

本開示の原理は、図面に示されるいくつかの例示的な実施形態を参照して以下に説明され得る。本開示の好ましい実施形態が図面に示されているが、これらの実施形態は、本開示の範囲を限定するのではなく、当業者が本開示をよりよく理解し、どんな方法においても、さらに実施することを可能にするためにのみ記載される。

「第１」および「第２」という用語は、１つの要素を他の要素と区別するためにのみ使用されていることを理解されたい。実際のところ、第１の要素は第２の要素とも呼ばれ得、逆もまた同様である。本開示の実施形態では、「モデル」という用語は一般に、システムの特徴を参照して数学的言語で一般的にまたは近似的に表現される特定のシステムの関係構造を指す。「因果関係モデル」という用語は、一般に、システムの因果関係構造を記述するモデルを指す。

上述したように、実生活では、ビッグデータに存在する内部関係、例えば複数の要因間の因果関係（本願では「変数」とも呼ぶ）が決定されることをコンピュータが理解できることが望まれることが多い。特定の分野に適切な決定を提供するために、ビッグデータに対する分析に基づく。従来の方式では、複数の変数間の因果関係は、通常、統計的独立性ベースの方法およびスコアベースの方法で発見される。統計的独立性ベースの方法は、独立性検出を用いて、変数間に因果関係があるかどうか、および因果関係の方向があるかどうかを判断する。代表的なアルゴリズムは、ＰＣ（Perter-Clark）アルゴリズム、安定型ＰＣ、ＰＣＩ（Fast Causal Inference）などを含む。しかし、因果関係発見プロセス中の独立性テストの精度および決定誤差の伝達性の制約のため、発見される因果関係の正確さは理想的ではない。

スコアベースの方法は、分解可能なスコアリング基準を設計することによって観測データと因果関係ネットワークとの間の適合度を測定し、スコアリング基準を用いて最適な因果関係ネットワーク、例えばＧＥＳ（Greedy Equivalence Search）の検索を導き得る。しかし、既存のスコアリング基準の大部分は、観測変数の目標変数への適合度を主に考慮しているため、大量の誤った因果関係が保持され、したがって得られた因果関係の精度も理想的ではない。

データ分析では、精度の低い因果関係では適切な決定をユーザに提供できず、ユーザを誤解させることさえあるので悪影響が生じる。商品小売分野を例にとると、元々因果関係を持たない２つの変数が因果関係を持つと考えられる場合、例えば、間違いによって、風が傘の販売台数の増加の原因であると見なすと、傘の小売業者をミスリードして風が強いが雨が降っていないときに傘の供給を増やし、実際には何の利益ももたらさないでしょう。

この目的のために、本開示の実施形態によれば、コンピュータが複数の変数間の自然因果関係をより正確に発見することを可能にするためのデータ処理方法、電子機器、およびコンピュータ可読記憶媒体が提供される。本開示の実施形態では、まず、例えばスコアベースの因果関係学習法を用いて、複数の変数の観測データの集合に基づいて予備的な因果関係を取得する。それから、予備的な因果関係は、予備的な因果関係における疑似原因を除去するために独立性検出および／または条件付き独立性検出を使用して最適化され、それによって最適化された因果関係が得られる。スコアベース学習法と独立性検出ベース学習法は合理的に合成され、スコアベース方法によって引き起こされる大量の疑似原因は、従来の方法で決定された因果関係と比較して、独立性検出を使用して排除される。本開示において最終的に得られた最適化された因果関係はより高いので、システムの背後にある複雑なメカニズムおよび作用過程のより正確な理解が得られ、変数間の潜在的な関係が発見され、より効果的な決定がユーザに提供され得る。

上述のように、本開示の実施形態は、製品小売分野、ヘルスケア分野、およびソフトウェア開発分野に適用され得る。しかし、本開示の実施形態は、上記の分野に限定されず、データに含まれる因果関係をコンピュータが理解することを可能にする任意のデータ処理および分析の分野に適用することができる。

以下では、図１から図６を参照して、複数の変数間の因果関係を決定するための本開示の解決策を説明する。しかしながら、この説明は例示の目的のためだけのものであり、本開示はこれらの実施形態および図面中の詳細に限定されないことに留意されたい。

図１は、本開示の実施形態を実施することができるランタイム環境１００を示す概略図である。図１に示す環境１００は、本開示のアプリケーション環境およびシナリオを限定することのない、本開示の実施形態が実施され得る一例にすぎないことを理解されたい。本開示の実施形態はまた、他の環境またはアーキテクチャにも適用可能である。

図１に示すように、環境１００はデータストレージシステム１２０を含む。データストレージシステム１２０は、Ｎ＊Ｄ行列として表すことができる複数の変数の観測データＸ（Ｘ∈Ｒ^Ｎ×Ｄ）のセットを記憶するために使用される。ここで、Ｎは観測されたサンプル数であり、Ｄは観測変数の次元数または観測変数の数である。製品小売分野を例にとると、観測変数が、季節、気温、湿度、天気（たとえば、雨が降っているかどうか）、傘の販売量、アイスクリームの販売量、および日焼け止めクリームの販売量であると、観測変数の数Ｄは７ですある。これらの変数が３０日間観測されると仮定すると、観測されるサンプルの数Ｎは３０で、ｉ番目の観測サンプル（１≦ｉ≦３０）はその日の季節、その日の気温、その日が雨かどうか、その日の傘の販売量、その日のアイスクリームの販売量、その日の日焼け止めクリームの販売量で構成される。

観測データのセットＸ内のデータは、第三者（例えば、販売ウェブサイト、天気予報プロバイダなど）からのデータであり得るか、またはデータは他の方法で収集され得る。その他に、データは事前に処理されていてもよく、例えば、統合、仕様化、およびノイズ低減などのような前処理が生データに行われる。これらの前処理操作自体は当技術分野において既知であり、本明細書では繰り返さない。

環境１００は、データストレージシステム１２０から複数の観測変数の観測データのセットＸを受け取るモデルトレーニングシステム１１０をさらに含み得る。モデルトレーニングシステム１１０は、既存の技術、例えばスコアベースのベイジアン因果関係ネットワーク、または他の因果関係発見技術を使用して、観測データのセットに基づいて複数の変数間の因果関係を表す予備モデル（以下では予備的因果関係モデルとも呼ぶ）を得る。例えば、予備的因果関係モデルは、観測データのセットに基づくトレーニングを通じて生成されてもよい。

図２は、モデルトレーニングシステム１１０を用いて得られた予備的因果関係モデル２００を示す。図２に示すように、予備的因果関係モデル２００は、ノードが複数の変数を表し、２つのノード間の有向エッジが２つのノード間の直接の因果関係の存在および因果関係の方向、たとえば、ソースノードはターゲットノードの直接の原因である、を表す有向非巡回グラフとして表される。有向非巡回グラフは因果関係の単なる例示であり、本開示の実施形態はこれに関して限定されないことを理解されたい。当業者は、実際の用途に従って他の方法で因果関係を表すことができる。図２に示す因果関係モデル２００は、３７変数間の因果関係を表す。３７は例示的な数の変数にすぎず、変数の数は実際の用途に基づいて１より大きい任意の整数であり得ることを理解されたい。図２に示すように、ノード５とノード６との間に有向エッジがあり、ノード５によって表される変数がノード６によって表される変数の直接の原因であり、ノード６によって表される変数がノード５によって表される変数の直接の結果であり、すなわち、２つの変数の間には直接の因果関係がある。

上述したように、スコアベースの方法で採用されるスコア基準の大部分は、主に、目標変数の原因を選択するために観測変数の目標変数への適合度を考慮するので、大量の誤った因果関係が保持される。結果として、モデルトレーニングシステム１１０を用いて得られた予備的因果関係モデル２００は、一般に十分に正確ではない。したがって、本開示の実施形態によれば、環境１００は、モデルトレーニングシステム１１０から予備的因果関係モデル２００を受け取り、その因果関係モデル２００に基づいて直接の因果関係を有する変数を決定するモデルオプティマイゼーションシステム１４０をさらに有する。例えば、図２に示すように、変数５と６、変数６と２７、変数１３と９などである。

さらに、モデルオプティマイゼーションシステム１４０は、直接の因果関係を有する２つの変数が独立しているかまたは条件付きで独立であるかを統計的方法に基づいて決定してもよい（本開示の実施形態において、独立性および条件付き独立性はまとめて独立性と称される）。２つの変数が独立していると判定された場合、モデルオプティマイゼーションシステム１４０は、予備的因果関係モデルから２つの変数間の直接の因果関係を削除することができる。モデルオプティマイゼーションシステム１４０は、最適な因果関係モデルを得てそれを出力するために、予備的因果関係モデル内の直接の因果関係ごとに上記のプロセスを繰り返すことができ、例えば、後で使用するためにモデルストレージシステム１３０に記憶する。例えば、自動意思決定がコンピュータで実行されるとき、最適化モデルはモデルストレージシステム１３０から取得されてもよく、データ分析は適切な決定を提供するためにこのモデルに基づいて実行されてもよい。例えば、上記の製品小売分野では、最適化災害モデルは、ユーザに対して自動的に戦略を策定することができ、あるいは傘またはアイスクリームまたは日焼け止めクリームの販売量を改善するための戦略を策定する際にユーザを支援することができる。

モデルトレーニングシステム１１０、モデルオプティマイゼーションシステム１４０、データストレージシステム１２０、およびモデルストレージシステム１３０は、図１では互いに分離して示されているが、本開示の実施形態はこれに関して限定されないことを理解されたい。実際の用途に基づいて、モデルトレーニングシステム１１０とモデルオプティマイゼーションシステム１４０とを統合してもよく、データストレージシステム１２０とモデルストレージシステム１３０とを統合してもよい。

図３は、モデルオプティマイゼーションシステム１４０によって出力された最適化因果関係モデル３００を示す。図２に示した予備的因果関係モデル２００と比較すると、図３に示した最適化因果関係モデル３００では、変数６と２７が独立しているので、変数６と２７の間のエッジが削除される。確率と統計では、確率変数ＸとＹが独立しているということは、変数Ｙの発生が変数Ｘに影響を与えない、つまり変数Ｙが変数Ｘの原因にならない、または変数Ｘが変数Ｙの効果にならないことを意味し、そしてその逆を意味する。したがって、予備的因果関係モデル２００において直接の因果関係を有する２つの変数が互いに独立している場合、モデル２００における２つの変数間の直接の因果関係は実際には統計的に誤っており（すなわち、疑似原因）、削除されるべきである。モデルオプティマイゼーションシステム１４０は、この原理に正確に基づいて疑似原因を実際に削除するので、モデルオプティマイゼーションシステム１４０によって出力された最適化因果関係モデル３００によって表される因果関係はより正確になる。

一方、モデルオプティマイゼーションシステム１４０は、モデルトレーニングシステム１１０が出力した予備的因果関係モデル２００に基づいて、直接の因果関係を有する変数について、複数の変数のうちの任意の２つについて独立性検出を行うのではなく、独立性検出を行うので、精度を向上させながら、計算リソースを節約し、計算速度を向上させることができる。

図４は、本開示の実施形態による、複数の変数間の因果関係を決定するための処理方法４００を示すフローチャートである。方法４００は、図１に示されるモデルトレーニングシステム１１０およびモデルオプティマイゼーションシステム１４０によって実行され得る。

ブロック４０２で、モデルトレーニングシステム１１０は、複数の変数の観測データのセットに基づいて、複数の変数間の因果関係を表すモデル、すなわち予備的因果関係モデルを取得する。上述のように、複数の変数の観測データのセットは様々なソースからのものであり得る。上述の製品小売分野では、一連の観測データは、小売ウェブサイト、天気予報プロバイダなどからのものでもよく、または他の手段によって取得されてもよい。

本開示の実施形態では、モデルトレーニングシステム１１０は、様々な技術を使用して予備的因果関係モデルを取得することができる。描写を容易にするために、スコアベースのベイジアンネットワークが、予備的因果関係モデルを得るためのモデルトレーニングシステム１１０のための特定のプロセスを説明するための例として使用される。しかしながら、当業者は、本開示の実施形態が本明細書に記載されるスコアベースのベイジアンネットワークに限定されず、モデルトレーニングシステム１１０が他の既存のまたは今後の因果関係発見学習技術を用いて予備因果関係モデルを得ることもできることを理解する。

ｐ個の変数があると仮定し、ｐ個の変数間の因果関係を示すために以下の行列Ｂを使用することができる。

ここで、行列Ｂはｐｘｐ個の要素を含むｐ次の行列で、各要素は要素の位置に対応する２つの変数間に直接の因果関係があるかどうかを表す。具体的には、行列Ｂ中の変数β_jiは、ｐ個の変数のうちのｊ番目の変数とｉ番目の変数との間の直接の因果関係を表す。たとえば、行列Ｂ中の変数β_jiは、変数ｉが変数ｊの直接の原因であるかどうかを表す。具体的に言えば｜β_ｊｉ｜＞０の場合、変数ｉは変数ｊの直接の原因です。２つの変数の異なる順序は異なる因果関係を表すことに留意されたい。したがって、β_ｊｉとβ_ｉｊは異なる因果関係を表す。言い換えれば、行列Ｂで表される有向グラフにおけるエッジの方向が異なる。また、行列Ｂの対角部分は、各要素とそれ自体との因果関係を表す。特定の要素同士の間に因果関係はないので、対角部分の要素の値は０に設定する必要がある。

このように、ベイジアンネットワークでは、観測データの１セットに基づいてｐ個の変数間の因果関係を決定する問題は、複数の要素間の因果関係を記述する行列Ｂに対する解法プロセスに変換することができる。

因果関係に関連する採点基準は、観測データの１セットと上記の行列Ｂに基づいて定義することができる。例えば、観測データの１セットの因果関係ネットワークへの適合度は、以下の式に基づいて採点基準として決定され得る。

ここで、β_ｊは行列Ｂのｊ行目の列、ｘ_ｊはｊ番目の変数の観測データ、ｘ_−ｊはｊ番目の変数以外の変数の観測データ、

はＬ２−Ｎｏｒｍ演算、

はＬ１−Ｎｏｒｍ演算を表す。

次に、因果関係を記述する問題方程式が採点基準に基づいて構築される。

ここで、制約は、グラフ構造Ｇが有向巡回グラフを含まないようにすることである。言い換えれば、グラフ構造Ｇは有向非巡回グラフであるべきである。

次に、因果関係を表す行列Ｂは、問題式を解くことによって得られる。例えば、行列Ｂは、予備的因果関係モデルを得るために、Jing Xiang、Seyoung Kimらによる、連続変数のためのスパースベイジアンネットワーク構造を学習するための論文A * Lasso（NIPS、2013）に記載されている検索アルゴリズムを用いて解くことができる。

本明細書に記載された採点基準、問題方程式、および問題方程式の解は例示的なものにすぎず、本開示の実施形態はこの点に関して限定されないことを理解されたい。当業者は、他の採点基準および問題式を定義し、他の検索アルゴリズムを利用して実際の必要性に基づいて問題式を解くことができる。

ブロック４０４において、モデルオプティマイゼーションシステム１４０は、ブロック４０２において得られた予備的因果関係モデルに基づいて、複数の変数の中で直接の因果関係を有する第１および第２の変数を決定する。本開示の一実施形態では、因果関係モデルは、図２に示す有向非巡回グラフ２００として表され、モデルオプティマイゼーションシステム１４０は、有向エッジに関連する２つの変数、すなわち直接的な因果関係を有する２つの変数を決定するために、グラフトラバースアルゴリズムを用いて有向非巡回グラフ２００をトラバースし、有向非巡回グラフ２００内の有向エッジを決定することができる。より具体的には、因果関係モデルが上述の行列Ｂとして表される場合、モデルオプティマイゼーションシステム１４０は、行列Ｂ内の非ゼロ要素を調べることによって直接の因果関係を有する２つの変数を決定することができる。例えば、β_ｊｉが非ゼロの場合、変数ｊおよびｉは直接的な因果関係を有する２つの変数であると決定することができる。

ブロック４０６において、モデルオプティマイゼーションシステム１４０は、観測データの１セットに基づいて第１および第２の変数が独立しているかどうかを決定する。統計的には、２つの確率変数間の独立性とは、２つの変数の出現確率が互いに影響しないことを意味する。すなわち、第１および第２の変数が同時に発生する確率がそれらのそれぞれの発生確率の積に等しい場合、第１および第２の変数は互いに独立している。ほとんどの場合、変数は互いに多かれ少なかれ影響を及ぼすが、通常、この種の影響は直接生成されるのではなく他の変数に依存する。この目的のために、本開示の実施形態では、モデルオプティマイゼーションシステム１４０はさらに、第１および第２の変数がある条件下で、条件付きで独立しているかどうかを決定することができる。統計的には、２つの確率変数間の条件付き独立は、２つの変数の出現確率が他の変数の出現下で互いに影響を及ぼさないことを意味する。第１変数と第２変数とが互いに独立しているか否かを決定する方法については、後に図５を参照して詳細に説明する。

ブロック４０８において、第１および第２の変数が互いに独立していることに応答して、モデルオプティマイゼーションシステム１４０は、予備的因果関係モデルから第１および第２の変数間の直接の因果関係を削除する。因果関係モデルが図２に示す有向非巡回グラフ２００として表された場合、モデルオプティマイゼーションシステム１４０は、有向非巡回グラフ２００から、第１の変数を表すノードと第２の変数を表すノードとの間のエッジを削除してもよい。より具体的には、因果関係モデルが上述の行列Ｂとして表される場合、モデルオプティマイゼーションシステム１４０は、第１および第２の変数に関連付けられた行列Ｂ内の要素を０として設定することができる。図２および図３に示すように、ノード６とノード２７の間のエッジ、ノード８とノード３２の間のエッジ、ノード３１とノード３０の間のエッジ、およびノード１６とノード２０の間のエッジなどが、ノード間の独立性または条件付きで削除され、それによって、疑似原因が削除された図３に示すような最適化因果関係モデルを得る。２つの確率変数の独立性および条件付き独立性の定義から分かるように、２つの変数が独立または条件付きで独立であるとは、２つの変数の出現確率が互いに影響しないこと、すなわち１つの変数の出現が他の出現に影響しないことを意味する。言い換えれば、２つの変数が独立しているか、条件付きで独立している場合、２つの変数のうちの一方が他方の原因または効果になることはできないことを示す。したがって、ブロック４０２で得られた予備的因果関係モデルにおいて、直接の因果関係を有する第１および第２の変数が独立または条件付きで独立である場合、それはこれら２つの変数間の直接の因果関係が真ではない、すなわち疑似原因であることを意味する。したがって、予備的因果関係モデルから疑似原因を削除することは、モデルをより正確にすることになる。

予備的因果関係モデルから疑似原因として決定されたすべての直接の因果関係を削除するようにブロック４０４、４０６および４０８に記載された動作が繰り返され、それによって、例えば自動または半自動の意思決定のその後のデータ分析のために出力されるより正確な最適因果関係モデルが得られる。

図５は、本開示の実施形態による、２つの変数が独立しているかどうかを判定する方法５００を示すフローチャートである。方法５００は、図１に示されるモデルオプティマイゼーションシステム１４０によって実行され得る。ブロック５０２で、モデルオプティマイゼーションシステム１４０は、観測データの１セットに基づいて、第１の変数と第２の変数との間の関連度を決定することができる。本開示の実施形態では、関連度は、第１および第２の変数の共起確率と、２つの変数が別々に生じる確率との間の関係の尺度として用いることができる。

本開示の一実施形態において、関連度を決定するために、モデルオプティマイゼーションシステム１４０は、第１および第２の変数のタイプを決定し、決定されたタイプに基づいて独立性決定方法を選択してもよい。例えば、上述の製品小売分野の例では、変数「季節」および「天気」は離散変数であり、変数「気温」、「天気」、「傘の販売量」、「アイスクリームの販売量」および「日焼け止めクリームの販売量」は連続的な変数です。第１および第２の変数のタイプに基づいて、計算の実行可能性を保証し、計算の精度を向上させるために、関連度の対応する計算方法を採用することができる。

本開示の一実施形態では、第１および第２の変数の両方が連続変数であることに応答して、モデルオプティマイゼーションシステム１４０は、ピアソン相関検出などの連続独立性決定方法を用いて第１および第２の変数間の関連度を決定することができる。例えば、第１変数に関連付けられた観測データと第２変数に関連付けられた観測データとに基づいて、２つの変数間のピアソン相関係数が関連度として算出される。

本開示の一実施形態では、第１変数と第２変数の両方が離散変数であることに応答して、モデルオプティマイゼーションシステム１４０は、カイ二乗検出などの離散独立性決定方法を採用することによって第１の変数と第２の変数間の関連度を決定する。例えば、第１および第２の変数が独立しているという仮定から推論された値と、観測データの１セットの実際の値との間の乖離度が、第１および第２の変数間の関連度として使用されてもよい。

本開示の一実施形態では、第１および第２の変数の一方が離散変数であり他方が連続変数であることに応答して、モデルオプティマイゼーションシステム１４０は、ガウス過程−ヒルベルト−シュミット独立基準（GP−HSIC:Gaussian process-Hilbert-Schmidt independence criterion）などのハイブリッド独立性検出方法を採用して、第１および第２の変数間の関連度を決定する。

ブロック５０４で、モデルオプティマイゼーションシステム１４０は、第１の変数と第２の変数との間の関連度が第１の閾値範囲内にあるかどうかを決定することができる。第１の閾値範囲の選択は、特定の用途および使用中の独立性決定方法に依存する。本開示の一実施形態では、それは事前に定義されてもよい。関連度が第１の閾値範囲内にある場合、例えば、２つの連続変数間のピアソン相関係数が第１の閾値より小さい場合、それは第１および第２の変数が無条件に独立していることを意味する。この観点から、関連度が第１の閾値範囲内にあることに応答して、ブロック５１２において、モデルオプティマイゼーションシステム１４０は、第１および第２の変数が独立であると決定することができる。

本開示の実施形態では、実際の適用において有用ではないより多くの疑似原因を排除するために、第１および第２の変数が無条件に独立していないとき、モデルオプティマイゼーションシステム１４０は、さらに第１および第２の変数が条件付きで独立しているかどうかを決定し得る。このために、関連度が第１の閾値範囲を超えることに応答して、ブロック５０６において、モデルオプティマイゼーションシステム１４０は、第１の変数に関連する第１の関連変数のセットおよび第２の変数に関連する第２の関連変数のセットを決定し得る。

本開示の一実施形態では、因果関係モデルが図２に示されている有向非巡回グラフ２００として表される場合、モデルオプティマイゼーションシステム１４０は、第２の変数のペアレントノードとスパウズノードのセットを第１の関連変数のセットとして決定し、モデルオプティマイゼーションシステム１４０は、第２の変数のペアレントノードとスパウズノードのセットを第２の関連変数のセットとして決定する。図２に示すように、ノード８のペアレントノードはノード７とノード９であり、ノード８のスパウズノード（すなわち、ノード８と同じチャイルドノードを有するノード）はノード２８とノード３１であり、ノード８に関連する変数のセットは、｛ノード７、ノード９、ノード２８、およびノード３１｝である。

本開示の一実施形態では、第１および第２の変数のマルコフブランケットセット（マルコフブランケット集合）は、それぞれ観測データのセット（集合）に基づいて決定され、それぞれ第１および第２の関連変数のセットとして使用されてもよい。変数Ｘのマルコフブランケットセットは、次のように定義される。確率変数の完全なセットＵが３つの相互に排他的な部分−変数ＸとセットＡとセットＢに分割され、それらは交差せず、そのユニオンセット（和集合）はＵである。集合Ａが与えられた場合、変数Ｘと集合Ｂは無関係であり、そして集合Ａは、変数Ｘのマルコフブランケット集合である。本開示の実施形態では、当技術分野で既に知られているマルコフブランケット学習技術を使用して、第１および第２の変数に対するマルコフブランケットセットを決定することができ、これはここでは繰り返さない。

ブロック５０８において、モデルオプティマイゼーションシステム１４０は、第１および第２の関連変数のセットの和集合を条件として、第１および第２の変数間の関連度を決定することができ、以下、条件付き関連度と略記する。

ブロック５０２と同様に、条件付き関連度の決定および精度の向上を実現するために、モデルオプティマイゼーションシステム１４０は、和集合内の第１の変数、第２の変数および条件付き変数のタイプに基づいて条件付き独立性判定方法を選択し得る。例えば、第１の変数、第２の変数、および条件付き変数がすべて連続変数である場合、モデルオプティマイゼーションシステム１４０は、連続条件独立性決定方法、例えば、部分相関検出を選択し、第１および第２の関連変数のセットの和集合の条件下で、第１および第２の変数の偏相関測定を条件付き関連度として計算することができる。

第１の変数、第２の変数および条件付き変数が全て離散変数である場合、モデルオプティマイゼーションシステム１４０は、条件付き関連度を決定するために離散決定方法（例えば、カイ二乗検出）を選択してもよい。例えば、第１および第２の変数が条件付きで独立しているという条件（第１および第２の関連変数の和集合を条件とする）のもとで推定された仮定値と実際の値との乖離度を、条件付き関連度として用いてもよい。

第１の変数、第２の変数、および条件付き変数の中に離散変数と連続変数の両方がある場合、モデルオプティマイゼーションシステム１４０は、条件付き関連度を決定するために、ハイブリッド検出方法（例えば、GP−HSICまたはPCI−Permute(Permutation−based Kernel）を選択し得る。

ブロック５１０で、モデルオプティマイゼーションシステム１４０は、条件付き関連度が第２の閾値範囲内にあるかどうかを決定することができる。第２の閾値範囲は、第１の閾値と同じでも異なっていてもよく、実際の用途および使用中の独立性決定方法にも依存し、事前に定義されてもよい。ブロック５１２で、条件付き関連度が第２の閾値範囲内にあることに応答して、モデルオプティマイゼーションシステム１４０は、第１および第２の変数が互いに独立であると決定することができる。ブロック５１４で、条件付き関連度が第２の閾値範囲を超えることに応答して、モデルオプティマイゼーションシステム１４０は、第１および第２の変数が独立でないと決定することができる。

図５に示される方法５００において、まず、ブロック５０２および５０４で、第１および第２の変数が統計的に無条件に独立しているかどうかが決定される。第１および第２の変数が無条件に独立していないことに応答して、ブロック５０６、５０８および５１０で、２つの変数が統計的に条件付きで独立しているかどうかが決定される。このようにして、より多くの疑似原因を因果関係モデルから削除することができる。

一方、２つの変数が無条件に独立していない場合にのみ、それらが条件付きで独立しているかどうかがさらに判断され、関連する変数のセットを決定するために必要な計算リソースおよび時間を節約する。予備的因果関係モデル内の各直接の因果関係（例えば、図２に示される有向非巡回グラフ内の各エッジ）について、方法５００が繰り返されて予備的因果関係モデル内のすべての疑似原因が見つけられて削除され、これにより、図３に示すような最適化因果関係モデルが得られる。この最適化因果関係モデルは、フォローアップデータ分析にさらに使用され得る。

従来のスコアベースの因果関係発見方法および統計的独立性ベースの因果関係発見方法と比較して、本開示の実施形態は、複雑な作業メカニズムおよびシステムの背後にある作業プロセスに対する洞察を得るためにより正確な因果関係モデルを提供でき、そして、ユーザにさらに効果的な決定を提供する。

図６は、本開示の実施形態を実施するために使用することができる例示的な装置６００を示す概略ブロック図である。装置６００は、図１に示されるモデルトレーニングシステム１１０とモデルオプティマイゼーションシステム１４０の両方を実装するために使用され得る。図６に示すように、装置６００は、保存部６０８から、読み出し専用メモリ（ＲＯＭ）６０２に格納されたコンピュータプログラム命令またはランダムアクセスメモリ（ＲＡＭ）６０３にロードされたコンピュータプログラム命令に基づいて様々な適切な動作および処理を実行できる中央処理部（ＣＰＵ）６０１を含む。ＲＡＭ６０３は、記憶装置６００を動作させるために必要な各種プログラムやデータを格納する。ＣＰＵ６０１、ＲＯＭ６０２、およびＲＡＭ６０３は、バス６０４を介して相互に接続される。このバス６０４にはまた、入出力（Ｉ／Ｏ）インタフェース６０５も接続される。

装置６００内の複数の構成要素が、例えばキーボード、マウス等の入力部６０６、例えば各種ディスプレイ、スピーカ等の出力部６０７、例えば磁気ディスク、光ディスク等の保存部６０８、および、例えばネットワークカード、モデム、無線通信トランシーバ等の通信部６０９を含むＩ／Ｏインタフェース６０５に接続される。通信部６０９は、装置６００がインターネットおよび／または様々な電気通信ネットワークなどのコンピュータネットワークを介して他の装置と情報／データを交換することを可能にする。

処理部６０１は、上述の様々な方法および処理、例えば方法４００および／または方法５００を実行する。たとえば、いくつかの実施形態では、方法４００および／または方法５００は、機械可読媒体、たとえば保存部６０８に有形に含まれるコンピュータソフトウェアプログラムとして実装することができる。いくつかの実施形態では、コンピュータプログラムは、ＲＯＭ６０２および／または通信部６０９を介して装置６００に部分的にまたは完全にロードおよび／またはインストールすることができる。コンピュータプログラムがＲＡＭ６０３にロードされ、ＣＰＵ６０１によって実行される場合、上述の方法４００および／または方法５００の１つまたは複数のステップが実施される。あるいは、他の実施形態では、ＣＰＵ６０１は、方法４００および／または方法５００を任意の他の適切な方法で（たとえばファームウェアによって）実施するように構成される。

本明細書で機能的に説明されることは、少なくとも部分的に、１つまたは複数のハードウェア論理構成要素によって実行され得る。例えば、限定されないが、使用され得る例示的な種類のハードウェア論理構成要素は、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップシステム（ＳＯＣ）、複合プログラマブルロジックデバイス（ＣＰＬＤ）などを含む。

本明細書に記載の主題の方法を実行するためのプログラムコードは、１つまたは複数のプログラミング言語の任意の組合せで書くことができる。これらのプログラムコードは、プログラムコードがプロセッサまたはコントローラによって実行されると、実施されるべきフローチャートおよび／またはブロック図において、指定された機能／動作を引き起こすように、汎用コンピュータ、特殊用途コンピュータ、または他のプログラム可能データ処理装置のプロセッサまたはコントローラに提供され得る。プログラムコードは、完全にマシン上、部分的にマシン上、スタンドアロンソフトウェアパッケージとして、部分的にマシン上および部分的にリモートマシン上で、あるいは全体的にリモートマシンまたはサーバ上で実行することができる。

本明細書に記載の主題の文脈では、機械可読媒体は、命令実行システム、装置、または機器によって使用されるまたはそれらに関連して使用するためのプログラムを含むまたは格納することができる任意の有形の媒体とすることができる。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体とすることができる。機械可読媒体は、電子、磁気、光学、電磁気、赤外線、または半導体のシステム、装置、または機器、あるいは前述の任意の適切な組み合わせを含むことができるが、それらに限定されない。機械可読記憶媒体のより具体的な例には、１つまたは複数のワイヤを有する電気接続、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能プログラマブルリードオンリーメモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ−ＲＯＭ）、光記憶装置、磁気記憶装置、またはこれらの任意の適切な組み合わせなどがある。

さらに、動作は特定の順序で描かれているが、望ましい結果を達成するために、そのような動作が示された特定の順序で、または順次に実行されること、または示されたすべての動作が実行されることを要求するものとして理解されるべきではない。特定の状況では、マルチタスキングおよび並列処理が有利な場合がある。同様に、いくつかの具体的な実装の詳細が上記の説明に含まれているが、これらは、本明細書に記載の主題の範囲に対する制限としてではなく、むしろ特定の実装に特有の特徴の説明として解釈されるべきである。別々の実施の文脈で説明されている特定の特徴は、単一の実施において組み合わせて実施することもできる。逆に、単一の実施形態の文脈で説明されている様々な特徴は、別々にまたは任意の適切なサブコンビネーションで複数の実施形態で実施することもできる。

主題は構造的特徴および／または方法論的行為に特有の言語で説明されてきたが、添付の特許請求の範囲に明記された主題は必ずしも上記の特定の特徴または行為に限定されない。そうではなく、上記の特定の特徴および動作は、特許請求の範囲を実施する例示的形態として開示されている。

Claims

複数の変数の観測データのセットに基づいて、前記複数の変数間の因果関係を表すモデルを取得することと、
前記モデルに基づいて、前記複数の変数の中で直接の因果関係を有する第１および第２の変数を決定することと、
前記第１および第２の変数が互いに独立しているかどうかを決定することと、
前記第１および第２の変数が互いに独立していることに応答して、前記モデルから前記第１および第２の変数との間の前記直接の因果関係を削除することと、
を備えるデータ処理方法。
前記第１および第２の変数が互いに独立しているかどうかを決定することは、
前記観測データのセットに基づいて、前記第１および第２の変数との間の関連度を決定することと、
前記関連度が閾値の範囲内にあることに応答して、前記第１および第２の変数が互いに独立していると決定すること、
を備える請求項１に記載の方法。
前記第１および第２の変数が互いに独立しているかどうかを決定することは、
前記複数の変数から、前記第１の変数に関連する第１の関連変数のセットと前記第２の変数に関連する第２の関連変数のセットとを決定することと、
前記観測データのセットに基づいて、前記第１および第２の変数との間の関連度を、前記第１および第２の関連変数のセットの和集合を条件として決定することと、
前記関連度が閾値の範囲内にあることに応答して、前記第１および第２の変数が互いに独立していると決定することと、
を備える請求項１に記載の方法。
前記第１および第２の関連変数のセットを決定することは、
前記観測データのセットに基づいて、前記第１および第２の関連変数としてマルコフブランケット学習技術を使用して、前記第１の変数についてのマルコフブランケットセットおよび前記第２の変数についてのマルコフブランケットセットを決定すること、
を備える請求項３に記載の方法。
前記モデルは、ノードが前記複数の変数を表しエッジが直接の因果関係を表す有向非巡回グラフであり、
前記第１および第２の関連変数のセットを決定することは、
前記有向非巡回グラフ内の前記第１の変数を表す第１のノードに対するペアレントノードおよびスパウズノードのセットを、前記第１の関連変数のセットとして決定することと、
前記有向非巡回グラフ内の前記第２の変数を表す第２のノードに対するペアレントノードおよびスパウズノードのセットを、前記第２の関連変数のセットとして決定することと、
を備える請求項３に記載の方法。
前記第１および第２の変数との間の前記関連度を決定することは、
前記第１の変数のタイプと前記第２の変数のタイプとに基づいて独立性決定方法を選択することと、
前記選択された独立性決定方法を用いて前記第１および第２の変数との間の前記関連度を決定することと、
を備える請求項２に記載の方法。
前記独立性決定方法を選択することは、
前記第１および第２の変数の両方が離散変数であることに応答して、離散独立性決定方法を選択することと、
前記第１および第２の変数の両方が連続変数であることに応答して、連続独立性決定方法を選択することと、
前記第１および第２の変数の一方が離散変数であり、他方が連続変数であることに応答して、ハイブリッド検出の独立性決定方法を選択することと、
を備える請求項６に記載の方法。
前記第１および第２の変数との間の前記関連度を、前記第１および第２の関連変数のセットの和集合を条件として決定することは、
前記和集合内の前記第１の変数のタイプ、前記第２の変数のタイプ、および条件付き変数のタイプに基づいて、独立性決定方法を選択することと、
前記和集合を条件として、前記選択された独立性判定方法を用いて、前記第１および第２の変数との間の関連度を決定することと、
を備える請求項３に記載の方法。
前記独立性決定方法を選択することは、
前記第１の変数、前記第２の変数、および前記条件付き変数がすべて離散変数であることに応答して、離散独立性決定方法を選択することと、
前記第１の変数、前記第２の変数、および前記条件付き変数がすべて連続変数であることに応答して、連続独立性決定方法を選択することと、
離散変数および連続変数の両方が、前記第１の変数、前記第２の変数、および前記条件付き変数の間に存在することに応答して、ハイブリッド検出の独立性決定方法を選択することと、
を備える請求項８に記載の方法。
前記モデルを取得することは、
スコアベースの因果関係ベイジアンネットワークを使用して前記モデルを取得すること、
を備える請求項１に記載の方法。
プロセッサと、
前記プロセッサによって実行されると、電子機器に以下の動作を実行させる命令を記憶するメモリと、
を備え、
複数の変数の観測データのセットに基づいて、前記複数の変数間の因果関係を表すモデルを取得し、
前記モデルに基づいて、前記複数の変数の中で直接の因果関係を有する第１および第２の変数を決定し、
前記第１および第２の変数が互いに独立しているかどうかを決定し、
前記第１および第２の変数が互いに独立していることに応答して、前記モデルから前記第１および第２の変数との間の前記直接の因果関係を削除する、
電子機器。
前記第１および第２の変数が互いに独立しているかどうかを決定することは、
前記観測データのセットに基づいて、前記第１および第２の変数との間の関連度を決定することと、
前記関連度が閾値の範囲内にあることに応答して、前記第１および第２の変数が互いに独立していると決定すること、
を備える請求項１１に記載の電子機器。
前記第１および第２の変数が互いに独立しているかどうかを決定することは、
前記複数の変数から、前記第１の変数に関連する第１の関連変数のセットと前記第２の変数に関連する第２の関連変数のセットとを決定することと、
前記観測データのセットに基づいて、前記第１および第２の変数との間の関連度を、前記第１および第２の関連変数のセットの和集合を条件として決定することと、
前記関連度が閾値の範囲内にあることに応答して、前記第１および第２の変数が互いに独立していると決定することと、
を備える請求項１１に記載の電子機器。
前記第１および第２の関連変数のセットを決定することは、
前記観測データのセットに基づいて、前記第１および第２の関連変数としてマルコフブランケット学習技術を使用して、前記第１の変数についてのマルコフブランケットセットおよび前記第２の変数についてのマルコフブランケットセットを決定すること、
を備える請求項１１に記載の電子機器。
前記モデルは、ノードが前記複数の変数を表しエッジが直接の因果関係を表す有向非巡回グラフであり、
前記第１および第２の関連変数のセットを決定することは、
前記有向非巡回グラフ内の前記第１の変数を表す第１のノードに対するペアレントノードおよびスパウズノードのセットを、前記第１の関連変数のセットとして決定することと、
前記有向非巡回グラフ内の前記第２の変数を表す第２のノードに対するペアレントノードおよびスパウズノードのセットを、前記第２の関連変数のセットとして決定することと、
を備える請求項１３に記載の電子機器。
前記第１および第２の変数との間の前記関連度を決定することは、
前記第１の変数のタイプと前記第２の変数のタイプとに基づいて独立性決定方法を選択することと、
前記選択された独立性決定方法を用いて前記第１および第２の変数との間の前記関連度を決定することと、
を備える請求項１２に記載の電子機器。
前記独立性決定方法を選択することは、
前記第１および第２の変数の両方が離散変数であることに応答して、離散独立性決定方法を選択することと、
前記第１および第２の変数の両方が連続変数であることに応答して、連続独立性決定方法を選択することと、
前記第１および第２の変数の一方が離散変数であり、他方が連続変数であることに応答して、ハイブリッド検出の独立性決定方法を選択することと、
を備える請求項１６に記載の電子機器。
前記第１および第２の変数との間の前記関連度を、前記第１および第２の関連変数のセットの和集合を条件として決定することは、
前記和集合内の前記第１の変数のタイプ、前記第２の変数のタイプ、および条件付き変数のタイプに基づいて、独立性決定方法を選択することと、
前記和集合を条件として、前記選択された独立性判定方法を用いて、前記第１および第２の変数との間の関連度を決定することと、
を備える請求項１３に記載の電子機器。
前記独立性決定方法を選択することは、
前記第１の変数、前記第２の変数、および前記条件付き変数がすべて離散変数であることに応答して、離散独立性決定方法を選択することと、
前記第１の変数、前記第２の変数、および前記条件付き変数がすべて連続変数であることに応答して、連続独立性決定方法を選択することと、
離散変数および連続変数の両方が、前記第１の変数、前記第２の変数、および前記条件付き変数の間に存在することに応答して、ハイブリッド検出の独立性決定方法を選択することと、
を備える請求項１８に記載の電子機器。
前記モデルを取得することは、
スコアベースの因果関係ベイジアンネットワークを使用して前記モデルを取得すること、
を備える請求項１１に記載の電子機器。
コンピュータ実行可能命令が記憶され、前記コンピュータ実行可能命令が実行されると、請求項１乃至１０のいずれかに記載の方法をコンピュータに実行させる、
コンピュータ可読記憶媒体。