JP2019204499A - データ処理方法および電子機器 - Google Patents

データ処理方法および電子機器 Download PDF

Info

Publication number
JP2019204499A
JP2019204499A JP2019063338A JP2019063338A JP2019204499A JP 2019204499 A JP2019204499 A JP 2019204499A JP 2019063338 A JP2019063338 A JP 2019063338A JP 2019063338 A JP2019063338 A JP 2019063338A JP 2019204499 A JP2019204499 A JP 2019204499A
Authority
JP
Japan
Prior art keywords
variables
variable
determining
model
determination method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019063338A
Other languages
English (en)
Other versions
JP6822509B2 (ja
Inventor
チュンチェン リュウ
Chunchen Liu
チュンチェン リュウ
ウェンジュアン ウェイ
Wenjuan Wei
ウェンジュアン ウェイ
ルー フェン
Lu Feng
ルー フェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JP2019204499A publication Critical patent/JP2019204499A/ja
Priority to JP2021001314A priority Critical patent/JP7392668B2/ja
Application granted granted Critical
Publication of JP6822509B2 publication Critical patent/JP6822509B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】データマイニングおよび機械学習の分野に関し、複数の変数間の因果関係を正確に決定することができるデータ処理方法および電子機器を提供する。【解決手段】複数の変数の観測データに基づいて、複数の変数間の因果関係を表すモデルを取得し、取得されたモデルに基づいて、複数の変数の中で直接の因果関係を有する第1および第2の変数を決定し、第1および第2の変数が互いに独立しているかどうかを決定し、第1および第2の変数が互いに独立していることに応答して、取得されたモデルから第1および第2の変数との間の直接の因果関係を削除する。【選択図】図4

Description

本開示の実施形態は、データマイニングおよび機械学習の分野に関し、より詳細には、複数の変数間の因果関係を決定するためのデータ処理方法、電子機器、およびコンピュータ可読記憶媒体に関する。
情報技術の急速な発展に伴い、データは規模が拡大している。ビッグデータの時代には、さまざまなデータ収集アプローチを通じて大量のデータが取得される可能性がある。そのようなデータに対してデータ分析およびマイニングを実行することによって、多くの有用な情報を得ることができる。しかしながら、様々な応用分野では、システムの外観または実行性能しか観察することができず、システムの背後にある複雑なメカニズムおよび動作のプロセスについての洞察を得ることは困難であり、経験的な理解しか得られない。
因果関係学習は、システムの背後にある複雑な動作メカニズムを自動的にコンピュータで復元し、システムの観測データに基づいてデータ生成プロセスを再現することを目的とする。現在、因果関係学習は、市場分析、薬局、製造業などのさまざまな分野に適用されており、システムの性質に関する洞察を得て、さらに意思決定を導く。例えば、商品小売の分野では、商品売上が減少した場合、因果関係学習技術は、売上関連データを分析することによって売上減少の原因を突き止めることができ、それによって販売者が売上を改善するのを助ける。別の例として、ヘルスケアの分野では、因果関係学習技術は、彼らの顧客の解約の根本的原因を分析することによってヘルスケアセンターを支援し、彼らの顧客保持スキームの開発を支援することができる。別の例として、ソフトウェア開発の分野では、因果関係学習技術は、開発中のプロジェクトに遅延や低品質などのリスクがあるかどうかのタイムリーな予測を支援し、ソフトウェア開発の自動管理を支援するようにリスクの原因を突き止めることができる。
現在、因果関係ベイズネットワークは、因果関係を発見するための主流の方法である。それはさらに統計的独立性ベースの方法(例えば、制約に基づく方法)とスコアベースの方法に分けられる。しかしながら、これら2種類の方法で得られる因果関係の精度は、一般的に満足のいくものではない。
本開示の実施形態は、因果関係を正確に得ることができるデータ処理方法、電子機器、およびコンピュータ可読記憶媒体を提供する。
本開示の第1の態様では、データ処理方法が提供される。前記方法は、複数の変数の観測データのセットに基づいて、前記複数の変数間の因果関係を表すモデルを取得することを備える。前記方法は、前記モデルに基づいて、前記複数の変数の中で直接の因果関係を有する第1および第2の変数を決定することをさらに備える。前記方法は、前記第1および第2の変数が互いに独立しているかどうかを決定することをさらに備える。前記方法は、前記第1および第2の変数が互いに独立していることに応答して、前記モデルから前記第1および第2の変数との間の前記直接の因果関係を削除することをさらに備える。
本開示の第2の態様では、プロセッサと、前記プロセッサによって実行されると電子機器に以下の動作を実行させる命令を記憶したメモリとを備える電子機器が提供される。以下の動作は、複数の変数の観測データのセットに基づいて、前記複数の変数間の因果関係を表すモデルを取得し、前記モデルに基づいて、前記複数の変数の中で直接の因果関係を有する第1および第2の変数を決定し、前記第1および第2の変数が互いに独立しているかどうかを決定し、前記第1および第2の変数が互いに独立していることに応答して、前記モデルから前記第1および第2の変数との間の前記直接の因果関係を削除する。
第3の態様では、コンピュータ実行可能命令が記憶され、前記コンピュータ実行可能命令が実行されると、本開示の第1の態様による方法をコンピュータに実行させるコンピュータ可読記憶媒体が提供される。
この概要は、詳細な説明において以下でさらに説明される概念の選択を単純化された形で紹介するために提供される。この概要は、請求される主題の主要な特徴または本質的な特徴を識別することを意図されておらず、特許請求される主題の範囲を限定するために使用されることも意図されていない。
添付の図面を参照した以下の詳細な説明を通して、本開示の例示的な実施形態の上記および他の目的、特徴、および利点がより明らかになるであろう。本開示の実施形態例において、同じ参照符号は通常同じ構成要素を表す。
図1は、本開示の実施形態を実施することができる例示的なランタイム環境を示す概略図である。
図2は、図1のモデルトレーニングシステムを用いて取得された初期因果関係モデルを示す図である。
図3は、図1のモデルオプティマイゼーションシステムによって出力された最適化因果関係モデルを示す図である。
図4は、本開示の実施形態によるデータ処理方法のフローチャートを示す。
図5は、本開示の実施形態による、2つの変数が独立しているかどうかを決定する方法のフローチャートを示す。
図6は、本開示の実施形態を実施するために使用することができる例示的な機器の概略ブロック図である。
本開示の原理は、図面に示されるいくつかの例示的な実施形態を参照して以下に説明され得る。本開示の好ましい実施形態が図面に示されているが、これらの実施形態は、本開示の範囲を限定するのではなく、当業者が本開示をよりよく理解し、どんな方法においても、さらに実施することを可能にするためにのみ記載される。
「第1」および「第2」という用語は、1つの要素を他の要素と区別するためにのみ使用されていることを理解されたい。実際のところ、第1の要素は第2の要素とも呼ばれ得、逆もまた同様である。本開示の実施形態では、「モデル」という用語は一般に、システムの特徴を参照して数学的言語で一般的にまたは近似的に表現される特定のシステムの関係構造を指す。「因果関係モデル」という用語は、一般に、システムの因果関係構造を記述するモデルを指す。
上述したように、実生活では、ビッグデータに存在する内部関係、例えば複数の要因間の因果関係(本願では「変数」とも呼ぶ)が決定されることをコンピュータが理解できることが望まれることが多い。特定の分野に適切な決定を提供するために、ビッグデータに対する分析に基づく。従来の方式では、複数の変数間の因果関係は、通常、統計的独立性ベースの方法およびスコアベースの方法で発見される。統計的独立性ベースの方法は、独立性検出を用いて、変数間に因果関係があるかどうか、および因果関係の方向があるかどうかを判断する。代表的なアルゴリズムは、PC(Perter-Clark)アルゴリズム、安定型PC、PCI(Fast Causal Inference)などを含む。しかし、因果関係発見プロセス中の独立性テストの精度および決定誤差の伝達性の制約のため、発見される因果関係の正確さは理想的ではない。
スコアベースの方法は、分解可能なスコアリング基準を設計することによって観測データと因果関係ネットワークとの間の適合度を測定し、スコアリング基準を用いて最適な因果関係ネットワーク、例えばGES(Greedy Equivalence Search)の検索を導き得る。しかし、既存のスコアリング基準の大部分は、観測変数の目標変数への適合度を主に考慮しているため、大量の誤った因果関係が保持され、したがって得られた因果関係の精度も理想的ではない。
データ分析では、精度の低い因果関係では適切な決定をユーザに提供できず、ユーザを誤解させることさえあるので悪影響が生じる。商品小売分野を例にとると、元々因果関係を持たない2つの変数が因果関係を持つと考えられる場合、例えば、間違いによって、風が傘の販売台数の増加の原因であると見なすと、傘の小売業者をミスリードして風が強いが雨が降っていないときに傘の供給を増やし、実際には何の利益ももたらさないでしょう。
この目的のために、本開示の実施形態によれば、コンピュータが複数の変数間の自然因果関係をより正確に発見することを可能にするためのデータ処理方法、電子機器、およびコンピュータ可読記憶媒体が提供される。本開示の実施形態では、まず、例えばスコアベースの因果関係学習法を用いて、複数の変数の観測データの集合に基づいて予備的な因果関係を取得する。それから、予備的な因果関係は、予備的な因果関係における疑似原因を除去するために独立性検出および/または条件付き独立性検出を使用して最適化され、それによって最適化された因果関係が得られる。スコアベース学習法と独立性検出ベース学習法は合理的に合成され、スコアベース方法によって引き起こされる大量の疑似原因は、従来の方法で決定された因果関係と比較して、独立性検出を使用して排除される。本開示において最終的に得られた最適化された因果関係はより高いので、システムの背後にある複雑なメカニズムおよび作用過程のより正確な理解が得られ、変数間の潜在的な関係が発見され、より効果的な決定がユーザに提供され得る。
上述のように、本開示の実施形態は、製品小売分野、ヘルスケア分野、およびソフトウェア開発分野に適用され得る。しかし、本開示の実施形態は、上記の分野に限定されず、データに含まれる因果関係をコンピュータが理解することを可能にする任意のデータ処理および分析の分野に適用することができる。
以下では、図1から図6を参照して、複数の変数間の因果関係を決定するための本開示の解決策を説明する。しかしながら、この説明は例示の目的のためだけのものであり、本開示はこれらの実施形態および図面中の詳細に限定されないことに留意されたい。
図1は、本開示の実施形態を実施することができるランタイム環境100を示す概略図である。図1に示す環境100は、本開示のアプリケーション環境およびシナリオを限定することのない、本開示の実施形態が実施され得る一例にすぎないことを理解されたい。本開示の実施形態はまた、他の環境またはアーキテクチャにも適用可能である。
図1に示すように、環境100はデータストレージシステム120を含む。データストレージシステム120は、N*D行列として表すことができる複数の変数の観測データX(X∈RN×D)のセットを記憶するために使用される。ここで、Nは観測されたサンプル数であり、Dは観測変数の次元数または観測変数の数である。製品小売分野を例にとると、観測変数が、季節、気温、湿度、天気(たとえば、雨が降っているかどうか)、傘の販売量、アイスクリームの販売量、および日焼け止めクリームの販売量であると、観測変数の数Dは7ですある。これらの変数が30日間観測されると仮定すると、観測されるサンプルの数Nは30で、i番目の観測サンプル(1≦i≦30)はその日の季節、その日の気温、その日が雨かどうか、その日の傘の販売量、その日のアイスクリームの販売量、その日の日焼け止めクリームの販売量で構成される。
観測データのセットX内のデータは、第三者(例えば、販売ウェブサイト、天気予報プロバイダなど)からのデータであり得るか、またはデータは他の方法で収集され得る。その他に、データは事前に処理されていてもよく、例えば、統合、仕様化、およびノイズ低減などのような前処理が生データに行われる。これらの前処理操作自体は当技術分野において既知であり、本明細書では繰り返さない。
環境100は、データストレージシステム120から複数の観測変数の観測データのセットXを受け取るモデルトレーニングシステム110をさらに含み得る。モデルトレーニングシステム110は、既存の技術、例えばスコアベースのベイジアン因果関係ネットワーク、または他の因果関係発見技術を使用して、観測データのセットに基づいて複数の変数間の因果関係を表す予備モデル(以下では予備的因果関係モデルとも呼ぶ)を得る。例えば、予備的因果関係モデルは、観測データのセットに基づくトレーニングを通じて生成されてもよい。
図2は、モデルトレーニングシステム110を用いて得られた予備的因果関係モデル200を示す。図2に示すように、予備的因果関係モデル200は、ノードが複数の変数を表し、2つのノード間の有向エッジが2つのノード間の直接の因果関係の存在および因果関係の方向、たとえば、ソースノードはターゲットノードの直接の原因である、を表す有向非巡回グラフとして表される。有向非巡回グラフは因果関係の単なる例示であり、本開示の実施形態はこれに関して限定されないことを理解されたい。当業者は、実際の用途に従って他の方法で因果関係を表すことができる。図2に示す因果関係モデル200は、37変数間の因果関係を表す。37は例示的な数の変数にすぎず、変数の数は実際の用途に基づいて1より大きい任意の整数であり得ることを理解されたい。図2に示すように、ノード5とノード6との間に有向エッジがあり、ノード5によって表される変数がノード6によって表される変数の直接の原因であり、ノード6によって表される変数がノード5によって表される変数の直接の結果であり、すなわち、2つの変数の間には直接の因果関係がある。
上述したように、スコアベースの方法で採用されるスコア基準の大部分は、主に、目標変数の原因を選択するために観測変数の目標変数への適合度を考慮するので、大量の誤った因果関係が保持される。結果として、モデルトレーニングシステム110を用いて得られた予備的因果関係モデル200は、一般に十分に正確ではない。したがって、本開示の実施形態によれば、環境100は、モデルトレーニングシステム110から予備的因果関係モデル200を受け取り、その因果関係モデル200に基づいて直接の因果関係を有する変数を決定するモデルオプティマイゼーションシステム140をさらに有する。例えば、図2に示すように、変数5と6、変数6と27、変数13と9などである。
さらに、モデルオプティマイゼーションシステム140は、直接の因果関係を有する2つの変数が独立しているかまたは条件付きで独立であるかを統計的方法に基づいて決定してもよい(本開示の実施形態において、独立性および条件付き独立性はまとめて独立性と称される)。2つの変数が独立していると判定された場合、モデルオプティマイゼーションシステム140は、予備的因果関係モデルから2つの変数間の直接の因果関係を削除することができる。モデルオプティマイゼーションシステム140は、最適な因果関係モデルを得てそれを出力するために、予備的因果関係モデル内の直接の因果関係ごとに上記のプロセスを繰り返すことができ、例えば、後で使用するためにモデルストレージシステム130に記憶する。例えば、自動意思決定がコンピュータで実行されるとき、最適化モデルはモデルストレージシステム130から取得されてもよく、データ分析は適切な決定を提供するためにこのモデルに基づいて実行されてもよい。例えば、上記の製品小売分野では、最適化災害モデルは、ユーザに対して自動的に戦略を策定することができ、あるいは傘またはアイスクリームまたは日焼け止めクリームの販売量を改善するための戦略を策定する際にユーザを支援することができる。
モデルトレーニングシステム110、モデルオプティマイゼーションシステム140、データストレージシステム120、およびモデルストレージシステム130は、図1では互いに分離して示されているが、本開示の実施形態はこれに関して限定されないことを理解されたい。実際の用途に基づいて、モデルトレーニングシステム110とモデルオプティマイゼーションシステム140とを統合してもよく、データストレージシステム120とモデルストレージシステム130とを統合してもよい。
図3は、モデルオプティマイゼーションシステム140によって出力された最適化因果関係モデル300を示す。図2に示した予備的因果関係モデル200と比較すると、図3に示した最適化因果関係モデル300では、変数6と27が独立しているので、変数6と27の間のエッジが削除される。確率と統計では、確率変数XとYが独立しているということは、変数Yの発生が変数Xに影響を与えない、つまり変数Yが変数Xの原因にならない、または変数Xが変数Yの効果にならないことを意味し、そしてその逆を意味する。したがって、予備的因果関係モデル200において直接の因果関係を有する2つの変数が互いに独立している場合、モデル200における2つの変数間の直接の因果関係は実際には統計的に誤っており(すなわち、疑似原因)、削除されるべきである。モデルオプティマイゼーションシステム140は、この原理に正確に基づいて疑似原因を実際に削除するので、モデルオプティマイゼーションシステム140によって出力された最適化因果関係モデル300によって表される因果関係はより正確になる。
一方、モデルオプティマイゼーションシステム140は、モデルトレーニングシステム110が出力した予備的因果関係モデル200に基づいて、直接の因果関係を有する変数について、複数の変数のうちの任意の2つについて独立性検出を行うのではなく、独立性検出を行うので、精度を向上させながら、計算リソースを節約し、計算速度を向上させることができる。
図4は、本開示の実施形態による、複数の変数間の因果関係を決定するための処理方法400を示すフローチャートである。方法400は、図1に示されるモデルトレーニングシステム110およびモデルオプティマイゼーションシステム140によって実行され得る。
ブロック402で、モデルトレーニングシステム110は、複数の変数の観測データのセットに基づいて、複数の変数間の因果関係を表すモデル、すなわち予備的因果関係モデルを取得する。上述のように、複数の変数の観測データのセットは様々なソースからのものであり得る。上述の製品小売分野では、一連の観測データは、小売ウェブサイト、天気予報プロバイダなどからのものでもよく、または他の手段によって取得されてもよい。
本開示の実施形態では、モデルトレーニングシステム110は、様々な技術を使用して予備的因果関係モデルを取得することができる。描写を容易にするために、スコアベースのベイジアンネットワークが、予備的因果関係モデルを得るためのモデルトレーニングシステム110のための特定のプロセスを説明するための例として使用される。しかしながら、当業者は、本開示の実施形態が本明細書に記載されるスコアベースのベイジアンネットワークに限定されず、モデルトレーニングシステム110が他の既存のまたは今後の因果関係発見学習技術を用いて予備因果関係モデルを得ることもできることを理解する。
p個の変数があると仮定し、p個の変数間の因果関係を示すために以下の行列Bを使用することができる。

Figure 2019204499

ここで、行列Bはpxp個の要素を含むp次の行列で、各要素は要素の位置に対応する2つの変数間に直接の因果関係があるかどうかを表す。具体的には、行列B中の変数βjiは、p個の変数のうちのj番目の変数とi番目の変数との間の直接の因果関係を表す。たとえば、行列B中の変数βjiは、変数iが変数jの直接の原因であるかどうかを表す。具体的に言えば|βji|>0の場合、変数iは変数jの直接の原因です。2つの変数の異なる順序は異なる因果関係を表すことに留意されたい。したがって、βjiとβijは異なる因果関係を表す。言い換えれば、行列Bで表される有向グラフにおけるエッジの方向が異なる。また、行列Bの対角部分は、各要素とそれ自体との因果関係を表す。特定の要素同士の間に因果関係はないので、対角部分の要素の値は0に設定する必要がある。
このように、ベイジアンネットワークでは、観測データの1セットに基づいてp個の変数間の因果関係を決定する問題は、複数の要素間の因果関係を記述する行列Bに対する解法プロセスに変換することができる。
因果関係に関連する採点基準は、観測データの1セットと上記の行列Bに基づいて定義することができる。例えば、観測データの1セットの因果関係ネットワークへの適合度は、以下の式に基づいて採点基準として決定され得る。

Figure 2019204499

ここで、βは行列Bのj行目の列、xはj番目の変数の観測データ、x−jはj番目の変数以外の変数の観測データ、
Figure 2019204499
はL2−Norm演算、
Figure 2019204499
はL1−Norm演算を表す。
次に、因果関係を記述する問題方程式が採点基準に基づいて構築される。

Figure 2019204499

ここで、制約は、グラフ構造Gが有向巡回グラフを含まないようにすることである。言い換えれば、グラフ構造Gは有向非巡回グラフであるべきである。
次に、因果関係を表す行列Bは、問題式を解くことによって得られる。例えば、行列Bは、予備的因果関係モデルを得るために、Jing Xiang、Seyoung Kimらによる、連続変数のためのスパースベイジアンネットワーク構造を学習するための論文A * Lasso(NIPS、2013)に記載されている検索アルゴリズムを用いて解くことができる。
本明細書に記載された採点基準、問題方程式、および問題方程式の解は例示的なものにすぎず、本開示の実施形態はこの点に関して限定されないことを理解されたい。当業者は、他の採点基準および問題式を定義し、他の検索アルゴリズムを利用して実際の必要性に基づいて問題式を解くことができる。
ブロック404において、モデルオプティマイゼーションシステム140は、ブロック402において得られた予備的因果関係モデルに基づいて、複数の変数の中で直接の因果関係を有する第1および第2の変数を決定する。本開示の一実施形態では、因果関係モデルは、図2に示す有向非巡回グラフ200として表され、モデルオプティマイゼーションシステム140は、有向エッジに関連する2つの変数、すなわち直接的な因果関係を有する2つの変数を決定するために、グラフトラバースアルゴリズムを用いて有向非巡回グラフ200をトラバースし、有向非巡回グラフ200内の有向エッジを決定することができる。より具体的には、因果関係モデルが上述の行列Bとして表される場合、モデルオプティマイゼーションシステム140は、行列B内の非ゼロ要素を調べることによって直接の因果関係を有する2つの変数を決定することができる。例えば、βjiが非ゼロの場合、変数jおよびiは直接的な因果関係を有する2つの変数であると決定することができる。
ブロック406において、モデルオプティマイゼーションシステム140は、観測データの1セットに基づいて第1および第2の変数が独立しているかどうかを決定する。統計的には、2つの確率変数間の独立性とは、2つの変数の出現確率が互いに影響しないことを意味する。すなわち、第1および第2の変数が同時に発生する確率がそれらのそれぞれの発生確率の積に等しい場合、第1および第2の変数は互いに独立している。ほとんどの場合、変数は互いに多かれ少なかれ影響を及ぼすが、通常、この種の影響は直接生成されるのではなく他の変数に依存する。この目的のために、本開示の実施形態では、モデルオプティマイゼーションシステム140はさらに、第1および第2の変数がある条件下で、条件付きで独立しているかどうかを決定することができる。統計的には、2つの確率変数間の条件付き独立は、2つの変数の出現確率が他の変数の出現下で互いに影響を及ぼさないことを意味する。第1変数と第2変数とが互いに独立しているか否かを決定する方法については、後に図5を参照して詳細に説明する。
ブロック408において、第1および第2の変数が互いに独立していることに応答して、モデルオプティマイゼーションシステム140は、予備的因果関係モデルから第1および第2の変数間の直接の因果関係を削除する。因果関係モデルが図2に示す有向非巡回グラフ200として表された場合、モデルオプティマイゼーションシステム140は、有向非巡回グラフ200から、第1の変数を表すノードと第2の変数を表すノードとの間のエッジを削除してもよい。より具体的には、因果関係モデルが上述の行列Bとして表される場合、モデルオプティマイゼーションシステム140は、第1および第2の変数に関連付けられた行列B内の要素を0として設定することができる。図2および図3に示すように、ノード6とノード27の間のエッジ、ノード8とノード32の間のエッジ、ノード31とノード30の間のエッジ、およびノード16とノード20の間のエッジなどが、ノード間の独立性または条件付きで削除され、それによって、疑似原因が削除された図3に示すような最適化因果関係モデルを得る。2つの確率変数の独立性および条件付き独立性の定義から分かるように、2つの変数が独立または条件付きで独立であるとは、2つの変数の出現確率が互いに影響しないこと、すなわち1つの変数の出現が他の出現に影響しないことを意味する。言い換えれば、2つの変数が独立しているか、条件付きで独立している場合、2つの変数のうちの一方が他方の原因または効果になることはできないことを示す。したがって、ブロック402で得られた予備的因果関係モデルにおいて、直接の因果関係を有する第1および第2の変数が独立または条件付きで独立である場合、それはこれら2つの変数間の直接の因果関係が真ではない、すなわち疑似原因であることを意味する。したがって、予備的因果関係モデルから疑似原因を削除することは、モデルをより正確にすることになる。
予備的因果関係モデルから疑似原因として決定されたすべての直接の因果関係を削除するようにブロック404、406および408に記載された動作が繰り返され、それによって、例えば自動または半自動の意思決定のその後のデータ分析のために出力されるより正確な最適因果関係モデルが得られる。
図5は、本開示の実施形態による、2つの変数が独立しているかどうかを判定する方法500を示すフローチャートである。方法500は、図1に示されるモデルオプティマイゼーションシステム140によって実行され得る。ブロック502で、モデルオプティマイゼーションシステム140は、観測データの1セットに基づいて、第1の変数と第2の変数との間の関連度を決定することができる。本開示の実施形態では、関連度は、第1および第2の変数の共起確率と、2つの変数が別々に生じる確率との間の関係の尺度として用いることができる。
本開示の一実施形態において、関連度を決定するために、モデルオプティマイゼーションシステム140は、第1および第2の変数のタイプを決定し、決定されたタイプに基づいて独立性決定方法を選択してもよい。例えば、上述の製品小売分野の例では、変数「季節」および「天気」は離散変数であり、変数「気温」、「天気」、「傘の販売量」、「アイスクリームの販売量」および「日焼け止めクリームの販売量」は連続的な変数です。第1および第2の変数のタイプに基づいて、計算の実行可能性を保証し、計算の精度を向上させるために、関連度の対応する計算方法を採用することができる。
本開示の一実施形態では、第1および第2の変数の両方が連続変数であることに応答して、モデルオプティマイゼーションシステム140は、ピアソン相関検出などの連続独立性決定方法を用いて第1および第2の変数間の関連度を決定することができる。例えば、第1変数に関連付けられた観測データと第2変数に関連付けられた観測データとに基づいて、2つの変数間のピアソン相関係数が関連度として算出される。
本開示の一実施形態では、第1変数と第2変数の両方が離散変数であることに応答して、モデルオプティマイゼーションシステム140は、カイ二乗検出などの離散独立性決定方法を採用することによって第1の変数と第2の変数間の関連度を決定する。例えば、第1および第2の変数が独立しているという仮定から推論された値と、観測データの1セットの実際の値との間の乖離度が、第1および第2の変数間の関連度として使用されてもよい。
本開示の一実施形態では、第1および第2の変数の一方が離散変数であり他方が連続変数であることに応答して、モデルオプティマイゼーションシステム140は、ガウス過程−ヒルベルト−シュミット独立基準(GP−HSIC:Gaussian process-Hilbert-Schmidt independence criterion)などのハイブリッド独立性検出方法を採用して、第1および第2の変数間の関連度を決定する。
ブロック504で、モデルオプティマイゼーションシステム140は、第1の変数と第2の変数との間の関連度が第1の閾値範囲内にあるかどうかを決定することができる。第1の閾値範囲の選択は、特定の用途および使用中の独立性決定方法に依存する。本開示の一実施形態では、それは事前に定義されてもよい。関連度が第1の閾値範囲内にある場合、例えば、2つの連続変数間のピアソン相関係数が第1の閾値より小さい場合、それは第1および第2の変数が無条件に独立していることを意味する。この観点から、関連度が第1の閾値範囲内にあることに応答して、ブロック512において、モデルオプティマイゼーションシステム140は、第1および第2の変数が独立であると決定することができる。
本開示の実施形態では、実際の適用において有用ではないより多くの疑似原因を排除するために、第1および第2の変数が無条件に独立していないとき、モデルオプティマイゼーションシステム140は、さらに第1および第2の変数が条件付きで独立しているかどうかを決定し得る。このために、関連度が第1の閾値範囲を超えることに応答して、ブロック506において、モデルオプティマイゼーションシステム140は、第1の変数に関連する第1の関連変数のセットおよび第2の変数に関連する第2の関連変数のセットを決定し得る。
本開示の一実施形態では、因果関係モデルが図2に示されている有向非巡回グラフ200として表される場合、モデルオプティマイゼーションシステム140は、第2の変数のペアレントノードとスパウズノードのセットを第1の関連変数のセットとして決定し、モデルオプティマイゼーションシステム140は、第2の変数のペアレントノードとスパウズノードのセットを第2の関連変数のセットとして決定する。図2に示すように、ノード8のペアレントノードはノード7とノード9であり、ノード8のスパウズノード(すなわち、ノード8と同じチャイルドノードを有するノード)はノード28とノード31であり、ノード8に関連する変数のセットは、{ノード7、ノード9、ノード28、およびノード31}である。
本開示の一実施形態では、第1および第2の変数のマルコフブランケットセット(マルコフブランケット集合)は、それぞれ観測データのセット(集合)に基づいて決定され、それぞれ第1および第2の関連変数のセットとして使用されてもよい。変数Xのマルコフブランケットセットは、次のように定義される。確率変数の完全なセットUが3つの相互に排他的な部分−変数XとセットAとセットBに分割され、それらは交差せず、そのユニオンセット(和集合)はUである。集合Aが与えられた場合、変数Xと集合Bは無関係であり、そして集合Aは、変数Xのマルコフブランケット集合である。本開示の実施形態では、当技術分野で既に知られているマルコフブランケット学習技術を使用して、第1および第2の変数に対するマルコフブランケットセットを決定することができ、これはここでは繰り返さない。
ブロック508において、モデルオプティマイゼーションシステム140は、第1および第2の関連変数のセットの和集合を条件として、第1および第2の変数間の関連度を決定することができ、以下、条件付き関連度と略記する。
ブロック502と同様に、条件付き関連度の決定および精度の向上を実現するために、モデルオプティマイゼーションシステム140は、和集合内の第1の変数、第2の変数および条件付き変数のタイプに基づいて条件付き独立性判定方法を選択し得る。例えば、第1の変数、第2の変数、および条件付き変数がすべて連続変数である場合、モデルオプティマイゼーションシステム140は、連続条件独立性決定方法、例えば、部分相関検出を選択し、第1および第2の関連変数のセットの和集合の条件下で、第1および第2の変数の偏相関測定を条件付き関連度として計算することができる。
第1の変数、第2の変数および条件付き変数が全て離散変数である場合、モデルオプティマイゼーションシステム140は、条件付き関連度を決定するために離散決定方法(例えば、カイ二乗検出)を選択してもよい。例えば、第1および第2の変数が条件付きで独立しているという条件(第1および第2の関連変数の和集合を条件とする)のもとで推定された仮定値と実際の値との乖離度を、条件付き関連度として用いてもよい。
第1の変数、第2の変数、および条件付き変数の中に離散変数と連続変数の両方がある場合、モデルオプティマイゼーションシステム140は、条件付き関連度を決定するために、ハイブリッド検出方法(例えば、GP−HSICまたはPCI−Permute(Permutation−based Kernel)を選択し得る。
ブロック510で、モデルオプティマイゼーションシステム140は、条件付き関連度が第2の閾値範囲内にあるかどうかを決定することができる。第2の閾値範囲は、第1の閾値と同じでも異なっていてもよく、実際の用途および使用中の独立性決定方法にも依存し、事前に定義されてもよい。ブロック512で、条件付き関連度が第2の閾値範囲内にあることに応答して、モデルオプティマイゼーションシステム140は、第1および第2の変数が互いに独立であると決定することができる。ブロック514で、条件付き関連度が第2の閾値範囲を超えることに応答して、モデルオプティマイゼーションシステム140は、第1および第2の変数が独立でないと決定することができる。
図5に示される方法500において、まず、ブロック502および504で、第1および第2の変数が統計的に無条件に独立しているかどうかが決定される。第1および第2の変数が無条件に独立していないことに応答して、ブロック506、508および510で、2つの変数が統計的に条件付きで独立しているかどうかが決定される。このようにして、より多くの疑似原因を因果関係モデルから削除することができる。
一方、2つの変数が無条件に独立していない場合にのみ、それらが条件付きで独立しているかどうかがさらに判断され、関連する変数のセットを決定するために必要な計算リソースおよび時間を節約する。予備的因果関係モデル内の各直接の因果関係(例えば、図2に示される有向非巡回グラフ内の各エッジ)について、方法500が繰り返されて予備的因果関係モデル内のすべての疑似原因が見つけられて削除され、これにより、図3に示すような最適化因果関係モデルが得られる。この最適化因果関係モデルは、フォローアップデータ分析にさらに使用され得る。
従来のスコアベースの因果関係発見方法および統計的独立性ベースの因果関係発見方法と比較して、本開示の実施形態は、複雑な作業メカニズムおよびシステムの背後にある作業プロセスに対する洞察を得るためにより正確な因果関係モデルを提供でき、そして、ユーザにさらに効果的な決定を提供する。
図6は、本開示の実施形態を実施するために使用することができる例示的な装置600を示す概略ブロック図である。装置600は、図1に示されるモデルトレーニングシステム110とモデルオプティマイゼーションシステム140の両方を実装するために使用され得る。図6に示すように、装置600は、保存部608から、読み出し専用メモリ(ROM)602に格納されたコンピュータプログラム命令またはランダムアクセスメモリ(RAM)603にロードされたコンピュータプログラム命令に基づいて様々な適切な動作および処理を実行できる中央処理部(CPU)601を含む。RAM603は、記憶装置600を動作させるために必要な各種プログラムやデータを格納する。CPU601、ROM602、およびRAM603は、バス604を介して相互に接続される。このバス604にはまた、入出力(I/O)インタフェース605も接続される。
装置600内の複数の構成要素が、例えばキーボード、マウス等の入力部606、例えば各種ディスプレイ、スピーカ等の出力部607、例えば磁気ディスク、光ディスク等の保存部608、および、例えばネットワークカード、モデム、無線通信トランシーバ等の通信部609を含むI/Oインタフェース605に接続される。通信部609は、装置600がインターネットおよび/または様々な電気通信ネットワークなどのコンピュータネットワークを介して他の装置と情報/データを交換することを可能にする。
処理部601は、上述の様々な方法および処理、例えば方法400および/または方法500を実行する。たとえば、いくつかの実施形態では、方法400および/または方法500は、機械可読媒体、たとえば保存部608に有形に含まれるコンピュータソフトウェアプログラムとして実装することができる。いくつかの実施形態では、コンピュータプログラムは、ROM602および/または通信部609を介して装置600に部分的にまたは完全にロードおよび/またはインストールすることができる。コンピュータプログラムがRAM603にロードされ、CPU601によって実行される場合、上述の方法400および/または方法500の1つまたは複数のステップが実施される。あるいは、他の実施形態では、CPU601は、方法400および/または方法500を任意の他の適切な方法で(たとえばファームウェアによって)実施するように構成される。
本明細書で機能的に説明されることは、少なくとも部分的に、1つまたは複数のハードウェア論理構成要素によって実行され得る。例えば、限定されないが、使用され得る例示的な種類のハードウェア論理構成要素は、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップシステム(SOC)、複合プログラマブルロジックデバイス(CPLD)などを含む。
本明細書に記載の主題の方法を実行するためのプログラムコードは、1つまたは複数のプログラミング言語の任意の組合せで書くことができる。これらのプログラムコードは、プログラムコードがプロセッサまたはコントローラによって実行されると、実施されるべきフローチャートおよび/またはブロック図において、指定された機能/動作を引き起こすように、汎用コンピュータ、特殊用途コンピュータ、または他のプログラム可能データ処理装置のプロセッサまたはコントローラに提供され得る。プログラムコードは、完全にマシン上、部分的にマシン上、スタンドアロンソフトウェアパッケージとして、部分的にマシン上および部分的にリモートマシン上で、あるいは全体的にリモートマシンまたはサーバ上で実行することができる。
本明細書に記載の主題の文脈では、機械可読媒体は、命令実行システム、装置、または機器によって使用されるまたはそれらに関連して使用するためのプログラムを含むまたは格納することができる任意の有形の媒体とすることができる。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体とすることができる。機械可読媒体は、電子、磁気、光学、電磁気、赤外線、または半導体のシステム、装置、または機器、あるいは前述の任意の適切な組み合わせを含むことができるが、それらに限定されない。機械可読記憶媒体のより具体的な例には、1つまたは複数のワイヤを有する電気接続、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROMまたはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD−ROM)、光記憶装置、磁気記憶装置、またはこれらの任意の適切な組み合わせなどがある。
さらに、動作は特定の順序で描かれているが、望ましい結果を達成するために、そのような動作が示された特定の順序で、または順次に実行されること、または示されたすべての動作が実行されることを要求するものとして理解されるべきではない。特定の状況では、マルチタスキングおよび並列処理が有利な場合がある。同様に、いくつかの具体的な実装の詳細が上記の説明に含まれているが、これらは、本明細書に記載の主題の範囲に対する制限としてではなく、むしろ特定の実装に特有の特徴の説明として解釈されるべきである。別々の実施の文脈で説明されている特定の特徴は、単一の実施において組み合わせて実施することもできる。逆に、単一の実施形態の文脈で説明されている様々な特徴は、別々にまたは任意の適切なサブコンビネーションで複数の実施形態で実施することもできる。
主題は構造的特徴および/または方法論的行為に特有の言語で説明されてきたが、添付の特許請求の範囲に明記された主題は必ずしも上記の特定の特徴または行為に限定されない。そうではなく、上記の特定の特徴および動作は、特許請求の範囲を実施する例示的形態として開示されている。

Claims (21)

  1. 複数の変数の観測データのセットに基づいて、前記複数の変数間の因果関係を表すモデルを取得することと、
    前記モデルに基づいて、前記複数の変数の中で直接の因果関係を有する第1および第2の変数を決定することと、
    前記第1および第2の変数が互いに独立しているかどうかを決定することと、
    前記第1および第2の変数が互いに独立していることに応答して、前記モデルから前記第1および第2の変数との間の前記直接の因果関係を削除することと、
    を備えるデータ処理方法。
  2. 前記第1および第2の変数が互いに独立しているかどうかを決定することは、
    前記観測データのセットに基づいて、前記第1および第2の変数との間の関連度を決定することと、
    前記関連度が閾値の範囲内にあることに応答して、前記第1および第2の変数が互いに独立していると決定すること、
    を備える請求項1に記載の方法。
  3. 前記第1および第2の変数が互いに独立しているかどうかを決定することは、
    前記複数の変数から、前記第1の変数に関連する第1の関連変数のセットと前記第2の変数に関連する第2の関連変数のセットとを決定することと、
    前記観測データのセットに基づいて、前記第1および第2の変数との間の関連度を、前記第1および第2の関連変数のセットの和集合を条件として決定することと、
    前記関連度が閾値の範囲内にあることに応答して、前記第1および第2の変数が互いに独立していると決定することと、
    を備える請求項1に記載の方法。
  4. 前記第1および第2の関連変数のセットを決定することは、
    前記観測データのセットに基づいて、前記第1および第2の関連変数としてマルコフブランケット学習技術を使用して、前記第1の変数についてのマルコフブランケットセットおよび前記第2の変数についてのマルコフブランケットセットを決定すること、
    を備える請求項3に記載の方法。
  5. 前記モデルは、ノードが前記複数の変数を表しエッジが直接の因果関係を表す有向非巡回グラフであり、
    前記第1および第2の関連変数のセットを決定することは、
    前記有向非巡回グラフ内の前記第1の変数を表す第1のノードに対するペアレントノードおよびスパウズノードのセットを、前記第1の関連変数のセットとして決定することと、
    前記有向非巡回グラフ内の前記第2の変数を表す第2のノードに対するペアレントノードおよびスパウズノードのセットを、前記第2の関連変数のセットとして決定することと、
    を備える請求項3に記載の方法。
  6. 前記第1および第2の変数との間の前記関連度を決定することは、
    前記第1の変数のタイプと前記第2の変数のタイプとに基づいて独立性決定方法を選択することと、
    前記選択された独立性決定方法を用いて前記第1および第2の変数との間の前記関連度を決定することと、
    を備える請求項2に記載の方法。
  7. 前記独立性決定方法を選択することは、
    前記第1および第2の変数の両方が離散変数であることに応答して、離散独立性決定方法を選択することと、
    前記第1および第2の変数の両方が連続変数であることに応答して、連続独立性決定方法を選択することと、
    前記第1および第2の変数の一方が離散変数であり、他方が連続変数であることに応答して、ハイブリッド検出の独立性決定方法を選択することと、
    を備える請求項6に記載の方法。
  8. 前記第1および第2の変数との間の前記関連度を、前記第1および第2の関連変数のセットの和集合を条件として決定することは、
    前記和集合内の前記第1の変数のタイプ、前記第2の変数のタイプ、および条件付き変数のタイプに基づいて、独立性決定方法を選択することと、
    前記和集合を条件として、前記選択された独立性判定方法を用いて、前記第1および第2の変数との間の関連度を決定することと、
    を備える請求項3に記載の方法。
  9. 前記独立性決定方法を選択することは、
    前記第1の変数、前記第2の変数、および前記条件付き変数がすべて離散変数であることに応答して、離散独立性決定方法を選択することと、
    前記第1の変数、前記第2の変数、および前記条件付き変数がすべて連続変数であることに応答して、連続独立性決定方法を選択することと、
    離散変数および連続変数の両方が、前記第1の変数、前記第2の変数、および前記条件付き変数の間に存在することに応答して、ハイブリッド検出の独立性決定方法を選択することと、
    を備える請求項8に記載の方法。
  10. 前記モデルを取得することは、
    スコアベースの因果関係ベイジアンネットワークを使用して前記モデルを取得すること、
    を備える請求項1に記載の方法。
  11. プロセッサと、
    前記プロセッサによって実行されると、電子機器に以下の動作を実行させる命令を記憶するメモリと、
    を備え、
    複数の変数の観測データのセットに基づいて、前記複数の変数間の因果関係を表すモデルを取得し、
    前記モデルに基づいて、前記複数の変数の中で直接の因果関係を有する第1および第2の変数を決定し、
    前記第1および第2の変数が互いに独立しているかどうかを決定し、
    前記第1および第2の変数が互いに独立していることに応答して、前記モデルから前記第1および第2の変数との間の前記直接の因果関係を削除する、
    電子機器。
  12. 前記第1および第2の変数が互いに独立しているかどうかを決定することは、
    前記観測データのセットに基づいて、前記第1および第2の変数との間の関連度を決定することと、
    前記関連度が閾値の範囲内にあることに応答して、前記第1および第2の変数が互いに独立していると決定すること、
    を備える請求項11に記載の電子機器。
  13. 前記第1および第2の変数が互いに独立しているかどうかを決定することは、
    前記複数の変数から、前記第1の変数に関連する第1の関連変数のセットと前記第2の変数に関連する第2の関連変数のセットとを決定することと、
    前記観測データのセットに基づいて、前記第1および第2の変数との間の関連度を、前記第1および第2の関連変数のセットの和集合を条件として決定することと、
    前記関連度が閾値の範囲内にあることに応答して、前記第1および第2の変数が互いに独立していると決定することと、
    を備える請求項11に記載の電子機器。
  14. 前記第1および第2の関連変数のセットを決定することは、
    前記観測データのセットに基づいて、前記第1および第2の関連変数としてマルコフブランケット学習技術を使用して、前記第1の変数についてのマルコフブランケットセットおよび前記第2の変数についてのマルコフブランケットセットを決定すること、
    を備える請求項11に記載の電子機器。
  15. 前記モデルは、ノードが前記複数の変数を表しエッジが直接の因果関係を表す有向非巡回グラフであり、
    前記第1および第2の関連変数のセットを決定することは、
    前記有向非巡回グラフ内の前記第1の変数を表す第1のノードに対するペアレントノードおよびスパウズノードのセットを、前記第1の関連変数のセットとして決定することと、
    前記有向非巡回グラフ内の前記第2の変数を表す第2のノードに対するペアレントノードおよびスパウズノードのセットを、前記第2の関連変数のセットとして決定することと、
    を備える請求項13に記載の電子機器。
  16. 前記第1および第2の変数との間の前記関連度を決定することは、
    前記第1の変数のタイプと前記第2の変数のタイプとに基づいて独立性決定方法を選択することと、
    前記選択された独立性決定方法を用いて前記第1および第2の変数との間の前記関連度を決定することと、
    を備える請求項12に記載の電子機器。
  17. 前記独立性決定方法を選択することは、
    前記第1および第2の変数の両方が離散変数であることに応答して、離散独立性決定方法を選択することと、
    前記第1および第2の変数の両方が連続変数であることに応答して、連続独立性決定方法を選択することと、
    前記第1および第2の変数の一方が離散変数であり、他方が連続変数であることに応答して、ハイブリッド検出の独立性決定方法を選択することと、
    を備える請求項16に記載の電子機器。
  18. 前記第1および第2の変数との間の前記関連度を、前記第1および第2の関連変数のセットの和集合を条件として決定することは、
    前記和集合内の前記第1の変数のタイプ、前記第2の変数のタイプ、および条件付き変数のタイプに基づいて、独立性決定方法を選択することと、
    前記和集合を条件として、前記選択された独立性判定方法を用いて、前記第1および第2の変数との間の関連度を決定することと、
    を備える請求項13に記載の電子機器。
  19. 前記独立性決定方法を選択することは、
    前記第1の変数、前記第2の変数、および前記条件付き変数がすべて離散変数であることに応答して、離散独立性決定方法を選択することと、
    前記第1の変数、前記第2の変数、および前記条件付き変数がすべて連続変数であることに応答して、連続独立性決定方法を選択することと、
    離散変数および連続変数の両方が、前記第1の変数、前記第2の変数、および前記条件付き変数の間に存在することに応答して、ハイブリッド検出の独立性決定方法を選択することと、
    を備える請求項18に記載の電子機器。
  20. 前記モデルを取得することは、
    スコアベースの因果関係ベイジアンネットワークを使用して前記モデルを取得すること、
    を備える請求項11に記載の電子機器。
  21. コンピュータ実行可能命令が記憶され、前記コンピュータ実行可能命令が実行されると、請求項1乃至10のいずれかに記載の方法をコンピュータに実行させる、
    コンピュータ可読記憶媒体。
JP2019063338A 2018-03-29 2019-03-28 データ処理方法および電子機器 Active JP6822509B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021001314A JP7392668B2 (ja) 2018-03-29 2021-01-07 データ処理方法および電子機器

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810269835.5A CN110555047B (zh) 2018-03-29 2018-03-29 数据处理方法和电子设备
CN201810269835.5 2018-03-29

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2021001314A Division JP7392668B2 (ja) 2018-03-29 2021-01-07 データ処理方法および電子機器

Publications (2)

Publication Number Publication Date
JP2019204499A true JP2019204499A (ja) 2019-11-28
JP6822509B2 JP6822509B2 (ja) 2021-01-27

Family

ID=68055005

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2019063338A Active JP6822509B2 (ja) 2018-03-29 2019-03-28 データ処理方法および電子機器
JP2021001314A Active JP7392668B2 (ja) 2018-03-29 2021-01-07 データ処理方法および電子機器

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2021001314A Active JP7392668B2 (ja) 2018-03-29 2021-01-07 データ処理方法および電子機器

Country Status (4)

Country Link
US (1) US11461344B2 (ja)
JP (2) JP6822509B2 (ja)
CN (1) CN110555047B (ja)
WO (1) WO2019185039A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022000752A (ja) * 2020-06-03 2022-01-04 日本電気株式会社 情報処理に用いられる方法、装置、電子機器及びプログラム
JP2022013844A (ja) * 2020-07-01 2022-01-18 日本電気株式会社 情報処理方法、情報処理装置及びプログラム
WO2023032218A1 (ja) * 2021-09-06 2023-03-09 日本電気株式会社 因果探索装置、因果探索方法、及びコンピュータ読み取り可能な記録媒体

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555047B (zh) * 2018-03-29 2024-03-15 日本电气株式会社 数据处理方法和电子设备
US11189371B2 (en) * 2019-04-30 2021-11-30 International Business Machines Corporation Systems and methods for adjusting medical treatment to reduce likelihood of prescription cascade
CN111506440B (zh) * 2020-04-14 2022-11-04 上海春魁信息技术有限公司 一种数据处理方法、装置、设备及存储介质
CN113554449A (zh) * 2020-04-23 2021-10-26 阿里巴巴集团控股有限公司 商品变量预测方法、设备以及计算机可读介质
CN112116433A (zh) * 2020-09-30 2020-12-22 拉扎斯网络科技(上海)有限公司 订单归因方法及装置
WO2022269656A1 (ja) * 2021-06-21 2022-12-29 三菱電機株式会社 機械学習装置、深刻度予知装置、および機械学習方法
CN113806452B (zh) * 2021-09-17 2022-10-25 北京百度网讯科技有限公司 信息处理方法、装置、电子设备及存储介质
US11892989B2 (en) * 2022-03-28 2024-02-06 Bank Of America Corporation System and method for predictive structuring of electronic data

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005276225A (ja) * 2004-03-25 2005-10-06 Microsoft Corp テーブルを使用したツリーの学習
JP2014228991A (ja) * 2013-05-21 2014-12-08 ソニー株式会社 情報処理装置および方法、並びにプログラム
JP2015153133A (ja) * 2014-02-14 2015-08-24 オムロン株式会社 因果ネットワーク生成システムおよび因果関係のデータ構造

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7117185B1 (en) * 2002-05-15 2006-10-03 Vanderbilt University Method, system, and apparatus for casual discovery and variable selection for classification
US20060059112A1 (en) * 2004-08-25 2006-03-16 Jie Cheng Machine learning with robust estimation, bayesian classification and model stacking
US7720267B2 (en) * 2005-07-15 2010-05-18 Siemens Medical Solutions Usa, Inc. Method and apparatus for classifying tissue using image data
JP2007207101A (ja) * 2006-02-03 2007-08-16 Infocom Corp グラフ生成方法、グラフ生成プログラム並びにデータマイニングシステム
JP5854274B2 (ja) * 2012-03-28 2016-02-09 ソニー株式会社 情報処理装置および方法、並びにプログラム
US10042037B2 (en) * 2014-02-20 2018-08-07 Nestwave Sas System and method for estimating time of arrival (TOA)
WO2015195485A1 (en) * 2014-06-16 2015-12-23 Eric Burton Baum System, apparatus and method for supporting formal verification of informal inference on a computer
EP3191975A4 (en) * 2014-09-11 2018-04-18 Berg LLC Bayesian causal relationship network models for healthcare diagnosis and treatment based on patient data
CN104537418A (zh) * 2014-12-11 2015-04-22 广东工业大学 一种自底向上的高维数据因果网络学习方法
US9547478B1 (en) * 2015-09-30 2017-01-17 Semmle Limited Hierarchical dependency analysis enhancements using disjoint-or trees
US20170308836A1 (en) * 2016-04-22 2017-10-26 Accenture Global Solutions Limited Hierarchical visualization for decision review systems
CN106874589A (zh) * 2017-02-10 2017-06-20 泉州装备制造研究所 一种基于数据驱动的报警根源寻找方法
CN107563596A (zh) * 2017-08-03 2018-01-09 清华大学 一种基于贝叶斯因果网络的评价指标均衡态分析方法
CN110555047B (zh) 2018-03-29 2024-03-15 日本电气株式会社 数据处理方法和电子设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005276225A (ja) * 2004-03-25 2005-10-06 Microsoft Corp テーブルを使用したツリーの学習
JP2014228991A (ja) * 2013-05-21 2014-12-08 ソニー株式会社 情報処理装置および方法、並びにプログラム
JP2015153133A (ja) * 2014-02-14 2015-08-24 オムロン株式会社 因果ネットワーク生成システムおよび因果関係のデータ構造

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022000752A (ja) * 2020-06-03 2022-01-04 日本電気株式会社 情報処理に用いられる方法、装置、電子機器及びプログラム
JP7294369B2 (ja) 2020-06-03 2023-06-20 日本電気株式会社 情報処理に用いられる方法、装置、電子機器及びプログラム
JP2022013844A (ja) * 2020-07-01 2022-01-18 日本電気株式会社 情報処理方法、情報処理装置及びプログラム
JP7306432B2 (ja) 2020-07-01 2023-07-11 日本電気株式会社 情報処理方法、情報処理装置及びプログラム
WO2023032218A1 (ja) * 2021-09-06 2023-03-09 日本電気株式会社 因果探索装置、因果探索方法、及びコンピュータ読み取り可能な記録媒体

Also Published As

Publication number Publication date
JP6822509B2 (ja) 2021-01-27
US11461344B2 (en) 2022-10-04
US20190303368A1 (en) 2019-10-03
JP2021061055A (ja) 2021-04-15
CN110555047B (zh) 2024-03-15
JP7392668B2 (ja) 2023-12-06
WO2019185039A1 (zh) 2019-10-03
CN110555047A (zh) 2019-12-10

Similar Documents

Publication Publication Date Title
JP7392668B2 (ja) データ処理方法および電子機器
US10846643B2 (en) Method and system for predicting task completion of a time period based on task completion rates and data trend of prior time periods in view of attributes of tasks using machine learning models
US10200393B2 (en) Selecting representative metrics datasets for efficient detection of anomalous data
JP6969637B2 (ja) 因果関係分析方法および電子デバイス
CN113302634B (zh) 学习和预测关键短语以及生成预测的系统、介质和方法
US8903824B2 (en) Vertex-proximity query processing
US20180082215A1 (en) Information processing apparatus and information processing method
US11023495B2 (en) Automatically generating meaningful user segments
US20220076157A1 (en) Data analysis system using artificial intelligence
US9324026B2 (en) Hierarchical latent variable model estimation device, hierarchical latent variable model estimation method, supply amount prediction device, supply amount prediction method, and recording medium
WO2022011553A1 (en) Feature interaction via edge search
JP2014225117A (ja) 伝達情報変動検知方法、伝達情報変動検知装置および伝達情報変動検知プログラム
CN111612156A (zh) 用于XGBoost模型的解释方法
JP5555238B2 (ja) ベイジアンネットワーク構造学習のための情報処理装置及びプログラム
CN112001748A (zh) 一种基于标签传播的数据扩展方法与设备
US20210026850A1 (en) Method, system, and storage medium for processing data set
US20220414540A1 (en) Method, device and medium for data processing
EP4310736A1 (en) Method and system of generating causal structure
US20240119251A1 (en) Fast graph model selection via meta-learning
US20220237484A1 (en) Forecasting technology phase using unsupervised clustering with wardley maps
JP6386931B2 (ja) 多次元データの予測装置、多次元データの予測方法、多次元データの予測プログラム
CN116226752A (zh) 一种提高jit缺陷预测性能的方法
CN117114050A (zh) 一种面向图模型表征学习的结构知识探测方法
Lin et al. An algorithm for Bayesian network structure learning based on simulated annealing with adaptive selection operator

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190723

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200416

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200512

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200709

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200416

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201208

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201221

R150 Certificate of patent or registration of utility model

Ref document number: 6822509

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150