JP7478408B2

JP7478408B2 - 特徴ネットワーク抽出装置、コンピュータプログラム、特徴ネットワーク抽出方法及びベイジアンネットワーク分析方法

Info

Publication number: JP7478408B2
Application number: JP2020002923A
Authority: JP
Inventors: 恭史奥野; 嘉紀玉田
Original assignee: Kyoto University
Current assignee: Kyoto University
Priority date: 2020-01-10
Filing date: 2020-01-10
Publication date: 2024-05-07
Anticipated expiration: 2040-01-10
Also published as: JP2021111141A

Description

本発明は、特徴ネットワーク抽出装置、コンピュータプログラム、特徴ネットワーク抽出方法及びベイジアンネットワーク分析方法に関する。

ベイジアンネットワークは、グラフィカルモデル（グラフ表現を用いた統計モデル）の一つであり、多変量の因果関係をネットワーク（非巡回有向グラフ）で表現したものである。大量のデータからベイジアンネットワークの構造学習をすることにより、ベイジアンネットワークが推定され、多変量間の因果関係を推定することができる。

特許文献１には、ユーザがノード名や定義域名の候補となる「表現」を名前とするラベルオブジェクトをＧＵＩ画面上に生成し、画面上に配置されたラベルオブジェクトに、ラベル間の関係（因果関係か命題の関係）をマウス操作で定義することにより、ベイジアンネットワークを容易に作成することができる装置が開示されている。

特開２００７－１０２７１７号公報

しかし、大量のデータを用いてベイジアンネットワークが推定されたとしても、推定されたベイジアンネットワークは、大量のデータのうち、データに潜む変数間の関係性のうち共通性のもの（例えば、データの塊り）について何らかの関係性が推定されるのみであり、例えば、個々のサンプル又はサンプル群の関係性を説明することができない。

本発明は斯かる事情に鑑みてなされたものであり、推定されたベイジアンネットワークでのサンプル又はサンプル群の関係性を評価することができる特徴ネットワーク抽出装置、コンピュータプログラム、特徴ネットワーク抽出方法及びベイジアンネットワーク分析方法を提供することを目的とする。

本願は上記課題を解決する手段を複数含んでいるが、その一例を挙げるならば、特徴ネットワーク抽出装置は、それぞれの確率変数が対応付けられた複数のノード間の依存関係を、非巡回有向グラフを用いて表したベイジアンネットワークの所要ノードにデータを付与するデータ付与部と、前記データ付与部が付与したデータに基づいてノードの事後確率を計算する際に、親ノードの確率変数を所与としたときの条件付き確率を構成する所定モデルに基づいて、前記親ノードから子ノードへのリンクの特徴量を算出する算出部と、前記算出部が算出した特徴量に基づいて前記ベイジアンネットワークから特徴ネットワークを抽出する抽出部とを備える。

本発明によれば、推定されたベイジアンネットワークでのサンプル又はサンプル群の関係性を特徴付ける特徴ネットワークを抽出することができ、推定されたベイジアンネットワークでのサンプル又はサンプル群を評価することができる。

本実施の形態の特徴ネットワーク抽出装置の構成の一例を示すブロック図である。ベイジアンネットワークの一例を示す模式図である。Ｂ－スプラインを用いたノンパラメトリック回帰モデルの一例を示す模式図である。ノンパラメトリックベイジアンネットワークの一例を示す模式図である。枝の特徴量の第１例を示す模式図である。枝の特徴量の第２例を示す模式図である。変数Ｘの親ノードから変数Ｙの子ノードへの枝に対するΔＥＣｖの概念を示す模式図である。枝の特徴量の第３例を示す模式図である。枝の特徴量の第４例を示す模式図である。特徴ネットワークの抽出方法の第１例を示す模式図である。特徴ネットワークの抽出方法の第２例を示す模式図である。特徴ネットワークの抽出方法の第３例を示す模式図である。抽出された特徴ネットワークの第１例を示す模式図である。特徴ネットワークによる個人の特徴付けの第１例を示す模式図である。ＥＣｖ行列の他の構成を示す模式図である。特徴ネットワークによる個人の特徴付けの第２例を示す模式図である。抽出された特徴ネットワークの第２例を示す模式図である。抽出された特徴ネットワークの第３例を示す模式図である。抽出された特徴ネットワークにより免疫系の遺伝子を捉えることができるメカニズムを示す模式図である。特徴ネットワークによる個人の特徴付けの第３例を示す模式図である。特徴ネットワークによる個人の特徴付けの第４例を示す模式図である。特徴ネットワークによる個人の特徴付けの第５例を示す模式図である。抽出された特徴ネットワークを全体のネットワークにマッピングした模式図である。抽出された特徴ネットワークとＤＥＧ遺伝子との関連の第１例を示す模式図である。抽出された特徴ネットワークとＤＥＧ遺伝子との関連の第２例を示す模式図である。抽出された特徴ネットワークの第４例を示す模式図である。慢性腎臓病（ＣＫＤ）発症関連パスを抜き出した例を示す模式図である。高血圧発症関連パスを抜き出した例を示す模式図である。ＳＮＰありの場合のＣＫＤ及び高血圧の２疾患関連ネットワークの例を示す模式図である。ＳＮＰなしの場合のＣＫＤ及び高血圧の２疾患関連ネットワークの例を示す模式図である。慢性腎臓病（ＣＫＤ）発症の個人ネットワークの第１例を示す模式図である。慢性腎臓病（ＣＫＤ）発症の個人ネットワークの第２例を示す模式図である。慢性腎臓病（ＣＫＤ）発症の個人ネットワークの第３例を示す模式図である。特徴ネットワーク抽出装置の処理手順の一例を示すフローチャートである。特徴ネットワーク抽出処理の一例を示すフローチャートである。

以下、本発明をその実施の形態を示す図面に基づいて説明する。図１は本実施の形態の特徴ネットワーク抽出装置５０の構成の一例を示すブロック図である。特徴ネットワーク抽出装置５０は、プロセッサ５１、操作部５２、インタフェース部５３、表示パネル５４、記録媒体読取部５５、ＲＯＭ５６、メモリ５７（例えば、ＲＡＭ）及び記憶部５８を備える。記憶部５８には、予め推定されたベイジアンネットワークモデル５８１、サンプルデータ５８２を記憶することができる。なお、特徴ネットワーク抽出装置５０は、１台の装置で構成してもよく、あるいは複数台の装置で構成してもよい。

プロセッサ５１は、例えば、ＣＰＵ（例えば、複数のプロセッサコアを実装したマルチ・プロセッサなど）、ＧＰＵ（Graphics Processing Units）、ＤＳＰ（Digital Signal Processors）、ＦＰＧＡ（Field-Programmable Gate Arrays）などのハードウェアを組み合わせることによって構成することができる。

表示パネル５４は、液晶パネル又は有機ＥＬ（Electro Luminescence）ディスプレイ等で構成することができる。

操作部５２は、例えば、ハードウェアキーボード、マウスなどで構成され、表示パネル５４に表示されたアイコンなどの操作、文字等の入力などを行うことができる。なお、操作部５２は、タッチパネルで構成してもよい。

インタフェース部５３は、サンプルデータ、推定されたベイジアンネットワークモデルなどを外部の装置等から取得することができる。インタフェース部５３は、有線通信機能及び無線通信機能を有する。インタフェース部５３を経由して取得したサンプルデータやベイジアンネットワークモデルは、記憶部５８に記憶することができる。

記録媒体読取部５５は、例えば、特徴ネットワークの抽出処理の手順が定められたコンピュータプログラムを記録した記録媒体Ｍを読み取り、読み取ったコンピュータプログラムを記憶部５８に記憶することができる。なお、特徴ネットワークの抽出処理の手順が定められたコンピュータプログラムは、インタフェース部５３を経由して、外部の装置等から取得してもよい。

記憶部５８は、ハードディスク又はフラッシュメモリなどで構成することができる。記憶部５８に記憶されたコンピュータプログラムをメモリ５７に読み込んでプロセッサ５１によって処理することにより、特徴ネットワークの抽出を行うことができる。

プロセッサ５１は、データ付与部、算出部、抽出部及び設定部としての機能を実行することができる。

特徴ネットワーク抽出装置５０による特徴ネットワークの抽出方法の説明に入る前に、まず、その前提としてベイジアンネットワークの概要について説明する。

図２はベイジアンネットワークの一例を示す模式図である。ベイジアンネットワークは、グラフィカルモデル（グラフ表現を用いた統計モデル）の一つであり、多変量の因果関係をネットワーク（非巡回有向グラフ）で表現したものである。図において、○印は、確率変数（単に「変数」ともいう）が対応付けられたノードであり、矢印は枝（リンク又はエッジ）である。枝には矢印で示したような方向性があり、矢印の上流側のノードを親ノードと称し、矢印の下流側のノードを子ノードと称する。図２の例では、変数Ｘ₁、Ｘ₂、Ｘ₃、Ｘ₄、Ｘ₅、Ｘ₆に対応して６個のノードが図示されている。

Ｐｒ（Ｘ_{1 ,}Ｘ_{2 ,}Ｘ_{3 ,}Ｘ_{4 ,}Ｘ_{5 ,}Ｘ₆）は、変数Ｘ₁、Ｘ₂、Ｘ₃、Ｘ₄、Ｘ₅、Ｘ₆についての同時確率（分布）を表す。この同時確率がどのように分解できるか、すなわち、条件付き独立性を探索することにより、Ｐｒ（Ｘ_{1 ,}Ｘ_{2 ,}Ｘ_{3 ,}Ｘ_{4 ,}Ｘ_{5 ,}Ｘ₆）は、Ｐｒ（Ｘ_j｜Ｐａ（Ｘ_j））という条件付き確率の積で表すことができる。ここで、ｊは変数のインデックスであり、図２の例では、ｐ＝６である。Ｐａ（Ｘ_j）は、変数Ｘ_jのネットワークにおける親ノードに対応する変数の集合である。Ｐｒ（Ｘ₄｜Ｘ_{1 ,}Ｘ₂）は、変数Ｘ₁、Ｘ₂の値が与えられたときの変数Ｘ₄の条件付き確率を表す。

図２の例では、変数Ｘ₃、Ｘ₄が変数Ｘ₁のもとで独立である（すなわち、変数Ｘ₁の値がわかっているという条件付きで独立である）ことを示す。変数Ｘ₅、Ｘ₆も変数Ｘ₃のもとで独立である。条件付き独立である変数は、その条件になっている変数が特定の値に固定された時に相関を示さなくなることを意味しており、これは因果関係とみなすことができる。ベイジアンネットワークは、大量のデータを用いて推定されるので、共通性のあるデータの集合間の因果関係を推定することができる。

図３はＢ－スプラインを用いたノンパラメトリック回帰モデルの一例を示す模式図である。変数間の関係が非線形であるとき、どのようなモデルを用いるかが重要である。ノンパラメトリック回帰は、変数間の関係が一次式や多項式など特定の関数形に従わず、未知である場合、特定の関数形を仮定することなく回帰を行う手法である。変数Ｘ₁、Ｘ₂…、Ｘ_pについての同時確率の分解は、確率密度関数ｆ（Ｘ_j｜Ｐａ（Ｘ_j））の分解として表される。確率密度関数ｆ（Ｘ_j｜Ｐａ（Ｘ_j））は、Ｂ－スプラインを用いたノンパラメトリック回帰モデルにより構築できる。図３に示すように、変数Ｘ₄のノードの親ノードの変数をＸ₁、Ｘ₂とすると、変数Ｘ₄のデータｘ₄と、変数Ｘ₁、Ｘ₂のデータｘ₁、ｘ₂との間には、ｘ₄＝ｍ₁（ｘ₁）＋ｍ₂（ｘ₂）＋ε、という関係が成り立つ。ｍ₁、ｍ₂は、滑らかな関数（非線形関数）であり、εはモデルで表現することができない数値であり、ノイズ項とも称する。Ｎ（０、σ²）は、平均が０、分散がσ²の正規分布である。

図４はノンパラメトリックベイジアンネットワークの一例を示す模式図である。ノンパラメトリックベイジアンネットワークは、ベイジアンネットワークの局所確率分布に、図３で例示したような、Ｂ－スプラインノンパラメトリック回帰モデルを用いたものである。図２に例示したような一般的なベイジアンネットワークと異なり、ノンパラメトリックベイジアンネットワークでは、非線形連続値を扱うことができる。

図４の例では、図２の例と同様に、変数Ｘ₁、Ｘ₂、Ｘ₃、Ｘ₄、Ｘ₅、Ｘ₆に対応して６個のノードが図示されている。図４に示す式において、ｉはサンプルのインデックスを示し、ｊは変数のインデックスを示す。図４の例では、ｊ＝１、２、…、６である。ｋは親ノードのインデックスを示す。関数ｍ_jkは、親ノードｋから子ノードであるノードｊへの関数である。関数ｍ_jkを表す式において、ｂ_lkは予め与えられたＭ_jk個のＢ－スプライン基底関数であり、γ_lkは、Ｂ－スプライン基底関数に対する係数パラメータであり、ノンパラメトリックベイジアンネットワークが推定されると固定される。なお、基底関数は、Ｂ－スプライン基底関数に限定されるものではなく、フーリエ級数、多項式基底、回帰スプライン基底、ウェーブレット基底などの他の基底関数を用いてもよい。

次に、特徴ネットワーク抽出装置５０の詳細について説明する。本実施の形態では、親ノードの確率変数を所与としたときの条件付き確率を構成する所定モデルとして、ノンパラメトリック回帰モデルについて説明するが、所定モデルは、ノンパラメトリック回帰モデルには限定されない。また、子ノードの確率変数に対する親ノードの確率変数の所定モデルを表す所定関数として、非線形関数について説明するが、所定関数は非線形関数に限定されない。本実施の形態では、ベイジアンネットワークはノンパラメトリックベイジアンネットワークであるとする。また、以下では、ノンパラメトリックベイジアンネットワークをベイジアンネットワークとも称する。

特徴ネットワーク抽出装置５０（プロセッサ５１）は、それぞれの確率変数が対応付けられた複数のノード間の依存関係を、非巡回有向グラフを用いて表したベイジアンネットワークの所要ノードにデータを付与する処理、付与したデータに基づいてノードの事後確率を計算する際に、親ノードの確率変数を所与としたときの条件付き確率を構成するノンパラメトリック回帰モデルに基づいて、親ノードから子ノードへのリンクの特徴量を算出する処理、算出した特徴量に基づいてベイジアンネットワークから特徴ネットワークを抽出する処理を行うことができる。本実施の形態の特徴ネットワーク抽出装置５０は、特徴量を用いて、予め推定されたベイジアンネットワークの部分ネットワークを特徴ネットワークとして抽出することができる。以下、各処理について説明する。

プロセッサ５１は、ノンパラメトリックベイジアンネットワークの所要ノードに各ノードの変数のデータを付与する。所要ノードは、どのようなデータを用いて、どのような変数間の因果関係を求めるかに応じて適宜決定することができる。変数のデータとしては、例えば、電子カルテデータや健康診断データの各種計測値（診療行為に関するデータ、検査データ、医薬品に関するデータなどを含む）、遺伝子に関するデータ（遺伝子発現データ、エピゲノムデータ、プロテオームデータ、ＳＮＰ（Single Nucleotide Polymorphism）やＣＮＶ（Copy Number Variations）などのゲノム変異データ）などが含まれるが、これらに限定されない。また、データは、個人サンプルのように、各サンプルが独立であるような静的なデータでもよく、定期的に検査が行われ記録される電子カルテ・健康診断データや薬剤投与の時系列発現データのように動的・時系列データでもよい。

プロセッサ５１は、付与したデータに基づいて、他のノードの事後確率（同時確率）を計算する際に、親ノードの確率変数を所与としたときの条件付き確率に基づいて、親ノードから子ノードへの枝の特徴量を算出する。より具体的には、プロセッサ５１は、子ノードの確率変数に対する親ノードの確率変数の回帰モデルを表す非線形関数の関数値に基づいて、親ノードから子ノードへの枝の特徴量を算出する。

次に、枝の特徴量（枝評価手法）について説明する。特徴量は図５から図９に示すように所要の式に基づいて定義することができ、特徴ネットワークを抽出する際には、定義された特徴量のうち、好適のものを用いることができる。

図５は枝の特徴量の第１例を示す模式図である。図５に示すように、変数ｙが対応付けられた子ノードに対して、ｑ個の親ノードが存在し、各親ノードの変数をｘ₁、ｘ₂、…、ｘ_qとする。この場合、子ノードと対応する各親ノードとの間には、ｑ個の枝（リンク）が存在する。ノンパラメトリック回帰モデルに基づき、変数ｙと、変数ｘ₁、ｘ₂、…、ｘ_qとの間には、ｙ＝ｍ₁（ｘ₁）＋ｍ₂（ｘ₂）＋…＋ｍ_q（ｘ_q）＋ε、という関係が成り立つ。ｘ_j（ｊ＝１～ｑ）のｙへの特徴量を枝貢献量ＥＣｖ（Edge Contribution value）とする。枝貢献量ＥＣｖは、ＥＣｖ（ｘ_j→ｙ）＝ｍ_j（ｘ_j）と定義する。枝貢献量ＥＣｖは、関数ｍ_jの関数値である。すなわち、プロセッサ５１は、非線形関数の関数値を枝の特徴量として算出することができる。なお、複数のサンプルで構成されるサンプル群の枝貢献量ＥＣｖは、個々のサンプルの枝貢献量ＥＣｖの統計値（例えば、平均値、中央値など）とすることができる。

図６は枝の特徴量の第２例を示す模式図である。図６に示すように、変数ｙが対応付けられた子ノードに対して、ｑ個の親ノードが存在し、各親ノードの変数をｘ₁、ｘ₂、…、ｘ_qとする。図５の場合と同様に、変数ｙと、変数ｘ₁、ｘ₂、…、ｘ_qとの間には、ｙ＝ｍ₁（ｘ₁）＋ｍ₂（ｘ₂）＋…＋ｍ_q（ｘ_q）＋ε、という関係が成り立つ。ｘ_j（ｊ＝１～ｑ）のｙへの特徴量をΔＥＣｖとする。２つのサンプルＡ、Ｂのデータに対するＥＣｖを、それぞれＥＣｖ（ｘ_j ^A→ｙ^A）、ＥＣｖ（ｘ_j ^B→ｙ^B）とすると、ΔＥＣｖは、ΔＥＣｖ（ｘ_j→ｙ、Ａ、Ｂ）＝｜ＥＣｖ（ｘ_j ^A→ｙ^A）－ＥＣｖ（ｘ_j ^B→ｙ^B）｜と定義する。すなわち、プロセッサ５１は、異なるサンプルのデータを付与した場合に、第１サンプルのデータに基づく非線形関数の第１関数値と第２サンプルのデータに基づく非線形関数の第２関数値との比較値を枝の特徴量として算出することができる。

図７は変数Ｘの親ノードから変数Ｙの子ノードへの枝に対するΔＥＣｖの概念を示す模式図である。図中、横軸は変数Ｘの値を示し、縦軸は変数Ｙの値を示す。変数Ｘの値は連続値とすることができる。図中の曲線は、変数Ｘ、Ｙ間のノンパラメトリック回帰モデルを示し、Ｙ＝ｍ₁ ^(Y)（Ｘ）で表すことができる。図７では、コントロールサンプル群（例えば、特定の症状が現れていないサンプル群）と対象サンプル群（例えば、特定の症状が現れているサンプル群）の２つのサンプル集合間のΔＥＣｖを矢印の長さで表している。なお、図７の例では、２つのサンプル群間のΔＥＣｖを図示しているが、ΔＥＣｖは、２つのサンプル群間の比較に限定されるものではなく、個人（１つのサンプル）と他の個人との間のΔＥＣｖでもよく、個人と全サンプル平均との間のΔＥＣｖでもよい。

図８は枝の特徴量の第３例を示す模式図である。図８に示すように、変数ｙが対応付けられた子ノードに対して、ｑ個の親ノードが存在し、各親ノードの変数をｘ₁、ｘ₂、…、ｘ_qとする。図５の場合と同様に、変数ｙと、変数ｘ₁、ｘ₂、…、ｘ_qとの間には、ｙ＝ｍ₁（ｘ₁）＋ｍ₂（ｘ₂）＋…＋ｍ_q（ｘ_q）＋ε、という関係が成り立つ。ｘ_j（ｊ＝１～ｑ）のｙへの特徴量を相対貢献度ＲＣとする。相対貢献度ＲＣは、ＲＣ（ｘ_j→ｙ）＝｜ｍ_j（ｘ_j）｜／ｍａｘ｜ｍ_k（ｘ_k）｜と定義する。相対貢献度ＲＣは０から１の値になる。ここで、ｋは、０＜ｋ≦ｑとする。すなわち、プロセッサ５１は、子ノードの確率変数に対する複数の親ノードそれぞれの確率変数の回帰モデルを表す各非線形関数の関数値のうちの最大値に対する、当該枝に対応する非線形関数の関数値の割合を当該枝の特徴量として算出することができる。なお、複数のサンプルで構成されるサンプル群の相対貢献度ＲＣは、個々のサンプルの相対貢献度ＲＣの統計値（例えば、平均値、中央値など）とすることができる。

図９は枝の特徴量の第４例を示す模式図である。図９に示すように、変数ｙが対応付けられた子ノードに対して、ｑ個の親ノードが存在し、各親ノードの変数をｘ₁、ｘ₂、…、ｘ_qとする。図５の場合と同様に、変数ｙと、変数ｘ₁、ｘ₂、…、ｘ_qとの間には、ｙ＝ｍ₁（ｘ₁）＋ｍ₂（ｘ₂）＋…＋ｍ_q（ｘ_q）＋ε、という関係が成り立つ。ｘ_j（ｊ＝１～ｑ）のｙへの特徴量を相対貢献率ＲＣｒとする。相対貢献率ＲＣｒは、ＲＣｒ（ｘ_j→ｙ）＝｜ｍ_j（ｘ_j）｜／Σ｜ｍ_k（ｘ_k）｜と定義する。相対貢献率ＲＣｒは０から１の値になる。ここで、Σはｋ＝１からｑまでの和とする。すなわち、プロセッサ５１は、子ノードの確率変数に対する複数の親ノードそれぞれの確率変数の回帰モデルを表す各非線形関数の関数値の合計値に対する、当該枝に対応する非線形関数の関数値の比率を当該枝の特徴量として算出することができる。なお、複数のサンプルで構成されるサンプル群の相対貢献率ＲＣｒは、個々のサンプルの相対貢献率ＲＣｒの統計値（例えば、平均値、中央値など）とすることができる。

プロセッサ５１は、算出した特徴量に基づいてベイジアンネットワークから特徴ネットワークを抽出することができる。具体的には、プロセッサ５１は、枝の特徴量が所定の閾値以上である場合、当該枝を含む特徴ネットワークを抽出することができる。上述のように、特徴量としては、枝貢献量ＥＣｖ、ΔＥＣｖ、相対貢献度ＲＣ、相対貢献率ＲＣｒなどを用いることができる。また、閾値は、固定値である必要はなく、サンプルに応じて変更してもよく、データを付与する所要ノードを変更する際に変更してもよい。また、閾値は、上限値と下限値との組み合わせによって決定される所要範囲でもよい。特徴量によって、親ノード（例えば、変数ｘ₁、ｘ₂、…、ｘ_q）から子ノード（例えば、変数ｙ）への変数ｙを決めるモデル上の重要因子を定量化することができる。すなわち、特徴量を用いて特徴ネットワークを抽出することにより、予め推定されたベイジアンネットワーク（モデル）でのサンプル（例えば、個人や特定の疾患など）又はサンプル群についての関連性を示す複数の関連パスを抜き出すことができ、推定されたベイジアンネットワークでのサンプル又はサンプル群を評価することができる。

次に、特徴ネットワークの抽出方法について説明する。図１０は特徴ネットワークの抽出方法の第１例を示す模式図である。左図のように、便宜上、推定されたベイジアンネットワークが、１５個のノードで構成されているとする。サンプルＡのデータを所要のノードの変数に付与して、ノードの変数の同時確率を算出する際に、枝の特徴量を算出する。図１０の例では、特徴量として枝貢献量ＥＣｖを用いたとする。各枝の枝貢献量ＥＣｖと閾値とを比較して、枝貢献量ＥＣｖが閾値以上である枝を太線で表す。この場合、インデックスが３、６、８、１１、１３の順で枝を特定することができ、特定した枝を繋ぐ特徴ネットワークを抽出することができる。変数のうち、インデックス８の変数が、注目したい因子の変数とすると、サンプルＡについて、注目したい因子との因果関係のある他の因子を特定することができる。なお、図１０の例では、特徴ネットワークが、１つのネットワークとして抽出されているが、独立の複数のネットワーク、すなわち、お互いに繋がりのない複数のネットワークとして抽出してもよい。

図１１は特徴ネットワークの抽出方法の第２例を示す模式図である。図１０と同様に、便宜上、推定されたベイジアンネットワークが、１５個のノードで構成されているとする。サンプルＢのデータを所要のノードの変数に付与して、他のノードの変数の同時確率を算出する際に、枝の特徴量を算出する。図１１の例では、特徴量として枝貢献量ＥＣｖを用いたとする。各枝の枝貢献量ＥＣｖと閾値とを比較して、枝貢献量ＥＣｖが閾値以上である枝を太線で表す。この場合、インデックスが２、５、８、１０、１２、１５の順で枝を特定することができ、特定した枝を繋ぐ特徴ネットワークを抽出することができる。変数のうち、インデックス８の変数が、注目したい因子の変数とすると、サンプルＢについて、注目したい因子との因果関係のある他の因子を特定することができる。なお、図１０及び図１１については、注目したい因子を１つ図示しているが、注目したい因子は複数であってもよい。

図１１を図１０の場合と対比すると、サンプルＡとＢとでは、抽出される特徴ネットワークに相違がある。このように、サンプル（個人）毎の重要なパスウェイ（枝の繋がり）を抽出することができ、推定されたベイジアンネットワークでの重み付け個人ネットワークを抽出することができる。すなわち、推定されたベイジアンネットワークでのサンプル又はサンプル群を特徴付ける特徴ネットワークを抽出することができ、推定されたベイジアンネットワークでのサンプル又はサンプル群を評価することができ、個人の計測データの特徴づけ（説明）が可能となる。

図１２は特徴ネットワークの抽出方法の第３例を示す模式図である。プロセッサ５１は、ベイジアンネットワークの所要の複数のノードを設定する。所要のノードの設定は、ユーザの指定に基づいて行うことができる。図１２の例では、設定ノードとして上流側のノードＳ１、下流側のノードＳ２が設定されている。

プロセッサ５１は、設定した一のノード（上流側のノードＳ１）から他のノード（下流側のノードＳ２）へ至る複数のパス（パスウェイ）それぞれを構成する１又は複数の枝全体の特徴量を算出する。プロセッサ５１は、複数のパスのうち、パスを構成する枝全体の特徴量が所定の閾値以上であるパスを含む特徴ネットワークを抽出する。

図１２の例では、設定ノードＳ１からノードＳ２までの６個の枝それぞれの相対貢献度ＲＣを、ＲＣ１、ＲＣ２、ＲＣ３、ＲＣ４、ＲＣ５、ＲＣ６とすると、６個の枝全体の特徴量Ｅは、（ＲＣ１・ＲＣ２・ＲＣ３・ＲＣ４・ＲＣ５・ＲＣ６）の６乗根で算出できる。他のパスについても同様に特徴量を算出することができる。仮に、（ＲＣ１・ＲＣ２・ＲＣ３・ＲＣ４・ＲＣ５・ＲＣ６）の６乗根が閾値以上であれば、設定ノードＳ１とノードＳ２とを繋ぐ特徴ネットワークとして、図１２の太線で示す枝群が抽出される。

次に、前述の抽出方法を用いることにより、抽出された特徴ネットワークの例について説明する。図１３は抽出された特徴ネットワークの第１例を示す模式図である。左側に示す、推定されたネットワークは、ＥＭＴ遺伝子ネットワークの例であり、例えば、ノード（変数）の数は約２万、枝数は約３０万程度である。ＥＭＴは上皮間葉転換（Epithelial to mesenchymal transition）であり、上皮細胞がＥＭＴ化すると、癌細胞から離れて移動能を持ち、血中に入って転移を起こす。ＥＭＴに関連するタンパク質は、癌のバイオマーカーとして注目されている。ＥＭＴ遺伝子ネットワークは、ＥＭＴ化した細胞とＥＭＴ化していない細胞を表すネットワークである。右側に示す、特徴ネットワークは、枝の特徴量としてΔＥＣｖを用いて、推定されたネットワークから抽出したものである。具体的には、ＥＭＴ化した細胞とＥＭＴ化していない細胞との間のΔＥＣｖを計算し、計算したΔＥＣｖが所定の閾値以上である枝を特定し、特定した枝で構成される特徴ネットワークを抽出している。特徴ネットワークのノード数は約１５０であり、枝数は約１２０である。

図１４は特徴ネットワークによる個人の特徴付けの第１例を示す模式図である。図１４（Ａ）は、ＥＣｖ行列と称し、各行が特徴ネットワークの枝（枝のインデックス）を示し、各列がサンプル（個人）のＥＣｖを示す。行列の各要素が各サンプルの各枝でのＥＣｖを表す。ここでの各サンプルは、がん患者の公開データベースの肺がん患者サンプルデータを用いており、ベイジアンネットワークの推定および特徴ネットワークの抽出には用いていないものであっても良い。このＥＣｖ行列に対して値が近いサンプルを纏めていくクラスタリング手法によって、サンプル群をクラスタ（group1）、（group2）という２つのクラスタに分類することができる。

２つに分けられた各クラスタに対して、上記がん患者の公開データベースの肺がんデータに含まれる生存時間データを当てはめた生存時間曲線が図１４（Ｂ）である。図１４（Ｂ）が示すように、一方のクラスタに属する患者の生存時間は比較的長く、他方のクラスタに属する患者の生存時間は比較的短いという結果が得られた。すなわち、２つのクラスタで予後（生存時間）に大きな差が出ることが実証された。このように、特徴ネットワークにより、個人ごとのデータの特徴付け、分類が可能となる。

図１５はＥＣｖ行列の他の構成を示す模式図である。各行が特徴ネットワークの枝（枝のインデクス）を示し、各列がサブタイプ間毎のサンプル（個人）のＥＣｖを示す。サブタイプは、例えば、胃がんの分子サブタイプのような、ある特定の癌について、さらに細かく分類いたものとすることができる。図では、サブタイプＴ１、Ｔ２、Ｔ３のように図示しているが、例えば、ＣＩＮ（Chromosomal Instability）、ＭＳＩ（Microsatellite Instability）、ＥＢＶ（Epstein Barr Virus）、ＧＳ（Genomically Stable）などとすることができる。図中、模様を付した部分が２つのサブタイプの組み合わせでΔＥＣｖが閾値以上の枝を表す。

サブタイプ間ごとのΔＥＣｖは、例えば、以下のようにして求めることができる。すなわち、まず、公開されている胃がん患者の遺伝子発現データに基づいて遺伝子ネットワークを推定する。次に、サンプルごとに全ての枝のＥＣｖを算出する。そして文献により定義された胃がんの４つのサブタイプ（ＣＩＮ、ＭＳＩ、ＥＢＶ、ＧＳ）毎に、各サンプルのＥＣｖの平均値を算出し、そのサブタイプ毎の差を取ることにより、２つのサブタイプ間のΔＥＣｖを算出することができる。ここまでは上記のＥＭＴ化しているサンプルとＥＭＴ化していないサンプルとの比較、つまり二群の比較によるΔＥＣｖの算出方法と同様である。４つのサブタイプがある胃がんデータでは他群での特徴ネットワークが必要である。これは例えば１つのサブタイプに対して、他の３つのサブタイプそれぞれとの間でΔＥＣｖが閾値より大きな枝を求め、その枝の和集合または積集合を取ることによって可能である。これによりサブタイプ毎の特徴ネットワークを抽出することができる。また単純に１つのサブタイプに対して他の３つのサブタイプを１つの大きなサブタイプとみなして二群比較することで４つのサブタイプ毎の特徴ネットワークを抽出することもできる。

図１６は特徴ネットワークによる個人の特徴付けの第２例を示す模式図である。図１４と同様、図１６（Ａ）は、ＥＣｖ行列と称し、各行が特徴ネットワークの枝（枝のインデックス）を示し、各列がサンプル（個人）のＥＣｖを示す。行列の各要素が各サンプルの各枝でのＥＣｖを表す。ここでの各サンプルは、がん患者の公開データベースの胃がん患者サンプルデータを用いており、４種類のサブタイプが含まれる。すなわち、ＥＢＶは、ＥＢウイルス陽性を示し、ＭＳＩはマイクロサテライト領域の高頻度変異を示し、ＣＩＮは体細胞コピー数異常を示し、ＧＳはそれら以外を示す。図１６（Ａ）は、公開データベースのデータで遺伝子ネットワーク推定をして、上位枝のＥＣｖ行列をクラスタリングすることにより、４つのカテゴリに分類することができ、大まかには既存研究の４種類のサブタイプと対応付けが可能であることを示す。また、図１６（Ｂ）に示すように、group1は、他のgroupとの間で生存時間に差があることを見出すことができる。

図１７は抽出された特徴ネットワークの第２例を示す模式図である。図１７では、４つのサブタイプのうち、ＥＢＶに対して、その他のサブタイプ（ＣＩＮ、ＧＳ、ＭＳＩ）それぞれとのΔＥＣｖで抽出した枝（ΔＥＣｖの抽出の閾値は、例えば、０．５とすることができる）のうち共通部分（二群差の共通枝）をとる、という方法で抽出した特徴ネットワークである。

図１８は抽出された特徴ネットワークの第３例を示す模式図である。図１８では、４つのサブタイプのうち、ＥＢＶに対して、他の３つのサブタイプ（ＣＩＮ、ＧＳ、ＭＳＩ）のＥＣｖを平均とのΔＥＣｖで抽出した枝（ΔＥＣｖの抽出の閾値は、例えば、０．５とすることができる）によって抽出した特徴ネットワークである。

このように、サブタイプ毎のネットワーク推定を行う必要がなく、サブタイプ毎のネットワークの構造を比較する必要がない。ＥＣｖによる比較により、ネットワークの構造比較なしで、１つの遺伝子ネットワークからサブタイプの特徴的な枝を抽出することができる。また、ネットワークの構造比較が不要であるので、特定のサブタイプのサンプル数が少なく、構造比較ができない場合でも、サブタイプの特徴的な枝を抽出することができる。上述のように、がんサブタイプ毎のメカニズムの違いを抽出することが可能となる。

図１９は抽出された特徴ネットワークにより免疫系の遺伝子を捉えることができるメカニズムを示す模式図である。ピロリ菌などのＥＢウイルス感染により、サイトカイン（Cytokine）が受容体を介して働き、免疫系が動く。この場合、ＥＢウイルス感染によって動くと考えられる免疫系に関する遺伝子が、ＥＣｖに基づいて抽出された特徴ネットワークに含まれていることが判明した。すなわち、ウイルス感染により免疫系が動き、既知の遺伝子セット（molecular signature）との構造比較で得られたシグナル伝達系の構造変化を、特徴ネットワークにより推定することができる可能性を示唆している。

図２０は特徴ネットワークによる個人の特徴付けの第３例を示す模式図である。図１４と同様、図２０は、ＥＣｖ行列と称し、各行が特徴ネットワークの枝（枝のインデックス）を示し、各列がサンプル（個人）のＥＣｖを示す。行列の各要素が各サンプルの各枝でのＥＣｖを表す。ここでの各サンプルは、ＴＣＧＡ（The Cancer Genome Atlas）のすい臓がん患者のデータを用いている。すい臓がん１５３患者のサンプルから予め予後の確実に良い１４サンプルと、悪い１４サンプルを決定する。予後の良悪２群それぞれのＥＣｖの平均値の差が大きい枝を抽出し、そのＥＣｖの値で全２８サンプルのＥＣｖ行列のクラスタリングを行う。図において、各列のうち暗くマーキングしているサンプルは予後が良い１４サンプルであり、明るくマーキングしているサンプルは予後が悪い１４サンプルである。枝を抽出する際のΔＥＣｖの閾値は１．０である。

図２１は特徴ネットワークによる個人の特徴付けの第４例を示す模式図である。図２１では、枝を抽出する際のΔＥＣｖの閾値は０．７５である。閾値以外は、図２０の場合と同様である。

図２２は特徴ネットワークによる個人の特徴付けの第５例を示す模式図である。図２２では、２８サンプルから１５３サンプルに拡大してクラスタリングを行った結果を示す。枝を抽出する際のΔＥＣｖの閾値は０．７５である。図２０～図２２に示すように、良群と悪群にほぼ分かれることが示されている。

図２３は抽出された特徴ネットワークを全体のネットワークにマッピングした模式図である。図において、濃くマーキングしている部分は特徴ネットワークを示す。

遺伝子ネットワーク解析には、ＤＥＧ（Differentially expressed genes）、すなわち発現差のある遺伝子を抽出する手法が用いられている。以下では、当該手法と本実施の形態による特徴ネットワークとの関連性について説明する。

図２４は抽出された特徴ネットワークとＤＥＧ遺伝子との関連の第１例を示す模式図である。図では、枝を抽出するΔＥＣｖの閾値を１．０として、抽出された特徴ネットワークを示す。Ｔｏｐ２０ＤＥＧ遺伝子は、良悪２群で発現差が大きいもの（例えば、foldchangeとして差が１以上）であり、２０個存在する。２０個のＤＥＧ遺伝子のうち、特徴ネットワークから距離が所定値（例えば、１）以内のものは、５個存在し（丸印付き）、当該５個のＤＥＧ遺伝子は、特徴ネットワークの下流方向にあることが分かる。

図２５は抽出された特徴ネットワークとＤＥＧ遺伝子との関連の第２例を示す模式図である。図では、枝を抽出するΔＥＣｖの閾値を０．７５として、抽出された特徴ネットワークを示す。２０個のＤＥＧ遺伝子のうち、特徴ネットワークから距離が所定値（例えば、１）以内のものは、１３個存在し、そのうちの１０個のＤＥＧ遺伝子は、特徴ネットワークの下流方向にあることが分かる。図２４及び図２５から、発現差のある遺伝子を抽出する遺伝子ネットワーク解析手法によって得られる遺伝子は、特徴ネットワークの下流に位置し、特徴ネットワークの違いから生み出された差が、個々の遺伝子の発現差として推定することができると考えられる。

図２６は抽出された特徴ネットワークの第４例を示す模式図である。図示していないが、ある地域の住民を対象とした健康調査データを用い、複数の重要疾患を定義し、単一のベイジアンネットワークを推定する。図２６は、推定されたネットワークから、被験者Ａと被験者Ｂのデータを用いて枝の特徴量としてＥＣｖを算出し、算出したＥＣｖが所定の閾値以上の枝を抽出して特徴ネットワークを抽出したものである。カテゴリは、例えば、年齢、性別、社会背景、生活習慣、健康調査の検査値、遺伝子情報などを含む。図２６から、２人の被験者それぞれの疾患羅患が何であり、共通の疾患が何であるかが分かる。

次に、本発明の利用形態について具体例を挙げて説明する。市などの自治体や、健康保険組合に属する企業では、住民や社員などの健康維持や疾患の早期発見などを目指して健康診断を実施している。このような健康診断の結果、多数の健康調査データを収集することができる。また、病院や診療所においても、患者を診察又は治療する際に、患者のデータを収集することができる。本発明の特徴ネットワーク抽出方法を用いることにより、住民、社員、患者などの多数のサンプル又はサンプル群の関係性を評価することができる。

以下では、弘前ＣＯＩ（センター・オブ・イノベーション）で計測された健診データ（２０１４年～２０１７年の４年間、７２７名分のデータ）から推定されたベイジアンネットワークを解析しやすいように既存のノード縮約を行い、特徴ネットワークを抽出し、所望の疾患ごと及び個人ごとの因果関係（関連パス）を抜き出した例を示す。なお、推定されたベイジアンネットワークが一般的な離散モデルである場合、１－hot化という機械学習などで用いられている前処理を行って、連続型ベイジアンネットワークに適用することができる。

図２７は慢性腎臓病（ＣＫＤ）発症関連パスを抜き出した例を示す模式図であり、図２８は高血圧発症関連パスを抜き出した例を示す模式図である。図２７及び図２８において、関連パスを抜き出すには、上述の相対貢献率ＲＣｒを利用して相乗平均上位パスを使用している。関連パスを抜き出す際に、生活習慣から特定の疾患（図の例では、慢性腎臓病及び高血圧）に至るパスだけを取り出している。

図２９はＳＮＰありの場合のＣＫＤ及び高血圧の２疾患関連ネットワークの例を示す模式図であり、図３０はＳＮＰなしの場合のＣＫＤ及び高血圧の２疾患関連ネットワークの例を示す模式図である。図２９は、ＳＮＰ、すなわち、個人ゲノム（遺伝子）変異データがある場合の、慢性腎臓病（ＣＫＤ）と高血圧の両者の共通部分を示す。図３０は、ＳＮＰがない場合の、慢性腎臓病（ＣＫＤ）と高血圧の両者の共通部分を示す。図２９及び図３０に示すように、慢性腎臓病（ＣＫＤ）と高血圧の両方の疾患共通の関連パスが観察可能となる。

図２７において例示した慢性腎臓病（ＣＫＤ）発症関連パス上に、個人ごとの相対貢献率ＲＣｒに基づいて抽出した個人のパスの例について、以下説明する。

図３１は慢性腎臓病（ＣＫＤ）発症の個人ネットワークの第１例を示す模式図であり、図３２は慢性腎臓病（ＣＫＤ）発症の個人ネットワークの第２例を示す模式図であり、図３３は慢性腎臓病（ＣＫＤ）発症の個人ネットワークの第３例を示す模式図である。図３１に示す第１例は、７０代女性のパスであり、慢性腎臓病の発症という観点において、飲酒関連及びストレス／睡眠関連のパスが効いていることが分かる。図３２に示す第２例は、５０代男性のパスであり、慢性腎臓病の発症という観点において、心疾患関連のパスが効いていることが分かる。図３３に示す第３例は、６０代男性のパスであり、慢性腎臓病の発症という観点において、糖尿病関連のパスが効いていることが分かる。図３１から図３３に示すように、個人ごとに効いているパスが異なることが明瞭に観察可能となる。

図３４は特徴ネットワーク抽出装置５０の処理手順の一例を示すフローチャートである。便宜上、以下では処理の主体をプロセッサ５１として説明する。プロセッサ５１は、サンプル（個人）のデータを取得し（Ｓ１１）、取得したデータをベイジアンネットワークの所要のノードに付与する（Ｓ１２）。

プロセッサ５１は、所要ノード以外のノードの事後確率の算出を開始し（Ｓ１３）、リンク（枝又はエッジ）の特徴量を算出する（Ｓ１４）。プロセッサ５１は、他のサンプルの有無を判定し（Ｓ１５）、他のサンプルがある場合（Ｓ１５でＹＥＳ）、ステップＳ１１以降の処理を続ける。

他のサンプルがない場合（Ｓ１５でＮＯ）、プロセッサ５１は、算出した特徴量に基づいて特徴ネットワークを抽出し（Ｓ１６）、処理を終了する。

次に、上述のステップＳ１６の特徴ネットワークの抽出について説明する。図３５は特徴ネットワーク抽出処理の一例を示すフローチャートである。プロセッサ５１は、群ごとに各枝の特徴量（例えば、ＥＣｖ）の平均を算出し（Ｓ１６１）、群間のＥＣｖの差であるΔＥＣｖを各枝で算出する（Ｓ１６２）。

プロセッサ５１は、ΔＥＣｖが閾値より大きい枝を抽出する（Ｓ１６３）。プロセッサ５１は、他の群の有無を判定し（Ｓ１６４）、他の群がある場合（Ｓ１６４でＹＥＳ）、群毎に、他の全ての群との間で抽出した枝の和集合または積集合を抽出し（Ｓ１６５）、後述のステップＳ１６６の処理を行う。

他の群がない場合（Ｓ１６４でＮＯ）、プロセッサ５１は、抽出した枝により特徴ネットワークを構築し（Ｓ１６６）、処理を終了する。

特徴ネットワーク抽出装置５０は、ＣＰＵ（プロセッサ）、ＲＡＭなどを備えたコンピュータを用いて実現することもできる。図３４及び図３５に示すような処理の手順を定めたコンピュータプログラム（記録媒体Ｍに記録可能）をコンピュータに備えられた記録媒体読取部５５で読み取り、読み取ったコンピュータプログラムをＲＡＭにロードし、コンピュータプログラムをＣＰＵ（プロセッサ）で実行することにより、コンピュータ上で特徴ネットワーク抽出装置５０を実現することができる。

上述のように、本実施の形態によれば、データ全体の特徴（因果関係）までは説明できるというベイジアンネットワークの限界点を超えて、ベイジアンネットワークでは説明できなかった、個人又は個別サンプルの因果関係を、推定されたベイジアンネットワークと枝の特徴量という枝評価手法を用いることにより、説明可能とすることができる。

本実施の形態において、ベイジアンネットワークに用いる所定モデルは、ノンパラメトリック回帰モデルに限定されるものではない。例えば、所定モデルは、加法モデルでもよく、掛け算モデルでもよい。加法モデルの場合には、親変数ｘ１、ｘ２、…に対して何らかの関数ｍ１、ｍ２、…があり、子変数ｙ＝ｍ１（ｘ１）＋ｍ２（ｘ２）＋…のように「和」で表すことができる。関数ｍ１（ｘ１）、ｍ２（ｘ２）、…は、所要の関数でよく、関数ｍ１（ｘ１）、ｍ２（ｘ２）、…の値をＥＣｖとすることができる。また、ｍ１（ｘ）＝ｘとすれば、所定関数は線形関数となり、線形モデルとすることができる。また、掛け算モデルの場合には、子変数ｙ＝ｍ１（ｘ１）・ｍ２（ｘ２）・…のように「掛け算」で表すことができる。所定関数は、非線形関数に限定されるものではなく、線形関数でもよい。

本実施の形態において、ベイジアンネットワークは離散モデルでも適用することができる。ベイジアンネットワークが離散モデルの場合、１－hot化という機械学習で行われる一般的な前処理を行うことにより、連続モデルに適用可能となる。１－hot化は、例えば、Ｘという変数が、Ａ、Ｂ、Ｃをとる場合、「ＸがＡである」「ＸがＢである」「ＸがＣである」という３つの変数に分けて、該当する場合１を、そうでない場合は０をそれぞれの変数の値とすることにより、連続値に変換することができる。また、「ＸがＣである」というのは、「ＸがＡである」及び「ＸがＢである」の両方が０であれば表現できるので、Ｎ個のカテゴリの変数の１－hot化をＮ－１の変数で行ってもよい。

本実施の形態の特徴ネットワークは、医療関係のベイジアンネットワークへの適用に限定されるものではない。例えば、ベイジアンネットワークを用いた広告提供、マーケティングリサーチ、アンケート分析、及びシステムの障害診断への応用などにも、本実施の形態の特徴ネットワークは適用可能である。例えば、従来のベイジアンネットワークを用いた分析では、ユーザの年代や性別などの大まかな属性データの因果関係は説明できたとしても、個人又は個別サンプルの因果関係は説明することができない。本実施の形態を適用すれば、推定されたベイジアンネットワークと枝の特徴量という枝評価手法を用いることができ、個人又は個別サンプルの因果関係を説明することが可能となり、ユーザモデリングやヒューマンモデリングへ応用する際に、個人レベルまで詳細に分析することが可能となる。

本実施の形態のベイジアンネットワーク分析方法は、前述の特徴ネットワーク抽出装置を用いて、所要のベイジアンネットワークから特徴ネットワークを抽出し、抽出した特徴ネットワークに基づいて、前記ベイジアンネットワークでのサンプル又はサンプル群を評価することができる。この場合、所要のベイジアンネットワークは、医療データ、広告データ、マーケティングデータ及びアンケートデータの少なくとも一つのデータに関する多変量の因果関係を表すものとすることができるが、他のデータに関する多変量の因果関係を表すものでもよい。

５０特徴ネットワーク抽出装置
５１プロセッサ
５２操作部
５３インタフェース部
５４表示パネル
５５記録媒体読取部
５６ＲＯＭ
５７メモリ
５８記憶部
５８１ベイジアンネットワークモデル
５８２サンプルデータ

Claims

それぞれの確率変数が対応付けられた複数のノード間の依存関係を、非巡回有向グラフを用いて表したベイジアンネットワークの親ノード及び子ノードを含む所要ノードに計測値を含むデータを付与するデータ付与部と、
前記データ付与部が付与したデータに基づいてノードの事後確率を計算する際に、親ノードの確率変数を所与としたときの条件付き確率を構成する所定の回帰モデルを表す関数の関数値に基づいて、前記親ノードから子ノードへの個別のリンクそれぞれの特徴量を算出する算出部と、
前記算出部が算出した、前記個別のリンクそれぞれの特徴量に基づいて前記ベイジアンネットワークから特徴ネットワークを抽出する抽出部と
を備える特徴ネットワーク抽出装置。
前記算出部は、
前記子ノードの確率変数に対する前記親ノードの確率変数の所定モデルを表す所定関数の関数値に基づいて、前記親ノードから子ノードへのリンクの特徴量を算出する請求項１に記載の特徴ネットワーク抽出装置。
前記算出部は、
前記所定関数の関数値を前記リンクの特徴量として算出する請求項２に記載の特徴ネットワーク抽出装置。
前記算出部は、
前記データ付与部が異なるサンプルのデータを付与した場合に、第１サンプルのデータに基づく前記所定関数の第１関数値と第２サンプルのデータに基づく前記所定関数の第２関数値との比較値を前記リンクの特徴量として算出する請求項２に記載の特徴ネットワーク抽出装置。
前記算出部は、
前記子ノードの確率変数に対する複数の親ノードそれぞれの確率変数の所定モデルを表す各所定関数の関数値のうちの最大値に対する、前記リンクに対応する所定関数の関数値の割合を前記リンクの特徴量として算出する請求項２に記載の特徴ネットワーク抽出装置。
前記算出部は、
前記子ノードの確率変数に対する複数の親ノードそれぞれの確率変数の所定モデルを表す各所定関数の関数値の合計値に対する、前記リンクに対応する所定関数の関数値の比率を前記リンクの特徴量として算出する請求項２に記載の特徴ネットワーク抽出装置。
前記抽出部は、
前記算出部で算出したリンクの特徴量が所定の閾値以上である場合、前記リンクを含む特徴ネットワークを抽出する請求項２から請求項６のいずれか一項に記載の特徴ネットワーク抽出装置。
前記ベイジアンネットワークの所要の複数のノードを設定する設定部を備え、
前記算出部は、
前記設定部で設定した一のノードから他のノードへ至る複数のパスそれぞれを構成する１又は複数のリンク全体の特徴量を算出し、
前記抽出部は、
前記複数のパスのうち、パスを構成するリンク全体の特徴量が所定の閾値以上であるパスを含む特徴ネットワークを抽出する請求項２から請求項６のいずれか一項に記載の特徴ネットワーク抽出装置。
前記所定モデルは、ノンパラメトリック回帰モデルを含み、
前記所定関数は、非線形関数を含む請求項２から請求項８のいずれか一項に記載の特徴ネットワーク抽出装置。
請求項１から請求項９のいずれか一項に記載の特徴ネットワーク抽出装置を用いて、所要のベイジアンネットワークから特徴ネットワークを抽出し、
抽出した特徴ネットワークに基づいて、前記ベイジアンネットワークでのサンプル又はサンプル群を評価する、
ベイジアンネットワーク分析方法。
前記ベイジアンネットワークは、医療データ、広告データ、マーケティングデータ及びアンケートデータの少なくとも一つのデータに関する多変量の因果関係を表す請求項１０に記載のベイジアンネットワーク分析方法。
コンピュータに、
それぞれの確率変数が対応付けられた複数のノード間の依存関係を、非巡回有向グラフを用いて表したベイジアンネットワークの親ノード及び子ノードを含む所要ノードに計測値を含むデータを付与する処理と、
付与したデータに基づいてノードの事後確率を計算する際に、親ノードの確率変数を所与としたときの条件付き確率を構成する所定の回帰モデルを表す関数の関数値に基づいて、前記親ノードから子ノードへの個別のリンクそれぞれの特徴量を算出する処理と、
算出した、前記個別のリンクそれぞれの特徴量に基づいて前記ベイジアンネットワークから特徴ネットワークを抽出する処理と
を実行させるコンピュータプログラム。
コンピュータによる特徴ネットワーク抽出方法であって、
コンピュータは、
それぞれの確率変数が対応付けられた複数のノード間の依存関係を、非巡回有向グラフを用いて表したベイジアンネットワークの親ノード及び子ノードを含む所要ノードに計測値を含むデータを付与し、
付与したデータに基づいてノードの事後確率を計算する際に、親ノードの確率変数を所与としたときの条件付き確率を構成する所定の回帰モデルを表す関数の関数値に基づいて、前記親ノードから子ノードへの個別のリンクそれぞれの特徴量を算出し、
算出した、前記個別のリンクそれぞれの特徴量に基づいて前記ベイジアンネットワークから特徴ネットワークを抽出する特徴ネットワーク抽出方法。