JP2021043056A - 分子マーカー探索方法、分子マーカー探索装置、及びプログラム - Google Patents

分子マーカー探索方法、分子マーカー探索装置、及びプログラム Download PDF

Info

Publication number
JP2021043056A
JP2021043056A JP2019165135A JP2019165135A JP2021043056A JP 2021043056 A JP2021043056 A JP 2021043056A JP 2019165135 A JP2019165135 A JP 2019165135A JP 2019165135 A JP2019165135 A JP 2019165135A JP 2021043056 A JP2021043056 A JP 2021043056A
Authority
JP
Japan
Prior art keywords
information
explanatory
objective variable
variables
combination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019165135A
Other languages
English (en)
Inventor
勝久 堀本
Katsuhisa Horimoto
勝久 堀本
福井 一彦
Kazuhiko Fukui
一彦 福井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
National Institute of Advanced Industrial Science and Technology AIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Advanced Industrial Science and Technology AIST filed Critical National Institute of Advanced Industrial Science and Technology AIST
Priority to JP2019165135A priority Critical patent/JP2021043056A/ja
Publication of JP2021043056A publication Critical patent/JP2021043056A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Investigating Or Analysing Biological Materials (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

【課題】未知のデータに対しても予測性能が高い分子マーカーを探索することができる方法を提供する。【解決手段】分子マーカー探索方法は、複数の患者のオミックス情報を取得するステップ(S10)と、疾患を目的変数とし、オミックス情報に含まれる分子情報の中から、所定の閾値以上の精度で目的変数を説明する説明変数の組合せを1組以上求めるステップ(S12)と、各説明変数の組合せについて、目的変数および説明変数をノードとし、各ノード間の偏相関に基づいてネットワーク構造を生成し、ネットワーク構造に含まれる全リンク数と、目的変数と説明変数とをつなぐリンク数が等しい場合に(S14)、説明変数の組合せを分子マーカーとして決定するステップ(S15)とを備える。【選択図】図3

Description

本発明は、分子マーカー探索方法、分子マーカー探索装置、及びプログラムに関する。
従来から、個別化診療や創薬の分野において、特異的な遺伝子発現による疾患の発症や遺伝的バラツキ(遺伝子多型)による薬物応答性の違い等を鋭敏に反映する分子マーカーが知られている。
また、診断が困難な疾患を区別するための分子マーカーの研究も進められている。例えば、拡張型心筋症と拡張相肥大型心筋症とは、鑑別診断が困難なことがあるが、分子マーカーによって疾患を区別することができれば、適切な治療を施すことができる。このような分子マーカーを「診断マーカー」という。さらに、疾患を区別するだけでなく、疾患に対してどのような治療が有効であるかをあらかじめ予測するために用いられる分子マーカー(これを「予測マーカー」という。)も研究されている。
本発明者は、バイオマーカーを探索する発明について出願を行った(特許文献1)。この発明では、まず、患者のオミックス情報から疾患特有のシグネチャ分子情報を検出する。続いて、シグネチャ分子情報から処理対象の分子情報を選択し、分子情報を説明変数、治療の効果を目的変数として回帰分析を行うと共に、ネットワーク解析を行って分子情報と治療効果の因果関係が高い分子情報をバイオマーカーとして求める処理を繰り返し行う。これにより、シグネチャ分子の中から、バイオマーカーを探索する。
特開2016−148604号公報
上記したとおり、疾患等が既知の患者のオミックス情報をトレーニングデータとして用いて、疾患等を区別する分子マーカーを求める。しかし、トレーニングデータでは高い予測性能を有する分子マーカーであっても、テストデータに対して適用すると予測性能が必ずしも高くないことがあった。これは、求めた分子マーカーがトレーニングデータに過剰適合していることが一つの原因であると考えられる。
本発明は、上記背景に鑑み、未知のデータに対しても予測性能が高い分子マーカーを探索することができる方法を提供することを目的とする。
本発明の分子マーカー探索方法は、複数の患者のオミックス情報を取得するステップと、疾患を目的変数とし、前記オミックス情報に含まれる分子情報の中から、所定の閾値以上の精度で前記目的変数を説明する説明変数の組合せを1組以上求めるステップと、各説明変数の組合せについて、前記目的変数および前記説明変数をノードとし、各ノード間の偏相関に基づいてネットワーク構造を生成し、前記ネットワーク構造に含まれる全リンク数と、前記目的変数と前記説明変数とをつなぐリンク数が等しい場合に、前記説明変数の組合せを分子マーカーとして決定するステップとを備える。ここで、前記説明変数を求めるステップは、回帰分析または機械学習によって説明変数の組合せを求めてもよい。
本発明の別の態様の分子マーカー探索方法は、複数の患者のオミックス情報と、治療前の臨床情報と、疾患に対する治療の効果の情報とを取得するステップと、前記治療の効果を目的変数とし、前記オミックス情報に含まれる分子情報の中から、前記治療前の臨床情報と共に前記目的変数を説明する説明変数を選択して、所定の閾値以上の精度で前記目的変数を説明する説明変数の組合せを1組以上求めるステップと、各説明変数の組合せについて、前記目的変数および前記説明変数をノードとし、各ノード間の偏相関に基づいてネットワーク構造を生成し、前記ネットワーク構造に含まれる全リンク数と、前記目的変数と前記説明変数とをつなぐリンク数が等しい場合に、前記説明変数の組合せを分子マーカーとして決定するステップとを備える。ここで、前記説明変数の組合せを求めるステップは、回帰分析または機械学習によって説明変数の組合せを求めてもよい。
患者のオミックス情報に基づいて、所定の閾値以上の精度で目的変数を説明する説明変数の組合せを求めると、トレーニングデータに対しては予測性能が高いが、未知のテストデータに対しては予測精度が高くないことがあった。本発明によれば、求めた各説明変数の組合せについて、目的変数と説明変数とをノードとし、各ノード間を偏相関に基づいてリンクでつないだネットワーク構造を生成し、生成したネットワーク構造において、全リンク数と目的変数と前記説明変数とをつなぐリンク数が等しいかどうかを判断する。これが等しい場合には、目的変数と各説明変数が相関していること、および、各説明変数が独立であることを確認でき、適切な分子マーカーを決定することができる。
本発明の分子マーカー探索方法において、前記説明変数の組合せを求めるステップでは、疾患に特有の複数のシグネチャ分子を説明変数の候補とし、前記複数のシグネチャ分子の中から任意の個数のシグネチャ分子を順次選択して、前記目的変数を所定の閾値以上の精度で説明できるか否かを検証してもよい。
本発明の分子マーカー探索方法は、取得した患者のオミックス情報に基づいて、前記オミックス情報として、遺伝子のメチル化レベル情報、mRNAの発現情報、及びタンパク質の発現情報のいずれを用いるかを決定するステップを備えてもよい。
本発明によれば、トレーニングデータへの過剰適合を抑制し、未知のテストデータに対して予測性能の高い分子マーカーを探索することができる。
第1の実施の形態の分子マーカー探索装置の構成を示す図である。 オミックス情報DBに記憶されたデータの例を示す図である。 分子マーカーを探索する処理を示すフローチャートである。 分子マーカーを探索する際の絞り込みの様子を示す説明図である。 第2の実施の形態の分子マーカー探索装置の構成を示す図である。 オミックス情報DBに記憶されたデータの例を示す図である。 分子マーカーを探索する処理を示すフローチャートである。 分子マーカーを探索する際の絞り込みの様子を示す説明図である。
以下、本発明の実施の形態の分子マーカー探索装置および分子マーカー探索方法について、図面を参照して説明する。
(第1の実施の形態)
第1の実施の形態では、拡張型心筋症(DCM)、拡張相肥大型心筋症(d−HCM)を区別するための診断マーカーとしての分子マーカーを探索する例を挙げて説明する。
図1は、第1の実施の形態の分子マーカー探索装置1の構成を示す図である。分子マーカー探索装置1は、情報を入力する入力部11と、分子マーカーを探索する処理を行う制御部12と、探索された分子マーカーのデータを出力する出力部13と、患者のオミックス情報を記憶したオミックス情報データベース(以下「オミックス情報DB」という。)14とを有している。
分子マーカー探索装置1は、CPU、RAM、ROM、ディスプレイ、キーボード、マウス、通信インターフェース等を備えるコンピュータによって構成される。分子マーカー探索のためのプログラムをROMに記憶しておき、CPUがROMからプログラムを読み出して実行することにより、コンピュータが分子マーカーの探索処理を行う。
図2は、オミックス情報DB14に記憶されたデータの例を示す図である。オミックス情報は、患者を特定するIDと、患者の表現型のデータと、遺伝子データを有している。例えば、ID:00001の患者の表現型は、疾患なし、ステージなし、薬剤応答性なしであり、その患者のデータ(たとえばマイクロアレイデータ)はData00001である。ID:00002の患者の表現型は、d−HCMの疾患あり、ステージ2、薬剤応答性5であり、その患者のデータはData00002である。ここで、薬剤応答性は、薬剤に対する応答の大きさを5段階で評価した数値であり、数値が大きいほど、薬剤に対する応答性が大きい。
本実施の形態において、遺伝子データは、メチロームデータ(DNAのメチル化の情報)である。これは、メチローム、トランスクリプトーム、プロテオームの3層オミックス情報のうち、DCMとd−HCMとの区別には、メチロームデータが有望であることをあらかじめ突き止めたからである。疾患を区別するのに、どの層のオミックス情報が有望か不明の場合には、遺伝子データとしては全てのオミックス情報を用いることとしてもよい。メチロームデータは、例えば、メチル化マイクロアレイ解析によって取得される。
入力部11は、オミックス情報DB14から、診断の対象であるDCMとd−HCMの患者のオミックス情報を読み出し、読み出したオミックス情報を制御部12に入力する。制御部12は、入力された患者のオミックス情報に基づいて、DCMとd−HCMとを区別する分子マーカーを探索する機能を有する。
図3は制御部12によって分子マーカーを探索する処理を示すフローチャート、図4は患者のオミックス情報から分子マーカーを探索する際の絞り込みの様子を示す説明図である。制御部12は、患者のオミックス情報を取得すると(S10)、DCMとd−HCMとの間で変動の大きい複数のオミックス情報をシグネチャ分子として抽出する(S11)。図4の(ii)に示すように、患者のオミックス情報の中から複数のシグネチャ分子が抽出される。このシグネチャ分子が、分子マーカーの候補となる。
次に、制御部12は、抽出されたシグネチャ分子に対して回帰分析を行って、DCMとd−HCMを区別することができるシグネチャ分子を絞り込む(S12)。ここで、シグネチャ分子の絞り込みは、個々のシグネチャ分子がDCMとd−HCMを区別できるかどうかを判定すると共に、複数のシグネチャ分子の組合せがDCMとd−HCMを区別できるかどうかを判定する。
例えば、図4の(iii)に示すように、分子マーカーの候補であるシグネチャ分子から2個のシグネチャ分子を選択し、シグネチャ分子の組合せによってDCMとd−HCMを区別することができるかどうかを回帰分析によって判定する。すなわち、組合せに含まれる2個のシグネチャ分子を説明変数、疾患(DCMとd−HCM)を目的変数として、DCMとd−HCMを精度良く区別できるかどうかを回帰分析する。なお、DCMとd−HCMを精度良く区別できるかどうかの判断は、例えば、ROC曲線のAUC(Area Under Curve)=0.95を閾値として、この閾値より高い精度で疾患を区別できるかどうかによって行う。
制御部12は、シグネチャ分子の組合せを順次変更し、DCMとd−HCMを精度良く区別できるシグネチャ分子の組合せを探索し、絞り込む。図4では、2個ずつのシグネチャ分子を組合せとする例を示しているが、組合せを構成するシグネチャ分子の数も変更する。ただし、シグネチャ分子の数が多すぎると、トレーニングデータへの過剰適合が起こりやすいので、組合せを構成するシグネチャ分子の数は、8個程度までとすることが好ましい。
続いて、制御部12は、回帰分析によって絞り込まれたシグネチャ分子またはシグネチャ分子の組合せに対して交差検証を行って、DCMとd−HCMとを所定の閾値より高い精度で区別することができるシグネチャ分子の組合せに絞り込みを行う(S13)。ここまでの処理により、シグネチャ分子の中から、トレーニングデータのDCMとd−HCMを所定の精度で区別することができるシグネチャ分子の組合せを求めることができる。
次に、制御部12は、求めたシグネチャ分子の組合せに含まれるシグネチャ分子の妥当性をチェックする(S14)。具体的には、組合せに含まれるシグネチャ分子をノードとすると共に、疾患(すなわちDCMとd−HCMの別)をノードとし、ノード間の偏相関係数を求め、偏相関係数に基づいてネットワーク構造を生成する。制御部12は、偏相関係数が所定の閾値以上のノード間には相関があるとしてノードどうしを連結し、偏相関係数が所定の閾値未満のノード間には相関がないとしてノードどうしを連結しない。
これにより、図4の(iv)に示すように、説明変数(図4では「EX」と示す)のノードと目的変数(図4では「OB」と示す)の関係を示すネットワーク構造が生成される。図4では、説明変数が2個の場合を示している。制御部12は、ネットワーク構造において、説明変数と目的変数とをつなぐリンクが存在すると共に、説明変数のノード間にリンクが存在しないネットワーク構造に係る説明変数の組合せは適切であると判定する。
制御部12は、ネットワーク構造内に存在する全リンク数と、目的変数と説明変数とを接続するリンクの数とを比較して、両者が等しい場合に、独立性があると判定し、全リンク数の方が多い場合には独立性がないと判定する。説明変数の組合せとしては、目的変数を精度良く説明できる場合であっても、個々の説明変数についてみれば目的変数との相関がない場合もある。このような説明変数を含んでいると未知のテストデータに対する予測性能が低くなるおそれがある。ネットワーク構造において全リンク数と目的変数と説明変数とを接続するリンク数とを比較する構成により、説明変数間の独立性を確認できるとともに、目的変数と説明変数との相関も確認し、未知のテストデータに対する予測性能の高い分子マーカーを探索できる。
図4の(iv)に示す3つのネットワーク構造では、左側のネットワーク構造では説明変数どうしが独立しており、かつ、目的変数との相関があるが、右側のネットワーク構造では説明変数どうしが独立しておらず、中央のネットワーク構造は説明変数どうしが独立していない上、説明変数の1つが目的変数と相関がなく妥当ではないと判定される。
制御部12は、妥当性を有すると判定された説明変数に係るシグネチャ分子を分子マーカーとして決定する(S15)。これにより、未知のデータを精度良く区別することができる分子マーカーを求めることができる。
(第2の実施の形態)
図5は、第2の実施の形態の分子マーカー探索装置2の構成を示す図である。第2の実施の形態では、拡張型心筋症(DCM)の患者に人工補助心臓(VAS)を装着する治療を行ったときの回復率(治療の効果)を予測する分子マーカーを探索する例を挙げて説明する。
分子マーカー探索装置2は、情報を入力する入力部11と、分子マーカーを探索する処理を行う制御部12と、探索された分子マーカーのデータを出力する出力部13と、患者のオミックス情報を記憶したオミックス情報DB14と、患者の臨床情報を記憶した臨床情報データベース(以下「臨床情報DB」という。)15とを有している。
分子マーカー探索装置2は、CPU、RAM、ROM、ディスプレイ、キーボード、マウス、通信インターフェース等を備えるコンピュータによって構成される。分子マーカー探索のためのプログラムをROMに記憶しておき、CPUがROMからプログラムを読み出して実行することにより、コンピュータが分子マーカーの探索処理を行う。
図6は、臨床情報DB15に記憶されたデータの例を示す図である。図6(a)は、臨床情報DB15に記憶された治療前の患者の臨床情報の例を示し、図6(b)は、同じく臨床情報DB15に記憶された治療後の患者の臨床情報の例を示している。図6(a)及び図6(b)に示すように、臨床情報としては、左室拡張末期径(Left Ventricular Dimension at Diastole:LVDd)、左室駆出率(Left Ventricular Ejection Fraction:LVEF)、左冠動脈前下行枝(Left Anterior Descending coronary artery:LAD)などの拡張型心筋症の程度を示す値が記憶されている。なお、オミックス情報DB14に記憶されたデータは、第1の実施の形態の分子マーカー探索装置1と同じであるので(図2参照)、説明を省略する。
制御部12は、患者のオミックス情報と臨床情報とに基づいて、VASの装着による回復率を予測する分子マーカーを探索する機能を有している。
図7は制御部12によって分子マーカーを探索する処理を示すフローチャート、図8は患者のオミックス情報から分子マーカーを探索する際の絞り込みの様子を示す説明図である。制御部12は、患者のオミックス情報および臨床情報を取得すると(S20)、治療の前後における患者の臨床情報を用いて、治療の効果を定量的に算出する(S21)。所定の臨床情報の改善の度合いによって治療の効果を算出してもよいし、複数の臨床情報の改善の度合いによって治療の効果を算出してもよいが、本実施の形態においては、LVDdの改善の度合いによって治療の度合いを算出する。すなわち、図8の(ii)に示すように、臨床情報DB15から治療前後のLVDdおよびLADのデータを読み出す。治療の効果は、LVDd(治療後)−LVDd(治療前)によって治療の効果を算出する。
次に、制御部12は、DCMの患者と健常者(コントロール)とのオミックス情報を比較して、DCMのシグネチャ分子を抽出する(S22)。図8の(ii)に示すように、患者のオミックス情報の中から複数のシグネチャ分子が抽出される。このシグネチャ分子が、分子マーカーの候補となる。
次に、制御部12は、抽出されたシグネチャ分子および選択した臨床情報に対して回帰分析を行って、治療の効果を区別することができるシグネチャ分子を絞り込む(S23)。ここで、シグネチャ分子の絞り込みは、個々のシグネチャ分子と臨床情報の組合せが治療の効果を区別できるかどうかを判定すると共に、複数のシグネチャ分子と臨床情報の組合せによって、治療の効果を区別できるかどうかを判定する。
例えば、図8の(iii)に示すように、分子マーカーの候補であるシグネチャ分子から2個のシグネチャ分子を選択し、この組合せに係るシグネチャ分子と治療前のLVDdによって治療の効果を区別することができるかどうかを回帰分析によって判定する。すなわち、組合せに含まれる2個のシグネチャ分子と治療前のLVDdおよびLADを説明変数、治療の効果(回復/回復せず)を目的変数として、目的変数であるDCMとd−HCMを精度良く区別できるかどうかを回帰分析する。なお、治療の効果を精度良く区別できるかどうかの判断は、例えば、ROC曲線のAUC(Area Under Curve)=0.95を閾値として、この閾値より高い精度で治療の効果を区別できるかどうかによって行う。
制御部12は、組合せに係るシグネチャ分子を順次変更し、治療の効果を精度良く区別できるシグネチャ分子の組合せを探索し、絞り込む。図8では、2個ずつのシグネチャ分子を組合せとする例を示しているが、組合せを構成するシグネチャ分子の数も変更する。ただし、組合せを構成するシグネチャ分子の数が多すぎると、トレーニングデータへの過剰適合が起こりやすいので、組合せを構成するシグネチャ分子の数は、5個程度までとすることが好ましい。その場合、治療前のLVDd及びLADも説明変数として加わるので、説明変数は全部で7個になる。
続いて、制御部12は、回帰分析によって絞り込まれたシグネチャ分子またはシグネチャ分子の組合せに対して交差検証を行って、治療の効果を所定の閾値より高い精度で区別することができるシグネチャ分子の組合せに絞り込みを行う(S24)。ここでの判定の閾値としては、例えば、ROC曲線のAUC(Area Under Curve)=0.90を用いる。ここまでの処理により、シグネチャ分子の中から、トレーニングデータの患者の治療の効果を所定の精度で区別することができるシグネチャ分子の組合せを求めることができる。
次に、制御部12は、求めたシグネチャ分子の組合せに含まれるシグネチャ分子どうしの妥当性をチェックする(S25)。具体的には、組合せに含まれるシグネチャ分子と治療前のLVDd及びLADをノードとすると共に、治療の効果(すなわち、回復したかどうか)をノードとし、ノード間の偏相関係数を求め、偏相関係数に基づいてネットワーク構造を生成する。制御部12は、偏相関係数が所定の閾値以上のノード間には相関があるとしてノードどうしを連結し、偏相関係数が所定の閾値未満のノード間には相関がないとしてノードどうしを連結しない。
これにより、図8の(iv)に示すように、説明変数(図8では「EX」と示す)のノードと目的変数(図8では「OB」と示す)の関係を示すネットワーク構造が生成される。図8では、説明変数が4個の場合を示している。制御部12は、ネットワーク構造において、説明変数と目的変数とをつなぐリンクが存在すると共に、説明変数のノード間にリンクが存在しないネットワーク構造に係る説明変数は適切であると判定する。制御部12は、ネットワーク構造内に存在する全リンク数と、目的変数と説明変数とを接続するリンクの数とを比較して、両者が等しい場合に、独立性があり、かつ、目的変数と各説明変数との相関がある適切な説明変数であると判定し、全リンク数の方が多い場合には独立性がないと判定することとしてもよい。図8の(iv)に示す3つのネットワーク構造では、左側のネットワーク構造では説明変数どうしが独立しており、かつ、目的変数との相関があるが、右側のネットワーク構造では一部の説明変数が独立しておらず、中央のネットワーク構造は一部の説明変数が独立していない上、説明変数の1つが目的変数と相関がなく適切ではないと判定される。
制御部12は、妥当性を有すると判定された説明変数に係るシグネチャ分子を分子マーカーとして決定する(S26)。これにより、未知のデータを精度良く区別することができる分子マーカーを求めることができる。
以上、本発明の分子マーカー探索装置および分子マーカー探索方法について実施の形態を挙げて詳細に説明したが、本発明は上記した実施の形態に限定されるものではない。上記した実施の形態では、疾患を診断する診断マーカー、治療が有効であるかをあらかじめ予測する予測マーカーを例として説明したが、本発明の分子マーカー探索装置は、例えば、薬剤に関連した特定の分子マーカーを示している患者を選別する患者層別マーカー等のその他の分子マーカーの探索にも用いることができる。
上記した実施の形態では、目的変数を所定の閾値以上の精度で説明するシグネチャ分子の組合せを求めるのに回帰分析を用いる例を挙げたが、回帰分析以外の分析方法によってシグネチャ分子の組合せを求めてもよい。例えば、機械学習によってシグネチャ分子の組合せを求めてもよい。
(実施例1)DCMとd−HCMを区別する分子マーカー
実施例では、国立循環器病研究センター/創薬オミックス研究センターが公開しているデータを使った。
DCMの患者16名とd−HCMの患者13名の合計29名について、メチル化データを取得した。オミックス情報のうち、16名(DCM:8名、d−HCM:8名)のオミックス情報をトレーニングデータ、13名(DCM:8名、d−HCM:5名)のオミックス情報をテストデータとして用いた。
DCMとd−HCMから17個の遺伝子をシグネチャ分子として抽出し、その17個の遺伝子のDNAメチル化を検出する78のプローブから、19のプローブを分子マーカーの候補として選択した。
19プローブから1〜8個のプローブの組合せを選んだ。この時点でプローブの組合せ数は169765通りであった(19個から1、2、・・・8個を選ぶ組合せの数)。
次に、それぞれのプローブの組合せについて回帰分析および交差検証を行った。回帰分析においても交差検証においても、閾値としては、ROC曲線のAUC=0.95を用い、AUCが0.95より大きいプローブの組合せを探索した。この時点でプローブの組合せ数は、169765通りから16926通りに絞り込まれた。
続いて、それぞれのプローブの組合せについて、ネットワーク構造を生成し、説明変数の妥当性チェックを行った。妥当性のチェックは、ネットワーク構造内の全リンク数と、説明変数と目的変数とをつなぐリンク数とを比較し、両者が等しい場合に合格とした。その結果、プローブの組合せ数は、16926通りから453通りに絞り込まれた。
最後に、得られたプローブの組合せをテストデータに適用して、AUC=0.85を超えるプローブの組合せを抽出した結果、453通りから11通りのプローブの組合せが残ったので、これを分子マーカーとし、11個の予測式を生成した。
次の表は、予測式で用いられる11個のプローブを示す図である。なお、ここでは予測式自体の記載は省略している。
Figure 2021043056
例えば、No.1の予測式には3個のプローブが含まれ、その内容は、「cg00482898」「cg13695646」「cg15441831」である。このプローブの組合せは、トレーニングデータに対する回帰分析のAUCは1.000、交差検証のAUCは0.953、説明変数から目的変数へのリンクが3本、全体のリンクが3本であり、テストデータに対するAUCは、0.917であった。表に示すように、11個の予測式は、わずか9個のプローブの3〜5個の組合せによって構成されている。
次に、求めた11個の予測式を用いて、テストデータについてDCMとd−HCMの診断を行った結果を以下に示す。
Figure 2021043056
この表の左端の「Disease Type」は患者の有する疾患を示しており、正解のデータである。「No. of classifiers predicted as DCM」は11個の予測式のうち、何個の予測式がDCMと判定したかを示し、「No. of classifiers predicted as D-HCM」は、何個の予測式がd−HCMと判定したかを示す。DCMと判定した予測式の数とd−HCMと判定した予測式の数といずれか多かったかにより、多数決によってDCMかd−HCMかを区別し、その判定結果を右端の「Judgment」に示している。欄外に記載した「〇」は、判定結果が正解であったことを示す。なお、「Fraction of correct prediction classifiers(%)」は判定の確からしさを示す。この表に示すように、13例のすべての症例についてDCMとd−HCMを正しく区別することができた。
(比較例)
次表に示すように、説明変数から目的変数へのリンク数よりも総エッジ数の方が多い予測式を用いて比較実験を行った。
Figure 2021043056
結果は、次表に示すように13例のうち正解数は3例であり、正解率が低かった。
Figure 2021043056
(実施例2)VASによる治療の効果を予測する分子マーカー
実施例では、国立循環器病研究センター/創薬オミックス研究センターが公開しているデータを使った。
DCMの患者22名について、メチル化データを取得すると共に、VASによる治療を行う前後の臨床情報を取得した。オミックス情報のうち、15名のオミックス情報及び臨床情報をトレーニングデータ、7名のオミックス情報及び臨床情報をテストデータとして用いた。
患者のメチル化データから31個の遺伝子をシグネチャ分子として抽出し、その31個の遺伝子のDNAメチル化を検出する370のプローブから、49のプローブを分子マーカーの候補として選択した。
49プローブから1〜5個のプローブの組合せを選んだ。この時点でプローブの組合せ数は2138409通りであった(49個から1、2、・・・5個を選ぶ組合せの数)。
次に、それぞれのプローブの組合せについて回帰分析および交差検証を行った。回帰分析において、ROC曲線のAUC=0.95を用い、交差検証についてはROC曲線のAUCが0.90より大きいプローブの組合せを探索した。この時点でプローブの組合せ数は、2138409通りから218475通りに絞り込まれた。
続いて、それぞれのプローブの組合せについて、ネットワーク構造を生成し、説明変数の独立性チェックを行った。独立性のチェックは、ネットワーク構造内の全リンク数と、説明変数と目的変数とをつなぐリンク数とを比較し、両者が等しい場合に合格とした。その結果、プローブの組合せ数は、218475通りから177通りに絞り込まれた。
最後に、得られたプローブの組合せをテストデータに適用して、AUC=0.80を超えるプローブの組合せを抽出した結果、177通りから22通りのプローブの組合せが残ったので、これを分子マーカーとし、22個の予測式を生成した。
次の表は、予測式に用いられる22個のプローブを示す図である。なお、予測式自体の記載は省略している。
Figure 2021043056
例えば、No.1の予測式は、説明変数が「cg22705746」のプローブと、治療前のLVDdとLADである。このプローブの組合せは、トレーニングデータに対する回帰分析のAUCは1.000、交差検証のAUCは0.925、説明変数から目的変数へのリンクが3本、全体のリンクが3本であり、テストデータに対するAUCは、0.867であった。表に示すように、22個の予測式は、11個のプローブの1〜3個とLVDdとLADとの組合せによって構成されている。
次に、求めた22個の予測式を用いて、テストデータについて治療の効果(回復(R)、回復せず(NR))を予測した結果を以下に示す。
Figure 2021043056
この表の左端の「Patient」は患者のIDを示し、その右側の「Recovery Rate」は回復率であり、治療の効果を示している。これが正解のデータである。「No. of classifiers predicted as recovery」は22個の予測式のうち、何個の予測式が「回復する」と判定したかを示し、「No. of classifiers predicted as no recovery」は、何個の予測式が「回復しない」と判定したかを示す。「回復する」と判定した予測式の数と「回復しない」と判定した予測式の数といずれか多かったかにより、多数決によって治療の効果を予測し、その結果を右端の「Judgment」に示している。なお、「Fraction of correct prediction classifiers(%)」は判定の確からしさを示す。この表に示すように、8例のうちの7例において治療の効果を正しく予測することができた。
(比較例)
次表に示すように、説明変数から目的変数へのリンク数よりも総エッジ数の方が多い予測式を用いて比較実験を行った。
Figure 2021043056
結果は、次表に示すように8例のうち正解数は4例であり、正解率が低かった。
Figure 2021043056
本発明は、分子マーカーを探索する装置等として有用である。
1,2 分子マーカー探索装置
11 入力部
12 制御部
13 出力部
14 オミックス情報DB
15 臨床情報DB

Claims (9)

  1. 複数の患者のオミックス情報を取得するステップと、
    疾患を目的変数とし、前記オミックス情報に含まれる分子情報の中から、所定の閾値以上の精度で前記目的変数を説明する説明変数の組合せを1組以上求めるステップと、
    各説明変数の組合せについて、前記目的変数および前記説明変数をノードとし、各ノード間の偏相関に基づいてネットワーク構造を生成し、前記ネットワーク構造に含まれる全リンク数と、前記目的変数と前記説明変数とをつなぐリンク数が等しい場合に、前記説明変数の組合せを分子マーカーとして決定するステップと、
    を備える分子マーカー探索方法。
  2. 複数の患者のオミックス情報と、治療前の臨床情報と、疾患に対する治療の効果の情報とを取得するステップと、
    前記治療の効果を目的変数とし、前記オミックス情報に含まれる分子情報の中から、前記治療前の臨床情報と共に前記目的変数を説明する説明変数を選択して、所定の閾値以上の精度で前記目的変数を説明する説明変数の組合せを1組以上求めるステップと、
    各説明変数の組合せについて、前記目的変数および前記説明変数をノードとし、各ノード間の偏相関に基づいてネットワーク構造を生成し、前記ネットワーク構造に含まれる全リンク数と、前記目的変数と前記説明変数とをつなぐリンク数が等しい場合に、前記説明変数の組合せを分子マーカーとして決定するステップと、
    を備える分子マーカー探索方法。
  3. 前記説明変数の組合せを求めるステップは、回帰分析または機械学習によって説明変数の組合せを求める請求項1または2に記載の分子マーカー探索方法。
  4. 前記説明変数の組合せを求めるステップでは、疾患に特有の複数のシグネチャ分子を説明変数の候補とし、前記複数のシグネチャ分子の中から任意の個数のシグネチャ分子を順次選択して、前記目的変数を所定の閾値以上の精度で説明できるか否かを検証する請求項1乃至3のいずれかに記載の分子マーカー探索方法。
  5. 取得した患者のオミックス情報に基づいて、前記オミックス情報として、遺伝子のメチル化レベル情報、mRNAの発現情報、及びタンパク質の発現情報のいずれを用いるかを決定するステップを備える請求項1乃至4のいずれかに記載の分子マーカー探索方法。
  6. 複数の患者のオミックス情報を入力する入力部と、
    前記オミックス情報に基づいて分子マーカーを探索する制御部と、を備え、
    前記制御部は、
    疾患を目的変数とし、前記オミックス情報に含まれる分子情報の中から、所定の閾値以上の精度で前記目的変数を説明する説明変数の組合せを1組以上求め、
    各説明変数の組合せについて、前記目的変数および前記説明変数をノードとし、各ノード間の偏相関に基づいてネットワーク構造を生成し、前記ネットワーク構造に含まれる全リンク数と、前記目的変数と前記説明変数とをつなぐリンク数が等しい場合に、前記説明変数の組合せを分子マーカーとして決定する、分子マーカー探索装置。
  7. 複数の患者のオミックス情報と、治療前の臨床情報と、治療の効果の情報とを入力する入力部と、
    前記オミックス情報、臨床情報、及び治療の効果に基づいて分子マーカーを探索する制御部と、を備え、
    前記制御部は、
    前記治療の効果を目的変数とし、前記オミックス情報に含まれる分子情報の中から、前記治療前の臨床情報と共に前記目的変数を説明する説明変数を選択して、所定の閾値以上の精度で前記目的変数を説明する説明変数の組合せを1組以上求め、
    各説明変数の組合せについて、前記目的変数および前記説明変数をノードとし、各ノード間の偏相関に基づいてネットワーク構造を生成し、前記ネットワーク構造に含まれる全リンク数と、前記目的変数と前記説明変数とをつなぐリンク数が等しい場合に、前記説明変数の組合せを分子マーカーとして決定する、分子マーカー探索装置。
  8. コンピュータに、
    複数の患者のオミックス情報を取得するステップと、
    疾患を目的変数とし、前記オミックス情報に含まれる分子情報の中から、所定の閾値以上の精度で前記目的変数を説明する説明変数の組合せを1組以上求めるステップと、
    各説明変数の組合せについて、前記目的変数および前記説明変数をノードとし、各ノード間の偏相関に基づいてネットワーク構造を生成し、前記ネットワーク構造に含まれる全リンク数と、前記目的変数と前記説明変数とをつなぐリンク数が等しい場合に、前記説明変数の組合せを分子マーカーとして決定するステップと、
    を実行させるプログラム。
  9. コンピュータに、
    複数の患者のオミックス情報と、治療前の臨床情報と、治療の効果の情報とを取得するステップと、
    前記治療の効果を目的変数とし、前記オミックス情報に含まれる分子情報の中から、前記治療前の臨床情報と共に前記目的変数を説明する説明変数を選択して、所定の閾値以上の精度で前記目的変数を説明する説明変数の組合せを1組以上求めるステップと、
    各説明変数の組合せについて、前記目的変数および前記説明変数をノードとし、各ノード間の偏相関に基づいてネットワーク構造を生成し、前記ネットワーク構造に含まれる全リンク数と、前記目的変数と前記説明変数とをつなぐリンク数が等しい場合に、前記説明変数の組合せを分子マーカーとして決定するステップと、
    を実行させるプログラム。
JP2019165135A 2019-09-11 2019-09-11 分子マーカー探索方法、分子マーカー探索装置、及びプログラム Pending JP2021043056A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019165135A JP2021043056A (ja) 2019-09-11 2019-09-11 分子マーカー探索方法、分子マーカー探索装置、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019165135A JP2021043056A (ja) 2019-09-11 2019-09-11 分子マーカー探索方法、分子マーカー探索装置、及びプログラム

Publications (1)

Publication Number Publication Date
JP2021043056A true JP2021043056A (ja) 2021-03-18

Family

ID=74864495

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019165135A Pending JP2021043056A (ja) 2019-09-11 2019-09-11 分子マーカー探索方法、分子マーカー探索装置、及びプログラム

Country Status (1)

Country Link
JP (1) JP2021043056A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021098129A (ja) * 2017-05-16 2021-07-01 株式会社ユニバーサルエンターテインメント 遊技機

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021098129A (ja) * 2017-05-16 2021-07-01 株式会社ユニバーサルエンターテインメント 遊技機

Similar Documents

Publication Publication Date Title
Yan et al. Deep-learning-based prediction of late age-related macular degeneration progression
JP6280997B1 (ja) 疾患の罹患判定装置、疾患の罹患判定方法、疾患の特徴抽出装置及び疾患の特徴抽出方法
KR102024375B1 (ko) 만성신장 질환의 질병 위험도를 예측하는 장치 및 방법
RU2517286C2 (ru) Классификация данных выборок
JP2007102709A (ja) 遺伝子診断用のマーカー選定プログラム、該プログラムを実行する装置及びシステム、並びに遺伝子診断システム
JP6941309B2 (ja) 遺伝子変異の評価装置、評価方法、プログラム、および記録媒体
JP2021043056A (ja) 分子マーカー探索方法、分子マーカー探索装置、及びプログラム
WO2016129601A1 (ja) バイオマーカー探索方法、バイオマーカー探索装置、及びプログラム
KR102636560B1 (ko) 대사질환 위험도 예측 방법 및 시스템
US20130218581A1 (en) Stratifying patient populations through characterization of disease-driving signaling
Vispute et al. An empirical comparison by data mining classification techniques for diabetes data set
KR102217272B1 (ko) 유전체 변이 정보를 이용한 질병 진단 바이오마커 추출 방법
JP2017126212A (ja) パスウェイ解析プログラム、パスウェイ解析方法、及び、情報処理装置
CN114190949B (zh) 生理状态评估方法与生理状态评估装置
US8762072B2 (en) Method of determining a reliability indicator for signatures obtained from clinical data and use of the reliability indicator for favoring one signature over the other
Belacel et al. PROAFTN classifier for feature selection with application to alzheimer metabolomics data analysis
US11348662B2 (en) Biomarkers based on sets of molecular signatures
JP6929015B2 (ja) バイオマーカー探索装置、バイオマーカー探索方法およびプログラム
Naglah et al. Computer-aided diagnosis of acute myocardial infarction using time-dependent plasma metabolites
JP7444252B2 (ja) 診断支援プログラム、装置、及び方法
Doungpan et al. Gene-Network-Based Feature Set (GNFS) for expression-based cancer classification
KR102659915B1 (ko) 환자의 의학적 정보를 예측하기 위한 유전자 선별 방법 및 이의 활용
US20220246232A1 (en) Method for diagnosing disease risk based on complex biomarker network
US20230298690A1 (en) Genetic information processing system with unbounded-sample analysis mechanism and method of operation thereof
Berreby Combining Urinary Biomarker Panels and Machine Learning for Earlier Detection of Pancreatic Cancer