JP2021043056A

JP2021043056A - 分子マーカー探索方法、分子マーカー探索装置、及びプログラム

Info

Publication number: JP2021043056A
Application number: JP2019165135A
Authority: JP
Inventors: 勝久堀本; Katsuhisa Horimoto; 福井　一彦; Kazuhiko Fukui; 一彦福井
Original assignee: National Institute of Advanced Industrial Science and Technology AIST
Current assignee: National Institute of Advanced Industrial Science and Technology AIST
Priority date: 2019-09-11
Filing date: 2019-09-11
Publication date: 2021-03-18

Abstract

【課題】未知のデータに対しても予測性能が高い分子マーカーを探索することができる方法を提供する。【解決手段】分子マーカー探索方法は、複数の患者のオミックス情報を取得するステップ（Ｓ１０）と、疾患を目的変数とし、オミックス情報に含まれる分子情報の中から、所定の閾値以上の精度で目的変数を説明する説明変数の組合せを１組以上求めるステップ（Ｓ１２）と、各説明変数の組合せについて、目的変数および説明変数をノードとし、各ノード間の偏相関に基づいてネットワーク構造を生成し、ネットワーク構造に含まれる全リンク数と、目的変数と説明変数とをつなぐリンク数が等しい場合に（Ｓ１４）、説明変数の組合せを分子マーカーとして決定するステップ（Ｓ１５）とを備える。【選択図】図３

Description

本発明は、分子マーカー探索方法、分子マーカー探索装置、及びプログラムに関する。

従来から、個別化診療や創薬の分野において、特異的な遺伝子発現による疾患の発症や遺伝的バラツキ（遺伝子多型）による薬物応答性の違い等を鋭敏に反映する分子マーカーが知られている。

また、診断が困難な疾患を区別するための分子マーカーの研究も進められている。例えば、拡張型心筋症と拡張相肥大型心筋症とは、鑑別診断が困難なことがあるが、分子マーカーによって疾患を区別することができれば、適切な治療を施すことができる。このような分子マーカーを「診断マーカー」という。さらに、疾患を区別するだけでなく、疾患に対してどのような治療が有効であるかをあらかじめ予測するために用いられる分子マーカー（これを「予測マーカー」という。）も研究されている。

本発明者は、バイオマーカーを探索する発明について出願を行った（特許文献１）。この発明では、まず、患者のオミックス情報から疾患特有のシグネチャ分子情報を検出する。続いて、シグネチャ分子情報から処理対象の分子情報を選択し、分子情報を説明変数、治療の効果を目的変数として回帰分析を行うと共に、ネットワーク解析を行って分子情報と治療効果の因果関係が高い分子情報をバイオマーカーとして求める処理を繰り返し行う。これにより、シグネチャ分子の中から、バイオマーカーを探索する。

特開２０１６−１４８６０４号公報

上記したとおり、疾患等が既知の患者のオミックス情報をトレーニングデータとして用いて、疾患等を区別する分子マーカーを求める。しかし、トレーニングデータでは高い予測性能を有する分子マーカーであっても、テストデータに対して適用すると予測性能が必ずしも高くないことがあった。これは、求めた分子マーカーがトレーニングデータに過剰適合していることが一つの原因であると考えられる。

本発明は、上記背景に鑑み、未知のデータに対しても予測性能が高い分子マーカーを探索することができる方法を提供することを目的とする。

本発明の分子マーカー探索方法は、複数の患者のオミックス情報を取得するステップと、疾患を目的変数とし、前記オミックス情報に含まれる分子情報の中から、所定の閾値以上の精度で前記目的変数を説明する説明変数の組合せを１組以上求めるステップと、各説明変数の組合せについて、前記目的変数および前記説明変数をノードとし、各ノード間の偏相関に基づいてネットワーク構造を生成し、前記ネットワーク構造に含まれる全リンク数と、前記目的変数と前記説明変数とをつなぐリンク数が等しい場合に、前記説明変数の組合せを分子マーカーとして決定するステップとを備える。ここで、前記説明変数を求めるステップは、回帰分析または機械学習によって説明変数の組合せを求めてもよい。

本発明の別の態様の分子マーカー探索方法は、複数の患者のオミックス情報と、治療前の臨床情報と、疾患に対する治療の効果の情報とを取得するステップと、前記治療の効果を目的変数とし、前記オミックス情報に含まれる分子情報の中から、前記治療前の臨床情報と共に前記目的変数を説明する説明変数を選択して、所定の閾値以上の精度で前記目的変数を説明する説明変数の組合せを１組以上求めるステップと、各説明変数の組合せについて、前記目的変数および前記説明変数をノードとし、各ノード間の偏相関に基づいてネットワーク構造を生成し、前記ネットワーク構造に含まれる全リンク数と、前記目的変数と前記説明変数とをつなぐリンク数が等しい場合に、前記説明変数の組合せを分子マーカーとして決定するステップとを備える。ここで、前記説明変数の組合せを求めるステップは、回帰分析または機械学習によって説明変数の組合せを求めてもよい。

患者のオミックス情報に基づいて、所定の閾値以上の精度で目的変数を説明する説明変数の組合せを求めると、トレーニングデータに対しては予測性能が高いが、未知のテストデータに対しては予測精度が高くないことがあった。本発明によれば、求めた各説明変数の組合せについて、目的変数と説明変数とをノードとし、各ノード間を偏相関に基づいてリンクでつないだネットワーク構造を生成し、生成したネットワーク構造において、全リンク数と目的変数と前記説明変数とをつなぐリンク数が等しいかどうかを判断する。これが等しい場合には、目的変数と各説明変数が相関していること、および、各説明変数が独立であることを確認でき、適切な分子マーカーを決定することができる。

本発明の分子マーカー探索方法において、前記説明変数の組合せを求めるステップでは、疾患に特有の複数のシグネチャ分子を説明変数の候補とし、前記複数のシグネチャ分子の中から任意の個数のシグネチャ分子を順次選択して、前記目的変数を所定の閾値以上の精度で説明できるか否かを検証してもよい。

本発明の分子マーカー探索方法は、取得した患者のオミックス情報に基づいて、前記オミックス情報として、遺伝子のメチル化レベル情報、ｍＲＮＡの発現情報、及びタンパク質の発現情報のいずれを用いるかを決定するステップを備えてもよい。

本発明によれば、トレーニングデータへの過剰適合を抑制し、未知のテストデータに対して予測性能の高い分子マーカーを探索することができる。

第１の実施の形態の分子マーカー探索装置の構成を示す図である。オミックス情報ＤＢに記憶されたデータの例を示す図である。分子マーカーを探索する処理を示すフローチャートである。分子マーカーを探索する際の絞り込みの様子を示す説明図である。第２の実施の形態の分子マーカー探索装置の構成を示す図である。オミックス情報ＤＢに記憶されたデータの例を示す図である。分子マーカーを探索する処理を示すフローチャートである。分子マーカーを探索する際の絞り込みの様子を示す説明図である。

以下、本発明の実施の形態の分子マーカー探索装置および分子マーカー探索方法について、図面を参照して説明する。
（第１の実施の形態）
第１の実施の形態では、拡張型心筋症（ＤＣＭ）、拡張相肥大型心筋症（ｄ−ＨＣＭ）を区別するための診断マーカーとしての分子マーカーを探索する例を挙げて説明する。

図１は、第１の実施の形態の分子マーカー探索装置１の構成を示す図である。分子マーカー探索装置１は、情報を入力する入力部１１と、分子マーカーを探索する処理を行う制御部１２と、探索された分子マーカーのデータを出力する出力部１３と、患者のオミックス情報を記憶したオミックス情報データベース（以下「オミックス情報ＤＢ」という。）１４とを有している。

分子マーカー探索装置１は、ＣＰＵ、ＲＡＭ、ＲＯＭ、ディスプレイ、キーボード、マウス、通信インターフェース等を備えるコンピュータによって構成される。分子マーカー探索のためのプログラムをＲＯＭに記憶しておき、ＣＰＵがＲＯＭからプログラムを読み出して実行することにより、コンピュータが分子マーカーの探索処理を行う。

図２は、オミックス情報ＤＢ１４に記憶されたデータの例を示す図である。オミックス情報は、患者を特定するＩＤと、患者の表現型のデータと、遺伝子データを有している。例えば、ＩＤ：００００１の患者の表現型は、疾患なし、ステージなし、薬剤応答性なしであり、その患者のデータ（たとえばマイクロアレイデータ）はＤａｔａ００００１である。ＩＤ：００００２の患者の表現型は、ｄ−ＨＣＭの疾患あり、ステージ２、薬剤応答性５であり、その患者のデータはＤａｔａ００００２である。ここで、薬剤応答性は、薬剤に対する応答の大きさを５段階で評価した数値であり、数値が大きいほど、薬剤に対する応答性が大きい。

本実施の形態において、遺伝子データは、メチロームデータ（ＤＮＡのメチル化の情報）である。これは、メチローム、トランスクリプトーム、プロテオームの３層オミックス情報のうち、ＤＣＭとｄ−ＨＣＭとの区別には、メチロームデータが有望であることをあらかじめ突き止めたからである。疾患を区別するのに、どの層のオミックス情報が有望か不明の場合には、遺伝子データとしては全てのオミックス情報を用いることとしてもよい。メチロームデータは、例えば、メチル化マイクロアレイ解析によって取得される。

入力部１１は、オミックス情報ＤＢ１４から、診断の対象であるＤＣＭとｄ−ＨＣＭの患者のオミックス情報を読み出し、読み出したオミックス情報を制御部１２に入力する。制御部１２は、入力された患者のオミックス情報に基づいて、ＤＣＭとｄ−ＨＣＭとを区別する分子マーカーを探索する機能を有する。

図３は制御部１２によって分子マーカーを探索する処理を示すフローチャート、図４は患者のオミックス情報から分子マーカーを探索する際の絞り込みの様子を示す説明図である。制御部１２は、患者のオミックス情報を取得すると（Ｓ１０）、ＤＣＭとｄ−ＨＣＭとの間で変動の大きい複数のオミックス情報をシグネチャ分子として抽出する（Ｓ１１）。図４の（ｉｉ）に示すように、患者のオミックス情報の中から複数のシグネチャ分子が抽出される。このシグネチャ分子が、分子マーカーの候補となる。

次に、制御部１２は、抽出されたシグネチャ分子に対して回帰分析を行って、ＤＣＭとｄ−ＨＣＭを区別することができるシグネチャ分子を絞り込む（Ｓ１２）。ここで、シグネチャ分子の絞り込みは、個々のシグネチャ分子がＤＣＭとｄ−ＨＣＭを区別できるかどうかを判定すると共に、複数のシグネチャ分子の組合せがＤＣＭとｄ−ＨＣＭを区別できるかどうかを判定する。

例えば、図４の（ｉｉｉ）に示すように、分子マーカーの候補であるシグネチャ分子から２個のシグネチャ分子を選択し、シグネチャ分子の組合せによってＤＣＭとｄ−ＨＣＭを区別することができるかどうかを回帰分析によって判定する。すなわち、組合せに含まれる２個のシグネチャ分子を説明変数、疾患（ＤＣＭとｄ−ＨＣＭ）を目的変数として、ＤＣＭとｄ−ＨＣＭを精度良く区別できるかどうかを回帰分析する。なお、ＤＣＭとｄ−ＨＣＭを精度良く区別できるかどうかの判断は、例えば、ＲＯＣ曲線のＡＵＣ（Area Under Curve）＝０．９５を閾値として、この閾値より高い精度で疾患を区別できるかどうかによって行う。

制御部１２は、シグネチャ分子の組合せを順次変更し、ＤＣＭとｄ−ＨＣＭを精度良く区別できるシグネチャ分子の組合せを探索し、絞り込む。図４では、２個ずつのシグネチャ分子を組合せとする例を示しているが、組合せを構成するシグネチャ分子の数も変更する。ただし、シグネチャ分子の数が多すぎると、トレーニングデータへの過剰適合が起こりやすいので、組合せを構成するシグネチャ分子の数は、８個程度までとすることが好ましい。

続いて、制御部１２は、回帰分析によって絞り込まれたシグネチャ分子またはシグネチャ分子の組合せに対して交差検証を行って、ＤＣＭとｄ−ＨＣＭとを所定の閾値より高い精度で区別することができるシグネチャ分子の組合せに絞り込みを行う（Ｓ１３）。ここまでの処理により、シグネチャ分子の中から、トレーニングデータのＤＣＭとｄ−ＨＣＭを所定の精度で区別することができるシグネチャ分子の組合せを求めることができる。

次に、制御部１２は、求めたシグネチャ分子の組合せに含まれるシグネチャ分子の妥当性をチェックする（Ｓ１４）。具体的には、組合せに含まれるシグネチャ分子をノードとすると共に、疾患（すなわちＤＣＭとｄ−ＨＣＭの別）をノードとし、ノード間の偏相関係数を求め、偏相関係数に基づいてネットワーク構造を生成する。制御部１２は、偏相関係数が所定の閾値以上のノード間には相関があるとしてノードどうしを連結し、偏相関係数が所定の閾値未満のノード間には相関がないとしてノードどうしを連結しない。

これにより、図４の（ｉｖ）に示すように、説明変数（図４では「ＥＸ」と示す）のノードと目的変数（図４では「ＯＢ」と示す）の関係を示すネットワーク構造が生成される。図４では、説明変数が２個の場合を示している。制御部１２は、ネットワーク構造において、説明変数と目的変数とをつなぐリンクが存在すると共に、説明変数のノード間にリンクが存在しないネットワーク構造に係る説明変数の組合せは適切であると判定する。

制御部１２は、ネットワーク構造内に存在する全リンク数と、目的変数と説明変数とを接続するリンクの数とを比較して、両者が等しい場合に、独立性があると判定し、全リンク数の方が多い場合には独立性がないと判定する。説明変数の組合せとしては、目的変数を精度良く説明できる場合であっても、個々の説明変数についてみれば目的変数との相関がない場合もある。このような説明変数を含んでいると未知のテストデータに対する予測性能が低くなるおそれがある。ネットワーク構造において全リンク数と目的変数と説明変数とを接続するリンク数とを比較する構成により、説明変数間の独立性を確認できるとともに、目的変数と説明変数との相関も確認し、未知のテストデータに対する予測性能の高い分子マーカーを探索できる。

図４の（ｉｖ）に示す３つのネットワーク構造では、左側のネットワーク構造では説明変数どうしが独立しており、かつ、目的変数との相関があるが、右側のネットワーク構造では説明変数どうしが独立しておらず、中央のネットワーク構造は説明変数どうしが独立していない上、説明変数の１つが目的変数と相関がなく妥当ではないと判定される。

制御部１２は、妥当性を有すると判定された説明変数に係るシグネチャ分子を分子マーカーとして決定する（Ｓ１５）。これにより、未知のデータを精度良く区別することができる分子マーカーを求めることができる。

（第２の実施の形態）
図５は、第２の実施の形態の分子マーカー探索装置２の構成を示す図である。第２の実施の形態では、拡張型心筋症（ＤＣＭ）の患者に人工補助心臓（ＶＡＳ）を装着する治療を行ったときの回復率（治療の効果）を予測する分子マーカーを探索する例を挙げて説明する。

分子マーカー探索装置２は、情報を入力する入力部１１と、分子マーカーを探索する処理を行う制御部１２と、探索された分子マーカーのデータを出力する出力部１３と、患者のオミックス情報を記憶したオミックス情報ＤＢ１４と、患者の臨床情報を記憶した臨床情報データベース（以下「臨床情報ＤＢ」という。）１５とを有している。

分子マーカー探索装置２は、ＣＰＵ、ＲＡＭ、ＲＯＭ、ディスプレイ、キーボード、マウス、通信インターフェース等を備えるコンピュータによって構成される。分子マーカー探索のためのプログラムをＲＯＭに記憶しておき、ＣＰＵがＲＯＭからプログラムを読み出して実行することにより、コンピュータが分子マーカーの探索処理を行う。

図６は、臨床情報ＤＢ１５に記憶されたデータの例を示す図である。図６（ａ）は、臨床情報ＤＢ１５に記憶された治療前の患者の臨床情報の例を示し、図６（ｂ）は、同じく臨床情報ＤＢ１５に記憶された治療後の患者の臨床情報の例を示している。図６（ａ）及び図６（ｂ）に示すように、臨床情報としては、左室拡張末期径（Left Ventricular Dimension at Diastole：ＬＶＤｄ）、左室駆出率（Left Ventricular Ejection Fraction：ＬＶＥＦ）、左冠動脈前下行枝（Left Anterior Descending coronary artery：ＬＡＤ）などの拡張型心筋症の程度を示す値が記憶されている。なお、オミックス情報ＤＢ１４に記憶されたデータは、第１の実施の形態の分子マーカー探索装置１と同じであるので（図２参照）、説明を省略する。

制御部１２は、患者のオミックス情報と臨床情報とに基づいて、ＶＡＳの装着による回復率を予測する分子マーカーを探索する機能を有している。

図７は制御部１２によって分子マーカーを探索する処理を示すフローチャート、図８は患者のオミックス情報から分子マーカーを探索する際の絞り込みの様子を示す説明図である。制御部１２は、患者のオミックス情報および臨床情報を取得すると（Ｓ２０）、治療の前後における患者の臨床情報を用いて、治療の効果を定量的に算出する（Ｓ２１）。所定の臨床情報の改善の度合いによって治療の効果を算出してもよいし、複数の臨床情報の改善の度合いによって治療の効果を算出してもよいが、本実施の形態においては、ＬＶＤｄの改善の度合いによって治療の度合いを算出する。すなわち、図８の（ｉｉ）に示すように、臨床情報ＤＢ１５から治療前後のＬＶＤｄおよびＬＡＤのデータを読み出す。治療の効果は、ＬＶＤｄ（治療後）−ＬＶＤｄ（治療前）によって治療の効果を算出する。

次に、制御部１２は、ＤＣＭの患者と健常者（コントロール）とのオミックス情報を比較して、ＤＣＭのシグネチャ分子を抽出する（Ｓ２２）。図８の（ｉｉ）に示すように、患者のオミックス情報の中から複数のシグネチャ分子が抽出される。このシグネチャ分子が、分子マーカーの候補となる。

次に、制御部１２は、抽出されたシグネチャ分子および選択した臨床情報に対して回帰分析を行って、治療の効果を区別することができるシグネチャ分子を絞り込む（Ｓ２３）。ここで、シグネチャ分子の絞り込みは、個々のシグネチャ分子と臨床情報の組合せが治療の効果を区別できるかどうかを判定すると共に、複数のシグネチャ分子と臨床情報の組合せによって、治療の効果を区別できるかどうかを判定する。

例えば、図８の（ｉｉｉ）に示すように、分子マーカーの候補であるシグネチャ分子から２個のシグネチャ分子を選択し、この組合せに係るシグネチャ分子と治療前のＬＶＤｄによって治療の効果を区別することができるかどうかを回帰分析によって判定する。すなわち、組合せに含まれる２個のシグネチャ分子と治療前のＬＶＤｄおよびＬＡＤを説明変数、治療の効果（回復／回復せず）を目的変数として、目的変数であるＤＣＭとｄ−ＨＣＭを精度良く区別できるかどうかを回帰分析する。なお、治療の効果を精度良く区別できるかどうかの判断は、例えば、ＲＯＣ曲線のＡＵＣ（Area Under Curve）＝０．９５を閾値として、この閾値より高い精度で治療の効果を区別できるかどうかによって行う。

制御部１２は、組合せに係るシグネチャ分子を順次変更し、治療の効果を精度良く区別できるシグネチャ分子の組合せを探索し、絞り込む。図８では、２個ずつのシグネチャ分子を組合せとする例を示しているが、組合せを構成するシグネチャ分子の数も変更する。ただし、組合せを構成するシグネチャ分子の数が多すぎると、トレーニングデータへの過剰適合が起こりやすいので、組合せを構成するシグネチャ分子の数は、５個程度までとすることが好ましい。その場合、治療前のＬＶＤｄ及びＬＡＤも説明変数として加わるので、説明変数は全部で７個になる。

続いて、制御部１２は、回帰分析によって絞り込まれたシグネチャ分子またはシグネチャ分子の組合せに対して交差検証を行って、治療の効果を所定の閾値より高い精度で区別することができるシグネチャ分子の組合せに絞り込みを行う（Ｓ２４）。ここでの判定の閾値としては、例えば、ＲＯＣ曲線のＡＵＣ（Area Under Curve）＝０．９０を用いる。ここまでの処理により、シグネチャ分子の中から、トレーニングデータの患者の治療の効果を所定の精度で区別することができるシグネチャ分子の組合せを求めることができる。

次に、制御部１２は、求めたシグネチャ分子の組合せに含まれるシグネチャ分子どうしの妥当性をチェックする（Ｓ２５）。具体的には、組合せに含まれるシグネチャ分子と治療前のＬＶＤｄ及びＬＡＤをノードとすると共に、治療の効果（すなわち、回復したかどうか）をノードとし、ノード間の偏相関係数を求め、偏相関係数に基づいてネットワーク構造を生成する。制御部１２は、偏相関係数が所定の閾値以上のノード間には相関があるとしてノードどうしを連結し、偏相関係数が所定の閾値未満のノード間には相関がないとしてノードどうしを連結しない。

これにより、図８の（ｉｖ）に示すように、説明変数（図８では「ＥＸ」と示す）のノードと目的変数（図８では「ＯＢ」と示す）の関係を示すネットワーク構造が生成される。図８では、説明変数が４個の場合を示している。制御部１２は、ネットワーク構造において、説明変数と目的変数とをつなぐリンクが存在すると共に、説明変数のノード間にリンクが存在しないネットワーク構造に係る説明変数は適切であると判定する。制御部１２は、ネットワーク構造内に存在する全リンク数と、目的変数と説明変数とを接続するリンクの数とを比較して、両者が等しい場合に、独立性があり、かつ、目的変数と各説明変数との相関がある適切な説明変数であると判定し、全リンク数の方が多い場合には独立性がないと判定することとしてもよい。図８の（ｉｖ）に示す３つのネットワーク構造では、左側のネットワーク構造では説明変数どうしが独立しており、かつ、目的変数との相関があるが、右側のネットワーク構造では一部の説明変数が独立しておらず、中央のネットワーク構造は一部の説明変数が独立していない上、説明変数の１つが目的変数と相関がなく適切ではないと判定される。

制御部１２は、妥当性を有すると判定された説明変数に係るシグネチャ分子を分子マーカーとして決定する（Ｓ２６）。これにより、未知のデータを精度良く区別することができる分子マーカーを求めることができる。

以上、本発明の分子マーカー探索装置および分子マーカー探索方法について実施の形態を挙げて詳細に説明したが、本発明は上記した実施の形態に限定されるものではない。上記した実施の形態では、疾患を診断する診断マーカー、治療が有効であるかをあらかじめ予測する予測マーカーを例として説明したが、本発明の分子マーカー探索装置は、例えば、薬剤に関連した特定の分子マーカーを示している患者を選別する患者層別マーカー等のその他の分子マーカーの探索にも用いることができる。

上記した実施の形態では、目的変数を所定の閾値以上の精度で説明するシグネチャ分子の組合せを求めるのに回帰分析を用いる例を挙げたが、回帰分析以外の分析方法によってシグネチャ分子の組合せを求めてもよい。例えば、機械学習によってシグネチャ分子の組合せを求めてもよい。

（実施例１）ＤＣＭとｄ−ＨＣＭを区別する分子マーカー
実施例では、国立循環器病研究センター／創薬オミックス研究センターが公開しているデータを使った。
ＤＣＭの患者１６名とｄ−ＨＣＭの患者１３名の合計２９名について、メチル化データを取得した。オミックス情報のうち、１６名（ＤＣＭ：８名、ｄ−ＨＣＭ：８名）のオミックス情報をトレーニングデータ、１３名（ＤＣＭ：８名、ｄ−ＨＣＭ：５名）のオミックス情報をテストデータとして用いた。

ＤＣＭとｄ−ＨＣＭから１７個の遺伝子をシグネチャ分子として抽出し、その１７個の遺伝子のＤＮＡメチル化を検出する７８のプローブから、１９のプローブを分子マーカーの候補として選択した。

１９プローブから１〜８個のプローブの組合せを選んだ。この時点でプローブの組合せ数は１６９７６５通りであった（１９個から１、２、・・・８個を選ぶ組合せの数）。

次に、それぞれのプローブの組合せについて回帰分析および交差検証を行った。回帰分析においても交差検証においても、閾値としては、ＲＯＣ曲線のＡＵＣ＝０．９５を用い、ＡＵＣが０．９５より大きいプローブの組合せを探索した。この時点でプローブの組合せ数は、１６９７６５通りから１６９２６通りに絞り込まれた。

続いて、それぞれのプローブの組合せについて、ネットワーク構造を生成し、説明変数の妥当性チェックを行った。妥当性のチェックは、ネットワーク構造内の全リンク数と、説明変数と目的変数とをつなぐリンク数とを比較し、両者が等しい場合に合格とした。その結果、プローブの組合せ数は、１６９２６通りから４５３通りに絞り込まれた。

最後に、得られたプローブの組合せをテストデータに適用して、ＡＵＣ＝０．８５を超えるプローブの組合せを抽出した結果、４５３通りから１１通りのプローブの組合せが残ったので、これを分子マーカーとし、１１個の予測式を生成した。

次の表は、予測式で用いられる１１個のプローブを示す図である。なお、ここでは予測式自体の記載は省略している。

例えば、Ｎｏ．１の予測式には３個のプローブが含まれ、その内容は、「cg00482898」「cg13695646」「cg15441831」である。このプローブの組合せは、トレーニングデータに対する回帰分析のＡＵＣは１．０００、交差検証のＡＵＣは０．９５３、説明変数から目的変数へのリンクが３本、全体のリンクが３本であり、テストデータに対するＡＵＣは、０．９１７であった。表に示すように、１１個の予測式は、わずか９個のプローブの３〜５個の組合せによって構成されている。

次に、求めた１１個の予測式を用いて、テストデータについてＤＣＭとｄ−ＨＣＭの診断を行った結果を以下に示す。

この表の左端の「Disease Type」は患者の有する疾患を示しており、正解のデータである。「No. of classifiers predicted as DCM」は１１個の予測式のうち、何個の予測式がＤＣＭと判定したかを示し、「No. of classifiers predicted as D-HCM」は、何個の予測式がｄ−ＨＣＭと判定したかを示す。ＤＣＭと判定した予測式の数とｄ−ＨＣＭと判定した予測式の数といずれか多かったかにより、多数決によってＤＣＭかｄ−ＨＣＭかを区別し、その判定結果を右端の「Judgment」に示している。欄外に記載した「〇」は、判定結果が正解であったことを示す。なお、「Fraction of correct prediction classifiers(%)」は判定の確からしさを示す。この表に示すように、１３例のすべての症例についてＤＣＭとｄ−ＨＣＭを正しく区別することができた。

（比較例）
次表に示すように、説明変数から目的変数へのリンク数よりも総エッジ数の方が多い予測式を用いて比較実験を行った。

結果は、次表に示すように１３例のうち正解数は３例であり、正解率が低かった。

（実施例２）ＶＡＳによる治療の効果を予測する分子マーカー
実施例では、国立循環器病研究センター／創薬オミックス研究センターが公開しているデータを使った。
ＤＣＭの患者２２名について、メチル化データを取得すると共に、ＶＡＳによる治療を行う前後の臨床情報を取得した。オミックス情報のうち、１５名のオミックス情報及び臨床情報をトレーニングデータ、７名のオミックス情報及び臨床情報をテストデータとして用いた。

患者のメチル化データから３１個の遺伝子をシグネチャ分子として抽出し、その３１個の遺伝子のＤＮＡメチル化を検出する３７０のプローブから、４９のプローブを分子マーカーの候補として選択した。

４９プローブから１〜５個のプローブの組合せを選んだ。この時点でプローブの組合せ数は２１３８４０９通りであった（４９個から１、２、・・・５個を選ぶ組合せの数）。

次に、それぞれのプローブの組合せについて回帰分析および交差検証を行った。回帰分析において、ＲＯＣ曲線のＡＵＣ＝０．９５を用い、交差検証についてはＲＯＣ曲線のＡＵＣが０．９０より大きいプローブの組合せを探索した。この時点でプローブの組合せ数は、２１３８４０９通りから２１８４７５通りに絞り込まれた。

続いて、それぞれのプローブの組合せについて、ネットワーク構造を生成し、説明変数の独立性チェックを行った。独立性のチェックは、ネットワーク構造内の全リンク数と、説明変数と目的変数とをつなぐリンク数とを比較し、両者が等しい場合に合格とした。その結果、プローブの組合せ数は、２１８４７５通りから１７７通りに絞り込まれた。

最後に、得られたプローブの組合せをテストデータに適用して、ＡＵＣ＝０．８０を超えるプローブの組合せを抽出した結果、１７７通りから２２通りのプローブの組合せが残ったので、これを分子マーカーとし、２２個の予測式を生成した。

次の表は、予測式に用いられる２２個のプローブを示す図である。なお、予測式自体の記載は省略している。

例えば、Ｎｏ．１の予測式は、説明変数が「cg22705746」のプローブと、治療前のＬＶＤｄとＬＡＤである。このプローブの組合せは、トレーニングデータに対する回帰分析のＡＵＣは１．０００、交差検証のＡＵＣは０．９２５、説明変数から目的変数へのリンクが３本、全体のリンクが３本であり、テストデータに対するＡＵＣは、０．８６７であった。表に示すように、２２個の予測式は、１１個のプローブの１〜３個とＬＶＤｄとＬＡＤとの組合せによって構成されている。

次に、求めた２２個の予測式を用いて、テストデータについて治療の効果（回復（Ｒ）、回復せず（ＮＲ））を予測した結果を以下に示す。

この表の左端の「Patient」は患者のＩＤを示し、その右側の「Recovery Rate」は回復率であり、治療の効果を示している。これが正解のデータである。「No. of classifiers predicted as recovery」は２２個の予測式のうち、何個の予測式が「回復する」と判定したかを示し、「No. of classifiers predicted as no recovery」は、何個の予測式が「回復しない」と判定したかを示す。「回復する」と判定した予測式の数と「回復しない」と判定した予測式の数といずれか多かったかにより、多数決によって治療の効果を予測し、その結果を右端の「Judgment」に示している。なお、「Fraction of correct prediction classifiers(%)」は判定の確からしさを示す。この表に示すように、８例のうちの７例において治療の効果を正しく予測することができた。

結果は、次表に示すように８例のうち正解数は４例であり、正解率が低かった。

本発明は、分子マーカーを探索する装置等として有用である。

１，２分子マーカー探索装置
１１入力部
１２制御部
１３出力部
１４オミックス情報ＤＢ
１５臨床情報ＤＢ

Claims

複数の患者のオミックス情報を取得するステップと、
疾患を目的変数とし、前記オミックス情報に含まれる分子情報の中から、所定の閾値以上の精度で前記目的変数を説明する説明変数の組合せを１組以上求めるステップと、
各説明変数の組合せについて、前記目的変数および前記説明変数をノードとし、各ノード間の偏相関に基づいてネットワーク構造を生成し、前記ネットワーク構造に含まれる全リンク数と、前記目的変数と前記説明変数とをつなぐリンク数が等しい場合に、前記説明変数の組合せを分子マーカーとして決定するステップと、
を備える分子マーカー探索方法。
複数の患者のオミックス情報と、治療前の臨床情報と、疾患に対する治療の効果の情報とを取得するステップと、
前記治療の効果を目的変数とし、前記オミックス情報に含まれる分子情報の中から、前記治療前の臨床情報と共に前記目的変数を説明する説明変数を選択して、所定の閾値以上の精度で前記目的変数を説明する説明変数の組合せを１組以上求めるステップと、
各説明変数の組合せについて、前記目的変数および前記説明変数をノードとし、各ノード間の偏相関に基づいてネットワーク構造を生成し、前記ネットワーク構造に含まれる全リンク数と、前記目的変数と前記説明変数とをつなぐリンク数が等しい場合に、前記説明変数の組合せを分子マーカーとして決定するステップと、
を備える分子マーカー探索方法。
前記説明変数の組合せを求めるステップは、回帰分析または機械学習によって説明変数の組合せを求める請求項１または２に記載の分子マーカー探索方法。
前記説明変数の組合せを求めるステップでは、疾患に特有の複数のシグネチャ分子を説明変数の候補とし、前記複数のシグネチャ分子の中から任意の個数のシグネチャ分子を順次選択して、前記目的変数を所定の閾値以上の精度で説明できるか否かを検証する請求項１乃至３のいずれかに記載の分子マーカー探索方法。
取得した患者のオミックス情報に基づいて、前記オミックス情報として、遺伝子のメチル化レベル情報、ｍＲＮＡの発現情報、及びタンパク質の発現情報のいずれを用いるかを決定するステップを備える請求項１乃至４のいずれかに記載の分子マーカー探索方法。
複数の患者のオミックス情報を入力する入力部と、
前記オミックス情報に基づいて分子マーカーを探索する制御部と、を備え、
前記制御部は、
疾患を目的変数とし、前記オミックス情報に含まれる分子情報の中から、所定の閾値以上の精度で前記目的変数を説明する説明変数の組合せを１組以上求め、
各説明変数の組合せについて、前記目的変数および前記説明変数をノードとし、各ノード間の偏相関に基づいてネットワーク構造を生成し、前記ネットワーク構造に含まれる全リンク数と、前記目的変数と前記説明変数とをつなぐリンク数が等しい場合に、前記説明変数の組合せを分子マーカーとして決定する、分子マーカー探索装置。
複数の患者のオミックス情報と、治療前の臨床情報と、治療の効果の情報とを入力する入力部と、
前記オミックス情報、臨床情報、及び治療の効果に基づいて分子マーカーを探索する制御部と、を備え、
前記制御部は、
前記治療の効果を目的変数とし、前記オミックス情報に含まれる分子情報の中から、前記治療前の臨床情報と共に前記目的変数を説明する説明変数を選択して、所定の閾値以上の精度で前記目的変数を説明する説明変数の組合せを１組以上求め、
各説明変数の組合せについて、前記目的変数および前記説明変数をノードとし、各ノード間の偏相関に基づいてネットワーク構造を生成し、前記ネットワーク構造に含まれる全リンク数と、前記目的変数と前記説明変数とをつなぐリンク数が等しい場合に、前記説明変数の組合せを分子マーカーとして決定する、分子マーカー探索装置。
コンピュータに、
複数の患者のオミックス情報を取得するステップと、
疾患を目的変数とし、前記オミックス情報に含まれる分子情報の中から、所定の閾値以上の精度で前記目的変数を説明する説明変数の組合せを１組以上求めるステップと、
各説明変数の組合せについて、前記目的変数および前記説明変数をノードとし、各ノード間の偏相関に基づいてネットワーク構造を生成し、前記ネットワーク構造に含まれる全リンク数と、前記目的変数と前記説明変数とをつなぐリンク数が等しい場合に、前記説明変数の組合せを分子マーカーとして決定するステップと、
を実行させるプログラム。
コンピュータに、
複数の患者のオミックス情報と、治療前の臨床情報と、治療の効果の情報とを取得するステップと、
前記治療の効果を目的変数とし、前記オミックス情報に含まれる分子情報の中から、前記治療前の臨床情報と共に前記目的変数を説明する説明変数を選択して、所定の閾値以上の精度で前記目的変数を説明する説明変数の組合せを１組以上求めるステップと、
各説明変数の組合せについて、前記目的変数および前記説明変数をノードとし、各ノード間の偏相関に基づいてネットワーク構造を生成し、前記ネットワーク構造に含まれる全リンク数と、前記目的変数と前記説明変数とをつなぐリンク数が等しい場合に、前記説明変数の組合せを分子マーカーとして決定するステップと、
を実行させるプログラム。