JP7021097B2

JP7021097B2 - 疾患の罹患判定装置、疾患の罹患判定方法及び疾患の罹患判定プログラム

Info

Publication number: JP7021097B2
Application number: JP2018547221A
Authority: JP
Inventors: 大輔岡野原; 健太大野; 信行大田; カリームハムザウイ; 拓哉秋葉
Original assignee: Preferred Networks Inc
Current assignee: Preferred Networks Inc
Priority date: 2016-10-31
Filing date: 2017-10-31
Publication date: 2022-02-16
Anticipated expiration: 2037-10-31
Also published as: RU2019116786A3; JPWO2018079840A1; US20190267113A1; JP7411619B2; RU2019116786A; JP2018077814A; EP3534281A4; EP3534281A1; CN109923614A; RU2765695C2; JP6280997B1; JP2022024092A; WO2018079840A1

Description

本発明は、ｍｉＲＮＡの発現量のデータを用いてニューラルネットワークで学習させることで疾患の罹患判定を行い、かつ、疾患について特徴的なバイオマーカーとなるｍｉＲＮＡをニューラルネットワークによって抽出するための技術に関するものである。

従来、生体由来の試料中のｍｉＲＮＡ（ｍｉｃｒｏＲＮＡ（マイクロＲＮＡ）のことをいう）の発現量に着目した疾患の診断手法が提案されている。ｍｉＲＮＡとは、２１－２５塩基長の１本鎖ＲＮＡ分子からなる機能性核酸のことであり、自分自身と相補的な標的部位をもつ様々な遺伝子の翻訳を抑制する働きがあり、細胞の発生、分化、増殖、細胞死などの基本的な生物学的機能を制御しているものとして知られている。ヒトのｍｉＲＮＡとしては、現在２５００種類以上が発見されている。これら膨大な種類が存在するｍｉＲＮＡのうち、特定の疾患の罹患者と非罹患者との間でｍｉＲＮＡの発現量に変化が生じることに着目して、その疾患の診断、早期発見に利用しようという研究が行われている。

ｍｉＲＮＡを利用して特定の疾患の診断を行うものとしては、例えば、特許文献１が挙げられる。この特許文献１においては、特定のｍｉＲＮＡを下咽頭がんのバイオマーカーとして使用する方法、下咽頭がんの判定方法、下咽頭がんの判定キット等が提案されている。

特開２０１１－７２２２９号公報

特許文献１では、下咽頭がん組織のｍｉＲＮＡと下咽頭正常組織のｍｉＲＮＡとを対比し、特定のｍｉＲＮＡが下咽頭がん組織において異常発現していることを見出し、その特定のｍｉＲＮＡをバイオマーカーとして下咽頭がんの診断に利用することとしている。このように、従来のｍｉＲＮＡを利用した診断は、ある疾患に関連したｍｉＲＮＡを発見して利用するものとなっており、実際の診断においても、疾患に関連したｍｉＲＮＡの発現量に基づいて診断が行われることになる。

疾患に関連したｍｉＲＮＡのみに着目して診断を行う方法においてもある程度の精度で診断を行うことができるが、問題となるのは、着目したｍｉＲＮＡの値については陽性と診断できるほどの有意な差は現れていなくとも実際には疾患について陽性である場合が存在するということである。着目したｍｉＲＮＡの値についてどこかで閾値を設けて診断を行う必要があるので仕方のないことであるが、少数のｍｉＲＮＡのみに着目して診断を行うときに発生する問題であるといえる。しかし、同じ手法を用いて膨大なｍｉＲＮＡの全データを診断に用いるのは容易ではないという問題があった。

また、特許文献１においては、下咽頭がん組織のｍｉＲＮＡと下咽頭正常組織のｍｉＲＮＡとを対比することで特定のｍｉＲＮＡを抽出しており、このような実際の疾患組織を対比する方法で特徴的ｍｉＲＮＡを発見する方法は有効ではある。しかし、個々のｍｉＲＮＡの発現量を比較したときにその差が有意な差であるか否かを人間が判断する方法では、２５００種類以上もあるｍｉＲＮＡの発現量のデータ全てを有効活用して診断精度を向上させることは不可能であった。

本発明は、上記問題点に鑑みなされたものであり、ｍｉＲＮＡ等のバイオマーカーの発現量のデータを用いてニューラルネットワークで学習させることで疾患の罹患判定が可能な疾患の罹患判定手法を提供し、かつ、疾患について特徴的なバイオマーカーをニューラルネットワークによって抽出可能な疾患の特徴抽出手法を提供することを目的とする。

本発明に係る疾患の罹患判定装置は、ヒト由来の試料における複数種類のｍｉＲＮＡを含むバイオマーカーそれぞれの発現量を含むサンプルデータを取得するサンプルデータ取得部と、訓練データを用いて機械学習を行って予め得た疾患の罹患を判定可能な学習済モデルと、前記学習済モデルを用いて各バイオマーカーの重要度に基づいてサンプルデータについて罹患判定を行う罹患判定部、を具備してなることを特徴とする。

本発明に係る疾患の罹患判定装置は、ヒト由来の試料における複数種類のｍｉＲＮＡを含むバイオマーカーそれぞれの発現量を含むサンプルデータを取得するサンプルデータ取得部と、訓練データを用いて機械学習を行って予め得た疾患の罹患を判定可能な学習済モデルと、前記学習済モデルに対してサンプルデータを入力して、各バイオマーカー毎の重要度を数値化する重要度算出部と、該重要度からサンプルデータについて罹患判定を行う罹患判定部、を具備してなることを特徴とする。

また、本発明に係る疾患の罹患判定装置は、前記重要度に基づいて当該疾患に関する特徴的なバイオマーカーを抽出する特徴抽出部を具備し、抽出した特徴的なバイオマーカーのみで疾患判定を行う場合における該特徴的なバイオマーカー毎の重要度である特徴重要度に基づいて罹患判定を行うことを特徴とする。

また、本発明に係る疾患の罹患判定装置は、前記重要度に基づいて当該疾患に関する特徴的なバイオマーカーを抽出する特徴抽出部と、抽出した特徴的なバイオマーカーのみで疾患判定を行う場合における該特徴的なバイオマーカー毎の重要度である特徴重要度を数値化する特徴重要度算出部と、を具備し、前記罹患判定部が該特徴重要度から罹患判定を行うことを特徴とする。

また、本発明に係る疾患の罹患判定装置は、前記重要度算出部が、サンプルデータ毎に学習済モデルを用いてｉ番目のサンプルデータに関する損失関数Ｌ_ｉを演算する処理と、損失関数の値Ｌ_ｉを起点として誤差逆伝播を行い、サンプルｉの複数種類のバイオマーカーのそれぞれに対応する特徴ｘ_ｊに関する勾配ｇ_ｉｊ＝∂Ｌ_ｉ／∂ｘ_ｊを計算する処理と、全てのサンプルについての勾配の和の絶対値をその特徴の重要度Ｓ_ｊ＝｜Σ_｛ｉ｝ｇ_ｉｊ｜として求める処理とによって、バイオマーカーそれぞれの特徴の重要度を数値化する

また、本発明に係る疾患の罹患判定装置は、前記訓練データは、前記サンプルデータに対して各個人が疾患に罹患しているか否かのラベル情報を付したものであることを特徴とする。

また、本発明に係る疾患の罹患判定装置は、前記学習済モデルの生成は、前記訓練データの特徴ベクトルの各次元について訓練データ全体に渡る平均が０、分散が１になるように各次元を一次変換する白色化処理を行ってから学習を行うようにしたことを特徴とする。

本発明に係る疾患の罹患判定方法は、ヒト由来の試料における複数種類のｍｉＲＮＡを含むバイオマーカーそれぞれの発現量を含むサンプルデータを取得するサンプルデータ取得手順と、訓練データを用いて機械学習を行って予め得た疾患の罹患を判定可能な学習済モデルを生成する学習済モデル生成手順と、前記学習済モデルを用いて各バイオマーカーの重要度に基づいてサンプルデータについて罹患判定を行う罹患判定手順と、を含むことを特徴とする。

本発明に係る疾患の特徴抽出装置は、ヒト由来の試料における複数種類のｍｉＲＮＡを含むバイオマーカーのそれぞれ発現量を個人毎に記録したサンプルデータを取得するサンプルデータ取得部と、訓練データを用いて機械学習を行って予め得た疾患の罹患を判定可能な学習済モデルからなる罹患判定部と、前記罹患判定部に対して、疾患に罹患したラベル情報の付された複数のサンプルデータを入力してそれぞれ罹患判定をさせ、各サンプルデータ毎に罹患判定の演算によって学習済モデルで得られる複数のバイオマーカーそれぞれの特徴の重要度を数値化し、各バイオマーカー毎に複数のサンプルデータの重要度の数値に基づいて所定数のバイオマーカーを当該疾患に関する特徴的なバイオマーカーとして抽出する特徴抽出部とを具備する。

本発明に係る疾患の特徴抽出方法は、ヒト由来の試料における複数種類のｍｉＲＮＡを含むバイオマーカーのそれぞれ発現量を個人毎に記録したサンプルデータを取得するサンプルデータ取得手順と、訓練データを用いて機械学習を行って予め得た疾患の罹患を判定可能な学習済モデルを生成する学習済モデル生成手順と、前記学習済モデルに対して、疾患に罹患したラベル情報の付された複数のサンプルデータを入力してそれぞれ罹患判定をさせ、各サンプルデータ毎に罹患判定の演算によって学習済モデルで得られる複数のバイオマーカーそれぞれの特徴の重要度を数値化し、各バイオマーカー毎に複数のサンプルデータの重要度の数値に基づいて所定数のバイオマーカーを当該疾患に関する特徴的なバイオマーカーとして抽出する特徴抽出手順とを含むことを特徴とする。

本発明によれば、ニューラルネットワークによる学習の過程でパラメータの更新を行いながら機械学習を行うことで学習済みモデルを生成する。故に、予め人間が疾患に関連したｍｉＲＮＡの存在を認識していなくとも、罹患判定を高い精度で行うことができる。

さらに、本発明によれば、従来の試験方法では判定が困難であった、悪性腫瘍と良性腫瘍の判定を高い精度で行うことができる。

また、本発明によれば、生成した学習済モデルに対して罹患者のラベル情報の付された複数のサンプルデータを入力して罹患判定の演算を行い、演算過程でサンプルデータの重要度を求め、全サンプルデータの重要度の和の絶対値を求めて、重要度の和の絶対値に基づいてサンプルデータの特徴をランク付けして上位から所定数の特徴に該当するバイオマーカーをその疾患に関する特徴的バイオマーカーとして抽出するようにしたので、その疾患の罹患判定において重要なｍｉＲＮＡを特徴的ｍｉＲＮＡとして抽出することが可能となる。抽出した特徴的バイオマーカーを用いることで、罹患判定の精度を向上させつつ、コンピュータに要求される処理能力を低減でき、かつ演算処理速度を向上させることができる。

本発明に係る疾患の特徴抽出装置１０の構成を表したブロック図である。ニューラルネットワークにおける学習の概念を表した説明図である。疾患の特徴抽出装置１０における学習処理の流れを表したフローチャート図である。疾患の特徴抽出装置１０における特徴抽出処理の流れを表したフローチャート図である。様々な疾患について本発明を適用した場合の罹患判定精度を表した表である。スタッキングの手法を採用した疾患の罹患判定装置２２の構成を表したブロック図である。

［第１の実施の形態］
以下、図面を参照しながら、第１の実施の形態に係る疾患の特徴抽出装置の例について説明する。図１は、本発明に係る疾患の罹患判定装置１０の構成を表したブロック図である。なお、疾患の罹患判定装置１０は、専用マシンとして設計した装置であってもよいが、一般的なコンピュータによって実現可能なものであるものとする。この場合に、データ圧縮装置１０及びデータ再現装置２０は、一般的なコンピュータが通常備えているであろうＣＰＵ（Central Processing Unit：中央演算処理装置）、ＧＰＵ（Graphics Processing Unit：画像処理装置）、メモリ、ハードディスクドライブ等のストレージを具備しているものとする（図示省略）。また、これらの一般的なコンピュータを本例の疾患の罹患判定装置１０として機能させるためにプログラムよって各種処理が実行されることは言うまでもない。

疾患の罹患判定装置１０は、サンプルデータ取得部１１と、罹患判定部１２と、特徴抽出部１３と、記憶部１４とを少なくとも備えている。

サンプルデータ取得部１１は、ヒト由来の試料における複数種類のｍｉＲＮＡを含むバイオマーカーのそれぞれ発現量を個人毎に記録したサンプルデータを取得する機能を有する。ヒト由来の試料とは、血液、体液、細胞の培養液などｍｉＲＮＡ等のバイオマーカーを含み得る人間由来の試料をいう。これらの試料からｍｉＲＮＡ等のバイオマーカーを検出する手法はどのようなものであってもよいが、検出可能なｍｉＲＮＡ等のバイオマーカーを可能な限り全て検出可能な手法であるとなお好ましい。バイオマーカーの検出装置を疾患の特徴抽出装置１０に内蔵する構成であってもよいし、外部において検出したサンプルデータを通信ネットワークを介してサンプルデータ取得部１１で取得する構成であってもよい。個人毎のサンプルデータは、例えば、２５００種類以上のｍｉＲＮＡのデータ項目を有し、各ｍｉＲＮＡの項目は、単位体積あたりの発現量を表す数値データによって構成されているものとする。

罹患判定部１２は、訓練データを用いて機械学習を行って予め得た疾患の罹患を判定可能な学習済モデルからなり、学習済モデルを用いて個人のサンプルデータが疾患に罹患しているか否かの判定を行う機能を有する。訓練データとは、サンプルデータに対して疾患に罹患しているか否かのラベル情報を付したものをいう。学習済モデルの生成のためには、罹患者のサンプルデータと非罹患者のサンプルデータがそれぞれ複数あることが好ましい。なお、以下の説明においては、機械学習がニューラルネットワークによる学習である場合を例に説明を行うが、これに限定されず、様々な機械学習を適用し得る。

図２は、ニューラルネットワークにおける学習の概念を表した説明図である。この図２に示すように、ニューラルネットワークによる学習は、訓練データ（ラベル情報付サンプルデータ）を入力とし、罹患判定結果を出力として得られるように、ニューラルネットワークの構成を設定する。実際のニューラルネットワークによる学習は、例えば、損失関数を求める処理をニューラルネットワークにおいて行い、損失関数の値から疾患の罹患判定を行えるように学習するものが考えられる。入力データと判定結果との差からニューラルネットワークの各パラメータの修正を行い、判定精度を高めるように学習を行って、学習済モデルを得る。ここでいうニューラルネットは、例えば、Feedforward, CNN, VAE, GAN, AAEなどがある。

重要度算出部１８は、罹患判定部１２において学習済モデルを用いてサンプルデータについて罹患判定を行う場合に、サンプルデータにおける各バイオマーカーの値が罹患判定にどの程度影響するかの指針となる重要度を算出する機能を有する。重要度の算出は、後述する特徴抽出部１３における重要度の数値化と同じ手法である。なお、罹患判定部１２においてサンプルデータの罹患判定を行う場合、学習済モデルに対してサンプルデータを入力して疾患の罹患判定結果のみを出力する構成とすることも当然可能である。その場合であっても学習済モデルにおいては内部で重要度を算出して判定することになるが、重要度算出部１８として独立して機能しない場合も在り得る。すなわち、本発明において、罹患判定部１２において罹患判定を行うという場合には、罹患判定部１２の内部処理として重要度算出部１８が機能している場合を含むものとする。

特徴抽出部１３は、疾患に関する特徴的なバイオマーカーを抽出する機能を有する。特徴的なバイオマーカーとは、その疾患の罹患者と非罹患者を判定するために有効なバイオマーカーのことである。特徴的なバイオマーカーの抽出の方法は、罹患判定部１２において学習した学習済モデルに対して、疾患に罹患したラベル情報の付された複数のサンプルデータを入力してそれぞれ罹患判定をさせ、各サンプルデータ毎に罹患判定の演算によって学習済モデルで得られる複数のバイオマーカーそれぞれの特徴の重要度を数値化し、各バイオマーカー毎に複数のサンプルデータの数値化した特徴の和を求めて、和の値が大きいものから所定数のバイオマーカーを当該疾患に関する特徴的なバイオマーカーとして抽出するというものである。

より具体的には、特徴抽出部１３において、サンプルデータ毎に学習済モデルを用いてｉ番目のサンプルデータに関する損失関数Ｌ_ｉを演算する処理と、損失関数の値Ｌ_ｉを起点として誤差逆伝播を行い、サンプルｉの複数種類のバイオマーカーのそれぞれに対応する特徴ｘ_ｊに関する勾配ｇ_ｉｊ＝∂Ｌ_ｉ／∂ｘ_ｊを計算する処理と、全てのサンプルについての勾配の和の絶対値をその特徴の重要度Ｓ_ｊ＝｜Σ_｛ｉ｝ｇ_ｉｊ｜として求める処理とによって、バイオマーカーそれぞれの特徴の重要度を数値化して、重要度の大きい順にバイオマーカーをランク付けして、上位から所定数、例えば１００個を特徴的なバイオマーカーとして抽出する。

特徴重要度算出部１９は、特徴抽出部１３において特徴的バイオマーカーを抽出した場合に、その抽出したバイオマーカーのみを入力データの項目として採用して罹患判定を行う場合の各特徴的バイオマーカーの値が罹患判定にどの程度影響するかの指針となる特徴重要度を算出する機能を有する。重要度の大きい順にバイオマーカーをランク付けして、上位から所定数、例えば１００個を特徴的バイオマーカーとして抽出した場合には、１００個のバイオマーカーを入力として罹患判定を行う処理をニューラルネットワークによって学習させて、１００個の特徴的バイオマーカーの場合の学習済モデルを生成し、その学習済みモデルを用いて罹患判定部１２においてサンプルデータの罹患判定を行う場合、この特徴重要度算出部１９によって特徴重要度を算出して罹患判定を行う。前述の重要度算出部１８の場合と同様に、学習済モデルに対してサンプルデータを入力して疾患の罹患判定結果のみを出力する構成とすることも当然可能である。その場合であっても学習済モデルにおいては内部で特徴重要度を算出して判定することになるが、特徴重要度算出部１９として独立して機能しない場合も在り得る。すなわち、本発明において、罹患判定部１２において罹患判定を行うという場合には、罹患判定部１２の内部処理として特徴重要度算出部１９が機能している場合を含むものとする。

記憶部１４は、疾患の罹患判定装置１０において使用するデータ及び処理結果として得られたデータを記憶する機能を有する。具体的には、図１に示すように、サンプルデータ取得部１１において取得したサンプルデータ１５や、サンプルデータのうち疾患に罹患しているか否かのラベル情報が付された訓練データ１６や、訓練データを用いて機械学習によって生成された学習済モデル１７などが少なくとも記憶されている。

次に、本発明に係る疾患の罹患判定装置１０における処理の流れについて図面に基づいて説明する。図３は、疾患の罹患判定装置１０における学習処理の流れを表したフローチャート図である。疾患の罹患判定装置１０の罹患判定部１２において疾患の罹患判定を行うためには、予めニューラルネットワークで学習を行って学習済モデルを生成しておく必要がある。この学習済モデルの生成は罹患判定部１２において行ってもよいし、別途生成した学習済モデルを記憶部１４に格納した上で罹患判定部１２において利用するものであってもよい。

図３において、学習済モデルの生成は、先ず、訓練データを取得することによって開始される（ステップＳ１１）。また、必要に応じてテストデータも取得する。テストデータは、訓練データと同様に、疾患に罹患しているか否かのラベル情報が付されたサンプルデータであって、訓練データとは異なるサンプルデータである。取得した訓練データには、前処理を行う（ステップＳ１２）。前処理は、訓練データの特徴ベクトルの各次元について訓練データ全体に渡る平均が０、分散が１になるように各次元を一次変換する白色化処理を行う。次に、ニューラルネットワークの各パラメータについて初期化を行う（ステップＳ１３）。初期化の方法としては、例えば、各パラメータを乱数によって初期化する方法が考えられる。その後、初期化したニューラルネットワークに対して訓練データを入力して学習を実行する（ステップＳ１４）。罹患判定の判定結果と訓練データのラベル情報が一致するようにパラメータを適宜修正して判定精度を高めるように学習を行う。学習後、判定精度を測るために、テストデータを用いて交差検定を行うようにしてもよい（ステップＳ１５）。判定精度が担保された学習済モデルが得られた時点で学習を終了して、学習済モデルを出力して終了する（ステップＳ１６）。

図４は、疾患の罹患判定装置１０における特徴抽出処理の流れを表したフローチャート図である。図４において、疾患の特徴抽出は、先ず、罹患者であることを示すラベル情報の付された複数のサンプルデータを取得する（ステップＳ２１）。取得した複数のサンプルデータには、前処理を行う（ステップＳ２２）。前処理は、サンプルデータの特徴ベクトルの各次元についてサンプルデータ全体に渡る平均が０、分散が１になるように各次元を一次変換する白色化処理を行う。次に、学習済モデルに対してサンプルデータを入力して罹患判定の演算を実行する（ステップＳ２３）。罹患判定のための演算は、例えば、損失関数の演算である。各サンプルデータ毎に、サンプルデータの各特徴ごとに重要度を抽出する（ステップＳ２４）。重要度の抽出は、例えば、サンプルデータの各特徴に関する勾配を計算し、勾配の大きさを重要度として数値化する。そして、各特徴ごとに、全サンプルデータ分の重要度の和を計算する（ステップＳ２５）。重要度の和の絶対値が大きい順に特徴をランク付けし、上位から所定数を抽出する（ステップＳ２６）。抽出した特徴に該当するバイオマーカーをその疾患に関する特徴的バイオマーカーとして抽出して終了する（ステップＳ２７）。

以上のように、本発明に係る疾患の罹患判定装置１０によれば、複数種類（例えば、２５００種類以上）のｍｉＲＮＡのデータ項目を有する訓練データを用いてニューラルネットワークにおいて学習を行って学習済モデルを生成し、その学習済モデルを用いて疾患の罹患判定を行うようにしたので、ニューラルネットワークによる学習の過程で疾患の罹患判定に有意なｍｉＲＮＡについてはその発現量が判定に影響するようにパラメータの更新を行いながら学習がなされることになり、これにより、予め人間が疾患に関連したｍｉＲＮＡの存在を認識していなくともの罹患判定を精度良く行うことができる。

また、本発明に係る疾患の罹患判定装置１０によれば、生成した学習済モデルに対して罹患者のラベル情報の付された複数のサンプルデータを入力して罹患判定の演算を行い、演算過程でサンプルデータの各特徴の重要度を求め、各特徴ごとに全サンプルデータの重要度の和の絶対値を求めて、重要度の和の絶対値に基づいてサンプルデータの特徴をランク付けして上位から所定数の特徴に該当するバイオマーカーをその疾患に関する特徴的バイオマーカーとして抽出するようにしたので、その疾患の罹患判定において重要なｍｉＲＮＡを特徴的ｍｉＲＮＡとして抽出することが可能となる。

特徴的バイオマーカーを抽出するメリットとしては、罹患判定の精度を維持しつつ、コンピュータに要求される処理能力を低減でき、かつ演算処理速度を向上させることができるという点である。具体的には、例えば、２５００種類以上のｍｉＲＮＡの発現量のデータに基づいて学習を行った学習済モデルは非常に精度の高い罹患判定が行える半面、演算処理のためのコンピュータに非常に高い処理能力が要求され、かつ演算処理時間も長く必要となる。そこで、特徴的ｍｉＲＮＡを重要度に基づいて例えば上位１００個抽出して、上位１００個のｍｉＲＮＡをデータ項目としたサンプルデータでニューラルネットワークによる学習を行って学習済モデルを生成して、その学習済モデルで罹患判定を行えば、２５００種類に基づく罹患判定の場合と遜色のない精度で罹患判定を行え、しかも演算処理のためのコンピュータの処理能力を下げることができ、かつ演算処理時間も短縮できるというメリットがある。

一例として、精度向上の例を挙げると、５種類のｍｉＲＮＡを用いた従来の乳癌の診断方法では、診断の精度が８９％であったのに対して、２５００種類のｍｉＲＮＡを用いた本発明に係る罹患判定手法によれば、９９．６％の精度で乳癌の診断が可能となっており、非常に精度が向上していることが分かる。

また、２５００種類のｍｉＲＮＡを用いた本発明に係る特徴抽出装置によって抽出した上位１００種類の特徴的ｍｉＲＮＡを用いた罹患判定手法によれば、９９．５７％の精度で乳癌の診断が可能であり、２５００種類のｍｉＲＮＡを用いた場合と比較しても遜色のない精度で罹患判定を行うことが可能となっている。

［第２の実施の形態］
第１の実施の形態においては、疾患の罹患判定のための演算として損失関数Ｌ_ｉを求める演算を採用し、損失関数Ｌ_ｉの各特徴の勾配を特徴抽出のための重要度とするものとして説明を行った。しかし、この例に限定されるものではなく、他の例について、この第２の実施の形態で説明を行う。

この第２の実施の形態では、Local Interpretable Model-agnostic Explanations （LIME）によって線形分類器を学習するようにし、その過程で重要度を求めるようにする。訓練データを入力とし、学習済モデルとしての線形分類器を出力として得るための学習である。各訓練データごとに、訓練済予測器を近似する線形学習器を学習する。この場合、サンプルデータにノイズを加えて人工的な特徴ベクトルを複数作成し、訓練済の予測器に人工特徴ベクトルを与えて仮想ラベル（もしくはラベル上の確率分布）を得る。得られた人工特徴ベクトルと仮想ラベルを用いて線形分類器を学習するようにする。このようにして得られたラベルｙに関する線形分類器は、ｆ_ｉ（ｙ｜ｘ）＝Σ_ｊｗ_ｉｊｘ_ｊと表現できる。この線形分類器から、重要度Ｓ_ｊを計算する。例えば、Ｓ_ｊ＝｜Σ_ｉｗ_ｉｊ｜のように計算する。このようにして得られた重要度Ｓ_ｊに基づいてランク付けを行って、疾患に関して特徴的なバイオマーカーを抽出するようにする。

以上のように、LIMEによる線形分類器を学習する手法を採用して重要度を演算するものであっても、精度良く罹患判定が行え、かつ、特徴的なバイオマーカーを抽出することが可能となる。

［第３の実施の形態］
特徴抽出のための演算は、layer-wise relevance propagation（LRP）による演算で各特徴の重要度を求めるものであってもよい。ただし、この手法においては、予測器が、（１）分岐のないニューラルネットワークであること、（２）予測器に用いるニューラルネットワーク内の層のうち、次元の入出力で次元が異なる層は全結合層のみであること、（３）ラベルの種類の数ｋに応じたｋ次元のベクトルを出力し、ｉ番目の出力はｉ番目の予測確率を表すものであること、との３つの性質を備えていることを仮定する。

各サンプルデータｉ、各特徴ｊごとに、重要度Ｓ_ｉｊを演算する。演算は、先ず、訓練済のニューラルネットワークにサンプルデータｉの特徴を与えて順伝播を行う。出力部から逆順に層を渡っていき、各層における重要度を表す重要度ベクトルＲを帰納的に計算する。計算を進める順番は誤差逆伝播法と同様であるが、各層で実際に行う計算は異なる。入力部での重要度ベクトルＲ（誤差逆伝播法と同様に、これは入力の特徴ベクトルと同次元となる）のｊ番目の値を特徴ｊに対する重要度Ｓ_ｉｊと定義する。全サンプルデータについて演算が終了した後に、各特徴ｊの重要度Ｓ_ｊを、例えば、Ｓ_ｊ＝｜Σ_ｉＳ_ｉｊ｜のように計算する。このようにして得られた重要度Ｓ_ｊに基づいてランク付けを行って、疾患に関して特徴的なバイオマーカーを抽出するようにする。

以上のように、LRPによる予測器を学習する手法を採用して重要度を演算するものであっても、精度良く罹患判定が行え、かつ、特徴的なバイオマーカーを抽出することが可能となる。

第１から第３の実施の形態においては、バイオマーカーとしてｍｉＲＮＡを用いた例について説明を行ったが、ヒト由来の試料においてその発現量を検出して数値化できるものであれば、どのようなものであってもバイオマーカーとなり得る。本発明の特徴は、疾患に対してどのようなバイオマーカーが作用しているかを認識せずとも罹患判定に利用できる点が最大の特徴であるから、数値化できるバイオマーカーであれば、ｍｉＲＮＡに限らず問題なく採用することが可能である。

第１から第３の実施の形態においては、特徴的なバイオマーカーを抽出する演算として、バイオマーカーに対応した各特徴ごとに複数のサンプルデータの重要度の和の絶対値を求める演算を行っていたが、本発明はこれに限定されるものではない。例えば、バイオマーカーに対応した特徴ごとに、複数のサンプルデータの中で重要度の値が最大値となる値をその特徴の重要度として抽出し、抽出した特徴ごとの重要度（最大値）を比較して、重要度の値の大きいものから上位所定数のバイオマーカーをその疾患に関する特徴的なバイオマーカーとして抽出するようにしてもよい。

第１から第３の実施の形態において説明した疾患の特徴抽出装置１０による罹患判定及び特徴抽出は、例示した乳癌に限らず、様々な癌の診断に適用可能であることは勿論のこと、癌以外の様々な疾患に対して当然に適用可能である。

［第４の実施の形態］
第１の実施の形態において説明したように、本発明は、様々な疾患の罹患判定に対して適用可能である。図５は、様々な疾患について本発明を適用した場合の罹患判定精度を表した表である。図５においては、各疾患に罹患した患者と健常者のサンプルデータから機械学習を行い、複数のがん種における罹患判定を行うことが可能な学習済モデルを用いて、罹患判定を行なった場合の結果を示すものである。ここでは一例として、学習用のサンプルデータとして特定のがん種に罹患した患者のサンプルデータと、健常者のサンプルデータを複数用いて行う場合を説明する。ここで、特定のがん種に罹患した患者のサンプルデータとは、例えば「乳がんに罹患した患者のサンプルデータ」や「前立腺がんに罹患した患者のサンプルデータ」などであり、一つのサンプルデータには１種類のがん種のラベルが付与されているものとする。ここでは、乳がんや前立腺がんなど、複数のがん種を疾患群としてあらかじめ定めておき、その疾患群のいずれか疾患に罹患しているかどうか、または、その疾患群で定めた疾患のいずれにも罹患していないか、ということを判断するために、その疾患群で定めた疾患に罹患した患者と、その疾患群で定めた疾患のいずれにも罹患していない患者のサンプルデータを用いる。
疾患群で定めた疾患のいずれにも罹患していない患者は、健常者として扱われ、この場合はがん種を示すラベルは付与されておらず、代わりに健常者であることを示すラベルが付与されているものとする。（健常者を示すラベルを別途付与せずに、がん種を示すラベルが付与されていない場合に、これを健常者のサンプルデータとして判断しても良いが、ここでは説明を簡略化するため、健常者の場合は、がん種を示すラベルは付与されず、代わりに健常者を示すラベルが付与されているものとする。）
この機械学習の結果、得られた学習済みモデルを使って、特定の患者のサンプルデータの罹患判定を行うと、「乳がんの罹患有無、前立腺がんの罹患有無、膵がんの罹患有無・・・」など複数がんの罹患の有無がそれぞれ独立して排他的に判定され、そのうちのいずれか一つのがん種について罹患有りと判定される。例えば、次の３つのがんについて「乳がんの罹患率が70%、前立腺がんの罹患率が20%、前立腺がんの罹患率が10%、健常者である確率0%」と判断されたとすると、この患者については最も罹患率が高い乳がんに罹患していると判断した結果を出力する。一方、例えば、「乳がんの罹患率が10%、前立腺がんの罹患率が5%、前立腺がんの罹患率が5%、健常者である確率が80%」と判断された場合は、これらのうち最も確率が高い健常者として判断する。このような手法は一般的にはマルチクラスといい、上記の判断結果それぞれを合計すると100%になる。このような方法でそれぞれのがん種および良性疾患について判断した判定精度を一覧にまとめたものが図５となる。なお良性疾患と悪性疾患についての詳細は後述する。
この図５における判定に用いたトータルのサンプル数は約５０００程度となっている。この図５に示すように、健常者についての判定精度は９９．７９％、乳がんについての判定精度は９９．７２％、乳良性疾患についての判定精度は１００％、前立腺がんについての判定精度は９９．１６％、前立腺良性疾患についての判定精度は９９．１６％、膵がんについての判定精度は９９．１０％、胆道がんについての判定精度は９９．０６％、大腸がんについての判定精度は９９．６１％、胃がんについての判定精度は９９．６１％、食道がんについての判定精度は９９．７０％、肝がんについての判定精度は９９．８５％、膵胆良性疾患についての判定精度は９９．７４％となっており、様々な疾患について非常に高い精度で罹患判定を行うことが可能となっている。

また、本発明の特徴として、悪性疾患のみならず良性疾患についても罹患判定を行えることが挙げられる。図５に示すように、乳がんと乳良性疾患、前立腺がんと前立腺良性疾患、膵がん及び胆道がんと膵胆良性疾患の関係は、悪性疾患と良性疾患の関係にある。すなわち、疾患の罹患判定装置において、悪性疾患と良性疾患の関係にある複数の疾患についてそれぞれ学習を行い、これらについて同時に判定するようにすれば、悪性疾患であるか良性疾患であるかについても判定することが可能となるという効果がある。例えば、乳がんと乳良性疾患を判定可能なように、それぞれの疾患に罹患しているか否かのラベル情報が付された訓練データを複数用いて、乳がんと乳良性疾患を両方とも判定可能な学習済モデルを生成する。この学習済モデルを用いて罹患判定を行うようにすれば、乳がんと乳良性疾患を高精度に区別して判定することが可能となる。これにより、悪性と良性を正確に見分けることができる。例えば、乳がんではこれまでのいかなる診断法でも、良性と悪性を見分けることが見分けることがとても難しく、特に早期においては、不可能となっていた。そのため、良性の可能性があっても乳房を切除したりしていたという問題があった。しかし本発明による疾患の罹患判定によれば、良性と悪性を見分けることで、良性の可能性があるものを切除したりせずに適切な処置をすることが可能となる。この点は、患者のQOLに与える影響が多大であり画期的な発明であるといえる。

複数の疾患について同時に罹患判定するための罹患判定装置とするためには、学習済モデルの生成のための訓練データとして、複数の疾患の何れかに罹患したラベル情報の付されたサンプルデータを複数用意する。例えば、図５に示す、健常、乳がん、乳良性疾患、前立腺がん、前立腺良性疾患、膵がん、胆道がん、大腸がん、胃がん、食道がん、肝がん、膵胆良性疾患の１１種類の疾患と健常であることを示す１種の合計１２種類について同時に罹患判定するための学習済モデルを生成するためには、１１種類の疾患の何れかに罹患した患者のサンプルデータであって、１１種類の疾患についてのラベル情報を付されたサンプルデータを複数用意する。また、１１種の疾患については罹患していない健常のラベル項目にのみラベル情報の付された健常の患者のサンプルデータも複数用意する。ラベル情報を「０」、「１」のフラグで表現すると仮定すると、乳がんに罹患している患者のサンプルデータは乳がんのラベル項目部分のみ「１」で他の１０種の疾患のラベル項目部分は全て「０」となる。

このようにして用意した１１種類の疾患についてのラベル情報を付された複数のサンプルデータ、及び、１１種の疾患については罹患していない健常のラベル項目にのみラベル情報の付された健常の患者の複数のサンプルデータを用いて、ラベル情報と同じ罹患判定結果を出力可能となるように学習を行って学習済モデルを得る。学習処理においては、例えばニューラルネットワークの場合には、ニューラルネットワークの下層（入力に近い側の層）を個々のタスクで共有する等のマルチタスク学習を行うようにしてもよい。マルチタスク学習を行うことによって、個々の予測タスクで得られた知見をタスク間で共有することができ、精度向上が期待できるからである。

なお、１１種全て同時に罹患判定する場合に限らず、乳がんと乳良性疾患の２種類のみ罹患判定可能な学習済モデル、前立腺がんと前立腺良性疾患の２種類のみ罹患判定可能な学習済モデル、膵がん及び胆道がんと膵胆良性疾患の３種類について罹患判定可能な学習済モデルなどであってもよいし、１１種に限られないもっと多数の疾患について同時に罹患判定可能な学習済モデルであってもよい。

なお上記した実施形態の説明においては、学習済モデルの生成のための訓練データとして、複数の疾患の何れかに罹患したラベル情報の付されたサンプルデータを複数用意しているが、その場合は、患者が複数のがんのうち特定の１種類のがんのみに罹患している、もしくはいずれのがんにも罹患していないということを前提とした罹患判定を行なっていた。しかしながら、転移性がんなどにより、患者が複数種のがんに罹患している場合もあり、この場合は、訓練データとして用いるサンプルデータのラベルの作り方を変えることにより、上記した実施形態と同様の手法を適用することで、罹患判定を行うことができる。一例として、患者が肺がんと胃がんに罹患している場合には、肺がんと胃がんに対応するラベル項目を「１」とし、それ以外のラベル項目を「０」とした訓練用のサンプルデータを用意して機械学習により学習済みモデルを作成し、この学習済みモデルを用いて罹患判定をする。これらの手法はマルチラベルと呼ばれる手法であり、訓練用サンプルデータに複数の異なるがん罹患を示すラベルを付与したものも含めて、機械学習を行い学習済みモデルを作成することで、１度の判定により、１つ以上のがんについて罹患判定ができるという効果がある。

このようにして得られた学習済モデルを用いた罹患判定装置とすることで、悪性疾患と良性疾患の罹患判定を同時に行えたり、一度の検査で複数の疾患について同時に罹患判定を行えたりするという効果がある。

［第５の実施の形態］
第１から第４の実施の形態における罹患判定装置は、学習済モデルに対して患者のサンプルデータを入力して疾患に罹患しているか否かの結論を出力することはできるが、その結論に至るための判定に影響を及ぼしたバイオマーカーについて知ることはできない構成となっている。しかし、医師が結論に至った理由を認識するため、若しくは、医師が患者に対して結論に至った理由を説明するために、判定に影響を及ぼしたバイオマーカーが何れであったのかを知りたいというニーズが生じる可能性がある。

そこで、学習済モデルに罹患判定対象の患者のサンプルデータを入力して判定処理を行う際に、バイオマーカーに対応した特徴次元ごとの重要度を算出して、重要度の値の大きさに基づいて、罹患判定の結論に寄与したバイオマーカーを抽出して出力するようにしてもよい。

重要度の算出は、例えば、サンプルデータについて学習済モデルを用いて損失関数Ｌを演算する処理と、損失関数の値Ｌを起点として誤差逆伝播を行い、複数種類のバイオマーカーのそれぞれに対応する特徴ｘ_ｊに関する勾配ｇ_ｊ＝∂Ｌ／∂ｘ_ｊを計算する処理とによって、バイオマーカーに対応した特徴次元ごとの重要度を特徴ｘ_ｊに関する勾配ｇ_ｊとして算出する。第１の実施の形態における勾配の演算と同様であるが、ここでの勾配は、複数のサンプルデータについて和をとるのではなく、一人の患者のサンプルデータについてのみ勾配を算出している点で相違する。

また、重要度の算出は、例えば、Local Interpretable Model-agnostic Explanations （LIME）によって線形分類器を学習するようにし、その過程で重要度を求めるものであってもよい。第２の実施の形態において記載したように、LIMEによって学習を行って得られたラベルｙに関する線形分類器は、ｆ_ｉ（ｙ｜ｘ）＝Σ_ｊｗ_ｉｊｘ_ｊと表現できる。罹患判定対象の患者のサンプルデータが１つの場合、上記のサンプル数に関するｉは１つとなるため、特徴ｘ_ｊに関する重要度はｗ_ｊによって算出することができる。すなわち、罹患判定部１２における学習済モデルを近似する線形学習器をLIMEによって学習し、線形学習器に対して罹患判定対象のサンプルデータを入力した場合の各バイオマーカーの特徴次元に対応した線形学習器の係数を各バイオマーカーの重要度として得るようにする。

また、重要度の算出は、例えば、layer-wise relevance propagation（LRP）による演算で各特徴の重要度を求めるものであってもよい。第３の実施の形態において記載したように、LRPによる演算は、訓練済のニューラルネットワークに罹患判定対象の患者のサンプルデータの特徴を与えて順伝播を行う。出力部から逆順に層を渡っていき、各層における重要度を表す重要度ベクトルＲを帰納的に計算することで、重要度ベクトルＲをバイオマーカーに対応した特徴次元ごとの重要度として算出することができる。

上記の３つの重要度の算出方法はあくまで一例であり、罹患判定対象の患者のサンプルデータの各バイオマーカーについて重要度を算出可能であれば、他の方法であってもよい。

以上のようにして、罹患判定対象の患者のサンプルデータの各バイオマーカーについて重要度を算出し、算出した重要度に基づいて罹患判定の結論に寄与したバイオマーカーを抽出して、判定寄与バイオマーカー出力部から出力するようにする。寄与したバイオマーカーの抽出は、重要度の値の大きい順に上位から所定数を出力するものであってもよいし、ヒートマップ表示する方法などが考えられる。

このようにして、罹患判定結果と併せて、判定寄与バイオマーカー出力部から寄与したバイオマーカーを出力するようにすることで、個々の患者ごとに何れのバイオマーカーが罹患判定に寄与したかを提示することが可能となるため、医師が患者に対して罹患判定結果を伝える際に判定の根拠として説明することが可能となる。また、医師が結論に至った理由を認識することが可能となる。さらに、罹患判定の根拠となったバイオマーカーを知ることによって、将来的には、判定に寄与したバイオマーカーによって個別に治療法を選択するといった利用方法ができる可能性もある。

［第６の実施の形態］
第１から第３の実施の形態においては、特徴抽出部１３における重要度の演算方法として、勾配演算、LIME、LRPなどに基づく演算方法を説明し、その際に、複数のサンプルデータについての和の絶対値を求めることで重要度を算出していた。しかし、和の絶対値による演算方法に限定されるものではない。例えば、Ｌ^１ノルム、Ｌ^２ノルム、及び、これらを一般化したＬ^Ｐノルム等の演算方法を採用して重要度を算出するようにしてもよい。

すなわち、ヒト由来の試料における複数種類のｍｉＲＮＡを含むバイオマーカーのそれぞれ発現量を個人毎に記録したサンプルデータを取得するサンプルデータ取得部と、訓練データを用いて機械学習を行って予め得た疾患の罹患を判定可能な学習済モデルからなる罹患判定部と、前記罹患判定部に対して、疾患に罹患したラベル情報の付された複数のサンプルデータを入力してそれぞれ罹患判定をさせ、各サンプルデータ毎に罹患判定の演算によって学習済モデルで得られる複数のバイオマーカーそれぞれの特徴の重要度を求め、各バイオマーカー毎に複数のサンプルデータの重要度の数値に基づいて所定数のバイオマーカーを当該疾患に関する特徴的なバイオマーカーとして抽出する特徴抽出部とを具備した疾患の特徴抽出装置において、特徴抽出部における勾配演算、LIME、LRPなどに基づく重要度の演算方法として、和の絶対値のみならず、Ｌ^１ノルム、Ｌ^２ノルム、及び、これらを一般化したＬ^Ｐノルム等の演算方法を採用することで、疾患の罹患判定において重要なバイオマーカーを重要度の大きさに基づいて上位から所定数、例えば、上位１００件だけ抽出するといった処理が可能となる。

疾患の罹患判定において重要なバイオマーカーを抽出するメリットとしては、第１の実施形態において記載した罹患判定の精度を維持しつつコンピュータに要求される処理能力を低減し、かつ演算処理速度を向上させることができるという効果の他に、疾患毎の特徴的バイオマーカーを抽出して複数疾患間で比較することで疾患に特有のバイオマーカーを発見できる効果が期待できるほか、特徴的バイオマーカーと疾患との未知の関連性を発見するためのきっかけとなる効果が期待できる。

［第７の実施の形態］
第１から第６の実施の形態においては、学習済モデルを構成する機械学習器としてニューラルネットワークを採用したものとして説明を行ったが、ニューラルネットワークに限らず、勾配ブースティング、ランダムフォレスト（random forest：決定森）、エクストラツリー、サポートベクターマシン、ロジスティック回帰、Ｋ近傍法など、様々な手法が機械学習器として採用し得る。ニューラルネットワーク以外の機械学習器においては重要度の計算の際に誤差逆伝播法が適用できないため、そのような場合には、数値微分によって勾配を計算することで重要度を算出することが可能となる。

［第８の実施の形態］
第１から第７の実施の形態においては、１つの学習済モデルからなる疾患の罹患判定装置に対して罹患判定対象の患者のサンプルデータを入力して、学習済モデルからなる罹患判定部１２において罹患判定を行う構成としていた。しかし、これに限らず、複数の機械学習器によってそれぞれ罹患判定の予測を行い、得られた複数の予測結果に基づいて判定結果を出力するスタッキング用機械学習器によって罹患判定結果を得る構成としてもよい。

図６は、スタッキングの手法を採用した疾患の罹患判定装置２２の構成を表したブロック図である。図６において、機械学習器２０１、２０２、・・・、２０ｎは、それぞれが異なる種類の機械学習器である。機械学習器２０１、２０２、・・・、２０ｎの種類としては、例えば、ニューラルネットワーク、勾配ブースティング、ランダムフォレスト（random forest：決定森）、エクストラツリー、サポートベクターマシン、ロジスティック回帰、Ｋ近傍法などが挙げられる。また、ニューラルネットワークであるFeedforward, CNN, VAE, GAN, AAEなどを使い分けるものであってもよい。機械学習器２０１、２０２、・・・、２０ｎは、同じ訓練データに基づいて同じ疾患について罹患判定することを予め学習させた学習済モデルによって構成されている。なお、スタッキングの手法を採用するためには、種類の異なる少なくとも２以上の機械学習器を利用する必要がある。

スタッキング用機械学習器２１は、機械学習器２０１、２０２、・・・、２０ｎのそれぞれから出力される複数の予測結果を入力として、罹患判定対象の患者のサンプルデータについての最終的な罹患判定結果を出力することを予め学習させた学習済モデルによって構成されている。スタッキング用機械学習器２１は、ニューラルネットワーク、勾配ブースティング、ランダムフォレスト（random forest：決定森）、エクストラツリー、サポートベクターマシン、ロジスティック回帰、Ｋ近傍法などの何れであってもよい。

スタッキングの手法を採用した疾患の罹患判定装置２２は、図６に示すように、先ず、複数の機械学習器２０１、２０２、・・・、２０ｎのそれぞれに対して罹患判定対象の患者のサンプルデータを入力する。複数の機械学習器２０１、２０２、・・・、２０ｎは、それぞれの学習済モデルに基づいて、それぞれ疾患に罹患しているか否かの予測結果を出力する。これらの複数の予測結果は、スタッキング用機械学習器２１に入力される。スタッキング用機械学習器２１は、複数の予測結果に基づいて、最終的な罹患判定結果を出力する。

以上のように、スタッキングの手法を採用した疾患の罹患判定装置２２とすることで、単一の機械学習器による罹患判定に比較して判定精度を向上させることが可能となる。というのも、機械学習器の種類によってサンプルデータの特徴を捉えることに得意不得意が生じる可能性がある。これに対して、スタッキングを採用した罹患判定装置２２によれば、それぞれの機械学習器の相互作用や得意不得意をスタッキング用機械学習器２１において学習してあるため、相互作用や得意不得意を反映させた最終的な罹患判定を行うことができ、結果として、単一の機械学習器の場合に比較して判定精度を向上させることが可能となる。

［第９の実施の形態］
第１から第７の実施の形態においては、１つの機械学習器からなる疾患の罹患判定装置として説明を行ったが、複数の機械学習器でそれぞれ予測された予測結果を用いたアンサンブル学習を行うようにしてもよい。アンサンブル学習は、複数の機械学習器それぞれが出力した予測確率について幾何平均を求めて最終的な予測結果を出力する手法である。複数の機械学習器は同種のものであってもよいし、種類の異なる機械学習器を採用するものであってもよい。このようなアンサンブル学習を行うことによって、疾患の罹患判定精度を向上させることが可能となる。また、第８の実施の形態において説明したスタッキングの手法を採用した疾患の罹患判定装置２２においてアンサンブル学習を適用することもできる。この場合、スタッキング用機械学習器２１を複数用意して、複数のスタッキング用機械学習器２１の予測結果の出力について幾何平均を求めて最終的な予測結果を出力するようにすることで、疾患の罹患判定精度を向上させることが可能となる。

上述した実施形態の説明においては、生体の代表としてヒト由来の試薬中のmiRNAによる説明を行なったが、ヒト以外の生体、例えばペットや家畜などの動物においても本実施形態と同様の手法を用いることで同様の疾患の罹患判定精度を向上させることができるのは当該発明の属する分野における通常の知識を有する者がその実施をすることができるのは言うまでもない。

［付記］
上述した実施形態の説明は、少なくとも下記発明を、当該発明の属する分野における通常の知識を有する者がその実施をすることができるように記載した。
［１］
個々の生体由来の試料における複数種類のｍｉＲＮＡを含むバイオマーカーそれぞれの発現量を含むサンプルデータを取得するサンプルデータ取得部と、
訓練データを用いて機械学習を行って予め得た疾患の罹患を判定可能な学習済モデルと、
前記学習済モデルを用いて各バイオマーカーの重要度に基づいてサンプルデータについて罹患判定を行う罹患判定部、
を具備した疾患の罹患判定装置。
［２］
個々の生体由来の試料における複数種類のｍｉＲＮＡを含むバイオマーカーそれぞれの発現量を含むサンプルデータを取得するサンプルデータ取得部と、
訓練データを用いて機械学習を行って予め得た疾患の罹患を判定可能な学習済モデルと、
前記学習済モデルに対してサンプルデータを入力して、各バイオマーカー毎の重要度を数値化する重要度算出部と、
該重要度からサンプルデータについて罹患判定を行う罹患判定部、
を具備した疾患の罹患判定装置。
［３］
前記重要度に基づいて当該疾患に関する特徴的なバイオマーカーを抽出する特徴抽出部を具備し、
抽出した特徴的なバイオマーカーのみで疾患判定を行う場合における該特徴的なバイオマーカー毎の重要度である特徴重要度に基づいて罹患判定を行うことを特徴とする、
［１］又は［２］記載の疾患の罹患判定装置。
［４］
前記重要度に基づいて当該疾患に関する特徴的なバイオマーカーを抽出する特徴抽出部と、
抽出した特徴的なバイオマーカーのみで疾患判定を行う場合における該特徴的なバイオマーカー毎の重要度である特徴重要度を数値化する特徴重要度算出部と、
を具備し、
前記罹患判定部が該特徴重要度から罹患判定を行うことを特徴とする、
［１］又は［２］記載の疾患の罹患判定装置。
［５］
前記重要度算出部が、サンプルデータ毎に学習済モデルを用いてｉ番目のサンプルデータに関する損失関数Ｌ_ｉを演算する処理と、損失関数の値Ｌ_ｉを起点として誤差逆伝播を行い、サンプルｉの複数種類のバイオマーカーのそれぞれに対応する特徴ｘ_ｊに関する勾配ｇ_ｉｊ＝∂Ｌ_ｉ／∂ｘ_ｊを計算する処理と、全てのサンプルについての勾配の和の絶対値をその特徴の重要度Ｓ_ｊ＝｜Σ_｛ｉ｝ｇ_ｉｊ｜として求める処理とによって、バイオマーカーそれぞれの特徴の重要度を数値化する、
［２］から［４］の何れかに記載の疾患の罹患判定装置。
［６］
前記訓練データは、前記サンプルデータに対して各個人が疾患に罹患しているか否かのラベル情報を付したものである
［１］から［５］の何れかに記載の疾患の罹患判定装置。
［７］
前記学習済モデルの生成は、前記訓練データの特徴ベクトルの各次元について訓練データ全体に渡る平均が０、分散が１になるように各次元を一次変換する白色化処理を行ってから学習を行うようにした
［６］記載の疾患の罹患判定装置。
［８］
個々の生体由来の試料における複数種類のｍｉＲＮＡを含むバイオマーカーそれぞれの発現量を含むサンプルデータを取得するサンプルデータ取得手順と、
訓練データを用いて機械学習を行って予め得た疾患の罹患を判定可能な学習済モデルを生成する学習済モデル生成手順と、
前記学習済モデルを用いて各バイオマーカーの重要度に基づいてサンプルデータについて罹患判定を行う罹患判定手順と、
を含むことを特徴とする疾患の罹患判定方法。
［９］
個々の生体由来の試料における複数種類のｍｉＲＮＡを含むバイオマーカーそれぞれの発現量を含むサンプルデータを取得するサンプルデータ取得手順と、
訓練データを用いて機械学習を行って予め得た疾患の罹患を判定可能な学習済モデルを生成する学習済モデル生成手順と、
前記学習済モデルに対してサンプルデータを入力して、各バイオマーカー毎の重要度を数値化する重要度算出手順と、
該重要度からサンプルデータについて罹患判定を行う罹患判定手順と、
を含むことを特徴とする疾患の罹患判定方法。
［１０］
前記重要度の和から当該疾患に関する特徴的なバイオマーカーを抽出する特徴抽出手順を含み、
抽出した特徴的なバイオマーカーのみで疾患判定を行う場合における該特徴的なバイオマーカー毎の重要度である特徴重要度に基づいて罹患判定を行うことを特徴とする、
［８］又は［９］記載の疾患の罹患判定方法。
［１１］
前記重要度の和から当該疾患に関する特徴的なバイオマーカーを抽出する特徴抽出手順と、
抽出した特徴的なバイオマーカーのみで疾患判定を行う場合における該特徴的なバイオマーカー毎の重要度である特徴重要度を数値化する特徴重要度算出手順と、
を含み、
前記罹患判定手順において、該特徴重要度から罹患判定を行うことを特徴とする、
［８］又は［９］記載の疾患の罹患判定方法。
［１２］
前記重要度算出手順が、サンプルデータ毎に学習済モデルを用いてｉ番目のサンプルデータに関する損失関数Ｌ_ｉを演算する処理と、損失関数の値Ｌ_ｉを起点として誤差逆伝播を行い、サンプルｉの複数種類のバイオマーカーのそれぞれに対応する特徴ｘ_ｊに関する勾配ｇ_ｉｊ＝∂Ｌ_ｉ／∂ｘ_ｊを計算する処理と、全てのサンプルについての勾配の和の絶対値をその特徴の重要度Ｓ_ｊ＝｜Σ_｛ｉ｝ｇ_ｉｊ｜として求める処理とによって、バイオマーカーそれぞれの特徴の重要度を数値化する、
［９］から［１１］の何れか記載の疾患の罹患判定方法。
［１３］
前記訓練データは、前記サンプルデータに対して各個人が疾患に罹患しているか否かのラベル情報を付したものである
［８］から［１２］の何れかに記載の疾患の罹患判定方法。
［１４］
前記学習済モデルの生成は、前記訓練データの特徴ベクトルの各次元について訓練データ全体に渡る平均が０、分散が１になるように各次元を一次変換する白色化処理を行ってから学習を行うようにした
［１２］記載の疾患の罹患判定方法。
［１５］
個々の生体由来の試料における複数種類のｍｉＲＮＡを含むバイオマーカーのそれぞれ発現量を個人毎に記録したサンプルデータを取得するサンプルデータ取得部と、
訓練データを用いて機械学習を行って予め得た疾患の罹患を判定可能な学習済モデルからなる罹患判定部と、
前記罹患判定部に対して、疾患に罹患したラベル情報の付された複数のサンプルデータを入力してそれぞれ罹患判定をさせ、各サンプルデータ毎に罹患判定の演算によって学習済モデルで得られる複数のバイオマーカーそれぞれの特徴の重要度を数値化し、各バイオマーカー毎に複数のサンプルデータの重要度の数値に基づいて所定数のバイオマーカーを当該疾患に関する特徴的なバイオマーカーとして抽出する特徴抽出部と
を具備した疾患の特徴抽出装置。
［１６］
前記特徴抽出部は、サンプルデータ毎に学習済モデルを用いてｉ番目のサンプルデータに関する損失関数Ｌ_ｉを演算する処理と、損失関数の値Ｌ_ｉを起点として誤差逆伝播を行い、サンプルｉの複数種類のバイオマーカーのそれぞれに対応する特徴ｘ_ｊに関する勾配ｇ_ｉｊ＝∂Ｌ_ｉ／∂ｘ_ｊを計算する処理と、全てのサンプルについての勾配の和の絶対値をその特徴の重要度Ｓ_ｊ＝｜Σ_｛ｉ｝ｇ_ｉｊ｜として求める処理とによって、バイオマーカーそれぞれの特徴の重要度を数値化するようにした
［１５］記載の疾患の特徴抽出装置。
［１７］
前記訓練データは、前記サンプルデータに対して各個人が疾患に罹患しているか否かのラベル情報を付したものである
［１５］又は［１６］記載の疾患の特徴抽出装置。
［１８］
前記学習済モデルの生成は、前記訓練データの特徴ベクトルの各次元について訓練データ全体に渡る平均が０、分散が１になるように各次元を一次変換する白色化処理を行ってから学習を行うようにした
［１５］から［１７］の何れかに記載の疾患の特徴抽出装置。
［１９］
前記特徴抽出部において使用される疾患に罹患したラベル情報の付された複数のサンプルデータは、特徴ベクトルの各次元について当該サンプルデータ全体に渡る平均が０、分散が１になるように各次元を一次変換する白色化処理を行ってから用いられる
［１８］に記載の疾患の特徴抽出装置。
［２０］
個々の生体由来の試料における複数種類のｍｉＲＮＡを含むバイオマーカーのそれぞれ発現量を個人毎に記録したサンプルデータを取得するサンプルデータ取得手順と、
訓練データを用いて機械学習を行って予め得た疾患の罹患を判定可能な学習済モデルを生成する学習済モデル生成手順と、
前記学習済モデルに対して、疾患に罹患したラベル情報の付された複数のサンプルデータを入力してそれぞれ罹患判定をさせ、各サンプルデータ毎に罹患判定の演算によって学習済モデルで得られる複数のバイオマーカーそれぞれの特徴の重要度を数値化し、各バイオマーカー毎に複数のサンプルデータの重要度の数値に基づいて所定数のバイオマーカーを当該疾患に関する特徴的なバイオマーカーとして抽出する特徴抽出手順と
を含む疾患の特徴抽出方法。
［２１］
個々の生体由来の試料における複数種類のｍｉＲＮＡを含むバイオマーカーそれぞれの発現量を含むサンプルデータを取得するサンプルデータ取得部と、
それぞれが複数の疾患についての罹患の有無を識別するための項目を有し各個人が何れの疾患に罹患しているか否かのラベル情報の付されたサンプルデータからなる複数の訓練データを用いて機械学習を行って予め得た疾患の罹患を判定可能な学習済モデルと、
前記学習済モデルを用いて判定対象のサンプルデータについて複数の疾患について罹患しているか否かの罹患判定を行う罹患判定部と
を具備した疾患の罹患判定装置。
［２２］
疾患の罹患判定対象のサンプルデータに含まれるバイオマーカーのうち疾患の罹患判定結果に寄与したバイオマーカーを抽出して出力する判定寄与バイオマーカー出力部を具備した
［２１］記載の疾患の罹患判定装置。
［２３］
前記判定寄与バイオマーカー出力部は、サンプルデータについて学習済モデルを用いて損失関数Ｌを演算する処理と、損失関数の値Ｌを起点として誤差逆伝播を行い、複数種類のバイオマーカーのそれぞれに対応する特徴ｘ_ｊに関する勾配ｇ_ｊ＝∂Ｌ／∂ｘ_ｊを計算する処理とによって、バイオマーカーに対応した特徴次元ごとの重要度を特徴ｘ_ｊに関する勾配ｇ_ｊとして算出し、重要度の大きさに基づいて所定数のバイオマーカーを疾患の罹患判定結果に寄与したバイオマーカーとして抽出するようにした
［２２］記載の疾患の罹患判定装置。
［２４］
前記判定寄与バイオマーカー出力部は、罹患判定部における学習済モデルを近似する線形学習器をLIMEによって学習し、線形学習器に対して罹患判定対象のサンプルデータを入力した場合の各バイオマーカーの特徴次元に対応した線形学習器の係数を各バイオマーカーの重要度として算出し、重要度の大きさに基づいて所定数のバイオマーカーを疾患の罹患判定結果に寄与したバイオマーカーとして抽出するようにした
［２２］記載の疾患の罹患判定装置。
［２５］
前記判定寄与バイオマーカー出力部は、LRPにより、罹患判定部における学習済モデルに罹患判定対象の患者のサンプルデータの特徴を与えて順伝播を行い、出力部から逆順に層を渡っていき、各層における重要度を表す重要度ベクトルＲを帰納的に計算し、重要度ベクトルＲを各バイオマーカーに対応した特徴次元ごとの重要度として算出し、重要度の大きさに基づいて所定数のバイオマーカーを疾患の罹患判定結果に寄与したバイオマーカーとして抽出するようにした
［２２］記載の疾患の罹患判定装置。
［２６］
個々の生体由来の試料における複数種類のｍｉＲＮＡを含むバイオマーカーそれぞれの発現量を含むサンプルデータを取得するサンプルデータ取得部と、
それぞれが複数の疾患についての罹患の有無を識別するための項目を有し各個人が何れの疾患に罹患しているか否かのラベル情報の付されたサンプルデータからなる複数の訓練データを共通に用いて機械学習行ったものであり、それぞれが同じ疾患について罹患判定することを予め学習させた種類の異なる学習済モデルからなり、それぞれが疾患の罹患判定対象のサンプルデータが疾患に罹患しているか否かの予測結果を出力する少なくとも２以上の機械学習器と、
複数の機械学習器からの予測結果を入力として最終的な判定結果を出力することを予め学習したスタッキング用機械学習器であって、複数の機械学習器からの予測結果に基づいて罹患判定対象のサンプルデータが疾患に罹患しているか否かの判定結果を出力するスタッキング用機械学習器と
を具備した疾患の罹患判定装置。
［２７］
前記複数の疾患は、乳がん、乳良性疾患、前立腺がん、前立腺良性疾患、膵がん、胆道がん、大腸がん、胃がん、食道がん、肝がん、膵胆良性疾患のうち、少なくとも２種類を含む
［２１］から［２６］の何れかに記載の疾患の罹患判定装置。
［２８］
個々の生体由来の試料中におけるｍｉＲＮＡを含む複数種類のバイオマーカーのそれぞれの発現量を含む、前記個々の生体からそれぞれ取得した複数のサンプルデータと、
前記複数のサンプルデータの各々に、当該個々の生体各々が複数の疾患に罹患しているか否かを識別する為の項目をラベル情報として付与したラベル情報付きサンプルデータを、訓練データとして用いて機械学習を行った結果に出力される当該複数の疾患の各々の罹患有無を判定可能な学習モデルと、
罹患判定を行う対象となる別の生体から新たに取得したサンプルデータに対し、前記学習モデルを用いて当該複数の疾患の各々について罹患有無の判定を行う罹患判定部と
を具備した疾患の罹患判定装置。
［２９］
個々の生体由来の試料中におけるｍｉＲＮＡを含む複数種類のバイオマーカーのそれぞれの発現量を含む、前記個々の生体からそれぞれ取得した複数のサンプルデータと、
前記複数のサンプルデータの各々に、当該個々の生体各々が予め定めた所定の疾患群のいずれか１つの疾患に罹患しているか、予め定めた所定の疾患群のいずれにも罹患していないか、を識別する為の項目を、罹患している場合はその疾患に関する情報、罹患していない場合は、罹患していないことを示す情報をラベル情報として付与したラベル情報付きサンプルデータを、訓練データとして用いて機械学習を行った結果に出力される当該所定の疾患の罹患有無を判定可能な学習モデルと、
罹患判定を行う対象となる別の生体から新たに取得したサンプルデータに対し、前記学習モデルを用いて当該所定の疾患群のうち、いずれか１つの疾患について罹患しているか、当該所定の疾患群のいずれにも罹患していないかについての判定を行う罹患判定部と
を具備した疾患の罹患判定装置。
［３０］
個々の生体由来の試料における複数種類のｍｉＲＮＡを含むバイオマーカーそれぞれの発現量を含むサンプルデータを取得するサンプルデータ取得手順と、
それぞれが複数の疾患についての罹患の有無を識別するための項目を有し各個人が何れの疾患に罹患しているか否かのラベル情報の付されたサンプルデータからなる複数の訓練データを用いて機械学習を行って予め得た複数の疾患について罹患しているか否かの罹患判定が可能な学習済モデルを生成する学習済モデル生成手順と、
前記学習済モデルを用いて判定対象のサンプルデータについて複数の疾患について罹患しているか否かの罹患判定を行う罹患判定手順と
を含む疾患の罹患判定方法。
［３１］
個々の生体由来の試料における複数種類のｍｉＲＮＡを含むバイオマーカーそれぞれの発現量を含むサンプルデータを取得するサンプルデータ取得手順と、
それぞれが複数の疾患についての罹患の有無を識別するための項目を有し各個人が何れの疾患に罹患しているか否かのラベル情報の付されたサンプルデータからなる複数の訓練データを共通に用いて機械学習行ったものであり、それぞれが同じ疾患について罹患判定することを予め学習させた種類の異なる学習済モデルからなり、それぞれが疾患の罹患判定対象のサンプルデータが疾患に罹患しているか否かの予測結果を出力する少なくとも２以上の機械学習器に基づいて、複数の予測結果を取得する複数予測結果取得手順と、
複数の機械学習器からの予測結果を入力として最終的な判定結果を出力することを予め学習したスタッキング用機械学習器であって、複数の機械学習器からの予測結果に基づいて罹患判定対象のサンプルデータが疾患に罹患しているか否かの判定結果を出力するスタッキング用機械学習器に基づいて、最終的な判定結果を取得する最終判定結果取得手順と
を含む疾患の罹患判定方法。
［３２］
個々の生体由来の試料中におけるｍｉＲＮＡを含む複数種類のバイオマーカーのそれぞれの発現量を含む、前記個々の生体からそれぞれ取得した複数のサンプルデータを取得する手順と、
前記複数のサンプルデータの各々に、当該個々の生体各々が複数の疾患に罹患しているか否かを識別する為の項目をラベル情報として付与したラベル情報付きサンプルデータを、訓練データとして用いて機械学習を行った結果に出力される当該複数の疾患の各々の罹患有無を判定可能な学習モデルを生成する学習済モデル生成手順と、
罹患判定を行う対象となる別の生体から新たに取得したサンプルデータに対し、前記学習モデルを用いて当該複数の疾患の各々について罹患有無の判定を行う罹患判定手順と
を含む疾患の罹患判定方法。
［３３］
個々の生体由来の試料中におけるｍｉＲＮＡを含む複数種類のバイオマーカーのそれぞれの発現量を含む、前記個々の生体からそれぞれ取得した複数のサンプルデータを取得する手順と、
前記複数のサンプルデータの各々に、当該個々の生体各々が予め定めた所定の疾患群のいずれか１つの疾患に罹患しているか、予め定めた所定の疾患群のいずれにも罹患していないか、を識別する為の項目を、罹患している場合はその疾患に関する情報、罹患していない場合は、罹患していないことを示す情報をラベル情報として付与したラベル情報付きサンプルデータを、訓練データとして用いて機械学習を行った結果に出力される当該所定の疾患の罹患有無を判定可能な学習モデルを生成する学習済モデル生成手順と、
罹患判定を行う対象となる別の生体から新たに取得したサンプルデータに対し、前記学習モデルを用いて当該所定の疾患群のうち、いずれか１つの疾患について罹患しているか、当該所定の疾患群のいずれにも罹患していないかについての判定を行う罹患判定手順と
を含む疾患の罹患判定方法。
［３４］
個々の生体由来の試料における複数種類のｍｉＲＮＡを含むバイオマーカーそれぞれの発現量を含むサンプルデータを取得するサンプルデータ取得処理と、
それぞれが複数の疾患についての罹患の有無を識別するための項目を有し各個人が何れの疾患に罹患しているか否かのラベル情報の付されたサンプルデータからなる複数の訓練データを用いて機械学習を行って予め得た複数の疾患について罹患しているか否かの罹患判定が可能な学習済モデルを生成する学習済モデル生成処理と、
前記学習済モデルを用いて判定対象のサンプルデータについて複数の疾患について罹患しているか否かの罹患判定を行う罹患判定処理と
をコンピュータに実現させる疾患の罹患判定プログラム。
［３５］
個々の生体由来の試料における複数種類のｍｉＲＮＡを含むバイオマーカーそれぞれの発現量を含むサンプルデータを取得するサンプルデータ取得処理と、
それぞれが複数の疾患についての罹患の有無を識別するための項目を有し各個人が何れの疾患に罹患しているか否かのラベル情報の付されたサンプルデータからなる複数の訓練データを共通に用いて機械学習行ったものであり、それぞれが同じ疾患について罹患判定することを予め学習させた種類の異なる学習済モデルからなり、それぞれが疾患の罹患判定対象のサンプルデータが疾患に罹患しているか否かの予測結果を出力する少なくとも２以上の機械学習器に基づいて、複数の予測結果を取得する複数予測結果取得処理と、
複数の機械学習器からの予測結果を入力として最終的な判定結果を出力することを予め学習したスタッキング用機械学習器であって、複数の機械学習器からの予測結果に基づいて罹患判定対象のサンプルデータが疾患に罹患しているか否かの判定結果を出力するスタッキング用機械学習器に基づいて、最終的な判定結果を取得する最終判定結果取得処理と
をコンピュータに実現させる疾患の罹患判定プログラム。
［３６］
個々の生体由来の試料中におけるｍｉＲＮＡを含む複数種類のバイオマーカーのそれぞれの発現量を含む、前記個々の生体からそれぞれ取得した複数のサンプルデータを取得する処理と、
前記複数のサンプルデータの各々に、当該個々の生体各々が複数の疾患に罹患しているか否かを識別する為の項目をラベル情報として付与したラベル情報付きサンプルデータを、訓練データとして用いて機械学習を行った結果に出力される当該複数の疾患の各々の罹患有無を判定可能な学習モデルを生成する学習済モデル生成処理と、
罹患判定を行う対象となる別の生体から新たに取得したサンプルデータに対し、前記学習モデルを用いて当該複数の疾患の各々について罹患有無の判定を行う罹患判定処理と
をコンピュータに実現させる疾患の罹患判定プログラム。
［３７］
個々の生体由来の試料中におけるｍｉＲＮＡを含む複数種類のバイオマーカーのそれぞれの発現量を含む、前記個々の生体からそれぞれ取得した複数のサンプルデータを取得する処理と、
前記複数のサンプルデータの各々に、当該個々の生体各々が予め定めた所定の疾患群のいずれか１つの疾患に罹患しているか、予め定めた所定の疾患群のいずれにも罹患していないか、を識別する為の項目を、罹患している場合はその疾患に関する情報、罹患していない場合は、罹患していないことを示す情報をラベル情報として付与したラベル情報付きサンプルデータを、訓練データとして用いて機械学習を行った結果に出力される当該所定の疾患の罹患有無を判定可能な学習モデルを生成する学習済モデル生成処理と、
罹患判定を行う対象となる別の生体から新たに取得したサンプルデータに対し、前記学習モデルを用いて当該所定の疾患群のうち、いずれか１つの疾患について罹患しているか、当該所定の疾患群のいずれにも罹患していないかについての判定を行う罹患判定処理と
をコンピュータに実現させる疾患の罹患判定プログラム。

１０疾患の罹患判定装置
１１サンプルデータ取得部
１２罹患判定部
１３特徴抽出部
１４記憶部
１５サンプルデータ
１６訓練データ
１７学習済モデル
１８重要度算出部
１９特徴重要度算出部
２０１、２０２、…、２０ｎ機械学習器
２１スタッキング用機械学習器
２２疾患の罹患判定装置

Claims

生体由来の試料における複数種類のｍｉＲＮＡの発現量を含むサンプルデータを取得するサンプルデータ取得部と、
複数の体の部位における複数の疾患についての罹患の有無を識別するための項目を有する複数のサンプルデータを含む訓練データを用いて機械学習を行って予め得た複数の悪性疾患または複数の良性疾患を含む前記複数の疾患についてのそれぞれの罹患を、複数の疾患に罹患している場合を含めて判定可能な学習済モデルを用いて、前記取得したサンプルデータについて、前記複数の体の部位における前記複数の疾患の罹患判定結果を出力する罹患判定部と
を具備する疾患の罹患判定装置。
前記罹患判定部は、良性疾患と悪性疾患の関係にある前記複数の疾患の判定結果を出力する、
請求項１記載の罹患判定装置。
前記サンプルデータについて学習済モデルを用いて損失関数Ｌを演算する処理と、損失関数の値Ｌを起点として誤差逆伝播を行い、前記サンプルデータに含まれる複数種類のバイオマーカーのそれぞれに対応する特徴ｘ_ｊに関する勾配ｇ_ｊ＝∂Ｌ／∂ｘ_ｊを計算する処理とによって、バイオマーカーに対応した特徴次元ごとの重要度を特徴ｘ_ｊに関する勾配ｇ_ｊとして算出し、前記重要度の大きさに基づいて所定数のバイオマーカーを疾患の罹患判定結果に寄与したバイオマーカーとして抽出する特徴抽出部を具備する、
請求項１または請求項２に記載の疾患の罹患判定装置。
罹患判定部における学習済モデルを近似する線形学習器をLIMEによって学習し、線形学習器に対して罹患判定対象のサンプルデータを入力した場合の前記サンプルデータに含まれる各バイオマーカーの特徴次元に対応した線形学習器の係数を各バイオマーカーの重要度として算出し、前記重要度の大きさに基づいて所定数のバイオマーカーを疾患の罹患判定結果に寄与したバイオマーカーとして抽出する特徴抽出部を具備する、
請求項１または請求項２に記載の疾患の罹患判定装置。
LRPにより、罹患判定部における学習済モデルに罹患判定対象の患者のサンプルデータの特徴を与えて順伝播を行い、出力部から逆順に層を渡っていき、各層における重要度を表す重要度ベクトルＲを帰納的に計算し、前記重要度ベクトルＲを、前記サンプルデータに含まれる各バイオマーカーに対応した特徴次元ごとの重要度として算出し、前記重要度の大きさに基づいて所定数のバイオマーカーを疾患の罹患判定結果に寄与したバイオマーカーとして抽出する特徴抽出部を具備する、
請求項１または請求項２に記載の疾患の罹患判定装置。
前記特徴抽出部により前記バイオマーカーを抽出し、前記疾患の罹患判定結果に寄与したバイオマーカーを出力する判定寄与バイオマーカー出力部を具備する、
請求項３ないし請求項５のいずれか１項に記載の罹患判定装置。
前記学習済モデルは、
前記取得したサンプルデータについて前記複数の疾患の罹患の有無の予測結果を出力する少なくとも２以上の機械学習器と、
前記２以上の機械学習器からの予測結果を入力として、前記罹患判定結果を出力するスタッキング用機械学習器と、
を具備する請求項１ないし請求項６のいずれか１項に記載の罹患判定装置。
前記複数の疾患は、乳がん、乳良性疾患、前立腺がん、前立腺良性疾患、膵がん、胆道がん、大腸がん、胃がん、食道がん、肝がん、膵胆良性疾患のうち、少なくとも２つを含む
請求項１ないし請求項７のいずれか１項に記載の罹患判定装置。
前記学習済モデルは、複数の機械学習器を具備する、
請求項１ないし請求項８のいずれか１項に記載の罹患判定装置。
前記学習済モデルは、複数の機械学習器を具備し、前記複数の機械学習器によるアンサンブル学習を行う、
請求項９に記載の罹患判定装置。
前記罹患判定結果は確率で出力される、
請求項１ないし請求項１０のいずれか１項に記載の罹患判定装置。
生体由来の試料中における複数種類のｍｉＲＮＡの発現量を含むサンプルデータを取得するサンプルデータ取得手順と、
複数の体の部位における複数の疾患についての罹患の有無を識別するための項目を有する複数のサンプルデータを含む訓練データを用いて機械学習を行って予め得た複数の悪性疾患または複数の良性疾患を含む前記複数の疾患についてのそれぞれの罹患を、複数の疾患に罹患している場合を含めて判定可能な学習済モデルを用いて、前記取得したサンプルデータについて、前記複数の体の部位における前記複数の疾患について罹患判定結果を出力する罹患判定手順と
を含む疾患の罹患判定方法。
前記学習済モデルは、複数の機械学習器と、前記複数の機械学習器の予測結果に基づいて、罹患判定結果を出力するスタッキング用機械学習器
を具備する請求項１２に記載の罹患判定方法。
前記罹患判定結果は、確率で出力される、
請求項１２または請求項１３に記載の罹患判定方法。
請求項１２ないし請求項１４のいずれか１項に記載の方法をコンピュータに実現させる
疾患の罹患判定プログラム。