JP7444252B2 - 診断支援プログラム、装置、及び方法 - Google Patents

診断支援プログラム、装置、及び方法 Download PDF

Info

Publication number
JP7444252B2
JP7444252B2 JP2022529227A JP2022529227A JP7444252B2 JP 7444252 B2 JP7444252 B2 JP 7444252B2 JP 2022529227 A JP2022529227 A JP 2022529227A JP 2022529227 A JP2022529227 A JP 2022529227A JP 7444252 B2 JP7444252 B2 JP 7444252B2
Authority
JP
Japan
Prior art keywords
pattern
weight
features
gene
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022529227A
Other languages
English (en)
Other versions
JPWO2021245850A1 (ja
JPWO2021245850A5 (ja
Inventor
隆史 ▲柳▼▲瀬▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2021245850A1 publication Critical patent/JPWO2021245850A1/ja
Publication of JPWO2021245850A5 publication Critical patent/JPWO2021245850A5/ja
Application granted granted Critical
Publication of JP7444252B2 publication Critical patent/JP7444252B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Epidemiology (AREA)
  • Theoretical Computer Science (AREA)
  • Pathology (AREA)
  • Primary Health Care (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Bioethics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Description

開示の技術は、診断支援プログラム、診断支援装置、及び診断支援方法に関する。
医療現場等において、患者から採取されたサンプルが示す特徴と、予め定めた診断基準とに基づいて、疾患の有無を診断することが行われている。診断基準の決定方法として、例えば、診断対象の疾患の有無を予測するモデルを作成することにより決定する方法がある。モデルは、診断対象の疾患がある患者及び疾患がない患者の各々から採取されたサンプルが示す特徴と、疾患の有無を示す分類ラベルとを対応付けた訓練データを用いて、SVM(Support Vector Machine)や決定木等の機械学習により作成される。
例えば、被検体を、被検体の体に生じるイベントに応じて層別化する方法が提案されている。この方法では、被検体に由来するバイオマーカーの母集団について、各バイオマーカーの測定値に基づいて各バイオマーカーが被検体の体に生じるイベントと関連して変動するか否かが統計学的手法により判定される。そして、変動すると判定されたバイオマーカー群が第1の亜集団として抽出される。また、第1の亜集団に属する各バイオマーカーを検証し、体に生じるイベントとの関連性がより強いと統計学的に予測されるバイオマーカー群が第2の亜集団として抽出される。そして、第2の亜集団に属する各バイオマーカーの重みが深層学習法により算出され、判別器が生成される。判別器は、第2の亜集団に属する各バイオマーカーの測定値から得られるスコアと、算出された各バイオマーカーの重みとを用いて、第2の亜集団に属するバイオマーカーのスコアの重み付け和を算出する。
特開2020-28278号公報
機械学習の説明変数として用いる特徴の種類数が膨大な場合には、従来の機械学習によりモデルを作成することが困難である。例えば、特徴が遺伝子の発現量である場合、遺伝子の種類数は1万以上となることもある。従来技術のように、疾患の予測に有効そうな遺伝子のみに絞り込むなど、説明変数として用いる特徴を選択してから機械学習を行うことが考えられる。しかし、この場合、多くの種類の特徴が説明変数から除外されることになり、除外される特徴の中には、本来診断に有効な特徴が含まれている可能性がある。例えば、特徴単体では、疾患の予測に対する有効性が低い場合でも、他の特徴との組合せにより有効性が高くなる場合もあるが、このような特徴が説明変数から除外される可能性がある。その結果、有効な診断を行うための診断基準を決定することができなくなってしまう。
一つの側面として、開示の技術は、診断基準の決定に機械学習を利用する場合において、診断に有効な診断基準の決定を支援することを目的とする。
一つの態様として、開示の技術は、診断対象のサンプルが示す特徴、及び前記診断対象以外のサンプルが示す特徴を含む訓練データセットを利用した機械学習によって生成された、1以上の特徴の組合せで表されるルールの集合を取得する。ルールのそれぞれには、前記診断対象に対する第1の重みが対応付けられている。また、開示の技術は、所定個の特徴を含むパターン毎に、前記パターンに含まれる特徴を含むルールに対応付けられた前記第1の重みに基づく第2の重みを決定し、決定された前記第2の重みが所定値以上の前記パターンを出力する。
一つの側面として、診断基準の決定に機械学習を利用する場合において、効果的な診断基準の決定を支援することができる、という効果を有する。
診断支援装置の機能ブロック図である。 サンプルデータ集合の一例を示す図である。 機械学習の説明変数として用いる特徴を絞り込んで機械学習を行う場合を説明するための図である。 訓練データセットの生成を説明するため図である。 ルール集合の一例を示す図である。 パターンの生成を説明するための図である。 パターン重みの補正の一例を説明するための図である。 診断基準候補の出力画面の一例を示す図である。 診断支援装置として機能するコンピュータの概略構成を示すブロック図である。 診断支援処理の一例を示すフローチャートである。 訓練データ生成処理の一例を示すフローチャートである。 ルール取得処理の一例を示すフローチャートである。 パターン生成処理の一例を示すフローチャートである。 重み補正処理の一例を示すフローチャートである。 診断支援処理を説明するための概略図である。
以下、図面を参照して、開示の技術に係る実施形態の一例を説明する。以下の実施形態では、遺伝子診断に用いる診断基準の決定を支援する場合について説明する。遺伝子診断とは、患者から採取した組織サンプルから、特定の遺伝子が発現するかどうかを検査することで、疾患の有無を診断する方法である。したがって、診断基準としては、疾患ありの場合に高発現する遺伝子の種類が決定される。
図1に示すように、診断支援装置10には、サンプルデータ集合22が入力される。診断支援装置10は、サンプルデータ集合22から生成した訓練データセットを機械学習することにより、上記のような診断基準の候補を抽出し、出力する。
サンプルデータ集合22は、診断対象の疾患のある患者、及び疾患のない患者の各々から採取された組織サンプルから抽出された、複数種類の遺伝子の各々についての発現量のデータであるサンプルデータの集合である。図2に、サンプルデータ集合22の一例を示す。図2の例では、各行(各レコード)が、1つのサンプルデータに相当する。図2の例では、各サンプルデータには、サンプルデータの識別情報である「サンプルID」が付与されている。また、各サンプルデータには、そのサンプルデータに対応する患者が、診断対象の疾患のある患者か、又は疾患のない患者かを示す「疾患(分類ラベル)」が対応付けられている。また、各サンプルデータは、遺伝子の種類毎に、サンプルデータから抽出された、その遺伝子の発現量(図2中の「遺伝子発現量」)の情報を含む。
ここで、図3に示すように、機械学習の説明変数として用いる特徴を絞り込んで機械学習を行う場合を考える。図3の例では、サンプルデータに含まれる1万以上ある遺伝子の種類を100程度に絞り込んで、訓練データとする場合を示している。遺伝子の種類の絞り込みは、例えば、遺伝子間の発現量の相関等に基づいて判断される。図3の例では、サンプルデータから、遺伝子HAS1、CALB2、WT1等が除外された訓練データセットを機械学習することにより作成されるモデルにより、診断基準が決定される。この場合、除外された遺伝子HAS1、CALB2、WT1等が診断に有効であっても、これらの除外された遺伝子は、診断基準には含まれない。
そこで、本実施形態では、機械学習において、「評価理由を説明可能であり」、「全ての変数(特徴)の組合せで構成される仮説を網羅的に列挙し」、「それらの仮説に重要度を付与できる」という特性を有するAI(Artificial Intelligence)を適用する。
診断支援装置10は、機能的には、図1に示すように、生成部12と、取得部14と、決定部16と、出力部18とを含む。
生成部12は、診断支援装置10に入力されたサンプルデータ集合22から、診断基準候補を抽出するための機械学習に用いる訓練データセットを生成する。具体的には、生成部12は、サンプルデータ集合22に含まれるサンプルデータの遺伝子発現量を、高発現か低発現かを示す二値に変換する。
例えば、生成部12は、既存の二値化手法により、遺伝子の種類毎に閾値を決定する。既存の二値化手法としては、画像の二値化等で使用される動的閾値法、遺伝子分野で使用されるステップマイナー法等がある。そして、生成部12は、図4に示すように、遺伝子発現量が閾値より大きい場合には、遺伝子発現量を、高発現を示す値(例えば「1」)に変換する。一方、生成部12は、遺伝子発現量が閾値以下の場合には、遺伝子発現量を、低発現を示す値(例えば「0」)に変換する。
生成部12は、上記のように、サンプルデータの遺伝子発現量を二値化することにより、訓練データを生成する。すなわち、訓練データセットは、遺伝子発現量の各々を二値化した値と、分類ラベルとを対応付けた訓練データの集合である。以下では、二値化された遺伝子発現量を「遺伝子発現情報」という。図4の下段の図は、訓練データセットを表し、各行(各レコード)が1つの訓練データに相当する。生成部12は、生成した訓練データセットを取得部14へ受け渡す。
取得部14は、生成部12から受け渡された訓練データセットを利用した機械学習によって生成された、1以上の特徴の組合せで表されるルールであって、それぞれに診断対象に対する重みが対応付けられたルールの集合を取得する。
具体的には、取得部14は、上述した特性を有するAIを適用して、遺伝子発現情報を説明変数、及び分類ラベルを目的変数として訓練データを機械学習する。これにより、取得部14は、診断対象の疾患ありとの診断へ導く仮説を、ルールとして取得する。より具体的には、本実施形態において適用するAIは、複数の遺伝子の種類の組合せを網羅的に列挙する。そして、AIは、組合せ毎に、その組合せに含まれる遺伝子が高発現であることの、診断対象の疾患ありとの診断結果に対する寄与度(重要度)を、訓練データの遺伝子発現情報と分類ラベルとの対応付けから機械学習する。すなわち、なぜ診断対象の疾患ありと診断するのかが、高発現の遺伝子の組合せにより説明される。また、遺伝子発現量を二値化した訓練データを用いることにより、遺伝子の種類の網羅的な組合せの各々について、効率的な機械学習を行うことができる。
取得部14は、高発現の遺伝子の組合せをルール、そのルールに付与された重要度をルール重みとして取得し、図5に示すようなルール集合24として、所定の記憶領域に記憶する。ルール重みは、開示の技術の「第1の重み」の一例である。なお、取得部14は、ルール重みが所定値以上のルールのみをルール集合24に含めるようにしてもよい。
決定部16は、所定個の遺伝子の種類を含むパターン毎に、パターンに含まれる遺伝子の種類を含むルールに対応付けられたルール重みに基づくパターン重みを決定する。所定個を複数とした場合、すなわち、パターンに含まれる遺伝子が複数種類の場合、複数の遺伝子が共発現した場合に、診断対象の疾患に関係するような遺伝子の組合せを、診断基準の候補として抽出することができる。
具体的には、決定部16は、ユーザから、パターンに含める遺伝子の種類数の指定を受け付け、図6に示すように、指定された種類数(図6の例では、3種類)の遺伝子の組合せをパターンとして生成する。決定部16は、生成したパターン毎に、そのパターンに含まれる遺伝子の種類全てを含むルールを、ルール集合24から検索する。そして、決定部16は、検索されたルールに対応付けられたルール重みの合計値を、パターン重みとして算出する。これにより、診断対象の疾患ありとの診断へ導く仮説への適合度が高いほど大きなルール重みを算出することができる。なお、ルール重みの算出方法は上記の例に限定されず、検索されたルールに対応付けられたルール重みの積、重み付き和、平均等であってもよい。
また、決定部16は、パターンに、機能が未知の遺伝子と、機能が既知で診断対象の疾患との関係がある遺伝子とが含まれる場合、算出したパターン重みを補正する。具体的には、決定部16は、パターンに含まれる機能が未知の遺伝子の数又は比率が多いほど、パターン重みを大きくするように補正する。これは、機能が未知の遺伝子を含む新しい診断基準の発見を支援することを意図したものである。また、機能が未知の遺伝子が、機能が既知で診断対象の疾患との関係がある遺伝子と共にパターンに含まれる場合に、パターン重みを大きく補正するのは、機能が未知の遺伝子だけでは、疾患と関係付ける根拠がないためである。
図7に、パターン重みの補正の一例を示す。決定部16は、例えば、機能が未知の遺伝子と、機能が既知で診断対象の疾患との関係がある遺伝子とが含まれるパターンについて、パターンに含まれる機能が未知の遺伝子1つにつき1回、算出済みのパターン重みを1.5倍している。なお、パターン重みの補正方法はこれに限定されず、機能が未知の遺伝子の数又は比率に応じた値を加算する等、他の方法で補正してもよい。
決定部16は、補正後のパターン重みを最終的なパターン重みとして決定し、パターン及びパターン重みを出力部18へ受け渡す。なお、パターン重みは、開示の技術の「第2の重み」の一例である。
出力部18は、決定部16により決定されたパターン重みが所定値以上のパターンに含まれる遺伝子を、診断基準の候補となる遺伝子群として出力する。出力された情報は、例えば、医師等が利用する情報処理端末のディスプレイに、図8に示すような出力画面で表示される。図7及び図8の例では、パターン重みが2.5以上のパターンが、診断基準の候補となる遺伝子群として出力される例を示している。なお、診断基準の候補となる遺伝子群の情報は、ディスプレイに表示される場合に限定されず、用紙にプリント出力される等、他の方法で出力されてもよい。
診断支援装置10は、例えば図9に示すコンピュータ40で実現することができる。コンピュータ40は、CPU(Central Processing Unit)41と、一時記憶領域としてのメモリ42と、不揮発性の記憶部43とを備える。また、コンピュータ40は、入力部、表示部等の入出力装置44と、記憶媒体49に対するデータの読み込み及び書き込みを制御するR/W(Read/Write)部45とを備える。また、コンピュータ40は、インターネット等のネットワークに接続される通信I/F(Interface)46を備える。CPU41、メモリ42、記憶部43、入出力装置44、R/W部45、及び通信I/F46は、バス47を介して互いに接続される。
記憶部43は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリ等によって実現できる。記憶媒体としての記憶部43には、コンピュータ40を、診断支援装置10として機能させるための診断支援プログラム50が記憶される。診断支援プログラム50は、生成プロセス52と、取得プロセス54と、決定プロセス56と、出力プロセス58とを有する。
CPU41は、診断支援プログラム50を記憶部43から読み出してメモリ42に展開し、診断支援プログラム50が有するプロセスを順次実行する。CPU41は、生成プロセス52を実行することで、図1に示す生成部12として動作する。また、CPU41は、取得プロセス54を実行することで、図1に示す取得部14として動作する。また、CPU41は、決定プロセス56を実行することで、図1に示す決定部16として動作する。また、CPU41は、出力プロセス58を実行することで、図1に示す出力部18として動作する。また、CPU41は、取得プロセス54の実行時に、ルール集合24をメモリ42に展開する。これにより、診断支援プログラム50を実行したコンピュータ40が、診断支援装置10として機能することになる。なお、プログラムを実行するCPU41はハードウェアである。
なお、診断支援プログラム50により実現される機能は、例えば半導体集積回路、より詳しくはASIC(Application Specific Integrated Circuit)等で実現することも可能である。
次に、本実施形態に係る診断支援装置10の作用について説明する。診断支援装置10にサンプルデータ集合22が入力されると、診断支援装置10において、図10に示す診断支援処理が実行される。なお、診断支援処理は、開示の技術の診断支援方法の一例である。以下、図15に示す診断支援処理の概略図もあわせて参照して、図10の診断支援処理の一例を示すフローチャートについて説明する。
ステップS10で、生成部12が、訓練データ生成処理を実行する。ここで、図11を参照して、訓練データ生成処理について説明する。
ステップS11で、生成部12が、診断支援装置10に入力されたサンプルデータ集合22を取得する。次に、ステップS12で、生成部12が、サンプルデータ集合22に含まれる遺伝子の種類から、以下の処理が未処理の遺伝子の種類を1つ選択する。次に、ステップS14で、生成部12が、既存の二値化手法により、選択した遺伝子の種類についての二値化の閾値を決定する。
次に、ステップS16で、生成部12が、サンプルデータ集合22から、以下の処理が未処理のサンプルデータを1つ選択する。次に、ステップS18で、生成部12が、選択したサンプルデータにおいて、選択した遺伝子の種類の遺伝子発現量が、決定した閾値より大きいか否かを判定する。遺伝子発現量>閾値の場合には、処理はステップS19へ移行し、遺伝子発現量≦閾値の場合には、処理はステップS20へ移行する。
ステップS19では、生成部12が、遺伝子発現量を、高発現を示す値(例えば「1」)に変換する。一方、ステップS20では、生成部12が、遺伝子発現量を、低発現を示す値(例えば「0」)に変換する。
次に、ステップS21で、生成部12が、サンプルデータ集合22に含まれる全てのサンプルデータについて、上記ステップS18~S20の処理を完了したか否かを判定する。未完のサンプルデータが存在する場合には、処理はステップS16に戻り、全てのサンプルデータについて処理が完了している場合には、処理はステップS22へ移行する。
ステップS22で、生成部12が、全ての遺伝子の種類について、上記ステップS14~S21の処理が完了したか否かを判定する。未完の遺伝子の種類が存在する場合には、処理はステップS12に戻り、全ての遺伝子の種類について処理が完了している場合には、訓練データ生成処理は終了し、処理は診断支援処理(図10)に戻る。これにより、図15の(A)に示すように、サンプルデータの遺伝子発現量が二値化された訓練データセットが生成される。
次に、ステップS30で、取得部14が、ルール取得処理を実行する。ここで、図12を参照して、ルール取得処理について説明する。
ステップS31で、取得部14が、生成部12により生成された訓練データセットを取得する。訓練データセットに含まれる訓練データの各々は、遺伝子発現情報と疾患の有無を示す分類ラベルとを含む。
次に、ステップS32で、取得部14が、遺伝子発現情報を説明変数、及び分類ラベルを目的変数として、上述した特性を有するAIを適用して訓練データを機械学習する。具体的には、取得部14は、AIに、複数の遺伝子の種類の組合せを網羅的に列挙させる。そして、取得部14は、AIに、組合せ毎に、その組合せに含まれる遺伝子が高発現であることの、診断対象の疾患ありとの診断結果に対する寄与度(重要度)を、訓練データの遺伝子発現情報と分類ラベルとの対応付けから機械学習させる。
次に、ステップS33で、取得部14が、高発現の遺伝子の組合せをルール、そのルールに付与された重要度をルール重みとして取得し、ルール集合24として所定の記憶領域に記憶する。そして、ルール取得処理は終了し、処理は診断支援処理(図10)に戻る。これにより、図15の(B)に示すように、取得部14は、診断対象の疾患(図15の例では「肺がん」)ありとの診断へ導く仮説を示すルール及びルール重みを、ルール集合として取得する。
次に、ステップS40で、決定部16が、パターン生成処理を実行する。ここで、図13を参照して、パターン生成処理について説明する。
ステップS41で、決定部16が、ユーザから、パターンに含める遺伝子の種類数の指定を受け付け、指定された種類数の遺伝子の組合せをパターンとして生成する。次に、ステップS42で、決定部16が、生成したパターンから、以下の処理が未処理のパターンを1つ選択する。
次に、ステップS43で、決定部16が、選択したパターンに含まれる遺伝子の種類全てを含むルールを、ルール集合24から検索する。次に、ステップS44で、決定部16が、上記ステップS43で、1つ以上のルールが検索されたか否かを判定する。1つ以上のルールが検索されている場合には、処理はステップS45へ移行し、ルールが検索されなかった場合には、処理はステップS46へ移行する。
ステップS45では、決定部16が、検索されたルールに対応付けられたルール重みの合計値を、選択したパターンのパターン重みとして算出する。次に、ステップS46で、決定部16が、生成した全てのパターンについて、上記ステップS43~S45の処理が完了したか否かを判定する。未完のパターンが存在する場合には、処理はステップS42に戻り、全てのパターンについて処理が完了している場合には、パターン生成処理は終了し、処理は診断支援処理(図10)に戻る。
次に、ステップS50で、決定部16が、重み補正処理を実行する。ここで、図14を参照して、重み補正処理について説明する。
ステップS51で、決定部16が、パターン生成処理により生成されたパターンを1つ選択する。次に、ステップS52で、決定部16が、パターンに含まれる機能が未知の遺伝子の種類数をカウントするため変数α、及び機能が既知で診断対象の疾患との関係がある遺伝子の種類数をカウントするための変数βの各々を0に設定する。
次に、ステップS53で、決定部16が、選択したパターンに含まれる遺伝子の種類のうち、以下の処理が未処理の遺伝子の種類を1つ選択する。次に、ステップS54で、決定部16が、選択した種類の遺伝子が、機能が既知の遺伝子か否かを判定する。機能が既知の遺伝子の場合には、処理はステップS56へ移行する。一方、機能が未知の遺伝子の場合には、処理はステップS55へ移行し、決定部16が、αを1インクリメントして、処理はステップS58へ移行する。
ステップS56では、決定部16が、選択した種類の遺伝子が、診断対象の疾患との関係がある遺伝子か否かを判定する。疾患との関係がある遺伝子の場合には、処理はステップS57へ移行し、疾患との関係がない遺伝子の場合には、処理はステップS58へ移行する。ステップS57では、決定部16が、βを1インクリメントして、処理はステップS58へ移行する。
ステップS58では、決定部16が、選択したパターンに含まれる遺伝子の全ての種類について、上記ステップS53~S57の処理が完了したか否かを判定する。未完の遺伝子の種類が存在する場合には、処理はステップS53に戻り、全ての遺伝子の種類について処理が完了している場合には、処理はステップS59へ移行する。
ステップS59では、決定部16が、α及びβに基づいて、選択したパターンのパターン重みを補正する。具体的には、決定部16は、α>0かつβ>0の場合に、αの数又は比率が多いほど、パターン重みを大きくするように補正する。例えば、決定部16は、「補正前のパターン重み×γα(γは定数、例えば、1.5)」のように、パターン重みを補正する。
次に、ステップS60で、全てのパターンについて、上記ステップS52~S59の処理が完了したか否かを判定する。未完のパターンが存在する場合には、処理はステップS51に戻り、全てのパターンについて処理が完了している場合には、処理はステップS61へ移行する。ステップS61では、決定部16が、補正後のパターン重みを最終的なパターン重みとして決定し、各パターンをパターン重みが大きい順にソートする。そして、重み補正処理は終了し、処理は診断支援処理(図10)に戻る。
パターン生成処理及び重み補正処理により、図15の(C)に示すように、所定個(図15の例では、k=3個)の遺伝子の種類を含むパターン毎に、ルール重みに基づいてパターン重みが決定される。
次に、ステップS70で、出力部18が、決定部16により決定されたパターン重みが所定値以上のパターンに含まれる遺伝子を、診断基準の候補となる遺伝子群として出力する。所定値は、予め定めた値であってもよいし、上位N番目のパターン重みの値としてもよい。後者の場合、パターン重みが上位N位までのパターンが、診断基準候補として出力される。
これにより、図15の(D)に示すように、医師等が、出力された診断基準の候補となる遺伝子群を参照し、医学的知見を踏まえて、検査対象遺伝子である診断基準を決定する。そして、遺伝子診断の場面では、図15の(E)に示すように、例えば、患者から採血して、診断基準が示す検査対象遺伝子の発現量を測定し、測定結果に基づいて、疾患の有無が診断される。
以上説明したように、本実施形態に係る診断支援装置は、機械学習によって生成された、1以上の遺伝子の種類の組合せで表されるルールであって、それぞれに診断対象の疾患に対するルール重みが対応付けられたルールの集合を取得する。ルールは、遺伝子の網羅的な組合せ毎に、その組合せに含まれる遺伝子が高発現である場合における、診断結果への寄与度に応じた重要度を付与するAIを適用して、疾患あり及び疾患なしの遺伝子発現情報を機械学習することにより作成される。診断支援装置は、所定個の遺伝子の種類を含むパターン毎に、パターンに含まれる遺伝子の種類を含むルールに対応付けられたルール重みに基づくパターン重みを決定し、決定されたパターン重みが所定値以上のパターンを、診断基準候補として出力する。これにより、診断基準の決定に機械学習を利用する場合において、診断に有効な診断基準の決定を支援することができる。
また、診断支援装置は、パターンに含まれる所定個の特徴に、機能が未知の遺伝子と機能が既知で疾患に関係する遺伝子とが含まれる場合、パターンに含まれる機能が未知の遺伝子の数又は比率が多いほど、パターン重みを大きくするように補正する。これにより、これまで特徴として現れ難かった未知の遺伝子への対応も可能とする診断基準候補を抽出することができる。
なお、上記実施形態では、遺伝子診断の例について説明したが、開示の技術の適用は、これに限定されない。複数の特徴の組合せと診断基準とに基づいて、診断結果を予測する場合であれば、開示の技術を適用することができる。例えば、遺伝子以外の医療診断や、画像データ等のセンシングデータに基づき、異常の有無等を診断する場合にも適用可能である。
また、上記実施形態では、ルール重みに基づいて算出したパターン重みを、パターンに含まれる機能が未知の遺伝子の数又は比率に基づいて補正する場合について説明したが、パターン重みを補正することは、必須ではない。ただし、機能が未知の遺伝子を診断基準に加えたい場合には、上記実施形態のようにパターン重みを補正することが有効である。
また、上記実施形態では、診断支援プログラムが記憶部に予め記憶(インストール)されている態様を説明したが、これに限定されない。開示の技術に係るプログラムは、CD-ROM、DVD-ROM、USBメモリ等の記憶媒体に記憶された形態で提供することも可能である。
10 診断支援装置
12 生成部
14 取得部
16 決定部
18 出力部
22 サンプルデータ集合
24 ルール集合
40 コンピュータ
41 CPU
42 メモリ
43 記憶部
49 記憶媒体
50 診断支援プログラム

Claims (6)

  1. 診断対象のサンプルが示す特徴、及び前記診断対象以外のサンプルが示す特徴を含む訓練データセットを利用した機械学習によって生成された、1以上の特徴の組合せで表されるルールであって、それぞれに前記診断対象に対する第1の重みが対応付けられたルールの集合を取得し、
    所定個の特徴を含むパターン毎に、前記パターンに含まれる特徴を含むルールの各々に対応付けられた前記第1の重みの合計値、積、重み付き和、又は平均を第2の重みとして決定し、
    決定された前記第2の重みが所定値以上の前記パターンを出力する
    ことを含む処理をコンピュータに実行させるための診断支援プログラム。
  2. 前記ルールは、前記サンプルが示す特徴の網羅的な組合せ毎に、前記診断対象か前記診断対象以外かの診断結果への寄与度を付与する前記機械学習により生成される請求項1に記載の診断支援プログラム。
  3. 前記訓練データセットは、前記サンプルが示す特徴の各々の特徴量を二値化した値と、前記サンプルが前記診断対象のサンプルか、又は前記診断対象以外のサンプルかを示すラベルとを対応付けた訓練データの集合である請求項1又は請求項2に記載の診断支援プログラム。
  4. 前記特徴が、遺伝子の発現量に応じた特徴の場合であって、前記パターンに含まれる前記所定個の特徴に、機能が未知の遺伝子と機能が既知の遺伝子とが含まれる場合、前記パターンに含まれる前記機能が未知の遺伝子の数又は比率が多いほど、前記第2の重みを大きくするように前記第2の重みを補正する請求項1~請求項3のいずれか1項に記載の診断支援プログラム。
  5. 診断対象のサンプルが示す特徴、及び前記診断対象以外のサンプルが示す特徴を含む訓練データセットを利用した機械学習によって生成された、1以上の特徴の組合せで表されるルールであって、それぞれに前記診断対象に対する第1の重みが対応付けられたルールの集合を取得する取得部と、
    所定個の特徴を含むパターン毎に、前記パターンに含まれる特徴を含むルールの各々に対応付けられた前記第1の重みの合計値、積、重み付き和、又は平均を第2の重みとして決定する決定部と、
    決定された前記第2の重みが所定値以上の前記パターンを出力する出力部と、
    を含む診断支援装置。
  6. 診断対象のサンプルが示す特徴、及び前記診断対象以外のサンプルが示す特徴を含む訓練データセットを利用した機械学習によって生成された、1以上の特徴の組合せで表されるルールであって、それぞれに前記診断対象に対する第1の重みが対応付けられたルールの集合を取得し、
    所定個の特徴を含むパターン毎に、前記パターンに含まれる特徴を含むルールの各々に対応付けられた前記第1の重みの合計値、積、重み付き和、又は平均を第2の重みとして決定し、
    決定された前記第2の重みが所定値以上の前記パターンを出力する
    ことを含む処理をコンピュータが実行する診断支援方法。
JP2022529227A 2020-06-03 2020-06-03 診断支援プログラム、装置、及び方法 Active JP7444252B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/021994 WO2021245850A1 (ja) 2020-06-03 2020-06-03 診断支援プログラム、装置、及び方法

Publications (3)

Publication Number Publication Date
JPWO2021245850A1 JPWO2021245850A1 (ja) 2021-12-09
JPWO2021245850A5 JPWO2021245850A5 (ja) 2022-12-16
JP7444252B2 true JP7444252B2 (ja) 2024-03-06

Family

ID=78830699

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022529227A Active JP7444252B2 (ja) 2020-06-03 2020-06-03 診断支援プログラム、装置、及び方法

Country Status (5)

Country Link
US (1) US20230057455A1 (ja)
EP (1) EP4163385A4 (ja)
JP (1) JP7444252B2 (ja)
CN (1) CN115668393A (ja)
WO (1) WO2021245850A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006072011A2 (en) 2004-12-30 2006-07-06 Proventys, Inc. Methods, systems, and computer program products for developing and using predictive models for predicting a plurality of medical outcomes, for evaluating intervention strategies, and for simultaneously validating biomarker causality
WO2018187496A2 (en) 2017-04-04 2018-10-11 Lung Cancer Proteomics, Llc Plasma based protein profiling for early stage lung cancer prognosis
JP2020028278A (ja) 2018-08-24 2020-02-27 国立大学法人九州大学 被検体に生じるイベントを予測するための判別器の生成方法、及び前記判別器を用いた被検体の層別化方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006072011A2 (en) 2004-12-30 2006-07-06 Proventys, Inc. Methods, systems, and computer program products for developing and using predictive models for predicting a plurality of medical outcomes, for evaluating intervention strategies, and for simultaneously validating biomarker causality
WO2018187496A2 (en) 2017-04-04 2018-10-11 Lung Cancer Proteomics, Llc Plasma based protein profiling for early stage lung cancer prognosis
JP2020028278A (ja) 2018-08-24 2020-02-27 国立大学法人九州大学 被検体に生じるイベントを予測するための判別器の生成方法、及び前記判別器を用いた被検体の層別化方法

Also Published As

Publication number Publication date
EP4163385A4 (en) 2023-08-02
JPWO2021245850A1 (ja) 2021-12-09
US20230057455A1 (en) 2023-02-23
EP4163385A1 (en) 2023-04-12
WO2021245850A1 (ja) 2021-12-09
CN115668393A (zh) 2023-01-31

Similar Documents

Publication Publication Date Title
JP6839342B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP5142135B2 (ja) データを分類する技術
RU2517286C2 (ru) Классификация данных выборок
JP2005524131A (ja) クラシファイアの性能の見積りに関する方法および装置
CN101517602A (zh) 使用基于分类器集成的遗传算法进行特征选择的方法
JP6750055B2 (ja) 顔画像からの定性的特徴を評価するコンピュータ実行ツールを構築する方法
KR102351306B1 (ko) 질환 연관 유전자 변이 분석을 통한 질환별 위험 유전자 변이 정보 생성 장치 및 그 방법
JP6941309B2 (ja) 遺伝子変異の評価装置、評価方法、プログラム、および記録媒体
KR102382707B1 (ko) 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 장치 및 그 방법
EP3859666A1 (en) Classification device, classification method, program, and information recording medium
CN110268072A (zh) 确定旁系同源基因的方法和系统
JP2016200435A (ja) マススペクトル解析システム,方法およびプログラム
Hupse et al. The effect of feature selection methods on computer-aided detection of masses in mammograms
US11132790B2 (en) Wafer map identification method and computer-readable recording medium
TWI816078B (zh) 樣本分群探勘方法
JP2020190935A (ja) 機械学習プログラム、機械学習方法および機械学習装置
JP7444252B2 (ja) 診断支援プログラム、装置、及び方法
KR102187344B1 (ko) 결정 트리를 이용한 반려동물 진단 방법 및 장치
JP2021165909A (ja) 情報処理装置、情報処理装置の情報処理方法およびプログラム
KR102389479B1 (ko) 시간 변동 공변량 기반의 prs 모델을 이용한 질환별 위험 유전자 변이 정보 생성 장치 및 그 방법
JP4997524B2 (ja) 多変数決定木構築システム、多変数決定木構築方法および多変数決定木を構築するためのプログラム
JP7364206B2 (ja) 学習装置、学習方法、及び制御プログラム
JP2021043056A (ja) 分子マーカー探索方法、分子マーカー探索装置、及びプログラム
CN110265151B (zh) 一种基于ehr中异构时态数据的学习方法
KR20200113397A (ko) 데이터 불균형 해결을 위한 언더샘플링 기반 앙상블 방법

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220929

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220929

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231003

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240123

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240205

R150 Certificate of patent or registration of utility model

Ref document number: 7444252

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150