JP2022018345A - がん検査装置及びがん検査方法 - Google Patents

がん検査装置及びがん検査方法 Download PDF

Info

Publication number
JP2022018345A
JP2022018345A JP2020121399A JP2020121399A JP2022018345A JP 2022018345 A JP2022018345 A JP 2022018345A JP 2020121399 A JP2020121399 A JP 2020121399A JP 2020121399 A JP2020121399 A JP 2020121399A JP 2022018345 A JP2022018345 A JP 2022018345A
Authority
JP
Japan
Prior art keywords
cancer
metabolite
mass
data
test
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020121399A
Other languages
English (en)
Inventor
隆士 石垣
Takashi Ishigaki
実 坂入
Minoru Sakairi
眞由美 阿部
Mayumi Abe
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2020121399A priority Critical patent/JP2022018345A/ja
Priority to CN202180034179.0A priority patent/CN115552234A/zh
Priority to US18/011,211 priority patent/US20230253109A1/en
Priority to PCT/JP2021/010804 priority patent/WO2022014098A1/ja
Publication of JP2022018345A publication Critical patent/JP2022018345A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N27/00Investigating or analysing materials by the use of electric, electrochemical, or magnetic means
    • G01N27/62Investigating or analysing materials by the use of electric, electrochemical, or magnetic means by investigating the ionisation of gases, e.g. aerosols; by investigating electric discharges, e.g. emission of cathode
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/62Detectors specially adapted therefor
    • G01N30/72Mass spectrometers
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/60ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices
    • G16H40/67ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices for remote operation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/60ICT specially adapted for the handling or processing of medical references relating to pathologies

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Chemical & Material Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Biotechnology (AREA)
  • Analytical Chemistry (AREA)
  • Pathology (AREA)
  • Primary Health Care (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Bioethics (AREA)
  • General Physics & Mathematics (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • Electrochemistry (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

【課題】多様ながんの検査を実現することを課題とする。【解決手段】がん患者及び健常者を有する複数の被検者に対するがん検査の結果である臨床データと、これらの被検者から採取された第1の尿検体に対してLC/MSによる解析を行った結果であり、第1の尿検体における複数の代謝物の量に関する情報である代謝物網羅データとを基に、がん検査モデルとして構築するがん検査モデル生成部113と、第1の被検者とは別の被検者である第2の被検者から採取された第2の尿検体に対してLC/MSによる解析を行った結果であるサンプルデータを取得する第2の取得部と、サンプルデータにおける代謝物の量を、がん検査モデルに適用することで、第2の被検者におけるがんの状態を推定する検査処理部114と、推定されたがんの状態を出力する出力処理部114と、を有することを特徴とする。【選択図】図2

Description

本発明は、がん検査装置及びがん検査方法の技術に関する。
従来の尿中代謝物によるがん検査システムでは、例えば、がんか、がんではないかの2群の情報を基に、バイオマーカの絞り込み、以下の式(1)による予測式を用いて予測値が算出される。そして、予測値が「+」の値であれば、がんの可能性が高いと判定され、「-」であればがんの可能性が低いと判定される。式(1)のような予測式を適宜がん検査モデルと称する。式(1)によるがん検査モデルはがんであるか否かを識別するためのものであり、一般的によく用いられているものである。ちなみに、バイオマーカとはがんの発症と因果関係を有する尿中代謝物である。つまり、バイオマーカは尿中代謝物であるが、すべての尿中代謝物がバイオマーカとなるわけではない。以降、バイオマーカをマーカと称し、尿中代謝物を代謝物と称する。
予測値=α×(マーカ#1の強度)+β×(マーカ#2の強度)
+γ×(マーカ#3の強度)+δ ・・・(1)
式(1)におけるα、β、γ、δは定数である。
ここで、式(1)は、がんであるか否かを判定するためのがん検査モデルであるが、後記するように、所定のがん種が発症しているか否かや、がんの状態を判定するための予測式もがん検査モデルと称することとする。
特許文献1には、「(a)尿検体を液体クロマトグラフ質量分析計(LC/MS)に供し、該尿検体中の尿中代謝物を解析するステップ、(b)前記尿中代謝物の解析データに基づいて、ランダムフォレスト法により前記尿中代謝物の重要度を定量的に評価し、重要度の高い尿中代謝物を選択するステップ、(c)前記選択した尿中代謝物の解析データを用いて判別分析法を行うステップ、(d)前記判別分析の結果に基づいて、特定の疾患又は状態と関連した尿中代謝物をマーカー候補として決定するステップを含む、尿中代謝物マーカーを探索する」尿中代謝物におけるバイオマーカー探索法が開示されている。
特開2019-105456号公報
式(1)によるがん検査モデルを用いた検査システムを実用する場合、以下のことが課題となる。
(A)式(1)によるがん検査モデルは、正解(がんか否か)が既知のデータが対象であり、正答率が高くなるようにがん検査モデルが作成されている。従って、式(1)の予測式による予測値がわずかでも正になれば、がんの可能性ありとして判別されてしまう可能性がある。逆に、式(1)の予測式による予測値がわずかでも負になれば、がんの可能性なしとして判別されてしまう可能性がある。式(1)の予測式に基づくがん検査モデルは優れているものの、前記判別分析では算出される予測値の大小に対しての考慮が含まれておらず、意味付けされていない。
(B)構築したがん検査モデルの精度(感度・特異度・AUC等)を検証する際、がんの有無が既知のデータが用いられて評価される。しかし、本検査システムを実用する際は、答えが不明のデータが対象となる場合が多いが、がんか否かの2群での判別になってしまう。一方、実用においては、プレスクリーニング検査として、がんになりつつあるリスク判定やがんが初期段階かどうか、あるいは、予後検査として、治療によりがんが増減しているか等を示すことが望まれる。例えば、がんの大きさや、浸潤度等といったように正否の2群以外の検査結果が望まれる。特許文献1に記載の技術も、このような観点からさらなる改良が必要である。
このような背景に鑑みて本発明がなされたのであり、本発明は、多様ながんの検査を実現することを課題とする。
前記した課題を解決するため、本発明は、がん患者及び健常者を有する複数の被検者である第1の被検者達に対するがん検査の結果であるがん検査結果が格納されているがん検査データを取得するとともに、前記第1の被検者達から採取された第1の尿検体に対してLC/MSによる解析を行った結果であり、前記第1の尿検体における複数の代謝物の量に関する情報である第1の代謝物網羅データを取得する第1の取得部と、前記がん検査データと、前記第1の代謝物網羅データとを基に、前記がん検査データにおける前記がん検査結果と、前記第1の代謝物網羅データにおける、それぞれの前記代謝物の量との関係をがん検査モデルとして構築するがん検査モデル生成部と、前記第1の被検者達とは別の被検者である第2の被検者から採取された第2の尿検体に対して前記LC/MSによる解析を行った結果である第2の代謝物網羅データを取得する第2の取得部と、前記第2の代謝物網羅データにおける前記代謝物の量を、前記がん検査モデルに適用することで、前記第2の被検者におけるがんの状態を推定するがん状態推定部と、推定された前記がんの状態を出力する出力部と、を有することを特徴とする。
その他の解決手段は実施形態中において適宜記載する。
本発明によれば、多様ながんの検査を実現することができる。
本実施形態におけるがん検査システムの構成例を示す図である。 本実施形態に係るがん検査装置の構成例を示す図である。 本実施形態におけるがん検査モデル生成処理の手順を示すフローチャートの一例である。 臨床データの一例を示す図である。 代謝物網羅データの一例を示す図である。 マーカ候補抽出結果データの一例を示す例である。 第1がん検査モデルにテストデータを適用した検証結果を示す図である。 第2がん検査モデルにテストデータを適用した検証結果を示す図である。 第3がん検査モデルにテストデータを適用した検証結果を示す図である。 がん検査モデルデータの一例を示す図である。 本実施形態における検査処理の手順を示すフローチャートの一例である。 検査結果データの一例を示す図である。 結果出力データの一例を示す図である。
次に、本発明を実施するための形態(「実施形態」という)について、適宜図面を参照しながら詳細に説明する。なお、本実施形態では、大腸がん検査と対象としているが、他のがんの検査にも適用可能であるし、複数のがん種や、がん全般にも適用可能である。
<がん検査システム10>
図1は、本実施形態におけるがん検査システム10の構成例を示す図である。
がん検査システム10は、がん検査装置1、LC/MS(Liquid Chromatography-Mass Spectrometry)2、ユーザ端末(出力部)3を有する。
がん検査装置1は、LC/MS2から送られる代謝物網羅データ131(図3参照)や、図示しないがん検査機関4から送られる臨床データ121(図3参照)を基に、がん検査モデルを生成する。ここで、臨床データ121は被検者に対するがん検査の結果のデータであり、代謝物網羅データ131はLC/MS2により、複数の分離モードを用い、尿検体中の代謝物を網羅的に検出した結果のデータである。
さらに、がん検査を行いたい被検者の尿検体がLC/MS2によって解析され、尿検体中の代謝物に関するデータであるサンプルデータ132(図11参照)ががん検査装置1に入力される。そして、がん検査装置1は、サンプルデータ132と、生成したがん検査モデルとを基にがん検査を行う。そして、がん検査装置1は、がん検査の結果を被検者が所有するユーザ端末3へ出力する。
なお、本実施形態では、がん検査モデルの生成と、生成したがん検査モデルを用いたがん検査とが1つの装置で行われている。しかし、これに限らずがん検査モデルの生成と、生成したがん検査モデルを用いたがん検査とが、それぞれ異なる装置で行われてもよい。また、図1に示す例では、がん検査モデルを用いたがん検査の結果がユーザ端末3に送信されるものとしている。しかし、これに限らず、がん検査の結果が印刷された紙等が郵送により被検者に送付されてもよい。
<がん検査装置1>
図2は、本実施形態に係るがん検査装置1の構成例を示す図である。適宜、図1を参照する。
がん検査装置1は、通信装置(第1の取得部、第2の取得部)101、キーボードや、マウス等の入力装置102、ディスプレイや、プリンタ等の出力装置(出力部)103を有する。また、がん検査装置1は、メモリ110、CPU(Central Processing Unit)104を有する。さらに、がん検査装置1は、臨床情報DB120、代謝物DB130、検査モデルDB140、解析条件DB150、検査結果DB160を有する。
通信装置101は、LC/MS2や、がん検査機関4に設置されているサーバ(不図示)、ユーザ端末3間の情報の送受信を行う。
メモリ110には、図示しない記憶装置に格納されているプログラムがロードされる。ロードされたプログラムがCPU104によって実行されることで、前処理部111、候補抽出部(絞込部)112、がん検査モデル生成部113、検査処理部(がん状態推定部)114、出力処理部(出力部)115が具現化する。
前処理部111は、臨床データ(がん検査データ)121(図3参照)及び代謝物網羅データ(第1の代謝物網羅データ)131(図3参照)に対する前処理を行う。前処理については後記する。
候補抽出部112は、代謝物網羅データ131における代謝物の中からがん検査に有用と考えられる代謝物を抽出する(絞り込む)。
がん検査モデル生成部113は、臨床データ121及び代謝物網羅データ131において候補抽出部112によって抽出された代謝物のデータを基に、がんの諸症状を判定するためのがん検査モデルを生成する。
検査処理部114は、生成したがん検査モデルと、サンプルデータ(第2の代謝物網羅データ)132(図11参照)とを用いて、がん検査を行う。ここで、サンプルデータ132とは、がん検査を行いたい被検者の尿検体をLC/MS2によって解析した結果であり、当該尿検体に含まれる代謝物の量に関するデータである。
出力処理部115は、がん検査の結果をユーザ端末3等に送信する。
臨床情報DB120には、がん検査機関4から送られた臨床データ121が格納されている。臨床データ121については後記する。
代謝物DB130には、LC/MS2による解析の結果である代謝物網羅データ131や、サンプルデータ132が格納されている。代謝物網羅データ131及びサンプルデータ132については後記する。
検査モデルDB140には、がん検査モデル生成部113によって生成されたがん検査モデルに関する情報ががん検査モデルデータ141(図10参照)として格納されている。
解析条件DB150には、LC/MS2による解析に必要な条件が格納されている。
検査結果DB160には、生成されたがん検査モデルを用いた行われたがん検査の結果が検査結果データ161(図12参照)として格納されている。
このように、がん検査装置1は、がん検査モデルを生成する処理と、生成したがん検査モデルを用いて、実際のがん検査を行う処理との2つの処理を行う。以下、当該2つの処理について、説明する。
<がん検査モデル生成フローチャート>
図3は、本実施形態におけるがん検査モデル生成処理の手順を示すフローチャートの一例である。
まず、被検者から採取された尿検体に対してLC/MS2による解析(LC/MS解析)が行われ(S101)、また、被検者に対してがん検査が行われる(S102)。ステップS101では、複数の分離モードが用いられることにより、尿検体中の代謝物が網羅的に検出される。ここで、複数の分離モードとして、尿検体中の代謝物をできる限り数多く検出するため、逆相分配/順相分配/HILIC等によるLCにおける分離や、MSにおけるエレクトロスプレー法による正または負のイオン化等が用いられる。
がん検査の結果は臨床データ121に格納され、LC/MS2による解析の結果は代謝物網羅データ131に格納される。
そして、臨床データ121及び代謝物網羅データ131ががん検査装置1に入力される。
ここで、図4及び図5を参照して、臨床データ121及び代謝物網羅データ131の具体例を説明する。
本実施形態では、大腸がん患者と対照群である健常者から30個ずつの尿検体を収集し、前記したようにLC/MS2による解析が行われる(S101)。この結果、得られる代謝物のイオン強度は千種類以上である。
(臨床データ121)
図4は、臨床データ121の一例を示す図である。
臨床データ121は、「検体ID」、「ドナーID」、「採取日」、「病理名」、「詳細」、「年齢」、「性別」、「ステージ」、「T因子(T)」、「N因子(N)」、「M因子(M)」の各フィールドを有する。
ここで、「検体ID」は、尿検体を一意に区別するためのIDである。
「ドナーID」は、被検者(ドナー)を一意に区別するためのIDである。
採取日は、尿検体の採取日である。
「病理名」は、がん検査の結果判明したがんの名称である。なお、「NA」は、がんが良性、もしくは、がんが検出されなかったことを意味する。
「詳細」には、検出されたがん(大腸がん)の詳細が格納されている。図4の例では、「Rectum(直腸)」、「Sigmoid colon(S字結腸)」等、大腸がんが検出された場所が格納されている。また、図4の例に示すように、がん(腫瘍)が良性である場合は、「良性」が格納され、がん(腫瘍)そのものが検出されなかった場合は「NA」が格納される。
「T因子(T)」は、腫瘍の大きさと浸潤の度合とを示す指標であり、症状の軽い方からT1a,T1b,T2a,T2b,T3,T4となる。
「N因子(N)」は、腫瘍のリンパ節転移の度合を示す指標であり、リンパ節転移がない場合が「N0」、最も転移している状態が「N3」となる。
「M因子(M)」は、遠隔転移を示す指標であり、遠隔転移がない場合は「M0」、遠隔転移がある場合は、転移の場所により「M1a」、又は、「M1b」となる。
図4に示すように、できるだけ詳細な臨床情報を収集することが望ましい。また図4に示すように、がんか否かだけでなく、腫瘍の大きさやステージ、悪性/良性、TNM等、詳細な情報が多いほうが望ましい。
(代謝物網羅データ131)
図5は、代謝物網羅データ131の一例を示す図である。
図5に示すように、代謝物網羅データ131は、「検体ID」、「重量オスモル濃度」、「代謝物A」、「代謝物B」、「代謝物C」、・・・の各フィールドを有している。
「検体ID」は、図4の「検体ID」と同様である。
「代謝物A」、「代謝物B」、「代謝物C」、・・・の各フィールドには、MSによって測定される尿検体におけるそれぞれの代謝物のイオン強度(以下、強度と称する)が格納されている。代謝物は、図示しない代謝物データベース等により判別できるもの以外に、MS時にm/z(質量電荷比)のみ判明し、化学構造の不明な未知代謝物も含まれる。また、図5に示すように、各尿検体に対し、重量オスモル濃度(あるいはクレアチニン濃度)が測定されることで、代謝物の1日量への補正が行われることが望ましい。
図3の説明に戻る。
次に、ステップS103では、前処理部111が入力された臨床データ121及び代謝物網羅データ131に対して、前処理が行われる。前処理部111は、必要に応じて、データの紐づけ、データの統合、不要なデータのクリーニング、フォーマット変換、正規化、重量オスモル濃度やクレアチニン濃度による規格化、標準化、欠損値の補完、外れ値の除外、オートスケーリング等が行われる。このとき、がん検査モデルに含めない薬剤や、食品由来の外因性代謝物等も除外される。なお、ここで記載した前処理は、すべて行われる必要はない。なお、ステップS103の処理は、ユーザが経験に基づいて入力装置102を介して入力された情報を基に前処理部111が行ってもよいし、前処理部111が自動で行ってもよい。
続いて、前処理部111は、必要に応じて、前処理を行った臨床データ121及び代謝物網羅データ131それぞれにおける尿検体データをがん検査モデル生成用のトレーニングデータ171と、生成したがん検査モデルの検証用のテストデータ172に分ける。ここで、尿検体データとは、臨床データ121及び代謝物網羅データ131において共通する検体IDを有するレコードとする。尿検体データは、ランダムにトレーニングデータ171と、テストデータ172とに分けられる。なお、トレーニングデータ171とは、がん検査モデルを生成するための教師データである。また、テストデータ172は、生成したモデルを検証するためのデータである。つまり、交差検証が行われる。
次に、候補抽出部112はマーカ候補抽出処理を行う。ここでは、候補抽出部112は、まず、がん患者と健常者の2群に対し、各代謝物の尿検定中の量について有意差検定(t検定、f検定、ウィルコクソン順位和検定等)を行う(S111)。その上で、候補抽出部112は、がん患者と健常者との間で有意差がある代謝物をマーカ候補として抽出する。さらに、候補抽出部112は、相関解析や、機械学習の一つであるランダムフォレスト法を行い(S112)、マーカ候補の重要度を算出し、ランク付けを行う。ステップS111,S112の処理は、各がん検査モデルの生成時(S121~S124)毎に実行されてもよいが、代謝物網羅データ131における代謝物種類は数千にも及ぶため、ステップS111で先行してマーカの候補を数十から数百にまで絞り込んでおけば、計算量・時間の削減になる。なお、有意差検定(S111)及びランダムフォレスト法(S112)の両方が行われる必要はなく、どちらか一方が行われるようにしてもよい。
(マーカ候補抽出結果)
ステップS111,S112の処理の結果、得られる上位20位のマーカ候補を図6に示す。
図6は、マーカ候補抽出結果データの一例を示す例である。
マーカ候補抽出結果データは、「順位」、「重要度」、「LS/MS分離モード」、「m/z(質量電荷比)」の各フィールドを有する。
ここで、「重要度」とはランダムフォレストによって算出さされる重要度である。また、図6の例では「重要度」が大きい順に「順位」がつけられている。また、図6の例では、順位17,18,19位が同じ分離モードかつ同じ質量となっているが、LCでの保持時間の差などによって区別される。また、同じ化学式で同じ質量であっても、光学異性体などのように化学構造が異なるものがある。
図3の説明に戻る。
次に、がん検査モデル生成部113は第1がん検査モデル生成処理を行う(S121)。ステップS121において、がん検査モデル生成部113はOPLS-DA(Orthogonal partial least squares discriminant analysis)を用いることによって、がんであるか否かを判定するがん検査モデルである第1がん検査モデル(第1のがん検査モデル)142を生成する。本実施形態では、大腸がん患者/健常者のデータが扱われるため、第1がん検査モデル142によって、大腸がんであるか否かが判定される。なお、OPLS-DAに限らず、他の判別分析が用いられてもよい。
例えば、がん検査モデル生成部113は、図6に示すマーカ候補抽出結果に示される20個のマーカ候補のうち、上位10個をマーカとして選択する。また、60個の尿検体データを30個のトレーニングデータ171と、30個のテストデータ172に分ける。前記したように、尿検体データとは、臨床データ121及び代謝物網羅データ131において共通する検体IDを有するレコードとする。なお、上位10個のマーカ、30個のトレーニングデータ171、30個のテストデータ172の「10個」、「30個」は一例である、これらの個数に限らない。例えば、図4の臨床データ121における「検体ID:0001」のレコードと、図5の代謝物網羅データ131における「検体ID:0001」のレコードとを合わせたものを1個の尿検体データと称する。また、60個の尿検体データはランダムに選択され、30個のトレーニングデータ171と、30個のテストデータ172とはそれぞれ異なる尿検体データである。
その上で、がん検査モデル生成部113は、まず、トレーニングデータ171を用いてOPLS-DAによる大腸がん(がん)/健常者を判別する第1がん検査モデル142を生成する。つまり、第1がん検査モデル142は大腸がんの発症の有無を判定する。
具体的には、がん検査モデル生成部113は、10個のマーカの強度を10個の変数とした1次式を仮定する。次に、がん検査モデル生成部113は、OPLS-DAを用いて、大腸がん患者/健常者に判別可能な各変数の係数を算出する。これにより、以下の式(2)に示す第1がん検査モデル142が生成される。
y0=a1・x1+a2・x2+・・・+a9・x9+a10・x10+a0
・・・(2)
ここで、x1,x2,・・・、x10は、図6に示すマーカ候補抽出結果に示される20個のマーカ候補のうち、選択された上位10個をマーカの強度である。また、a1,a2,・・・,a10,a0は、OPLS-DAを用いて算出される、大腸がん患者/健常者に判別可能な各変数の係数である。
その後、がん検査モデル生成部113は、30個のテストデータ172を用いて、生成した第1がん検査モデル142を検証する。つまり、がん検査モデル生成部113は、大腸がん/健常者の答え付きのデータに対して第1がん検査モデル142を適用し、その正答率を検証する。なお、ステップS121では、OPLS-DAによる第1がん検査モデル142の生成から、生成された第1がん検査モデル142の検証までを含んでいる。
図7は、第1がん検査モデル142にテストデータ172を適用した検証結果を示す図である。
式(2)に示す第1がん検査モデル142による予測値y0は、10個のマーカの強度に対し、マーカ毎の係数を乗算した1次多項式であり、予測値y0が正であればがん患者、負であれば健常者、と判別するがん検査モデルである。
図7に示す30個のテストデータ172による検証によれば、予め健常者と分かっている15人の健常者については全員健常者と判定できている。また、比較的高精度な判別モデルが生成できていることが分かる。
図3の説明に戻る。
図3のステップS112の後、がん検査モデル生成部113は、第2がん検査モデル生成処理を行う(S122)。ステップS122おいて、がん検査モデル生成部113はロジスティック分析を用いることによって、第2がん検査モデル(第2のがん検査モデル)143を生成する。ここで、第2がん検査モデル143は、がん、あるいは所定のがん種を発症している確率(リスク)を算出するがん検査モデルである。本実施形態では、大腸がん患者/健常者のデータが用いられているため、第2がん検査モデル143ではがん(ここでは大腸がん)が発症している確率が判定される。
第2がん検査モデル143は、例えば、被検者が自宅で採尿し、簡易にリスク判断ができ、精密検査を促すようなスキームを想定している。まず、がん検査モデル生成部113は、第1がん検査モデル142で用いた60個の尿検体データを、第1がん検査モデル142と同様、30個のトレーニングデータ171と、テストデータ172とに分け、トレーニングデータ171に対してロジスティック分析を行う。この際、がん検査モデル生成部113は、以下の式(3)を仮定する。
y1=1/[1+exp{-(b1・x1+b2・x2+・・・+b20・x20+b0)}]
・・・(3)
ここで、x1,x2,・・・,x20は、第1がん検査モデル142で用いた20個のマーカ候補の強度である。なお、xの添え字は図6に示す「順位」である。また、b1,b2,・・・,b20は係数であり、最尤法によって決定される。
次に、がん検査モデル生成部113は、それぞれのマーカ候補におけるオッズ比(exp(b1)、exp(b2)、・・・、exp(b20))を算出する。その後、がん検査モデル生成部113は、オッズ比が大きい順に上位7個のマーカを選択する。なお、選択するマーカは7個に限らない。この結果、図6に示す「順位」で1,2,5,7,11,12,20位の7個のマーカが選択された。
そして、がん検査モデル生成部113は、選択した7個のマーカを式(3)に適用すると、以下の式(4)の第2がん検査モデル143が得られる。ここで、係数b1,b2,b5,b7,b11,b12,b20,b0のそれぞれは、7個のマーカでがん検査モデルを再構築するため、式(3)と異なる値となる。
y1=1/[1+exp{-(b1・x1+b2・x2+b5・x5+b7・x7+b11・x11+b12・x12+b20・x20+b0)}]
・・・(4)
x1,x2,・・・、b1,b2,・・・は式(3)と同様であるのでここでの説明を省略する。
式(4)のexp{-(y2)}のy2の部分、すなわち、以下の式(5)を第2がん検査モデル143の予測値とする。
y2=b1・x1+b2・x2+b5・x5+b7・x7+b11・x11+b12・x12+b20・x20+b0 ・・・(5)
その後、がん検査モデル生成部113は、第2がん検査モデル143の検証を行う。具体的には、がん検査モデル生成部113は、30個のテストデータ172における選択したマーカの強度を第2がん検査モデル143(式(4))に代入する。そして、がん検査モデル生成部113は、そこから得られる確率(式(4))と、テストデータにおけるがんの発症とを比較することで第2がん検査モデル143の検証を行う。なお、ステップS122では、ロジスティック分析による第2がん検査モデル143の生成から、生成した第2がん検査モデル143の検証までを含む。
なお、実際の尿検体データを用いて、ロジスティック分析を行い、オッズ比を求めたところ、オッズ比による順位は、今回の例のように、必ずしも図6に示すランダムフォレストによる順位と一致しないことがわかった。つまり、ランダムフォレストに加えて、第2がん検査モデル143を用いることによって、精度の高いがん(大腸がん)検査を実現することができる。
一般的に、今回のようなランダムフォレストにおける順位と、ロジスティック分析による順位のように、異なる分析方法による順位の一致度は、使用するマーカの数が多いほど一致率が向上する。また、用するマーカの数が多いほど高精度ながん検査モデルの生成が可能となる。これに対して、使用するマーカの数が少ないほど、がん検査モデルを用いたがん検査時のコストや時間を低減しやすくなる。従って、使用するマーカの数は、これらのバランスによりユーザが決定する。
図8は第2がん検査モデル143にテストデータ172を適用した検証結果を示す図である。
図8において、横軸は、対象となっている7個のマーカの強度に、それぞれの係数をかけ足し合わせた1次多項式である予測値を示している
ここで、予測値は式(5)のy2の値である。
そして、縦軸は、第2がん検査モデル143の予測値y2に対するがん(大腸がん)が発症している確率(式(4)のy1)である。
図8において、点線は、第2がん検査モデル143による、予測値y2に対するがん(大腸がん)が発症している確率(式(4)のy1)を示している。また、白抜きのひし形、ドットの丸は、テストデータ172における7個のマーカを用いた場合の予測値y2と、第2がん検査モデル143によるがん(大腸がん)が発症している確率(式(4)のy1)を示している。白抜きのひし形は健常者であることがわかっている尿検体データに基づいた結果であり、ドットの丸はがん患者であることがわかっている尿検体に基づいた結果である。図8の例では、テストデータ172の予測値による確率は、ほぼ「0」か「1」に分かれているが、実際には「0」と「1」の中間の確率も存在する。
図8に示すように、第2がん検査モデル143は、高い精度で大腸がんの発症確率を算出することができる。第2がん検査モデル143は、大腸がん患者/健常者に対する質的確率を出力することができる。このように、第2がん検査モデル143を大腸がんであるか否かが不明な被検者の尿検体に対して適応することにより、大腸がんの発症確率のスコア(リスク)化が可能となる。これにより、被検者のへの大腸がんのリスクを提示することができる。
図3の説明に戻る。
図3のステップS122の後、がん検査モデル生成部113は、第3がん検査モデル生成処理を行う(S123)。ステップS123おいて、がん検査モデル生成部113は重回帰分析を用いることによって、第3がん検査モデル(第3のがん検査モデル)144を生成する。第3がん検査モデル144は腫瘍の大きさを推定するがん検査モデルである。
ここでは、ユーザが、まず腫瘍の大きさを「1」から「5」の5クラスにわけ、腫瘍のない人は「0」のクラスとして設定する。がん検査モデル生成部113は、次に、第1がん検査モデル142の生成時に用いたトレーニングデータ171に対して重回帰分析を行う。具体的には、がん検査モデル生成部113は以下の式(11)を仮定する。
y4=c1・x1+c2・x2+・・・+c20・x20+c0 ・・・(11)
ここで、x1,x2,・・・,x20は、第1がん検査モデル142で用いた20個のマーカ候補の強度である。なお、xの添え字は図6に示す「順位」である。また、c1,c2,・・・,c20,c0は係数(偏回帰係数)である。これらの係数は一般的な重回帰分析の手法によって決定される。そして、がん検査モデル生成部113は、20個のマーカうち、図6に示す「順位」が1,2,5,8,9,10位の6個のマーカを選択する。この選択は、重回帰分析における各マーカのt値、p値や、交差検証における第3がん検査モデル144の精度を考慮して決定される。また、y4は、腫瘍の大きさ「0」~「5」となる。
そして、がん検査モデル生成部113は、選択した図6に示す「順位」が1,2,5,8,9,10位の6個のマーカを式(11)に適用した以下の式(12)を第3がん検査モデル144とする。ここで、係数c1,c2,c5,c8,c9,c10,c0は、この6個のマーカでがん検査モデルを再構築するため、式(11)と異なる値となる。
y4=c1・x1+c2・x2+c5・x5+c8・x8+c9・x9+c10・x10+c0
・・・(12)
次に、がん検査モデル生成部113は、第3がん検査モデル144の検証を行う。具体的には、がん検査モデル生成部113は、式(12)に示す第3がん検査モデル144にテストデータ172における代謝物の強度を代入する。そして、がん検査モデル生成部113は、第3がん検査モデル144にテストデータ172における代謝物の強度を代入した結果と、テストデータ172における腫瘍の大きさとを比較することで、第3がん検査モデル144の検証を行う。なお、ステップS123の処理は、重回帰分析による第3がん検査モデル144の生成から、その検証までを含んでいる。
図9は、第3がん検査モデル144にテストデータ172を適用した検証結果を示す図である。
図9において、横軸は腫瘍の大きさのクラス(「0」~「5」)を示している。また、縦軸は第3がん検査モデル144による予測値(式(12)のy4)を示している。そして、図9における白丸はテストデータ172を第3がん検査モデル144に適用した値を示している。例えば、横軸の「1」にプロットされている白丸は、がん検査(本実施形態では大腸がん検査)の結果、腫瘍の大きさが「1」であることがわかっている尿検体データに第3がん検査モデル144を適用した結果を示している。
図9に示すように、第3がん検査モデル144はおおよそ腫瘍の大きさを推定可能である。第3がん検査モデル144と同様の処理によって、治療効果等を推定するがん検査モデルを生成することができる。
なお、図8の横軸の予測値は、第2がん検査モデル143による予測値(式(4))であり、図9の縦軸の予測値は、式(12)(第3がん検査モデル144)による予測値である。つまり、図9の縦軸の予測値は、式(12)にテストデータ172における代謝物の濃度を代入した値(式(12)のy4)である。
図3の説明に戻る。
図3のステップS123の後、がん検査モデル生成部113は、第4がん検査モデル生成処理を行う(S124)。ステップS124において、がん検査モデル生成部113はロジスティック分析を用いることによって、第4がん検査モデル(第2のがん検査モデル)145を生成する。第4がん検査モデル145はがんあるいは所定のがん種(本実施形態では大腸がん)の腫瘍が悪性か良性かの確率(リスク;腫瘍の悪性/良性確率)を算出するがん検査モデルである。
第4がん検査モデル145の生成手順は、第2がん検査モデル143の生成と同様の手順であるため、ここでの説明を省略する。なお、本実施形態において、第4がん検査モデル145は大腸がんの腫瘍の悪性/良性確率を推定するが、これに限らず、大腸がんの他の部位への転移確率でもよいし、その他の質的確率を推定するものでもよい。
生成された、それぞれのがん検査モデルは図10に示すがん検査モデルデータ141に格納された上で検査モデルDB140に格納される。
ここでは、第1がん検査モデル142でがんの発症の有無、第2がん検査モデル143でがん(本実施形態では大腸がん)の発症確率、第3がん検査モデル144で腫瘍の大きさ、第4がん検査モデル145でがん(本実施形態では大腸がん)の腫瘍の悪性/良性確率が推定されている。このほかにも、第3がん検査モデル144のように重回帰分析を行うことで、治療効果や、がんの浸潤度合等を推定するためのがん検査モデルを生成することが可能である。
(がん検査モデルデータ141)
図10は、がん検査モデルデータ141の一例を示す図である。
図10に示すがん検査モデルデータ141は、図3に示すがん検査モデル生成処理(S121~S124)において生成されるものである。
図10に示すように、がん検査モデルデータ141は、「モデル番号」、「モデル生成手法」、「係数#0」、「マーカ#1」、「係数#1」、「マーカ#2」、「係数#2」、「マーカ#3」、「係数#3」、・・・の各フィールドを有している。
「モデル番号」には、がん検査モデルの番号が格納されている。例えば、「モデル番号:1」は前記した第1がん検査モデル142を示し、「モデル番号:2」は前記した第2がん検査モデル143を示す。「モデル番号:3」、「モデル番号:4」も同様である。なお、それぞれのがん検査モデルが何を推定するためのモデルであるかを示す情報もがん検査モデルデータ141に格納されているとよい。例えば、第3がん検査モデル144は「腫瘍の大きさ」を推定するためのモデルである。
「モデル生成手法」には、それぞれのがん検査モデルを生成した際に使用した分析手法の名称(OPLS-DAや、ロジスティック分析、重回帰分析等)が格納されている。
「係数#0」には、それぞれのがん検査モデルにおける0次係数の値が格納される。0次係数とは、式(5)のb0、式(12)のc0である。
「マーカ#1」は、式(5)や、式(12)のx1であり、「係数#1」は、式(5)のb1、式(12)のc1である。
以下、「マーカ#2」、「マーカ#3」、・・・、「係数#2」、「係数#3」、・・・も同様である。ちなみに、「#」の後の数字は、がん検査モデルにおける数字であり、図6の「順位」ではない。例えば、第2がん検査モデル143における「マーカ#3」は式(5)のx5であり、「係数#3」は式(5)のb5である。同様に、第3がん検査モデル144における「マーカ#3」は式(12)におけるx5であり、「係数#3」は式(12)におけるc5である。
がん検査モデルで判定される質的変数として、本実施形態に記載したものの他に、がんの転移や、浸潤の有無、血管新生の有無、代謝リプログラミング(代謝物への反映)の有無等も可能である。また、がん検査モデルで判定される量的変数として、活性度や、がんステージ、浸潤度合、血管新生数、代謝リプログラミングの程度等も可能である。また、質的変数及び量的変数を複合的に判定することで、がんの場所や疾患名等も判定可能である。これらのがん検査モデルは、できるだけ網羅的に生成され、行われるがん検査において、最も適したものが使用される。
なお、がん検査モデルそれぞれに適したマーカのセットがある。それぞれのがん検査モデルにおいて、できるだけ使用するマーカを共通化し、マーカ数を少なくすることで、図11におけるがん検査の効率を向上させることができる。
<検査フローチャート>
図11は、本実施形態における検査処理の手順を示すフローチャートの一例である。
図11では、図3で示すフローチャートによって生成されたがん検査モデルを用いて実際のがん検査を行う。ここでは、がん検査として大腸がん検査が行われるものとする。
まず、被検者の尿検体に対しLC/MS2による解析(LC/MS解析)が行われる(S201)ことで、各代謝物の強度が測定される。
そして、サンプルデータ132ががん検査装置1に入力される。サンプルデータ132は、図5に示す代謝物網羅データ131と同様でよいが、図5に示す代謝物網羅データ131に重量オスモル濃度あるいはクレアチニン量が加わっていることが望ましい。また、入力されるサンプルデータ132において、代謝物量は、使用される各がん検査モデルで使用される代謝物について入力されればよい。
そして、前処理部111は、入力されたサンプルデータ132に対して前処理を行う(S202)。ステップS202の処理は、図3のステップS104と同様であるので、ここでの説明を省略する。
続いて、検査処理部114が、第2がん検査モデル143を用いて、検査対象となっている尿検体に対する大腸がんの発症確率Pを算出する(S211、第2がん検査モデル処理)。つまり、検査処理部114は、サンプルデータ132におけるマーカの強度を式(5)に代入することで予測値を算出する。さらに、検査処理部114は、算出した予測値(式(5)のy2)を式(4)に代入することで、大腸がんの発症確率P(すなわち、式(4)のy1)を算出する。ここでは、第2がん検査モデル143を使用しているが、第1がん検査モデル142が使用されることで、がんの発症の有無が判定されてもよい。
そして、検査処理部114は、ステップS211の第2がん検査モデル処理で算出された大腸がんの発症確率Pが所定の値P1以下(P≦P1)であるか否かを判定する(S212)。ここでは、P1=10%とするが、この確率に限らない。ここでは、P1=10%としているが、P1=0%として、ステップS212において、検査処理部114はP=P1であるか否かを判定してもよい。
ステップS212の結果、大腸がんの発症確率Pが所定の値P1(ここでは10%)以下である場合(S212→Yes)、検査処理部114は、大腸がんのリスク少(例えば、ABCD段階評価の「D」)判定として、ユーザ端末3へがん検査(ここでは大腸がん検査)の結果を出力する(S221)。
ステップS212の結果、大腸がんの発症確率Pが所定の値P1(ここでは10%)より大きい場合(S212→No)、すなわち、がん検査モデルにおいて、大腸がんの発症確率が高い、あるいは、中程度であった場合、検査処理部114は、次のがん検査モデルを実行し、より詳細な状態を算出・出力する。
図11に示すフローチャートの例では、ステップS212で「No」が判定されると、検査処理部114は、第3がん検査モデル処理を行う(S213)。この処理において、検査処理部114は、第3がん検査モデル144(式(12))を用いて、腫瘍の大きさの予測値を算出し、その結果を検査結果データ161に格納する。
また、検査処理部114は、第4がん検査モデル処理を行う(S214)。この処理において、検査処理部114は、第4がん検査モデル145を用いて、がん(ここでは大腸がん)の腫瘍の悪性/良性確率を算出し、その結果を検査結果データ161(図12参照)に格納する。
さらに、検査処理部114は、ステップS212で「No」が判定されると、第5がん検査モデル処理を行う(S215)。この処理では、第5がん検査モデルを用いて、がんの他の箇所への転移確率を算出し、その結果を検査結果データ161に格納する。このように、第5がん検査モデルは、図3において示していないが、がんの転移有無やその確率を算出するのもがん検査モデルである。
なお、図11において、第4がん検査モデル処理(S214)が第3がん検査モデル処理(S213)の後に行われ、第5がん検査モデル処理(S215)が、第3がん検査モデル処理及び第4がん検査モデル処理と並列に行われているが、処理の順番はこれに限らない。また、図11の例は、一例であり、どのようながん検査モデルが用いられてがん検査が行われるかはユーザの設定による。
最後に、検査結果データ161の内容を基に、出力処理部115が、図13に示す結果出力データ181を生成する。そして、出力処理部115は、結果出力データ181をユーザ端末3へ出力することによって、がん検査(ここでは、大腸がん検査)の結果を出力する(S221)
(検査結果データ161)
図12は、検査結果データ161の一例を示す図である。
図12に示す検査結果データ161は、図11に示す検査処理において生成されるものである。
図12に示すように、「サンプルID」、「検査日」、「年齢」、「性別」、「大腸がん確率」、「良性確率」、「腫瘍の大きさ」、「転移確率」、・・・等の各フィールドを有する。
「検体ID」には、尿検体を一意に区別するためのIDである。ここでの尿検体はサンプルデータ132における尿検体である。
「大腸がん確率」は、第2がん検査モデル143によって算出される大腸がんを発症する確率である。
また、「良性確率」は、第4がん検査モデル145によって算出される大腸がんの腫瘍が悪性/良性確率である。
「腫瘍の大きさ」は、第3がん検査モデル144によって算出される腫瘍の大きさのクラスである。
そして、「転移確率」は第5がん検査モデルによって算出されるものである。
(結果出力データ181)
図13は、結果出力データ181の一例を示す図である。
図13に示す結果出力データ181は、図12に示す検査結果データ161を基に出力処理部115が生成して出力する。出力は、被検者の携帯端末等に対して行われる。
図13に示すように、結果出力データ181は、「サンプルID」、「氏」、「名」、「年齢」、「性別」、「検査日」、「大腸がん確率」、「良性確率」、「腫瘍の大きさ」、「転移確率」である。なお、「氏」、「名」は、「サンプルID」と被検者の氏名が対応付けられている氏名データ(不図示)があり、出力処理部115が「サンプルID」をキーとして氏名データを検索することにより、「氏」、「名」が結果出力データ181に出力される。
結果出力データ181に格納されるデータは、図12の検査結果データ161に格納されているデータである。図13に示す例では、図12の検査結果データ161の「サンプルID:0001」のレコードに格納されているデータが示されている。ただし、「大腸がん確率」には、図12の「大腸がん確率」が低い方から順に「A」~「D」の4段階で示されている。また、「良性確率」は高い方から順に「A」~「D」の4段階で示されている。また、「腫瘍の大きさ」には、図12の「大腸がん確率」が小さい方から順に「A」~「D」の4段階で示されている。そして、「転移有無」には、図12の「転移確率」が低い方から順に「A」~「D」の4段階で示されている。コメント欄には、医師や検査機関によるコメントが記載される。
がんには多種多様な状態(がん種、ステージ、TNM、悪性/良性、腫瘍の大きさ、活性度、血管新生、浸潤、転移、等)があり、代謝リプログラミングがあると想定される。これまで、実用ながん検査としては、がんか否か(1/0判別)が式(1)によって判定されるのみであった。しかし、実際のがん検査では、このような情報だけでなく、悪性/良性、リスク(質的確率)、治療効果(量的変数)等の提示が必要である。本実施形態によれば、がん(大腸がん)を発症している確率や、腫瘍の大きさ等を尿検体中の代謝物の強度を基に判定することができるがん検査モデルを生成することができる。これによって、尿検体中の代謝物の強度を基に、さまざまながんの状態を検査することができ、がん検査のコスト、及び、効率を大幅に向上させることができる。また、このようながん検査モデルは、画像診断結果との対応等の治療補助や、データの内挿に利用することによる定量明確化、画像データの外挿に利用することによる発見不可な微小腫瘍の発見等といった補助手段として用いることができる。
また、ステップS111、S112において、候補抽出部112ががん検査モデル生成の対象となる代謝物を絞り込むことで、がん検査モデルの生成を効率よく行うことができる。また、候補抽出部112は、代謝物を絞り込む際、有意差検定によってがん患者と健常者とで有意差を有する前記代謝物を抽出する。あるいは、候補抽出部112は、ランダムフォレストの重要度を基に、代謝物の順位付けを行い、順位が上位の代謝物を抽出する。これにより、がんの発症に関連がある代謝物を絞り込むことができ、効率的ながん検査モデルの生成を行うことができる。
また、第1がん検査モデル142によって、がん、あるいは所定のがん種(例えば大腸がん)の発症の有無を判定することができる。
さらに、第2がん検査モデル143や、第4がん検査モデル145によって、がん、あるいは所定のがん種(例えば大腸がん)における所定の状態を発症している確率を推定することができる。
そして、第3がん検査モデル144によって、がんにおける所定現象の状態の度合い(例えば、腫瘍の大きさ等)を推定することができる。
また、本実施形態のようながん検査モデルを生成することで、それぞれのがん検査モデルに対して、有用なマーカがあることを発明者は見い出した。例えば、がんであるか否かを判定するための代謝物の上位候補(図6等)中、ステージの大小判定に適している代謝物や、適していない代謝物である。
本実施形態では、図3のステップS111において有意差検定を行い、さらにランダムフォレストを行うことで、マーカの候補を絞り込んでいるが、これに限らない。例えば、
n個(例えば、n=10)の代謝物間の相関係数が算出され、相関係数が高いものが除かれることでマーカの候補が絞り込まれてもよい。あるいは、パスウェイ解析等で互いに別経路の代謝物をマーカ候補として優先的に残すことでマーカを絞り込む等の手法がある。
本発明は前記した実施形態に限定されるものではなく、様々な変形例が含まれる。例えば、前記した実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明したすべての構成を有するものに限定されるものではない。
また、前記した各構成、機能、各部111~115、各DB120,130,140,150,160等は、それらの一部又はすべてを、例えば集積回路で設計すること等によりハードウェアで実現してもよい。また、図2に示すように、前記した各構成、機能等は、CPU104等のプロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、HD(Hard Disk)に格納すること以外に、メモリ110や、SSD(Solid State Drive)等の記録装置、又は、IC(Integrated Circuit)カードや、SD(Secure Digital)カード、DVD(Digital Versatile Disc)等の記録媒体に格納することができる。
また、各実施形態において、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしもすべての制御線や情報線を示しているとは限らない。実際には、ほとんどすべての構成が相互に接続されていると考えてよい。
1 がん検査装置
2 LC/MS
3 ユーザ端末(出力部)
101 通信装置(第1の取得部、第2の取得部)
103 出力装置(出力部)
112 候補抽出部(絞込部)
113 がん検査モデル生成部
114 検査処理部(がん状態推定部)
115 出力処理部(出力部)
121 臨床データ(がん検査データ)
131 代謝物網羅データ(第1の代謝物網羅データ)
132 サンプルデータ(第2の代謝物網羅データ)
142 第1がん検査モデル(第1のがん検査モデル)
143 第2がん検査モデル(第2のがん検査モデル)
144 第3がん検査モデル(第3のがん検査モデル)
145 第4がん検査モデル(第2のがん検査モデル)
S121 第1検査モデル生成処理(がん検査モデル生成ステップ)
S122 第2検査モデル生成処理(がん検査モデル生成ステップ)
S123 第3検査モデル生成処理(がん検査モデル生成ステップ)
S124 第4検査モデル生成処理(がん検査モデル生成ステップ)
S211 第2がん検査モデル処理(がん状態推定ステップ)
S213 第3がん検査モデル処理(がん状態推定ステップ)
S214 第4がん検査モデル処理(がん状態推定ステップ)
S215 第5がん検査モデル処理(がん状態推定ステップ)
S221 結果出力(出力ステップ)

Claims (15)

  1. がん患者及び健常者を有する複数の被検者である第1の被検者達に対するがん検査の結果であるがん検査結果が格納されているがん検査データを取得するとともに、前記第1の被検者達から採取された第1の尿検体に対してLC/MSによる解析を行った結果であり、前記第1の尿検体における複数の代謝物の量に関する情報である第1の代謝物網羅データを取得する第1の取得部と、
    前記がん検査データと、前記第1の代謝物網羅データとを基に、前記がん検査データにおける前記がん検査結果と、前記第1の代謝物網羅データにおける、それぞれの前記代謝物の量との関係をがん検査モデルとして構築するがん検査モデル生成部と、
    前記第1の被検者達とは別の被検者である第2の被検者から採取された第2の尿検体に対して前記LC/MSによる解析を行った結果である第2の代謝物網羅データを取得する第2の取得部と、
    前記第2の代謝物網羅データにおける前記代謝物の量を、前記がん検査モデルに適用することで、前記第2の被検者におけるがんの状態を推定するがん状態推定部と、
    推定された前記がんの状態を出力する出力部と、
    を有することを特徴とするがん検査装置。
  2. 前記第1の取得部によって取得された前記第1の代謝物網羅データにおける前記代謝物の量のデータを所定の手法で絞り込む絞込部
    を有することを特徴とする請求項1に記載のがん検査装置。
  3. 前記絞込部は、
    前記第1の取得部によって取得された前記第1の代謝物網羅データにおける前記代謝物の量に対し、前記がん検査結果との有意差検定を行い、がん患者と健常者とで有意差を有する前記代謝物を抽出する
    ことを特徴とする請求項2に記載のがん検査装置。
  4. 前記絞込部は、
    前記第1の取得部によって取得された前記第1の代謝物網羅データにおける前記代謝物の量に対し、ランダムフォレストによる前記代謝物の重要度を算出し、
    前記重要度の順位付けを行い、
    上位所定数の順位を有する前記代謝物を抽出する
    ことを特徴とする請求項2に記載のがん検査装置。
  5. 前記がん検査モデル生成部は
    OPLS-DAに基づいて、がん、あるいは所定のがん種の発症の有無を判定するための第1のがん検査モデルを生成する
    ことを特徴とする請求項1に記載のがん検査装置。
  6. 前記第1のがん検査モデルは、大腸がんの発症の有無を判定する
    ことを特徴とする請求項5に記載のがん検査装置。
  7. 前記第1のがん検査モデルは、前記LC/MSによって測定された、以下の代謝物それぞれのイオン強度を変数とする一次多項式である
    ことを特徴とする請求項6に記載のがん検査装置。
    (1)質量電荷比が91、LC/MS分離モードが逆相/負イオン化である、マススペクトルとして検出される代謝物
    (2)質量電荷比が255、LC/MS分離モードが逆相/負イオン化である、マススペクトルとして検出される代謝物
    (3)質量電荷比が224、LC/MS分離モードが逆相/正イオン化である、マススペクトルとして検出される代謝物
    (4)質量電荷比が168、LC/MS分離モードが逆相/負イオン化である、マススペクトルとして検出される代謝物
    (5)質量電荷比が317、LC/MS分離モードが逆相/負イオン化である、マススペクトルとして検出される代謝物
    (6)質量電荷比が245、LC/MS分離モードが逆相/負イオン化である、マススペクトルとして検出される代謝物
    (7)質量電荷比が288、LC/MS分離モードが逆相/正イオン化である、マススペクトルとして検出される代謝物
    (8)質量電荷比が343、LC/MS分離モードが逆相/負イオン化である、マススペクトルとして検出される代謝物
    (9)質量電荷比が110、LC/MS分離モードが逆相/正イオン化である、マススペクトルとして検出される代謝物
    (10)質量電荷比が177、LC/MS分離モードが逆相/正イオン化である、マススペクトルとして検出される代謝物
  8. 前記がん検査モデル生成部は、
    ロジスティック分析に基づいて、がん、あるいは所定のがん種における所定の状態の発症確率を推定するための第2のがん検査モデルを生成する
    ことを特徴とする請求項1に記載のがん検査装置。
  9. 前記第2のがん検査モデルは、大腸がんの発症確率を推定する
    ことを特徴とする請求項8に記載のがん検査装置。
  10. 前記第2のがん検査モデルは、前記LC/MSによって測定された、以下の代謝物それぞれのイオン強度を変数とする一次多項式である
    ことを特徴とする請求項7に記載のがん検査装置。
    (21)質量電荷比が91、LC/MS分離モードが逆相/負イオン化である、マススペクトルとして検出される代謝物
    (22)質量電荷比が255、LC/MS分離モードが逆相/負イオン化である、マススペクトルとして検出される代謝物
    (23)質量電荷比が317、LC/MS分離モードが逆相/負イオン化である、マススペクトルとして検出される代謝物
    (24)質量電荷比が288、LC/MS分離モードが逆相/正イオン化である、マススペクトルとして検出される代謝物
    (25)質量電荷比が299、LC/MS分離モードが逆相/負イオン化である、マススペクトルとして検出される代謝物
    (26)質量電荷比が287、LC/MS分離モードがHILIC/負イオン化である、マススペクトルとして検出される代謝物
    (27)質量電荷比が243、LC/MS分離モードが逆相/負イオン化である、マススペクトルとして検出される代謝物
  11. 前記第2のがん検査モデルは、
    ロジスティック分析に基づいて、がん、あるいは所定のがん種について、悪性か、良性かの確率を推定するためのものである
    ことを特徴とする請求項8に記載のがん検査装置。
  12. 前記がん検査モデル生成部は、
    重回帰分析に基づいて、がんにおける所定現象の状態の度合いを判定するための第3のがん検査モデルを生成する
    ことを特徴とする請求項1に記載のがん検査装置。
  13. 前記所定現象の状態の度合いとは、腫瘍の大きさである
    ことを特徴とする請求項12に記載のがん検査装置。
  14. 前記第3のがん検査モデルは、前記LC/MSによって測定された、以下の代謝物それぞれのイオン強度を変数とする一次多項式である
    ことを特徴とする請求項13に記載のがん検査装置。
    (31)質量電荷比が91、LC/MS分離モードが逆相/負イオン化である、マススペクトルとして検出される代謝物
    (32)質量電荷比が255、LC/MS分離モードが逆相/負イオン化である、マススペクトルとして検出される代謝物
    (33)質量電荷比が317、LC/MS分離モードが逆相/負イオン化である、マススペクトルとして検出される代謝物
    (34)質量電荷比が343、LC/MS分離モードが逆相/負イオン化である、マススペクトルとして検出される代謝物
    (35)質量電荷比が110、LC/MS分離モードが逆相/正イオン化である、マススペクトルとして検出される代謝物
    (36)質量電荷比が177、LC/MS分離モードが逆相/正イオン化である、マススペクトルとして検出される代謝物
  15. がんの状態を推定するためのがん検査モデルを生成するとともに、生成した前記がん検査モデルを使用して、前記がんの状態が未知の被検者における前記がんの状態を推定するがん検査装置が、
    がん患者及び健常者を有する複数の被検者である第1の被検者達に対するがん検査の結果であるがん検査結果が格納されているがん検査データと、前記第1の被検者達から採取された第1の尿検体に対してLC/MSによる解析を行った結果であり、前記第1の尿検体における複数の代謝物の量に関する情報である第1の代謝物網羅データとを基に、前記がん検査データにおける前記がん検査結果と、前記第1の代謝物網羅データにおける、それぞれの前記代謝物の量との関係を前記がん検査モデルとして生成するがん検査モデル生成ステップと、
    前記第1の被検者達とは別の被検者である第2の被検者から採取された第2の尿検体に対して前記LC/MSによる解析を行った結果である第2の代謝物網羅データにおける前記代謝物の量を、前記がん検査モデルに適用することで、前記第2の被検者におけるがんの状態を推定するがん状態推定ステップと、
    推定された前記がんの状態を出力する出力ステップと、
    を実行することを特徴とするがん検査方法。
JP2020121399A 2020-07-15 2020-07-15 がん検査装置及びがん検査方法 Pending JP2022018345A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2020121399A JP2022018345A (ja) 2020-07-15 2020-07-15 がん検査装置及びがん検査方法
CN202180034179.0A CN115552234A (zh) 2020-07-15 2021-03-17 癌检查装置以及癌检查方法
US18/011,211 US20230253109A1 (en) 2020-07-15 2021-03-17 Cancer screening device and cancer screening method
PCT/JP2021/010804 WO2022014098A1 (ja) 2020-07-15 2021-03-17 がん検査装置及びがん検査方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020121399A JP2022018345A (ja) 2020-07-15 2020-07-15 がん検査装置及びがん検査方法

Publications (1)

Publication Number Publication Date
JP2022018345A true JP2022018345A (ja) 2022-01-27

Family

ID=79554644

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020121399A Pending JP2022018345A (ja) 2020-07-15 2020-07-15 がん検査装置及びがん検査方法

Country Status (4)

Country Link
US (1) US20230253109A1 (ja)
JP (1) JP2022018345A (ja)
CN (1) CN115552234A (ja)
WO (1) WO2022014098A1 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108603859B (zh) * 2016-06-10 2021-06-18 株式会社日立制作所 尿中代谢物在制备癌的评价方法所使用的试剂盒中的用途
JP7018605B2 (ja) * 2017-03-30 2022-02-14 株式会社島津製作所 大腸がん検査方法
JP6857597B2 (ja) * 2017-12-08 2021-04-14 株式会社日立製作所 尿中代謝物におけるバイオマーカー探索法
JP7016079B2 (ja) * 2018-03-23 2022-02-04 国立大学法人東海国立大学機構 小児がん検査用尿中代謝物マーカー

Also Published As

Publication number Publication date
US20230253109A1 (en) 2023-08-10
WO2022014098A1 (ja) 2022-01-20
CN115552234A (zh) 2022-12-30

Similar Documents

Publication Publication Date Title
Whalen et al. Navigating the pitfalls of applying machine learning in genomics
Jones et al. Indirect methods for reference interval determination–review and recommendations
Xia et al. Translational biomarker discovery in clinical metabolomics: an introductory tutorial
Lamichhane et al. An overview of metabolomics data analysis: current tools and future perspectives
US20190108912A1 (en) Methods for predicting or detecting disease
Blaise et al. Statistical analysis in metabolic phenotyping
Enot et al. Preprocessing, classification modeling and feature selection using flow injection electrospray mass spectrometry metabolite fingerprint data
Galal et al. Applications of machine learning in metabolomics: Disease modeling and classification
Rinaudo et al. Biosigner: a new method for the discovery of significant molecular signatures from omics data
Dona et al. Translational and emerging clinical applications of metabolomics in cardiovascular disease diagnosis and treatment
Huber et al. Stability of person-specific blood-based infrared molecular fingerprints opens up prospects for health monitoring
van Rossum et al. Optimization and validation of moving average quality control procedures using bias detection curves and moving average validation charts
JP2023156388A (ja) 測定分析物を使用する、疾患診断を改善するための方法
Takahashi et al. Improved metabolomic data-based prediction of depressive symptoms using nonlinear machine learning with feature selection
McGurk et al. The use of missing values in proteomic data-independent acquisition mass spectrometry to enable disease activity discrimination
Coley et al. A Bayesian hierarchical model for prediction of latent health states from multiple data sources with application to active surveillance of prostate cancer
EP3677914A1 (en) Biomarker for diagnosing depression and use of biomarker
Eisner et al. A Machine‐Learned Predictor of Colonic Polyps Based on Urinary Metabolomics
JP2016200435A (ja) マススペクトル解析システム,方法およびプログラム
Debik et al. Multivariate analysis of NMR‐based metabolomic data
Percival et al. Univariate and multivariate statistical approaches to the analysis and interpretation of NMR-based metabolomics datasets of increasing complexity
Winder et al. Hierarchical clustering analyses of plasma proteins in subjects with cardiovascular risk factors identify informative subsets based on differential levels of angiogenic and inflammatory biomarkers
Tan et al. Surrogate-guided sampling designs for classification of rare outcomes from electronic medical records data
van Loon et al. Improved testing for vitamin B12 deficiency: correcting MMA for eGFR reduces the number of patients classified as vitamin B12 deficient
Maclean et al. Comparison of the QuikRead go® point-of-care faecal immunochemical test for haemoglobin with the Fob gold wide® laboratory analyser to diagnose colorectal cancer in symptomatic patients

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231114

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20240514