JP2017021727A - イベント発生時期予測装置、イベント発生時期予測方法、及びイベント発生時期予測プログラム - Google Patents
イベント発生時期予測装置、イベント発生時期予測方法、及びイベント発生時期予測プログラム Download PDFInfo
- Publication number
- JP2017021727A JP2017021727A JP2015140912A JP2015140912A JP2017021727A JP 2017021727 A JP2017021727 A JP 2017021727A JP 2015140912 A JP2015140912 A JP 2015140912A JP 2015140912 A JP2015140912 A JP 2015140912A JP 2017021727 A JP2017021727 A JP 2017021727A
- Authority
- JP
- Japan
- Prior art keywords
- analysis
- event
- analysis result
- event occurrence
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
【課題】、膨大な量の臨床検査の解析結果を活用し、特定の疾患の発症や死亡等のイベントの発生時期を高い精度で予測する手法を提供する。【解決手段】第1解析対象から得られた1種類又は複数種類の第1解析結果が入力される入力手段と、入力手段に入力された第1解析結果に基づき、第1解析結果の取得時から所定の期間内に、第1解析対象においてイベントが発生する可能性を示すスコアを算出するステップを実行する処理手段と、を少なくとも備え、スコアは、イベントが発生したことが既知の第2解析対象から、イベント発生前に得られた1種類又は複数種類の第2解析結果と、第2解析結果の取得時から第2解析対象におけるイベント発生時までの経過時間と、を用いて、第2解析結果の取得時とイベント発生時とが所定の期間内に存在するか否かを教師データとした機械学習により得られる。【選択図】なし
Description
本発明は、イベント発生時期予測装置、イベント発生時期予測方法、及びイベント発生時期予測プログラムに関し、主に臨床イベントについての発生時期予測に利用することができる。
患者に対する治療の有効性の有無や、治療継続の是非を判断するために、患者の生存期間を予測する技術が求められていた。ヒトや動物等解析対象の死亡等のイベント発生を予測する既知の方法として、カプラン・マイヤー(Kaplan-Meier)法が知られていた。カプラン・マイヤー(Kaplan-Meier)法は、解析結果を層別化し、解析結果が得られた時点から経過した各期間におけるイベント発生確率を算出する方法であり、患者の生存率の算出に広く用いられてきた(非特許文献1参照)。
また、カプラン・マイヤー法を用いて、遺伝子発現プロファイル等の特徴量を用いた機械学習により生存曲線を作成する経時的現象発生解析装置(特許文献1参照)、患者の心血管反射調節及び死のリスクを定量化する死亡率予測指数等から変換された特定の変数についてカプラン・マイヤー法を用いて死のリスクを定義する方法(特許文献2参照)が開発された。その他にも、個人の将来の健康を予測するためのコンピューターベースシステムであって、個人が特定の期間又は年齢間隔内で特定の生物学的症状を獲得する確率に基づく情報を含む選定のバイオマーカーを利用するもの(特許文献3参照)、特定の疾患の発症に関する知見を定式化した回帰式を用いて、罹患率又は発症率を算出する罹患率・発症率回帰ステップを有する発症リスク知識構築方法(特許文献4参照)、患者の死亡のリスク及び再入院のリスクを算出し、さらに解放のリスクを判断して医者に提示する処理を実行するシステム(特許文献5参照)等が知られている。
Kaplan, E. L. and Meier, P. (1958) "Nonparametric estimation from incomplete observations". Journal of the American Statistical Association 53 (282): p457―p481.
近年、病院等では過去の臨床検査の解析結果が蓄積されており、これら膨大な量の解析結果を活用し、患者における特定の疾患の発症時期や死亡時期を高い精度で予測する技術が求められていた。しかし、カンプラン・マイヤー法等の従来の方法は、膨大な解析結果の活用を目的に開発されたものではなく、高い精度での予測は困難であった。
発明者らは、膨大な量の臨床検査の解析結果を活用し、特定の疾患の発症や死亡等のイベントの発生時期を高い精度で予測する手法を見出し、本発明に想到した。
すなわち、本発明のイベント発生時期予測装置は、第1解析対象から得られた1種類又は複数種類の第1解析結果が入力される入力手段と、入力手段に入力された第1解析結果に基づき、第1解析結果の取得時から所定の期間内に、第1解析対象においてイベントが発生する可能性を示すスコアを算出するステップを実行する処理手段と、を少なくとも備え、スコアは、イベントが発生したことが既知の第2解析対象から、イベント発生前に得られた1種類又は複数種類の第2解析結果と、第2解析結果の取得時から第2解析対象におけるイベント発生時までの経過時間と、を用いて、第2解析結果の取得時とイベント発生時とが所定の期間内に存在するか否かを教師データとした機械学習により得られる、イベント発生時期予測装置である。
本発明のイベント発生時期予測装置は、発生時期を予測するイベントが発生したことが既知の第2解析対象から得られた第2解析結果を機械学習に用いることで、イベント発生時期が高い精度で予測することが可能である。
また、別のイベント発生時期予測装置では、第1解析結果及び/又は第2解析結果が複数種類であり、処理手段が、当該複数種類の第2解析結果を全種類含む第2解析対象を選択するステップを実行し、機械学習には、処理手段が選択した第2解析対象から取得された第2解析結果を用いる、イベント発生時期予測装置である。複数種類の解析結果を用い、さらに当該複数種類の解析結果を全て含む解析対象のみを機械学習に用いることで、より精度の高い予測が可能となる。
また、別のイベント発生時期予測装置では、第1解析結果及び/又は第2解析結果は、血液検査により得られたものである。血液検査の解析結果を用いることで、容易にイベント発生時期を予測することができる。
具体的には、第1解析結果及び/又は第2解析結果は、アルブミン濃度(ALB)、乳酸脱水素酵素活性値(LDH)、クロール濃度(Cl)、血液尿素窒素濃度(BUN)、好中球絶対数(NEUT#)、総白血球数中のリンパ球数割合(lymphocyte)、赤血球数(RBC)、ナトリウム濃度(Na)、総コレステロール濃度(TC)、総白血球数中の好中球数割合(neutrophil)、アルカリフォスファターゼ活性値(ALP)、γ-グルタミルトランスフェラーゼ活性値(γ-GTP)、ヘマトクリット値(HCT)、ヘモグロビン濃度(HGB)、白血球数(WBC)、血小板数(PLT)、単球数(Monocyte)、C反応性蛋白質濃度(CRP)、アラニンアミノトランスフェラーゼ活性値(ALT/GPT)、アスパラギン酸アミノ酸トランスフェラーゼ活性値(AST/GOT)、総ビリルビン濃度(T-Bil)、カリウム濃度(K)、及び、クレアチニン濃度(Cre(eGFR))から選ばれる1又は複数である。
第1解析結果及び/又は第2解析結果は、少なくとも、アルブミン値(ALB)、乳酸脱水素酵素活性値(LDH)、及び/又はクロール濃度(Cl)を含む。これらの解析結果を含むことで、精度の高いイベント発生時期予測が可能となる。
また、別の本発明のイベント発生時期予測装置では、第1解析結果及び/又は第2解析結果は、連続的な数値によって表される。連続的な数値によって表される解析結果を機械学習に用いることで、精度の高いイベント発生時期予測が可能となる。
また、別の本発明のイベント発生時期予測装置では、イベントは、解析対象における特定の疾患の発症又は解析対象の死亡であり、所定の期間が6月間〜1月間である。解析結果取得から6月後〜1月後のイベント発生の可能性を予測することで、治療の有効性の有無や、治療継続の是非を判断することができる。
また、別の本発明のイベント発生時期予測装置では、解析対象は癌罹患者又は癌罹患動物である。特に、終末期の癌薬物療法の継続又は中止の指標として活用することができる。
さらに、本発明は、コンピュータで実行されるイベント発生時期予測方法を提供する。本発明のイベント発生時期予測方法では、コンピュータは、少なくとも入力手段と処理手段とを備え、入力手段に入力された第1解析対象から得られた1種類又は複数種類の第1解析結果に基づき、処理手段が、第1解析結果の取得時から所定の期間内に、第1解析対象においてイベントが発生する可能性を示すスコアが算出される算出工程を含み、スコアは、イベントが発生したことが既知の第2解析対象から、イベント発生前に得られた一種類又は複数種類の第2解析結果と、第2解析結果の取得時から第2解析対象におけるイベント発生時までの経過時間と、を用いて、第2解析結果の取得時とイベント発生時とが所定の期間内に存在するか否かを教師データとした機械学習により得られる、イベント発生時期予測方法である。
さらに、本発明は、イベント発生時期予測プログラムを提供する。本発明のイベント発生時期予測プログラムは、コンピュータを、第1解析対象から得られた一種類又は複数種類の第1解析結果が入力される入力手段と、入力手段に入力された第1解析結果に基づき、第1解析結果の取得時から所定の期間内に、第1解析対象においてイベントが発生する可能性を示すスコアを算出するステップを実行する処理手段と、として機能させ、スコアは、イベントが発生したことが既知の第2解析対象から、イベント発生前に得られた1種類又は複数種類の第2解析結果と、第2解析結果の取得時から第2解析対象におけるイベント発生時までの経過時間と、を用いて、第2解析結果の取得時とイベント発生時とが所定の期間内に存在するか否かを教師データとした機械学習により得られる、イベント発生時期予測プログラムである。
本発明では、発生時期を予測するイベントが発生したことが既知の第2解析対象から得られた第2解析結果を機械学習に用いることで、イベント発生時期が高い精度で予測することが可能である。血液検査の解析結果を用いることで、容易にイベント発生時期を予測することができる。また、解析対象における特定の疾患の発症又は解析対象の死亡を、少なくとも1月前から高い精度で予測することが可能であり、治療の有効性の有無や、治療継続の是非を判断することができる。
本発明は、イベント発生時期予測装置、イベント発生時期予測方法、及びイベント発生時期予測プログラムを提供する。本発明のイベント発生時期予測プログラムをコンピュータが実行することで、該コンピュータはイベント発生時期予測装置として機能し、本発明のイベント発生時期予測方法によりイベント発生時期を予測することができる。
以下、本発明のイベント発生時期装置、イベント発生時期予測方法、及びイベント発生時期予測プログラムについて、発明を実施するための形態に基づいて詳細に説明する。
本発明における解析対象とは、解析結果が得られており且つ解析結果取得時にはイベントが発生していない対象、又は解析結果が得られており且つ解析結果取得後にイベント発生したことが既知の対象をいう。解析結果が得られており且つ解析結果取得時にはイベントが発生していない対象を第1解析対象と呼称し、解析結果が得られており且つ解析結果取得後にイベント発生したことが既知である対象を第2解析対象と呼称する。
本発明における解析結果とは、解析対象から得られた解析結果をいう。第1解析対象から得られた解析結果を第1解析結果と呼称し、第2解析対象から得られた解析結果を第2解析結果と呼称する。
本発明におけるイベントとは、解析対象において発生するイベントであり、好ましくは解析対象において発生する臨床イベントである。より好ましくは、臨床イベントは、解析対象における特定の疾患の発症、又は解析対象の死亡である。本発明により、解析対象において特定の疾患が発症する時期、又は解析対象が死亡する時期の予測が可能となる。
解析対象は、ヒト又は動物であり、好ましくは、疾病の罹患者又は罹患動物であり、より好ましくは、癌罹患者又は癌罹患動物である。本発明により、疾病の罹患者における特定の疾患の発症時期の予測が可能となる。また、終末期の癌罹患者の死亡時期を予測することで、積極的治療を中止するか否かの判断を適切に行うことができる。
解析対象が、癌罹患者又は癌罹患動物である場合、具体的には、癌は、肺癌、膵臓癌、胃癌、結腸癌、乳癌、食道癌、直腸癌、悪性リンパ腫、肝臓癌、肝臓外胆管癌等であり得る。本発明により、これらの癌における解析対象が死亡する時期の予測が高精度で可能であることが明らかとなっている。
解析結果とは、解析対象から得られる解析結果をいい、好ましくは、解析対象の診断による解析結果であり、より好ましくは解析対象から採取された血液を検査した結果得られる解析結果、又は体温の解析結果である。解析対象から採取された血液を検査した結果得られる解析結果、又は体温の解析結果であれば、日常臨床の検査項目であるために、第2解析結果として膨大なデータの蓄積があることから、これらの解析結果を利用することで精度の高い予測が可能となる。同時に、第1の解析結果は簡易な方法で取得することが可能であり、容易に第1解析対象におけるイベント発生時期を予測することができる。
解析結果の具体例としては、体温(Temp)、平均赤血球容積(MCV)、平均赤血球血色素量(MCH)、平均赤血球血色素濃度(MCHC)、白血球数(WBC)、ヘマトクリット値(HCT)、ヘモグロビン(HGB)、赤血球数(RBC)、血小板数(PLT)、クレアチニン(CRE)、アラニンアミノトランスフェラーゼ活性(GPT/ALT)、乳酸脱水素酵素活性(LDH)、アスパラギン酸アミノ酸トランスフェラーゼ活性(AST/GOT)、血中尿素窒素(BUN)、カリウム(K)、ナトリウム(Na)、総ビリルビン(TB/T-Bil)、総白血球数中のリンパ球数割合(lymphocyte)、単球数(monocyte)、クロール(Cl)、総白血球数中の好中球数割合(neutrophil)、アルカリフォスファターゼ活性(ALP)、乳び、溶血、黄疸、アルブミン、CRP(C反応性蛋白)、総蛋白(TP)、好中球絶対数(NEUT#)、リンパ球絶対数(LYMPH#)、γ-グルタミルトランスフェラーゼ活性値(γ-GTP)、血清グルコース、好酸球数(eosinophil)、カルシウム(Ca)、好塩基球数(basophil)、クレアチンキナーゼ(CK)、アミラーゼ活性(AMY)、総コレステロール(T-CHO)、尿酸(UA)、コリンエステラーゼ(Ch-E)、直接ビリルビン(DB/抱合型D-Bil)、網赤血球数[‰]、segmented neutrophil、LAP(ロイシンアミノペプチダーゼ)、癌胎児性抗原(CEA)、推算糸球体濾過量(eGFR)、プロトロンビン時間(秒)(PTsec)、プロトロンビン(PT)時間(活性%)(PTact)、プロトロンビン時間(標準比)(PT(INR))、トリグリセリド(TG)、無機リン(IP)、活性化部分トロンボプラスチン時間(APTT)、フィブリノーゲン(FIB)、stab form neutrophil(Band)、CA19-9、マグネシウム(Mg)、D-Dダイマー (FDP・D-Dダイマー)、網赤血球数(絶対数)、CA125、骨髄球数(myelocyte)、シフラ(サイトケラチン19フラグメント/CYFRA)、アンチトロンビンIII(AT III)、血液型-ABO式(抗A凝集値)、血液型-ABO式(抗B凝集値)、血液型-Rh(D)因子(Rh-hr凝集値)、異型リンパ球(atypical lymphocyte)、後骨髄球(metamyelocyte)、アンモニア、赤芽球(erythroblast)等が挙げられる。さらに、解析対象から採取された血液を検査した結果得られる解析結果には、動脈血液ガス分析により得られる解析結果も含まれ、具体例として、pH、二酸化炭素分圧(PCO2)、酸素分圧(PO2)、重炭酸イオン(HCO3-)、酸素飽和度(O2飽和/SaO2)、ヘマトクリット(Hct)、ナトリウム(Na)、カリウム(K)、クロール(Cl)、イオン化カルシウム(iCa)、グルコース(Glu)、ヘモグロビン(Hb)、塩基過剰(BE)、総酸素濃度(CtO2)、アニオンギャップ(An Gap)、総二酸化炭素濃度(CtCO2)、酸素化ヘモグロビン(O2Hb)、一酸化炭素ヘモグロビン(COHb)、メトヘモグロビン(metHb)、脱酸素化ヘモグロビン(HHb)、大気圧(Baro)等が挙げられる。
解析結果は、1種類又は複数種類であるが、複数種類であることが好ましい。解析結果の種類数は、好ましくは1種類から90種類であり、より好ましくは1種類から20種類である。一般に種類数が多くなるほど算出されるスコアの精度は高くなるが、本発明によれば、1種類から20種類の解析結果を用いた場合であっても十分に精度の高いスコアを得ることができる。また、解析結果は、連続的な数値によって表されるものを用いることが好ましい。
好ましくは、解析結果は、アルブミン濃度(ALB)、乳酸脱水素酵素活性値(LDH)、クロール濃度(Cl)、血液尿素窒素濃度(BUN)、好中球絶対数(NEUT#)、総白血球数中のリンパ球数割合(lymphocyte)、赤血球数(RBC)、ナトリウム濃度(Na)、総コレステロール濃度(TC)、総白血球数中の好中球数割合(neutrophil)、アルカリフォスファターゼ活性値(ALP)、γ-グルタミルトランスフェラーゼ活性値(γ-GTP)、ヘマトクリット値(HCT)、ヘモグロビン濃度(HGB)、白血球数(WBC)、血小板数(PLT)、単球数(Monocyte)、C反応性蛋白質濃度(CRP)、アラニンアミノトランスフェラーゼ活性値(ALT/GPT)、アスパラギン酸アミノ酸トランスフェラーゼ活性値(AST/GOT)、総ビリルビン濃度(T-Bil)、カリウム濃度(K)、及び、クレアチニン濃度(Cre(eGFR))から選ばれる1又は複数である。さらに好ましくは、解析結果は、少なくとも、アルブミン値(ALB)、乳酸脱水素酵素活性値(LDH)、及び/又はクロール濃度(Cl)を含む。これらの解析結果を含むことで、精度の高いイベント発生時期予測が可能となる。また、解析結果を得るための手段が複数ある場合、解析結果を得るための手段は問わないため、例えば、血液検査により得られた解析結果を用いても、動脈血液ガス分析により得られた解析結果を用いても構わない。
ここで、本発明のイベント発生時期予測装置について説明する。本発明のイベント発生時期予測装置は、少なくとも入力手段と処理手段とを備える。さらに、本発明のイベント発生時期予測装置は、記憶手段、出力手段等を備えてもよい。
1.入力手段
入力手段では第1解析対象から得られた1種類又は複数種類の第1解析結果が入力され、本発明のイベント発生時期予測装置がこれらの解析結果を受け付ける。
入力手段では第1解析対象から得られた1種類又は複数種類の第1解析結果が入力され、本発明のイベント発生時期予測装置がこれらの解析結果を受け付ける。
第1解析対象とは、所定の期間内にイベントが発生する可能性を予測する対象であり、そのために1種類又は複数種類の解析結果を取得した解析対象である。すなわち、第1解析対象から取得された第1解析結果は、問い合わせ解析結果として入力手段に入力される。
入力手段では、1種類又は複数種類の情報が入力され、本発明のイベント発生時期予測装置がこれらの情報を受け付ける。
2.処理手段
処理手段は、入力手段に入力された第1解析結果に基づき、第1解析結果の取得時から所定の期間内に、第1解析対象においてイベントが発生する可能性を示すスコアを算出するステップを実行する。
処理手段は、入力手段に入力された第1解析結果に基づき、第1解析結果の取得時から所定の期間内に、第1解析対象においてイベントが発生する可能性を示すスコアを算出するステップを実行する。
第1解析対象においてイベントが発生する可能性を示すスコアは、イベントが発生したことが既知の第2解析対象から、イベント発生前に得られた1種類又は複数種類の第2解析結果と、第2解析結果の取得時から第2解析対象におけるイベント発生時までの経過時間と、を用いて、第2解析結果の取得時とイベント発生時とが所定の期間内に存在するか否かを教師データとした機械学習により得られる。
第2解析結果の取得時とイベント発生時とが所定の期間内に存在するか否かを教師データとした機械学習には、具体的には、ロジスティック回帰、サポートベクターマシン、ニューラルネットワーク、重回帰、サポートベクター回帰、Partial Least Squares (PLS)回帰等を用いることができる。
ロジスティック回帰とは、機械学習の一種であり、分類モデルを確率化しシグモイド曲線で回帰することにより、発生確率を予測することができる。xという状態のもとで現象が発生する条件付き確率p は、ロジット(l)を用いて、以下のように求めることができる。
以下、ロジスティック回帰を用いた場合のステップについて具体例を交えて説明する。ロジスティック回帰では、第1解析対象において、第1解析結果の取得時から所定期間内にイベントが発生する確率pを求める。目的変数yを、第2解析対象において第2解析結果取得時から所定期間内にイベントが発生したものをポジティブとして“1”、発生しなかったものをネガティブとして“0”とする。1種類又は複数種類の第2解析結果を、説明変数x1〜xpとする。ロジットと説明変数の因果関係をロジステックモデルで近似し、定数b0、及び偏回帰係数b1〜bpを求めることで、第1解析結果の取得時から所定期間内にイベントが発生する確率pが得られる。複数種類の第2解析結果が得られている場合には、機械学習に用いる第2解析結果の種類を任意に選択し、選択した解析結果を説明変数x1〜xpとすればよい。
サポートベクターマシンとは、機械学習の一種である。特徴ベクトルにより構築された空間は特徴空間と呼ばれる。サポートベクターマシンは、カーネル関数を用いて、ベクトルを有限次元又は無限次元の特徴空間に写像し、該特徴空間上で線形分離を行うことで学習モデルが構築される。すなわち、複数のベクトルを最大マージンで分離する分離面が得られ、該分離面よって特徴空間が2つのクラスに分けられる。したがって、該分離面により問い合わせたベクトルが、どちらのクラスに属するかを判定することができる。
以下、サポートベクターマシンを用いた場合のステップについて具体例を交えて説明する。まず、第2解析対象毎に、第2解析対象におけるイベント発生時から遡って所定期間内に取得された1種類又は複数種類の第2解析結果をクラスAに、第2解析対象におけるイベント発生時から遡って所定期間内に取得されなかった1種類又は複数種類の第2解析結果をクラスBに分類する。次に、第2解析結果毎にクラスAの記述子及びクラスBの記述子をそれぞれ作成する。第2解析結果が複数種類存在している場合には、複数種類の解析結果を組み合わせて記述子を作成する。機械学習に用いる第2解析結果の種類を任意に選択し、選択した解析結果を組み合わせた記述子としてもよい。
これらの記述子のカーネルを計算し、サポートベクターマシンを行うことで、クラスAとクラスBとを分類する超平面(分離面)が求められる。第1解析対象から取得され、入力手段に入力された問い合わせ解析結果の記述子から計算されたベクトルが、第2解析結果から求められた超平面(分離面)から、クラスA又はクラスBのどちらに分類されるかを判断することができる。
また、問い合わせ解析結果の記述子から計算されたベクトルの超平面(分離面)からの距離は、所定期間におけるイベント発生しやすさの指標となり得る。すなわち、あるクラスに分類されたベクトルであっても、超平面(分離面)との距離が近いものは誤って分類された可能性が高く、超平面(分離面)との距離が遠いものは誤って分類された可能性が低い。つまり、問い合わせ解析結果を取得した第1解析対象において、解析結果取得時から所定期間内にイベントが発生する可能性を示すスコアは、問い合わせ解析結果の記述子から計算されたベクトルの超平面(分離面)からの距離で表すことができる。すなわち、本発明のイベント発生時期予測装置では、問い合わせ解析結果の記述子から計算されたベクトルの超平面(分離面)からの距離が、第1解析結果の取得時から所定の期間内に、第1解析対象においてイベントが発生する可能性を示すスコアとして算出される。
さらに、スコアの算出方法について具体的に説明する。相互作用の可能性を示すスコアは、サポートベクターマシンの決定関数値xをシグモイド関数で変換した値scとなる。これらの値は以下のように定義される。
ここで、αとβはサポートベクターマシンによる交差検定から得られるスコア分布に基づいて決定されるパラメータである。パラメータαとβは、以下の関数F(α,β)を最小化するように決定される。ここでiは学習データのインデックスである。yiはイベント発生の有無を表す。所定期間内にイベントが発生する、すなわちクラスAと予測される場合は、yiはプラス1となる。所定期間内にイベントが発生しない、すなわちクラスBであると予測される場合は、yiはマイナス1となる。
ニューラルネットワークとは、機械学習の一種である。ニューラルネットワークは、非線形の活性化関数を用いて、入力されたベクトルに対して重み付けを行い、これを複数の層にわたって繰り返すことで学習モデルが構築される。すなわち、複数のベクトルに対してそれぞれの重みベクトルが得られ、その重みベクトルによって複数のクラスに分けられる。したがって、その重みベクトルにより問い合わせたベクトルが、どのクラスに属するかを判定することができる。
以下、ニューラルネットワークを用いた場合のステップについて具体例を交えて説明する。ニューラルネットワークでは、第1解析対象において、第1解析結果の取得時から所定期間内にイベントが発生する確率pを求める。目的変数yを、第2解析対象において第2解析結果取得時から所定期間内にイベントが発生したものをポジティブとして“1”、発生しなかったものをネガティブとして“0”とする。これは2値ではなく多値であってもよい。1種類又は複数種類の第2解析結果を、説明変数x1〜xpとする。非線形の活性化関数(activation function)と説明変数の因果関係を変数間の重み付けで近似し、定数項b0、及び各変数に対する重みw1〜wpを求めることで、第1解析結果の取得時から所定期間内にイベントが発生する確率pが得られる。複数種類の第2解析結果が得られている場合には、機械学習に用いる第2解析結果の種類を任意に選択し、選択した解析結果を説明変数x1〜xpとすればよい。
第2解析対象には、一種類又は複数種類の解析結果が得られた後に、第2解析対象においてイベントが発生したことが既知である解析対象が用いられる。従来法であるカプラン・マイヤー(Kaplan-Meier)法では、解析結果を得られた時点から経過した各期間におけるイベント発生確率を算出するため、イベントが発生しなかった解析対象も考慮される。本発明では、イベントが発生した第2解析対象から得られた解析結果のみを機械学習に用いることで、精度の高いイベント発生時期予測を可能とした。
すなわち、解析対象が特定の疾患の罹患者又は罹患動物であって、イベントが特定の疾患の発症又は解析対象の死亡であった場合、第2解析結果は、好ましくは、特定の疾患の発症又は解析対象の死亡の事実が確認され、且つ特定の疾患の発症日又は解析対象の死亡日が明らかである第2解析対象から取得されたものである。
第2解析結果は、例えば、同一のヒト又は動物から複数の時点で得られた解析結果を用いることが好ましい。同一のヒト又は動物であっても、解析結果の取得時が異なれば、別の解析対象として区別される。同一のヒト又は動物に由来する第2解析対象から得られる解析結果の経時的な変化を機械学習で考慮することで、精度の高いイベント発生時期予測が可能となる。
また、複数種類の第1解析結果及び/又は第2解析結果を用いる場合には、処理手段は、当該複数種類の解析結果のうち全ての種類の解析結果が取得された解析対象を選択し、選択した解析対象得られた第2解析結果を用いて機械学習することが好ましい。解析対象によって取得された解析結果の種類が異なる場合がある。そこで、機械学習に用いる複数種類の第2解析結果が全て揃っていない解析対象を機械学習から除外することで、精度の高いイベント発生時期予測が可能となるためである。
したがって、複数種類の第1解析結果及び/又は第2解析結果を用いる場合には、処理手段は、複数種類の第2解析結果が全種類得られた解析対象を選択するステップ、及び、入力手段に入力された第1解析結果の取得時から所定の期間内に、第1解析対象においてイベントが発生する可能性を示すスコアを算出するステップを実行する。スコアは、イベントが発生したことが既知であり、且つ処理手段が選択した第2解析対象から、イベント発生前に得られた複数種類の第2解析結果と、該第2解析結果の取得時から第2解析対象におけるイベント発生時までの経過時間と、を用いて、第2解析結果の取得時とイベント発生時とが所定の期間内に存在するか否かを教師データとした機械学習により得られる。
イベントが、解析対象における特定の疾患の発症又は解析対象の死亡である場合には、所定の期間が12月間〜10日間であることが好ましく、6月間〜1月間であることが好ましい。また、第2解析結果は、同一のヒト又は動物が複数回診断されたことにより区別される複数の第2解析対象から得られたものであることが好ましい。具体的には、1のヒト又は動物が1回診断されることによって1の解析対象となり、1種類又は複数種類の解析結果が得られる。好ましくは、1のヒト又は動物が約100回〜約10,000回、平均で約1,000回〜約5,000回診断されることによって、診断回数と同数の解析対象となり、それぞれの解析対象から1種類又は複数種類の解析結果が得られるため、これらの解析結果を用いてイベント発生時期が予測される。
3.記憶手段
また、本発明のイベント発生時期予測装置は記憶手段を備えていてもよい。記憶手段には、少なくとも、イベントが発生したことが既知の第2解析対象から、イベント発生前に得られた1種類又は複数種類の第2解析結果と、第2解析結果の取得時から第2解析対象におけるイベント発生時までの経過時間と、を用いて、第2解析結果の取得時とイベント発生時とが所定の期間内に存在するか否かを教師データとした機械学習により得られた学習モデルが記憶される。処理手段は、学習モデルが記憶された記憶手段にアクセスし、問い合わせ解析結果に基づいてスコアを算出する。
また、本発明のイベント発生時期予測装置は記憶手段を備えていてもよい。記憶手段には、少なくとも、イベントが発生したことが既知の第2解析対象から、イベント発生前に得られた1種類又は複数種類の第2解析結果と、第2解析結果の取得時から第2解析対象におけるイベント発生時までの経過時間と、を用いて、第2解析結果の取得時とイベント発生時とが所定の期間内に存在するか否かを教師データとした機械学習により得られた学習モデルが記憶される。処理手段は、学習モデルが記憶された記憶手段にアクセスし、問い合わせ解析結果に基づいてスコアを算出する。
4.出力手段
また、本発明のイベント発生時期予測装置は出力手段を備えていてもよい。出力手段は、処理手段により、問い合わせ解析結果に基づいて、該問い合わせ解析結果の取得時から所定の期間内に、第1解析対象においてイベントが発生する可能性を示すスコアを出力する。
また、本発明のイベント発生時期予測装置は出力手段を備えていてもよい。出力手段は、処理手段により、問い合わせ解析結果に基づいて、該問い合わせ解析結果の取得時から所定の期間内に、第1解析対象においてイベントが発生する可能性を示すスコアを出力する。
さらに、本発明は、コンピュータで実行されるイベント発生時期予測方法を提供する。本発明のイベント発生時期予測方法は、コンピュータで実行されるイベント発生時期予測方法であって、コンピュータは、少なくとも入力手段と処理手段とを備え、入力手段に入力された第1解析対象から得られた1種類又は複数種類の第1解析結果に基づき、処理手段が、第1解析結果の取得時から所定の期間内に、第1解析対象においてイベントが発生する可能性を示すスコアが算出される算出工程を含み、スコアは、イベントが発生したことが既知の第2解析対象から、イベント発生前に得られた一種類又は複数種類の第2解析結果と、第2解析結果の取得時から第2解析対象におけるイベント発生時までの経過時間と、を用いて、第2解析結果の取得時とイベント発生時とが所定の期間内に存在するか否かを教師データとした機械学習により得られるイベント発生時期予測方法である。
さらに、本発明は、イベント発生時期予測プログラムを提供する。本発明のイベント発生時期予測プログラムは、コンピュータを、第1解析対象から得られた一種類又は複数種類の第1解析結果が入力される入力手段と、入力手段に入力された第1解析結果に基づき、第1解析結果の取得時から所定の期間内に、第1解析対象においてイベントが発生する可能性を示すスコアを算出するステップを実行する処理手段と、として機能させ、スコアは、イベントが発生したことが既知の第2解析対象から、イベント発生前に得られた1種類又は複数種類の第2解析結果と、第2解析結果の取得時から第2解析対象におけるイベント発生時までの経過時間と、を用いて、第2解析結果の取得時とイベント発生時とが所定の期間内に存在するか否かを教師データとした機械学習により得られる、イベント発生時期予測プログラムである。
実施例を用いて本発明をさらに詳細に説明するが、本発明は下記の実施例に限定されない。
実施例1:ロジスティック回帰によるイベント発生時期予測
機械学習としてロジスティック回帰を用いて、解析対象である癌罹患者における死亡時期の予測を行った。京都大学医学部附属病院で2004年1月から2014年9月までに外来化学療法が施行され、死亡したことが確認され、且つ死亡日が明らかとなっている癌罹患者2595症例を対象とした。癌罹患者2595症例からは1,639種類の解析結果が合計9,576,834個得られた。ここから、非数値の解析結果を除外した結果、解析結果は1,088種類で合計8,484,097個となった。さらに、癌罹患者数が1000人未満の解析結果を除外すると、解析結果は100種類で合計7,938,249個となり、さらに尿検査から得られた解析結果を除外すると、解析結果は90種類で合計7,760,865個となった。これらの解析結果を用いてイベント発生時期を予測した。
機械学習としてロジスティック回帰を用いて、解析対象である癌罹患者における死亡時期の予測を行った。京都大学医学部附属病院で2004年1月から2014年9月までに外来化学療法が施行され、死亡したことが確認され、且つ死亡日が明らかとなっている癌罹患者2595症例を対象とした。癌罹患者2595症例からは1,639種類の解析結果が合計9,576,834個得られた。ここから、非数値の解析結果を除外した結果、解析結果は1,088種類で合計8,484,097個となった。さらに、癌罹患者数が1000人未満の解析結果を除外すると、解析結果は100種類で合計7,938,249個となり、さらに尿検査から得られた解析結果を除外すると、解析結果は90種類で合計7,760,865個となった。これらの解析結果を用いてイベント発生時期を予測した。
ここで、90種類の解析結果は、具体的には、体温(Temp)、平均赤血球容積(MCV)、平均赤血球血色素量(MCH)、平均赤血球血色素濃度(MCHC)、白血球数(WBC)、ヘマトクリット値(HCT)、ヘモグロビン(HGB)、赤血球数(RBC)、血小板数(PLT)、クレアチニン(CRE)、アラニンアミノトランスフェラーゼ活性(GPT/ALT)、乳酸脱水素酵素活性(LDH)、アスパラギン酸アミノ酸トランスフェラーゼ活性(AST/GOT)、血中尿素窒素(BUN)、カリウム(K)、ナトリウム(Na)、総ビリルビン(TB/T-Bil)、総白血球数中のリンパ球数割合(lymphocyte)、単球数(monocyte)、クロール(Cl)、総白血球数中の好中球数割合(neutrophil)、アルカリフォスファターゼ活性(ALP)、乳び、溶血、黄疸、アルブミン、CRP(C反応性蛋白)、総蛋白(TP)、好中球絶対数(NEUT#)、リンパ球絶対数(LYMPH#)、γ-グルタミルトランスフェラーゼ活性値(γ-GTP)、血清グルコース、好酸球数(eosinophil)、カルシウム(Ca)、好塩基球数(basophil)、クレアチンキナーゼ(CK)、アミラーゼ活性(AMY)、総コレステロール(T-CHO)、尿酸(UA)、コリンエステラーゼ(Ch-E)、直接ビリルビン(DB/抱合型D-Bil)、網赤血球数[‰]、segmented neutrophil、LAP(ロイシンアミノペプチダーゼ)、癌胎児性抗原(CEA)、推算糸球体濾過量(eGFR)、プロトロンビン時間(秒)(PTsec)、プロトロンビン(PT)時間(活性%)(PTact)、プロトロンビン時間(標準比)(PT(INR))、トリグリセリド(TG)、無機リン(IP)、活性化部分トロンボプラスチン時間(APTT)、フィブリノーゲン(FIB)、stab form neutrophil(Band)、CA19-9、マグネシウム(Mg)、D-Dダイマー (FDP・D-Dダイマー)、網赤血球数(絶対数)、CA125、骨髄球数(myelocyte)、シフラ(サイトケラチン19フラグメント/CYFRA)、アンチトロンビンIII(AT III)、血液型-ABO式(抗A凝集値)、血液型-ABO式(抗B凝集値)、血液型-Rh(D)因子(Rh-hr凝集値)、異型リンパ球(atypical lymphocyte)、後骨髄球(metamyelocyte)、アンモニア、赤芽球(erythroblast)、並びに、動脈血液ガス分析により得られたpH、二酸化炭素分圧(PCO2)、酸素分圧(PO2)、重炭酸イオン(HCO3-)、酸素飽和度(O2飽和/SaO2)、ヘマトクリット(Hct)、ナトリウム(Na)、カリウム(K)、クロール(Cl)、イオン化カルシウム(iCa)、グルコース(Glu)、ヘモグロビン(Hb)、塩基過剰(BE)、総酸素濃度(CtO2)、アニオンギャップ(An Gap)、総二酸化炭素濃度(CtCO2)、酸素化ヘモグロビン(O2Hb)、一酸化炭素ヘモグロビン(COHb)、メトヘモグロビン(metHb)、脱酸素化ヘモグロビン(HHb)、及び大気圧(Baro)であった。
90種類の解析結果を得るために行った癌罹患者1人当たりの診断回数、すなわち癌罹患者1人当たりから得られた解析対象数の分布を図1に示す。癌罹患者1人から得られた解析対象数は、最小で165個、最大で18823個であり、平均値は2990.7個、中央値は2506個であった。
解析対象における解析結果取得時(すなわち、解析結果を得るために実施した診断時)から、癌罹患者が所定の期間内に死亡したものをポジティブ、所定の期間内に死亡しなかったものをネガティブとして関連付けした。
(1)3種類の解析結果を選択したロジスティック回帰
所定の期間は3ヶ月とし、90種類の解析結果からアルブミン濃度(Alb)、クロール濃度(Cl)、及び乳酸脱水素酵素活性値(LDH)の3種類を選択して、3種類の解析結果を全て含む解析対象を選択すると、癌患者2595名から得られた解析対象は202576個となった。これらの解析対象について、ロジスティック回帰による機械学習を行った。ロジスティック回帰の結果得られた条件付き確率p は以下の通りである。なお、クロール濃度(Cl)には、動脈血液ガス分析によって得られた結果は含まないこととした。
所定の期間は3ヶ月とし、90種類の解析結果からアルブミン濃度(Alb)、クロール濃度(Cl)、及び乳酸脱水素酵素活性値(LDH)の3種類を選択して、3種類の解析結果を全て含む解析対象を選択すると、癌患者2595名から得られた解析対象は202576個となった。これらの解析対象について、ロジスティック回帰による機械学習を行った。ロジスティック回帰の結果得られた条件付き確率p は以下の通りである。なお、クロール濃度(Cl)には、動脈血液ガス分析によって得られた結果は含まないこととした。
5分割交差確認によりROC 曲線を作成して有効性を検証した。ROC曲線を図2に示す。図中のptsは癌患者の症例数、nは癌患者の症例から得られた解析対象を示す。ROC曲線下面積は0.852であったことから、本発明により、癌罹患者から得られたアルブミン濃度(Alb)、クロール濃度(Cl)、及び乳酸脱水素酵素活性値(LDH)によって、該癌罹患者の3ヶ月以内の死亡確率を高い精度で予測できることが明らかとなった。
また、所定の期間を2ヶ月、又は1ヶ月とし、アルブミン濃度(Alb)、クロール濃度(Cl)、及び乳酸脱水素酵素活性値(LDH)の3種類を選択し、癌患者2595名から得られた202576個の解析対象についてロジスティック回帰の結果得られた条件付き確率pは以下の通りである。なお、クロール濃度(Cl)には、動脈血液ガス分析によって得られた結果は含まないこととした。5分割交差確認によるROC曲線下面積は、所定の期間が2ヶ月の場合に0.87、所定の期間が1ヶ月の場合に0.91と、本発明により、癌罹患者の死亡時期を高い精度で予測できることが明らかとなった。
さらに、90種類の解析結果のうち、最適な組み合わせを検証した。所定の期間を6ヶ月、5ヶ月、4ヶ月、3ヶ月、2ヶ月、及び1ヶ月とし、90種類の解析結果のうち、動脈血液ガス分析によって得られた結果以外の3種類を選択し、選択した解析結果を全種類含む解析対象についてロジスティック回帰を行い、5分割交差確認によるROC曲線下面積を求めた。各所定期間においてROC曲線下面積(AUC)で上位10通りとなった解析結果の組み合わせを以下の表1〜表6に示す。
さらに、解析結果が、各所定期間の10位以内に出現した回数を以下の表7に示す。アルブミン濃度(Alb)、乳酸脱水素酵素活性値(LDH)、及びクロール濃度(Cl)の10位以内の出現回数が高いことから、これらの解析結果を選択することで、癌罹患者の死亡時期を高い精度で予測できることが明らかとなった。
癌罹患者2595症例を癌種毎に分類し、それぞれの癌種において、所定の期間を3ヶ月とし、90種類の解析結果のうちアルブミン濃度(Alb)、クロール濃度(Cl)、及び乳酸脱水素酵素活性値(LDH)の3種類を選択し、全種類の解析結果を含む解析対象についてロジスティック回帰を行い、5分割交差確認によるROC曲線下面積を求めた。なお、クロール濃度(Cl)には、動脈血液ガス分析によって得られた結果は含まないこととした。得られたROC曲線下面積(AUC)を表8に示す。いずれの癌種についても、0.8に近い高いROC曲線下面積が得られたことから、いずれの癌種の癌罹患者においても、死亡時期を高い精度で予測できることが明らかとなった。
(2)2種類の解析結果を選択したロジスティック回帰
所定の期間を3ヶ月とし、90種類の解析結果のうち2種類を選択して、癌患者2595名から得られた202576個の解析対象についてロジスティック回帰を行い、5分割交差確認によるROC曲線下面積を求めた。選択した2種類の解析結果は、アルブミン濃度(Alb)及び乳酸脱水素酵素活性値(LDH)、アルブミン濃度(Alb)及びクロール濃度(Cl)、並びに、乳酸脱水素酵素活性値(LDH)及びクロール濃度(Cl)、とした。なお、クロール濃度(Cl)には、動脈血液ガス分析によって得られた結果は含まないこととした。得られたROC曲線を図3に示す。いずれの解析結果を選択した場合でも、0.77以上の高いROC曲線下面積が得られており、本発明により、癌罹患者の死亡時期を高い精度で予測できることが明らかとなった。
所定の期間を3ヶ月とし、90種類の解析結果のうち2種類を選択して、癌患者2595名から得られた202576個の解析対象についてロジスティック回帰を行い、5分割交差確認によるROC曲線下面積を求めた。選択した2種類の解析結果は、アルブミン濃度(Alb)及び乳酸脱水素酵素活性値(LDH)、アルブミン濃度(Alb)及びクロール濃度(Cl)、並びに、乳酸脱水素酵素活性値(LDH)及びクロール濃度(Cl)、とした。なお、クロール濃度(Cl)には、動脈血液ガス分析によって得られた結果は含まないこととした。得られたROC曲線を図3に示す。いずれの解析結果を選択した場合でも、0.77以上の高いROC曲線下面積が得られており、本発明により、癌罹患者の死亡時期を高い精度で予測できることが明らかとなった。
(3)1種類の解析結果を選択したロジスティック回帰
所定の期間を3ヶ月とし、90種類の解析結果のうち1種類を選択して、癌患者2595名から得られた202576個の解析対象についてロジスティック回帰を行い、5分割交差確認によるROC曲線下面積を求めた。選択した1種類の解析結果は、アルブミン濃度(Alb)、クロール濃度(Cl)、又は乳酸脱水素酵素活性値(LDH)とした。得られたROC曲線を図4に示す。いずれの解析結果を選択した場合でも、0.72以上の高いROC曲線下面積が得られており、本発明により、癌罹患者の死亡時期を高い精度で予測できることが明らかとなった。
所定の期間を3ヶ月とし、90種類の解析結果のうち1種類を選択して、癌患者2595名から得られた202576個の解析対象についてロジスティック回帰を行い、5分割交差確認によるROC曲線下面積を求めた。選択した1種類の解析結果は、アルブミン濃度(Alb)、クロール濃度(Cl)、又は乳酸脱水素酵素活性値(LDH)とした。得られたROC曲線を図4に示す。いずれの解析結果を選択した場合でも、0.72以上の高いROC曲線下面積が得られており、本発明により、癌罹患者の死亡時期を高い精度で予測できることが明らかとなった。
(4)20種類の解析結果を選択したロジスティック回帰
所定の期間を6ヶ月、5ヶ月、4ヶ月、3ヶ月、2ヶ月、及び1ヶ月とし、90種類の解析結果のうち20種類を選択した。選択した20種類の解析結果は、ヘマトクリット値(HCT)、ヘモグロビン濃度(HGB)、赤血球数(RBC)、白血球数(WBC)、血小板数(PLT)、総白血球数中の好中球数割合(neutrophil)、総白血球数中のリンパ球数割合(lymphocyte)、単球数(monocyte)、C反応性蛋白値濃度(CRP)、アラニンアミノトランスフェラーゼ活性値(ALT/GPT)、乳酸脱水素酵素活性値(LDH)、血中尿素窒素(BUN)、AST/GOT、アルカリフォスファターゼ活性値(ALP)、総ビリルビン濃度(T-Bil)、カリウム濃度(K)、クロール濃度(Cl)、アルブミン濃度(ALB)、クレアチニン濃度(CRE (eGFR))、及びナトリウム濃度(Na)とした。なお、ヘマトクリット値(HCT)、ヘモグロビン濃度(HGB)、カリウム濃度(K)、クロール濃度(Cl)及びナトリウム濃度(Na)には、動脈血液ガス分析によって得られた結果は含まないこととした。20種類の解析結果を全て含む解析対象を選択すると、癌患者2595名から得られた解析対象は154334個となった。これらの解析対象に対してロジスティック回帰を行い、5分割交差確認によるROC曲線下面積を求めた。得られたROC曲線を図5に示す。いずれの所定期間でも、0.816以上の高いROC曲線下面積が得られており、本発明により、癌罹患者の死亡時期を高い精度で予測できることが明らかとなった。
所定の期間を6ヶ月、5ヶ月、4ヶ月、3ヶ月、2ヶ月、及び1ヶ月とし、90種類の解析結果のうち20種類を選択した。選択した20種類の解析結果は、ヘマトクリット値(HCT)、ヘモグロビン濃度(HGB)、赤血球数(RBC)、白血球数(WBC)、血小板数(PLT)、総白血球数中の好中球数割合(neutrophil)、総白血球数中のリンパ球数割合(lymphocyte)、単球数(monocyte)、C反応性蛋白値濃度(CRP)、アラニンアミノトランスフェラーゼ活性値(ALT/GPT)、乳酸脱水素酵素活性値(LDH)、血中尿素窒素(BUN)、AST/GOT、アルカリフォスファターゼ活性値(ALP)、総ビリルビン濃度(T-Bil)、カリウム濃度(K)、クロール濃度(Cl)、アルブミン濃度(ALB)、クレアチニン濃度(CRE (eGFR))、及びナトリウム濃度(Na)とした。なお、ヘマトクリット値(HCT)、ヘモグロビン濃度(HGB)、カリウム濃度(K)、クロール濃度(Cl)及びナトリウム濃度(Na)には、動脈血液ガス分析によって得られた結果は含まないこととした。20種類の解析結果を全て含む解析対象を選択すると、癌患者2595名から得られた解析対象は154334個となった。これらの解析対象に対してロジスティック回帰を行い、5分割交差確認によるROC曲線下面積を求めた。得られたROC曲線を図5に示す。いずれの所定期間でも、0.816以上の高いROC曲線下面積が得られており、本発明により、癌罹患者の死亡時期を高い精度で予測できることが明らかとなった。
実施例2:サポートベクターマシンによるイベント発生時期予測
機械学習としてサポートベクターマシンを用いて、解析対象である癌罹患者における死亡時期の予測を行った。実施例1と同じ解析対象及び解析結果を用いて、所定期間を3ヶ月とし、90種類の解析結果のうち20種類を選択した。選択した20種類の解析結果は、ヘマトクリット値(HCT)、ヘモグロビン濃度(HGB)、赤血球数(RBC)、白血球数(WBC)、血小板数(PLT)、総白血球数中の好中球数割合(neutrophil)、総白血球数中のリンパ球数割合(lymphocyte)、単球数(monocyte)、C反応性蛋白値濃度(CRP)、アラニンアミノトランスフェラーゼ活性値(ALT/GPT)、乳酸脱水素酵素活性値(LDH)、血中尿素窒素(BUN)、AST/GOT、アルカリフォスファターゼ活性値(ALP)、総ビリルビン濃度(T-Bil)、カリウム濃度(K)、クロール濃度(Cl)、アルブミン濃度(ALB)、クレアチニン濃度(CRE (eGFR))、及びナトリウム濃度(Na)とした。なお、ヘマトクリット値(HCT)、ヘモグロビン濃度(HGB)、カリウム濃度(K)、クロール濃度(Cl)及びナトリウム濃度(Na)には、動脈血液ガス分析によって得られた結果は含まないこととした。20種類の解析結果を全て含む解析対象を選択すると、癌患者2595名から得られた解析対象は154334個となった。これらの解析対象に対してサポートベクターマシンを行い、5分割交差確認によるROC曲線下面積を求めた。得られたROC曲線を図6に示す。0.88と高いROC曲線下面積が得られており、本発明により、癌罹患者の死亡時期を高い精度で予測できることが明らかとなった。
機械学習としてサポートベクターマシンを用いて、解析対象である癌罹患者における死亡時期の予測を行った。実施例1と同じ解析対象及び解析結果を用いて、所定期間を3ヶ月とし、90種類の解析結果のうち20種類を選択した。選択した20種類の解析結果は、ヘマトクリット値(HCT)、ヘモグロビン濃度(HGB)、赤血球数(RBC)、白血球数(WBC)、血小板数(PLT)、総白血球数中の好中球数割合(neutrophil)、総白血球数中のリンパ球数割合(lymphocyte)、単球数(monocyte)、C反応性蛋白値濃度(CRP)、アラニンアミノトランスフェラーゼ活性値(ALT/GPT)、乳酸脱水素酵素活性値(LDH)、血中尿素窒素(BUN)、AST/GOT、アルカリフォスファターゼ活性値(ALP)、総ビリルビン濃度(T-Bil)、カリウム濃度(K)、クロール濃度(Cl)、アルブミン濃度(ALB)、クレアチニン濃度(CRE (eGFR))、及びナトリウム濃度(Na)とした。なお、ヘマトクリット値(HCT)、ヘモグロビン濃度(HGB)、カリウム濃度(K)、クロール濃度(Cl)及びナトリウム濃度(Na)には、動脈血液ガス分析によって得られた結果は含まないこととした。20種類の解析結果を全て含む解析対象を選択すると、癌患者2595名から得られた解析対象は154334個となった。これらの解析対象に対してサポートベクターマシンを行い、5分割交差確認によるROC曲線下面積を求めた。得られたROC曲線を図6に示す。0.88と高いROC曲線下面積が得られており、本発明により、癌罹患者の死亡時期を高い精度で予測できることが明らかとなった。
実施例3:ニューラルネットワークによるイベント発生時期予測
機械学習としてニューラルネットワークを用いて、解析対象である癌罹患者における死亡時期の予測を行った。実施例1と同じ解析対象及び解析結果を用いて、所定期間を3ヶ月とし、90種類の解析結果のうち20種類を選択した。選択した20種類の解析結果は、ヘマトクリット値(HCT)、ヘモグロビン濃度(HGB)、赤血球数(RBC)、白血球数(WBC)、血小板数(PLT)、総白血球数中の好中球数割合(neutrophil)、総白血球数中のリンパ球数割合(lymphocyte)、単球数(monocyte)、C反応性蛋白値濃度(CRP)、アラニンアミノトランスフェラーゼ活性値(ALT/GPT)、乳酸脱水素酵素活性値(LDH)、血中尿素窒素(BUN)、AST/GOT、アルカリフォスファターゼ活性値(ALP)、総ビリルビン濃度(T-Bil)、カリウム濃度(K)、クロール濃度(Cl)、アルブミン濃度(ALB)、クレアチニン濃度(CRE (eGFR))、及びナトリウム濃度(Na)とした。なお、ヘマトクリット値(HCT)、ヘモグロビン濃度(HGB)、カリウム濃度(K)、クロール濃度(Cl)及びナトリウム濃度(Na)には、動脈血液ガス分析によって得られた結果は含まないこととした。20種類の解析結果を全て含む解析対象を選択すると、癌患者2595名から得られた解析対象は154334個となった。これらの解析対象に対してニューラルネットワークを行い、5分割交差確認によるROC曲線下面積を求めた。得られたROC曲線を図7に示す。0.857と高いROC曲線下面積が得られており、本発明により、癌罹患者の死亡時期を高い精度で予測できることが明らかとなった。
機械学習としてニューラルネットワークを用いて、解析対象である癌罹患者における死亡時期の予測を行った。実施例1と同じ解析対象及び解析結果を用いて、所定期間を3ヶ月とし、90種類の解析結果のうち20種類を選択した。選択した20種類の解析結果は、ヘマトクリット値(HCT)、ヘモグロビン濃度(HGB)、赤血球数(RBC)、白血球数(WBC)、血小板数(PLT)、総白血球数中の好中球数割合(neutrophil)、総白血球数中のリンパ球数割合(lymphocyte)、単球数(monocyte)、C反応性蛋白値濃度(CRP)、アラニンアミノトランスフェラーゼ活性値(ALT/GPT)、乳酸脱水素酵素活性値(LDH)、血中尿素窒素(BUN)、AST/GOT、アルカリフォスファターゼ活性値(ALP)、総ビリルビン濃度(T-Bil)、カリウム濃度(K)、クロール濃度(Cl)、アルブミン濃度(ALB)、クレアチニン濃度(CRE (eGFR))、及びナトリウム濃度(Na)とした。なお、ヘマトクリット値(HCT)、ヘモグロビン濃度(HGB)、カリウム濃度(K)、クロール濃度(Cl)及びナトリウム濃度(Na)には、動脈血液ガス分析によって得られた結果は含まないこととした。20種類の解析結果を全て含む解析対象を選択すると、癌患者2595名から得られた解析対象は154334個となった。これらの解析対象に対してニューラルネットワークを行い、5分割交差確認によるROC曲線下面積を求めた。得られたROC曲線を図7に示す。0.857と高いROC曲線下面積が得られており、本発明により、癌罹患者の死亡時期を高い精度で予測できることが明らかとなった。
Claims (11)
- 第1解析対象から得られた1種類又は複数種類の第1解析結果が入力される入力手段と、
前記入力手段に入力された第1解析結果に基づき、前記第1解析結果の取得時から所定の期間内に、第1解析対象においてイベントが発生する可能性を示すスコアを算出するステップを実行する処理手段と、を少なくとも備え、
前記スコアは、前記イベントが発生したことが既知の第2解析対象から、前記イベント発生前に得られた1種類又は複数種類の第2解析結果と、
前記第2解析結果の取得時から前記第2解析対象における前記イベント発生時までの経過時間と、を用いて、
前記第2解析結果の取得時と前記イベント発生時とが所定の期間内に存在するか否かを教師データとした機械学習により得られる、
イベント発生時期予測装置 - 前記第1解析結果及び/又は前記第2解析結果が複数種類であり、
前記処理手段が、当該複数種類の第2解析結果を全種類含む第2解析対象を選択するステップを実行し、
前記機械学習には、前記ステップで選択した第2解析対象から取得された第2解析結果を用いる、
請求項1に記載のイベント発生時期予測装置 - 前記第1解析結果及び/又は前記第2解析結果は、血液検査により得られたものである、
請求項1又は2に記載のイベント発生時期予測装置 - 前記第1解析結果及び/又は前記第2解析結果は、アルブミン濃度、乳酸脱水素酵素活性値、クロール濃度、血液尿素窒素濃度、好中球絶対数、総白血球数中のリンパ球数割合、赤血球数、ナトリウム濃度、総コレステロール濃度、総白血球数中の好中球数割合、アルカリフォスファターゼ活性値、γ-グルタミルトランスフェラーゼ活性値、ヘマトクリット値、ヘモグロビン濃度、白血球数、血小板数、単球数、C反応性蛋白質濃度、アラニンアミノトランスフェラーゼ活性値、アスパラギン酸アミノ酸トランスフェラーゼ活性値、総ビリルビン濃度、カリウム濃度、及び、クレアチニン濃度から選ばれる1又は複数である、請求項3に記載のイベント発生時期予測装置
- 前記第1解析結果及び/又は前記第2解析結果は、少なくとも、アルブミン濃度、乳酸脱水素酵素活性値、及び/又はクロール濃度を含む、
請求項3又は請求項4に記載のイベント発生時期予測装置 - 前記第1解析結果及び/又は前記第2解析結果は、連続的な数値によって表される請求項1〜請求項5いずれか一項に記載のイベント発生時期予測装置
- 前記イベントは、前記解析対象における特定の疾患の発症又は前記解析対象の死亡である、
請求項1〜請求項6いずれか一項に記載のイベント発生時期予測装置 - 前記所定の期間が6月間〜1月間である、請求項1〜請求項7いずれか一項に記載のイベント発生時期予測装置
- 前記解析対象は癌罹患者又は癌罹患動物である、請求項1〜請求項8いずれか一項に記載のイベント発生時期予測装置
- コンピュータで実行されるイベント発生時期予測方法であって、
前記コンピュータは、少なくとも入力手段と処理手段とを備え、
前記入力手段に入力された第1解析対象から得られた1種類又は複数種類の第1解析結果に基づき、前記処理手段が、前記第1解析結果の取得時から所定の期間内に、第1解析対象においてイベントが発生する可能性を示すスコアが算出される算出工程を含み、
前記スコアは、前記イベントが発生したことが既知の第2解析対象から、前記イベント発生前に得られた一種類又は複数種類の第2解析結果と、
前記第2解析結果の取得時から前記第2解析対象における前記イベント発生時までの経過時間と、を用いて、
前記第2解析結果の取得時と前記イベント発生時とが所定の期間内に存在するか否かを教師データとした機械学習により得られる、
イベント発生時期予測方法 - コンピュータを、
第1解析対象から得られた一種類又は複数種類の第1解析結果が入力される入力手段と、
前記入力手段に入力された第1解析結果に基づき、前記第1解析結果の取得時から所定の期間内に、第1解析対象においてイベントが発生する可能性を示すスコアを算出するステップを実行する処理手段と、として機能させ、
前記スコアは、前記イベントが発生したことが既知の第2解析対象から、前記イベント発生前に得られた1種類又は複数種類の第2解析結果と、
前記第2解析結果の取得時から前記第2解析対象における前記イベント発生時までの経過時間と、を用いて、
前記第2解析結果の取得時と前記イベント発生時とが所定の期間内に存在するか否かを教師データとした機械学習により得られる、
イベント発生時期予測プログラム
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015140912A JP2017021727A (ja) | 2015-07-15 | 2015-07-15 | イベント発生時期予測装置、イベント発生時期予測方法、及びイベント発生時期予測プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015140912A JP2017021727A (ja) | 2015-07-15 | 2015-07-15 | イベント発生時期予測装置、イベント発生時期予測方法、及びイベント発生時期予測プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017021727A true JP2017021727A (ja) | 2017-01-26 |
Family
ID=57888128
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015140912A Pending JP2017021727A (ja) | 2015-07-15 | 2015-07-15 | イベント発生時期予測装置、イベント発生時期予測方法、及びイベント発生時期予測プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2017021727A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020130238A1 (ko) * | 2018-12-18 | 2020-06-25 | 연세대학교 산학협력단 | 사망 위험도의 예측 방법 및 이를 이용한 디바이스 |
WO2020138707A1 (ko) * | 2018-12-28 | 2020-07-02 | (주)아이쿱 | 혈액검사 결과 기반 생활패턴 및 변화인자 추정방법 |
KR20210043941A (ko) * | 2019-10-14 | 2021-04-22 | 연세대학교 산학협력단 | 사망 위험도에 대한 정보 제공 방법 및 이를 이용한 디바이스 |
CN113614537A (zh) * | 2019-03-28 | 2021-11-05 | 豪夫迈·罗氏有限公司 | 癌症预后 |
KR20220056527A (ko) * | 2020-10-28 | 2022-05-06 | 전남대학교산학협력단 | 딥러닝 기반의 생존 시간 예측 시스템 및 방법 |
WO2023127982A1 (ko) * | 2021-12-28 | 2023-07-06 | 경상국립대학교병원 | 급성 호흡곤란 증후군 환자의 예후 예측을 위한 정보제공방법 |
-
2015
- 2015-07-15 JP JP2015140912A patent/JP2017021727A/ja active Pending
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020130238A1 (ko) * | 2018-12-18 | 2020-06-25 | 연세대학교 산학협력단 | 사망 위험도의 예측 방법 및 이를 이용한 디바이스 |
KR20200075477A (ko) * | 2018-12-18 | 2020-06-26 | 연세대학교 산학협력단 | 사망 위험도의 예측 방법 및 이를 이용한 디바이스 |
KR102257830B1 (ko) * | 2018-12-18 | 2021-05-28 | 연세대학교 산학협력단 | 사망 위험도의 예측 방법 및 이를 이용한 디바이스 |
WO2020138707A1 (ko) * | 2018-12-28 | 2020-07-02 | (주)아이쿱 | 혈액검사 결과 기반 생활패턴 및 변화인자 추정방법 |
CN113614537A (zh) * | 2019-03-28 | 2021-11-05 | 豪夫迈·罗氏有限公司 | 癌症预后 |
JP2022526361A (ja) * | 2019-03-28 | 2022-05-24 | エフ・ホフマン-ラ・ロシュ・アクチェンゲゼルシャフト | がんの予後 |
KR20210043941A (ko) * | 2019-10-14 | 2021-04-22 | 연세대학교 산학협력단 | 사망 위험도에 대한 정보 제공 방법 및 이를 이용한 디바이스 |
KR102310888B1 (ko) * | 2019-10-14 | 2021-10-08 | 연세대학교 산학협력단 | 사망 위험도에 대한 정보 제공 방법 및 이를 이용한 디바이스 |
KR20220056527A (ko) * | 2020-10-28 | 2022-05-06 | 전남대학교산학협력단 | 딥러닝 기반의 생존 시간 예측 시스템 및 방법 |
KR102512674B1 (ko) * | 2020-10-28 | 2023-03-22 | 전남대학교산학협력단 | 딥러닝 기반의 생존 시간 예측 시스템 및 방법 |
WO2023127982A1 (ko) * | 2021-12-28 | 2023-07-06 | 경상국립대학교병원 | 급성 호흡곤란 증후군 환자의 예후 예측을 위한 정보제공방법 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2017021727A (ja) | イベント発生時期予測装置、イベント発生時期予測方法、及びイベント発生時期予測プログラム | |
MacKay et al. | Abnormal calcium levels during trauma resuscitation are associated with increased mortality, increased blood product use, and greater hospital resource consumption: a pilot investigation | |
Asar et al. | Joint modelling of repeated measurement and time-to-event data: an introductory tutorial | |
AU2014347669B2 (en) | Methods and systems of evaluating a risk of lung cancer | |
Jiang et al. | An explainable machine learning algorithm for risk factor analysis of in-hospital mortality in sepsis survivors with ICU readmission | |
Domínguez-Olmedo et al. | Machine learning applied to clinical laboratory data in Spain for COVID-19 outcome prediction: model development and validation | |
WO2017165693A1 (en) | Use of clinical parameters for the prediction of sirs | |
EP3152322B1 (en) | Estimating risk of death using the clearance volume of red blood cells as biomarker | |
Pulgar-Sánchez et al. | Biomarkers of severe COVID-19 pneumonia on admission using data-mining powered by common laboratory blood tests-datasets | |
Mitrpanont et al. | A study on using Python vs Weka on dialysis data analysis | |
Cai et al. | Predicting acute kidney injury risk in acute myocardial infarction patients: an artificial intelligence model using medical information mart for intensive care databases | |
Liu et al. | Predictive analytics for blood glucose concentration: an empirical study using the tree-based ensemble approach | |
Huang et al. | Ability of a machine learning algorithm to predict the need for perioperative red blood cells transfusion in pelvic fracture patients: A multicenter cohort study in China | |
Schwartz et al. | Stroke mortality prediction using machine learning: systematic review | |
Tabatabaie et al. | Accuracy of machine learning models to predict mortality in COVID-19 infection using the clinical and laboratory data at the time of admission | |
Hug | Detecting hazardous intensive care patient episodes using real-time mortality models | |
Deng et al. | Characterizing risk of in-hospital mortality following subarachnoid hemorrhage using machine learning: a retrospective study | |
Chow et al. | The algorithm examining the risk of massive transfusion (ALERT) score accurately predicts massive transfusion at the scene of injury and on arrival to the trauma bay: a retrospective analysis | |
Nakhaei et al. | Studying the effects of systemic inflammatory markers and drugs on AVF longevity through a novel clinical intelligent framework | |
CN113782197B (zh) | 基于可解释性机器学习算法的新冠肺炎患者转归预测方法 | |
Ahmed et al. | A comparative study of classification techniques in data mining algorithms used for medical diagnosis based on DSS | |
Asgari et al. | The comparison of selected machine learning techniques and correlation matrix in ICU mortality risk prediction | |
Emami et al. | Predicting the mortality of patients with Covid‐19: A machine learning approach | |
KR20220005791A (ko) | 섬망 예측 방법 및 이의 장치 | |
Liu et al. | Establishment of a Highly Predictive Survival Nomogram for Patients with Sepsis: A Retrospective Cohort Study |