JP6280997B1 - 疾患の罹患判定装置、疾患の罹患判定方法、疾患の特徴抽出装置及び疾患の特徴抽出方法 - Google Patents

疾患の罹患判定装置、疾患の罹患判定方法、疾患の特徴抽出装置及び疾患の特徴抽出方法 Download PDF

Info

Publication number
JP6280997B1
JP6280997B1 JP2017008789A JP2017008789A JP6280997B1 JP 6280997 B1 JP6280997 B1 JP 6280997B1 JP 2017008789 A JP2017008789 A JP 2017008789A JP 2017008789 A JP2017008789 A JP 2017008789A JP 6280997 B1 JP6280997 B1 JP 6280997B1
Authority
JP
Japan
Prior art keywords
disease
sample data
biomarker
learned model
importance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017008789A
Other languages
English (en)
Other versions
JP2018077814A (ja
Inventor
大輔 岡野原
大輔 岡野原
健太 大野
健太 大野
信行 大田
信行 大田
カリーム ハムザウイ
カリーム ハムザウイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Preferred Networks Inc
Original Assignee
Preferred Networks Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Preferred Networks Inc filed Critical Preferred Networks Inc
Application granted granted Critical
Publication of JP6280997B1 publication Critical patent/JP6280997B1/ja
Publication of JP2018077814A publication Critical patent/JP2018077814A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12MAPPARATUS FOR ENZYMOLOGY OR MICROBIOLOGY; APPARATUS FOR CULTURING MICROORGANISMS FOR PRODUCING BIOMASS, FOR GROWING CELLS OR FOR OBTAINING FERMENTATION OR METABOLIC PRODUCTS, i.e. BIOREACTORS OR FERMENTERS
    • C12M1/00Apparatus for enzymology or microbiology
    • C12M1/34Measuring or testing with condition measuring or sensing means, e.g. colony counters
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/178Oligonucleotides characterized by their use miRNA, siRNA or ncRNA

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Organic Chemistry (AREA)
  • Biomedical Technology (AREA)
  • Genetics & Genomics (AREA)
  • Biophysics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Epidemiology (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Medicinal Chemistry (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Hematology (AREA)
  • Sustainable Development (AREA)
  • Primary Health Care (AREA)

Abstract

【課題】バイオマーカーの発現量のデータを用いてニューラルネットワークで学習させることで疾患の罹患判定を可能とし、かつ、疾患について特徴的なバイオマーカーをニューラルネットワークによって抽出可能とすること。【解決手段】複数種類のバイオマーカーのそれぞれ発現量を個人毎に記録したサンプルデータを取得し、訓練データを用いて機械学習を行って予め得た疾患の罹患を判定可能な学習済モデルを生成し、この学習済モデルに対して、疾患に罹患したラベル情報の付された複数のサンプルデータを入力して演算し、各サンプルデータ毎に罹患判定の演算によって学習済モデルで得られる複数のバイオマーカーそれぞれの特徴の重要度を数値化し、各バイオマーカー毎に全サンプルデータの数値化した重要度に基づいて所定数のバイオマーカーを当該疾患に関する特徴的なバイオマーカーとして抽出する。【選択図】図2

Description

本発明は、ヒト由来の試料におけるサンプルデータを用いてニューラルネットワークで学習させることで疾患の罹患判定を行い、かつ、疾患について特徴的なバイオマーカーとなるmiRNAをニューラルネットワークによって抽出するための技術に関するものである。
従来、生体由来の試料中のmiRNA(microRNA(マイクロRNA)のことをいう)の発現量に着目した疾患の診断手法が提案されている。miRNAとは、21−25塩基長の1本鎖RNA分子からなる機能性核酸のことであり、自分自身と相補的な標的部位をもつ様々な遺伝子の翻訳を抑制する働きがあり、細胞の発生、分化、増殖、細胞死などの基本的な生物学的機能を制御しているものとして知られている。ヒトのmiRNAとしては、現在2500種類以上が発見されている。これら膨大な種類が存在するmiRNAのうち、特定の疾患の罹患者と非罹患者との間でmiRNAの発現量に変化が生じることに着目して、その疾患の診断、早期発見に利用しようという研究が行われている。
miRNAを利用して特定の疾患の診断を行うものとしては、例えば、特許文献1が挙げられる。この特許文献1においては、特定のmiRNAを下咽頭がんのバイオマーカーとして使用する方法、下咽頭がんの判定方法、下咽頭がんの判定キット等が提案されている。
特開2011−72229号公報
特許文献1では、下咽頭がん組織のmiRNAと下咽頭正常組織のmiRNAとを対比し、特定のmiRNAが下咽頭がん組織において異常発現していることを見出し、その特定のmiRNAをバイオマーカーとして下咽頭がんの診断に利用することとしている。このように、従来のmiRNAを利用した診断は、ある疾患に関連したmiRNAを発見して利用するものとなっており、実際の診断においても、疾患に関連したmiRNAの発現量に基づいて診断が行われることになる。
疾患に関連したmiRNAのみに着目して診断を行う方法においてもある程度の精度で診断を行うことができるが、問題となるのは、着目したmiRNAの値については陽性と診断できるほどの有意な差は現れていなくとも実際には疾患について陽性である場合が存在するということである。着目したmiRNAの値についてどこかで閾値を設けて診断を行う必要があるので仕方のないことであるが、少数のmiRNAのみに着目して診断を行うときに発生する問題であるといえる。しかし、同じ手法を用いて膨大なmiRNAの全データを診断に用いるのは容易ではないという問題があった。
また、特許文献1においては、下咽頭がん組織のmiRNAと下咽頭正常組織のmiRNAとを対比することで特定のmiRNAを抽出しており、このような実際の疾患組織を対比する方法で特徴的miRNAを発見する方法は有効ではある。しかし、個々のmiRNAの発現量を比較したときにその差が有意な差であるか否かを人間が判断する方法では、2500種類以上もあるmiRNAの発現量のデータ全てを有効活用して診断精度を向上させることは不可能であった。
本発明は、上記問題点に鑑みなされたものであり、miRNA等のバイオマーカーの発現量のデータを用いてニューラルネットワークで学習させることで疾患の罹患判定が可能な疾患の罹患判定手法を提供し、かつ、疾患について特徴的なバイオマーカーをニューラルネットワークによって抽出可能な疾患の特徴抽出手法を提供することを目的とする。
本発明に係る疾患の特徴抽出装置は、ヒト由来の試料における複数種類のmiRNAを含むバイオマーカーのそれぞれ発現量を個人毎に記録したサンプルデータを取得するサンプルデータ取得部と、訓練データを用いて機械学習を行って予め得た疾患の罹患を判定可能な学習済モデルからなる罹患判定部と、前記罹患判定部に対して、疾患に罹患したラベル情報の付された複数のサンプルデータを入力してそれぞれ罹患判定をさせ、各サンプルデータ毎に罹患判定の演算によって学習済モデルで得られる複数のバイオマーカーそれぞれに対応する特徴に関する勾配を計算し、各バイオマーカー毎に複数のサンプルデータの勾配の値の和をとることで得られる各バイオマーカー毎の重要度に基づいて所定数のバイオマーカーを当該疾患に関する特徴的なバイオマーカーとして抽出する特徴抽出部とを具備してなることを特徴とする。
本発明に係る疾患の特徴抽出装置は、ヒト由来の試料における複数種類のmiRNAを含むバイオマーカーのそれぞれ発現量を個人毎に記録したサンプルデータを取得するサンプルデータ取得部と、訓練データを用いて機械学習を行って予め得た疾患の罹患を判定可能な学習済モデルからなる罹患判定部と、疾患に罹患したラベル情報の付された複数のサンプルデータそれぞれについて、Local Interpretable Model-agnostic Explanations (LIME)によって前記罹患判定部で用いられた学習済モデルを近似するラベルyに関する線形学習器f (y|x)=Σ ij を学習させ、S =|Σ ij |を計算することで、各バイオマーカー毎に複数のサンプルデータそれぞれに対応した線形学習器における重みw ij の和をとることで得られる各バイオマーカー毎の重要度に基づいて所定数のバイオマーカーを当該疾患に関する特徴的なバイオマーカーとして抽出する特徴抽出部とを具備してなることを特徴とする。
本発明に係る疾患の特徴抽出装置は、ヒト由来の試料における複数種類のmiRNAを含むバイオマーカーのそれぞれ発現量を個人毎に記録したサンプルデータを取得するサンプルデータ取得部と、訓練データを用いて機械学習を行って予め得た疾患の罹患を判定可能な学習済モデルからなる罹患判定部と、疾患に罹患したラベル情報の付された複数のサンプルデータそれぞれを前記罹患判定部で用いられた学習済モデルに対して順次入力し、layer-wise relevance propagation(LRP)による演算を用いて、入力の特徴ベクトルと同次元となる重要度ベクトルRのj番目の値をi番目のサンプルデータにおける特徴jに対する重要度S ij としてそれぞれ求め、全サンプルデータについて演算が終了した後に、S =|Σ ij |を計算することで得られる各バイオマーカー毎の重要度に基づいて所定数のバイオマーカーを当該疾患に関する特徴的なバイオマーカーとして抽出する特徴抽出部とを具備してなることを特徴とする。
また、本発明に係る疾患の特徴抽出装置は、前記特徴抽出部は、サンプルデータ毎に学習済モデルを用いてi番目のサンプルデータに関する損失関数L を演算する処理と、損失関数の値L を起点として誤差逆伝播を行い、サンプルiの複数種類のバイオマーカーのそれぞれに対応する特徴x に関する勾配g ij =∂L /∂x を計算する処理と、全てのサンプルについての勾配の和の絶対値を重要度S =|Σ_{i}g ij |として求める処理とによって、バイオマーカーそれぞれの重要度を数値化するようにしたことを特徴とする。
また、本発明に係る疾患の特徴抽出装置は、前記訓練データは、サンプルデータに対して各個人が疾患に罹患しているか否かのラベル情報を付したものであることを特徴とする。
また、本発明に係る疾患の罹患判定装置は、ヒト由来の試料における複数種類のmiRNAを含むバイオマーカーそれぞれの発現量を含むサンプルデータを取得するサンプルデータ取得部と、上記の何れかに記載の疾患の特徴抽出装置に基づいて抽出された所定数の特徴的なバイオマーカーのみの訓練データを用いて機械学習を行って予め得た疾患の罹患を判定可能な学習済モデルと、当該学習済モデルを用いてサンプルデータについて罹患判定を行う罹患判定部とを具備してなることを特徴とする。
本発明に係る疾患の罹患判定方法は、ヒト由来の試料における複数種類のmiRNAを含むバイオマーカーのそれぞれ発現量を個人毎に記録したサンプルデータを取得するサンプルデータ取得手順と、訓練データを用いて機械学習を行って予め得た疾患の罹患を判定可能な学習済モデルを生成する学習済モデル生成手順と、前記学習済モデルに対して、疾患に罹患したラベル情報の付された複数のサンプルデータを入力してそれぞれ罹患判定をさせ、各サンプルデータ毎に罹患判定の演算によって学習済モデルで得られる複数のバイオマーカーそれぞれに対応する特徴に関する勾配を計算し、各バイオマーカー毎に複数のサンプルデータの勾配の値の和をとることで得られる各バイオマーカー毎の重要度に基づいて所定数のバイオマーカーを当該疾患に関する特徴的なバイオマーカーとして抽出する特徴抽出手順とを含むことを特徴とする。
本発明に係る疾患の罹患判定方法は、ヒト由来の試料における複数種類のmiRNAを含むバイオマーカーのそれぞれ発現量を個人毎に記録したサンプルデータを取得するサンプルデータ取得手順と、訓練データを用いて機械学習を行って予め得た疾患の罹患を判定可能な学習済モデルを生成する学習済モデル生成手順と、疾患に罹患したラベル情報の付された複数のサンプルデータそれぞれについて、Local Interpretable Model-agnostic Explanations (LIME)によって前記学習済モデルを近似するラベルyに関する線形学習器f (y|x)=Σ ij を学習させ、S =|Σ ij |を計算することで、各バイオマーカー毎に複数のサンプルデータそれぞれに対応した線形学習器における重みw ij の和をとることで得られる各バイオマーカー毎の重要度に基づいて所定数のバイオマーカーを当該疾患に関する特徴的なバイオマーカーとして抽出する特徴抽出手順とを含むことを特徴とする。
本発明に係る疾患の罹患判定方法は、ヒト由来の試料における複数種類のmiRNAを含むバイオマーカーのそれぞれ発現量を個人毎に記録したサンプルデータを取得するサンプルデータ取得手順と、訓練データを用いて機械学習を行って予め得た疾患の罹患を判定可能な学習済モデルを生成する学習済モデル生成手順と、疾患に罹患したラベル情報の付された複数のサンプルデータそれぞれを前記学習済モデルに対して順次入力し、layer-wise relevance propagation(LRP)による演算を用いて、入力の特徴ベクトルと同次元となる重要度ベクトルRのj番目の値をi番目のサンプルデータにおける特徴jに対する重要度S ij としてそれぞれ求め、全サンプルデータについて演算が終了した後に、S =|Σ ij |を計算することで得られる各バイオマーカー毎の重要度に基づいて所定数のバイオマーカーを当該疾患に関する特徴的なバイオマーカーとして抽出する特徴抽出手順とを含むことを特徴とする。
本発明によれば、ニューラルネットワークによる学習の過程でパラメータの更新を行いながら機械学習を行うことで学習済みモデルを生成する。故に、予め人間が疾患に関連したmiRNAの存在を認識していなくとも、罹患判定を高い精度で行うことができる。
さらに、本発明によれば、従来の試験方法では判定が困難であった、悪性腫瘍と良性腫瘍の判定を高い精度で行うことができる。
また、本発明によれば、生成した学習済モデルに対して罹患者のラベル情報の付された複数のサンプルデータを入力して罹患判定の演算を行い、演算過程でサンプルデータの重要度を求め、全サンプルデータの重要度の和の絶対値を求めて、重要度の和の絶対値に基づいてサンプルデータの特徴をランク付けして上位から所定数の特徴に該当するバイオマーカーをその疾患に関する特徴的バイオマーカーとして抽出するようにしたので、その疾患の罹患判定において重要なmiRNAを特徴的miRNAとして抽出することが可能となる。抽出した特徴的バイオマーカーを用いることで、罹患判定の精度を向上させつつ、コンピュータに要求される処理能力を低減でき、かつ演算処理速度を向上させることができる。
本発明に係る疾患の特徴抽出装置10の構成を表したブロック図である。 ニューラルネットワークにおける学習の概念を表した説明図である。 疾患の特徴抽出装置10における学習処理の流れを表したフローチャート図である。 疾患の特徴抽出装置10における特徴抽出処理の流れを表したフローチャート図である。 様々な疾患について本発明を適用した場合の罹患判定精度を表した表である。
[第1の実施の形態]
以下、図面を参照しながら、第1の実施の形態に係る疾患の特徴抽出装置の例について説明する。図1は、本発明に係る疾患の罹患判定装置10の構成を表したブロック図である。なお、疾患の罹患判定装置10は、専用マシンとして設計した装置であってもよいが、一般的なコンピュータによって実現可能なものであるものとする。この場合に、データ圧縮装置10及びデータ再現装置20は、一般的なコンピュータが通常備えているであろうCPU(Central Processing Unit:中央演算処理装置)、GPU(Graphics Processing Unit:画像処理装置)、メモリ、ハードディスクドライブ等のストレージを具備しているものとする(図示省略)。また、これらの一般的なコンピュータを本例の疾患の罹患判定装置10として機能させるためにプログラムよって各種処理が実行されることは言うまでもない。
疾患の罹患判定装置10は、サンプルデータ取得部11と、罹患判定部12と、特徴抽出部13と、記憶部14とを少なくとも備えている。
サンプルデータ取得部11は、ヒト由来の試料における複数種類のmiRNAを含むバイオマーカーのそれぞれ発現量を個人毎に記録したサンプルデータを取得する機能を有する。ヒト由来の試料とは、血液、体液、細胞の培養液などmiRNA等のバイオマーカーを含み得る人間由来の試料をいう。これらの試料からmiRNA等のバイオマーカーを検出する手法はどのようなものであってもよいが、検出可能なmiRNA等のバイオマーカーを可能な限り全て検出可能な手法であるとなお好ましい。バイオマーカーの検出装置を疾患の特徴抽出装置10に内蔵する構成であってもよいし、外部において検出したサンプルデータを通信ネットワークを介してサンプルデータ取得部11で取得する構成であってもよい。個人毎のサンプルデータは、例えば、2500種類以上のmiRNAのデータ項目を有し、各miRNAの項目は、単位体積あたりの発現量を表す数値データによって構成されているものとする。
罹患判定部12は、訓練データを用いて機械学習を行って予め得た疾患の罹患を判定可能な学習済モデルからなり、学習済モデルを用いて個人のサンプルデータが疾患に罹患しているか否かの判定を行う機能を有する。訓練データとは、サンプルデータに対して疾患に罹患しているか否かのラベル情報を付したものをいう。学習済モデルの生成のためには、罹患者のサンプルデータと非罹患者のサンプルデータがそれぞれ複数あることが好ましい。なお、以下の説明においては、機械学習がニューラルネットワークによる学習である場合を例に説明を行うが、これに限定されず、様々な機械学習を適用し得る。
図2は、ニューラルネットワークにおける学習の概念を表した説明図である。この図2に示すように、ニューラルネットワークによる学習は、訓練データ(ラベル情報付サンプルデータ)を入力とし、罹患判定結果を出力として得られるように、ニューラルネットワークの構成を設定する。実際のニューラルネットワークによる学習は、例えば、損失関数を求める処理をニューラルネットワークにおいて行い、損失関数の値から疾患の罹患判定を行えるように学習するものが考えられる。入力データと判定結果との差からニューラルネットワークの各パラメータの修正を行い、判定精度を高めるように学習を行って、学習済モデルを得る。ここでいうニューラルネットは、例えば、Feedforward, CNN, VAE, GAN, AAEなどがある。
重要度算出部18は、罹患判定部12において学習済モデルを用いてサンプルデータについて罹患判定を行う場合に、サンプルデータにおける各バイオマーカーの値が罹患判定にどの程度影響するかの指針となる重要度を算出する機能を有する。重要度の算出は、後述する特徴抽出部13における重要度の数値化と同じ手法である。なお、罹患判定部12においてサンプルデータの罹患判定を行う場合、学習済モデルに対してサンプルデータを入力して疾患の罹患判定結果のみを出力する構成とすることも当然可能である。その場合であっても学習済モデルにおいては内部で重要度を算出して判定することになるが、重要度算出部18として独立して機能しない場合も在り得る。すなわち、本発明において、罹患判定部12において罹患判定を行うという場合には、罹患判定部12の内部処理として重要度算出部18が機能している場合を含むものとする。
特徴抽出部13は、疾患に関する特徴的なバイオマーカーを抽出する機能を有する。特徴的なバイオマーカーとは、その疾患の罹患者と非罹患者を判定するために有効なバイオマーカーのことである。特徴的なバイオマーカーの抽出の方法は、罹患判定部12において学習した学習済モデルに対して、疾患に罹患したラベル情報の付された複数のサンプルデータを入力してそれぞれ罹患判定をさせ、各サンプルデータ毎に罹患判定の演算によって学習済モデルで得られる複数のバイオマーカーそれぞれの特徴の重要度を数値化し、各バイオマーカー毎に複数のサンプルデータの数値化した特徴の和を求めて、和の値が大きいものから所定数のバイオマーカーを当該疾患に関する特徴的なバイオマーカーとして抽出するというものである。
より具体的には、特徴抽出部13において、サンプルデータ毎に学習済モデルを用いてi番目のサンプルデータに関する損失関数Lを演算する処理と、損失関数の値Lを起点として誤差逆伝播を行い、サンプルiの複数種類のバイオマーカーのそれぞれに対応する特徴xに関する勾配gij=∂L/∂xを計算する処理と、全てのサンプルについての勾配の和の絶対値をその特徴の重要度S=|Σ_{i}gij|として求める処理とによって、バイオマーカーそれぞれの特徴の重要度を数値化して、重要度の大きい順にバイオマーカーをランク付けして、上位から所定数、例えば100個を特徴的なバイオマーカーとして抽出する。
特徴重要度算出部19は、特徴抽出部13において特徴的バイオマーカーを抽出した場合に、その抽出したバイオマーカーのみを入力データの項目として採用して罹患判定を行う場合の各特徴的バイオマーカーの値が罹患判定にどの程度影響するかの指針となる特徴重要度を算出する機能を有する。重要度の大きい順にバイオマーカーをランク付けして、上位から所定数、例えば100個を特徴的バイオマーカーとして抽出した場合には、100個のバイオマーカーを入力として罹患判定を行う処理をニューラルネットワークによって学習させて、100個の特徴的バイオマーカーの場合の学習済モデルを生成し、その学習済みモデルを用いて罹患判定部12においてサンプルデータの罹患判定を行う場合、この特徴重要度算出部19によって特徴重要度を算出して罹患判定を行う。前述の重要度算出部18の場合と同様に、学習済モデルに対してサンプルデータを入力して疾患の罹患判定結果のみを出力する構成とすることも当然可能である。その場合であっても学習済モデルにおいては内部で特徴重要度を算出して判定することになるが、特徴重要度算出部19として独立して機能しない場合も在り得る。すなわち、本発明において、罹患判定部12において罹患判定を行うという場合には、罹患判定部12の内部処理として特徴重要度算出部19が機能している場合を含むものとする。
記憶部14は、疾患の罹患判定装置10において使用するデータ及び処理結果として得られたデータを記憶する機能を有する。具体的には、図1に示すように、サンプルデータ取得部11において取得したサンプルデータ15や、サンプルデータのうち疾患に罹患しているか否かのラベル情報が付された訓練データ16や、訓練データを用いて機械学習によって生成された学習済モデル17などが少なくとも記憶されている。
次に、本発明に係る疾患の罹患判定装置10における処理の流れについて図面に基づいて説明する。図3は、疾患の罹患判定装置10における学習処理の流れを表したフローチャート図である。疾患の罹患判定装置10の罹患判定部12において疾患の罹患判定を行うためには、予めニューラルネットワークで学習を行って学習済モデルを生成しておく必要がある。この学習済モデルの生成は罹患判定部12において行ってもよいし、別途生成した学習済モデルを記憶部14に格納した上で罹患判定部12において利用するものであってもよい。
図3において、学習済モデルの生成は、先ず、訓練データを取得することによって開始される(ステップS11)。また、必要に応じてテストデータも取得する。テストデータは、訓練データと同様に、疾患に罹患しているか否かのラベル情報が付されたサンプルデータであって、訓練データとは異なるサンプルデータである。取得した訓練データには、前処理を行う(ステップS12)。前処理は、訓練データの特徴ベクトルの各次元について訓練データ全体に渡る平均が0、分散が1になるように各次元を一次変換する白色化処理を行う。次に、ニューラルネットワークの各パラメータについて初期化を行う(ステップS13)。初期化の方法としては、例えば、各パラメータを乱数によって初期化する方法が考えられる。その後、初期化したニューラルネットワークに対して訓練データを入力して学習を実行する(ステップS14)。罹患判定の判定結果と訓練データのラベル情報が一致するようにパラメータを適宜修正して判定精度を高めるように学習を行う。学習後、判定精度を測るために、テストデータを用いて交差検定を行うようにしてもよい(ステップS15)。判定精度が担保された学習済モデルが得られた時点で学習を終了して、学習済モデルを出力して終了する(ステップS16)。
図4は、疾患の罹患判定装置10における特徴抽出処理の流れを表したフローチャート図である。図4において、疾患の特徴抽出は、先ず、罹患者であることを示すラベル情報の付された複数のサンプルデータを取得する(ステップS21)。取得した複数のサンプルデータには、前処理を行う(ステップS22)。前処理は、サンプルデータの特徴ベクトルの各次元についてサンプルデータ全体に渡る平均が0、分散が1になるように各次元を一次変換する白色化処理を行う。次に、学習済モデルに対してサンプルデータを入力して罹患判定の演算を実行する(ステップS23)。罹患判定のための演算は、例えば、損失関数の演算である。各サンプルデータ毎に、サンプルデータの各特徴ごとに重要度を抽出する(ステップS24)。重要度の抽出は、例えば、サンプルデータの各特徴に関する勾配を計算し、勾配の大きさを重要度として数値化する。そして、各特徴ごとに、全サンプルデータ分の重要度の和を計算する(ステップS25)。重要度の和の絶対値が大きい順に特徴をランク付けし、上位から所定数を抽出する(ステップS26)。抽出した特徴に該当するバイオマーカーをその疾患に関する特徴的バイオマーカーとして抽出して終了する(ステップS27)。
以上のように、本発明に係る疾患の罹患判定装置10によれば、複数種類(例えば、2500種類以上)のmiRNAのデータ項目を有する訓練データを用いてニューラルネットワークにおいて学習を行って学習済モデルを生成し、その学習済モデルを用いて疾患の罹患判定を行うようにしたので、ニューラルネットワークによる学習の過程で疾患の罹患判定に有意なmiRNAについてはその発現量が判定に影響するようにパラメータの更新を行いながら学習がなされることになり、これにより、予め人間が疾患に関連したmiRNAの存在を認識していなくともの罹患判定を精度良く行うことができる。
また、本発明に係る疾患の罹患判定装置10によれば、生成した学習済モデルに対して罹患者のラベル情報の付された複数のサンプルデータを入力して罹患判定の演算を行い、演算過程でサンプルデータの各特徴の重要度を求め、各特徴ごとに全サンプルデータの重要度の和の絶対値を求めて、重要度の和の絶対値に基づいてサンプルデータの特徴をランク付けして上位から所定数の特徴に該当するバイオマーカーをその疾患に関する特徴的バイオマーカーとして抽出するようにしたので、その疾患の罹患判定において重要なmiRNAを特徴的miRNAとして抽出することが可能となる。
特徴的バイオマーカーを抽出するメリットとしては、罹患判定の精度を維持しつつ、コンピュータに要求される処理能力を低減でき、かつ演算処理速度を向上させることができるという点である。具体的には、例えば、2500種類以上のmiRNAの発現量のデータに基づいて学習を行った学習済モデルは非常に精度の高い罹患判定が行える半面、演算処理のためのコンピュータに非常に高い処理能力が要求され、かつ演算処理時間も長く必要となる。そこで、特徴的miRNAを重要度に基づいて例えば上位100個抽出して、上位100個のmiRNAをデータ項目としたサンプルデータでニューラルネットワークによる学習を行って学習済モデルを生成して、その学習済モデルで罹患判定を行えば、2500種類に基づく罹患判定の場合と遜色のない精度で罹患判定を行え、しかも演算処理のためのコンピュータの処理能力を下げることができ、かつ演算処理時間も短縮できるというメリットがある。
一例として、精度向上の例を挙げると、5種類のmiRNAを用いた従来の乳癌の診断方法では、診断の精度が89%であったのに対して、2500種類のmiRNAを用いた本発明に係る罹患判定手法によれば、99.6%の精度で乳癌の診断が可能となっており、非常に精度が向上していることが分かる。
また、2500種類のmiRNAを用いた本発明に係る特徴抽出装置によって抽出した上位100種類の特徴的miRNAを用いた罹患判定手法によれば、99.57%の精度で乳癌の診断が可能であり、2500種類のmiRNAを用いた場合と比較しても遜色のない精度で罹患判定を行うことが可能となっている。
[第2の実施の形態]
第1の実施の形態においては、疾患の罹患判定のための演算として損失関数Lを求める演算を採用し、損失関数Lの各特徴の勾配を特徴抽出のための重要度とするものとして説明を行った。しかし、この例に限定されるものではなく、他の例について、この第2の実施の形態で説明を行う。
この第2の実施の形態では、Local Interpretable Model-agnostic Explanations (LIME)によって線形分類器を学習するようにし、その過程で重要度を求めるようにする。訓練データを入力とし、学習済モデルとしての線形分類器を出力として得るための学習である。各訓練データごとに、訓練済予測器を近似する線形学習器を学習する。この場合、サンプルデータにノイズを加えて人工的な特徴ベクトルを複数作成し、訓練済の予測器に人工特徴ベクトルを与えて仮想ラベル(もしくはラベル上の確率分布)を得る。得られた人工特徴ベクトルと仮想ラベルを用いて線形分類器を学習するようにする。このようにして得られたラベルyに関する線形分類器は、f(y|x)=Σijと表現できる。この線形分類器から、重要度Sを計算する。例えば、S=|Σij|のように計算する。このようにして得られた重要度Sに基づいてランク付けを行って、疾患に関して特徴的なバイオマーカーを抽出するようにする。
以上のように、LIMEによる線形分類器を学習する手法を採用して重要度を演算するものであっても、精度良く罹患判定が行え、かつ、特徴的なバイオマーカーを抽出することが可能となる。
[第3の実施の形態]
特徴抽出のための演算は、layer-wise relevance propagation(LRP)による演算で各特徴の重要度を求めるものであってもよい。ただし、この手法においては、予測器が、(1)分岐のないニューラルネットワークであること、(2)予測器に用いるニューラルネットワーク内の層のうち、次元の入出力で次元が異なる層は全結合層のみであること、(3)ラベルの種類の数kに応じたk次元のベクトルを出力し、i番目の出力はi番目の予測確率を表すものであること、との3つの性質を備えていることを仮定する。
各サンプルデータi、各特徴jごとに、重要度Sijを演算する。演算は、先ず、訓練済のニューラルネットワークにサンプルデータiの特徴を与えて順伝播を行う。出力部から逆順に層を渡っていき、各層における重要度を表す重要度ベクトルRを帰納的に計算する。計算を進める順番は誤差逆伝播法と同様であるが、各層で実際に行う計算は異なる。入力部での重要度ベクトルR(誤差逆伝播法と同様に、これは入力の特徴ベクトルと同次元となる)のj番目の値を特徴jに対する重要度Sijと定義する。全サンプルデータについて演算が終了した後に、各特徴jの重要度Sを、例えば、S=|Σij|のように計算する。このようにして得られた重要度Sに基づいてランク付けを行って、疾患に関して特徴的なバイオマーカーを抽出するようにする。
以上のように、LRPによる予測器を学習する手法を採用して重要度を演算するものであっても、精度良く罹患判定が行え、かつ、特徴的なバイオマーカーを抽出することが可能となる。
第1の実施の形態において説明したように、本発明は、様々な疾患の罹患判定に対して適用可能である。図5は、様々な疾患について本発明を適用した場合の罹患判定精度を表した表である。この図5における判定に用いたトータルのサンプル数は約5000程度となっている。この図5に示すように、健常者についての判定精度は99.79%、乳がんについての判定精度は99.72%、乳良性疾患についての判定精度は100%、前立腺がんについての判定精度は99.16%、前立腺良性疾患についての判定精度は99.16%、膵がんについての判定精度は99.10%、胆道がんについての判定精度は99.06%、大腸がんについての判定精度は99.61%、胃がんについての判定精度は99.61%、食道がんについての判定精度は99.70%、肝がんについての判定精度は99.85%、膵胆良性疾患についての判定精度は99.74%となっており、様々な疾患について非常に高い精度で罹患判定を行うことが可能となっている。
また、本発明の特徴として、悪性疾患のみならず良性疾患についても罹患判定を行えることが挙げられる。図5に示すように、乳がんと乳良性疾患、前立腺がんと前立腺良性疾患、膵がん及び胆道がんと膵胆良性疾患の関係は、悪性疾患と良性疾患の関係にある。すなわち、疾患の罹患判定装置において、悪性疾患と良性疾患の関係にある複数の疾患についてそれぞれ学習を行い、これらについて同時に判定するようにすれば、悪性疾患であるか良性疾患であるかについても判定することが可能となるという効果がある。例えば、乳がんと乳良性疾患を判定可能なように、それぞれの疾患に罹患しているか否かのラベル情報が付された訓練データを複数用いて、乳がんと乳良性疾患を両方とも判定可能な学習済モデルを生成する。この学習済モデルを用いて罹患判定を行うようにすれば、乳がんと乳良性疾患を高精度に区別して判定することが可能となる。これにより、悪性と良性を正確に見分けることができる。例えば、乳がんではこれまでのいかなる診断法でも、良性と悪性を見分けることが見分けることがとても難しく、特に早期においては、不可能となっていた。そのため、良性の可能性があっても乳房を切除したりしていたという問題があった。しかし本発明による疾患の罹患判定によれば、良性と悪性を見分けることで、良性の可能性があるものを切除したりせずに適切な処置をすることが可能となる。この点は、患者のQOLに与える影響が多大であり画期的な発明であるといえる。
第1から第3の実施の形態においては、バイオマーカーとしてmiRNAを用いた例について説明を行ったが、ヒト由来の試料においてその発現量を検出して数値化できるものであれば、どのようなものであってもバイオマーカーとなり得る。本発明の特徴は、疾患に対してどのようなバイオマーカーが作用しているかを認識せずとも罹患判定に利用できる点が最大の特徴であるから、数値化できるバイオマーカーであれば、miRNAに限らず問題なく採用することが可能である。
第1から第3の実施の形態においては、特徴的なバイオマーカーを抽出する演算として、バイオマーカーに対応した各特徴ごとに複数のサンプルデータの重要度の和の絶対値を求める演算を行っていたが、本発明はこれに限定されるものではない。例えば、バイオマーカーに対応した特徴ごとに、複数のサンプルデータの中で重要度の値が最大値となる値をその特徴の重要度として抽出し、抽出した特徴ごとの重要度(最大値)を比較して、重要度の値の大きいものから上位所定数のバイオマーカーをその疾患に関する特徴的なバイオマーカーとして抽出するようにしてもよい。
第1から第3の実施の形態において説明した疾患の特徴抽出装置10による罹患判定及び特徴抽出は、例示した乳癌に限らず、様々な癌の診断に適用可能であることは勿論のこと、癌以外の様々な疾患に対して当然に適用可能である。
10 疾患の罹患判定装置
11 サンプルデータ取得部
12 罹患判定部
13 特徴抽出部
14 記憶部
15 サンプルデータ
16 訓練データ
17 学習済モデル

Claims (8)

  1. ヒト由来の試料における複数種類のmiRNAを含むバイオマーカーのそれぞれ発現量を個人毎に記録したサンプルデータを取得するサンプルデータ取得部と、
    訓練データを用いて機械学習を行って予め得た疾患の罹患を判定可能な学習済モデルからなる罹患判定部と、
    前記罹患判定部に対して、疾患に罹患したラベル情報の付された複数のサンプルデータを入力してそれぞれ罹患判定をさせ、各サンプルデータ毎に罹患判定の演算によって学習済モデルで得られる複数のバイオマーカーそれぞれに対応する特徴に関する勾配を計算し、各バイオマーカー毎に複数のサンプルデータの勾配の値の和をとることで得られる各バイオマーカー毎の重要度に基づいて所定数のバイオマーカーを当該疾患に関する特徴的なバイオマーカーとして抽出する特徴抽出部と
    を具備してなる疾患の特徴抽出装置。
  2. ヒト由来の試料における複数種類のmiRNAを含むバイオマーカーのそれぞれ発現量を個人毎に記録したサンプルデータを取得するサンプルデータ取得部と、
    訓練データを用いて機械学習を行って予め得た疾患の罹患を判定可能な学習済モデルからなる罹患判定部と、
    疾患に罹患したラベル情報の付された複数のサンプルデータそれぞれについて、Local Interpretable Model-agnostic Explanations (LIME)によって前記罹患判定部で用いられた学習済モデルを近似するラベルyに関する線形学習器f(y|x)=Σijを学習させ、S=|Σij|を計算することで、各バイオマーカー毎に複数のサンプルデータそれぞれに対応した線形学習器における重みwijの和をとることで得られる各バイオマーカー毎の重要度に基づいて所定数のバイオマーカーを当該疾患に関する特徴的なバイオマーカーとして抽出する特徴抽出部と
    を具備してなる疾患の特徴抽出装置。
  3. ヒト由来の試料における複数種類のmiRNAを含むバイオマーカーのそれぞれ発現量を個人毎に記録したサンプルデータを取得するサンプルデータ取得部と、
    訓練データを用いて機械学習を行って予め得た疾患の罹患を判定可能な学習済モデルからなる罹患判定部と、
    疾患に罹患したラベル情報の付された複数のサンプルデータそれぞれを前記罹患判定部で用いられた学習済モデルに対して順次入力し、layer-wise relevance propagation(LRP)による演算を用いて、入力の特徴ベクトルと同次元となる重要度ベクトルRのj番目の値をi番目のサンプルデータにおける特徴jに対する重要度Sijとしてそれぞれ求め、全サンプルデータについて演算が終了した後に、S=|Σij|を計算することで得られる各バイオマーカー毎の重要度に基づいて所定数のバイオマーカーを当該疾患に関する特徴的なバイオマーカーとして抽出する特徴抽出部と
    を具備してなる疾患の特徴抽出装置。
  4. 前記特徴抽出部は、サンプルデータ毎に学習済モデルを用いてi番目のサンプルデータに関する損失関数Lを演算する処理と、損失関数の値Lを起点として誤差逆伝播を行い、サンプルiの複数種類のバイオマーカーのそれぞれに対応する特徴xに関する勾配gij=∂L/∂xを計算する処理と、全てのサンプルについての勾配の和の絶対値を重要度S=|Σ_{i}gij|として求める処理とによって、バイオマーカーそれぞれの重要度を数値化するようにした
    請求項1記載の疾患の特徴抽出装置。
  5. 前記訓練データは、サンプルデータに対して各個人が疾患に罹患しているか否かのラベル情報を付したものである
    請求項1から請求項4の何れかに記載の疾患の特徴抽出装置。
  6. ヒト由来の試料における複数種類のmiRNAを含むバイオマーカーのそれぞれ発現量を個人毎に記録したサンプルデータを取得するサンプルデータ取得手順と、
    訓練データを用いて機械学習を行って予め得た疾患の罹患を判定可能な学習済モデルを生成する学習済モデル生成手順と、
    前記学習済モデルに対して、疾患に罹患したラベル情報の付された複数のサンプルデータを入力してそれぞれ罹患判定をさせ、各サンプルデータ毎に罹患判定の演算によって学習済モデルで得られる複数のバイオマーカーそれぞれに対応する特徴に関する勾配を計算し、各バイオマーカー毎に複数のサンプルデータの勾配の値の和をとることで得られる各バイオマーカー毎の重要度に基づいて所定数のバイオマーカーを当該疾患に関する特徴的なバイオマーカーとして抽出する特徴抽出手順と
    を含む疾患の特徴抽出方法。
  7. ヒト由来の試料における複数種類のmiRNAを含むバイオマーカーのそれぞれ発現量を個人毎に記録したサンプルデータを取得するサンプルデータ取得手順と、
    訓練データを用いて機械学習を行って予め得た疾患の罹患を判定可能な学習済モデルを生成する学習済モデル生成手順と、
    疾患に罹患したラベル情報の付された複数のサンプルデータそれぞれについて、Local Interpretable Model-agnostic Explanations (LIME)によって前記学習済モデルを近似するラベルyに関する線形学習器f(y|x)=Σijを学習させ、S=|Σij|を計算することで、各バイオマーカー毎に複数のサンプルデータそれぞれに対応した線形学習器における重みwijの和をとることで得られる各バイオマーカー毎の重要度に基づいて所定数のバイオマーカーを当該疾患に関する特徴的なバイオマーカーとして抽出する特徴抽出手順と
    を含む疾患の特徴抽出方法。
  8. ヒト由来の試料における複数種類のmiRNAを含むバイオマーカーのそれぞれ発現量を個人毎に記録したサンプルデータを取得するサンプルデータ取得手順と、
    訓練データを用いて機械学習を行って予め得た疾患の罹患を判定可能な学習済モデルを生成する学習済モデル生成手順と、
    疾患に罹患したラベル情報の付された複数のサンプルデータそれぞれを前記学習済モデルに対して順次入力し、layer-wise relevance propagation(LRP)による演算を用いて、入力の特徴ベクトルと同次元となる重要度ベクトルRのj番目の値をi番目のサンプルデータにおける特徴jに対する重要度Sijとしてそれぞれ求め、全サンプルデータについて演算が終了した後に、S=|Σij|を計算することで得られる各バイオマーカー毎の重要度に基づいて所定数のバイオマーカーを当該疾患に関する特徴的なバイオマーカーとして抽出する特徴抽出手順と
    を含む疾患の特徴抽出方法。
JP2017008789A 2016-10-31 2017-01-20 疾患の罹患判定装置、疾患の罹患判定方法、疾患の特徴抽出装置及び疾患の特徴抽出方法 Active JP6280997B1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016213690 2016-10-31
JP2016213690 2016-10-31

Publications (2)

Publication Number Publication Date
JP6280997B1 true JP6280997B1 (ja) 2018-02-14
JP2018077814A JP2018077814A (ja) 2018-05-17

Family

ID=61195694

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2017008789A Active JP6280997B1 (ja) 2016-10-31 2017-01-20 疾患の罹患判定装置、疾患の罹患判定方法、疾患の特徴抽出装置及び疾患の特徴抽出方法
JP2018547221A Active JP7021097B2 (ja) 2016-10-31 2017-10-31 疾患の罹患判定装置、疾患の罹患判定方法及び疾患の罹患判定プログラム
JP2021187345A Active JP7411619B2 (ja) 2016-10-31 2021-11-17 疾患の罹患判定装置、疾患の罹患判定方法及び疾患の罹患判定プログラム

Family Applications After (2)

Application Number Title Priority Date Filing Date
JP2018547221A Active JP7021097B2 (ja) 2016-10-31 2017-10-31 疾患の罹患判定装置、疾患の罹患判定方法及び疾患の罹患判定プログラム
JP2021187345A Active JP7411619B2 (ja) 2016-10-31 2021-11-17 疾患の罹患判定装置、疾患の罹患判定方法及び疾患の罹患判定プログラム

Country Status (6)

Country Link
US (1) US20190267113A1 (ja)
EP (1) EP3534281A4 (ja)
JP (3) JP6280997B1 (ja)
CN (1) CN109923614A (ja)
RU (1) RU2765695C2 (ja)
WO (1) WO2018079840A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019159902A (ja) * 2018-03-14 2019-09-19 オムロン株式会社 異常検知システム、サポート装置およびモデル生成方法
CN113056672A (zh) * 2018-11-19 2021-06-29 佳能株式会社 信息处理装置、信息处理装置的控制方法、程序、计算装置和计算方法

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2758481C (en) 2009-04-30 2018-03-20 Patientslikeme, Inc. Systems and methods for encouragement of data submission in online communities
US11250340B2 (en) * 2017-12-14 2022-02-15 Microsoft Technology Licensing, Llc Feature contributors and influencers in machine learned predictive models
WO2020008502A1 (ja) * 2018-07-02 2020-01-09 シンセティックゲシュタルト エルティーディー 情報処理システム、情報処理装置、サーバ装置、プログラム、又は方法
JP7362241B2 (ja) * 2018-11-02 2023-10-17 公益財団法人がん研究会 大腸がんの検査方法
US11151420B2 (en) * 2018-11-19 2021-10-19 International Business Machines Corporation Determination using learned model
US11894139B1 (en) * 2018-12-03 2024-02-06 Patientslikeme Llc Disease spectrum classification
CN110211690A (zh) * 2019-04-19 2019-09-06 平安科技(深圳)有限公司 疾病风险预测方法、装置、计算机设备及计算机存储介质
WO2020222287A1 (ja) * 2019-04-29 2020-11-05 株式会社Preferred Networks 訓練装置、罹患判定装置、機械学習方法、およびプログラム
JP6884810B2 (ja) * 2019-05-08 2021-06-09 キユーピー株式会社 情報提供装置、情報提供方法及びmiRNA重要度テーブル生成方法
CN110338843A (zh) * 2019-08-02 2019-10-18 无锡海斯凯尔医学技术有限公司 组织评价方法、装置、设备及计算机可读存储介质
CN110327074A (zh) * 2019-08-02 2019-10-15 无锡海斯凯尔医学技术有限公司 肝脏评价方法、装置、设备及计算机可读存储介质
JP7452990B2 (ja) * 2019-11-29 2024-03-19 東京エレクトロン株式会社 異常検知装置、異常検知方法及び異常検知プログラム
JP7412150B2 (ja) * 2019-11-29 2024-01-12 東京エレクトロン株式会社 予測装置、予測方法及び予測プログラム
WO2021142417A2 (en) * 2020-01-10 2021-07-15 Bisquertt Alejandro Systems for detecting alzheimer's disease
CN111312401B (zh) * 2020-01-14 2021-12-17 之江实验室 一种基于多标签学习的体检后慢性疾病预后系统
US11468276B2 (en) * 2020-04-16 2022-10-11 Robert Bosch Gmbh System and method of a monotone operator neural network
CN111696662A (zh) * 2020-05-26 2020-09-22 平安科技(深圳)有限公司 疾病预测方法、装置及存储介质
CN112530595A (zh) * 2020-12-21 2021-03-19 无锡市第二人民医院 一种基于多分支链式神经网络的心血管疾病分类方法和装置
CN112685561A (zh) * 2020-12-26 2021-04-20 广州知汇云科技有限公司 一种跨病种的小样本临床医疗文本后结构化处理方法
CN118020106A (zh) * 2021-09-29 2024-05-10 富士胶片株式会社 可测定合适特征量的选择方法、可测定合适特征量的选择程序及可测定合适特征量的选择装置
CN114613438B (zh) * 2022-03-08 2023-05-26 电子科技大学 一种miRNA与疾病的关联预测方法及系统
CN116578711B (zh) * 2023-07-06 2023-10-27 武汉楚精灵医疗科技有限公司 腹痛特征提取方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001083986A (ja) * 1999-09-16 2001-03-30 Nippon Telegr & Teleph Corp <Ntt> 統計モデル作成方法
JP2004041713A (ja) * 1996-02-09 2004-02-12 Adeza Biomedical Corp ニューラルネットワーク関連アプリケーションを使用して医療診断テストおよび生化学診断テストを選択する方法
JP2010519642A (ja) * 2007-02-23 2010-06-03 ゼンロボティックス・オサケユキテュア 情報を選択するための方法
JP2012508577A (ja) * 2008-11-12 2012-04-12 カリス ライフ サイエンシズ ルクセンブルク ホールディングス 表現型を決定するためのエキソソームの使用方法およびそのシステム
JP2012073761A (ja) * 2010-09-28 2012-04-12 Dainippon Screen Mfg Co Ltd 分類のための特徴量選出方法、画像の分類方法、外観検査方法および外観検査装置
JP2014511677A (ja) * 2011-03-22 2014-05-19 コーネル・ユニバーシティー 鑑別困難な良性甲状腺病変と悪性甲状腺病変との識別法

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1194045A (zh) * 1995-07-25 1998-09-23 好乐思治疗公司 计算机辅助疾病诊断方法
JP2003006329A (ja) 2001-06-26 2003-01-10 Hitachi Ltd 診断支援システム
JP3823192B2 (ja) 2002-04-19 2006-09-20 学校法人慶應義塾 診療支援装置、診療支援方法、及び診療支援プログラム
US7774143B2 (en) 2002-04-25 2010-08-10 The United States Of America As Represented By The Secretary, Department Of Health And Human Services Methods for analyzing high dimensional data for classifying, diagnosing, prognosticating, and/or predicting diseases and other biological states
EP1583504A4 (en) * 2002-12-26 2008-03-05 Cemines Llc METHODS AND COMPOSITIONS FOR THE DIAGNOSIS, PROGNOSIS, AND TREATMENT OF CANCER
CA2539414A1 (en) * 2003-06-03 2004-12-16 Allez Physionix Limited Systems and methods for determining intracranial pressure non-invasively and acoustic transducer assemblies for use in such systems
ES2651849T3 (es) * 2003-07-10 2018-01-30 Genomic Health, Inc. Algoritmo del perfil de expresión y test para el pronóstico del cáncer
JP5038671B2 (ja) 2006-09-25 2012-10-03 株式会社東芝 検査項目選定装置、検査項目選定方法、及び検査項目選定プログラム
EP2094719A4 (en) * 2006-12-19 2010-01-06 Genego Inc NEW PROCEDURES FOR THE FUNCTIONAL ANALYSIS OF EXPERIMENTAL HIGH-PERFORMANCE DATA AND IDENTIFIED GENDER GROUPS THEREOF
US20120143805A1 (en) * 2008-09-09 2012-06-07 Somalogic, Inc. Cancer Biomarkers and Uses Thereof
ES2559758T3 (es) * 2008-09-09 2016-02-15 Somalogic, Inc. Biomarcadores de cáncer de pulmón y usos de los mismos
EP2239675A1 (en) * 2009-04-07 2010-10-13 BIOCRATES Life Sciences AG Method for in vitro diagnosing a complex disease
CN101901345B (zh) * 2009-05-27 2013-02-27 复旦大学 一种差异蛋白质组学的分类方法
CN102893157A (zh) * 2009-12-22 2013-01-23 密执安大学评议会 前列腺癌的代谢特征
EP2354246A1 (en) * 2010-02-05 2011-08-10 febit holding GmbH miRNA in the diagnosis of ovarian cancer
JP2012051822A (ja) * 2010-08-31 2012-03-15 Institute Of Physical & Chemical Research 肺癌診断用ポリペプチド、肺癌の検出方法、および治療効果の評価方法
JP5645761B2 (ja) 2011-06-23 2014-12-24 登史夫 小林 医療データ解析方法、医療データ解析装置およびプログラム
CN104677999A (zh) 2013-11-29 2015-06-03 沈阳药科大学 血浆用于区分肝癌与肺癌的生物标记物
EP4137586A1 (en) 2014-08-07 2023-02-22 Agency for Science, Technology and Research Microrna biomarker for the diagnosis of gastric cancer
CN105243296A (zh) * 2015-09-28 2016-01-13 丽水学院 联合mRNA和microRNA表达谱芯片的肿瘤特征基因选择方法
CN105701365B (zh) * 2016-01-12 2018-09-07 西安电子科技大学 发现癌症相关基因的方法及相关系统、药物制备方法
CN105550715A (zh) 2016-01-22 2016-05-04 大连理工大学 一种基于近邻传播聚类的集成分类器构建方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004041713A (ja) * 1996-02-09 2004-02-12 Adeza Biomedical Corp ニューラルネットワーク関連アプリケーションを使用して医療診断テストおよび生化学診断テストを選択する方法
JP2001083986A (ja) * 1999-09-16 2001-03-30 Nippon Telegr & Teleph Corp <Ntt> 統計モデル作成方法
JP2010519642A (ja) * 2007-02-23 2010-06-03 ゼンロボティックス・オサケユキテュア 情報を選択するための方法
JP2012508577A (ja) * 2008-11-12 2012-04-12 カリス ライフ サイエンシズ ルクセンブルク ホールディングス 表現型を決定するためのエキソソームの使用方法およびそのシステム
JP2012073761A (ja) * 2010-09-28 2012-04-12 Dainippon Screen Mfg Co Ltd 分類のための特徴量選出方法、画像の分類方法、外観検査方法および外観検査装置
JP2014511677A (ja) * 2011-03-22 2014-05-19 コーネル・ユニバーシティー 鑑別困難な良性甲状腺病変と悪性甲状腺病変との識別法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
得居 誠也: "ニューラルネットワーク研究のフロンティア", 人工知能, vol. 第31巻 第2号, JPN6017013456, 1 March 2016 (2016-03-01), JP, pages pp.216−222 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019159902A (ja) * 2018-03-14 2019-09-19 オムロン株式会社 異常検知システム、サポート装置およびモデル生成方法
CN113056672A (zh) * 2018-11-19 2021-06-29 佳能株式会社 信息处理装置、信息处理装置的控制方法、程序、计算装置和计算方法

Also Published As

Publication number Publication date
RU2765695C2 (ru) 2022-02-02
JP2018077814A (ja) 2018-05-17
JP2022024092A (ja) 2022-02-08
JP7411619B2 (ja) 2024-01-11
US20190267113A1 (en) 2019-08-29
RU2019116786A (ru) 2020-11-30
JPWO2018079840A1 (ja) 2019-09-19
CN109923614A (zh) 2019-06-21
EP3534281A1 (en) 2019-09-04
EP3534281A4 (en) 2020-06-03
RU2019116786A3 (ja) 2020-11-30
JP7021097B2 (ja) 2022-02-16
WO2018079840A1 (ja) 2018-05-03

Similar Documents

Publication Publication Date Title
JP6280997B1 (ja) 疾患の罹患判定装置、疾患の罹患判定方法、疾患の特徴抽出装置及び疾患の特徴抽出方法
US11462325B2 (en) Multimodal machine learning based clinical predictor
Cano et al. Automatic selection of molecular descriptors using random forest: Application to drug discovery
CN113113130A (zh) 一种肿瘤个体化诊疗方案推荐方法
Taylor et al. A model to detect heart disease using machine learning algorithm
AnandaKumar et al. Efficient cancer classification using fast adaptive neuro-fuzzy inference system (FANFIS) based on statistical techniques
Zaman et al. Codon based back propagation neural network approach to classify hypertension gene sequences
US20140180599A1 (en) Methods and apparatus for analyzing genetic information
Utsumi et al. Meta-weighted gaussian process experts for personalized forecasting of AD cognitive changes
Tay et al. The effect of sample age and prediction resolution on myocardial infarction risk prediction
Cai et al. DeepStroke: An efficient stroke screening framework for emergency rooms with multimodal adversarial deep learning
US20140066320A1 (en) Identifying causal genetic markers for a specified phenotype
JP6905892B2 (ja) 計算機システム
Schwartz et al. Integration of multimodal RNA-seq data for prediction of kidney cancer survival
CN103718181A (zh) 指示表型的组合标签的跨模态应用
Dekhil et al. A Novel Recommender System for Stroke Risk Stratification
Rahman et al. Deep Learning-Based Left Ventricular Ejection Fraction Estimation from Echocardiographic Videos
JP2021043056A (ja) 分子マーカー探索方法、分子マーカー探索装置、及びプログラム
KR20210052855A (ko) 환자별 유전자 특성에 기초하여 암의 예후 예측에 활용할 바이오 마커를 선정하는 전자 장치 및 그 동작 방법
Lee et al. Joint dermatological lesion classification and confidence modeling with uncertainty estimation
Wadhwa et al. Machine Learning-Based Breast Cancer Prediction Model
KR102510936B1 (ko) 장내 미생물 데이터에 기초하여 혈중 면역지표의 범위를 도출하는 장치 및 방법
Mostafa Gene expression analysis using machine learning
Kaulgud et al. A review on detection of prostate cancer techniques
Lafta et al. Predictive Diabetes Mellitus From DNA Sequences Using Deep Learning

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170123

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20170123

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20170214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170418

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170619

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170919

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171117

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171226

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180122

R150 Certificate of patent or registration of utility model

Ref document number: 6280997

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D02

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250