JP6751157B2 - 疾患を治療するために標的へ向けられた薬物の効力を予測するためのシステム - Google Patents
疾患を治療するために標的へ向けられた薬物の効力を予測するためのシステム Download PDFInfo
- Publication number
- JP6751157B2 JP6751157B2 JP2018556465A JP2018556465A JP6751157B2 JP 6751157 B2 JP6751157 B2 JP 6751157B2 JP 2018556465 A JP2018556465 A JP 2018556465A JP 2018556465 A JP2018556465 A JP 2018556465A JP 6751157 B2 JP6751157 B2 JP 6751157B2
- Authority
- JP
- Japan
- Prior art keywords
- disease
- training
- target
- time
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims description 407
- 201000010099 disease Diseases 0.000 title claims description 403
- 239000003814 drug Substances 0.000 title claims description 178
- 229940079593 drug Drugs 0.000 title claims description 176
- 238000012549 training Methods 0.000 claims description 307
- 238000000034 method Methods 0.000 claims description 100
- 238000011160 research Methods 0.000 claims description 36
- 108090000623 proteins and genes Proteins 0.000 claims description 24
- 230000000694 effects Effects 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 19
- 230000004048 modification Effects 0.000 claims description 16
- 238000012986 modification Methods 0.000 claims description 16
- 206010028980 Neoplasm Diseases 0.000 claims description 14
- 201000011510 cancer Diseases 0.000 claims description 14
- 239000000126 substance Substances 0.000 claims description 14
- 238000007637 random forest analysis Methods 0.000 claims description 11
- 230000001225 therapeutic effect Effects 0.000 claims description 10
- 238000001514 detection method Methods 0.000 claims description 6
- 150000003384 small molecules Chemical class 0.000 claims description 5
- 238000002651 drug therapy Methods 0.000 claims description 4
- 102000004022 Protein-Tyrosine Kinases Human genes 0.000 claims description 3
- 108090000412 Protein-Tyrosine Kinases Proteins 0.000 claims description 3
- 230000008238 biochemical pathway Effects 0.000 claims description 3
- 201000009030 Carcinoma Diseases 0.000 claims 1
- 238000012360 testing method Methods 0.000 description 23
- 238000000605 extraction Methods 0.000 description 19
- 238000011282 treatment Methods 0.000 description 18
- 239000002246 antineoplastic agent Substances 0.000 description 13
- 230000001186 cumulative effect Effects 0.000 description 12
- 238000010801 machine learning Methods 0.000 description 11
- 102000004169 proteins and genes Human genes 0.000 description 11
- 230000008685 targeting Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 229940041181 antineoplastic drug Drugs 0.000 description 6
- 239000003596 drug target Substances 0.000 description 6
- 238000005065 mining Methods 0.000 description 6
- 238000000585 Mann–Whitney U test Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000001105 regulatory effect Effects 0.000 description 5
- 230000001419 dependent effect Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 3
- 238000007876 drug discovery Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000036541 health Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000001050 pharmacotherapy Methods 0.000 description 3
- 230000036515 potency Effects 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 206010006187 Breast cancer Diseases 0.000 description 2
- 208000026310 Breast neoplasm Diseases 0.000 description 2
- 229940124602 FDA-approved drug Drugs 0.000 description 2
- 101001012157 Homo sapiens Receptor tyrosine-protein kinase erbB-2 Proteins 0.000 description 2
- 102100030086 Receptor tyrosine-protein kinase erbB-2 Human genes 0.000 description 2
- 238000001790 Welch's t-test Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 239000003124 biologic agent Substances 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 208000035475 disorder Diseases 0.000 description 2
- 238000012912 drug discovery process Methods 0.000 description 2
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 2
- 230000003834 intracellular effect Effects 0.000 description 2
- 238000013332 literature search Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 239000002547 new drug Substances 0.000 description 2
- 238000011275 oncology therapy Methods 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 229940126586 small molecule drug Drugs 0.000 description 2
- 230000009897 systematic effect Effects 0.000 description 2
- GPXBXXGIAQBQNI-UHFFFAOYSA-N vemurafenib Chemical compound CCCS(=O)(=O)NC1=CC=C(F)C(C(=O)C=2C3=CC(=CN=C3NC=2)C=2C=CC(Cl)=CC=2)=C1F GPXBXXGIAQBQNI-UHFFFAOYSA-N 0.000 description 2
- 206010069754 Acquired gene mutation Diseases 0.000 description 1
- 208000023275 Autoimmune disease Diseases 0.000 description 1
- 208000017667 Chronic Disease Diseases 0.000 description 1
- 208000035473 Communicable disease Diseases 0.000 description 1
- 101150029707 ERBB2 gene Proteins 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 101000984753 Homo sapiens Serine/threonine-protein kinase B-raf Proteins 0.000 description 1
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 1
- 108010026552 Proteome Proteins 0.000 description 1
- 102100027103 Serine/threonine-protein kinase B-raf Human genes 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 150000001413 amino acids Chemical class 0.000 description 1
- 238000010171 animal model Methods 0.000 description 1
- 239000005557 antagonist Substances 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 229960000074 biopharmaceutical Drugs 0.000 description 1
- 210000000481 breast Anatomy 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- JJWKPURADFRFRB-UHFFFAOYSA-N carbonyl sulfide Chemical compound O=C=S JJWKPURADFRFRB-UHFFFAOYSA-N 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000003340 combinatorial analysis Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 239000000890 drug combination Substances 0.000 description 1
- 238000009509 drug development Methods 0.000 description 1
- 238000012362 drug development process Methods 0.000 description 1
- 230000000857 drug effect Effects 0.000 description 1
- 230000004064 dysfunction Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000008821 health effect Effects 0.000 description 1
- 239000003112 inhibitor Substances 0.000 description 1
- 150000002611 lead compounds Chemical class 0.000 description 1
- 238000013173 literature analysis Methods 0.000 description 1
- 201000005202 lung cancer Diseases 0.000 description 1
- 208000020816 lung neoplasm Diseases 0.000 description 1
- 238000012067 mathematical method Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 201000001441 melanoma Diseases 0.000 description 1
- 230000011987 methylation Effects 0.000 description 1
- 238000007069 methylation reaction Methods 0.000 description 1
- 230000001613 neoplastic effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 150000002894 organic compounds Chemical class 0.000 description 1
- 239000000825 pharmaceutical preparation Substances 0.000 description 1
- 229940127557 pharmaceutical product Drugs 0.000 description 1
- 230000026731 phosphorylation Effects 0.000 description 1
- 238000006366 phosphorylation reaction Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
- 230000037439 somatic mutation Effects 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 230000002103 transcriptional effect Effects 0.000 description 1
- 229960000575 trastuzumab Drugs 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 229960003862 vemurafenib Drugs 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 229940034727 zelboraf Drugs 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/48—Other medical applications
- A61B5/4848—Monitoring or testing the effects of treatment, e.g. of medication
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/7264—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61P—SPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
- A61P43/00—Drugs for specific purposes, not provided for in groups A61P1/00-A61P41/00
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
- G16H20/10—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Pathology (AREA)
- Artificial Intelligence (AREA)
- Epidemiology (AREA)
- Data Mining & Analysis (AREA)
- Primary Health Care (AREA)
- Veterinary Medicine (AREA)
- Animal Behavior & Ethology (AREA)
- Heart & Thoracic Surgery (AREA)
- Biophysics (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Surgery (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medicinal Chemistry (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Fuzzy Systems (AREA)
- Computing Systems (AREA)
- Psychiatry (AREA)
- Physiology (AREA)
- General Chemical & Material Sciences (AREA)
- Pharmacology & Pharmacy (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Organic Chemistry (AREA)
Description
本発明は、機械学習の分野に関し、より詳細には、疾患を治療する薬物の効力予測の分野に関する。
薬物の開発には時間と費用がかかる。臨床試験、特に後期の臨床試験の失敗は、製薬会社にとって大きな原価作用因である。したがって、新しい潜在的な薬物の成功の見込みについていくつかの洞察を提供する方法は、特定の薬物の開発および臨床試験にさらなる資源を費やすべきかどうかを判断するために大きな助けになりうる。
本発明の目的は、独立請求項に規定されている医学研究の結果を予測するための改善された方法、システムおよびコンピュータ可読記憶媒体を提供することである。本発明の各態様は従属請求項に示されている。本発明の各態様は、相互に排他的でない場合、相互に自由に組み合わせることができる。
標的もしくは疾患の、または標的および疾患の識別子を含む生物医学文献を受け取る工程;
予測実施前の時間間隔を指示するオフセット時間を指定する工程;
オフセット時間の開始時に終了する、既定の持続時間の時間窓を指定する工程;
受け取った文献のうち、該時間窓の間に発行された文献から選択的に、複数の特徴を抽出する工程;
生物医学訓練文献セットから抽出された訓練特徴セットで訓練された分類器を提供する工程であって、該訓練文献が、訓練標的疾患対に関する1つまたは複数の訓練研究の結果が開示された時点の前のオフセット時間の開始時に終了する訓練時間窓内に発行されたものである、工程;
分類器を実行し、抽出された特徴を分類器に入力として提供することによって予測を実施する工程;
疾患を治療するために標的へ向けられた薬物の効力を予測する分類器の結果を出力する工程。
既定のオフセット時間に終了する、既定の持続時間のさらなる時間窓を指定する工程;
受け取った文献のうち、上記さらなる時間窓の間に発行された文献から選択的に、複数の特徴を抽出する工程;
抽出された複数の特徴を、既定のオフセット時間と同一である訓練オフセット時間に終了する訓練時間窓内に発行された訓練文献から抽出された訓練特徴セットで訓練された複数の分類器のうちの1つに選択的に入力として提供する工程;
特徴が提供された分類器を実行することによって予測を実施する工程;および
疾患を治療するために標的へ向けられた薬物の効力を予測する分類器の結果を出力する工程。
受け取った文献の各々を、時間間隔のうち、その文献の発行日を範囲とするものに割り当てる工程;
時間間隔の各々について、受け取った文献のうち前記時間間隔の間に発行された文献から複数の第1の特徴を抽出し、受け取った文献のうち前記時間間隔および窓における前記時間間隔に先行するすべての時間間隔の間に発行された文献から複数の第2の特徴を抽出する工程。
受け取った文献のうち、標的または疾患の識別子を含む最初に発行された文献の発行日を特定する工程;
前記特定された発行日を含む時間間隔に時系列で先行する複数の時間間隔の任意の1つについて抽出されるすべての特徴にゼロ値を割り当てる工程を含む、指定された時間窓についての複数の訓練特徴を抽出する工程。第1の特徴および第2の特徴が抽出される態様では、ゼロ値の割り当てを、第1の特徴の抽出時および第2の特徴の抽出時に行うことができる。
標的および/もしくは疾患に関する基礎研究が行われる時間;ならびに/または
疾患の標的探索が行われる時間;ならびに/または
標的へ向けられた薬物および疾患の前臨床試験が行われる時間;ならびに/または
標的へ向けられた薬物および疾患の臨床試験が行われる時間。
標的が細胞の表面に発現されているかどうかを示すデータ;
疾患における示差的発現のレベルを示すデータ;
前記標的上の適切な薬物結合部位の検出を可能にする標的の構造データ;
標的の機能クラス(すなわち、「チロシンキナーゼ」);
構造的に類似した標的の検出を可能にする標的の構造データ(例えば、標的の3Dモデル);および/または
標的を含む、または標的によって影響される生化学的経路を示すデータ。
「疾患文献特徴」:文献が標的の識別子を含むかどうかにかかわらず疾患の識別子を含む文献から選択的に抽出された特徴;
「標的文献特徴」:文献が疾患の識別子を含むかどうかにかかわらず標的の識別子を含む文献から選択的に抽出された特徴;および
「共起文献特徴」:疾患および標的の識別子を含む文献から選択的に抽出された特徴。
正規化文献数;正規化文献数は、標的および疾患の識別子を含み、その間の特徴が抽出される時間間隔のうちの1つまたは複数に発行される文献数を示し、該1つまたは複数の時間間隔に発行された、標的または疾患またはその両方の識別子を含む生物医学文献全体に対して正規化される;および/または
コミットメントインデックス;コミットメントインデックスは、疾患と標的の両方の識別子を含む少なくとも2つの文献を発行した著者の数を示し;「コミットメント」または「コミットメントインデックス」を抽出することは、この特徴が研究課題の将来の治療可能性への科学専門家の信頼を示すため、有利となりうる;コミットメントは負の標的疾患対においてよりも正の標的疾患対において絶えず高いことが確認されている;および/または
「治療MeSHカウント」:この特徴タイプは、標的および/もしくは疾患の識別子を含み、MeSH主要副標目「薬物療法(drug therapy)」および「治療的使用(therapeutic use)」を含む文献数を示す。
非正規化文献数、非正規化文献数は、標的および/または疾患の識別子を含む文献数を示す;
標的および/または疾患の識別子を含む文献の著者の数;
生物工学または製薬産業と提携した著者の割合、これらの著者は、標的および/または疾患の識別子を含み、その間の特徴が抽出される時間間隔のうちの1つまたは複数に発行される文献の著者である;
標的および/または疾患の識別子を含む文献に含まれる、参照文字列長当たりの遺伝子、化学物質および/または薬物の数;
標的および/または疾患の識別子を含む文献における「第1相」、「第2相」または「第3相」の各相の出現数。
E=MeSH#observed/MeSH#maxに従って正規化されたシャノンエントロピーEを計算する工程であって、式中、MeSH#observedは、検索文献のMeSH(「Medical Subject Headings」)主要副標目の数であり、MeSH#maxは、MeSHシソーラスで定義されたMeSH主要副標目の数であり、E=0が、すべての検索文献におけるただ1つのMeSH主要副標目の使用に対応し、E=1は、すべての既存のMeSH主要副標目の等しい使用に対応する、正規化されたシャノンエントロピーEを計算する工程;および
計算されたエントロピーを、標的および疾患に関して実行された生物医学研究の成熟の尺度として使用する工程。
標的疾患訓練対セットを提供する工程であって、このセットは、その活性の修飾が前記標的疾患対に含まれる疾患を治療することが知られている標的をそれぞれ含む正の標的疾患対を含み、このセットは、その活性の修飾が前記標的疾患対に含まれる疾患を治療しないことが知られている標的をそれぞれ含む負の標的疾患対をさらに含む、標的疾患訓練対セットを提供する工程;
訓練オフセット時間を指定する工程であって、訓練オフセット時間が、標的疾患訓練対に関連した訓練研究の結果が開示された時点の前の時間間隔を示し、各訓練研究が、標的疾患訓練対で指定された疾患を治療するために標的へ向けられた薬物の効力を評価するように設計される、訓練オフセット時間を指定する工程;
訓練オフセット時間に終了する、既定の持続時間の時間窓を指定する工程;
セットの標的疾患訓練対の各々について、
・標的疾患訓練対の標的もしくは疾患または標的および疾患の識別子を含む生物医学訓練文献を受け取る工程;
・受け取った文献のうち、前記時間窓の間に発行された文献から選択的に、複数の訓練特徴を抽出する工程;
指定された訓練オフセット時間について、標的疾患訓練対について抽出された訓練特徴で選択的に、訓練されていない分類器を訓練することによって、訓練された分類器を生成する工程。
訓練オフセット時間に終了する、既定の持続時間のさらなる時間窓を指定する工程;
セットの標的疾患訓練対の各々について、
・標的疾患訓練対の標的もしくは疾患または標的および疾患の識別子を含む生物医学訓練文献を受け取る工程;
・受け取った文献のうち、前記さらなる時間窓の間に発行された文献から選択的に、複数の訓練特徴を抽出する工程;
訓練されていない分類器を、抽出された訓練特徴で選択的に訓練することによって、訓練された分類器を生成する工程。
受け取った訓練文献のうち、標的疾患訓練対の標的または疾患の識別子を含む最初に発行された文献の発行日を特定する工程;
複数の時間間隔のうち、特定された発行日を含む1つの時間間隔を特定する工程;
時間間隔のうち、特定された1つの時間間隔に時系列で先行する複数の任意の1つについて抽出されるすべての訓練特徴にゼロ値を割り当てることを含む、複数の訓練特徴を抽出する工程。
標的または疾患またはその両方の識別子を含む生物医学文献を受け取り;
予測の実施前の時間間隔を指示するオフセット時間を指定し;
オフセット時間の開始時に終了する、既定の持続時間の時間窓を指定し;
受け取った文献のうち、前記時間窓の間に発行された文献から選択的に、複数の特徴を抽出し;
生物医学訓練文献セットから抽出された訓練特徴セットで訓練された分類器を提供し、これら訓練文献は、訓練標的疾患対に関する1つまたは複数の訓練研究の結果が開示された時点の前のオフセット時間の開始時に終了する訓練時間窓内に発行されたものであり;
抽出された特徴を分類器に入力として提供して分類器を実行することによって予測を実施し;
疾患を治療するために標的へ向けられた薬物の効力を予測する分類器の結果を出力する
ように構成された、プロセッサを含む。
[本発明1001]
疾患を治療するために標的へ向けられた薬物の効力を評価する医学研究の結果を予測するための方法であって、電子システムで実施され、以下の工程:
該標的の識別子もしくは該疾患の識別子または該標的および該疾患の識別子を含む生物医学文献(214)を受け取る工程(602);
予測の実施前の時間間隔を指示するオフセット時間(d)を指定する工程(604);
オフセット時間の開始時に終了する、既定の持続時間の時間窓(706)を指定する工程(606);
受け取った文献のうち、該時間窓の間に発行された文献から選択的に、複数の特徴(222)を抽出する工程(608);
生物医学訓練文献セットから抽出された訓練特徴(220)セットで訓練された分類器(226.3)を提供する工程(610)であって、該訓練文献が、訓練標的疾患対に関する1つまたは複数の訓練研究の結果が開示された時点(OC)の前のオフセット時間の開始時に終了する訓練時間窓内に発行されたものである、工程;
該分類器を実行し、該抽出された特徴を該分類器に入力として提供することによって、予測を実施する工程(612);
該疾患を治療するために標的へ向けられた薬物の効力を予測する該分類器の結果を出力する工程(614)
を含む、方法。
[本発明1002]
前記オフセット時間(d)が、複数の異なる既定のオフセット時間(d -1 、d -2 、d -3 、d -4 、...、d -11 )のうちの1つであり、前記訓練された分類器(226.3)が、訓練時間窓内に発行された生物医学訓練文献(212)から抽出された訓練特徴(220)で訓練された複数の分類器(226.10、...、226.1)のうちの1つであり、該分類器の各々の該訓練時間窓が、訓練標的疾患対に関する1つまたは複数の訓練研究の結果が開示された時点(OC)前の異なる訓練オフセット時間(d -1 、d -2 、d -3 、d -4 、...、d -11 )に終了し、
既定のオフセット時間の各々について、
既定のオフセット時間に終了する、既定の持続時間のさらなる時間窓(704、708)を指定する工程;
受け取った文献のうち、該さらなる時間窓の間に発行された文献から選択的に、複数の特徴(222)を抽出する工程;
抽出された複数の特徴を、複数の分類器のうち、既定のオフセット時間と同一である訓練オフセット時間に終了する訓練時間窓内に発行された訓練文献から抽出された訓練特徴(220)セットで訓練された分類器に選択的に、入力として提供する工程;
該特徴が提供された分類器を実行することによって予測を実施する工程;および
前記疾患を治療するために標的へ向けられた薬物の効力を予測する該分類器の結果を出力する工程
を含む、本発明1001の方法。
[本発明1003]
組み合わせ結果を生成するために、前記複数の実行された分類器によって出力された結果を組み合わせる工程であって、該組み合わせ結果は、医学研究の結果が、前記標的へ向けられた薬物を前記疾患の治療に使用することができるという結果になるかどうかを示す、工程
をさらに含む、本発明1002の方法。
[本発明1004]
時間窓(704、706、708)が複数の時間間隔(I -20 、...、I -01 )を含む、前記本発明のいずれかの方法。
[本発明1005]
受け取った文献のうち前記時間窓の間に発行された文献から複数の特徴(222)を抽出する工程が、
受け取った文献の各々を、時間間隔(I -20 、...、I -01 )のうち、その文献の発行日を範囲とするものに割り当てる工程;
時間間隔(I -03 ;I -04 )の各々について、受け取った文献のうち時間間隔(I -03 )の間に発行された文献から複数の第1の特徴(222 FA -03 、FA -04 )を抽出し、受け取った文献のうち該時間間隔(I -03 ;I -04 )および前記窓(706)内のすべての先行する時間間隔(I -04 ;I -22 ;I -05 ;I -22 )に発行された文献から複数の第2の特徴(222 FB -03 、FB -04 )を抽出する工程
を含む、本発明1004の方法。
[本発明1006]
時間間隔(I -24 〜I -01 )が年数であり、前記時間窓内の時間間隔の数が5〜25の範囲内にある、本発明1004〜1005のいずれかの方法。
[本発明1007]
既定のオフセット時間が、予測を実施する時点の前の連続した年数を含み、訓練オフセット時間が、訓練標的疾患対に関する1つまたは複数の訓練研究の結果が開示された時点(OC)の前の連続した年数を含む、本発明1002〜1006のいずれかの方法。
[本発明1008]
受け取った文献のうち、前記標的または前記疾患の識別子を含む最初に発行された文献の発行日を特定する工程;
該特定された発行日を含む前記時間間隔に時系列で先行する前記複数の時間間隔の任意の1つについて抽出されるすべての特徴にゼロ値を割り当てることを含む、前記指定された時間窓についての複数の前記訓練特徴を抽出する工程
をさらに含む、本発明1004〜1007のいずれかの方法。
[本発明1009]
時間窓が、
前記標的および/もしくは前記疾患に関する基礎研究が行われる時間;ならびに/または
該疾患の標的探索が行われる時間;ならびに/または
該標的へ向けられた薬物および該疾患の前臨床試験が行われる時間;ならびに/または
該標的へ向けられた薬物および該疾患の臨床試験が行われる時間
を範囲とする、前記本発明のいずれかの方法。
[本発明1010]
追加の特徴を自動的に検索するために1つまたは複数の生物医学データベースに自動的に問合せる工程であって、該追加の特徴が、
細胞内の前記標的の位置を示すデータ;
該標的が細胞の表面に発現されているかどうかを示すデータ;
疾患における示差的発現のレベルを示すデータ;
該標的上の適切な薬物結合部位の検出を可能にする該標的の構造データ;
該標的の機能クラス(すなわち、「チロシンキナーゼ」);
構造的に類似した標的の検出を可能にする該標的の構造データ(例えば、該標的の3Dモデル);および/または
該標的を含む、または該標的によって影響される生化学的経路を示すデータ
を含む群より選択される、工程;ならびに
該追加で検索された特徴を前記分類器にさらなる入力として提供する工程
をさらに含む、前記本発明のいずれかの方法。
[本発明1011]
前記特徴が、
前記文献が前記標的の識別子を含むかどうかにかかわらず前記疾患の識別子を含む文献から選択的に抽出された特徴;
該文献が該疾患の識別子を含むかどうかにかかわらず該標的の識別子を含む文献から選択的に抽出された特徴;ならびに
該疾患および該標的の識別子を含む文献から選択的に抽出された特徴
を含む、前記本発明のいずれかの方法。
[本発明1012]
前記文献がソース文献データベースから受け取られ、前記抽出された特徴が、
前記標的および前記疾患の識別子を含む文献数を示し、該特徴が抽出される前記時間間隔のうちの前記1つもしくは複数に発行された正規化文献数であって、該1つもしくは複数の時間間隔に発行された、該標的もしくは該疾患もしくはその両方の識別子を含む生物医学文献全体にわたって正規化されている、正規化文献数;ならびに/または
該疾患および該標的の識別子を含む少なくとも2つの文献を発行した著者の数を示すコミットメントインデックス;ならびに/または
該標的および/もしくは該疾患の識別子を含み、MeSH主要副標目「薬物療法(drug therapy)」および「治療的使用(therapeutic use)」を含む文献数
を含む、前記本発明のいずれかの方法。
[本発明1013]
前記抽出された特徴が、
前記標的および前記疾患の識別子を含む前記文献数を示す非正規化文献数;
該標的および/または該疾患の識別子を含む文献の著者数;
該標的および/または該疾患の識別子を含む文献の、生物工学または製薬産業に関係した著者の割合;
該標的および/または該疾患の識別子を含む該文献に含まれる、参照文字列長当たりの遺伝子、化学物質および/または薬物の数;
「第1相」、「第2相」、もしくは「第3相」という語句、またはそれらの同義語のうちの少なくとも1つを含み、該標的および/または該疾患の識別子をさらに含む文献数
を含む群の中から選択された1つまたは複数の特徴を含む、前記本発明のいずれかの方法。
[本発明1014]
前記訓練された分類器がランダムフォレスト分類器である、前記本発明のいずれかの方法。
[本発明1015]
前記薬物が小分子もしくは生物学的製剤であり、かつ/または前記疾患がヒトがんもしくはヒトがんサブタイプである、前記本発明のいずれかの方法。
[本発明1016]
E=MeSH #observed /MeSH #max に従って、正規化されたシャノンエントロピーEを計算する工程であって、式中、MeSH #observed は、前記検索文献のMeSH主要副標目の数であり、MeSH #max は、MeSHシソーラスで定義されたMeSH主要副標目の数であり、E=0は、すべての検索文献におけるただ1つのMeSH主要副標目の使用に対応し、E=1は、すべての既存のMeSH主要副標目の等しい使用に対応する、工程;および
該計算されたエントロピーを、前記標的および前記疾患に関して実行された生物医学研究の成熟の尺度として使用する工程
をさらに含む、前記本発明のいずれかの方法。
[本発明1017]
分類器を訓練するための方法であって、訓練された分類器(226.3)が、疾患を治療するために標的へ向けられた薬物の効力を評価する医学研究の結果を予測するように構成され、該方法は、電子システムにおいて実施され、以下の工程:
標的疾患訓練対セットを提供する工程であって、該セットは正の標的疾患対を含み、該正の標的疾患対はそれぞれ、その活性の修飾が該標的疾患対に含まれる疾患を治療することが知られている標的を含み、該セットは負の標的疾患対をさらに含み、該負の標的疾患対はそれぞれ、その活性の修飾が該標的疾患対に含まれる疾患を治療しないことが知られている標的を含む、工程;
訓練オフセット時間(d)を指定する工程であって、該訓練オフセット時間は、該標的疾患訓練対に関連した訓練研究の結果が開示された時点(OC)の前の時間間隔(d -1 、d -2 、d -3 、d -4 、...、d -11 )を示し、各訓練研究は、該標的疾患訓練対で指定された疾患を治療するために該標的へ向けられた薬物の効力を評価するように設計されている、工程;
該訓練オフセット時間に終了する、既定の持続時間の時間窓(706)を指定する工程;
該セットの標的疾患訓練対の各々について、
・該標的疾患訓練対の標的もしくは疾患または標的および疾患の識別子を含む生物医学訓練文献(212)を受け取る工程;
・受け取った文献のうち、該時間窓の間に発行された文献から選択的に、複数の訓練特徴(220)を抽出する工程;
訓練されていない分類器(224)を、指定された訓練オフセット時間(d)について、該標的疾患訓練対について抽出された訓練特徴で選択的に訓練することによって、訓練された分類器(226.3)を生成する工程
を含む、方法。
[本発明1018]
前記訓練オフセット時間(d)が、複数の異なる既定の訓練オフセット時間(d -1 、d -2 、d -3 、d -4 、...、d -11 )のうちの1つであり、
該既定の訓練オフセット時間の各々について、
該訓練オフセット時間に終了する、既定の持続時間のさらなる時間窓(704、708)を指定する工程;
前記セットの前記標的疾患訓練対の各々について、
・該標的疾患訓練対の標的もしくは疾患または標的および疾患の識別子を含む生物医学訓練文献(212)を受け取る工程;
・受け取った文献のうち、該さらなる時間窓の間に発行された文献から選択的に、複数の訓練特徴(220)を抽出する工程;
訓練されていない分類器(224)を、抽出された訓練特徴で選択的に訓練することによって、訓練された分類器(226.1、...、226.10)を生成する工程
を含む、本発明1017の方法。
[本発明1019]
前記時間窓(706)が複数の時間間隔(I -20 、...、I -01 )を含み、
前記標的疾患訓練対の各々について、
前記受け取った訓練文献のうち、該標的疾患訓練対の標的または疾患の識別子を含む最初に発行された文献の発行日を特定する工程;
複数の時間間隔(I -20 、...、I -01 )のうち、該特定された発行日を含む1つの時間間隔を特定する工程;
該複数の時間間隔のうち、該特定された1つの時間間隔に時系列で先行する任意の1つについて抽出されるすべての訓練特徴にゼロ値を割り当てることを含む、複数の訓練特徴を抽出する工程
を含む、本発明1017または1018のいずれかの方法。
[本発明1020]
本発明1001〜1006のいずれかの方法を行うために前記1つまたは複数の生成された訓練された分類器を使用する工程をさらに含む、本発明1017〜1019のいずれかの方法。
[本発明1021]
プロセッサによって実行されると、前記本発明のいずれかの方法を該プロセッサに行わせる命令を含む、不揮発性記憶媒体。
[本発明1022]
疾患を治療するために標的へ向けられた薬物の効力を評価する医学研究の結果を予測するための電子システムであって、
該標的の識別子もしくは該疾患の識別子または該標的および該疾患の識別子を含む生物医学文献(214)を受け取り(602)、
該予測の実施前の時間間隔を指示するオフセット時間(d)を指定し(604)、
該オフセット時間の開始時に終了する、既定の持続時間の時間窓(706)を指定し(606)、
該受け取った文献のうち、該時間窓の間に発行された文献から選択的に、複数の特徴(222)を抽出し(608)、
訓練標的疾患対に関する1つまたは複数の訓練研究の結果が開示された時点(OC)の前の該オフセット時間の開始時に終了する訓練時間窓内に発行された生物医学訓練文献セットから抽出された訓練特徴(220)セットで訓練された分類器(226.3)を提供し(610)、
該分類器を実行して、該抽出された特徴を該分類器に入力として提供することによって、該予測を実施し(612)、
該疾患を治療するために標的へ向けられた薬物の効力を予測する該分類器の結果を出力する(614)
ように構成されたプロセッサを含む、電子システム。
図1は、標的指向がん療法の分野における標的疾患対についての科学文献における発行件数の増加を示す折れ線グラフ100である。x軸は、20年を範囲とする時間スケールを表し、y軸は、所与の標的疾患対の標的と疾患両方の識別子を含む1年ごとの発行件数を示す。特定の疾患、例えば特定のがんタイプのコンテキストで、その疾患と共に標的分子を記述する生物医学文献、例えば科学論文の最初の出現の後に、この主題に関する絶え間ない「継続的研究」が続く。さらに、以下のフェーズを含みうる製薬研究開発プロセスが開始する:その活性の修飾が疾患を治療しうる標的を特定するための標的特定/確認(TI/V)、リード化合物(IL)の特定(標的の活性を修飾するのに特に適した、または有効な薬物または薬物バージョンを特定するプロセス)、リード最適化(LO)(標的の活性を修飾する潜在的薬物を最適化するプロセス)、疾患を治療するために標的へ向けられた特定の薬物についての前臨床試験(PC)、第1相、第2相および第3相臨床試験(P1、P2、P3)、ならびに承認および発売(AL)。よって、基礎研究および製薬研究開発は、特定の疾患のコンテキストにおける標的の様々な局面に関して発表することによって文献中にシグナルを生成する(「指示」とも呼ばれうる)。
図5に記載されるT-DI対のクラスと同様に、少なくとも2つのクラスの標的疾患対を収集した。(1)承認された標的指向抗がん剤に対応する標的疾患対、および(2)第2相/第3相臨床試験で失敗した標的指向抗がん剤に対応する標的疾患対。任意で、承認された、または第1相以降の臨床試験で試験されたいかなる標的指向抗がん剤にも対応しない第3のクラス(3)の標的疾患対を編集することもできる。
最初に、訓練疾患標的対の疾患および標的の名前および同義語を、Entrez Gene、UniprotおよびPantherを含む複数のデータソースから導出した用語を組み合わせることによって検索した。疾患については、MeSH用語とNCIシソーラスを組み合わせた用語を、疾患名およびそれらの同義語を抽出するのに使用した。フォルスポジティブを生じることが経験的に知られている用語、例えば、別のコンテキストでは頭字語でもある用語は、同義語のリストから除外した。各問合せの出力は、使用された探索用語についてのヒット、すなわち、標的名および標的名の同義語または疾患名および疾患名の同義語からなる行を有するテキストファイルである。図3のベン図に、特定の標的について検索された文献セットが複数の異なる標的疾患対の特徴抽出に使用されうることを示す。これにより性能が高まりうる。というのは、例えば、2つ以上のT-DI対が同じ標的または同じ疾患を共有する場合に異なるT-DI対のために同じ文献セットを複数回検索しなくて済むからである。
各々文献はメタデータを含む。メタデータは、例えば、発行年、PubMed ID、および主要MeSH副標目を含む。加えて、メタデータを、文献の著者名を解析し、製薬会社または生物工学会社との生物医学者の公知の関係を含むデータベースにおいてルックアップを行うことによって、会社名を含む文字列で自動的に補足した。加えて、文献において遺伝子および化学物質を特定し、文献のメタデータを、文献で言及されている遺伝子および化学物質に関連した生物医学情報で富化するために、前記遺伝子および化学物質のメタデータを、GeneViewなどのさらに別のデータソースから検索した。
次いで、検索文献および文献それぞれの(任意で補足された)メタデータを使用して、既定の特徴タイプセットの特徴fi(t)を計算する。iは、第iの特徴タイプを表し、tは、既定の相対時点セットに対応する「相対時点」を表す。特徴は、オフセット時間dの既定のセットの各々について計算され、したがって同様に、fdi(t)として表すことができ、ここで、dは、相対時点tが従属するオフセット時間を表す。
以下では、特定の標的へ向けられた特定の薬物が疾患を治療できるか否かの問題に関して十分な、良好な、または高い予測力を有することが確認されている複数の特徴について説明する。これらの特徴は異なる特徴クラスに属する。各々特徴クラスは、特徴の1つまたは複数の実現値のセットであり、以下に、特徴クラスおよび特徴を記載する。特徴記号の上付き文字は特徴クラスに対応する:
・特徴下付き文字「TDI」は、T-DI文献セット(すなわち、標的と疾患の両方に言及している検索文献のサブセット)からの出版物を使用して得られた特徴(「共起文献特徴」)に対応する。
・下付き文字Tは、(疾患にかかわらず)少なくとも標的に言及している文献から抽出された特徴(「標的文献特徴」)に対応する。
・下付き文字DIは、(標的にかかわらず)少なくとも疾患に言及している文献から抽出された特徴(「疾患文献特徴」)に対応する。
・下付き文字yは、1年の間に発行された文献からのみ抽出された特徴を表し、よって、「第1の特徴」を表す。図8では、第1の特徴は「FA」で表されている。
・下付き文字「c」は、本明細書では「第2の特徴」とも呼ぶ、累積的特徴を表し、その発行日が、時間窓内にあり、その特徴が計算される相対時点tを含む年の前またはその年にある検索文献からデータを抽出し、抽出されたデータをまとめることによって計算される。図8では、第2の特徴は「FB」で表されている。
特徴:fC TDIy、fC TDIc、fC TDIc、fC Ty、fC TC、fC DIy、fC DIc
T-DI対の疾患と標的の識別子を含む(1年ごとおよび累積的な)文献の数n1は、n1(T,DI)=|T∩DI|に従って特徴として決定される。
加えて、(疾患識別子の出現にかかわらず)少なくとも標的に言及している文献の数n2、n2(T)=|T|も、特徴として抽出される。
さらに、(標的識別子の出現にかかわらず)少なくとも疾患に言及している文献の数n3、n3(DI)=|DI|が、特徴として抽出される。
特徴:fN TDIy、fN TCIc、fN Ty、fN Tc、fN DIy、fN DIc
標的または疾患の識別子を含む文献の和集合の文献の総数n4、n4=|T∪DI|によって正規化された文献数n1=|T∩DI|:
特徴:fA ay、fA ac、fA uy、fA uc、fA dy、fA dc、fA nc
著者の絶対数(特徴下付き文字「a」)、固有の著者(特徴下付き文字「u」)、複数の出版物を有する著者(特徴下付き文字「d」)、および1論文当たりの著者の平均数(特徴下付き文字「n」)を測定する特徴を包含する。
特徴:fR 1y、fR 1c、fR 2y、fR 2c
その研究に関する複数の論文を発行した著者の割合によって近似された、標的疾患組み合わせに関する研究を能動的に行っている人々の数のヒューリスティック。
変形1:
Aは、特定のT-DI組み合わせのすべての著者のセット、Rは、疾患と標的の両方に言及している複数の文献を有する著者のサブセット(特徴下付き文字1)。
変形2:
f(X)は、それぞれのセットAまたはセットRにおける著者xの発行件数
(特徴下付き文字2)。
特徴:fI
文献のメタデータに少なくとも1つの製薬会社または生物工学会社の識別子を含む文献の割合。
特徴:fMs
主要MeSH副標目(限定子とも呼ぶ)の分布。MeSHには、使用されるMeSH用語の特定の局面を記述するのに使用される全部で83の副標目がある(数値特徴下付き文字s、s∈{1...83})。
特徴:fE
使用されたMeSH用語の不均質性を定量化する正規化されたシャノンエントロピー。すべての副標目の等しい確率(p=1/N)S/Smax∈{0...1}の場合のシャノンエントロピーSmaxで正規化された、N=83の主要MeSH副標目の頻度のシャノンエントロピー
(pi=1/ni、niは、第iの副標目が文献セットにおいて見つかった回数を表す)。この事例では、Smaxは83であるが、この数は、エントロピーを計算するのに使用されるシソーラスに依存して異なりうる。
S/Smax=1は、副標目の完全に均質な分布(すなわち、主題の非常に広い分布を有する文献)を表し、S/Smax=0または極小は、副標目の非常に不均質な分布(すなわち、すべての文献が同一の主題を有する)を表す。
特徴:fT h、fT d、fT g
参照文字列長に対する、例えば、1000文字語列に対する、文献(例えば、出版物のアブストラクト)で言及されている化学物質数(特徴下付き文字h)、薬物数(下付き文字d)および遺伝子数(下付き文字g)。
特徴:fP p1、fP p2、fP p3
T-DI対の総文献数に対して正規化された、「第1相」、「第2相」または「第3相」(および同義語)に言及している文献数(特徴下付き文字p1、p2、p3)。
Claims (22)
- 疾患を治療するために標的へ向けられた薬物の効力を評価する医学研究の結果を予測するための方法であって、電子システムで実施され、以下の工程:
該標的の識別子もしくは該疾患の識別子または該標的および該疾患の識別子を含む生物医学文献(214)を受け取る工程(602);
予測の実施前の時間間隔を指示するオフセット時間(d)を指定する工程(604);
オフセット時間の開始時に終了する、既定の持続時間の時間窓(706)を指定する工程(606);
受け取った文献のうち、該時間窓の間に発行された文献から選択的に、複数の特徴(222)を抽出する工程(608);
生物医学訓練文献セットから抽出された訓練特徴(220)セットで訓練された分類器(226.3)を提供する工程(610)であって、該訓練文献が、訓練標的疾患対に関する1つまたは複数の訓練研究の結果が開示された時点(OC)の前の該オフセット時間の開始時に終了する訓練時間窓内に発行されたものである、工程;
該分類器を実行し、該抽出された特徴を該分類器に入力として提供することによって、予測を実施する工程(612);
該疾患を治療するために標的へ向けられた薬物の効力を予測する該分類器の結果を出力する工程(614)
を含む、方法。 - 前記オフセット時間(d)が、複数の異なる既定のオフセット時間(d-1、d-2、d-3、d-4、...、d-11)のうちの1つであり、前記訓練された分類器(226.3)が、訓練時間窓内に発行された生物医学訓練文献(212)から抽出された訓練特徴(220)で訓練された複数の分類器(226.10、...、226.1)のうちの1つであり、該分類器の各々の該訓練時間窓が、訓練標的疾患対に関する1つまたは複数の訓練研究の結果が開示された時点(OC)前の異なる訓練オフセット時間(d-1、d-2、d-3、d-4、...、d-11)に終了し、
既定のオフセット時間の各々について、
既定のオフセット時間に終了する、既定の持続時間のさらなる時間窓(704、708)を指定する工程;
受け取った文献のうち、該さらなる時間窓の間に発行された文献から選択的に、複数の特徴(222)を抽出する工程;
抽出された複数の特徴を、複数の分類器のうち、既定のオフセット時間と同一である訓練オフセット時間に終了する訓練時間窓内に発行された訓練文献から抽出された訓練特徴(220)セットで訓練された分類器に選択的に、入力として提供する工程;
該特徴が提供された分類器を実行することによって予測を実施する工程;および
前記疾患を治療するために標的へ向けられた薬物の効力を予測する該分類器の結果を出力する工程
を含む、請求項1記載の方法。 - 組み合わせ結果を生成するために、前記複数の実行された分類器によって出力された結果を組み合わせる工程であって、該組み合わせ結果は、医学研究の結果が、前記標的へ向けられた薬物を前記疾患の治療に使用することができるという結果になるかどうかを示す、工程
をさらに含む、請求項2記載の方法。 - 時間窓(704、706、708)が既定の持続時間の連続した複数の時間間隔(I-20、...、I-01)からなる、請求項1〜3のいずれか一項記載の方法。
- 受け取った文献のうち前記時間窓の間に発行された文献から複数の特徴(222)を抽出する工程が、
受け取った文献の各々を、時間間隔(I-20、...、I-01)のうち、その文献の発行日を範囲とするものに割り当てる工程;
時間間隔(I-03;I-04)の各々について、受け取った文献のうち時間間隔(I-03)の間に発行された文献から複数の第1の特徴(222 FA-03、FA-04)を抽出し、受け取った文献のうち該時間間隔(I-03;I-04)および前記窓(706)内のすべての先行する時間間隔(I-04;I-22;I-05;I-22)に発行された文献から複数の第2の特徴(222 FB-03、FB-04)を抽出する工程
を含む、請求項4記載の方法。 - 時間間隔(I-24〜I-01)が年数であり、前記時間窓内の時間間隔の数が5〜25の範囲内にある、請求項4〜5のいずれか一項記載の方法。
- 既定のオフセット時間が、予測を実施する時点の前の連続した年数を含み、訓練オフセット時間が、訓練標的疾患対に関する1つまたは複数の訓練研究の結果が開示された時点(OC)の前の連続した年数を含む、請求項2〜6のいずれか一項記載の方法。
- 受け取った文献のうち、前記標的または前記疾患の識別子を含む最初に発行された文献の発行日を特定する工程;
該特定された発行日を含む前記時間間隔に時系列で先行する前記複数の時間間隔の任意の1つについて抽出されるすべての特徴にゼロ値を割り当てることを含む、前記指定された時間窓についての複数の前記訓練特徴を抽出する工程
をさらに含む、請求項4〜7のいずれか一項記載の方法。 - 時間窓が、
前記標的および/もしくは前記疾患に関する基礎研究が行われる時間;
該疾患の標的探索が行われる時間;
該標的へ向けられた薬物および該疾患の前臨床試験が行われる時間;
該標的へ向けられた薬物および該疾患の臨床試験が行われる時間
を含む群から選択される、1つまたは複数の時間を含むように指定される、請求項1〜8のいずれか一項記載の方法。 - 追加の特徴を自動的に検索するために1つまたは複数の生物医学データベースに自動的に問合せる工程であって、該追加の特徴が、
細胞内の前記標的の位置を示すデータ;
該標的が細胞の表面に発現されているかどうかを示すデータ;
疾患における示差的発現のレベルを示すデータ;
該標的上の適切な薬物結合部位の検出を可能にする該標的の構造データ;
該標的の機能クラス(すなわち、「チロシンキナーゼ」);
構造的に類似した標的の検出を可能にする該標的の構造データ(例えば、該標的の3Dモデル);および/または
該標的を含む、または該標的によって影響される生化学的経路を示すデータ
を含む群より選択される、工程;ならびに
該追加で検索された特徴を前記分類器にさらなる入力として提供する工程
をさらに含む、請求項1〜9のいずれか一項記載の方法。 - 前記特徴が、
前記文献が前記標的の識別子を含むかどうかにかかわらず前記疾患の識別子を含む文献から選択的に抽出された特徴;
該文献が該疾患の識別子を含むかどうかにかかわらず該標的の識別子を含む文献から選択的に抽出された特徴;ならびに
該疾患および該標的の識別子を含む文献から選択的に抽出された特徴
を含む、請求項1〜10のいずれか一項記載の方法。 - 前記文献がソース文献データベースから受け取られ、前記抽出された特徴が、
前記標的および前記疾患の識別子を含む文献数を示し、該特徴が抽出される前記時間間隔のうちの前記1つもしくは複数に発行された正規化文献数であって、該1つもしくは複数の時間間隔に発行された、該標的もしくは該疾患もしくはその両方の識別子を含む生物医学文献全体にわたって正規化されている、正規化文献数;ならびに/または
該疾患および該標的の識別子を含む少なくとも2つの文献を発行した著者の数を示すコミットメントインデックス;ならびに/または
該標的および/もしくは該疾患の識別子を含み、MeSH主要副標目「薬物療法(drug therapy)」および「治療的使用(therapeutic use)」を含む文献数
を含む、請求項1〜11のいずれか一項記載の方法。 - 前記抽出された特徴が、
前記標的および前記疾患の識別子を含む前記文献数を示す非正規化文献数;
該標的および/または該疾患の識別子を含む文献の著者数;
該標的および/または該疾患の識別子を含む文献の、生物工学または製薬産業に関係した著者の割合;
該標的および/または該疾患の識別子を含む該文献に含まれる、参照文字列長当たりの遺伝子、化学物質および/または薬物の数;
「第1相」、「第2相」、もしくは「第3相」という語句、またはそれらの同義語のうちの少なくとも1つを含み、該標的および/または該疾患の識別子をさらに含む文献数
を含む群の中から選択された1つまたは複数の特徴を含む、請求項1〜12のいずれか一項記載の方法。 - 前記訓練された分類器がランダムフォレスト分類器である、請求項1〜13のいずれか一項記載の方法。
- 前記薬物が小分子もしくは生物学的製剤であり、かつ/または前記疾患がヒトがんもしくはヒトがんサブタイプである、請求項1〜14のいずれか一項記載の方法。
- E=MeSH#observed/MeSH#maxに従って、正規化されたシャノンエントロピーEを計算する工程であって、式中、MeSH#observedは、前記検索文献のMeSH主要副標目の数であり、MeSH#maxは、MeSHシソーラスで定義されたMeSH主要副標目の数であり、E=0は、すべての検索文献におけるただ1つのMeSH主要副標目の使用に対応し、E=1は、すべての既存のMeSH主要副標目の等しい使用に対応する、工程;および
該計算されたエントロピーを、前記標的および前記疾患に関して実行された生物医学研究の成熟の尺度として使用する工程
をさらに含む、請求項1〜15のいずれか一項記載の方法。 - 分類器を訓練するための方法であって、訓練された分類器(226.3)が、疾患を治療するために標的へ向けられた薬物の効力を評価する医学研究の結果を予測するように構成され、該方法は、電子システムにおいて実施され、以下の工程:
標的疾患訓練対セットを提供する工程であって、該セットは正の標的疾患対を含み、該正の標的疾患対はそれぞれ、その活性の修飾が該標的疾患対に含まれる疾患を治療することが知られている標的を含み、該セットは負の標的疾患対をさらに含み、該負の標的疾患対はそれぞれ、その活性の修飾が該標的疾患対に含まれる疾患を治療しないことが知られている標的を含む、工程;
訓練オフセット時間(d)を指定する工程であって、該訓練オフセット時間は、該標的疾患訓練対に関連した訓練研究の結果が開示された時点(OC)の前の時間間隔(d-1、d-2、d-3、d-4、...、d-11)を示し、各訓練研究は、該標的疾患訓練対で指定された疾患を治療するために該標的へ向けられた薬物の効力を評価するように設計されている、工程;
該訓練オフセット時間に終了する、既定の持続時間の時間窓(706)を指定する工程;
該セットの標的疾患訓練対の各々について、
・該標的疾患訓練対の標的もしくは疾患または標的および疾患の識別子を含む生物医学訓練文献(212)を受け取る工程;
・受け取った文献のうち、該時間窓の間に発行された文献から選択的に、複数の訓練特徴(220)を抽出する工程;
訓練されていない分類器(224)を、指定された訓練オフセット時間(d)について、該標的疾患訓練対について抽出された訓練特徴で選択的に訓練することによって、訓練された分類器(226.3)を生成する工程
を含む、方法。 - 前記訓練オフセット時間(d)が、複数の異なる既定の訓練オフセット時間(d-1、d-2、d-3、d-4、...、d-11)のうちの1つであり、
該既定の訓練オフセット時間の各々について、
該訓練オフセット時間に終了する、既定の持続時間のさらなる時間窓(704、708)を指定する工程;
前記セットの前記標的疾患訓練対の各々について、
・該標的疾患訓練対の標的もしくは疾患または標的および疾患の識別子を含む生物医学訓練文献(212)を受け取る工程;
・受け取った文献のうち、該さらなる時間窓の間に発行された文献から選択的に、複数の訓練特徴(220)を抽出する工程;
訓練されていない分類器(224)を、抽出された訓練特徴で選択的に訓練することによって、訓練された分類器(226.1、...、226.10)を生成する工程
を含む、請求項17記載の方法。 - 前記時間窓(706)が既定の持続時間の連続した複数の時間間隔(I-20、...、I-01)からなる、
前記標的疾患訓練対の各々について、
前記受け取った訓練文献のうち、該標的疾患訓練対の標的または疾患の識別子を含む最初に発行された文献の発行日を特定する工程;
複数の時間間隔(I-20、...、I-01)のうち、該特定された発行日を含む1つの時間間隔を特定する工程;
該複数の時間間隔のうち、該特定された1つの時間間隔に時系列で先行する任意の1つについて抽出されるすべての訓練特徴にゼロ値を割り当てることを含む、複数の訓練特徴を抽出する工程
を含む、請求項17または18のいずれか一項記載の方法。 - 請求項1〜6のいずれか一項記載の方法を行うために前記1つまたは複数の生成された訓練された分類器を使用する工程をさらに含む、請求項17〜19のいずれか一項記載の方法。
- プロセッサによって実行されると、請求項1〜20のいずれか一項記載の方法を該プロセッサに行わせる命令を含む、不揮発性記憶媒体。
- 疾患を治療するために標的へ向けられた薬物の効力を評価する医学研究の結果を予測するための電子システムであって、
該標的の識別子もしくは該疾患の識別子または該標的および該疾患の識別子を含む生物医学文献(214)を受け取り(602)、
該予測の実施前の時間間隔を指示するオフセット時間(d)を指定し(604)、
該オフセット時間の開始時に終了する、既定の持続時間の時間窓(706)を指定し(606)、
該受け取った文献のうち、該時間窓の間に発行された文献から選択的に、複数の特徴(222)を抽出し(608)、
訓練標的疾患対に関する1つまたは複数の訓練研究の結果が開示された時点(OC)の前の該オフセット時間の開始時に終了する訓練時間窓内に発行された生物医学訓練文献セットから抽出された訓練特徴(220)セットで訓練された分類器(226.3)を提供し(610)、
該分類器を実行して、該抽出された特徴を該分類器に入力として提供することによって、該予測を実施し(612)、
該疾患を治療するために標的へ向けられた薬物の効力を予測する該分類器の結果を出力する(614)
ように構成されたプロセッサを含む、電子システム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP16169452 | 2016-05-12 | ||
EP16169452.6 | 2016-05-12 | ||
PCT/EP2017/060844 WO2017194431A1 (en) | 2016-05-12 | 2017-05-05 | System for predicting efficacy of a target-directed drug to treat a disease |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019522256A JP2019522256A (ja) | 2019-08-08 |
JP6751157B2 true JP6751157B2 (ja) | 2020-09-02 |
Family
ID=55970873
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018556465A Expired - Fee Related JP6751157B2 (ja) | 2016-05-12 | 2017-05-05 | 疾患を治療するために標的へ向けられた薬物の効力を予測するためのシステム |
Country Status (5)
Country | Link |
---|---|
US (1) | US20190148019A1 (ja) |
EP (1) | EP3455753A1 (ja) |
JP (1) | JP6751157B2 (ja) |
CN (1) | CN109074420B (ja) |
WO (1) | WO2017194431A1 (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7300394B2 (ja) | 2017-01-17 | 2023-06-29 | ヘパリジェニックス ゲーエムベーハー | 肝再生の促進又は肝細胞死の低減もしくは予防のためのプロテインキナーゼ阻害 |
CN110019770A (zh) * | 2017-07-24 | 2019-07-16 | 华为技术有限公司 | 训练分类模型的方法与装置 |
US11177024B2 (en) * | 2017-10-31 | 2021-11-16 | International Business Machines Corporation | Identifying and indexing discriminative features for disease progression in observational data |
US10937068B2 (en) * | 2018-04-30 | 2021-03-02 | Innoplexus Ag | Assessment of documents related to drug discovery |
US12027271B2 (en) | 2018-05-03 | 2024-07-02 | Hoffmann-La Roche, Inc. | Visualization of biomedical predictions |
CN109273098B (zh) * | 2018-10-23 | 2024-05-14 | 平安科技(深圳)有限公司 | 一种基于智能决策的药品疗效预测方法和装置 |
US11238966B2 (en) * | 2019-11-04 | 2022-02-01 | Georgetown University | Method and system for assessing drug efficacy using multiple graph kernel fusion |
EP4110187A4 (en) * | 2020-02-26 | 2023-09-27 | Bright Clinical Research Limited | RADAR SYSTEM FOR DYNAMIC MONITORING AND MANAGEMENT OF ONGOING CLINICAL TRIALS |
CN112382362B (zh) * | 2020-11-04 | 2021-06-29 | 北京华彬立成科技有限公司 | 一种针对靶点药物的数据分析方法及装置 |
CN112820411B (zh) * | 2021-01-27 | 2022-07-29 | 清华大学 | 医学关系提取方法及装置 |
US11782957B2 (en) * | 2021-04-08 | 2023-10-10 | Grail, Llc | Systems and methods for automated classification of a document |
US20220344008A1 (en) * | 2021-04-26 | 2022-10-27 | Microsoft Technology Licensing, Llc | Methods and systems for automatically predicting clinical study outcomes |
CN113450870B (zh) * | 2021-06-11 | 2024-05-14 | 北京大学 | 一种药物与靶点蛋白的匹配方法及系统 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8099298B2 (en) * | 2007-02-14 | 2012-01-17 | Genelex, Inc | Genetic data analysis and database tools |
US20080288292A1 (en) * | 2007-05-15 | 2008-11-20 | Siemens Medical Solutions Usa, Inc. | System and Method for Large Scale Code Classification for Medical Patient Records |
EP2245568A4 (en) * | 2008-02-20 | 2012-12-05 | Univ Mcmaster | EXPERT SYSTEM FOR DETERMINING A PATIENT'S RESPONSE TO A TREATMENT |
EP2239579A1 (en) * | 2009-04-10 | 2010-10-13 | PamGene B.V. | Method for the predicting of the response of non-small cell lung cancer patients to targeted pharmacotherapy |
US7952504B2 (en) * | 2009-06-19 | 2011-05-31 | Mediatek Inc. | Gain control method and electronic apparatus capable of gain control |
IN2012DN00767A (ja) * | 2009-07-28 | 2015-06-26 | Janssen Biotech Inc | |
WO2012119188A1 (en) * | 2011-03-04 | 2012-09-13 | Lbt Innovations Limited | Method for improving classification results of a classifier |
US10445464B2 (en) * | 2012-02-17 | 2019-10-15 | Location Labs, Inc. | System and method for detecting medical anomalies using a mobile communication device |
AU2013255401B2 (en) * | 2012-05-03 | 2017-02-23 | Medial Research Ltd. | Methods and systems of evaluating a risk of a gastrointestinal cancer |
JP5990862B2 (ja) * | 2012-10-01 | 2016-09-14 | 国立研究開発法人科学技術振興機構 | 承認予測装置、承認予測方法、および、プログラム |
WO2015178946A1 (en) * | 2014-04-04 | 2015-11-26 | Biodesix, Inc. | Treatment selection for lung cancer patients using mass spectrum of blood-based sample |
CN104331642B (zh) * | 2014-10-28 | 2017-04-12 | 山东大学 | 用于识别细胞外基质蛋白的集成学习方法 |
-
2017
- 2017-05-05 WO PCT/EP2017/060844 patent/WO2017194431A1/en active Search and Examination
- 2017-05-05 US US16/300,371 patent/US20190148019A1/en not_active Abandoned
- 2017-05-05 JP JP2018556465A patent/JP6751157B2/ja not_active Expired - Fee Related
- 2017-05-05 EP EP17720531.7A patent/EP3455753A1/en not_active Withdrawn
- 2017-05-05 CN CN201780025970.9A patent/CN109074420B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2019522256A (ja) | 2019-08-08 |
US20190148019A1 (en) | 2019-05-16 |
CN109074420B (zh) | 2022-03-08 |
WO2017194431A1 (en) | 2017-11-16 |
EP3455753A1 (en) | 2019-03-20 |
CN109074420A (zh) | 2018-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6751157B2 (ja) | 疾患を治療するために標的へ向けられた薬物の効力を予測するためのシステム | |
Parisi et al. | Drug repositioning or target repositioning: A structural perspective of drug-target-indication relationship for available repurposed drugs | |
Grewal et al. | Application of a neural network whole transcriptome–based pan-cancer method for diagnosis of primary and metastatic cancers | |
Pauwels et al. | Predicting drug side-effect profiles: a chemical fragment-based approach | |
Boyce et al. | Using natural language processing to extract drug-drug interaction information from package inserts | |
Celiku et al. | Visualizing molecular profiles of glioblastoma with GBM-BioDP | |
Yao et al. | OncotRF: an online resource for exploration of tRNA-derived fragments in human cancers | |
Mazandu et al. | Information content-based gene ontology functional similarity measures: which one to use for a given biological data type? | |
Tabl et al. | A novel approach for identifying relevant genes for breast cancer survivability on specific therapies | |
CN112530523A (zh) | 数据库构建方法、文件检索方法以及装置 | |
Hsiao et al. | Text-mining in cancer research may help identify effective treatments | |
Castro et al. | In the pursuit of a semantic similarity metric based on UMLS annotations for articles in PubMed Central Open Access | |
Han et al. | Disease biomarker query from RNA-seq data | |
Gimeno et al. | Identifying lethal dependencies with HUGE predictive power | |
Heinemann et al. | Reflection of successful anticancer drug development processes in the literature | |
Alkaitis et al. | Automated NLP extraction of clinical rationale for treatment discontinuation in breast cancer | |
Wu et al. | Identifying the status of genetic lesions in cancer clinical trial documents using machine learning | |
Gendoo et al. | Personalized diagnosis of medulloblastoma subtypes across patients and model systems | |
Vogrinc et al. | Drug repositioning: computational approaches and research examples classified according to the evidence level | |
Martin et al. | Leveraging a billion-edge knowledge graph for drug re-purposing and target prioritization using genomically-informed subgraphs | |
Xu et al. | A BERT-based approach for identifying anti-inflammatory peptides using sequence information | |
Jordan et al. | Semi-automated literature mining to identify putative biomarkers of disease from multiple biofluids | |
Lauria | Rank‐Based miRNA Signatures for Early Cancer Detection | |
Cunha et al. | Predicting survival in metastatic non‐small cell lung cancer patients with poor ECOG‐PS: A single‐arm prospective study | |
Clematide et al. | Ranking interactions for a curation task |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181207 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191126 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191226 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200313 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200803 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200813 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6751157 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |