JP2023510400A - 病原性モデルの適用およびそのトレーニング - Google Patents
病原性モデルの適用およびそのトレーニング Download PDFInfo
- Publication number
- JP2023510400A JP2023510400A JP2022543395A JP2022543395A JP2023510400A JP 2023510400 A JP2023510400 A JP 2023510400A JP 2022543395 A JP2022543395 A JP 2022543395A JP 2022543395 A JP2022543395 A JP 2022543395A JP 2023510400 A JP2023510400 A JP 2023510400A
- Authority
- JP
- Japan
- Prior art keywords
- variant
- variants
- computer
- probability
- collection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000001018 virulence Effects 0.000 title claims description 56
- 238000012549 training Methods 0.000 title claims description 26
- 238000000034 method Methods 0.000 claims abstract description 151
- 230000002068 genetic effect Effects 0.000 claims abstract description 135
- 230000007918 pathogenicity Effects 0.000 claims abstract description 103
- 239000011159 matrix material Substances 0.000 claims description 43
- 201000010099 disease Diseases 0.000 claims description 18
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 18
- 238000009826 distribution Methods 0.000 claims description 14
- 238000004891 communication Methods 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 10
- 230000004044 response Effects 0.000 claims description 8
- 238000012935 Averaging Methods 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000000638 solvent extraction Methods 0.000 claims description 3
- 238000009472 formulation Methods 0.000 claims description 2
- 239000000203 mixture Substances 0.000 claims description 2
- 238000010801 machine learning Methods 0.000 description 32
- 230000008569 process Effects 0.000 description 29
- 230000001717 pathogenic effect Effects 0.000 description 28
- 108090000623 proteins and genes Proteins 0.000 description 22
- 238000000354 decomposition reaction Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 13
- 238000012986 modification Methods 0.000 description 8
- 230000004048 modification Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 230000035772 mutation Effects 0.000 description 6
- 239000002773 nucleotide Substances 0.000 description 6
- 125000003729 nucleotide group Chemical group 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 108700028369 Alleles Proteins 0.000 description 4
- 230000009946 DNA mutation Effects 0.000 description 4
- 102100029671 E3 ubiquitin-protein ligase TRIM8 Human genes 0.000 description 4
- 101000795300 Homo sapiens E3 ubiquitin-protein ligase TRIM8 Proteins 0.000 description 4
- 108091023040 Transcription factor Proteins 0.000 description 4
- 102000040945 Transcription factor Human genes 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 4
- 210000000349 chromosome Anatomy 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000012417 linear regression Methods 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 4
- 108091026890 Coding region Proteins 0.000 description 3
- 108020004414 DNA Proteins 0.000 description 3
- 101000873615 Homo sapiens Protein bicaudal D homolog 2 Proteins 0.000 description 3
- 238000005094 computer simulation Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000002969 morbid Effects 0.000 description 3
- 102100035900 Protein bicaudal D homolog 2 Human genes 0.000 description 2
- 238000002679 ablation Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 230000002759 chromosomal effect Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000002405 diagnostic procedure Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 108091008053 gene clusters Proteins 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000007170 pathology Effects 0.000 description 2
- 230000008707 rearrangement Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000000523 sample Substances 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 1
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 108020004705 Codon Proteins 0.000 description 1
- 208000026350 Inborn Genetic disease Diseases 0.000 description 1
- 208000024556 Mendelian disease Diseases 0.000 description 1
- 206010027543 Micrognathia Diseases 0.000 description 1
- 208000002598 Micrognathism Diseases 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 208000016012 Phenotypic abnormality Diseases 0.000 description 1
- 108091081062 Repeated sequence (DNA) Proteins 0.000 description 1
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 108091081024 Start codon Proteins 0.000 description 1
- 125000003275 alpha amino acid group Chemical group 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 150000001413 amino acids Chemical class 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 239000012472 biological sample Substances 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 208000018697 congenital contractures Diseases 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 238000011143 downstream manufacturing Methods 0.000 description 1
- 238000007876 drug discovery Methods 0.000 description 1
- 210000003414 extremity Anatomy 0.000 description 1
- 208000012165 fetal akinesia deformation sequence syndrome Diseases 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 102000054767 gene variant Human genes 0.000 description 1
- 208000016361 genetic disease Diseases 0.000 description 1
- 238000010448 genetic screening Methods 0.000 description 1
- 238000011331 genomic analysis Methods 0.000 description 1
- 230000001976 improved effect Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000004941 influx Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 108091070501 miRNA Proteins 0.000 description 1
- 239000002679 microRNA Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 208000012045 non-immune hydrops fetalis Diseases 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 201000007532 polyhydramnios Diseases 0.000 description 1
- 102000054765 polymorphisms of proteins Human genes 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 108020001580 protein domains Proteins 0.000 description 1
- 230000004853 protein function Effects 0.000 description 1
- 208000022074 proximal spinal muscular atrophy Diseases 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
- 238000002864 sequence alignment Methods 0.000 description 1
- 230000008093 supporting effect Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B45/00—ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Pharmaceuticals Containing Other Organic And Inorganic Compounds (AREA)
- Agricultural Chemicals And Associated Chemicals (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
Abstract
Description
本出願は、患者についてのバリアントの病原性を評価するためのシステム、装置および方法、ならびにその評価のためのモデルのトレーニングに関する。
医療および計算技術の進歩により、表現型属性に基づいた生物学的試料のゲノム配列決定の分析が可能になってきている。これらの属性に基づいて、疾患の原因となるDNA変異を予測するためのゲノム解析は、研究開発の強力な分野になってきている。ゲノムデータの固有の複雑さおよび多くのノイズのために、これらの予測には多くの不確実性が残っている。例えば、複雑さは、配列決定プロセス中のノイズにもかかわらず、一塩基バリアント(SNV)から大きくて複雑な再配列までの範囲の変異に起因する可能性がある。これらの変異の予測における不確実性は、特に、特定のバリアントまたは変異を分析するために、非効率的で不正確な既存の技術または計算ツールに難題をもたらす。
ただし、遺伝的バリアントに関する洞察を得るために、ゲノムデータの分析および解釈のためにいくつかの計算ツールが開発されてきている。しかしながら、これらのツールは、実行時間が長く、資源集約的な組み込み機械学習アルゴリズムを動作させるために、大量のラベル付きおよび/またはラベルなしのトレーニングデータを使用して、基礎的モデルの広範なトレーニングが必要である。例えば、従来の機械学習または人工知能モデルは、対象の以前の入力に関連する新しい入力がそのようなモデルに入力されると、完全な再トレーニングを受け、これは、診断テストの結果および対象に関連する他の情報が通常は利用可能ではない場合、望ましくなく、診断テストが実施される場合、および患者に関連する追加データが利用可能である場合にのみ通常は取得される。したがって、そのような場合の従来のモデルの再トレーニングは、対象に関連するゲノムデータの評価にタイムラグを生じさせるだけでなく、ゲノム解釈における不確実性を、関連する誤解のリスクを伴って増大させる。上記の例では、配列決定されている所与の患者の血液サンプル間で、および数年後に新しい関連する科学情報が発見される所与の患者の血液サンプル間でタイムラグが発生する可能性があり、新しい関連する科学情報は、特定の遺伝子が発現したときに何をするかに関するものである。タイムラグの結果として、所与の患者の医療記録が「未解決」としてマークされる可能性があり、後に詳細情報が利用可能になった場合に所与の患者の記録が再検討されない可能性がある。
したがって、上述の議論に照らして、ゲノムデータを処理、分析、または解釈するための従来の方法に関連する上述の欠点を克服して、ノイズの影響を低減し、過剰適合を防止する必要がある。より具体的には、バリアントの病原性に関して患者の生物学的配列におけるバリアントまたは変異を正確に評価するために、本質的に複雑である大量の複雑なゲノムデータを処理するプロセスが必要である。
以下に記載の実施形態は、上に記載の既知のアプローチの欠点のいずれかまたはすべてを解決する実装形態に限定されるものではない。
本概要は、以下の詳細な説明でさらに記載される概念の選択を簡略化した形態で紹介するために提供されるものである。本概要は、特許請求される主題の主要な特徴または本質的な特徴を識別することを意図せず、特許請求される主題の範囲を決定するために使用されることも意図しておらず、本発明の働きを容易にし、かつ/または実質的に同様の技術的効果を達成するために機能する変形例および代替的特徴は、本明細書に開示される本発明の範囲内に収まるとみなされるべきである。
本開示は、患者のゲノムプロファイルおよび特定の表現型属性が与えられた原因DNA変異の同定を可能にするアルゴリズムフレームワークを提供する。
第1の態様では、本開示は、患者についてのバリアントの病原性を評価するためのコンピュータ実装方法であって、バリアントを受信することと、学習済みバリアントのコレクションに基づいて、病原性メトリックに関連してバリアントについての少なくとも1つの確率を決定することであって、病原性メトリックが、バリアントについての少なくとも1つの確率を決定するための少なくとも1つの遺伝的状態クラスターのデータ表現を含む、決定することと、患者についてのバリアントの少なくとも1つの確率の統合された表現を出力することと、を含む、コンピュータ実装方法を提供する。
第2の態様では、本開示は、病原性メトリックに関連してバリアントの少なくとも1つの確率を決定するための少なくとも1つの遺伝的状態クラスターを生成するためのコンピュータ実装方法であって、バリアントのコレクションに関連付けられた少なくとも1人の患者の注釈付きデータを受信することであって、注釈付きデータが、病原性メトリックに対応する関連付けられた観察による解釈情報を含む、受信することと、少なくとも1人の患者の注釈付きデータのデータ表現を決定することであって、データ表現が、1つ以上の生成モデルを使用して導出される、決定することと、データ表現に基づいて、少なくとも1つの遺伝的状態クラスターを生成することと、を含むコンピュータ実装方法を提供する。
第3の態様では、本開示は、サイド情報のセットを使用して、患者についての未知のバリアントの病原性を評価するためのコンピュータ実装方法であって、未知のバリアントを受信することであって、未知のバリアントが、学習済みバリアントのコレクションにおいて識別されていない、受信することと、教師あり学習フレームワークをトレーニングするために、学習済みバリアントのコレクションのサブセットの各々に対応するサイド情報のセットを使用することと、トレーニングされた教師あり学習フレームワークに基づいて、未知のバリアントの病原性を評価することと、を含む、コンピュータ実装方法を提供する。
第4の態様では、本開示は、患者についてのバリアントの病原性を決定するための装置であって、装置が、バリアントが学習済みバリアントのコレクション内にあるかどうかを決定するように構成された処理コンポーネントと、バリアントが学習済みバリアントのコレクション内に存在するという決定に応答して、病原性メトリックに関連してバリアントについての少なくとも1つの確率を生成するように構成された予測コンポーネントであって、病原性メトリックが、バリアントについての少なくとも1つの確率を決定するための少なくとも1つの遺伝的状態クラスターのデータ表現を含む、予測コンポーネントと、病原性メトリックに関してバリアントの少なくとも1つの確率を表示するように構成された表示コンポーネントであって、少なくとも1つの確率が正規化されている、表示コンポーネントと、を含む、装置を提供する。
第5の態様では、本開示は、サイド情報のセットを使用して、未知の遺伝子バリアントの病原性の確率分布を決定するためのコンピュータ実装方法であって、コンピュータ実装方法が、患者の未知のバリアントを受信することであって、未知のバリアントが、複数の患者に関連付けられた学習済みバリアントのコレクションにおいて識別されていないか、またはそれに対して新しいものではない、受信することと、サイド情報のセットに基づく教師あり学習フレームワークを使用することによって、未知の遺伝子バリアントの病原性を評価することと、評価に基づいて、病原性の確率分布を決定することと、を含む、コンピュータ実装方法を提供する。
本明細書に記載された方法は、有形記録媒体または非一時的な記録媒体上の機械可読形態のソフトウェアによって、例えば、プログラムがコンピュータで実行される場合、およびコンピュータプログラムがコンピュータ可読媒体で具現化されている場合に、本明細書に記載された方法のいずれかのすべてのステップを実行するように適合されたコンピュータプログラムコード手段を含むコンピュータプログラムの形態で、実行され得る。有形(または非一時的)記憶媒体の例には、ディスク、サムドライブ、メモリカードなどが含まれ、伝播信号は含まれない。ソフトウェアは、方法のステップを任意の好適な順序で、または同時に実行され得るように、並列プロセッサまたは直列プロセッサでの実行に好適であり得る。
本出願は、ファームウェアおよびソフトウェアが価値を有し、個別に取引可能な商品である可能性があることを認めている。「ダム」または標準ハードウェアで実行または制御するソフトウェアを包含して、目的の機能を実行することを目的としている。また、シリコンチップの設計またはユニバーサルプログラマブルチップの構成に使用されるHDL(ハードウェア記述言語)ソフトウェアなどのハードウェアの構成を「記載」または定義して、目的の機能を実行するソフトウェアも包含することも目的としている。
好ましい特徴は、当業者にとって明らかであるように、適切に組み合わせられ得、本発明の任意の態様と組み合わせられ得る。
本発明の実施形態は、例として、以下の図面を参照して記載される。
共通の参照符号は、同様の特徴を示すために図面全体を通して使用される。
本発明の実施形態は、例としてのみ以下に記載される。これらの例は、本発明を達成することができる唯一の方法ではないが、出願人にとって現在既知の本発明を実施する最良の方法を表す。本明細書は、例の機能と、例を構築および操作するための一連のステップを説明する。しかしながら、同じまたは同等の機能および配列は、異なる例によって達成され得る。
本発明者らは、関心のある患者についての特定のバリアント(例えば、遺伝子バリアント)の病原性を評価または予測するためのプロセスを提案する。このプロセスは、好適な評価または予測を行うために、潜在変数のセットを導出するためにコンパイルされた表現型および/または解釈情報の注釈付きトレーニングデータを使用してトレーニングされた少なくとも1つの予測モデルを利用する。次に、潜在変数のセットは、(隠された)遺伝的状態クラスターのデータ表現として認識される可能性がある。遺伝的状態クラスターは、モデルによって学習済みバリアントのコレクションに基づいて、バリアントの確率のセットを決定するように適合される。確率は、病原性メトリックの観点から評価され、各メトリックは、決定された1つの確率に帰する。確率のセットの統合された表現は、コンピューティングインターフェースまたはデバイスを介してユーザに出力される。したがって、入力バリアントが病原性(例えば、開始または病原性)であるか、またはその病原性であるかどうかの可能性が出力された確率によって決定またはそれに従って考慮され得る。
このプロセスは繰り返され得、予測モデルは、表現型および/または解釈情報のより多くの入力の流入とともに増加し続け得る。表現型および/または解釈情報は、多次元データ行列として具体化された過去の患者解釈からの患者、バリアント、および対応する観測に関連付けられたデータポイントを含む。データポイントは、データ行列の観測が約99.96%存在しないという点で、行列のサイズに関して非常にまばらである可能性がある。これは、少なくとも、バリアントプールのサイズおよび各バリアントに関連付けられた限られた観測の利用可能性によるものである。それにもかかわらず、方法、システム、媒体、または装置として本明細書に記載されるプロセスは、遺伝的状態クラスターの適用を通じてデータのまばらさのジレンマを克服するための少なくとも解決策を提示する。実際には、遺伝的状態クラスターは、要約すると、本明細書に記載されている他の技術的問題の中でもデータのまばらさの客観的問題を解決する程度まで、バリアントをその根底にある病原性に対してマッピングする。
本明細書における病原性は、特定の疾患を引き起こす性質を指す。バリアントの病原性は、疾患を引き起こすバリアントの能力である。バリアントの病原性は、バリアントの定性的および定量的評価、ならびにバリアントの可能性および疾患の原因への寄与度の両方である。バリアントが病原性である可能性は、確率として提示され得る。これらの確率は、バリアントに関連付けられており、その病原性の観点からバリアントの定量的評価を提供する。
バリアントは、遺伝子バリアントまたは他の配列変異を含む、遺伝子(DNA)配列およびその転写物(RNA)の変異である。特に、遺伝子バリアントは、一塩基多型(SNP)、コピー数バリアント(CNV)、遺伝子再配列、インデルなどを指す。一般に、バリアントを有する患者は、患者がSNPまたはゲノムDNAの変異を受け継ぐ程度まで、疾患によって引き起こされる病態または疾病を有する可能性がある。そのような患者は、例えば、コピー数バリアント(CNV)、インデル、一塩基バリアント(SNV)、および遺伝性疾患の原因となる他の変異を含むがこれらに限定されない1つ以上のバリアントを有し得る。このように、バリアントは、遺伝子スクリーニングの文脈における健康な個人と患者との間のゲノムDNAにおけるいずれかの違いである。
例えば、遺伝子「X」は、2つのバリアント「A」および「B」を有し得る。「A」と「B」の両方のバリアントは、遺伝子「X」の異なる遺伝子座に位置し、疾患「D」の原因である。遺伝子の特定のコード領域に存在する場合、特定のDNA変異(例えば、予想される「A」ヌクレオチドが「C」ヌクレオチドに置き換えられる場合)がそのような遺伝子を潜在的に病原性にする場合、バリアント「A」の遺伝子座にこのDNAのストレッチが存在することによって、同じDNA配列を示さないバリアント「B」とは対照的に、新しい患者についてのバリアント「A」を疾患「D」と容易に関連付けることができる。遺伝子「X」に関連付けられたバリアントおよびそれらの疾患「D」との対応する関係は、以下のセクションで説明するモデルに、本明細書で記載される方法、システム、媒体または装置の学習済みバリアントとして適合され得る。
さらに、遺伝子の特定のコード領域(例えば、「AA」から「CC」)にバリアントとして存在する場合、遺伝子の特定の例のストレッチ(例えば、「AAAAATAAAAAT」)は、遺伝子を潜在的に病原性にする(言い換えれば、繰り返し要素「AACCAT」は、患者に病気の症状を引き起こす可能性があり。したがって、遺伝子の同じストレッチ(例えば、AAAAATAAAAAT)を有する、遺伝子「X」のいずれかの他の近いバリエーション(つまり、バリアント「A」と「B」以外)が場合、それは、いずれかの新しい患者についての疾患「D」と容易に関連付けられ得る。遺伝子「X」に関連付けられたバリアントは、本明細書に記載の方法、システム、媒体、または装置の学習済みバリアントのうちの1つであり得る。
バリアントの他の例には、転写物除去、スプライスドナーバリアント、スプライスアクセプターバリアント、ストップゲイン、フレームシフトバリアント、スタートロスト、イニシエーターコドンバリアント、転写増幅、フレーム内挿入、フレーム内欠失、ミスセンスバリアント、タンパク質改変バリアント、スプライス領域バリアント、不完全末端コドンバリアント、同義バリアント、コーディング配列バリアント、成熟miRNAバリアント、5プライムUTRバリアント、3プライムUTRバリアント、非コーディング転写バリアント、イントロンバリアント、上流バリアント、下流バリアント、転写因子(TF)結合部位バリアント、調節領域アブレーション、転写因子結合部位(TFBS)アブレーションなどが挙げられ得るが、これらに限定されない。
学習済みバリアントまたはそのコレクションは、計算モデルによって認識または学習されてきたバリアントを指す。言い換えると、学習済みバリアントのコレクションは、モデルが既知であると分かったもしくはみなした、またはモデルによってトレーニングされたバリアントまたはバリアントの配列で構成される。したがって、注釈付きバリアントまたは注釈付きデータを有するトレーニング済みモデルには、各バリアントの解釈情報(すなわち、定量化された、患者およびバリアントの注釈付けに基づいて、病原性を決定するための)の基礎となる学習済みバリアントのデータ表現が含まれ、注釈付けは、バリアントが表現型的には病原性(すなわち、所与の病態/疾患を引き起こす)、良性(すなわち、無害)、または病原性メトリックのセットの文脈で病原性の程度であるかを評価するための各バリアントに関連する特定の観察を示す。より具体的には、注釈付けは、モデルが与えられた場合にバリアントが病原性である可能性を評価するための基礎を提供する。可能性は、示された表現型に関連する確率または確率分布によって表され得る。
これにより、上記の計算モデルは、病原性メトリックのセットに基づいて、任意のバリアントを評価するように構成されており、病原性メトリックは、学習済みバリアントのコレクションとして知られている、またはその後の注釈付きバリアントによってトレーニングされる。病原性メトリックは、病原性の程度に関連してバリアントを表現型的に分類され得る分類スキームを提供する。これらのカテゴリーの例には、B(良性)、LB(良性の可能性がある)、LP(病原性の可能性がある)、およびP(病原性)が含まれるが、これらに限定されない。各カテゴリーには、指し示す確率が決定される可能性が提供される。したがって、計算モデルは、トレーニングセットのデータ分布を学習して、出力確率に関していくつかの変動を伴うさらなるデータポイントまたは予測を生成するように構成された生成モデルであり得る。
既知のバリアントまたは任意のバリアント配列は、例えば、ゲノムデータバンク、公的科学データベース、研究組織のデータベース(例えば、ゲノムバリアントのデータベース(DGV)、Online Mendelian Inheritance in Man(OMIM)、MORBID、DECIPHER、研究文献(例えば、PubMed文献)、およびその他のサポート情報など)を含むが、これらに限定されない様々なデータソースから取得され得る。
例えば、OMIMの場合、遺伝子名(例えば、「BICD2」遺伝子)およびOMIM識別子(ID)(例えば、「609797」)がバリアントに割り当てられる。OMIMには、約15,000個の遺伝子の既知のメンデル性疾患に関する公開情報が含まれている場合があり、これは定期的に更新され、表現型および遺伝子型の関係が含まれている。「MORBID ID」(例えば、615290)も割り当てられ得る。「MORBID ID」は、疾患、および疾患が関連する遺伝子の染色体上の位置のチャートまたは図を示す。罹患マップは、染色体およびそれらの染色体上の特定のサイトにマッピングされた遺伝子が列挙されているOMIMナレッジベースにおいて提供される。さらに、遺伝子(例えば、BICD2)遺伝子に関連付けられた既知の病態(例えば、病態:染色体優性遺伝を伴う近位脊髄性筋萎縮症)にも注釈付けされ得る。バリアントへのこれらの注釈付けは、モデルをトレーニングするための基礎として機能する。
モデルのトレーニングでは、注釈付きのバリアントを使用して、本明細書で遺伝的状態クラスターとして作成された潜在的なパラメータを導出または生成することができる。これらの遺伝的状態クラスターは、病原性メトリックに基づいて、目的の遺伝子の評価を決定し得る病原性カテゴリーの抽象的な概念を捉えている。より具体的には、遺伝的状態クラスターは、特定のバリアントが表現型カテゴリー:病原性のB(良性)、LB(良性の可能性がある)、LP(病原性の可能性がある)、およびP(病原性)メトリックの各々に関連する可能性のある抽象的なマッピングを提供する。要約すると、遺伝的状態クラスターにより、所与のバリアントの病原性の特定の確率を予測することができる。
これらの遺伝的状態クラスターを導出するために、様々な計算技術を使用することができる。これらの計算技術は、本明細書で説明されるように、1つ以上の機械学習(ML)技術を含み得る。これらの技術には、潜在パラメータを使用してリレーショナルデータをモデル化することを目的とした協調フィルタリングおよびレコメンダーシステムアプリケーションに適用され得る1つ以上の行列因数分解アルゴリズムも含まれる場合がある。これらの好適な方法の例には、潜在的ディリクレ配分法、非負行列因子分解、ベイジアンおよび非ベイジアン確率的行列因数分解、主成分分析、ニューラルネットワーク行列因子分解などが含まれるが、これらに限定されない。
遺伝的状態クラスターを適用する際に、表現型カテゴリー(すなわち、良性)についての証拠またはメトリックを評価して、特定のカテゴリーに関連付けられた確率を生成することができる。モデルは、患者について関心のあるバリアントの表現型カテゴリーに関連付けられた確率の各々の統合された表現を出力し得る。この統合された表現は、図1bに示すように、ヒストグラムの形式、またはモデルの結果の確率を統合させて表示するのに好適な他のグラフィック表現の形式であり得る。
遺伝的状態クラスターは、関連する表現型への特定の寄与度を調整することによってモデルを微調整するための表現型情報のセットによって重み付けされるが、患者に関連付けられた表現型情報の追加入力は、表現型情報のセットに基づいて、より正確な予測を返す。特に、表現型情報のセットは、表現型データ、例えば、患者のコホートの、利用可能なデータソースからの表現型のヒト表現型オントロジー(HPO)用語または他のコーディングを含む行列であり得る。表現型データが割り当てられ、これは、人間の疾患で遭遇する表現型の異常を表す標準化された方法を提供する。HPO用語の場合、それらは、遺伝子配列(例えば、BICD2)が以前に病原性かつ学習済みバリアントのコレクションの一部として報告されているかどうかを自動的に検索され得る。HPO用語には、例えば、「HP:0000347」「小顎症」、HP:0001561「羊水過多症」、HP:0001989「胎児無動症シーケンス」、HP:0001790「非免疫性胎児水腫」、HP:0002803「先天性拘縮」が含まれる。これらのHPO用語は、病原性メトリックに基づく予測中に遺伝的状態クラスターと組み合わせて使用される。より具体的には、HPO用語、またはより一般的には表現型データは、遺伝的状態クラスターの各々に関連付けられた重みのトレーニングに使用される。このトレーニングは、本明細書に記載される1つ以上のML技術を使用してか、様々なペナルティ項(すなわち、LASSO、RIDGE、Elastic Net)を用いた線形回帰の使用を含むがこれらに限定されないカーブフィッティングアルゴリズムを介して達成される。
表現型情報に加えて、未知の遺伝子バリアント、すなわち、学習済みバリアントのコレクションの一部ではないバリアントの病原性を特徴づけるために、サイド情報のセットが導入され得る。サイド情報またはサイド情報のセットは、本明細書に記載される1つ以上の遺伝子バリアントに関連付けられた指標を参照することができる。
特に、サイド情報のセットは、モデルによって学習済みの1つ以上の既知のバリアントに関係する。サイド情報の例には、様々な表現型および遺伝子型の指標が含まれる。これらの指標には、GERPスコア(中立期待値と比較した複数種の配列アラインメントにおける置換数の低減を定義する)、SIFTスコア(アミノ酸置換がタンパク質機能に影響を与えるかどうかを予測する)、バリアント効果予測子(VEP)結果(バリアントの配位およびその効果に関連するヌクレオチドの変化)、MVPスコア(深層学習MLモデルを介してミスセンスバリアントの病原性を予測する)が含まれるが、これらに限定されない。代替的に、HIスコアおよびADAスコアがまた、使用され得る。例えば、HIスコア(例えば、0.176)は、既知のバリアントに注釈付けされたVEPの結果とともに接合状態を示す遺伝子のバリアントに割り当てられ得る。
未知の遺伝子バリアントの病原性の予測は、教師あり学習フレームワークを使用して実行され得る。未知の遺伝子バリアントおよびそのサイド情報が与えられると、フレームワークの基礎となる予測モデルは、各病原性メトリック(例えば、良性、良性の可能性がある、病原性の可能性がある、および病原性)の確率を生成するように構成される。すなわち、少なくとも1つのモデル(M)は、そのサイド情報(SI)が与えられた場合、またはM=P(Vm|SI)の場合、これらの病原性メトリック(Vm)の各々に関連付けられたバリアントの確率を計算する。
教師あり学習フレームワークまたは基礎となる予測モデルのいずれかは、サイド情報を独立変数および病原性メトリック(例えば、良性、良性の可能性がある、病原性の可能性がある、および病原性)として使用することによってトレーニングされ得る。教師あり学習フレームワークには、ノンパラメトリック分類器が含まれ得る。フレームワークには、線形回帰、ロジスティック回帰、ニューラルネットワーク、サポートベクターマシン(SVM)なども含まれるが、これらに限定されない。これらのモデルは、予測を解釈するのに使用され得る様々なサイド情報に対して様々な重みを生成する(例えば、GERPスコアはSIFTスコアよりも高い重みを有し得、これは、病原性を計算する場合にSIFTスコアよりも大きな影響を及ぼすGERPスコアをもたらす)。
機械学習(ML)技術を使用して、例えば、表現型および解釈情報に関連付けられたトレーニングデータと呼ばれる入力データに基づく1つ以上の生成MLモデルまたは分類器などのトレーニング済みモデルを、制限なしに、生成することができる。入力データはまた、本明細書に記載されるサイド情報を含み得る。バイオインフォマティクスなどの分野で正しく注釈付けされたトレーニングデータセットを用いると、技術を使用して、さらなるトレーニング済みMLモデル、分類器、および/または創薬、識別、および最適化ならびに情報学および/またはバイオインフォマティクス分野での他の関連する生物医学製品、処理、分析、および/またはモデリングなど(例としてのものであって、これらに限定されない)のダウンストリームプロセスで使用するための生成モデルを生成し得る。
本明細書で記載されるように、本発明によって使用され得るトレーニング済みモデルを生成するためのML技術の例には、例としてのみであり、ただしこれらに限定されない、トレーニング済みモデルを生成するのに使用できる1つ以上の任意のML技術またはアルゴリズム/方法、1つ以上の教師ありML技術、半教師ありML技術、教師なしML技術、線形および/または非線形ML技術、分類に関連するML技術、回帰などに関連するML技術および/またはそれらの組み合わせが含まれ得る。ML技術/モデル構造のいくつかの例は、例としてのみであり、限定されないが、能動学習、マルチタスク学習、伝達学習、神経メッセージ解析、ワンショット学習、次元削減、ディシジョンツリー、関連ルール学習、類似度学習、データマイニングアルゴリズム/方法、人工ニューラルネットワーク(NN)、自動エンコーダー/デコーダー構造、ディープNN、ディープラーニング、ディープラーニングANN、誘導論理プログラミング、サポートベクターマシン(SVM)、スパース辞書学習、クラスタリング、ベイジアンネットワーク、強化学習、表現学習、類似度およびメトリック学習、スパース辞書学習、遺伝的アルゴリズム、ルールベースの機械学習、学習分類システム、および/またはそれらの1つ以上の組み合わせなどのうちの1つ以上を含むか、またはそれに基づき得る。
トレーニングデータまたは注釈付きデータの種類には、患者ID、患者表現型、バリアントID、病原性メトリック、およびサイド情報に関連付けられたデータセットが含まれるが、これらに限定されない。患者IDは、各患者の一意の識別子であり得、図2bの行列222aおよび222bの行IDとして示され得る。患者表現型は、患者に見られる表現型であり、Human Phenotype Ontology(HPO)の用語として表され得る。HPO用語の一例は、自閉症の行動表現型を有する患者のためのHP:0000729であり、別の例は、四肢短縮表現型の患者のためのHP:000986である。HPO用語は、図2bの二値行列222aにおける列IDとして示されている。バリアントIDは、バリアントごとに一意であり得る。バリアントIDは、下線で連結および分離された機能を提示し得る。例えば、バリアントID 2_1765342_C_T_NM_00193456は、転写物NM_00193456の変異C>Tを含む、塩基対位置1765342から始まる2番染色体上のバリアントを一意に識別する。ここで、バリアントID 2_1765342_C_T_NM_00193456は、染色体、開始、参照対立遺伝子、代替対立遺伝子、および転写物IDを識別する。バリアントIDは、図2bの行列222bおよび222cにおける列IDとして示されている。病原性メトリックは、American College of Medical Geneticsによって指定されたバリアント病原性のレベルによって表され得る。例えば、良性の病原性メトリックB、良性の可能性があるLB、病原性の可能性があるLP、病原性のP、および不確実な重要性のVUSが存在する場合がある。これらは、例えば、行列因子分解アルゴリズムおよび図2bの行列222bに示されているエントリに適合した代替トレーニングラベルであり得る。サイド情報は、コサイン類似度で使用されるバリアントの注釈として提示されるか、教師あり学習フレームワークで使用される任意の好適な形式で編成される。それらは、図2bの行列222cの列IDとして示されている。
トレーニングデータまたは注釈付きデータは、病原性モデルをトレーニングして、患者についてのバリアントの病原性を評価するために、遺伝子バリアントの確率分布を評価および計算するために使用される。具体的には、トレーニングデータまたは注釈付きデータは、1つ以上のモデル、フレームワーク、アルゴリズム、手法、および本明細書で記載される方法論での処理に好適な実数、二進数、カテゴリー、識別子、一覧表、および文字列の形式を含むがこれらに限定されない、コンピュータで読み取り可能な形式で編成され得る。
トレーニングデータの種類に関連するトレーニングデータまたは注釈付きデータの実際の例を、以下の表1に示す。この表には、所与のバリアントについてのサイド情報に関連付けられた特徴も示されている。例えば、1つの特徴は、患者についての最大対立遺伝子頻度であり得、別の特徴は、同じ患者についての機能的タンパク質ドメインにおける非同義のアミノ酸変化であり得る。(機能1~11の)各特徴は、患者ID、患者表現型、バリアントID、および病原性メトリックに関連して表に示されている。これらの特徴は、GERPスコア、SIFTスコア、バリアント効果予測子(VEP)の結果、MVPスコアを含むがこれらに限定されない、上記の表現型指標および遺伝子型指標にも対応し得る。トレーニングデータの他の提示には、表1の例が含まれるが、この例に限定されない。トレーニングデータは、適用されるモデル、フレームワーク、アルゴリズム、技術、または方法論に関連して提示および変性され得る。トレーニングデータは、本明細書に記載されるように病原性モデルをトレーニングするための入力として適応させるために提示され得る。
図1aは、本発明による患者についてのバリアントの病原性を評価するプロセス100の例を示す流れ図である。病原性のレベルは、注釈付きデータを使用してトレーニングされた少なくとも1つの予測モデルによって評価され得る。プロセス100によってバリアントの病原性を評価するステップは以下の通りである。
ステップ102では、バリアントが、患者に関連付けられて受け取られる。バリアントは、モデルに既知のバリアントまたは不明なバリアントのいずれかであり得る。追加的または代替的に、バリアントとともに、患者の表現型情報もまた、病原性の評価のために使用され得る。
ステップ104では、バリアントについての少なくとも1つの確率が、予測モデルの病原性メトリックに関連して決定される。予測モデルは、バリアントのコレクションまたはモデルによって学習済みバリアントのデータ表現を保持するようにトレーニングされている。学習済みバリアントのコレクションは、バリアント自体の少なくとも1つの確率を決定する際の少なくとも1つの遺伝的状態クラスターのデータ表現を含む。追加的または代替的に、少なくとも1つの遺伝的状態クラスターのデータ表現は、学習済みバリアントのコレクションから導出され、患者の表現型情報のセットに関連して重み付けされる。患者の表現型情報がない場合にある程度評価および決定された患者の表現型情報の利用可能性、統合された表現を出力するための少なくとも1つの遺伝的状態クラスターへの調整が考慮され得る。選択肢として、表現型メトリックの各々について生成された確率を組み合わせた表現は、それぞれの確率に対して100%または1に正規化され得る。
ステップ106では、患者についてのバリアントの少なくとも1つの確率が出力される。出力は、生成された確率の統合された表現であり得る。一例では、出力は、ユーザがレビューのためにユーザの解釈を準備する自動化されたアシスタントを有するものとして基礎となる確率を考慮することができるインターフェースの一部であり得る。より具体的には、確率の統合された表現とともに、インターフェースは、病原性のレベル、表現型への寄与度、報告カテゴリーなどに対応する特定のラベルを含むがこれらに限定されない少なくとも1つの出力を促すことができる。統合された出力の一部として、さらなる説明情報が提示され得る。
追加的または代替的に、バリアントが少なくとも1つの予測モデルに対して既知であるとみなされる範囲でバリアントが学習済みバリアントのコレクションに含まれている場合に、患者の表現型情報が受信されると、患者の表現型情報に基づく少なくとも1つの遺伝的状態クラスターの各々に関連付けられた寄与度が決定され得る。この決定では、オプションとして、少なくとも1つの遺伝的状態クラスターの各々が、少なくとも1つの予測モデルの1つ以上の回帰モデルを使用して分割される。1つ以上の回帰モデルは、患者の表現型情報が与えられた少なくとも1つの遺伝的状態クラスターの各々への寄与度を予測する。それに応じて、バリアントの少なくとも1つの確率が、少なくとも1つの遺伝的状態クラスターのデータ表現に関連する寄与度に基づいて調整される。実際には、寄与度は、提供された表現型情報と整合した改善された精度を提供する。
未知のバリアントが少なくとも1つの予測モデルに提示され、そのバリアントが学習済みバリアントのコレクションに含まれない場合、教師あり学習フレームワークを使用して、1つ以上の表現型および/またはゲノム指標を含み得る未知のバリアントのサイド情報のセットが与えられた病原性メトリックの確率分布を計算する。実際には、予測モデルに未知のまたは見られないいずれもバリアントも、それに応じて、既知のまたは学習済みバリアントのリザーバーまたはコレクションに基づいて評価され得る。
図1bは、図1aを参照して記載される例示的なプロセス100に基づいて、本発明による表現型126およびサイド情報124に関連して患者についてのバリアントの病原性が評価される例示的なプロセス120を示す概略図である。受信されたバリアントが学習済みバリアントのコレクション内にあるかどうかの決定122が行われる。「はい」の場合、受信されたバリアントが予測モデルに対して知られており、潜在変数または遺伝的状態クラスターへの寄与度を決定する際に、患者の表現型情報が適用される。1つ以上の生成モデルまたはMLモデルによって導出された、または本明細書に記載されるML技術を適用した遺伝的状態クラスターは、病原性メトリックに基づいた病原性についての経験的評価を提供する。
一例では、患者のHPOの用語126aは、線形回帰モデル126bに従って使用されて、潜在変数の各々についての寄与度126cを決定することができる。潜在変数は、行列分解が実行されるLDAを使用して導出される。それに従って、入力されたバリアントが良性であるかまたは別の病原性メトリックであるかの証拠または確率が、患者の追加の表現型情報を使用して、および/または潜在変数または隠れた遺伝的状態クラスターを適用することによって受信済みバリアントを用いて決定され得る。類似度の確率は、例えば、良性、良性の可能性がある、病原性の可能性がある、および病原性などの病原性メトリックに基づいて決定され得る。すなわち、病原性メトリックは、病原性の程度またはレベルを示す少なくとも1つの分類を含み得る。少なくとも1つの分類は、少なくとも1つの遺伝的状態クラスターの異なる最適なセットに関連付けられ、良性128a、良性の可能性がある128b、病原性の可能性がある128c、および病原性128dについての基礎となる確率を有するこれらのメトリックの統合された表現128が提示および出力される。
「いいえ」の場合、受信されたバリアントは予測モデルに対して不明であり、1つ以上の表現型および/またはゲノム指標に帰するさらなるサイド情報124を、教師あり学習フレームワークに関連して使用することができる。教師あり学習フレームワークは、受信されたサイド情報124aに基づいて、病原性メトリック124bの確率分布を計算するように適用され得る。サイド情報は、病原性メトリックに関連付けられた、病原性の程度を示す得られた確率を評価するのに役立つ。実際には、サイド情報の適用は、未知のバリアントが予測モデルに対して提示されるというジレンマを克服する。
図2aは、本発明による病原性メトリックに関連してバリアントの少なくとも1つの確率を決定するための遺伝的状態クラスターを生成する例示的なプロセス200を示す流れ図である。この例では、注釈付きデータを使用して、予測モデルをトレーニングする。具体的には、注釈付きデータを使用して、少なくとも1つの生成モデルまたはMLモデルに関連付けられた隠れた遺伝的状態クラスターを導出するか、本明細書で記載される1つ以上のML技術を適用する。この例では、遺伝子クラスターを生成するプロセス200は、以下のステップを含み得る。
ステップ202では、バリアントのコレクションに関連付けられた少なくとも1人の患者の注釈付きデータが受信される。受信された注釈付きデータは、病原性メトリックに対応する解釈情報および観察を含み得る。解釈情報は、本質的に遺伝子型であり得る。追加的または代替的に、注釈付きデータは、少なくとも1人の患者に関連する解釈情報に関連付けられた患者の表現型情報のセット、および/または、サイド情報のセットがバリアントのコレクションに関連付けられた指標のデータ表現を含む程度にバリアントのコレクションに関連する解釈情報に関連付けられるサイド情報のセットをさらに含み得る。
特に、一連のサイド情報のセットを使用して、バリアントがバリアントのコレクションに含まれていない場合、または注釈付きデータの一部として受信されていない場合に、教師あり学習フレームワークを使用して病原性メトリック全体にわたって確率分布が計算される。
選択肢として、少なくとも1つの遺伝的状態クラスターに関連付けられた重みのセットが、表現型情報のセットに基づいて調整され得る。重みのセットは、表現型情報のセットへの少なくとも1つの遺伝的状態クラスターの寄与度に対応し得る。1つ以上の回帰モデルが、調整された重みのセットに基づいて構成されて、病原性指標に関連する寄与度を決定し得る。1つ以上のMLモデルまたは技術を代替的または追加的にまた、適用して、遺伝的状態クラスターへの寄与度を達成し得る。
ステップ204では、少なくとも1人の患者の受信された注釈付きデータのデータ表現は、1つ以上の生成モデルもしくは対応するMLモデル、または本明細書に記載のML技術を使用して決定および導出され得る。1つ以上の生成モデルは、病原性メトリックに関連して注釈付きデータのデータ提示を分解するように構成される。例えば、LDAなどの行列因子分解アルゴリズムを適用することができる。
この例では、LDAの隠れた遺伝的状態クラスターは、患者、バリアントおよび対応する観察の多次元データ行列の分解を使用して導出された抽象的なパラメータである。構成された遺伝的状態クラスターは、所与のバリアントの病原性を評価するために使用され得る確率の編集を可能にする。多次元データ行列の分解または因子分解に続いて、遺伝的状態クラスターの最適な数が、例えば、期待値最大化を使用することによって、決定され得る。そのため、予測モデルがより多くのデータで増加するにつれて、遺伝的状態クラスターの数が変化する可能性がある。k-分割交差検証(例えば、k=5)などの代替技術はまた、評価スコアとしてパープレキシティの概念を使用して、遺伝的状態クラスターの最適な数を決定およびスコアリングできるという点で適用可能であり得、最適なソリューションは、パープレキシティを最小化するソリューションである。この場合、表現型メトリックに関連付けられた二値行列ごとに異なる分解を実行して、各分解が異なる最適数の遺伝的状態クラスターまたは潜在変数を有し得るようにする必要がある。
ステップ206では、少なくとも1つの遺伝的状態クラスターが、データ表現に基づいて生成される。データ表現は、本明細書で記載されるように、抽象的なパラメータ、あるいは1つ以上のMLモデルのML特徴であり得る。1つ以上のMLモデルまたは技術を使用して、本出願の実施例のいずれかに記載される技術に加えて、またはそれと組み合わせて、注釈付きデータに基づいて、少なくとも1つの遺伝的状態クラスターの最適なセットを決定することもできる。次に、少なくとも1つの遺伝的状態クラスターの最適なセットを使用して、病原性メトリックに関連してバリアントの少なくとも1つの確率を予測することができる。追加的または代替的に、少なくとも1つの遺伝的状態クラスターの最適なセットは、新しいまたは追加の注釈付きデータで反復的に更新されるように構成され得る。
図2bは、図2aを参照して記載される例示的なプロセス200に基づいて、本発明によるバリアントの確率を決定するための遺伝的状態クラスターの例示的なプロセス220の概略図である。遺伝的状態クラスター228を生成するために、多次元データ行列222のデータ表現は、クラスターの決定のための入力224として機能し得る。特に、データ行列222は、患者、バリアント、および対応する観察(過去の患者の解釈からの「ラベル付きデータ」)の情報を組み込んでいる。行列内の観測値は、行列のサイズに比べて非常にまばらであることがよくあり、可能なバリアントが非常に多いために、観測「セル」の約99.96%が空である。
より具体的には、多次元データ行列222は、患者、バリアントおよび対応する観察に関連付けられたデータに関して、表現型情報行列222a、解釈情報行列222b、およびサイド情報行列222cに関して提示され得る。特に、解釈情報行列222bは、遺伝的状態クラスターを生成するために分解され得る。表現型情報の例には、HPO用語(患者1~4に存在するHPO1~3)が含まれ得、解釈情報には、バリアントまたはそのコレクションが含まれ得る(例えば、患者1は病原性としてラベル付けされた2つのバリアントを有し、患者3は病原性バリアントを有しない)。一方、サイド情報行列は、GREPスコア、SIFTスコア、VEP結果、MVPスコア、HIスコア、ADAスコアなどの表現型および遺伝子型指標に対応する。例えば、サイド情報行列222cは、実数(すなわち、最大対立遺伝子頻度)を含む列と、カテゴリー変数(すなわち、VEP結果)を含む列とで構成され得る。カテゴリー変数は、ダミーのコーディングスキームを使用して整数(二進)表現に変換され得る。したがって、各患者は、患者の表現型(または兆候/症状)をHPO用語として記述したり、他の表現型コーディングスキーマ(例えば、OMIM、IDC10など)を適用したりするサイド情報(または二値ベクトル)を有する。データセット内のすべての患者についてのHPOまたはその定量値を含む行列を使用して、例えば、遺伝的状態クラスターを決定するための回帰モデルをトレーニングすることができる。
さらに図2bでは、病原性メトリック(例えば、B、LB、P、LP)に関連する解釈情報行列が分解されている(すなわち、H226bとW226cとに分解され、これらが一緒に乗算されてV226aが得られる)。解釈情報行列の分解により、病原性メトリックの数に等しい数の二値行列が生成される。ここで、行列W226cは、トレーニングデータセットにおける各患者内の各遺伝的状態クラスター228の割合を表すために使用される。行列H226bは、各バリアントが各遺伝的状態クラスター228に関連付けられる数を含む。したがって、遺伝的状態クラスターは、行列分解の一次元にすぎない。次に、期待値最大化を介したLDAなどの行列因子分解アルゴリズムを適用して、遺伝的状態クラスターの有限セットを最適化し得る。遺伝的状態クラスターの有限集合は、検証技術(例えば、k-fold)を使用して決定され得る。遺伝的状態クラスター228の有限セットの最適な数(例えば、5、6、7…25)は、保存され、検証技術の間に異なる数の遺伝的状態クラスターが最適になるかまたは最適であるように決定されるにつれて更新され続けられ得る。実際には、4つの病原性レベルに対応する4つの分解が与えられると、学習済みバリアントのコレクションに含まれる任意のバリアントについての予測が決定され得る。
図3は、本発明によるサイド情報のセットを使用して、患者についての未知のバリアントの病原性を評価する例示的なプロセス300を示す流れ図である。いずれの未知のバリアントも、予測モデルが学習した学習済みバリアントのコレクションに含まれていないバリアントである。未知のバリアントについてのサイド情報に基づいて、教師あり予測モデルを使用した病原性メトリックの確率分布。
ステップ302では、学習済みバリアントのコレクションにおいて識別されていない、未知のバリアントが受信される。受信された未知のバリアントは、予測モデルで確認されていない、または遺伝的状態クラスターによって具体的に分類されていない患者のいずれかのバリアントである可能性がある。
ステップ304では、未知のバリアントの病原性が評価され得る。この評価は、1つ以上の教師あり予測モデルを含む教師あり学習フレームワークを使用して行われ、これにより、バリアントのサイド情報が与えられた場合に、各病原性メトリックについての確率が生成される。例えば、出力は、各メトリックについての正規化された確率を表示するヒストグラムの形式であってもよい。
別の選択肢として、学習済みバリアントのコレクションのサブセットの各々に対応するサイド情報のセットが比較されて、最も近いバリアントが決定される。別の選択肢として、学習済みバリアントのコレクションのサブセットの各々に対応するサイド情報のセットが、類似度スコアに関連して比較される。例えば、類似度スコアは、学習済みバリアントのコレクションのサブセットを評価して最も近いバリアントを決定するように適合されたコサイン類似度スコアまたは他の好適なスコアリング方法であり得る。
別の選択肢として、最も近いバリアントの病原性に関連して、未知のバリアントの病原性が評価され得る。特に、学習済みバリアントのコレクションに基づいて最も近いバリアントの少なくとも1つの確率が決定され得る。この決定は、少なくとも1つの遺伝的状態クラスターのデータ表現を構成する病原性メトリックに関連して行われる。すなわち、最後の1つの遺伝的状態クラスターを適用して、最も近いバリアントについての少なくとも1つの確率が計算され得る。計算された少なくとも1つの確率は、統合された表現を導入するために適合され得、統合された表現は、病原性メトリックに関して出力される。出力は、例えば、各メトリックについての正規化された確率を表示するヒストグラムの形式であってもよい。追加的または代替的に、統合された表現は、最も近いバリアントを決定できないように学習済みバリアントのコレクションのサブセットが同等の類似度スコアを有する2つ以上のバリアントを含むことに応答して、学習済みバリアントのコレクションのサブセットの各バリアントについて少なくとも1つの確率を平均することによって生成され得る。
別の選択肢として、本明細書に記載の実施例のいずれかの病原性メトリックは、病原性の程度を示す少なくとも1つの分類を含み得る。少なくとも1つの分類の各々は、少なくとも1つの遺伝的状態クラスターの異なる最適なセットにさらに関連付けられ得る。遺伝的状態の最適なセットは、例えば、期待値最大化と組み合わせて、あるいは本明細書に記載の1つ以上のMLモデルまたは技術を介して、LDAを適用する場合に決定され得る。具体的には、好適な検証技術は、例えば、各分解が異なる最適な数の遺伝的状態クラスターを有することができるように、例えば、パープレキシティを最小化することによって、最適なセットで遺伝的状態クラスターの数を決定するために適用可能であり得る。本明細書に記載の最適な数の遺伝的状態クラスターを決定するための任意の技術を使用することにより、表現型メトリックに関連付けられた二値行列ごとに、異なる最適な数の遺伝的状態が導出され得る。
別の選択肢として、重み付け類似度メトリックを使用して、最良の最も近いバリアント、または重み付け類似度メトリックに関して未知のバリアントに最も類似しているバリアントを識別または決定することができる。重み付け類似度メトリックは、異なるサイド情報に対して異なるまたは類似の重みを保持し得る。具体的には、サイド情報の1つのスコアが別のスコアよりも高い重み有し得、スコアが高いほど、最も近いバリアントを計算する際の影響が大きくなる。重み付け類似度メトリックを使用する目的は、各サイド情報に固有の予測力を考慮に入れ、最良の最も近い学習済みバリアントの識別プロセスを強化することである。これらの重みは、本明細書に記載の1つ以上のML技術に関連する線形モデルおよび非線形モデルの両方を使用して推測され得る。
図4は、図1a~3を参照して、本発明による病原性メトリックが与えられた場合にバリアントの確率を予測するために注釈付きデータから抽出された遺伝的状態クラスターの例示的なプロセス400を示す概略図である。この例では、予測モデルの基礎となる潜在もしくは隠れた遺伝子クラスターまたは潜在変数が、このモデルのトレーニングデータセットとして使用される注釈付きデータから抽出され得る。データセットは、患者、バリアント、および行列において数値で提示された対応する観測に関連付けられたデータポイントを含む多次元データ行列の形式であってもよい。抽出された遺伝的状態クラスターは、分解手順で生成された行列の単一次元(ベクトル)であってもよい。図に示すように、各分解は、病原性メトリック(B、LP、P、およびLP)に関連付けられている。示されているメトリック以外に、病原性の程度が異なる代替の病原性メトリックも適用可能であり得る。4つの分解が推定されると、注釈付きデータに存在する任意のバリアントについての病原性の予測が行われ得る。この図では、分解は、病原性メトリックごとに結果として得られる分解を有する行列に対してLDAを実行することによって達成される。分解手順は、データの次元を低減することを目的として記載される1つ以上のML技術を含む、多くの他の技術を使用して代替的に達成され得る。したがって、結果として得られる遺伝的状態クラスターのベクトルは、注釈付きデータを効果的に具体化する。
さらに、この例では、遺伝的状態クラスターは、表現型情報402bに関連して重み付けされ得る。遺伝的状態クラスターの重み付けにより、表現型が異なる患者について予測が同じであることが判明する状況が解決される。したがって、予測モデルの精度は、患者の表現型がモデルのフレームワークの一部として含まれている可能性があるという事実のために向上し、結果として得られる予測は、各患者の特定の特性にリンクされ得る。図に示すように、線形回帰モデルが、例として、患者のHPO用語などの表現型情報が与えられた場合に各遺伝的状態クラスターの寄与度408を予測または計算することを目的として使用されている。HPO用語のこれらの例は、各遺伝的状態クラスターに重みを関連付けることにより、生成されたプロファイルの全体的な確率を調整するために使用され得る。選択肢として、HPO用語が入力として提供されていない場合、遺伝的状態クラスターに重み付けは適用されない。各患者および特定のバリアントについて生成されたプロファイルは、病原性メトリック410に基づく正規化された確率として示され得る。
代替的または追加的に、サイド情報402aは、患者の入力バリアントが注釈付きデータ、または遺伝的状態クラスターに関連付けられた学習済みバリアントの一部に存在しない場合に使用され得る。言い換えれば、新しいまたは未知の変形が予測モデルに対して提示される場合、教師あり予測モデル406は、サイド情報402aを使用して、既知の解釈に関して予測モデルを再トレーニングする必要なしに、未知のメトリックについての病原性メトリック全体にわたる確率分布を決定することができる。
一例として、教師あり学習フレームワークを使用して、本明細書に記載のサイド情報402aを使用することによって病原性を計算することができる。したがって、この予測モデルは、未知のバリアントを満たし、モデルの持続可能性を強化する際に必要な精度のために再トレーニングされることなく、既知のバリアントおよび未知のバリアントの両方を予測することに勝っている。
別の選択肢として、患者の入力バリアントが注釈付きデータ、または遺伝的状態クラスターに関連付けられた学習済みバリアントの一部に存在しない場合に、サイド情報が使用され得る。言い換えると、新しいまたは未知のバリアントが予測モデルに対して提示された場合、既知の解釈で予測モデルを再トレーニングする(および新しい遺伝的状態クラスターを生成/更新する)ことなく、サイド情報を使用して最も近いバリアントを決定する。
別の選択肢では、コサイン類似度を使用して、多次元チャート上にバリアントをプロットし得る。本明細書に記載の1つ以上のサイド情報を使用して、学習済みバリアントのコレクションに(コサイン類似性スコアに基づいて)距離が小さい最も近いまたはバリアントを、予測されたバリアントとして決定することができる。特に、コサインスコアが最も類似している、またはバリアントのサイド情報が類似しているバリアントは、多次元チャートから識別される。予測されたバリアントは、各患者についてのプロファイルおよび入力されたバリアントを生成する目的で、入力されたバリアントを置き換える。すなわち、行列Hの最近傍のエントリは、未知のバリアントのプロキシとして使用され、バリアントが既知である場合と同じ方法で確率予測を生成する。2つ以上のバリアントが同じ(argmax)コサイン類似度スコアを有している場合、最終的な確率は、すべての選択されたバリアントの結果を平均することによって計算される。したがって、予測モデルは、未知のバリアントに遭遇したときに必要な精度について再トレーニングする必要なしに、既知のバリアントおよび未知のバリアントの両方を予測することに勝っており、モデルの持続可能性を強化する。
図5は、予測モデル、装置、方法、および/もしくはそれらのプロセスの組み合わせ、それらの修正、ならびに/または図1aから4を参照して記載されているような、ならびに/または本明細書に記載されているような、1つ以上の態様を実施するために使用され得る例示的なコンピューティング装置/システム500を示す概略図である。コンピューティング装置/システム500は、1つ以上のプロセッサユニット502が入力/出力ユニット504、通信ユニット/インターフェース506、およびメモリユニット508に接続されている、1つ以上のプロセッサユニット502、入力/出力ユニット504、通信ユニット/インターフェース506、メモリユニット508を含む。いくつかの実施形態では、コンピューティング装置/システム500は、サーバ、または一緒にネットワーク化された1つ以上のサーバであり得る。いくつかの実施形態では、コンピューティング装置/システム500は、病原性評価システム、装置、方法および/もしくはそれらのプロセスの組み合わせ、それらの修正のための、ならびに/または図1a~4を参照して記載されているような、ならびに/または本明細書に記載されているような、予測モデルの1つ以上の態様を処理または実行するのに好適なコンピュータまたはスーパーコンピュータ/処理施設またはハードウェア/ソフトウェアであり得る。通信インターフェース506は、本明細書に記載の本発明を実施するために、通信ネットワークを介して、コンピューティング装置/システム500を、1つ以上のサービス、デバイス、サーバーシステム、クラウドベースのプラットフォーム、主題データベースおよび/または知識グラフを実装するためのシステムと接続することができる。メモリユニット508は、図1a~4を参照して記載される様々なプロセス/方法の評価に関連付けられたオペレーティングシステムおよび/もしくはコード/コンポーネント、本明細書に記載の本発明を実施するための病原性評価プロセス/方法/システム、装置、機構および/もしくはシステム/プラットフォーム/アーキテクチャのための、ならびに/または図1a~4の少なくとも1つを参照して記載される、予測モデルをホストするデバイス、サービス、および/もしくはサーバの1つ以上の方法および/もしくはプロセスに関連付けられた機能性および/もしくは1つ以上の機能もしくは機能性を実施することに関連付けられた追加のデータ、アプリケーション、アプリケーションファームウェア/ソフトウェアおよび/もしくはさらなるプログラム命令、コードおよび/もしくはコンポーネント、それらの組み合わせ、それらの修正などの、1つ以上のプログラム命令、コードまたはコンポーネントを、例のみとしてであるが、限定されずに、記憶することができる。
この実施形態では、病原性評価プロセス、方法、システム、および/または装置についえの予測モデルなどの上記の本発明の例は、1つ以上のクラウドプラットフォーム、1つ以上のサーバまたはコンピューティングシステムもしくはデバイス上に実装され得る。サーバは、単一のサーバまたはサーバのネットワークを含んでもよく、クラウドプラットフォームは、複数のサーバまたはサーバのネットワークを含んでもよい。いくつかの例では、サーバおよびクラウドプラットフォームの機能は、サーバの世界的な分散ネットワークなどの地理的領域全体にわたって分散されたサーバのネットワークによって提供されてもよく、ユーザは、ユーザロケーションなどに基づいて、サーバのうちのネットワークの適切なサーバに接続されてもよい。
図1a~4に関連する態様では、コンピュータ実装方法は、患者についてのバリアントの病原性を評価するためのものであり、バリアントを受信することと、学習済みバリアントのコレクションに基づいて、病原性メトリックに関連してバリアントについての少なくとも1つの確率を決定することであって、病原性メトリックが、バリアントについての少なくとも1つの確率を決定するための少なくとも1つの遺伝的状態クラスターのデータ表現を含む、決定することと、患者についてのバリアントの少なくとも1つの確率の統合された表現を出力することと、を含む。
別の態様では、コンピュータ実装方法は、病原性メトリックに関連してバリアントの少なくとも1つの確率を決定するための少なくとも1つの遺伝的状態クラスターを生成するためものであり、バリアントのコレクションに関連付けられた少なくとも1人の患者の注釈付きデータを受信することであって、注釈付きデータが、病原性メトリックに対応する関連付けられた観察による解釈情報を含む、受信することと、少なくとも1人の患者の注釈付きデータについてデータ表現を決定することであって、データ表現が、1つ以上の生成モデルを使用して導出される、決定することと、データ表現に基づいて、少なくとも1つの遺伝的状態クラスターを生成することと、を含む。
さらに別の態様では、コンピュータ実装方法は、サイド情報のセットを使用して、患者についての未知のバリアントの病原性を評価するためのものであり、未知のバリアントを受信することであって、未知のバリアントが、学習済みバリアントのコレクションにおいて識別されていない、受信することと、教師あり学習フレームワークをトレーニングするために、学習済みバリアントのコレクションのサブセットの各々に対応するサイド情報のセットを使用することと、教師あり学習フレームワークに基づいて、未知のバリアントの病原性を評価することと、を含む。
さらに別の態様では、コンピュータ可読媒体は、コンピュータ可読コードまたはそれに記憶された命令を含み、プロセッサ上で実行される場合、プロセッサに、以下で任意選択で記載される任意のステップに従って、コンピュータ実装方法を実施させる。
さらに別の態様では、システムは、以下に任意選択で記載される任意のステップに従ってコンピュータ実装方法を実行するように構成されている少なくとも1つの回路を含む。
さらに別の態様では、装置は、プロセッサ、メモリ、および通信インターフェースを含み、プロセッサは、メモリおよび通信インターフェースに接続されており、装置は、以下に任意選択で記載されるステップを実施するように適合または構成される。
さらに別の態様では、装置は、患者についてのバリアントの病原性を決定するためのものであり、装置は、バリアントが学習済みバリアントのコレクション内にあるかどうかを決定するように構成された処理コンポーネントと、バリアントが学習済みバリアントのコレクション内に存在するという決定に応答して、病原性メトリックに関連してバリアントについての少なくとも1つの確率を生成するように構成された予測コンポーネントであって、病原性メトリックが、バリアントについての少なくとも1つの確率を決定するための少なくとも1つの遺伝的状態クラスターのデータ表現を含む、予測コンポーネントと、病原性メトリックに関連してバリアントについての少なくとも1つの確率を表示するように構成された表示コンポーネントであって、少なくとも1つの確率が正規化されている、表示コンポーネントと、を含む。
さらに別の態様では、コンピュータ実装方法は、サイド情報のセットを使用して未知の遺伝子バリアントについての病原性の確率分布を決定するためのものであり、方法は、患者の未知のバリアントを受信することであって、未知のバリアントが、複数の患者に関連付けられた学習済みバリアントのコレクションにおいて識別されていないか、またはそれに対して新しいものではない、受信することと、サイド情報のセットに基づいて、教師あり学習フレームワークを使用することによって未知の遺伝子バリアントの病原性を評価することと、評価に基づいて、病原性の確率分布を決定することと、を含む。
次の選択肢のステップは、必要に応じて、上記の1つ以上の側面に関係する。
任意選択で、予測コンポーネントは、バリアントが学習済みバリアントのコレクションに存在しないという決定に応答して、サイド情報のセットを受信するように構成されており、サイド情報は、バリアントに関連して、少なくとも1つの確率を生成するためのバリアントとして適用される最も近いバリアントを識別するために使用される。
任意選択で、入力コンポーネントは、患者に関連付けられた表現型情報を受信するように構成されており、表現型情報は、少なくとも1つの遺伝的状態クラスターに関連してバリアントの少なくとも1つの確率を調整するために適用される。
任意選択で、少なくとも1つの遺伝的状態クラスターのデータ表現は、学習済みバリアントのコレクションから導出され、患者の表現型情報のセットに関連して重み付けされる。
任意選択で、バリアントは、学習済みバリアントのコレクションに含まれており、患者の表現型情報を受信することと、患者の表現型情報に基づいて、少なくとも1つの遺伝的状態クラスターの各々に関連付けられた寄与度を決定することと、少なくとも1つの遺伝的状態クラスターのデータ表現に従って決定された寄与度に基づいて、バリアントについての少なくとも1つの確率を調整することと、をさらに含む。
任意選択で、コンピュータ実装方法は、患者の表現型情報の利用可能性を評価することと、利用可能性に基づいて、統合された表現を出力するために少なくとも1つの遺伝的状態クラスターを調整するかどうかを決定することと、をさらに含む。
任意選択で、患者の表現型情報に基づいて、少なくとも1つの遺伝的状態クラスターの各々に関連付けられた寄与度を決定することは、1つ以上の回帰モデルを使用して少なくとも1つの遺伝的状態クラスターの各々を分割することであって、1つ以上の回帰モデルが、患者の表現型情報が与えられる場合に、少なくとも1つの遺伝的状態クラスターの各々への寄与度を予測する、分割することをさらに含む。
任意選択で、バリアントは、学習済みバリアントのコレクションに含まれておらず、バリアントに関連して学習済みバリアントのコレクションから少なくとも1つの近位バリアントを識別することと、少なくとも1つの近位バリアントの各々に対応するサイド情報のセットを受信することであって、サイド情報のセットが、1つ以上の指標を含む、受信することと、サイド情報のセットに基づいて、最も近いバリアントを識別することと、病原性メトリックに関連してバリアントについての少なくとも1つの確率を決定する場合に、最も近いバリアントをバリアントとして適用することと、をさらに含む。
任意選択で、サイド情報のセットに基づいて、少なくとも1つの近位バリアントに関連付けられた類似性メトリックを適用することにより、最も近いバリアントが識別される。
任意選択で、類似性メトリックは、サイド情報のセットに関連して重み付けされる。
任意選択で、類似性メトリックは、学習済みバリアントのコレクションから少なくとも1つの他のバリアントを識別して、同等の類似性スコアを有する場合、バリアントについての少なくとも1つの確率は、少なくとも1つの近位バリアントの各々を平均することによって決定される。
任意選択で、注釈付きデータは、患者の表現型情報のセットおよび/またはサイド情報のセットをさらに含む。
任意選択で、表現型情報のセットは、少なくとも1人の患者に関連して解釈情報に関連付けられ、および/または、サイド情報のセットは、バリアントのコレクションに関連して解釈情報に関連付けられる。
任意選択で、コンピュータ実装方法は、表現型情報のセットに基づいて、少なくとも1つの遺伝的状態クラスターに関連付けられた重みのセットを調整することであって、重みのセットが、表現型情報のセットへの少なくとも1つの遺伝的状態クラスターの寄与度に対応する、調整することと、調整された重みのセットに基づいて、1つ以上の回帰モデルを構成して、病原性メトリックに関連して寄与度を決定することと、をさらに含む。
任意選択で、サイド情報のセットは、バリアントのコレクションに関連付けられた指標のデータ表現を含む。
任意選択で、バリアントがバリアントのコレクションに含まれていない場合に、バリアントの少なくとも1つの確率を決定するために使用されるバリアントのコレクションから最も近いバリアントを識別するために、サイド情報のセットが適用される。
任意選択で、バリアントは、最も近いバリアントに関連付けられた注釈を適用することにより、少なくとも1つの遺伝的状態クラスターを更新するためのバリアントのコレクションに含まれる。
任意選択で、コンピュータ実装方法は、注釈付きデータに基づいて、少なくとも1つの遺伝的状態クラスターの最適なセットを決定することと、予測中に少なくとも1つの遺伝的状態クラスターの最適なセットを適用して、病原性メトリックに関連してバリアントの少なくとも1つの確率を決定することと、をさらに含む。
任意選択で、少なくとも1つの遺伝的状態クラスターの最適なセットは、新しい注釈付きデータで繰り返し更新されるように構成される。
任意選択で、学習済みバリアントのコレクションの各サブセットに対応するサイド情報のセットは、学習済みバリアントのコレクションのサブセットに関連付けられた類似度スコアに関連して比較される。
任意選択で、最も近いバリアントの病原性に関連して未知のバリアントの病原性を評価することは、学習済みバリアントのコレクションに基づいて、病原性メトリックに関連して最も近いバリアントについての少なくとも1つの確率を決定することであって、病原性メトリックが、最も近いバリアントについての少なくとも1つの確率を計算するための少なくとも1つの遺伝的状態クラスターのデータ表現を含む、決定することと、少なくとも1つの確率の統合された表現を生成することであって、統合された表現が、病原性メトリックに関連して出力される、生成することと、をさらに含む。
任意選択で、コンピュータ実装方法は、学習済みバリアントのコレクションのサブセットが最も近いバリアントを決定できないような同等の類似性スコアを有する2つ以上のバリアントを含むことに応答して、学習済みバリアントのコレクションのサブセットの各バリアントについての少なくとも1つの確率を平均することによって統合された表現を生成すること、をさらに含む。
任意選択で、表現型情報は、1つ以上の疾患に関連付けられた表現型オントロジーを含む。
任意選択で、1つ以上の生成モデルは、病原性メトリックに関連して注釈付きデータのデータ提示を分解するように構成される。
任意選択で、1つ以上の生成モデルは、行列因子分解アルゴリズムに基づく少なくとも1つの定式化を含む。
任意選択で、病原性メトリックは、病原性の程度を示す少なくとも1つの分類を含む。
任意選択で、少なくとも1つの分類の各々は、少なくとも1つの遺伝的状態クラスターの異なる最適なセットに関連付けられる。
任意選択で、サイド情報のセットが与えられた場合に、病原性メトリックのセットに関連付けられた未知のバリアントの確率をさらに計算する。
任意選択で、学習済みバリアントのコレクションに基づいて、病原性メトリックに関連して未知のバリアントについての少なくとも1つの確率をさらに決定し、少なくとも1つの確率の統合された表現を生成し、統合された表現は、病原性メトリックに関連して出力される。
任意選択で、病原性メトリックは、最も近いバリアントについての少なくとも1つの確率を計算するための少なくとも1つの遺伝的状態クラスターのデータ表現を含む。
任意選択で、教師あり学習フレームワークは、1つ以上の予測モデルを含む。
任意選択で、教師あり学習フレームワークは、ノンパラメトリック分類器を含む。
任意選択で、サイド情報のセットは、未知の遺伝子バリアントに関連付けられる。
上述した説明は、明確にするために単一のユーザを参照して本発明の実施形態を記載している。実際には、システムは、複数のユーザによって共有されてもよく、非常に多数のユーザによって同時に共有される可能性があることが理解されよう。
上記の実施形態は、半自動であるように構成され得、および/または完全自動であるように構成され得る。いくつかの例では、病原性評価システム/プロセス/方法ついての予測モデルのユーザまたはオペレータは、実行されるプロセス/方法のいくつかのステップを手動で指示することができる。
本発明の記載された実施形態では、本発明による、および/または本明細書に記載される病原性評価システム、プロセス、方法および/または装置などのための予測モデルは、任意の形態のコンピューティングおよび/または電子機器として実装され得る。そのようなデバイスは、ルーティング情報を収集および記録するためにデバイスの動作を制御するコンピュータ実行可能命令を処理するためのマイクロプロセッサ、コントローラまたは任意の他の好適なタイプのプロセッサであり得る1つ以上のプロセッサを含むことができる。いくつかの例では、例えば、システムオンチップアーキテクチャが使用される場合、プロセッサは、プロセス/方法の一部をハードウェア(ソフトウェアまたはファームウェアではなく)に実装する1つ以上の固定機能ブロック(アクセラレータとも称される)を含んでもよい。オペレーティングシステムまたは任意の他の好適なプラットフォームソフトウェアを含むプラットフォームソフトウェアは、アプリケーションソフトウェアがデバイス上で実行されることを可能にするために、コンピューティングベースのデバイスに提供されてもよい。
本明細書で説明される様々な機能は、ハードウェア、ソフトウェア、またはそれらの任意の組み合わせで実装されてもよい。ソフトウェアで実装される場合、機能は、コンピュータ可読媒体上の1つ以上の命令またはコードに記憶または送信されることができる。コンピュータ可読媒体は、例えば、コンピュータ可読記憶媒体を含むことができる。コンピュータ可読記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータなどの情報を格納するための任意の方法または技術で実装される揮発性または不揮発性、取り外し可能または取り外し不可能媒体を含むことができる。コンピュータ可読記憶媒体は、コンピュータによってアクセスされることができる任意の利用可能な記憶媒体とすることができる。限定ではなく例として、そのようなコンピュータ可読記憶媒体は、RAM、ROM、EEPROM、フラッシュメモリもしくは他のメモリデバイス、CD-ROMもしくは他の光ディスクストレージ、磁気ディスクストレージもしくは他の磁気ストレージデバイス、または命令もしくはデータ構造の形態で所望のプログラムコードを担持または記憶するために使用されることができ、コンピュータによってアクセスされることができる任意の他の媒体を含むことができる。本明細書で使用されるディスク(disc)およびディスク(disk)は、コンパクトディスク(CD)、レーザディスク、光ディスク、デジタル多用途ディスク(DVD)、フロッピーディスク、およびブルーレイディスク(BD)を含む。さらに、伝播された信号は、コンピュータ可読記憶媒体の範囲内には含まれない。コンピュータ可読媒体は、ある場所から別の場所へのコンピュータプログラムの転送を容易にする任意の媒体を含む通信媒体も含む。接続または結合は、例えば、通信媒体であってもよい。例えば、ソフトウェアがウェブサイト、サーバ、または他のリモートソースから伝送される場合、同軸ケーブル、光ファイバケーブル、ツイストペア、DSL、または赤外線、ラジオ、マイクロ波などの無線技術を使用することが、通信媒体の定義に含まれる。上記の組み合わせもコンピュータ可読媒体の範囲内に含まれるべきである。
代替的に、または追加して、本明細書で説明される機能は、少なくとも部分的に、1つ以上のハードウェア論理コンポーネントによって実行されることができる。例えば、限定されるものではないが、使用可能なハードウェアロジックコンポーネントは、フィールドプログラマブルゲートアレイ(FPGA)、プログラム固有集積回路(ASIC)、プログラム固有標準製品(ASSP)、システムオンチップ(SOC)、複雑プログラマブルロジックデバイス(CPLD)などを含むことができる。
単一のシステムとして示されているが、コンピューティングデバイスは、分散システムとすることができることを理解されたい。したがって、例えば、いくつかのデバイスは、ネットワーク接続を介して通信してもよく、コンピューティングデバイスによって実行されるものとして記載されているタスクを集合的に実行してもよい。
ローカルデバイスとして例示されているが、コンピューティングデバイスは、リモートに配置され、ネットワークまたは他の通信リンクを介して(例えば、通信インターフェースを使用して)アクセスされることができることが認識されよう。
「コンピュータ」という用語は、本明細書では、命令を実行することができるような処理能力を備えた任意のデバイスを指すために使用される。当業者は、そのような処理能力が多くの異なるデバイスに組み込まれ、したがって、「コンピュータ」という用語が、PC、サーバ、IoTデバイス、携帯電話、携帯情報端末、および他の多くのデバイスに組み込まれることを理解するであろう。
当業者は、プログラム命令を記憶するために利用されるストレージデバイスがネットワークにわたって分散されることができることを認識するであろう。例えば、リモートコンピュータは、ソフトウェアとして説明されたプロセスの例を記憶することができる。ローカルまたはターミナルコンピュータは、リモートコンピュータにアクセスし、プログラムを実行するためにソフトウェアの一部またはすべてをダウンロードすることができる。代替的に、ローカルコンピュータは、必要に応じてソフトウェアの一部をダウンロードするか、ローカル端末でいくつかのソフトウェア命令を実行し、リモートコンピュータ(またはコンピュータネットワーク)でいくつかを実行することができる。当業者はまた、当業者に知られている従来の技術を利用することにより、ソフトウェア命令のすべてまたは一部分がDSP、プログラマブルロジックアレイなどの専用回路によって実行されてもよいことを認識するであろう。
上述の利益および利点は、一実施形態に関係する場合もあれば、いくつかの実施形態に関係する場合もあることが理解されよう。実施形態は、述べられた課題のいずれかまたはすべてを解決するもの、または述べられた利益および利点のいずれかまたはすべてを有するものに限定されるものではない。変形例は、本発明の範囲に含まれるとみなされるべきである。
「an」という項目への任意の言及は、それらの項目の1つ以上を指す。「含む/備える(comprising)」という用語は、本明細書では、識別された方法ステップまたは要素を含むことを意味するために使用されるが、そのようなステップまたは要素は、排他的リストを含まず、方法または装置は、追加のステップまたは要素を含むことができる。
本明細書で使用される場合、「コンポーネント」および「システム」という用語は、プロセッサによって実行されたときに特定の機能を実行させるコンピュータ実行可能命令を有して構成されているコンピュータ可読データストレージを包含するものとする。コンピュータ実行可能命令は、ルーチン、関数などを含むことができる。また、コンポーネントまたはシステムは、単一のデバイスにローカライズすることも、いくつかのデバイスに分散させることもできることを理解されたい。さらに、本明細書で使用される場合、「例示的」、「例」または「実施形態」という用語は、「何らかの例証または例示としての役割を果たす」ことを意味することが意図されている。さらに、「含む(includes)」という用語が詳細な説明または特許請求の範囲のいずれかで使用されている限り、そのような用語は、「含む/備える(comprising)」が請求項の中で移行語として用いられた場合に解釈される「含む/備える(comprising)」という用語と同様の様式で包含的であることが意図されている。
図は、例示的な方法を示している。これらの方法は、特定の配列で実行される一連の動作として示され、記載されているが、これらの方法は、配列の順序によって限定されないことを理解および認識されたい。例えば、いくつかの動作は、本明細書に記載されているものとは異なる順序で発生する可能性がある。追加して、ある動作は、別の動作と同時に発生する可能性がある。さらに、いくつかの例では、本明細書で説明される方法を実施するためにすべての動作が必要とされるわけではない場合がある。
さらに、本明細書に記載される動作は、1つ以上のプロセッサによって実装され、かつ/または1つ以上のコンピュータ可読媒体に記憶されることができるコンピュータ実行可能命令を含むことができる。コンピュータ実行可能命令は、ルーチン、サブルーチン、プログラム、実行スレッドなどを含むことができる。さらに、方法の動作の結果は、コンピュータ可読媒体に記憶され、表示デバイスに表示され、かつ/または同様のものとすることができる。
本明細書に記載される方法のステップの順序は例示的なものであるが、これらのステップは、任意の好適な順序で、または必要に応じて同時に実行されてもよい。追加的に、本明細書に記載される主題の範囲から逸脱することなく、ステップを追加または置換することができ、または個々のステップを、これらの方法のいずれかから削除することができる。上述した例のいずれかの態様を、記載された他の例のいずれかの態様と組み合わせて、求められる効果を失うことなく、さらなる例を形成することができる。
好ましい実施形態の上記の説明は、例としてのみ与えられており、当業者によって様々な変更が行われることができることが理解されるであろう。
上記で説明したものは、1つ以上の実施形態の例を含む。もちろん、前述の態様を記載する目的で、上記のデバイスまたは方法の考えられるすべての変更および代替を記載することは不可能であるが、当業者は、様々な態様の多くのさらなる変更および置換が可能であることを認識することができる。したがって、記載される態様は、添付の特許請求の範囲の範囲内に含まれるそのようなすべての変更、修正、および変形を包含することが意図されている。
Claims (39)
- 患者についてのバリアントの病原性を評価するためのコンピュータ実装方法であって、
バリアントを受信することと、
学習済みバリアントのコレクションに基づいて、病原性メトリックに関連して前記バリアントについての少なくとも1つの確率を決定することであって、前記病原性メトリックが、前記バリアントについての前記少なくとも1つの確率を決定するための少なくとも1つの遺伝的状態クラスターのデータ表現を含む、決定することと、
前記患者についての前記バリアントの前記少なくとも1つの確率の統合された表現を出力することと、を含む、コンピュータ実装方法。 - 前記少なくとも1つの遺伝的状態クラスターの前記データ表現が、前記学習済みバリアントのコレクションから導出され、かつ患者の表現型情報のセットに関連して重み付けされる、請求項1に記載のコンピュータ実装方法。
- 前記バリアントが、前記学習済みバリアントのコレクションに含まれており、
前記患者の表現型情報を受信することと、
前記患者の前記表現型情報に基づいて、前記少なくとも1つの遺伝的状態クラスターの各々に関連付けられた寄与度を決定することと、
前記少なくとも1つの遺伝的状態クラスターの前記データ表現に従って決定された前記寄与度に基づいて、前記バリアントについての前記少なくとも1つの確率を調整することと、をさらに含む、請求項1または2に記載のコンピュータ実装方法。 - 前記患者の前記表現型情報の利用可能性を評価することと、
前記利用可能性に基づいて、前記統合された表現を出力するために前記少なくとも1つの遺伝的状態クラスターを調整するかどうかを決定することと、をさらに含む、請求項2または3に記載のコンピュータ実装方法。 - 前記患者の前記表現型情報に基づいて、前記少なくとも1つの遺伝的状態クラスターの各々に関連付けられた寄与度を前記決定することが、
1つ以上の回帰モデルを使用して前記少なくとも1つの遺伝的状態クラスターの各々を分割することであって、前記1つ以上の回帰モデルが、前記患者の前記表現型情報が与えられた場合に前記少なくとも1つの遺伝的状態クラスターの各々への前記寄与度を予測する、分割することをさらに含む、請求項3または4に記載のコンピュータ実装方法。 - 前記バリアントが、前記学習済みバリアントのコレクションに含まれておらず、
前記バリアントに関連して前記学習済みバリアントのコレクションから少なくとも1つの近位バリアントを識別することと、
前記少なくとも1つの近位バリアントの各々に対応するサイド情報のセットを受信することであって、前記サイド情報のセットが、1つ以上の指標を含む、受信することと、
前記サイド情報のセットに基づいて、最も近いバリアントを識別することと、
前記病原性メトリックに関連して前記バリアントについての前記少なくとも1つの確率を決定する場合に、前記最も近いバリアントを前記バリアントとして適用することと、をさらに含む、請求項1または2に記載のコンピュータ実装方法。 - 前記最も近いバリアントが、前記サイド情報のセットに基づいて、前記少なくとも1つの近位バリアントに関連付けられた類似性メトリックを適用することによって識別され、かつ/または、前記類似性メトリックが、前記サイド情報のセットに関連して重み付けされる、請求項6に記載のコンピュータ実装方法。
- 前記類似性メトリックが、前記学習済みバリアントのコレクションから少なくとも1つの他のバリアントを識別して、同等の類似性スコアを有する場合に、前記バリアントについての前記少なくとも1つの確率が、前記少なくとも1つの近位バリアントの各々を平均することによって決定される、請求項7に記載のコンピュータ実装方法。
- 病原性メトリックに関連してバリアントの少なくとも1つの確率を決定するための少なくとも1つの遺伝的状態クラスターを生成するためのコンピュータ実装方法であって、
バリアントのコレクションに関連付けられた少なくとも1人の患者の注釈付きデータを受信することであって、前記注釈付きデータが、前記病原性メトリックに対応する関連付けられた観察による解釈情報を含む、受信することと、
前記少なくとも1人の患者の注釈付きデータについてのデータ表現を決定することであって、前記データ表現が、1つ以上の生成モデルを使用して導出される、決定することと、
前記データ表現に基づいて、前記少なくとも1つの遺伝的状態クラスターを生成することと、を含む、コンピュータ実装方法。 - 前記注釈付きデータが、患者の表現型情報のセットおよび/またはサイド情報のセットをさらに含む、請求項9に記載のコンピュータ実装方法。
- 前記表現型情報のセットが、前記少なくとも1人の患者に関連して前記解釈情報に関連付けられており、かつ/または、前記サイド情報のセットが、前記バリアントのコレクションに関連して前記解釈情報に関連付けられている、請求項10に記載のコンピュータ実装方法。
- 前記表現型情報のセットに基づいて、前記少なくとも1つの遺伝的状態クラスターに関連付けられた重みのセットを調整することであって、前記重みのセットが、前記表現型情報のセットに対する前記少なくとも1つの遺伝的状態クラスターの寄与度に対応する、調整することと、
前記調整された重みのセットに基づいて、1つ以上の回帰モデルを構成して、前記病原性メトリックに関連して前記寄与度を決定することと、をさらに含む、請求項10または11に記載のコンピュータ実装方法。 - 前記サイド情報のセットが、前記バリアントのコレクションに関連付けられた指標のデータ表現を含む、請求項10~12のいずれか一項に記載のコンピュータ実装方法。
- 前記サイド情報のセットが、前記バリアントが前記バリアントのコレクションに含まれていない場合に、前記バリアントの前記少なくとも1つの確率を決定するために使用される前記バリアントのコレクションから最も近いバリアントを識別するために適用され、かつ/または、前記バリアントの前記少なくとも1つの確率が、前記サイド情報のセットが提供された教師あり学習フレームワークを使用して決定される、請求項10~13のいずれか一項に記載のコンピュータ実装方法。
- 前記バリアントが、前記最も近いバリアントに関連付けられた注釈を適用することによって前記少なくとも1つの遺伝的状態クラスターを更新するために前記バリアントのコレクションに含まれる、請求項14に記載のコンピュータ実装方法。
- 前記注釈付きデータに基づいて、前記少なくとも1つの遺伝的状態クラスターの最適なセットを決定することと、
予測中に前記少なくとも1つの遺伝的状態クラスターの前記最適なセットを適用して、前記病原性メトリックに関連してバリアントの前記少なくとも1つの確率を決定することと、をさらに含む、請求項9~15のいずれか一項に記載のコンピュータ実装方法。 - 前記少なくとも1つの遺伝的状態クラスターの前記最適なセットが、新しい注釈付きデータで反復的に更新されるように構成されている、請求項16に記載のコンピュータ実装方法。
- サイド情報のセットを使用して、患者についての未知のバリアントの病原性を評価するためのコンピュータ実装方法であって、
前記未知のバリアントを受信することであって、前記未知のバリアントが、学習済みバリアントのコレクションにおいて識別されていない、受信することと、
前記学習済みバリアントのコレクションのサブセットの各々に対応する前記サイド情報のセットを使用して、教師あり学習フレームワークをトレーニングすることと、
前記トレーニングされた教師あり学習フレームワークに基づいて、前記未知のバリアントの前記病原性を評価することと、を含む、コンピュータ実装方法。 - 前記学習済みバリアントのコレクションのサブセットの各々に対応する前記サイド情報のセットを比較することであって、前記学習済みバリアントの前記コレクションの各サブセットに対応する前記サイド情報のセットが、前記学習済みバリアントのコレクションの前記サブセットに関連付けられた類似性スコアと関連して比較される、比較することと、をさらに含む、請求項18に記載のコンピュータ実装方法。
- 最も近いバリアントの病原性に関連して前記未知のバリアントの前記病原性を評価することであって、
学習済みバリアントのコレクションに基づいて、病原性メトリックに関連して前記最も近いバリアントについての少なくとも1つの確率を決定することであって、前記病原性メトリックが、前記最も近いバリアントの前記少なくとも1つの確率を計算するための少なくとも1つの遺伝的状態クラスターのデータ表現を含む、決定することと、
前記少なくとも1つの確率の統合された表現を生成することであって、前記統合された表現が、前記病原性メトリックに関連して出力される、生成することと、をさらに含む、評価することをさらに含む、請求項18または19に記載のコンピュータ実装方法。 - 前記最も近いバリアントが決定され得ないように前記学習済みバリアントのコレクションのサブセットが同等の類似度スコアを有する2つ以上のバリアントを含むことに応答して、前記学習済みバリアントのコレクションの前記サブセットの各バリアントについての前記少なくとも1つの確率を平均することにより、前記統合された表現を生成すること、および/または
前記サイド情報のセットが与えられる場合に前記学習済みバリアントのコレクションのサブセットの各バリアントについての少なくとも1つの確率に基づいて、前記教師あり学習フレームワークを使用して前記統合された表現を生成することであって、前記教師あり学習フレームワークが、1つ以上の教師あり予測モデルを含む、生成すること、をさらに含む、請求項20に記載のコンピュータ実装方法。 - 前記表現型情報が、1つ以上の疾患に関連付けられた表現型オントロジーを含む、請求項1~8および10~17のいずれか一項に記載のコンピュータ実装方法。
- 前記1つ以上の生成モデルが、前記病原性メトリックに関連して注釈付きデータのデータ提示を分解するように構成されている、請求項9~17のいずれか一項に記載のコンピュータ実装方法。
- 前記1つ以上の生成モデルが、行列因子分解アルゴリズムに基づく少なくとも1つの定式化を含む、請求項9~17、22、および23のいずれか一項に記載のコンピュータ実装方法。
- 前記病原性メトリックが、病原性の程度を示す少なくとも1つの分類を含む、請求項1~17および20~24のいずれか一項に記載のコンピュータ実装方法。
- 前記少なくとも1つの分類の各々が、前記少なくとも1つの遺伝的状態クラスターの異なる最適なセットに関連付けられている、請求項25に記載のコンピュータ実装方法。
- コンピュータ可読コードまたはそれに記憶された命令を含むコンピュータ可読媒体であって、プロセッサで実行される場合に、前記プロセッサに、請求項1乃至26のいずれか一項に記載のコンピュータ実装方法を実施させる、コンピュータ可読媒体。
- 請求項1~26のいずれか一項に記載のコンピュータ実装方法を実行するように構成されている少なくとも1つの回路を含む、システム。
- プロセッサと、メモリと、通信インターフェースと、を含む装置であって、前記プロセッサが、前記メモリおよび通信インターフェースに接続されており、前記装置が、請求項1~26のいずれか一項に記載のコンピュータ実装方法を実施するように適応または構成されている、装置。
- 患者についてのバリアントの病原性を決定するための装置であって、前記装置が、
前記バリアントを受信するように構成された入力コンポーネントと、
前記バリアントが学習済みバリアントのコレクション内にあるかどうかを決定するように構成された処理コンポーネントと、
前記バリアントが前記学習済みバリアントの前記コレクション内に存在するという決定に応答して、病原性メトリックに関連して前記バリアントについての少なくとも1つの確率を生成するように構成された予測コンポーネントであって、前記病原性メトリックが、前記バリアントについての前記少なくとも1つの確率を決定するための少なくとも1つの遺伝的状態クラスターのデータ表現を含む、予測コンポーネントと、
前記病原性メトリックに関して前記バリアントについての前記少なくとも1つの確率を表示するように構成された表示コンポーネントであって、前記少なくとも1つの確率が正規化されている、表示コンポーネントと、を含む、装置。 - 前記予測コンポーネントが、前記バリアントが前記学習済みバリアントの前記コレクションに存在しないという決定に応答して、サイド情報のセットを受信するように構成されており、前記サイド情報が、前記バリアントに関連して、前記少なくとも1つの確率を生成するために前記バリアントとして適用される最も近いバリアントを識別するように使用される、請求項30に記載の装置。
- 前記入力コンポーネントが、前記患者に関連付けられた表現型情報を受信するように構成されており、前記表現型情報が、前記少なくとも1つの遺伝的状態クラスターに関連して前記バリアントについての前記少なくとも1つの確率を調整するように適用される、請求項30に記載の装置。
- サイド情報のセットを使用して、未知の遺伝子バリアントについての病原性の確率分布を決定するためのコンピュータ実装方法であって、前記方法が、
患者の前記未知のバリアントを受信することであって、前記未知のバリアントが、複数の患者に関連付けられた学習済みバリアントのコレクションにおいて識別されていないか、またはそれに対して新しいものである、受信することと、
前記サイド情報のセットに基づいて、教師あり学習フレームワークを使用して、前記未知の遺伝子バリアントの前記病原性を評価することと、
前記評価に基づいて、前記病原性の確率分布を決定することと、を含む、コンピュータ実装方法。 - 前記サイド情報のセットが与えられた場合に、病原性メトリックのセットに関連付けられた前記未知のバリアントの確率を計算することをさらに含む、請求項33に記載のコンピュータ実装方法。
- 学習済みバリアントのコレクションに基づいて、病原性メトリックに関連して前記未知のバリアントについての少なくとも1つの確率を決定することと、
前記少なくとも1つの確率の統合された表現を生成することであって、前記統合された表現が、前記病原性メトリックに関連して出力される、生成することと、をさらに含む、請求項33または34に記載のコンピュータ実装方法。 - 前記教師あり学習フレームワークが、1つ以上の予測モデルを含む、請求項33~35のいずれか一項に記載のコンピュータ実装方法。
- 前記教師あり学習フレームワークが、ノンパラメトリック分類器を含む、請求項33~35のいずれか一項に記載のコンピュータ実装方法。
- 前記サイド情報のセットが、前記未知の遺伝子バリアントに関連付けられている、請求項33~37のいずれか一項に記載のコンピュータ実装方法。
- 前記方法が、請求項27~32のいずれか一項に記載のコンピュータ可読媒体、システム、または装置に関連してプロセッサ上で実施される、請求項33~38のいずれか一項に記載のコンピュータ実装方法。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB2000649.0A GB2591115A (en) | 2020-01-16 | 2020-01-16 | Screening system and method for acquiring and processing genomic information for generating gene variant interpretations |
GB2000649.0 | 2020-01-16 | ||
GB2013386.4 | 2020-08-26 | ||
GB2013387.2 | 2020-08-26 | ||
GBGB2013387.2A GB202013387D0 (en) | 2020-08-26 | 2020-08-26 | Screening system and method for acquiring and processing genomic information for generating gene variant interpretations |
GBGB2013386.4A GB202013386D0 (en) | 2020-08-26 | 2020-08-26 | Application of pathogenicity model and training thereof |
PCT/GB2021/050086 WO2021144578A1 (en) | 2020-01-16 | 2021-01-15 | Application of pathogenicity model and training thereof |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023510400A true JP2023510400A (ja) | 2023-03-13 |
Family
ID=74215980
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022543393A Pending JP2023510399A (ja) | 2020-01-16 | 2021-01-15 | 遺伝子バリアント解釈を生成するためのゲノム情報を取得および処理するためのスクリーニングシステムおよび方法 |
JP2022543395A Withdrawn JP2023510400A (ja) | 2020-01-16 | 2021-01-15 | 病原性モデルの適用およびそのトレーニング |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022543393A Pending JP2023510399A (ja) | 2020-01-16 | 2021-01-15 | 遺伝子バリアント解釈を生成するためのゲノム情報を取得および処理するためのスクリーニングシステムおよび方法 |
Country Status (7)
Country | Link |
---|---|
US (2) | US20230050513A1 (ja) |
EP (2) | EP4091171A1 (ja) |
JP (2) | JP2023510399A (ja) |
CN (2) | CN115335911A (ja) |
AU (2) | AU2021208683A1 (ja) |
CA (2) | CA3164718A1 (ja) |
WO (2) | WO2021144578A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12014831B2 (en) * | 2021-12-02 | 2024-06-18 | AiOnco, Inc. | Approaches to reducing dimensionality of genetic information used for machine learning and systems for implementing the same |
CN115982172A (zh) * | 2023-02-02 | 2023-04-18 | 青岛农业大学 | 小麦育种数据平台的效价表型数据重组方法及其应用 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10185803B2 (en) * | 2015-06-15 | 2019-01-22 | Deep Genomics Incorporated | Systems and methods for classifying, prioritizing and interpreting genetic variants and therapies using a deep neural network |
EP3642748A4 (en) * | 2017-06-19 | 2021-03-10 | Jungla LLC | INTERPRETATION OF GENETIC AND GENOMIC VARIANTS VIA AN INTEGRATED COMPUTING AND EXPERIMENTAL FRAMEWORK FOR DEEP MUTATION LEARNING |
JP2021519607A (ja) * | 2018-02-27 | 2021-08-12 | コーネル・ユニバーシティーCornell University | ゲノムワイド統合による循環腫瘍dnaの超音波感受性検出 |
-
2021
- 2021-01-15 AU AU2021208683A patent/AU2021208683A1/en active Pending
- 2021-01-15 EP EP21701846.4A patent/EP4091171A1/en active Pending
- 2021-01-15 CN CN202180018103.9A patent/CN115335911A/zh active Pending
- 2021-01-15 US US17/792,535 patent/US20230050513A1/en active Pending
- 2021-01-15 EP EP21701579.1A patent/EP4091170A1/en active Pending
- 2021-01-15 AU AU2021208684A patent/AU2021208684A1/en active Pending
- 2021-01-15 CN CN202180019685.2A patent/CN115280415A/zh active Pending
- 2021-01-15 CA CA3164718A patent/CA3164718A1/en active Pending
- 2021-01-15 US US17/792,521 patent/US20230068937A1/en active Pending
- 2021-01-15 JP JP2022543393A patent/JP2023510399A/ja active Pending
- 2021-01-15 WO PCT/GB2021/050086 patent/WO2021144578A1/en unknown
- 2021-01-15 CA CA3164716A patent/CA3164716A1/en active Pending
- 2021-01-15 JP JP2022543395A patent/JP2023510400A/ja not_active Withdrawn
- 2021-01-15 WO PCT/GB2021/050087 patent/WO2021144579A1/en unknown
Also Published As
Publication number | Publication date |
---|---|
WO2021144578A1 (en) | 2021-07-22 |
WO2021144579A1 (en) | 2021-07-22 |
EP4091171A1 (en) | 2022-11-23 |
EP4091170A1 (en) | 2022-11-23 |
US20230068937A1 (en) | 2023-03-02 |
CN115280415A (zh) | 2022-11-01 |
AU2021208684A1 (en) | 2022-08-18 |
CA3164716A1 (en) | 2021-07-22 |
CA3164718A1 (en) | 2021-07-22 |
US20230050513A1 (en) | 2023-02-16 |
JP2023510399A (ja) | 2023-03-13 |
CN115335911A (zh) | 2022-11-11 |
AU2021208683A1 (en) | 2022-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11075008B2 (en) | Generating drug repositioning hypotheses based on integrating multiple aspects of drug similarity and disease similarity | |
US20210375392A1 (en) | Machine learning platform for generating risk models | |
Padula et al. | Machine learning methods in health economics and outcomes research—the PALISADE checklist: a good practices report of an ISPOR task force | |
US20220130541A1 (en) | Disease-gene prioritization method and system | |
US20220044761A1 (en) | Machine learning platform for generating risk models | |
CN113488104B (zh) | 基于局部和全局的网络中心性分析的癌症驱动基因预测方法及系统 | |
Zhang et al. | Development and evaluation of in silico prediction model for drug-induced respiratory toxicity by using naïve Bayes classifier method | |
Vanunu et al. | A propagation-based algorithm for inferring gene-disease associations | |
JP2023510400A (ja) | 病原性モデルの適用およびそのトレーニング | |
Lee et al. | Constructing gene regulatory networks from microarray data using GA/PSO with DTW | |
CN114093527A (zh) | 一种基于空间相似性约束和非负矩阵分解的药物重定位方法和系统 | |
CN114913916A (zh) | 预测新冠病毒适应药物的药物重定位方法 | |
CN112925857A (zh) | 基于谓语类型预测关联的数字信息驱动的系统和方法 | |
Akutekwe et al. | A hybrid dynamic Bayesian network approach for modelling temporal associations of gene expressions for hypertension diagnosis | |
Nandhini et al. | An optimal stacked ResNet-BiLSTM-based accurate detection and classification of genetic disorders | |
Cooper et al. | An efficient Bayesian method for predicting clinical outcomes from genome-wide data | |
CN114722217A (zh) | 一种基于链接预测和协同过滤的内容推送方法 | |
Wang et al. | Pathogenic gene prediction algorithm based on heterogeneous information fusion | |
Lopez-Miguel | Survey on preprocessing techniques for big data projects | |
Han et al. | Hessian Regularized L 2, 1-Nonnegative Matrix Factorization and Deep Learning for miRNA–Disease Associations Prediction | |
WO2023150898A1 (en) | Method for identifying chromatin structural characteristic from hi-c matrix, non-transitory computer readable medium storing program for identifying chromatin structural characteristic from hi-c matrix | |
US20240013064A1 (en) | Machine learning techniques using model deficiency data objects for tensor-based graph processing models | |
Jeipratha et al. | Optimal gene prioritization and disease prediction using knowledge based ontology structure | |
US20230386612A1 (en) | Determining comparable patients on the basis of ontologies | |
Luo et al. | Postpartum pelvic organ prolapse assessment via adversarial feature complementation in heterogeneous data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20231017 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20240327 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20240327 |