JP2018527647A - 遺伝子配列バリアントの病原性を予測する方法 - Google Patents

遺伝子配列バリアントの病原性を予測する方法 Download PDF

Info

Publication number
JP2018527647A
JP2018527647A JP2017566360A JP2017566360A JP2018527647A JP 2018527647 A JP2018527647 A JP 2018527647A JP 2017566360 A JP2017566360 A JP 2017566360A JP 2017566360 A JP2017566360 A JP 2017566360A JP 2018527647 A JP2018527647 A JP 2018527647A
Authority
JP
Japan
Prior art keywords
gene sequence
sequence variant
data set
variant
benign
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017566360A
Other languages
English (en)
Inventor
イムラン サイーダル ハケ,
イムラン サイーダル ハケ,
エリック アンドリュー エバンス,
エリック アンドリュー エバンス,
シャラド マンダヤム ヴィクラム,
シャラド マンダヤム ヴィクラム,
マシュー デイビッド ラスムッセン,
マシュー デイビッド ラスムッセン,
Original Assignee
カウンシル, インコーポレイテッド
カウンシル, インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by カウンシル, インコーポレイテッド, カウンシル, インコーポレイテッド filed Critical カウンシル, インコーポレイテッド
Publication of JP2018527647A publication Critical patent/JP2018527647A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Molecular Biology (AREA)
  • Bioethics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Ecology (AREA)
  • Algebra (AREA)
  • Physiology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

費用効果が大きいDNA配列決定の最近の発展は、遺伝子配列バリアントについての対象の個別化されたゲノムスクリーニングを可能にする。半教師あり訓練方法を使用して病原性予測モデルを訓練することは、試験遺伝子配列バリアントの病原性を予測するためのより良好なモデルを提供する。本明細書は、ラベル付き良性遺伝子配列バリアントと、良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含むラベルなし遺伝子配列バリアントとを含む訓練データセットを利用することによって試験遺伝子配列バリアントの病原性を予測する方法を提供する。遺伝子配列に1つまたは複数の特徴をアノテートし、機械学習モデルは半教師ありプロセスで訓練データに基づいて訓練される。次いで、試験遺伝子配列に1つまたは複数の特徴を使用してアノテートし、試験遺伝子配列バリアントが病原性である確率を訓練された機械学習モデルに基づいて予測する。

Description

関連出願への相互参照
本出願は、2015年6月22日に出願された米国仮出願番号第62/183,132号の:2015年9月21日に出願された米国仮出願番号第62/221,487号の;および2015年10月2日に出願された米国仮出願番号第62/236,797号の優先権の利益を主張している。これら仮出願の各々の全体の内容は、本明細書によって参考として本明細書中に援用される。
発明の分野
以下の開示は、一般に、遺伝子配列の病原性を予測すること、より詳細には、遺伝子配列バリアントの病原性を予測することに関する。
発明の背景
費用効果が大きいDNA配列決定の出現により、患者の遺伝子配列バリアントに関する高分解能の情報が診療所にもたらされ、その結果、このゲノムデータを効率的に解釈する必要性が生じている。そのような試験から、患者が自身の健康危険度を理解し、今後の治療をより良く計画することを可能にするすぐに使用可能な情報が患者に提供される。したがって、より情報価値のある利用可能な診断試験により、患者が利益を得るだけでなく、医療制度全体の効率も改善される見込みがある。伝統的に、臨床データベースおよび文献における関連する情報の形式が異なるため、多くの手動の時間のかかるプロセスによる遺伝子配列バリアントの解釈が優位を占めている。
しかし、高分解能の配列決定データは、遺伝子配列バリアントの解釈という難題を提起する。各患者において、配列決定が新しい遺伝子配列バリアントを示し、臨床医がこれらの新しく観察された遺伝子配列バリアントが病原性である可能性があるかどうかを決定しなければならない可能性がある。これらの分類から、全てのさらなるリスク算出および医学的カウンセリングが導かれる。遺伝子配列バリアントの解釈の現行の標準的方法は、広範囲にわたるデータベースおよび文献の検索、コンピュータによる方法の使用、ならびに多数回の再調査を伴う、時間のかかる、手動での多数のデータソースの組み込みに基づく。それでもなお、このプロセスでは、遺伝子配列バリアントを病原性であるか良性であるかに分類するのに十分な情報はめったに得られないことから、管理者(キュレーター)は、それを意義不明のバリアント(VUS:variant of uncertain significance)として分類する必要がある。VUSは、具体的な結果を望む患者の不安の種になり得る。患者に対するこの余分な負荷に起因して、VUS分類を減少させることが最も重要な関心事になっている。
本明細書で言及される全ての刊行物の開示は、それぞれ、これにより、それらの全体が参照により本明細書に組み込まれる。
発明の要旨
試験遺伝子配列バリアントの病原性を予測するためのコンピュータ実装方法であって、少なくとも1つのプロセッサおよびメモリを有する電子デバイスにおいて、ラベル付き良性遺伝子配列バリアントを含む第1のデータセットと、良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含むラベルなし遺伝子配列バリアントを含む第2のデータセットとを含む訓練データを受信するステップ;第1のデータセットおよび第2のデータセット内の各遺伝子配列バリアントに1つまたは複数の特徴をアノテートするステップ;機械学習モデルを訓練データに基づいて訓練するステップであって、機械学習モデルが半教師ありプロセスで訓練されるステップ;試験遺伝子配列バリアントに1つまたは複数の特徴をアノテートするステップ;および訓練後に、機械学習モデルに基づいて、試験遺伝子配列バリアントが病原性である確率を予測するステップを含む方法が本明細書において提供される。
試験遺伝子配列バリアントの病原性を予測するためのコンピュータ実装方法であって、少なくとも1つのプロセッサおよびメモリを有する電子デバイスにおいて、ラベル付き良性遺伝子配列バリアントを含む第1のデータセットと、ラベルなし良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含むシミュレートされた遺伝子配列バリアントを含む第2のデータセットとを含む訓練データを受信するステップ;第1のデータセットおよび第2のデータセット内の各遺伝子配列バリアントに1つまたは複数の特徴をアノテートするステップ;機械学習モデルを訓練データに基づいて訓練するステップであって、機械学習モデルが半教師ありプロセスで訓練されるステップ;試験遺伝子配列バリアントに1つまたは複数の特徴をアノテートするステップ;および訓練後に、機械学習モデルに基づいて、試験遺伝子配列バリアントが病原性である確率を予測するステップを含む方法が本明細書においてさらに提供される。
試験遺伝子配列バリアントの病原性を予測するためのコンピュータ実装方法であって、少なくとも1つのプロセッサおよびメモリを有する電子デバイスにおいて、機械学習モデルを訓練データに基づいて訓練するステップであって、機械学習モデルが半教師ありプロセスで訓練され、訓練データが、ラベル付き良性遺伝子配列バリアントを含む第1のデータセットと、ラベルなし遺伝子配列バリアントが良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含むラベルなし遺伝子配列バリアントを含む第2のデータセットとを含み;第1のデータセットおよび第2のデータセット内の各バリアントに1つまたは複数の特徴がアノテートされる、ステップ;試験遺伝子配列バリアントに1つまたは複数の特徴をアノテートするステップ;および訓練後に、機械学習モデルに基づいて、試験遺伝子配列バリアントが病原性である確率を予測するステップを含む方法も本明細書において提供される。
試験遺伝子配列バリアントの病原性を予測するためのコンピュータ実装方法であって、少なくとも1つのプロセッサおよびメモリを有する電子デバイスにおいて、機械学習モデルを訓練データに基づいて訓練するステップであって、機械学習モデルが半教師ありプロセスで訓練され、訓練データが、ラベル付き良性遺伝子配列バリアントを含む第1のデータセットと、ラベルなし良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含むシミュレートされた遺伝子配列バリアントを含む第2のデータセットとを含み、第1のデータセットおよび第2のデータセット内の各バリアントに1つまたは複数の特徴がアノテートされる、ステップ;試験遺伝子配列バリアントに1つまたは複数の特徴をアノテートするステップ;および訓練後に、機械学習モデルに基づいて、試験遺伝子配列バリアントが病原性である確率を予測するステップを含む方法も提供される。
試験遺伝子配列バリアントの病原性を予測するためのコンピュータ実装方法であって、機械学習モデルを訓練データに基づいて訓練するステップであって、機械学習モデルが半教師ありプロセスで訓練され、訓練データが、ラベル付き良性遺伝子配列バリアントを含む第1のデータセットと、良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含むラベルなし遺伝子配列バリアントを含む第2のデータセットとを含み、第1のデータセットおよび第2のデータセット内の各バリアントに1つまたは複数の特徴がアノテートされる、ステップ;試験遺伝子配列バリアントに1つまたは複数の特徴をアノテートするステップおよび訓練後に、機械学習モデルに基づいて、試験遺伝子配列バリアントが病原性である確率を予測するステップを含む方法も本明細書において提供される。
試験遺伝子配列バリアントの病原性を予測するための方法であって、試験遺伝子配列バリアントに1つまたは複数の特徴をアノテートするステップ;および訓練された機械学習モデルに基づいて、試験遺伝子配列バリアントが病原性である確率を予測するステップであって、機械学習モデルが、訓練データに基づいて半教師ありプロセスで訓練され、訓練データが、ラベル付き良性遺伝子配列バリアントを含む第1のデータセットと、良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含むラベルなし遺伝子配列バリアントを含む第2のデータセットとを含み;第1のデータセットおよび第2のデータセット内の各遺伝子配列バリアントに1つまたは複数の特徴がアノテートされる、ステップを含む方法も本明細書において提供される。
試験遺伝子配列バリアントの病原性を予測するための方法であって、学習モデルを訓練データに基づいて訓練するステップであって、学習モデルが半教師ありプロセスで訓練され、訓練データが、ラベル付き良性遺伝子配列バリアントを含む第1のデータセットと、良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含むラベルなし遺伝子配列バリアントを含む第2のデータセットとを含み、第1のデータセットおよび第2のデータセット内の各バリアントに1つまたは複数の特徴がアノテートされる、ステップ;試験遺伝子配列バリアントに1つまたは複数の特徴をアノテートするステップ;および訓練後に、学習モデルに基づいて、試験遺伝子配列バリアントが病原性である確率を予測するステップを含む方法がさらに提供される。
試験遺伝子配列バリアントの病原性を予測するための方法であって、試験遺伝子配列バリアントに1つまたは複数の特徴をアノテートするステップ;および訓練された学習モデルに基づいて試験遺伝子配列バリアントが病原性である確率を予測するステップであって、学習モデルが、訓練データに基づいて半教師ありプロセスで訓練され、訓練データが、ラベル付き良性遺伝子配列バリアントを含む第1のデータセットと、良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含むラベルなし遺伝子配列バリアントを含む第2のデータセットとを含み、第1のデータセットおよび第2のデータセット内の各遺伝子配列バリアントに1つまたは複数の特徴がアノテートされる、ステップを含む方法も提供される。
一部の実施形態では、方法は、訓練データを生成するステップをさらに含む。一部の実施形態では、機械学習モデルは、生成モデルを含む。一部の実施形態では、生成モデルは、生成的混合モデルである。一部の実施形態では、生成モデルは、1つまたは複数の特徴によって指定される1つまたは複数の確率分布に依拠する。一部の実施形態では、1つまたは複数の特徴は、条件付き独立確率分布を含む。一部の実施形態では、1つまたは複数の確率分布は複数のノードを含み、これらのノードは不連続的特徴または連続的特徴を含み、不連続的特徴はディリクレ条件付き独立確率分布を含み、連続的特徴はガウス条件付き独立確率分布を含む。一部の実施形態では、機械学習モデルは、識別モデルを含む。一部の実施形態では、機械学習モデルは、サポートベクトルマシンを含まない。
一部の実施形態では、半教師ありプロセスを期待値最大化によって実施する。一部の実施形態では、訓練は、訓練データ内の各遺伝子配列バリアントを良性クラスターまたは病原性クラスターに割り当てることを含む。一部の実施形態では、訓練は、良性クラスターについての1つまたは複数の学習パラメータをn回の訓練後に固定し、病原性クラスターについての1つまたは複数の学習パラメータを(n+x)(式中、nおよびxは正の整数である)回の訓練にわたって変動させることを含む。一部の実施形態では、良性クラスターについての1つまたは複数の学習パラメータを1回の訓練後に固定する。一部の実施形態では、良性クラスターは、複数の良性サブクラスターを含む。一部の実施形態では、病原性クラスターは、複数の病原性サブクラスターを含む。
一部の実施形態では、機械学習モデルにより、試験遺伝子配列バリアントを良性クラスターまたは病原性クラスターに割り当てる。一部の実施形態では、良性クラスターは、複数の良性サブクラスターを含む。一部の実施形態では、病原性クラスターは、複数の病原性サブクラスターを含む。
一部の実施形態では、ラベル付き良性遺伝子配列バリアントは、選択された集団において、90%超の対立遺伝子発生頻度を有する。一部の実施形態では、ラベルなし遺伝子配列バリアントは、シミュレートされた遺伝子配列バリアントである。
一部の実施形態では、試験遺伝子配列バリアントは、ヒト遺伝子配列バリアントである。一部の実施形態では、試験遺伝子配列バリアントは、ミスセンス遺伝子配列バリアント、ナンセンス遺伝子配列バリアント、スプライス部位遺伝子配列バリアント、挿入遺伝子配列バリアント、欠失遺伝子配列バリアント、または調節エレメント遺伝子配列バリアントを含む。
一部の実施形態では、1つまたは複数の特徴は、進化的保存スコア、ミスセンスバリアントスコア、挿入バリアントスコア、欠失バリアントスコア、スプライス部位バリアントスコア、または調節スコアに基づいて定義される特徴を含む。
さらに、本明細書に記載の方法のいずれかを実行するための、コンピュータで実行可能な指示を含む非一過性のコンピュータ可読メモリ媒体が本明細書において提示される。1つまたは複数のプロセッサ、メモリ、および1つまたは複数のプログラムを含むシステムであって、1つまたは複数のプログラムが、メモリ内に記憶されており、1つまたは複数のプロセッサによって実行されるように構成されており、1つまたは複数のプログラムが、本明細書に開示されている方法のいずれかを実行するための指示を含む、システムも提供される。
図1は、試験遺伝子配列バリアントの病原性を予測するための例示の方法を示す図である。
図2は、本明細書に記載の処理方法のいずれか1つを実施するように構成された例示のコンピュータシステムを示す図である。
図3は、本明細書に記載の方法およびシステムに有用な例示の機械学習モデルを示す図である。
図4は、期待値最大化アルゴリズムを使用して、生成機械学習モデルを本明細書に記載の遺伝子配列バリアントデータセットに基づいて訓練するプロセスの一実施形態を例示する図である。
図5Aは、本明細書に記載の方法を使用して機械学習モデルを訓練し、試験するための例示の方法を示す図である。
図5Bは、本明細書に記載の方法を使用した、ある特定の特徴(verPhyloP、verPhastCons、GerpS、SIFT、PolyPhen)の、2つの主要な成分に従ったミスセンス遺伝子配列バリアントのクラスタリング(主成分分析(PCA)を使用する)を示す。カーネル密度を実証するために、良性ミスセンス遺伝子配列バリアントと病原性ミスセンス遺伝子配列バリアントのラベルなし混合物を含むシミュレートされたミスセンス遺伝子配列バリアントが等高線を使用してプロットされている(「シミュレートされた」と表示され、灰色の線で示されている)。良性ミスセンス遺伝子配列バリアント試験データセット(「良性」と表示され、黒塗りの丸で示されている)と病原性ミスセンス遺伝子配列バリアント試験データセット(「病原性」と表示され、白抜きの丸で示されている)の両方からのミスセンス遺伝子配列バリアントのランダムなサブセットが示されている。
図5Cは、本明細書に記載の方法を使用した、ある特定の特徴(verPhyloP、verPHastCons、HSF、GerpS、MaxEntScan、NNSplice)の、2つの主要な成分に従った非標準スプライス遺伝子配列バリアントのクラスタリングを示す(主成分分析(PCA)を使用する)。カーネル密度を実証するために、良性非標準スプライス遺伝子配列バリアントと病原性非標準スプライス遺伝子配列バリアントのラベルなし混合物を含むシミュレートされた非標準スプライス遺伝子配列バリアントが等高線を使用してプロットされている(「シミュレートされた」と表示され、灰色の線で示されている)。良性非標準スプライス遺伝子配列バリアント試験データセット(「良性」と表示され、青色の点で示されている)と病原性非標準スプライス遺伝子配列バリアント試験データセット(「病原性」と表示され、赤色の点で示されている)の両方からの非標準スプライス遺伝子配列バリアントのランダムなサブセットが示されている。図5Cは、青色の点または赤色の点の代わりに代替的記号(例えば、四角、十字、丸など)を使用して白黒図で等しく示すことができることが理解される。図5Dは、本明細書に記載の方法を使用した、ある特定の特徴(verPhyloP、verPhastCons、GerpS、ENCODE H3K27Ac、ENCODE H3K4Me3、ENCODE H3K4Me1)の、2つの主要な成分に従った非コード(遺伝子間、調節、またはイントロン)領域遺伝子配列バリアントのクラスタリングを示す(主成分分析(PCA)を使用する)。カーネル密度を実証するために、良性非コード領域遺伝子配列バリアントと病原性非コード領域遺伝子配列バリアントのラベルなし混合物を含むシミュレートされた非コード領域遺伝子配列バリアントが等高線を使用してプロットされている。良性非コード領域遺伝子配列バリアント試験データセット(青色の点)と病原性非コード領域遺伝子配列バリアント試験データセット(赤色の点)の両方からの非コード(遺伝子間、調節、またはイントロン)領域遺伝子配列バリアントのランダムなサブセットが示されている。図5Dは、青色の点または赤色の点の代わりに代替的記号(例えば、四角、十字、丸など)を使用して白黒図で等しく示すことができることが理解される。
図6Aおよび6Bは、例示的方法の1つ(「SSCM−Pathogenic」)を使用して算出された病原性ミスセンス遺伝子配列バリアントおよび良性ミスセンス遺伝子配列バリアントについての受信者動作特性(ROC)を他の方法と比較して示す。曲線下面積(AUC)値が、データセットブートストラップサンプリングによって生成されたAUCについて95%信頼区間と共に示されている。図6Aは、HGMDからの病原性ミスセンス遺伝子配列バリアント(n=63,363)および0.05以上0.95未満である導出対立遺伝子発生頻度によって選別した良性ミスセンス遺伝子配列バリアント(n=20,133)を例示する。図6Bは、ClinVarからの病原性ミスセンス遺伝子配列バリアント(n=18,783)および0.05以上0.95未満である導出対立遺伝子発生頻度によって選別した良性ミスセンス遺伝子配列バリアント(n=20,133)を例示する。
図7Aおよび7Bは、例示的方法の1つ(「SSCM−Pathogenic」)を使用して算出された、病原性非標準スプライス遺伝子配列バリアントおよび良性非標準スプライス遺伝子配列バリアントについての受信者動作特性(ROC)を他の方法と比較して示す。曲線下面積(AUC)値が、データセットブートストラップサンプリングによって生成されたAUCについて95%信頼区間と共に示されている。図7Aは、HGMDからの病原性非標準スプライス遺伝子配列バリアント(n=2,658)および0.05以上0.95未満である導出対立遺伝子発生頻度によって選別した良性非標準スプライス遺伝子配列バリアント(n=6,154)を例示する。図7Bは、ClinVarからの病原性非標準スプライス遺伝子配列バリアント(n=290)および0.05以上0.95未満である導出対立遺伝子発生頻度によって選別した良性非標準スプライス遺伝子配列バリアント(n=6,158)を例示する。
図8は、例示的方法の1つ(「SSCM−Pathogenic」)を使用して算出された、病原性非標準スプライス遺伝子配列バリアントおよび良性非標準スプライス遺伝子配列バリアントについての受信者動作特性(ROC)を、スプライス特徴を取り除いた代替的な例示的方法(「SSCM−Pathogenic(スプライス特徴なし)」)と比較して示す。病原性非標準スプライス遺伝子配列バリアントはHGMDから得たものであり(n=2,658)、良性非標準スプライス遺伝子配列バリアントは0.05以上0.95未満である導出対立遺伝子発生頻度によって選別したものである(n=6,154)。曲線下面積(AUC)値が、データセットブートストラップサンプリングによって生成されたAUCについて95%信頼区間と共に示されている。
図9は、3’−UTR遺伝子配列バリアント、5’−UTR遺伝子配列バリアント、イントロン領域遺伝子配列バリアント、および遺伝子間領域遺伝子配列バリアントについての、本明細書に記載の例示的方法(「SSCM−Pathogenic」)によって出力された病原性確率分布を示す。密度曲線はわずかにこれらの範囲の外側に達しているにもかかわらず全ての値が[0,1]の範囲内に入ることに留意されたい。
図10は、例示的方法の1つ(「SSCM−Pathogenic」)を使用して算出された病原性ミスセンス遺伝子配列バリアントおよび良性ミスセンス遺伝子配列バリアントについての受信者動作特性(ROC)を教師あり機械学習モデルと比較して示す。病原性ミスセンス遺伝子配列バリアントはHGMDから得たものであり(n=63,363)、良性ミスセンス遺伝子配列バリアントは、0.05以上0.95未満である導出対立遺伝子発生頻度によって選別したものである(n=20,133)。曲線下面積(AUC)値が、データセットブートストラップサンプリングによって生成されたAUCについて95%信頼区間と共に示されている。
詳細な説明
本開示は、試験遺伝子配列バリアントの病原性を予測する方法を提供する。本明細書に記載されている一部の実施形態では、方法は、試験遺伝子配列バリアントの病原性を予測するためのコンピュータ実装方法である。本開示は、機械学習モデルを訓練データに基づいて訓練する方法であって、ラベル付き良性遺伝子配列バリアントを含む第1のデータセットと、良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含むラベルなし遺伝子配列バリアントを含む第2のデータセットとを含む方法をさらに提供する。本開示は、機械学習モデルを訓練データに基づいて訓練する方法であって、ラベル付き良性遺伝子配列バリアントを含む第1のデータセットと、ラベルなし良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含むシミュレートされた遺伝子配列バリアントを含む第2のデータセットとを含む方法も提供する。本明細書に記載の方法のいずれかを実行するための、コンピュータで実行可能な指示を含む非一過性のコンピュータ可読メモリ媒体も本明細書において提示される。
1つまたは複数のプロセッサ、メモリ、および1つまたは複数のプログラムを含むコンピュータシステムであって、1つまたは複数のプログラムが、メモリ内に記憶されており、1つまたは複数のプロセッサによって実行されるように構成されており、1つまたは複数のプログラムが、本明細書に開示されている方法のいずれかを実行するための指示を含む、コンピュータシステムもさらに提供される。
費用効果が大きいDNA配列決定の最近の発展により、遺伝子配列バリアントについての対象の個別化されたゲノムスクリーニングが可能になっている。個体由来の遺伝子配列バリアントが決定されれば、これは、その遺伝子配列バリアントが病原性である尤度がどのくらいであるかを臨床医に知らせるのに役立つ。しかし、個々の遺伝子配列バリアントからは、その遺伝子配列バリアントについて病原性の尤度を決定するために十分な情報はもたらされない。他の公知の遺伝子配列バリアントとの直接比較は、例えば対象の遺伝子配列バリアントが独特のものである場合、一般に役に立たない。そのような独特の遺伝子配列バリアントは、一般に、病原性の尤度が決定される代わりに、意義不明のバリアントに分類されており、それにより、遺伝子配列バリアントデータが未活用になっている。本明細書において提示されるシステムおよび方法は、訓練された機械学習モデルを利用することによる対象の遺伝子配列バリアントの病原性の予測を提供する。
事前病原性予測モデルの訓練における重要な難題は、確認バイアスである。完全教師あり(supervised)モデリングシステムは、ラベル付き(または「既知の」)良性遺伝子配列バリアント訓練データセットおよびラベル付き病原性遺伝子配列バリアント訓練データセットに依拠する。しかし、それらの病原性に起因して、既知の病原性遺伝子配列バリアントは、一般には発生頻度が低く獲得することが難しい。さらに、既知の病原性遺伝子配列バリアントは、より容易に同定されるバリアントであり、データベースにおいて病原性遺伝子配列バリアントの集団全体に対して不適切に富化される。これは、より大きなデータセットを訓練することが必要なアンサンブル型モデル(複数のサブモデルからのアノテーションをプールおよび重み付けする)に関して特に問題となる。
半教師あり(semi−superviesed)訓練方法を使用して病原性予測モデルを訓練することにより、試験遺伝子配列バリアントの病原性を予測するための、より良好なモデルがもたらされることが見出されており、本明細書に記載されている。半教師あり訓練方法は、ラベル付き良性遺伝子配列バリアント訓練データセットおよびラベルなし遺伝子配列バリアント訓練データセットに依拠する。さらに、このモデルでは、ラベルなし遺伝子配列バリアント訓練データセットを良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物として扱う。ラベルなし遺伝子配列バリアントは病原性を決定するために臨床試験を必要としないので、この訓練方法により、病原性を予測するために有用な機械学習モデルを訓練するのに十分に大きな訓練データセットがもたらされる。さらに、この方法では、データセットの各成分がラベル付き良性遺伝子配列バリアントデータセットから本質的に区別可能であると仮定せずに、ラベルなし遺伝子配列バリアントを良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物として適正に扱う。
本明細書に記載の病原性を予測するための方法は、広範囲の遺伝子配列バリアント型に対して使用することができる。一部の実施形態では、機械学習モデルは、広範囲の遺伝子配列バリアント型を含む遺伝子配列バリアントデータセットを使用して訓練され、任意の遺伝子配列バリアントを有する試験遺伝子配列バリアントにおいて病原性を予測するために有用である。一部の実施形態では、方法は、特定の遺伝子配列バリアント型または限られた範囲の遺伝子配列バリアント型に対してより特化されたものである。そのような特化された方法では、機械学習モデルは、限られた数の遺伝子配列バリアント型を含む遺伝子配列バリアント訓練セットを使用して訓練され、そのような遺伝子配列バリアント型のうちの1つを含む試験遺伝子配列バリアントの病原性を予測するために有用である。
本開示および実施例の以下の説明では、実施することができる特定の実施例を例示する添付の図面を参照する。本開示の範囲から逸脱することなく、他の実施例を実施することができ、また、構造的に変化させることができることが理解されるべきである。
機械学習モデルを、訓練データを使用して半教師ありプロセスで訓練する。訓練データは、ラベル付き良性遺伝子配列バリアントを含む第1のデータセットと、良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含むラベルなし遺伝子配列バリアントを含む第2のデータセットとを含む。一部の実施形態では、ラベルなし遺伝子配列バリアントはシミュレートされる。一部の実施形態では、方法は、機械学習モデルを本明細書に記載の訓練データに基づいて訓練するステップ、遺伝子配列バリアントに1つまたは複数の特徴をアノテートするステップ、および訓練後に、機械学習モデルに基づいて、試験遺伝子配列バリアントが病原性である確率を予測するステップを含む。一部の実施形態では、方法はコンピュータ実装方法である。一部の実施形態では、少なくとも1つのプロセッサおよびメモリを有する電子デバイスにおいて、コンピュータ実装方法を実施する。
訓練データ内の遺伝子配列バリアントに本明細書に記載の1つまたは複数の特徴をアノテートする。特徴により各遺伝子配列バリアントにスコアを割り当て、次いで、それを使用して機械学習モデルを訓練する。次いで、同じ特徴を使用して試験遺伝子配列バリアントにアノテートし、その結果、試験遺伝子配列バリアントの病原性を、訓練された機械学習モデルから予測することができる。一部の実施形態では、方法は、試験遺伝子配列バリアントに1つまたは複数の特徴をアノテートするステップおよび訓練された機械学習モデルに基づいて、試験遺伝子配列バリアントが病原性である確率を予測するステップであって、機械学習モデルが、本明細書に記載の訓練データに基づいて訓練される、ステップを含む。一部の実施形態では、機械学習モデル半教師ありプロセスで訓練される。一部の実施形態では、方法はコンピュータ実装方法である。一部の実施形態では、コンピュータ実装方法は、少なくとも1つのプロセッサおよびメモリを含む電子デバイスにおいて実施される。
本明細書に記載の実施形態の一部では、方法は、ラベル付き良性遺伝子配列バリアントを含む第1のデータセットと、良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含むラベルなし遺伝子配列バリアントを含む第2のデータセットを含む訓練データを受信するステップ;第1のデータセットおよび第2のデータセット内の各遺伝子配列バリアントに1つまたは複数の特徴をアノテートするステップ;訓練データに基づいて機械学習モデルを訓練するステップ;試験遺伝子配列バリアントに1つまたは複数の特徴をアノテートするステップ;および訓練後に、機械学習モデルに基づいて、試験遺伝子配列バリアントが病原性である確率を予測するステップを含む。一部の実施形態では、方法は、試験遺伝子配列バリアントを受信するステップをさらに含む。一部の実施形態では、機械学習モデル半教師ありプロセスで訓練される。一部の実施形態では、方法はコンピュータ実装方法である。一部の実施形態では、コンピュータ実装方法は、少なくとも1つのプロセッサおよびメモリを含む電子デバイスにおいて実施される。
本明細書に記載の実施形態の一部では、機械学習モデルを本明細書に記載の訓練データに基づいて訓練するステップ、遺伝子配列バリアントに1つまたは複数の特徴をアノテートするステップ;および訓練後に、機械学習モデルに基づいて、試験遺伝子配列バリアントが病原性である確率を予測するステップを含む。一部の実施形態では、機械学習モデル半教師ありプロセスで訓練される。一部の実施形態では、方法はコンピュータ実装方法である。一部の実施形態では、コンピュータ実装方法は、少なくとも1つのプロセッサおよびメモリを含む電子デバイスにおいて実施される。
本明細書に記載の実施形態の一部では、方法は、訓練データを生成するステップをさらに含む。
本明細書に記載の実施形態の一部では、訓練データは、ラベル付き良性遺伝子配列バリアントを含む第1のデータセットと、ラベルなし遺伝子配列バリアントを含む第2のデータセットとを含む。一部の実施形態では、ラベルなし遺伝子配列バリアントは、良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含む。一部の実施形態では、ラベルなし遺伝子配列バリアントは、シミュレートされた遺伝子配列バリアントである。一部の実施形態では、シミュレートされた遺伝子配列バリアントは、ランダムにシミュレートされた遺伝子配列バリアントである。一部の実施形態では、ラベル付き良性遺伝子配列バリアントは、選択された集団において、90%超の対立遺伝子発生頻度を有する。一部の実施形態では、第1のデータセットおよび第2のデータ内の遺伝子配列バリアントに1つまたは複数の特徴をアノテートする。一部の実施形態では、試験遺伝子配列バリアントは、ミスセンス遺伝子配列バリアント、ナンセンス遺伝子配列バリアント、スプライス部位遺伝子配列バリアント、挿入遺伝子配列バリアント、欠失遺伝子配列バリアント、または調節エレメント遺伝子配列バリアントを含む。
一部の実施形態では、機械学習モデルにより、試験遺伝子配列バリアントを良性クラスターまたは病原性クラスターに割り当てる。一部の実施形態では、良性クラスターは、複数の良性サブクラスターを含む。一部の実施形態では、病原性クラスターは、複数の病原性サブクラスターを含む。一部の実施形態では、試験遺伝子配列バリアントはヒト試験遺伝子配列バリアントである。
一部の実施形態では、機械学習モデルは、生成モデルを含む。一部の実施形態では、生成モデルは、生成的混合モデルである。一部の実施形態では、生成モデルは、1つまたは複数の特徴によって指定される1つまたは複数の確率分布に依拠する。一部の実施形態では、1つまたは複数の特徴は、条件付き独立確率分布を含む。一部の実施形態では、1つまたは複数の確率分布は複数のノードを含み、これらのノードは不連続的特徴または連続的特徴を含み、不連続的特徴はディリクレ条件付き独立確率分布を含み、連続的特徴はガウス条件付き独立確率分布を含む。一部の実施形態では、機械学習モデルは、識別モデルを含む。一部の実施形態では、機械学習モデルは、サポートベクトルマシンを含まない。
一部の実施形態では、半教師ありプロセスを期待値最大化によって実施する。一部の実施形態では、訓練は、訓練データ内の各遺伝子配列バリアントを良性クラスターまたは病原性クラスターに割り当てることを含む。一部の実施形態では、訓練は、良性クラスターについての1つまたは複数の学習パラメータをn回の訓練後に固定し、病原性クラスターについての1つまたは複数の学習パラメータを(n+x)(式中、nおよびxは正の整数である)回の訓練にわたって変動させることを含む。一部の実施形態では、良性クラスターについての1つまたは複数の学習パラメータを1回の訓練後に固定する。一部の実施形態では、良性クラスターは、複数の良性サブクラスターを含む。一部の実施形態では、病原性クラスターは、複数の病原性サブクラスターを含む。
一部の実施形態では、特徴は、同義の遺伝子配列バリアント、ミスセンス遺伝子配列バリアント、ナンセンス遺伝子配列バリアント、フレームシフト遺伝子配列(例えば、挿入遺伝子配列バリアントまたは欠失遺伝子配列バリアントなど)、スプライス部位遺伝子配列バリアント(例えば、標準的なスプライス部位遺伝子配列バリアントまたは非標準的なスプライス部位遺伝子配列バリアントなど)、コード領域内の遺伝子配列バリアント、イントロン領域内の遺伝子配列バリアント、プロモーター領域内の遺伝子配列バリアント、エンハンサー領域内の遺伝子配列バリアント、3’−非翻訳領域(3’−UTR)内の遺伝子配列バリアント、5’−非翻訳領域(5’−UTR)内の遺伝子配列バリアント、遺伝子間領域内の遺伝子配列バリアント、進化的保存、調節エレメント解析、または機能的ゲノム解析に基づいて定義された特徴を含む。
方法アーキテクチャ
図1は、少なくとも1つのプロセッサおよびプロセスを実行するための指示が記憶されたメモリを有する電子デバイスによって行うことができる典型的方法を含めた本発明の一実施形態を例示する図である。ステップ100において、方法は、機械学習モデルの訓練に使用するための訓練データを受信することを含む。訓練データは、第1のデータセット105および第2のデータセット110を含む。第1のデータセット105は、ラベル付き良性遺伝子配列バリアントを含む。第2のデータセット110はラベルなし遺伝子配列バリアントを含み、ラベルなし遺伝子配列バリアントは良性遺伝子配列バリアント115と病原性遺伝子配列バリアント120の混合物を含む。ステップ125において、プロセスでは、第1のデータセット105および第2のデータセット110に1つまたは複数の特徴130をアノテートする。135において、機械学習モデルを訓練データ(例えば、データセット105およびデータセット110)に基づいて、半教師ありプロセスで訓練する。一部の実施形態では、140の矢印によって示されるように、訓練ステップ135を反復して実施する。ステップ145において、電子デバイスは1つまたは複数の試験遺伝子配列バリアント150を受信する。次いで、ステップ155において、1つまたは複数の試験遺伝子配列バリアント150に1つまたは複数の特徴130をアノテートする。ステップ160において、訓練後の機械学習モデル135に基づいて出力スコアを生成する。一部の実施形態では、出力スコアは、試験遺伝子配列バリアントが病原性である確率に関する。
コンピュータシステム
図2は、試験遺伝子配列バリアントの病原性を予測するための種々の例示的なプロセスを含めた本明細書に記載のプロセスのいずれか1つを実施するように構成された例示的なコンピュータシステムを示す。この文脈において、コンピュータシステムは、例えば、プロセッサ、メモリ、ストレージ、および入力/出力デバイス(例えば、モニタ、キーボード、ディスクドライブ、インターネット接続)を含み得る。しかしながら、コンピュータシステムは、プロセスの一部または全てを実行するための回路または他の専門のハードウェアを含み得る。一部の操作環境において、コンピュータシステムは、1つまたは複数のユニットを含み、各ユニットがソフトウェア、ハードウェアまたはそれらの一部の組合せのいずれかのプロセスの一部の態様を実行するように構成される、システムとして構成され得る。
図2は、本明細書に記載のプロセスを実施するために使用され得る多くの構成部分を備えるコンピュータシステム200を記述する。メインシステム202は、入力/出力(「I/O」)セクション206、1つまたは複数の中央処理ユニット(「CPU」)208、およびメモリセクション210を有するマザーボード204を含み、それは、関連するフラッシュメモリカード212を有し得る。I/Oセクション206は、ディスプレイ224、キーボード214、ディスクストレージユニット216および媒体ドライブユニット218に接続される。媒体ドライブユニット218は、コンピュータ可読メモリ媒体220を読み取り/書き込みが可能で、プログラム222および/またはデータを含み得る。
本明細書に記載のプロセスの結果に基づく少なくとも一部の値は、後の使用のために保存され得る。加えて、非一過性のコンピュータ可読メモリ媒体が、コンピュータによる上述のプロセスのうちのいずれか1つを実施するための1つまたは複数のコンピュータプログラムを記憶する(例えば、有形に具現化する)ために使用され得る。コンピュータプログラムは、例えば、汎用プログラミング言語(例えば、Pascal、C、C++、Java(登録商標)、Python、JSONなど)またはある特殊用途専用言語で書きこまれ得る。
訓練データ
本明細書に記載の方法において、機械学習モデルを訓練するために訓練データを使用する。例示的なシステムおよび方法では、遺伝子配列バリアント訓練データセットを使用して、半教師あり生成モデルを訓練する。遺伝子配列バリアント訓練データセットは、ラベル付き良性遺伝子配列バリアントデータセットおよびラベルなし遺伝子配列バリアントデータセットを含む。ラベル付き良性遺伝子配列バリアントデータは、良性であることが分かっている遺伝子配列バリアントを含む。ラベルなし遺伝子配列バリアントデータセットは、病原性が分かっていない遺伝子配列バリアントを含む。遺伝子配列バリアントは、本明細書に記載の特徴を使用してアノテートし、機械学習モデルを訓練するために使用する。機械学習モデルでは、特徴を使用してラベルなし遺伝子配列バリアントデータセット内の各遺伝子配列バリアントを病原性クラスターまたは良性クラスターに割り当て、モデルパラメータを反復して算出することによって機械学習モデルを訓練する。
一部の実施形態では、ラベル付き良性遺伝子配列バリアントデータセットは、導出対立遺伝子発生頻度が高い遺伝子配列バリアントを含む。導出対立遺伝子発生頻度が高い遺伝子配列バリアントは、それらの進化的保存に起因して、良性であると仮定される。一部の実施形態では、対立遺伝子発生頻度が高い遺伝子配列バリアントの導出対立遺伝子発生頻度は、0.9またはそれ超(例えば、0.92またはそれ超、0.95またはそれ超、0.97またはそれ超、または0.99またはそれ超など)である。一部の実施形態では、導出対立遺伝子発生頻度をランダムな集団または標的集団から決定する。標的集団の例としては、男性集団または女性集団が挙げられるが、他の標的集団も意図されている。一部の実施形態では、集団は、ヒト集団である。一部の実施形態では、ラベル付き良性遺伝子配列バリアントデータセットは、100,000またはそれ超の遺伝子配列バリアント(例えば、200,000またはそれ超の遺伝子配列バリアント、300,000またはそれ超の遺伝子配列バリアント、500,000またはそれ超の遺伝子配列バリアント、750,000またはそれ超の遺伝子配列バリアント、1,000,000またはそれ超の遺伝子配列バリアント、1,250,000またはそれ超の遺伝子配列バリアント、1,500,000またはそれ超の遺伝子配列バリアント、または2,000,000またはそれ超の遺伝子配列バリアントなど)を含む。ラベル付き良性遺伝子配列バリアントデータセットは、例えば、バリアントを1000 Genomes Project(1000G)(Abecasisら、Nature、491巻(7422号):56〜65頁(2012年)に記載)から選別することによって得ることができる。
一部の実施形態では、ラベルなし遺伝子配列バリアントデータセットは、遺伝子座をin silicoで突然変異させた(例えば、本明細書に記載のコンピュータ可読指示を実行する1つまたは複数のプロセッサによって)、シミュレートされた遺伝子配列バリアントを含む。シミュレートされた遺伝子配列バリアントは、例えば、スライディングウィンドウ、例えば1.1Mbウィンドウ内の局所突然変異率に応じて遺伝子配列内の塩基を突然変異させることによって生成することができる。局所突然変異率は、例えば、種のゲノムを推定される進化的祖先と比較することによって決定することができ、例えば、ヒトゲノムを推定ヒト−チンパンジー祖先と比較することができる。次いで、遺伝子配列内の塩基を、ゲノム全体にわたって決定された置換行列(substitution matrix)に応じて変化させることができる。シミュレートされた遺伝子配列バリアントを生成するための典型的方法の1つは、CADDバリアントシミュレーションソフトウェア(その開示がこれによって参照により組み込まれる、Kircherら、Nature Genetics、46巻(3号):310〜5頁(2014年)に記載されている)である。本明細書に記載の方法の実施形態のいくつかにおいて、ラベルなしシミュレートされた遺伝子配列バリアントデータセットは、良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含む。
一部の実施形態では、遺伝子配列バリアント訓練データセットは、広範囲の遺伝子配列バリアント型に由来する遺伝子配列バリアントを含む。例えば、一部の実施形態では、遺伝子配列バリアント訓練データセットは、ミスセンス突然変異、ナンセンス突然変異、フレームシフト遺伝子配列バリアント(例えば、挿入遺伝子配列バリアントまたは欠失遺伝子配列バリアントなど)、スプライス部位遺伝子配列バリアント(例えば、標準的なスプライス部位遺伝子配列バリアントまたは非標準的なスプライス部位遺伝子配列バリアントなど))、コード領域バリアント、イントロン領域バリアント、プロモーター領域バリアント、エンハンサー領域バリアント、3’−非翻訳領域(3’−UTR)バリアント、5’−非翻訳領域(5’−UTR)バリアント、遺伝子間領域バリアント、優性遺伝子配列バリアント、劣性遺伝子配列バリアント、または機能喪失(LoF)遺伝子配列バリアントを有する遺伝子配列バリアントを含む。一部の実施形態では、ラベル付き良性遺伝子配列データセットとラベルなし遺伝子配列データセットはどちらも広範囲の遺伝子配列バリアント型を含む。
本明細書において提示される方法は、機械学習モデルを訓練するために使用される遺伝子配列バリアント訓練データセットに基づいて、広範な目的の病原性予測方法または特化された病原性予測方法であり得る。例えば、一部の実施形態では、機械学習モデルを、広範囲の遺伝子配列バリアント型を含む遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、方法は、単一の遺伝子配列バリアント型または遺伝子配列バリアント型のサブセットにおいて病原性を予測することに特化されたものである。例えば、一部の実施形態では、機械学習モデルを、ミスセンス突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、ミスセンス突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、ミスセンス突然変異を含む試験遺伝子配列バリアントの病原性を予測する。一部の実施形態では、機械学習モデルを、遺伝子配列バリアント型のサブセット、例えば、ミスセンス遺伝子配列バリアント、ナンセンス遺伝子配列バリアント、およびフレームシフト遺伝子配列バリアントに関して訓練する。特化された機械学習モデルを訓練するために有用な遺伝子配列バリアント訓練データセットは、同じ遺伝子配列バリアント型のサブセットを有するラベル付き良性遺伝子配列バリアントデータセットとラベルなし遺伝子配列バリアントデータセット(任意選択で、シミュレートされたラベルなし遺伝子配列バリアントデータセットである)を含む。
一部の実施形態では、機械学習モデルを、ミスセンス突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、ミスセンス突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、ミスセンス突然変異を含む試験遺伝子配列バリアントの病原性を予測する。一部の実施形態では、機械学習モデルを、ミスセンス突然変異を有する遺伝子配列バリアントからなる遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、ミスセンス突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、ミスセンス突然変異を含む試験遺伝子配列バリアントの病原性を予測する。
一部の実施形態では、機械学習モデルを、ナンセンス突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、ナンセンス突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、ナンセンス突然変異を含む試験遺伝子配列バリアントの病原性を予測する。一部の実施形態では、機械学習モデルを、ナンセンス突然変異を有する遺伝子配列バリアントからなる遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、ナンセンス突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、ナンセンス突然変異を含む試験遺伝子配列バリアントの病原性を予測する。
一部の実施形態では、機械学習モデルを、フレームシフト突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、フレームシフト突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、フレームシフト突然変異を含む試験遺伝子配列バリアントの病原性を予測する。一部の実施形態では、機械学習モデルを、フレームシフト突然変異を有する遺伝子配列バリアントからなる遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、フレームシフト突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、フレームシフト突然変異を含む試験遺伝子配列バリアントの病原性を予測する。
一部の実施形態では、機械学習モデルを、スプライス部位突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、スプライス部位突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、スプライス部位突然変異を含む試験遺伝子配列バリアントの病原性を予測する。一部の実施形態では、機械学習モデルを、スプライス部位突然変異を有する遺伝子配列バリアントからなる遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、スプライス部位突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、スプライス部位突然変異を含む試験遺伝子配列バリアントの病原性を予測する。
一部の実施形態では、機械学習モデルを、コード領域中の突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、コード領域中の突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、コード領域中の突然変異を含む試験遺伝子配列バリアントの病原性を予測する。一部の実施形態では、機械学習モデルを、コード領域中の突然変異を有する遺伝子配列バリアントからなる遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、コード領域中の突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、コード領域中の突然変異を含む試験遺伝子配列バリアントの病原性を予測する。
一部の実施形態では、機械学習モデルを、イントロン領域中の突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、イントロン領域中の突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、イントロン領域中の突然変異を含む試験遺伝子配列バリアントの病原性を予測する。一部の実施形態では、機械学習モデルを、イントロン領域中の突然変異を有する遺伝子配列バリアントからなる遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、イントロン領域中の突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、イントロン領域中の突然変異を含む試験遺伝子配列バリアントの病原性を予測する。
一部の実施形態では、機械学習モデルを、プロモーター領域中の突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、プロモーター領域中の突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、プロモーター領域中の突然変異を含む試験遺伝子配列バリアントの病原性を予測する。一部の実施形態では、機械学習モデルを、プロモーター領域中の突然変異を有する遺伝子配列バリアントからなる遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、プロモーター領域中の突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、プロモーター領域中の突然変異を含む試験遺伝子配列バリアントの病原性を予測する。
一部の実施形態では、機械学習モデルを、エンハンサー領域中の突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、エンハンサー領域中の突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、エンハンサー領域中の突然変異を含む試験遺伝子配列バリアントの病原性を予測する。一部の実施形態では、機械学習モデルを、エンハンサー領域中の突然変異を有する遺伝子配列バリアントからなる遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、エンハンサー領域中の突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、エンハンサー領域中の突然変異を含む試験遺伝子配列バリアントの病原性を予測する。
一部の実施形態では、機械学習モデルを、3’−非翻訳領域(3’−UTR)中の突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、3’−非翻訳領域(3’−UTR)中の突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、3’−非翻訳領域(3’−UTR)中の突然変異を含む試験遺伝子配列バリアントの病原性を予測する。一部の実施形態では、機械学習モデルを、3’−非翻訳領域(3’−UTR)中の突然変異を有する遺伝子配列バリアントからなる遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、3’−非翻訳領域(3’−UTR)中の突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、3’−非翻訳領域(3’−UTR)中の突然変異を含む試験遺伝子配列バリアントの病原性を予測する。
一部の実施形態では、機械学習モデルを、5’−非翻訳領域(5’−UTR)中の突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、5’−非翻訳領域(5’−UTR)中の突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、5’−非翻訳領域(5’−UTR)中の突然変異を含む試験遺伝子配列バリアントの病原性を予測する。一部の実施形態では、機械学習モデルを、5’−非翻訳領域(5’−UTR)中の突然変異を有する遺伝子配列バリアントからなる遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、5’−非翻訳領域(5’−UTR)中の突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、5’−非翻訳領域(5’−UTR)中の突然変異を含む試験遺伝子配列バリアントの病原性を予測する。
一部の実施形態では、機械学習モデルを、遺伝子間領域中の突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、遺伝子間領域中の突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、遺伝子間領域中の突然変異を含む試験遺伝子配列バリアントの病原性を予測する。一部の実施形態では、機械学習モデルを、遺伝子間領域中の突然変異を有する遺伝子配列バリアントからなる遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、遺伝子間領域中の突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、遺伝子間領域中の突然変異を含む試験遺伝子配列バリアントの病原性を予測する。
一部の実施形態では、機械学習モデルを、優性遺伝子中の突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、優性遺伝子中の突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、優性遺伝子中の突然変異を含む試験遺伝子配列バリアントの病原性を予測する。一部の実施形態では、機械学習モデルを、優性遺伝子中の突然変異を有する遺伝子配列バリアントからなる遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、優性遺伝子中の突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、優性遺伝子中の突然変異を含む試験遺伝子配列バリアントの病原性を予測する。
一部の実施形態では、機械学習モデルを、劣勢遺伝子中の突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、劣勢遺伝子中の突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、劣勢遺伝子中の突然変異を含む試験遺伝子配列バリアントの病原性を予測する。一部の実施形態では、機械学習モデルを、劣勢遺伝子中の突然変異を有する遺伝子配列バリアントからなる遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、劣勢遺伝子中の突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、劣勢遺伝子中の突然変異を含む試験遺伝子配列バリアントの病原性を予測する。
一部の実施形態では、機械学習モデルを、機能喪失突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、機能喪失突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、機能喪失突然変異を含む試験遺伝子配列バリアントの病原性を予測する。一部の実施形態では、機械学習モデルを、機能喪失突然変異を有する遺伝子配列バリアントからなる遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、機能喪失突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、機能喪失突然変異を含む試験遺伝子配列バリアントの病原性を予測する。
一部の実施形態では、遺伝子配列バリアント訓練データセット(既知の良性遺伝子配列バリアントデータセットおよびシミュレートされた遺伝子配列バリアントデータセットを含む)内の各遺伝子配列バリアントは、本明細書に開示されている方法を使用して1つまたは複数の特徴によってアノテートする。
遺伝子配列バリアントの特徴アノテーション
本明細書に開示されている方法の一部の実施形態では、例示的なシステムおよび方法では、訓練遺伝子配列バリアントに1つまたは複数の特徴をアノテートする。特徴は、遺伝子配列バリアントの性質を特徴付けるために使用され、それらとして、例えば、配列保存、ミスセンス遺伝子配列バリアント、スプライス部位遺伝子配列バリアント、または調節エレメントに基づいて定義されるスコアを挙げることができる。一部の実施形態では、ラベル付き良性遺伝子配列バリアントデータセット内の遺伝子配列バリアントまたはラベルなし遺伝子配列バリアントデータセット内の遺伝子配列バリアントに1つまたは複数の特徴をアノテートする。一部の実施形態では、試験遺伝子配列バリアントに1つまたは複数の特徴をアノテートする。
一部の実施形態では、特徴のうちの1つまたは複数は、遺伝子配列バリアントの遺伝学的結果(例えば、同義の遺伝子配列バリアント、ミスセンス遺伝子配列バリアント、ナンセンス遺伝子配列バリアント、フレームシフト遺伝子配列バリアント(例えば、挿入遺伝子配列バリアントまたは欠失遺伝子配列バリアントなど)、またはスプライス部位遺伝子配列バリアント(例えば、標準的なスプライス部位遺伝子配列バリアントまたは非標準的なスプライス部位遺伝子配列バリアントなど)など)または遺伝子配列バリアントのゲノム領域(例えば、コード領域内の遺伝子配列バリアント、例えばイントロン領域内の遺伝子配列バリアント、プロモーター領域内の遺伝子配列バリアント、エンハンサー領域内の遺伝子配列バリアント、3’−非翻訳領域(3’−UTR)内の遺伝子配列バリアント、5’−非翻訳領域(5’−UTR)内の遺伝子配列バリアント、または遺伝子間領域内の遺伝子配列バリアントなど)などのカテゴリー的な特徴である。一部の実施形態では、特徴のうちの1つまたは複数は、タンパク質機能(例えば、SIFTスコア)または進化的保存(例えば、PhyloPスコアまたはPhastConsスコア)に影響を及ぼす突然変異の確率などの数値スコアである。
特徴はベクトルスコアまたはスカラースコアであり得る。例えば、一部の実施形態では、ベクトルスコアは、脊椎動物全てにわたる進化的保存、哺乳動物全てにわたる進化的保存、または霊長類全てにわたる進化的保存などの、多数のレベルの進化的保存のベクトルである。一部の実施形態では、特徴の一部がベクトルスコアである。一部の実施形態では、特徴の一部がスカラースコアである。
一部の実施形態では、特徴は、バリアント型(例えば、同義の遺伝子配列バリアント、ミスセンス遺伝子配列バリアント、ナンセンス遺伝子配列バリアント、フレームシフト遺伝子配列(挿入遺伝子配列バリアントまたは欠失遺伝子配列バリアントなど)、スプライス部位遺伝子配列バリアント(標準的なスプライス部位遺伝子配列バリアントまたは非標準的なスプライス部位遺伝子配列バリアントなど)、コード領域内の遺伝子配列バリアント、例えばイントロン領域内の遺伝子配列バリアント、プロモーター領域内の遺伝子配列バリアント、エンハンサー領域内の遺伝子配列バリアント、3’−非翻訳領域(3’−UTR)内の遺伝子配列バリアント、5’−非翻訳領域(5’−UTR)内の遺伝子配列バリアント、遺伝子間領域内の遺伝子配列バリアント、進化的保存、調節エレメント解析、または機能的ゲノム解析)に基づいて定義される。
一部の実施形態では、ミスセンスバリアントに基づいて定義される特徴は、コード領域内の配列相同性を使用して、遺伝子配列バリアント内のミスセンスバリアントがどのくらい破壊的であり得るかを決定することによって生成される。ミスセンスバリアントに基づいて定義される特徴を生成するために有用な方法の例としては、SIFT(NgおよびHenikoff、Nucleic Acids Research、31巻(13号):3812〜4頁(2003年)およびKumarら、Nat. Protoc. 4巻(7号):1073〜81頁(2009年)に記載されている)およびPolyPhen2(Adzhubeiら、Nature Methods、7巻(4号):248〜9頁(2010年)に記載されている)が挙げられる。一部の実施形態では、フレームシフト遺伝子配列バリアントに基づいて定義される特徴は、コード領域内の配列相同性を使用して、フレームシフト遺伝子配列バリアントがどのくらい破壊的であり得るかを決定することによって生成される。フレームシフト遺伝子配列バリアントに基づいて定義される特徴を生成するために有用な方法の例としては、PROVEAN(Choiら、PLoS ONE、7巻(10号)(2012年)に記載されている)およびSIFT Indel(HuおよびNg、PLoS ONE、8巻(10号)(2013年)に記載されている)が挙げられる。一部の実施形態では、ミスセンス遺伝子配列バリアントまたはフレームシフト遺伝子配列バリアントに基づいて定義される特徴は、確率モデルを使用して遺伝子配列バリアントをスコア化することによって生成される。確率スコアに基づいて定義される特徴を生成するために有用な方法の例としては、LRT(ChunおよびFay、Genome Research、19巻(9号):1553〜61頁(2009年)に記載されている)およびMAPP(StoneおよびSidow、Genome Research、15巻(7号):978〜86頁(2005年)に記載されている)が挙げられる。一部の実施形態では、ナンセンスバリアントに基づいて定義される特徴は、コード領域内の配列相同性を使用して、遺伝子配列バリアント内のナンセンスバリアントがどのくらい破壊的であり得るかを決定することによって生成される。
一部の実施形態では、スプライス部位遺伝子配列バリアントに基づいて定義される特徴は、所与の遺伝子配列バリアントによって転写物のスプライシングが変化することの予測される確率を使用して生成される。異常なスプライシングにより、非常に小さなヌクレオチドの変化で下流のタンパク質に対する大きな影響が生じる可能性があり、それにより、病原性遺伝子配列バリアントがもたらされる可能性がある。スプライス部位バリアントに基づいて定義される特徴を生成するために有用な方法の例としては、MutPred Splice(Mortら、Genome Biology、15巻(1号):R19頁(2014年)に記載されている)、Human Splicing Finder(HSF)(Desmetら、Nucleic Acids Research、37巻(9号):e67頁(2009年)に記載されている)、MaxEntScan(YeoおよびBurge、Journal of Computational Biology、11巻(2〜3号):337〜394頁(2004年)に記載されている)、およびNNSplice(Reeseら、Journal of Computational Biology、4巻(3号):311〜323頁(1997年)に記載されている)が挙げられる。
一部の実施形態では、遺伝子配列バリアントの進化的保存に基づいて定義される特徴は、遺伝子配列バリアントが、予測される進化の期間にわたって保存されているまたは負の選択下にある部位を破壊するものであるかどうかを予測することによって生成される。進化的保存に基づいて定義される特徴を生成するために有用な方法の例としては、GERP(Davydovら、PLoS Computational Biology、6巻(12号)(2010年)に記載されている)、PhastCons(Siepelら、Genome Research、15巻(8号):1034〜1050頁(2005年)に記載されている)、PhyloP(Pollardら、Genome Research、20巻(1号):110〜21頁(2010年)に記載されている)、verPhyloP(PhyloPと類似しているが、脊椎動物の配列に依拠するものである)、およびverPhastCons(PhastConsと類似しているが、脊椎動物の配列に依拠するものである)が挙げられる。
一部の実施形態では、遺伝子配列バリアントの機能的ゲノム解析に基づいて定義される特徴は、遺伝子配列バリアントの位置および配列とアノテートされた機能的ゲノム領域の位置を比較することによって生成される。例えば、一部の実施形態では、機能的アノテーション特徴は、所与の遺伝子配列バリアントがゲノム内のエンハンサー領域もしくはプロモーター領域、または他の調節エレメントに影響を及ぼす確率を評価するものである。例えば、ENCODE(Bernsteinら、Nature、489巻(7414号):57〜74頁(2012年)に記載されている)およびEpigenome Roadmap(Kundajeら、Nature、518巻(7539号):317〜330頁(2015年)に記載されている)プロジェクトは、ゲノムの異なる領域の相対的な機能性に関する情報を提供するものである。遺伝子配列バリアントの機能的ゲノム解析に基づいて定義される特徴を生成するために有用な方法の例としては、ChromHMM(ErnstおよびKellis、Nature methods、9巻(3号):215〜6頁(2014年)に記載されている)、SegWay(Hoffmanら、Nature Methods、9巻(5号):473〜6頁(2012年)に記載されている)、およびFitCons(Gulkoら、Nature Genetics、47巻(3号):276〜283頁(2015年))が挙げられる。
本明細書に記載の方法により、特徴のアンサンブルを有する遺伝子配列バリアントにアノテートすることが可能になる。一部の実施形態では、遺伝子配列バリアントに1またはそれ超(例えば、2またはそれ超、3またはそれ超、4またはそれ超、5またはそれ超、6またはそれ超、7またはそれ超、8またはそれ超、9またはそれ超、10またはそれ超、12またはそれ超、15またはそれ超、20またはそれ超、25またはそれ超、30またはそれ超、40またはそれ超、50またはそれ超、または60またはそれ超など)の特徴をアノテートする。配列は、例えば、McLarenら、Bioinformatics、26巻(16号):2069〜70頁(2010年)に記載されているEnsembl’s Variant Effect Predictorを使用してアノテートすることができる。一部の実施形態では、遺伝子配列バリアントの一部には、1つまたは複数の特徴をアノテートすることができない。一部の実施形態では、そのような欠損データは生成モデルに組み込まない。表1に、開示されている方法の一部の実施形態において使用することができる特徴の例および説明を提示する。
遺伝子配列バリアントについての機械学習モデル
ラベル付き良性遺伝子配列バリアントデータセットおよびラベルなし遺伝子配列バリアントデータセットを含む遺伝子配列バリアント訓練データセットに、本明細書に記載の1つまたは複数の特徴をアノテートし、それを使用して機械学習モデルを半教師ありプロセスで訓練する。一部の実施形態では、機械学習モデルは、生成的混合モデルなどの生成モデルである。しかし、機械学習モデルが識別モデルであることも意図されている。一部の実施形態では、機械学習モデルは、識別モデルを含む。一部の実施形態では、機械学習モデルは、サポートベクトルマシンを含まない。遺伝子配列バリアント訓練データセット内の各アノテートされた遺伝子配列バリアントを、算出されたモデルパラメータに基づいて、良性クラスターまたは病原性クラスターのいずれかに割り当てる。一般に、モデルパラメータは、期待値最大化アルゴリズムを使用して、遺伝子配列バリアント訓練データセットの正確なクラスター割り当ての確率が収束するまで反復して算出する。次いで、算出されたパラメータを固定し、訓練された機械学習モデルによって使用する。次いで、病原性クラスターまたは良性クラスターへの正確な割り当ての確率を決定することによって試験遺伝子配列バリアントが病原性である確率を予測するために、訓練された機械学習モデルを使用する。
機械学習モデルにより、遺伝子配列バリアント訓練データセット内の各遺伝子配列バリアントが病原性クラスターまたは良性クラスターのいずれかに当てはまることが仮定され、機械学習モデルにおいて隠れ変数クラスター割り当てによって表される。一部の実施形態では、機械学習モデルにより、遺伝子配列バリアント訓練データセット内の各遺伝子配列バリアントが複数の病原性クラスター(もしくは「病原性サブクラスター」)または複数の良性クラスター(もしくは「良性サブクラスター」)に当てはまることが仮定され、機械学習モデルにおいて隠れ変数クラスター割り当てとして表される。各遺伝子配列バリアントにはまた、本明細書に記載の複数の独立した特徴もアノテートされる。これらの特徴はそれぞれ、それらのクラスター割り当てから条件付きで独立した独自の確率分布を有する。さらに、パラメータ行列から引き出されたパラメータに従って各特徴の確率分布を算出する。各遺伝子配列バリアントの特徴アノテーションが遺伝子配列バリアントのクラスター割り当てに当てはまる最大尤度に基づいて、パラメータを反復して更新する。次いで、各遺伝子配列バリアントについてのクラスター割り当てを、特徴および算出されたパラメータに基づいて多項分布を生成することによって算出し、遺伝子配列バリアント訓練データセットについての正確なクラスター割り当ての確率を算出する。最初のパラメータは、ラベル付き良性遺伝子配列バリアントデータセット内の遺伝子配列バリアントを良性クラスターに制限することによって決定する。一部の実施形態では、パラメータを、例えば、期待値最大化アルゴリズムを使用することにより、遺伝子配列バリアントの良性クラスターまたは病原性クラスターのいずれかへの正確な割り当ての確率が収束するまで反復して決定する。この反復的な算出の間、ラベル付き良性遺伝子配列バリアントデータセット内の遺伝子配列バリアントは良性クラスターに制限し、ラベルなし遺伝子配列バリアントデータセット内の遺伝子配列バリアントは、生成モデルに基づく任意のクラスターへの割り当てを許容する。
図3は、本明細書に記載のプロセスに有用な生成モデルの一実施形態を例示する図である。生成モデルは、本明細書において提示される方程式によってさらに記載される。遺伝子配列バリアント訓練データセットは、
として表され、xは任意の所与の遺伝子配列バリアントを表す。各遺伝子配列バリアントは、隠れ変数、Zによって表されるクラスター割り当てを有する。一部の実施形態では、クラスター割り当ては、病原性クラスターまたは良性クラスターである。一部の実施形態では、クラスター割り当ては、複数の病原性サブクラスター内のサブクラスターまたは複数の良性サブクラスター内のサブクラスターへのものである。遺伝子配列バリアント訓練データセット内の各遺伝子配列バリアントにD特徴をアノテートし、したがって、
である。1つまたは複数の特徴のそれぞれは、任意の所与の遺伝子配列バリアントについて、クラスター割り当てZを考慮して、条件付きで独立したものである。さらに、1つまたは複数の特徴のそれぞれは、学習パラメータ行列θから引き出される、各クラスター(良性クラスターもしくは病原性クラスターのいずれか)またはサブクラスターについての学習パラメータを有し、したがって、1つまたは複数の特徴のそれぞれは、確率分布
を有する。各クラスターZについての多項分布を、πに対するディリクレ事前分布を伴うパラメータπおよびハイパーパラメータαを用いて仮定する。
一部の実施形態では、単変量ガウス分布または多項分布をD特徴のそれぞれに割り当てる。一部の実施形態では、遺伝子配列バリアントの多数の特徴をベクトルに群分けし、多変量ガウス分布を複合特徴ベクトルに割り当てる。多数の特徴を、多変量ガウス分布を有する複合特徴ベクトルに群分けすることは、ナイーブなベイズ仮説の影響を軽減するのに役立つ。
一部の実施形態では、パラメータπおよびθを反復して決定し、遺伝子配列バリアントの正確なクラスター割り当てZの確率を算出するために、期待値最大化アルゴリズムを使用する。期待値最大化アルゴリズムは、任意の所与の遺伝子配列バリアントが、パラメータのセットを考慮してクラスターに適正に割り当てられる確率を算出する第1の期待値ステップ、および、パラメータを更新してより高い正確なクラスター割り当ての確率を得る第2の最大化ステップに依拠するものである。正確なクラスター割り当ての確率が収束するまで、第1のステップおよび第2のステップを反復して進行させる。
一部の実施形態では、各ラベル付き良性遺伝子配列バリアントデータセット内の遺伝子配列バリアントについてクラスター割り当てZを良性クラスターとして固定することによって良性クラスターについてのパラメータπおよびθの最初の推定値を定義するために、ラベル付き良性遺伝子配列バリアントデータセットを使用する。一部の実施形態では、次いで、良性クラスターについてのこれらのパラメータπおよびθセットの最初の推定値を、病原性クラスターについての最初のパラメータπおよびθのために使用した。次いで、ラベルなし合成遺伝子配列バリアントデータセットについて、良性クラスターまたは病原性クラスターのいずれかへのソフトクラスター割り当てZを行った。生成モデルの最初の当てはめ後(すなわち、最初の良性クラスターについてのパラメータπおよびθの訓練および決定を1回行った後)、良性クラスターについてのパラメータπおよびθを固定し、病原性クラスターについてのパラメータπおよびθを更新した。一部の実施形態では、良性クラスターについての学習パラメータを2回またはそれ超の訓練後に固定し、病原性クラスターについての学習パラメータを更新させた。例えば、一部の実施形態では、良性クラスターについての1つまたは複数の学習パラメータをn回の訓練後に固定し、病原性クラスターについての学習パラメータを(n+x)(式中、nおよびxは正の整数である)回の訓練にわたって更新させた。
一部の実施形態では、各回の訓練中、期待値最大化アルゴリズムにより、各遺伝子配列バリアントについての隠れ変数Zの事後確率を反復して算出し、データの尤度を最大にするために、ソフトクラスター割り当てZを考慮して病原性クラスターについてのパラメータπおよびθの値を更新する。
以下は、本明細書に記載のプロセスに有用であり得る例示的な期待値最大化アルゴリズムである。病原性クラスターについてのパラメータπおよびθを、各回の訓練tについて、同じく各回の訓練tについて更新する単変量ガウス特徴確率分布、多項特徴確率分布、および/または多変量ガウス特徴確率分布に基づいて更新した。
パラメータπ=[π,π,...,π]を、病原性クラスターについて、各回の訓練について更新した:
特徴が単変量ガウス分布を有する場合、特徴を、クラスター割り当てZ=aおよび特徴j=bとして、
によって更新する。
特徴が多項分布を有する場合、クラスター割り当てZ=aおよび特徴j=bとして、学習パラメータベクトルの各成分ベクトルについての更新
ab=[pab0,pab1,...,pabL]は、
である。
特徴が多変量ガウスを有する場合、特徴を、クラスター割り当てZ=aおよび特徴j=bとして、
によって更新する。
一部の実施形態では、遺伝子配列バリアント訓練データセットの一部には、1つまたは複数の特徴をアノテートすることができず、その結果、欠損特徴がもたらされる。これは、特徴がゲノムのある特定の領域においてのみ定義されることに大きく起因する。例えば、いくつかの特徴はミスセンスバリアントに基づいてのみ定義され、また、全ての遺伝子配列バリアントがミスセンスバリアントを含むとは限らない。したがって、一部の実施形態では、ベイズ法様式で欠損特徴を説明するために、特定の遺伝子配列バリアントには存在しない特徴は組み込まない。多変量ガウス学習パラメータも、各ベクトルスコアについての平均ベクトルおよび共分散行列を算出することによって更新する。しかし、一部の場合では、1つまたは複数の欠損特徴により、非半正定値共分散行列がもたらされる。一部の実施形態では、行列の固有分解を計算し、負の固有値をわずかに正の数に設定し、行列を半正定値共分散行列として再作成することにより、非半正定値共分散行列を修正する。
図4は、期待値最大化アルゴリズムを使用して、生成機械学習モデルを本明細書に記載の遺伝子配列バリアントデータセットに基づいて訓練するプロセスの一実施形態を例示する図である。遺伝子配列バリアントデータセットは、ラベル付き良性遺伝子配列バリアントデータセットおよびラベルなし遺伝子配列バリアントデータセットを含む。ステップ400において、遺伝子配列バリアント訓練データセット内の各遺伝子配列バリアントに複数の特徴をアノテートする。ステップ405において、複数の特徴のうちの各特徴を特徴確率分布に割り当てる。一部の実施形態では、確率分布は、単変量ガウス確率分布または多項確率分布である。任意選択で、多数の特徴をベクトルに群分けし、ベクトルを多変量ガウス確率分布に割り当てる。ステップ410において、ラベル付き遺伝子配列バリアントデータセット内の各遺伝子配列バリアントを多項確率分布によって定義される良性クラスターに割り当てる。ステップ415において、各特徴をパラメータ行列からの良性クラスターについての第1のパラメータに割り当て、したがって、各特徴確率分布は、良性クラスター割り当てに関連する。ステップ420において、良性クラスター割り当てを定義する多項確率分布を、ディリクレ事前分布およびハイパーパラメータを有する良性クラスターについての第2のパラメータに割り当てる。ステップ415において割り当てられた第1のパラメータおよびステップ420において割り当てられた第2のパラメータはどちらも、パラメータの最尤推定値に基づいて、特徴確率分布およびラベル付き遺伝子配列バリアントデータセット内の各遺伝子配列バリアントの良性クラスターへの既知の割り当てを考慮して算出される。ステップ425において、病原性クラスターについての第1のパラメータを良性クラスターについての第1のパラメータに対して設定する。ステップ430において、病原性クラスターについての第2のパラメータを良性クラスターの第2のパラメータに対して設定する。ステップ435において、ラベルなし合成遺伝子配列バリアントデータセット内の各遺伝子配列バリアントに、良性クラスターについての第2のパラメータを有する、良性クラスターを定義する多項分布、または病原性クラスターについての第2のパラメータを有する、病原性クラスターを定義する多項分布に基づいて、良性クラスターまたは病原性クラスターへのソフト割り当てをもたらす。良性クラスターを定義する多項分布と病原性クラスターを定義する多項分布はどちらも、多項分布に対するディリクレ事前分布および多項分布に共通するハイパーパラメータを含む。ステップ440において、遺伝子配列バリアントの良性クラスターまたは病原性クラスターへの正確な割り当ての事後確率を算出する。ステップ445において、病原性クラスターについての第1のパラメータ、病原性クラスターについての第2のパラメータ、およびその特徴確率分布を更新して遺伝子配列バリアント訓練データセット内の各遺伝子配列バリアントの特徴アノテーションの尤度を最大にする。良性クラスターについての第1のパラメータおよび良性クラスターについての第2のパラメータはステップ445では更新しない。遺伝子配列バリアント訓練データセット内の各遺伝子配列バリアントの特徴アノテーションの尤度が収束するまで、ステップ435、440、および445を反復して繰り返す。一部の実施形態では、記載のステップを代替的な順序で実施することができることが理解される。例えば、ステップ415およびステップ420を同時に実施することもでき、ステップ415をステップ420の前に実施することもでき、またはステップ420をステップ415の前に実施することもできることが理解される。
遺伝子配列バリアントの試験
遺伝子配列バリアント訓練データセットを使用して機械学習モデルを訓練したら、最後の反復によって決定されたパラメータπおよびθを固定した。一部の実施形態では、本明細書に記載の訓練された機械学習モデルを試験遺伝子配列バリアントに適用して出力スコアを得る。出力スコアにより、試験遺伝子配列バリアントが病原性である確率が予測される。一部の実施形態では、訓練された学習モデルに試験遺伝子配列バリアントを受信させる。一部の実施形態では、訓練された学習モデルにより、試験遺伝子配列バリアントのクラスターのそれぞれ(良性クラスターまたは病原性クラスター)への割り当てについての事後確率を算出する。
一部の実施形態では、試験遺伝子配列バリアントは、任意の生物体に由来する試験遺伝子配列バリアントである。一部の実施形態では、試験遺伝子配列バリアントは、霊長類の試験遺伝子配列バリアント、齧歯類の試験遺伝子配列バリアント、魚類の遺伝子配列バリアント、ショウジョウバエの遺伝子配列バリアント、原核生物の遺伝子配列バリアント、酵母の遺伝子配列バリアント、線形動物の遺伝子配列バリアント、または植物の遺伝子配列バリアントである。
種々の例示的実施形態が、本明細書に記載される。これらの実施例は、非限定的意味で参照される。それらは、公開された本技術のより広く適用できる側面を例証するために提供される。種々の実施形態の厳密な精神および範囲から逸脱することなく、種々の変更がなされ、また、均等物が代用されてよい。加えて、多くの修正が、特定の状況、材料、組成物、プロセス、プロセス行為、またはステップを、種々の実施形態の目的、精神、または範囲に適合させるためになされてよい。さらに、当業者によって理解されるであろうように、本明細書に記載および例証される個々の変形例はそれぞれ、種々の実施形態の範囲または精神から逸脱することなく、任意の他のいくつかの実施形態の特徴から容易に分離されてよい、またはそれらと併用されてよい個別の構成要素および特徴を有する。全てのそのような修正は、本開示と関連付けられる請求項の範囲内であることが意図される。
(実施例1)
訓練データ、機械学習モデルの訓練、および訓練された機械学習モデルの試験
図5Aは、本発明の例示的な一実施形態を例示する。少なくとも1つのプロセッサおよびメモリを有する電子デバイスにおいて、機械学習モデルを訓練データに基づいて訓練する。訓練データは、ラベル付き良性遺伝子配列バリアントデータセットおよびラベルなし遺伝子配列バリアントデータセットを含む。図5Aにおいて例示されているように、ラベル付き良性データセットは、1000 Genomics projectから、データベースを、発生頻度が高いことから良性であると仮定される、導出対立遺伝子発生頻度(DAF)が95%を超える遺伝子配列バリアントについて選別することによって得た。ラベル付き良性データセットは881,924種の遺伝子配列バリアントを有するものであった。ラベルなし遺伝子配列バリアントデータセットを、スライドする1.1Mbウィンドウにおける局所突然変異率に応じて遺伝子座を突然変異させるCADDのバリアントシミュレーションソフトウェアを使用してシミュレートした。ヒトゲノムと推定ヒト−チンパンジー祖先を比較することによって突然変異率を得、ゲノム全体にわたる置換行列に従って塩基を変化させた。ラベルなし遺伝子配列バリアントデータセットは、1,405,358種の遺伝子配列バリアントを有し、良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物であると仮定されるものであった。ラベル付き良性遺伝子配列バリアントデータセットおよびラベルなし遺伝子配列バリアントデータセットに、表1に列挙されている特徴をアノテートした。次いで、アノテートされた訓練データにより、本明細書に記載の機械学習モデルを訓練した(図5Aにおいて「訓練」と表示されている)。シミュレートされた遺伝子配列バリアントをラベルなしデータとして扱うことにより、機械学習モデルは、明示的な病原性遺伝子配列バリアント訓練データセットを必要とせずに、良性遺伝子配列バリアントおよび病原性遺伝子配列バリアントの分布を学習する。図5Bでは、ラベルなし遺伝子配列バリアントが、学習モデルの上位2つの主要な成分として投影された(主成分分析(PCA)を使用する)カーネル密度としてプロットされている(等高線を使用する)。
図5Aにおいてさらに例示されている通り、訓練された機械学習モデルを試験するために、遺伝子配列バリアント試験データセットを病原性クラスターと良性クラスターに分別した。ゲノム配列バリアント試験データセットは、既知の病原性配列バリアント試験データセットおよび既知の良性配列バリアント試験データセットを含むものであった。図5Aにおいて例示されているように、既知の病原性配列バリアント試験データセットは、Human Gene Mutation Database(HGMD)(2013年2月、Professional Edition、Stensonら、Human mutation、21巻(6号):577〜81頁(2003年)に記載)から得た。既知の良性配列バリアント試験データセットは、1000 Genomes Project(1000G)から、0.05以上0.95未満である導出対立遺伝子発生頻度によって選別したゲノム配列バリアントを選別することによって得た。次いで、訓練された機械学習モデルを既知の病原性遺伝子配列バリアントデータセットおよび既知の良性遺伝子配列バリアントに割り当てた。図5Bにおいて例示されているように、既知の良性遺伝子配列バリアントデータセットおよび既知の病原性遺伝子配列バリアントデータセットの両方からの遺伝子配列バリアントのランダムなサブセットをプロットし、別個のクラスターに十分に分離した。同様に、ランダムにシミュレートした非標準的なスプライス遺伝子配列バリアントのサブセット(図5C)またはランダムにシミュレートした遺伝子間遺伝子配列バリアント、調節遺伝子配列バリアント、もしくはイントロン遺伝子配列バリアントのサブセット(図5D)をプロットし、十分に分離し、別個のクラスターまたはサブクラスターを観察する。
(実施例2)
突然変異機械学習モデルの半教師ありクラスタリングと以前の方法の比較
本明細書に記載の方法は、配列バリアントの病原性の予測に関して、以前から公知の方法と比較してより性能が良い。「SSCM−Pathogenic」として図6A、6B、7A、7B、8、および10において表示され、本明細書に記載されている本明細書に記載の方法の一実施形態の性能を、CADD(Kircherら、Nature Genetics、46巻(3号):310〜5頁(2014年)に記載されている)および他の公知の方法を含めた、遺伝子配列バリアント病原性スコアを生成する公知の方法と比較した。
本明細書に記載の方法の一実施形態の概念実証として、遺伝子配列バリアント試験データセットを病原性クラスターと良性クラスターに分別した。遺伝子配列バリアント試験データセットは、既知の病原性遺伝子配列バリアント試験データセットおよび既知の良性遺伝子配列バリアント試験データセットを含むものであった。単に例として、既知の病原性遺伝子配列バリアント試験データセットをHGMDまたはClinVarデータベース(2014年2月時点、Baker、Nature、491巻(7423号):171頁(2012年)に記載されている)から得た。単に例として、良性遺伝子配列バリアント試験データセットを、1000Gから、0.05以上0.95未満である導出対立遺伝子発生頻度によって選別したゲノム配列バリアントを選別することによって得た。別の例では、良性配列バリアント試験データセットをMacArthurら、Science、335巻(6070号):823〜8頁(2012年)に記載されている機能喪失(LoF)−耐容性遺伝子配列バリアントから得ることができる。
本明細書に記載の方法の実施形態(例えば、SSCM−Pathogenic)についての、他の方法と比較した、受信者動作特性(ROC)についての曲線下面積(AUC)値により、本開示の方法の高性能が実証される。ROCにより、本方法の特異度および感度の増大が実証される。表2に、ミスセンスSNP遺伝子配列バリアント、および非標準スプライス変化遺伝子配列バリアントを含めた種々のバリアントクラスに対するSSCM−PathogenicおよびCADDのROCについてのAUC値の比較を要約する。表2において見ることができるように、SSCM−Pathogenicは、各試験されたデータベースについて、試験された遺伝子配列バリアントのそれぞれについて、CADDよりも優れている。
ミスセンスバリアント。ミスセンスバリアントは、タンパク質機能を破壊する可能性があるが、病原性であるとは限らず、良性であるとも限らない。本明細書に開示されている方法では、病原性ミスセンス遺伝子配列バリアントと良性ミスセンス遺伝子配列バリアントをより良好に区別することができる。図6Aおよび6Bにおいて例示され、さらに表3に示されている通り、本明細書に開示されている方法の一実施形態(例えば、SSCM−Pathogenic)は、受信者動作特性についてのAUC値によって決定される通り、病原性ミスセンス遺伝子配列バリアント(HGMDから得たもの(n=63,363;図6A)またはClinVarから得たもの(n=18,783;図6B))と良性ミスセンス遺伝子配列バリアント(1000Gから得たもの(n=20,133))区別することにおいて、CADD、SIFT、PolyPhen2、VerpHyloPおよびVerPhastConsよりも性能が良い。
非標準スプライスバリアント。本明細書に開示されている方法は、病原性非標準スプライス遺伝子配列バリアントと良性非標準スプライス遺伝子配列バリアントをより良好に区別することができる。図7Aおよび7Bにおいて例示され、さらに表4に示されている通り、本明細書に開示されている方法の一実施形態(例えば、SSCM−Pathogenic)は、受信者動作特性についてのAUC値によって決定される通り、病原性非標準スプライス遺伝子配列バリアント(HGMDから得たもの(n=2,658;図7A)またはClinVarから得たもの(n=290;図7B))と良性非標準スプライス遺伝子配列バリアント(1000Gから得たもの(n=6,158))を区別することにおいて、CADD、HSF、NNSplice、およびMaxEntよりも性能が良い。
病原性非標準スプライス遺伝子配列バリアントと良性非標準スプライス遺伝子配列バリアントを区別することにおける典型的方法(例えば、SSCM−Pathogenic)の高性能は、一部において、この例示的なモデルでは進化的保存スコアと組み合わせてスプライシングスコアを含め、適切に重み付けすることに起因する。図8は、スプライシング特徴を含むものか含まないものである、本発明の2つの典型的方法の示差的な性能を例示する図である。
非コード領域。非コード領域における遺伝子配列バリアントの病原性を予測することは、先行方法では特に困難であった。本明細書に記載の方法の一部の実施形態では、方法は、1つまたは複数のENCODE特徴を使用して遺伝子配列バリアントにアノテートするものである。ENCODE特徴は、突然変異により病原性遺伝子配列バリアントがもたらされる可能性がある活性なエンハンサーまたはプロモーター領域が予測されるように設計される。ENCODE特徴の例としては、H3K27Ac、H3K4Me3、およびH3K4Meが挙げられる。
本明細書に開示されている方法の一部の実施形態(例えば、SCCM−Pathogenic)では、非コード領域における遺伝子配列バリアントの病原性が首尾よく予測される。一部の実施形態では、本明細書に記載されている方法は、3’−UTR、5’−UTR、イントロン領域、または遺伝子間領域における遺伝子配列バリアントの病原性を予測するものである。これらの結果を図9に例示する。
(実施例3)
突然変異機械学習モデルの半教師ありクラスタリングと教師あり機械学習モデルの比較
本明細書に開示されている方法の例示的な一実施形態(例えば、SSCM−Pathogenic)を教師あり機械学習モデルと比較した。教師あり機械学習モデルでは、例示的なモデルと同じ特徴を使用したが、教師あり機械学習モデルでは、ラベル付き良性遺伝子配列バリアント訓練データセット(1000Gから得たもの(n=20,133))およびラベル付き病原性遺伝子配列バリアント訓練データセット(HGMDから得たもの(n=63,363))を使用して訓練した。対照的に、例示的な機械学習モデル(SSCM−Pathogenic)は、ラベル付き良性遺伝子配列バリアント訓練データセットおよび良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含むラベルなし遺伝子配列バリアントデータセットを使用して訓練した。
教師あり機械学習モデルおよび例示的なモデル(SSCM−Pathogenic)を試験するために、モデルを、ClinVarミスセンス遺伝子配列バリアントおよびスプライス遺伝子配列バリアントを含む遺伝子配列バリアント試験データセットを使用して試験した。訓練中に使用したClinVar遺伝子配列バリアントとHGMD病原性遺伝子配列バリアントの全体的な類似性から、この訓練モデルの性能は例示的なモデル(SSCM−Pathogenic)と同様に良好であるか、またはわずかにより良好であることが予測された。図10は、これらの結果を例示する図である。
教師ありモデルのさらなる調査により、過剰適合の典型である、分散がより低く極端なスコアがより多い分布が明らかになった。これにより、過剰適合が、教師あり機械訓練モデルを試験データセットと同様の訓練データセットで訓練することに伴う固有の問題としてさらに実証される。
例示的な実施形態
以下は、本発明の例示的な実施形態である:
実施形態1
試験遺伝子配列バリアントの病原性を予測するためのコンピュータ実装方法であって、
少なくとも1つのプロセッサおよびメモリを有する電子デバイスにおいて、
(a)ラベル付き良性遺伝子配列バリアントを含む第1のデータセットと、
良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含むラベルなし遺伝子配列バリアントを含む第2のデータセットとを
含む訓練データを受信するステップ;
(b)第1のデータセットおよび第2のデータセット内の各遺伝子配列バリアントに1つまたは複数の特徴をアノテートするステップ;
(c)機械学習モデルを訓練データに基づいて訓練するステップであって、機械学習モデルが半教師ありプロセスで訓練されるステップ;
(d)試験遺伝子配列バリアントに1つまたは複数の特徴をアノテートするステップ;ならびに
(e)訓練後に、機械学習モデルに基づいて、試験遺伝子配列バリアントが病原性である確率を予測するステップ
を含む方法。
実施形態2
試験遺伝子配列バリアントの病原性を予測するためのコンピュータ実装方法であって、
少なくとも1つのプロセッサおよびメモリを有する電子デバイスにおいて、
(a)機械学習モデルを訓練データに基づいて訓練するステップであって、機械学習モデルが半教師ありプロセスで訓練され、前記訓練データは、ラベル付き良性遺伝子配列バリアントを含む第1のデータセットと、良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含むラベルなし遺伝子配列バリアントを含む第2のデータセットとを含み、前記第1のデータセットおよび前記第2のデータセット内の各バリアントに1つまたは複数の特徴をアノテートするステップ;
(b)試験遺伝子配列バリアントに1つまたは複数の特徴をアノテートするステップ;ならびに
(c)訓練後に、機械学習モデルに基づいて、試験遺伝子配列バリアントが病原性である確率を予測するステップ
を含む方法。
実施形態3
試験遺伝子配列バリアントの病原性を予測するための方法であって、
(a)機械学習モデルを訓練データに基づいて訓練するステップであって、機械学習モデルが半教師ありプロセスで訓練され、前記訓練データは、ラベル付き良性遺伝子配列バリアントを含む第1のデータセットと、良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含むラベルなし遺伝子配列バリアントを含む第2のデータセットとを含み、前記第1のデータセットおよび前記第2のデータセット内の各バリアントに1つまたは複数の特徴をアノテートするステップ;
(b)試験遺伝子配列バリアントに1つまたは複数の特徴をアノテートするステップ;ならびに
(c)訓練後に、機械学習モデルに基づいて、試験遺伝子配列バリアントが病原性である確率を予測するステップ
を含む方法。
実施形態4
試験遺伝子配列バリアントの病原性を予測するための方法であって、
(a)試験遺伝子配列バリアントに1つまたは複数の特徴をアノテートするステップ;および
(b)訓練された機械学習モデルに基づいて、試験遺伝子配列バリアントが病原性である確率を予測するステップであって、機械学習モデルが、訓練データに基づいて半教師ありプロセスで訓練され、訓練データが、ラベル付き良性遺伝子配列バリアントを含む第1のデータセットと、良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含むラベルなし遺伝子配列バリアントを含む第2のデータセットとを含み;第1のデータセットおよび第2のデータセット内の各遺伝子配列バリアントに1つまたは複数の特徴がアノテートされる、ステップ
を含む方法。
実施形態5
試験遺伝子配列バリアントの病原性を予測するための方法であって、
(a)学習モデルを訓練データに基づいて訓練するステップであって、学習モデルが半教師ありプロセスで訓練され、訓練データが、ラベル付き良性遺伝子配列バリアントを含む第1のデータセットと、良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含むラベルなし遺伝子配列バリアントを含む第2のデータセットとを含み、第1のデータセットおよび第2のデータセット内の各バリアントに1つまたは複数の特徴がアノテートされる、ステップ;
(b)試験遺伝子配列バリアントに1つまたは複数の特徴をアノテートするステップ;および
(c)訓練後に、学習モデルに基づいて、試験遺伝子配列バリアントが病原性である確率を予測するステップ
を含む方法。
実施形態6
試験遺伝子配列バリアントの病原性を予測するための方法であって、
(a)試験遺伝子配列バリアントに1つまたは複数の特徴をアノテートするステップ;および
(b)訓練された学習モデルに基づいて試験遺伝子配列バリアントが病原性である確率を予測するステップであって、学習モデルが、訓練データに基づいて半教師ありプロセスで訓練され、訓練データが、ラベル付き良性遺伝子配列バリアントを含む第1のデータセットと、良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含むラベルなし遺伝子配列バリアントを含む第2のデータセットとを含み、第1のデータセットおよび第2のデータセット内の各遺伝子配列バリアントに1つまたは複数の特徴がアノテートされる、ステップ
を含む方法。
実施形態7
訓練データを生成するステップをさらに含む、実施形態1から6までのいずれか1つに記載の方法。
実施形態8
前記機械学習モデルがサポートベクターを含まない、実施形態1から7のいずれか1つに記載の方法。
実施形態9
前記機械学習モデルが生成モデルを含む、実施形態1から8のいずれか1つに記載の方法。
実施形態10
前記生成モデルが生成的混合モデルである、実施形態9に記載の方法。
実施形態11
前記生成モデルが1つまたは複数の特徴によって指定される1つまたは複数の確率分布に依拠する、実施形態9または10に記載の方法。
実施形態12
前記1つまたは複数の特徴が条件付き独立確率分布を含む、実施形態1から11のいずれか1つに記載の方法。
実施形態13
前記1つまたは複数の確率分布は複数のノードを含み、前記ノードは不連続的特徴または連続的特徴を含み、ここで、前記不連続的特徴はディリクレ条件付き独立確率分布を含み、前記連続的特徴はガウス条件付き独立確率分布を含む、実施形態11または12に記載の方法。
実施形態14
前記機械学習モデルが識別モデルを含む、実施形態1から13のいずれか1つに記載の方法。
実施形態15
前記半教師ありプロセスが期待値最大化によって実施される、実施形態1から14のいずれか1つに記載の方法。
実施形態16
前記訓練するステップは、前記訓練データ内の各遺伝子配列バリアントを良性クラスターまたは病原性クラスターに割り当てるステップを含む、実施形態1から15のいずれか1つに記載の方法。
実施形態17
前記訓練するステップが、
良性クラスターについての1つまたは複数の学習パラメータをn回の訓練後に固定するステップ;および
病原性クラスターについての1つまたは複数の学習パラメータを(n+x)(式中、nおよびxは正の整数である)回の訓練にわたって変動させるステップ
を含む、実施形態16に記載の方法。
実施形態18
前記良性クラスターについての前記1つまたは複数の学習パラメータが1回の訓練後に固定される、実施形態17に記載の方法。
実施形態19
前記機械学習モデルが、前記試験遺伝子配列バリアントを良性クラスターまたは病原性クラスターに割り当てる、実施形態1から18のいずれか1つに記載の方法。
実施形態20
前記良性クラスターが、複数の良性サブクラスターを含む、実施形態16から19のいずれか1つに記載の方法。
実施形態21
前記病原性クラスターが、複数の病原性サブクラスターを含む、実施形態16から20のいずれか1つに記載の方法。
実施形態22
前記ラベル付き良性遺伝子配列バリアントが、選択された集団において、90%超の対立遺伝子発生頻度を有する、実施形態1から21のいずれか1つに記載の方法。
実施形態23
前記ラベルなし遺伝子配列バリアントが、シミュレートされた遺伝子配列バリアントである、実施形態1から22のいずれか1つに記載の方法。
実施形態24
前記試験遺伝子配列バリアントは、ヒト遺伝子配列バリアントである、実施形態1から23のいずれか1つに記載の方法。
実施形態25
前記1つまたは複数の特徴は、進化的保存スコア、ミスセンスバリアントスコア、挿入バリアントスコア、欠失バリアントスコア、スプライス部位バリアントスコア、または調節スコアに基づいて定義される特徴を含む、実施形態1から24のいずれか1つに記載の方法。
実施形態26
前記試験遺伝子配列バリアントは、ミスセンス遺伝子配列バリアント、ナンセンス遺伝子配列バリアント、スプライス部位遺伝子配列バリアント、挿入遺伝子配列バリアント、欠失遺伝子配列バリアント、または調節エレメント遺伝子配列バリアントを含む、実施形態1から25のいずれか1つに記載の方法。
実施形態27
前記訓練データは、ミスセンス遺伝子配列バリアント、ナンセンス遺伝子配列バリアント、スプライス部位遺伝子配列バリアント、挿入遺伝子配列バリアント、欠失遺伝子配列バリアント、または調節エレメント遺伝子配列バリアントを含む、実施形態1から26のいずれか1つに記載の方法。
実施形態28
実施形態1から27のいずれかを実行するための、コンピュータで実行可能な指示を含む非一過性のコンピュータ可読メモリ媒体。
実施形態29
1つまたは複数のプロセッサ、
メモリ、および
1つまたは複数のプログラムを含むシステムであって、前記1つまたは複数のプログラムが、前記メモリ内に記憶されており、前記1つまたは複数のプロセッサによって実行されるように構成されており、前記1つまたは複数のプログラムが、実施形態1から28のいずれかを実行するための指示を含む、システム。

Claims (29)

  1. 試験遺伝子配列バリアントの病原性を予測するためのコンピュータ実装方法であって、
    少なくとも1つのプロセッサおよびメモリを有する電子デバイスにおいて、
    (a)ラベル付き良性遺伝子配列バリアントを含む第1のデータセットと、
    ラベルなし遺伝子配列バリアントを含む第2のデータセットであって、前記ラベルなし遺伝子配列バリアントが良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含む、第2のデータセットとを
    含む訓練データを受信するステップ;
    (b)前記第1のデータセットおよび前記第2のデータセット内の各遺伝子配列バリアントに1つまたは複数の特徴をアノテートするステップ;
    (c)機械学習モデルを前記訓練データに基づいて訓練するステップであって、前記機械学習モデルが半教師ありプロセスで訓練されるステップ;
    (d)前記試験遺伝子配列バリアントに前記1つまたは複数の特徴をアノテートするステップ;ならびに
    (e)訓練後に、前記機械学習モデルに基づいて、前記試験遺伝子配列バリアントが病原性である確率を予測するステップ
    を含む方法。
  2. 試験遺伝子配列バリアントの病原性を予測するためのコンピュータ実装方法であって、
    少なくとも1つのプロセッサおよびメモリを有する電子デバイスにおいて、
    (a)機械学習モデルを訓練データに基づいて訓練するステップであって、前記機械学習モデルが半教師ありプロセスで訓練され、前記訓練データは、
    ラベル付き良性遺伝子配列バリアントを含む第1のデータセットと、
    ラベルなし遺伝子配列バリアントを含む第2のデータセットであって、前記ラベルなし遺伝子配列バリアントが良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含む、第2のデータセットとを含み、前記第1のデータセットおよび前記第2のデータセット内の各バリアントに1つまたは複数の特徴をアノテートするステップ;
    (b)前記試験遺伝子配列バリアントに前記1つまたは複数の特徴をアノテートするステップ;ならびに
    (c)訓練後に、前記機械学習モデルに基づいて、前記試験遺伝子配列バリアントが病原性である確率を予測するステップ
    を含む方法。
  3. 試験遺伝子配列バリアントの病原性を予測するための方法であって、
    (a)機械学習モデルを訓練データに基づいて訓練するステップであって、前記機械学習モデルが半教師ありプロセスで訓練され、前記訓練データは、
    ラベル付き良性遺伝子配列バリアントを含む第1のデータセットと、
    ラベルなし遺伝子配列バリアントを含む第2のデータセットであって、前記ラベルなし遺伝子配列バリアントが良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含む、第2のデータセットとを含み、前記第1のデータセットおよび前記第2のデータセット内の各バリアントに1つまたは複数の特徴をアノテートするステップ;
    (b)前記試験遺伝子配列バリアントに前記1つまたは複数の特徴をアノテートするステップ;ならびに
    (c)訓練後に、前記機械学習モデルに基づいて、前記試験遺伝子配列バリアントが病原性である確率を予測するステップ
    を含む方法。
  4. 試験遺伝子配列バリアントの病原性を予測するための方法であって、
    (a)前記試験遺伝子配列バリアントに1つまたは複数の特徴をアノテートするステップ;および
    (b)訓練された機械学習モデルに基づいて、前記試験遺伝子配列バリアントが病原性である確率を予測するステップであって、前記機械学習モデルが、訓練データに基づいて半教師ありプロセスで訓練され、前記訓練データが、
    ラベル付き良性遺伝子配列バリアントを含む第1のデータセットと、
    ラベルなし遺伝子配列バリアントを含む第2のデータセットであって、前記ラベルなし遺伝子配列バリアントが良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含む、第2のデータセットとを含み;前記第1のデータセットおよび前記第2のデータセット内の各遺伝子配列バリアントに1つまたは複数の特徴がアノテートされる、ステップ
    を含む方法。
  5. 試験遺伝子配列バリアントの病原性を予測するための方法であって、
    (a)学習モデルを訓練データに基づいて訓練するステップであって、前記学習モデルが半教師ありプロセスで訓練され、前記訓練データが、
    ラベル付き良性遺伝子配列バリアントを含む第1のデータセットと、
    ラベルなし遺伝子配列バリアントを含む第2のデータセットであって、前記ラベルなし遺伝子配列バリアントが良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含む、第2のデータセットとを含み、前記第1のデータセットおよび前記第2のデータセット内の各バリアントに1つまたは複数の特徴がアノテートされる、ステップ;
    (b)前記試験遺伝子配列バリアントに前記1つまたは複数の特徴をアノテートするステップ;および
    (c)訓練後に、前記学習モデルに基づいて、前記試験遺伝子配列バリアントが病原性である確率を予測するステップ
    を含む方法。
  6. 試験遺伝子配列バリアントの病原性を予測するための方法であって、
    (a)前記試験遺伝子配列バリアントに1つまたは複数の特徴をアノテートするステップ;および
    (b)訓練された学習モデルに基づいて前記試験遺伝子配列バリアントが病原性である確率を予測するステップであって、前記学習モデルが、訓練データに基づいて半教師ありプロセスで訓練され、前記訓練データが、
    ラベル付き良性遺伝子配列バリアントを含む第1のデータセットと、
    ラベルなし遺伝子配列バリアントを含む第2のデータセットであって、前記ラベルなし遺伝子配列バリアントが良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含む、第2のデータセットとを含み、前記第1のデータセットおよび前記第2のデータセット内の各バリアントに1つまたは複数の特徴がアノテートされる、ステップ
    を含む方法。
  7. 前記訓練データを生成するステップをさらに含む、請求項1から6のいずれか一項に記載の方法。
  8. 前記機械学習モデルがサポートベクターを含まない、請求項1から7のいずれか一項に記載の方法。
  9. 前記機械学習モデルが生成モデルを含む、請求項1から8のいずれか一項に記載の方法。
  10. 前記生成モデルが生成的混合モデルである、請求項9に記載の方法。
  11. 前記生成モデルが前記1つまたは複数の特徴によって指定される1つまたは複数の確率分布に依拠する、請求項9または10に記載の方法。
  12. 前記1つまたは複数の特徴が条件付き独立確率分布を含む、請求項1から11のいずれか一項に記載の方法。
  13. 前記1つまたは複数の確率分布は複数のノードを含み、前記ノードは不連続的特徴または連続的特徴を含み、ここで、前記不連続的特徴はディリクレ条件付き独立確率分布を含み、前記連続的特徴はガウス条件付き独立確率分布を含む、請求項11または12に記載の方法。
  14. 前記機械学習モデルが識別モデルを含む、請求項1から13のいずれか一項に記載の方法。
  15. 前記半教師ありプロセスが期待値最大化によって実施される、請求項1から14のいずれか一項に記載の方法。
  16. 前記訓練するステップは、前記訓練データ内の各遺伝子配列バリアントを良性クラスターまたは病原性クラスターに割り当てるステップを含む、請求項1から15のいずれか一項に記載の方法。
  17. 前記訓練するステップが、
    前記良性クラスターについての1つまたは複数の学習パラメータをn回の訓練後に固定するステップ;および
    前記病原性クラスターについての1つまたは複数の学習パラメータを(n+x)(式中、nおよびxは正の整数である)回の訓練にわたって変動させるステップ
    を含む、請求項16に記載の方法。
  18. 前記良性クラスターについての前記1つまたは複数の学習パラメータが1回の訓練後に固定される、請求項17に記載の方法。
  19. 前記機械学習モデルが、前記試験遺伝子配列バリアントを良性クラスターまたは病原性クラスターに割り当てる、請求項1から18のいずれか一項に記載の方法。
  20. 前記良性クラスターが、複数の良性サブクラスターを含む、請求項16から19のいずれか一項に記載の方法。
  21. 前記病原性クラスターが、複数の病原性サブクラスターを含む、請求項16から20のいずれか一項に記載の方法。
  22. 前記ラベル付き良性遺伝子配列バリアントが、選択された集団において、90%超の対立遺伝子発生頻度を有する、請求項1から21のいずれか一項に記載の方法。
  23. 前記ラベルなし遺伝子配列バリアントが、シミュレートされた遺伝子配列バリアントである、請求項1から22のいずれか一項に記載の方法。
  24. 前記試験遺伝子配列バリアントは、ヒト遺伝子配列バリアントである、請求項1から23のいずれか一項に記載の方法。
  25. 前記1つまたは複数の特徴は、進化的保存スコア、ミスセンスバリアントスコア、挿入バリアントスコア、欠失バリアントスコア、スプライス部位バリアントスコア、または調節スコアに基づいて定義される特徴を含む、請求項1から24のいずれか一項に記載の方法。
  26. 前記試験遺伝子配列バリアントは、ミスセンス遺伝子配列バリアント、ナンセンス遺伝子配列バリアント、スプライス部位遺伝子配列バリアント、挿入遺伝子配列バリアント、欠失遺伝子配列バリアント、または調節エレメント遺伝子配列バリアントを含む、請求項1から25のいずれか一項に記載の方法。
  27. 前記訓練データが、ミスセンス遺伝子配列バリアント、ナンセンス遺伝子配列バリアント、スプライス部位遺伝子配列バリアント、挿入遺伝子配列バリアント、欠失遺伝子配列バリアント、調節エレメント遺伝子配列バリアント、またはこれらの組合せを含む、請求項1から26までのいずれか一項に記載の方法。
  28. 請求項1から27のいずれかを実行するための、コンピュータで実行可能な指示を含む非一過性のコンピュータ可読メモリ媒体。
  29. 1つまたは複数のプロセッサ、
    メモリ、および
    1つまたは複数のプログラムを含むシステムであって、前記1つまたは複数のプログラムが、前記メモリ内に記憶されており、前記1つまたは複数のプロセッサによって実行されるように構成されており、前記1つまたは複数のプログラムが、請求項1から28のいずれかを実行するための指示を含む、システム。
JP2017566360A 2015-06-22 2016-06-22 遺伝子配列バリアントの病原性を予測する方法 Pending JP2018527647A (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201562183132P 2015-06-22 2015-06-22
US62/183,132 2015-06-22
US201562221487P 2015-09-21 2015-09-21
US62/221,487 2015-09-21
US201562236797P 2015-10-02 2015-10-02
US62/236,797 2015-10-02
PCT/US2016/038818 WO2016209999A1 (en) 2015-06-22 2016-06-22 Methods of predicting pathogenicity of genetic sequence variants

Publications (1)

Publication Number Publication Date
JP2018527647A true JP2018527647A (ja) 2018-09-20

Family

ID=57586323

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017566360A Pending JP2018527647A (ja) 2015-06-22 2016-06-22 遺伝子配列バリアントの病原性を予測する方法

Country Status (9)

Country Link
US (1) US20160371431A1 (ja)
EP (1) EP3311299A4 (ja)
JP (1) JP2018527647A (ja)
CN (1) CN107710185A (ja)
AU (1) AU2016284455A1 (ja)
CA (1) CA2985491A1 (ja)
HK (1) HK1250819A1 (ja)
IL (1) IL255729A (ja)
WO (1) WO2016209999A1 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020144940A (ja) * 2020-05-28 2020-09-10 株式会社テンクー プログラム、情報処理装置および情報処理方法
JP2020144658A (ja) * 2019-03-07 2020-09-10 株式会社テンクー プログラム、学習モデル、情報処理装置、情報処理方法および学習モデルの生成方法
JP2021501923A (ja) * 2018-10-15 2021-01-21 イルミナ インコーポレイテッド 深層畳み込みニューラルネットワークを事前訓練するための深層学習ベースの技術
WO2021070739A1 (ja) * 2019-10-08 2021-04-15 国立大学法人 東京大学 分析装置、分析方法及びプログラム
WO2022024221A1 (ja) * 2020-07-28 2022-02-03 株式会社テンクー プログラム、学習モデル、情報処理装置、情報処理方法および学習モデルの生成方法
JP2022518283A (ja) * 2019-11-18 2022-03-14 ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド 予測方法及び装置、電子機器並びに記憶媒体
WO2022059886A1 (ko) * 2020-09-21 2022-03-24 주식회사 쓰리빌리언 기계학습을 이용한 유전자 변이의 병원성 예측 시스템
US11315016B2 (en) 2017-10-16 2022-04-26 Illumina, Inc. Deep convolutional neural networks for variant classification
US11861491B2 (en) 2017-10-16 2024-01-02 Illumina, Inc. Deep learning-based pathogenicity classifier for promoter single nucleotide variants (pSNVs)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10395759B2 (en) 2015-05-18 2019-08-27 Regeneron Pharmaceuticals, Inc. Methods and systems for copy number variant detection
US10409791B2 (en) * 2016-08-05 2019-09-10 Intertrust Technologies Corporation Data communication and storage systems and methods
CN109952583A (zh) * 2016-11-15 2019-06-28 谷歌有限责任公司 神经网络的半监督训练
JP7429338B2 (ja) 2017-01-10 2024-02-08 ジュノー セラピューティクス インコーポレイテッド 細胞療法および関連方法のエピジェネティック解析
US11468286B2 (en) * 2017-05-30 2022-10-11 Leica Microsystems Cms Gmbh Prediction guided sequential data learning method
EP3635133A4 (en) * 2017-06-09 2021-03-03 Bellwether Bio, Inc. DETERMINATION OF THE TYPE OF CANCER IN A SUBJECT BY PROBABILISTIC MODELING OF END POINTS OF CIRCULATING NUCLEIC ACID FRAGMENT
EP3642748A4 (en) * 2017-06-19 2021-03-10 Jungla LLC INTERPRETATION OF GENETIC AND GENOMIC VARIANTS VIA AN INTEGRATED COMPUTING AND EXPERIMENTAL FRAMEWORK FOR DEEP MUTATION LEARNING
SG11201912745WA (en) * 2017-10-16 2020-01-30 Illumina Inc Deep learning-based splice site classification
US10489923B2 (en) * 2017-12-13 2019-11-26 Vaisala, Inc. Estimating conditions from observations of one instrument based on training from observations of another instrument
EP3901833A1 (en) * 2018-01-15 2021-10-27 Illumina, Inc. Deep learning-based variant classifier
US20210158895A1 (en) * 2018-04-13 2021-05-27 Dana-Farber Cancer Institute, Inc. Ultra-sensitive detection of cancer by algorithmic analysis
CN109295198A (zh) * 2018-09-03 2019-02-01 安吉康尔(深圳)科技有限公司 用于检测遗传性疾病基因变异的方法、装置及终端设备
AU2019379868B2 (en) * 2018-11-15 2022-04-14 The Sydney Children’S Hospitals Network (Randwick And Westmead) Methods of identifying genetic variants
CN109754843B (zh) * 2018-12-04 2021-02-19 志诺维思(北京)基因科技有限公司 一种探测基因组小片段插入缺失的方法及装置
CN111383721B (zh) * 2018-12-27 2020-12-15 江苏金斯瑞生物科技有限公司 预测模型的构建方法、多肽合成难度的预测方法及装置
US11210554B2 (en) 2019-03-21 2021-12-28 Illumina, Inc. Artificial intelligence-based generation of sequencing metadata
US11783917B2 (en) 2019-03-21 2023-10-10 Illumina, Inc. Artificial intelligence-based base calling
US11593649B2 (en) 2019-05-16 2023-02-28 Illumina, Inc. Base calling using convolutions
CN110189797B (zh) * 2019-06-17 2022-10-21 福建师范大学 一种基于dbn的序列错误数预测方法
CN110428897B (zh) * 2019-06-19 2022-03-18 西安电子科技大学 基于snp致病因素与疾病关联关系的疾病诊断信息处理方法
US11978537B2 (en) 2019-11-18 2024-05-07 Tata Consultancy Services Limited Method and system for predicting protein-protein interaction between host and pathogen
CN110942805A (zh) * 2019-12-11 2020-03-31 云南大学 一种基于半监督深度学习的绝缘子元件预测系统
AU2021224871A1 (en) 2020-02-20 2022-09-08 Illumina, Inc. Artificial intelligence-based many-to-many base calling
US10963792B1 (en) * 2020-03-26 2021-03-30 StradVision, Inc. Method for training deep learning network based on artificial intelligence and learning device using the same
US11574738B2 (en) 2020-04-30 2023-02-07 Optum Services (Ireland) Limited Cross-variant polygenic predictive data analysis
US11482302B2 (en) 2020-04-30 2022-10-25 Optum Services (Ireland) Limited Cross-variant polygenic predictive data analysis
US11978532B2 (en) * 2020-04-30 2024-05-07 Optum Services (Ireland) Limited Cross-variant polygenic predictive data analysis
US11967430B2 (en) 2020-04-30 2024-04-23 Optum Services (Ireland) Limited Cross-variant polygenic predictive data analysis
US11610645B2 (en) 2020-04-30 2023-03-21 Optum Services (Ireland) Limited Cross-variant polygenic predictive data analysis
CN111653313B (zh) * 2020-05-25 2022-07-29 中国人民解放军海军军医大学第三附属医院 一种变异序列的注释方法
US20230326542A1 (en) * 2020-09-14 2023-10-12 Chan Zuckerberg Biohub, Inc. Genomic sequence dataset generation
WO2022159153A1 (en) * 2021-01-25 2022-07-28 The Cleveland Clinic Foundation Methods for identification of essential sites in a protein structure
WO2022218509A1 (en) * 2021-04-13 2022-10-20 NEC Laboratories Europe GmbH A method for predicting an effect of a gene variant on an organism by means of a data processing system and a corresponding data processing system
US20220336054A1 (en) 2021-04-15 2022-10-20 Illumina, Inc. Deep Convolutional Neural Networks to Predict Variant Pathogenicity using Three-Dimensional (3D) Protein Structures
CN115547414B (zh) * 2022-10-25 2023-04-14 黑龙江金域医学检验实验室有限公司 潜在毒力因子的确定方法、装置、计算机设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8775092B2 (en) * 2007-11-21 2014-07-08 Cosmosid, Inc. Method and system for genome identification
US8744982B2 (en) * 2011-05-12 2014-06-03 University Of Utah Research Foundation Gene-specific prediction
CN103305618A (zh) * 2013-06-26 2013-09-18 北京迈基诺基因科技有限责任公司 一种遗传代谢疾病基因的筛查方法
ES2875892T3 (es) * 2013-09-20 2021-11-11 Spraying Systems Co Boquilla de pulverización para craqueo catalítico fluidizado

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11315016B2 (en) 2017-10-16 2022-04-26 Illumina, Inc. Deep convolutional neural networks for variant classification
US11861491B2 (en) 2017-10-16 2024-01-02 Illumina, Inc. Deep learning-based pathogenicity classifier for promoter single nucleotide variants (pSNVs)
US11798650B2 (en) 2017-10-16 2023-10-24 Illumina, Inc. Semi-supervised learning for training an ensemble of deep convolutional neural networks
US11386324B2 (en) 2017-10-16 2022-07-12 Illumina, Inc. Recurrent neural network-based variant pathogenicity classifier
JP2021501923A (ja) * 2018-10-15 2021-01-21 イルミナ インコーポレイテッド 深層畳み込みニューラルネットワークを事前訓練するための深層学習ベースの技術
JP2021152907A (ja) * 2018-10-15 2021-09-30 イルミナ インコーポレイテッド 位置頻度行列のオーバーフィッティングを避けるように訓練したバリアント病原性分類法
JP7200294B2 (ja) 2018-10-15 2023-01-06 イルミナ インコーポレイテッド 位置頻度行列のオーバーフィッティングを避けるように訓練したバリアント病原性分類法
JP2020144658A (ja) * 2019-03-07 2020-09-10 株式会社テンクー プログラム、学習モデル、情報処理装置、情報処理方法および学習モデルの生成方法
WO2021070739A1 (ja) * 2019-10-08 2021-04-15 国立大学法人 東京大学 分析装置、分析方法及びプログラム
JP2022518283A (ja) * 2019-11-18 2022-03-14 ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド 予測方法及び装置、電子機器並びに記憶媒体
JP2020144940A (ja) * 2020-05-28 2020-09-10 株式会社テンクー プログラム、情報処理装置および情報処理方法
WO2022024221A1 (ja) * 2020-07-28 2022-02-03 株式会社テンクー プログラム、学習モデル、情報処理装置、情報処理方法および学習モデルの生成方法
WO2022059886A1 (ko) * 2020-09-21 2022-03-24 주식회사 쓰리빌리언 기계학습을 이용한 유전자 변이의 병원성 예측 시스템

Also Published As

Publication number Publication date
HK1250819A1 (zh) 2019-01-11
CN107710185A (zh) 2018-02-16
EP3311299A4 (en) 2019-02-20
US20160371431A1 (en) 2016-12-22
AU2016284455A1 (en) 2017-11-23
CA2985491A1 (en) 2016-12-29
WO2016209999A1 (en) 2016-12-29
EP3311299A1 (en) 2018-04-25
IL255729A (en) 2018-01-31

Similar Documents

Publication Publication Date Title
JP2018527647A (ja) 遺伝子配列バリアントの病原性を予測する方法
Valentini et al. An extensive analysis of disease-gene associations using network integration and fast kernel-based gene prioritization methods
US11636951B2 (en) Systems and methods for generating a genotypic causal model of a disease state
US11670417B2 (en) Machine learning systems for processing multi-modal patient data
WO2017116817A2 (en) Testing of medicinal drugs and drug combinations
Muscat et al. FilterDCA: Interpretable supervised contact prediction using inter-domain coevolution
Li et al. Bayesian hidden Markov tree models for clustering genes with shared evolutionary history
Valentini et al. Prediction of human gene-phenotype associations by exploiting the hierarchical structure of the human phenotype ontology
Hancock et al. Boosted network classifiers for local feature selection
Majumdar et al. Leveraging eQTLs to identify individual-level tissue of interest for a complex trait
WO2020131872A1 (en) Determination of a physiological condition with nucleic acid fragment endpoints
Zablocki et al. Semiparametric covariate-modulated local false discovery rate for genome-wide association studies
Yousefi et al. Consensus clustering for robust bioinformatics analysis
Halliday et al. Gist–an ensemble approach to the taxonomic classification of metatranscriptomic sequence data
Mckeigue et al. Sparse instrumental variables (SPIV) for genome-wide studies
Perez Martell Deep learning for promoter recognition: a robust testing methodology
Balaji Santiago Segarra
Chandrashekar Fine Mapping Functional Noncoding Genetic Elements Via Machine Learning
Arbabi Machine Learning Methods for Acceleration of Rare Genetic Disease Diagnosis
Kim Multilevel Probabilistic Canonical Correlation Analysis for Integrative Analysis of Multi-Omics Data with Repeated Measurements
Mieth Combining traditional methods with novel machine learning techniques to understand the translation of genetic code into biological function
Shazadi Decision Tree in Biology
Fu Embedded Feature Selection for Model-based Clustering
Notin Deep generative models for biology: represent, predict, design
Moghimi Applications of deep learning and statistical methods for a systems understanding of convergence in immune repertoires