JP2018527647A

JP2018527647A - 遺伝子配列バリアントの病原性を予測する方法

Info

Publication number: JP2018527647A
Application number: JP2017566360A
Authority: JP
Inventors: イムランサイーダルハケ，; エリックアンドリューエバンス，; シャラドマンダヤムヴィクラム，; マシューデイビッドラスムッセン，
Original assignee: カウンシル，インコーポレイテッド
Priority date: 2015-06-22
Filing date: 2016-06-22
Publication date: 2018-09-20
Also published as: HK1250819A1; CN107710185A; EP3311299A4; US20160371431A1; AU2016284455A1; CA2985491A1; WO2016209999A1; EP3311299A1; IL255729A

Abstract

費用効果が大きいＤＮＡ配列決定の最近の発展は、遺伝子配列バリアントについての対象の個別化されたゲノムスクリーニングを可能にする。半教師あり訓練方法を使用して病原性予測モデルを訓練することは、試験遺伝子配列バリアントの病原性を予測するためのより良好なモデルを提供する。本明細書は、ラベル付き良性遺伝子配列バリアントと、良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含むラベルなし遺伝子配列バリアントとを含む訓練データセットを利用することによって試験遺伝子配列バリアントの病原性を予測する方法を提供する。遺伝子配列に１つまたは複数の特徴をアノテートし、機械学習モデルは半教師ありプロセスで訓練データに基づいて訓練される。次いで、試験遺伝子配列に１つまたは複数の特徴を使用してアノテートし、試験遺伝子配列バリアントが病原性である確率を訓練された機械学習モデルに基づいて予測する。

Description

関連出願への相互参照
本出願は、２０１５年６月２２日に出願された米国仮出願番号第６２／１８３，１３２号の：２０１５年９月２１日に出願された米国仮出願番号第６２／２２１，４８７号の；および２０１５年１０月２日に出願された米国仮出願番号第６２／２３６，７９７号の優先権の利益を主張している。これら仮出願の各々の全体の内容は、本明細書によって参考として本明細書中に援用される。

発明の分野
以下の開示は、一般に、遺伝子配列の病原性を予測すること、より詳細には、遺伝子配列バリアントの病原性を予測することに関する。

発明の背景
費用効果が大きいＤＮＡ配列決定の出現により、患者の遺伝子配列バリアントに関する高分解能の情報が診療所にもたらされ、その結果、このゲノムデータを効率的に解釈する必要性が生じている。そのような試験から、患者が自身の健康危険度を理解し、今後の治療をより良く計画することを可能にするすぐに使用可能な情報が患者に提供される。したがって、より情報価値のある利用可能な診断試験により、患者が利益を得るだけでなく、医療制度全体の効率も改善される見込みがある。伝統的に、臨床データベースおよび文献における関連する情報の形式が異なるため、多くの手動の時間のかかるプロセスによる遺伝子配列バリアントの解釈が優位を占めている。

しかし、高分解能の配列決定データは、遺伝子配列バリアントの解釈という難題を提起する。各患者において、配列決定が新しい遺伝子配列バリアントを示し、臨床医がこれらの新しく観察された遺伝子配列バリアントが病原性である可能性があるかどうかを決定しなければならない可能性がある。これらの分類から、全てのさらなるリスク算出および医学的カウンセリングが導かれる。遺伝子配列バリアントの解釈の現行の標準的方法は、広範囲にわたるデータベースおよび文献の検索、コンピュータによる方法の使用、ならびに多数回の再調査を伴う、時間のかかる、手動での多数のデータソースの組み込みに基づく。それでもなお、このプロセスでは、遺伝子配列バリアントを病原性であるか良性であるかに分類するのに十分な情報はめったに得られないことから、管理者（キュレーター）は、それを意義不明のバリアント（ＶＵＳ：ｖａｒｉａｎｔｏｆｕｎｃｅｒｔａｉｎｓｉｇｎｉｆｉｃａｎｃｅ）として分類する必要がある。ＶＵＳは、具体的な結果を望む患者の不安の種になり得る。患者に対するこの余分な負荷に起因して、ＶＵＳ分類を減少させることが最も重要な関心事になっている。

本明細書で言及される全ての刊行物の開示は、それぞれ、これにより、それらの全体が参照により本明細書に組み込まれる。

発明の要旨
試験遺伝子配列バリアントの病原性を予測するためのコンピュータ実装方法であって、少なくとも１つのプロセッサおよびメモリを有する電子デバイスにおいて、ラベル付き良性遺伝子配列バリアントを含む第１のデータセットと、良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含むラベルなし遺伝子配列バリアントを含む第２のデータセットとを含む訓練データを受信するステップ；第１のデータセットおよび第２のデータセット内の各遺伝子配列バリアントに１つまたは複数の特徴をアノテートするステップ；機械学習モデルを訓練データに基づいて訓練するステップであって、機械学習モデルが半教師ありプロセスで訓練されるステップ；試験遺伝子配列バリアントに１つまたは複数の特徴をアノテートするステップ；および訓練後に、機械学習モデルに基づいて、試験遺伝子配列バリアントが病原性である確率を予測するステップを含む方法が本明細書において提供される。

試験遺伝子配列バリアントの病原性を予測するためのコンピュータ実装方法であって、少なくとも１つのプロセッサおよびメモリを有する電子デバイスにおいて、ラベル付き良性遺伝子配列バリアントを含む第１のデータセットと、ラベルなし良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含むシミュレートされた遺伝子配列バリアントを含む第２のデータセットとを含む訓練データを受信するステップ；第１のデータセットおよび第２のデータセット内の各遺伝子配列バリアントに１つまたは複数の特徴をアノテートするステップ；機械学習モデルを訓練データに基づいて訓練するステップであって、機械学習モデルが半教師ありプロセスで訓練されるステップ；試験遺伝子配列バリアントに１つまたは複数の特徴をアノテートするステップ；および訓練後に、機械学習モデルに基づいて、試験遺伝子配列バリアントが病原性である確率を予測するステップを含む方法が本明細書においてさらに提供される。

試験遺伝子配列バリアントの病原性を予測するためのコンピュータ実装方法であって、少なくとも１つのプロセッサおよびメモリを有する電子デバイスにおいて、機械学習モデルを訓練データに基づいて訓練するステップであって、機械学習モデルが半教師ありプロセスで訓練され、訓練データが、ラベル付き良性遺伝子配列バリアントを含む第１のデータセットと、ラベルなし遺伝子配列バリアントが良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含むラベルなし遺伝子配列バリアントを含む第２のデータセットとを含み；第１のデータセットおよび第２のデータセット内の各バリアントに１つまたは複数の特徴がアノテートされる、ステップ；試験遺伝子配列バリアントに１つまたは複数の特徴をアノテートするステップ；および訓練後に、機械学習モデルに基づいて、試験遺伝子配列バリアントが病原性である確率を予測するステップを含む方法も本明細書において提供される。

試験遺伝子配列バリアントの病原性を予測するためのコンピュータ実装方法であって、少なくとも１つのプロセッサおよびメモリを有する電子デバイスにおいて、機械学習モデルを訓練データに基づいて訓練するステップであって、機械学習モデルが半教師ありプロセスで訓練され、訓練データが、ラベル付き良性遺伝子配列バリアントを含む第１のデータセットと、ラベルなし良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含むシミュレートされた遺伝子配列バリアントを含む第２のデータセットとを含み、第１のデータセットおよび第２のデータセット内の各バリアントに１つまたは複数の特徴がアノテートされる、ステップ；試験遺伝子配列バリアントに１つまたは複数の特徴をアノテートするステップ；および訓練後に、機械学習モデルに基づいて、試験遺伝子配列バリアントが病原性である確率を予測するステップを含む方法も提供される。

試験遺伝子配列バリアントの病原性を予測するためのコンピュータ実装方法であって、機械学習モデルを訓練データに基づいて訓練するステップであって、機械学習モデルが半教師ありプロセスで訓練され、訓練データが、ラベル付き良性遺伝子配列バリアントを含む第１のデータセットと、良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含むラベルなし遺伝子配列バリアントを含む第２のデータセットとを含み、第１のデータセットおよび第２のデータセット内の各バリアントに１つまたは複数の特徴がアノテートされる、ステップ；試験遺伝子配列バリアントに１つまたは複数の特徴をアノテートするステップおよび訓練後に、機械学習モデルに基づいて、試験遺伝子配列バリアントが病原性である確率を予測するステップを含む方法も本明細書において提供される。

試験遺伝子配列バリアントの病原性を予測するための方法であって、試験遺伝子配列バリアントに１つまたは複数の特徴をアノテートするステップ；および訓練された機械学習モデルに基づいて、試験遺伝子配列バリアントが病原性である確率を予測するステップであって、機械学習モデルが、訓練データに基づいて半教師ありプロセスで訓練され、訓練データが、ラベル付き良性遺伝子配列バリアントを含む第１のデータセットと、良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含むラベルなし遺伝子配列バリアントを含む第２のデータセットとを含み；第１のデータセットおよび第２のデータセット内の各遺伝子配列バリアントに１つまたは複数の特徴がアノテートされる、ステップを含む方法も本明細書において提供される。

試験遺伝子配列バリアントの病原性を予測するための方法であって、学習モデルを訓練データに基づいて訓練するステップであって、学習モデルが半教師ありプロセスで訓練され、訓練データが、ラベル付き良性遺伝子配列バリアントを含む第１のデータセットと、良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含むラベルなし遺伝子配列バリアントを含む第２のデータセットとを含み、第１のデータセットおよび第２のデータセット内の各バリアントに１つまたは複数の特徴がアノテートされる、ステップ；試験遺伝子配列バリアントに１つまたは複数の特徴をアノテートするステップ；および訓練後に、学習モデルに基づいて、試験遺伝子配列バリアントが病原性である確率を予測するステップを含む方法がさらに提供される。

試験遺伝子配列バリアントの病原性を予測するための方法であって、試験遺伝子配列バリアントに１つまたは複数の特徴をアノテートするステップ；および訓練された学習モデルに基づいて試験遺伝子配列バリアントが病原性である確率を予測するステップであって、学習モデルが、訓練データに基づいて半教師ありプロセスで訓練され、訓練データが、ラベル付き良性遺伝子配列バリアントを含む第１のデータセットと、良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含むラベルなし遺伝子配列バリアントを含む第２のデータセットとを含み、第１のデータセットおよび第２のデータセット内の各遺伝子配列バリアントに１つまたは複数の特徴がアノテートされる、ステップを含む方法も提供される。

一部の実施形態では、方法は、訓練データを生成するステップをさらに含む。一部の実施形態では、機械学習モデルは、生成モデルを含む。一部の実施形態では、生成モデルは、生成的混合モデルである。一部の実施形態では、生成モデルは、１つまたは複数の特徴によって指定される１つまたは複数の確率分布に依拠する。一部の実施形態では、１つまたは複数の特徴は、条件付き独立確率分布を含む。一部の実施形態では、１つまたは複数の確率分布は複数のノードを含み、これらのノードは不連続的特徴または連続的特徴を含み、不連続的特徴はディリクレ条件付き独立確率分布を含み、連続的特徴はガウス条件付き独立確率分布を含む。一部の実施形態では、機械学習モデルは、識別モデルを含む。一部の実施形態では、機械学習モデルは、サポートベクトルマシンを含まない。

一部の実施形態では、半教師ありプロセスを期待値最大化によって実施する。一部の実施形態では、訓練は、訓練データ内の各遺伝子配列バリアントを良性クラスターまたは病原性クラスターに割り当てることを含む。一部の実施形態では、訓練は、良性クラスターについての１つまたは複数の学習パラメータをｎ回の訓練後に固定し、病原性クラスターについての１つまたは複数の学習パラメータを（ｎ＋ｘ）（式中、ｎおよびｘは正の整数である）回の訓練にわたって変動させることを含む。一部の実施形態では、良性クラスターについての１つまたは複数の学習パラメータを１回の訓練後に固定する。一部の実施形態では、良性クラスターは、複数の良性サブクラスターを含む。一部の実施形態では、病原性クラスターは、複数の病原性サブクラスターを含む。

一部の実施形態では、機械学習モデルにより、試験遺伝子配列バリアントを良性クラスターまたは病原性クラスターに割り当てる。一部の実施形態では、良性クラスターは、複数の良性サブクラスターを含む。一部の実施形態では、病原性クラスターは、複数の病原性サブクラスターを含む。

一部の実施形態では、ラベル付き良性遺伝子配列バリアントは、選択された集団において、９０％超の対立遺伝子発生頻度を有する。一部の実施形態では、ラベルなし遺伝子配列バリアントは、シミュレートされた遺伝子配列バリアントである。

一部の実施形態では、試験遺伝子配列バリアントは、ヒト遺伝子配列バリアントである。一部の実施形態では、試験遺伝子配列バリアントは、ミスセンス遺伝子配列バリアント、ナンセンス遺伝子配列バリアント、スプライス部位遺伝子配列バリアント、挿入遺伝子配列バリアント、欠失遺伝子配列バリアント、または調節エレメント遺伝子配列バリアントを含む。

一部の実施形態では、１つまたは複数の特徴は、進化的保存スコア、ミスセンスバリアントスコア、挿入バリアントスコア、欠失バリアントスコア、スプライス部位バリアントスコア、または調節スコアに基づいて定義される特徴を含む。

さらに、本明細書に記載の方法のいずれかを実行するための、コンピュータで実行可能な指示を含む非一過性のコンピュータ可読メモリ媒体が本明細書において提示される。１つまたは複数のプロセッサ、メモリ、および１つまたは複数のプログラムを含むシステムであって、１つまたは複数のプログラムが、メモリ内に記憶されており、１つまたは複数のプロセッサによって実行されるように構成されており、１つまたは複数のプログラムが、本明細書に開示されている方法のいずれかを実行するための指示を含む、システムも提供される。

図１は、試験遺伝子配列バリアントの病原性を予測するための例示の方法を示す図である。

図２は、本明細書に記載の処理方法のいずれか１つを実施するように構成された例示のコンピュータシステムを示す図である。

図３は、本明細書に記載の方法およびシステムに有用な例示の機械学習モデルを示す図である。

図４は、期待値最大化アルゴリズムを使用して、生成機械学習モデルを本明細書に記載の遺伝子配列バリアントデータセットに基づいて訓練するプロセスの一実施形態を例示する図である。

図５Ａは、本明細書に記載の方法を使用して機械学習モデルを訓練し、試験するための例示の方法を示す図である。

図５Ｂは、本明細書に記載の方法を使用した、ある特定の特徴（ｖｅｒＰｈｙｌｏＰ、ｖｅｒＰｈａｓｔＣｏｎｓ、ＧｅｒｐＳ、ＳＩＦＴ、ＰｏｌｙＰｈｅｎ）の、２つの主要な成分に従ったミスセンス遺伝子配列バリアントのクラスタリング（主成分分析（ＰＣＡ）を使用する）を示す。カーネル密度を実証するために、良性ミスセンス遺伝子配列バリアントと病原性ミスセンス遺伝子配列バリアントのラベルなし混合物を含むシミュレートされたミスセンス遺伝子配列バリアントが等高線を使用してプロットされている（「シミュレートされた」と表示され、灰色の線で示されている）。良性ミスセンス遺伝子配列バリアント試験データセット（「良性」と表示され、黒塗りの丸で示されている）と病原性ミスセンス遺伝子配列バリアント試験データセット（「病原性」と表示され、白抜きの丸で示されている）の両方からのミスセンス遺伝子配列バリアントのランダムなサブセットが示されている。

図５Ｃは、本明細書に記載の方法を使用した、ある特定の特徴（ｖｅｒＰｈｙｌｏＰ、ｖｅｒＰＨａｓｔＣｏｎｓ、ＨＳＦ、ＧｅｒｐＳ、ＭａｘＥｎｔＳｃａｎ、ＮＮＳｐｌｉｃｅ）の、２つの主要な成分に従った非標準スプライス遺伝子配列バリアントのクラスタリングを示す（主成分分析（ＰＣＡ）を使用する）。カーネル密度を実証するために、良性非標準スプライス遺伝子配列バリアントと病原性非標準スプライス遺伝子配列バリアントのラベルなし混合物を含むシミュレートされた非標準スプライス遺伝子配列バリアントが等高線を使用してプロットされている（「シミュレートされた」と表示され、灰色の線で示されている）。良性非標準スプライス遺伝子配列バリアント試験データセット（「良性」と表示され、青色の点で示されている）と病原性非標準スプライス遺伝子配列バリアント試験データセット（「病原性」と表示され、赤色の点で示されている）の両方からの非標準スプライス遺伝子配列バリアントのランダムなサブセットが示されている。図５Ｃは、青色の点または赤色の点の代わりに代替的記号（例えば、四角、十字、丸など）を使用して白黒図で等しく示すことができることが理解される。図５Ｄは、本明細書に記載の方法を使用した、ある特定の特徴（ｖｅｒＰｈｙｌｏＰ、ｖｅｒＰｈａｓｔＣｏｎｓ、ＧｅｒｐＳ、ＥＮＣＯＤＥＨ３Ｋ２７Ａｃ、ＥＮＣＯＤＥＨ３Ｋ４Ｍｅ３、ＥＮＣＯＤＥＨ３Ｋ４Ｍｅ１）の、２つの主要な成分に従った非コード（遺伝子間、調節、またはイントロン）領域遺伝子配列バリアントのクラスタリングを示す（主成分分析（ＰＣＡ）を使用する）。カーネル密度を実証するために、良性非コード領域遺伝子配列バリアントと病原性非コード領域遺伝子配列バリアントのラベルなし混合物を含むシミュレートされた非コード領域遺伝子配列バリアントが等高線を使用してプロットされている。良性非コード領域遺伝子配列バリアント試験データセット（青色の点）と病原性非コード領域遺伝子配列バリアント試験データセット（赤色の点）の両方からの非コード（遺伝子間、調節、またはイントロン）領域遺伝子配列バリアントのランダムなサブセットが示されている。図５Ｄは、青色の点または赤色の点の代わりに代替的記号（例えば、四角、十字、丸など）を使用して白黒図で等しく示すことができることが理解される。

図６Ａおよび６Ｂは、例示的方法の１つ（「ＳＳＣＭ−Ｐａｔｈｏｇｅｎｉｃ」）を使用して算出された病原性ミスセンス遺伝子配列バリアントおよび良性ミスセンス遺伝子配列バリアントについての受信者動作特性（ＲＯＣ）を他の方法と比較して示す。曲線下面積（ＡＵＣ）値が、データセットブートストラップサンプリングによって生成されたＡＵＣについて９５％信頼区間と共に示されている。図６Ａは、ＨＧＭＤからの病原性ミスセンス遺伝子配列バリアント（ｎ＝６３，３６３）および０．０５以上０．９５未満である導出対立遺伝子発生頻度によって選別した良性ミスセンス遺伝子配列バリアント（ｎ＝２０，１３３）を例示する。図６Ｂは、ＣｌｉｎＶａｒからの病原性ミスセンス遺伝子配列バリアント（ｎ＝１８，７８３）および０．０５以上０．９５未満である導出対立遺伝子発生頻度によって選別した良性ミスセンス遺伝子配列バリアント（ｎ＝２０，１３３）を例示する。

図７Ａおよび７Ｂは、例示的方法の１つ（「ＳＳＣＭ−Ｐａｔｈｏｇｅｎｉｃ」）を使用して算出された、病原性非標準スプライス遺伝子配列バリアントおよび良性非標準スプライス遺伝子配列バリアントについての受信者動作特性（ＲＯＣ）を他の方法と比較して示す。曲線下面積（ＡＵＣ）値が、データセットブートストラップサンプリングによって生成されたＡＵＣについて９５％信頼区間と共に示されている。図７Ａは、ＨＧＭＤからの病原性非標準スプライス遺伝子配列バリアント（ｎ＝２，６５８）および０．０５以上０．９５未満である導出対立遺伝子発生頻度によって選別した良性非標準スプライス遺伝子配列バリアント（ｎ＝６，１５４）を例示する。図７Ｂは、ＣｌｉｎＶａｒからの病原性非標準スプライス遺伝子配列バリアント（ｎ＝２９０）および０．０５以上０．９５未満である導出対立遺伝子発生頻度によって選別した良性非標準スプライス遺伝子配列バリアント（ｎ＝６，１５８）を例示する。

図８は、例示的方法の１つ（「ＳＳＣＭ−Ｐａｔｈｏｇｅｎｉｃ」）を使用して算出された、病原性非標準スプライス遺伝子配列バリアントおよび良性非標準スプライス遺伝子配列バリアントについての受信者動作特性（ＲＯＣ）を、スプライス特徴を取り除いた代替的な例示的方法（「ＳＳＣＭ−Ｐａｔｈｏｇｅｎｉｃ（スプライス特徴なし）」）と比較して示す。病原性非標準スプライス遺伝子配列バリアントはＨＧＭＤから得たものであり（ｎ＝２，６５８）、良性非標準スプライス遺伝子配列バリアントは０．０５以上０．９５未満である導出対立遺伝子発生頻度によって選別したものである（ｎ＝６，１５４）。曲線下面積（ＡＵＣ）値が、データセットブートストラップサンプリングによって生成されたＡＵＣについて９５％信頼区間と共に示されている。

図９は、３’−ＵＴＲ遺伝子配列バリアント、５’−ＵＴＲ遺伝子配列バリアント、イントロン領域遺伝子配列バリアント、および遺伝子間領域遺伝子配列バリアントについての、本明細書に記載の例示的方法（「ＳＳＣＭ−Ｐａｔｈｏｇｅｎｉｃ」）によって出力された病原性確率分布を示す。密度曲線はわずかにこれらの範囲の外側に達しているにもかかわらず全ての値が［０，１］の範囲内に入ることに留意されたい。

図１０は、例示的方法の１つ（「ＳＳＣＭ−Ｐａｔｈｏｇｅｎｉｃ」）を使用して算出された病原性ミスセンス遺伝子配列バリアントおよび良性ミスセンス遺伝子配列バリアントについての受信者動作特性（ＲＯＣ）を教師あり機械学習モデルと比較して示す。病原性ミスセンス遺伝子配列バリアントはＨＧＭＤから得たものであり（ｎ＝６３，３６３）、良性ミスセンス遺伝子配列バリアントは、０．０５以上０．９５未満である導出対立遺伝子発生頻度によって選別したものである（ｎ＝２０，１３３）。曲線下面積（ＡＵＣ）値が、データセットブートストラップサンプリングによって生成されたＡＵＣについて９５％信頼区間と共に示されている。

詳細な説明
本開示は、試験遺伝子配列バリアントの病原性を予測する方法を提供する。本明細書に記載されている一部の実施形態では、方法は、試験遺伝子配列バリアントの病原性を予測するためのコンピュータ実装方法である。本開示は、機械学習モデルを訓練データに基づいて訓練する方法であって、ラベル付き良性遺伝子配列バリアントを含む第１のデータセットと、良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含むラベルなし遺伝子配列バリアントを含む第２のデータセットとを含む方法をさらに提供する。本開示は、機械学習モデルを訓練データに基づいて訓練する方法であって、ラベル付き良性遺伝子配列バリアントを含む第１のデータセットと、ラベルなし良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含むシミュレートされた遺伝子配列バリアントを含む第２のデータセットとを含む方法も提供する。本明細書に記載の方法のいずれかを実行するための、コンピュータで実行可能な指示を含む非一過性のコンピュータ可読メモリ媒体も本明細書において提示される。
１つまたは複数のプロセッサ、メモリ、および１つまたは複数のプログラムを含むコンピュータシステムであって、１つまたは複数のプログラムが、メモリ内に記憶されており、１つまたは複数のプロセッサによって実行されるように構成されており、１つまたは複数のプログラムが、本明細書に開示されている方法のいずれかを実行するための指示を含む、コンピュータシステムもさらに提供される。

費用効果が大きいＤＮＡ配列決定の最近の発展により、遺伝子配列バリアントについての対象の個別化されたゲノムスクリーニングが可能になっている。個体由来の遺伝子配列バリアントが決定されれば、これは、その遺伝子配列バリアントが病原性である尤度がどのくらいであるかを臨床医に知らせるのに役立つ。しかし、個々の遺伝子配列バリアントからは、その遺伝子配列バリアントについて病原性の尤度を決定するために十分な情報はもたらされない。他の公知の遺伝子配列バリアントとの直接比較は、例えば対象の遺伝子配列バリアントが独特のものである場合、一般に役に立たない。そのような独特の遺伝子配列バリアントは、一般に、病原性の尤度が決定される代わりに、意義不明のバリアントに分類されており、それにより、遺伝子配列バリアントデータが未活用になっている。本明細書において提示されるシステムおよび方法は、訓練された機械学習モデルを利用することによる対象の遺伝子配列バリアントの病原性の予測を提供する。

事前病原性予測モデルの訓練における重要な難題は、確認バイアスである。完全教師あり（ｓｕｐｅｒｖｉｓｅｄ）モデリングシステムは、ラベル付き（または「既知の」）良性遺伝子配列バリアント訓練データセットおよびラベル付き病原性遺伝子配列バリアント訓練データセットに依拠する。しかし、それらの病原性に起因して、既知の病原性遺伝子配列バリアントは、一般には発生頻度が低く獲得することが難しい。さらに、既知の病原性遺伝子配列バリアントは、より容易に同定されるバリアントであり、データベースにおいて病原性遺伝子配列バリアントの集団全体に対して不適切に富化される。これは、より大きなデータセットを訓練することが必要なアンサンブル型モデル（複数のサブモデルからのアノテーションをプールおよび重み付けする）に関して特に問題となる。

半教師あり（ｓｅｍｉ−ｓｕｐｅｒｖｉｅｓｅｄ）訓練方法を使用して病原性予測モデルを訓練することにより、試験遺伝子配列バリアントの病原性を予測するための、より良好なモデルがもたらされることが見出されており、本明細書に記載されている。半教師あり訓練方法は、ラベル付き良性遺伝子配列バリアント訓練データセットおよびラベルなし遺伝子配列バリアント訓練データセットに依拠する。さらに、このモデルでは、ラベルなし遺伝子配列バリアント訓練データセットを良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物として扱う。ラベルなし遺伝子配列バリアントは病原性を決定するために臨床試験を必要としないので、この訓練方法により、病原性を予測するために有用な機械学習モデルを訓練するのに十分に大きな訓練データセットがもたらされる。さらに、この方法では、データセットの各成分がラベル付き良性遺伝子配列バリアントデータセットから本質的に区別可能であると仮定せずに、ラベルなし遺伝子配列バリアントを良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物として適正に扱う。

本明細書に記載の病原性を予測するための方法は、広範囲の遺伝子配列バリアント型に対して使用することができる。一部の実施形態では、機械学習モデルは、広範囲の遺伝子配列バリアント型を含む遺伝子配列バリアントデータセットを使用して訓練され、任意の遺伝子配列バリアントを有する試験遺伝子配列バリアントにおいて病原性を予測するために有用である。一部の実施形態では、方法は、特定の遺伝子配列バリアント型または限られた範囲の遺伝子配列バリアント型に対してより特化されたものである。そのような特化された方法では、機械学習モデルは、限られた数の遺伝子配列バリアント型を含む遺伝子配列バリアント訓練セットを使用して訓練され、そのような遺伝子配列バリアント型のうちの１つを含む試験遺伝子配列バリアントの病原性を予測するために有用である。

本開示および実施例の以下の説明では、実施することができる特定の実施例を例示する添付の図面を参照する。本開示の範囲から逸脱することなく、他の実施例を実施することができ、また、構造的に変化させることができることが理解されるべきである。

機械学習モデルを、訓練データを使用して半教師ありプロセスで訓練する。訓練データは、ラベル付き良性遺伝子配列バリアントを含む第１のデータセットと、良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含むラベルなし遺伝子配列バリアントを含む第２のデータセットとを含む。一部の実施形態では、ラベルなし遺伝子配列バリアントはシミュレートされる。一部の実施形態では、方法は、機械学習モデルを本明細書に記載の訓練データに基づいて訓練するステップ、遺伝子配列バリアントに１つまたは複数の特徴をアノテートするステップ、および訓練後に、機械学習モデルに基づいて、試験遺伝子配列バリアントが病原性である確率を予測するステップを含む。一部の実施形態では、方法はコンピュータ実装方法である。一部の実施形態では、少なくとも１つのプロセッサおよびメモリを有する電子デバイスにおいて、コンピュータ実装方法を実施する。

訓練データ内の遺伝子配列バリアントに本明細書に記載の１つまたは複数の特徴をアノテートする。特徴により各遺伝子配列バリアントにスコアを割り当て、次いで、それを使用して機械学習モデルを訓練する。次いで、同じ特徴を使用して試験遺伝子配列バリアントにアノテートし、その結果、試験遺伝子配列バリアントの病原性を、訓練された機械学習モデルから予測することができる。一部の実施形態では、方法は、試験遺伝子配列バリアントに１つまたは複数の特徴をアノテートするステップおよび訓練された機械学習モデルに基づいて、試験遺伝子配列バリアントが病原性である確率を予測するステップであって、機械学習モデルが、本明細書に記載の訓練データに基づいて訓練される、ステップを含む。一部の実施形態では、機械学習モデル半教師ありプロセスで訓練される。一部の実施形態では、方法はコンピュータ実装方法である。一部の実施形態では、コンピュータ実装方法は、少なくとも1つのプロセッサおよびメモリを含む電子デバイスにおいて実施される。

本明細書に記載の実施形態の一部では、方法は、ラベル付き良性遺伝子配列バリアントを含む第１のデータセットと、良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含むラベルなし遺伝子配列バリアントを含む第２のデータセットを含む訓練データを受信するステップ；第１のデータセットおよび第２のデータセット内の各遺伝子配列バリアントに１つまたは複数の特徴をアノテートするステップ；訓練データに基づいて機械学習モデルを訓練するステップ；試験遺伝子配列バリアントに１つまたは複数の特徴をアノテートするステップ；および訓練後に、機械学習モデルに基づいて、試験遺伝子配列バリアントが病原性である確率を予測するステップを含む。一部の実施形態では、方法は、試験遺伝子配列バリアントを受信するステップをさらに含む。一部の実施形態では、機械学習モデル半教師ありプロセスで訓練される。一部の実施形態では、方法はコンピュータ実装方法である。一部の実施形態では、コンピュータ実装方法は、少なくとも1つのプロセッサおよびメモリを含む電子デバイスにおいて実施される。

本明細書に記載の実施形態の一部では、機械学習モデルを本明細書に記載の訓練データに基づいて訓練するステップ、遺伝子配列バリアントに１つまたは複数の特徴をアノテートするステップ；および訓練後に、機械学習モデルに基づいて、試験遺伝子配列バリアントが病原性である確率を予測するステップを含む。一部の実施形態では、機械学習モデル半教師ありプロセスで訓練される。一部の実施形態では、方法はコンピュータ実装方法である。一部の実施形態では、コンピュータ実装方法は、少なくとも1つのプロセッサおよびメモリを含む電子デバイスにおいて実施される。

本明細書に記載の実施形態の一部では、方法は、訓練データを生成するステップをさらに含む。

本明細書に記載の実施形態の一部では、訓練データは、ラベル付き良性遺伝子配列バリアントを含む第１のデータセットと、ラベルなし遺伝子配列バリアントを含む第２のデータセットとを含む。一部の実施形態では、ラベルなし遺伝子配列バリアントは、良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含む。一部の実施形態では、ラベルなし遺伝子配列バリアントは、シミュレートされた遺伝子配列バリアントである。一部の実施形態では、シミュレートされた遺伝子配列バリアントは、ランダムにシミュレートされた遺伝子配列バリアントである。一部の実施形態では、ラベル付き良性遺伝子配列バリアントは、選択された集団において、９０％超の対立遺伝子発生頻度を有する。一部の実施形態では、第１のデータセットおよび第２のデータ内の遺伝子配列バリアントに１つまたは複数の特徴をアノテートする。一部の実施形態では、試験遺伝子配列バリアントは、ミスセンス遺伝子配列バリアント、ナンセンス遺伝子配列バリアント、スプライス部位遺伝子配列バリアント、挿入遺伝子配列バリアント、欠失遺伝子配列バリアント、または調節エレメント遺伝子配列バリアントを含む。

一部の実施形態では、機械学習モデルにより、試験遺伝子配列バリアントを良性クラスターまたは病原性クラスターに割り当てる。一部の実施形態では、良性クラスターは、複数の良性サブクラスターを含む。一部の実施形態では、病原性クラスターは、複数の病原性サブクラスターを含む。一部の実施形態では、試験遺伝子配列バリアントはヒト試験遺伝子配列バリアントである。

一部の実施形態では、機械学習モデルは、生成モデルを含む。一部の実施形態では、生成モデルは、生成的混合モデルである。一部の実施形態では、生成モデルは、１つまたは複数の特徴によって指定される１つまたは複数の確率分布に依拠する。一部の実施形態では、１つまたは複数の特徴は、条件付き独立確率分布を含む。一部の実施形態では、１つまたは複数の確率分布は複数のノードを含み、これらのノードは不連続的特徴または連続的特徴を含み、不連続的特徴はディリクレ条件付き独立確率分布を含み、連続的特徴はガウス条件付き独立確率分布を含む。一部の実施形態では、機械学習モデルは、識別モデルを含む。一部の実施形態では、機械学習モデルは、サポートベクトルマシンを含まない。

一部の実施形態では、特徴は、同義の遺伝子配列バリアント、ミスセンス遺伝子配列バリアント、ナンセンス遺伝子配列バリアント、フレームシフト遺伝子配列（例えば、挿入遺伝子配列バリアントまたは欠失遺伝子配列バリアントなど）、スプライス部位遺伝子配列バリアント（例えば、標準的なスプライス部位遺伝子配列バリアントまたは非標準的なスプライス部位遺伝子配列バリアントなど）、コード領域内の遺伝子配列バリアント、イントロン領域内の遺伝子配列バリアント、プロモーター領域内の遺伝子配列バリアント、エンハンサー領域内の遺伝子配列バリアント、３’−非翻訳領域（３’−ＵＴＲ）内の遺伝子配列バリアント、５’−非翻訳領域（５’−ＵＴＲ）内の遺伝子配列バリアント、遺伝子間領域内の遺伝子配列バリアント、進化的保存、調節エレメント解析、または機能的ゲノム解析に基づいて定義された特徴を含む。
方法アーキテクチャ

図１は、少なくとも１つのプロセッサおよびプロセスを実行するための指示が記憶されたメモリを有する電子デバイスによって行うことができる典型的方法を含めた本発明の一実施形態を例示する図である。ステップ１００において、方法は、機械学習モデルの訓練に使用するための訓練データを受信することを含む。訓練データは、第１のデータセット１０５および第２のデータセット１１０を含む。第１のデータセット１０５は、ラベル付き良性遺伝子配列バリアントを含む。第２のデータセット１１０はラベルなし遺伝子配列バリアントを含み、ラベルなし遺伝子配列バリアントは良性遺伝子配列バリアント１１５と病原性遺伝子配列バリアント１２０の混合物を含む。ステップ１２５において、プロセスでは、第１のデータセット１０５および第２のデータセット１１０に１つまたは複数の特徴１３０をアノテートする。１３５において、機械学習モデルを訓練データ（例えば、データセット１０５およびデータセット１１０）に基づいて、半教師ありプロセスで訓練する。一部の実施形態では、１４０の矢印によって示されるように、訓練ステップ１３５を反復して実施する。ステップ１４５において、電子デバイスは１つまたは複数の試験遺伝子配列バリアント１５０を受信する。次いで、ステップ１５５において、１つまたは複数の試験遺伝子配列バリアント１５０に１つまたは複数の特徴１３０をアノテートする。ステップ１６０において、訓練後の機械学習モデル１３５に基づいて出力スコアを生成する。一部の実施形態では、出力スコアは、試験遺伝子配列バリアントが病原性である確率に関する。
コンピュータシステム

図２は、試験遺伝子配列バリアントの病原性を予測するための種々の例示的なプロセスを含めた本明細書に記載のプロセスのいずれか１つを実施するように構成された例示的なコンピュータシステムを示す。この文脈において、コンピュータシステムは、例えば、プロセッサ、メモリ、ストレージ、および入力／出力デバイス（例えば、モニタ、キーボード、ディスクドライブ、インターネット接続）を含み得る。しかしながら、コンピュータシステムは、プロセスの一部または全てを実行するための回路または他の専門のハードウェアを含み得る。一部の操作環境において、コンピュータシステムは、１つまたは複数のユニットを含み、各ユニットがソフトウェア、ハードウェアまたはそれらの一部の組合せのいずれかのプロセスの一部の態様を実行するように構成される、システムとして構成され得る。

図２は、本明細書に記載のプロセスを実施するために使用され得る多くの構成部分を備えるコンピュータシステム２００を記述する。メインシステム２０２は、入力／出力（「Ｉ／Ｏ」）セクション２０６、１つまたは複数の中央処理ユニット（「ＣＰＵ」）２０８、およびメモリセクション２１０を有するマザーボード２０４を含み、それは、関連するフラッシュメモリカード２１２を有し得る。Ｉ／Ｏセクション２０６は、ディスプレイ２２４、キーボード２１４、ディスクストレージユニット２１６および媒体ドライブユニット２１８に接続される。媒体ドライブユニット２１８は、コンピュータ可読メモリ媒体２２０を読み取り／書き込みが可能で、プログラム２２２および／またはデータを含み得る。

本明細書に記載のプロセスの結果に基づく少なくとも一部の値は、後の使用のために保存され得る。加えて、非一過性のコンピュータ可読メモリ媒体が、コンピュータによる上述のプロセスのうちのいずれか１つを実施するための１つまたは複数のコンピュータプログラムを記憶する（例えば、有形に具現化する）ために使用され得る。コンピュータプログラムは、例えば、汎用プログラミング言語（例えば、Ｐａｓｃａｌ、Ｃ、Ｃ＋＋、Ｊａｖａ（登録商標）、Ｐｙｔｈｏｎ、ＪＳＯＮなど）またはある特殊用途専用言語で書きこまれ得る。
訓練データ

本明細書に記載の方法において、機械学習モデルを訓練するために訓練データを使用する。例示的なシステムおよび方法では、遺伝子配列バリアント訓練データセットを使用して、半教師あり生成モデルを訓練する。遺伝子配列バリアント訓練データセットは、ラベル付き良性遺伝子配列バリアントデータセットおよびラベルなし遺伝子配列バリアントデータセットを含む。ラベル付き良性遺伝子配列バリアントデータは、良性であることが分かっている遺伝子配列バリアントを含む。ラベルなし遺伝子配列バリアントデータセットは、病原性が分かっていない遺伝子配列バリアントを含む。遺伝子配列バリアントは、本明細書に記載の特徴を使用してアノテートし、機械学習モデルを訓練するために使用する。機械学習モデルでは、特徴を使用してラベルなし遺伝子配列バリアントデータセット内の各遺伝子配列バリアントを病原性クラスターまたは良性クラスターに割り当て、モデルパラメータを反復して算出することによって機械学習モデルを訓練する。

一部の実施形態では、ラベル付き良性遺伝子配列バリアントデータセットは、導出対立遺伝子発生頻度が高い遺伝子配列バリアントを含む。導出対立遺伝子発生頻度が高い遺伝子配列バリアントは、それらの進化的保存に起因して、良性であると仮定される。一部の実施形態では、対立遺伝子発生頻度が高い遺伝子配列バリアントの導出対立遺伝子発生頻度は、０．９またはそれ超（例えば、０．９２またはそれ超、０．９５またはそれ超、０．９７またはそれ超、または０．９９またはそれ超など）である。一部の実施形態では、導出対立遺伝子発生頻度をランダムな集団または標的集団から決定する。標的集団の例としては、男性集団または女性集団が挙げられるが、他の標的集団も意図されている。一部の実施形態では、集団は、ヒト集団である。一部の実施形態では、ラベル付き良性遺伝子配列バリアントデータセットは、１００，０００またはそれ超の遺伝子配列バリアント（例えば、２００，０００またはそれ超の遺伝子配列バリアント、３００，０００またはそれ超の遺伝子配列バリアント、５００，０００またはそれ超の遺伝子配列バリアント、７５０，０００またはそれ超の遺伝子配列バリアント、１，０００，０００またはそれ超の遺伝子配列バリアント、１，２５０，０００またはそれ超の遺伝子配列バリアント、１，５００，０００またはそれ超の遺伝子配列バリアント、または２，０００，０００またはそれ超の遺伝子配列バリアントなど）を含む。ラベル付き良性遺伝子配列バリアントデータセットは、例えば、バリアントを１０００ＧｅｎｏｍｅｓＰｒｏｊｅｃｔ（１０００Ｇ）（Abecasisら、Nature、４９１巻（７４２２号）：５６〜６５頁（２０１２年）に記載）から選別することによって得ることができる。

一部の実施形態では、ラベルなし遺伝子配列バリアントデータセットは、遺伝子座をｉｎｓｉｌｉｃｏで突然変異させた（例えば、本明細書に記載のコンピュータ可読指示を実行する１つまたは複数のプロセッサによって）、シミュレートされた遺伝子配列バリアントを含む。シミュレートされた遺伝子配列バリアントは、例えば、スライディングウィンドウ、例えば１．１Ｍｂウィンドウ内の局所突然変異率に応じて遺伝子配列内の塩基を突然変異させることによって生成することができる。局所突然変異率は、例えば、種のゲノムを推定される進化的祖先と比較することによって決定することができ、例えば、ヒトゲノムを推定ヒト−チンパンジー祖先と比較することができる。次いで、遺伝子配列内の塩基を、ゲノム全体にわたって決定された置換行列（ｓｕｂｓｔｉｔｕｔｉｏｎｍａｔｒｉｘ）に応じて変化させることができる。シミュレートされた遺伝子配列バリアントを生成するための典型的方法の１つは、ＣＡＤＤバリアントシミュレーションソフトウェア（その開示がこれによって参照により組み込まれる、Kircherら、Nature Genetics、４６巻（３号）：３１０〜５頁（２０１４年）に記載されている）である。本明細書に記載の方法の実施形態のいくつかにおいて、ラベルなしシミュレートされた遺伝子配列バリアントデータセットは、良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含む。

一部の実施形態では、遺伝子配列バリアント訓練データセットは、広範囲の遺伝子配列バリアント型に由来する遺伝子配列バリアントを含む。例えば、一部の実施形態では、遺伝子配列バリアント訓練データセットは、ミスセンス突然変異、ナンセンス突然変異、フレームシフト遺伝子配列バリアント（例えば、挿入遺伝子配列バリアントまたは欠失遺伝子配列バリアントなど）、スプライス部位遺伝子配列バリアント（例えば、標準的なスプライス部位遺伝子配列バリアントまたは非標準的なスプライス部位遺伝子配列バリアントなど））、コード領域バリアント、イントロン領域バリアント、プロモーター領域バリアント、エンハンサー領域バリアント、３’−非翻訳領域（３’−ＵＴＲ）バリアント、５’−非翻訳領域（５’−ＵＴＲ）バリアント、遺伝子間領域バリアント、優性遺伝子配列バリアント、劣性遺伝子配列バリアント、または機能喪失（ＬｏＦ）遺伝子配列バリアントを有する遺伝子配列バリアントを含む。一部の実施形態では、ラベル付き良性遺伝子配列データセットとラベルなし遺伝子配列データセットはどちらも広範囲の遺伝子配列バリアント型を含む。

本明細書において提示される方法は、機械学習モデルを訓練するために使用される遺伝子配列バリアント訓練データセットに基づいて、広範な目的の病原性予測方法または特化された病原性予測方法であり得る。例えば、一部の実施形態では、機械学習モデルを、広範囲の遺伝子配列バリアント型を含む遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、方法は、単一の遺伝子配列バリアント型または遺伝子配列バリアント型のサブセットにおいて病原性を予測することに特化されたものである。例えば、一部の実施形態では、機械学習モデルを、ミスセンス突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、ミスセンス突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、ミスセンス突然変異を含む試験遺伝子配列バリアントの病原性を予測する。一部の実施形態では、機械学習モデルを、遺伝子配列バリアント型のサブセット、例えば、ミスセンス遺伝子配列バリアント、ナンセンス遺伝子配列バリアント、およびフレームシフト遺伝子配列バリアントに関して訓練する。特化された機械学習モデルを訓練するために有用な遺伝子配列バリアント訓練データセットは、同じ遺伝子配列バリアント型のサブセットを有するラベル付き良性遺伝子配列バリアントデータセットとラベルなし遺伝子配列バリアントデータセット（任意選択で、シミュレートされたラベルなし遺伝子配列バリアントデータセットである）を含む。

一部の実施形態では、機械学習モデルを、ミスセンス突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、ミスセンス突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、ミスセンス突然変異を含む試験遺伝子配列バリアントの病原性を予測する。一部の実施形態では、機械学習モデルを、ミスセンス突然変異を有する遺伝子配列バリアントからなる遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、ミスセンス突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、ミスセンス突然変異を含む試験遺伝子配列バリアントの病原性を予測する。

一部の実施形態では、機械学習モデルを、ナンセンス突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、ナンセンス突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、ナンセンス突然変異を含む試験遺伝子配列バリアントの病原性を予測する。一部の実施形態では、機械学習モデルを、ナンセンス突然変異を有する遺伝子配列バリアントからなる遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、ナンセンス突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、ナンセンス突然変異を含む試験遺伝子配列バリアントの病原性を予測する。

一部の実施形態では、機械学習モデルを、フレームシフト突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、フレームシフト突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、フレームシフト突然変異を含む試験遺伝子配列バリアントの病原性を予測する。一部の実施形態では、機械学習モデルを、フレームシフト突然変異を有する遺伝子配列バリアントからなる遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、フレームシフト突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、フレームシフト突然変異を含む試験遺伝子配列バリアントの病原性を予測する。

一部の実施形態では、機械学習モデルを、スプライス部位突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、スプライス部位突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、スプライス部位突然変異を含む試験遺伝子配列バリアントの病原性を予測する。一部の実施形態では、機械学習モデルを、スプライス部位突然変異を有する遺伝子配列バリアントからなる遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、スプライス部位突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、スプライス部位突然変異を含む試験遺伝子配列バリアントの病原性を予測する。

一部の実施形態では、機械学習モデルを、コード領域中の突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、コード領域中の突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、コード領域中の突然変異を含む試験遺伝子配列バリアントの病原性を予測する。一部の実施形態では、機械学習モデルを、コード領域中の突然変異を有する遺伝子配列バリアントからなる遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、コード領域中の突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、コード領域中の突然変異を含む試験遺伝子配列バリアントの病原性を予測する。

一部の実施形態では、機械学習モデルを、イントロン領域中の突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、イントロン領域中の突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、イントロン領域中の突然変異を含む試験遺伝子配列バリアントの病原性を予測する。一部の実施形態では、機械学習モデルを、イントロン領域中の突然変異を有する遺伝子配列バリアントからなる遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、イントロン領域中の突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、イントロン領域中の突然変異を含む試験遺伝子配列バリアントの病原性を予測する。

一部の実施形態では、機械学習モデルを、プロモーター領域中の突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、プロモーター領域中の突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、プロモーター領域中の突然変異を含む試験遺伝子配列バリアントの病原性を予測する。一部の実施形態では、機械学習モデルを、プロモーター領域中の突然変異を有する遺伝子配列バリアントからなる遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、プロモーター領域中の突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、プロモーター領域中の突然変異を含む試験遺伝子配列バリアントの病原性を予測する。

一部の実施形態では、機械学習モデルを、エンハンサー領域中の突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、エンハンサー領域中の突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、エンハンサー領域中の突然変異を含む試験遺伝子配列バリアントの病原性を予測する。一部の実施形態では、機械学習モデルを、エンハンサー領域中の突然変異を有する遺伝子配列バリアントからなる遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、エンハンサー領域中の突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、エンハンサー領域中の突然変異を含む試験遺伝子配列バリアントの病原性を予測する。

一部の実施形態では、機械学習モデルを、３’−非翻訳領域（３’−ＵＴＲ）中の突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、３’−非翻訳領域（３’−ＵＴＲ）中の突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、３’−非翻訳領域（３’−ＵＴＲ）中の突然変異を含む試験遺伝子配列バリアントの病原性を予測する。一部の実施形態では、機械学習モデルを、３’−非翻訳領域（３’−ＵＴＲ）中の突然変異を有する遺伝子配列バリアントからなる遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、３’−非翻訳領域（３’−ＵＴＲ）中の突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、３’−非翻訳領域（３’−ＵＴＲ）中の突然変異を含む試験遺伝子配列バリアントの病原性を予測する。

一部の実施形態では、機械学習モデルを、５’−非翻訳領域（５’−ＵＴＲ）中の突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、５’−非翻訳領域（５’−ＵＴＲ）中の突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、５’−非翻訳領域（５’−ＵＴＲ）中の突然変異を含む試験遺伝子配列バリアントの病原性を予測する。一部の実施形態では、機械学習モデルを、５’−非翻訳領域（５’−ＵＴＲ）中の突然変異を有する遺伝子配列バリアントからなる遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、５’−非翻訳領域（５’−ＵＴＲ）中の突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、５’−非翻訳領域（５’−ＵＴＲ）中の突然変異を含む試験遺伝子配列バリアントの病原性を予測する。

一部の実施形態では、機械学習モデルを、遺伝子間領域中の突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、遺伝子間領域中の突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、遺伝子間領域中の突然変異を含む試験遺伝子配列バリアントの病原性を予測する。一部の実施形態では、機械学習モデルを、遺伝子間領域中の突然変異を有する遺伝子配列バリアントからなる遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、遺伝子間領域中の突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、遺伝子間領域中の突然変異を含む試験遺伝子配列バリアントの病原性を予測する。

一部の実施形態では、機械学習モデルを、優性遺伝子中の突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、優性遺伝子中の突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、優性遺伝子中の突然変異を含む試験遺伝子配列バリアントの病原性を予測する。一部の実施形態では、機械学習モデルを、優性遺伝子中の突然変異を有する遺伝子配列バリアントからなる遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、優性遺伝子中の突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、優性遺伝子中の突然変異を含む試験遺伝子配列バリアントの病原性を予測する。

一部の実施形態では、機械学習モデルを、劣勢遺伝子中の突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、劣勢遺伝子中の突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、劣勢遺伝子中の突然変異を含む試験遺伝子配列バリアントの病原性を予測する。一部の実施形態では、機械学習モデルを、劣勢遺伝子中の突然変異を有する遺伝子配列バリアントからなる遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、劣勢遺伝子中の突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、劣勢遺伝子中の突然変異を含む試験遺伝子配列バリアントの病原性を予測する。

一部の実施形態では、機械学習モデルを、機能喪失突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、機能喪失突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、機能喪失突然変異を含む試験遺伝子配列バリアントの病原性を予測する。一部の実施形態では、機械学習モデルを、機能喪失突然変異を有する遺伝子配列バリアントからなる遺伝子配列バリアント訓練データセットを使用して訓練する。一部の実施形態では、機能喪失突然変異を有する遺伝子配列バリアントを含む遺伝子配列バリアント訓練データセットを使用して訓練された機械学習モデルを使用して、機能喪失突然変異を含む試験遺伝子配列バリアントの病原性を予測する。

一部の実施形態では、遺伝子配列バリアント訓練データセット（既知の良性遺伝子配列バリアントデータセットおよびシミュレートされた遺伝子配列バリアントデータセットを含む）内の各遺伝子配列バリアントは、本明細書に開示されている方法を使用して１つまたは複数の特徴によってアノテートする。
遺伝子配列バリアントの特徴アノテーション

本明細書に開示されている方法の一部の実施形態では、例示的なシステムおよび方法では、訓練遺伝子配列バリアントに１つまたは複数の特徴をアノテートする。特徴は、遺伝子配列バリアントの性質を特徴付けるために使用され、それらとして、例えば、配列保存、ミスセンス遺伝子配列バリアント、スプライス部位遺伝子配列バリアント、または調節エレメントに基づいて定義されるスコアを挙げることができる。一部の実施形態では、ラベル付き良性遺伝子配列バリアントデータセット内の遺伝子配列バリアントまたはラベルなし遺伝子配列バリアントデータセット内の遺伝子配列バリアントに１つまたは複数の特徴をアノテートする。一部の実施形態では、試験遺伝子配列バリアントに１つまたは複数の特徴をアノテートする。

一部の実施形態では、特徴のうちの１つまたは複数は、遺伝子配列バリアントの遺伝学的結果（例えば、同義の遺伝子配列バリアント、ミスセンス遺伝子配列バリアント、ナンセンス遺伝子配列バリアント、フレームシフト遺伝子配列バリアント（例えば、挿入遺伝子配列バリアントまたは欠失遺伝子配列バリアントなど）、またはスプライス部位遺伝子配列バリアント（例えば、標準的なスプライス部位遺伝子配列バリアントまたは非標準的なスプライス部位遺伝子配列バリアントなど）など）または遺伝子配列バリアントのゲノム領域（例えば、コード領域内の遺伝子配列バリアント、例えばイントロン領域内の遺伝子配列バリアント、プロモーター領域内の遺伝子配列バリアント、エンハンサー領域内の遺伝子配列バリアント、３’−非翻訳領域（３’−ＵＴＲ）内の遺伝子配列バリアント、５’−非翻訳領域（５’−ＵＴＲ）内の遺伝子配列バリアント、または遺伝子間領域内の遺伝子配列バリアントなど）などのカテゴリー的な特徴である。一部の実施形態では、特徴のうちの１つまたは複数は、タンパク質機能（例えば、ＳＩＦＴスコア）または進化的保存（例えば、ＰｈｙｌｏＰスコアまたはＰｈａｓｔＣｏｎｓスコア）に影響を及ぼす突然変異の確率などの数値スコアである。

特徴はベクトルスコアまたはスカラースコアであり得る。例えば、一部の実施形態では、ベクトルスコアは、脊椎動物全てにわたる進化的保存、哺乳動物全てにわたる進化的保存、または霊長類全てにわたる進化的保存などの、多数のレベルの進化的保存のベクトルである。一部の実施形態では、特徴の一部がベクトルスコアである。一部の実施形態では、特徴の一部がスカラースコアである。

一部の実施形態では、特徴は、バリアント型（例えば、同義の遺伝子配列バリアント、ミスセンス遺伝子配列バリアント、ナンセンス遺伝子配列バリアント、フレームシフト遺伝子配列（挿入遺伝子配列バリアントまたは欠失遺伝子配列バリアントなど）、スプライス部位遺伝子配列バリアント（標準的なスプライス部位遺伝子配列バリアントまたは非標準的なスプライス部位遺伝子配列バリアントなど）、コード領域内の遺伝子配列バリアント、例えばイントロン領域内の遺伝子配列バリアント、プロモーター領域内の遺伝子配列バリアント、エンハンサー領域内の遺伝子配列バリアント、３’−非翻訳領域（３’−ＵＴＲ）内の遺伝子配列バリアント、５’−非翻訳領域（５’−ＵＴＲ）内の遺伝子配列バリアント、遺伝子間領域内の遺伝子配列バリアント、進化的保存、調節エレメント解析、または機能的ゲノム解析）に基づいて定義される。

一部の実施形態では、ミスセンスバリアントに基づいて定義される特徴は、コード領域内の配列相同性を使用して、遺伝子配列バリアント内のミスセンスバリアントがどのくらい破壊的であり得るかを決定することによって生成される。ミスセンスバリアントに基づいて定義される特徴を生成するために有用な方法の例としては、ＳＩＦＴ（NgおよびHenikoff、Nucleic Acids Research、３１巻（１３号）：３８１２〜４頁（２００３年）およびKumarら、Nat. Protoc. ４巻（７号）：１０７３〜８１頁（２００９年）に記載されている）およびＰｏｌｙＰｈｅｎ２（Adzhubeiら、Nature Methods、７巻（４号）：２４８〜９頁（２０１０年）に記載されている）が挙げられる。一部の実施形態では、フレームシフト遺伝子配列バリアントに基づいて定義される特徴は、コード領域内の配列相同性を使用して、フレームシフト遺伝子配列バリアントがどのくらい破壊的であり得るかを決定することによって生成される。フレームシフト遺伝子配列バリアントに基づいて定義される特徴を生成するために有用な方法の例としては、ＰＲＯＶＥＡＮ（Choiら、PLoS ONE、７巻（１０号）（２０１２年）に記載されている）およびＳＩＦＴＩｎｄｅｌ（HuおよびNg、PLoS ONE、８巻（１０号）（２０１３年）に記載されている）が挙げられる。一部の実施形態では、ミスセンス遺伝子配列バリアントまたはフレームシフト遺伝子配列バリアントに基づいて定義される特徴は、確率モデルを使用して遺伝子配列バリアントをスコア化することによって生成される。確率スコアに基づいて定義される特徴を生成するために有用な方法の例としては、ＬＲＴ（ChunおよびFay、Genome Research、１９巻（９号）：１５５３〜６１頁（２００９年）に記載されている）およびＭＡＰＰ（StoneおよびSidow、Genome Research、１５巻（７号）：９７８〜８６頁（２００５年）に記載されている）が挙げられる。一部の実施形態では、ナンセンスバリアントに基づいて定義される特徴は、コード領域内の配列相同性を使用して、遺伝子配列バリアント内のナンセンスバリアントがどのくらい破壊的であり得るかを決定することによって生成される。

一部の実施形態では、スプライス部位遺伝子配列バリアントに基づいて定義される特徴は、所与の遺伝子配列バリアントによって転写物のスプライシングが変化することの予測される確率を使用して生成される。異常なスプライシングにより、非常に小さなヌクレオチドの変化で下流のタンパク質に対する大きな影響が生じる可能性があり、それにより、病原性遺伝子配列バリアントがもたらされる可能性がある。スプライス部位バリアントに基づいて定義される特徴を生成するために有用な方法の例としては、ＭｕｔＰｒｅｄＳｐｌｉｃｅ（Mortら、Genome Biology、１５巻（１号）：Ｒ１９頁（２０１４年）に記載されている）、ＨｕｍａｎＳｐｌｉｃｉｎｇＦｉｎｄｅｒ（ＨＳＦ）（Desmetら、Nucleic Acids Research、３７巻（９号）：ｅ６７頁（２００９年）に記載されている）、ＭａｘＥｎｔＳｃａｎ（YeoおよびBurge、Journal of Computational Biology、１１巻（２〜３号）：３３７〜３９４頁（２００４年）に記載されている）、およびＮＮＳｐｌｉｃｅ（Reeseら、Journal of Computational Biology、４巻（３号）：３１１〜３２３頁（１９９７年）に記載されている）が挙げられる。

一部の実施形態では、遺伝子配列バリアントの進化的保存に基づいて定義される特徴は、遺伝子配列バリアントが、予測される進化の期間にわたって保存されているまたは負の選択下にある部位を破壊するものであるかどうかを予測することによって生成される。進化的保存に基づいて定義される特徴を生成するために有用な方法の例としては、ＧＥＲＰ（Davydovら、PLoS Computational Biology、６巻（１２号）（２０１０年）に記載されている）、ＰｈａｓｔＣｏｎｓ（Siepelら、Genome Research、１５巻（８号）：１０３４〜１０５０頁（２００５年）に記載されている）、ＰｈｙｌｏＰ（Pollardら、Genome Research、２０巻（１号）：１１０〜２１頁（２０１０年）に記載されている）、ｖｅｒＰｈｙｌｏＰ（ＰｈｙｌｏＰと類似しているが、脊椎動物の配列に依拠するものである）、およびｖｅｒＰｈａｓｔＣｏｎｓ（ＰｈａｓｔＣｏｎｓと類似しているが、脊椎動物の配列に依拠するものである）が挙げられる。

一部の実施形態では、遺伝子配列バリアントの機能的ゲノム解析に基づいて定義される特徴は、遺伝子配列バリアントの位置および配列とアノテートされた機能的ゲノム領域の位置を比較することによって生成される。例えば、一部の実施形態では、機能的アノテーション特徴は、所与の遺伝子配列バリアントがゲノム内のエンハンサー領域もしくはプロモーター領域、または他の調節エレメントに影響を及ぼす確率を評価するものである。例えば、ＥＮＣＯＤＥ（Bernsteinら、Nature、４８９巻（７４１４号）：５７〜７４頁（２０１２年）に記載されている）およびＥｐｉｇｅｎｏｍｅＲｏａｄｍａp（Kundajeら、Nature、５１８巻（７５３９号）：３１７〜３３０頁（２０１５年）に記載されている）プロジェクトは、ゲノムの異なる領域の相対的な機能性に関する情報を提供するものである。遺伝子配列バリアントの機能的ゲノム解析に基づいて定義される特徴を生成するために有用な方法の例としては、ＣｈｒｏｍＨＭＭ（ErnstおよびKellis、Nature methods、９巻（３号）：２１５〜６頁（２０１４年）に記載されている）、ＳｅｇＷａｙ（Hoffmanら、Nature Methods、９巻（５号）：４７３〜６頁（２０１２年）に記載されている）、およびＦｉｔＣｏｎｓ（Gulkoら、Nature Genetics、４７巻（３号）：２７６〜２８３頁（２０１５年））が挙げられる。

本明細書に記載の方法により、特徴のアンサンブルを有する遺伝子配列バリアントにアノテートすることが可能になる。一部の実施形態では、遺伝子配列バリアントに１またはそれ超（例えば、２またはそれ超、３またはそれ超、４またはそれ超、５またはそれ超、６またはそれ超、７またはそれ超、８またはそれ超、９またはそれ超、１０またはそれ超、１２またはそれ超、１５またはそれ超、２０またはそれ超、２５またはそれ超、３０またはそれ超、４０またはそれ超、５０またはそれ超、または６０またはそれ超など）の特徴をアノテートする。配列は、例えば、McLarenら、Bioinformatics、２６巻（１６号）：２０６９〜７０頁（２０１０年）に記載されているＥｎｓｅｍｂｌ’ｓＶａｒｉａｎｔＥｆｆｅｃｔＰｒｅｄｉｃｔｏｒを使用してアノテートすることができる。一部の実施形態では、遺伝子配列バリアントの一部には、１つまたは複数の特徴をアノテートすることができない。一部の実施形態では、そのような欠損データは生成モデルに組み込まない。表１に、開示されている方法の一部の実施形態において使用することができる特徴の例および説明を提示する。
遺伝子配列バリアントについての機械学習モデル

ラベル付き良性遺伝子配列バリアントデータセットおよびラベルなし遺伝子配列バリアントデータセットを含む遺伝子配列バリアント訓練データセットに、本明細書に記載の１つまたは複数の特徴をアノテートし、それを使用して機械学習モデルを半教師ありプロセスで訓練する。一部の実施形態では、機械学習モデルは、生成的混合モデルなどの生成モデルである。しかし、機械学習モデルが識別モデルであることも意図されている。一部の実施形態では、機械学習モデルは、識別モデルを含む。一部の実施形態では、機械学習モデルは、サポートベクトルマシンを含まない。遺伝子配列バリアント訓練データセット内の各アノテートされた遺伝子配列バリアントを、算出されたモデルパラメータに基づいて、良性クラスターまたは病原性クラスターのいずれかに割り当てる。一般に、モデルパラメータは、期待値最大化アルゴリズムを使用して、遺伝子配列バリアント訓練データセットの正確なクラスター割り当ての確率が収束するまで反復して算出する。次いで、算出されたパラメータを固定し、訓練された機械学習モデルによって使用する。次いで、病原性クラスターまたは良性クラスターへの正確な割り当ての確率を決定することによって試験遺伝子配列バリアントが病原性である確率を予測するために、訓練された機械学習モデルを使用する。

機械学習モデルにより、遺伝子配列バリアント訓練データセット内の各遺伝子配列バリアントが病原性クラスターまたは良性クラスターのいずれかに当てはまることが仮定され、機械学習モデルにおいて隠れ変数クラスター割り当てによって表される。一部の実施形態では、機械学習モデルにより、遺伝子配列バリアント訓練データセット内の各遺伝子配列バリアントが複数の病原性クラスター（もしくは「病原性サブクラスター」）または複数の良性クラスター（もしくは「良性サブクラスター」）に当てはまることが仮定され、機械学習モデルにおいて隠れ変数クラスター割り当てとして表される。各遺伝子配列バリアントにはまた、本明細書に記載の複数の独立した特徴もアノテートされる。これらの特徴はそれぞれ、それらのクラスター割り当てから条件付きで独立した独自の確率分布を有する。さらに、パラメータ行列から引き出されたパラメータに従って各特徴の確率分布を算出する。各遺伝子配列バリアントの特徴アノテーションが遺伝子配列バリアントのクラスター割り当てに当てはまる最大尤度に基づいて、パラメータを反復して更新する。次いで、各遺伝子配列バリアントについてのクラスター割り当てを、特徴および算出されたパラメータに基づいて多項分布を生成することによって算出し、遺伝子配列バリアント訓練データセットについての正確なクラスター割り当ての確率を算出する。最初のパラメータは、ラベル付き良性遺伝子配列バリアントデータセット内の遺伝子配列バリアントを良性クラスターに制限することによって決定する。一部の実施形態では、パラメータを、例えば、期待値最大化アルゴリズムを使用することにより、遺伝子配列バリアントの良性クラスターまたは病原性クラスターのいずれかへの正確な割り当ての確率が収束するまで反復して決定する。この反復的な算出の間、ラベル付き良性遺伝子配列バリアントデータセット内の遺伝子配列バリアントは良性クラスターに制限し、ラベルなし遺伝子配列バリアントデータセット内の遺伝子配列バリアントは、生成モデルに基づく任意のクラスターへの割り当てを許容する。

図３は、本明細書に記載のプロセスに有用な生成モデルの一実施形態を例示する図である。生成モデルは、本明細書において提示される方程式によってさらに記載される。遺伝子配列バリアント訓練データセットは、
として表され、ｘ_ｉは任意の所与の遺伝子配列バリアントを表す。各遺伝子配列バリアントは、隠れ変数、Ｚ_ｉによって表されるクラスター割り当てを有する。一部の実施形態では、クラスター割り当ては、病原性クラスターまたは良性クラスターである。一部の実施形態では、クラスター割り当ては、複数の病原性サブクラスター内のサブクラスターまたは複数の良性サブクラスター内のサブクラスターへのものである。遺伝子配列バリアント訓練データセット内の各遺伝子配列バリアントにＤ特徴をアノテートし、したがって、
である。１つまたは複数の特徴のそれぞれは、任意の所与の遺伝子配列バリアントについて、クラスター割り当てＺ_ｉを考慮して、条件付きで独立したものである。さらに、１つまたは複数の特徴のそれぞれは、学習パラメータ行列θから引き出される、各クラスター（良性クラスターもしくは病原性クラスターのいずれか）またはサブクラスターについての学習パラメータを有し、したがって、１つまたは複数の特徴のそれぞれは、確率分布
を有する。各クラスターＺ_ｉについての多項分布を、πに対するディリクレ事前分布を伴うパラメータπおよびハイパーパラメータαを用いて仮定する。

一部の実施形態では、単変量ガウス分布または多項分布をＤ特徴のそれぞれに割り当てる。一部の実施形態では、遺伝子配列バリアントの多数の特徴をベクトルに群分けし、多変量ガウス分布を複合特徴ベクトルに割り当てる。多数の特徴を、多変量ガウス分布を有する複合特徴ベクトルに群分けすることは、ナイーブなベイズ仮説の影響を軽減するのに役立つ。

一部の実施形態では、パラメータπおよびθを反復して決定し、遺伝子配列バリアントの正確なクラスター割り当てＺ_ｉの確率を算出するために、期待値最大化アルゴリズムを使用する。期待値最大化アルゴリズムは、任意の所与の遺伝子配列バリアントが、パラメータのセットを考慮してクラスターに適正に割り当てられる確率を算出する第１の期待値ステップ、および、パラメータを更新してより高い正確なクラスター割り当ての確率を得る第２の最大化ステップに依拠するものである。正確なクラスター割り当ての確率が収束するまで、第１のステップおよび第２のステップを反復して進行させる。

一部の実施形態では、各ラベル付き良性遺伝子配列バリアントデータセット内の遺伝子配列バリアントについてクラスター割り当てＺ_ｉを良性クラスターとして固定することによって良性クラスターについてのパラメータπおよびθの最初の推定値を定義するために、ラベル付き良性遺伝子配列バリアントデータセットを使用する。一部の実施形態では、次いで、良性クラスターについてのこれらのパラメータπおよびθセットの最初の推定値を、病原性クラスターについての最初のパラメータπおよびθのために使用した。次いで、ラベルなし合成遺伝子配列バリアントデータセットについて、良性クラスターまたは病原性クラスターのいずれかへのソフトクラスター割り当てＺ_ｉを行った。生成モデルの最初の当てはめ後（すなわち、最初の良性クラスターについてのパラメータπおよびθの訓練および決定を１回行った後）、良性クラスターについてのパラメータπおよびθを固定し、病原性クラスターについてのパラメータπおよびθを更新した。一部の実施形態では、良性クラスターについての学習パラメータを２回またはそれ超の訓練後に固定し、病原性クラスターについての学習パラメータを更新させた。例えば、一部の実施形態では、良性クラスターについての１つまたは複数の学習パラメータをｎ回の訓練後に固定し、病原性クラスターについての学習パラメータを（ｎ＋ｘ）（式中、ｎおよびｘは正の整数である）回の訓練にわたって更新させた。

一部の実施形態では、各回の訓練中、期待値最大化アルゴリズムにより、各遺伝子配列バリアントについての隠れ変数Ｚ_ｉの事後確率を反復して算出し、データの尤度を最大にするために、ソフトクラスター割り当てＺ_ｉを考慮して病原性クラスターについてのパラメータπおよびθの値を更新する。

以下は、本明細書に記載のプロセスに有用であり得る例示的な期待値最大化アルゴリズムである。病原性クラスターについてのパラメータπおよびθを、各回の訓練ｔについて、同じく各回の訓練ｔについて更新する単変量ガウス特徴確率分布、多項特徴確率分布、および／または多変量ガウス特徴確率分布に基づいて更新した。

パラメータπ＝［π_１，π_２，．．．，π_Ｋ］を、病原性クラスターについて、各回の訓練について更新した：

特徴が単変量ガウス分布を有する場合、特徴を、クラスター割り当てＺ_ｉ＝ａおよび特徴ｊ＝ｂとして、
によって更新する。

特徴が多項分布を有する場合、クラスター割り当てＺ_ｉ＝ａおよび特徴ｊ＝ｂとして、学習パラメータベクトルの各成分ベクトルについての更新
ｐ_ａｂ＝［ｐ_ａｂ０，ｐ_ａｂ１，．．．，ｐ_ａｂＬ］は、
である。

特徴が多変量ガウスを有する場合、特徴を、クラスター割り当てＺ_ｉ＝ａおよび特徴ｊ＝ｂとして、
によって更新する。

一部の実施形態では、遺伝子配列バリアント訓練データセットの一部には、１つまたは複数の特徴をアノテートすることができず、その結果、欠損特徴がもたらされる。これは、特徴がゲノムのある特定の領域においてのみ定義されることに大きく起因する。例えば、いくつかの特徴はミスセンスバリアントに基づいてのみ定義され、また、全ての遺伝子配列バリアントがミスセンスバリアントを含むとは限らない。したがって、一部の実施形態では、ベイズ法様式で欠損特徴を説明するために、特定の遺伝子配列バリアントには存在しない特徴は組み込まない。多変量ガウス学習パラメータも、各ベクトルスコアについての平均ベクトルおよび共分散行列を算出することによって更新する。しかし、一部の場合では、１つまたは複数の欠損特徴により、非半正定値共分散行列がもたらされる。一部の実施形態では、行列の固有分解を計算し、負の固有値をわずかに正の数に設定し、行列を半正定値共分散行列として再作成することにより、非半正定値共分散行列を修正する。

図４は、期待値最大化アルゴリズムを使用して、生成機械学習モデルを本明細書に記載の遺伝子配列バリアントデータセットに基づいて訓練するプロセスの一実施形態を例示する図である。遺伝子配列バリアントデータセットは、ラベル付き良性遺伝子配列バリアントデータセットおよびラベルなし遺伝子配列バリアントデータセットを含む。ステップ４００において、遺伝子配列バリアント訓練データセット内の各遺伝子配列バリアントに複数の特徴をアノテートする。ステップ４０５において、複数の特徴のうちの各特徴を特徴確率分布に割り当てる。一部の実施形態では、確率分布は、単変量ガウス確率分布または多項確率分布である。任意選択で、多数の特徴をベクトルに群分けし、ベクトルを多変量ガウス確率分布に割り当てる。ステップ４１０において、ラベル付き遺伝子配列バリアントデータセット内の各遺伝子配列バリアントを多項確率分布によって定義される良性クラスターに割り当てる。ステップ４１５において、各特徴をパラメータ行列からの良性クラスターについての第１のパラメータに割り当て、したがって、各特徴確率分布は、良性クラスター割り当てに関連する。ステップ４２０において、良性クラスター割り当てを定義する多項確率分布を、ディリクレ事前分布およびハイパーパラメータを有する良性クラスターについての第２のパラメータに割り当てる。ステップ４１５において割り当てられた第１のパラメータおよびステップ４２０において割り当てられた第２のパラメータはどちらも、パラメータの最尤推定値に基づいて、特徴確率分布およびラベル付き遺伝子配列バリアントデータセット内の各遺伝子配列バリアントの良性クラスターへの既知の割り当てを考慮して算出される。ステップ４２５において、病原性クラスターについての第１のパラメータを良性クラスターについての第１のパラメータに対して設定する。ステップ４３０において、病原性クラスターについての第２のパラメータを良性クラスターの第２のパラメータに対して設定する。ステップ４３５において、ラベルなし合成遺伝子配列バリアントデータセット内の各遺伝子配列バリアントに、良性クラスターについての第２のパラメータを有する、良性クラスターを定義する多項分布、または病原性クラスターについての第２のパラメータを有する、病原性クラスターを定義する多項分布に基づいて、良性クラスターまたは病原性クラスターへのソフト割り当てをもたらす。良性クラスターを定義する多項分布と病原性クラスターを定義する多項分布はどちらも、多項分布に対するディリクレ事前分布および多項分布に共通するハイパーパラメータを含む。ステップ４４０において、遺伝子配列バリアントの良性クラスターまたは病原性クラスターへの正確な割り当ての事後確率を算出する。ステップ４４５において、病原性クラスターについての第１のパラメータ、病原性クラスターについての第２のパラメータ、およびその特徴確率分布を更新して遺伝子配列バリアント訓練データセット内の各遺伝子配列バリアントの特徴アノテーションの尤度を最大にする。良性クラスターについての第１のパラメータおよび良性クラスターについての第２のパラメータはステップ４４５では更新しない。遺伝子配列バリアント訓練データセット内の各遺伝子配列バリアントの特徴アノテーションの尤度が収束するまで、ステップ４３５、４４０、および４４５を反復して繰り返す。一部の実施形態では、記載のステップを代替的な順序で実施することができることが理解される。例えば、ステップ４１５およびステップ４２０を同時に実施することもでき、ステップ４１５をステップ４２０の前に実施することもでき、またはステップ４２０をステップ４１５の前に実施することもできることが理解される。
遺伝子配列バリアントの試験

遺伝子配列バリアント訓練データセットを使用して機械学習モデルを訓練したら、最後の反復によって決定されたパラメータπおよびθを固定した。一部の実施形態では、本明細書に記載の訓練された機械学習モデルを試験遺伝子配列バリアントに適用して出力スコアを得る。出力スコアにより、試験遺伝子配列バリアントが病原性である確率が予測される。一部の実施形態では、訓練された学習モデルに試験遺伝子配列バリアントを受信させる。一部の実施形態では、訓練された学習モデルにより、試験遺伝子配列バリアントのクラスターのそれぞれ（良性クラスターまたは病原性クラスター）への割り当てについての事後確率を算出する。

一部の実施形態では、試験遺伝子配列バリアントは、任意の生物体に由来する試験遺伝子配列バリアントである。一部の実施形態では、試験遺伝子配列バリアントは、霊長類の試験遺伝子配列バリアント、齧歯類の試験遺伝子配列バリアント、魚類の遺伝子配列バリアント、ショウジョウバエの遺伝子配列バリアント、原核生物の遺伝子配列バリアント、酵母の遺伝子配列バリアント、線形動物の遺伝子配列バリアント、または植物の遺伝子配列バリアントである。

種々の例示的実施形態が、本明細書に記載される。これらの実施例は、非限定的意味で参照される。それらは、公開された本技術のより広く適用できる側面を例証するために提供される。種々の実施形態の厳密な精神および範囲から逸脱することなく、種々の変更がなされ、また、均等物が代用されてよい。加えて、多くの修正が、特定の状況、材料、組成物、プロセス、プロセス行為、またはステップを、種々の実施形態の目的、精神、または範囲に適合させるためになされてよい。さらに、当業者によって理解されるであろうように、本明細書に記載および例証される個々の変形例はそれぞれ、種々の実施形態の範囲または精神から逸脱することなく、任意の他のいくつかの実施形態の特徴から容易に分離されてよい、またはそれらと併用されてよい個別の構成要素および特徴を有する。全てのそのような修正は、本開示と関連付けられる請求項の範囲内であることが意図される。
（実施例１）
訓練データ、機械学習モデルの訓練、および訓練された機械学習モデルの試験

図５Ａは、本発明の例示的な一実施形態を例示する。少なくとも１つのプロセッサおよびメモリを有する電子デバイスにおいて、機械学習モデルを訓練データに基づいて訓練する。訓練データは、ラベル付き良性遺伝子配列バリアントデータセットおよびラベルなし遺伝子配列バリアントデータセットを含む。図５Ａにおいて例示されているように、ラベル付き良性データセットは、１０００Ｇｅｎｏｍｉｃｓｐｒｏｊｅｃｔから、データベースを、発生頻度が高いことから良性であると仮定される、導出対立遺伝子発生頻度（ＤＡＦ）が９５％を超える遺伝子配列バリアントについて選別することによって得た。ラベル付き良性データセットは８８１，９２４種の遺伝子配列バリアントを有するものであった。ラベルなし遺伝子配列バリアントデータセットを、スライドする１．１Ｍｂウィンドウにおける局所突然変異率に応じて遺伝子座を突然変異させるＣＡＤＤのバリアントシミュレーションソフトウェアを使用してシミュレートした。ヒトゲノムと推定ヒト−チンパンジー祖先を比較することによって突然変異率を得、ゲノム全体にわたる置換行列に従って塩基を変化させた。ラベルなし遺伝子配列バリアントデータセットは、１，４０５，３５８種の遺伝子配列バリアントを有し、良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物であると仮定されるものであった。ラベル付き良性遺伝子配列バリアントデータセットおよびラベルなし遺伝子配列バリアントデータセットに、表１に列挙されている特徴をアノテートした。次いで、アノテートされた訓練データにより、本明細書に記載の機械学習モデルを訓練した（図５Ａにおいて「訓練」と表示されている）。シミュレートされた遺伝子配列バリアントをラベルなしデータとして扱うことにより、機械学習モデルは、明示的な病原性遺伝子配列バリアント訓練データセットを必要とせずに、良性遺伝子配列バリアントおよび病原性遺伝子配列バリアントの分布を学習する。図５Ｂでは、ラベルなし遺伝子配列バリアントが、学習モデルの上位２つの主要な成分として投影された（主成分分析（ＰＣＡ）を使用する）カーネル密度としてプロットされている（等高線を使用する）。

図５Ａにおいてさらに例示されている通り、訓練された機械学習モデルを試験するために、遺伝子配列バリアント試験データセットを病原性クラスターと良性クラスターに分別した。ゲノム配列バリアント試験データセットは、既知の病原性配列バリアント試験データセットおよび既知の良性配列バリアント試験データセットを含むものであった。図５Ａにおいて例示されているように、既知の病原性配列バリアント試験データセットは、ＨｕｍａｎＧｅｎｅＭｕｔａｔｉｏｎＤａｔａｂａｓｅ（ＨＧＭＤ）（２０１３年２月、ＰｒｏｆｅｓｓｉｏｎａｌＥｄｉｔｉｏｎ、Stensonら、Human mutation、２１巻（６号）：５７７〜８１頁（２００３年）に記載）から得た。既知の良性配列バリアント試験データセットは、１０００ＧｅｎｏｍｅｓＰｒｏｊｅｃｔ（１０００Ｇ）から、０．０５以上０．９５未満である導出対立遺伝子発生頻度によって選別したゲノム配列バリアントを選別することによって得た。次いで、訓練された機械学習モデルを既知の病原性遺伝子配列バリアントデータセットおよび既知の良性遺伝子配列バリアントに割り当てた。図５Ｂにおいて例示されているように、既知の良性遺伝子配列バリアントデータセットおよび既知の病原性遺伝子配列バリアントデータセットの両方からの遺伝子配列バリアントのランダムなサブセットをプロットし、別個のクラスターに十分に分離した。同様に、ランダムにシミュレートした非標準的なスプライス遺伝子配列バリアントのサブセット（図５Ｃ）またはランダムにシミュレートした遺伝子間遺伝子配列バリアント、調節遺伝子配列バリアント、もしくはイントロン遺伝子配列バリアントのサブセット（図５Ｄ）をプロットし、十分に分離し、別個のクラスターまたはサブクラスターを観察する。
（実施例２）
突然変異機械学習モデルの半教師ありクラスタリングと以前の方法の比較

本明細書に記載の方法は、配列バリアントの病原性の予測に関して、以前から公知の方法と比較してより性能が良い。「ＳＳＣＭ−Ｐａｔｈｏｇｅｎｉｃ」として図６Ａ、６Ｂ、７Ａ、７Ｂ、８、および１０において表示され、本明細書に記載されている本明細書に記載の方法の一実施形態の性能を、ＣＡＤＤ（Kircherら、Nature Genetics、４６巻（３号）：３１０〜５頁（２０１４年）に記載されている）および他の公知の方法を含めた、遺伝子配列バリアント病原性スコアを生成する公知の方法と比較した。

本明細書に記載の方法の一実施形態の概念実証として、遺伝子配列バリアント試験データセットを病原性クラスターと良性クラスターに分別した。遺伝子配列バリアント試験データセットは、既知の病原性遺伝子配列バリアント試験データセットおよび既知の良性遺伝子配列バリアント試験データセットを含むものであった。単に例として、既知の病原性遺伝子配列バリアント試験データセットをＨＧＭＤまたはＣｌｉｎＶａｒデータベース（２０１４年２月時点、Baker、Nature、４９１巻（７４２３号）：１７１頁（２０１２年）に記載されている）から得た。単に例として、良性遺伝子配列バリアント試験データセットを、１０００Ｇから、０．０５以上０．９５未満である導出対立遺伝子発生頻度によって選別したゲノム配列バリアントを選別することによって得た。別の例では、良性配列バリアント試験データセットをMacArthurら、Science、３３５巻（６０７０号）：８２３〜８頁（２０１２年）に記載されている機能喪失（ＬｏＦ）−耐容性遺伝子配列バリアントから得ることができる。

本明細書に記載の方法の実施形態（例えば、ＳＳＣＭ−Ｐａｔｈｏｇｅｎｉｃ）についての、他の方法と比較した、受信者動作特性（ＲＯＣ）についての曲線下面積（ＡＵＣ）値により、本開示の方法の高性能が実証される。ＲＯＣにより、本方法の特異度および感度の増大が実証される。表２に、ミスセンスＳＮＰ遺伝子配列バリアント、および非標準スプライス変化遺伝子配列バリアントを含めた種々のバリアントクラスに対するＳＳＣＭ−ＰａｔｈｏｇｅｎｉｃおよびＣＡＤＤのＲＯＣについてのＡＵＣ値の比較を要約する。表２において見ることができるように、ＳＳＣＭ−Ｐａｔｈｏｇｅｎｉｃは、各試験されたデータベースについて、試験された遺伝子配列バリアントのそれぞれについて、ＣＡＤＤよりも優れている。

ミスセンスバリアント。ミスセンスバリアントは、タンパク質機能を破壊する可能性があるが、病原性であるとは限らず、良性であるとも限らない。本明細書に開示されている方法では、病原性ミスセンス遺伝子配列バリアントと良性ミスセンス遺伝子配列バリアントをより良好に区別することができる。図６Ａおよび６Ｂにおいて例示され、さらに表３に示されている通り、本明細書に開示されている方法の一実施形態（例えば、ＳＳＣＭ−Ｐａｔｈｏｇｅｎｉｃ）は、受信者動作特性についてのＡＵＣ値によって決定される通り、病原性ミスセンス遺伝子配列バリアント（ＨＧＭＤから得たもの（ｎ＝６３，３６３；図６Ａ）またはＣｌｉｎＶａｒから得たもの（ｎ＝１８，７８３；図６Ｂ））と良性ミスセンス遺伝子配列バリアント（１０００Ｇから得たもの（ｎ＝２０，１３３））区別することにおいて、ＣＡＤＤ、ＳＩＦＴ、ＰｏｌｙＰｈｅｎ２、ＶｅｒｐＨｙｌｏＰおよびＶｅｒＰｈａｓｔＣｏｎｓよりも性能が良い。

非標準スプライスバリアント。本明細書に開示されている方法は、病原性非標準スプライス遺伝子配列バリアントと良性非標準スプライス遺伝子配列バリアントをより良好に区別することができる。図７Ａおよび７Ｂにおいて例示され、さらに表４に示されている通り、本明細書に開示されている方法の一実施形態（例えば、ＳＳＣＭ−Ｐａｔｈｏｇｅｎｉｃ）は、受信者動作特性についてのＡＵＣ値によって決定される通り、病原性非標準スプライス遺伝子配列バリアント（ＨＧＭＤから得たもの（ｎ＝２，６５８；図７Ａ）またはＣｌｉｎＶａｒから得たもの（ｎ＝２９０；図７Ｂ））と良性非標準スプライス遺伝子配列バリアント（１０００Ｇから得たもの（ｎ＝６，１５８））を区別することにおいて、ＣＡＤＤ、ＨＳＦ、ＮＮＳｐｌｉｃｅ、およびＭａｘＥｎｔよりも性能が良い。

病原性非標準スプライス遺伝子配列バリアントと良性非標準スプライス遺伝子配列バリアントを区別することにおける典型的方法（例えば、ＳＳＣＭ−Ｐａｔｈｏｇｅｎｉｃ）の高性能は、一部において、この例示的なモデルでは進化的保存スコアと組み合わせてスプライシングスコアを含め、適切に重み付けすることに起因する。図８は、スプライシング特徴を含むものか含まないものである、本発明の２つの典型的方法の示差的な性能を例示する図である。

非コード領域。非コード領域における遺伝子配列バリアントの病原性を予測することは、先行方法では特に困難であった。本明細書に記載の方法の一部の実施形態では、方法は、１つまたは複数のＥＮＣＯＤＥ特徴を使用して遺伝子配列バリアントにアノテートするものである。ＥＮＣＯＤＥ特徴は、突然変異により病原性遺伝子配列バリアントがもたらされる可能性がある活性なエンハンサーまたはプロモーター領域が予測されるように設計される。ＥＮＣＯＤＥ特徴の例としては、Ｈ３Ｋ２７Ａｃ、Ｈ３Ｋ４Ｍｅ３、およびＨ３Ｋ４Ｍｅが挙げられる。

本明細書に開示されている方法の一部の実施形態（例えば、ＳＣＣＭ−Ｐａｔｈｏｇｅｎｉｃ）では、非コード領域における遺伝子配列バリアントの病原性が首尾よく予測される。一部の実施形態では、本明細書に記載されている方法は、３’−ＵＴＲ、５’−ＵＴＲ、イントロン領域、または遺伝子間領域における遺伝子配列バリアントの病原性を予測するものである。これらの結果を図９に例示する。
（実施例３）
突然変異機械学習モデルの半教師ありクラスタリングと教師あり機械学習モデルの比較

本明細書に開示されている方法の例示的な一実施形態（例えば、ＳＳＣＭ−Ｐａｔｈｏｇｅｎｉｃ）を教師あり機械学習モデルと比較した。教師あり機械学習モデルでは、例示的なモデルと同じ特徴を使用したが、教師あり機械学習モデルでは、ラベル付き良性遺伝子配列バリアント訓練データセット（１０００Ｇから得たもの（ｎ＝２０，１３３））およびラベル付き病原性遺伝子配列バリアント訓練データセット（ＨＧＭＤから得たもの（ｎ＝６３，３６３））を使用して訓練した。対照的に、例示的な機械学習モデル（ＳＳＣＭ−Ｐａｔｈｏｇｅｎｉｃ）は、ラベル付き良性遺伝子配列バリアント訓練データセットおよび良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含むラベルなし遺伝子配列バリアントデータセットを使用して訓練した。

教師あり機械学習モデルおよび例示的なモデル（ＳＳＣＭ−Ｐａｔｈｏｇｅｎｉｃ）を試験するために、モデルを、ＣｌｉｎＶａｒミスセンス遺伝子配列バリアントおよびスプライス遺伝子配列バリアントを含む遺伝子配列バリアント試験データセットを使用して試験した。訓練中に使用したＣｌｉｎＶａｒ遺伝子配列バリアントとＨＧＭＤ病原性遺伝子配列バリアントの全体的な類似性から、この訓練モデルの性能は例示的なモデル（ＳＳＣＭ−Ｐａｔｈｏｇｅｎｉｃ）と同様に良好であるか、またはわずかにより良好であることが予測された。図１０は、これらの結果を例示する図である。

教師ありモデルのさらなる調査により、過剰適合の典型である、分散がより低く極端なスコアがより多い分布が明らかになった。これにより、過剰適合が、教師あり機械訓練モデルを試験データセットと同様の訓練データセットで訓練することに伴う固有の問題としてさらに実証される。
例示的な実施形態

以下は、本発明の例示的な実施形態である：

実施形態１
試験遺伝子配列バリアントの病原性を予測するためのコンピュータ実装方法であって、
少なくとも１つのプロセッサおよびメモリを有する電子デバイスにおいて、
（ａ）ラベル付き良性遺伝子配列バリアントを含む第１のデータセットと、
良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含むラベルなし遺伝子配列バリアントを含む第２のデータセットとを
含む訓練データを受信するステップ；
（ｂ）第１のデータセットおよび第２のデータセット内の各遺伝子配列バリアントに１つまたは複数の特徴をアノテートするステップ；
（ｃ）機械学習モデルを訓練データに基づいて訓練するステップであって、機械学習モデルが半教師ありプロセスで訓練されるステップ；
（ｄ）試験遺伝子配列バリアントに１つまたは複数の特徴をアノテートするステップ；ならびに
（ｅ）訓練後に、機械学習モデルに基づいて、試験遺伝子配列バリアントが病原性である確率を予測するステップ
を含む方法。

実施形態２
試験遺伝子配列バリアントの病原性を予測するためのコンピュータ実装方法であって、
少なくとも１つのプロセッサおよびメモリを有する電子デバイスにおいて、
(a)機械学習モデルを訓練データに基づいて訓練するステップであって、機械学習モデルが半教師ありプロセスで訓練され、前記訓練データは、ラベル付き良性遺伝子配列バリアントを含む第１のデータセットと、良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含むラベルなし遺伝子配列バリアントを含む第２のデータセットとを含み、前記第１のデータセットおよび前記第２のデータセット内の各バリアントに１つまたは複数の特徴をアノテートするステップ；
(b)試験遺伝子配列バリアントに１つまたは複数の特徴をアノテートするステップ；ならびに
(c)訓練後に、機械学習モデルに基づいて、試験遺伝子配列バリアントが病原性である確率を予測するステップ
を含む方法。

実施形態３
試験遺伝子配列バリアントの病原性を予測するための方法であって、
(a)機械学習モデルを訓練データに基づいて訓練するステップであって、機械学習モデルが半教師ありプロセスで訓練され、前記訓練データは、ラベル付き良性遺伝子配列バリアントを含む第１のデータセットと、良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含むラベルなし遺伝子配列バリアントを含む第２のデータセットとを含み、前記第１のデータセットおよび前記第２のデータセット内の各バリアントに１つまたは複数の特徴をアノテートするステップ；
(b)試験遺伝子配列バリアントに１つまたは複数の特徴をアノテートするステップ；ならびに
(c)訓練後に、機械学習モデルに基づいて、試験遺伝子配列バリアントが病原性である確率を予測するステップ
を含む方法。

実施形態４
試験遺伝子配列バリアントの病原性を予測するための方法であって、
(a)試験遺伝子配列バリアントに１つまたは複数の特徴をアノテートするステップ；および
(b)訓練された機械学習モデルに基づいて、試験遺伝子配列バリアントが病原性である確率を予測するステップであって、機械学習モデルが、訓練データに基づいて半教師ありプロセスで訓練され、訓練データが、ラベル付き良性遺伝子配列バリアントを含む第１のデータセットと、良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含むラベルなし遺伝子配列バリアントを含む第２のデータセットとを含み；第１のデータセットおよび第２のデータセット内の各遺伝子配列バリアントに１つまたは複数の特徴がアノテートされる、ステップ
を含む方法。

実施形態５
試験遺伝子配列バリアントの病原性を予測するための方法であって、
（ａ）学習モデルを訓練データに基づいて訓練するステップであって、学習モデルが半教師ありプロセスで訓練され、訓練データが、ラベル付き良性遺伝子配列バリアントを含む第１のデータセットと、良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含むラベルなし遺伝子配列バリアントを含む第２のデータセットとを含み、第１のデータセットおよび第２のデータセット内の各バリアントに１つまたは複数の特徴がアノテートされる、ステップ；
（ｂ）試験遺伝子配列バリアントに１つまたは複数の特徴をアノテートするステップ；および
（ｃ）訓練後に、学習モデルに基づいて、試験遺伝子配列バリアントが病原性である確率を予測するステップ
を含む方法。

実施形態６
試験遺伝子配列バリアントの病原性を予測するための方法であって、
(a)試験遺伝子配列バリアントに１つまたは複数の特徴をアノテートするステップ；および
(b)訓練された学習モデルに基づいて試験遺伝子配列バリアントが病原性である確率を予測するステップであって、学習モデルが、訓練データに基づいて半教師ありプロセスで訓練され、訓練データが、ラベル付き良性遺伝子配列バリアントを含む第１のデータセットと、良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含むラベルなし遺伝子配列バリアントを含む第２のデータセットとを含み、第１のデータセットおよび第２のデータセット内の各遺伝子配列バリアントに１つまたは複数の特徴がアノテートされる、ステップ
を含む方法。

実施形態７
訓練データを生成するステップをさらに含む、実施形態１から６までのいずれか１つに記載の方法。

実施形態８
前記機械学習モデルがサポートベクターを含まない、実施形態１から７のいずれか１つに記載の方法。

実施形態９
前記機械学習モデルが生成モデルを含む、実施形態１から８のいずれか１つに記載の方法。

実施形態1０
前記生成モデルが生成的混合モデルである、実施形態９に記載の方法。

実施形態１１
前記生成モデルが１つまたは複数の特徴によって指定される１つまたは複数の確率分布に依拠する、実施形態９または１０に記載の方法。

実施形態１２
前記１つまたは複数の特徴が条件付き独立確率分布を含む、実施形態１から１１のいずれか１つに記載の方法。

実施形態１３
前記１つまたは複数の確率分布は複数のノードを含み、前記ノードは不連続的特徴または連続的特徴を含み、ここで、前記不連続的特徴はディリクレ条件付き独立確率分布を含み、前記連続的特徴はガウス条件付き独立確率分布を含む、実施形態１１または１２に記載の方法。

実施形態１４
前記機械学習モデルが識別モデルを含む、実施形態１から１３のいずれか１つに記載の方法。

実施形態１５
前記半教師ありプロセスが期待値最大化によって実施される、実施形態１から１４のいずれか１つに記載の方法。

実施形態１６
前記訓練するステップは、前記訓練データ内の各遺伝子配列バリアントを良性クラスターまたは病原性クラスターに割り当てるステップを含む、実施形態１から１５のいずれか１つに記載の方法。

実施形態１７
前記訓練するステップが、
良性クラスターについての１つまたは複数の学習パラメータをｎ回の訓練後に固定するステップ；および
病原性クラスターについての１つまたは複数の学習パラメータを（ｎ＋ｘ）（式中、ｎおよびｘは正の整数である）回の訓練にわたって変動させるステップ
を含む、実施形態１６に記載の方法。

実施形態１８
前記良性クラスターについての前記１つまたは複数の学習パラメータが１回の訓練後に固定される、実施形態１７に記載の方法。

実施形態１９
前記機械学習モデルが、前記試験遺伝子配列バリアントを良性クラスターまたは病原性クラスターに割り当てる、実施形態１から１８のいずれか１つに記載の方法。

実施形態２０
前記良性クラスターが、複数の良性サブクラスターを含む、実施形態１６から１９のいずれか１つに記載の方法。

実施形態２１
前記病原性クラスターが、複数の病原性サブクラスターを含む、実施形態１６から２０のいずれか１つに記載の方法。

実施形態２２
前記ラベル付き良性遺伝子配列バリアントが、選択された集団において、９０％超の対立遺伝子発生頻度を有する、実施形態１から２１のいずれか１つに記載の方法。

実施形態２３
前記ラベルなし遺伝子配列バリアントが、シミュレートされた遺伝子配列バリアントである、実施形態１から２２のいずれか１つに記載の方法。

実施形態２４
前記試験遺伝子配列バリアントは、ヒト遺伝子配列バリアントである、実施形態１から２３のいずれか１つに記載の方法。

実施形態２５
前記１つまたは複数の特徴は、進化的保存スコア、ミスセンスバリアントスコア、挿入バリアントスコア、欠失バリアントスコア、スプライス部位バリアントスコア、または調節スコアに基づいて定義される特徴を含む、実施形態１から２４のいずれか１つに記載の方法。

実施形態２６
前記試験遺伝子配列バリアントは、ミスセンス遺伝子配列バリアント、ナンセンス遺伝子配列バリアント、スプライス部位遺伝子配列バリアント、挿入遺伝子配列バリアント、欠失遺伝子配列バリアント、または調節エレメント遺伝子配列バリアントを含む、実施形態１から２５のいずれか１つに記載の方法。

実施形態２７
前記訓練データは、ミスセンス遺伝子配列バリアント、ナンセンス遺伝子配列バリアント、スプライス部位遺伝子配列バリアント、挿入遺伝子配列バリアント、欠失遺伝子配列バリアント、または調節エレメント遺伝子配列バリアントを含む、実施形態１から２６のいずれか１つに記載の方法。

実施形態２８
実施形態１から２７のいずれかを実行するための、コンピュータで実行可能な指示を含む非一過性のコンピュータ可読メモリ媒体。

実施形態２９
１つまたは複数のプロセッサ、
メモリ、および
１つまたは複数のプログラムを含むシステムであって、前記１つまたは複数のプログラムが、前記メモリ内に記憶されており、前記１つまたは複数のプロセッサによって実行されるように構成されており、前記１つまたは複数のプログラムが、実施形態１から２８のいずれかを実行するための指示を含む、システム。

Claims

試験遺伝子配列バリアントの病原性を予測するためのコンピュータ実装方法であって、
少なくとも１つのプロセッサおよびメモリを有する電子デバイスにおいて、
（ａ）ラベル付き良性遺伝子配列バリアントを含む第１のデータセットと、
ラベルなし遺伝子配列バリアントを含む第２のデータセットであって、前記ラベルなし遺伝子配列バリアントが良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含む、第２のデータセットとを
含む訓練データを受信するステップ；
（ｂ）前記第１のデータセットおよび前記第２のデータセット内の各遺伝子配列バリアントに１つまたは複数の特徴をアノテートするステップ；
（ｃ）機械学習モデルを前記訓練データに基づいて訓練するステップであって、前記機械学習モデルが半教師ありプロセスで訓練されるステップ；
（ｄ）前記試験遺伝子配列バリアントに前記１つまたは複数の特徴をアノテートするステップ；ならびに
（ｅ）訓練後に、前記機械学習モデルに基づいて、前記試験遺伝子配列バリアントが病原性である確率を予測するステップ
を含む方法。
試験遺伝子配列バリアントの病原性を予測するためのコンピュータ実装方法であって、
少なくとも１つのプロセッサおよびメモリを有する電子デバイスにおいて、
（ａ）機械学習モデルを訓練データに基づいて訓練するステップであって、前記機械学習モデルが半教師ありプロセスで訓練され、前記訓練データは、
ラベル付き良性遺伝子配列バリアントを含む第１のデータセットと、
ラベルなし遺伝子配列バリアントを含む第２のデータセットであって、前記ラベルなし遺伝子配列バリアントが良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含む、第２のデータセットとを含み、前記第１のデータセットおよび前記第２のデータセット内の各バリアントに１つまたは複数の特徴をアノテートするステップ；
（ｂ）前記試験遺伝子配列バリアントに前記１つまたは複数の特徴をアノテートするステップ；ならびに
（ｃ）訓練後に、前記機械学習モデルに基づいて、前記試験遺伝子配列バリアントが病原性である確率を予測するステップ
を含む方法。
試験遺伝子配列バリアントの病原性を予測するための方法であって、
（ａ）機械学習モデルを訓練データに基づいて訓練するステップであって、前記機械学習モデルが半教師ありプロセスで訓練され、前記訓練データは、
ラベル付き良性遺伝子配列バリアントを含む第１のデータセットと、
ラベルなし遺伝子配列バリアントを含む第２のデータセットであって、前記ラベルなし遺伝子配列バリアントが良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含む、第２のデータセットとを含み、前記第１のデータセットおよび前記第２のデータセット内の各バリアントに１つまたは複数の特徴をアノテートするステップ；
（ｂ）前記試験遺伝子配列バリアントに前記１つまたは複数の特徴をアノテートするステップ；ならびに
（ｃ）訓練後に、前記機械学習モデルに基づいて、前記試験遺伝子配列バリアントが病原性である確率を予測するステップ
を含む方法。
試験遺伝子配列バリアントの病原性を予測するための方法であって、
（ａ）前記試験遺伝子配列バリアントに１つまたは複数の特徴をアノテートするステップ；および
（ｂ）訓練された機械学習モデルに基づいて、前記試験遺伝子配列バリアントが病原性である確率を予測するステップであって、前記機械学習モデルが、訓練データに基づいて半教師ありプロセスで訓練され、前記訓練データが、
ラベル付き良性遺伝子配列バリアントを含む第１のデータセットと、
ラベルなし遺伝子配列バリアントを含む第２のデータセットであって、前記ラベルなし遺伝子配列バリアントが良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含む、第２のデータセットとを含み；前記第１のデータセットおよび前記第２のデータセット内の各遺伝子配列バリアントに１つまたは複数の特徴がアノテートされる、ステップ
を含む方法。
試験遺伝子配列バリアントの病原性を予測するための方法であって、
（ａ）学習モデルを訓練データに基づいて訓練するステップであって、前記学習モデルが半教師ありプロセスで訓練され、前記訓練データが、
ラベル付き良性遺伝子配列バリアントを含む第１のデータセットと、
ラベルなし遺伝子配列バリアントを含む第２のデータセットであって、前記ラベルなし遺伝子配列バリアントが良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含む、第２のデータセットとを含み、前記第１のデータセットおよび前記第２のデータセット内の各バリアントに１つまたは複数の特徴がアノテートされる、ステップ；
（ｂ）前記試験遺伝子配列バリアントに前記１つまたは複数の特徴をアノテートするステップ；および
（ｃ）訓練後に、前記学習モデルに基づいて、前記試験遺伝子配列バリアントが病原性である確率を予測するステップ
を含む方法。
試験遺伝子配列バリアントの病原性を予測するための方法であって、
（ａ）前記試験遺伝子配列バリアントに１つまたは複数の特徴をアノテートするステップ；および
（ｂ）訓練された学習モデルに基づいて前記試験遺伝子配列バリアントが病原性である確率を予測するステップであって、前記学習モデルが、訓練データに基づいて半教師ありプロセスで訓練され、前記訓練データが、
ラベル付き良性遺伝子配列バリアントを含む第１のデータセットと、
ラベルなし遺伝子配列バリアントを含む第２のデータセットであって、前記ラベルなし遺伝子配列バリアントが良性遺伝子配列バリアントと病原性遺伝子配列バリアントの混合物を含む、第２のデータセットとを含み、前記第１のデータセットおよび前記第２のデータセット内の各バリアントに１つまたは複数の特徴がアノテートされる、ステップ
を含む方法。
前記訓練データを生成するステップをさらに含む、請求項１から６のいずれか一項に記載の方法。
前記機械学習モデルがサポートベクターを含まない、請求項１から７のいずれか一項に記載の方法。
前記機械学習モデルが生成モデルを含む、請求項１から８のいずれか一項に記載の方法。
前記生成モデルが生成的混合モデルである、請求項９に記載の方法。
前記生成モデルが前記１つまたは複数の特徴によって指定される１つまたは複数の確率分布に依拠する、請求項９または１０に記載の方法。
前記１つまたは複数の特徴が条件付き独立確率分布を含む、請求項１から１１のいずれか一項に記載の方法。
前記１つまたは複数の確率分布は複数のノードを含み、前記ノードは不連続的特徴または連続的特徴を含み、ここで、前記不連続的特徴はディリクレ条件付き独立確率分布を含み、前記連続的特徴はガウス条件付き独立確率分布を含む、請求項１１または１２に記載の方法。
前記機械学習モデルが識別モデルを含む、請求項１から１３のいずれか一項に記載の方法。
前記半教師ありプロセスが期待値最大化によって実施される、請求項１から１４のいずれか一項に記載の方法。
前記訓練するステップは、前記訓練データ内の各遺伝子配列バリアントを良性クラスターまたは病原性クラスターに割り当てるステップを含む、請求項１から１５のいずれか一項に記載の方法。
前記訓練するステップが、
前記良性クラスターについての１つまたは複数の学習パラメータをｎ回の訓練後に固定するステップ；および
前記病原性クラスターについての１つまたは複数の学習パラメータを（ｎ＋ｘ）（式中、ｎおよびｘは正の整数である）回の訓練にわたって変動させるステップ
を含む、請求項１６に記載の方法。
前記良性クラスターについての前記１つまたは複数の学習パラメータが１回の訓練後に固定される、請求項１７に記載の方法。
前記機械学習モデルが、前記試験遺伝子配列バリアントを良性クラスターまたは病原性クラスターに割り当てる、請求項１から１８のいずれか一項に記載の方法。
前記良性クラスターが、複数の良性サブクラスターを含む、請求項１６から１９のいずれか一項に記載の方法。
前記病原性クラスターが、複数の病原性サブクラスターを含む、請求項１６から２０のいずれか一項に記載の方法。
前記ラベル付き良性遺伝子配列バリアントが、選択された集団において、９０％超の対立遺伝子発生頻度を有する、請求項１から２１のいずれか一項に記載の方法。
前記ラベルなし遺伝子配列バリアントが、シミュレートされた遺伝子配列バリアントである、請求項１から２２のいずれか一項に記載の方法。
前記試験遺伝子配列バリアントは、ヒト遺伝子配列バリアントである、請求項１から２３のいずれか一項に記載の方法。
前記１つまたは複数の特徴は、進化的保存スコア、ミスセンスバリアントスコア、挿入バリアントスコア、欠失バリアントスコア、スプライス部位バリアントスコア、または調節スコアに基づいて定義される特徴を含む、請求項１から２４のいずれか一項に記載の方法。
前記試験遺伝子配列バリアントは、ミスセンス遺伝子配列バリアント、ナンセンス遺伝子配列バリアント、スプライス部位遺伝子配列バリアント、挿入遺伝子配列バリアント、欠失遺伝子配列バリアント、または調節エレメント遺伝子配列バリアントを含む、請求項１から２５のいずれか一項に記載の方法。
前記訓練データが、ミスセンス遺伝子配列バリアント、ナンセンス遺伝子配列バリアント、スプライス部位遺伝子配列バリアント、挿入遺伝子配列バリアント、欠失遺伝子配列バリアント、調節エレメント遺伝子配列バリアント、またはこれらの組合せを含む、請求項１から２６までのいずれか一項に記載の方法。
請求項１から２７のいずれかを実行するための、コンピュータで実行可能な指示を含む非一過性のコンピュータ可読メモリ媒体。
１つまたは複数のプロセッサ、
メモリ、および
１つまたは複数のプログラムを含むシステムであって、前記１つまたは複数のプログラムが、前記メモリ内に記憶されており、前記１つまたは複数のプロセッサによって実行されるように構成されており、前記１つまたは複数のプログラムが、請求項１から２８のいずれかを実行するための指示を含む、システム。