JP2023029827A

JP2023029827A - バリアントコールのためのニューラルネットワーク

Info

Publication number: JP2023029827A
Application number: JP2022131827A
Authority: JP
Inventors: ボールアーサー; Ball Arthur; ペキュシェニコラス; Pecuchet Nicolas
Original assignee: Dassault Systemes SE
Current assignee: Dassault Systemes SE
Priority date: 2021-08-20
Filing date: 2022-08-22
Publication date: 2023-03-07
Also published as: EP4138003A1; CN115713107A; US20230053405A1

Abstract

【課題】参照ゲノムを基準としたバリアントコールを改良する方法及びプログラムを提供する。【解決手段】参照ゲノムを基準としたバリアントコールのためにニューラルネットワークを機械学習させるためのコンピュータ実装方法であって、ニューラルネットワークは、参照ゲノムのゲノム位置に対してアラインされた各リードをそれぞれ指定するデータ片の1つ以上のセットを入力として受け取り、当該ゲノム位置でのバリアントの存在に関する情報を出力し、データ片の各セットに対し、データ片のセットを入力として受け取り処理するそれぞれの関数を適用する。それぞれの関数は対称性を有する。【選択図】図１

Description

本発明は、コンピュータプログラム及びシステムの分野、より具体的には、参照ゲノムを基準としたバリアントコールに関する。

ここ数十年におけるNew Genomic Sequencing（ＮＧＳ）プラットフォームがもたらした技術的進歩により、ゲノム配列決定が普及してきている。ゲノムが利用可能になるとともに、当該ゲノムを利用する医療用途が開発されている。例えば、近年では、一人ひとりに合わせた個別化医療が注目を集めている。直接的な用途としては、例えば、遺伝性疾患の診断及び治療のための癌のプロファイリングが挙げられる。

ゲノム配列決定は、プレシジョン・メディシンや伝染病学からのニーズの高まりに対応するため、ハードウェアとソフトウェアの両方の面で急速に進化し続けている分野である。一般に、配列決定は、一個体に存在するゲノムバリアントを同定するために使用されることが多い。バリアントは、標準的な参照ゲノム（Genome Reference Consortium）との比較に基づいて同定（つまり「コール」）される。バリアントにはさまざまな種類があり、参照ゲノムの一塩基が置換される点突然変異のバリアントは「ＳＮＰ」（一塩基多型）、参照と比較して塩基が除去されるバリアントは「欠失」、塩基が追加される（参照ゲノムに１つ以上の塩基が追加される）バリアントは「挿入」と呼ばれる。また、多数の塩基にまたがるバリアントは「構造バリアント」と呼ばれる。

バリアントコールのプロセスには、どの対立遺伝子が二倍体胚ゲノムに存在するかを同定するため、各ゲノム位置を調べることが含まれてよく、（ｉ）対立遺伝子が両方とも同一の場合はホモ接合、又は（ｉｉ）対立遺伝子が異なる場合はヘテロ接合である。各対立遺伝子は、参照ゲノムと一致するか、又は、一致せずバリアントである可能性がある。腫瘍の場合、ゲノム位置が参照ゲノム又は同位置に存在する生殖細胞系列の対立遺伝子のいずれとも一致しない場合、バリアントがコールされる。

リード生成のためには、天然ＤＮＡを断片化し、そのまま配列決定するか、又は、事前増幅ステップ後に配列決定する。リード長は、１００ｂｐ（例：Illuminaクノロジーを使用）から１０ｋｂｐ（例：Nanoporeテクノロジーを使用）までさまざまである。これらのテクノロジーに共通する特徴として、冗長に配列決定を行い、実験誤差を相殺し、細胞集団における遺伝的不均一性を考慮することが挙げられる。位置ごとのリード平均数は、配列決定の「深度」と呼ばれる。

人口規模でのゲノミクス発展のためには正確かつ高性能なアルゴリズムが不可欠であるため、バリアントコールは活発に研究されている分野である。性能は改良を重ねており、近い将来も改良し続ける可能性がある。特に最近では、バイオインフォマティクス分野の研究者が機械学習方法を利用しようとしている。特に、Googleが開発したDeepvariantがそうである。しかし、留意すべき点の１つに、正常なＤＮＡでも非常に困難な問題であるのに、腫瘍ＤＮＡではさらに複雑になるということがある。実際に、腫瘍細胞は非常に急速に変異するため、同一ＤＮＡを共有せず、不均一な集団である。

こういった背景の中で、参照ゲノムを基準としたバリアントコールを行うための改良されたソリューションが依然として必要とされている。

したがって、参照ゲノムを基準としたバリアントコールのためにニューラルネットワークを機械学習させるためのコンピュータ実装方法が提供される。当該ニューラルネットワークは、当該参照ゲノムのゲノム位置に対してアラインされた各リードをそれぞれ指定するデータ片の１つ以上のセットを入力として受け取るよう構成される。当該ニューラルネットワークは、当該ゲノム位置でのバリアントの存在に関する情報を出力するよう構成される。当該ニューラルネットワークは、データ片の各セットに対し、データ片のセットを入力として受け取り処理するように構成されるそれぞれの関数を含む。当該それぞれの関数は対称性を有する。

上記の機械学習のための方法（本機械学習方法）は、以下のうちの１つ以上を含んでもよい：
－各データ片は、各リードの塩基ディスクリプタの各配列を含んでよい、
－上記それぞれの関数は、塩基ディスクリプタの各配列を処理するための１つ以上の畳み込み層を含んでよい、
－各畳み込み層は、１つ以上の１次元畳み込みフィルタを適用してよい、
－上記塩基ディスクリプタは、挿入サイズ及び／又は欠失サイズを表す１つ以上のディスクリプタ、例えば挿入サイズディスクリプタ及び欠失サイズディスクリプタを含んでよい、
－上記それぞれの関数は、それぞれ、上記の１つ以上の畳み込み層の出力を順序に関係なく特徴のセットに畳む削減層を含んでよい、
－削減層はさらに、各リードに関するリードディスクリプタを入力として受け取ってよい、
－上記リードディスクリプタは、ハプロタイプ支持ディスクリプタを含んでよい、
－削減層は、平均及び／又は標準偏差など、１つ以上の順序無関係の演算子を含んでよい、
－ニューラルネットワークは、各削減層の出力を処理し、分類を実行するように構成される１つ以上の全結合層を含んでよい、
－ニューラルネットワークはさらに、パイルディスクリプタを入力として受け取ってよい、
－パイルディスクリプタは、深度を表すディスクリプタ及び／又はベイジアンバリアント推定を表すディスクリプタを含んでよい、及び／又は
－上記したリードの１つ以上のセットは、生殖細胞系列バリアントに関する第１のリードのセット及び体細胞バリアントに関する第２のリードのセットを含んでよく、ここで、ニューラルネットワークは、
・当該第１のリードのセットのための第１の関数及び当該第２のリードのセットのための第２の関数、及び
・当該第１の関数及び第２の関数の出力を集約するための層、を含んでよい。

参照ゲノムを基準としたバリアントコールのための第１のコンピュータ実装方法がさらに提供される。第１のバリアントコール法は、参照ゲノムのゲノム位置に対してアラインされた各リードをそれぞれ指定するデータ片の１つ以上のセットを入力として提供することを含む。第１のバリアントコール方法は、上記の機械学習方法に従って機械学習したニューラルネットワークを当該入力に適用して、当該ゲノム位置でのバリアントの存在に関する情報を出力することを含む。ニューラルネットワークの適用には、データ片の各セットに対し、データ片のセットを入力として受け取り処理するように構成される当該ニューラルネットワークのそれぞれの対称関数を適用することが含まれる。

上記第１のバリアントコール方法を含む、参照ゲノムを基準としたバリアントコールのための第２のコンピュータ実装方法がさらに提供される。第２のバリアントコール方法は、参照ゲノムに対してアラインされたリードの１つ以上のセットを提供することを含む。第２のバリアントコール方法は、当該リードの１つ以上のセットを参照ゲノムと比較することによって、参照ゲノム内の関心領域のセットを決定することを含む。第２のバリアントコール方法は、特定の関心領域ごとに、以下のステップを含む。第１のステップは、上記した特定領域の提供されたリードの１つ以上のセットに基づいてハプロタイプ再構築を実行し、２つ以上のハプロタイプを同定することである。第２のステップは、当該２つ以上のハプロタイプに基づいて、当該特定領域のリードの１つ以上のセットを再アラインすることである。第３のステップは、再アラインされたリードの１つ以上のセットと当該２つ以上のハプロタイプに基づいて、特定領域の潜在的なバリアントを推測することである。第４のステップは、粗粒度フィルタリングを実行して、潜在的なバリアントから候補バリアントを検出することである。検出された各候補バリアントは、それぞれのゲノム位置に対応する。第２のバリアントコール方法は、第５のステップとして、検出された候補ごとに次のサブステップを含む。第１のサブステップは、検出された候補に対応するゲノム位置に対してアラインされた各リードをそれぞれ指定するデータ片の１つ以上のセットを同定することである。第２のサブステップは、前述のデータ片の１つ以上のセットに対し、第１のバリアントコール方法の提供すること及び適用することを実行することである。

第２のバリアントコール方法は、以下のうちの１つ以上を含んでよい：
－上記ハプロタイプ再構築の実行には、以下が含まれてよい：
・有向非巡回グラフで所定の数の最長経路を列挙することにより、潜在的なハプロタイプのセットを推測すること、及び、任意で、
・当該潜在的なハプロタイプのセットからハプロタイプのサブセットを選択することであり、ここで、ハプロタイプのサブセットは、セットのうち、支持リード数が最も多い潜在的なハプロタイプであり、ハプロタイプのサブセットは、ハプロタイプ再構築によって同定される２つ以上のハプロタイプに対応する、
－上記リードの１つ以上のセットは、生殖細胞系列バリアントに関する第１のリードのセットを含んでよく、ここで、上記特定領域の潜在的なバリアントを推測することは、生殖細胞系列バリアントについて、バリアントが参照よりも可能性が高い確率を評価することを含んでよい、
－上記リードの１つ以上のセットは、体細胞バリアントに関する第２のリードのセットを含んでよく、ここで、上記特定領域の潜在的なバリアントを推測することは、体細胞バリアントについて、
・生殖細胞系列バリアントの存在及び／又は体細胞バリアントの存在、及び
・体細胞バリアントの頻度、を考慮してよい。

本機械学習方法に従って機械学習したニューラルネットワークを含むデータ構造（すなわち、ニューラルネットワークを表すデータ）がさらに提供される。

本機械学習方法を実行するための命令を含むコンピュータプログラムがさらに提供される。

第１のバリアントコール方法及び／又は第２のバリアントコール方法を実行するための命令を含むコンピュータプログラム及び／又はその使用方法がさらに提供される。

上記データ構造及び／又は上記コンピュータプログラムのいずれか若しくは両方をその上に記録したデータ記憶媒体を含むデバイスがさらに提供される。

当該デバイスは非一過性のコンピュータ可読媒体を形成又は非一過性のコンピュータ可読媒体として機能してもよく、例えば、ＳａａＳ（サービスとしてのソフトウェア）又は他のサーバー、あるいはクラウドベースのプラットフォームなどが挙げられる。あるいは、当該デバイスは、データ記憶媒体と結合したプロセッサを備えてもよい。したがって、当該デバイスは、全体的又は部分的にコンピュータシステムを形成してもよい（例えば、デバイスはシステム全体のサブシステムである）。当該システムは、プロセッサと結合したグラフィカルユーザーインターフェースをさらに備えてもよい。

第１のバリアントコール方法のフローチャートを示す。第２のバリアントコール方法のフローチャートを示す。バリアントコールプロセスの一例を示す。ハプロタイプ再構築の一例を示す。再現率の関数として表される生殖細胞系列候補バリアント数の一例を示す。再現率の関数として表される体細胞候補バリアント数の一例を示す。パイルアップ画像の一例を示す。本ニューラルネットワークのアーキテクチャの一例を示す。体細胞バリアントコールのための本ニューラルネットワークのアーキテクチャの一例を示す。生殖細胞系列の場合の精度、再現率、及びＦ１スコアメトリックの結果の一例を示す。生殖細胞系列の場合の誤差数メトリックの結果の一例を示す。体細胞の場合の従来技術のバリアントコーラーとの結果を比較した一例を示す。本システムの一例を示す。

参照ゲノムを基準としたバリアントコールのためにニューラルネットワークを機械学習させるためのコンピュータ実装方法を提案する。当該ニューラルネットワークは、参照ゲノムのゲノム位置に対してアラインされた各リードをそれぞれ指定するデータ片の１つ以上のセットを入力として受け取るよう構成される。当該ニューラルネットワークは、当該ゲノム位置でのバリアントの存在に関する情報を出力するよう構成される。当該ニューラルネットワークは、データ片の各セットに対し、データ片のセットを入力として受け取り処理するように構成されるそれぞれの関数を含む。当該それぞれの関数は対称性を有する。

図１のフローチャートを参照すると、参照ゲノムを基準としたバリアントコールのための第１のコンピュータ実装方法がさらに提供される。第１のバリアントコール法は、参照ゲノムのゲノム位置に対してアラインされた各リードをそれぞれ指定するデータ片の１つ以上のセットを入力として提供することＳ７００を含む。第１のバリアントコール方法は、上記の機械学習方法に従って機械学習したニューラルネットワークに当該入力に適用することＳ８００を含む。

当該ニューラルネットワークは、上記したデータ片の１つ以上のセットを入力として受け取り、ゲノム位置でのバリアントの存在に関する情報を出力するように構成される。当該ニューラルネットワークは、データ片の各セットに対し、データ片のセットを入力として受け取り処理するように構成されるそれぞれの関数を含む。各セットのそれぞれの関数は対称性を有する。上記したニューラルネットワークの適用には、データ片の各セットに対し、データ片のセットを入力として受け取り処理するように構成される当該ニューラルネットワークのそれぞれの対称関数を適用することが含まれる。

図２のフローチャートを参照すると、参照ゲノムを基準としたバリアントコールのための第２のコンピュータ実装方法がさらに提供され、当該第２のコンピュータ実装方法には、図１の方法が組み込まれる。第２のバリアントコール方法は、参照ゲノムに対してアラインされたリードの１つ以上のセットを提供することＳ０００を含む。第２のバリアントコール方法は、当該リードの１つ以上のセットを参照ゲノムと比較することによって、参照ゲノム内の関心領域のセットを決定することＳ１００を含む。当該セットの特定の関心領域ごとに、第２のバリアントコール方法は、以下のステップを含む。第１のステップは、上記した特定領域の提供されたリードの１つ以上のセットに基づいてハプロタイプ再構築を実行し、２つ以上のハプロタイプを同定することＳ２００である。第２のステップは、当該２つ以上のハプロタイプに基づいて、当該特定領域のリードの１つ以上のセットを再アラインすることＳ３００である。第３のステップは、再アラインされたリードの１つ以上のセットと当該２つ以上のハプロタイプに基づいて、当該特定領域の潜在的なバリアントを推測することＳ４００である。第４のステップは、粗粒度フィルタリングを実行して、当該潜在的なバリアントから候補バリアントを検出することＳ５００である。検出された各候補バリアントは、それぞれのゲノム位置に対応する。第２のバリアントコール方法は、第５のステップとして、検出された候補ごとに次のサブステップを含む。第１のサブステップは、検出された候補に対応するゲノム位置に対してアラインされた各リードをそれぞれ指定するデータ片の１つ以上のセットを同定することＳ６００である。第２のサブステップは、当該データ片の１つ以上のセットに対して、第１のバリアントコール方法の提供することＳ７００及び適用することＳ８００を実行することである。

上記した領域のセットを決定することＳ１００は、参照ゲノムの位置を調べ、所定の位置ごとに、当該所定の位置にアラインされたリードにおける不一致率を計算することを含むプロセスを実行することを含んでよい。このステップにおいて、当該プロセスは、所定の閾値よりも高い比率を有する位置を記録する（すなわち、マークする）ことを含んでよい。同時に、当該プロセスはそのような位置を関心領域（不一致率が閾値よりも数倍高い位置）に集約してよい。当該プロセスによって閾値よりも高い比率である位置が算出され次第、当該プロセスはその領域を関心領域として記録してよい。上記決定することＳ１００は、所定の限界（例えば、塩基１０００個の限界）内で、ある塩基から隣の塩基へと領域を拡大することを含んでよい。

このような方法により、参照ゲノムを基準としたバリアントコールの改良されたソリューションが構成される。

特に、本機械学習方法は、速度、精度、及び／又は利用可能なデータ活用など、機械学習の技術を利用する。さらに、本機械学習方法は、効率的及び／又は正確な機械学習を可能にする。実際に、それぞれの関数は対称的であり、よって、配列決定の出力においてリードの順序は意味を持たないため、ニューラルネットワーク学習を重要な情報に集中させることができる。

「対称」とは、対称関数の数学的定義を指す。つまり、「対称」関数は、変数のいかなる順列に対しても値が不変である複数の変数の関数（どんなσ順列でも、ｆ（ｘ_１，…，ｘ_ｎ）＝ｆ（σ（ｘ_１，…，ｘ_ｎ）））である。したがって、入力された１つ以上のセットのそれぞれにおけるリード指定データ片の順序は、ニューラルネットワークの結果、すなわちニューラルネットワークが出力するバリアントの存在に関する情報に影響を与えない。つまり、本ニューラルネットワークは、入力された各セット内のリード指定データ片の順序に対して不変な構造である。

ニューラルネットワークが入力としてデータ片の複数のセット及び複数の関数を受け取るよう構成される場合、当該関数は同じであってもよく、つまり、同じパラメータ値及び／又は重みを共有してよい。あるいは、当該関数は別の関数であってもよい／異なっていてもよい。

本機械学習方法は、参照ゲノムに関するトレーニングサンプルのデータセットを提供すること、及び、提供されたトレーニングサンプルのデータセットに基づいてニューラルネットワークをトレーニングすることを含んでよい。各トレーニングサンプルは、参照ゲノムの所定のゲノム位置に対してアラインされた各リードをそれぞれ指定するデータ片の１つ以上のセット、及び、当該ニューラルネットワークに対応する出力、すなわち、当該所定のゲノム位置におけるバリアントの存在に関する出力情報を含んでよい。このような出力（つまり、正解）は、従来の決定論的手法によるデータセットの構築で取得してよい。機械学習の分野でそれ自体公知であるように、ニューラルネットワークによる入力の処理には、入力への演算の適用が含まれ、ここで、演算は重み値を含むデータによって定義される。したがって、ニューラルネットワークの学習／トレーニングには、そのような学習用に構成されたデータセットに基づいて重みの値を決定することが含まれ、このようなデータセットは、学習データセット又はトレーニングデータセットと呼ばれることもある。データセットは、トレーニングサンプルを含んでよい。各トレーニングサンプルは、それぞれ、あるゲノム位置に対してアラインされた各リードのデータ片の１つ以上のセット、及び当該ゲノム位置でのバリアントの存在に関するそれぞれの情報を含んでよい。当該それぞれの情報は、１回以上の予備調査の結果であってよく、学習の正解と見なされ得る。トレーニングサンプルは、学習後にニューラルネットワークが使用される多様な状況を表している。データセットは、１０００、１００００、１０００００、又は１００００００を超える数のトレーニングサンプルを含んでいてもよい。本開示の文脈において、「ニューラルネットワークを学習させる」とは、データセットがニューラルネットワークの学習／トレーニングデータセットであり、重みの値（「パラメータ」）がそれに基づいていることを意味する。

ニューラルネットワークは、ディープニューラルネットワーク（ＤＮＮ）から構成されてもよく、及び／又は複数のサブネットワークを含んでもよい。本機械学習方法は、当該複数のサブネットワークを結合して又は別々にトレーニングすることを含んでよい。「結合して」とは、当該複数のサブネットワークの重みがすべて同じ単一の最適化における変数であることを意味する。データ片のセットが複数のセットの場合、各関数はそれぞれのサブネットワークを形成し、本機械学習方法は、データ片の複数のセットに関連する当該関数又はサブネットワークを結合して又は別々にトレーニングすることを含んでよい。

次に、ニューラルネットワークの入力について説明する。

リードは、それぞれのＤＮＡ断片の塩基配列（又は、塩基対の配列も同等）である。本明細書におけるリードは、Illuminaテクノロジー、ＩｏｎＴｏｒｒｅｎｔテクノロジー又はＮａｎｏｐｏｒｅテクノロジーなどのＤＮＡ配列決定の任意の技術に基づいた１つ以上の細胞のＤＮＡ配列決定によって得られてよい。配列決定は、１つ以上の細胞のＤＮＡ（すなわち、天然ＤＮＡ）を複数のＤＮＡ断片に断片化し、当該複数のＤＮＡ断片に基づいて、任意でＤＮＡ増幅ステップの後に、リードを生成することを含んでよい。本明細書において、いかなるＤＮＡ配列決定のための１つ以上の細胞は、個体からサンプリングされてよい。したがって、バリアントコール方法はそれぞれ、ある個体の１つ以上の細胞をサンプリングし、上記のように当該細胞のＤＮＡ配列決定を行ってリードを生成し、次いでニューラルネットワークに入力するデータ片を生成する最初のステップを含んでもよい。サンプリングは、個体からサンプルを採取するための任意の方法及び／又は任意のサンプリング器具を使用して実行してよい。

参照ゲノムは、任意の（単一の）種、特にヒト種の参照ゲノムであってよい。本明細書における任意のリードは、当該種の個体のリードであってよい。つまり、リードのソースとなる細胞は、前記個体の細胞であってよい。参照ゲノムは、当該種の理想個体の有機体における遺伝子セットの一例を表すデジタル核酸配列データベースから構成されてよい。

各リードは、ゲノム位置に対してアラインされ、つまり、リードを指定するデータ片には、当該リードが参照ゲノムのどの部分に対応するか又はマッピングされるかを示す指標が含まれる。

各データ片は、参照ゲノムのゲノム位置に対してアラインされた各リードのコンピュータ仕様を形成する。つまり、各データ片は、例えばリードを形成する塩基配列といった、各リードを記述する情報又は各リードに関連する情報、及び、任意でリード又はリード内の塩基に関連する追加情報を含む。例えば、当該情報は、それぞれのリードの塩基配列のエンコードされたものを含んでよい。

次に、ニューラルネットワークの出力について説明する。

出力された情報は、バリアントが存在するかどうか（つまり当該ゲノム位置に存在するかどうか）、及び任意でバリアントの種類（つまり、所定のバリアントの種類のセットの中のバリアントの種類）を示す指標を含んでよい。追加的又は代替的に、出力された情報は、バリアントが存在する確率を含んでよい。ニューラルネットワークは、各セットのすべてのデータ片を考慮して、バリアントが存在する確率を計算してよい。あるいは、ニューラルネットワークは、バリアントが存在する有意な確率のみを出力してもよい。例えば、ニューラルネットワークは、ゲノム位置においてバリアントが存在する確率を計算し、その確率が閾値よりも高い場合にのみ、計算した確率を出力してよい。出力される情報は、ゲノム位置に関する情報、バリアントの種類に関する情報、バリアントがホモ接合体であるかヘテロ接合体であるかに関する情報など、他の情報を含んでもよい。

上記した所定のバリアントの種類のセットは、１つ以上の種類の一塩基型のバリアント（すなわち、ＳＮＰ）、１つ以上の種類の欠失（すなわち、参照と比較して１つ以上の塩基が除去されるバリアント）、及び、１つ以上の種類の挿入（すなわち、参照と比較して塩基を１つ以上多く含むバリアント）を含んでよい。欠失及び挿入の場合、除去又は増加した塩基の数には最大数を設けてよい。つまり、ニューラルネットワークは、それぞれ追加又は除去された塩基の数が当該最大数以下である場合、バリアントがそれぞれ挿入又は欠失であると出力してよい。情報は、例えば、バリアントが存在する又はバリアントが存在する可能性が高いと同定される位置ごとに１行又は１列でのテキスト形式や表形式など、任意の形式で出力してよい。

ニューラルネットワークは、個体（例えば、ヒト種）の生殖細胞系列リード（つまり、健康な細胞由来のリード）を指定する全データ片に適用されるようトレーニング及び設計してよい。この場合、出力は、当該個体の健康な細胞にバリアントが存在するかどうかを示してよい。あるいは、ニューラルネットワークは、癌疾患を患う個体の体細胞リード（すなわち、癌細胞由来のリード）を指定するデータ片に、任意で同個体の生殖細胞系列リードを指定するデータ片にも一緒に適用されるようトレーニング及び設計してもよい。この場合、出力は、当該個体の体細胞にバリアントが存在するかどうかを示してよい。後者のケースでは、特定の癌疾患に固有のバリアントをコールすることが可能である。

バリアントコール方法の適用について説明する。

生殖細胞系列の場合、疾患の予後、診断、又は治療（例えば、遺伝病の診断）に適用されてよい。例えば、当該適用には、個体のコールされたバリアントを分析すること、疾患を診断すること、及び／又は、診断された疾患を治療するために適応した治療（例えば、投薬量）を決定すること、及び／又は、予後を実行すること、及び／又は、適応行動を決定することが含まれてよい。次いで、バリアントコール方法の対象である個体（例えば、ヒト）は、そのような治療及び／又は行動に従うことができる。

体細胞の場合、対象個体が患う癌疾患の評価又は予後及び治療（例えば、癌の詳細を決定する、又は癌診断を確認する）に適用されてよい。当該適用には、健康な細胞に対してコールされたバリアントを、当該体細胞に対してコールされたバリアントと比較することによって、体細胞における変異を同定することが含まれてよい。当該適用にはさらに、個体のコールされたバリアント及び同定された変異に基づいて、当該癌に特異的な治療を提供することが含まれてよい。代替的又は追加的に、当該適用には、同定された変異に基づいて癌の進行を予測することが含まれてよい。

上記したバリアントコール方法はいずれも、ニューラルネットワークの出力及び／又は上記適用結果を表示することを含んでよい。

本方法はコンピュータに実装される。つまり、方法のステップ（又は実質的にすべてのステップ）が、少なくとも１台のコンピュータ又は任意のシステムによって実行されることを意味する。したがって、本方法のステップは、可能性としては完全自動で、又は半自動で、コンピュータによって実行される。例では、本方法の少なくともいくつかのステップは、ユーザーとコンピュータのインタラクションを介して始動されてもよい。必要なユーザーとコンピュータのインタラクションのレベルは、予測される自動化のレベルに依存し、ユーザーの希望を実施する必要性とのバランスが取られてもよい。例では、このレベルはユーザー定義及び／又は事前に定義されてもよい。

各データ片は、各リードの塩基ディスクリプタのそれぞれの配列を含んでよい。つまり、各データ片は、参照ゲノムの各位置にそれぞれ対応する座標を有する塩基ディスクリプタのベクトルを含んでよく、各ベクトルは、アラインされたゲノム位置に対応する１つの座標を有する。塩基ディスクリプタは塩基の種類（例えば、Ａ、Ｔ、Ｃ又はＧ）を含んでよく、塩基ディスクリプタのそれぞれの配列はリードの塩基配列を含んでよい。したがって、各データ片の長さは、リードの塩基配列のサイズに対応してよい（すなわち、各リードのサイズに応じて可変）。あるいは、各データ片の長さは均一（例えば、一定）であり、データ片はすべてゲノム位置を中心としてよい。この場合、各データ片は、追加の開始配列又は終了配列を少なくとも１つさらに含んでよく、当該開始配列又は終了配列は、リードに対応する塩基ディスクリプタの配列の先頭又は末尾に配置され、各リードのそれぞれの配列を参照ゲノムにアラインするためにサイズが変化する。追加の開始配列又は終了配列はそれぞれ、ヌル値を持つ、１つ以上の塩基ディスクリプタの配列から構成されてよい。つまり、ベクトルは、各ベクトルの先頭及び／又は末尾にヌル値を追加することによって正規化され、全ベクトルが同じ長さを持ち、ゲノム位置にアラインされる同座標を持つ。このような正規化により、例えば畳み込み層による塩基ディスクリプタ配列の各セットの一般的な処理が容易になる。

それぞれの関数は、塩基ディスクリプタのそれぞれの配列をそれぞれ処理するための１つ以上の畳み込み層を含んでよく、つまり、それぞれの関数は、塩基ディスクリプタのそれぞれの配列に１つ以上の畳み込みを適用する。ニューラルネットワークが入力として複数のセットを受け取り、したがって複数の対称関数を含むように構成される場合、当該１つ以上の畳み込み層は異なる関数に対して同じであってよく、つまり、共有重みを含んでよい。あるいは、１つ以上の畳み込み層は、異なる関数に対して別個の畳み込み層であってもよい。各畳み込み層は、１つ以上の１次元畳み込みフィルタを適用してよい。各１次元畳み込みフィルタは、各データ片を表すベクトルｌｘ１を入力として受け取り、処理してよく、ここで、ｌは各データ片の長さである。１次元畳み込みフィルタを適用すると、リードの順序を考慮せずに、各リードを独立して考慮することが可能になる。したがって、学習の効率及び／又は精度が向上する。実際に、本ニューラルネットワークの学習は、（学習するものが存在しない入力リード間の順序から何かを学習しようとはしないことで）重要な情報に焦点を当てている。

それぞれの関数は、それぞれ、上記の１つ以上の畳み込み層の出力を順序に関係なく特徴のセットに畳む削減層を含んでよい。例えば、削減層は、平均及び／又は標準偏差など、順序無関係の演算子を１つ以上含んでよい。複数のセット、したがって複数の対称関数の場合、削減層は異なる関数に対して同じであってよく、つまり、同じパラメータ値（例えば、同じ順序無関係の演算子）を含んでよい。あるいは、削減層は、異なる関数に対して別個の層であってもよい。

図３から図１１を参照しながら、以下のセクション１から３において、本機械学習方法並びに第１及び第２のバリアントコール方法の特定の実装について説明する。

セクション１：バリアントコールプロセス
図３は、本バリアントコール方法の特定の実装が実施されるバリアントコールプロセスの一例を示す。当該バリアントコールプロセスは、１個体（例えば、患者などのヒト種）の天然ＤＮＡ３０の配列決定Ｓ３０を含む。天然ＤＮＡ３０を断片化し、そのまま配列決定Ｓ３０するか、又は、事前増幅ステップ後に配列決定Ｓ３０してリード３２を生成してよい。天然ＤＮＡの配列決定は、Illuminaテクノロジー又はＮａｎｏｐｏｒｅテクノロジーなどのＤＮＡ配列決定の任意の技術を用いて行ってよい。リード長は、ＤＮＡ配列決定の技術によって異なってよい。リード長は、Illuminaテクノロジーでの１００ｂｐ（塩基対（ｂａｓｅｐａｉｒ）の略）から、Ｎａｎｏｐｏｒｅテクノロジーでの１０ｋｂｐ（１ｋｂｐ＝１０００ｂｐ）までさまざまであり得る。本方法が実装し得る配列決定技術の一般的な特徴の１つは、冗長に配列決定を行い、実験誤差を相殺し、細胞集団における遺伝的不均一性を考慮することである。位置ごとのリード平均数は、配列決定の深度と呼ばれる。

配列決定Ｓ３０後、バリアントコールプロセスは、参照ゲノム３６上へのリード３２のアラインメント（アラインすること）Ｓ３１を含む。アラインメントＳ３１は、例えばＢｕｒｒｏｗｓ－ＷｈｅｅｌｅｒＡｌｉｇｎｅｒなどの既知のマッピングアルゴリズムに基づいた、参照ゲノムに対するリードのマッピングから構成されてよい。アラインメントＳ３１は、塩基配列の類似性に基づいた、参照ゲノムへの各リードの位置決めを含んでよい。アラインメントＳ３１により、各リードの塩基配列と参照ゲノムの対応する各塩基配列との間の類似性を識別することが可能になる。上記した冗長性のため、参照ゲノムの各ゲノム位置には複数のリードがアラインされ、所定のゲノム位置にアラインされた当該複数のリードはゲノム位置に対してリードの積み重ね（パイル）を形成する。参照ゲノムに対してアラインされたリードは、リードの第１のセットを形成してよい。

バリアントコールプロセスでは、配列決定Ｓ３０及びアラインメントＳ３１のステップを、異なるサンプルのＤＮＡに対して、連続して又は並行して繰り返してよい。例えば、配列決定ステップＳ３０及びアラインメントステップＳ３１は、生殖細胞系列バリアントに関する第１のサンプル及び体細胞バリアントに関する第２のサンプルに対して実行されてよい。この場合、プロセスは、ゲノム位置に対してアラインされたリードの複数の（例えば２つの）セットを形成する。形成された１つ以上のリードのセットは、第２のバリアントコール方法で入力として提供される。

第２のバリアントコール方法の出力はバリアントのリスト３８であり、これは、検出された各候補バリアントに関して、提供されたリードの１つ以上のセットにニューラルネットワークを適用する際にニューラルネットワークが出力する情報のコンピレーションから得られる。当該コンピレーションは、検出された候補バリアントごとに出力された情報から選択される、各バリアントの確率に基づいたバリアントのリスト３８を含んでよい。当該リストのバリアントごとに、当該出力は、当該バリアントを記述する情報（例えば、バリアントのゲノム位置に関する情報、バリアントの種類に関する情報、及びバリアントがホモ接合体かヘテロ接合体かに関する情報）を含む。

セクション２：バリアント候補の検出
２．１ハプロタイプ再構築と局所的再アラインメント
ハプロタイプの再構築及び局所的再アラインメントのステップにより、バリアントの認識が向上する。実際に、ハプロタイプの再構築により、同じ領域にマップされるすべてのリードの情報を組み合わせることができ、さらに、再構築されたハプロタイプはリードの再アラインメントに使用され、これにより参照ゲノムへのリードのアラインメントが改良する。

計算リソースを削減するために、本バリアントコール方法は、不一致が多数あるリードを含む領域に制限する（つまり、本方法は、ハプロタイプ再構築を関心領域のセットに制限する）。実際に、参照ゲノムとの相違点が多い領域は、バリアントが発見され得る領域である。本バリアントコール法は、これらの関心領域でハプロタイプを再構築し（つまり、局所的な染色体のセグメント化を実行し）、これにより、リードを正しく再アラインすることが可能になる。

関心領域のセットを決定することは、リードと参照ゲノムとの間の不一致率が所定の閾値を超える位置を決定すること、及び、決定された位置を関心領域のセットに集約することを含んでよい。例えば、所定の閾値を超える不一致率を有する位置の決定は、参照ゲノム（又は参照ゲノムの一部）の位置を連続的に調べ、所定の位置ごとに当該位置にアラインされたリードの相違の比率（つまり、誤差率）を計算することを含んでよい。本方法は、ゲノム位置を調べながら、計算された比率が閾値を超えている場合、所定の位置を記録してよい。本方法は、連続して、又は同時に、記録された位置を関心領域に集約してよい。上記集約は、記録された位置の隣接位置、例えば、当該位置周囲の両側において所定の塩基数によって定義される近傍内の位置（例えば、両側に１００ｂｐ）にマッピングされるリードを選択することを含んでよい。

図４を参照して、ハプロタイプ再構築の一例を説明する。この例のハプロタイプ再構築は、非巡回De-Bruijnグラフ４０に基づく。この例のハプロタイプ再構築は、各リードを初期ｋ－ｍｅｒサイズを有するｋ－ｍｅｒに分割し、当該ｋ－ｍｅｒに基づいて初期De-Bruijnグラフを算出することを含む。De-Bruijnグラフでは、ノード４２はｋ－ｍｅｒであり、エッジ４４は連続する２つのｋ－ｍｅｒ間の遷移を示す。初期ｋ－ｍｅｒサイズは、最小限の特異性を確保するために２０～３０ｂｐの間で変動してよい。実際に、ｋ－ｍｅｒが小さいほど特異性が低くなる（したがって、異なる場所にある２つのｋ－ｍｅｒが衝突する可能性が高くなる）一方で、ｋ－ｍｅｒのサイズが小さいと実験誤差を含む可能性が低くなる。したがって、２０～３０ｂｐの初期ｋ－ｍｅｒサイズは、この２点の傾向を考慮した妥協点である。次いで、ハプロタイプ再構築は、得られたDe-Bruijnグラフが非巡回になるまでｋ－ｍｅｒサイズを増加させることを含む。ｋ－ｍｅｒサイズの増加は漸進的な増加であってよく、新しいDe-Bruijnグラフはそれぞれの新しいｋ－ｍｅｒサイズで算出されてよい。

次に、算出された非巡回De-BruijnグラフでＮ個の最長パス（例えば、Ｎ＝１００）を列挙することにより、潜在的なハプロタイプが推測される。ハプロタイプは、バリアントを含む塩基配列である（ハプロタイプは統計的に同定される）。ハプロタイプは、特定の患者の参照に対応する。次に、本方法は、潜在的なハプロタイプのセットからハプロタイプのサブセットを選択する。サブセットのハプロタイプは、支持リード数が最も多い潜在的なハプロタイプである。ハプロタイプのサブセットは、ハプロタイプ再構築によって最終的に同定される２つ以上のハプロタイプに対応する。ハプロタイプのサブセットを選択するために、本方法は、推定された潜在的なハプロタイプのうち関連するハプロタイプをフィルタリングすることにより、ハプロタイプを列挙する。関連するハプロタイプのフィルタリングは、異なるハプロタイプに対してリードを再アラインし、リードに支持されるハプロタイプを残すことを含んでよい。リードは、他のハプロタイプよりもあるハプロタイプに対して一致性がより高い場合、当該ハプロタイプを「支持」する。関連するハプロタイプは、支持リード数が最も多いハプロタイプであってよい。本方法は、２つのハプロタイプを列挙してよい。実際に、例えばヒトの場合、ＤＮＡは二倍体であり得る。あるいは、本方法は、２つを超えるハプロタイプを列挙してもよい。実際に、配列決定は同領域に複数のバリアントを提供する可能性があり、当該バリアントが離れすぎている場合、リード及びｋ－ｍｅｒのサイズが限られているため、当該バリアントを再編成するのが難しく、情報の損失を引き起こし得る。したがって、２つ以上のハプロタイプを列挙することにより、本バリアントコール方法はバリアントの認識を改良する。

２つ以上のハプロタイプを列挙した後、リードを、当該リードが支持するハプロタイプに再アラインし、ハプロタイプを参照にアラインしてよい。本方法は、単純なアラインメント構成によって、例えばSmith-Waterman-Gotohアルゴリズムなど既知のアルゴリズムに基づいて、参照に対してリードを再アラインする。

２．２バリアントのベイズ評価（フィルタリング）
本方法は、各ゲノム位置について、ハプロタイプ再構築中に構築された２つ以上のハプロタイプのリストから潜在的なバリアントを推測してよい。次いで、本方法は、粗粒度フィルタリングを実行して、潜在的なバリアントから候補バリアントを検出してよい。塩基の品質やリード支持情報を用いて、本バリアントコール方法は、粗粒度フィルタリングを実行するベイジアンフレームワークを実装してよい。本バリアントコール方法は、１つ以上のセットそれぞれに関連するデータを独立して処理してよい。例えば、当該方法は、グローバルベイジアン算出に基づいて体細胞データに関連するセットを処理してよい（以下セクションで詳細を説明）。本バリアントコール法は、生殖細胞系列バリアント及び細胞間の不均一性を考慮して、体細胞データに関連するセットを処理してよい。リードの１つ以上のセットは、生殖細胞系列バリアントに関する第１のリードのセット及び体細胞バリアントに関する第２のリードのセットを含む。各セットの粗粒度フィルタリングの実行については、以下のセクションで説明する。

２．２．１生殖細胞系列
本バリアントコール方法は、所定のゲノム位置について、任意のバリアントが参照よりも可能性が高い確率を評価する。バリアントが参照よりも可能性が高い確率は、次の式に基づいて表してよく、

式中、ｖａｒ_ｉはバリアントｉが対象となる位置にあるという仮説を指す。Ｐ（ｖａｒ_ｉ）は、バリアントのホモ接合特性を考慮したｖａｒ_ｉの事前確率である。Ｐ（ｐｉｌｅ｜ｖａｒ_ｉ）は、所定の位置にバリアントがあることがわかった上で、この特定のリードセットが当該所定の位置にマッピングされる確率である。Ｐ（ｐｉｌｅ｜ｖａｒ_ｉ）は、ハプロタイプを支持するリード情報と塩基の品質を用いて計算される。Ｐ（ｒｅｆ｜ｐｉｌｅ）は誤差の確率である。本方法は、バリアントがホモ接合性（染色体ペアの両方に同じバリアントが存在する）かヘテロ接合性（ペアのうち単一の染色体にバリアントが存在する）かを考慮してよい。本方法は、各場合の確率を計算してよい。例えば、ホモ接合バリアントの場合は、次の式に基づいて表現してよく：

式中、Ｓ_ｖａｒｉはバリアントｉを支持するリードのセットであり、ｅ_ｊは対象となる位置でのリードｊの塩基の品質から計算される誤差確率である。本方法は、配列決定技術によって提供される指標に基づいて誤差確率ｅ_ｊを計算してよい。インデル誤差は置換に比べてはるかに低い率で発生するため、本方法ではインデル誤差を無視してもよい。

２．２．２体細胞
体細胞の場合、本バリアントコール法は一連の仮説を考慮してよい。本方法は、各候補バリアントの各ゲノム位置で分析を実行する。本方法では、同じゲノム位置にある生殖細胞系列バリアントと体細胞バリアントを考慮する。上記した一連の仮説は、生殖細胞系列バリアントも体細胞バリアントも存在しないという第１の仮説を含む。上記した一連の仮説は、生殖細胞系列バリアントは存在するが体細胞バリアントは存在しないという第２の仮説を含む。上記した一連の仮説は、生殖細胞系列バリアントは存在しないが体細胞バリアントは存在するという第３の仮説を含む。上記した一連の仮説は、生殖細胞系列バリアントも体細胞バリアントも存在するという第４の仮説を含む。

さらに、本方法は、体細胞バリアントが特定の細胞にのみ存在する可能性があることを考慮に入れてよい。細胞における体細胞バリアントの存在頻度は不明であり、本方法が考慮し得る追加の仮説である。例えば、体細胞バリアント頻度ｆを有する第３の仮説は、次の式に基づいて表してよく、

である。

２．３性能評価
本方法は、候補バリアントを検出するために粗粒度フィルタリングを実行してよい。粗粒度フィルタリングにより、本方法によって保持される候補が多すぎる場合でも、除外される真のバリアントはほとんどない。「再現率」は、本方法が見落としたバリアント数を示すメトリックである。本方法は、データセット、例えばＧＩＡＢ（Genome In A Bootleの頭字語）によって提供されるデータセットから真のバリアントを取得してよい。再現率は、次の式、再現率＝ＴＰ／（ＴＰ＋ＦＮ）で表すことができ、ここでＴＰは真陽性を表し、ＦＮは偽陰性を表す。再現率の値「０」は、本方法が真のバリアントを選択していないことを意味し、再現率の値「１」は、本方法が真のバリアントを一切見逃していないことを意味してよい。選択されたバリアント候補の数が少なく、一方で再現率の値が高い場合、フィルタリングの改良につながる。

図５は、ＨＧ００１及び２２番染色体に関して、再現率の関数として表される生殖細胞系列候補バリアント数の一例を示す。本方法は、選択閾値を例えば［－１００；１００］で変化させることによってグラフを算出する。本方法は、再現率の変化に基づいて選択閾値を選択することを含んでよい。破線５０は、この例で本方法によって選択された閾値に対応する。この例で選択した閾値に関して、再現率は０．９９７で、候補数は４４２５６である。

図６は、ＣＯＬＯ－８２９及び２２番染色体に関して、再現率の関数として表される体細胞候補バリアント数の一例を示す。生殖細胞系列の場合と同様に、グラフは選択閾値を変化させることによって取得され、本方法は選択閾値を選択してよい（閾値は間隔［－１００；１００］で変化してもよい）。単純モデル６１は、生殖細胞系列及び体細胞のパイルに独立して適用される生殖細胞系列ベイジアンモデルであり、体細胞混合モデル６２は、両方のパイルを組み合わせたベイジアンモデルである。破線６３は、本方法によって選択された閾値に対応する（再現率は０．９３４、候補数は５６７６７である）。

２．４データ片の生成
候補バリアントが同定されると、本バリアントコール方法は、検出された候補バリアントごとに、当該検出された候補バリアントに対応するゲノム位置にアラインされた各リードをそれぞれ指定するデータ片の１つ以上のセットを同定する。各データ片は、例えば３を超える複数の独立したチャネルを持つ２Ｄ構造で構成される。各データ片は、次のセクションで説明するように、１Ｄ構造と一連のスカラーを含んでもよい。各データ片は、ゲノム位置に対してアラインされたそれぞれのリードを指定する、つまり、各データ片は、所定のゲノム位置にマップするリードの積み重ね（パイル）のうちの１つのリードを指定する。リードのパイルは、パイルアップ画像で示してよい。

パイルアップ画像の一例を図７に示す。パイルアップ画像は、所定のゲノム位置と交差するリード（つまり、所定のゲノム位置にマップされるリード）の２Ｄ表現である。パイルのそれぞれの行は、ゲノム位置７３にアラインされたそれぞれのリードを表す。各リードは、参照ゲノムにアラインされる。各リードは、参照にアラインされる際にゲノム位置７３を含む、それぞれの塩基配列を有する。リードは、それぞれの配列においてゲノム位置への出現順にパイルに配置してよい。

図７は、２つの異なるパイルアップ画像を示す。画像Ａは、生殖細胞系列バリアントに対して取得されたリードセットのパイルアップ画像であり、画像Ｂは、生殖細胞系列バリアントに対して取得されたリードセットと体細胞バリアントに対して取得されたリードセットの２つのリードセットのパイルアップ画像である。パイルアップ画像は、リードディスクリプタ７３と塩基ディスクリプタ７４の２種類の情報を表す。リードディスクリプタ７３は、最初の左側の列に表される。リードディスクリプタには、体細胞リードディスクリプタ７５、参照を支持するリードディスクリプタ７６、及びバリアントハプロタイプを支持するリードディスクリプタ７７が含まれる。各リードは、各リードディスクリプタ７５、７６、及び７７のそれぞれの値を有し、データ片にエンコードされる。例えば、体細胞リードディスクリプタ７５の場合、各データ片は、リードが生殖細胞系列バリアントに対するものなのか体細胞バリアントに対するものなのかに応じて、真又は偽の値を含む。

パイルアップ画像は、塩基ディスクリプタ７４も表す。塩基ディスクリプタ７４は、図７のリード表現上に表される。塩基ディスクリプタ７４は、各リードのデータ片にエンコードされる。各リードについて、塩基ディスクリプタ７４は、リードのそれぞれの塩基配列と参照ゲノムとの間の不一致を表す。塩基ディスクリプタ７４は、例えば、塩基Ａ、Ｔ、Ｇ及びＣのそれぞれについて１つのディスクリプタなど、潜在的な不一致ごとに特定の塩基ディスクリプタを含んでもよい。

パイルディスクリプタ、リードディスクリプタ、及び塩基ディスクリプタの例について説明する。本方法は、これらのディスクリプタのすべて又は一部を実装してよく、任意で他のディスクリプタを実装してもよい。本方法は、例えば異なるチャネルで、各リードを指定するデータ片内にディスクリプタをエンコードしてよい。各ディスクリプタは、ディスクリプタの複雑さに応じて、１つ以上の独立したチャネルでエンコードしてよい。

パイルディスクリプタ（又はリードディスクリプタ若しくは塩基ディスクリプタ）はそれぞれ、パイル（又はリード若しくは塩基）のある側面を表し、当該側面を定量化する値から構成される。ニューラルネットワークがデータ片の単一のセットのみを入力として受け取るように構成される場合、当該セットはリードの単一のパイルに対応し、パイルディスクリプタは当該パイルを指定してよい。ニューラルネットワークがデータ片の複数のセットを入力として受け取るように構成される場合、１つ以上の当該セットは一緒にリードの同パイルに対応してよく、パイルディスクリプタは当該パイルを指定してよい。あるいは、各セットは、それぞれ異なるリードのパイルに対応するか、又はそのように見なされてよく、ニューラルネットワークは、そのようなパイルをそれぞれ指定するパイルディスクリプタを入力として受け取ってよい。パイルディスクリプタは、１つ以上の全結合層に入力されてよく、例えば、各削減層の出力と集約（例えば、連結）されてよい。

パイルディスクリプタは、パイルの深度を表す（すなわち、パイルに積み重ねられるリード数）を表す深度ディスクリプタを含んでよい。パイルディスクリプタは、対象となるパイルに関して、当該パイル内のリード数から構成されてよい。本方法は、深度ディスクリプタを１つのチャネルにエンコードしてよい。パイルディスクリプタは、ベイジアンバリアント推定のディスクリプタ（事前フィルタリングからのデータ）を含んでよく、例えば、４つのチャネル（例えば、考慮される仮説に応じてｐ００、ｐ０１、ｐ１１、及びｐ１２）にエンコードされてよい。

リードディスクリプタは、体細胞データについてのみ存在し得る体細胞ディスクリプタを含んでよい。リードディスクリプタは、リードが支持するハプロタイプを記述するハプロタイプ支持のディスクリプタを含んでもよい（例えば、リードが参照を支持する場合はＨ０、リードが第１のハプロタイプを支持する場合はＨ１、リードが第２のハプロタイプを支持する場合はＨ２）。ハプロタイプ支持のディスクリプタ（ハプロタイプ支持ディスクリプタとも呼ばれる）は、３つのチャネル（参照ゲノム用に１つ、最も支持される２つのハプロタイプのそれぞれに１つ）にエンコードされてよい。任意で、リードディスクリプタは、マッピング品質ディスクリプタを含んでよい。マッピング品質は、初期アラインメントを実行するアライナーによって提供されるデータから構成される。マッピング品質は、各リードに対して、当該リードのアラインメントに関する信頼レベルを測定する。例えば、リードがゲノムの少なくとも２つの領域で完全にアラインされる場合、マッピングの品質はゼロである（つまり、例えばゼロ「０」の値）。任意で、リードディスクリプタは、配列決定された鎖及び配列決定が実行される方向を表す鎖性ディスクリプタを含んでもよい。当該鎖性は、配列決定の機械によって提供されるデータから構成されてよい。任意で、リードディスクリプタは、メイトの鎖性ディスクリプタを含んでよい。実際に、配列決定技技術によっては、リードはペアで提供されてよい。この場合、メイトとはペアのもう一方の端に対応し、通常は数千塩基離れてマップされる。

リードディスクリプタは、１次元（１Ｄ）構造（リードごとに１つの値）を有する。塩基ディスクリプタは、２次元（２Ｄ）構造（各リードの各塩基に１つの値）を有する。塩基ディスクリプタは、塩基の種類（すなわち、Ａ、Ｔ、Ｃ又はＧ）を定義する塩基種類ディスクリプタを含む。塩基ディスクリプタは、４つのチャネル（各種類の塩基に対して１つ）でエンコードされて良い。塩基ディスクリプタは、塩基識別の品質を記述する塩基品質ディスクリプタを含んでよい。塩基ディスクリプタは、参照ゲノム中の対応塩基である参照塩基ディスクリプタを含んでよい。塩基ディスクリプタは、塩基と参照ゲノム中の対応塩基との間の相違を記述する不一致ディスクリプタ（例えば、ブール値に基づく）を含んでよい。塩基ディスクリプタは、挿入サイズのディスクリプタ、代替的又は追加的に欠失サイズのディスクリプタを含んでよく、これらディスクリプタは、参照上への各リードのアラインメント（挿入及び欠失を含むアラインメント）を比較することによって本方法によって算出されてよい。

各データ片の長さは一定であってよく、データ片はすべてゲノム位置を中心としてよい。各データ片は、リードに対応する塩基ディスクリプタの配列と、リードに対応する塩基ディスクリプタの配列の先頭と末尾にそれぞれ配置される追加の開始配列７８と追加の終了配列７９を含む（図では空白として示される）。追加の開始配列と終了配列のサイズは、各リードのそれぞれの配列を参照ゲノムにアラインさせるために変化する。追加の開始配列又は終了配列は、ヌル値を持つ、１つ以上の塩基ディスクリプタの配列から構成される。長さは、２つのリードのサイズに対応し（一定長のリードの場合、そうでない場合は最長リードの約２倍）、例えば３００個の塩基である。本方法では、データを切断し、長さを短くして（３００塩基未満）使用してもよい。一定長は、畳み込みなどによる処理を容易にする。

セクション３：バリアントフィルタリング
３．１ディープラーニングモデル
本方法は、数百万個のパラメータを持ち、ゲノムデータに特化していない畳み込みニューラルネットワーク（ＣＮＮ）を使用するこれまでの画像分類モデルに基づく多くの機械学習アプローチとは異なり、ゲノムデータの特異性を考慮するニューラルネットワークアーキテクチャを実装してよい。これにより、モデルのサイズを削減したり、精度を高めたりすることができる。

リードは１Ｄ構造であり、積み重ね（パイル）での表現は任意である。実際に、ｙ座標（つまり、パイルアップ画像のパイルの方向）は有益な情報をもたらさない。本方法では、ニューラルネットワークの構造は、順序に無関係な演算子（例えば、合計、平均、最小、最大など）を含む。そのため、本方法のニューラルネットワークは、標準的な２ＤのＣＮＮに基づく従来技術の方法と比較して、バリアントコールの改良されたソリューションをもたらす。本ニューラルネットワークは、計算コストを削減し、高性能を発揮する最適化されたアーキテクチャを有する。

図８は、生殖細胞系列バリアントコールのための本ニューラルネットワークのアーキテクチャの一例を示す。生殖細胞系列の場合、ニューラルネットワークは、リード指定データ片のセット８０－８１及びパイルディスクリプタ８６を入力として受け取り、処理するように構成される対称関数９０から構成される。各データ片８５は、ゲノム位置に対してアラインされたそれぞれのリードを指定し、当該リードの塩基ディスクリプタの配列を含む（各塩基ディスクリプタは１つ以上のチャネルでエンコードされる）。各データ片８５は、２Ｄ構造（すなわち、塩基配列に対して１つの方向と、当該配列の各塩基に関連する対応塩基ディスクリプタに対して１つの方向）を含む。リードを重ね合わせてパイルを形成し、それによって、データ片のセットに３Ｄ構造８０（リードに対して１つの方向、各リードの塩基配列に対して１つの方向、及び塩基ディスクリプタに対して１つの方向）が提供される。ニューラルネットワークは、ゲノム位置でのバリアントの存在に関する情報８２を出力するように構成される。

生殖細胞系列の場合の関数９０は、塩基ディスクリプタのそれぞれの配列を処理するための複数の畳み込み層８３、８４を含む。各畳み込み層は、１つ以上の１次元畳み込みフィルタを適用する。関数９０は、所定数のチャネル、例えば５つのチャネルに塩基ディスクリプタを再エンコードするための第１の１ｘ１畳み込み層８３を含む。第１の畳み込み層８３は、一様かつ非線形の方法で塩基レベルで情報を変換する。第１の畳み込み８３は、入力データの正規化を可能にする。次に、関数９０は、各リードのデータ片をｌから１位置に削減するための第２のｌｘ１畳み込み層８４を含み、ここでｌは各データ部分のサイズである。第２の畳み込み８４は、所定数のチャネル、例えば１０個のチャネルを出力する。関数９０は、各リードに関するリードディスクリプタ８１と第２の畳み込みの出力との連結を含む。関数９０は、リードディスクリプタと第２の畳み込みの出力を連結したものを第１の削減層に入力する。削減層は、リードディスクリプタと連結された第２の畳み込み層の出力を、順序に関係なく、平均や標準偏差などの順序無関係の演算子に基づいて特徴のセットに畳む。削減層は、ｎ個のリードを特徴のセット（例えば、２０個の特徴）の１つのパックに畳む。関数９０は、パイルディスクリプタ８６を特徴のセットのパックに集約する。当該セットはリードの単一パイルに対応し、パイルディスクリプタはそのパイルを指定する。次に、関数９０は、削減層の出力を処理し、分類を実行するように構成される全結合層８７を含む。

ニューラルネットワークには、５２４０個のトレーニング可能なパラメータが含まれてよい。本機械学習方法は、学習率（例：１ｅ－３）、反復回数（例：１００）、内部バリデーション（例：１０％）、最適化アルゴリズム（例：ＡＤＡＭ）、活性化関数（例：Ｍｉｓｈ）、及びコスト関数（例：重み付き交差エントロピー）を含む、一連のハイパーパラメータに基づいてニューラルネットワークを機械学習させてよい。

図９は、体細胞バリアントコールのためのニューラルネットワーク１００のアーキテクチャの一例を示す。ニューラルネットワーク１００は、リードのセットを２つ、すなわち、生殖細胞系列バリアントに関する第１のセット１０１（すなわち、個体、例えば癌疾患を患うヒト患者の健康な細胞由来のリード）及び体細胞バリアントに関する第２のセット１０１’（すなわち、同個体のがん細胞由来のリード）を入力として受け取る。ニューラルネットワーク１００は、第１のセットを処理するための第１の対称関数と、第２のセットを処理するための第２の対称関数とを含む。第１の関数はサブアーキテクチャ１０２、１０３、１０４、及び１０５から構成され、第２の関数はサブアーキテクチャ１０２、１０３、１０４、及び１０５’から構成される。第１の関数と第２の関数は同じ、つまり、同じパラメータ値と共有重みを含む。第１及び第２の関数はそれぞれ、塩基ディスクリプタの各配列を処理するための２つの畳み込み層１０２、１０３を含む。畳み込み層（第１の１ｘ１畳み込み層１０２及び第２のｌｘ１畳み込み層１０３）は、第１の関数及び第２の関数について同じである（すなわち、第１及び第２の関数の共有重みを含む）。ニューラルネットワーク１００は、リードディスクリプタを第２の畳み込み層の出力と連結する。

連結後、ニューラルネットワーク１００は、それぞれのリードディスクリプタと連結された第２の畳み込み層の出力を分割１０４し、第１のセットに対応する出力と第２のセットに対応する出力に分離することを含む。分割後、第１及び第２の関数はそれぞれ、各セットに対応する出力を独立に（例えば、連続又は並行して）処理するためのそれぞれの削減層１０５、１０５’を含む。それぞれの削減層１０５、１０５’はそれぞれ、第２の畳み込み層の出力を、順序に関係なく、順序無関係の演算子に基づいて、特徴のそれぞれのセットに畳む。特徴のセットは、第１の関数と第２の関数の出力である。削減層１０５、１０５’は同じ、すなわち同じ順序無関係の演算子を含んでもよい。

次いで、ニューラルネットワーク１００は、第１の関数及び第２の関数の出力、すなわち第１のセットに対応する特徴のセット及び第２のセットに対応する特徴のセットを集約する層を備える。例えば、集約層は、特徴の２つのセットを連結し、それによって特徴の単一のセット１０６を形成してよい。集約層は、任意で、パイルディスクリプタを各削減層の出力と集約してよい（例えば、パイルディスクリプタを特徴の単一のセット１０６と連結する）。当該２つのセットは一緒にリードの同パイルに対応してよく、パイルディスクリプタは当該パイルを指定する。

集約層の後に、ニューラルネットワーク１００は、分類を実行するように構成される１つ以上の全結合層１０７を含む。複数の全結合層１０７が、集約層の出力（すなわち、各削減層の出力と、任意でパイルディスクリプタを連結したもの）を入力として受け取る。生殖細胞系列の場合に関して説明した全結合層との違いは、入力のサイズであり得、体細胞のケースではサイズが２倍になり得る。本機械学習方法は、例えば９７３５個のトレーニング可能なパラメータに基づいて、体細胞バリアントに対してニューラルネットワークを機械学習させることができる。

３．２性能
３．２．１メトリック
ニューラルネットワークの性能を、複数のメトリックに基づいて説明する。メトリックは、陽性クラスの予測の良好度を測定する。実際に、９９．９％の位置は変異していないため（ゲノム内の９９．９％の位置にバリアントは含まれない）、陰性クラスが大部分を占める。こういった背景では、他のメトリックは、常に陰性クラスを予測するモデルで０．９９９をもたらすため、有益な情報をもたらさない。

以下では、ＴＰは真陽性、ＦＰは偽陽性、ＦＮ偽陰性を指す。第１のメトリックは精度で、ＴＰ／（ＴＰ＋ＦＰ）として定式化される。精度は、バリアントコールのためのニューラルネットワークが、偽陽性ではない陽性をどれほど良好に予測するかを測定する。第２のメトリックは再現率で、ＴＰ／（ＴＰ＋ＦＮ）として定式化される。再現率は、バリアントコールのためのニューラルネットワークが真のバリアントをどれほど良好に見逃さないかを測定する。第３のメトリックはＦ１スコアで、２＊精度＊再現率／（精度＋再現率）として定式化される。Ｆ１スコアは、精度と再現率の幾何平均である。第４のメトリックは、誤差数である。ゲノム規模では、Ｆ１スコアが１．０に非常に近い可能性があるため、異なるモデル性能を区別することは困難である。そのような状況では、予測ミスの数（つまり、誤差数）を用いて、性能を適切に区別できる。

３．２．２データセットと結果
以下において、ニューラルネットワークは、公開されている正解データセットに基づいてトレーニングされる。本ニューラルネットワークの結果を、従来技術のバリアントコーラーのリストと比較する。従来のバリアントコーラーのリストは、Ｇａｔｋ４、Deepvariant 0.9、及びＣＮＮ分類器EfficientNetを含む。

生殖細胞系列の場合の結果について説明する。生殖細胞系列の場合、本ニューラルネットワークと従来技術の各バリアントコーラーを、個体ゲノムＨＧ００１のトレーニングセットに基づいてトレーニングする。個体ゲノムＨＧ００１は、Genome In A Bottleコンソーシアム（ＧＩＡＢコンソーシアム）によって複数の技術でクロスバリデーション検証されたある個体のゲノムである。本ニューラルネットワーク及び従来技術の各バリアントコーラーの性能は、個体ゲノムＨＧ００２のバリデーションセットに基づいて算出する。性能は、上記したメトリックに基づいて評価される。

図１０は、生殖細胞系列の場合の精度、再現率、及びＦ１スコアメトリックの結果の一例を示す。本ニューラルネットワークと従来技術の各バリアントコーラーのＦ１スコアは、互いに非常に近い値である。

図１１は、生殖細胞系列の場合の誤差数メトリックの結果の一例を示す。本ニューラルネットワークの性能はDeepvariant 0.9に近いが、本ニューラルネットワークが約４０００個のパラメータしか有さない一方で、Deepvariant 0.9は２４００万個のパラメータで機能する。さらに、Deepvariant 0.9は３億個の例でトレーニングされたが、本ニューラルネットワークは１００万個の例でトレーニングされている。実際に、Deepvariant 0.9の場合、１００万個の例で構成される同じデータセットでトレーニングすると、性能が低下する。さらに、Deepvariant 0.9は体細胞の場合を取り扱わない。

以下で体細胞の場合の結果について説明する。体細胞の場合、結果は公開されている体細胞参照基準に基づいて算出される。結果には、同じドナー由来の血液細胞株でのＣＯＬＯ８２９癌細胞株の結果が含まれる。コンセンサスは、４つの独立したIlluminaプラットフォーム上で複数のバリアントコーラーを使用して全ゲノム配列決定を行って得られる。トレーニングセットは７００００個の例で構成される。

この結果には、２つの独立Illuminaプラットフォームで得られ、従来技術のＭｕｔｅｃｔ２、Ｓｔｒｅｌｋａ２、及びＬａｎｃｅｔバリアントコーラーによって処理されたＨＣＣ１１４３がん細胞株の体細胞バリアントコンセンサスからの結果も含まれる。

図１２は、本ニューラルネットワークと従来技術のバリアントコーラーであるＳｔｒｅｌｋａ２及びＬａｎｃｅｔとの間の体細胞に関する比較結果の一例を示す。体細胞配列決定は特に困難であり、バリアントの正解コンセンサスがないために難しくなる。これは、学習ベース手法ではさらに問題になる。いずれにせよ、結果は、コンセンサスを確立を試みる研究の正解体細胞データセットの近似に基づく。結果は、本ニューラルネットワークが従来技術のバリアントコーラー２つ、Ｌａｎｃｅｔ及びＳｔｒｅｌｋａ２と比較して有利であることを示している。

図１３は、システムの一例を示しており、ここで、システムは、クライアントコンピュータシステムであり、例えば、ユーザーのワークステーションである

この例のクライアントコンピュータは、内部通信ＢＵＳ１０００に接続された中央処理装置（ＣＰＵ）１０１０と、同じくＢＵＳに接続されたランダムアクセスメモリ（ＲＡＭ）１０７０とを備える。クライアントコンピュータはさらに、ＢＵＳに接続されたビデオランダムアクセスメモリ１１００と関連するグラフィックプロセッシングユニット（ＧＰＵ）１１１０を備えている。ビデオＲＡＭ１１００は、当技術分野ではフレームバッファとしても知られている。大容量記憶装置コントローラ１０２０は、ハードドライブ１０３０などの大容量記憶装置へのアクセスを管理する。コンピュータプログラムの命令及びデータを有形に具体化するのに適した大容量記憶装置にはあらゆる形態の不揮発性メモリが含まれ、例として、ＥＰＲＯＭ、ＥＥＰＲＯＭ、及びフラッシュメモリデバイスなどの半導体メモリデバイス；内蔵ハードディスクやリムーバブルディスクなどの磁気ディスク；光磁気ディスク；及びＣＤ－ＲＯＭディスク１０４０が挙げられる。前述したものはいずれも、特別に設計されたＡＳＩＣ（特定用途向け集積回路）によって補完されるか、又はその中に組み込まれてもよい。ネットワークアダプタ１０５０は、ネットワーク１０６０へのアクセスを管理する。クライアントコンピュータはまた、カーソル制御デバイス、キーボードなどのようなハプティックデバイス１０９０を含んでもよい。カーソル制御デバイスは、ユーザーがディスプレイ１０８０上の任意の所望の位置にカーソルを選択的に配置できるよう、クライアントコンピュータで使用される。さらに、カーソル制御デバイスにより、ユーザーはさまざまなコマンドを選択し、制御信号を入力することが可能となる。カーソル制御デバイスは、システムに制御信号を入力するための複数の信号生成装置を含む。通常、カーソル制御デバイスはマウスであってもよく、マウスのボタンは信号を生成するために使用される。代替的又は追加的に、クライアントコンピュータシステムは、感圧パッド、及び／又は感圧スクリーンを含んでもよい。

コンピュータプログラムは、コンピュータによって実行可能な命令を含んでもよく、命令は、上記のシステムに本方法を実行させるための手段を含む。プログラムは、システムのメモリを含む任意のデータ記憶媒体に記録可能であってよい。プログラムは、例えば、デジタル電子回路、又はコンピュータハードウェア、ファームウェア、ソフトウェア、又はそれらの組み合わせに実装されてもよい。プログラムは、例えば、プログラム可能なプロセッサによる実行のために機械可読記憶装置に有形に具体化された製品などの装置として実装されてもよい。本方法のステップは、入力データについて動作し出力を生成して本方法の機能を実行するように命令のプログラムを実行する、プログラム可能なプロセッサによって実行されてもよい。したがって、プロセッサは、データ記憶システム、少なくとも１つの入力デバイス、及び少なくとも１つの出力デバイスからデータ及び命令を受信し、これらにデータ及び命令を送信するように、プログラム可能であるか又は結合されてもよい。アプリケーションプログラムは、必要に応じて、高レベルの手続き型プログラミング言語又はオブジェクト指向プログラミング言語、あるいは、アセンブリ言語又は機械語で実施されてもよい。いずれの場合も、言語はコンパイル型又はインタプリタ型言語であってもよい。プログラムは、フルインストールプログラム又は更新プログラムであってもよい。いずれにせよ、システム上でのプログラムの適用は、本方法を実行するための命令をもたらす。

Claims

参照ゲノムを基準としたバリアントコールのためにニューラルネットワークを機械学習させるコンピュータ実装方法であって、前記ニューラルネットワークは、前記参照ゲノムのゲノム位置に対してアラインされた各リードをそれぞれ指定するデータ片の１つ以上のセットを入力として受け取り、前記ゲノム位置におけるバリアントの存在に関する情報を出力するよう構成され、前記データ片の各セットに対し、前記データ片の各セットを入力として受け取り、処理するように構成されるそれぞれの関数を含み、前記それぞれの関数が対称性を有する、前記方法。
各データ片が前記各リードの塩基ディスクリプタのそれぞれの配列を含み、前記それぞれの関数が、それぞれ、前記塩基ディスクリプタのそれぞれの配列をそれぞれ処理するための１つ以上の畳み込み層を含み、前記畳み込み層はそれぞれ１つ以上の１次元畳み込みフィルタを適用する、請求項１に記載の機械学習方法。
前記塩基ディスクリプタが、挿入サイズ及び／又は欠失サイズを表す１つ以上のディスクリプタ、例えば挿入サイズディスクリプタ及び欠失サイズディスクリプタを含む、請求項２に記載の機械学習方法。
前記それぞれの関数は、それぞれ、前記１つ以上の畳み込み層の出力を、順序に関係なく、特徴のセットに畳むための削減層を含む、請求項２又は３に記載の機械学習方法。
前記削減層はさらに前記各リードに関するリードディスクリプタを入力として受け取り、任意で前記リードディスクリプタが、ハプロタイプ支持ディスクリプタを含む、請求項４に記載の機械学習方法。
前記削減層は、平均及び／又は標準偏差などの１つ以上の順序無関係の演算子を含む、請求項５に記載の機械学習方法。
前記ニューラルネットワークが、前記削減層それぞれの出力を処理し、分類を実行するように構成される１つ以上の全結合層を含む、請求項５又は６に記載の機械学習方法。
前記ニューラルネットワークがさらに、パイルディスクリプタを入力として受け取り、任意で、前記パイルディスクリプタは、深度を表すディスクリプタ及び／又はベイジアンバリアント推定を表すディスクリプタを含む、請求項７に記載の機械学習方法。
前記リードの１つ以上のセットが、生殖細胞系列バリアントに関する第１のリードのセット及び体細胞バリアントに関する第２のリードのセットを含み、前記ニューラルネットワークは、
－前記第１のリードのセットのための第１の関数及び前記第２のリードのセットのための第２の関数、及び
－前記第１の関数及び前記第２の関数の出力を集約するための層を含む、請求項１から８のいずれか一項に記載の機械学習方法。
参照ゲノムを基準としたバリアントコールのためのコンピュータ実装方法であって、前記方法が、
－前記参照ゲノムのゲノム位置に対してアラインされた各リードをそれぞれ指定するデータ片の１つ以上のセットを入力として提供すること（Ｓ７００）、
－前記入力に、請求項１から９のいずれか一項に従って機械学習したニューラルネットワークを適用し、前記ゲノム位置でのバリアントの存在に関する情報を出力すること（Ｓ８００）であって、前記ニューラルネットワークの適用は、データ片の各セットに対し、前記データ片の各セットを入力として受け取り処理するように構成される前記ニューラルネットワークのそれぞれの対称関数を適用することを含む、前記方法。
参照ゲノムを基準としたバリアントコールのためのコンピュータ実施方法であって、前記方法が、
－前記参照ゲノムに対してアラインされたリードの１つ以上のセットを提供すること、
－前記リードの１つ以上のセットを前記参照ゲノムと比較することによって、前記参照ゲノム内の関心領域のセットを決定すること、
－前記関心領域の特定領域ごとに、
－－前記特定領域の提供されたリードの１つ以上のセットに基づいてハプロタイプ再構築を実行し、２つ以上のハプロタイプを同定すること、
－－前記２つ以上のハプロタイプに基づいて、前記特定領域のリードの１つ以上のセットを再アラインすること、
－－再アラインされたリードの１つ以上のセットと前記２つ以上のハプロタイプに基づいて、前記特定領域の潜在的なバリアントを推測すること、
－－粗粒度フィルタリングを実行して、前記潜在的なバリアントから、各々がそれぞれのゲノム位置に対応する候補バリアントを検出すること、
－－検出された前記候補バリアントごとに、
－－－前記検出された候補バリアントに対応するゲノム位置に対してアラインされる各リードをそれぞれ指定するデータ片の１つ以上のセットを同定すること、
－－－前記データ片の１つ以上のセットに対して、請求項１０に記載のコンピュータ実装方法の提供すること（Ｓ７００）及び適用すること（Ｓ８００）を実行すること、とを含む、前記方法。
前記ハプロタイプ再構築を実行することが、
－有向非巡回グラフで所定の数の最長経路を列挙することにより、潜在的なハプロタイプのセットを推測すること、及び、任意で、
－前記潜在的なハプロタイプのセットからハプロタイプのサブセットを選択することであり、ここで、前記ハプロタイプのサブセットは、前記セットのうち、支持リード数が最も多い潜在的なハプロタイプであり、前記ハプロタイプのサブセットは、前記ハプロタイプ再構築によって同定される２つ以上のハプロタイプに対応する、請求項１１に記載のコンピュータ実装方法。
前記リードの１つ以上のセットが、生殖細胞系列バリアントに関する第１のリードのセットを含み、前記特定領域の潜在的なバリアントを推測することが、生殖細胞系列バリアントについて、バリアントが参照よりも可能性が高い確率を評価することを含み、任意で、前記リードの１つ以上のセットは、体細胞バリアントに関する第２のリードのセットを含み、前記特定領域の潜在的なバリアントを推測することは、体細胞バリアントについて、
－生殖細胞系列バリアントの存在及び／又は体細胞バリアントの存在、及び
－体細胞バリアントの頻度を考慮すること、である、前記請求項１１又は１２に記載のコンピュータ実装方法。
請求項１から９のいずれか一項に従って機械学習したニューラルネットワークを含むデータ構造、請求項１から９のいずれか一項に記載の機械学習方法を実行するための命令を含むコンピュータプログラム、及び／又は、請求項１０から１３のいずれか一項に記載の方法でバリアントコールを実行するための命令を含むコンピュータプログラム。
請求項１４に記載のデータ構造を記録したデータ記憶媒体を含むデバイス。