JP2022546649A

JP2022546649A - Ｄｎａデータを解析するためのリード層固有ノイズモデル

Info

Publication number: JP2022546649A
Application number: JP2022541189A
Authority: JP
Inventors: ハベルアール
Original assignee: グレイルリミテッドライアビリティカンパニー
Priority date: 2019-09-09
Filing date: 2020-09-08
Publication date: 2022-11-04
Also published as: EP4026130A1; CA3150532A1; WO2021050439A1; US20220336044A1; CN114746947A; IL291145A

Abstract

核酸データセットを処理するためのノイズモデルは、処理されたシークエンスリードを異なるリード層に層別化することができる。各リード層は、潜在的なバリアント場所がシークエンスリードの重複領域および／または相補的な領域にあるかどうかに基づいて定義することができる。処理システムは、各リード層に対して、バリアント場所における層別化されたシークエンシング深度を決定することができる。処理システムは、各リード層に対して、リード層の層別化されたシークエンシング深度を条件とした1つまたは複数のノイズパラメータを決定することができる。ノイズパラメータは、ノイズ分布に関連付けることができる。処理システムは、層別化されたシークエンシング深度を条件としたノイズパラメータに基づいて、各ノイズモデルの出力を生成することができる。処理システムは、各層別化されたノイズモデルの出力を組み合わせて、組み合わされた結果を生成することができ、組み合わされた結果は、事象が観察されたデータと同じかまたはそれより極端である可能性を表すことができる。

Description

本開示は、一般に、核酸シークエンシングデータセットのための品質スコアを決定するためのノイズモデルに関する。

計算技法は、さまざまなタイプのがんまたは他の疾患に対応し得るＤＮＡ内の変異またはバリアントを識別するために、ＤＮＡシークエンシングデータに対して使用可能である。したがって、がん診断または予測は、組織生検または個人、動物、植物などから採取された血液などの生物学的試料を解析することによって実施され得る。血液試料から腫瘍細胞に由来したＤＮＡを検出することは、循環腫瘍ＤＮＡ（ｃｔＤＮＡ）が、血液から抽出されたセルフリーＤＮＡ（ｃｆＤＮＡ）中の他の分子に対して低レベルで存在するので、困難である。既存の方法が信号ノイズから真陽性（たとえば、被験者中のがんを示す）を識別できないことは、既知のシステムおよび将来のシステムが真陽性とノイズ源に引き起こされる偽陽性とを区別できることを減らし、これは、バリアントコーリングまたは他のタイプの解析に関する信頼できない結果をもたらし得る。

米国特許出願第１６／１５３，５９３号明細書

本明細書では、複数のリード層へと分類される部位固有ノイズモデルを訓練および適用するためのシステムおよび方法が開示される。ノイズモデルは、標的シークエンシングにおける真陽性の尤度を決定することができる。真陽性は、塩基対の一塩基バリアント、挿入、または欠失を含むことができる。具体的には、モデルは、ベイズの推論を使用して、たとえば、核酸配列の位置ごとに、いくつかの変異の予想尤度を示すノイズの率またはレベルを決定することができる。各モデルは、リード層に固有とすることができる。リード層は、潜在的なバリアント場所が処理されたシークエンシングリードの重複領域および／または相補的な領域に置かれるかどうかに基づいて決定可能である。リード層に固有の各モデルは、共変量（たとえば、トリヌクレオチドコンテキスト、マップ可能性、またはセグメント複製）およびリード層に固有であるさまざまなタイプのパラメータ（たとえば、混合成分またはシークエンスリードの深度）を解説する階層モデルであってよい。モデルは、同じくリード層によって層別化された健常な被験者のシークエンスリードから訓練可能である。異なるノイズモデルの出力は、全体的な品質スコアを生成するために組み合わせ可能である。さまざまなリード層モデルを組み込んだ全体的なパイプラインは、リード層によってシークエンスリードを分けない単一モデルと比較したとき、より高い感度で真陽性を識別し、偽陽性を除外することができる。

例として、さまざまな実施形態では、試料（たとえば、個人）のＤＮＡシークエンシングデータセットを処理するための方法は、ＤＮＡシークエンシングによって生成されるＤＮＡシークエンシングデータセットにアクセスすることであって、このＤＮＡシークエンシングデータセットは、バリアント場所を含む複数の処理されたシークエンスリードを含む、アクセスすることを含むことができる。方法は、複数の処理されたシークエンスリードを複数のリード層へと層別化させることも含むことができる。方法は、各リード層に対して、バリアント場所において層別化されたシークエンシング深度を決定させることをさらに含むことができる。方法は、各リード層に対して、リード層の層別化されたシークエンシング深度を条件とした１つまたは複数のノイズパラメータを決定することであって、１つまたは複数のノイズパラメータは、リード層に固有のノイズモデルに対応する、決定するステップをさらに含むことができる。方法は、各リード層に対して、リード層の層別化されたシークエンシング深度を条件とした１つまたは複数のノイズパラメータに基づいてリード層に固有のノイズモデルの出力を生成させることをさらに含むことができる。方法は、組み合わされた結果を生じさせるために、生成されたノイズモデル出力を組み合わせることをさらに含むことができる。組み合わされた結果は、その後観察されたデータに関する総バリアントカウントが複数の処理されたシークエンスリード内で観察された総バリアントカウントよりも大きいまたはこれに等しいことがノイズに起因する尤度を表すことができる。

１つまたは複数の実施形態では、複数のリード層は、（１）二本鎖の、縫合されたリード層、（２）二本鎖の、縫合されていないリード層、（３）一本鎖の、縫合されたリード層、および（４）一本鎖の、縫合されていないリード層、のうちの１つまたは複数を含む。

１つまたは複数の実施形態では、バリアント場所における変異は、一塩基バリアント、挿入、および欠失、のうちの１つである。

１つまたは複数の実施形態では、方法は、組み合わされた結果の品質スコアを決定することであって、この品質スコアはＰｈｒｅｄスケールスコアである、決定することをさらに含むことができる。

１つまたは複数の実施形態では、方法は、品質スコアが所定の閾値よりも高いことに応答して、試料はバリアント場所において変異を有する尤度が高いことを示すことをさらに含むことができる。

１つまたは複数の実施形態では、各リード層に対して、リード層の層別化されたシークエンシング深度を条件とした１つまたは複数のノイズパラメータを決定することは、リード層に固有のパラメータ分布にアクセスすることであって、パラメータ分布は、リード層と関連づけられたＤＮＡシークエンシング試料のセットの分布について説明する、アクセスすることを含むことができる。ノイズパラメータは、パラメータ分布から決定される。

１つまたは複数の実施形態では、各リード層に対して、リード層と関連づけられたＤＮＡシークエンシング試料のセットは、リード層へと層別化されたシークエンスリードを含み、１つまたは複数の健常個人に対応する。

１つまたは複数の実施形態では、リード層に対して、リード層に固有のノイズモデルはベイズ階層モデルであり、パラメータ分布はガンマ分布に基づく。

１つまたは複数の実施形態では、第１のリード層に固有のノイズモデルに対応する第１のノイズパラメータは、第２のリード層に固有のノイズモデルに対応する対応する第２のノイズパラメータとは異なる値を有する。

１つまたは複数の実施形態では、各リード層に対して、決定された１つまたは複数のノイズパラメータは、リード層の層別化されたシークエンシング深度を条件としたノイズ分布の平均を含む。

１つまたは複数の実施形態では、各ノイズ分布は、各リード層の層別化されたシークエンシング深度を条件とした負の二項分布である。

１つまたは複数の実施形態では、各リード層に対して、決定された１つまたは複数のノイズパラメータは、ばらつきパラメータをさらに含む。

１つまたは複数の実施形態では、各ノイズモデルの出力は、リード層に対して決定された層別化されたシークエンシング深度を条件とした１つまたは複数のノイズパラメータである。

１つまたは複数の実施形態では、各ノイズモデルの生成された出力は、リード層に対して決定された層別化されたシークエンシング深度を条件とした１つまたは複数のノイズパラメータである。

１つまたは複数の実施形態では、各ノイズモデルの生成された出力は、リード層のための層別化されたバリアントカウントが閾値を超える尤度を含む。

１つまたは複数の実施形態では、生成されたノイズモデル出力を組み合わせることは、全体的な平均バリアントカウントおよび組み合わされた結果に関する全体的なノイズ分布を表す全体的なばらつきパラメータを生じさせるために、平均バリアントカウントと各ノイズモデル出力からの分散を組み合わせることを含む。

１つまたは複数の実施形態では、全体的なノイズ分布は、負の二項分布に基づいてモデル化される。全体的な平均バリアントカウントおよび全体的なばらつきパラメータを決定することは、リード層の層別化されたシークエンシング深度に基づいて各リード層に関する平均バリアントカウントを決定することを含むことができる。決定するステップは、各リード層に関する分散を決定することも含むことができる。決定するステップは、全体的な平均バリアントカウントを決定するために、各リード層に関する平均バリアントカウントを合計することをさらに含むことができる。決定するステップは、全体的な分散を決定するために、各リード層に関する分散を組み合わせることをさらに含むことができる。決定するステップは、全体的な平均バリアントカウントおよび全体的な分散に基づいて全体的なばらつきパラメータを決定することをさらに含むことができる。

１つまたは複数の実施形態では、組み合わされた結果を生成するために各ノイズモデルに関する出力を組み合わせることは、各リード層の観察された層別化されたバリアントカウントを決定することを含むことができる。組み合わせるステップは、各リード層内で、各リード層の観察された層別化されたバリアントカウントよりも尤度の高い可能な事象を決定することも含むことができる。組み合わせるステップは、各リード層の観察された層別化されたバリアントカウントよりも高い発生の尤度と関連づけられた可能な事象の組み合わせを識別することをさらに含むことができる。組み合わせるステップは、統計的補数を決定するために識別された組み合わせの確率を合計することをさらに含むことができる。組み合わせるステップは、統計的補数を１．０から減算することによって尤度値を決定することをさらに含むことができる。

１つまたは複数の実施形態では、１つの二本鎖リードを含む第１の識別された組み合わせは、２つの一本鎖リードを含む第２の識別組み合わせに等しい。

１つまたは複数の実施形態では、決定された尤度値は、各リード層の観察された層別化されたバリアントカウントの発生の尤度に等しいまたはこれよりも大きい。

１つまたは複数の実施形態では、方法は、尤度値を決定するために機械学習モデルを訓練することをさらに含むことができる。

１つまたは複数の実施形態では、方法は、個人の体液試料を受け取ることをさらに含むことができる。方法は、体液試料のｃｆＤＮＡに対してＤＮＡシークエンシングを実施することをさらに含むことができる。方法は、ＤＮＡシークエンシングの結果に基づいて生シークエンスリードを生成することをさらに含むことができる。方法は、複数の処理されたシークエンスリードを生成するために、生シークエンスリードを崩壊および縫合することをさらに含むことができる。

１つまたは複数の実施形態では、体液試料は、個人の血液、全血、血漿、血清、尿、脳脊髄液、糞便、唾液、涙液、組織生検、胸水、心嚢液、または腹水、のうちの１つの試料である。

１つまたは複数の実施形態では、複数の処理されたシークエンスリードは、腫瘍生検から配列決定される。

１つまたは複数の実施形態では、複数の処理されたシークエンスリードは、血液からの細胞の単離物から配列決定され、細胞の単離物は、少なくともバフィーコート白血球またはＣＤ４＋細胞を含む。

１つまたは複数の実施形態では、ＤＮＡシークエンシングは、超並列ＤＮＡシークエンシングのタイプである。

さまざまな実施形態では、非一時的なコンピュータ可読媒体は、１つまたは複数のプロセッサによって実行されるとき、１つまたは複数のプロセッサに、上記で説明され本明細書において開示されるステップのいずれかを実施させる命令を含む。

さらに、さまざまな実施形態では、コンピュータプロセッサと、コンピュータプログラム命令を記憶するメモリとを有し、それによって、プロセッサに上記で説明され本明細書において開示されるステップのいずれかを実施させる命令をコンピュータプロセッサによって実行するシステムが提供される。

本発明による実施形態は、具体的には、方法およびコンピュータプログラム製品に向けられる添付の請求項に開示されており、１つの請求項カテゴリにおいて言及される任意の特徴、たとえば方法は、別の請求項カテゴリ、たとえばコンピュータプログラム製品、システム、記憶媒体においても特許請求可能である。添付の請求項における依存関係または参照は、公的な理由のためにのみ選ばれる。しかしながら、いかなる以前の請求項（特に複数の依存関係）への熟慮のうえでの参照から生じるいかなる主題も特許請求可能であり、したがって、請求項およびその特徴の任意の組み合わせが開示され、添付の請求項において選ばれた依存関係に関係なく特許請求可能である。特許請求可能である主題は、添付の請求項に記載される特徴の組み合わせだけでなく、請求項における特徴の他の任意の組み合わせも含み、請求項において言及される各特徴は、請求項における他の任意の特徴または他の特徴の組み合わせと組み合わせ可能である。そのうえ、本明細書において説明または描かれる実施形態および特徴のいずれも、別個の請求項において、および／または本明細書において説明もしくは描かれる任意の実施形態もしくは特徴との、もしくは添付の請求項の特徴のいずれかとの任意の組み合わせで、特許請求可能である。

本開示のさまざまな実施形態による、シークエンシングのための核酸試料を準備するための方法のフローチャートである。本開示のさまざまな実施形態による、シークエンスリードを処理するための処理システムのブロック図である。本開示のさまざまな実施形態による、シークエンスリードのバリアントを決定するための方法のフローチャートである。本開示のさまざまな実施形態による、ベイズ階層モデルの適用例の図である。本開示のさまざまな実施形態による、真の一塩基バリアントを決定するためのベイズ階層モデルのパラメータおよびサブモデル間の依存関係を図示する図である。本開示のさまざまな実施形態による、真の挿入または欠失を決定するためのベイズ階層モデルのパラメータおよびサブモデル間の依存関係を図示する図である。本開示のさまざまな実施形態による、ベイズ階層モデルと関連づけられたノイズ率の分布に関する図である。本開示のさまざまな実施形態による、ベイズ階層モデルと関連づけられたバリアントにより与えられるパラメータの分布に関する図である。本開示のさまざまな実施形態による、ベイズ階層モデルを適合させることによってパラメータを決定する図である。本開示のさまざまな実施形態による、ベイズ階層モデルからパラメータを使用して偽陽性の尤度を決定する図である。本開示のさまざまな実施形態による、シークエンスリードの異なるリード層を示す図である。本開示のさまざまな実施形態による、図８Ａのリード層の異なる品質を示す実験結果を図示するグラフである。本開示のさまざまな実施形態による、ヌクレオチド置換のタイプに基づいてシークエンスリードをリード層へと、さらにサブリード層へと層別化することによって取得された第１のリード層の実験結果を図示するグラフである。本開示のさまざまな実施形態による、ヌクレオチド置換のタイプに基づいてシークエンスリードをリード層へと、さらにサブリード層へと層別化することによって取得された第２のリード層の実験結果を図示するグラフである。本開示のさまざまな実施形態による、ヌクレオチド置換のタイプに基づいてシークエンスリードをリード層へと、さらにサブリード層へと層別化することによって取得された第３のリード層の実験結果を図示するグラフである。本開示のさまざまな実施形態による、ヌクレオチド置換のタイプに基づいてシークエンスリードをリード層へと、さらにサブリード層へと層別化することによって取得された第４のリード層の実験結果を図示するグラフである。本開示のさまざまな実施形態による、ヌクレオチド置換のタイプに基づいてシークエンスリードをリード層へと、さらにサブリード層へと層別化することによって取得された第５のリード層の実験結果を図示するグラフである。本開示のさまざまな実施形態による、代替対立遺伝子のタイプに基づく４つのリード層にわたる平均誤り率を図示するグラフである。本開示のさまざまな実施形態による、層別化されたノイズモデルを使用してＤＮＡシークエンシング試料を解析するためのプロセスを描くフローチャートである。本開示のさまざまな実施形態による、モーメントマッチングを使用して異なるリード層のための層別化されたノイズモデルの出力を組み合わせるためのプロセスを描くフローチャートである。本開示のさまざまな実施形態による、積分を使用して異なるリード層のための層別化されたノイズモデルの出力を組み合わせるためのプロセスを描くフローチャートである。本開示のさまざまな実施形態による、多次元空間内でのより極端な事象のカウンティングを示す図である。本開示のさまざまな実施形態による、デフォルト品質スコアに対する観察された品質スコアの例示的なプロットである。本開示のさまざまな実施形態による、デフォルト品質スコアに対する観察された品質スコアの別の例示的なプロットである。本開示のさまざまな実施形態による、リード層を使用した品質スコアの実験結果を示すグラフである。本開示のさまざまな実施形態による、リード層を分けないノイズモデルを使用した品質スコアの実験結果を示すグラフである。本開示のさまざまな実施形態による、個人の潜在的な変異場所を識別する例示的なプロセスを描くフローチャートである。本開示のさまざまな実施形態による、例示的なコンピューティングデバイスのブロック図である。

図は、例示目的でのみ本発明の実施形態を描く。当業者は、本明細書において示される構造および方法の代替的実施形態が、本明細書において説明される本発明の原理から逸脱することなく用いられてよいことを、以下の説明から容易に認識するであろう。

Ｉ．定義
「個人」という用語は、人間個人を指す。「健常個人」という用語は、がんまたは疾患を患っていないことを推定された個人を指す。「被験者」という用語は、がんまたは疾患の検査を受けている個人を指す。

「シークエンスリード」という用語は、個人から取得された試料からのヌクレオチドシークエンスリードを指す。シークエンスリードは、当技術分野で知られているさまざまな方法を通じて取得可能である。

「リードセグメント」または「リード」という用語は、個人から取得されたシークエンスリードを含む任意のヌクレオチド配列および／または個人から取得された試料からの初期シークエンスリードから得られたヌクレオチド配列を指す。たとえば、リードセグメントは、アライメントされたシークエンスリード、崩壊されたシークエンスリード、または縫合されたリードを指すことができる。そのうえ、リードセグメントは、一塩基バリアントなどの個々のヌクレオチド塩基を指すことができる。

「一塩基バリアント」すなわち「ＳＮＶ」という用語は、個人からのヌクレオチド配列たとえばシークエンスリードの位置（たとえば、部位）における１つのヌクレオチドの異なるヌクレオチドへの置換を指す。第１のヌクレオベースＸから第２のヌクレオベースＹへの置換は、「Ｘ＞Ｙ」と表され得る。たとえば、シトシンからチミンへのＳＮＶは、「Ｃ＞Ｔ」と表されてよい。

「インデル」という用語は、長さとシークエンスリード内の位置（アンカー位置とも呼ばれ得る）とを有する１つまたは複数の塩基対の挿入または欠失を指す。挿入は正の長さに対応し、欠失は負の長さに対応する。

「バリアント」という用語は、１つまたは複数のＳＮＶまたはインデルを指す。バリアント場所は、ＳＮＶまたはインデルを潜在的に含む可能性のあるＤＮＡシークエンシング内の対象となる場所を指す。

「真陽性」という用語は、リアルバイオロジー（real biology）、たとえば、個人における潜在的ながん、疾患、または生殖細胞系列変異の存在を示す変異を指す。真陽性は、健常個人において自然に発生する変異（たとえば、再発する変異）または核酸試料のアッセイ準備中のプロセスエラーなどの他のアーチファクトの源によって引き起こされない。

「偽陽性」という用語は、真陽性と誤って決定される変異を指す。一般に、偽陽性は、より大きい平均ノイズ率またはより大きいノイズ率の不確実性と関連づけられたシークエンスリードを処理するとき発生する可能性がより高いことがある。

「セルフリーＤＮＡ」すなわち「ｃｆＤＮＡ」という用語は、個人の身体内で循環し（たとえば、血流）、１つもしくは複数の健常な細胞からおよび／または１つもしくは複数のがん細胞から生じる核酸断片を指す。

「循環腫瘍ＤＮＡ」すなわち「ｃｔＤＮＡ」という用語は、死につつある細胞のアポトーシスもしくは壊死などの生物学的プロセスの結果として個人の血流へと放出可能である、または生存腫瘍細胞によって能動的に放出可能である、腫瘍細胞または他のタイプのがん細胞から生じる核酸断片を指す。

「代替対立遺伝子」すなわち「ＡＬＴ」という用語は、たとえば既知の遺伝子に対応する参照対立遺伝子に対して１つまたは複数の変異を有する対立遺伝子を指す。

「シークエンシング深度」または「深度」という用語は、個人から取得された試料からのリードセグメントの総数を指す。

「代替深度」すなわち「ＡＤ」という用語は、ＡＬＴをサポートする、たとえば、ＡＬＴの変異を含む、試料内のリードセグメントの数を指す。

「代替頻度」すなわち「ＡＦ」という用語は、所与のＡＬＴの頻度を指す。ＡＦは、試料の対応するＡＤを所与のＡＬＴに対する試料の深度で除算することによって決定可能である。

ＩＩ．例示的なアッセイプロトコル
図１は、さまざまな実施形態による、シークエンシングのための核酸試料を準備するための方法１００のフローチャートである。方法１００は、以下のステップを含むが、これに限定されない。たとえば、方法１００のいかなるステップも、品質制御または当業者に知られている他のラボラトリアッセイ手順のための定量化サブステップを含むことができる。方法１００は、超並列ＤＮＡシークエンシング、たとえば、次世代シークエンシング（ＮＧＳ）のタイプに対応することができる。

ステップ１１０では、核酸試料（ＤＮＡまたはＲＮＡ）は、被験者から抽出される。被験者は、個人であってよい。試料は、ヒトゲノムまたはゲノム全体の任意のサブセットであってよい。試料は、がんを患っているまたは患っている疑いのあることが知られている被験者から抽出可能である。試料は、血液、血漿、血清、尿、糞便、唾液、他のタイプの体液、またはそれらの任意の組み合わせを含むことができる。いくつかの実施形態では、血液試料を採取するための方法（たとえば、シリンジまたは指刺し）は、手術を必要とすることがある、組織生検を取得するための手順よりも侵襲性が低いことがある。抽出された試料は、ｃｆＤＮＡおよび／またはｃｔＤＮＡを含むことができる。健常個人の場合、人間の身体は、ｃｆＤＮＡおよび他の細胞デブリを自然に取り除くことができる。被験者ががんまたは疾患を患っている場合、抽出された試料内のｃｔＤＮＡは、診断のために検出可能なレベルで存在することができる。

ステップ１２０では、シークエンシングライブラリが準備される。ライブラリ準備中、核酸試料は、数千または数百万の断片にランダムに切断される。一意分子識別子（ＵＭＩ）は、アダプタライゲーションを通じて核酸断片（たとえば、ＤＮＡ断片）に追加される。ＵＭＩは、アダプタライゲーション中にＤＮＡ断片の端に追加される短い核酸配列（たとえば、４～１０塩基対）である。いくつかの実施形態では、ＵＭＩは、特定のＤＮＡ断片から生じるシークエンスリードを識別するために使用可能である一意のタグとして働く縮重塩基対である。アダプタライゲーションに続いてＰＣＲ増幅中、ＵＭＩは、接着されたＤＮＡ断片とともに複写され、これは、下流解析において同じ元の断片に由来するシークエンスリードを識別するやり方を提供する。

ステップ１３０では、標的ＤＮＡ配列は、ライブラリから濃縮される。濃縮中、ハイブリダイゼーションプローブ（本明細書では、「プローブ」とも呼ばれる）は、がん（または疾患）の存在または不在、がんステータス、またはがん分類（たとえば、がんタイプまたは原発組織）に関する情報を与える核酸断片を標的とし、破壊するために使用される。所与のワークフローの場合、プローブは、ＤＮＡまたはＲＮＡの標的（相補）鎖にアニール（またはハイブリダイズ）するように設計可能である。標的鎖は、「ポジティブ」鎖（たとえば、ｍＲＮＡへと転写され、その後でタンパク質へと翻訳される鎖）であってもよいし、相補的な「ネガティブ」鎖であってもよい。プローブは、長さが数十から、数百、または数千の塩基対とすることができる。いくつかの実施形態では、プローブは、いくつかのがんまたは他のタイプの疾患に対応すると疑われる（たとえば、人間または別の生物の）ゲノムの特定の変異または標的領域を解析するために遺伝子パネルに基づいて設計される。さらに、プローブは、標的領域の重複部分をカバーすることができる。「全エクソームシークエンシング」としても知られるゲノムのすべての発現遺伝子を配列決定することではなく、標的遺伝子パネルを使用することによって、方法１００は、標的領域のシークエンシング深度を増加させるために使用可能であり、深度は、試料内の所与の標的配列が配列決定された回数のカウントを指す。シークエンシング深度を増加させることは、核酸試料の必要とされる入力量を減少させる。ハイブリダイゼーションステップの後、ハイブリダイズされた核酸断片が捕捉され、ＰＣＲを使用して増幅されることも可能である。

ステップ１４０では、シークエンスリードは、濃縮ＤＮＡ配列から生成される。シークエンシングデータは、当技術分野で知られている手段によって、濃縮ＤＮＡ配列から獲得可能である。たとえば、方法１００は、合成技術（Ｉｌｌｕｍｉｎａ）、パイロシークエンシング（４５４ＬｉｆｅＳｃｉｅｎｃｅｓ）、イオン半導体技術（ＩｏｎＴｏｒｒｅｎｔｓｅｑｕｅｎｃｉｎｇ）、単分子リアルタイムシークエンシング（ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ）、ライゲーションによるシークエンシング（ＳＯＬｉＤｓｅｑｕｅｎｃｉｎｇ）、ナノポアシークエンシング（ＯｘｆｏｒｄＮａｎｏｐｏｒｅＴｅｃｈｎｏｌｏｇｉｅｓ）、またはペアードエンドシークエンシングを含む次世代シークエンシング（ＮＧＳ）技法を含むことができる。いくつかの実施形態では、超並列シークエンシングは、可逆的ダイターミネータとともに合成時シークエンシングを使用して実施される。

いくつかの実施形態では、シークエンスリードは、アライメント位置情報を決定するために、当技術分野で知られている方法を使用して、参照ゲノムにアライメント可能である。アライメント位置情報は、所与のシークエンスリードの開始ヌクレオチド塩基および終了ヌクレオチド塩基に対応する参照ゲノム内の領域の開始位置および終了位置を示すことができる。アライメント位置情報は、開始位置および終了位置から決定可能であるシークエンスリード長も含むことができる。参照ゲノム内の領域は、遺伝子または遺伝子のセグメントと関連づけ可能である。

さまざまな実施形態では、シークエンスリードは、Ｒ₁およびＲ₂と示されるリードペアからなる。たとえば、第１のリードＲ₁は、核酸断片の第１の端から配列決定可能であるが、第２のリードＲ₂は、核酸断片の第２の端から配列決定可能である。したがって、第１のリードＲ₁および第２のリードＲ₂のヌクレオチド塩基対は、参照ゲノムのヌクレオチド塩基と一貫して（たとえば、反対の方位に）アライメント可能である。リードペアＲ₁およびＲ₂から得られるアライメント位置情報は、第１のリード（たとえば、Ｒ₁）の端に対応する参照ゲノム内の開始位置と、第２のリード（たとえば、Ｒ₂）の端に対応する参照ゲノム内の終了位置とを含むことができる。言い換えれば、参照ゲノム内の開始位置および終了位置は、核酸断片が対応する、参照ゲノム内の可能性のある場所を表す。以下で図２を参照して説明されるように、ＳＡＭ（配列アライメントマップ）フォーマットまたはＢＡＭ（バイナリ）フォーマットを有する出力ファイルが、バリアントコーリングなどのさらなる解析のために生成および出力可能である。

ＩＩＩ．例示的な処理システム
図２は、さまざまな実施形態による、シークエンスリードを処理するための処理システム２００のブロック図である。処理システム２００は、配列プロセッサ２０５と、配列データベース２１０と、モデルデータベース２１５と、機械学習エンジン２２０と、モデル２２５（たとえば、異なるリード層に対応するベイズ階層モデル）と、パラメータデータベース２３０と、スコアエンジン２３５と、バリアントコーラー２４０とを含む。図３は、さまざまな実施形態による、シークエンスリードのバリアントを決定するための方法３００のフローチャートである。いくつかの実施形態では、処理システム２００は、入力シークエンシングデータに基づいて（たとえば、ＳＮＶおよび／またはインデルに対して）バリアントコーリングを実施するために方法３００を実施する。さらに、処理システム２００は、上記で説明された方法１００を使用して準備される核酸試料と関連づけられた出力ファイルから入力シークエンシングデータを取得することができる。方法３００は、以下のステップを含むが、これに限定されず、以下のステップは、処理システム２００の構成要素に関して説明される。いくつかの実施形態では、方法３００の１つまたは複数のステップは、たとえば、ＨａｐｌｏｔｙｐｅＣａｌｌｅｒ、ＶａｒＳｃａｎ、Ｓｔｒｅｌｋａ、またはＳｏｍａｔｉｃＳｎｉｐｅｒなどのバリアントコールフォーマット（ＶＣＦ）を使用してバリアントコールを生成するための異なるプロセスのステップによって置き換え可能である。

ステップ３００では、配列プロセッサ２０５は、入力シークエンシングデータのシークエンスリードを崩壊する。いくつかの実施形態では、シークエンスリードを崩壊することは、ＵＭＩと任意選択で出力ファイルのシークエンシングデータからの（たとえば、図１に図示される方法１００からの）アライメント位置情報を使用して、核酸断片またはその部分の最も可能性の高い配列を決定するために複数のシークエンスリードをコンセンサス配列へと崩壊することを含む。ＵＭＩは、濃縮およびＰＣＲを通じてライゲーションされた核酸断片とともに複写されるので、配列プロセッサ２０５は、いくつかのシークエンスリードが核酸試料内の同じ分子から生じたことを決定することができる。いくつかの実施形態では、同じまたは類似のアライメント位置情報（たとえば、閾値オフセット内の開始位置および終了位置）を有し、共通ＵＭＩを含むシークエンスリードが崩壊され、配列プロセッサ２０５は、核酸断片を表す、崩壊されたリード（本明細書では、コンセンサスリードとも呼ばれる）を生成する。配列プロセッサ２０５は、崩壊されるリードの対応するペアが、親（originating）核酸分子のポジティブ鎖とネガティブ鎖の両方が捕捉されることを示す共通ＵＭＩを有する場合、コンセンサスリードを「デュプレックス（duplex）」として指定し、そうでない場合、崩壊されるリードは、「非デュプレックス」と指定される。いくつかの実施形態では、配列プロセッサ２０５は、シークエンスリードを崩壊することの代替として、またはこれに加えて、シークエンスリードに対して他のタイプの誤り訂正を実施することができる。

ステップ３０５では、配列プロセッサ２０５は、２つ以上のシークエンスリード間の重複ヌクレオチド配列の部分に基づいて、崩壊されたリードを縫合する。いくつかの実施形態では、配列プロセッサ２０５は、第１のリードと第２のリードのヌクレオチド塩基対が重複するかどうかを決定するために、第１のリードと第２のリードとの間でヌクレオチド配列を比較する。２つのシークエンスリードは、参照ゲノムとも比較可能である。例示的な使用事例では、第１のリードと第２のリードとの間の（たとえば、所与の数のヌクレオチド塩基の）重複が閾値長さ（たとえば、ヌクレオチド塩基の閾値数）よりも大きいことを決定することに応答して、配列プロセッサ２０５は、第１のリードおよび第２のリードを「縫合される」と指定し、そうでない場合、崩壊されたリードは、「縫合されない」と指定される。いくつかの実施形態では、第１のリードおよび第２のリードは、重複が閾値長さよりも大きい場合および重複がスライドする（sliding）重複でない場合、縫合される。たとえば、スライドする重複は、ホモポリマー行程（run）（たとえば、単一の繰り返しヌクレオチド塩基）、ジヌクレオチド行程（たとえば、２ヌクレオチド塩基配列）、またはトリヌクレオチド行程（たとえば、３ヌクレオチド塩基配列）を含むことができ、ホモポリマー行程、ジヌクレオチド行程、またはトリヌクレオチド行程は、少なくとも閾値長さの塩基対を有する。

ステップ３１０では、配列プロセッサ２０５は、リードを経路へと組み立てる。いくつかの実施形態では、配列プロセッサ２０５は、標的領域（たとえば、遺伝子）のための有向グラフたとえばｄｅＢｒｕｉｊｎグラフを生成するために、リードを組み立てる。有向グラフの無向エッジは、標的領域内のｋ個のヌクレオチド塩基（本明細書では、「ｋ－ｍｅｒ」とも呼ばれる）の配列を表し、エッジは、頂点（またはノード）によって接続される。配列プロセッサ２０５は、崩壊されたリードのいずれも、エッジと対応する頂点のサブセットによって順を追って表され得るように、崩壊されたリードを有向グラフにアライメントする。

いくつかの実施形態では、配列プロセッサ２０５は、有向グラフについて説明するパラメータのセットを決定し、有向グラフを処理する。追加的に、パラメータのセットは、崩壊されたリードから有向グラフ内のノードまたはエッジによって表されるｋ－ｍｅｒに正常にアライメントされたｋ－ｍｅｒのカウントを含むことができる。配列プロセッサ２０５は、たとえば、配列データベース２１０に、有向グラフおよび対応するパラメータのセットを記憶し、これは、グラフを更新するまたは新しいグラフを生成するために取り出し可能である。たとえば、配列プロセッサ２０５は、パラメータのセットに基づいて有向グラフの圧縮バージョンを生成する（たとえば、または既存のグラフを修正する）ことができる。例示的な使用事例では、より低いレベルの重要性を有する有向グラフのデータを除外するために、配列プロセッサ２０５は、閾値よりも小さいカウントを有するノードまたはエッジを除去し（たとえば、「切り取る」または「刈り込む」）、閾値よりも大きいまたはこれに等しいカウントを有するノードまたはエッジを維持する。

ステップ３１５では、バリアントコーラー２４０は、配列プロセッサ２０５によって組み立てられた経路からバリアント候補リードを生成する。バリアントは、ＳＮＶまたはインデルに対応することができる。いくつかの実施形態では、バリアントコーラー２４０は、有向グラフ（ステップ３１０においてエッジまたはノードを刈り込むことによって圧縮された可能性がある）をゲノムの標的領域の参照配列と比較することによって、バリアント候補リードを生成することができる。バリアントコーラー２４０は、有向グラフのエッジを参照配列にアライメントすることができ、不適正なエッジおよびエッジに隣接する不適正なヌクレオチド塩基のゲノム位置をバリアント候補の場所として記録する。追加的に、バリアントコーラー２４０は、標的領域のシークエンシング深度に基づいて、バリアント候補リードを生成することができる。具体的には、たとえば、より大きい数のシークエンスリードは、配列間の変動ミスマッチまたは他の塩基対を（たとえば、冗長性を使用して）解決する助けとなるので、バリアントコーラー２４０は、より大きいシークエンシング深度を有する標的領域内のバリアントを識別する際により確信することができる。

いくつかの実施形態では、バリアントリードは、バリアントリードの品質に基づいて、異なるリード層へと分類可能である。バリアントリードの品質は、崩壊された配列の重複および／または相補的場所と比較して、潜在的なバリアント場所の場所に対応することができる。超並列シークエンシングにおける試料準備（たとえば、ライブラリ準備プロセス）中、被験者個人の核酸試料は、ランダムに、および並列シークエンシングが実施される前に、切断可能である。核酸配列の同じコピーは、異なるように、ランダムに切断可能である。したがって、濃縮断片のうちのいくつかは、他の濃縮断片と縫合可能である重複した領域を有することができるが、他の濃縮断片は、そのような領域を有さない。いくつかの濃縮断片は、同じく濃縮された相補配列も有し、したがって配列処理において二本鎖断片を生成することができる。その結果、異なる配列場所のためのバリアントリードは、異なる品質に対応することができる。たとえば、断片の両方の相補鎖が濃縮された場所におけるバリアントリードは、多くの場合、一本鎖断片からのサポートのみを見つける別の場所における別のバリアントリードよりも良い品質を有する。バリアントリードのリード層の詳細は、図８Ａ～図８Ｂにおいてさらに論じられる。

いくつかの実施形態では、バリアントコーラー２４０は、被験者からのシークエンスリードに関する予想ノイズ率を決定するために、モデル２２５を使用してバリアント候補リードを生成する。モデル２２５の各々は、ベイズ階層モデルであってよい。ベイズ階層モデルは、バリアント候補を生成するために使用可能であり、それらすべてがバリアントコーリングの感度／特異性を改善するために位置固有ノイズ情報をモデル化するという点で互いに関連する、多くの可能なモデルアーキテクチャのうちの１つとすることができる。より具体的には、機械学習エンジン２２０は、シークエンスリードの位置ごとの予想ノイズ率をモデル化するために、健常個人からの試料を使用して、モデル２２５を訓練する。いくつかの実施形態では、異なるリード層に対応するバリアントリードは、各々が特定のリード層に固有である異なるモデルによって異なるように処置可能である。各モデル化の結果は、組み合わされた結果を生成するために組み合わせ可能である。リード層およびモデルを層別化することの詳細は、図８Ａ～図１１Ｂにおいてさらに論じられる。

さらに、複数の異なるモデルは、モデルデータベース２１５に記憶可能である、または適用後訓練のために取り出し可能である。たとえば、第１のモデルは、ＳＮＶノイズ率をモデル化するために訓練され、第２のモデルは、インデルノイズ率をモデル化するために訓練される。さらに、スコアエンジン２３５は、モデル２２５のパラメータを使用して、シークエンスリード内の１つまたは複数の真陽性の尤度を決定することができる。スコアエンジン２３５は、尤度に基づいて、（たとえば、対数目盛上での）品質スコアを決定することができる。たとえば、品質スコアは、Ｐｈｒｅｄ品質スコアＱ＝－１０・ｌｏｇ₁₀Ｐであり、ここで、Ｐは誤ったバリアントコール候補（たとえば、偽陽性）の尤度である。

ステップ３２０では、スコアエンジン２３５は、モデル２２５または真陽性の対応する尤度または品質スコアに基づいて、バリアントリードをスコア化する。モデル２２５の訓練および適用は、以下でより詳細に説明される。

ステップ３２５では、処理システム２００は、バリアントに関する解析結果を出力する。いくつかの実施形態では、処理システム２００は、対応するスコアとともに、決定されたバリアント候補のうちのいくつかまたはすべてを出力する。たとえば処理システム２００または処理システム２００の他の構成要素の外部にある、下流システムは、がん、疾患、または生殖細胞系列変異の存在を予想することを含むがこれに限定されないさまざまな適用例のために、バリアントおよびスコアを使用することができる。
ＩＶ．例示的なモデル

図４は、さまざまな実施形態による、ベイズ階層モデル２２５の適用例の図である。変異Ａおよび変異Ｂは、説明の目的で例として図示される。図４を含む本開示の大部分では、変異は、ＳＮＶとして表されているが、いくつかの実施形態では、本開示における説明は、インデルまたは他のタイプの変異にも適用可能である。第１の試料の第１のバリアントリードは、第１の参照対立遺伝子の位置４におけるＣ＞Ｔ変異である、例示的な変異Ａに対応する。第１の試料は、１０という第１のＡＤと、１０００という第１の総シークエンシング深度とを有する。第２の試料の第２のバリアントリードは、第２の参照対立遺伝子の位置３におけるＴ＞Ｇ変異である、例示的な変異Ｂに対応する。第２の試料は、１という第２のＡＤと、１２００という第２の総深度とを有する。単にＡＤ（またはＡＦ）に基づいて、変異Ａは真陽性と思われることがあり、変異Ｂは偽陽性と思われることがあるが、それは、前者のＡＤ（またはＡＦ）が後者のそれよりも大きいからである。しかしながら、変異ＡおよびＢは、対立遺伝子ごとおよび／または対立遺伝子の位置ごとに、異なる相対的レベルのノイズ率を有することができる。たとえば、これらの異なる位置の相対的ノイズレベルが解説されるので、変異Ａは偽陽性とすることができ、変異Ｂは真陽性とすることができる。したがって、本明細書において説明されるモデル２２５は、真陽性の適切な識別のために、このノイズをモデル化する。

図４に示される確率質量関数（ＰＭＦ）は、被験者からの試料が位置に所与のＡＤカウントを有する確率（または尤度）を示す。参照個人の試料からのシークエンシングデータ（たとえば、配列データベース２１０に記憶された）を訓練データセットとして使用して、処理システム２００は、参照試料のためのＰＭＦが得られ得るモデル２２５を訓練する。参照個人は、特定のバリアント場所における変異と関連づけられることが知られていないまたは判明していない個人とすることができ、時には、健常個人と呼ばれることがあるが、健常個人は、特定のバリアント場所のために訓練されたモデルに関連していない別のバリアント場所における異なる変異と関連づけられることができる。ＰＭＦは、正常組織（たとえば、参照個人の）内の位置ごとの対立遺伝子ごとの予想平均ＡＤカウントをモデル化するλ_pと、このＡＤカウントにおける予想変動（たとえば、ばらつき）をモデル化するｒ_pに基づく。別の言い方をすれば、λ_pおよび／またはｒ_pは、正常組織のためのシークエンシングデータにおける、対立遺伝子ごと位置ごとの、ノイズのベースラインレベルを表す。いくつかの実施形態では、参照個人のシークエンシングデータは、各々特定のリード層に対応する複数のモデル２２５が訓練されるように、異なるリード層へと層別化可能である。リード層に対応する各モデルは、異なるλ_pと、異なるｒ_pとを有することができる。

図４の例を使用してさらに例証すると、参照個人からの試料は、ｙ_iによってモデル化された人間母集団のサブセットを表し、ここで、ｉは訓練セット内の健常個人のインデックスである。例のために、モデル２２５がすでに訓練されていると仮定すると、モデル２２５によって生じさせられたＰＭＦは、各変異に関する測定されたＡＤの尤度を視覚的に例証し、したがって、どれが真陽性であり、どれが偽陽性であるかという標識を提供する。変異Ａと関連づけられた図４の左側の例示的なＰＭＦは、第１の試料が位置４における変異のための１０というＡＤカウントを有する確率は約２０％であることを示す。追加的に、変異Ｂと関連づけられた右側の例示的なＰＤＦは、第２の試料が位置３における変異のための１というＡＤカウントを有する確率は約１％であることを示す（注：図４のＰＭＦは正確には一定の縮尺でない）。したがって、ＰＭＦのこれらの確率に対応するノイズ率は、変異Ｂの方が低いＡＤとＡＦとを有するにもかかわらず、変異Ａは変異Ｂよりも発生する可能性が高いことを示す。したがって、この例では、変異Ｂは真陽性とすることができ、変異Ａは偽陽性とすることができる。したがって、処理システム２００は、モデル２２５を使用して、より正確な率で真陽性を偽陽性から区別することによって、改善されたバリアントコーリングを実施し、これらの尤度に関する数値的信頼度をさらに提供することができる。

図５Ａは、さまざまな実施形態による、真の一塩基バリアントを決定するためのベイズ階層モデル２２５のパラメータとサブモデル間の依存関係を図示する。図５Ａに図示されるベイズ階層モデルは、バリアントリードの特定のリード層に対応することができる。モデルのパラメータは、パラメータデータベース２３０に記憶可能である。図５Ａに図示される例では、

は、各混合成分に割り当てられた重みのベクトルを表す。ベクトル

は、Ｋ次元におけるシンプレックス以内の値を取り、訓練中に事後サンプリングを介して学習または更新可能である。それは、そのような訓練のために、シンプレックスに対して均一な事前が与えられ得る。位置ｐが属する混合成分は、１つまたは複数の異なる多項分布を使用して、潜在的変数ｚ_pによってモデル化可能である。

潜在的変数ｚ_p、混合成分のベクトル

、α、およびβは一緒に、μのためのモデル、すなわち、ベイズ階層モデル２２５のサブモデルが、ノイズについての知識を「プール」するパラメータを有することを可能にする、すなわち、それらは、複数の位置にわたるノイズ特性の類似性を表す。したがって、シークエンスリードの位置は、モデルによって潜在的クラスへとプールまたはグループ化可能である。また有利には、これらの「プールされた」位置のいずれの試料も、これらの共有パラメータを訓練する助けとなることができる。この利点は、代替対立遺伝子が以前に（たとえば、モデルを訓練するために使用される健常な組織試料内で）所与の位置に関して観察されている直接的証拠がほとんどからまったくない場合ですら、処理システム２００が健常試料におけるノイズのモデルを決定することができることである。

共変量ｘ_p（たとえば、予測因子）は、トリヌクレオチドコンテキスト、マップ可能性、セグメント複製、またはシークエンスリードと関連づけられた他の情報などの情報を含むことができるがこれに限定されない、位置ｐに関する既知のコンテキスト情報を符号化する。トリヌクレオチドコンテキストは、参照対立遺伝子に基づくことができ、数値（たとえば、整数）表現が割り当て可能である。たとえば、「ＡＡＡ」は１が割り当てられ、「ＡＣＡ」は２が割り当てられ、「ＡＧＡ」は３が割り当てられる、などである。マップ可能性は、ゲノムの特定の標的領域へのリードのアライメントの一意性のレベルを表す。たとえば、マップ可能性は、シークエンスリードが一意にマップする位置の数の逆数として算出される。セグメント複製は、ほぼ同一であり（たとえば、９０％を超えるマッチング）、自然複製事象（たとえば、がんまたは疾患と関連づけられない）の結果としてゲノム内の複数の場所内で発生する、長い核酸配列（たとえば、約１０００の塩基対よりも大きい長さを有する）に対応する。

位置ｐにおけるＳＮＶの予想平均ＡＤ頻度は、パラメータμ_pによってモデル化される。いくつかの実施形態では、パラメータμ_pは、シークエンシング深度ごとの平均ＡＤカウント

に対応する。ＳＮＶはバリアントの一例であるので、パラメータμ_pは、平均バリアント頻度とも呼ばれ得る。本明細書におけるわかりやすさのために、μ_pおよびｙ_pという用語は、ベイズ階層モデル２２５の位置固有サブモデルを指す。いくつかの実施形態では、μ_pは、形状パラメータ

と率パラメータ

とを有するガンマ分布確率変数としてモデル化される。

いくつかの実施形態では、μ_pを表すために他の関数が使用可能であり、その例は、対数平均

と対数標準偏差

とをもつ対数正規分布、ワイブル分布、べき法則、指数関数的に変えられたべき法則（exponentially-modulated power law）、または前述のものの混合物を含むが、これに限定されない。形状パラメータ

は、時には、分布におけるばらつきパラメータｒ_pの一例とすることができる。

分布の分散は、平均バリアント頻度μ_pおよびばらつきパラメータｒ_pによって決定可能である。たとえば、ガンマ分布の場合、分散ｖ_pは、

によって決定可能である。ラムダλ_pは、平均バリアントカウントとすることができ、これは、シークエンシング深度

によって乗算されたμ_pによって決定可能である。また、ラムダλ_pは、以下の

によって、形状パラメータ

および率パラメータ

に関連することができる。

図５Ａに図示される例では、形状パラメータおよび率パラメータは各々、共変量ｘ_pおよび潜在的変数ｚ_pに依存するが、いくつかの実施形態では、依存関係は、訓練中の情報プーリングのさまざまな程度に基づいて異なってよい。たとえば、モデルは、代替的に、

が潜在的変数には依存するが共変量には依存しないように構造化可能である。（健常個人の）人間母集団試料ｉ内の位置ｐにおけるＳＮＶのＡＤカウントの分布は、確率変数

によってモデル化される。確率変数

は、バリアントカウントまたは観察されたバリアントカウントとも呼ばれることがある。いくつかの実施形態では、分布は、位置における試料のシークエンシング深度

が与えられるとすると、ポアソン分布である。

いくつかの実施形態では、他の関数は、

を表すために使用可能であり、その例は、負の二項、Ｃｏｎｗａｙ－Ｍａｘｗｅｌｌ－Ｐｏｉｓｓｏｎ分布、ゼータ分布、およびゼロ過剰ポアソンを含むが、これらに限定されない。たとえば、確率変数

は、負の二項分布によってモデル化可能である。

平均バリアント頻度μ_p、平均バリアントカウント

、およびばらつきパラメータｒ_pは、それらのパラメータはバリアントカウントの確率変数

の分布に影響するので、ノイズパラメータと呼ばれることがある。

図５Ｂは、さまざまな実施形態による、真の挿入または欠失を決定するためのベイズ階層モデルのパラメータとサブモデル間の依存関係を図示する。図５Ａに図示されるＳＮＶモデルとは対照的に、図５Ｂに図示されるインデルのためのモデルは、異なるレベルの階層を含む。共変量ｘ_pは、位置ｐにおける既知の特徴を符号化し、たとえば、ホモポリマーへの距離、ＲｅｐｅａｔＭａｓｋｅｒ繰り返しへの距離、または以前に観察されたシークエンスリードと関連づけられた他の情報を含むことができる。潜在的変数

は、ベクトル

のパラメータに基づいてディリクレ分布によってモデル化可能であり、これらのパラメータは、位置におけるインデル長さ分布を表し、共変量に基づくことができる。いくつかの実施形態では、

は、同じ共変量値を共有する位置

の間でも共有される。したがって、たとえば、潜在的変数は、そのホモポリマーインデルがアンカー位置からの位置１、２、３などの塩基対で発生し、トリヌクレオチドインデルがアンカー位置から位置３、６、９などで発生するなどの情報を表すことができる。

位置ｐにおける予想平均総インデル頻度は、分布μ_pによってモデル化される。いくつかの実施形態では、パラメータμ_pは、シークエンシング深度ごとの平均インデルカウント

に対応する。インデルはバリアントの一例であるので、パラメータμ_pは、平均バリアント頻度とも呼ばれることがある。いくつかの実施形態では、分布は、共変量に基づき、形状パラメータ

と率パラメータ

とを有するガンマ分布を有する。

いくつかの実施形態では、μ_pを表すために他の関数が使用可能であり、その例は、負の二項、Ｃｏｎｗａｙ－Ｍａｘｗｅｌｌ－Ｐｏｉｓｓｏｎ分布、ゼータ分布、およびゼロ過剰ポアソンを含むが、これらに限定されない。形状パラメータ

によって決定可能である。

ラムダλ_pは、平均バリアントカウントとすることができ、これは、シークエンシング深度

によって、形状パラメータ

および率パラメータ

に関連することができる。

人間母集団試料ｉ（健常個人の）内の位置ｐにおける観察されたインデルは、分布

によってモデル化される。確率変数

は、バリアントカウントまたは観察されたバリアントカウントとも呼ばれることがある。図５Ａの例と同様に、いくつかの実施形態では、インデル強度の分布は、位置における試料のシークエンシング深度

が与えられるポアソン分布である。

いくつかの実施形態では、

を表すために他の関数が使用可能であり、その例は、負の二項、Ｃｏｎｗａｙ－Ｍａｘｗｅｌｌ－Ｐｏｉｓｓｏｎ分布、ゼータ分布、およびゼロ過剰ポアソンを含むが、これらに限定されない。たとえば、いくつかの例では、確率変数

は、負の二項分布によってモデル化される。

平均バリアント頻度μ_p、平均バリアントカウント

インデルは、可変の長さとすることができるので、追加の長さパラメータは、ＳＮＶのためのモデルには存在しないインデルモデルに存在する。その結果、図５Ｂに図示される例示的なモデルは、追加の階層レベル（たとえば、別のサブモデル）を有し、これも、上記で論じられたＳＮＶモデルには存在しない。試料ｉ内の位置ｐにおける長さｌのインデル（たとえば、挿入または欠失の、最大で１００以上の塩基対）の観察されたカウントは、確率変数

によってモデル化され、これは、パラメータを条件としたノイズ下でのインデル分布を表す。分布は、試料の多項式の所与のインデル強度

および位置におけるインデル長さの分布

とすることができる。

いくつかの実施形態では、

を表すために、ディリクレ多項式関数または他のタイプのモデルが使用可能である。

このようにしてモデルを設計することによって、機械学習エンジン２２０は、インデル強度（すなわち、ノイズ率）の学習をインデル長さ分布の学習から切り離すことができる。健常試料内でインデルが発生するかどうかについての予想および位置におけるインデルの長さについての予想のための推論を独立して決定することは、モデルの感度を改善し得る。たとえば、長さ分布は、ゲノム内のいくつかの位置もしくは領域におけるインデル強度と比較して、より安定することができる、またはその逆に、より安定することができる。

図６Ａ～図６Ｂは、さまざまな実施形態による、ベイズ階層モデル２２５と関連づけられた図を例証する。図６Ａに図示されるグラフは、ノイズ率の分布μ_p、すなわち、モデルによって特徴づけられる所与の位置のためのＳＮＶまたはインデルの尤度（または強度）を描く。連続分布は、健常個人からの観察された健常試料（たとえば、配列データベース２１０から取り出された）の訓練データに基づいた非がんまたは非疾患変異（たとえば、健常組織内で自然に発生する変異）の平均バリアント頻度μ_pを表す。図６Ａには図示されていないが、いくつかの実施形態では、形状パラメータおよび率パラメータは、共変量ｘ_pまたは潜在的変数ｚ_pなどの他の変数に基づくことができる。図６Ｂに図示されるグラフは、被験者の試料のための所与の位置におけるＡＤの分布、所与の位置におけるシークエンシング深度ｄ_pなどの試料の所与のパラメータを描く。μ_pの採取に関する離散確率は、予想平均分布μ_pに基づいた人間母集団の予測される真の平均ＡＤカウントに基づいて決定される。

図７Ａは、さまざまな実施形態による、ベイズ階層モデル２２５を適合させることによってパラメータを決定するための例示的なプロセスの図である。モデルを訓練するために、機械学習エンジン２２０は、位置のセットの各位置に対して予想ノイズ率の事後分布（たとえば、図６Ｂに図示されるグラフ）から反復的にサンプリングする。機械学習エンジン２２０は、さまざまなサンプリングアルゴリズムの中でもとりわけ、マルコフ連鎖モンテカルロ（ＭＣＭＣ）方法、たとえば、メトロポリス－ヘイスティングス（ＭＨ）アルゴリズム、カスタムＭＨアルゴリズム、ギブズサンプリングアルゴリズム、ハミルトニアン力学に基づいたサンプリング、ランダムサンプリングをサンプリングのために使用することができる。ベイズ推論訓練中、パラメータは、モデルのすべての（またはいくつかの）パラメータおよび潜在的変数（たとえば、

、ｚ_p、

、

、μ_pなど）を反復的に更新するために、同時事後分布から採取される。

いくつかの実施形態では、機械学習エンジン２２０は、μ_pの採取をパラメータデータベース２３０に記憶することによって、モデル適合を実施する。モデルは、以前に説明されたように、事後サンプリングを通じて訓練されるまたは適合される。いくつかの例では、μ_pの採取は、サンプリングされた位置のセットの位置ごとの行と（たとえば、観察されたデータを条件にしたすべてのパラメータの）同時事後からの採取ごとの列とを有する行列データ構造に記憶される。行の数Ｒは、６００万よりも大きくすることができ、サンプルのＮ回の反復のための列の数は、千単位とすることができる。いくつかの実施形態では、行および列指定は、図７Ａに図示される実施形態とは異なり、たとえば、各行は、事後サンプリングからの採取を表し、各列は、サンプリングされた位置を表す（たとえば、図７Ａに図示される行列例の転置）。

図７Ｂは、さまざまな実施形態による、ベイズ階層モデル２２５からパラメータを使用して偽陽性の尤度を決定する図である。機械学習エンジン２２０は、図７Ａに図示されるＲ行Ｎ列行列を、図７Ｂに例証されるＲ行２列行列へと減少させることができる。いくつかの例では、機械学習エンジン２２０は、事後サンプリングμ_pにわたって位置ごとのばらつきパラメータｒ_p（たとえば、形状パラメータ）および平均パラメータλ_p（平均率パラメータλ_pとも呼ばれることがある）などのさまざまなノイズパラメータを決定する。ばらつきパラメータｒ_pは、

として決定可能であり、ここで、λ_pおよびｖ_pはそれぞれ、位置におけるμ_pのサンプリングされた値の平均および分散である。当業者は、最尤度推定などの、ｒ_pを決定するための他の関数も使用可能であることを諒解するであろう。異なるノイズパラメータは、異なるリード層に対して決定可能である。たとえば、各リード層は、λ_pおよびｒ_pの異なる値を有することができる。

機械学習エンジン２２０は、率パラメータがあるものとして、減少された行列においてばらつきパラメータのばらつき再推定も実施することができる。いくつかの実施形態では、ベイズ訓練および事後近似に続いて、機械学習エンジン２２０は、位置ごとの負の二項最尤度推定量に基づいて、ばらつきパラメータ

のための再訓練によって、ばらつき再推定を実施する。率パラメータは、再訓練中に固定されたままであることができる。いくつかの実施形態では、機械学習エンジン２２０は、訓練データの元のＡＤカウント（たとえば、リード層によって層別化された、参照試料に基づく

および

）のための各位置におけるばらつきパラメータｒ’_pを決定する。機械学習エンジン２２０は、

を決定し、

を、減少された行列に記憶する。当業者は、モーメント推定量、事後平均、または事後モードの方法などの、

を決定するための他の関数も使用可能であることを諒解するであろう。

訓練されたモデルの適用中、処理システム２００は、

およびλ_pによってパラメータ化された関数を決定するために、ばらつき（たとえば、形状）パラメータ

および率パラメータλ_pにアクセスすることができる。関数は、被験者の新しい試料のための事後予測確率質量関数（または確率密度関数）を決定するために使用可能である。所与の位置におけるあるＡＤカウントの予測確率に基づいて、処理システム２００は、試料から真陽性を検出するとき、シークエンスリードの位置ごとの部位固有ノイズ率を解説することができる。図４を参照して説明された例示的な使用事例に戻って、変異ＡおよびＢのために図示されるＰＭＦは、図７Ｂの減少された行列からのパラメータを使用して決定可能である。事後予測確率質量関数は、変異ＡまたはＢのための試料がある位置においてＡＤカウントを有する確率を決定するために使用可能である。

ベイズ階層モデルおよびベイズ階層モデル内のさまざまなパラメータをモデル化するために使用される分布は、バリアントリードの異なるリード層のために別々に訓練可能である。たとえば、各リード層は、

、

、μ_pなどのそれ自体のパラメータを有するそれ自体のベイズ階層モデルを有することができる。

シークエンシングデータセットのノイズレベルをモデル化するベイズ階層モデルの訓練および使用に関するより詳細な情報については、２０１８年１０月５日に出願された「Ｓｉｔｅ－ＳｐｅｃｉｆｉｃＮｏｉｓｅｍｏｄｅｌｆｏｒＴａｒｇｅｔｅｄＳｅｑｕｅｎｃｉｎｇ」という名称の特許文献１が、あらゆる目的のために参照により本明細書に組み込まれる。

Ｖ．例示的なリード層
図８Ａは、さまざまな実施形態による、シークエンスリードの異なるカテゴリまたはリード層を例証する図を含む。本明細書において企図されるように、シークエンスリードは、異なる品質レベルのリードを表す異なるリード層と関連づけ可能であり、それによって、品質レベルは、シークエンスリードの重複セグメントに対してバリアント場所に基づくことができる。より高い品質のリード層は、より低いノイズレベルまたはより低い誤り率に対応し、より低い品質のリード層は、より高いノイズレベルまたはより高い誤り率に対応する。

配列増幅プロセス（たとえば、超並列シークエンシング）では、試料（たとえば、個人）の１つまたは複数の配列は、疑似ランダムな様式で異なる断片へと切断可能であることが留意される。いくつかの事例では、すべての断片がＵＭＩとともにライゲーションされるとは限らず、したがって、ライゲーションされた断片が濃縮される前に断片のうちのいくつかが洗い流される。したがって、濃縮断片は、各シークエンシング行程において、少なくとも部分的にランダムである。異なる断片間の重複の範囲は、変化することができる。たとえば、濃縮断片のうちのいくつかは、他の濃縮断片と縫合可能である重複領域を有することができる。いくつかの濃縮断片は、濃縮された相補配列（たとえば、順配列および逆配列、ポジティブ配列およびネガティブ配列、トップ配列およびボトム配列、５’から３’配列および３’から５’配列）も有し、したがって、シークエンスリード全体のすべてまたは一部のための二本鎖リードを生成することができる。その結果、異なる配列場所におけるバリアントリードは、いくつかの例では、バリアントを確認するために相補的および／または重複シークエンスリードを含むことができる。したがって、各バリアントリードは、異なるリード層品質に対応することができる。たとえば、断片の両方の相補鎖が濃縮された場所におけるバリアントリードは、多くの場合、単一の断片のみが濃縮される第２の場所における別のバリアントリードよりも良い品質を有する。重複領域または相補的領域内に含まれない場所におけるバリアントリードが、被験者の試料内に存在する実際のバリアントに起因せず、ノイズに起因する、増加された尤度がある。

図８Ａは、リード層の４つの異なる例を例証する。いくつかの実施形態では、シークエンスリードは、シークエンスリード内の重複および相補的場所に対してシークエンスリード内の対象となる潜在的なバリアント場所に基づいてリード層へと分離される。言い換えれば、シークエンスリードは、潜在的なバリアント場所リードが重複領域（すなわち、縫合される領域）内に含まれるまたは完全に埋め込まれるか、およびバリアント場所が相補的な領域（すなわち、二本鎖領域、デュプレックス領域）に含まれるまたは完全に埋め込まれるかに基づいて、４つのリード層のうちの１つへと分類される。

例として、図８Ａでは、潜在的なバリアント場所は、影が付けられている。第１の例示的なリード層８１０は、二本鎖（「デュプレックス」または「相補的」とも呼ばれる）シークエンスリードと縫合されるシークエンスリードの両方とともに入るバリアントリードを含む。たとえば、少なくとも２つの５’から３’シークエンスリードは、重複領域を有し、一緒に縫合可能である。同様に、少なくとも２つの３’から５’シークエンスリードは、重複領域を有し、同じく一緒に縫合可能である。例示的な第１のリード層８１０内で、潜在的なバリアント場所は、重複領域または縫合される領域内に置かれまたは完全に埋め込まれ、したがって、シークエンスリードは、縫合される領域を含む。同様に、少なくとも５’から３’シークエンスリードの一部分と３’から５’シークエンスリードの一部分は互いに相補的であり、潜在的なバリアント場所は、相補的領域内に置かれる（たとえば、潜在的なバリアント場所は、トップシークエンスリードとボトムシークエンスリードの両方に、それらの重複の共通領域で完全に埋め込まれる）。したがって、縫合される領域を含むことに加えて、シークエンスリードは二本鎖領域を含み、潜在的なバリアントリードは、二本鎖の縫合されたリードを表す第１のリード層８１０に属する。

図８Ａでは、第２の例示的なリード層８２０は、二本鎖であるが縫合されないシークエンスリードの部分内に置かれるバリアントリードを含む。第２のリード層８２０では、５’から３’シークエンスリードの一部分と３’から５’シークエンスリードの一部分は互いに相補的であり、潜在的なバリアント場所は、相補的領域内に置かれる。したがって、シークエンスリードは、二本鎖領域を含む。しかしながら、潜在的なバリアント場所は、シークエンスリードの重複領域または縫合される領域のいずれにも含まれない。具体的には、この例示的な層別化は、潜在的なバリアント場所が重複領域または縫合可能領域内に含まれないので、２つの５’から３’シークエンスリードが一緒に縫合可能であるという事実にもかかわらない。したがって、シークエンスリードは二本鎖領域を含むが、シークエンスリードは、縫合される領域を含まず、潜在的なバリアントリードは、二本鎖であるが縫合されていないリードを表す第２のリード層８２０に属する。

第３の例示的なリード層８３０は、一本鎖の（たとえば、非デュプレックス）縫合されたリード内に置かれるまたは完全に埋め込まれるバリアントリードを含む。第３のリード層８３０では、潜在的なバリアント場所は、２つ以上のシークエンスリードの重複領域内に含まれ、したがって、シークエンスリードは、縫合される領域を含む。しかしながら、シークエンスリード（２つの例証される５’から３’シークエンスリードなど）は相補的領域を含まない（たとえば、シークエンスリードは、５’から３’鎖のみに基づき、相補的な３’から５’鎖によってサポートされない）ので、シークエンスリードは一本鎖である。いくつかの事例では（例証されず）、１つまたは複数の相補的シークエンスリード（たとえば、３’から５’シークエンスリード）は、例示的なリード層３において発見可能であるが、潜在的なバリアント場所を含まない。したがって、潜在的なバリアントリードは、一本鎖であるが縫合されたリードを表す第３のリード層８３０に属する。

図８Ａにさらに図示されるように、第４の例示的なリード層８４０は、一本鎖の縫合されていないリードに置かれるバリアントリードを含む。第３のリード層８３０のように、例証されるシークエンスリードは、バリアント場所を含有する相補的な領域を含まない（または、いくつかの事例では（例証されない）、相補的な領域をさらに含むが、潜在的なバリアント場所は、相補的な領域内に置かれないまたは完全に埋め込まれない）ので、第４のリード層８４０は一本鎖リードを表す。したがって、潜在的なバリアント場所は２つのシークエンスリードの重複領域内に含まれないので、第４のリード層８４０は、縫合されていないリードを表す。

いくつかの実施形態では、試料のシークエンスリードは、図８Ａに例証される４つのリード層へと層別化可能である。いくつかの実施形態では、１つまたは複数のシークエンスリードの端の近くに潜在的なバリアント場所を含む一本鎖の縫合されないシークエンスリードなどの、バリアントリードの最も低い品質に対応する追加の第５のリード層があることが可能である。たとえば、一本鎖の縫合されないシークエンスリードが、シークエンスリードのどちらかの端から所定の閾値数以内の塩基（たとえば、約７の塩基以内または約３０の塩基以内）内に潜在的なバリアント場所を含む場合、シークエンスリードは、第５のリード層へと分類可能である。いくつかの実施形態では、図８Ａに図示される４つのリード層の各々は、２つのサブ層、すなわち、１つまたは複数のシークエンスリードのどちらかの端の近くに潜在的なバリアント場所を含むシークエンスリードに対応する第１の低品質サブ層と、１つまたは複数のシークエンスリードの端から閾値よりも大きい距離で潜在的なバリアント場所を含む第２の高品質サブ層へと再分割可能である。

図８Ｂは、さまざまな実施形態による、図８Ａのリード層の異なる品質を例証する実験結果を図示する。高品質のリード層は、低い誤り率および／または低いノイズレベルに対応する。言い換えれば、高品質リード層に層別化されたシークエンスリード内のバリアントリード（たとえば、潜在的なバリアント場所における検出されたＳＮＶまたはインデル）は、ランダム事象（たとえば、ノイズによる）とは対照的に試料の実際の変異に起因する可能性が、低品質リード層に層別化されたシークエンスリード内のバリアントリードよりも高い。図８Ｂは、異なるリード層ｔ１～ｔ５のための参照試料（たとえば、健常個人）の平均誤り率のｌｏｇ１０のプロットである。層１（ｔ１）は、図８Ａの第１のリード層８１０を指し、層２（ｔ２）は、第２のリード層８２０を指し、等々である層５（ｔ５）は、一本鎖の縫合されていないリード層および／またはシークエンスリードのどちらかの端の近くに（たとえば、端から７塩基以内に）置かれる潜在的なバリアント場所を指す。層１の場合、その平均誤り率ミューの対数底１０は、約－６．３～－７である。言い換えれば、健常個人に関するシークエンシング深度ごとの約１０^-6.3から１０^-7バリアントリードの平均誤り率がある。一方、層４の場合、その平均誤り率ミューの対数底１０は、約－４．７～－５．５である。いくつかの態様では、図８Ｂは、平均誤り率が、層１～４にわたって増加し、約１／１，０００，０００～－１／１０，０００，０００の層１平均誤り率から、約１／１，０００，０００により近い層２平均誤り率に、層３では約＜１／１，０００，０００の平均誤り率に再度増加し、約１／１００，０００の層４誤り率に依然として増加することを一般に図示する。したがって、層４において検出されるバリアントリードは、誤り対立遺伝子である可能性が、層１において検出されるバリアントリードよりも約１００倍高い。言い換えれば、第４のリード層は、第１のリード層よりも比較的ノイズが多く、誤りが発生しやすい。言い換えれば、第４のリード層は、第１のリード層よりも比較的ノイズが多く、誤りが発生しやすい。さらに、たとえば層５図示されるように、そのシークエンスリードが、それらが重要でないまたは解析から破棄されるほど低品質であることにより、平均誤り率ミューがない（または、意味のある平均誤り率がない）。

シークエンスリードは、追加的または代替的に、他の分類方法によって異なるリード層へと分類可能である。たとえば、バリアントがＳＮＶである場合、各リード層は、ヌクレオチド置換のタイプ（たとえば、Ａ＞Ｃ、Ａ＞Ｔ、Ｇ＞Ｃなど）に基づいて１２の追加のサブ層へとさらに再分割可能である（たとえば、以下で論じられる図８Ｈを参照されたい）。４つのヌクレオチドがあり、各ヌクレオチドは、ＳＮＶ内の異なるヌクレオチドによって置換されるので、合計で１２の異なるタイプのＳＮＶがある。

図８Ｃから図８Ｇは、シークエンスリードが、図８Ａにおいて説明される仕方によってリード層へと最初に層別化され、ヌクレオチド置換のタイプに基づいて１２のサブリード層へとさらに層別化されるときの、図８Ａのリード層の実験結果を図示する。具体的には、図８Ｃ～図８Ｇは、各位置（たとえば各点）における誤差分布が、所与の試料に見られる実際のリード深度を条件にするように、ある位置における代替リードの誤差分布に関する統計モデル（たとえば、負の二項）に関する平均誤り率ミュー（μ）およびサイズパラメータを例証する。モデルは、異なるカテゴリのリード（たとえば、層）によって層別化され、したがって、図８Ｃは、第１のリード層（すなわち、二本鎖の縫合されたリード）に対する異なるタイプのヌクレオチド置換の結果を例証し、図８Ｄは、第２のリード層（すなわち、二本鎖であるが縫合されていないリード）に対する異なるタイプのヌクレオチド置換の結果を例証し、図８Ｅは、第３のリード層（すなわち、一本鎖の縫合されたリード）に対する異なるタイプのヌクレオチド置換の結果を例証し、図８Ｆは、第４のリード層に対する異なるタイプのヌクレオチド置換の結果を例証する。図８Ｇは、最も低い品質リードと図示される軸を超える高い誤り率とに対応する第５のリード層からの結果を例証する。図８Ｃ～図８Ｇの場合、プロットの上部にわたって水平方向のヌクレオチド塩基Ａ、Ｃ、Ｇ、およびＴは、代替塩基を指し、プロットの右側に沿って垂直方向のヌクレオチド塩基Ａ、Ｃ、Ｇ、およびＴは、参照塩基を指すことが留意される。

図８Ｃを参照すると、異なるＳＮＶ内の代表的なバリアント頻度の１２の異なる分布は、第１のリード層が、ノイズモデルをさらに改善するために１２のサブ層へとさらに分割可能であることを図示する。行は、元のヌクレオチドに対応し、列は、変更されたヌクレオチドに対応する。たとえば、第３の行および第１の列のセルは、ＧからＡへのＳＮＶに対応することができる。実験は、そのμの分布が底１０対数目盛で－７から－８の範囲に集中する、ＣからＡのためのサブリード層（すなわち、第２の行、第１の列）は、そのμの分布が底１０対数目盛で－５から－７の範囲にわたって広がるＴからＣのためのサブリード層（すなわち、第４の行、第２の列）よりもノイズが少ない可能性が高いことを図示する。

図８Ｃから図８Ｇの違いを比較すると、対数目盛での平均誤り率μの分布は、リード層が第１のリード層から第５のリード層に変化するにつれてゼロの方へシフトし（すなわち、μが大きくなる）、最終的には（すなわち、図８Ｇで）ゼロを超える一般的な傾向を図示する。たとえば、ＴからＧへのためのサブリード層（すなわち、第４の行、第３の列）に焦点を合わせると、対数目盛におけるμの分布は、第１のリード層における－６と－７の間から第４のリード層における－４と－５の間にシフトする。したがって、図８Ｃから図８Ｇは、リード層が、ノイズが大きくなるにつれて、平均誤り率μも高くなることを証明する。

ここで図８Ｈを参照すると、本明細書において説明されるさまざまな実施形態による、図８Ａのリード層ｔ１～ｔ４にわたって得られる特定のＳＮＶヌクレオチド置換における異なる平均誤り率μを例証する実験結果が図示されている。具体的には、図８Ｂは、リード層ｔ１～ｔ４にわたって観察される異なるＳＮＶのための対数目盛での参照試料（たとえば、健常個人）の平均誤り率μのｌｏｇ１０のプロットである。本明細書において説明される誤差分布に関する統計モデルは、異なるカテゴリのリード（層）によって、および／またはさらに図８Ｈに図示されるように異なるＳＮＶによって、層別化可能であることが留意される。

ＶＩ．層別化されたリードを用いた例示的なデータ処理
図９は、さまざまな実施形態による、層別化されたノイズモデルを使用して試料のＤＮＡデータセットを解析するためのプロセスを描写するフローチャートである。プロセスは、個人が潜在的なバリアント場所においてバリアントを有する尤度を表す品質スコアを生成するために、ｃｆＤＮＡを含む個人の試料などの試料のＤＮＡシークエンシングデータセットを処理するために使用可能である。プロセスによって決定される品質スコアが高いほど、バリアントリードがノイズではなく実際の変異からの結果である可能性も高い。

ステップ９１０では、処理システムは、ＤＮＡシークエンシングによって生成されたＤＮＡシークエンシングデータセットにアクセスすることができる。たとえば、ＤＮＡシークエンシングは、次世代シークエンシング（ＮＧＳ）などの超並列ＤＮＡシークエンシングのタイプとすることができる。ＤＮＡシークエンシングデータセットは、対象となるバリアント場所（たとえば、ＤＮＡ配列内の特定の遺伝子場所）を含む複数の処理されたシークエンスリードを含む。処理されたシークエンスリードのうちの少なくともいくつかは、図３で説明されたプロセスなどによって生成された、ＤＮＡシークエンシング内の生シークエンスリードの崩壊および縫合から生成可能である。たとえば、ＮＧＳの代表的な行程は、数百万または数十億すらのシークエンスリードを生成する可能性がある。生シークエンスリードのうちのいくつかは、対象となるバリアント場所を含む遺伝子座に含まれ得る。生シークエンスリードは、処理されたシークエンスリードを生成するために崩壊および縫合によって処理可能である。本例ではＤＮＡシークエンシングが説明されているが、ＲＮＡシークエンシングも本明細書における解析のために実装可能であることが留意される。

対象となるバリアント場所を含む処理されたシークエンスリードは、異なる塩基対長さならびに異なる範囲の重複および／または相補とすることができる。ステップ９２０では、処理システムは、複数の処理されたシークエンスリードを異なるリード層へと層別化することができる。異なるリード層は、シークエンスリードの品質に基づいて層別化可能である。たとえば、処理されたシークエンスリードは、図８Ａと関連して論じられたように、バリアント場所が重複領域に含まれるおよび／または相補的領域に含まれるかどうかに基づいて層別化可能である。処理されたシークエンスリードを層別化する他のやり方も可能である。たとえば、処理されたシークエンスリードはまた、ヌクレオチド置換のタイプ、バリアント場所が配列の端の近くにあるかどうかなどに基づいて、層別化可能である。いくつかの実施形態では、異なるリード層は、少なくとも４つのリード層を含む。いくつかの例では、４つのリード層は、（１）二本鎖の、縫合されたリード層、（２）二本鎖の、縫合されていないリード層、（３）一本鎖の、縫合されたリード層、および（４）一本鎖の、縫合されていないリード層である。

ステップ９３０では、処理システムは、各リード層に対して、バリアント場所において層別化されたシークエンシング深度を決定することができる。各リード層に関して、層別化されたシークエンシング深度は、リード層へと層別化されたシークエンスリードのシークエンシング深度とすることができる。言い換えれば、層別化されたシークエンシング深度は、リード層へと層別化されたシークエンスリードの総数とすることができる。処理システムは、各リード層のための実際のバリアントカウントも決定することができる。たとえば、リード層に関して、シークエンスリードの大多数は、バリアント場所において実際のバリアント（それがＳＮＶであるかまたはインデルであるか）を含有しないことがある。いくつかの事例では、少数のシークエンスリードのみが、バリアント場所において実際のバリアントを含む。層別化されたバリアントカウントは、特定のリード層のための実際のバリアントカウントの総数とすることができる。

ステップ９４０では、処理システムは、各リード層に対して、リード層の層別化されたシークエンシング深度を条件とした１つまたは複数のノイズパラメータを決定することができる。ノイズパラメータは、リード層に固有であるノイズモデルのパラメータとすることができる。たとえば、処理システムは、各々がリード層に固有である、複数の層別化されたノイズモデルを含むことができる。層別化されたノイズモデル（または、それらのうちのいくつか）は、図５Ａから図７Ｂにおいて説明されたベイズ階層モデルに対応することができる。言い換えれば、いくつかの実施形態では、各リード層は、それ自体のベイズ階層モデルを有する。リード層の各ノイズモデルは、ＤＮＡシークエンシング試料の異なる訓練セットを使用して訓練可能である。例として、健常個人などの複数の参照個人のＤＮＡシークエンシングデータセットが収集可能である。参照個人のデータセットの処理されたシークエンスリードは、リード層によって層別化可能である。各リード層のための層別化された処理されたシークエンスリードは、リード層のための層別化されたノイズモデルを訓練するために、ＤＮＡシークエンシング試料の層別化された訓練セットとして使用可能である。図５Ａおよび図５Ｂと関連して論じられたガンマ分布およびポアソン分布などの、層別化されたノイズモデルのさまざまな分布は、層別化された訓練セットに基づいて決定可能である。

各リード層のための層別化されたバリアントカウントの確率分布は、ノイズ分布によってモデル化可能である。層別化されたバリアントカウントの確率分布は、使用される分布のタイプと、ノイズ分布を定義する１つまたは複数のパラメータに依存することができる。たとえば、論じられるベイズ階層モデルの事例では、層別化されたバリアントカウントの分布は、２つのパラメータを条件とした事後分布に対応することができる。パラメータは、層別化されたシークエンシング深度およびばらつきパラメータを条件とした、層別化された平均バリアントカウントとすることができる。パラメータの各々は、パラメータに影響する１つまたは複数の事前分布にさらに対応することができる。たとえば、層別化されたシークエンシング深度を条件とした層別化された平均バリアントカウントは、ガンマ分布によってモデル化可能である。事前分布は、パラメータの分布について説明することができるので、事前分布は、パラメータ分布とも呼ばれ得る。

各リード層に対して、処理システムは、被験者のデータセットから取得された層別化されたシークエンシング深度を訓練されたノイズモデルに入力することによって、層別化されたシークエンシング深度を条件とした１つまたは複数のノイズパラメータを決定することができる。たとえば、訓練されたノイズモデルは、リード層に固有のパラメータ分布（たとえば、事前分布）にアクセスすることができる。パラメータ分布は、参照個人の層別化された訓練セットに基づいて形成可能であり、層別化された訓練セットの分布について説明することができる。訓練されたノイズモデルは、パラメータ分布を使用して、リード層に対応する層別化されたシークエンシング深度を条件としたノイズパラメータを決定することができる。

ノイズモデルの一例としてベイズ階層モデルが使用されるが、さまざまな実施形態では、異なるタイプの訓練された機械学習モデルは、ノイズモデルとして使用可能である。また、使用されるモデルに応じて、ノイズ分布をモデル化するために、異なるノイズパラメータが使用可能である。

ステップ９５０では、処理システムは、リード層の層別化されたシークエンシング深度を条件とした１つまたは複数のノイズパラメータに基づいて、リード層に固有のノイズモデルのための出力を生成することができる。出力の生成は、異なるリード層に対して繰り返し可能である。実施形態に応じて、異なるタイプの出力が生成可能である。たとえば、いくつかの実施形態では、各層別化されたノイズモデルは、ノイズパラメータが決定された後、さらなる計算を実施しない。ノイズモデルの出力は、各層に対して決定された層別化されたシークエンシング深度を条件とした１つまたは複数のノイズパラメータとすることができる。層別化されたバリアントカウントをモデル化するために負の二項分布がノイズ分布として使用される事例では、ノイズモデルの出力は、層別化されたシークエンシング深度およびばらつきパラメータを条件とした層別化された平均バリアントカウントとすることができる。いくつかの実施形態では、ノイズパラメータを決定した後、各層別化されたノイズモデルは、事後分布を生成することができる。そのような実施形態では、リード層に固有のノイズモデルの出力は、その後で観察されたデータのためのリード層のバリアントカウントが被験者個人のＤＮＡデータセット内で観察された総バリアントカウントよりも大きいまたはこれに等しいことがノイズに起因する尤度であってよい。他の適切な出力も可能である。

ステップ９６０では、処理システムは、組み合わされた結果を生じさせるために、生成されたノイズモデル出力を組み合わせることができる。組み合わされた結果は、被験者個人のＤＮＡシークエンシングデータセットの全体的な処理結果の表現とすることができる。組み合わされた結果は、任意の適切な形を取ることができる。いくつかの実施形態では、組み合わされた結果は、その後観察されたデータに関する総バリアントカウントが複数の処理されたシークエンスリード内で観察された総バリアントカウントよりも大きいまたはこれに等しいことがノイズに起因する尤度を含むことができる。異なるように言うと、尤度は、事象が、被験者個人のＤＮＡデータセットの複数の処理されたシークエンスリードにおいて観察された総バリアントカウントと同じくらいまたはこれよりも極端である尤度を表すことができる。いくつかの事例では、尤度は、帰無仮説で使用されるｐ値に対応することができる。層別化されたノイズモデルの出力が組み合わされた結果を生成するためにどのように組み合わせ可能であるかは、異なる実施形態に依存することができる。いくつかの実施形態では、図１０で詳細に論じられるモーメントマッチング方法が使用可能である。いくつかの実施形態では、図１１Ａおよび図１１Ｂで詳細に論じられる積分方法（たとえば、合計方法）が使用可能である。

ステップ９７０では、処理システムは、組み合わされた結果の品質スコアを決定することができる。いくつかの例では、尤度Ｐ（たとえば、ｐ値）の形などの組み合わされた結果は、Ｐｈｒｅｄ目盛品質スコアへと変換可能であり、ここで、Ｑ＝－１０・ｌｏｇ₁₀Ｐである。たとえば、２０というＰｈｒｅｄ品質スコアは、Ｐ＝誤ったバリアントコールの１／１００見込みを示し、６０というＰｈｒｅｄ品質スコアは、Ｐ＝誤ったバリアントコールの１／１，０００，０００見込みを示す。したがって、より高いＰｈｒｅｄ品質スコアは、実際の変異の検出のためのより大きい信頼度に対応する。品質スコアは、真陽性を偽陽性から区別するために使用可能である。いくつかの実施形態では、品質スコアが所定の閾値よりも高いことに応じて、処理システムは、個人がバリアント場所において変異を有する可能性が統計学的に高いことを示すことができる。

ＶＩＩ．層別化された出力を組み合わせるモーメントマッチング
図１０は、さまざまな実施形態による、モーメントマッチングを使用して異なるリード層のための層別化されたノイズモデルの出力を組み合わせるためのプロセスを描写するフローチャートである。図１０に描写されるプロセスは、図９のステップ９５０および／または９６０に対応することができる。ステップ１０１０では、処理システムは、全体的な平均バリアントカウントおよび全体的なばらつきパラメータを生じさせるために、平均バリアントカウントと各ノイズモデル出力からのバリアントカウントの分散を組み合わせることができる。各ノイズモデルの出力は、層別化されたシークエンシングリードを条件としたノイズパラメータの形を取ることができる。処理システムは、全体的なモーメントを生成するために各リード層の個々のモーメントを最初にマッチングすることによって、総観察されたシークエンシングリードがあるものとして、異なるリード層にわたっての総バリアントカウントの全体的な尤度（たとえば、全体的なｐ値）を評価することができる。処理システムは、全体的なモーメントを使用して、総観察されたシークエンシングリードを条件とした全体的な分布をモデル化することができる。リード層のための個々のノイズ分布は、負の二項分布とすることができる。同様に、複数のリード層にわたる全体的なノイズ分布も、個々のリード層のモーメントにマッチングする負の二項分布とすることができる。

ステップ１０１０は、いくつかのサブステップを含むことができる。各リード層に対して、処理システムは、層別化されたシークエンシング深度を決定することができる。各層のためのノイズ分布の第１のモーメントおよび第２のモーメントは、ノイズ分布を定義するためにノイズパラメータとして使用可能である。ステップ１０１２では、層別化されたシークエンシング深度に基づいて、処理システムは、各リード層の第１のモーメント（たとえば、平均バリアントカウント）を決定することができる。たとえば、上記で論じられたベイズ階層モデルの事例では、特定のリード層に関するバリアント頻度は、形状パラメータ

と率パラメータ

とを有するガンマ分布確率変数としてモデル化可能である。

各リード層は、参照試料データセットに基づいて決定される、それ自体の形状パラメータと率パラメータとを有することができる。したがって、層別化されたシークエンシング深度を条件とした各リード層のバリアント頻度は、異なることができる。

処理システムは、バリアント頻度と層別化されたシークエンシング深度を乗算することによって、各層に対して第１のモーメントすなわち層別化された平均バリアントカウントλ_pを決定することができる。

ステップ１０１４では、処理システムは、各リード層の第２のモーメントすなわち分散も決定することができる。ベイズ階層モデルがガンマ分布バリアント頻度を有する事例では、各リード層の分散は、平均バリアントカウントすなわちλ_pおよびばらつきパラメータすなわちｒ_pによって決定可能である。たとえば、分散すなわちｖ_pは、

によって決定可能である。

ステップ１０１６では、処理システムは、モーメントマッチングによって、全体的な平均バリアントカウント（全体的な第１のモーメント）および全体的な分散（全体的な第２のモーメント）を決定することができる。いくつかの事例では、処理システムは、異なるリード層のためのモーメントを合計して全体的なモーメントを取得することによって、モーメントマッチングを実施することができる。たとえば、総シークエンシング深度を条件としたすべてのリード層にわたっての全体的な平均バリアントカウントは、

によって決定可能である。同様に、すべてのリード層にわたっての全体的な分散は、各リード層の分散を合計することによって決定可能である。

処理システムは、全体的なノイズ分布によって総シークエンシング深度を条件とした全体的な観察されたバリアントカウントの尤度をモデル化することができる。全体的なノイズ分布は、全体的な平均λ_allおよび全体的なばらつきパラメータｒ_allによってパラメータ化される負の二項分布とすることができる。全体的なばらつきパラメータは、全体的な平均および全体的な分散によって決定可能である。

ステップ１０２０では、処理システムは、全体的な第１のモーメントおよび全体的な第２のモーメントによってモデル化される全体的なノイズ分布を使用して、全体的な尤度を決定することができる。たとえば、確率変数

は、負の二項分布によってモデル化される。

事象が、総シークエンシング深度を条件とした観察された全体的なバリアントカウントと同じくらいまたはより極端である尤度を表す確率変数

は、処理システムの組み合わされた結果とすることができる。いくつかの事例では、確率変数

は、バリアントリードがランダム事象（たとえば、ノイズ）によるものであるという帰無仮説を検証または却下するために、ｐ値として使用可能である。処理システムはまた、確率変数

に基づいてｐ値を取得するために負の二項テール確率を適用することができ、Ｐｈｒｅｄ目盛品質スコアを決定することができる。

ＶＩＩＩ．層別化された出力を組み合わせる積分手法
図１１Ａは、いくつかの実施形態による、各リード層の尤度を組み合わせるために積分手法を使用して異なるリード層のための層別化されたノイズモデルの出力を組み合わせるためのプロセスを描写するフローチャートである。図１１Ａに描写される処理は、図９のステップ９５０および／または９６０に対応することができる。図１１Ａに図示されるプロセスでは、処理システムは、全体的なシステムの組み合わされた結果としてｐ値を決定することを意図する。ｐ値は、その後観察されたデータに関する総バリアントカウントが実際のデータ内で観察された総バリアントカウントよりも大きいまたはこれに等しいことがノイズに起因する尤度を表すことができる。異なるように言うと、ｐ値は、帰無仮説下で事象が被験者個人の観察されたシークエンスリードと同じくらいまたはこれよりも極端に発生することを表すことができる。いくつかの事例では、事象は、事象の全体的なバリアントカウントが、観察されたバリアントカウントよりも大きいとき、被験者個人の観察されたバリアントカウントよりも極端である（すなわち、可能性が低い）ことができる。同様に、リード層に対して、事象は、事象が、層別化された観察されたバリアントカウントよりも高い層別化されたバリアントカウントを有するとき、層別化された観察されたバリアントカウントよりも極端であることができる。バリアントリードは、多くの場合、普通でないので、バリアントカウントをもつ事象は、より極端である。バリアント場所においてバリアントリードを観察する見込みは、多くの場合、バリアント場所において非バリアントリードを観察する見込みよりも著しく低い。

図１１Ｂは、さまざまな実施形態による、多次元空間内でのより極端な事象のカウンティングを例証する。簡単さのために、２つの次元が図示されているが、さまざまな実施形態による処理システムは、図１１Ｂに例証される原理を使用して、より高い次元を扱うことができる。図１１Ｂの２つの次元はそれぞれ、２つのリード層を表すことができる。たとえば、第１のリード層は二本鎖のリード層を表し、第２のリード層は一本鎖のリード層を表す。

最初に二本鎖のバリアントカウント（ｘ軸）のためのリード層のみに焦点を合わせると、例では、被験者個人からの観察された層別化されたバリアントカウントは２である。同じリード層の場合、潜在的なバリアント場所におけるバリアントリードは、潜在的なバリアント場所における非バリアントリードと比較して、ありそうにないので、３という層別化されたバリアントカウントを有する事象は、実際の観察された層別化されたバリアントカウントよりも可能性が低い（より極端である）。同様に、４という層別化されたバリアントカウントを有する別の事象は、実際の観察された層別化されたバリアントカウントよりも可能性がもっと低い。言い換えれば、可能性の低い（より極端な）事象の組み合わせは、観察されたバリアントカウントよりも大きい空間を占め、無限大までさまざまに及ぶ。逆に、１または０という層別化されたバリアントカウントを有する事象は、２という実際の観察された層別化されたバリアントカウントよりも可能性が高い。

ここで、両方のリード層を考えると、等しくまたはほぼ等しく可能性があると仮定可能である観察された層別化されたバリアントカウントの異なる組み合わせがあり得る。ＮＧＳ試料準備では、被験者個人の核酸配列は、部分的にランダムな様式で切断可能である。その結果、処理されたシークエンスリードのうちのいくつかは、相補的なシークエンスリードを含まないことがある。したがって、処理されたシークエンスリードのうちのいくつかは、一本鎖のシークエンスリードとすることができる。言い換えれば、同じ核酸配列試料の場合、異なるＮＧＳ行程は、異なるリード層内のシークエンスリードの異なる組み合わせを生じさせる。第１のリード層の層別化されたバリアントカウントは、何らかの比に基づいて、第２のリード層の層別化されたバリアントカウントに等しくすることができる。いくつかの実施形態では、この比は、所定の値としてモデル化される。たとえば、１つの二本鎖バリアントカウントは、２つの一本鎖バリアントカウントに等しいと考えられ得るが、いくつかの実施形態では、２以外の数も使用可能である。

異なるリード層の観察された層別化されたバリアントカウントに基づいて、図１１Ｂに図示されるグラフ中の座標は、異なるリード層の観察されたバリアントカウントと同じくらいまたはこれよりも極端である事象を表す点および観察されたバリアントカウントよりも極端でない事象を表す点へと分割可能である。たとえば、被験者個人の実際の観察されたバリアントカウントが（１，２）（すなわち、１つの二本鎖バリアントカウントおよび２つの一本鎖バリアントカウント）を仮定する。座標（０，４）および（２，０）は、（１，２）の組み合わせに等しいと仮定され、観察されたデータと同じくらい極端である事象を表すことができる。（１，２）、（０，４）、（２，０）によって採取境界を超えるすべての座標は、観察されたデータよりも極端であるように分類可能である。たとえば、座標（３，３）は、より極端な事例と考えられ得る。境界内にあり、原点により近いすべての座標は、観察されたデータよりも極端でない（より可能性が高い）事例であると考えられ得る。たとえば、座標（１，１）、（０，２）、（１，０）などは、観察されたデータよりも極端でないと分類可能である。

処理システムの組み合わされた結果は、観察されたデータと同じくらいまたはこれよりも極端な事象の尤度を表すｐ値の形を取ることができる。処理システムは、観察されたデータと同じくらいまたはこれよりも極端である事象を表すすべての座標に対応する確率を合計してｐ値を決定することによって、積分することができる。しかしながら、座標は、最後に無限大まで近づくことができる点を含み得るので、処理システムは、代わりにｐ値の統計的補数を計算することもできる。言い換えれば、処理システムは、観察されたデータよりも極端でない事象を表すすべての座標に対応する確率を合計して、ｐ値の補数を決定することができる。処理システムは、次いで、補数を１．０から減算することによって、ｐ値を決定することができる。いくつかの実施形態では、コンピュータ上で浮動小数点数を加算することは、数値的に不安定であり得るので、処理システムは、数値的安定性のために対数目盛で確率を使用することができる。

図１１Ａに戻ると、処理ユニットは、いくつかの実施形態によれば、図に図示されるプロセスに基づいてｐ値を決定することができる。ステップ１１１０では、処理ユニットは、各リード層内で、リード層の観察された層別化されたバリアントカウントよりも可能性が高い可能な事象を決定することができる。それらの事象は、座標は観察されたデータよりも大きい尤度と関連づけ可能である多次元ボックスを定義することができる。尤度は、対数目盛上にあることができる。ステップ１１２０では、処理ユニットは、複数のリード層のうちの１つに対して、層別化されたバリアントカウントの組み合わせの各々は観察されたデータよりも高いまたは低い尤度に対応するかを決定することができる。ステップ１１３０では、処理ユニットは、リード層の観察された層別化されたバリアントカウントよりも高い発生の尤度と関連づけられた可能な事象の組み合わせを識別することができる。処理ユニットは、リード層の各々に対してステップ１１２０および１１３０を繰り返すことができる。ステップ１１４０では、処理ユニットは、統計的補数を決定するために識別された組み合わせの確率を合計することができる。ステップ１１５０では、処理ユニットは、全体的なｐ値を決定するために統計的補数を１．０から減算することができる。ｐ値は、図９のステップ９６０に対応する組み合わされた結果とすることができる。

全体的なｐ値を決定するための他のやり方も可能である。たとえば、テール確率技法が使用可能である。いくつかの実施形態では、積分方法は、１つまたは複数の機械学習モデルによって置き換えられ得る。たとえば、ランダムフォレスト回帰モデルは、訓練試料データのセットからＰｈｒｅｄ目盛品質スコアまたはｐ値を決定するために訓練可能である。図１１Ａにおいて説明される積分プロセスは、複数の訓練セット試料を生成するために使用可能である。訓練セット試料は、機械学習モデルを訓練するために使用可能であり、したがって、モデルは、品質スコアを決定するために使用可能である。

ＩＸ．実験結果
図１２Ａおよび図１２Ｂは、いくつかの実施形態によるプロセスを使用して実施される実験におけるデフォルト品質スコアに対する観察された品質スコアのプロットを例証する。図１２Ａでは、特定の個人＃１３５５の試料のシミュレートされたデータの較正されたセットが使用され、図９および図１１Ａにおいて説明される層レベルノイズモデルプロセスを用いて解析される。個人は、試料内で見出された「ｃｈｒ６」と象徴されたバリアントを有する。データは、バリアントリードのランダム事象をシミュレートする。各シミュレートされた事象は、１つまたは複数のリード層へと層別化可能であるいくつかのバリアントリードを有することができる。ｘ軸は、シミュレートされたデータを使用することによって算出されたシミュレートされた事象の実際の品質スコアの値を表す。ｙ軸は、図１１Ａにおいて説明されるプロセスによって決定される観察された品質スコアの値を表す。結果は、何らかの離散化を除いて、観察された品質スコアは、大部分は対角線上に入ることを図示する。このことは、図１１Ａにおいて説明されるプロセスは、観察されたデータと同じくらいまたはこれよりも極端である可能な事象の尤度を正常に決定することを示す。

図１２Ｂでは、個人＃１３５５の実際のデータセットが使用され、図９および図１１Ａにおいて説明される層レベルノイズモデルプロセスを用いて解析される。データセットは、さまざまな潜在的なバリアント場所のデータを含むことができる。各点は、潜在的なバリアント場所に対応し、品質スコアは、図１１Ａにおいて説明されるプロセスによって決定されるプロセスに基づいて決定される。いくつかの事例では、実際のデータセット内の場所の多くは、任意のリード層において見出されるバリアントカウントを有さないことがあるので、いくつかのゼロ品質スコア点が先頭にある。したがって、Ｐｈｒｅｄ目盛品質スコアは、すべてのそれらの場所に関してゼロに等しい。個人は、大部分は配列場所の大部分において変異を有さないので、点の残りの大部分は、大部分は対角線に沿って入る。異なるように言うと、対角線に沿って入るそれらの場所におけるバリアントカウントは、大部分はノイズに起因し得る。デフォルト品質スコアよりも著しく高い観察された品質スコアを有する外れ値（たとえば、図１２Ｂの約５５のデフォルトＰｈｒｅｄスコアにある点）は、さらなる評価のためにフラグが立てられてよい非ノイズ事象があり得ることを示すことができる。

図１３Ａおよび図１３Ｂは、リード層を使用した品質スコアの結果を、シークエンスリードまたはバリアントリードのためのリード層を分けないノイズモデルを使用した品質スコアと比較する実験結果を例証する。図１３Ａおよび図１３Ｂのｙ軸は、さまざまな実施形態によりシークエンスリードを異なるリード層へと層別化する方法を使用して決定される品質スコアを表す。図１３Ａおよび図１３Ｂのｘ軸は、類似のノイズモデルを使用して決定される品質スコアを表すが、このノイズモデルは、リード層によってシークエンスリードを区別しない。図１３Ａは、図１１Ａにおいて説明される積分方法を使用して品質スコアを決定する実験結果を例証する。結果は、デュプレックスリードを含むシークエンスリード（たとえば、「真」とマークされた暗い点）の場合、データ点は、シンプレックスリードのみを含むシークエンスリード（たとえば、「偽」とマークされた明るい点）と比較して上方にシフトされることを図示する。このことは、二本鎖リードは、多くの場合、一本鎖リードよりも多いエビデンスを含むので、リード層ノイズモデルが、二本鎖リードを含むシークエンスリードのための全体的な品質スコアを改善することを示す。図１３Ｂは、図１０において説明されるモーメントマッチング方法を使用して品質スコアを決定する実験結果を例証する。図１３Ａと同様に、この事例では、モーメントマッチング方法も、二本鎖リードを含むシークエンスリードのための品質スコアを改善する。

Ｘ．バリアント識別
図１４は、さまざまな実施形態による、個人の潜在的な変異場所を識別するプロセスを描写するフローチャートである。ステップ１４１０では、システムは、個人のＤＮＡ試料を受け取ることができる。ステップ１４２０では、システムは、処理されたシークエンスリードを生成するためにＤＮＡシークエンシングを実施することができる。ステップ１４３０では、システムは、異なるバリアント場所によって処理されたシークエンスリードを割り当てることができる。ステップ１４４０では、各バリアント場所に対して、システムは、バリアント場所に割り当てられた処理されたシークエンスリードを複数のリード層へと層別化することができる。ステップ１４５０では、システムは、異なるバリアント場所における尤度の品質スコアを決定することができる。各品質スコアは、リード層を層別化するノイズモデルを使用する上記で説明されたプロセスに基づいて、決定可能である。ステップ１４６０では、システムは、所定の閾値を上回る品質スコアをもつバリアント場所を識別することができる。それらのバリアント場所は、潜在的な変異または潜在的な診断のさらなる調査のためにフラグが立てられ得る。

ステップ１４７０では、システムは、識別されたバリアント場所に基づいて疾患の診断を生成することができる。いくつかの実施形態では、いくつかのがんを示すおよび／またはいくつかの治療薬のバイオマーカとして働くことができるバリアントまたは変異は、ＡＣＶＲ１Ｂ、ＡＫＴ３、ＡＭＥＲ１、ＡＰＣ、ＡＲＩＤ１Ａ、ＡＲＩＤ１Ｂ、ＡＲＩＤ２、ＡＳＸＬ１、ＡＳＸＬ２、ＡＴＭ、ＡＴＲ、ＢＡＰ１ＢＣＬ２、ＢＣＬ６、ＢＣＯＲＬ１、ＢＣＲ、ＢＬＭ、ＢＲＡＦ、ＢＲＣＡ１、ＢＴＧ１、ＣＡＳＰ８、ＣＢＬ、ＣＣＮＤ３、ＣＣＮＥ１、ＣＤ７４、ＣＤＣ７３、ＣＤＫ１２、ＣＤＫＮ２Ａ、ＣＨＤ２、ＣＪＤ２、ＣＲＥＢＢＰ、ＣＳＦ１Ｒ、ＣＴＣＦ、ＣＴＮＮＢ１、ＤＩＣＥＲ１、ＤＮＡＪＢ１、ＤＮＭＴ１、ＤＮＭＴ３Ａ、ＤＮＭＴ３Ｂ、ＤＯＴ１Ｌ、ＥＥＤ、ＥＧＦＲ、ＥＩＦ１ＡＸ、ＥＰ３００、ＥＰＨＡ３、ＥＰＨＡ５、ＥＰＨＢ１、ＥＲＢＢ２、ＥＲＢＢ４、ＥＲＣＣ２、ＥＲＣＣ３、ＥＲＣＣ４、ＥＳＲ１、ＦＡＭ４６Ｃ、ＦＡＮＣＡ、ＦＡＮＣＣ、ＦＡＮＣＤ２、ＦＡＮＣＥ、ＦＡＴ１、ＦＢＸＷ７、ＦＧＦＲ３、ＦＬＣＮ、ＦＬＴ１、ＦＯＸＯ１、ＦＵＢＰ１、ＦＹＮ、ＧＡＴＡ３、ＧＰＲ１２４、ＧＲＩＮ２Ａ、ＧＲＭ３、Ｈ３Ｆ３Ａ、ＨＩＳＴ１Ｈ１Ｃ、ＩＤＨ１、ＩＤＨ２、ＩＫＺＦ１、ＩＬ７Ｒ、ＩＮＰＰ４Ｂ、ＩＲＦ４、ＩＲＳ１、ＩＲＳ２、ＪＡＫ２、ＫＡＴ６Ａ、ＫＤＭ６Ａ、ＫＥＡＰ１、ＫＩＦ５Ｂ、ＫＩＴ、ＫＬＦ４、ＫＬＨ６、ＫＭＴ２Ｃ、ＫＲＡＳ、ＬＭＡＰ１、ＬＲＰ１Ｂ、ＬＺＴＲ１、ＭＡＰ３Ｋ１、ＭＣＬ１、ＭＧＡ、ＭＳＨ２、ＭＳＨ６、ＭＳＴ１Ｒ、ＭＴＯＲ、ＭＹＤ８８、ＮＰＭ１、ＮＲＡＳ、ＮＴＲＫ１、ＮＴＲＫ２、ＮＵＰ９３、ＮＵＴＭ１、ＰＡＸ３、ＰＡＸ８、ＰＢＲＭ１、ＰＧＲ、ＰＨＯＸ２Ｂ、ＰＩＫ３ＣＡ、ＰＯＬＥ、ＰＴＣＨ１、ＰＴＥＮ、ＰＴＰＮ１１、ＰＴＰＲＴ、ＲＡＤ２１、ＲＡＦ１、ＲＡＮＢＰ２、ＲＢ１、ＲＥＬ、ＲＦＷＤ２、ＲＨＯＡ、ＲＰＴＯＲ、ＲＵＮＸ１、ＲＵＮＸ１Ｔ１、ＳＤＨＡ、ＳＨＱ１、ＳＬＩＴ２、ＳＭＡＤ４、ＳＭＡＲＣＡ４、ＳＭＡＲＣＤ１、ＳＮＣＡＩＰ、ＳＯＣＳ１、ＳＰＥＮ、ＳＰＴＡ１、ＳＵＺ１２、ＴＥＴ１、ＴＥＴ２、ＴＧＦＢＲ、およびＴＮＦＲＳＦ１４を含むことができる。いくつかの実施形態では、がん免疫療法は、ＯＸ４０、ＬＡＧ３、および／またはＩＣＯＳを標的とすることができる。

ステップ１４８０では、疾患の治療が提供されてよい。治療を提供する前に、コンパニオン診断動作も実施されてよい。コンパニオン診断動作は、本明細書において説明されるプロセスを使用して、バリアントまたは変異を含む１つまたは複数の基準を識別することがある。治療を提供することは、医学専門家に特定の用量の薬剤を患者に投与させるまたはこれを行うように推奨するという形を取ってよい。

たとえば、本明細書において説明されるシステムおよび方法は、いくつかの免疫療法および標的治療薬などのがん治療のバイオマーカであるバリアントまたは変異を検出するために使用可能である。そのような治療法は、たとえば、免疫グロブリン、タンパク質、ペプチド、小分子、ナノ粒子、または核酸を含むことができる。いくつかの実施形態では、治療法は、抗体、またはその機能的断片を含む。いくつかの実施形態では、抗体は、Ｒｉｔｕｘａｎ（登録商標）（リツキシマブ）、Ｈｅｒｃｅｐｔｉｎ（登録商標）（トラスツズマブ）、Ｅｒｂｉｔｕｘ（登録商標）（セツキシマブ）、Ｖｅｃｔｉｂｉｘ（登録商標）（パニツムマブ）、Ａｒｚｅｒｒａ（登録商標）（オファツムマブ）、Ｂｅｎｌｙｓｔａ（登録商標）（ベリムマブ）、Ｙｅｒｖｏｙ（登録商標）（イピリムマブ）、Ｐｅｒｊｅｔａ（登録商標）（ペルツズマブ）、Ｔｒｅｍｅｌｉｍｕｍａｂ（登録商標）、Ｏｐｄｉｖｏ（登録商標）（ニボルマブ）、Ｄａｃｅｔｕｚｕｍａｂ（登録商標）、Ｕｒｅｌｕｍａｂ（登録商標）、Ｔｅｃｅｎｔｒｉｑ（登録商標）（アテゾリズマブ、ＭＰＤＬ３２８０Ａ）、Ｌａｍｂｒｏｌｉｚｕｍａｂ（登録商標）、Ｂｌｉｎａｔｕｍｏｍａｂ（登録商標）、ＣＴ－０１１、Ｋｅｙｔｒｕｄａ（登録商標）（ペムブロリズマブ、ＭＫ－３４７５）、ＢＭＳ－９３６５５９、ＭＥＤ１４７３６、ＭＳＢ００１０７１８Ｃ、Ｉｍｆｉｎｚｉ（登録商標）（デュルバルマブ）、Ｂａｖｅｎｃｉｏ（登録商標）（アベルマブ）、およびマルゲツキシマブ（ＭＧＡＨ２２）を含むことがある。

いくつかの実施形態では、免疫療法および標的治療薬は、ＰＤ－１阻害、ＰＤ－Ｌ１阻害、またはＣＴＬ－４阻害を含む。ＰＤ－１阻害は、Ｔ細胞および他の免疫細胞上のプログラムされたデスレセプターを標的とする。ＰＤ－１阻害免疫療法の例は、ペムブロリズマブ、Ｋｅｙｔｒｕｄａ、ニボルマブ、Ｏｐｄｉｖｏ、セミプリマブ、Ｌｉｂｔａｙｏ（登録商標）を含む。ＰＤ－Ｌ１阻害は、腫瘍細胞および調節免疫細胞によって発現されるプログラムされたデスレセプターリガンドを標的とする。ＰＤ－Ｌ１阻害免疫療法の例は、アテゾリズマブ、Ｔｅｃｅｎｔｒｉｑ、アベルマブ、Ｂａｖｅｎｃｉｏ、デュルバルマブ、Ｉｍｆｉｎｚｉを含む。ＣＴＬ－４阻害は、Ｔ細胞活性化を標的とする。ＣＴＬ－４阻害免疫療法の例は、イピリムマブ、Ｙｅｒｖｏｙを含む。

非小細胞肺がん適応の場合、免疫療法治療のバイオマーカとすることができるバリアントまたは変異は、ＥＧＦＲエクソン１９欠失＆ＥＧＦＲエクソン２１Ｌ８５８Ｒ変化（たとえば、Ｇｉｌｏｔｒｉｆ（登録商標）（アファチニブ）、Ｉｒｅｓｓａ（登録商標）（ゲフィチニブ）、Ｔａｇｒｉｓｓｏ（登録商標）（オシメルチニブ）、またはＴａｒｃｅｖａ（登録商標）（エルロチニブ）などの治療法のための）、ＥＧＦＲエクソン２０Ｔ７９０Ｍ変化（たとえば、Ｔａｇｒｉｓｓｏ（登録商標）（オシメルチニブ）を用いて治療されることがある）、ＡＬＫ再構成（たとえば、Ａｌｅｃｅｎｓａ（登録商標）（アレクチニブ）、Ｘａｌｋｏｒｉ（登録商標）（クリゾチニブ）、またはＺｙｋａｄｉａ（登録商標）（セリチニブ）を用いて治療されることがある）；ＢＲＡＦＶ６００Ｅ（たとえば、Ｍｅｋｉｎｉｓｔ（登録商標）（トラメチニブ）と組み合わせてＴａｆｉｎｌａｒ（登録商標）（ダブラフェニブ）を用いて治療されることがある）、ＭＥＴエクソン１４スキッピングを招く一塩基バリアント（ＳＮＶ）およびインデル（たとえば、Ｔａｂｒｅｃｔａ（商標）（カプマチニブ）を用いて治療されることがある）を含むことができる。

メラノーマ適応の場合、免疫療法治療のバイオマーカすることができるバリアントまたは変異は、ＢＲＡＦＶ６００Ｅ（たとえば、Ｔａｆｉｎｌａｒ（登録商標）（ダブラフェニブ）またはＺｅｌｂｏｒａｆ（登録商標）（ベムラフェニブ）を用いて治療されることがある）、ＢＲＡＦＶ６００ＥまたはＶ６００Ｋ（たとえば、Ｚｅｌｂｏｒａｆ（登録商標）（ベムラフェニブ）と組み合わせて、Ｍｅｋｉｎｉｓｔ（登録商標）（トラメチニブ）またはＣｏｔｅｌｌｉｃ（登録商標）（コビメチニブ）を用いて治療されることがある）を含むことができる。

乳がん適応の場合、免疫療法治療のバイオマーカとすることができるバリアントまたは変異は、ＥＲＢＢ２（ＨＥＲ２）増幅（たとえば、Ｈｅｒｃｅｐｔｉｎ（登録商標）（トラスツズマブ）、Ｋａｄｃｙｌａ（登録商標）（アドトラスツズマブエムタンシン）、またはＰｅｒｊｅｔａ（登録商標）（ペルツズマブ）を用いて治療されることがある）、ＰＩＫ３ＣＡ変化（たとえば、Ｐｉｑｒａｙ（登録商標）（ａｌｐｅｌｉｓｉｂ）を用いて治療されることがある）を含むことができる。

結腸直腸がん適応の場合免疫療法治療のバイオマーカとすることができる、バリアントまたは変異は、ＫＲＡＳ野生型（コドン１２および１３における変異の欠如）（たとえば、Ｅｒｂｉｔｕｘ（登録商標）（セツキシマブ）を用いて治療されることがある）、ＫＲＡＳ野生型（エクソン２、３、および４における変異の欠如）、およびＮＲＡＳ野生型（エクソン２、３、および４における変異の欠如）（たとえば、Ｖｅｃｔｉｂｉｘ（登録商標）（パニツムマブ）を用いて治療されることがある）を含むことができる。

卵巣がん適応の場合、免疫療法治療のバイオマーカとすることができるバリアントまたは変異は、ＢＲＣＡ１／２変化（たとえば、Ｌｙｎｐａｒｚａ（登録商標）（オラパリブ）またはＲｕｂｒａｃａ（登録商標）（ルカパリブ）を用いて治療されることがある）を含むことができる。

前立腺がん適応の場合、免疫療法治療のバイオマーカとすることができるバリアントまたは変異は、相同組換え修復（ＨＲＲ）遺伝子（ＢＲＣＡ１、ＢＲＣＡ２、ＡＴＭ、ＢＡＲＤ１、ＢＲＩＰ１、ＣＤＫ１２、ＣＨＥＫ１、ＣＨＥＫ２、ＦＡＮＣＬ、ＰＡＬＢ２、ＲＡＤ５１Ｂ、ＲＡＤ５１Ｃ、ＲＡＤ５１Ｄ、およびＲＡＤ５４Ｌ）変化（たとえば、Ｌｙｎｐａｒｚａ（登録商標）（オラパリブ）を用いて治療されることがある）を含むことができる。

固形腫瘍がん適応の場合、免疫療法治療のバイオマーカとすることができるバリアントまたは変異は、メガベース当たり１０の変異よりも大きいまたはこれに等しい腫瘍遺伝子変異量（ＴＭＢ）（たとえば、Ｋｅｙｔｒｕｄａ（登録商標）（ペムブロリズマブ）を用いて治療されることがある）を含むことができる。

ＸＩ．コンピューティングマシンアーキテクチャ
図１５は、コンピュータ可読媒体から命令を読み出して、それらをプロセッサ（またはコントローラ）内で実行することが可能である例示的なコンピューティングマシンの構成要素を例証するブロック図である。本明細書において説明されるコンピュータは、図１５に図示される単一のコンピューティングマシン、仮想マシン、図１５に図示されるコンピューティングマシンの多数のノードを含む分散コンピューティングシステム、またはコンピューティングデバイスの他の任意の適切な配置を含んでよい。

例として、図１５は、その中で本明細書において論じられるプロセスのうちの任意の１つまたは複数をマシンに実施させるためにコンピュータ可読媒体に記憶され得る命令１５２４（たとえば、ソフトウェア、プログラムコード、またはマシンコード）が実行され得るコンピュータシステム１５００の例示的な形でコンピューティングマシンの図表表現を図示する。いくつかの実施形態では、コンピューティングマシンは、スタンドアロンデバイスとして動作する、または他のマシンに接続（たとえば、ネットワーク化）されてよい。ネットワーク化された展開では、マシンは、サーバ－クライアントネットワーク環境内でサーバマシンまたはクライアントマシンとして動作してもよいし、ピアツーピア（または分散）ネットワーク環境内でピアマシンとして動作してもよい。

図１５において説明されるコンピューティングマシンの構造は、任意のエンジン、モジュール、コンピューティングサーバ、本明細書において説明される１つまたは複数のプロセスを実施するために使用されるマシンを含むが、これらに限定されない、任意のソフトウェア、ハードウェア、または組み合わされた構成要素（たとえば、図２に図示されるものまたは本明細書において説明される処理ユニット）に対応し得る。図１５は、さまざまなハードウェア要素およびソフトウェア要素を図示するが、本明細書において説明される構成要素の各々は、追加の要素を含んでもよいし、より少ない要素を含んでもよい。

例として、コンピューティングマシンは、パーソナルコンピュータ（ＰＣ）、タブレットＰＣ、セットトップボックス（ＳＴＢ）、携帯情報端末（ＰＤＡ）、セルラー式電話、スマートフォン、ウェブアプライアンス、ネットワークルータ、モノのインターネット（ＩｏＴ）デバイス、スイッチもしくはブリッジ、またはそのマシンによって取られることになるアクションを指定する命令１５２４を実行することが可能である任意のマシンであってよい。さらに、単一のマシンのみが例証されているが、「マシン」および「コンピュータ」という用語は、本明細書において論じられる方法論のうちの任意の１つまたは複数を実施するために命令１５２４を個々にまたは共同で実行するマシンの任意の集合を含むようにも使われることがある。

例示的なコンピュータシステム１５００は、ＣＰＵ（中央処理装置）、ＧＰＵ（グラフィックス処理ユニット）、ＴＰＵ（テンソル処理ユニット）、ＤＳＰ（デジタル信号プロセッサ）、システムオンチップ（ＳＯＣ）、コントローラ、ステート機器、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、またはこれらの任意の組み合わせなどの、１つまたは複数のプロセッサ１５０２を含む。コンピューティングシステム１５００の部分は、命令がプロセッサ１５０２によって直接的または間接的に実行されるときいくつかのアクションをプロセッサ１５０２に実施させ得る命令１５２４を含むコンピュータコードを記憶するメモリ１５０４も含んでよい。命令は、機器可読命令、ソースコードを含むプログラミング命令、ならびに他の通信信号およびオーダーなどの、異なる形で記憶されてよい任意の指示、コマンド、またはオーダーとすることができる。命令は、一般的な意味で使用されてよく、機械可読コードに限定されない。

本明細書において説明される１つおよび複数の方法は、プロセッサ１５０２の動作速度を改善し、メモリ１５０４に必要とされる空間を減少させる。たとえば、本明細書において説明される機械学習方法は、訓練、収束に達する、プロセッサ１５０２の結果を生成するうえでステップを単純化する１つまたは複数の新規な技法を適用することによって、プロセッサ１５０２の計算の複雑さを減少させる。本明細書において説明されるアルゴリズムは、メモリ１５０４の記憶空間要件を減少させるために、モデルおよびデータセットのサイズも減少させる。

動作のうちのいくつかの性能は、単一のマシン内に常駐するだけでなく、いくつかのマシンにわたって展開される、プロセッサだけでなく分散されてよい。いくつかの例示的な実施形態では、１つまたは複数のプロセッサまたはプロセッサ実装モジュールは、単一の地理的場所内に（たとえば、自宅環境、オフィス環境、またはサーバファーム内に）置かれてよい。他の例示的な実施形態では、１つまたは複数のプロセッサまたはプロセッサ実装モジュールは、いくつかの地理的場所にわたって分散されてよい。明細書内で、または請求項は、プロセッサによって実施されることになるいくつかのプロセスを参照することがあるが、これは、複数の分散プロセッサの共同動作を含むと解釈されるべきである。

コンピュータシステム１５００は、主メモリ１５０４とスタティックメモリ１５０６とを含んでよく、主メモリ１５０４とスタティックメモリ１５０６は、バス１５０８を介して互いと通信するように構成される。コンピュータシステム１５００は、グラフィックスディスプレイユニット１５１０（たとえば、プラズマディスプレイパネル（ＰＤＰ）、液晶ディスプレイ（ＬＣＤ）、プロジェクタ、または陰極線管（ＣＲＴ））をさらに含んでよい。プロセッサ１５０２によって制御されるグラフィックスディスプレイユニット１５１０は、本明細書において説明されるプロセスによって生成された１つまたは複数の結果およびデータを表示するために、グラフィカルユーザインタフェース（ＧＵＩ）を表示する。コンピュータシステム１５００は、英数字入力デバイス１５１２（たとえば、キーボード）と、カーソル制御デバイス１５１４（たとえば、マウス、トラックボール、ジョイスティック、モーションセンサ、または他のポインティング器具）と、記憶ユニット１５１６（ハードドライブ、ソリッドステートドライブ、ハイブリッドドライブ、メモリディスクなど）と、信号生成デバイス１５１８（たとえば、スピーカ）と、ネットワークインタフェースデバイス１５２０も含んでよく、これらも、バス１５０８を介して通信するように構成される。

記憶ユニット１５１６は、本明細書において説明される方法論または機能のうちの任意の１つまたは複数を具現化する命令１５２４が記憶されるコンピュータ可読媒体１５２２を含む。命令１５２４はまた、コンピュータ可読媒体も構成するコンピュータシステム１５００、主メモリ１５０４、およびプロセッサ１５０２によるその実行中に、主メモリ１５０４内またはプロセッサ１５０２内（たとえば、プロセッサのキャッシュメモリ内）に、完全にまたは少なくとも部分的に常駐する。命令１５２４は、ネットワークインタフェースデバイス１５２０を介してネットワーク１５２６上で送信または受信されてよい。コンピュータ可読媒体１５２２は、例示的な実施形態では単一の媒体であるように図示されているが、「コンピュータ可読媒体」という用語は、命令（たとえば、命令１５２４）を記憶することが可能である単一の媒体または複数の媒体（たとえば、集中型データベースもしくは分散データベース、または関連キャッシュおよびサーバ）を含むように使われるべきである。コンピュータ可読媒体は、プロセッサ（たとえば、プロセッサ１５０２）による実行のために命令（たとえば、命令１５２４）を記憶することが可能であり、本明細書において開示される方法論のうちの任意の１つまたは複数をプロセッサに実施させる、任意の媒体を含んでよい。コンピュータ可読媒体は、ソリッドステートメモリ、光媒体、および磁気媒体の形をしたデータリポジトリを含んでよいが、これに限定されない。コンピュータ可読媒体は、伝播信号または搬送波などの一時的な媒体を含まない。

ＸＩＩ．追加の考慮事項
有益には、本明細書において説明されるさまざまな実施形態は、ＰＣＲおよび超並列ＤＮＡシークエンシング（たとえば、ＮＧＳ）などの、シークエンシングの分野における既存の技術の精度および効率を改善する。実施形態は、シークエンシングおよび増幅プロセスによってもたらされる誤りを識別するという難題の解決策を提供する。超並列ＤＮＡシークエンシングは、１つまたは複数のＤＮＡ試料を用いて始まってよく、ＤＮＡ試料は、ランダムに切断され、一般的にはＰＣＲを使用して増幅される。超並列ＤＮＡシークエンシングの並列性は、各対立遺伝子のヌクレオチド配列の複写物をもたらす。各対立遺伝子部位における複写およびシークエンシングの範囲は、変わってよい。たとえば、いくつかの配列は重複するおよび／または二本鎖であるが、他の配列はそうでない。ＰＣＲ増幅プロセスとシークエンシングプロセスとシークエンシングプロセスの両方は、少なからぬ誤り率を有する。配列誤りは、真の対立遺伝子のヌクレオチド配列を不明瞭にするために働くことがある。実施形態は、超並列ＤＮＡシークエンシング器具によって解析される１つまたは複数の対立遺伝子を決定するために使用されてよい。リード層固有ノイズモデルを考慮することによって、超並列ＤＮＡシークエンシングワークフローは、真の対立遺伝子を誤った配列からより正確に区別することによって、適切な配列決定を生成するのに十分な忠実度を発揮する。

従来、適切な配列を決定する際の誤り率を減少させるために、試料のシークエンシング深度が増加することが必要である。これは、より多いリソースが試料専用であるので、より少ない試料がシークエンシングのバッチにおいて解析可能であることを意味する。実施形態は、特定の対立遺伝子部位のシークエンシング深度を増加させることなくシークエンシングの精度を改善し、それによって、超並列ＤＮＡシークエンシングの事例で、より多い対立遺伝子部位または患者試料が同時に配列決定されることを可能にする。説明される実施形態は、増幅内で生成されるヌクレオチド配列を読み出すために使用される超並列ＤＮＡシークエンシングの精度を増加させながら、必要とされるシークエンシング深度を減少させ得る。

本発明の実施形態の前述の説明は、例証の目的で提示されてきた。それは、網羅的であること、または開示される正確な形に本発明を限定することを意図したものではない。当業者は、上記の開示に照らして、多くの修正形態および変形形態が可能であることを諒解することができる。

本明細書のいくつかの部分は、情報に対する動作のアルゴリズムおよび記号表現に関して、本発明の実施形態を説明する。これらのアルゴリズムの説明および表現は一般に、データ処理分野の当業者によって、彼らの作業の内容を他の当業者に効率的に伝達するために使用される。これらの動作は、機能的、計算的、または論理的に説明されているが、コンピュータプログラムまたは等価な電気回路、マイクロコードなどによって実装されると理解される。そのうえ、一般性の喪失を伴うことなく、モジュールとして動作のこれらの配置を参照することは、時として好都合であることも証明されている。説明される動作およびそれらの関連モジュールは、ソフトウェア、ファームウェア、ハードウェア、またはそれらの任意の組み合わせで具現化されてよい。

本明細書において説明されるステップ、動作、またはプロセスのいずれも、１つまたは複数のハードウェアまたはソフトウェアモジュールとともに、単独でまたは他のデバイスと組み合わせて実施または実装されてよい。いくつかの実施形態では、ソフトウェアモジュールは、コンピュータプログラムコードを含有する非一時的なコンピュータ可読媒体を含むコンピュータプログラム製品とともに実装され、コンピュータプログラムコードは、説明されるステップ、動作、またはプロセスのいずれかまたはすべてを実施するためにコンピュータプロセッサによって実行可能である。

本発明の実施形態は、本明細書において説明されるコンピューティングプロセスによって生じられる製品にも関する。そのような製品は、コンピューティングプロセスから生じる情報を含んでよく、情報は、非一時的な、有形コンピュータ可読記憶媒体上に記憶され、本明細書において説明されるコンピュータプログラム製品または他のデータ組み合わせのいかなる実施形態をも含んでよい。

本明細書において説明される１つまたは複数のプロセスは、１つまたは複数のステップとともに説明されることがあるが、「ステップ」という用語の使用は、特定の順序を暗示しない。たとえば、本開示は、複数のステップを順次含むプロセスについて説明することがあるが、プロセス内のステップは、本開示において特許請求または説明される特定の順序によって実施されることを必要としない。いくつかのステップは、他のステップが本開示において最初に特許請求または説明されるけれども、他のステップの前に実施されてよい。

最後に、本明細書において使用される言い回しは、主に読みやすさおよび教育的な目的で選択されており、本発明の主題を詳述または制限するために選択されていないことがある。したがって、本発明の範囲は、この詳細な説明によって限定されず、本明細書に基づく出願書に出される任意の請求項によって限定されることが意図されている。したがって、本発明の実施形態の開示は、以下の請求項に記載される本発明の範囲の例証であることを意図しており、本発明の範囲を限定することを意図したものではない。

Claims

試料のＤＮＡシークエンシングデータセットを処理するためのコンピュータ実装方法であって、
ＤＮＡシークエンシングによって生成された前記ＤＮＡシークエンシングデータセットにアクセスするステップであって、前記ＤＮＡシークエンシングデータセットは、バリアント場所を含む複数の処理されたシークエンスリードを含む、アクセスするステップと、
前記複数の処理されたシークエンスリードを複数のリード層へと層別化するステップと、
各リード層に対して、前記バリアント場所における層別化されたシークエンシング深度を決定するステップと、
各リード層に対して、前記リード層の前記層別化されたシークエンシング深度を条件とした１つまたは複数のノイズパラメータを決定するステップであって、前記１つまたは複数のノイズパラメータは、前記リード層に固有のノイズモデルに対応し、前記ノイズモデルを訓練するステップは、
複数の参照健常個人の訓練ＤＮＡデータセットを層別化するステップと、
前記リード層のための層別化されたシークエンスリードを、層別化された訓練セットとして選択するステップと、
前記ノイズモデルを表すノイズ分布をモデル化する前記１つまたは複数のノイズパラメータを開始するステップと、
前記複数の参照健常個人からの前記層別化された訓練セットの前記ノイズ分布に基づいて前記１つまたは複数のノイズパラメータの値を反復的に調整するステップと
を含む、決定するステップと、
各リード層に対して、前記リード層の前記層別化されたシークエンシング深度を条件とした前記１つまたは複数のノイズパラメータに基づいて前記リード層に固有の前記ノイズモデルの出力を生成するステップと、
前記試料が総バリアントカウントと関連づけられる尤度を表す組み合わされた結果を生じさせるために、前記生成されたノイズモデル出力を組み合わせるステップと
を含むコンピュータ実装方法。
前記複数のリード層は、（１）二本鎖の、縫合されたリード層、（２）二本鎖の、縫合されていないリード層、（３）一本鎖の、縫合されたリード層、および（４）一本鎖の、縫合されていないリード層、のうちの１つまたは複数を含む請求項１に記載のコンピュータ実装方法。
前記バリアント場所における変異は、一塩基バリアント、挿入、および欠失、のうちの１つである請求項１に記載のコンピュータ実装方法。
前記組み合わされた結果の品質スコアを決定するステップであって、前記品質スコアはＰｈｒｅｄスケールスコアである、決定するステップ
をさらに含む請求項１に記載のコンピュータ実装方法。
前記品質スコアが所定の閾値よりも高いことに応答して、前記試料は前記バリアント場所において変異を有する尤度が高いことを示すステップ
をさらに含む請求項４に記載のコンピュータ実装方法。
リード層に対して、前記リード層の前記層別化されたシークエンシング深度を条件とした前記１つまたは複数のノイズパラメータを決定するステップは、
前記リード層に固有のパラメータ分布にアクセスするステップであって、前記パラメータ分布は、前記リード層と関連づけられたＤＮＡシークエンシング試料のセットの分布について説明し、前記ノイズパラメータは、前記パラメータ分布から決定される、アクセスするステップ
を含む請求項１に記載のコンピュータ実装方法。
各リード層に対して、前記リード層と関連づけられた前記ＤＮＡシークエンシング試料のセットは、前記リード層へと層別化されたシークエンスリードを含み、１つまたは複数の健常個人に対応する請求項６に記載のコンピュータ実装方法。
各リード層に対して、前記リード層に固有の前記ノイズモデルはベイズ階層モデルであり、前記パラメータ分布はガンマ分布に基づく請求項６に記載のコンピュータ実装方法。
第１のリード層に固有のノイズモデルに対応する第１のノイズパラメータは、第２のリード層に固有のノイズモデルに対応する対応する第２のノイズパラメータとは異なる値を有する請求項１に記載のコンピュータ実装方法。
各リード層に対して、前記決定された１つまたは複数のノイズパラメータは、前記リード層の前記層別化されたシークエンシング深度を条件とした前記ノイズ分布の平均を含む請求項１に記載のコンピュータ実装方法。
各ノイズ分布は、各リード層の前記層別化されたシークエンシング深度を条件とした負の二項分布である請求項１０に記載のコンピュータ実装方法。
各リード層に対して、前記決定された１つまたは複数のノイズパラメータは、ばらつきパラメータをさらに含む請求項１１に記載のコンピュータ実装方法。
各ノイズモデルの前記生成された出力は、前記リード層に対して決定された前記層別化されたシークエンシング深度を条件とした前記１つまたは複数のノイズパラメータである請求項１に記載のコンピュータ実装方法。
各ノイズモデルの前記生成された出力は、前記リード層のための層別化されたバリアントカウントが閾値を超える尤度を含む請求項１に記載のコンピュータ実装方法。
前記生成されたノイズモデル出力を組み合わせるステップは、全体的な平均バリアントカウントおよび前記組み合わされた結果に関する全体的なノイズ分布を表す前記全体的なばらつきパラメータを生じさせるために平均バリアントカウントと各ノイズモデル出力からの分散を組み合わせるステップを含む請求項１に記載のコンピュータ実装方法。
前記全体的なノイズ分布は、負の二項分布に基づいてモデル化され、前記全体的な平均バリアントカウントおよび前記全体的なばらつきパラメータを決定するステップは、
前記リード層の前記層別化されたシークエンシング深度に基づいて各リード層に関する前記平均バリアントカウントを決定するステップと、
各リード層に関する前記分散を決定するステップと、
前記全体的な平均バリアントカウントを決定するために各リード層に関する前記平均バリアントカウントを合計するステップと、
全体的な分散を決定するために各リード層に関する前記分散を組み合わせるステップと、
前記全体的な平均バリアントカウントおよび前記全体的な分散に基づいて前記全体的なばらつきパラメータを決定するステップと
を含む請求項１５に記載のコンピュータ実装方法。
前記組み合わされた結果を生じさせるために前記生成されたノイズモデル出力を組み合わせるステップは、
各リード層の観察された層別化されたバリアントカウントを決定するステップと、
各リード層内で、各リード層の前記観察された層別化されたバリアントカウントよりも尤度の高い可能な事象を決定するステップと、
各リード層の前記観察された層別化されたバリアントカウントよりも高い発生の尤度と関連づけられた前記可能な事象の組み合わせを識別するステップと、
統計的補数を決定するために前記識別された組み合わせの確率を合計するステップと、
前記統計的補数を１．０から減算することによって尤度値を決定するステップと
を含む請求項１に記載のコンピュータ実装方法。
１つの二本鎖リードを含む第１の識別された組み合わせは、２つの一本鎖リードを含む第２の識別組み合わせに等しい請求項１７に記載のコンピュータ実装方法。
前記決定された尤度値は、各リード層の前記観察された層別化されたバリアントカウントの発生の尤度に等しいまたはこれよりも大きい請求項１７に記載のコンピュータ実装方法。
前記尤度値を決定するために機械学習モデルを訓練するステップをさらに含む請求項１７に記載のコンピュータ実装方法。
個人の体液試料を受け取るステップと、
前記体液試料のｃｆＤＮＡに対して前記ＤＮＡシークエンシングを実施するステップと、
前記ＤＮＡシークエンシングの結果に基づいて生シークエンスリードを生成するステップと、
前記複数の処理されたシークエンスリードを生成するために前記生シークエンスリードを崩壊および縫合するステップと
をさらに含む請求項１に記載のコンピュータ実装方法。
前記体液試料は、前記個人の血液、全血、血漿、血清、尿、脳脊髄液、糞便、唾液、涙液、組織生検、胸水、心嚢液、または腹水、のうちの１つの試料である請求項２１に記載のコンピュータ実装方法。
前記複数の処理されたシークエンスリードは腫瘍生検から配列決定される請求項２１に記載のコンピュータ実装方法。
前記複数の処理されたシークエンスリードは、血液からの細胞の単離物から配列決定され、前記細胞の単離物は、少なくともバフィーコート白血球またはＣＤ４＋細胞を含む請求項２１に記載のコンピュータ実装方法。
前記ＤＮＡシークエンシングは超並列ＤＮＡシークエンシング動作を含む請求項１に記載のコンピュータ実装方法。
前記ＤＮＡシークエンシングデータセットは個人の体液試料のｃｆＤＮＡシークエンシングデータセットである請求項１に記載のコンピュータ実装方法。
前記組み合わされた結果に基づいて、被験者がバリアントを有するという診断を提供するステップ
をさらに含む請求項１に記載のコンピュータ実装方法。
前記バリアントは、ＡＣＶＲ１Ｂ、ＡＫＴ３、ＡＭＥＲ１、ＡＰＣ、ＡＲＩＤ１Ａ、ＡＲＩＤ１Ｂ、ＡＲＩＤ２、ＡＳＸＬ１、ＡＳＸＬ２、ＡＴＭ、ＡＴＲ、ＢＡＰ１ＢＣＬ２、ＢＣＬ６、ＢＣＯＲＬ１、ＢＣＲ、ＢＬＭ、ＢＲＡＦ、ＢＲＣＡ１、ＢＴＧ１、ＣＡＳＰ８、ＣＢＬ、ＣＣＮＤ３、ＣＣＮＥ１、ＣＤ７４、ＣＤＣ７３、ＣＤＫ１２、ＣＤＫＮ２Ａ、ＣＨＤ２、ＣＪＤ２、ＣＲＥＢＢＰ、ＣＳＦ１Ｒ、ＣＴＣＦ、ＣＴＮＮＢ１、ＤＩＣＥＲ１、ＤＮＡＪＢ１、ＤＮＭＴ１、ＤＮＭＴ３Ａ、ＤＮＭＴ３Ｂ、ＤＯＴ１Ｌ、ＥＥＤ、ＥＧＦＲ、ＥＩＦ１ＡＸ、ＥＰ３００、ＥＰＨＡ３、ＥＰＨＡ５、ＥＰＨＢ１、ＥＲＢＢ２、ＥＲＢＢ４、ＥＲＣＣ２、ＥＲＣＣ３、ＥＲＣＣ４、ＥＳＲ１、ＦＡＭ４６Ｃ、ＦＡＮＣＡ、ＦＡＮＣＣ、ＦＡＮＣＤ２、ＦＡＮＣＥ、ＦＡＴ１、ＦＢＸＷ７、ＦＧＦＲ３、ＦＬＣＮ、ＦＬＴ１、ＦＯＸＯ１、ＦＵＢＰ１、ＦＹＮ、ＧＡＴＡ３、ＧＰＲ１２４、ＧＲＩＮ２Ａ、ＧＲＭ３、Ｈ３Ｆ３Ａ、ＨＩＳＴ１Ｈ１Ｃ、ＩＤＨ１、ＩＤＨ２、ＩＫＺＦ１、ＩＬ７Ｒ、ＩＮＰＰ４Ｂ、ＩＲＦ４、ＩＲＳ１、ＩＲＳ２、ＪＡＫ２、ＫＡＴ６Ａ、ＫＤＭ６Ａ、ＫＥＡＰ１、ＫＩＦ５Ｂ、ＫＩＴ、ＫＬＦ４、ＫＬＨ６、ＫＭＴ２Ｃ、ＫＲＡＳ、ＬＭＡＰ１、ＬＲＰ１Ｂ、ＬＺＴＲ１、ＭＡＰ３Ｋ１、ＭＣＬ１、ＭＧＡ、ＭＳＨ２、ＭＳＨ６、ＭＳＴ１Ｒ、ＭＴＯＲ、ＭＹＤ８８、ＮＰＭ１、ＮＲＡＳ、ＮＴＲＫ１、ＮＴＲＫ２、ＮＵＰ９３、ＮＵＴＭ１、ＰＡＸ３、ＰＡＸ８、ＰＢＲＭ１、ＰＧＲ、ＰＨＯＸ２Ｂ、ＰＩＫ３ＣＡ、ＰＯＬＥ、ＰＴＣＨ１、ＰＴＥＮ、ＰＴＰＮ１１、ＰＴＰＲＴ、ＲＡＤ２１、ＲＡＦ１、ＲＡＮＢＰ２、ＲＢ１、ＲＥＬ、ＲＦＷＤ２、ＲＨＯＡ、ＲＰＴＯＲ、ＲＵＮＸ１、ＲＵＮＸ１Ｔ１、ＳＤＨＡ、ＳＨＱ１、ＳＬＩＴ２、ＳＭＡＤ４、ＳＭＡＲＣＡ４、ＳＭＡＲＣＤ１、ＳＮＣＡＩＰ、ＳＯＣＳ１、ＳＰＥＮ、ＳＰＴＡ１、ＳＵＺ１２、ＴＥＴ１、ＴＥＴ２、ＴＧＦＢＲ、およびＴＮＦＲＳＦ１４からなる群から選択される請求項２７に記載のコンピュータ実装方法。
前記バリアントを有すると識別された前記被験者に治療を投与する指示を提供するステップ
をさらに含む請求項２７に記載のコンピュータ実装方法。
前記治療は、Ｒｉｔｕｘａｎ、Ｈｅｒｃｅｐｔｉｎ、Ｅｒｂｉｔｕｘ、Ｖｅｃｔｉｂｉｘ、Ａｒｚｅｒｒａ、Ｂｅｎｌｙｓｔａ、Ｙｅｒｖｏｙ、Ｐｅｒｊｅｔａ、Ｔｒｅｍｅｌｉｍｕｍａｂ、Ｏｐｄｉｖｏ、Ｄａｃｅｔｕｚｕｍａｂ、Ｕｒｅｌｕｍａｂ、Ｔｅｃｅｎｔｒｉｑ、Ｌａｍｂｒｏｌｉｚｕｍａｂ、Ｂｌｉｎａｔｕｍｏｍａｂ、ＣＴ－０１１、Ｋｅｙｔｒｕｄａ、ＢＭＳ－９３６５５９、ＭＥＤ１４７３６、ＭＳＢ００１０７１８Ｃ、Ｉｍｆｉｎｚｉ、Ｂａｖｅｎｃｉｏ、およびマルゲツキシマブからなる群から選択される薬剤を投与するステップを含む請求項２９に記載のコンピュータ実装方法。
前記尤度は、その後観察されるデータに関する総バリアントカウントが、前記複数の処理されたシークエンスリード内で観察された総バリアントカウントよりも大きいまたはこれに等しいことがノイズに起因することを表す請求項１に記載のコンピュータ実装方法。
１つまたは複数のプロセッサによって実行されるとき、前記１つまたは複数のプロセッサに、
ＤＮＡシークエンシングによって生成されたＤＮＡシークエンシングデータセットにアクセスさせるステップであって、前記ＤＮＡシークエンシングデータセットは、バリアント場所を含む複数の処理されたシークエンスリードを含む、アクセスさせるステップと、
前記複数の処理されたシークエンスリードを複数のリード層へと層別化させるステップと、
各リード層に対して、前記バリアント場所において層別化されたシークエンシング深度を決定させるステップと、
各リード層に対して、前記リード層の前記層別化されたシークエンシング深度を条件とした１つまたは複数のノイズパラメータを決定させるステップであって、前記１つまたは複数のノイズパラメータは、前記リード層に固有のノイズモデルに対応し、前記ノイズモデルの訓練は、
複数の参照健常個人の訓練ＤＮＡデータセットを層別化するステップと、
前記リード層のための層別化されたシークエンスリードを、層別化された訓練セットとして選択するステップと、
前記ノイズモデルを表すノイズ分布をモデル化する前記１つまたは複数のノイズパラメータを開始するステップと、
前記複数の参照健常個人からの前記層別化された訓練セットの前記ノイズ分布に基づいて前記１つまたは複数のノイズパラメータの値を反復的に調整するステップと
を含む、決定させるステップと、
各リード層に対して、前記リード層の前記層別化されたシークエンシング深度を条件とした前記１つまたは複数のノイズパラメータに基づいて前記リード層に固有の前記ノイズモデルの出力を生成させるステップと、
その後観察されるデータに関する総バリアントカウントは前記複数の処理されたシークエンスリードにおいて観察された総バリアントカウントよりも大きいまたはこれに等しいことがノイズに起因する尤度を表す組み合わされた結果を生じさせるために、前記生成されたノイズモデル出力を組み合わせるステップと
を含むステップを実施させる命令を含む非一時的なコンピュータ可読媒体。
前記生成されたノイズモデル出力を組み合わせるステップは、全体的な平均バリアントカウントおよび前記組み合わされた結果に関する全体的なノイズ分布を表す前記全体的なばらつきパラメータを生じさせるために平均バリアントカウントと各ノイズモデル出力からの分散を組み合わせるステップを含む請求項３２に記載の非一時的なコンピュータ可読媒体。
前記全体的なノイズ分布は、負の二項分布に基づいてモデル化され、前記全体的な平均バリアントカウントおよび前記全体的なばらつきパラメータを決定するステップは、
前記リード層の前記層別化されたシークエンシング深度に基づいて各リード層に関する前記平均バリアントカウントを決定するステップと、
各リード層に関する前記分散を決定するステップと、
前記全体的な平均バリアントカウントを決定するために各リード層に関する前記平均バリアントカウントを合計するステップと、
全体的な分散を決定するために各リード層に関する前記分散を組み合わせるステップと、
前記全体的な平均バリアントカウントおよび前記全体的な分散に基づいて前記全体的なばらつきパラメータを決定するステップと
を含む請求項３３に記載の非一時的なコンピュータ可読媒体。
前記組み合わされた結果を生じさせるために前記生成されたノイズモデル出力を組み合わせるステップは、
各リード層の観察された層別化されたバリアントカウントを決定するステップと、
各リード層内で、各リード層の前記観察された層別化されたバリアントカウントよりも尤度の高い可能な事象を決定するステップと、
各リード層の前記観察された層別化されたバリアントカウントよりも高い発生の尤度と関連づけられた前記可能な事象の組み合わせを識別するステップと、
統計的補数を決定するために前記識別された組み合わせの確率を合計するステップと、
前記統計的補数を１．０から減算することによって尤度値を決定するステップと
を含む請求項３２に記載の非一時的なコンピュータ可読媒体。
前記ステップは、
前記組み合わされた結果に基づいて、被験者がバリアントを有するという診断を提供するステップ
をさらに含む請求項３２に記載の非一時的なコンピュータ可読媒体。
前記バリアントは、ＡＣＶＲ１Ｂ、ＡＫＴ３、ＡＭＥＲ１、ＡＰＣ、ＡＲＩＤ１Ａ、ＡＲＩＤ１Ｂ、ＡＲＩＤ２、ＡＳＸＬ１、ＡＳＸＬ２、ＡＴＭ、ＡＴＲ、ＢＡＰ１ＢＣＬ２、ＢＣＬ６、ＢＣＯＲＬ１、ＢＣＲ、ＢＬＭ、ＢＲＡＦ、ＢＲＣＡ１、ＢＴＧ１、ＣＡＳＰ８、ＣＢＬ、ＣＣＮＤ３、ＣＣＮＥ１、ＣＤ７４、ＣＤＣ７３、ＣＤＫ１２、ＣＤＫＮ２Ａ、ＣＨＤ２、ＣＪＤ２、ＣＲＥＢＢＰ、ＣＳＦ１Ｒ、ＣＴＣＦ、ＣＴＮＮＢ１、ＤＩＣＥＲ１、ＤＮＡＪＢ１、ＤＮＭＴ１、ＤＮＭＴ３Ａ、ＤＮＭＴ３Ｂ、ＤＯＴ１Ｌ、ＥＥＤ、ＥＧＦＲ、ＥＩＦ１ＡＸ、ＥＰ３００、ＥＰＨＡ３、ＥＰＨＡ５、ＥＰＨＢ１、ＥＲＢＢ２、ＥＲＢＢ４、ＥＲＣＣ２、ＥＲＣＣ３、ＥＲＣＣ４、ＥＳＲ１、ＦＡＭ４６Ｃ、ＦＡＮＣＡ、ＦＡＮＣＣ、ＦＡＮＣＤ２、ＦＡＮＣＥ、ＦＡＴ１、ＦＢＸＷ７、ＦＧＦＲ３、ＦＬＣＮ、ＦＬＴ１、ＦＯＸＯ１、ＦＵＢＰ１、ＦＹＮ、ＧＡＴＡ３、ＧＰＲ１２４、ＧＲＩＮ２Ａ、ＧＲＭ３、Ｈ３Ｆ３Ａ、ＨＩＳＴ１Ｈ１Ｃ、ＩＤＨ１、ＩＤＨ２、ＩＫＺＦ１、ＩＬ７Ｒ、ＩＮＰＰ４Ｂ、ＩＲＦ４、ＩＲＳ１、ＩＲＳ２、ＪＡＫ２、ＫＡＴ６Ａ、ＫＤＭ６Ａ、ＫＥＡＰ１、ＫＩＦ５Ｂ、ＫＩＴ、ＫＬＦ４、ＫＬＨ６、ＫＭＴ２Ｃ、ＫＲＡＳ、ＬＭＡＰ１、ＬＲＰ１Ｂ、ＬＺＴＲ１、ＭＡＰ３Ｋ１、ＭＣＬ１、ＭＧＡ、ＭＳＨ２、ＭＳＨ６、ＭＳＴ１Ｒ、ＭＴＯＲ、ＭＹＤ８８、ＮＰＭ１、ＮＲＡＳ、ＮＴＲＫ１、ＮＴＲＫ２、ＮＵＰ９３、ＮＵＴＭ１、ＰＡＸ３、ＰＡＸ８、ＰＢＲＭ１、ＰＧＲ、ＰＨＯＸ２Ｂ、ＰＩＫ３ＣＡ、ＰＯＬＥ、ＰＴＣＨ１、ＰＴＥＮ、ＰＴＰＮ１１、ＰＴＰＲＴ、ＲＡＤ２１、ＲＡＦ１、ＲＡＮＢＰ２、ＲＢ１、ＲＥＬ、ＲＦＷＤ２、ＲＨＯＡ、ＲＰＴＯＲ、ＲＵＮＸ１、ＲＵＮＸ１Ｔ１、ＳＤＨＡ、ＳＨＱ１、ＳＬＩＴ２、ＳＭＡＤ４、ＳＭＡＲＣＡ４、ＳＭＡＲＣＤ１、ＳＮＣＡＩＰ、ＳＯＣＳ１、ＳＰＥＮ、ＳＰＴＡ１、ＳＵＺ１２、ＴＥＴ１、ＴＥＴ２、ＴＧＦＢＲ、およびＴＮＦＲＳＦ１４からなる群から選択される請求項３６に記載の非一時的なコンピュータ可読媒体。
前記ステップは、
前記バリアントを有すると識別された前記被験者に治療を投与する指示を提供するステップ
をさらに含む請求項３６に記載の非一時的なコンピュータ可読媒体。
前記治療は、Ｒｉｔｕｘａｎ、Ｈｅｒｃｅｐｔｉｎ、Ｅｒｂｉｔｕｘ、Ｖｅｃｔｉｂｉｘ、Ａｒｚｅｒｒａ、Ｂｅｎｌｙｓｔａ、Ｙｅｒｖｏｙ、Ｐｅｒｊｅｔａ、Ｔｒｅｍｅｌｉｍｕｍａｂ、Ｏｐｄｉｖｏ、Ｄａｃｅｔｕｚｕｍａｂ、Ｕｒｅｌｕｍａｂ、Ｔｅｃｅｎｔｒｉｑ、Ｌａｍｂｒｏｌｉｚｕｍａｂ、Ｂｌｉｎａｔｕｍｏｍａｂ、ＣＴ－０１１、Ｋｅｙｔｒｕｄａ、ＢＭＳ－９３６５５９、ＭＥＤ１４７３６、ＭＳＢ００１０７１８Ｃ、Ｉｍｆｉｎｚｉ、Ｂａｖｅｎｃｉｏ、およびマルゲツキシマブからなる群から選択される薬剤を投与するステップを含む請求項３８に記載の非一時的なコンピュータ可読媒体。
前記尤度は、その後観察されたデータに関する総バリアントカウントが、前記複数の処理されたシークエンスリード内で観察された総バリアントカウントよりも大きいまたはこれに等しいことがノイズに起因することを表す請求項３２に記載の非一時的なコンピュータ可読媒体。
コンピュータプロセッサとコンピュータプログラム命令を格納するメモリとを備えるシステムであって、前記コンピュータプログラム命令は、前記コンピュータプロセッサによって実行されるとき、前記コンピュータプロセッサに、
ＤＮＡシークエンシングによって生成されたＤＮＡシークエンシングデータセットにアクセスさせるステップであって、前記ＤＮＡシークエンシングデータセットは、バリアント場所を含む複数の処理されたシークエンスリードを含む、アクセスさせるステップと、
前記複数の処理されたシークエンスリードを複数のリード層へと層別化させるステップと、
各リード層に対して、前記バリアント場所において層別化されたシークエンシング深度を決定させるステップと、
各リード層に対して、前記リード層の前記層別化されたシークエンシング深度を条件とした１つまたは複数のノイズパラメータを決定させるステップであって、前記１つまたは複数のノイズパラメータは、前記リード層に固有のノイズモデルに対応し、前記ノイズモデルの訓練は、
複数の参照健常個人の訓練ＤＮＡデータセットを層別化するステップと、
前記リード層のための層別化されたシークエンスリードを、層別化された訓練セットとして選択するステップと、
前記ノイズモデルを表すノイズ分布をモデル化する前記１つまたは複数のノイズパラメータを開始するステップと、
前記複数の参照健常個人からの前記層別化された訓練セットの前記ノイズ分布に基づいて前記１つまたは複数のノイズパラメータの値を反復的に調整するステップと
を含む、決定させるステップと、
各リード層に対して、前記リード層の前記層別化されたシークエンシング深度を条件とした前記１つまたは複数のノイズパラメータに基づいて前記リード層に固有の前記ノイズモデルの出力を生成させるステップと、
その後観察されるデータに関する総バリアントカウントは前記複数の処理されたシークエンスリードにおいて観察された総バリアントカウントよりも大きいまたはこれに等しいことがノイズに起因する尤度を表す組み合わされた結果を生じさせるために、前記生成されたノイズモデル出力を組み合わせるステップと
を含むステップを実施させる、システム。
前記生成されたノイズモデル出力を組み合わせるステップは、全体的な平均バリアントカウントおよび前記組み合わされた結果に関する全体的なノイズ分布を表す前記全体的なばらつきパラメータを生じさせるために平均バリアントカウントと各ノイズモデル出力からの分散を組み合わせるステップを含む請求項４１に記載のシステム。
前記全体的なノイズ分布は、負の二項分布に基づいてモデル化され、前記全体的な平均バリアントカウントおよび前記全体的なばらつきパラメータを決定するステップは、
前記リード層の前記層別化されたシークエンシング深度に基づいて各リード層に関する前記平均バリアントカウントを決定するステップと、
各リード層に関する前記分散を決定するステップと、
前記全体的な平均バリアントカウントを決定するために各リード層に関する前記平均バリアントカウントを合計するステップと、
全体的な分散を決定するために各リード層に関する前記分散を組み合わせるステップと、
前記全体的な平均バリアントカウントおよび前記全体的な分散に基づいて前記全体的なばらつきパラメータを決定するステップと
を含む請求項４２に記載のシステム。
前記組み合わされた結果を生じさせるために前記生成されたノイズモデル出力を組み合わせるステップは、
各リード層の観察された層別化されたバリアントカウントを決定するステップと、
各リード層内で、各リード層の前記観察された層別化されたバリアントカウントよりも尤度の高い可能な事象を決定するステップと、
各リード層の前記観察された層別化されたバリアントカウントよりも高い発生の尤度と関連づけられた前記可能な事象の組み合わせを識別するステップと、
統計的補数を決定するために前記識別された組み合わせの確率を合計するステップと、
前記統計的補数を１．０から減算することによって尤度値を決定するステップと
を含む請求項４１に記載のシステム。
前記ステップは、
前記組み合わされた結果に基づいて、被験者がバリアントを有するという診断を提供するステップ
をさらに含む請求項４１に記載のシステム。
前記バリアントは、ＡＣＶＲ１Ｂ、ＡＫＴ３、ＡＭＥＲ１、ＡＰＣ、ＡＲＩＤ１Ａ、ＡＲＩＤ１Ｂ、ＡＲＩＤ２、ＡＳＸＬ１、ＡＳＸＬ２、ＡＴＭ、ＡＴＲ、ＢＡＰ１ＢＣＬ２、ＢＣＬ６、ＢＣＯＲＬ１、ＢＣＲ、ＢＬＭ、ＢＲＡＦ、ＢＲＣＡ１、ＢＴＧ１、ＣＡＳＰ８、ＣＢＬ、ＣＣＮＤ３、ＣＣＮＥ１、ＣＤ７４、ＣＤＣ７３、ＣＤＫ１２、ＣＤＫＮ２Ａ、ＣＨＤ２、ＣＪＤ２、ＣＲＥＢＢＰ、ＣＳＦ１Ｒ、ＣＴＣＦ、ＣＴＮＮＢ１、ＤＩＣＥＲ１、ＤＮＡＪＢ１、ＤＮＭＴ１、ＤＮＭＴ３Ａ、ＤＮＭＴ３Ｂ、ＤＯＴ１Ｌ、ＥＥＤ、ＥＧＦＲ、ＥＩＦ１ＡＸ、ＥＰ３００、ＥＰＨＡ３、ＥＰＨＡ５、ＥＰＨＢ１、ＥＲＢＢ２、ＥＲＢＢ４、ＥＲＣＣ２、ＥＲＣＣ３、ＥＲＣＣ４、ＥＳＲ１、ＦＡＭ４６Ｃ、ＦＡＮＣＡ、ＦＡＮＣＣ、ＦＡＮＣＤ２、ＦＡＮＣＥ、ＦＡＴ１、ＦＢＸＷ７、ＦＧＦＲ３、ＦＬＣＮ、ＦＬＴ１、ＦＯＸＯ１、ＦＵＢＰ１、ＦＹＮ、ＧＡＴＡ３、ＧＰＲ１２４、ＧＲＩＮ２Ａ、ＧＲＭ３、Ｈ３Ｆ３Ａ、ＨＩＳＴ１Ｈ１Ｃ、ＩＤＨ１、ＩＤＨ２、ＩＫＺＦ１、ＩＬ７Ｒ、ＩＮＰＰ４Ｂ、ＩＲＦ４、ＩＲＳ１、ＩＲＳ２、ＪＡＫ２、ＫＡＴ６Ａ、ＫＤＭ６Ａ、ＫＥＡＰ１、ＫＩＦ５Ｂ、ＫＩＴ、ＫＬＦ４、ＫＬＨ６、ＫＭＴ２Ｃ、ＫＲＡＳ、ＬＭＡＰ１、ＬＲＰ１Ｂ、ＬＺＴＲ１、ＭＡＰ３Ｋ１、ＭＣＬ１、ＭＧＡ、ＭＳＨ２、ＭＳＨ６、ＭＳＴ１Ｒ、ＭＴＯＲ、ＭＹＤ８８、ＮＰＭ１、ＮＲＡＳ、ＮＴＲＫ１、ＮＴＲＫ２、ＮＵＰ９３、ＮＵＴＭ１、ＰＡＸ３、ＰＡＸ８、ＰＢＲＭ１、ＰＧＲ、ＰＨＯＸ２Ｂ、ＰＩＫ３ＣＡ、ＰＯＬＥ、ＰＴＣＨ１、ＰＴＥＮ、ＰＴＰＮ１１、ＰＴＰＲＴ、ＲＡＤ２１、ＲＡＦ１、ＲＡＮＢＰ２、ＲＢ１、ＲＥＬ、ＲＦＷＤ２、ＲＨＯＡ、ＲＰＴＯＲ、ＲＵＮＸ１、ＲＵＮＸ１Ｔ１、ＳＤＨＡ、ＳＨＱ１、ＳＬＩＴ２、ＳＭＡＤ４、ＳＭＡＲＣＡ４、ＳＭＡＲＣＤ１、ＳＮＣＡＩＰ、ＳＯＣＳ１、ＳＰＥＮ、ＳＰＴＡ１、ＳＵＺ１２、ＴＥＴ１、ＴＥＴ２、ＴＧＦＢＲ、およびＴＮＦＲＳＦ１４からなる群から選択される請求項４５に記載のシステム。
前記ステップは、
前記バリアントを有すると識別された前記被験者に治療を投与する指示を提供するステップ
をさらに含む請求項４５に記載のシステム。
前記治療は、Ｒｉｔｕｘａｎ、Ｈｅｒｃｅｐｔｉｎ、Ｅｒｂｉｔｕｘ、Ｖｅｃｔｉｂｉｘ、Ａｒｚｅｒｒａ、Ｂｅｎｌｙｓｔａ、Ｙｅｒｖｏｙ、Ｐｅｒｊｅｔａ、Ｔｒｅｍｅｌｉｍｕｍａｂ、Ｏｐｄｉｖｏ、Ｄａｃｅｔｕｚｕｍａｂ、Ｕｒｅｌｕｍａｂ、Ｔｅｃｅｎｔｒｉｑ、Ｌａｍｂｒｏｌｉｚｕｍａｂ、Ｂｌｉｎａｔｕｍｏｍａｂ、ＣＴ－０１１、Ｋｅｙｔｒｕｄａ、ＢＭＳ－９３６５５９、ＭＥＤ１４７３６、ＭＳＢ００１０７１８Ｃ、Ｉｍｆｉｎｚｉ、Ｂａｖｅｎｃｉｏ、およびマルゲツキシマブからなる群から選択される薬剤を投与するステップを含む請求項４７に記載のシステム。
前記尤度は、その後観察されたデータに関する総バリアントカウントが、前記複数の処理されたシークエンスリード内で観察された総バリアントカウントよりも大きいまたはこれに等しいことがノイズに起因することを表す請求項４１に記載のシステム。