JP2023156402A

JP2023156402A - ターゲットシーケンシングのためのモデル

Info

Publication number: JP2023156402A
Application number: JP2023127900A
Authority: JP
Inventors: ウィーバーブロッカーアレキサンダー; Weaver Blocker Alexander; ハベルアール; Hubbell Earl; クラウドベンオリバー; Claude Venn Oliver; リウチンウェン; Qinwen Liu
Original assignee: Grail Inc
Current assignee: Grail Inc
Priority date: 2017-11-28
Filing date: 2023-08-04
Publication date: 2023-10-24
Also published as: WO2019108555A8; CN111742059A; US20190164627A1; AU2018375302A1; CA3080170A1; TW201926095A; US11961589B2; JP2021503922A; WO2019108555A1; TWI814753B; EP3717662A1

Abstract

【課題】ターゲットシーケンシングのためのモデル、バリアントコーリングおよび品質コントロールにおけるそのモデルの利用。【解決手段】処理システムは、ターゲットシーケンシングまたはバリアントコーリングのためのベイズ推論ベースのモデルを使用する。一実施形態においては、前記処理システムは無細胞核酸サンプルの候補バリアントを生成する。前記処理システムは前記無細胞核酸サンプルおよび対応するゲノム核酸サンプルにおける前記候補バリアントの各々について、真の代替頻度の尤度を決定する。前記処理システムは、少なくとも真の代替頻度の前記尤度を使用して前記モデルによって、前記候補バリアントをふるい分けるまたは記録する。前記処理システムはふるい分けられた前記候補バリアントを出力し、これは予測癌または疾病モデルのために、フィーチャを生成するために使用され得る。【選択図】図１Ａ

Description

本開示は、一般に、ターゲットシーケンシングのためのモデル、バリアントコーリングおよび品質コントロールにおけるそのモデルの利用、ならびに試験サンプルに対して実行される物理的アッセイの結果の統計的分析に関する。

様々なタイプの癌または他の疾病に対応し得る、ＤＮＡにおける変異またはバリアントを同定するために、コンピュータ技法が、ＤＮＡシーケンシングデータに対して使用され得る。したがって、被験者から採取された組織生検材料または血液などの生体サンプルを分析することによって、癌診断または予測が、実行され得る。血液サンプルから腫瘍細胞が起源のＤＮＡを検出することは、困難であり、そのわけは、循環腫瘍ＤＮＡ（ｃｔＤＮＡ）は、一般に、血液から抽出された無細胞ＤＮＡ（ｃｆＤＮＡ）内の他の分子に比べて、低レベルで存在するからである。既存の方法が、信号ノイズから（例えば、被験者における癌を示す）真陽性を識別することができないことは、ノイズソースによって引き起こされた偽陽性から真陽性を区別するための知られたシステムおよび将来のシステムの能力を損ない、それは、バリアントコーリングまたは他のタイプの分析についての信頼性のない結果をもたらすことがある。ｃｆＤＮＡを分析することは、従来の腫瘍生検方法と比べて有利であり得るが、しかしながら、腫瘍由来のｃｆＤＮＡにおいて癌を示唆する信号を識別することは、特に、癌を示唆する信号がまだ目立たない場合の癌の早期検出などの目的に関して、異なる課題に直面する。一例として、腫瘍由来のフラグメントの必要なシーケンシング深さを達成することは、困難であり得る。別の例として、サンプル準備およびシーケンシング中に導入されるエラーは、まれなバリアントの正確な同定を困難にすることがある。これら様々な課題の組み合わせは、被験者から獲得されたｃｆＤＮＡの使用を通して、被験者における癌の特徴を、十分な感度および特異度で正確に予測する妨げになる。

シーケンシングデータにおいて単一ヌクレオチドバリアント（ＳＮＶ）などのバリアントを検出するために、数々の異なる方法が、開発されてきた。ほとんどの従来の方法は、組織サンプルから獲得されたＤＮＡシーケンシングデータからバリアントをコールするために開発された。これらの方法は、無細胞核酸サンプルから獲得された深いシーケンシングデータからバリアントをコールするためには適さないことがある。

癌の非侵襲的診断および監視については、無細胞ヌクレオチドのターゲットシーケンシングデータは、重要なバイオソースとしての役割を果たす。しかしながら、深いシーケンシングデータセットにおけるバリアントの検出は、異なる課題をもたらし、すなわち、シーケンシングされるフラグメントの数は、数桁大きくなる傾向があり（例えば、シーケンシング深さは２０００倍以上になることがあり）、既存のバリアントコーラのほとんどを、計算時間およびメモリ使用において消耗させる。

バリアントの正確な検出に対する主要な課題は、処理中に発生する、シーケンシングされるフラグメントの損傷の可能性である。シーケンシングされるフラグメントの損傷の例は、自然にまたはアッセイ処理ステップのせいで発生する、ヌクレオチド置換であることができる。例えば、損傷は、ヌクレオチド塩基の自発的な脱アミノ化が原因で、または末端修復エラーが原因で発生することがある。処理中に損傷が発生するので、既存のバリアントコーラは、これらのヌクレオチド塩基変化を、ゲノム内のバリアントとして同定することがある。言い換えると、この損傷は、システマティックエラーをもたらすことがあり、変異が誤って同定される、例えば、偽陽性として識別される原因となり得る。

米国特許出願公開第２０１２／００６５０８１号明細書米国特許出願公開第２０１４／０２２７７０５号明細書米国特許出願公開第２０１５／００４４６８７号明細書米国特許出願公開第２０１７／００５８３３２号明細書

Ｄｕｎｃａｖａｇｅｅｔａｌ．，ＪＭｏｌＤｉａｇｎ．１３（３）：３２５－３３３（２０１１）Ｎｅｗｍａｎｅｔａｌ．，ＮａｔＭｅｄ．２０（５）：５４８－５５４（２０１４）Ｃｈｅｎｇ，Ｄ．，ｅｔａｌ，ＭｅｍｏｒｉａｌＳｌｏａｎＫｅｔｔｅｒｉｎｇ－ＩｎｔｅｇｒａｔｅｄＭｕｔａｔｉｏｎＰｒｏｆｉｌｉｎｇｏｆＡｃｔｉｏｎａｂｌｅＣａｎｃｅｒＴａｒｇｅｔｓ（ＭＳＫ－ＩＭＰＡＣＴ），ＡＨｙｂｒｉｄｉｚａｔｉｏｎＣａｐｔｕｒｅ－ＢａｓｅｄＮｅｘｔ－ＧｅｎｅｒａｔｉｏｎＳｅｑｕｅｎｃｉｎｇＣｌｉｎｉｃａｌＡｓｓａｙｆｏｒＳｏｌｉｄＴｕｍｏｒＭｏｌｅｃｕｌａｒＯｎｃｏｌｏｇｙ，ＪｏｕｒｎａｌｏｆＭｏｌｅｃｕｌａｒＤｉａｇｎｏｓｔｉｃｓ，１７（３），ｐ．２５１－２６４Ｃｈａｋｒａｖａｒｔｙｅｔａｌ．，ＪＣＯＰＯ２０１７Ｆｏｒｂｅｓｅｔａｌ．ＣＯＳＭＩＣ：ｓｏｍａｔｉｃｃａｎｃｅｒｇｅｎｅｔｉｃｓａｔｈｉｇｈ－ｒｅｓｏｌｕｔｉｏｎ，ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓｅａｒｃｈ，Ｖｏｌｕｍｅ４５，ＩｓｓｕｅＤ１，４Ｊａｎｕａｒｙ２０１７，ＰａｇｅｓＤ７７７－Ｄ７８３

処理システムは、ターゲットシーケンシング、バリアントコーリング、品質コントロール、および物理的アッセイの統計的分析を含む、様々な適用のためのモデルを使用する。処理システムは、血液、腫瘍生検材料、または他の体液もしくは身体物質を含み得る、サンプルから獲得された、シーケンスリードを使用して、候補バリアントを生成する。候補バリアントは、単一ヌクレオチドバリアント、塩基対の挿入または欠失を含み得る。処理システムは、無細胞核酸サンプルまたはゲノム核酸サンプルにおける候補バリアントについての、真の代替頻度の尤度を決定し得る。いくつかの使用事例においては、ゲノム核酸サンプルは、白血球細胞からのものである。処理システムは、真の代替頻度の尤度を使用して、候補バリアントを点数化またはふるい分けし得る。処理システムは、点数化またはふるい分けされた候補バリアントを出力し、それは、例えば、推定されたノイズレベルに基づいて、潜在的な偽陽性をふるい落とすことによって、バリアントコーリングまたは品質コントロールのために使用され得る。加えて、処理システムは、シーケンスリードからフィーチャを生成し得、フィーチャは、予測癌または疾病モデルに入力される。

処理システムは、部位特異的ノイズモデルをトレーニングおよび適用し得、それは、本明細書においては、ターゲットシーケンシングにおける真陽性の尤度を決定するための、「ベイズ階層モデル」、「ノイズモデル」、または「モデル」とも呼ばれる。モデルは、ベイズ推論を使用して、例えば、核酸配列の位置ごとのある変異の予期される尤度を示す、ノイズのレートまたはレベルを決定し得る。さらに、モデルは、共変量（例えば、トリヌクレオチドコンテキスト、マッピング可能性、またはセグメント重複）、および様々なタイプのパラメータ（例えば、混合成分、またはシーケンスリードの深さ）を考慮する、階層モデルであり得る。モデルは、健康な被験者のシーケンスリードから、マルコフ連鎖モンテカルロサンプリングによって、トレーニングされ得る。したがって、モデルを組み込んだ全体的なパイプラインは、より高い感度で真陽性を識別し、偽陽性をふるい落とすことができる。ノイズモデルに加えて、処理システムは、個人から獲得された試験サンプルに基づいた、個人についての癌または他のタイプの疾病の分類または予測のために、モデルをトレーニングおよび適用し得る。

処理システムは、フィルタリングプロセスを使用して、サンプリング処理中に生じた、コールされたバリアントを同定および除去し得る。アーチファクトは、自発的なシトシン脱アミノ化、および末端修復エラーなど、ｃｆＤＮＡの処理中に発生する様々なソースから生じることがある。これらのアーチファクトは、エッジバリアントおよびアーチファクトバリアントを含む、様々な用語によって呼ばれ得る。これらのアーチファクトプロセスの結果として検出された、コールされたバリアントは、被験者のゲノムに存在する実際の変異を反映しない。様々な実施形態においては、本明細書において開示されるフィルタリングプロセスは、少なくとも２つの分析を組み合わせる。１つの分析は、サンプルレベルで行われ、サンプルにわたって観測された、コールされたバリアントの分布を分析する。別の分析は、バリアントレベルで行われ、各コールされたバリアントを検討して、そのコールされたバリアントがアーチファクトプロセスの結果である可能性が高いかどうかを決定する。これらの分析を組み合わせることは、個々のコールされたバリアントのサンプル特異的フィルタリングを可能にする。例示的なシナリオとして、サンプルにおいて同定されたコールされたバリアントは、（例えば、アーチファクトプロセスからもたらされた）エッジバリアントとして区分けされることができ、一方、異なるサンプルにおいて同定された同じコールされたバリアントは、（例えば、アーチファクトプロセスからもたらされない）非エッジバリアントとして区分けされることができる。

様々な実施形態においては、方法は、無細胞核酸サンプルの複数の候補バリアントを生成するステップを含む。方法は、無細胞核酸サンプルおよび対応するゲノム核酸サンプルにおける候補バリアントの各々について、真の代替頻度の尤度を決定するステップをさらに含む。方法は、少なくとも、真の代替頻度の尤度を使用するモデルによって、候補バリアントをふるい分けるステップをさらに含む。いくつかの使用事例においては、方法は、ふるい分けに加えて、またはふるい分けの代わりに、候補バリアントを点数化するステップを含み得る。方法は、ふるい分けられた候補バリアントを出力するステップをさらに含む。

１つまたは複数の実施形態においては、方法は、同義変異と関連付けられた少なくとも１つの候補バリアントを除去することによって、候補バリアントをふるい分けるステップをさらに含む。

１つまたは複数の実施形態においては、真の代替頻度の尤度を決定するステップは、候補バリアントの少なくとも１つについて、被験者の無細胞核酸サンプルからの第１のシーケンスリードの第１の深さおよび第１の代替深さを決定するステップをさらに含む。方法は、被験者のゲノム核酸サンプルからの第２のシーケンスリードの第２の深さおよび第２の代替深さを決定するステップをさらに含む。方法は、無細胞核酸サンプルの第１の深さおよび真の代替頻度によってパラメータ化された第１の関数を使用して、第１の代替深さをモデル化することによって、無細胞核酸サンプルの真の代替頻度の第１の尤度を決定するステップをさらに含む。方法は、ゲノム核酸サンプルの第２の深さおよび真の代替頻度によってパラメータ化された第２の関数を使用して、第２の代替深さをモデル化することによって、ゲノム核酸サンプルの真の代替頻度の第２の尤度を決定するステップをさらに含む。モデルは、少なくとも、第１の尤度、第２の尤度、および１つまたは複数のパラメータを使用して、無細胞核酸サンプルの真の代替頻度が、ゲノム核酸サンプルの真の代替頻度の関数よりも大きい確率を決定することによって、候補バリアントをふるい分ける。

１つまたは複数の実施形態においては、第１の関数は、無細胞核酸サンプルの第１の深さの１つと真の代替頻度との積によってパラメータ化された、ポアソン分布関数である。第２の関数は、ゲノム核酸サンプルの第２の深さの１つと真の代替頻度との別の積によってパラメータ化された、ポアソン分布関数である。

１つまたは複数の実施形態においては、確率は、無細胞核酸サンプルからの第１のシーケンスリードからの（例えば、ヌクレオチド）変異が、被験者のゲノム核酸サンプルからの第２のシーケンスリード内に見つからないことについての信頼性レベルを表す。

１つまたは複数の実施形態においては、確率が１つまたは複数のパラメータのうちの１つよりも大きいと決定したのに応答して、無細胞核酸サンプルからの第１のシーケンスリードからの少なくともいくつかの（例えば、ヌクレオチド）変異が、被験者のゲノム核酸サンプルからの第２のシーケンスリード内に見つからないと決定するステップをさらに含む。

１つまたは複数の実施形態においては、確率を決定するステップは、無細胞核酸サンプルの真の代替頻度が、１つまたは複数のパラメータのうちの１つによって乗算されたゲノム核酸サンプルの真の代替頻度よりも大きい確率を決定するステップを含む。

１つまたは複数の実施形態においては、確率を決定するステップは、第１の尤度と第２の尤度のジョイント尤度を決定するステップを含み、第１のシーケンスリードと第２のシーケンスリードを与えられた場合、第１の尤度と第２の尤度は、条件付きで独立である。

１つまたは複数の実施形態においては、確率を決定するステップは、第１の尤度および第２の尤度の一方の累積和を決定し、第１の尤度および第２の尤度の他方の積分を決定することによって、第１の尤度と第２の尤度のジョイント尤度を数値的に近似するステップを含む。

１つまたは複数の実施形態においては、１つまたは複数のパラメータは、健康なゲノム核酸サンプルの代替頻度を入力として取る第３の関数を使用して決定される、第１のパラメータを含む。

１つまたは複数の実施形態においては、第３の関数は、シーケンスリードにおけるヘテロ接合性の消失イベントを防ぐための基準によって定義される。

１つまたは複数の実施形態においては、第３の関数は、非線形関数である。

１つまたは複数の実施形態においては、基準は、第１のパラメータについては３の値を、健康なゲノム核酸サンプルの代替頻度については１／３のより低い閾値を示す。

１つまたは複数の実施形態においては、１つまたは複数のパラメータは、第２のパラメータを含む。第１のパラメータおよび第２のパラメータは、複数の個人の無細胞核酸サンプルとゲノム核酸サンプルのセットを用いて交差検証を行うことによって、経験的に決定される。

１つまたは複数の実施形態においては、第１のパラメータは、１以上５以下の値を有し、第２のパラメータは、０．５と１の間の別の値を有する。

１つまたは複数の実施形態においては、交差検証を行うことは、複数のタイプの疾病と関連付けられたサンプルを使用して導出された候補パラメータ値を適用して、異なるタイプの疾病と関連付けられた別のサンプルを試験することを含む。

１つまたは複数の実施形態においては、方法は、第１のパラメータによってパラメータ化された第３の関数を使用して、健康な無細胞核酸サンプルに関する（例えば、ヌクレオチド）変異の第１のノイズレベルを決定するステップをさらに含み、被験者の無細胞核酸の真の代替頻度の第１の尤度が、さらに第１のノイズレベルを使用して決定される。方法は、第２のパラメータによってパラメータ化された第４の関数を使用して、健康なゲノム核酸サンプルに関する（例えば、ヌクレオチド）変異の第２のノイズレベルを決定するステップをさらに含み、被験者のゲノム核酸の真の代替頻度の第２の尤度が、さらに第２のノイズレベルを使用して決定される。

１つまたは複数の実施形態においては、第１の代替深さをモデル化することは、第１の関数の出力に第１のノイズレベルを加算することを含み、第２の代替深さをモデル化することは、第２の関数の別の出力に第２のノイズレベルを加算することを含む。

１つまたは複数の実施形態においては、第１のパラメータおよび第２のパラメータは、シーケンスリードの与えられた位置に関する（例えば、ヌクレオチド）変異のノイズレベルを符号化した分布のパラメータを表す。

１つまたは複数の実施形態においては、第３の関数および第４の関数は、各々、平均レートおよび分散パラメータによってパラメータ化された、負の２項分布関数である。

１つまたは複数の実施形態においては、第３の関数および第４の関数は、同じタイプの関数であり、同じタイプのパラメータによってパラメータ化される。

１つまたは複数の実施形態においては、第１のパラメータは、無細胞核酸サンプルのセットを使用してトレーニングされる第１のモデルを使用して導出され、第２のパラメータは、ゲノム核酸サンプルのセットを使用してトレーニングされる第２のモデルを使用して導出される。

１つまたは複数の実施形態においては、ゲノム核酸サンプルのセットは、白血球細胞からのものである。

１つまたは複数の実施形態においては、第１のモデルおよび第２のモデルは、ベイズ階層モデルである。

１つまたは複数の実施形態においては、第１のモデルおよび第２のモデルは、同じタイプのモデルである。

１つまたは複数の実施形態においては、方法は、被験者の血液サンプルから無細胞核酸サンプルを収集するステップまたは収集したステップをさらに含む。方法は、無細胞核酸サンプルに対する濃縮を実行して、第１のシーケンスリードを生成するステップをさらに含む。

１つまたは複数の実施形態においては、第１のシーケンスリードは、被験者の血液、全血、血漿、血清、尿、脳脊髄液、糞便、唾液、涙液、組織生検材料、胸膜液、心膜液、または腹水のサンプルから獲得される。

１つまたは複数の実施形態においては、第１のシーケンスリードは、被験者の少なくともＣＤ４＋細胞を含む血液からの細胞の分離から獲得される。

１つまたは複数の実施形態においては、第２のシーケンスリードは、被験者の腫瘍生検材料から獲得された腫瘍細胞から獲得される。

１つまたは複数の実施形態においては、第２のシーケンスリードは、被験者の白血球細胞から獲得される。

１つまたは複数の実施形態においては、方法は、確率が閾値確率よりも小さいと決定したのに、およびゲノム核酸サンプルからの第２のシーケンスリードの第２の代替深さの１つが、ゼロよりも大きいと決定したのに応答して、無細胞核酸サンプルからの第１のシーケンスリードの候補バリアントが、ゲノム核酸サンプルのヌクレオチド変異と関連付けられると決定するステップをさらに含む。

１つまたは複数の実施形態においては、閾値確率は、０．８に等しい。

１つまたは複数の実施形態においては、方法は、無細胞核酸サンプルからの第１のシーケンスリードの候補バリアントについて、（ｉ）確率が閾値確率よりも小さいと決定したのに、および（ｉｉ）候補バリアントと関連付けられたゲノム核酸サンプルからの第２のシーケンスリードの第２の代替深さの１つが、ゼロに等しいと決定したのに応答して、第１の深さ、第１の代替深さ、第２の深さ、および第２の代替深さを使用して、比を決定するステップと、少なくとも、比が閾値比よりも小さいと決定したのに応答して、候補バリアントはゲノム核酸サンプルの（例えば、ヌクレオチド）変異とおそらく関連付けられると決定するステップとをさらに含む。

１つまたは複数の実施形態においては、候補バリアントはゲノム核酸サンプルの（例えば、ヌクレオチド）変異とおそらく関連付けられるとの決定に基づいて、１つまたは複数のパラメータのうちの少なくとも１つが、候補バリアントのために決定される。

１つまたは複数の実施形態においては、方法は、候補バリアントに対応する１つまたは複数のパラメータの第１のセットを決定するステップをさらに含む。方法は、１つまたは複数のパラメータの第１のセットを使用して、第１のフィルタを候補バリアントに適用するステップをさらに含む。方法は、別の候補バリアントがゲノム核酸サンプルの別の（例えば、ヌクレオチド）変異とおそらく関連付けられないと決定したのに応答して、別の候補バリアントに対応する１つまたは複数のパラメータの第２のセットを決定するステップをさらに含む。方法は、１つまたは複数のパラメータの第２のセットを使用して、第２のフィルタを別の候補バリアントに適用するステップをさらに含み、第２のフィルタは、第１のフィルタのそれよりも厳しいフィルタリング基準を有する。

１つまたは複数の実施形態においては、方法は、第２のシーケンスリードの第２の代替深さを使用して、ｇＤＮＡ深さ品質スコアを決定するステップをさらに含む。その場合、候補バリアントが（例えば、ヌクレオチド）変異とおそらく関連付けられると決定することは、ｇＤＮＡ深さ品質スコアが閾値スコア以上であると決定することにさらに応答する。

１つまたは複数の実施形態においては、閾値スコアは、１である。

１つまたは複数の実施形態においては、方法は、第１のシーケンスリードが複数の基準のうちの少なくとも１つを満たすと決定することによって、無細胞核酸サンプルからの第１のシーケンスリードの候補バリアントをふるい分けることを決定するステップをさらに含む。

１つまたは複数の実施形態においては、第１のシーケンスリードが複数の基準のうちの少なくとも１つを満たすかどうかを決定することは、候補バリアントがエッジバリアントアーチファクトであると決定することを含む。

１つまたは複数の実施形態においては、第１のシーケンスリードが複数の基準のうちの少なくとも１つを満たすかどうかを決定することは、第１のシーケンスリードの第１の深さの１つが閾値深さよりも小さいと決定することを含む。

１つまたは複数の実施形態においては、第１のシーケンスリードが複数の基準のうちの少なくとも１つを満たすかどうかを決定することは、１つまたは複数の生殖細胞系列変異に類似する、第１の配列における（例えば、ヌクレオチド）変異の頻度が、閾値頻度よりも大きいと決定することと、（例えば、ヌクレオチド）変異が生殖細胞系列変異と関連付けられた位置において見つけられたと決定することとを含む。

１つまたは複数の実施形態においては、方法は、ふるい分けされたシーケンスリードを使用して、１つまたは複数のフィーチャの値を生成するステップをさらに含む。方法は、１つまたは複数のフィーチャの値を予測癌モデルに入力して、被験者についての癌予測を生成するステップをさらに含み、予測癌モデルは、学習された重みを含む関数を通して、１つまたは複数のフィーチャの値を、被験者についての癌予測に変換する。方法は、被験者についての癌予測を提供するステップをさらに含む。

１つまたは複数の実施形態においては、１つまたは複数のフィーチャは、体細胞バリアントの総数、非同義バリアントの総数、同義バリアントの総数、遺伝子パネル内の遺伝子ごとの体細胞バリアントの存在または非存在、癌と関連付けられることが知られた特定の遺伝子についての体細胞バリアントの存在または非存在、遺伝子パネル内の遺伝子ごとの体細胞バリアントの対立遺伝子頻度、体細胞バリアントのＡＦに従った順位序列、および区分ごとの体細胞バリアントの対立遺伝子頻度のうちの１つまたは複数を含む。

１つまたは複数の実施形態においては、モデルによって候補バリアントをふるい分けるステップは、複数の候補バリアントのうちの候補バリアントについて、無細胞核酸サンプルにおける候補バリアントの真の代替頻度が、対応するゲノム核酸サンプルにおける候補バリアントの真の代替頻度の関数よりも大きい確率を決定するステップを含む。ふるい分けるステップは、確率が閾値確率よりも小さいと決定するステップをさらに含む。ふるい分けるステップは、ゲノム核酸サンプルにおける候補バリアントの代替深さが閾値深さよりも大きいと決定するステップをさらに含む。ふるい分けるステップは、無細胞核酸サンプルの深さおよび代替深さと、ゲノム核酸サンプルの別の深さおよび代替深さとを使用して、比を決定するステップをさらに含む。ふるい分けるステップは、ゲノム核酸サンプルの代替深さを使用して、ｇＤＮＡ深さ品質スコアを決定するステップをさらに含む。ふるい分けるステップは、比が閾値比よりも小さいと決定したのに、およびｇＤＮＡ深さ品質スコアが閾値スコア以上であると決定したのに応答して、候補バリアントはゲノム核酸サンプルの（例えば、ヌクレオチド）変異とおそらく関連付けられると決定するステップをさらに含む。

様々な実施形態においては、方法は、被験者の無細胞核酸サンプルからの第１のシーケンスリードの第１の深さおよび第１の代替深さを決定するステップを含む。方法は、被験者のゲノム核酸サンプルからの第２のシーケンスリードの第２の深さおよび第２の代替深さを決定するステップをさらに含む。方法は、無細胞核酸サンプルの第１の深さおよび真の代替頻度によってパラメータ化された第１の関数を使用して、第１の代替深さをモデル化することによって、無細胞核酸サンプルの真の代替頻度の第１の尤度を決定するステップをさらに含む。方法は、ゲノム核酸サンプルの第２の深さおよび真の代替頻度によってパラメータ化された第２の関数を使用して、第２の代替深さをモデル化することによって、ゲノム核酸サンプルの真の代替頻度の第２の尤度を決定するステップをさらに含む。方法は、少なくとも、第１の尤度、第２の尤度、および１つまたは複数のパラメータを使用して、無細胞核酸サンプルの真の代替頻度が、ゲノム核酸サンプルの真の代替頻度の関数よりも大きい確率を決定することによって、被験者の候補バリアントをふるい分けるステップをさらに含む。方法は、ふるい分けられた候補バリアントを出力するステップをさらに含む。

処理システムは、事前サンプル（例えば、トレーニングサンプル）から獲得された、先に区分けされたエッジバリアントおよび先に区分けされた非エッジバリアントを使用して生成された、分布を考慮して、サンプル特異的な分析またはバリアント特異的な分析を行い得る。例えば、第１の分布は、先に区分けされたエッジバリアントのフィーチャの分布を記述し、一方、第２の分布は、先に区分けされた非エッジバリアントのフィーチャの分布を記述する。フィーチャは、エッジバリアントまたは非エッジバリアントのシーケンスリードにわたる、変異させられたヌクレオチド塩基のロケーションに関連することができる。例えば、１つの特定のフィーチャは、シーケンスリードにわたる、変異させられたヌクレオチド塩基が検出されたシーケンスリードのエッジからの中央値距離であることができる。

様々な実施形態においては、サンプル特異的な分析は、サンプルにおけるアーチファクトの予測されるレートを決定する、サンプル特異的なレート予測モデルを利用する。例えば、サンプル特異的な分析は、尤度推定を実行して、サンプルにおけるエッジバリアントの予測されるレートを決定することを含み得る。ここでは、予測されるレートは、第１の分布および第２の分布を考慮して、サンプルにわたって観測されるコールされたバリアントの分布を最も良く説明し得る。高い予測されるレートは、サンプルにわたって観測されるコールされたバリアントの分布が、知られたエッジバリアントのフィーチャを記述する第１の分布により類似することを示す。言い換えると、サンプルにわたって観測されるコールされたバリアントの大きい比率が、アーチファクトプロセスにおそらく起因する。このような例示的な結果は、サンプルにおけるエッジバリアントを同定および除外するために、より積極的なフィルタリングプロセスの使用を提案する。他方では、低い予測されるレートは、サンプルにわたって観測されるコールされたバリアントの分布が、知られた非エッジバリアントのフィーチャを記述する第２の分布により類似することを示す。言い換えると、サンプルにわたって観測されるコールされたバリアントの小さい比率が、アーチファクトプロセスにおそらく起因する。このような例示的な結果は、サンプルにおけるエッジバリアントを同定および除外するために、あまり積極的でないフィルタリングプロセスの使用を提案する。

様々な実施形態においては、バリアント特異的な分析は、第１の分布および第２の分布を考慮して、特定のコールされたバリアントのフィーチャを分析する、エッジバリアント予測モデルを利用する。エッジバリアント予測モデルは、コールされたバリアントが処理アーチファクトの結果である尤度を表すアーチファクトスコア、およびコールされたバリアントが非エッジバリアントである尤度を表す非アーチファクトスコアを出力する。各コールされたバリアントについて、サンプル特異的な予測されるレートは、コールされたバリアントのためのアーチファクトスコアおよび非アーチファクトスコアと組み合わされる。したがって、コールされたバリアントは、サンプル特異的な分析とバリアント特異的な分析の両方を考慮することによって、エッジバリアントまたは非エッジバリアントとして同定される。エッジバリアントは、ふるい落とされることができ、一方、非エッジバリアントは、保持される。

様々な実施形態においては、方法は、無細胞核酸サンプルの複数の候補バリアントを生成するステップを含む。方法は、無細胞核酸サンプルにおけるおよび対応するゲノム核酸サンプルにおける候補バリアントの各々について、真の代替頻度の尤度を決定するステップをさらに含む。方法は、少なくとも、真の代替頻度の尤度を使用するモデルによって、候補バリアントをふるい分けるステップをさらに含む。方法は、候補バリアントの各々について、候補バリアントがエッジバリアントである確率を示すエッジバリアント確率を決定することによって、候補バリアントをふるい分けるステップをさらに含む。方法は、ふるい分けられた候補バリアントを出力するステップをさらに含む。

様々な実施形態においては、候補バリアントをふるい分けるステップは、シーケンスリード上において見つけられた代替対立遺伝子を受け取るステップを含み、シーケンスリードは、ゲノム内の複数の位置から獲得される。方法は、受け取られた代替対立遺伝子に基づいて、無細胞核酸サンプルについてのエッジバリアントの予測されるレートを決定するステップをさらに含む。方法は、複数の位置のサブセットの各々について、位置から獲得されたシーケンスリードからフィーチャを抽出するステップと、抽出されたフィーチャをトレーニングされたモデルへの入力として適用して、位置についてのアーチファクトスコアおよび位置についての非アーチファクトスコアを獲得するステップであって、アーチファクトスコアは、位置から獲得されたシーケンスリード上において見つけられた代替対立遺伝子が、処理アーチファクトの結果である尤度を反映し、非アーチファクトスコアは、位置から獲得されたシーケンスリード上において見つけられた代替対立遺伝子が、処理アーチファクトの結果でない尤度を反映する、ステップと、位置についてのアーチファクトスコア、位置についての非アーチファクトスコア、および無細胞核酸サンプルについてのアーチファクトの予測されるレートを組み合わせることによって、位置についてのエッジバリアント確率を生成するステップと、エッジバリアント確率に基づいて、位置における候補バリアントの１つをエッジバリアントとして報告するステップとをさらに含む。

１つまたは複数の実施形態においては、無細胞核酸サンプルについてのエッジバリアントは、シーケンスリードのうちの１つまたは複数の部分の自発的な脱アミノ化に起因する。

１つまたは複数の実施形態においては、無細胞核酸サンプルについてのエッジバリアントの予測されるレートを決定するステップは、受け取られた代替対立遺伝子を考慮して、尤度ベースの推定を実行して、推定量を生成するステップと、最尤推定量に基づいて、エッジバリアントの予測されるレートを選択するステップとを含む。

１つまたは複数の実施形態においては、尤度ベースの推定は、アーチファクト区分に区分けされたシーケンスリードから生成された第１の分布を考慮して、さらに実行される。

１つまたは複数の実施形態においては、尤度ベースの推定は、非アーチファクト区分に区分けされたシーケンスリードから生成された第２の分布を考慮して、さらに実行される。

１つまたは複数の実施形態においては、位置についてのシーケンスリードから抽出されたフィーチャの１つは、シーケンシングリードのサブセットにおける代替対立遺伝子のロケーションと、シーケンシングリードのサブセットのエッジとの間の中央値距離である。

１つまたは複数の実施形態においては、位置についてのシーケンスリードから抽出されたフィーチャの１つは、１）シーケンシングリードの第１のサブセットにおける代替対立遺伝子のロケーションと、第１のサブセットにおけるシーケンシングリードのエッジとの間の第１の中央値距離と、２）シーケンシングリードの第２のサブセットにおける参照対立遺伝子のロケーションと、第２のサブセットにおけるシーケンシングリードのエッジとの間の第２の中央値距離との間の差を表す有意性スコアである。

１つまたは複数の実施形態においては、位置についてのシーケンスリードから抽出されたフィーチャの１つは、位置を横断する代替対立遺伝子を含むシーケンスリードのフラクションを表す、対立遺伝子フラクションである。

１つまたは複数の実施形態においては、エッジバリアント確率に基づいて、コールされたバリアントをエッジバリアントとして報告するステップは、エッジバリアント確率を閾値と比較するステップと、比較に基づいて、コールされたバリアントをエッジバリアントとして報告するステップとを含む。

１つまたは複数の実施形態においては、複数の位置のサブセットに含まれる、ゲノム内の位置は、複数のうちの各位置について、位置に対応するコールされたバリアントの変異タイプを同定し、コールされたバリアントの変異タイプが、シトシンからチミンへの塩基置換またはグアニンからアデニンへの塩基置換の一方であるかどうかを決定することによって決定される。

１つまたは複数の実施形態においては、トレーニングされるモデルは、トレーニングシーケンスリード上において見つけられた代替対立遺伝子であって、トレーニングシーケンスリードはゲノム内の複数の位置から獲得される、代替対立遺伝子を含む、トレーニングデータを受け取り、トレーニングシーケンスリード上において見つけられた代替対立遺伝子の特性に基づいて、トレーニングシーケンスリードの各々を２つ以上の区分に区分けし、トレーニングバリアントの２つ以上の区分の各々について、区分に区分けされたトレーニングシーケンスリードからフィーチャを抽出し、抽出されたフィーチャに基づいて、分布を生成することによってトレーニングされる。

１つまたは複数の実施形態においては、トレーニングシーケンスリードの特性は、代替リードのヌクレオチド塩基変異のタイプを含み、トレーニングシーケンスリードの各々を２つ以上の区分に区分けすることは、トレーニングシーケンスリードにおける代替対立遺伝子のヌクレオチド塩基変異のタイプに基づいて、各トレーニングシーケンスリードを、アーチファクト区分または非アーチファクト区分の一方に区分けすることを含む。

１つまたは複数の実施形態においては、アーチファクト区分に区分けされたトレーニングシーケンスリードは、各々、シトシンからチミンへの変異またはグアニンからアデニンへの変異のどちらかである代替リードを含む。

１つまたは複数の実施形態においては、アーチファクト区分に区分けされたトレーニングシーケンスリードは、各々、トレーニングシーケンシングリードのエッジから閾値距離内に見つけられる代替対立遺伝子を含む。

１つまたは複数の実施形態においては、非アーチファクト区分に区分けされたトレーニングシーケンスリードは、各々、トレーニングシーケンシングリードのエッジから閾値距離外に見つけられる、またはシトシンからチミンへの変異もしくはグアニンからアデニンへの変異以外の塩基置換である、代替対立遺伝子を含む。

本明細書において開示される実施形態は、被験者における癌の存在を検出するための方法について説明し、方法は、被験者からの試験サンプルにおける複数の無細胞核酸から生成されたシーケンシングデータを獲得するステップであって、シーケンシングデータは、複数の無細胞核酸から決定される複数のシーケンスリードを含む、ステップと、１つまたは複数のシーケンシングベースのフィーチャを同定するために、適切にプログラムされたコンピュータを使用して、複数のシーケンスリードを分析するステップと、１つまたは複数のフィーチャの分析に基づいて、癌の存在を検出するステップであって、癌の存在は、少なくとも約９５％の特異度、および少なくとも約３０％感度の感度で検出される、ステップとを含む。

いくつかの実施形態においては、癌の存在は、少なくとも約９５％の特異度、および少なくとも約５０％感度の感度で検出される。いくつかの実施形態においては、癌の存在は、少なくとも約９５％の特異度、および少なくとも約６０％感度の感度で検出される。いくつかの実施形態においては、癌の存在は、少なくとも約９５％の特異度、および少なくとも約７０％感度の感度で検出される。いくつかの実施形態においては、癌の存在は、少なくとも約９５％の特異度、および少なくとも約８０％感度の感度で検出される。いくつかの実施形態においては、癌の存在は、少なくとも約９５％の特異度、および少なくとも約９０％感度の感度で検出される。いくつかの実施形態においては、癌の存在は、少なくとも約９５％の特異度、および少なくとも約９５％感度の感度で検出される。いくつかの実施形態においては、癌の存在は、少なくとも約９９％の特異度、および少なくとも約３５％感度の感度で検出される。いくつかの実施形態においては、癌の存在は、少なくとも約９５％の特異度、および少なくとも約４０％感度の感度で検出される。いくつかの実施形態においては、癌の存在は、少なくとも約９５％の特異度、および少なくとも約４５％感度の感度で検出される。いくつかの実施形態においては、癌の存在は、少なくとも約９６％、９７％、９８％、９９％、９９．５％、９９．８％、または９９．９％の特異度で検出される。いくつかの実施形態においては、癌の存在は、少なくとも約５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９１％、９２％、９３％、９４％、または９５％の特異度で検出される。

本明細書において開示される実施形態は、無症状の被験者における癌の存在を検出するための方法についてさらに説明し、方法は、無症状の被験者からの試験サンプルにおける複数の無細胞核酸から生成されたシーケンシングデータを獲得するステップと、１つまたは複数のシーケンシングベースのフィーチャを同定するために、適切にプログラムされたコンピュータを使用して、シーケンシングデータを分析するステップと、１つまたは複数のフィーチャの分析に基づいて、癌の存在を検出するステップであって、癌の存在についての受信者動作特性（ＲＯＣ）の曲線下面積（ＡＵＣ）が、０．６０よりも大きい、ステップとを含む。いくつかの実施形態においては、ＡＵＣは、０．６５、０．７０、０．７５、０．８０、０．８５、０．９０、０．９５、０．９７、０．９８、または０．９９よりも大きい。

本明細書において開示される実施形態は、無症状の被験者における癌の存在を検出するための方法についてさらに説明し、方法は、無症状の被験者からの試験サンプルにおける複数の無細胞核酸から生成されたシーケンシングデータを獲得するステップと、１つまたは複数のシーケンシングベースのフィーチャを同定するために、適切にプログラムされたコンピュータを使用して、シーケンシングデータを分析するステップと、１つまたは複数のフィーチャの分析に基づいて、癌の存在を検出するステップであって、癌の存在は、少なくとも約３０％の推定される陽性予測値で検出される、ステップとを含む。

いくつかの実施形態においては、癌の存在は、少なくとも３５％、４０％、４５％、５０％、５５％、６０％、６５％、７０％、または７５％の推定される陽性予測値で検出される。いくつかの実施形態においては、方法は、２つ以上の異なるタイプの癌を検出する。いくつかの実施形態においては、方法は、３つ以上の異なるタイプの癌を検出する。いくつかの実施形態においては、方法は、５つ以上の異なるタイプの癌を検出する。いくつかの実施形態においては、方法は、１０以上の異なるタイプの癌を検出する。いくつかの実施形態においては、方法は、２０以上の異なるタイプの癌を検出する。いくつかの実施形態においては、２つ以上の異なるタイプの癌は、乳がん、肺がん、前立腺がん、大腸がん、腎臓がん、子宮がん、膵臓がん、食道がん、リンパ腫、頭頸部がん、卵巣がん、肝胆道がん、黒色腫、子宮頸がん、多発性骨髄腫、白血病、甲状腺がん、膀胱がん、胃がん、肛門直腸がん、およびそれらの任意の組み合わせから選択される。

いくつかの実施形態においては、被験者は、無症状である。いくつかの実施形態においては、無細胞核酸は、無細胞ＤＮＡ（ｃｆＤＮＡ）を含む。いくつかの実施形態においては、シーケンスリードは、次世代シーケンシング（ＮＧＳ）手順から生成される。いくつかの実施形態においては、シーケンスリードは、合成によるシーケンシングを使用する、超並列シーケンシング手順から生成される。

いくつかの実施形態においては、１つまたは複数のフィーチャは、試験サンプルにおける複数の無細胞核酸に対する少なくとも小バリアントシーケンシングアッセイから導出される。

いくつかの実施形態においては、小バリアントシーケンシングアッセイは、ターゲットシーケンシングアッセイであり、シーケンスデータは、遺伝子のターゲットパネルから導出される。いくつかの実施形態においては、遺伝子のターゲットパネルは、２から１００００の間の遺伝子を含む。いくつかの実施形態においては、小バリアントシーケンシングアッセイから決定された１つまたは複数のフィーチャの分析に基づいて、癌の存在を検出すること。いくつかの実施形態においては、小バリアントシーケンシングアッセイフィーチャは、体細胞バリアントの総数、非同義バリアントの総数、同義バリアントの総数、遺伝子ごとの体細胞バリアントの存在／非存在、癌と関連付けられることが知られた特定の遺伝子についての体細胞バリアントの存在／非存在、遺伝子ごとの体細胞バリアントの対立遺伝子頻度、体細胞バリアントのＡＦに従った順序統計量、および対立遺伝子頻度に基づいた癌と関連付けられることが知られた体細胞バリアントの分類のうちの１つまたは複数を含む。いくつかの実施形態においては、方法は、被験者のさらなる白血球細胞のうちの１つからゲノムＤＮＡのシーケンスデータを獲得するステップをさらに含み、シーケンシングデータは、ゲノムＤＮＡから決定される複数のシーケンスリードを含み、分析は、被験者からの無細胞核酸についてのシーケンスデータを、被験者の１つまたは複数の白血球細胞からのＤＮＡのシーケンスデータと比較して、１つまたは複数の腫瘍由来の小バリアントシーケンシングアッセイフィーチャを同定することを含む。

いくつかの実施形態においては、検出される癌は、ステージＩの癌である。いくつかの実施形態においては、検出される癌は、ステージＩＩの癌である。いくつかの実施形態においては、検出される癌は、ステージＩＩＩの癌である。いくつかの実施形態においては、検出される癌は、ステージＩＶの癌である。いくつかの実施形態においては、検出される癌は、乳がん、肺がん、大腸がん、卵巣がん、子宮がん、黒色腫、腎臓がん、膵臓がん、甲状腺がん、胃がん、肝胆道がん、食道がん、前立腺がん、リンパ腫、多発性骨髄腫、頭頸部がん、膀胱がん、子宮頸がん、またはそれらの任意の組み合わせである。いくつかの実施形態においては、方法は、試験サンプルからのシーケンスリードの分析に基づいて、乳がんを、ＨＲ陽性、ＨＥＲ２過剰発現、ＨＥＲ２増幅、またはトリプルネガティブとして分類するステップをさらに含む。

いくつかの実施形態においては、分析は、試験サンプルにおいて１つまたは複数のウイルス由来の核酸の存在を検出することをさらに含み、癌の検出は、部分的に、１つまたは複数のウイルス核酸の検出に基づく。例えば、一実施形態においては、１つまたは複数のフィーチャは、ウイルス由来の核酸の存在／非存在、またはウイルス由来の核酸から決定されるウイルス量を含み得る。いくつかの実施形態においては、１つまたは複数のウイルス由来の核酸は、ヒトパピローマウイルス、エプスタイン－バーウイルス、Ｂ型肝炎、Ｃ型肝炎、およびそれらの任意の組み合わせから成る群から選択される。

いくつかの実施形態においては、試験サンプルは、血液、血漿、血清、尿、脳脊髄液、糞便物質、唾液、胸膜液、心膜液、子宮頸部スワブ、唾液、または腹水サンプルである。

一実施形態に従った、シーケンシングのために核酸サンプルを準備するための方法のフローチャートである。一実施形態に従った、シーケンスリードを獲得するためのプロセスのグラフィカル表現を示す図である。一実施形態に従った、シーケンスリードを処理するための処理システムのブロック図である。一実施形態に従った、シーケンスリードのバリアントを決定するための方法のフローチャートである。一実施形態に従った、ベイズ階層モデルの適用の図である。一実施形態に従った、真の単一ヌクレオチドバリアントを決定するための、パラメータとベイズ階層モデルのサブモデルとの間の依存関係を示す図である。一実施形態に従った、真の挿入または欠失を決定するための、パラメータとベイズ階層モデルのサブモデルとの間の依存関係を示す図である。一実施形態に従った、ベイズ階層モデルと関連付けられた図である。一実施形態に従った、ベイズ階層モデルと関連付けられた図である。一実施形態に従った、ベイズ階層モデルをフィッティングすることによってパラメータを決定する図である。一実施形態に従った、ベイズ階層モデルからのパラメータを使用して、偽陽性の尤度を決定する図である。一実施形態に従った、ベイズ階層モデルをトレーニングするための方法のフローチャートである。一実施形態に従った、与えられたヌクレオチド変異の候補バリアントを点数化するための方法のフローチャートである。一実施形態に従った、ジョイントモデルを使用して、無細胞核酸サンプルおよびゲノム核酸サンプルを処理するための方法のフローチャートである。一実施形態に従った、ジョイントモデルの適用の図である。一実施形態に従った、健康な個人からのサンプルにおけるバリアントの観測されたカウントの図である。一実施形態に従った、ジョイントモデルについての例示的なパラメータの図である。一実施形態に従った、ジョイントモデルによって決定されるバリアントコールの図である。一実施形態に従った、ジョイントモデルによって決定されるバリアントコールの図である。一実施形態に従った、ジョイントモデルによって決定される確率密度の図である。一実施形態に従った、ジョイントモデルの感度および特異度の図である。一実施形態に従った、ジョイントモデルを使用してターゲットシーケンシングアッセイから検出された遺伝子のセットの図である。一実施形態に従った、ジョイントモデルを使用してターゲットシーケンシングアッセイから検出された図１７に示された遺伝子のセットの長さ分布の図である。一実施形態に従った、ジョイントモデルを使用してターゲットシーケンシングアッセイから検出された遺伝子の別のセットの図である。一実施形態に従った、無細胞核酸サンプルおよびゲノム核酸サンプルを処理するために、ジョイントモデルを調整するための方法のフローチャートである。一実施形態に従った、ｃｆＤＮＡサンプルの候補バリアントの例示的なカウントの表を示す図である。一実施形態に従った、健康な個人からのｃｆＤＮＡサンプルの候補バリアントの例示的なカウントの表を示す図である。一実施形態に従った、ｃｆＤＮＡとｇＤＮＡの比に基づいてプロットされた候補バリアントの図である。一実施形態に従った、トレーニングバリアントを使用して、アーチファクト分布および非アーチファクト分布を生成するプロセスを示す図である。一実施形態に従った、アーチファクトトレーニングデータ区分に区分けされるシーケンスリードを示す図である。一実施形態に従った、非アーチファクトトレーニングデータ区分に区分けされるシーケンスリードを示す図である。一実施形態に従った、参照対立遺伝子トレーニングデータ区分に区分けされるシーケンスリードを示す図である。一実施形態に従った、エッジからの統計的距離フィーチャを抽出するためのプロセスの例示的な図である。一実施形態に従った、有意性スコアフィーチャを抽出するためのプロセスの例示的な図である。一実施形態に従った、対立遺伝子フラクションフィーチャを抽出するためのプロセスの例示的な図である。様々な実施形態に従った、エッジバリアントを同定するために使用される例示的な分布を示す図である。様々な実施形態に従った、エッジバリアントを同定するために使用される例示的な分布を示す図である。一実施形態に従った、サンプル特異的な予測されるレートを決定するためのブロック図フロープロセスを示す図である。一実施形態に従った、エッジバリアントを同定するためのエッジバリアント予測モデルの適用を示す図である。一実施形態に従った、サンプルから検出されたエッジバリアントを同定および報告するフロープロセスを示す図である。様々な実施形態に従った、アーチファクト区分または非アーチファクト区分の一方に区分けされる、例示的なトレーニングバリアントのフィーチャを示す図である。様々な実施形態に従った、アーチファクト区分または非アーチファクト区分の一方に区分けされる、例示的なトレーニングバリアントのフィーチャを示す図である。様々な実施形態に従った、アーチファクト区分または非アーチファクト区分の一方に区分けされる、例示的なトレーニングバリアントのフィーチャを示す図である。様々な実施形態に従った、被験者から獲得された例示的な癌サンプルにおけるエッジバリアントおよび非エッジバリアントの検出を示す図である。様々な実施形態に従った、被験者から獲得された例示的な癌サンプルにおけるエッジバリアントおよび非エッジバリアントの検出を示す図である。様々な実施形態に従った、被験者から獲得された例示的な癌サンプルにおけるエッジバリアントおよび非エッジバリアントの検出を示す図である。様々な実施形態に従った、被験者から獲得された別の例示的な癌サンプルにおけるエッジバリアントおよび非エッジバリアントの検出を示す図である。様々な実施形態に従った、被験者から獲得された別の例示的な癌サンプルにおけるエッジバリアントおよび非エッジバリアントの検出を示す図である。様々な実施形態に従った、被験者から獲得された別の例示的な癌サンプルにおけるエッジバリアントおよび非エッジバリアントの検出を示す図である。一実施形態に従った、様々な被験者サンプルにわたるエッジバリアントの同定を示す図である。一実施形態に従った、ｃｆＤＮＡにおいてコールされたバリアントのフラクションとして、異なるエッジフィルタを使用してエッジバリアントを除去した後に、固形腫瘍とｃｆＤＮＡの両方においてコールされた一致バリアントを示す図である。一実施形態に従った、固形腫瘍においてコールされたバリアントのフラクションとして、異なるエッジフィルタを使用してエッジバリアントを除去した後に、固形腫瘍とｃｆＤＮＡの両方においてコールされた一致バリアントを示す図である。一実施形態に従った、異なるタイプのフィルタおよびモデルを使用して、候補バリアントを処理するための方法のフローチャートである。一実施形態に従った、無細胞ゲノム研究のためのサンプルセットの個人を記述した表を示す図である。一実施形態に従った、図３３Ａの無細胞ゲノム研究のためのサンプルセットと関連付けられた癌のタイプを示すチャートである。一実施形態に従った、図３３Ａの無細胞ゲノム研究のためのサンプルセットを記述した別の表を示す図である。一実施形態に従った、１つまたは複数のタイプのフィルタおよびモデルを使用して決定された、コールされたバリアントの例示的なカウントの図である。一実施形態に従った、乳がんを有することが知られたサンプルの例示的な品質スコアの図である。一実施形態に従った、乳がんを有することが知られたサンプルの例示的な品質スコアの別の図である。一実施形態に従った、肺がんを有することが知られたサンプルの例示的な品質スコアの図である。一実施形態に従った、癌の異なるステージにある様々なタイプの癌を有することが知られたサンプルについての、コールされたバリアントの例示的なカウントの表を示す図である。一実施形態に従った、癌の異なるステージにある様々なタイプの癌を有することが知られたサンプルについての、コールされたバリアントの例示的なカウントの図である。一実施形態に従った、早期または末期癌を有することが知られたサンプルについての、コールされたバリアントの例示的なカウントの図である。一実施形態に従った、早期または末期癌を有することが知られたサンプルについての、コールされたバリアントの例示的なカウントの別の図である。一実施形態に従った、個人から獲得されたｃｆＤＮＡサンプルに由来するフィーチャに基づいて、癌予測を生成するための方法のフローチャートである。一実施形態に従った、小バリアントフィーチャの第１のセットを使用して癌の存在を予測する、予測癌モデルの特異度および感度の受信者動作特性（ＲＯＣ）曲線を示す図である。一実施形態に従った、小バリアントフィーチャの第２のセットを使用して癌の存在を予測する、予測癌モデルの特異度および感度のＲＯＣ曲線を示す図である。一実施形態に従った、小バリアントフィーチャの第３のセットを使用して癌の存在を予測する、予測癌モデルの特異度および感度のＲＯＣ曲線を示す図である。

図は、もっぱら例示の目的で、本発明の実施形態を示している。本明細書において例示される構造および方法の代替的実施形態が、本明細書において説明される本発明の原理から逸脱することなく、利用され得ることを、当業者は、以下の説明から容易に認識しよう。

今から、それらの例が添付の図に例示された、いくつかの実施形態に対する言及が、詳細に行われる。実施可能なときはつねに、類似のまたは同じ参照番号が、図において使用され得、類似のまたは同じ機能性を示し得ることが留意される。例えば、「シーケンスリード１８０Ａ」など、参照番号の後の文字は、本文が、その特定の参照番号を有する要素を特定的に参照していることを示す。「シーケンスリード１８０」など、後続する文字のない本文中の参照番号は、その参照番号を有する、図中の任意のまたはすべての要素を参照している（例えば、本文中の「シーケンスリード１８０」は、図中の参照番号「シーケンスリード１８０Ａ」および／または「シーケンスリード１８０Ｂ」を参照している）。

Ｉ．定義
「個人」という語は、人間の個人のことを指す。「健康な個人」という語は、癌または疾病を有さないと推定される個人のことを指す。「被験者」という語は、癌または疾病を有することが知られている、または潜在的に有する個人のことを指す。

「シーケンスリード」という語は、個人から獲得されたサンプルからのヌクレオチド配列リードのことを指す。シーケンスリードは、当技術分野において知られた様々な方法を通して、獲得されることができる。

「リードセグメント」または「リード」という語は、個人から獲得されたシーケンスリードを含む任意のヌクレオチド配列、および／または個人から獲得されたサンプルからの初期シーケンスリードに由来するヌクレオチド配列のことを指す。例えば、リードセグメントは、アライメントされたシーケンスリード、コラプスされたシーケンスリード、またはつなぎ合わされたリードのことを指し得る。さらに、リードセグメントは、単一ヌクレオチドバリアントなど、個々のヌクレオチド塩基のことを指し得る。

「単一ヌクレオチドバリアント」または「ＳＮＶ」という語は、ヌクレオチド配列、例えば、個人からのシーケンスリードの位置（例えば、部位）における、１つのヌクレオチドの異なるヌクレオチドへの置換のことを指す。第１の核酸塩基Ｘから第２の核酸塩基Ｙへの置換は、「Ｘ＞Ｙ」と表記され得る。例えば、シトシンからチミンへのＳＮＶは、「Ｃ＞Ｔ」と表記され得る。

「インデル」という語は、シーケンスリードにおける、長さおよび位置（アンカ位置と呼ばれることもある）を有する、１つまたは複数の塩基の任意の挿入または欠失のことを指す。挿入は、正の長さに対応し、一方、欠失は、負の長さに対応する。

「変異」という語は、１つまたは複数のＳＮＶまたはインデルのことを指す。

「候補バリアント」、「コールされたバリアント」、または「推定バリアント」という語は、例えば、変異させられたと決定されたゲノム内の位置における、ヌクレオチド配列の１つもしくは複数の検出されたヌクレオチドバリアント（すなわち、候補ＳＮＶ）、または１つもしくは複数の塩基における挿入もしくは欠失（すなわち、候補インデル）のことを指す。一般に、ヌクレオチド塩基は、シーケンスリードにおける代替対立遺伝子の存在、またはコラプスされたリードに基づいて、コールされたバリアントと見なされ、位置におけるヌクレオチド塩基は、基準ゲノム内のヌクレオチド塩基と異なる。加えて、候補バリアントは、真陽性または偽陽性と呼ばれることがある。

「真陽性」という語は、リアルなバイオロジ（ｒｅａｌｂｉｏｌｏｇｙ）、例えば、個人における潜在的な癌、疾病、または生殖細胞系列変異の存在を示す変異のことを指す。真陽性は、健康な個人において自然に発生する変異（例えば、再発性変異）、または核酸サンプルのアッセイ準備中におけるプロセスエラーなど、アーチファクトの他のソースによっては引き起こされない。

「偽陽性」という語は、真陽性であると誤って決定された変異のことを指す。一般に、偽陽性は、より大きい平均ノイズレートまたはノイズレートにおけるより大きい不確実性と関連付けられた、シーケンスリードを処理するときに、発生する可能性がより高くなり得る。

「ｃｆＮＡ」の「無細胞核酸」という語は、細胞外において見つけられることができる、血液、汗、尿、または唾液などの体液中の、核酸分子のことを指す。無細胞核酸は、循環核酸として交換可能に使用される。

「無細胞核酸」、「無細胞ＤＮＡ」、または「ｃｆＤＮＡ」という語は、血液、汗、尿、または唾液などの体液中を循環し、１つもしくは複数の健康な細胞および／または１つもしくは複数の癌細胞を起源とする、デオキシリボ核酸フラグメントのことを指す。

「循環腫瘍ＤＮＡ」または「ｃｔＤＮＡ」という語は、死にかけた細胞のアポトーシスもしくはネクローシスなどの生物学的プロセスの結果として、血液、汗、尿、もしくは唾液などの個人の体液中に放出され得る、または生存可能な腫瘍細胞によって能動的に放出され得る、腫瘍細胞または他のタイプの癌細胞を起源とするデオキシリボ核酸フラグメントのことを指す。

「循環腫瘍ＲＮＡ」または「ｃｔＲＮＡ」という語は、死にかけた細胞のアポトーシスもしくはネクローシスなどの生物学的プロセスの結果として、血液、汗、尿、もしくは唾液などの個人の体液中に放出され得る、または生存可能な腫瘍細胞によって能動的に放出され得る、腫瘍細胞または他のタイプの癌細胞を起源とするリボ核酸フラグメントのことを指す。

「ゲノム核酸」、「ゲノムＤＮＡ」、または「ｇＤＮＡ」という語は、１つまたは複数の健康な細胞を起源とする、染色体ＤＮＡを含む核酸のことを指す。

「代替対立遺伝子」または「ＡＬＴ」という語は、例えば、知られた遺伝子に対応する、参照対立遺伝子に対して、１つまたは複数の変異を有する対立遺伝子のことを指す。

「シーケンシング深さ」または「深さ」という語は、与えられた位置、領域、または遺伝子座における、個人から獲得されたサンプルからのリードセグメントの総数のことを指す。いくつかの実施形態においては、深さは、ゲノムにわたる、またはターゲットシーケンシングパネルにわたる平均シーケンシング深さのことを指す。

「代替深さ」または「ＡＤ」という語は、ＡＬＴを支持する、例えば、ＡＬＴの変異を含む、サンプルにおけるリードセグメントの数のことを指す。

「参照深さ」という語は、候補バリアントロケーションにおける、参照対立遺伝子を含む、サンプル内のリードセグメントの数のことを指す。

「代替頻度」または「ＡＦ」という語は、与えられたＡＬＴの頻度のことを指す。ＡＦは、サンプルの対応するＡＤを、与えられたＡＬＴについてのサンプルの深さによって除算することによって、決定され得る。

「バリアント」または「真のバリアント」という語は、ゲノム内の位置における変異させられたヌクレオチド塩基のことを指す。そのようなバリアントは、個人における癌の発症および／または進行をもたらすことがある。

「エッジバリアント」という語は、シーケンスリードのエッジ付近、例えば、シーケンスリードのエッジからヌクレオチド塩基の閾値距離内に見つけられる、変異のことを指す。

「非エッジバリアント」という語は、例えば、本明細書において説明されるエッジバリアントフィルタリング方法を使用して、アーチファクトプロセスからもたらされたのではないと決定された、候補バリアントのことを指す。いくつかのシナリオにおいては、非エッジバリアントは、真のバリアント（例えば、ゲノムにおける変異）ではないことがあるが、それは、非エッジバリアントが、１つまたは複数のアーチファクトプロセスではない、異なる理由が原因で生じ得るからである。

ＩＩ．例示的なアッセイプロトコル
図１Ａは、一実施形態に従った、シーケンシングのために核酸サンプルを準備するための方法１００のフローチャートである。方法１００は、以下のステップを含むが、それらに限定されない。例えば、方法１００のいずれのステップも、当業者に知られた品質コントロールまたは他の実験室アッセイ手順のために、定量化サブステップを含み得る。

ステップ１１０において、複数の核酸分子（ＤＮＡまたはＲＮＡ）を含む試験サンプルが、被験者から獲得され、核酸が、試験サンプルから抽出され、および／または精製される。本開示においては、別段の指摘がない限り、ＤＮＡとＲＮＡは、交換可能に使用され得る。すなわち、バリアントコーリングおよび品質コントロールにおいてエラーソース情報を使用するための以下の実施形態は、ＤＮＡおよびＲＮＡタイプ両方の核酸配列に適用可能であり得る。しかしながら、明瞭化および説明の目的で、本明細書において説明される例は、ＤＮＡに焦点を絞り得る。抽出されたサンプル内の核酸は、全ヒトゲノム、または全エクソームを含むヒトゲノムの任意のサブセットを含み得る。あるいは、サンプルは、全トランスクリプトームを含むヒトトランスクリプトームの任意のサブセットであり得る。試験サンプルは、癌を有することが知られた、または癌を有することが疑われる被験者から獲得され得る。いくつかの実施形態においては、試験サンプルは、血液、血漿、血清、尿、糞便、唾液、他のタイプの体液、またはそれらの任意の組み合わせを含み得る。あるいは、試験サンプルは、全血、血液フラクション、組織生検材料、胸膜液、心膜液、脳脊髄液、および腹水から成る群から選択される、サンプルを含み得る。いくつかの実施形態においては、血液サンプルを採取するための方法（例えば、注射器またはフィンガプリック）は、手術を必要とすることがある、組織生検材料を獲得するための手順ほどは、侵襲的でないものであり得る。抽出されたサンプルは、ｃｆＤＮＡおよび／またはｃｔＤＮＡを含み得る。健康な個人の場合、人間の体は、ｃｆＤＮＡおよび他の細胞残屑を自然に取り除き得る。一般に、当技術分野において知られた任意の方法が、試験サンプルから無細胞核酸を抽出し、精製するために、使用されることができる。例えば、無細胞核酸は、ＱＩＡａｍｐ循環核酸キット（ＱＩＡＧＥＮ（登録商標））などの、１つまたは複数の知られた市販のプロトコルまたはキットを使用して、抽出および精製されることができる。被験者が、癌または疾病を有する場合、抽出されたサンプル内のｃｔＤＮＡが、診断のために検出可能なレベルで存在し得る。

ステップ１２０において、シーケンシングライブラリが、準備される。ライブラリ準備中、固有分子識別子（ＵＭＩ）を含むシーケンシングアダプタが、例えば、（Ｔ４もしくはＴ７ＤＮＡ連結酵素を使用する）アダプタライゲーション、または当技術分野において知られた他の手段を通して、核酸分子（例えば、ＤＮＡ分子）に追加される。ＵＭＩは、ＤＮＡフラグメントの末端に追加される短い核酸配列（例えば４～１０個の塩基対）であり、特定のＤＮＡフラグメントを起源とする核酸（またはシーケンスリード）を同定するために使用されることができるユニークなタグとしての役割を果たす。アダプタ追加に続いて、アダプタ－核酸構築物が、例えば、ポリメラーゼ連鎖反応（ＰＣＲ）を使用して増幅される。ＰＣＲ増幅中、ＵＭＩは、付着させられたＤＮＡフラグメントとともに複製され、それは、下流の分析において、同じ元のフラグメントから来たシーケンスリードを同定するための方法を提供する。任意選択で、当技術分野においてよく知られているように、シーケンシングアダプタは、ユニバーサルプライマ、（多重化のための）サンプル特異的バーコード、ならびに／または後続のクラスタ生成および／もしくはシーケンシングにおいて使用するための１つもしくは複数のシーケンシングオリゴヌクレオチド（例えば、合成によるシーケンシング（ＳＢＳ）（ＩＬＬＵＭＩＮＡ（登録商標）、カリフォルニア州、サンディエゴ）において使用するための知られたＰ５およびＰ７配列）をさらに含み得る。

ステップ１３０において、標的ＤＮＡ配列が、ライブラリから濃縮される。一実施形態に従うと、標的濃縮中、癌（もしくは疾病）の存在もしくは非存在、癌ステータス、または癌分類（例えば、癌タイプもしくは原発組織）についての情報を提供することが知られた、または情報を提供し得る、核酸フラグメントを標的にし、プルダウンするために、（本明細書においては「プローブ」とも呼ばれる）ハイブリダイゼーションプローブが、使用される。与えられたワークフローについて、ＤＮＡまたはＲＮＡの標的（相補）鎖に対するアニール（またはハイブリダイゼーション）を行うために、プローブが、設計され得る。標的鎖は、「プラス」鎖（例えば、ｍＲＮＡに転写され、その後、タンパク質に翻訳される鎖）、または相補「マイナス」鎖であり得る。プローブは、塩基対数十個、数百個、または数千個の長さにわたり得る。一実施形態においては、プローブは、ある種の癌または他のタイプの疾病に対応することが疑われる、（例えば、人間または別の生命体の）ゲノムの特定の変異または標的領域を分析するために、遺伝子パネルに基づいて、設計される。さらに、プローブは、標的領域のオーバラップした部分をカバーし得る。当業者が容易に理解するように、当技術分野において知られた任意の手段が、標的濃縮のために使用されることができる。例えば、一実施形態においては、プローブは、プローブ捕捉された標的核酸に対する濃縮を行うために使用される、ビオチン化およびストレプトアビジンコーティングされた磁気ビーズであり得る。例えば、非特許文献１および非特許文献２を参照されたい。全ゲノムをシーケンシングすること（「全ゲノムシーケンシング」）、ゲノムのすべての発現遺伝子をシーケンシングすること（「全エクソームシーケンシング」または「全トランスクリプトームシーケンシング」）の代わりに、標的遺伝子パネルを使用することによって、方法１００が、標的領域のシーケンシング深さを増やすために、使用され得、深さとは、サンプル内の与えられた標的配列がシーケンシングされた回数のカウントのことを指す。シーケンシング深さを増やすことは、サンプル内のまれな配列バリアントの検出を可能にし、および／またはシーケンシングプロセスのスループットを高める。ハイブリダイゼーションステップの後、ハイブリダイゼーションされた核酸フラグメントが、捕捉され、ＰＣＲを使用して増幅もされ得る。

図１Ｂは、一実施形態に従った、シーケンスリードを獲得するためのプロセスのグラフィカル表現である。図１Ｂは、サンプルからの核酸セグメント１６０の一例を示している。ここでは、核酸セグメント１６０は、一本鎖ＤＮＡまたは一本鎖ＲＮＡセグメントなどの、一本鎖核酸セグメントであることができる。いくつかの実施形態においては、核酸セグメント１６０は、二本鎖ｃｆＤＮＡセグメントである。例示された例は、異なるプローブによって標的にされることができる、核酸セグメント１６０の３つの領域１６５Ａ、１６５Ｂ、１６５Ｃを示している。具体的には、３つの領域１６５Ａ、１６５Ｂ、１６５Ｃの各々は、核酸セグメント１６０におけるオーバラップする位置を含む。例示的なオーバラップする位置は、シトシン（「Ｃ」）ヌクレオチド塩基１６２として、図１Ｂに示されている。シトシンヌクレオチド塩基１６２は、領域１６５Ａの第１のエッジ付近、領域１６５Ｂの中央、および領域１６５Ｃの第２のエッジ付近において見つけられる。

いくつかの実施形態においては、プローブのうちの１つまたは複数（もしくはすべて）は、ある種の癌または他のタイプの疾病に対応することが疑われる、（例えば、人間または別の生命体の）ゲノムの特定の変異または標的領域を分析するために、遺伝子パネルに基づいて、設計される。「全エクソームシーケンシング」としても知られる、ゲノムのすべての発現遺伝子をシーケンシングすることの代わりに、標的遺伝子パネルを使用することによって、方法１００が、標的領域のシーケンシング深さを増やすために、使用され得、深さとは、サンプル内の与えられた標的配列がシーケンシングされた回数のカウントのことを指す。シーケンシング深さを増やすことは、核酸サンプルの必要とされる入力量を低減させる。

１つまたは複数のプローブを使用する、核酸サンプル１６０のハイブリダイゼーションは、標的配列１７０の理解をもたらす。図１Ｂに示されるように、標的配列１７０は、ハイブリダイゼーションプローブによって標的にされた領域１６５のヌクレオチド塩基配列である。標的配列１７０は、ハイブリダイゼーションされた核酸フラグメントと呼ばれることもある。例えば、標的配列１７０Ａは、第１のハイブリダイゼーションプローブによって標的にされた領域１６５Ａに対応し、標的配列１７０Ｂは、第２のハイブリダイゼーションプローブによって標的にされた領域１６５Ｂに対応し、標的配列１７０Ｃは、第３のハイブリダイゼーションプローブによって標的にされた領域１６５Ｃに対応する。シトシンヌクレオチド塩基１６２が、ハイブリダイゼーションプローブによって標的にされた各領域１６５Ａ～１６５Ｃ内の異なるロケーションにおいて見つけられると仮定すると、各標的配列１７０は、標的配列１７０における特定のロケーションにおいて、シトシンヌクレオチド塩基１６２に対応するヌクレオチド塩基を含む。

図１Ｂの例においては、標的配列１７０Ａおよび標的配列１７０Ｃは、各々、標的配列１７０Ａ、１７０Ｃのエッジ付近に見つけられる、（チミン「Ｔ」として示された）ヌクレオチド塩基を有する。ここでは、（例えば、シトシン塩基ではなく）チミンヌクレオチド塩基が、シトシン塩基が、その後、シーケンシングプロセス中に、チミンヌクレオチド塩基として認識される原因となる、ランダムなシトシン脱アミノ化プロセスの結果であり得る。したがって、標的配列１７０Ａ、１７０ＣについてのＣ＞ＴＳＮＶは、変異が標的配列１７０Ａ、１７０Ｃのエッジにおいて見つけられるので、エッジバリアントと見なされ得る。シトシン脱アミノ化プロセスは、核酸セグメント１６０における実際のヌクレオチド塩基対の正確な捕捉を妨げる、下流のシーケンシングアーチファクトをもたらすことがある。加えて、標的配列１７０Ｂは、標的配列１７０Ｂの中央に見つけられる、シトシン塩基を有する。ここでは、中央に見つけられるシトシン塩基は、シトシン脱アミノ化の影響をあまり受けずにいられ得る。

ハイブリダイゼーションステップの後、ハイブリダイゼーションされた核酸フラグメントが、捕捉され、ＰＣＲを使用して増幅もされ得る。例えば、標的配列１７０は、濃縮された配列１８０を獲得するために、濃縮されることができ、それは、その後、シーケンシングされることができる。いくつかの実施形態においては、各濃縮された配列１８０は、標的配列１７０から複製される。標的配列１７０Ａ、１７０Ｃからそれぞれ増幅された、濃縮された配列１８０Ａ、１８０Ｃも、各シーケンスリード１８０Ａまたは１８０Ｃのエッジ付近に見つけられる、チミンヌクレオチド塩基を含む。以降本明細書において使用される場合、参照対立遺伝子（例えば、シトシンヌクレオチド塩基１６２）に対して変異させられた、濃縮された配列１８０における変異させられたヌクレオチド塩基（例えば、チミンヌクレオチド塩基）は、代替対立遺伝子と見なされる。加えて、標的配列１７０Ｂから増幅された各濃縮された配列１８０Ｂは、各濃縮された配列１８０Ｂの中央付近または中央に見つけられる、シトシンヌクレオチド塩基を含む。

ステップ１４０において、シーケンスリードが、濃縮された核酸分子（例えば、ＤＮＡ分子）から生成される。シーケンシングデータまたはシーケンスリードは、当技術分野において知られた手段によって、濃縮された核酸分子から獲得され得る。例えば、方法１００は、合成技術（ＩＬＬＵＭＩＮＡ（登録商標））、パイロシーケンシング（４５４ＬＩＦＥＳＣＩＥＮＣＥＳ）、イオン半導体技術（ＩｏｎＴｏｒｒｅｎｔｓｅｑｕｅｎｃｉｎｇ）、単一分子リアルタイムシーケンシング（ＰＡＣＩＦＩＣＢＩＯＳＣＩＥＮＣＥＳ（登録商標））、ライゲーションによるシーケンシング（ＳＯＬｉＤｓｅｑｕｅｎｃｉｎｇ）、ナノポアシーケンシング（ＯＸＦＯＲＤＮＡＮＯＰＯＲＥＴＥＣＨＮＯＬＯＧＩＥＳ）、またはペアードエンドシーケンシングを含む、次世代シーケンシング（ＮＧＳ）技法を含み得る。いくつかの実施形態においては、超並列シーケンシングが、リバーシブルダイターミネータを用いる、合成によるシーケンシングを使用して、実行される。

様々な実施形態においては、濃縮された核酸サンプル１１５が、シーケンシングのために、シーケンサ１４５に提供される。図１Ａに示されるように、シーケンサ１４５は、特定のタスクとのユーザ対話（例えば、シーケンシングの開始、またはシーケンシングの終了）を可能にする、グラフィカルユーザインターフェース１５０と、濃縮されたフラグメントサンプル、および／またはシーケンシングアッセイを実行するために必要なバッファを提供するための、１つまたは複数のローディングトレイ１５５とを含むことができる。したがって、ユーザがひとたび、必要な試薬および濃縮されたフラグメントサンプルを、シーケンサ１４５のローディングトレイ１５５に提供すると、ユーザは、シーケンサ１４５のグラフィカルユーザインターフェース１５０と対話することによって、シーケンシングを開始することができる。ステップ１４０において、シーケンサ１４５は、シーケンシングを実行し、核酸サンプルから濃縮されたフラグメント１１５のシーケンスリードを出力する。

いくつかの実施形態においては、シーケンサ１４５は、１つまたは複数のコンピューティングデバイス１６０と通信可能に結合される。各コンピューティングデバイス１６０は、バリアントコーリングまたは品質コントロールなど、様々な適用のために、シーケンスリードを処理することができる。シーケンサ１４５は、シーケンスリードを、ＢＡＭファイルフォーマットで、コンピューティングデバイス１６０に提供し得る。各コンピューティングデバイス１６０は、パーソナルコンピュータ（ＰＣ）、デスクトップコンピュータ、ラップトップコンピュータ、ノートブック、タブレットＰＣ、またはモバイルデバイスのうちの１つであり得る。コンピューティングデバイス１６０は、無線、有線、または無線および有線通信技術の組み合わせを通して、シーケンサ１４５に通信可能に結合されることができる。一般に、コンピューティングデバイス１６０は、プロセッサと、プロセッサによって実行されたときに、プロセッサにシーケンスリードを処理させ、または本明細書において開示される方法もしくはプロセスのいずれかの１つもしくは複数のステップを実行させるコンピュータ命令を記憶するメモリとを備えるように構成される。

いくつかの実施形態においては、シーケンスリードは、アライメント位置情報を決定するための、当技術分野において知られた方法を使用して、基準ゲノムに対してアライメントされ得る。例えば、一実施形態においては、シーケンスリードは、ヒト基準ゲノムｈｇ１９に対してアライメントされる。ヒト基準ゲノムｈｇ１９の配列は、リファレンス番号ＧＲＣｈ３７／ｈｇ１９を用いて、ゲノムリファレンスコンソーシアムから入手可能であり、サンタクルーズゲノミクスインスティテュート（ＳａｎｔａＣｒｕｚＧｅｎｏｍｉｃｓＩｎｓｔｉｔｕｔｅ）によって提供されるゲノムブラウザからも入手可能である。アライメント位置情報は、与えられたシーケンスリードの開始ヌクレオチド塩基と終了ヌクレオチド塩基に対応する、基準ゲノムにおける領域の開始位置と終了位置を示し得る。アライメント位置情報は、開始位置と終了位置から決定されることができる、シーケンスリード長も含み得る。基準ゲノムにおける領域は、遺伝子または遺伝子のセグメントと関連付けられ得る。

様々な実施形態においては、例えば、ペアードエンドシーケンシングプロセスが、使用されるとき、シーケンスリードは、Ｒ₁およびＲ₂と表記されるリード対から構成される。例えば、第１のリードＲ₁は、二重鎖ＤＮＡ（ｄｓＤＮＡ）分子の第１の末端からシーケンシングされ得、一方、第２のリードＲ₂は、二重鎖ＤＮＡ（ｄｓＤＮＡ）の第２の末端からシーケンシングされ得る。したがって、第１のリードＲ₁および第２のリードＲ₂のヌクレオチド塩基対は、基準ゲノムのヌクレオチド塩基と（例えば、反対向きに）整合するようにアライメントされ得る。リード対Ｒ₁およびＲ₂から導出されたアライメント位置情報は、第１のリード（例えば、Ｒ₁）の末端に対応する、基準ゲノムにおける開始位置と、第２のリード（例えば、Ｒ₂）の末端に対応する、基準ゲノムにおける終了位置とを含み得る。言い換えると、基準ゲノムにおける開始位置と終了位置は、基準ゲノム内における核酸フラグメントが対応する可能性が高いロケーションを表す。ＳＡＭ（配列アライメントマップ）フォーマットまたはＢＡＭ（バイナリ）フォーマットを有する出力ファイルが、図２に関して以下で説明されるように、バリアントコーリングなど、さらなる分析のために、生成および出力され得る。

ＩＩＩ．例示的な処理システム
図２は、一実施形態に従った、シーケンスリードを処理するための処理システム２００のブロック図である。処理システム２００は、配列プロセッサ２０５と、配列データベース２１０と、モデルデータベース２１５と、機械学習エンジン２２０と、（例えば、「ベイズ階層モデル」または「予測癌モデル」を含む）モデル２２５と、パラメータデータベース２３０と、スコアエンジン２３５と、バリアントコーラ２４０と、エッジフィルタ２５０と、非同義フィルタ２６０とを含む。図３は、一実施形態に従った、シーケンスリードのバリアントを決定するための方法３００のフローチャートである。いくつかの実施形態においては、処理システム２００は、入力シーケンシングデータに基づいて、（例えば、ＳＮＶおよび／またはインデルに対する）バリアントコーリングを実行するために、方法３００を実行する。さらに、処理システム２００は、上で説明された方法１００を使用して準備された核酸サンプルと関連付けられた出力ファイルから、入力シーケンシングデータを獲得し得る。方法３００は、処理システム２００のコンポーネントに関して説明される、以下のステップを含むが、それらに限定されない。他の実施形態においては、方法３００の１つまたは複数のステップは、例えば、ＨａｐｌｏｔｙｐｅＣａｌｌｅｒ、ＶａｒＳｃａｎ、Ｓｔｒｅｌｋａ、またはＳｏｍａｔｉｃＳｎｉｐｅｒなど、バリアントコールフォーマット（ＶＣＦ）を使用する、バリアントコールを生成するための異なるプロセスのステップによって、置き換えられ得る。

ステップ３００において、任意選択で、配列プロセッサ２０５は、入力シーケンシングデータのアライメントされたシーケンスリードをコラプスする。一実施形態においては、シーケンスリードをコラプスすることは、ＵＭＩ、および任意選択で、出力ファイルのシーケンシングデータからの（例えば、図１Ａに示された方法１００からの）アライメント位置情報を使用して、複数のシーケンスリード（すなわち、同じ元の核酸分子に由来する複数のシーケンスリード）を同定し、コンセンサス配列にコラプスすることを含む。このステップに従うと、コンセンサス配列は、元の分子の最も可能性が高い核酸配列またはそれの部分を表す、同じ元の核酸分子に由来する複数のシーケンスリードから決定される。ＵＭＩ配列は、シーケンシングライブラリのＰＣＲ増幅を通して複製されるので、配列プロセッサ２０５は、あるシーケンスリードが、核酸サンプルにおける同じ分子を起源とすると決定することができる。いくつかの実施形態においては、同じまたは類似のアライメント位置情報（例えば、閾値オフセット内の開始および終了位置）を有し、共通のＵＭＩを含む、シーケンスリードは、コラプスされ、配列プロセッサ２０５は、核酸フラグメントを表すために、（本明細書においては、コンセンサスリードとも呼ばれる）コラプスされたリードを生成する。いくつかの実施形態においては、配列プロセッサ２０５は、シーケンスリードの対応する対（すなわち、Ｒ₁とＲ₂）、またはコラプスされたシーケンスリードが、起源の核酸分子のプラス鎖とマイナス鎖の両方が捕捉されたことを示す、共通のＵＭＩを有する場合、コンセンサスリードを「二重」と指定し、それ以外の場合、コラプスされたリードは、「非二重」と指定される。いくつかの実施形態においては、配列プロセッサ２０５は、シーケンスリードをコラプスする代わりに、またはコラプスするのに加えて、他のタイプのエラー訂正をシーケンスリードに対して実行し得る。

ステップ３０５において、任意選択で、配列プロセッサ２０５は、対応するアライメント位置情報に基づいて、シーケンスリードまたはコラプスされたシーケンスリードをつなぎ合わせて、２つのシーケンスリードを一緒にして単一のリードセグメントにマージし得る。いくつかの実施形態においては、配列プロセッサ２０５は、第１のシーケンスリードと第２のシーケンスリード（またはコラプスされたシーケンスリード）の間で、アライメント位置情報を比較して、第１のリードおよび第２のリードのヌクレオチド塩基対が、基準ゲノムにおいて部分的にオーバラップするかどうかを決定する。１つの使用事例においては、第１のリードおよび第２のリードの間の（例えば、与えられた数のヌクレオチド塩基の）オーバラップが、閾値長（例えば、ヌクレオチド塩基の閾値数）よりも大きいと決定したのに応答して、配列プロセッサ２０５は、第１のリードおよび第２のリードを「つなぎ合わされる」として指定し、それ以外の場合、コラプスされたリードは、「つなぎ合わされない」として指定される。いくつかの実施形態においては、オーバラップが閾値長よりも大きい場合、およびオーバラップがスライドするオーバラップでない場合、第１のリードおよび第２のリードは、つなぎ合わされる。例えば、スライドするオーバラップは、ホモポリマラン（例えば、単一反復するヌクレオチド塩基）、ジヌクレオチドラン（例えば、２つのヌクレオチドが反復する塩基配列）、またはトリヌクレオチドラン（例えば、３つのヌクレオチドが反復する塩基配列）を含み得、ホモポリマラン、ジヌクレオチドラン、またはトリヌクレオチドランは、少なくとも閾値長の塩基対を有する。

ステップ３１０において、配列プロセッサ２０５は、任意選択で、２つ以上のリード、またはリードセグメントをアセンブルして、マージされたシーケンスリード（または標的領域をカバーするパス）にし得る。いくつかの実施形態においては、配列プロセッサ２０５は、リードをアセンブルして、標的領域（例えば、遺伝子）についての有向グラフ、例えば、ドブラン（ｄｅＢｒｕｉｊｎ）グラフを生成する。有向グラフの一方向エッジは、標的領域における（本明細書において「ｋ－ｍｅｒ」とも呼ばれる）ｋ個のヌクレオチド塩基からなる配列を表し、エッジは、頂点（またはノード）によって接続される。配列プロセッサ２０５は、コラプスされたリードのいずれもが、エッジと対応する頂点とのサブセットによって順番に表され得るように、コラプスされたリードを有向グラフにアライメントする。

いくつかの実施形態においては、配列プロセッサ２０５は、有向グラフを記述するパラメータのセットを決定し、有向グラフを処理する。加えて、パラメータのセットは、コラプスされたリードから有向グラフ内のノードまたはエッジによって表されるｋ－ｍｅｒへのアライメントに成功したｋ－ｍｅｒのカウントを含み得る。配列プロセッサ２０５は、例えば、配列データベース２１０内に、有向グラフ、および対応するパラメータのセットを記憶し、それらは、グラフを更新するために、または新しいグラフを生成するために取り出され得る。例えば、配列プロセッサ２０５は、パラメータのセットに基づいて、有向グラフの圧縮されたバージョンを生成し得る（または、例えば、既存のグラフを変更し得る）。１つの使用事例においては、より低いレベルの重要さを有する、有向グラフのデータをふるい落とすために、配列プロセッサ２０５は、閾値よりも小さいカウントを有するノードまたはエッジを削除し（例えば、「切り取り」または「刈り取り」）、閾値以上のカウントを有するノードまたはエッジを維持する。

ステップ３１５において、バリアントコーラ２４０は、シーケンスリード、コラプスされたシーケンスリード、または配列プロセッサ２０５によってアセンブルされたマージされたシーケンスリードから、候補バリアントを生成する。一実施形態においては、バリアントコーラ２４０は、シーケンスリード、コラプスされたシーケンスリード、または（ステップ３１０においてエッジまたはノードを刈り取ることによって圧縮されていることがある）マージされたシーケンスリードを、基準ゲノム（例えば、ヒト基準ゲノムｈｇ１９）の標的領域の参照配列と比較することによって、候補バリアントを生成する。バリアントコーラ２４０は、シーケンスリード、コラプスされたシーケンスリード、またはマージされたシーケンスリードのエッジを、参照配列にアライメントし得、一致しないエッジおよびエッジに隣接する一致しないヌクレオチド塩基のゲノム位置を、候補バリアントのロケーションとして記録する。いくつかの実施形態においては、左および右エッジに一致しないヌクレオチド塩基のゲノム位置が、コールされたバリアントのロケーションとして記録される。加えて、バリアントコーラ２４０は、標的領域のシーケンシング深さに基づいて、候補バリアントを生成し得る。特に、バリアントコーラ２４０は、より大きいシーケンシング深さを有する標的領域におけるバリアントを同定する際に、より確信的になり得るが、それは、例えば、より多数のシーケンスリードは、配列間におけるミスマッチまたは他の塩基対変化を（例えば、冗長さを使用して）解決する助けとなるからである。

一実施形態においては、バリアントコーラ２４０は、被験者（例えば、健康な被験者）からのシーケンスリードについての予想されるノイズレートを決定するために、モデル２２５を使用して、候補バリアントを生成する。モデル２２５は、ベイズ階層モデルであり得るが、いくつかの実施形態においては、処理システム２００は、１つまたは複数の異なるタイプのモデルを使用する。さらに、ベイズ階層モデルは、候補バリアントを生成するために使用され得る、多くの可能なモデルアーキテクチャのうちの１つであり得、バリアントコーリングの感度または特異度を改善するために、それらすべてが位置特異的ノイズ情報をモデル化するという点で、それらは互いに関連する。より具体的には、機械学習エンジン２２０は、シーケンスリードの位置ごとの予想されるノイズレートをモデル化するために、健康な個人からのサンプルを使用して、モデル２２５をトレーニングする。

さらに、複数の異なるモデルが、モデルデータベース２１５内に記憶され、またはトレーニング後の適用のために取り出され得る。例えば、第１のモデルは、ＳＮＶノイズレートをモデル化するために、トレーニングされ、第２のモデルは、インデルノイズレートをモデル化するために、トレーニングされる。さらに、スコアエンジン２３５は、モデル２２５のパラメータを使用して、シーケンスリードにおける１つまたは複数の真陽性の尤度を決定し得る。スコアエンジン２３５は、尤度に基づいて、（例えば、対数目盛り上の）品質スコアを決定し得る。例えば、品質スコアは、フレッド品質スコアＱ＝－１０×ｌｏｇ₁₀Ｐであり、ここで、Ｐは、不正確な候補バリアントコール（例えば、偽陽性）の尤度である。

ステップ３２０において、スコアエンジン２３５は、モデル２２５、または真陽性もしくは品質スコアの対応する尤度に基づいて、候補バリアントを得点化する。モデル２２５のトレーニングおよび適用は、以下でより詳細に説明される。いくつかの実施形態においては、処理システム２００は、１つまたは複数の基準を使用して、候補バリアントをふるい分け得る。例えば、処理システム２００は、少なくとも閾値スコアを有する（またはそれよりも小さい）候補バリアントをふるい分ける。

ステップ３２５において、処理システム２００は、候補バリアントを出力する。いくつかの実施形態においては、処理システム２００は、決定された候補バリアントのいくつかまたはすべてを、対応するスコアとともに出力する。例えば、処理システム２００の外部の下流のシステム、または処理システム２００の他のコンポーネントは、癌、疾病、または生殖細胞系列変異の存在を予測することを含むが、それに限定されない、様々な適用のために、候補バリアントおよびスコアを使用し得る。

図１～図３は、シーケンシングリードデータを生成し、候補バリアントまたはまれな変異コールを同定するための可能な実施形態を例示している。しかしながら、当業者が容易に理解するように、シーケンスリードまたはコンセンサス配列リードなどのシーケンシングデータを獲得し、それらから候補バリアントまたはまれな変異コールを同定するための、当技術分野において知られた他の手段が、本発明の実施形態の実施において使用されることができる（例えば、特許文献１、特許文献２、特許文献３、および特許文献４を参照）。

ＩＶ．例示的なノイズモデル
図４は、一実施形態に従った、ベイズ階層モデル２２５の適用の図である。変異Ａおよび変異Ｂが、説明の目的で、例として示されている。図４の実施形態においては、変異ＡおよびＢは、ＳＮＶとして表されているが、他の実施形態においては、以下の説明は、インデルまたは他のタイプの変異にも適用可能である。変異Ａは、第１のサンプルからの第１の参照対立遺伝子の位置４における、Ｃ＞Ｔ変異である。第１のサンプルは、１０の第１のＡＤと、１０００の第１の合計深さとを有する。変異Ｂは、第２のサンプルからの第２の参照対立遺伝子の位置３における、Ｔ＞Ｇ変異である。第２のサンプルは、１の第２のＡＤと、１２００の第２の合計深さとを有する。ＡＤ（またはＡＦ）だけに基づくと、変異Ａは、真陽性であるように思われ得、一方、変異Ｂは、偽陽性であるように思われ得るが、それは、前者のＡＤ（またはＡＦ）が、後者のそれよりも大きいからである。しかしながら、変異Ａと変異Ｂは、対立遺伝子ごと、および／または対立遺伝子の位置ごとに、ノイズレートの異なる相対レベルを有し得る。実際には、これら異なる位置の相対ノイズレベルが、ひとたび考慮されると、変異Ａが、偽陽性であることがあり、変異Ｂが、真陽性であることがある。本明細書において説明されるモデル２２５は、真陽性の適切な識別のために、このノイズをしかるべくモデル化する。

図４に例示された確率質量関数（ＰＭＦ）は、被験者からのサンプルが位置において与えられたＡＤカウントを有する確率（または尤度）を示す。（例えば、配列データベース２１０に記憶された）健康な個人のサンプルからのシーケンシングデータを使用して、処理システム２００は、健康なサンプルについてのＰＭＦがそれから導出され得る、モデル２２５をトレーニングする。特に、ＰＭＦは、（例えば、健康な個人の）正常組織における、対立遺伝子ごと、位置ごとの予想される平均ＡＤカウントをモデル化した、ｍ_pと、このＡＤカウントにおける予想される変動（例えば、分散）をモデル化した、ｒ_pとに基づく。言い換えると、ｍ_pおよび／またはｒ_pは、正常組織についてのシーケンシングデータにおける、位置ごと、対立遺伝子ごとベースのノイズの基線レベルを表す。

さらなる例示のために図４の例を使用すると、健康な個人からのサンプルは、ｙ_iによってモデル化される人間母集団のサブセットを表し、ここで、ｉは、トレーニングセットにおける健康な個人のインデックスである。例のために、モデル２２５がすでにトレーニングされていると仮定すると、モデル２２５によって生成されたＰＭＦは、各変異についての測定されたＡＤの尤度を視覚的に例示し、したがって、どれが真陽性であり、どれが偽陽性であるかの表示を提供する。変異Ａと関連付けられた図４の左の例示的なＰＭＦは、位置４における変異について、１０のＡＤカウントを有する第１のサンプルの確率が、近似的に２０％であることを示している。加えて、変異Ｂと関連付けられた右の例示的なＰＭＦは、位置３における変異について、１のＡＤカウントを有する第２のサンプルの確率が、近似的に１％であることを示している（注：図４のＰＭＦは、必ずしも正確に目盛られていない）。したがって、ＰＭＦのこれらの確率に対応するノイズレートは、変異Ｂはより低いＡＤおよびＡＦを有するにもかかわらず、変異Ａが、変異Ｂよりも発生する可能性が高いことを示している。したがって、この例においては、変異Ｂが、真陽性であり得、変異Ａが、偽陽性であり得る。したがって、処理システム２００は、より正確なレートで真陽性を偽陽性から区別し、これらの尤度に関する数値的な信頼度をさらに提供するための、モデル２２５を使用することによって、改善されたバリアントコーリングを実行し得る。

図５Ａは、一実施形態に従った、真の単一ヌクレオチドバリアントを決定するための、パラメータとベイズ階層モデル２２５のサブモデルとの間の依存関係を示している。モデルのパラメータは、パラメータデータベース２３０に記憶され得る。図５Ａに示される例においては、

は、各混合成分に割り当てられる重みのベクトルを表す。ベクトル

は、Ｋ次元の単体内の値を取り、トレーニング中に、事後サンプリングを介して、学習または更新され得る。それは、そのようなトレーニングのために、単体上において一様事前分布を与えられ得る。位置ｐが属する混合成分は、１つまたは複数の異なる多項分布を使用して、潜在的変数ｚ_pによってモデル化され得る。

一緒になって、潜在的変数ｚ_p、混合成分からなるベクトル

、α、およびβは、μのためのモデル、すなわち、ベイズ階層モデル２２５のサブモデルが、ノイズについての知識を「プールする」パラメータを有することを可能にし、すなわち、それらは、複数の位置にわたるノイズ特性の類似性を表す。したがって、シーケンスリードの位置は、モデルによって、プールされ、または潜在的クラスにグループ化され得る。また、有利なことに、これらの「プールされた」位置のいずれについてのサンプルも、これらの共有されるパラメータをトレーニングする助けとなることができる。これの利益は、（例えば、モデルをトレーニングするために使用された健康な組織サンプルにおいて）与えられた位置について以前に観測された、代替対立遺伝子の直接的な証拠が僅かしかない、またはまったくない場合であっても、処理システム２００が、健康なサンプルにおけるノイズのモデルを決定し得ることである。

共変量ｘ_p（例えば、プレディクタ）は、トリヌクレオチドコンテキスト、マッピング可能性、セグメント重複、反復に最も近い距離、ユニーク性、ｋ－ｍｅｒユニーク性、配列の行儀の悪い領域についての警告、またはシーケンスリードと関連付けられた他の情報などの情報を含み得るが、それらに限定されない、位置ｐに関する知られたコンテキスト情報を符号化する。トリヌクレオチドコンテキストは、参照対立遺伝子に基づき得、数値（例えば、整数）表現を割り当てられ得る。例えば、「ＡＡＡ」は、１を割り当てられ、「ＡＣＡ」は、２を割り当てられ、「ＡＧＡ」は、３を割り当てられるなどである。マッピング可能性は、ゲノムの特定の標的領域に対するリードのアライメントのユニーク性のレベルを表す。例えば、マッピング可能性は、シーケンスリードがユニークにマッピングする位置の数の逆数として計算される。セグメント重複は、ほぼ同一（例えば、９０％よりも大きい一致）であり、（例えば、癌または疾病と関連付けられない）自然な複製イベントの結果として、ゲノム内の複数のロケーションにおいて発生する、（例えば、近似的に１０００個の塩基対よりも大きい長さを有する）長い核酸配列に対応する。

位置ｐにおけるＳＮＶの予想される平均ＡＤカウントは、パラメータμ_pによってモデル化される。この説明を明瞭にするため、μ_pおよびｙ_pという語は、ベイズ階層モデル２２５の位置特異的なサブモデルのことを指す。一実施形態においては、μ_pは、形状パラメータ

および平均パラメータ

を有する、ガンマ分布に従う確率変数としてモデル化される。

他の実施形態においては、他の関数が、μ_pを表すために、使用され得、それの例は、対数平均

および対数標準偏差

を有する対数正規分布、ワイブル分布、べき法則、指数関数的に変調されたべき法則、または前述したものの混合を含むが、それらに限定されない。

図５Ａに示される例においては、形状パラメータおよび平均パラメータは、各々、共変量ｘ_pおよび潜在的変数ｚ_pに依存するが、他の実施形態においては、依存関係は、トレーニング中の情報プーリングの様々な程度に基づいて、異なり得る。例えば、モデルは、代替的に、

が、潜在的変数に依存するが、共変量には依存しないように、構造化され得る。（健康な個人の）人間母集団サンプルｉにおける、位置ｐにおけるＳＮＶのＡＤカウントの分布は、確率変数

によってモデル化される。一実施形態においては、位置におけるサンプルの深さ

を与えられた場合、分布は、ポアソン分布である。

他の実施形態においては、他の関数が、

を表すために、使用され得、それの例は、負の２項分布、コンウェイ－マクスウェル－ポアソン分布、ゼータ分布、およびゼロ過剰ポアソン分布を含むが、それらに限定されない。

図５Ｂは、一実施形態に従った、真の挿入または欠失を決定するための、パラメータとベイズ階層モデルのサブモデルとの間の依存関係を示している。図５Ａに示されたＳＮＶモデルとは対照的に、図５Ｂに示されたインデルについてのモデルは、異なるレベルの階層を含む。共変量ｘ_pは、位置ｐにおける知られたフィーチャを符号化し、例えば、ホモポリマまでの距離、ＲｅｐｅａｔＭａｓｋｅｒ反復までの距離、または以前観測されたシーケンスリードと関連付けられた他の情報を含み得る。潜在的変数

は、位置におけるインデル長分布を表し、共変量に基づき得る、ベクトル

のパラメータに基づいて、ディリクレ分布によって、モデル化され得る。いくつかの実施形態においては、

も、同じ共変量値を共有する、位置

にわたって共有される。したがって、例えば、潜在的変数は、ホモポリマインデルは、アンカ位置から塩基対１つ、２つ、３つなどの位置において発生し、一方、トリヌクレオチドインデルは、アンカ位置から３つ、６つ、９つなどの位置において発生するなどといった情報を表し得る。

位置ｐにおける予想される平均合計インデルカウントは、分布μ_pによってモデル化される。いくつかの実施形態においては、分布は、共変量に基づき、形状パラメータ

および平均パラメータ

を有する、ガンマ分布を有する。

他の実施形態においては、他の関数が、μ_pを表すために、使用され得、それの例は、負の２項分布、コンウェイ－マクスウェル－ポアソン分布、ゼータ分布、およびゼロ過剰ポアソン分布を含むが、それらに限定されない。

（健康な個人の）人間母集団サンプルｉにおける、位置ｐにおける観測されるインデルは、分布

によってモデル化される。図５Ａにおける例と同様に、いくつかの実施形態においては、位置におけるサンプルの深さ

を与えられた場合、インデルの激しさの分布は、ポアソン分布である。

他の実施形態においては、他の関数が、

インデルは可変長であり得るという事実のせいで、ＳＮＶについてのモデルには存在しない追加の長さパラメータが、インデルモデルには存在する。結果として、図５Ｂに示される例示的なモデルは、上で説明されたＳＮＶモデルにはやはり存在しない、追加の階層レベル（例えば、別のサブモデル）を有する。サンプルｉ内の位置ｐにおける長さｌのインデルの観測されたカウント（例えば、最大で１００以上の塩基対の挿入または欠失）は、パラメータ次第のノイズ下におけるインデル分布を表す、確率変数

によってモデル化される。サンプルのインデルの激しさ

と、位置におけるインデル長の分布

を与えられた場合、分布は、多項分布であり得る。

他の実施形態においては、ディリクレ－多項式関数、または他のタイプのモデルが、

を表すために、使用され得る。

この方式でモデルを構築することによって、機械学習エンジン２２０は、インデルの激しさ（すなわち、ノイズレート）の学習を、インデル長分布の学習から切り離し得る。健康なサンプルにおけるインデルが発生するかどうかの予想についての推論と、位置におけるインデルの長さの予想についての推論を独立に決定することは、モデルの感度を改善し得る。例えば、長さ分布は、ゲノム内の多数の位置または領域におけるインデルの激しさと比べて、より安定的であり得、またはその反対であり得る。

図６Ａ～図６Ｂは、一実施形態に従った、ベイズ階層モデル２２５と関連付けられた図を例示している。図６Ａに示されるグラフは、ノイズレートの分布μ_p、すなわち、モデルによって特徴付けられるような、与えられた位置についてのＳＮＶまたはインデルの尤度（または激しさ）を示している。連続的分布は、（例えば、配列データベース２１０から取り出された）健康な個人からの観測された健康なサンプルのトレーニングデータに基づいた、非癌または非疾病変異（例えば、健康な組織において自然に発生する変異）の予想されるＡＦ μ_pを表す。図６Ａには示されていないが、いくつかの実施形態においては、μ_pの形状パラメータおよび平均パラメータは、共変量ｘ_pまたは潜在的変数ｚ_pなどの、他の変数に基づき得る。図６Ｂに示されるグラフは、与えられた位置におけるシーケンシング深さｄ_pなどのサンプルのパラメータを与えられた場合の、被験者のサンプルについての与えられた位置におけるＡＤの分布を示している。μ_pの取得の離散的確率は、予想される平均分布μ_pに基づいた、人間母集団の予測される真の平均ＡＤカウントに基づいて、決定される。

図７Ａは、一実施形態に従った、ベイズ階層モデル２２５をフィッティングすることによってパラメータを決定するための、例示的なプロセスの図である。モデルをトレーニングするために、機械学習エンジン２２０は、位置のセットの各位置についての予想されるノイズレートの事後分布（例えば、図６Ｂに示されるグラフ）から、反復的にサンプリングする。機械学習エンジン２２０は、サンプリングのために、マルコフ連鎖モンテカルロ（ＭＣＭＣ）法を、例えば、サンプリングアルゴリズムの中でもとりわけ、メトロポリス－ヘイスティングス（ＭＨ）アルゴリズム、カスタムＭＨアルゴリズム、ギブスサンプリングアルゴリズム、ハミルトニアン力学ベースのサンプリング、ランダムサンプリングを使用し得る。ベイズ推論トレーニング中、モデルのすべての（またはいくつかの）パラメータおよび潜在的変数（例えば、

、ｚ_p、

、

、μ_pなど）を反復的に更新するために、パラメータが、結合事後分布から取得される。

一実施形態においては、機械学習エンジン２２０は、μ_pの取得、位置ごと、サンプルごとのＡＦの予想される平均カウントを、パラメータデータベース２３０に記憶することによって、モデルフィッティングを実行する。モデルは、先に説明されたように、事後サンプリングを通して、トレーニングまたはフィッティングされる。一実施形態においては、μ_pの取得は、サンプリングされた位置のセットのうちの位置別の行と、（例えば、観測されたデータ次第のすべてのパラメータの）結合事後分布からの取得別の列と有する、行列データ構造内に記憶される。行の数Ｒは、６００万よりも大きくなり得、サンプルのＮ回の反復に対する列の数は、数千になり得る。他の実施形態においては、行および列の指定は、図７Ａに示される実施形態とは異なり、例えば、各行は、事後サンプルからの取得を表し、各列は、サンプリングされた位置を表す（例えば、図７Ａに示される行列例の転置）。

図７Ｂは、一実施形態に従った、ベイズ階層モデル２２５からのパラメータを使用して、偽陽性の尤度を決定する図である。機械学習エンジン２２０は、図７Ａに示されるＲ行Ｎ列の行列を、図７Ｂに例示されるＲ行２列の行列に縮小し得る。一実施形態においては、機械学習エンジン２２０は、事後サンプルμ_pにわたって、位置ごとに、分散パラメータｒ_p（例えば、形状パラメータ）、および（平均レートパラメータｍ_pと呼ばれることもある）平均パラメータｍ_pを決定する。分散パラメータｒ_pは、

として決定され得、ここで、ｍ_pおよびｖ_pは、それぞれ、位置におけるμ_pのサンプリングされた値の平均および分散である。最尤推定など、ｒ_pを決定するための他の関数も使用され得ることを、当業者は理解されよう。

機械学習エンジン２２０は、平均パラメータを与えられた場合、縮小された行列において、分散パラメータの分散再推定も実行し得る。一実施形態においては、ベイズトレーニングおよび事後近似に続いて、機械学習エンジン２２０は、位置ごとの負の２項分布最尤推定量に基づいた、分散パラメータ

のための再トレーニングによって、分散再推定を実行する。平均パラメータは、再トレーニング中、固定されたままであり得る。一実施形態においては、機械学習エンジン２２０は、トレーニングデータ（例えば、健康なサンプルに基づいた

および

）の元のＡＤカウントについての、各位置における分散パラメータｒ’_pを決定する。機械学習エンジン２２０は、

を決定し、

を縮小された行列に記憶する。モーメント法推定量、事後平均、または事後最頻値など、

を決定するための他の関数も使用され得ることを、当業者は理解されよう。

トレーニングされたモデルの適用中、処理システム２００は、

およびｍ_pによってパラメータ化された関数を決定するために、分散（例えば、形状）パラメータ

および平均パラメータｍ_pにアクセスし得る。関数は、被験者の新しいサンプルについて、事後予測確率質量関数（または確率密度関数）を決定するために、使用され得る。与えられた位置におけるあるＡＤカウントの予測される確率に基づいて、処理システム２００は、サンプルから真陽性を検出するとき、シーケンスリードの位置ごとの部位特異的ノイズレートを考慮し得る。図４に関して説明された例示的な使用事例を再び参照すると、変異ＡおよびＢについて示されたＰＭＦは、図７Ｂの縮小された行列からのパラメータを使用して、決定され得る。事後予測確率質量関数は、ある位置においてＡＤカウントを有する変異ＡまたはＢについてのサンプルの確率を決定するために、使用され得る。

Ｖ．ノイズモデルのための例示的なプロセスフロー
図８は、一実施形態に従った、ベイズ階層モデル２２５をトレーニングするための方法８００のフローチャートである。ステップ８１０において、機械学習エンジン２２０は、シーケンスリードのデータベース（例えば、配列データベース２１０）から、サンプル、例えば、トレーニングデータを収集する。ステップ８２０において、機械学習エンジン２２０は、マルコフ連鎖モンテカルロ法を使用して、サンプルを使用して、ベイズ階層モデル２２５をトレーニングする。トレーニング中、モデル２２５は、トレーニングデータ次第のシーケンスリードを保持または拒絶し得る。機械学習エンジン２２０は、閾値よりも小さい深さ値、または閾値頻度よりも大きいＡＦを有する、健康な個人のシーケンスリードを排除し得る。シーケンスリードにおいて標的ノイズを示さない疑わしい生殖細胞系列変異を除去するために、他の実施形態においては、機械学習エンジン２２０は、どの位置が生殖細胞系列バリアントを含む可能性が高いかを決定し、上述のような閾値を使用して、そのような位置を選択的に排除し得る。一実施形態においては、機械学習エンジン２２０は、そのような位置を、生殖細胞系列頻度（例えば、０、１／２、および１）から、ＡＦの小さい平均絶対偏差を有するとして識別し得る。

ベイズ階層モデル２２５は、モデルに含まれる複数（またはすべて）の位置について、パラメータを同時に更新し得る。加えて、モデル２２５は、各ＡＬＴについての予想されるノイズをモデル化するために、トレーニングされ得る。例えば、ＳＮＶについてのモデルは、Ａ、Ｔ、Ｃ、およびＧ塩基の各々の他の３つの塩基の各々への変異についてのパラメータ（例えば、１対１置換）を更新するために、トレーニングプロセスを４回以上実行し得る。ステップ８３０において、機械学習エンジン２２０は、ベイズ階層モデル２２５のパラメータ（例えば、マルコフ連鎖モンテカルロ法によって出力されたアンサンブルパラメータ）を記憶する。ステップ８４０において、機械学習エンジン２２０は、パラメータに基づいて、位置ごとに、（例えば、分散パラメータおよび平均パラメータによって表される）ノイズ分布を近似する。ステップ８５０において、機械学習エンジン２２０は、ベイズ階層モデル２２５をトレーニングするために使用された、サンプル（例えば、トレーニングデータ）からの元のＡＤカウントを使用して、分散再推定（例えば、最尤推定）を実行する。

図９は、一実施形態に従った、偽陽性の尤度を決定するための方法９００のフローチャートである。ステップ９１０において、処理システム２００は、個人から獲得されたｃｆＤＮＡサンプルから獲得され得る、シーケンスリードのセットからの、例えば、シーケンスリードの位置ｐにおける、候補バリアントを同定する。ステップ９２０において、処理システム２００は、候補バリアントの位置ｐに基づき得る、候補バリアントに特異的なパラメータ、例えば、それぞれ、分散パラメータ

および平均レートパラメータｍ_pにアクセスする。パラメータは、与えられたシーケンスリードの観測された深さ、および位置ｐにおける平均パラメータμ_pを入力として用いる、事後予測分布を表すモデル、例えば、ベイズ階層モデル２２５を使用して、導出され得る。一実施形態においては、平均パラメータμ_pは、トレーニングサンプルについての位置ｐに関するヌクレオチド変異のノイズレベルを符号化した、ガンマ分布である。

ステップ９３０において、処理システム２００は、シーケンスリードのセットのリード情報（例えば、ＡＤまたはＡＦ）を、パラメータ、例えば、

およびｍ_pによってパラメータ化された、（例えば、負の２項分布に基づいた）関数に入力する。ステップ９４０において、処理システム２００（例えば、スコアエンジン２３５）は、入力されたリード情報に基づいた関数の出力を使用して、（例えば、位置ｐにおける）候補バリアントについてのスコアを決定する。スコアは、（例えば、被験者からの）与えられたサンプルについて、（例えば、モデルおよび関数の出力によって決定された）候補バリアントの決定された対立遺伝子カウント以上である、対立遺伝子カウントを見る尤度を示し得る。処理システム２００は、尤度をフレッドスケールのスコアに変換し得る。いくつかの実施形態においては、処理システム２００は、尤度が閾値よりも小さいと決定したのに応答して、偽陽性変異を決定するために、尤度を使用する。いくつかの実施形態においては、処理システム２００は、シーケンスリードのサンプルが、個人の腫瘍生検材料からのシーケンスリードに見つけられる、遺伝子に対応する少なくとも閾値カウントの対立遺伝子を含むと決定するための関数を使用する。この決定に応答して、処理システム２００は、バリアントコールに基づいて、個人における癌細胞の存在を予測し得る。いくつかの実施形態においては、処理システム２００は、品質スコアに基づいて、重み付けを実行し、偽発見方法のために、候補バリアントおよび品質スコアを使用し、品質スコアを用いて、推定コールに注釈を付け、または後続システムに供給し得る。

処理システム２００は、下流の分析のために、与えられたトレーニングサンプルに関するヌクレオチド変異のノイズレベルを符号化する関数を使用し得る。いくつかの実施形態においては、処理システム２００は、サンプル、例えば、ｃｆＤＮＡまたはｇＤＮＡ内の特定の核酸位置についての予想されるノイズを決定するために、分散パラメータ

および平均レートパラメータｍ_pによってパラメータ化された、上述の負の２項分布関数を使用する。さらに、処理システム２００は、特定の核酸サンプルと関連付けられたトレーニングデータを使用して、ベイズ階層モデル２２５をトレーニングすることによって、パラメータを導出し得る。以下の実施形態は、ベイズ階層モデル２２５の出力を使用し得る、本明細書においてジョイントモデル２２５と呼ばれる、別のタイプのモデルについて説明する。

ＶＩ．例示的なジョイントモデル
図１０は、一実施形態に従った、ジョイントモデル２２５を使用して、無細胞核酸（例えば、ｃｆＤＮＡ）サンプルおよびゲノム核酸（例えば、ｇＤＮＡ）サンプルを処理するための方法１０００のフローチャートである。ジョイントモデル２２５は、ｃｆＤＮＡおよびｇＤＮＡの核酸の位置とは独立であり得る。方法１０００は、図８～図９に示された方法８００および／または９００と併せて、実行され得る。例えば、方法８００および９００は、健康なサンプルからのトレーニングデータのｃｆＤＮＡおよびｇＤＮＡサンプルに関して、ヌクレオチド変異のノイズを決定するために実行される。図１１は、一実施形態に従った、ジョイントモデルの適用の図である。方法１０００のステップが、図１１を参照して、以下で説明される。

ステップ１０１０において、配列プロセッサ２０５は、被験者のｃｆＤＮＡサンプルから獲得されたシーケンスリードからの核酸の様々な位置について、深さおよびＡＤを決定する。ｃｆＤＮＡサンプルは、被験者からの血漿のサンプルから収集され得る。ステップ１０１０は、図１Ａに示される方法１００の先に説明されたステップを含み得る。

ステップ１０２０において、配列プロセッサ２０５は、同じ被験者のｇＤＮＡサンプルから獲得されたシーケンスリードからの核酸の様々な位置について、深さおよびＡＤを決定する。ｇＤＮＡは、被験者からの白血球細胞または腫瘍生検材料から収集され得る。ステップ１０２０は、図１Ａに示される方法１００の先に説明されたステップを含み得る。

ＶＩ．Ａ．ジョイントモデルの例示的な信号
ステップ１０３０において、ジョイントモデル２２５は、ｃｆＤＮＡについての観測されたＡＤをモデル化することによって、被験者のｃｆＤＮＡサンプルの「真の」ＡＦの尤度を決定する。一実施形態においては、ジョイントモデル２２５は、ｃｆＤＮＡのシーケンスリードから観測された深さと、ｃｆＤＮＡサンプルの真のＡＦとによってパラメータ化された、ポアソン分布関数を使用して、（やはり図１１に示される）被験者のｃｆＤＮＡにおいて、与えられたＡＤを観測する確率をモデル化する。深さと真のＡＦとの積は、ｃｆＤＮＡの平均予想ＡＦを表す、ポアソン分布関数のレートパラメータであり得る。

Ｐ（ＡＤ_cfDNA｜ｄｅｐｔｈ_cfDNA，ＡＦ_cfDNA）～Ｐｏｉｓｓｏｎ（ｄｅｐｔｈ_cfDNA×ＡＦ_cfDNA）＋ｎｏｉｓｅ_cfDNA
ノイズ成分ｎｏｉｓｅ_cfDNAは、以下のセクションＶＩ．Ｂ．ジョイントモデルの例示的なノイズにおいて、さらに説明される。他の実施形態においては、他の関数が、ＡＤ_cfDNAを表すために使用され得、それの例は、負の２項分布、コンウェイ－マクスウェル－ポアソン分布、ゼータ分布、およびゼロ過剰ポアソン分布を含むが、それらに限定されない。

ステップ１０４０において、ジョイントモデル２２５は、ｇＤＮＡについての観測されたＡＤをモデル化することによって、被験者のｇＤＮＡサンプルの「真の」ＡＦの尤度を決定する。一実施形態においては、ジョイントモデル２２５は、ｇＤＮＡのシーケンスリードから観測された深さと、ｇＤＮＡサンプルの真のＡＦとによってパラメータ化された、ポアソン分布関数を使用して、（やはり図１１に示される）被験者のｇＤＮＡにおいて、与えられたＡＤを観測する確率をモデル化する。ジョイントモデル２２５は、ｇＤＮＡおよびｃｆＤＮＡの真のＡＦの尤度をモデル化するために、同じ関数を使用し得るが、パラメータ値は、被験者の対応するサンプルから観測された値に基づいて、異なる。

Ｐ（ＡＤ_gDNA｜ｄｅｐｔｈ_gDNA，ＡＦ_gDNA）～Ｐｏｉｓｓｏｎ（ｄｅｐｔｈ_gDNA×ＡＦ_gDNA）＋ｎｏｉｓｅ_gDNA
ノイズ成分ｎｏｉｓｅ_gDNAは、以下のセクションＶＩ．Ｂ．ジョイントモデルの例示的なノイズにおいて、さらに説明される。他の実施形態においては、他の関数が、ＡＤ_gDNAを表すために使用され得、それの例は、負の２項分布、コンウェイ－マクスウェル－ポアソン分布、ゼータ分布、およびゼロ過剰ポアソン分布を含むが、それらに限定されない。

ｃｆＤＮＡの真のＡＦ、およびｇＤＮＡの真のＡＦは、特定の被験者のバイオロジの生得的な特性であるので、どちらかのソースからの真のＡＦの正確な値を決定することは、必ずしも実用的でないことがある。さらに、ノイズの様々なソースも、真のＡＦの推定値に不確実さを導入する。したがって、ジョイントモデル２２５は、被験者からの観測されたデータ（例えば、深さおよびＡＤ）、ならびに対応するノイズパラメータ次第の真のＡＦの事後分布を決定するために、数値的な近似を使用する。

ジョイントモデル２２５は、事前分布、例えば、一様分布を用いる、ベイズの定理を使用して、事後分布を決定する。ｃｆＤＮＡおよびｇＤＮＡのために使用される事前分布は、同じ（例えば、０から１までの範囲の一様分布）で、互いに独立であり得る。

一実施形態においては、ジョイントモデル２２５は、ｃｆＤＮＡのサンプルからの観測されたデータの固定されたセットを与えられた場合、パラメータ、ｃｆＤＮＡの真のＡＦを変化させることによって、尤度関数を使用して、ｃｆＤＮＡの真のＡＦの事後分布を決定する。加えて、ジョイントモデル２２５は、ｇＤＮＡのサンプルからの観測されたデータの固定されたセットを与えられた場合、パラメータ、ｇＤＮＡの真のＡＦを変化させることによって、別の尤度関数を使用して、ｇＤＮＡの真のＡＦの事後分布を決定する。ｃｆＤＮＡおよびｇＤＮＡの両方について、ジョイントモデル２２５は、負の２項分布（ＮＢ）をフィッティングすることによって、出力された事後分布を数値的に近似する。

一実施形態においては、ジョイントモデル２２５は、計算スピードの改善を提供し得る、負の２項分布についての以下のパラメータを使用して、数値的な近似を実行する。

ここで、

である。観測されたデータは、ｃｆＤＮＡとｇＤＮＡとの間で異なるので、ｃｆＤＮＡの負の２項分布について決定されたパラメータは、ｇＤＮＡの負の２項分布について決定されたそれらとは異なる。

ステップ１０５０において、バリアントコーラ２４０は、尤度を使用して、ｃｆＤＮＡサンプルの真のＡＦが、ｇＤＮＡサンプルの真のＡＦの関数よりも大きい確率を決定する。関数は、１つまたは複数のパラメータ、例えば、パラメータデータベース２３０に記憶され、図１２～図１３を参照してさらに詳細に説明される、経験的に決定されるｋおよびｐの値を含み得る。確率は、ｃｆＤＮＡのシーケンスリードからの少なくともいくつかのヌクレオチド変異が、参照組織のシーケンスリードにおいて見つけられない、信頼レベルを表す。バリアントコーラ２４０は、下流の分析のために、この情報を他のプロセスに提供し得る。例えば、高い確率は、被験者のｃｆＤＮＡのシーケンスリードからの、ｇＤＮＡのシーケンスリードにおいて見つからない、ヌクレオチド変異が、被験者内の癌の腫瘍または他のソースを起源とし得ることを示す。対照的に、低い確率は、ｃｆＤＮＡにおいて観測されたヌクレオチド変異が、おそらく、被験者の潜在的な癌細胞または他の疾患細胞を起源としないことを示す。代わりに、ヌクレオチド変異は、とりわけ、生殖細胞系列変異、クローン造血（血液細胞ＤＮＡのサブ母集団を形成するユニークな変異）、モザイク現象、化学療法または変異原性処理、技術的アーチファクトなどの要因が原因の、健康な個人において自然に発生する変異に帰され得る。

一実施形態においては、バリアントコーラ２４０は、１つまたは複数のパラメータ（例えば、以下で説明されるｋおよびｐ）に基づいて、事後確率が選択された基準を満たすと決定する。ｃｆＤＮＡおよびｇＤＮＡの配列を与えられた場合、バリアントの分布は、条件付きで独立である。すなわち、バリアントコーラ２４０は、ｃｆＤＮＡまたはｇＤＮＡサンプルの一方に存在するＡＬＴおよびノイズが、他方のサンプルのそれらによって影響されず、その逆も成り立つと推定する。したがって、バリアントコーラ２４０は、両方のソースからの観測されたデータおよびノイズパラメータを与えられた場合、ｃｆＤＮＡのある真のＡＦおよびｇＤＮＡのある真のＡＦの両方を観測する確率を決定する際に、ＡＤの予想される分布の確率を独立事象と見なす。

図１１における例示的な３Ｄプロットにおいては、確率Ｐ（ＡＦ_cfDNA，ＡＦ_gDNA）は、ＡＦ_cfDNA値とＡＦ_gDNA値のペアについての３Ｄ輪郭としてプロットされる。ＡＦ_cfDNA軸とＡＦ_gDNA軸に沿った３Ｄ輪郭プロットの例示的な２Ｄスライスは、輪郭プロットの体積が、ＡＦ_cfDNAの値と比べてより大きいＡＦ_gDNAの値に向かって歪められることを例示している。他の実施形態においては、輪郭プロットは、異なるように歪められ、または図１１に示される例とは異なる形を有し得る。ジョイント尤度を数値的に近似するために、配列プロセッサ２０５は、Ｐ（ＡＦ_cfDNA，ＡＦ_gDNA）の３Ｄ輪郭と、図１１のプロットに示される点線によって例示される境界線とによって定められる体積を計算し得る。配列プロセッサ２０５は、ｋパラメータの値に従って、境界線の傾きを決定し、境界線は、原点と交わる。ｋパラメータの値は、決定された真のＡＦにおける許容誤差を考慮し得る。特に、許容誤差は、生殖細胞系列変異、クローン造血、（図１３を参照して以下でさらに説明される）ヘテロ接合性の消失、および上で説明されたような他のソースなど、健康な個人において自然に発生する変異をカバーし得る。３Ｄ輪郭は、境界線によって分割されるので、ｃｆＤＮＡサンプルから検出されたバリアントの少なくとも一部は、潜在的に、ｇＤＮＡサンプルから検出されたバリアントに帰され得、一方、バリアントの別の部分は、潜在的に、癌の腫瘍または他のソースに帰され得る。

一実施形態においては、配列プロセッサ２０５は、与えられた基準を満たすジョイント尤度の部分を決定することによって、与えられた基準が事後確率によって満足されると決定する。与えられた基準は、ｋおよびｐパラメータに基づき得、ここで、ｐは、比較のための閾値確率を表す。例えば、配列プロセッサ２０５は、ｃｆＤＮＡの真のＡＦがｋ倍されたｇＤＮＡの真のＡＦ以上である事後確率、および事後確率がｐよりも大きいかどうか、すなわち、
Ｐ（ＡＦ_cfDNA≧ｋ×ＡＦ_gDNA）＞ｐ
であるかどうかを決定し、ここで、

である。上記の式に示されるように、配列プロセッサ２０５は、ｃｆＤＮＡの真のＡＦの尤度の累積和Ｆ_cfDNAを決定する。さらに、配列プロセッサ２０５は、ｇＤＮＡの真のＡＦの尤度関数上において積分を行う。別の実施形態においては、配列プロセッサ２０５は、ｇＤＮＡの真のＡＦの尤度についての累積和を決定し得、ｃｆＤＮＡの真のＡＦの尤度関数上において積分を行う。ｃｆＤＮＡおよびｇＤＮＡについての両方の尤度上において、２重積分を計算する代わりに、２つの尤度のうちの一方の累積和を計算する（例えば、累積分布関数を作り上げる）ことによって、配列プロセッサ２０５は、ジョイント尤度が基準を満たすかどうかを決定するのに必要とされる、（計算時間または他の同様のメトリックに関して表現される）計算リソースを低減させ、事後確率の計算の精度も高め得る。

ＶＩ．Ｂ．ジョイントモデルの例示的なノイズ
ｃｆＤＮＡおよびｇＤＮＡサンプルにおけるノイズによって導入される、真のＡＦの推定値におけるノイズを考慮するために、ジョイントモデル２２５は、図４～図９に関して先に説明された、処理システム２００の他のモデルを使用し得る。一実施形態においては、Ｐ（ＡＤ_cfDNA｜ｄｅｐｔｈ_cfDNA，ＡＦ_cfDNA）およびＰ（ＡＤ_gDNA｜ｄｅｐｔｈ_gDNA，ＡＦ_gDNA）についての上記の式に示されるノイズ成分は、候補バリアント（例えば、ＳＮＶまたはインデル）に特異的であり得る、ベイズ階層モデル２２５を使用して決定される。さらに、ベイズ階層モデル２２５は、ヌクレオチド変異の特定の位置またはインデル長の範囲にわたって、候補バリアントをカバーし得る。

一例においては、ジョイントモデル２２５は、ｃｆＤＮＡの真のＡＦについてのノイズレベルを決定するために、ｃｆＤＮＡ特異的なパラメータによってパラメータ化された関数を使用する。ｃｆＤＮＡ特異的なパラメータは、例えば、健康な個人からの、ｃｆＤＮＡサンプルのセットを用いてトレーニングされた、ベイズ階層モデル２２５を使用して、導出され得る。加えて、ジョイントモデル２２５は、ｇＤＮＡの真のＡＦについてのノイズレベルを決定するために、ｇＤＮＡ特異的なパラメータによってパラメータ化された別の関数を使用する。ｇＤＮＡ特異的なパラメータは、例えば、同じ健康な個人からの、ｇＤＮＡサンプルのセットを用いてトレーニングされた、別のベイズ階層モデル２２５を使用して、導出され得る。一実施形態においては、関数は、平均パラメータｍおよび分散パラメータ

を有する、負の２項分布関数であり、トレーニングサンプルからのシーケンスリードの観測された深さにも依存し得る。

他の実施形態においては、配列プロセッサ２２５は、異なるタイプの関数、ならびにｃｆＤＮＡおよび／またはｇＤＮＡについてのパラメータのタイプを使用し得る。ｃｆＤＮＡ特異的なパラメータとｇＤＮＡ特異的なパラメータは、トレーニングデータの異なるセットを使用して導出されるので、パラメータは、互いに異なり、それぞれのタイプの核酸サンプルに特有であり得る。例えば、ｃｆＤＮＡサンプルは、ｇＤＮＡサンプルよりも大きいＡＦの変動を有し得、したがって、

は、

よりも大きくなり得る。図８、図９、および図１０に関して上で説明された方法は、様々な実施形態において、図１Ａに示されるコンピューティングデバイス１６０などの、コンピュータ上において実行される。

ＶＩＩ．ジョイントモデルについての例
以下の図に示される例示的な結果は、１つまたは複数のトレーニングされたジョイントモデル２２５を使用して、処理システム１００によって決定された。様々な実施形態においては、結果は、図に示されるように、２つの研究「研究Ａ」および「研究Ｂ」の一方において被験者から獲得された循環無細胞ＤＮＡ（ｃｆＤＮＡ）サンプルからのターゲットシーケンシングデータからのバリアントを評価およびコールするために、ＧＲＡＩＬ（ＧＲＡＩＬ，Ｉｎｃ．、カリフォルニア州メンロパーク）のプロプライエタリ５０８癌遺伝子パネルを利用した、ターゲットシーケンシングアッセイを使用して、生成された。研究Ａは、（癌と診断されない）５０人の健康な被験者から獲得された血漿サンプル、ならびに前転移性乳がんおよび前転移性非小細胞肺がんを有する被験者の各々からの５０のサンプルからのシーケンシングデータを含んだ。研究Ｂは、１２４人の癌患者（転移性乳がん（ＭＢＣ）を有する３９人の被験者、非小細胞肺がん（ＮＳＣＬＣ）を有する４１人の被験者、および去勢抵抗性前立腺がん（ＣＲＣＰ）を有する４４人の被験者から獲得された血漿サンプルからの評価可能なシーケンシングデータを含んだ。

全血が、健康な個人および癌患者から、ＳＴＲＥＣＫ採血管（ＢＣＴ（登録商標））に採取され、血漿と軟膜とに分離され、－８０℃で保存された。無細胞ＤＮＡ（ｃｆＤＮＡ）が、改良されたＱＩＡｍｐ循環核酸キット（ＱＩＡＧＥＮ（登録商標）、メリーランド州ジャーマンタウン）を使用して、血漿から抽出され、フラグメントアナライザ高感度ＮＧＳキット（ＡＤＶＡＮＣＥＤＡＮＡＬＹＴＩＣＡＬＴＥＣＨＮＯＬＯＧＩＥＳ（登録商標）、アイオワ州Ａｋｎｅｎｙ）を使用して、定量化された。シーケンシングライブラリが、改良されたＩｌｌｕｍｉｎａＴｒｕＳｅｑＤＮＡナノプロトコル（ＩＬＬＵＭＩＮＡ（登録商標）；カリフォルニア州サンディエゴ）を用いて抽出されたｃｆＤＮＡから準備された。ライブラリ準備プロトコルは、上で説明されたような、エラー訂正のために使用される固有分子識別子（ＵＭＩ）を含む、シーケンシングアダプタのアダプタライゲーションを含んだ。シーケンシングライブラリは、フラグメントアナライザ標準感度ＮＧＳキットを使用して、ＰＣＲ増幅および定量化された。

定量化されたＤＮＡライブラリは、５０８癌関連遺伝子を標的にするＧＲＡＩＬのプロプライエタリリサーチパネル（ＧＲＡＩＬ，Ｉｎｃ．、カリフォルニア州メンロパーク）を用いて、ハイブリダイゼーションベースの捕捉を経験した。標的ＤＮＡ分子は、最初に、ビオチン化一本鎖ＤＮＡハイブリダイゼーションプローブを使用して捕捉され、次に、磁気ストレプトアビシンビーズを使用して濃縮された。非標的分子は、後続の洗浄ステップを使用して除去された。濃縮されたライブラリは、６００００Ｘの公称未加工標的カバレッジで、ＨｉＳｅｑＸ試薬キットｖ２．５（ＩＬＬＵＭＩＮＡ（登録商標）；カリフォルニア州サンディエゴ）を使用して、ＨｉＳｅｘＸ上においてシーケンシングされた。フローセル当たり４つのライブラリが、プールされ、デュアルサンプルインデキシングリードを可能にするために、デュアルインデキシングプライマミックスが、含まれた。リード長は、リード１、リード２、インデックスリード１、およびインデックスリード２に対して、それぞれ、１５０、１５０、８、および８に設定された。リード１およびリード２における最初の６つの塩基リードは、ＵＭＩ配列であった。

ＶＩＩ．Ａ．ジョイントモデルのための例示的なパラメータ
図１２は、一実施形態に従った、健康な個人からのサンプルにおけるバリアントの観測されたカウントの図である。各データ点は、個人のうちの与えられた１人の（核酸位置の範囲にわたる）位置に対応する。ジョイント尤度計算のためにジョイントモデル２２５によって使用されるパラメータｋおよびｐは、健康な個人からのｃｆＤＮＡおよびｇＤＮＡサンプルのセットと、癌を有することが知られているサンプルとの交差検証を行うことによって、（例えば、感度閾値を調整するために）経験的に選択され得る。図１２に示される例示的な結果は、ｃｆＤＮＡについては血漿サンプルを、ｇＤＮＡについては白血球細胞サンプルを使用して、研究Ｂによって獲得された。ｋ（図１２に示される「ｋ０」）およびｐについての与えられたパラメータ値に対して、図は、対応するサンプルについての偽陽性の計算された信頼上限（ＵＣＢ）を表す、バリアントの平均数をプロットしている。図は、ｐの値が増加するにつれて、偽陽性の数が減少することを示している。加えて、プロットされた曲線は、ｋのより低い値、例えば、１．０により近い値に対して、より多数の偽陽性を有する。点線は、１つのバリアントのターゲットを示すが、経験的な結果は、１．０から５．０の間のｋの値、および０．５から１．０の間のｐの値について、偽陽性の平均数は、ほとんど、バリアント１つ～５つの範囲内に入ることを示す。

パラメータの選択は、（例えば、ｋおよびｐを使用して調整される）ターゲット感度と、ターゲットエラー（例えば信頼上限）との間のトレードオフを含み得る。ｋおよびｐ値の与えられたペアについて、偽陽性の対応する平均数は、値的に同様であり得るが、感度値は、より大きい分散を示し得る。いくつかの実施形態においては、感度は、特異度の測定に使用され得るｃｆＤＮＡについてのＰＰＡとは異なり、腫瘍についての陽性一致率（ＰＰＡ）値を使用して測定される。

上記の式において、「ｔｕｍｏｒ」は、パラメータのセットを使用して、ｃｔＤＮＡサンプルからの平均バリアントコールの数を表し、「ｃｆＤＮＡ」は、同じパラメータのセットを使用して、対応するｃｆＤＮＡサンプルからの平均バリアントコールの数を表す。

一実施形態においては、ジョイントモデル２２５をトレーニングするために使用されたシーケンスリードと異なる、（与えられたタイプの組織についての）シーケンスリードに対する、ジョイントモデル２２５の予想されるフィットを推定するために、交差検証が実行される。例えば、シーケンスリードは、肺がん、前立腺がん、および乳がんなどを有する組織から獲得され得る。任意の与えられたタイプの癌組織に対するジョイントモデル２２５の過剰フィットを回避する、またはその程度を低減させるために、癌組織のタイプのセットのうちのサンプルを使用して導出されたパラメータ値が、使用されて、異なるタイプの癌組織を有することが知られた他のサンプルの統計的な結果を評価する。例えば、肺がんおよび前立腺がん組織についてのパラメータ値が、乳がん組織を有するサンプルに適用される。いくつかの実施形態においては、感度を最大化する、肺がんおよび前立腺がん組織データからの１つまたは複数の最低のｋ値が、選択されて、乳がんサンプルに適用される。パラメータ値は、偽陽性のターゲット平均数からの閾値偏差、またはサンプル当たり最大で３の９５％ＵＣＢなど、他の制約を使用しても選択され得る。処理システム２００は、癌特異的なパラメータのセットを交差検証するために、複数のタイプの組織を巡回し得る。

図１３は、一実施形態に従った、ジョイントモデル２２５についての例示的なパラメータの図である。ｋについてのパラメータ値は、ｇＤＮＡサンプルにおいて観測されたＡＦの関数として、決定され得、特定のタイプの癌組織、例えば、例示されたような、乳、肺、または前立腺に基づいて、変化し得る。曲線１３１０は、乳がんおよび前立腺がん組織についてのパラメータ値を表し、曲線１３２０は、肺がん組織についてのパラメータ値を表す。これまでの例は、ｋおよびｐを、一般的に、これらのパラメータが固定された実施を参照して、説明したが、実際には、ｋおよびｐは、ｇＤＮＡサンプルにおいて観測されたＡＦの任意の関数として変化し得る。図１３に示される例においては、関数は、例えば、１／３の、ヒンジ値（またはより低い閾値）を有する、ヒンジ損失関数である。具体的には、関数は、ヒンジ値以上のＡＦ_gDNA値について、ｋが、事前決定された上限閾値、例えば、３に等しいことを指定する。ヒンジ値よりも小さいＡＦ_gDNA値については、対応するｋ値は、ＡＦ_gDNAとともに変調する。図１３の例は、具体的には、１／３よりも小さいＡＦ_gDNA値についてのｋ値は、癌組織のタイプの間で変化し得る、係数（例えば、線形関係のケースにおいては傾き）に従って、ＡＦ_gDNAに比例し得ることを例示している。他の実施形態においては、ジョイントモデル２２５は、２乗損失、ロジスティック損失、交差エントロピ損失など、別のタイプの損失関数を使用することができる。

ジョイントモデル２２５は、ｋについての固定された値が、それらのイベントを正確に捕捉および区分けしない、非腫瘍または疾病関連の影響を防ぐために、ヒンジ損失関数または別の関数に従って、ｋを変更し得る。ヒンジ損失関数の例は、特に、ヘテロ接合性の消失（ＬＯＨ）イベントを扱うことを目標にする。ＬＯＨイベントは、遺伝子のコピーが個人の親の一方から失われているときに発生する、生殖細胞系列変異である。ＬＯＨイベントは、ｇＤＮＡサンプルの観測されたＡＦのかなりの部分の原因となり得る。ｋ値をヒンジ損失関数の事前決定された上限閾値までに制限することによって、ジョイントモデル２２５は、ほとんどのシーケンスリードにおいて真陽性を検出するためのより大きい感度を達成し得、同時に、さもなければ、ＬＯＨの存在のせいで、真陽性としてフラグを立てられた偽陽性の数もコントロールする。他の実施形態においては、ｋおよびｐは、例えば、ターゲット母集団またはシーケンシングアッセイを有する、与えられた関心がある適用に固有のトレーニングデータに基づいて、選択され得る。

いくつかの実施形態においては、ジョイントモデル２２５は、低ＡＦ候補バリアントを過少に重み付けすることを防ぐために、ｇＤＮＡサンプルのＡＦとｇＤＮＡサンプルの品質スコアの両方を考慮する。図３、図４、および図９を参照して先に説明されたように、ノイズモデルについてのスコアエンジン２３５によって生成された品質スコアは、フレッドスケールでエラーの確率を推定するために、使用され得る。加えて、ジョイントモデル２２５は、ヒンジ関数についての変更された区分的関数を使用し得る。例えば、区分的関数は、２つ以上の追加の成分を含む。１つの成分は、ｇＤＮＡサンプルのＡＦに基づいた、線形関数であり、別の成分は、ｇＤＮＡサンプルの品質スコアに基づいた、指数関数である。品質スコア閾値および最大ＡＦスケーリング係数ｋ_maxを与えられた場合、ジョイントモデル２２５は、区分的関数の指数関数成分を使用して、

を決定する。上記の計算において、Ｐ（ｎｏｔｅｒｒｏｒ）は、ｇＤＮＡサンプルの対立遺伝子がエラーではない確率であり、Ｐ（ｅｒｒｏｒ）は、ｇＤＮＡサンプルの対立遺伝子がエラーである確率であり、Ｐ（ｅｒｒｏｒ）_minは、エラーの最小確率である。エラーレートについての最小閾値は、ｇＤＮＡサンプルの対立遺伝子のおそらくは体細胞候補バリアントと、おそらくは生殖細胞系列候補バリアントとの間の、品質スコア密度についての交点として、経験的に決定され得る。

ＶＩＩ．Ｂ．ジョイントモデルの例示的なバリアントコール
図１４Ａ～図１４Ｂは、一実施形態に従った、ジョイントモデルによって決定されるバリアントコールの図である。図１４Ａに示される例示的な結果は、研究Ａ、および早期癌によって影響されていることが知られたサンプルを使用して、獲得された。図１４Ｂに示される例示的な結果は、研究Ｂ、および末期癌によって影響されていることが知られたサンプルを使用して、獲得された。図１４Ａ～図１４Ｂにおけるプロットは、ｇＤＮＡについての観測されたＡＦを表す共通のｘ軸を共有する。さらに、プロットは、ｃｆＤＮＡとｇＤＮＡのサンプルの観測されたＡＦの比の分散は、早期癌についてよりも、末期がんについての方が大きいことを示している。バリアントコーラ２４０は、ＡＦ_cfDNAとＡＦ_gDNAのデータ点の対について、事後確率Ｐ（ＡＦ_cfDNA≧ｋ×ＡＦ_gDNA）を決定し、ここで、プロットの勾配は、確率の範囲を表す。各データ点は、個人における（例えば、与えられた核酸位置についての）候補ｃｆＤＮＡバリアントを表し、プロットは、データセット内の複数の個人についてのデータ点を含む。例示された実施形態においては、事後確率は、８．００よりも大きい比、０．００３９１よりも小さいＡＦ_gDNA値については、１．０により近く、一方、事後確率は、０．２５に接近する比については、０．０により近い。

図１５は、一実施形態に従った、ジョイントモデル２２５によって決定される確率密度の図である。図１５に示される例示的な結果は、０に等しいｇＤＮＡの観測されたＡＦを有する、乳、肺、および前立腺組織サンプルからのシーケンスリードを使用して、決定された。図１５は、特定の実施にかかわらず、ジョイントモデル２２５についてのいくつかの一般的なポイントを例示している。ＡＬＴが観測されない（ＡＦ_gDNA＝０）、またはｇＤＮＡにおいて少数のＡＬＴが観測されるようなケースにおいては、処理システム２００は、対応するｃｆＤＮＡサンプルにおいて観測されるＡＬＴのソースに関して、低い信頼レベルを有し得る。これらの状況は、背景ノイズ、またはｇＤＮＡサンプルの低い深さが原因で、発生し得る。配列プロセッサ２０５は、ｇＤＮＡサンプルのＡＬＴの必ずしもすべてを検出し得ないので、観測されたＡＦ_gDNA＝０のときであっても、ｃｆＤＮＡのシーケンスリードは、偽陽性をまだ含み得る。加えて、ジョイントモデル２２５は、ＡＦ_gDNAを、ノイズを有する分布としてモデル化し、そのため、真のＡＦ_gDNAは、尤度の非ゼロ値上の分布としてモデル化され得る。結果として、これらの条件においては、バリアントコーラ２４０は、ＡＬＴのソースの低い信頼度のせいで、例えば、観測されたＡＬＴがｇＤＮＡを起源とするか、それとも癌または疾患細胞を起源とするかが不確実であるせいで、ｃｆＤＮＡサンプルにおいて観測されるＡＬＴをふるい落とし得る。一実施形態においては、バリアントコーラ２４０は、図１５において点線によって例示されるように、閾値確率よりも小さい確率を有するデータ点をふるい落とす。

ＶＩＩ．Ｃ．ジョイントモデルの例示的な陽性一致率
図１６は、一実施形態に従った、ジョイントモデル２２５の感度および特異度の図である。バリアントコーラ２４０は、研究ＡおよびＢにおいて、健康なサンプル、ならびに乳がん、肺がん、および前立腺がんを有することが知られたサンプルを用いて、感度（例えば、ＰＰＡ_tumor）および特異度（例えば、ＰＰＡ_cfDNA）測定値を決定する。経験的な閾値を使用して獲得された例示的な結果と比較して、ジョイントモデル２２５を使用して獲得された例示的な結果は、肺組織サンプルを使用する研究ＡのＰＰＡ_tumorについて、感度の僅かな低下、例えば、０．１４から０．１２への低下を示している。しかしながら、ジョイントモデル２２５の結果は、肺組織サンプルを使用する研究ＡのＰＰＡ_cfDNAについて、特異度のより大きい増加、例えば、０．１２から０．２２への増加を示している。

ＶＩＩ．Ｄ．ジョイントモデルを使用した例示的な検出遺伝子
図１７は、一実施形態に従った、ジョイントモデル２２５を使用したターゲットシーケンシングアッセイから検出された遺伝子のセットの図である。セットは、クローン造血中に普通に変異させられた遺伝子を含む。配列プロセッサ２０５は、研究ＡおよびＢにおける結果、ならびに乳がん、肺がん、および前立腺がんを有すると知られたサンプルを決定する。試験「閾値Ｘ」および「ジョイントモデルＸ」は、非同義変異を含まず、一方、試験「閾値Ｙ」および「ジョイントモデルＹ」は、非同義変異を含む。ジョイントモデル２２５を使用して獲得された例示的な結果は、経験的な閾値を使用して検出されたカウントと比較して、様々なタイプの組織のサンプルからの検出された生殖細胞系列変異の（図１７～図１９に示されるように、ｘ軸上に「ｎ」として示される）カウントを低減させる。例えば、研究Ｂについての肺がんのグラフによって例示されるように、「閾値Ｘ」および「閾値Ｙ」は、それぞれ、５および６の検出されたＴＥＴ２遺伝子のカウントをもたらす。「ジョイントモデルＸ」および「ジョイントモデルＹ」は、それぞれ、２および３の検出されたＴＥＴ２遺伝子のカウントをもたらし、それは、ジョイントモデル２２５が改善された感度を提供することを示す。

図１８は、一実施形態に従った、ジョイントモデル２２５を使用してターゲットシーケンシングアッセイから検出された図１７に示された遺伝子のセットの長さ分布の図である。一般に、腫瘍または疾患細胞を起源とする核酸フラグメントは、参照対立遺伝子を起源とするそれらよりも（例えば、ヌクレオチドの）短い長さを有する。研究Ｂについての乳がんサンプルのボックスプロット結果に示されるように、ＴＥＴ２遺伝子についての検出されたＡＬＴと参照対立遺伝子との間の長さの中央値の差は、「閾値Ｘ」および「閾値Ｙ」の両方について、近似的にゼロである。対照的に、ＴＥＴ２遺伝子についての検出されたＡＬＴと参照対立遺伝子との間の長さの中央値の差は、「ジョイントモデルＸ」および「ジョイントモデルＹ」の両方について、近似的に－５である。したがって、バリアントコーラ２４０は、検出されたＡＬＴは、参照対立遺伝子の代わりに、潜在的に腫瘍または疾患細胞を起源とすると、より大きい信頼度で決定し得る。さらに、例示的な結果は、ジョイントモデル２２５が、変化するノイズレベルを有するサンプルにおいて、シーケンスリードの短いフラグメントのバリアントコールを実行することができることを示す。

図１９は、一実施形態に従った、ジョイントモデル２２５を使用してターゲットシーケンシングアッセイから検出された遺伝子の別のセットの図である。例示的な結果は、ジョイントモデル２２５のドライバ遺伝子を検出するための感度が、モデルを使用しないフィルタのそれに匹敵することを示す。すなわち、ジョイントモデル２２５は、経験的な閾値を使用して獲得された結果と比べて、検出されたドライバ遺伝子を著しく過剰にはふるい分けない。

ＶＩＩＩ．ジョイントモデルの例示的な調整
図２０は、一実施形態に従った、無細胞核酸（例えば、ｃｆＤＮＡ）サンプルおよびゲノム核酸（例えば、ｇＤＮＡ）サンプルを処理するために、ジョイントモデル２２５を調整するための方法２０００のフローチャートである。方法２０００は、図８～図１０に示された方法８００、方法９００、および／もしくは方法１０００、または別の類似の方法と併せて、実行され得る。例えば、方法１０００は、方法２０００のステップ２０１０のための確率を決定するために、ジョイントモデル２５５を使用して、実行される。図２０～図２２に関して説明される例は、ｇＤＮＡサンプルのソースとして、被験者の血液（例えば、白血球細胞）に言及するが、他の実施形態においては、ｇＤＮＡは、異なるタイプの生物学的サンプルからのものであり得ることが留意されるべきである。処理システム２００は、ｃｆＤＮＡサンプルにおける候補バリアントをふるい分ける、または処理するための決定木として、方法２０００の少なくとも一部を実施し得る。例えば、処理システム２００は、候補バリアントがｇＤＮＡサンプルと関連付けられる可能性が高いかどうか、または関連付けが不確実かどうかを決定する。関連付けは、（例えば、生殖細胞系列変異、クローン造血、アーチファクト、エッジバリアント、ＨＬＡ－Ａなどのヒト白血球抗原などの要因に起因する）ｇＤＮＡサンプルにおける変異によりバリアントが考慮されることができ、したがって、おそらくは腫瘍由来ではなく、癌または疾病を示していないことを示し得る。方法２０００は、いくつかの実施形態においては、図２０と関連して説明されたものとは異なるステップもしくは追加のステップを含み得、または図２０と関連して説明された順序とは異なる順序で、ステップを実行し得る。

ＶＩＩＩ．Ａ．ジョイントモデルの例示的な品質スコアおよび比
ステップ２０１０において、配列プロセッサ２０５は、ｃｆＤＮＡサンプルの真の代替頻度が、ｇＤＮＡサンプルの真の代替頻度の関数よりも大きい確率を決定する。ステップ２０１０は、図１０に示された方法１０００の先に説明されたステップ１０５０に対応し得る。

ステップ２０２０において、配列プロセッサ２０５は、確率が閾値確率よりも小さいかどうかを決定する。例として、閾値確率は、０．８であり得るが、しかしながら、実際には、閾値確率は、（例えば、望ましいフィルタリング厳密さに基づいて決定される）０．５から０．９９９の間の任意の値であり得、静的もしくは動的であり得、遺伝子によって変化し得、および／または位置もしくは他のマクロ要因によって設定され得るなどする。確率が閾値確率以上であると決定したのに応答して、配列プロセッサ２０５は、候補バリアントが、被験者の白血球細胞を含む血液採取などのｇＤＮＡサンプルとおそらく関連付けられないと、すなわち、血液由来ではないと決定する。例えば、候補バリアントは、一般に、健康な個人についてのｇＤＮＡサンプルのシーケンスリード内には存在しない。したがって、バリアントコーラ２４０は、候補バリアントを、癌または疾病と潜在的に関連付けられる、例えば、潜在的に腫瘍由来である、真陽性としてコールし得る。

ステップ２０３０において、配列プロセッサ２０５は、ｇＤＮＡサンプルの代替深さが、有意にゼロと同じか、それともゼロと異なるかを決定する。例えば、配列プロセッサ２０５は、図３、図４、および図９を参照して先に説明されたように、ノイズモデル２２５を使用してスコアエンジン２３５によって決定された、候補バリアントの品質スコアを使用して、評価を実行する。配列プロセッサ２０５は、代替深さを閾値深さと比較することもし得、例えば、代替深さが、閾値深さ以下であるかどうかを決定する。例として、閾値深さは、０または１リードであり得る。ｇＤＮＡサンプルの代替深さは、有意にゼロと異なると決定したのに応答して、配列プロセッサ２０５は、候補バリアントが、癌または疾病によって引き起こされたのではないヌクレオチド変異と関連付けられることの肯定的な証拠が存在すると決定する。例えば、候補バリアントは、健康な白血球細胞のシーケンスリードにおいて一般に発生し得る変異に基づいた、血液由来のものである。

ｇＤＮＡサンプルの代替深さは、有意に非ゼロではないと決定したのに応答して、配列プロセッサ２０５は、候補バリアントが、ｇＤＮＡサンプルとおそらく関連付けられると決定するが、以下で説明されるような、スコアエンジン２３５によるさらなるチェックなしには、候補バリアントのソースの決定を行わない。言い換えると、配列プロセッサ２０５は、候補バリアントが血液由来か、それとも腫瘍由来かについては、不確かであり得る。いくつかの実施形態においては、配列プロセッサ２０５は、代替深さとの比較のために、複数の閾値深さのうちの１つを選択し得る。選択は、処理されるサンプルのタイプ、ノイズレベル、信頼レベル、または他の要因に基づき得る。

ステップ２０４０において、スコアエンジン２３５は、ｇＤＮＡサンプルのシーケンスリードのｇＤＮＡ深さ品質スコアを決定する。一実施形態においては、スコアエンジン２３５は、ｇＤＮＡサンプルの代替深さを使用して、ｇＤＮＡ深さ品質スコアを計算し、ここで、Ｃは、弱い事前分布を使用して、ｇＤＮＡ深さ品質スコアを平滑化するための、事前決定された定数（例えば、２）であり、それは、ゼロによる除算を回避する。

ステップ２０５０において、スコアエンジン２３５は、ｇＤＮＡサンプルのシーケンスリードの比を決定する。比は、処理されるサンプルにおける、観測されたｃｆＤＮＡ頻度と観測されたｇＤＮＡ頻度を表し得る。一実施形態においては、スコアエンジン２３５は、ｃｆＤＮＡサンプルおよびｇＤＮＡサンプルの深さおよび代替深さを使用して、比を計算する。

スコアエンジン２３５は、弱い事前分布によって比を平滑化するために、事前決定された定数Ｃ₁、Ｃ₂、Ｃ₃、およびＣ₄を使用し得る。例として、定数は、Ｃ₁＝２、Ｃ₂＝４、Ｃ₃＝２、およびＣ₄＝４であり得る。したがって、スコアエンジン２３５は、比の分母における深さまたは代替深さの一方がゼロに等しい場合、ゼロによる除算を回避し得る。したがって、スコアエンジン２３５は、比をある値、例えば、１または０．５に導くために、事前決定された定数を使用し得る。

ステップ２０６０において、配列プロセッサ２０５は、ｇＤＮＡ深さ品質スコアが、閾値スコア（例えば、１）以上であるかどうか、また比が、閾値比（例えば、６）よりも小さいかどうかを決定する。ｇＤＮＡ深さ品質スコアが閾値スコアよりも小さい、または比が閾値比以上であると決定したのに応答して、配列プロセッサ２０５は、候補バリアントのｇＤＮＡサンプルとの関連付けに関して、不確実な証拠が存在すると決定する。言い換えると、候補バリアントは、「ブラディシュ（ｂｌｏｏｄｉｓｈ）」に思えるが、対応する変異が健康な血液細胞において見つけられた明確な証拠が存在しないので、配列プロセッサ２０５は、候補バリアントが血液由来か、それとも腫瘍由来かについて不確かであり得る。

ステップ２０７０において、ｇＤＮＡ深さ品質スコアが閾値スコア以上であり、比が閾値比よりも小さいと決定されたのに応答して、配列プロセッサ２０５は、候補バリアントが、ｇＤＮＡサンプルのヌクレオチド変異とおそらく関連付けられると決定する。言い換えると、配列プロセッサ２０５は、対応する変異が健康な血液細胞において見つけられたことの明確な証拠は存在しないが、候補バリアントは、標準よりも「ブラディア（ｂｌｏｏｄｉｅｒ）」に思えると決定する。

したがって、配列プロセッサ２０５は、比およびｇＤＮＡ深さ品質スコアを使用して、ジョイントモデル２２５を調整し、ある候補バリアントが、偽陽性としてふるい落とされるべきか（例えば、最初は腫瘍由来と予測されたが、実際には血液由来であるか）、真陽性であるか、それとも不十分な証拠または信頼性のせいで、どちらかの区分に分類するか不確かであるかを決定する際に、より大きい粒度を提供し得る。例えば、方法２０００の結果に基づいて、配列プロセッサ２０５は、ジョイントモデル２２５のヒンジ損失関数のためのパラメータのうちの１つまたは複数（例えば、ｋパラメータ）を変更し得る。いくつかの実施形態においては、配列プロセッサ２０５は、方法２０００の１つまたは複数のステップを使用して、候補バリアントを、異なる区分に、例えば、（例えば、図２１Ａ～図２１Ｂに示されるように）ｇＤＮＡとの関連付けが「明確」、「可能性が高い」、または「不確か」に割り当てる。

ＶＩＩＩ．Ｂ．例示的な決定木
様々な実施形態においては、処理システム２００は、図２０に示された方法２０００のフローチャートを参照して説明されるステップに加えて、１つまたは複数のフィルタを使用して、候補バリアントを処理する。配列プロセッサ２０５は、決定木の一部として、配列において、フィルタを実施し得、配列プロセッサ２０５は、例えば、与えられた候補バリアントが、基準のうちの少なくとも１つを満たして、ふるい分けられたために、与えられた候補バリアントが、決定木を「出る」まで、フィルタの基準をチェックし続ける。ふるい分けられた候補バリアントは、（例えば、白血球細胞ｇＤＮＡと関連付けられた）健康な個人において自然に発生する、またはプロセスエラーに起因する、変異のソースまたは原因によって、候補バリアントが、考慮されることができることを示し得る。

いくつかの実施形態においては、配列プロセッサ２０５は、シーケンスリードについての品質スコアが存在しないと決定したのに応答して、ｃｆＤＮＡサンプルのシーケンスリードの候補バリアントをふるい分ける。スコアエンジン２３５は、図３、図４、および図９を参照して先に説明されたような、ノイズモデル２２５を使用して、候補バリアントについての品質スコアを決定し得る。スコアエンジン２３５は、塩基アライメントを用いずに、品質スコアを決定し得る。いくつかの実施形態においては、品質スコアは、ジョイントモデル２２５についてのトレーニングデータの不足、または与えられた候補バリアントについての有益なパラメータを生成できない貧弱なトレーニングデータのせいで、いくつかのサンプルまたは候補バリアントについて、見当たらないことがある。例えば、シーケンスリードにおける高いノイズレベルは、有益なトレーニングデータの利用不可能性をもたらし得る。スコアエンジン２３５は、単一のバリアントが処理されるかどうか、または配列プロセッサ２０５がターゲットパネルに対してコントロールしているかどうかに基づいて、ジョイントモデル２２５の特異性および選択性を調整し得る。他の例として、配列プロセッサ２０５は、候補バリアントが、エッジバリアントアーチファクトである、閾値よりも小さい（例えば、２００シーケンスリードの）ｃｆＤＮＡ深さを有する、閾値よりも小さい（例えば、６０の）ｃｆＤＮＡ品質スコアを有する、またはヒト白血球抗原（ＨＬＡ）、例えば、ＨＬＡ－Ａに対応すると決定したのに応答して、候補バリアントをふるい分ける。ＨＬＡ－Ａと関連付けられる配列は、アライメントするのが難しいことがあるので、配列プロセッサ２０５は、これらの領域における配列に対して、カスタムフィルタリング、またはバリアントコーリングプロセスを実行し得る。

いくつかの実施形態においては、配列プロセッサ２０５は、生殖細胞系列変異と関連付けられると決定された候補バリアントをふるい分ける。配列プロセッサ２０５は、候補バリアントが、与えられた生殖細胞系列変異イベントに対応する適切な頻度で発生し、生殖細胞系列イベントと関連付けられることが知られた（例えば、ヌクレオチド配列における）特定の１つまたは複数の位置に存在すると決定することによって、候補バリアントが生殖細胞系列であると決定し得る。加えて、配列プロセッサ２０５は、ｇＤＮＡ頻度の点推定を決定し得、ここで、Ｃは、定数（例えば、０．５）である。

配列プロセッサ２０５は、ｐｏｉｎｔ_afDNAが、閾値点推定閾値（例えば、０．３）よりも大きいと決定したのに応答して、候補バリアントが生殖細胞系列であると決定し得る。いくつかの実施形態においては、配列プロセッサ２０５は、局所配列反復と関連付けられたバリアントの数が、閾値よりも大きいと決定したのに応答して、候補バリアントをふるい分ける。例えば、「ＡＡＡＡＡＡ」または「ＡＴＡＴＡＴＡＴ」局所配列反復は、局所エラーレートの増加を引き起こす、ポリメラーゼスリップの結果であり得る。

ＶＩＩＩ．Ｃ．調整されたジョイントモデルについての例
図２１Ａは、一実施形態に従った、ｃｆＤＮＡサンプルの候補バリアントの例示的なカウントの表である。図２１Ａ～図２１Ｂおよび図２２における例示的なデータは、図３３Ａ～図３３Ｃを参照して以下で説明される、無細胞ゲノム研究の個人のサンプルセットから獲得されたシーケンスリードを使用して、生成された。ｃｆＤＮＡサンプルは、癌または別のタイプの疾病を有することが知られた個人からのサンプルを含む。図２１Ａに示される例においては、処理システム２００は、図２０の方法２０００を使用して、候補バリアントのうちの２３８０５は、ｇＤＮＡに「明確に」関連付けられ（例えば、生殖細胞系列変異または血液におけるクローン造血によって占められ）、候補バリアントのうちの１３６０は、ｇＤＮＡに「おそらく」関連付けられる（例えば、「ブラディア」または閾値信頼レベルよりも大きい）ことを決定する。したがって、処理システム２００は、これらの候補バリアントを、例えば、これらの候補バリアントが血液由来として分類されるように、ジョイントモデル２２５または別のパイプラインからふるい落とし得る。処理システム２００は、２６０７の「不確かな」（例えば、「ブラディシュ」）候補バリアントのカウントを、腫瘍由来としても、血液由来としても区分けしないと決定し得る。したがって、例えば、方法２０００からのｇＤＮＡ比およびｇＤＮＡ深さ品質スコアを使用して、ジョイントモデル２２５を調整することによって、処理システム２００は、候補バリアントのソースを分類する際の粒度（例えば、信頼度の異なるレベル）を改善する。図２１Ｂは、一実施形態に従った、健康な個人からのｃｆＤＮＡサンプルの候補バリアントの例示的なカウントの表である。図２１Ａ～図２１Ｂに示される例示的なカウントは、２００リードの閾値深さ、（例えば、フレッドスケールでの）６０の閾値品質スコア、生殖細胞系列変異頻度閾値からの０．００５の平均２乗偏差を有する対応する位置における品質スコア、０．３のｇＤＮＡ頻度の閾値点推定、０．０５の閾値アーチファクト再発レート、７の閾値局所配列反復カウント、０．８の（例えば、ｃｆＤＮＡサンプルの真の代替頻度がｇＤＮＡサンプルの真の代替頻度の関数よりも大きい）閾値確率、０の閾値ｇＤＮＡ深さ、１の閾値ｇＤＮＡ深さ品質スコア、および６の閾値ｇＤＮＡサンプル比を使用して、処理システム２００によって決定された。さらに、処理システム２００は、品質スコアを有さない候補バリアント、体細胞バリアント、およびＨＬＡ－Ａ領域をふるい落とした。

図２２は、一実施形態に従った、ｃｆＤＮＡとｇＤＮＡの比に基づいてプロットされた候補バリアントの図である。被験者の多数のプロットされた候補バリアントの各々について、ｘ軸の値は、ｇＤＮＡサンプルにおいて観測されたＡＦを表し、ｙ軸は、被験者の対応するｃｆＤＮＡサンプルにおいて観測されたＡＦを表す。図２２に示される例は、図１３に例示された曲線１３１０または曲線１３２０などのヒンジ関数を使用する、ジョイントモデル２２５によって合格させられた、候補バリアントを含む。この例示的なデータ、および上で列挙されたパラメータについて、処理システム２００は、相対的に高いＡＦ_cfDNA対ＡＦ_gDNA比を有する、プロットの左に向かう×印として示される、候補バリアントのクラスタは、白血球細胞において自然に発生するヌクレオチド変異と関連付けられない可能性が高く、したがって、腫瘍由来と予測されると決定する。点線２２２０は、１：１のＡＦ_cfDNA対ＡＦ_gDNA比を表す、基準線である。ヒンジ関数は、点線のグラフ２２１０によって表され、それは、必ずしも直線ではないことがある（例えば、１つまたは複数のヒンジで接続された複数の線分を含み得る）。円として示された候補バリアントのクラスタは、相対的により低いＡＦ_cfDNA対ＡＦ_gDNA比を有するが、（例えば、候補バリアントのいくつかは、２２１０よりも上にプロットされるので）２２１０によって表されるヒンジ関数を使用するとき、ジョイントモデル２２５によって依然として合格させられた。しかしながら、これらの候補バリアントのいくつかは、実際には、ｇＤＮＡ、例えば、血液由来と関連付けられることがあり、腫瘍由来とコールされる代わりに、ふるい落とされるべきである。点線２２００は、×印で示されたデータ点のクラスタにおいて、ロバストフィット回帰を使用して決定される、回帰直線である。回帰直線２２００を使用して、ヒンジ関数を調整することによって、ジョイントモデル２２５は、実際には血液由来であり得る候補バリアントのより多くを、ふるい落とすことができる。いくつかの実施形態においては、２２００、２２１０、および２２２０は、各々、原点（０，０）と交差する。処理システム２００は、（×印と円タイプの候補バリアントのクラスタの間に一般に見つけられる）三角形として示される候補バリアントのクラスタが、血液由来か、それとも腫瘍由来かについては、不確かな証拠しか存在しないと決定する。

これらの候補バリアントを捉える正確性を改善するために、処理システム２００は、図２０を参照して上で説明されたような、フィルタを使用し得る。さらに、処理システム２００は、ある条件下では、ヒンジ関数のためのより積極的なパラメータを使用することによって、ジョイントモデル２２５を調整し得る。例えば、処理システム２００は、健康なサンプルの血液におけるヌクレオチド変異の支持的な証拠である、ｇＤＮＡサンプルのＡＤが、閾値深さ（例えば、０）よりも大きいと決定したのに応答して、（例えば、図２０に示される方法２０００のステップ２０２０のために）より大きい確率閾値を使用する。いくつかの実施形態においては、処理システム２００は、より大きい確率閾値を使用する、変更されたヒンジ関数（または真陽性と偽陽性を分類するための別のタイプの関数）を決定する。例えば、変更された関数は、図２２における斜め点線に沿って、クラスタの少なくともいくつかの候補バリアントをふるい落とす、（例えば、図１３の曲線１３１０および１３２０と比べて）よりシャープなカットオフを有し得る。処理システム２００は、方法２０００のステップ２０４０およびステップ２０５０においてそれぞれ決定されるような、ｇＤＮＡサンプル品質スコアまたは比を使用して、変更された関数も調整し得る。

ＩＸ．例示的なエッジフィルタリング
ＩＸ．Ａ．アーチファクトおよび非エッジバリアントからのフィーチャの例示的なトレーニング分布
図２３Ａは、一実施形態に従った、トレーニングバリアントを使用して、アーチファクト分布および非アーチファクト分布を生成するプロセスを示している。エッジフィルタ２５０は、以前のサンプル（例えば、トレーニングサンプル）からのトレーニングデータ２３０５を使用して、トレーニングプロセス２３００中に、アーチファクト分布２３４０および非アーチファクト分布２３４５を生成する。ひとたび生成されると、アーチファクト分布２３４０および非アーチファクト分布２３４５は、各々、後の必要とされる時の取り出しのために、（例えば、モデルデータベース２１５に）記憶されることができる。

トレーニングデータ２３０５は、濃縮された配列１８０から獲得されたシーケンスリードなど、様々なシーケンスリードを含む（図１Ｂを参照）。トレーニングデータ２３０５におけるシーケンスリードは、ゲノム上の様々な位置に対応することができる。様々な実施形態においては、トレーニングデータ２３０５におけるシーケンスリードは、２つ以上のトレーニングサンプルから獲得される。

エッジフィルタ２５０は、トレーニングデータ２３０５におけるシーケンスリードを、アーチファクトトレーニングデータ２３１０Ａ区分、参照対立遺伝子トレーニングデータ２３３０区分、または非アーチファクトトレーニングデータ２３１０Ｂ区分のうちの１つに区分けする。様々な実施形態においては、アーチファクトトレーニングデータ２３１０Ａ区分、参照対立遺伝子トレーニングデータ２３３０区分、または非アーチファクトトレーニングデータ２３１０Ｂ区分のいずれかに配置されるための基準を、シーケンスリードが満たしていないと決定したのに応答して、トレーニングデータ２３０５におけるシーケンスリードは、「結果なし」または「分類なし」区分に区分けされることもできる。

図２３Ａに示されるように、複数のグループのアーチファクトトレーニングデータ２３１０Ａ、複数のグループの参照対立遺伝子トレーニングデータ２３３０、および複数のグループの非アーチファクトトレーニングデータ２３１０Ｂが、存在し得る。一般に、グループ内にあるシーケンスリードは、ゲノム内の共通の位置を横断する（位置に重なる）。様々な実施形態においては、グループ内のシーケンスリードは、単一のトレーニングサンプル（例えば、１人の個人から獲得されたトレーニングサンプル）に由来し、ゲノム内の共通の位置を横断する。例えば、Ｍ人の異なる個人から獲得されたＭ個の異なるトレーニングサンプルからのシーケンスリードを与えられた場合、Ｍ個の異なるグループが、存在することができ、各々は、Ｍ個の異なるトレーニングサンプルのうちの１つからのシーケンスリードを含む。以降の説明は、ゲノム上の共通の位置を横断するシーケンスリードのグループに言及するが、説明は、さらに、ゲノム上の他の位置を横断するシーケンスリードの他のグループに拡張されることができる。

ゲノム上の共通の位置に対応するシーケンスリードは、１）参照対立遺伝子と異なる位置にヌクレオチド塩基（例えば、ＡＬＴ）を含むシーケンスリードと、２）参照対立遺伝子と一致する位置にヌクレオチド塩基を含むシーケンスリードとを含む。図１Ｂを再び参照すると、シーケンスリードは、ＡＬＴ（例えば、濃縮された配列１８０Ａまたは１８０Ｃにおけるチミン）を含む濃縮された配列１８０から獲得されることができ、または参照対立遺伝子（例えば、濃縮された配列１８０Ｂにおけるシトシン）を含むことができる。

エッジフィルタ２５０は、ＡＬＴを含むシーケンスリードを、アーチファクトトレーニングデータ２３１０Ａまたは非アーチファクトトレーニングデータ２３１０Ｂの一方に区分けする。具体的には、１つまたは複数の基準を満たすシーケンスリードは、アーチファクトトレーニングデータ２３１０Ａとして区分けされる。基準は、ＡＬＴの変異のタイプと、シーケンスリードにおけるＡＬＴのロケーションとの組み合わせであることができる。変異のタイプの例を参照すると、アーチファクトトレーニングデータとして区分けされるシーケンスリードは、シトシンからチミンへの（Ｃ＞Ｔ）ヌクレオチド塩基置換、またはグアニンからアデニンへの（Ｇ＞Ａ）ヌクレオチド塩基置換のどちらかである代替対立遺伝子を含む。代替対立遺伝子のロケーションの例を参照すると、代替対立遺伝子は、シーケンスリードのエッジからの塩基対の閾値数より小さい。一実施形態においては、塩基対の閾値数は、ヌクレオチド塩基対２５個であるが、閾値数は、実施によって変化し得る。

図２３Ｂは、一実施形態に従った、アーチファクトトレーニングデータ２３１０Ａ区分に区分けされるシーケンスリードを示している。加えて、シーケンスリードの各々は、１つまたは複数の基準を満たす。例えば、各シーケンスリードは、Ｃ＞Ｔヌクレオチド塩基置換である、代替対立遺伝子２３７５Ａを含む。加えて、各シーケンスリードにおける代替対立遺伝子２３７５Ａは、閾値エッジ距離２３６０よりも小さいエッジ距離２３５０Ａに見つけられる。

非アーチファクトトレーニングデータ２３１０Ｂ区分に区分けされる、代替対立遺伝子を有するシーケンスリードは、アーチファクトトレーニングデータ２３１０Ａとして区分けされる基準を満たさない、代替対立遺伝子を有する他のすべてのシーケンスリードである。例えば、Ｃ＞ＴまたはＧ＞Ａヌクレオチド塩基置換の一方ではない代替対立遺伝子を含む、いずれのシーケンスリードも、非エッジトレーニングバリアントとして区分けされる。別の例として、ヌクレオチド変異のタイプにかかわらず、シーケンスリードのエッジから閾値数の塩基対よりも大きいところに見つけられる代替対立遺伝子を含む、いずれのシーケンスリードも、非アーチファクトトレーニングデータ２３１０Ｂとして区分けされる。一実施においては、塩基対の閾値数は、ヌクレオチド塩基対２５個であるが、閾値数は、実施によって変化し得る。

図２３Ｃは、一実施形態に従った、非アーチファクトトレーニングデータ２３１０Ｂ区分に区分けされるシーケンスリードを示している。ここでは、シーケンスリードの各々は、両方の基準を満たさない代替対立遺伝子２３７５Ｂを含む。例えば、各代替対立遺伝子２３７５Ｂは、代替対立遺伝子２３７５Ｂのロケーションにかかわらず、非Ｃ＞Ｔまたは非Ｇ＞Ａヌクレオチド塩基置換のどちらかであることができる。別の例として、各代替対立遺伝子２３７５Ｂは、Ｃ＞ＴまたはＧ＞Ａヌクレオチド塩基置換であるが、閾値エッジ距離２３６０よりも大きいエッジ距離２３５０Ｂのところに見つけられる。

ここで参照対立遺伝子トレーニングデータ２３３０区分を参照すると、参照対立遺伝子を含むシーケンスリードは、参照対立遺伝子トレーニングデータ２３３０区分に区分けされる。図２３Ｄは、一実施形態に従った、参照対立遺伝子トレーニングデータ２３３０区分に区分けされる、ゲノム内の同じ位置に対応するシーケンスリードを示している。例として、図２３Ｄに示されるシーケンスリードは、各々、（図１Ｂに示されるシトシンヌクレオチド塩基１６２に一致する）参照対立遺伝子２３８０を含む。加えて、参照対立遺伝子２３８０を含むこれらのシーケンスリードは、参照対立遺伝子とシーケンスリードのエッジとの間のエッジ距離２３５０Ｃにかかわらず、参照対立遺伝子トレーニングデータ２３３０に区分けされる。

図２３Ａに戻ると、エッジフィルタ２５０は、アーチファクトトレーニングデータ２３１０Ａ、非アーチファクトトレーニングデータ２３１０Ｂ、および参照対立遺伝子トレーニングデータ２３３０の各々に区分けされるシーケンスリードのグループから、フィーチャを抽出する。シーケンスリードの各グループは、ゲノム内の同じ位置に対応する。具体的には、アーチファクトフィーチャ２３２０および非アーチファクトフィーチャ２３２５が、アーチファクトトレーニングデータ２３１０Ａ、非アーチファクトトレーニングデータ２３１０Ｂ、および参照対立遺伝子トレーニングデータ２３３０のうちの１つ、２つ、または３つすべてにおけるシーケンスリードから、抽出される。アーチファクトフィーチャ２３２０および非アーチファクトフィーチャ２３２５の例は、エッジからの統計的距離フィーチャ、有意性スコアフィーチャ、および対立遺伝子フラクションフィーチャを含む。これらのフィーチャの各々は、図２３Ｅ～図２３Ｇに関連して、以下でさらに詳細に説明される。

図２３Ｅは、一実施形態に従った、エッジからの統計的距離フィーチャを抽出するためのプロセスの例示的な図である。ここでは、エッジフィルタ２５０は、アーチファクトトレーニングデータ２３１０Ａにおけるシーケンスリードのグループと、非アーチファクトトレーニングデータ２３１０Ｂにおけるシーケンスリードのグループから、それぞれ、エッジからのアーチファクト統計的距離２３２２Ａフィーチャとエッジからの非アーチファクト統計的距離２３２２Ｂフィーチャを抽出する。各エッジからの統計的距離２３２２Ａおよび２３２２Ｂフィーチャは、シーケンスリードにおける代替対立遺伝子２３７５と、シーケンスリードの対応するエッジとの間の距離（例えば、ヌクレオチド塩基対の数）の平均、中央値、または最頻値を表すことができる。より具体的には、エッジからのアーチファクト統計的距離２３２２Ａは、アーチファクトトレーニングデータ２３１０Ａのグループ内のシーケンスリードにわたる、エッジ距離２３５０Ａ（図２３Ｂを参照）の組み合わせを表す。同様に、エッジからの非アーチファクト統計的距離２３２２Ｂは、アーチファクトトレーニングデータ２３１０Ｂのグループ内のシーケンスリードにわたる、エッジ距離２３５０Ｂ（図２３Ｃを参照）の組み合わせを表す。

図２３Ｆは、一実施形態に従った、有意性スコアフィーチャを抽出するためのプロセスの例示的な図である。エッジフィルタ２５０は、アーチファクトトレーニングデータ２３１０Ａにおけるシーケンスリードのグループと、参照対立遺伝子トレーニングデータ２３３０におけるシーケンスリードのグループの組み合わせから、アーチファクト有意性スコア２３２３Ａフィーチャを抽出する。同様に、エッジフィルタ２５０は、非アーチファクトトレーニングデータ２３１０Ｂにおけるシーケンスリードのグループと、参照対立遺伝子トレーニングデータ２３３０におけるシーケンスリードのグループの組み合わせから、非アーチファクト有意性スコア２３２３Ｂフィーチャを抽出する。一般に、アーチファクトトレーニングデータ２３１０Ａ、非アーチファクトトレーニングデータ２３１０Ｂ、および参照対立遺伝子トレーニングデータ２３３０からのシーケンスリードのグループは、ゲノムにおける共通の位置に対応する。したがって、各位置について、その位置についてのアーチファクト有意性スコア２３２３Ａおよび非アーチファクト有意性スコア２３２３Ｂが、存在することができる。以降の説明は、アーチファクト有意性スコア２３２３Ａを抽出するプロセスに言及するが、同じ説明が、非アーチファクト有意性スコア２３２３Ｂを抽出するプロセスに適用される。

アーチファクト有意性スコア２３２３Ａフィーチャは、アーチファクトトレーニングデータ２３１０Ａにおけるシーケンスリードのグループにおける（例えば、シーケンスリードのエッジからの距離または別の尺度に関する）代替対立遺伝子２３７５Ａのロケーションが、参照対立遺伝子トレーニングデータ２３３０におけるシーケンスリードのグループにおける参照対立遺伝子２３８０のロケーションと、統計的に有意な程度、十分に異なるかどうかの表現である。具体的には、アーチファクト有意性スコア２３２３Ａは、アーチファクトトレーニングデータ２３１０Ａにおける代替対立遺伝子２３７５Ａのエッジ距離２３５０Ａ（図２３Ｂを参照）と、参照対立遺伝子トレーニングデータ２３３０における参照対立遺伝子２３８０のエッジ距離２３５０Ｃ（図２３Ｄを参照）との間の比較である。

様々な実施形態においては、エッジフィルタ２５０は、エッジ距離の間の比較について、統計的有意性テストを実行する。一例として、統計的有意性テストは、ウィルコクソン順位和検定である。ここで、エッジフィルタ２５０は、アーチファクトトレーニングデータ２３１０Ａにおける各シーケンスリードと、参照対立遺伝子トレーニングデータ２３３０における各シーケンスリードに、それぞれ、各エッジ距離２３５０Ａおよび２３５０Ｃの大きさに応じて、順位を割り当てる。例えば、最も大きいエッジ距離２３５０Ａまたは２３５０Ｃを有するシーケンスリードは、最も高い順位（例えば、順位＝１）を割り当てられることができ、２番目に大きいエッジ距離２３５０Ａまたは２３５０Ｃを有するシーケンスリードは、２番目に高い順位（例えば、順位＝２）を割り当てられることができ、以降も同様である。エッジフィルタ２５０は、アーチファクトトレーニングデータ２３１０Ａにおける代替対立遺伝子２３７５のロケーションが、参照対立遺伝子トレーニングデータ２３３０Ａにおける参照対立遺伝子２３８０のロケーションと有意に異なるかどうかを決定するために、アーチファクトトレーニングデータ２３１０Ａにおけるシーケンスリードの中央値順位を、参照対立遺伝子トレーニングデータ２３３０におけるシーケンスリードの中央値順位と比較する。例として、中央値順位の間の比較は、中央値順位が有意に異なるかどうかに関する統計的優位性スコアを表す、ｐ値をもたらすことができる。様々な実施形態においては、アーチファクト有意性スコア２２２３Ａは、フレッドスコアによって表され、それは、
フレッドスコア＝－１０ｌｏｇ₁₀Ｐ
として表現されることができ、ここで、Ｐは、ｐ値スコアである。要するに、低いアーチファクト有意性スコア２３２３Ａは、中央値順位の差が、統計的に有意ではないことを表し、一方、高いアーチファクト有意性スコア２３２３Ａは、中央値順位の差が、統計的に有意であることを表す。

図２３Ｇは、一実施形態に従った、対立遺伝子フラクションフィーチャを抽出するためのプロセスの例示的な図である。対立遺伝子フラクションフィーチャとは、代替対立遺伝子２３７５Ａまたは２３７５Ｂの対立遺伝子フラクションのことを指す。具体的には、アーチファクト対立遺伝子フラクション２３２４Ａとは、代替対立遺伝子２３７５Ａ（図２３Ｂを参照）の対立遺伝子フラクションのことを指し、一方、非アーチファクト対立遺伝子フラクション２３２４Ｂとは、代替対立遺伝子２３７５Ｂ（図２３Ｃを参照）の対立遺伝子フラクションのことを指す。対立遺伝子フラクションは、代替対立遺伝子を含む、ゲノム内の位置に対応する、シーケンスリードのフラクションを表す。例えば、アーチファクトトレーニングデータ２３１０Ａにおいては、代替対立遺伝子２３７５Ａを含む、合計Ｘ個のシーケンスリードが、存在し得る。非アーチファクトトレーニングデータ２３１０Ｂにおいても、代替対立遺伝子２３７５Ｂを含む、合計Ｙ個のシーケンスリードが、存在し得る。加えて、参照対立遺伝子トレーニングデータ２３３０において、参照対立遺伝子を有する、合計Ｚ個のシーケンスリードが、存在し得る。したがって、代替対立遺伝子２３７５Ａのアーチファクト対立遺伝子フラクション２３２４Ａは、

と表されることができる。加えて、代替対立遺伝子２３７５Ｂの非アーチファクト対立遺伝子フラクション２３２４Ｂは、

と表されることができる。

図２３Ａに戻ると、エッジフィルタ２５０は、シーケンスリードのグループから抽出されたアーチファクトフィーチャ２３２０を、ゲノムの様々な位置にわたって集め、アーチファクト分布２３４０を生成する。加えて、エッジフィルタ２５０は、シーケンスリードのグループから抽出された非アーチファクトフィーチャ２３２５を、ゲノムの様々な位置にわたって集め、非アーチファクト分布２３４５を生成する。図２３Ａは、アーチファクト分布２３４０を生成するために、３つの異なるフィーチャ２３２０Ａが使用され、非アーチファクト分布２３４５を生成するために、３つの異なるフィーチャ２３２０Ｂが使用される、１つの特定の実施形態を示している。他の実施形態においては、アーチファクト分布２３４０または非アーチファクト分布２３４５を生成するために、より少数または多数の各タイプのフィーチャ２３２０Ａまたは２３２０Ｂが、使用される。

図２３Ｈおよび図２３Ｉは、様々な実施形態に従った、エッジバリアントを同定するために使用される例示的な分布を示している。具体的には、図２３Ｈは、アーチファクトフィーチャ２３２０または非アーチファクトフィーチャ２３２５のうちの一方のタイプから生成される、分布２３４０または２３４５を示している。図２３Ｇは、例示のために、正規分布を示しているが、実際には、分布２３４０および２３４５は、フィーチャ２３２０または２３２５の値に応じて、変化する。

別の実施形態においては、エッジフィルタ２５０は、単一の分布２３４０または２３４５を生成するために、複数のアーチファクトフィーチャ２３２０または非アーチファクトフィーチャ２３２５を使用し得る。例えば、図２３Ｉは、２つのタイプのアーチファクトフィーチャ２３２０、または２つのタイプの非アーチファクトフィーチャ２３２５から生成される、分布２３４０または２３４５を示している。ここでは、分布２３４０または２３４５は、第１のフィーチャと第２のフィーチャの間の関係を記述する。さらなる実施形態においては、分布２３４０または２３４５は、３つ以上のタイプのアーチファクトフィーチャ２３２０または非アーチファクトフィーチャ２３２５の間の関係を表すことができる。

ＩＸ．Ｂ．エッジバリアントを同定するためのサンプル特異的なレートの例示的な決定
図２４Ａは、一実施形態に従った、サンプル特異的な予測されるレートを決定するためのブロック図フロープロセス２４００を示している。一般に、エッジフィルタ２５０は、サンプル２４０５に特異的な予測されるレート２４２０を決定するために、サンプル２４０５におけるコールされたバリアントのサンプルワイドな分析を行う。言い換えると、図２４Ａに示されるプロセス２４００は、各サンプル２４０５に対して一度、行われることができる。

コールされたバリアントのシーケンスリード２４１０は、サンプル２４０５から獲得される。図１Ａおよび図３に関連して上で説明されたように、サンプル２４０５からコールされたバリアントを同定するためのステップは、方法１００または３００の１つまたは複数のステップを含むことができる。一般に、コールされたバリアントのシーケンスリード２４１０とは、コールされたバリアントが対応するゲノム内の位置を横断するシーケンスリードのグループのことを指す。

各コールされたバリアントについて、エッジフィルタ２５０は、コールされたバリアントのシーケンスリード２４１０からフィーチャ２４１２を抽出する。コールされたバリアントのシーケンスリード２４１０から抽出される各フィーチャ２４１２は、シーケンスリードにおける代替対立遺伝子のエッジからの統計的距離、代替対立遺伝子の対立遺伝子フラクション、有意性スコア、別のタイプのフィーチャ、またはそれらの何らかの組み合わせであることができる。エッジフィルタ２５０は、サンプル２４０５のコールされたバリアントにわたって抽出されたフィーチャ２４１２を、サンプル２４０５についての予測されるレート２４２０を決定するサンプル特異的なレート予測モデル２４１５（例えば、図２に示されるモデル２２５のうちの１つ）への入力として適用する。サンプル２４０５についての予測されるレート２４２０とは、コールされたバリアントがエッジバリアントである推定される比率のことを指す。様々な実施形態においては、予測されるレート２４２０は、０から１の間、例えば、０以上１以下の値である。

図２４Ａに示されるように、サンプル特異的なレート予測モデル２４１５は、先に生成されたアーチファクト分布２３４０および非アーチファクト分布２３４５の両方を使用する。サンプル特異的なレート予測モデル２４１５は、サンプル２４０５におけるコールされたバリアントのシーケンスリードから抽出されたフィーチャ２４１２を、アーチファクト分布２３４０および非アーチファクト分布２３４５を考慮して、分析することによって、予測されるレート２４２０を決定する。例として、サンプル特異的なレート予測モデル２４１５は、アーチファクト分布２３４０および非アーチファクト分布２３４５を与えられた場合に、観測されたフィーチャ２４１２を説明する予測されるレート２４２０を決定するために、フィッティング度を実行する。一実施形態においては、サンプル特異的なレート予測モデル２４１５は、アーチファクト分布２３４０および非アーチファクト分布２３４５を考慮して、フィーチャ２４１２を観測する尤度を最大化する予測されるレート２４２０を推定するために、最尤推定を実行する。しかしながら、他の実施は、他のプロセスを使用し得る。

一実施形態においては、推定のための尤度式は、
Ｌ（ｗ｜ｘ）＝ｗ×（Ｌ（ｘ）｜ｄ₁）＋（１－ｗ）×（Ｌ（ｘ）｜ｄ₂）（１）
と表現されることができ、ここで、ｗは、予測されるレート２４２０であり、ｘは、フィーチャ２４１２を表し、ｄ₁は、アーチファクト分布２３４０を表し、ｄ₂は、非アーチファクト分布２３４５を表す。言い換えると、式１は、アーチファクト分布２３４０を考慮したフィーチャ２４１２を観測する尤度と、非アーチファクト分布２３４５を考慮したフィーチャ２４１２を観測する尤度との加重和である。したがって、最尤推定は、条件のあるセットを与えられた場合、この全体的な尤度を最大化する、予測されるレート２４２０（例えば、レートｗ）を決定する。

図２４Ａに示されるように、エッジフィルタ２５０は、コールされたバリアント３１０のシーケンスリードから複数のフィーチャ２４１２を抽出し、フィーチャ２４１２をレート予測モデル２４１５に提供することができる。例えば、３つのタイプのフィーチャ（例えば、シーケンスリードにおける代替対立遺伝子のエッジからの統計的距離、代替対立遺伝子の対立遺伝子フラクション、または有意性スコア）が、存在し得る。さらに一般化して、ｎ個の異なるタイプのフィーチャ２４１２（例えば、ｘ₁、ｘ₂、．．．ｘ_n）が、レート予測モデル２４１５に提供されると仮定すると、式１は、

と表現されることができる。

要するに、サンプル２４０５におけるコールされたバリアントのシーケンスリードから抽出されたフィーチャ２４１２の分布が、非アーチファクト分布２３４５よりもアーチファクト分布２３４０に類似していると決定したのに応答して、レート予測モデル２４１５は、コールされたバリアントのうちの高い推定される比率が、おそらくエッジバリアントであることを示す、高い予測されるレート２４２０を決定する。あるいは、サンプル２４０５におけるバリアントのシーケンスリードから抽出されたフィーチャ２４１２の分布が、アーチファクト分布２３４０よりも非アーチファクト分布２３４５に類似しているのに応答して、レート予測モデル２４１５は、コールされたバリアントのうちの低い推定される比率が、おそらくエッジバリアントであることを示す、低い予測されるレート２４２０を決定する。以下で説明されるように、予測されるレート２４２０は、サンプルにおいてエッジバリアントが同定される、「積極さ」のレベルをコントロールするために、使用されることができる。したがって、高い予測されるレート２４２０を割り当てられたサンプルは、（例えば、可能性があるより多数のエッジバリアントをふるい落とすための、より広い基準を使用して）積極的にふるい分けられることができ、一方、低い予測されるレート２４２０を割り当てられたサンプルは、あまり積極的にふるい分けられないことができる。

ＩＸ．Ｃ．エッジバリアントを同定するための例示的なバリアント特異的な分析
図２４Ｂは、一実施形態に従った、エッジバリアントを同定するためのエッジバリアント予測モデル２４３５の適用を示している。バリアント特異的な分析２４５０においては、エッジフィルタ２５０は、コールされたバリアントがエッジバリアントであるかどうかを決定するために、コールされたバリアントのシーケンスリード２４１０を分析する。図２４Ｂに示されるプロセスは、単一のサンプル２４０５について検出された、各コールされたバリアントまたはコールされたバリアントのサブセットに対して行われることができる。

一実施形態においては、エッジフィルタ２５０は、コールされたバリアントの変異のタイプに基づいて、コールされたバリアントをふるい分ける。ここで、Ｃ＞ＴまたはＧ＞Ａ変異タイプではないコールされたバリアントは、自動的に非エッジバリアントとして特徴付けられることができる。あるいは、Ｃ＞ＴまたはＧ＞Ａであるいずれのコールされたバリアントも、これ以降で説明される後続ステップにおいて、さらに分析される。

図２４Ｂに示されるように、エッジフィルタ２５０は、コールされたバリアントのシーケンスリード２４１０から、フィーチャ２４１２を抽出する。コールされたバリアントのシーケンスリード２４１０の抽出されたフィーチャ２４１２は、図２４Ａに示されるのと同じ、コールされたバリアントのシーケンスリード２４１０から抽出されたフィーチャ２４１２であることができる。すなわち、フィーチャ２４１２は、フィーチャのタイプの中でもとりわけ、シーケンスリードにおける代替対立遺伝子のエッジからの統計的距離、代替対立遺伝子の対立遺伝子フラクション、または有意性スコアのうちの１つまたは複数であることができる。

エッジフィルタ２５０は、抽出されたフィーチャ２４１２を、エッジバリアント予測モデル２４３５（例えば、図２に示されるモデル２２５のうちの１つ）への入力として提供する。図２４Ｂに示されるように、エッジバリアント予測モデル２４３５は、先に生成されたアーチファクト分布２３４０および非アーチファクト分布２３４５の両方を使用する。エッジバリアント予測モデル２４３５は、コールされたバリアントがエッジバリアントである尤度を表すアーチファクトスコア２４５５、およびコールされたバリアントが非エッジバリアントである尤度を表す非アーチファクトスコア２４６０など、複数のスコアを生成する。

具体的には、エッジバリアント予測モデル２４３５は、アーチファクト分布２３４０および非アーチファクト分布２３４５を考慮して、コールされたバリアントのシーケンスリード２４１０のフィーチャ２４１２を観測する確率を決定する。一実施形態においては、エッジバリアント予測モデル２４３５は、アーチファクト分布２３４０を考慮して、フィーチャ２４１２を分析することによって、アーチファクトスコア２４５５を決定し、非アーチファクト分布２３４５を考慮して、フィーチャ２４１２を分析することによって、非アーチファクトスコア２４６０を決定する。

視覚的な例として、図２３Ｈに示される例示的な分布を再び参照すると、エッジバリアント予測モデル２４３５は、フィーチャ２４１２がｘ軸沿いのどこにあるかに基づいて、確率を識別する。この例においては、識別された確率は、エッジバリアント予測モデル２４３５によって出力される、アーチファクトスコア２４５５または非アーチファクトスコア２４６０などの、スコアであることができる。

図２４Ｂに示されるように、エッジフィルタ２５０は、アーチファクトスコア２４５５および非アーチファクトスコア２４６０を、（図２４Ａにおいて説明されるような）サンプル特異的な予測されるレート２４２０と組み合わせる。組み合わせは、コールされたバリアントが処理アーチファクトの結果である尤度を表す、エッジバリアント確率２４７０をもたらす。

一実施形態においては、エッジバリアント確率２４７０は、コールされたバリアントのシーケンスリード２４１０から抽出されたフィーチャ２４１２を考慮した、コールされたバリアントがエッジバリアントである事後確率として、表現されることができる。アーチファクトスコア２４５５と、非アーチファクトスコア２４６０と、サンプル特異的な予測されるレート２４２０との組み合わせは、

と表現されることができる。

エッジフィルタ２５０は、エッジバリアント確率２４７０を閾値と比較し得る。エッジバリアント確率２４７０が閾値よりも大きいと決定したのに応答して、エッジフィルタ２５０は、コールされたバリアントがエッジバリアントであると決定する。エッジバリアント確率２４７０が閾値よりも小さいと決定したのに応答して、エッジフィルタ２５０は、コールされたバリアントが非エッジバリアントであると決定する。

ＩＸ．Ｄ．エッジバリアントを同定するための例示的なバリアント特異的な分析
図２５は、一実施形態に従った、サンプルから検出されたエッジバリアントを同定および報告するフロープロセス２５００を示している。プロセス２５００の１つまたは複数のステップは、処理システム２００のコンポーネント、例えば、エッジフィルタ２５０、またはモデル２２５のうちの１つによって、実行され得る。２５０５において、様々なシーケンシングリードからのコールされたバリアントが、サンプルから受け取られる。２５１０において、サンプルからのコールされたバリアントのシーケンシングリードに基づいて、サンプルについて、サンプル特異的な予測されるレートが、決定される。一例として、予測されるレートは、最尤推定を実行することによって、決定される。ここで、予測されるレートは、先に生成された分布を考慮した、コールされたバリアントのシーケンスリードのフィーチャ２４１２を観測する尤度を（例えば、ある条件を与えられた場合に）最大化する、パラメータ値である。

２５１５において、各コールされたバリアントについて、１つまたは複数のフィーチャ２４１２が、バリアントのシーケンスリードから抽出される。２５２０において、抽出されたフィーチャ２４１２は、アーチファクトスコア２４５５を獲得するために、トレーニングされたモデル２２５への入力として適用される。アーチファクトスコア２４５５は、コールされたバリアントがエッジバリアントである（例えば、処理アーチファクトの結果である）尤度を表す。トレーニングされたモデル２２５は、さらに、コールされたバリアントが非エッジバリアントである（例えば、処理アーチファクトの結果ではない）尤度を表す非アーチファクトスコア２４６０を出力する。

２５２５において、各コールされたバリアントについて、コールされたバリアントについてのアーチファクトスコア２４５５、コールされたバリアントについての非アーチファクトスコア２４６０、およびサンプル特異的な予測されるレート２４２０を組み合わせることによって、エッジバリアント確率２４７０が、生成される。２５３０において、エッジバリアント確率２４７０に基づいて、コールされたバリアントが、エッジバリアント（例えば、処理アーチファクトの結果としてコールされたバリアント）として、報告されることができる。

ＩＸ．Ｅ．エッジフィルタリングの例
以下の例は、開示される実施形態をいかに作成および使用するかについての完全な開示および説明を当業者に提供するために提示され、本発明と見なされるものの範囲を限定することは意図されていない。使用される数（例えば、量、温度、濃度など）に関する正確性を保証するように、努力がなされたが、いくらかの実験誤差および偏差は、許容されるべきである。本開示を踏まえて、本発明の意図される範囲から逸脱することなく、例示される特定の実施形態において、様々な変更および変化が行われることができることが、当業者によって理解されよう。

ＩＸ．Ｅ．Ｉ．アーチファクトとクリーンなトレーニングサンプルの区分け
図２６Ａ、図２６Ｂ、および図２６Ｃは、各々、様々な実施形態に従った、アーチファクト区分または非アーチファクト区分の一方に区分けされる、例示的なトレーニングバリアントのフィーチャを示している。図２６Ａ、図２６Ｂ、および図２６Ｃに示される例は、図２３Ａに示されるプロセス２３００を使用して決定される、アーチファクト分布と、非アーチファクト分布とを含む。無細胞ＤＮＡサンプルは、乳がん、肺がん、または前立腺がんのうちの１つを有する被験者から、血液採取を通して獲得された。サンプルセットは、各タイプの癌（乳がん、肺がん、および前立腺がん）に対して、少なくとも５０人の被験者を含む。すべての参加被験者について、血液は、生検（前または後）の６週以内に同時に採取された。

ステップ１３０の後、ふるい分けられたコールされたバリアントを獲得するために、図１Ａおよび／または図３に示されるプロセスワークフローの１つまたは複数のステップに従って、ｃｆＤＮＡサンプルが、バリアントについて分析された。コールされたバリアントの各々について、コールされたバリアントの同定をもたらしたシーケンスリードが、分析される。例えば、エッジフィルタ２５０は、以下で説明されるように、ゲノム上の特定の部位について代替対立遺伝子を含むシーケンスリードを、アーチファクトグループおよび非アーチファクトグループに区分けする。加えて、ゲノム上の特定の部位について参照対立遺伝子を含むシーケンスリードが、シーケンスリードのフィーチャを決定するために後で使用される、参照対立遺伝子データとして含まれる。

エッジフィルタ２５０は、代替対立遺伝子を含むシーケンスリードを、２つの基準に基づいて、アーチファクト区分または非アーチファクト区分に区分けする。第１の基準は、ヌクレオチド塩基対２５個の閾値距離を含む。したがって、アーチファクト区分に区分けされるシーケンスリードは、シーケンスリードのエッジからヌクレオチド塩基対２５個以内にある代替対立遺伝子を含む。第２の基準は、ヌクレオチド塩基変異のタイプである。具体的には、アーチファクト区分に区分けされるシーケンスリードは、Ｃ＞ＴまたはＧ＞Ａ変異の一方である代替対立遺伝子を含む。エッジフィルタ２５０は、これら２つの基準を満たさない代替対立遺伝子を含むシーケンスリードを、非アーチファクト区分に区分けする。

エッジフィルタ２５０は、代替対立遺伝子を含むシーケンスリードと、参照対立遺伝子を含むシーケンスリードとを含む、コールされたバリアントのシーケンスリードから、フィーチャを抽出する。ここでは、抽出されるフィーチャの３つのタイプは、１）シーケンスリードのエッジからの代替対立遺伝子の中央値距離、２）代替対立遺伝子の対立遺伝子フラクション、および３）有意性スコアを含む。３つのタイプの抽出されたフィーチャは、集められ、図２６Ａ～図２６Ｃに示される、アーチファクト分布および非アーチファクト分布を生成するために、使用される。

図２６Ａ～図２６Ｃは、各々、アーチファクト分布（左）、および非アーチファクト分布（右）を示している。各分布は、アーチファクトトレーニングデータまたは非アーチファクトトレーニングデータとして区分けされるシーケンシングリードから抽出された、２つのフィーチャの間の関係を示している。具体的には、図２６Ａは、有意性スコアとエッジからの中央値距離との間の関係を示している。図２６Ｂは、対立遺伝子フラクションの分布とエッジからの中央値距離との間の関係を示している。図２６Ｃは、対立遺伝子フラクションの分布と有意性スコアとの間の関係を示している。

図２６Ａ～図２６Ｃに示されるアーチファクト分布および非アーチファクト分布にわたって、いくつかの傾向が、観測される。とりわけ、アーチファクト区分内のエッジバリアントは、高い有意性スコアを有する傾向があり（例えば、図２６Ａおよび図２６Ｃに示されるような、１００の有意性スコアにおけるエッジバリアントの高い集中）、一方、非アーチファクト区分内の非エッジバリアントは、はるかに低い有意性スコアを有する傾向がある。加えて、より低いエッジからの中央値距離は、エッジバリアントのより高い集中と相関がある。例えば、図２６Ａおよび図２６Ｂは、ともに、エッジからヌクレオチド塩基２５個の中央値距離とは対照的に、エッジからヌクレオチド塩基ゼロ個の中央値距離またはその付近に代替対立遺伝子を有するエッジバリアントのより高い集中を示している。注目すべきことに、多数の非エッジバリアントも、シーケンスリードのエッジからヌクレオチド塩基２５個以内にある代替対立遺伝子を含む（図２６Ａおよび図２６Ｂを参照）。これは、コールされたバリアントとして同定される、非Ｃ＞Ｔおよび非Ｇ＞Ａヌクレオチド塩基置換の母集団が、存在することを示す。

ＩＸ．Ｅ．ＩＩ．ヒトのＭＳＫ－ＶＰ－００５８におけるエッジバリアントの検出
図２７Ａ、図２７Ｂ、および図２７Ｃは、各々、様々な実施形態に従った、被験者から獲得された例示的な癌サンプルにおけるエッジバリアントおよび非エッジバリアントの検出を示している。サンプル（ＭＳＫ－ＶＰ－００５８）は、図２６Ａ～図２６Ｃに示される例に関連して、上で説明されたように処理された。簡潔に言うと、被験者からのｃｆＤＮＡサンプルが、図１Ａおよび／または図３に示されるプロセスワークフローの１つまたは複数のステップに従って、バリアントについて分析された。シーケンスリードは、ｃｆＤＮＡサンプルから獲得され、エッジフィルタ２５０によってグループに区分けされて、グループ内のシーケンスリードが、各々、ゲノム内の共通の位置を横断するようにされた。エッジフィルタ２５０は、シーケンスリードのグループからフィーチャを抽出した。

サンプルについての予測されるレートを決定するために、サンプル特異的な分析が、サンプルのシーケンスリードから抽出された観測されたフィーチャを使用して、行われた。具体的には、すべてのコールされたバリアント（例えば、サンプルにおいて検出された１１７個すべてのコールされたバリアント）にわたる、シーケンスリードのグループから抽出されたフィーチャが、図２６Ａ～図２６Ｃに示されるアーチファクト分布および非アーチファクト分布を考慮して、分析された。最尤推定が、式（１）を使用して、実行され、それが、ｗ＝０．９４の予測されるレートを識別した。ここでは、予測されるレートの値が高い（例えば、０から１までのスケール上において１に近い）ので、したがって、エッジフィルタ２５０は、エッジバリアントを除去するためにふるい分けられるこのサンプルを積極的にふるい分ける。

エッジバリアントを同定するために、各コールされたバリアントが、個別に分析された。エッジフィルタ２５０は、非Ｃ＞Ｔおよび非Ｇ＞Ａヌクレオチド塩基変異であるコールされたバリアントを、非エッジバリアントとして自動的に区分けした。図２７Ａ～図２７Ｃに示されるように、「偽」とラベル付けされた非エッジバリアント（例えば、「Ｘ」で示されるコールされたバリアント）が、存在する。Ｃ＞ＴまたはＧ＞Ａヌクレオチド塩基変異のどちらかであるコールされたバリアントは、さらに分析された。各コールされたバリアントについて、エッジフィルタ２５０は、コールされたバリアントのシーケンスリードからフィーチャを抽出した。エッジフィルタ２５０は、抽出されたフィーチャを、アーチファクト分布および非アーチファクト分布を考慮して、フィーチャを分析する、エッジバリアント予測モデルへの入力として適用した。モデルは、コールされたバリアントがエッジバリアントである尤度、および非エッジバリアントである尤度をそれぞれ表す、アーチファクトスコアおよび非アーチファクトスコアを出力する。エッジフィルタ２５０は、アーチファクトスコア、非アーチファクトスコア、およびｗ＝０．９４のサンプル特異的な予測されるレートを使用する、式（３）に従って、コールされたバリアントのエッジバリアント確率を計算する。エッジフィルタ２５０は、各コールされたバリアントのエッジバリアント確率を、１％の閾値確率と比較する。

エッジフィルタ２５０は、１％よりも大きいエッジバリアント確率を有するコールされたバリアントを、エッジバリアントとして区分けした（例えば、図２７Ａ～図２７Ｃに示される左パネル）。エッジフィルタ２５０は、１％よりも小さいエッジバリアント確率を有するコールされたバリアントを、非エッジバリアントとして区分けした（例えば、図２７Ａ～図２７Ｃに示される右パネル）。一般に、エッジバリアントとして区分けされたコールされたバリアントは、高い有意性スコア（図２７Ａおよび図２７Ｃを参照）、低いエッジからの中央値距離（図２７Ａおよび図２７Ｂを参照）、および低い対立遺伝子頻度（図２７Ｂおよび図２７Ｃを参照）を示した。

ＩＸ．Ｅ．ＩＩＩ．ヒトのＭＳＫ－ＶＢ－００２３におけるエッジバリアントの検出
図２８Ａ、図２８Ｂ、および図２８Ｃは、各々、様々な実施形態に従った、被験者から獲得された別の例示的な癌サンプルにおけるエッジバリアントおよび非エッジバリアントの検出を示している。サンプル（ＭＳＫ－ＶＢ－００２３）は、図２６Ａ～図２６Ｃおよび図２７Ａ～図２７Ｃに示される例に関連して、上で説明されたように処理された。

この例においては、サンプルについての予測されるレートを決定するために、サンプル特異的な分析が、行われた。具体的には、サンプルからコールされたコールされたバリアント（例えば、サンプルにおいて検出された１６１１個すべてのコールされたバリアント）のシーケンスリードからエッジフィルタ２５０によって抽出されたフィーチャが、図２６Ａ～図２６Ｃに示されるアーチファクト分布および非アーチファクト分布を考慮して、分析された。エッジフィルタ２５０は、式（１）を使用して、最尤推定を実行し、それが、ｗ＝０．０１２の予測されるレートをもたらした。ここでは、低い予測されるレート値は、サンプルにおいて検出されたコールされたバリアントの多数が、おそらく先に観測されたエッジバリアントではない尤度を示す。したがって、エッジバリアントのあまり積極的でないフィルタリングを実行するために、低い予測されるレートが、エッジフィルタ２５０によって使用される。

コールされたバリアントがエッジバリアントか、それとも非エッジバリアントかを決定するために、各コールされたバリアントが、分析された。エッジフィルタ２５０は、非Ｃ＞Ｔおよび非Ｇ＞Ａヌクレオチド塩基変異であるコールされたバリアントを、非エッジバリアントとして自動的に区分けした。これらの非エッジバリアントは、図２８Ａ～図２８Ｃに示されており、「偽」とラベル付けされている（例えば、「Ｘ」で示されるコールされたバリアント）。Ｃ＞ＴまたはＧ＞Ａヌクレオチド塩基変異のどちらかであるコールされたバリアントは、さらに分析された。各コールされたバリアントについて、エッジフィルタ２５０は、コールされたバリアントのシーケンスリードからフィーチャを抽出した。エッジフィルタ２５０は、抽出されたフィーチャを、アーチファクト分布および非アーチファクト分布を考慮して、フィーチャを分析する、エッジバリアント予測モデルへの入力として適用した。モデルは、コールされたバリアントがエッジバリアントである尤度、および非エッジバリアントである尤度をそれぞれ表す、アーチファクトスコアおよび非アーチファクトスコアを出力する。エッジフィルタ２５０は、アーチファクトスコア、非アーチファクトスコア、およびｗ＝０．０１２のサンプル特異的な予測されるレートを使用する、式（３）に従って計算される、コールされたバリアントのエッジバリアント確率を計算する。エッジフィルタ２５０は、各コールされたバリアントのエッジバリアント確率を、１％の閾値確率と比較する。

エッジフィルタ２５０は、１％よりも大きいエッジバリアント確率を有するコールされたバリアントを、エッジバリアントとして区分けした（例えば、図２８Ａ～図２８Ｃに示される左パネル）。エッジフィルタ２５０は、１％よりも小さいエッジバリアント確率を有するコールされたバリアントを、非エッジバリアントとして区分けした（例えば、図２８Ａ～図２８Ｃに示される右パネル）。

この例においては、エッジフィルタ２５０は、多数のコールされたバリアントが非エッジバリアントであると決定する。さらなる調査が、この被験者が、ハイパーミューテータ特性を示すことを明らかにした。具体的には、被験者は、多数のＣ＞Ｔ変異として現れた、アポリポプロテインＢｍＲＮＡ編集触媒ポリペプチドファミリの酵素（ＡＰＯＢＥＣ）変異シグネチャを示した。したがって、これらのコールされたバリアントがエッジバリアントでないと仮定すると、エッジフィルタ２５０は、これらのコールされたバリアントを非エッジバリアントとして区分けした。

この例は、特定のサンプルにおける観測されたバリアントの分布に基づいて、フィルタリングプロセスをフィッティングさせる、エッジフィルタ２５０の能力を示している。これらのバリアントの多数は、被験者がおそらくハイパーミューテータを含むという事実のせいで、おそらく生じているので、エッジバリアントを同定および除去する際に、エッジフィルタ２５０によって実行されるフィルタリングプロセスは、あまり積極的でないことができる。

ＩＸ．Ｅ．ＩＶ．エッジバリアントを検出するためのサンプル特異的なフィッティング
図２９は、一実施形態に従った、様々な被験者サンプルにわたるエッジバリアントの同定を示している。図２９は、図２６Ａ～図２６Ｃおよび図２７Ａ～図２７Ｃを参照して上で説明された被験者サンプルＭＳＫ－ＶＰ－００５８およびＭＳＫ－ＶＢ－００２３、ならびに多くの他の被験者サンプルからのデータを含む。図２９に示される例示的な結果は、図１Ａまたは図３に示されるワークフロープロセスの１つまたは複数のステップを使用して、決定され得る。例えば、プロセス３００のステップ３２０において決定された、各サンプルのエッジバリアントおよび非エッジバリアントが、図２９に示される結果を生成するために使用された。

具体的には、図２９は、シーケンシングリードのエッジからの中央値距離（ｘ軸）の関数として、被験者サンプルの同定されたエッジバリアントおよび非エッジバリアントの分布（ｙ軸）を示している。

図２９は、各被験者サンプルについて、エッジフィルタ２５０のフィルタリング方法が、エッジバリアントと非エッジバリアントを異なるように同定することができることを示している。例えば、ＭＳＫ－ＶＰ－００８２（例えば、上から５番目のサンプル）は、ヌクレオチド塩基対１０個から２５個の間のエッジからの中央値距離を示す、多数のエッジバリアントを含む。加えて、ＭＳＫ－ＶＰ－ＶＬ－００８１（例えば、上から６番目のサンプル）は、ヌクレオチド塩基対１０個から２５個の間のエッジからの中央値距離を示す、有意な数の非エッジバリアントを含む。このサンプル特異的なフィルタリングは、すべてのサンプルにわたって同じフィルタリング方法を利用するフィルタと比較して、エッジバリアントのより正確な同定および除去を可能にする。非サンプル特異的なフィルタの例は、代替対立遺伝子の対立遺伝子頻度が、固定された閾値量よりも大きい場合、代替対立遺伝子に対応するコールされたバリアントが、エッジバリアントとして区分けされるように、対立遺伝子頻度などのフィーチャに基づいた、固定されたカットオフを利用することができる。

ＩＸ．Ｅ．Ｖ．エッジバリアントフィルタリング方法の感度および特異度
図３０は、一実施形態に従った、ｃｆＤＮＡにおいてコールされたバリアントのフラクションとして、異なるエッジフィルタを使用してエッジバリアントを除去した後に、固形腫瘍とｃｆＤＮＡの両方においてコールされた一致バリアントを示している。図３１は、一実施形態に従った、固形腫瘍においてコールされたバリアントのフラクションとして、異なるエッジフィルタを使用してエッジバリアントを除去した後に、固形腫瘍とｃｆＤＮＡの両方においてコールされた一致バリアントを示している。特に、図３０および図３１は、ともに、適用されるエッジバリアントフィルタ（例えば、非エッジバリアントフィルタ、単純エッジバリアントフィルタ、またはサンプル特異的なエッジバリアントフィルタ）に応じて変化する、一致数を示している。

図３０および図３１に示されるデータセットについては、図３におけるステップ３２０の後、コールされたバリアントの初期セットを獲得するために、サンプルが、被験者から獲得され、図２６Ａ～図２６Ｃの例を参照して上で説明された、アッセイプロセスを使用して処理された。初期セットに含まれるこれらのコールされたバリアントは、エッジバリアントを除去するためのさらなるフィルタリングを受けていない。

２つの別個のシナリオにおいて、初期セット内のこれらのコールされたバリアントは、エッジバリアントを同定および除去するために、エッジフィルタ２５０によってさらにふるい分けられた。第１のシナリオは、これ以降、単純エッジバリアントフィルタと呼ばれる、第１のフィルタの適用を含んだ。単純エッジバリアントフィルタは、閾値距離を下回る、シーケンスリードのエッジからの中央値距離を示す、コールされたバリアントを除去する。ここでは、閾値距離は、アーチファクトトレーニングデータ区分に区分けされるトレーニングシーケンスリードにおける、エッジバリアントのロケーションに基づいて、決定される。具体的には、閾値距離は、シーケンスリードのエッジからのエッジバリアントの中央値距離と、シーケンスリードのエッジからのエッジバリアントの中央値距離の中央値絶対偏差との総和として表現される。単純エッジバリアントフィルタは、この閾値距離基準を満たすすべてのバリアントを除去する、単純な無差別フィルタである。第２のフィルタとは、図２６Ａ～図２６Ｃ、図２７Ａ～図２７Ｃ、図２８Ａ～図２８Ｃ、および図２９の例を参照して説明され、図３２を参照して以下でさらに説明される、エッジフィルタリングプロセスのことである。ここでは、サンプル特異的なエッジバリアントフィルタは、サンプルについて観測されたコールされたバリアントの分布を考慮しながら、エッジバリアントを同定する。

単純エッジバリアントフィルタまたはサンプル特異的なエッジバリアントフィルタのどちらかを使用して、エッジバリアントを除去した後に残る、非エッジバリアントは、従来の方法と比較しての分析のために保持される。これ以降で言及される場合、従来の方法とは、従来のプロセス、具体的には、メモリアルスローンケタリングのアクショナブル癌標的の統合型変異プロファイリング（ＭＳＫ－ＩＭＰＡＣＴ：ＭｅｍｏｒｉａｌＳｌｏａｎＫｅｔｔｅｒｉｎｇＩｎｔｅｇｒａｔｅｄＭｕｔａｔｉｏｎＰｒｏｆｉｌｉｎｇｏｆＡｃｔｉｏｎａｂｌｅＣａｎｃｅｒＴａｒｇｅｔｓ）パイプライン（非特許文献３）を使用する、固形腫瘍サンプルからのゲノム変化の同定のことを指す。

ここでは、非エッジバリアントであるとともに、従来の方法によって検出されもした、コールされたバリアントが、一致バリアントと呼ばれる。

図３０は、ｃｆＤＮＡにおいて検出された非エッジバリアントのフラクションとして、エッジフィルタの適用（またはエッジフィルタの非適用）の後にｃｆＤＮＡサンプルにおいて検出された一致バリアントと、固形腫瘍組織において検出されたコールされたバリアントとを示している。この比率は、

として表現されることができる。

図３１は、固形腫瘍組織において検出されたコールされたバリアントのフラクションとして、エッジフィルタの適用（またはエッジフィルタの非適用）の後にｃｆＤＮＡサンプルにおいて検出された一致バリアントと、固形腫瘍組織において検出されたコールされたバリアントとを示している。
この比率は、

として表現されることができる。

図３０および図３１に示される一致バリアントのパーセンテージは、興味深いいくつかの傾向を示している。図３０に示される一致バリアントのパーセンテージと比較して一致バリアントの著しくより大きいパーセンテージが、図３１に示されている。例として、ｃｆＤＮＡにおいてだけ検出されたコールされたバリアントのフラクションとして、乳がんにおいて検出された、一致バリアントのパーセンテージは、９．８％であり、それは、固形腫瘍組織において検出されたコールされたバリアントのフラクションとして、乳がんにおいて検出された、一致バリアントの７３％よりも著しく低い。これは、固形腫瘍組織においてバリアントをコールする、従来の方法と比較して、（癌のタイプにかかわらず）ｃｆＤＮＡサンプルにおける非エッジバリアントの同定が、より高い感度を達成することを示す。

図３０における単純エッジバリアントフィルタを参照すると、単純エッジバリアントフィルタの適用は、コールされたバリアントの特異度を増加させる。例えば、非エッジバリアントフィルタと比較して、単純エッジバリアントフィルタの適用は、乳がん（例えば、９．５％から１１％）、肺がん（例えば、４５％から４９％）、および前立腺がん（例えば、２２％から２７％）において検出されたコールされたバリアントの特異度を増加させる。しかしながら、特異度のこの増加は、図３１に示されるように、感度を代償としてもたらされる。非エッジバリアントフィルタと比較して、単純エッジバリアントフィルタの適用は、乳がん（例えば、７３％から６９％）、肺がん（例えば、７３％から７０％）、および前立腺がん（例えば、７６％から７１％）において検出されたコールされたバリアントの感度を減少させる。

それと比べて、サンプル特異的なエッジバリアントフィルタの適用は、感度を犠牲にせずに、特異度を改善する。図３０に示されるように、非エッジバリアントフィルタと比較して、サンプル特異的なエッジバリアントフィルタの適用は、乳がん（例えば、９．５％から９．８％）、肺がん（例えば、４５％から４７％）、および前立腺がん（例えば、２２％から２７％）において検出されたコールされたバリアントの特異度を増加させる。加えて、図３１に示されるように、非エッジバリアントフィルタと比較して、サンプル特異的なエッジバリアントフィルタの適用は、乳がん（例えば、７３％に維持）、肺がん（例えば、７３％に維持）、および前立腺がん（例えば、７６％に維持）において検出されたコールされたバリアントの感度を維持する。

Ｘ．例示的なバリアントコーラ
Ｘ．Ａ．異なるフィルタと点数化の例示的な組み合わせ
図３２は、一実施形態に従った、異なるタイプのフィルタおよびモデル２２５を使用して、候補バリアントを処理するための方法３２００のフローチャートである。方法３２００の１つまたは複数のステップは、本明細書において説明される他の方法と併せて、または別の方法と併せて、実行され得る。例えば、方法３２００は、例えば、バリアントをコールする前に、いずれの偽陽性も識別および除去するために、図３に示される方法３００の一部として、実行され得る。方法３２００は、いくつかの実施形態においては、図３２との関連で説明されるものとは異なるステップ、追加のステップ、もしくはより少ないステップを含み得、または図３２との関連で説明される順序とは異なる順序で実行され得る。例えば、方法３２００は、ジョイントモデルを使用して、しかし、エッジフィルタリングは用いずに、ふるい分けを行い得る。異なる例として、方法３２００は、ジョイントモデルを使用してふるい分けを行う前に、エッジフィルタリングを実行し得る。いくつかの実施形態においては、１つまたは複数のステップは、組み合わされ得、例えば、方法３２００は、同じステップにおいて、ジョイントモデルおよびエッジフィルタリングを使用する、ふるい分けを含む。

ステップ３２１０において、処理システム２００は、少なくとも１つのモデル２２５を使用して、核酸サンプル、例えば、ｃｆＤＮＡサンプルのシーケンスリードのノイズをモデル化する。モデル２２５は、シーケンスリードの位置ごとの予想されるノイズ分布を近似する、図４～図９を参照して先に説明されたような、ベイズ階層モデルであり得る。ステップ３２２０において、処理システム２００は、例えば、図１０～図１９を参照して先に説明されたように、ジョイントモデル２２５を使用して、シーケンスリードから候補バリアントをふるい分ける。いくつかの実施形態においては、処理システム２００は、ジョイントモデル２２５を使用して、ｃｆＤＮＡサンプルにおいて観測された与えられた候補バリアントが、（例えば、白血球細胞からの）対応するｇＤＮＡサンプルのヌクレオチド変異とおそらく関連付けられるかどうかを決定する。

いくつかの実施形態においては、ステップ３２３０において、処理システム２００は、エッジフィルタリングを使用して、候補バリアントをふるい分ける。特に、エッジフィルタ２５０は、例えば、図２３Ａ～図３１を参照して先に説明されたように、どれだけ積極的にサンプルをふるい分けて、エッジバリアントを除去するかを決定するために、サンプル特異的なレート予測モデル２４１５（図２４Ａを参照）およびエッジバリアント予測モデル２４３５（図２４Ｂを参照）を使用し得る。いくつかの実施形態においては、スコアエンジン２３５は、エッジフィルタリングについてのモデルを使用して、各候補バリアント（またはコールされたバリアント）を分析し、それに支持スコアを割り当て、ここで、支持スコアは、候補バリアントが非エッジバリアントである信頼性のレベルを表す。エッジフィルタ２５０は、閾値スコアよりも大きい支持スコアと関連付けられた候補バリアントを保ち、一方、エッジフィルタ２５０は、閾値スコアよりも小さい（またはそれに等しい）支持スコアと関連付けられた候補バリアントをふるい落とす。いくつかの実施形態においては、スコアエンジン２３５は、候補バリアントについての事前知識、および／または健康なサンプルのセットにおいて観測されたその染色体／位置についてのシステマティックエラーに基づいて、候補バリアントについての支持スコアを生成する。いくつかのシナリオにおいては、支持スコアは、候補バリアントを含む標的領域のシーケンシング深さに基づいて、決定され得、閾値スコアは、先にシーケンシングされたサンプルのセット（例えば、基準データ）における標的領域の平均シーケンシング深さに基づき得る。

エッジフィルタ２５０に関して上で説明されたように、サンプルから獲得されたシーケンスリードは、代替対立遺伝子を含むシーケンスリード、および参照対立遺伝子を含むシーケンスリードの両方を含み得る。具体的には、サンプルについての候補バリアントの集まりを与えられた場合、エッジフィルタ２５０は、サンプルにおけるエッジバリアントの予測されるレートを決定するために、尤度推定を実行し得る。サンプルのある条件を与えられた場合、予測されるレートは、２つの分布を考慮して、サンプルについての候補バリアントの観測された集まりを最も良く説明し得る。１つの分布は、知られたエッジバリアントのフィーチャを記述し、一方、別のトレーニングされた分布は、知られた非エッジバリアントのフィーチャを記述する。予測されるレートは、サンプルからエッジを同定し、ふるい分けるために、サンプルがどれだけ積極的に分析されるかをコントロールする、サンプル特異的なパラメータである。サンプルのエッジバリアントは、後続の検討のために（例えば、癌の存在／非存在、または癌もしくは他の疾病の尤度の決定のために）非エッジバリアントを残して、ふるい分けられ、除去される。

いくつかの実施形態においては、ステップ３２４０において、非同義フィルタ２６０は、任意選択で、非同義変異に基づいて、候補バリアントをふるい分け得る。同義変異とは対照的に、核酸配列の非同義変異は、核酸配列と関連付けられたタンパク質のアミノ酸配列の変化をもたらす。例えば、非同義変異は、個人の１つまたは複数の表現型を変更し得、または個人が癌、癌細胞、もしくは他のタイプの疾病を発症する原因となり得る（もしくはそれに対してより無防備にし得る）。いくつかの実施形態においては、非同義フィルタ２６０は、トリヌクレオチドの１つまたは複数の核酸塩基に対する変更は、変更されたトリヌクレオチドに基づいて、異なるアミノ酸が産生される原因となると決定することによって、候補バリアントは非同義変異をもたらすはずであると決定する。いくつかの実施形態においては、非同義フィルタ２６０は、非同義変異と関連付けられた候補バリアントを保ち、同義変異と関連付けられた他の候補バリアントをふるい落とすが、それは、候補バリアントの前者のグループが、個人に対して機能的影響を有する可能性がより高いからである。

Ｘ．Ｂ．組み合わせされたフィルタリングと点数化の例
以下の図３４Ａ～図３４Ｈにおける例示的なデータは、無細胞ゲノム研究の個人のサンプルセットから獲得されたシーケンスリードを使用して生成され、本明細書において説明される方法（例えば、ノイズモデリング、ジョイントモデリング、エッジフィルタリング、非同義フィルタリングなど）のうちの１つまたは複数を使用して、処理された。サンプルセットは、血液サンプル（例えば、ｃｆＤＮＡ）が獲得された、健康な個人を含む。加えて、サンプルセットは、血液サンプルおよび組織サンプル（例えば、腫瘍またはｇＤＮＡ）が獲得された、少なくとも１つのタイプの癌を有することが知られた個人を含む。データは、アメリカ合衆国およびカナダにおける約１４０のセンタにわたって、個人から収集された。図３３Ａ～図３３Ｃは、サンプルセットに関するさらなる詳細を示している。

図３３Ａは、一実施形態に従った、無細胞ゲノム研究のためのサンプルセットの個人を記述した表である。サンプルセットは、少なくとも乳がん、肺がん、前立腺がん、大腸がん、および他のタイプの癌を有することが知られたサンプルを含む。個人の人口動態データ（例えば、年齢、性別、および民族性）も、図３３Ａに示されている。図３３Ｂは、一実施形態に従った、図３３Ａの無細胞ゲノム研究のためのサンプルセットと関連付けられた癌のタイプを示すチャートである。図３３Ｃは、一実施形態に従った、図３３Ａの無細胞ゲノム研究のためのサンプルセットを記述した別の表である。特に、表は、癌の臨床病期に基づいて組織化された、癌を有することが知られたサンプルのカウントを示している。

図３４Ａは、一実施形態に従った、１つまたは複数のタイプのフィルタおよびモデルを使用して決定された、コールされたバリアントの例示的なカウントの図を示している。図の各々は、対応する個人の年齢を表すｘ軸、および処理システム２００によって処理された後のコールされたバリアントの数を表すｙ軸上にプロットされた、サンプルセットのデータ点を含む。図３４１０は、ノイズモデリングを使用して、サンプルセットのシーケンスリードを処理した結果を含む。図３４２０は、ノイズモデリングに加えて、ジョイントモデリングおよびエッジフィルタリングを使用して、サンプルセットのシーケンスリードを処理した結果を含む。図３４３０は、ジョイントモデリング、エッジフィルタリング、およびノイズモデリングに加えて、非同義フィルタリングを使用して、サンプルセットのシーケンスリードを処理した結果を含む。さらに、図３４Ｂ～図３４Ｈに示される例示的な結果も、ジョイントモデリング、エッジフィルタリング、およびノイズモデリングに加えて、非同義フィルタリングを使用して生成された。

図の進展によって例示されているように、フィルタリングの範囲が増大するにつれて、コールされたバリアントの数は、一般に減少する。したがって、例は、処理システム２００によるその非同義フィルタリング、ジョイントモデリング、エッジフィルタリング、およびノイズモデリングが、偽陽性のかなりの量をうまく識別および除去することができることを暗示する。したがって、処理システム２００は、ノイズまたはアーチファクトの様々なソースからの影響を緩和する、より正確なバリアントコーラを提供する。開示される方法を使用する、血液サンプルからのｃｆＤＮＡを分析するターゲットアッセイは、腫瘍関連のバイオロジを捕捉することができることがある。図において、コールされたバリアントのカウントと、個人の年齢との間に、僅かな比例相関が、観測され得る（例えば、図３４１０においてより明らか）。さらに、予想されるように、非癌サンプルよりも、癌サンプルについて、より多くのカウントのコールされたバリアントが、存在する。

図３４Ｂは、一実施形態に従った、乳がんを有することが知られたサンプルの例示的な品質スコアの図である。図３４Ｃは、一実施形態に従った、乳がんを有することが知られたサンプルの例示的な品質スコアの別の図である。図３４Ｄは、一実施形態に従った、肺がんを有することが知られたサンプルの例示的な品質スコアの図である。品質スコアは、図３、図４、および図９を参照して先に説明されたように、ノイズモデル２２５を使用して、スコアエンジン２３５によって決定され得る。特に、図３４Ｂ、図３４Ｃ、および図３４Ｄは、それぞれ、標準的なＰＩＫ３ＣＡ遺伝子、ＴＰ５３機能喪失（ＬｏＦ）遺伝子、および標準的な上皮成長因子受容体（ＥＧＦＲ）遺伝子からのシーケンスリードの候補バリアントについての品質スコアを示している。ｘ軸は、与えられたグループ（例えば、癌のステージ）において、ある標準的な変異を有する、個人の比率を表す。図３４Ｂ～図３４Ｄは、癌のステージがグループＩからグループＩＶに上昇するにつれて、品質スコアが増加する傾向にある傾向を示している。

図３４Ｅは、一実施形態に従った、癌の異なるステージにある様々なタイプの癌を有することが知られたサンプルについての、コールされたバリアントの例示的なカウントの表である。図３４Ｂ～図３４Ｄと同様に、図３４Ｅも、癌のステージがグループＩからグループＩＶに上昇するにつれて、コールされたバリアントの数が増加する傾向にある傾向を示している。

図３４Ｆは、一実施形態に従った、癌の異なるステージにある様々なタイプの癌を有することが知られたサンプルについての、コールされたバリアントの例示的なカウントの図である。乳がん、大腸がん、肺がん、または前立腺がんを有することが知られたサンプルについてのボックスプロットによって示されるように、癌のステージがグループＩからグループＩＶに上昇するにつれて、コールされたバリアントの中央値数は、増加する傾向にあり、非癌サンプルについての数は、癌サンプルのそれらと比較して、相対的により低い。

図３４Ｇは、一実施形態に従った、早期または末期癌を有することが知られたサンプルについての、コールされたバリアントの例示的なカウントの図である。図３４Ｈは、一実施形態に従った、早期または末期癌を有することが知られたサンプルについての、コールされたバリアントの例示的なカウントの別の図である。特に、図３４Ｇおよび図３４Ｈは、それぞれ、乳がん（例えば、ＨＥＲ２＋、ＨＲ＋｜ＨＥＲ２－、ＴＮＢＣ）、ならびに肺がん（例えば、腺がん、小細胞肺がん、および扁平上皮細胞がん）と関連付けられた、ｃｄｓｔｇ１ｌｈ＿ｇｒｏｕｐｅｄ遺伝子からのシーケンスリードのコールされたバリアントを示している。図３４Ｇ～図３４Ｈは、癌が早期から末期に進行するにつれて、コールされたバリアントの数が増加する傾向にある傾向を示している。例示的なデータは、処理システム２００が、遺伝子内の配列の異なるサブタイプまたはバリアントを検出することができることを示す。加えて、非癌サンプルについての数は、癌サンプルのそれらと比較して、相対的により低い。

ＸＩ．癌モデルのための例示的なフィーチャ
ＸＩ．Ａ．例示的な小バリアントフィーチャ
これ以降で使用される場合、小バリアントシーケンシングアッセイとは、一般に、小バリアントを決定するために使用することができる標的遺伝子シーケンシングパネルを通して、シーケンスリードを生成する物理的アッセイのことを指し、小バリアントの例は、単一ヌクレオチドバリアント（ＳＮＶ）と、挿入または欠失とを含む。あるいは、当業者が理解するように、小バリアントの評価は、全ゲノムシーケンシング手法、または全エクソームシーケンシング手法を使用しても行われ得る。例示的な小バリアントシーケンシングアッセイは、図１Ａを参照して先に説明されている。

いくつかの実施形態においては、小バリアントシーケンシングアッセイの適用から生成されたシーケンスリードは、１つまたは複数の小バリアントフィーチャを出力する、コンピュータ分析を使用して処理される。（小バリアントコンピュータアッセイとも呼ばれる）コンピュータ分析は、例えば、図１Ａ、図３、図８～図１０、図２０、図２５、または図３２に示されるような、本明細書において説明される方法のいずれかからのステップを含み得る。例えば、小バリアントフィーチャは、図３の方法３００のステップ３２４において出力された候補バリアントを使用して生成される。さらに、コンピュータ分析は、本明細書において説明される実施形態の、任意の数のトレーニングされたモデル（「ベイズ階層モデル」、「ジョイントモデル」など）またはフィルタを含み得る。例示的な小バリアントフィーチャは、体細胞バリアントの総数、非同義バリアントの総数、同義バリアントの総数、遺伝子ごとの体細胞バリアントの存在または非存在、少なくとも１つのタイプの癌と関連付けられることが知られた特定の遺伝子についての体細胞バリアントの存在または非存在、遺伝子ごとの体細胞バリアントの対立遺伝子頻度、体細胞バリアントのＡＦに従った順序統計量、少なくとも１つのタイプの癌と関連付けられることが知られた体細胞バリアントの、それらの対立遺伝子頻度に基づいた分類、遺伝子パネル内の遺伝子ごとの体細胞バリアントの対立遺伝子頻度（ＡＦ）、ＯｎｃｏＫＢなど公的に利用可能なデータベースによって指定されるような区分ごとの体細胞バリアントのＡＦ、および体細胞バリアントのＡＦに従った体細胞バリアントの順位序列を含む。

（例えば、標的遺伝子パネル内の）遺伝子ごとの体細胞バリアントのＡＦを表すフィーチャとは、特定の遺伝子に関連するシーケンスリードにおける体細胞バリアントの頻度の尺度のことを指す。一般に、このフィーチャは、遺伝子パネルの遺伝子ごとに、またはゲノムにわたる遺伝子ごとに１つのフィーチャ値によって表される。このフィーチャの値は、遺伝子の体細胞バリアントのＡＦの統計値であることができる。フィーチャに値を規定するために使用される正確な測定は、実施形態によって変化することができる。一実施形態においては、このフィーチャの値は、（例えば、ゲノム内の）位置ごとの遺伝子におけるすべての体細胞バリアントの最大ＡＦとして決定される。別の実施形態においては、このフィーチャの値は、位置ごとの遺伝子のすべての体細胞バリアントの平均ＡＦとして決定される。したがって、５００個の遺伝子からなる例示的な標的遺伝子パネルについては、遺伝子ごとの体細胞バリアントのＡＦを表す、５００個のフィーチャ値が存在する。最大ＡＦまたは平均ＡＦ以外の尺度も、使用され得る。

区分ごとの体細胞バリアントのＡＦを表すフィーチャは、非特許文献４のＯｎｃｏＫＢなどの公的に利用可能なデータベースにアクセスすることによって、決定されることができる。例えば、ＯｎｃｏＫＢは、遺伝子の臨床情報を、ＦＤＡ承認、標準ケア、新たな臨床的証拠、および生物学的証拠など、４つの異なる区分のうちの１つに区分けする。そのような各区分は、独自の対応する値を有する独自のフィーチャであり得る。フィーチャを決定するためにアクセスされ得る他の公的に利用可能なデータベースは、非特許文献５の、全米癌研究所のゲノムデータコモンズ（ＧＤＣ：ＧｅｎｏｍｉｃＤａｔａＣｏｍｍｏｎｓ）によって支援される、癌における体細胞変異のカタログ（ＣＯＳＭＩＣ：ＣａｔａｌｏｇｕｅＯｆＳｏｍａｔｉｃＭｕｔａｔｉｏｎｓＩｎＣａｎｃｅｒ）および癌ゲノムアトラス（ＴＣＧＡ：ＴｈｅＣａｎｃｅｒＧｅｎｏｍｅＡｔｌａｓ）を含む。一実施形態においては、区分フィーチャごとの体細胞バリアントのＡＦの値は、区分における遺伝子にわたる体細胞バリアントの最大ＡＦとして決定される。別の実施形態においては、区分フィーチャごとの体細胞バリアントのＡＦの値は、区分における遺伝子にわたる体細胞バリアントにわたる平均ＡＦとして決定される。区分ごとの最大ＡＦおよび区分ごとの平均ＡＦ以外の尺度も、使用され得る。

一般に、小バリアントフィーチャについてのフィーチャ値は、個人における癌を示し得る体細胞バリアントの正確な同定において予測される。小バリアントコンピュータ分析は、候補バリアントを、また候補バリアントの中でもとりわけ、個人のゲノムにおそらく存在する体細胞バリアントと、個人における癌を予測する可能性が低い偽陽性バリアントとの間の差を同定する。より具体的には、小バリアントコンピュータ分析は、ノイズなどの干渉信号を考慮して、体細胞ソースに由来する可能性が高い、ｃｆＤＮＡにおいて存在する候補バリアント、および／または（例えば、ｇＤＮＡもしくはＷＢＣＤＮＡからの）ゲノムソースに帰せられることができるバリアントを同定する。加えて、候補バリアントは、アーチファクトが原因で生じ得、したがって、個人における癌を示さない、偽陽性バリアントを除去するために、ふるい分けられることができる。例として、偽陽性バリアントは、自発的なシトシン脱アミノ化および末端修復エラーが原因で生じる、シーケンスリードのエッジまたはエッジ付近で検出されるバリアントであり得る。したがって、偽陽性バリアントのふるい落とし後に残る体細胞バリアント、およびそれのフィーチャは、小バリアントフィーチャを決定するために、使用されることができる。

体細胞バリアントの総数を示すフィーチャについては、小バリアントコンピュータ分析は、ゲノムまたは遺伝子パネルにわたって、同定された体細胞バリアントを合計する。したがって、個人から獲得されたｃｆＤＮＡサンプルについては、体細胞バリアントの総数を示すフィーチャは、サンプルのｃｆＤＮＡにおいて同定された体細胞バリアントの総数である単一の数値として表される。

非同義バリアントの総数を示すフィーチャについては、小バリアントコンピュータ分析は、非同義バリアントである体細胞バリアントを同定するために、同定された体細胞バリアントをさらにふるい分け得る。当技術分野においてよく知られているように、核酸配列の非同義バリアントは、核酸配列と関連付けられた、タンパク質のアミノ酸配列に変化をもたらす。例えば、非同義バリアントは、個人の１つまたは複数の表現型を変更し得、または個人が癌、癌細胞、もしくは他のタイプの疾病を発症する原因となり得る（もしくはそれに対してより無防備にし得る）。したがって、小バリアントコンピュータ分析は、トリヌクレオチドの１つまたは複数の核酸塩基に対する変更は、変更されたトリヌクレオチドに基づいて、異なるアミノ酸が産生される原因となると決定することによって、候補バリアントは非同義バリアントをもたらすと決定する。非同義バリアントの総数についてのフィーチャ値は、ゲノムにわたって同定された非同義バリアントを合計することによって、決定される。したがって、個人から獲得されたｃｆＤＮＡサンプルについては、非同義バリアントの総数を示すフィーチャは、単一の数値として表される。

同義バリアントの総数を示すフィーチャについては、同義バリアントは、非同義バリアントとして区分けされない、他の体細胞バリアントを表す。言い換えると、小バリアントコンピュータ分析は、非同義バリアントに関連して説明されたように、同定された体細胞バリアントのふるい分けを実行し、ゲノムまたは遺伝子パネルにわたって、同義バリアントを同定する。したがって、個人から獲得されたｃｆＤＮＡサンプルについては、同義バリアントの総数を示すフィーチャは、単一の数値として表される。

遺伝子ごとの体細胞バリアントの存在／非存在を示すフィーチャは、ｃｆＤＮＡサンプルについての複数のフィーチャ値を含むことができる。例えば、標的遺伝子パネルは、パネル内に５００個の遺伝子を含み得、したがって、小バリアントコンピュータ分析は、５００個のフィーチャ値を生成することができ、各フィーチャ値は、パネル内の遺伝子についての体細胞バリアントの存在または非存在のどちらかを表す。例として、体細胞バリアントが遺伝子において存在する場合、フィーチャの値は、１である。反対に、体細胞バリアントが遺伝子において存在しない場合、フィーチャの値は、０である。一般に、任意のサイズの遺伝子パネルが、使用され得る。例えば、遺伝子パネルは、ゲノムにわたって、１００、２００、５００、１０００、２０００、１００００、またはより多くの遺伝子標的を含み得る。他の実施形態においては、遺伝子パネルは、約５０から約１００００の遺伝子標的、約１００から約２０００の遺伝子標的、または約２００から約１０００の遺伝子標的を含み得る。

癌と関連付けられることが知られた特定の遺伝子についての体細胞バリアントの存在／非存在を示すフィーチャについては、癌と関連付けられることが知られた特定の遺伝子は、ＯｎｃｏＫＢなどの公的データベースから入手されることができる。癌と関連付けられることが知られた遺伝子の例は、ｐ５３、ＬＲＰ１ｂ、およびＫＲＡＳを含む。癌と関連付けられることが知られた各遺伝子は、（遺伝子において体細胞バリアントが存在することを示す）１、または（遺伝子において体細胞バリアントが存在しないことを示す）０などの、フィーチャ値と関連付けられることができる。

（例えば、遺伝子パネルにおける）遺伝子ごとの体細胞バリアントのＡＦとは、シーケンスリードにおける１つまたは複数の体細胞バリアントの頻度のことを指す。一般に、このフィーチャは、遺伝子パネルの遺伝子ごとに、またはゲノムにわたる遺伝子ごとに１つのフィーチャ値によって表される。このフィーチャの値は、遺伝子の体細胞バリアントのＡＦの統計値であることができる。様々な実施形態においては、このフィーチャは、最大ＡＦを有する、遺伝子における１つの体細胞バリアントのことである。いくつかの実施形態においては、このフィーチャは、遺伝子の体細胞バリアントの平均ＡＦのことである。したがって、５００個の遺伝子の標的遺伝子パネルについては、（例えば、遺伝子パネル内の）遺伝子ごとの体細胞バリアントのＡＦを表す、５００個のフィーチャ値が存在する。

ＯｎｃｏＫＢなどの公的に利用可能なデータベースによって指定されるような、区分ごとの体細胞バリアントのＡＦ。例えば、ＯｎｃｏＫＢは、遺伝子を、４つの異なる区分のうちの１つに区分けする。一実施形態においては、区分ごとの体細胞バリアントのＡＦは、区分における遺伝子にわたる体細胞バリアントの最大ＡＦである。一実施形態においては、区分ごとの体細胞バリアントのＡＦは、区分における遺伝子にわたる体細胞バリアントにわたる平均ＡＦである。

体細胞バリアントのＡＦに従った体細胞バリアントの順位序列とは、体細胞バリアントの上位Ｎ個の対立遺伝子頻度のことである。一般に、バリアント対立遺伝子頻度の値は、０から１の間であることができ、０のバリアント対立遺伝子頻度は、位置において代替対立遺伝子を所有するシーケンスリードがないことを示し、１のバリアント対立遺伝子頻度は、すべてのシーケンスリードが位置において代替対立遺伝子を所有することを示す。他の実施形態においては、バリアント対立遺伝子頻度の他の範囲および／または値が、使用されることができる。様々な実施形態においては、順位序列フィーチャは、体細胞バリアント自体から独立であり、代わりに、上位Ｎ個のバリアント対立遺伝子頻度の値によってだけ表される。上位５個の対立遺伝子頻度についての順位序列フィーチャの例は、［０．１，０．０８，０．０５，０．０３，０．０２］と表されることができ、それは、体細胞バリアントから独立の５つの最も高い対立遺伝子頻度が、０．０２から最大０．１の範囲であることを示す。

ＸＩ．Ｂ．例示的な予測癌モデル
小バリアントフィーチャは、予測癌モデルなど、１つまたは複数のタイプのモデルへの入力として、使用され得る。予測癌モデルは、例えば、与えられた個人が、少なくとも１つの特定のタイプの癌または疾病を有する、または発症する可能性が高い尤度を予測する、癌と関連付けられた予測を生成し得る。予測癌モデルは、ステージＩ、ステージＩＩ、ステージＩＩＩ、およびステージＩＶの癌のうちの１つまたは複数の検出を予測するために、使用され得る。癌の例示的なタイプは、乳がん、肺がん、大腸がん、卵巣がん、子宮がん、黒色腫、腎臓がん、膵臓がん、甲状腺がん、胃がん、肝胆道がん、食道がん、前立腺がん、リンパ腫、多発性骨髄腫、頭頸部がん、膀胱がん、子宮頸がん、またはそれらの任意の組み合わせを含む。いくつかの実施形態においては、予測癌モデルは、試験サンプルからのシーケンスリードの分析に基づいて、乳がんを、ＨＲ陽性、ＨＥＲ２過剰発現、ＨＥＲ２増幅、またはトリプルネガティブとして分類するために使用される。

いくつかの実施形態においては、予測癌モデルを使用する分析は、試験サンプルにおける１つまたは複数のウイルス由来の核酸の存在を検出することを含む。癌の検出は、部分的に、１つまたは複数のウイルス核酸の検出に基づき得る。いくつかの実施形態においては、１つまたは複数のウイルス由来の核酸は、ヒトパピローマウイルス、エプスタイン－バーウイルス、Ｂ型肝炎、Ｃ型肝炎、およびそれらの任意の組み合わせから成る群から選択される。

図３５Ａは、一実施形態に従った、個人から獲得されたｃｆＤＮＡサンプルに由来するフィーチャに基づいて、癌予測を生成するための方法３５００のフローチャートである。他の実施形態においては、方法３５００は、１つまたは複数のタイプの疾病（例えば、遺伝病もしくは心疾患）、他の健康関連の状態（例えば、不定電位のクローン造血（ＣｈＩＰ））、他の分類、または他のメトリックの予測を生成するために、使用され得る。ステップ３５０２において、試験サンプルが、個人から獲得される。一般に、サンプルは、健康な被験者、癌を有することが知られた、もしくは疑われる被験者、または事前情報が知られていない被験者（例えば、無症状被験者）からのものであり得る。試験サンプルは、血液、血漿、血清、尿、糞便、および唾液サンプルから成る群から選択されるサンプルであり得る。あるいは、試験サンプルは、全血、血液フラクション、組織生検材料、胸膜液、心膜液、脳脊髄液、および腹水から成る群から選択されるサンプルを含み得る。試験サンプルは、ｃｆＤＮＡを含み得る。様々な実施形態においては、試験サンプルは、例えば、白血球細胞（ＷＢＣ）ＤＮＡからの、ゲノムＤＮＡ（ｇＤＮＡ）を含み得る。

ステップ３５０４において、１つまたは複数の物理的プロセス分析が、実行され、少なくとも１つの物理的プロセス分析は、シーケンスリードを生成するための、ｃｆＤＮＡに対するシーケンシングベースのアッセイを含む。ステップ３５０６において、シーケンシングベースのアッセイを実行した結果として生成されたシーケンスリードが、フィーチャについての値を決定するために、処理される。フィーチャは、一般に、個人における癌を予測する際に使用され得る、物理的アッセイおよび／またはコンピュータ分析から獲得可能な情報のタイプである。一般に、個人における癌を同定するための任意の与えられた予測モデルは、モデルの構成成分として、１つまたは複数のフィーチャを含む。任意の与えられた患者またはサンプルについて、フィーチャは、物理的および／またはコンピュータ分析から決定される値を有する。これらの値は、モデルの出力を生成するために、予測モデルに入力される。

シーケンスリードは、コンピュータ分析を適用することによって、処理される。一般に、各コンピュータ分析は、これ以降、処理システムと呼ばれる、コンピュータのプロセッサによって実行可能なアルゴリズムを表す。したがって、各コンピュータ分析は、シーケンスリードを分析し、シーケンスリードに基づいて、値フィーチャを出力する。各コンピュータ分析は、与えられたシーケンシングベースのアッセイに固有であり、したがって、各コンピュータ分析は、シーケンシングベースのアッセイに固有の特定のタイプのフィーチャを出力する。小バリアントシーケンシングアッセイの適用から生成されるシーケンスリードは、別名で小バリアントコンピュータ分析とも呼ばれる、コンピュータ分析を使用して処理される。コンピュータ分析は、小バリアントフィーチャを出力する。

ステップ３５０８において、個人についての癌予測を生成するために、予測癌モデルが、フィーチャに適用される。癌予測の例は、癌の存在または非存在、癌の原発組織、重症度、ステージ、癌の悪性度、癌サブタイプ、治療法の決定、および治療に反応する見込みを含む。様々な実施形態においては、予測癌モデルによって出力される癌予測は、癌の存在または非存在、癌の原発組織、重症度、ステージ、癌の悪性度、癌サブタイプ、治療法の決定、および治療に反応する見込みのうちの１つまたは複数を示す尤度または確率などのスコアである。

一般に、いずれのそのようなスコアも、一般には癌の存在非存在、特定のタイプの癌の存在／非存在など、単数であり得る。あるいは、そのようなスコアは、予測癌モデルの出力が、例えば、多くのタイプの癌の各々の存在／非存在を表すスコア、多くのタイプの癌の各々の重症度／悪性度を表すスコア、および特定のｃｆＤＮＡが多くのタイプの組織の各々を起源とする尤度を表すスコアなどであり得るように、複数であり得る。説明を明瞭にするために、予測癌モデルの出力は、一般に、スコアのセットと呼ばれ、セットは、予測癌モデルが何を決定するように構成されるかに応じて、１つまたは複数のスコアを含む。

様々な実施形態においては、予測癌モデルは、決定木、アンサンブル学習（例えば、バギング、ブースティング、ランダムフォレスト）、勾配ブースティングマシン、線形回帰、ナイーブベイズ、ニューラルネットワーク、またはロジスティック回帰のうちの１つであることができる。各予測癌モデルは、トレーニング中に調整される、フィーチャについての学習された重みを含む。重みという語は、一般に、ここでは、どの特定の機械学習技法が使用されるかにかかわらず、モデルの任意の与えられたフィーチャと関連付けられた、学習された量を表すために使用される。

トレーニング中、トレーニングデータは、予測癌モデルの重みをトレーニングするために使用される、フィーチャについての値を生成するために、処理される。例として、トレーニングデータは、トレーニングサンプルおよび出力ラベルから獲得された、ｃｆＤＮＡおよび／またはＷＢＣＤＮＡを含むことができる。例えば、出力ラベルは、個人が癌にかかっていると知られているか、それとも癌にかかっていない（例えば、健康である）と知られているかに関する表示、原発の癌組織の表示、または癌の重症度の表示であることができる。特定の実施形態に応じて、予測癌モデルは、トレーニングされるモデルに関連する、１つまたは複数の物理的アッセイおよびコンピュータ分析から獲得された、フィーチャの１つまたは複数についての値を受け取る。トレーニング中のモデルによって出力されたスコアと、トレーニングデータの出力ラベルとの間の差に応じて、予測癌モデルの重みが、予測癌モデルがより正確な予測を行うことを可能にするように、最適化される。様々な実施形態においては、予測癌モデルは、非パラメトリックモデル（例えば、ｋ近傍法）であり得、したがって、予測癌モデルは、パラメータを最適化する必要なしに、より正確に予測を行うように、トレーニングされることができる。トレーニングされた予測癌モデルは、記憶され、その後、必要とされるときに、例えば、図３５Ａのステップ３５０８における展開中に、取り出されることができる。

ＸＩ．Ｃ．例示的なフィーチャ調整
様々な実施形態においては、小バリアントシーケンシングアッセイからのシーケンスリードの準備中に、またはコンピュータ分析中に、出力フィーチャを改善し、調整し、または最適化するために、１つまたは複数のステップが、実行され得る。例えば、調整されたフィーチャの結果として、予測癌モデルは、より大きい感度（例えば、真陽性検出レート）または特異度（例えば、偽陽性検出レート）で、予測を生成し得る。

処理システム２００は、小バリアントが、潜在的に１つまたは複数の特定の生物学的区分に属すると決定し得る。生物学的区分は、例えば、適切な区分の中でもとりわけ、遺伝子、遺伝子のイントロンもしくはエクソン、５プライム非翻訳領域（５’ＵＴＲ）、３プライム非翻訳領域（３’ＵＴＲ）、もしくはエンハンサ領域などの遺伝子の特定の領域、またはタンパク質コーディング領域を示す。決定に応答して、処理システム２００は、対応する生物学的区分の注釈を用いて、小バリアントをラベル付けし得る。いくつかの実施形態においては、処理システム２００は、小バリアントが区分に属する尤度を決定し、尤度が閾値よりも大きいと決定したのに応答して、小バリアントに注釈を付ける。

処理システム２００は、注釈のために、アンサンブルバリアント効果プレディクタ（ＶＥＰ）ツールを使用して抽出された情報を使用し得る。小バリアントの（例えば、ゲノムにおける）入力位置、および対応するタイプの変異（例えば、ＳＮＶまたはインデル）に基づいて、ＶＥＰは、１つまたは複数の遺伝子（例えば、遺伝子の標準的表現もしくは構造）、または転写産物、タンパク質配列、および制御領域など、それから作り出される任意の下流産生物に対する、バリアントの効果を決定し得る。これらの効果を評価することによって、処理システム２００は、特定の生物学的区分を小バリアントに割り当てるかどうかを決定し得る。どの生物学的区分（例えば、スプライシング部位、ＵＴＲ、同義または非同義部位）を使用するかを決定するのに加えて、処理システム２００は、フィーチャを決定するために使用する、遺伝子表現（例えば、標準的転写産物または他のアイソフォーム）を決定し得る。一実施形態においては、処理システム２００は、注釈のための潜在的な生物学的区分として、遺伝子名の文字列表現にダッシュ（－）文字を有する、遺伝子を含む。例えば、処理システム２００は、ＮＫＸ２－１およびＮＫＸ３－１遺伝子における小バリアントを処理する。ＮＫＸ２－１は、肺または甲状腺腫瘍のためのバイオマーカとして使用され得、ＮＫＸ３－１は、前立腺腫瘍抑制遺伝子であることが知られている。

注釈は、標的遺伝子シーケンシングパネルによってカバーされる、コーディング遺伝子のセットに影響する、小バリアントにラベル付けすることが意図されている。非同義である（例えば、遺伝子の対応するアミノ酸に影響する）小バリアントにラベル付けするのに加えて、処理システム２００は、他の方法で遺伝子転写または発現に影響し得る、小バリアントにもラベル付けすることができる。例えば、ＴＥＲＴ（テロメラーゼ逆転写酵素）プロモータは、テロメア長または転写機構に影響し得る。ＴＥＲＴプロモータ変異は、腫瘍形成のバイオマーカであり得るので、処理システム２００は、これらの領域における小バリアントにシステマティックに注釈を付けるように構成され得る。別の例として、スプライス部位変異は、必ずしもコーディング領域に見つけられ得るわけではないが、スプライス部位変異も、転写またはタンパク質翻訳に影響し得る。スプライス部位は、エクソンまたはイントロンの境界付近に見つけられるので、スプライス部位変異は、１つまたは複数のエクソンが、転写中に、脱落または付加される原因となり得る。したがって、スプライス部位変異は、中間ステップにおいてアミノ酸を変更することなしに、結果のタンパク質構造に影響し得る。

一実施形態においては、処理システム２００は、癌予測のために予測癌モデルに入力される小バリアントフィーチャを決定するのを助けるために、注釈情報を使用する。同じまたは異なる実施形態においては、注釈自体が、フィーチャであり得、フィーチャの値は、（例えば、ゲノムにおける）位置ごとに各遺伝子に割り当てられる、特定の注釈である。例えば、注釈に基づいて、予測癌モデルは、特定のＴＥＲＴプロモータまたはスプライス部位領域における、変異の存在または非存在を決定し得る。

処理システム２００は、コンピュータ分析中に、より多くの生物学的区分にわたって追加のフィーチャを生成するためにも、注釈を使用し得る。例として、処理システム２００は、特定のＴＥＲＴプロモータまたはスプライス部位領域における最大ＡＦを示すフィーチャを決定する。別の追加のフィーチャは、１つまたは複数のＴＥＲＴプロモータまたはスプライス部位領域のセットにおける、小バリアントの総数であり得る。この概念は、他のゲノム状態に関連するバリアントの存在または非存在にフォーカスされた、同じまたは異なる尺度（例えば、最大ＡＦまたは平均ＡＦ）を有する他のフィーチャに拡張可能である。

ＸＩ．Ｄ．小バリアントフィーチャを使用した例示的な予測
図３５Ｂは、一実施形態に従った、小バリアントフィーチャの第１のセットを使用して癌の存在を予測する、予測癌モデルの特異度および感度の受信者動作特性（ＲＯＣ）曲線を示している。具体的には、予測癌モデルは、癌の存在または非存在を示す、これ以降「Ａ＿ｓｃｏｒｅ」と呼ばれる、スコアを出力する。ＲＯＣ曲線の総曲線下面積（ＡＵＣ）は、０．６９７である。目標が、設定された特異度（例えば、特異度９５％または９９％）を与えられた場合に、感度を達成することであると仮定すると、図３５Ｂは、８５％～１００％の特異度範囲内にある、予測癌モデルの性能を示している。この例においては、予測癌モデルに提供される小バリアントフィーチャの第１のセットは、体細胞バリアントの総数と、非同義バリアントの総数とを含む。ＲＯＣ曲線は、特異度９５％において、感度３５％を、特異度９９％において、感度約１９％を示す。特異度９９％から特異度９５％に進むとき、ＲＯＣ曲線は、非線形に増加し、それによって、この感度／特異度トレードオフにおいて検出される真陽性が、おそらく存在することを示す。

一実施形態においては、特異度９５％の小バリアント予測癌モデルは、フィーチャとして、非同義バリアントの総数を使用し、「Ａ＿ｓｃｏｒｅ」を出力する。予測癌モデルは、２５％よりも大きい５年死亡率を有するステージＩ／ＩＩ／ＩＩＩ癌を検出する、４７％の平均感度を有する。予測癌モデルは、２５％よりも大きい５年死亡率を有するステージＩＶ癌を検出する、８０％の平均感度を有する。予測癌モデルは、２５％よりも小さい５年死亡率を有するステージＩ／ＩＩ／ＩＩＩ癌を検出する、８％の平均感度を有する。予測癌モデルは、２５％よりも小さい５年死亡率を有するステージＩＶ癌を検出する、５０％の平均感度を有する。

図３５Ｃは、一実施形態に従った、小バリアントフィーチャの第２のセットを使用して癌の存在を予測する、予測癌モデルの特異度および感度のＲＯＣ曲線を示している。具体的には、予測癌モデルは、癌の存在または非存在を示す、これ以降バリアント遺伝子スコアと呼ばれる、スコアを出力する。ＲＯＣ曲線の総ＡＵＣは、０．６６４である。図３５Ｃは、８５％～１００％の特異度範囲内にある、予測癌モデルの性能を示している。この例においては、予測癌モデルに提供される小バリアントフィーチャの第２のセットは、遺伝子ごとの体細胞バリアントのＡＦを含む。ここでは、遺伝子ごとの体細胞バリアントのＡＦは、各遺伝子における体細胞バリアントの最大ＡＦを表す。したがって、（５００個の遺伝子に対応する）遺伝子ごとの体細胞バリアントの最大ＡＦの全部で５００個の値が、フィーチャ値として、予測癌モデルに提供された。ＲＯＣ曲線は、特異度９５％において、感度約３８％を、特異度９９％において、感度約３１％を示す。これは、図３５Ｂに示される予測癌モデルの結果と比較して、改善を表す。

図３５Ｄは、一実施形態に従った、小バリアントフィーチャの第３のセットを使用して癌の存在を予測する、予測癌モデルの特異度および感度のＲＯＣ曲線を示している。具体的には、予測癌モデルは、癌の存在または非存在を示す、これ以降Ｏｒｄｅｒスコアと呼ばれる、スコアを出力する。ＲＯＣ曲線の総ＡＵＣは、０．６７２である。図３５Ｄは、８５％～１００％の特異度範囲内にある、予測癌モデルの性能を示している。この例においては、予測癌モデルの小バリアントフィーチャは、体細胞バリアントのＡＦに従って、上位６個の順位序列を含む。ＲＯＣ曲線は、特異度９５％において、感度約３７％を、特異度９９％において、感度約３０％を示す。やはり、これは、図３５Ｂに示される予測癌モデルの結果と比較して、改善を表す。

ＸＩＩ．追加の留意事項
本発明の実施形態についての上述の説明は、例示の目的で提示されたものであり、網羅的であること、または本発明を開示された通りの形態に限定することは、意図されていない。上述の開示を踏まえて、多くの変更および変形が可能であることを、当業者は理解することができる。

この説明のいくつかの部分は、情報に対する操作のアルゴリズムおよびシンボル表現の観点から、本発明の実施形態を説明した。これらのアルゴリズム的な説明および表現は、自分たちの仕事の本質を他の当業者に効果的に伝えるために、データ処理分野の当業者によって、普通に使用されている。これらの操作は、機能的に、計算的に、または論理的に説明されたが、コンピュータプログラムもしくは等価の電気回路、またはマイクロコードなどによって実施されることが、理解される。さらに、一般性を失うことなく、操作のこれらの配置をモジュールと呼ぶことが、便利なことがあることも分かっている。説明される操作、およびそれらに関連付けられたモジュールは、ソフトウェア、ファームウェア、ハードウェア、またはそれらの任意の組み合わせで具体化され得る。

本明細書において説明されるステップ、操作、またはプロセスのいずれも、１つまたは複数のハードウェアまたはソフトウェアモジュールだけで、または他のデバイスと組み合わせて、実行または実施され得る。一実施形態においては、ソフトウェアモジュールは、説明されるステップ、操作、またはプロセスのいずれかまたはすべてを実行するために、コンピュータプロセッサによって実行されることができる、コンピュータプログラムコードを含む、コンピュータ可読非一時媒体を含む、コンピュータプログラム製品を用いて実施される。

本発明の実施形態は、本明細書において説明されるコンピューティングプロセスによって生産される製品にも関連し得る。そのような製品は、コンピューティングプロセスからもたらされる情報を含み得、情報は、非一時的な有形なコンピュータ可読記憶媒体上に記憶され、またそのような製品は、本明細書において説明されるコンピュータプログラム製品または他のデータ組み合わせの任意の実施形態を含み得る。

最後に、本明細書において使用される言葉は、主に、読みやすさ、および教示目的で選択されており、それは、本発明の主題を叙述または制限するために選択されていないことがある。したがって、本発明の範囲は、この詳細な説明によってではなく、むしろ、本明細書に基づいた出願において公表されるいずれかの請求項によって限定されることが、意図されている。したがって、本発明の実施形態の開示は、以下の特許請求の範囲において説明される、本発明の範囲を、限定することなく、例示することが、意図されている。

Claims

被験者についての癌予測を決定するための方法であって、前記方法は、
前記被験者から獲得された試験サンプルにおける無細胞核酸と関連付けられたデータセットを獲得するステップであって、前記データセットは前記無細胞核酸上のシーケンシングアッセイから生成されたシーケンスリードを備えるステップと、
前記シーケンスリード上のコンピュータ分析を実行するまたは実行した、１つまたは複数のフィーチャの値を生成するステップであって、１つまたは複数の前記フィーチャは前記試験サンプルにおける前記無細胞核酸上の小バリアントシーケンシングアッセイから導出されるステップと
１つまたは複数の前記フィーチャの前記値を予測癌モデルに入力し前記被験者についての癌予測を生成するステップであって、前記予測癌モデルは、学習された重みを備える関数を通して、１つまたは複数の前記フィーチャの前記値を前記被験者についての前記癌予測へ変換するステップと、
前記被験者についての前記癌予測を提供するステップと、
を備える、方法。
１つまたは複数の前記フィーチャは、体細胞バリアントの総数と、非同義バリアントの総数と、同義バリアントの総数と、遺伝子パネル内の遺伝子ごとの体細胞バリアントの存在または非存在と、癌に関連付けられたと知られている特定の遺伝子についての体細胞バリアントの存在または非存在と、遺伝子パネル内の遺伝子ごとの体細胞バリアントの対立遺伝子頻度と、体細胞バリアントのＡＦに従った順位序列と、区分ごとの体細胞バリアントの対立遺伝子頻度とのうちの１つまたは複数、を備える、請求項１に記載の方法。