JP2024057050A

JP2024057050A - 対立遺伝子頻度に基づく機能喪失のコンピューターモデリング

Info

Publication number: JP2024057050A
Application number: JP2024027520A
Authority: JP
Inventors: バルバチオルカタリン; シコラマーシン; チュドヴァダーリヤ
Original assignee: ガーダントヘルス，インコーポレイテッド
Priority date: 2019-02-27
Filing date: 2024-02-27
Publication date: 2024-04-23
Also published as: AU2020228058A1; KR20210132139A; CN113748467A; WO2020176775A1; US20230360727A1; US20240029890A1; EP3931831A1; JP2022521777A; US20200273538A1

Abstract

【課題】対立遺伝子頻度に基づく機能喪失のコンピューターモデリングの提供。【解決手段】本開示は、試料中の無細胞ＤＮＡから配列決定された遺伝子などの遺伝物質の様々な状態の精度の高い診断のためのコンピューター技術に関する。この状態は、体細胞ホモ接合欠失、体細胞ヘテロ接合欠失、コピー数変異、または他の状態を含んでもよい。コンピューターシステムは、遺伝物質がある特定の状態にある確率を各々出力する競合確率モデルを作成することができる。各モデルは、遺伝物質がそれぞれの状態にある確率を出力するよう設定したトレーニング試料でトレーニングされ得る。一部の実施形態では、コンピューターシステムは、様々な確率分布を使用してモデルを作成することができる。【選択図】なし

Description

関連出願への相互参照
本出願は、すべての目的に関して参照により本明細書に組み込まれる、２０１９年２月２７日に出願した米国仮出願第６２／８１１，１５９号、および２０１９年３月２５日に出願した米国仮出願第６２／８２３，５８５号に基づく優先権の利益を主張する。

背景
腫瘍は、細胞の異常な成長である。断片化したＤＮＡは、細胞、例えば腫瘍細胞が死滅すると、体液中に放出されることが多い。よって、体液中の無細胞ＤＮＡの一部は、腫瘍のＤＮＡである。腫瘍は、良性であっても悪性であってもよい。悪性腫瘍は、がんと称されることが多い。

がんは、世界中で主要な病因である。各年、世界中で数千万人の人々ががんを有すると診断され、その半分より多くが、最終的にがんが原因で死亡する。多くの国では、がんは、心血管疾患に続く２番目に多い死因として位置付けられる。早期検出は、多くのがんにとって転帰の改善に関連する。

がんは、個体の正常細胞内での突然変異および／またはエピジェネティック変異の蓄積によって引き起こされ、少なくともその一部は不適切に調節された細胞分裂をもたらす。このような突然変異、または遺伝物質の状態は、一般的に、コピー数変異（ＣＮＶ）、コピー数異常（ＣＮＡ）、一塩基変異（ＳＮＶ）、遺伝子融合およびインデルを含み、エピジェネティック変異は、シトシンの６原子環の５番目の原子に対する改変ならびにＤＮＡのクロマチンおよび転写因子との会合を含む。

特定の例では、相同組換え修復（ＨＲＲ）遺伝子（ＢＲＣＡ１／２）のヘテロ接合性の喪失（ＬＯＨ）および二対立遺伝子のコピー数喪失は、腫瘍抑制機能の喪失に関連し、がんをもたらす。多くの場合には、目的の遺伝子の特定の状態によって、処置の種類についての情報を得ることができる。例えば、遺伝子の１つの状態は一組の薬物に応答することができるが、一方、その遺伝子の別の状態は応答することができない。よって、がんおよび他の疾患を単に診断することができるだけではなく、疾患の根本原因を特徴付けることができることが、益々重要である。

がんは、腫瘍の生検と、その後の細胞、マーカーまたは細胞から抽出されたＤＮＡの解析によって検出されることが多い。体液の解析に基づいてがんを検出するための研究は、進行中である。成功すれば、これらの検査は、これらが非侵襲的であり、生検によって疑わしいがん細胞を特定することなく実施することができるという利点を有する。しかし、体液中の核酸量が非常に少ないという事実によって、これらの種類の検査を首尾よく完了することは難解である。さらに、体液中の検出可能な腫瘍関連無細胞核酸の量は、無細胞ＤＮＡにおけるがんの解析および検出をさらに困難にする可能性がある。言い換えれば、体液中の腫瘍ＤＮＡには正常なＤＮＡが夾雑している場合があり、無細胞ＤＮＡの試料中の腫瘍の特定原因のコンピューター解析および検出を困難にする。

要旨
本開示は、試料中の無細胞ＤＮＡから配列決定された遺伝子などの遺伝物質の様々な状態について、精度の高い診断をもたらすコンピューター技術に関する。この状態は、限定されないが、体細胞ホモ接合欠失、体細胞ヘテロ接合欠失、コピー数変異（「ＣＮＶ」）（特定コピー数の野生型、増幅、または喪失を含む）などの遺伝子の突然変異状態、および／または他の状態を含み得る。精度の高い診断は、これらの状態の１つまたは複数の確率モデルに基づいてもよい。例えば、コンピューターシステムは、遺伝物質がある特定の状態にある確率を各々出力する競合モデルを作成することができる。

各モデルは、トレーニング試料のセットに関してトレーニングされ、遺伝物質がそれぞれの状態にある確率を出力することができる。例えば、第１のモデルは、遺伝物質が特定の遺伝子の対立遺伝子の体細胞ホモ接合欠失を含む第１の確率に関し、これを出力することができる。第２のモデルは、遺伝物質が特定の遺伝子の対立遺伝子の体細胞ヘテロ接合欠失を含む第２の確率に関し、これを出力することができる。他のモデルは、遺伝物質のＣＮＶなどの他の種類の状態の確率に関し、これを出力することができる。コンピューターシステムは、各競合モデルの出力を比較して、どのモデルがより可能性が高いかを判定することができる。例えば、コンピューターシステムは、競合する第１および第２の確率の対数尤度比を使用して、遺伝物質が体細胞ホモ接合欠失または体細胞ヘテロ接合欠失を含むか否かを判定することができる。

一部の実施形態では、コンピューターシステムは、様々な確率分布を使用して、モデルを作成することができる。例えば、コンピューターシステムは、ベータ－二項分布、二項分布、正規分布（「ガウス分布」とも称される）、および／または他の種類の確率モデリング技法を使用することができる。コンピューターシステムは、トレーニングデータセットに基づいて、状態（特定の状態を支持する対立遺伝子数など）をモデリングして、非正常、または腫瘍の状態のベースライン期待値を設定することができる。例えば、コンピューターシステムは、「正常な」または非腫瘍試料、例えば、体細胞バリアントが観察されない試料において観察された生殖細胞系列一塩基多型（ＳＮＰ）の位置を特定することができる。これらの試料は、腫瘍非検出（ｔｕｍｏｒｎｏｔｄｅｔｅｃｔｅｄ）（ＴＮＤ）試料とも称されるであろう。

ＴＮＤ試料は正常であるため、コンピューターシステムは、生殖細胞系列ＳＮＰの位置が非正常状態の原因ではないと仮定することができる。このように、コンピューターシステムは、これらのＳＮＰ部位を活用して、この状態の確率的判定のために対立遺伝子数をモデリングするための参照期待値とすることができる。例えば、各ＳＮＰの位置において観察されたヌクレオチドコールからの偏差は、このような偏差が、腫瘍または他の非正常状態などの特定の状態の原因である確率を示し得る。したがって、コンピューターシステムは、ＴＮＤ試料の生殖細胞系列ＳＮＰからのデータに関する計算結果に由来する期待値に基づいて、モデルをトレーニングすることができる。このような計算されたデータは、各ＳＮＰ部位に対して：ヘテロ接合性の出現率、ＭＡＦの標準偏差、遺伝子型、生殖細胞系列の出現率（事前の）、および／または個体の試料の解析に対して情報を与え得る他のデータを含み得る。

計算された期待値を用いて、コンピューターシステムは、目的の領域、例えば、目的の遺伝子の上流の、下流の、およびそれを含む領域に対してアラインする、検査される個体の試料の配列読み取りデータに基づく状態をモデリングすることができる。一部の実施形態では、個体の試料から得られた分子の配列読み取りデータは、参照ゲノムに対してアラインされ、元の分子が支持する対立遺伝子（突然変異体または野生型）を特定することができる。個体の試料から得られた配列読み取りデータのアライメントに基づき、コンピューターシステムは、代替対立遺伝子を支持する分子の数を特定し、分子の総数を計算することができる。コンピューターシステムは、目的の領域における各生殖細胞系列ＳＮＰから計算された期待値データを用いて、個体の試料に由来するこれらのおよび／または他のデータをモデリングすることができる。一部の例では、配列決定は、血漿中無細胞ＤＮＡ（ｃｆＤＮＡ）の標的化配列決定に基づいてもよい。

一態様では、本開示は、遺伝子の生殖細胞系列欠失を示さない試料中の遺伝子の体細胞ホモ接合欠失と体細胞ヘテロ接合欠失とを識別するために改良されたコンピューターシステムに関する。このコンピューターシステムは、第１の確率分布により、遺伝子に関連する１つまたは複数の生殖細胞系列一塩基多型（ＳＮＰ）の位置に基づいて、体細胞ホモ接合欠失を表す、対立遺伝子数の第１のモデルを作成するようにプログラミングされたプロセッサーを含むことができる。プロセッサーは、第２の確率分布により、１つまたは複数の生殖細胞系列ＳＮＰの位置に基づいて、体細胞ヘテロ接合欠失を表す、試料中の対立遺伝子数の第２のモデルをさらに作成することができる。プロセッサーは、第１のモデルの第１の出力と第２のモデルの第２の出力とを比較することができる。プロセッサーは、比較に基づいて、遺伝子に関する体細胞ホモ接合欠失が試料中に存在するという予測を作成することができる。

一部の実施形態では、第１のモデルは、試料が体細胞ホモ接合欠失を含む第１の確率を表すことができ、第２のモデルは、試料が体細胞ヘテロ接合欠失を含む第２の確率を表す。

一部の実施形態では、第１の確率分布は、第２の確率分布と同じ種類の確率分布である。

一部の実施形態では、第１のモデルを作成するために、プロセッサーは、第１の確率分布に対する入力のための１つまたは複数のパラメーターを判定するようにプログラミングされている。

一部の実施形態では、第１の確率分布は、ベータ－二項分布、二項分布、または正規分布を含む。

対立遺伝子数の第１のモデルを作成するための一部の実施形態では、プロセッサーは、第１の確率分布に対する入力のために、試料のトレーニングセットにおいて１つまたは複数の生殖細胞系列ＳＮＰのヘテロ接合性の出現率（ｐｒｅｖａｌｅｎｃｅ）をさらに判定することができる。

一部の実施形態では、試料のトレーニングセットは、腫瘍が検出されない（ＴＮＤ）複数の試料を含んでもよい。

一部の実施形態では、対立遺伝子数の第１のモデルを作成するために、プロセッサーは、第１の確率分布に対する入力のために、試料のトレーニングセットにおいて１つまたは複数の生殖細胞系列ＳＮＰのそれぞれと関連するマイナー対立遺伝子頻度（ＭＡＦ）の標準偏差をさらに判定することができる。

一部の実施形態では、第１のモデルを作成するために、プロセッサーは、第１の確率分布に対する入力のために、変異型対立遺伝子を支持する試料中の分子の数をさらに判定することができる。

一部の実施形態では、第１のモデルを作成するために、プロセッサーは、第１の確率分布に対する入力のために、試料中の分子の総数をさらに判定することができる。

一部の実施形態では、第１のモデルを作成するために、プロセッサーは、体細胞ホモ接合欠失と関連する配列読み取りデータカバレッジに基づいて、体細胞ホモ接合欠失を仮定して、試料中の１つまたは複数の生殖細胞系列ＳＮＰの位置の対立遺伝子数の第１の尤度をさらに計算することができる。

一部の実施形態では、第２のモデルを作成するために、プロセッサーは、体細胞ヘテロ接合欠失と関連する配列読み取りデータカバレッジに基づいて、体細胞ヘテロ接合欠失を仮定して、試料中の１つまたは複数の生殖細胞系列ＳＮＰの位置の対立遺伝子数の第２の尤度をさらに計算することができる。

一部の実施形態では、第２のモデルを作成するために、プロセッサーは、第２のモデルに関する第２の確率分布に対する入力のために、試料から推定された腫瘍含有率（ｔｕｍｏｒｆｒａｃｔｉｏｎ）の平均をさらに判定することができる。

一部の実施形態では、腫瘍含有率は、配列カバレッジ情報に基づいて推定され得る。

一部の実施形態では、第２のモデルを作成するために、プロセッサーは、第２のモデルに関する第２の確率分布に対する入力のために、試料から推定された腫瘍含有率の標準偏差をさらに判定することができる。

一部の実施形態では、プロセッサーは、さらに、複数の試料にアクセスし、生殖細胞系列欠失を含む複数の試料の中から試料のセットを特定し、複数の試料から試料のセットをフィルタリングして出力し、フィルタリングされた複数の試料の中から、体細胞ホモ接合欠失または体細胞ヘテロ接合欠失の存在を特定することができる。

一部の実施形態では、第１の出力は、体細胞ホモ接合欠失の存在についての第１の確率を含んでもよく、第２の出力は、体細胞ヘテロ接合欠失の存在についての第２の確率を含んでもよい。

一部の実施形態では、第１のモデルの第１の出力と第２のモデルの第２の出力とを比較するために、プロセッサーは、第１の出力と第２の出力とに基づいて、対数尤度関数をさらに実行することができる。

一部の実施形態では、遺伝子は、ＢＲＣＡ１、ＢＲＣＡ２、またはＡＴＭを含んでもよい。

別の態様では、本開示は、システムに関する。システムは、試料中の遺伝子が体細胞ホモ接合欠失を含む第１の確率を作成し、試料中の遺伝子が体細胞ヘテロ接合欠失を含む第２の確率を作成し、第１の確率と第２の確率とを比較し、試料が体細胞ホモ接合欠失または体細胞ヘテロ接合欠失を含むか否かの予測を作成するようにプログラミングされたプロセッサーを含んでもよい。

別の態様では、本開示は、システムに関する。システムは、試料中の遺伝物質が第１の状態を含む第１の確率を作成し、試料中の遺伝物質が第２の状態を含む第２の確率を作成し、第１の確率と第２の確率とを比較し、試料が第１の状態または第２の状態を含むか否かの予測を作成するようにプログラミングされたプロセッサーを含んでもよい。

一部の実施形態では、第１の状態は体細胞ホモ接合欠失を含み、第２の状態は体細胞ヘテロ接合欠失を含む。

一部の実施形態では、第１の状態は、第１のコピー数バリアント（ＣＮＶ）を含んでもよく、第２の状態は、第１のＣＮＶとは異なる第２のＣＮＶを含んでもよい。

一部の実施形態では、第１のＣＮＶおよび／または第２のＣＮＶは、有害な状態に関連し得る。

一部の実施形態では、第１の確率を作成するために、プロセッサーは、さらに、遺伝子に関連する１つまたは複数の生殖細胞系列一塩基多型（ＳＮＰ）の位置にアクセスし、試料のトレーニングセットにおいて１つまたは複数の生殖細胞系列ＳＮＰのそれぞれに関連するマイナー対立遺伝子頻度（ＭＡＦ）の標準偏差を判定することができる。

一部の実施形態では、第１の確率を作成するために、プロセッサーは、確率分布に対する入力のために、試料のトレーニングセットにおいて１つまたは複数の生殖細胞系列ＳＮＰのそれぞれと関連するマイナー対立遺伝子頻度（ＭＡＦ）の標準偏差をさらに判定することができる。

別の態様では、本開示は、プロセッサーによって実装される方法に関する。本方法は、プロセッサーによって、第１の確率分布により、遺伝子に関連する１つまたは複数の生殖細胞系列一塩基多型（ＳＮＰ）の位置に基づいて、体細胞ホモ接合欠失を表す、対立遺伝子数の第１のモデルを作成するステップを含んでもよい。本方法は、プロセッサーによって、第２の確率分布により、１つまたは複数の生殖細胞系列ＳＮＰの位置に基づいて、体細胞ヘテロ接合欠失を表す、試料中の対立遺伝子数の第２のモデルを作成するステップをさらに含んでもよい。本方法は、プロセッサーによって、第１のモデルの第１の出力と第２のモデルの第２の出力とを比較するステップを含んでもよい。本方法は、プロセッサーによって、比較に基づいて、遺伝子に関する体細胞ホモ接合欠失が試料中に存在するという予測を作成するステップをさらに含んでもよい。

別の態様では、本開示は、プロセッサーによって実装される別の方法に関する。本方法は、プロセッサーによって、試料中の遺伝子が体細胞ホモ接合欠失を含む第１の確率を作成するステップを含んでもよい。本方法は、プロセッサーによって、試料中の遺伝子が体細胞ヘテロ接合欠失を含む第２の確率を作成するステップをさらに含んでもよい。本方法は、プロセッサーによって、第１の確率と第２の確率とを比較するステップをさらに含んでもよい。本方法は、プロセッサーによって、試料が体細胞ホモ接合欠失または体細胞ヘテロ接合欠失を含むか否かの予測を作成するステップをさらに含んでもよい。

別の態様では、本開示は、プロセッサーによって実装される別の方法に関する。

本方法は、プロセッサーによって、試料中の遺伝物質が第１の状態を含む第１の確率を作成するステップを含んでもよい。本方法は、プロセッサーによって、試料中の遺伝物質が第２の状態を含む第２の確率を作成するステップをさらに含んでもよい。本方法は、プロセッサーによって、第１の確率と第２の確率とを比較するステップをさらに含んでもよい。本方法は、プロセッサーによって、試料が第１の状態または第２の状態を含むか否かの予測を作成するステップをさらに含んでもよい。

別の態様では、本開示は、本明細書の開示に基づいて、体細胞ホモ接合欠失を有すると判定された対象に、体細胞ホモ接合欠失に関連するがんを処置するのに有効な治療介入を施与するための方法に関する。

一部の実施形態では、治療介入は、ポリＡＤＰリボースポリメラーゼ（ＰＡＲＰ）阻害剤を含んでもよい。ＰＡＲＰ阻害剤の例としては、とりわけ、ＯＬＡＰＡＲＩＢ、ＴＡＬＡＺＯＰＡＲＩＢ、ＲＵＣＡＰＡＲＩＢ、ＮＩＲＡＰＡＲＩＢ（商標名ＺＥＪＵＬＡ）が挙げられる。

一部の実施形態では、治療介入は、塩基除去修復（ＢＥＲ）阻害剤を含んでもよい。例えば、ＯＬＡＰＡＲＩＢは、ＢＥＲを阻害し得る。

別の態様では、本開示は、本明細書の開示に基づいて、特定の状態の遺伝物質を有すると判定された対象に、遺伝物質の状態に関連する疾患を処置するのに有効な治療介入を施与するための方法に関する。

別の態様では、本開示は、本明細書の開示に基づいて、体細胞ホモ接合欠失を有さないと判定された対象に、ＰＡＲＰ阻害剤を除外するための治療介入を施与するための方法に関する。

本開示のすべての態様の一部の実施形態では、本明細書に開示されるシステムおよび／または方法の結果は、レポートを作成するための入力として使用される。レポートは、紙であっても電子形式であってもよい。例えば、本明細書に開示される方法またはシステムによって判定される遺伝子および／または遺伝物質の欠失または他の状態に関する情報、および／またはそれに由来する情報を、このようなレポートにおいて示すことができる。本明細書に開示される方法またはシステムは、レポートを、試料が由来する対象または医療従事者などの第３のパーティーに通信するステップをさらに含んでもよい。
本明細書に開示される方法の様々な操作、または本明細書に開示されるシステムによって実行される操作は、同時にもしくは異なる時間に、および／または同じ地理的場所もしくは異なる地理的場所、例えば、国において実行されてもよい。本明細書に開示される方法の様々なステップは、同じ人間または異なる人々によって実施され得る。

図１は、本開示の実施形態に従って、各状態の確率に基づいて、遺伝物質の状態を予測するためにモデルをトレーニングするためのシステムの例を例示する。

図２は、本開示の実施形態に従って、生殖細胞系列ＳＮＰに関する対立遺伝子数を判定して、遺伝子の状態を予測する概略図を例示する。

図３は、本開示の実施形態に従って、トレーニングされたモデルに基づいて、体細胞ホモ接合またはヘテロ接合欠失を予測するプロセスを例示する。

図４は、本開示の実施形態に従って、トレーニングされたモデルに基づいて、遺伝物質の状態を予測するプロセスを例示する。

図５は、本開示の実施形態に従って、体細胞欠失の種類を例示する。

図６Ａは、本開示の実施形態に従って、ＢＲＣＡ１ホモ接合欠失の例示的プロットを例示する。

図６Ｂは、本開示の実施形態に従って、ＢＲＣＡ２ヘテロ接合欠失の例示的プロットを例示する。

図７Ａは、本開示の実施形態に従って、ＴＮＤ試料中のｈｅｔ出現率の例示的プロットを例示する。

図７Ｂは、本開示の実施形態に従って、ＴＮＤ試料にわたるＭＡＦの例示的プロットを例示する。

図８Ａは、本開示の実施形態に従って、ＢＲＣＡ１に関するＭＡＦ値の例示的プロットを例示する。

図８Ｂは、本開示の実施形態に従って、ＢＲＣＡ２に関するＭＡＦ値の例示的プロットを例示する。

図９Ａは、本開示の実施形態に従って、ＢＲＣＡ２パネルに関するベータ－二項モデルと二項モデルのスコア比較の例示的プロットを例示する。

図９Ｂは、本開示の実施形態に従って、ＢＲＣＡ２パネルに関するベータ－二項モデルとガウス分布モデルのスコア比較の例示的プロットを例示する。

図１０Ａは、本開示の実施形態に従って、ＢＲＣＡ１陰性試料に関するＬＬＲスコア分布の例示的プロットを例示する。

図１０Ｂは、本開示の実施形態に従って、ＢＲＣＡ２陰性試料に関するＬＬＲスコア分布の例示的プロットを例示する。

図１１Ａは、本開示の実施形態に従って、ＢＲＣＡ１に関する検出限界（ＬｏＤ）の欠失の例示的プロットを例示する。

図１１Ｂは、本開示の実施形態に従って、ＢＲＣＡ１に関するＬｏＤのＨＲＲホモ接合欠失の例示的プロットを例示する。

図１２Ａは、本開示の実施形態に従って、ＢＲＣＡ２に関するＬｏＤの欠失の例示的プロットを例示する。

図１２Ｂは、本開示の実施形態に従って、ＢＲＣＡ２に関するＬｏＤのＨＲＲホモ接合欠失の例示的プロットを例示する。

図１３は、本開示の実施形態に従って、がんの種類に対するＴＦの出現率の例示的プロットを例示する。

図１４は、本開示の実施形態に従って、ＢＲＣＡ１およびＢＲＣＡ２に関するＬＬＲスコアの密度の例示的プロットを例示する。

図１５は、本開示の実施形態に従って、ＢＲＣＡ２ホモ接合欠失の出現率の例示的チャートを例示する。

図１６は、本開示の実施形態に従って、ＢＲＣＡ１ホモ接合欠失の出現率の例示的チャートを例示する。

図１７は、本開示の実施形態に従って、ＢＲＣＡ２のホモ接合欠失と潜在的な臨床的対処可能性（ｃｌｉｎｉｃａｌａｃｔｉｏｎａｂｉｌｉｔｙ）の例を例示する。

図１８Ａは、本開示の実施形態に従って、ＢＲＣＡ１ホモ接合欠失の例示的プロットを例示する。

図１８Ｂは、本開示の実施形態に従って、ＢＲＣＡ１ホモ接合欠失の例示的プロットを例示する。

図１９Ａは、本開示の実施形態に従って、ＢＲＣＡ２ホモ接合欠失の例示的プロットを例示する。

図１９Ｂは、本開示の実施形態に従って、ＢＲＣＡ２ホモ接合欠失の例示的プロットを例示する。

図２０Ａは、本開示の実施形態に従って、ＢＲＣＡ１二対立遺伝子体細胞コピー数の喪失の例示的プロットを例示する。

図２０Ｂは、本開示の実施形態に従って、ＢＲＣＡ１ＬＯＨの例示的プロットを例示する。

図２１Ａは、本開示の実施形態に従って、ＢＲＣＡ２二対立遺伝子体細胞コピー数の喪失の例示的プロットを例示する。

図２１Ｂは、本開示の実施形態に従って、ＢＲＣＡ２ＬＯＨの例示的プロットを例示する。

図２２は、本開示の実施形態に従って、ＢＲＣＡ１およびＢＲＣＡ２体細胞欠失の出現率のプロットを例示する。

定義
対象は、動物、例えば、哺乳類種（好ましくはヒト）または鳥類（例えば、トリ）種、または他の生物、例えば、植物を指す。より詳細には、対象は、脊椎動物、例えば、マウス、霊長類、類人猿またはヒトなどの哺乳類であってもよい。動物は、飼育動物、狩猟動物、および愛玩動物を含む。対象は、健康な個体、症状もしくは兆候を有するかまたは疾患もしくは疾患に罹り易い体質を有することが疑われる個体、あるいは治療を必要としているかまたは治療を必要とすることが疑われる個体であってもよい。

遺伝子バリアントは、対象の核酸試料またはゲノムにおける変更、バリアントまたは多型を指す。このような変更、バリアントまたは多型は、種（例えば、ヒトでは、ｈＧ１９またはｈＧ３８）、対象または他の個体の参照ゲノムであり得る参照ゲノムに関するものであってもよい。変異は、１つまたは複数の一塩基変異（ＳＮＶ）、挿入、欠失、反復、小規模の挿入、小規模の欠失、小規模の反復、構造的バリアント接合、可変長タンデム反復、および／または隣接配列を含み、コピー数バリアント（ＣＮＶ）、トランスバージョン、遺伝子融合および他の再配列は遺伝的変異の形態でもある。変異は、塩基の変化、挿入、欠失、反復、コピー数変異、トランスバージョン、またはこれらの組合せであってもよい。

がんマーカーは、がんの存在またはがんを発症するリスクに関連する遺伝子バリアントである。がんマーカーは、対象が、がんを有するか、またはがんマーカーを有さない同種の年齢および性別の一致した対象よりもがんを発症するより高いリスクを有することの指標を提供し得る。がんマーカーは、がんの原因であってもなくてもよい。

本明細書で使用される場合、「核酸タグ」は、異なる種類の、または異なる処理を受けた、異なる試料（例えば、試料インデックスを表す）、または同じ試料における異なる核酸分子（例えば、分子バーコードを表す）から、核酸を識別するために使用される短い核酸（例えば、約５００ヌクレオチド長、約１００ヌクレオチド長、約５０ヌクレオチド長、または約１０ヌクレオチド長未満）を指す。核酸タグは、所定の、固定された、非ランダム、ランダムまたはセミランダムオリゴヌクレオチド配列を含む。このような核酸タグを使用して、異なる核酸分子または異なる核酸試料もしくはサブ試料を標識することができる。核酸タグは、一本鎖、二本鎖、または少なくとも部分的に二本鎖であってもよい。核酸タグは、必要に応じて、同じ長さまたは変動した長さを有する。核酸タグは、１つもしくは複数の平滑末端を有する二本鎖分子を含んでもよい、５’もしくは３’一本鎖領域（例えば、オーバーハング）を含んでもよい、および／または所与の分子内の他の場所に１つもしくは複数の他の一本鎖領域を含んでもよい。核酸タグは、他の核酸（例えば、増幅および／または配列決定される試料核酸）の一方の末端または両方の末端に結合され得る。核酸タグは、所与の核酸の起源の試料、形態、またはプロセシングなどの情報を明らかにするために解読され得る。例えば、その後に、核酸タグを検出する（例えば、読み取る）ことによって核酸がデコンボリューションされる、異なる分子バーコードおよび／または試料インデックスを保有する核酸を含む複数の試料のプールおよび／または並行処理を可能とするために核酸タグを使用することもできる。核酸タグを、識別子（例えば、分子識別子、試料識別子）とも称することができる。さらに、またはあるいは、核酸タグは、分子識別子として使用することができる（例えば、同じ試料またはサブ試料中の異なる分子または異なる親分子のアンプリコン間を識別するために）。これは、例えば、所与の試料中の異なる核酸分子を固有にタグ付けすること、またはこのような分子を非固有にタグ付けすることを含む。非固有のタグ付けを適用する事例では、異なる分子を、少なくとも１種の分子バーコードと組み合わせて、それらの内在性配列情報（例えば、選択された参照ゲノムに対してマッピングされる開始および／もしくは停止の位置、配列の一方もしくは両方の末端のサブ配列、ならびに／または配列の長さ）に基づいて識別することができるように、限定数のタグ（すなわち、分子バーコード）を使用して、各核酸分子をタグ付けすることができる。典型的には、いずれか２つの分子が、同じ内在性配列情報（例えば、開始および／もしくは停止の位置、配列の一方もしくは両方の末端のサブ配列、ならびに／または長さ）を有する可能性があり、かつ同じ分子バーコードも有する確率が低くなるように（例えば、約１０％未満、約５％未満、約１％未満、または約０．１％未満の見込み）、十分な数の異なる分子バーコードが使用される。

アダプターは、試料核酸分子のいずれかまたは両方の末端（各末端に１つのアダプター）への連結のために、通常、少なくとも部分的に二本鎖の短い核酸（例えば、５００、１００または５０ヌクレオチド長未満）である。アダプターは、両末端がアダプターに隣接する核酸分子の増幅を可能にするプライマー結合部位、および／または次世代配列決定（ＮＧＳ）のためのプライマー結合部位を含む配列決定プライマー結合部位を含むことができる。アダプターはまた、捕捉プローブ、例えば、フローセルの支持体に結合したオリゴヌクレオチドに対する結合部位を含むことができる。アダプターは、上述のようなバーコードも含み得る。バーコードは、好ましくは、バーコードが、核酸分子のアンプリコンおよび配列決定読み取りデータに含まれるように、プライマーおよび配列決定プライマー結合部位に対して位置付けられる。同じまたは異なる配列のアダプターは、核酸分子の各末端に連結され得る。同じアダプターは、バーコードが異なることを除いて、各末端に連結されることが多い。好ましいアダプターは、核酸分子（これもまた平滑末端であるかまたは１つもしくは複数の相補的ヌクレオチドでテール処理されている）への接合のために、一方の末端が本明細書に記載されるように平滑末端であるかまたはテール処理されているＹ形状アダプターであり、Ｙ形状アダプターの他方の末端は、二本鎖を形成するためにハイブリダイズしない非相補配列を含む。別の好ましいアダプターは、同様に、解析される核酸への接合のための平滑末端またはテール処理された末端を有するベル形状アダプターである。

本明細書で使用される場合、用語「配列決定」は、生体分子、例えば、ＤＮＡまたはＲＮＡなどの核酸の配列を決定するために使用されるいくつかの技術のうちのいずれかを指す。例示的な配列決定方法としては、以下に限定されないが、標的化配列決定、単一分子リアルタイム配列決定、エクソン配列決定、電子顕微鏡に基づく配列決定、パネル配列決定、トランジスタ媒介性配列決定、直接的配列決定、ランダムショットガン配列決定、サンガージデオキシ停止配列決定、全ゲノム配列決定、ハイブリダイゼーションによる配列決定、ピロ配列決定、キャピラリー電気泳動、二重鎖配列決定、サイクル配列決定、単一塩基伸長配列決定、固相配列決定、ハイスループット配列決定、超並列シグネチャー配列決定、エマルションＰＣＲ、低変性温度－ＰＣＲ（ＣＯＬＤ－ＰＣＲ）における同時増幅、マルチプレックスＰＣＲ、可逆的ダイターミネーターによる配列決定、ペアードエンド配列決定、ニアターム（ｎｅａｒ－ｔｅｒｍ）配列決定、エキソヌクレアーゼ配列決定、ライゲーションによる配列決定、ショートリード配列決定、単一分子配列決定、合成による配列決定、リアルタイム配列決定、リバースターミネーター配列決定、ナノポア配列決定、４５４配列決定、ＳｏｌｅｘａＧｅｎｏｍｅＡｎａｌｙｚｅｒ配列決定、ＳＯＬｉＤ（商標）配列決定、ＭＳ－ＰＥＴ配列決定、およびこれらの組合せが挙げられる。一部の実施形態では、配列決定は、例えば、ＩｌｌｕｍｉｎａまたはＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓから市販されている遺伝子解析器などの遺伝子解析器によって実施することができる。

語句「次世代配列決定」またはＮＧＳは、例えば、一度に数十万の比較的小さな配列読み取りデータを生成する能力を有する、古典的なサンガーおよびキャピラリー電気泳動に基づくアプローチと比較して、増加したスループットを有する配列決定技術を指す。次世代配列決定技法のいくつかの例として、以下に限定されないが、合成による配列決定、ライゲーションによる配列決定、およびハイブリダイゼーションによる配列決定が挙げられる。

ＤＮＡ（デオキシリボ核酸）は、アデニン（Ａ）、チミン（Ｔ）、シトシン（Ｃ）、およびグアニン（Ｇ）に基づく４種類のヌクレオチドを含むヌクレオチド鎖である。ＲＮＡ（リボ核酸）は、Ａ、ウラシル（Ｕ）、Ｇ、およびＣに基づく４種類のヌクレオチドを含むヌクレオチド鎖である。ある特定のヌクレオチドの対は、相補的様式で互いに特異的に結合する（相補的塩基対合と称される）。ＤＮＡでは、アデニン（Ａ）はチミン（Ｔ）と対合し、シトシン（Ｃ）はグアニン（Ｇ）と対合する。ＲＮＡでは、アデニン（Ａ）はウラシル（Ｕ）と対合し、シトシン（Ｃ）はグアニン（Ｇ）と対合する。第１の核酸鎖が、その第１の鎖におけるヌクレオチドに対して相補的であるヌクレオチドから構成される第２の核酸鎖に結合する場合、この２本の鎖が結合して二本鎖を形成する。本明細書で使用される場合、「核酸配列決定データ」、「核酸配列決定情報」、「核酸配列」、「ヌクレオチド配列」、「ゲノム配列」、「遺伝子配列」、または「断片配列」、または「核酸配列決定読み取りデータ」は、ＤＮＡまたはＲＮＡなどの核酸の分子（例えば、全ゲノム、全トランスクリプトーム、エキソーム、オリゴヌクレオチド、ポリヌクレオチド、または断片）中のヌクレオチド塩基（例えば、アデニン、グアニン、シトシン、およびチミンまたはウラシル）の順序を示すいずれかの情報またはデータを示す。本発明の教示が、以下に限定されないが：キャピラリー電気泳動、マイクロアレイ、ライゲーションに基づくシステム、ポリメラーゼに基づくシステム、ハイブリダイゼーションに基づくシステム、直接的または間接的ヌクレオチド特定システム、ピロ配列決定、イオンまたはｐＨに基づく検出システム、および電気的なサインに基づくシステムを含む、すべての利用可能な多種の技法、プラットフォームまたは技術を使用して得られた配列情報を企図することが理解されるべきである。

「ポリヌクレオチド」、「核酸」、「核酸分子」、または「オリゴヌクレオチド」は、ヌクレオシド間の連結によって接合したヌクレオシド（デオキシリボヌクレオシド、リボヌクレオシド、またはこれらのアナログを含む）の線状ポリマーを指す。典型的には、ポリヌクレオチドは、少なくとも３つのヌクレオシドを含む。オリゴヌクレオチドは、数個のモノマー単位、例えば、３～４個から数百個のモノマー単位のサイズの範囲に及ぶことが多い。ポリヌクレオチドが、「ＡＴＧＣＣＴＧ」などの文字の配列によって表される場合には常に、別段に記載されていなければ、ヌクレオチドが、左から右に５’から３’の順であり、「Ａ」はデオキシアデノシンを示し、「Ｃ」はデオキシシチジンを示し、「Ｇ」はデオキシグアノシンを示し、「Ｔ」はチミジンを示すことが理解されるであろう。文字Ａ、Ｃ、Ｇ、およびＴは、当技術分野において標準的であるように、塩基それ自体、ヌクレオシド、または塩基を含むヌクレオチドを指すために使用することができる。

語句「配列読み取りデータカバレッジ」は、参照配列の遺伝子座に対してアラインする配列読み取りデータの数を指す。「配列カバレッジ情報」は、参照配列の所与の遺伝子座の配列読み取りデータカバレッジを伝える情報を指す。配列カバレッジ情報は、遺伝子座に対してアラインする配列読み取りデータの数もしくは同一性および／または遺伝子座における配列読み取りデータカバレッジを示す他の情報を含むことができる。

語句「分子カバレッジ」は、参照配列の遺伝子座をカバーする分子の数を指す。分子は、本明細書に記載の配列読み取りデータおよび分子バーコードに基づいて特定することができる。このように、分子は、遺伝子座に対してアラインする分子から生じた配列読み取りデータに基づいて、参照配列の遺伝子座をカバーするように判定され得る。

参照配列は、実験的に判定された配列と比較するために使用される公知の配列である。例えば、公知の配列は、ゲノム全体、染色体、またはその任意のセグメントであってもよい。参照は、典型的には、少なくとも２０；５０；１００；２００；２５０；３００；３５０；４００；４５０；５００；１，０００；１０，０００；１００，０００；１，０００，０００；１０，０００，０００；１００，０００，０００；１，０００，０００，０００またはそれを超えるヌクレオチドを含む。参照配列は、ゲノムもしくは染色体の単一の連続配列とアラインしてもよく、またはゲノムもしくは染色体の異なる領域とアラインする非連続セグメントを含んでもよい。参照ヒトゲノムは、例えば、ｈＧ１９およびｈＧ３８を含む。

参照配列における用語「指定の位置」は、参照配列におけるゲノム座標を指す。

第１の一本鎖核酸配列は、ヒト染色体の配列のように、第１の核酸配列またはその相補体および第２の核酸配列またはその相補体が、連続参照配列の、重複するが非同一のセグメントとアラインする場合に、第２の一本鎖配列と重複する。完全にまたは部分的に二本鎖の核酸は、その鎖のいずれかが他の核酸の鎖と重複する場合に、完全にまたは部分的に二本鎖の別の核酸と重複する。

「Ｃ」から「Ｔ」へのバリアントまたは変換は、参照配列において塩基「Ｃ」に占有された座標の位置における、配列決定されたポリヌクレオチドにおける塩基「Ｔ」の存在を指す。「Ｇ」から「Ａ」へのバリアントまたは変換は、参照配列において塩基「Ｇ」に占有された座標の位置における、配列決定されたポリヌクレオチドにおける塩基「Ａ」の存在を指す

核酸分子は、概念上、５’末端側終端、内部部分および３’末端側終端へと分割され得る。末端側終端は、末端から所定の数のヌクレオチドに基づいて指定され得る。例えば、５’末端側終端は、例えば、５’末端への２０個の末端ヌクレオチドによって表される。３’末端側終端は、例えば、３’末端への２０個の末端ヌクレオチドによって表される。あるいは、核酸分子は、記載したように、末端部分、および残りの部分に分割され得る。

用語「マイナー対立遺伝子頻度」（「ＭＡＦ」）は、マイナー対立遺伝子（例えば、ほとんどの一般的対立遺伝子ではない）が、試料などの核酸の所与の集団において生じる頻度を指す。

「腫瘍含有率」（ＴＦ）は、所与の試料中の腫瘍に関連するＤＮＡ分子の割合を指す。ＴＦは、腫瘍細胞におけるバリアント対立遺伝子のカバレッジの低下を検出することに基づいて導出され得る。所与の試料中のＴＦがより低いことは、所与の試料中の所与のバリアント対立遺伝子のＭＡＦ、したがって、所与のバリアント対立遺伝子の検出能に影響を及ぼす可能性がある。

用語「腫瘍非検出」または「ＴＮＤ」は、体細胞一塩基バリアント、挿入－欠失、コピー数バリアント、および融合のいずれもが検出されなかった試料を指す。

用語「処理すること」、「計算すること」、および「比較すること」は、交換可能に使用することができる。この用語は、差異、例えば、数または配列における差異を判定することを指し得る。例えば、遺伝子発現、コピー数変異（ＣＮＶ）、インデル、および／または一塩基バリアント（ＳＮＶ）の値または配列を処理することができる。

アダプターは、ライゲーション、ハイブリダイゼーション、および／または増幅を含む任意のアプローチによって、核酸分子またはポリヌクレオチド配列に連結され得る、人工的に合成された配列である。アダプターは、試料核酸分子のいずれかまたは両方の末端への連結のために、通常、少なくとも部分的に二本鎖の短い核酸（例えば、５００、１００または５０ヌクレオチド長未満）である。アダプターは、両末端がアダプターに隣接する核酸分子の増幅を可能にするプライマー結合部位、および／または次世代配列決定（ＮＧＳ）のためのプライマー結合部位を含む配列決定プライマー結合部位を含むことができる。アダプターはまた、捕捉プローブ、例えば、フローセルの支持体に結合したオリゴヌクレオチドに対する結合部位を含むことができる。アダプターは、上述のようなバーコードも含み得る。タグは、好ましくは、タグが核酸分子のアンプリコンおよび配列決定読み取りデータに含まれるように、プライマーおよび配列決定プライマー結合部位に対する位置である。同じかまたは異なるアダプターは、核酸分子の各末端に連結され得る。同じアダプターは、タグが異なることを除いて、各末端に連結されることが多い。好ましいアダプターは、核酸分子（これもまた平滑末端であるかまたは１つもしくは複数の相補的ヌクレオチドでテール処理されている）への接合のために、一方の末端が本明細書に記載される平滑末端であるかまたはテール処理されているＹ形状アダプターである。別の好ましいアダプターは、同様に、解析される核酸への接合のための平滑末端またはテール処理された末端を有するベル形状アダプターである。
詳細な説明

図１は、本開示の実施形態に従って、各状態の確率に基づいて、遺伝物質の状態を予測するためにコンピューターモデルをトレーニングおよび使用するためのシステム１００の例を示す。システムは、試料１０１を処理して、１つまたは複数のモデル１４０（モデル１４０ａ・・・ｎとして例示される）をトレーニングすることができ、モデル１４０はそれぞれ、検査（ＩＵＴ）１１１の下で、個体由来の試料などの遺伝物質が特定の状態にある確率を出力する。一部の例では、試料１０１は、研究される目的の様々な遺伝子のパネルを含むことができる。

例えば、システムは、モデル１４０ａを使用して、ＩＵＴ１１１からの試料が、遺伝子に関連する体細胞ホモ接合欠失を含む確率を判定することができる。システムは、別のモデル１４０ｂを使用して、ＩＵＴ１１１からの試料が、遺伝子に関連する体細胞ヘテロ接合欠失を含む確率を判定することができる。次いで、システムは、確率を互いに比較して、体細胞ホモ接合欠失または体細胞ヘテロ接合欠失のどちらがより起こりやすいかを判定することができる。システムは、同様に、競合する確率に基づいて、他の種類の精度の高い診断を提供することができる。例えば、システムは、異なるコピー数の確率をモデリングすることによって、ＣＮＶをモデリングすることができる。各モデルの出力確率（それぞれ、異なるコピー数予測に対応し得る）の比較に基づいて、システムは、ＩＵＴ１１１の試料中のＣＮＶを判定することができる。

システム１００は、配列決定システム１０２、コンピューターシステム１１０、および／または他のコンポーネントを含むことができる。配列決定システム１０２とコンピューターシステム１１０とは、互いに隔離されていてもよく、コンピューターネットワーク（例示されていない）を介して互いに接続されていてもよいことに留意されたい。配列決定システム１０２は、試料採取および調製パイプライン１０３、配列決定パイプライン１０５、および配列決定読み取りデータ記憶１０９、および／または他のコンポーネントを含むことができる。配列決定パイプライン１０５は、１つまたは複数の配列決定デバイス１０７（配列決定デバイス１０７ａ・・・ｎとして図１において例示されている）を含むことができる。

コンピューターシステム１１０は、配列解析パイプライン１１２、プロセッサー１２０、ストレージデバイス１２２、データ前処理サブシステム１２４、分類装置１３０、モデルバリデーター１３２、および／または他のコンポーネントを含むことができる。

配列解析パイプライン１１２は、配列品質管理（ＱＣ）コンポーネント１１３、アライメントコンポーネント１１４、他の解析コンポーネント１１５、および解析ＱＣコンポーネント１１６を含むことができる。配列解析パイプライン１１２からの出力は、解析データ記憶１１７に記憶され得る。データ前処理サブシステム１２４は、配列解析パイプライン１１２からのデータを前処理して、トレーニングデータセット１２５を作成することができる。例えば、トレーニングデータセット１２５は、腫瘍が検出されなかったデータ（「ＴＮＤ」）（がんが診断される場合）またはそうでなければ、試料１０１の中からの正常な試料（他の種類の疾患または状態が診断される場合）のデータを含むことができる。全体を通して開示された例は、例示のためのＴＮＤ試料を指し得る。

一部の実施形態では、トレーニングデータセット１２５は、トレーニングデータ記憶１２６に記憶され得る。プロセッサー１２０の例示的操作を示すために、図２が参照されよう。図２は、本開示の実施形態に従って、生殖細胞系列ＳＮＰに関する対立遺伝子数を判定して、遺伝子２０１の状態を予測する概略図２００を示す。一部の例では、プロセッサー１２０は、遺伝子２０１周囲の目的の領域２０１に関するＴＮＤ試料の生殖細胞系列ＳＮＰを特定することができる。１つのトレーニング例では、生殖細胞系列ＳＮＰを２８，１９９個の試料から選択した。これらの試料のうち、５１０５個の試料（１８％）がＴＮＤを有するものとして特定され、これらを、集団対立遺伝子／遺伝子型頻度に対して使用した。以下の条件を満たす生殖細胞系列ＳＮＰが選択された：（１）選択された遺伝子（ＢＲＣＡ１、ＢＲＣＡ２、ＡＴＭなど）から３Ｍｂ以内にある、（２）５１０５個のＴＮＤ試料にわたるヘテロ接合性コールの頻度（ＭＡＦ＞２５％およびＭＡＦ＜７５％）が５％から９５％の間である、および（３）２８，１９９個の試料すべてにおいて、バリアントが体細胞でコールされない。目的の領域２０３は、遺伝子２０１の開始から上流のＮ個の塩基および遺伝子２０１の末端から下流のＭ個の塩基を含むことができる。ＮおよびＭの値は、同じであっても異なっていてもよい。一部の例では、ＮおよびＭは、それぞれ、３，０００，０００ヌクレオチド（３Ｍｂ）であってもよい。

図２の例示された例では、ＳＮＰ部位（ｉ）（ＳＮＰ（ｉ）として例示される）における参照野生型ヌクレオチドは、「Ｇ」であってもよい。ＴＮＤ試料にわたって、その位置でコールされるヌクレオチドは、互いに異なっていてもよい。ＴＮＤ試料が正常であるため、プロセッサー１２０は、ＴＮＤ試料のＳＮＰ（ｉ）と他のＳＮＰの部位は、腫瘍または非正常状態の原因ではないと仮定し得る。このように、これらのＳＮＰ部位は、それぞれ、遺伝子の状態の確率的判定のために対立遺伝子数をモデリングするための参照期待値としての役割を果たすことができる。例えば、各ＳＮＰの位置において観察されたヌクレオチドコールからの偏差は、このような偏差が、遺伝子２０１の腫瘍または他の非正常状態のような特定の状態の原因である確率を示し得る。したがって、プロセッサー１２０は、ＴＮＤ試料の生殖細胞系列ＳＮＰからのデータに関する計算に由来する期待値に基づいて、モデル１４０をトレーニングすることができる。このような計算されたデータは、各ＳＮＰ部位について、ヘテロ接合性の出現率、マイナー対立遺伝子頻度（ＭＡＦ）の標準偏差、遺伝子型、生殖細胞系列の出現率（以前の）、および／または他のデータを含むことができる。

計算された期待値を用いて、プロセッサー１２０は、目的の領域２０３に対してアラインするＩＵＴ１１１の試料の配列読み取りデータに基づいて、遺伝子２０１の状態をモデリングすることができる。例えば、プロセッサー１２０は、遺伝子２０１が特定の状態にある確率を表す各スコアをそれぞれ出力する競合モデル１４０を作成することができる。プロセッサー１２０は、各スコアを比較して予測スコアを計算し、これを閾値スコアと比較して、遺伝子２０１の状態を判定することができる。プロセッサー１２０は、以下にさらに記載されるように、トレーニング試料から観察されたデータに基づいて、閾値スコアを計算することができる。

一部の実施形態では、ＩＵＴ１１１の試料から作成した分子の配列読み取りデータを参照ゲノムに対してアラインし、元の分子が支持する対立遺伝子（突然変異体または野生型）を特定することができる。ＩＵＴ１１１の試料は、試料採取および調製パイプライン１０３で調製され、配列決定パイプライン１０５で配列決定され得る。各分子は、配列読み取りデータに関連し得る。ＩＵＴ１１１からの試料の分子の数からの配列決定読み取りデータの数は、所与の生殖細胞系列ＳＮＰ部位をカバーすることができる。

ＩＵＴ１１１の試料から作成した配列読み取りデータのアライメントに基づき、プロセッサー１２０は、ＳＮＰ対立遺伝子を支持する分子の数を特定し、分子の総数を計算することができる。プロセッサー１２０は、目的の領域２０３における生殖細胞系列ＳＮＰのそれぞれから計算された期待値データを用いて、ＩＵＴ１１１の試料からの、これらのおよび／または他のデータをモデリングすることができる。例えば、プロセッサー１２０は、遺伝子２０１の第１の状態の確率を表す対立遺伝子数のモデル１４０ａの第１の出力および遺伝子２０１の第２の状態の確率を表す対立遺伝子数のモデル１４０ｂの第２の出力を作成することができる。

プロセッサー１２０は、異なる種類の確率分布を実装して、モデル１４０を作成することができる。さらに、モデル１４０は、遺伝子２０１の様々な種類の状態、またはより一般的には、遺伝物質の様々な種類の状態をモデリングすることができる。ここで、モデリングの例およびプロセッサー１２０によってモデリングされる状態の種類に注意が向けられる。

一般的に言えば、プロセッサー１２０は、分類装置１３０を実装し得る（それによってプログラミングされ得る）。あるいは、分類装置１３０はハードウェアモジュールを含むことができることに留意されたい。いずれかの事象では、分類装置１３０（プロセッサー１２０をプログラムすることができる）は、遺伝子に関連する目的の領域において検出された対立遺伝子に基づいて、遺伝子（図２に例示された遺伝子２０１など）の状態をモデリングすることができる。より詳細には、トレーニングデータセット１２５に基づいて、分類装置１３０は、目的の領域（図２に例示された目的の領域２０３など）における生殖細胞系列一塩基多型（ＳＮＰ）の位置に基づいて、遺伝子の特定の状態についての１つまたは複数の確率モデル１４０（モデル１４０ａ、１４０ｂ、・・・、１４０ｎとして例示される）を判定することができる。各モデル１４０は、遺伝子の状態の各確率に対応し得る。ＳＮＰの位置は、様々な試料１０１から配列決定システム１０２によって作成した配列決定読み取りデータに基づいてもよい。状態は、限定されないが、体細胞ホモ接合欠失、体細胞ヘテロ接合欠失、コピー数変異（「ＣＮＶ」）（特定コピー数の野生型、獲得、または喪失を含む）、および／または遺伝子の他の状態などの遺伝子の突然変異状態を含むことができる。

様々な実施形態では、分類装置１３０は、トレーニングデータセット１２５に基づいて作成され得るモデルを適用して、個体の試料中の遺伝子の状態を判定することができる。例えば、分類装置１３０は、個体由来のｃｆＤＮＡの試料中の遺伝子が、体細胞ホモ接合欠失、体細胞ヘテロ接合欠失、および／またはがんなどの疾患もしくは他の健康状態と相関し得る他の状態を含む確率を判定することができる。予測に基づいて、精度の高い処置を個体に適合させることができる。このように、コンピューターシステム１１０を改良して、ｃｆＤＮＡなどの遺伝物質の非侵襲的解析に基づいて、進歩した診断能力を提供することができる。

本明細書に記載の例は、遺伝子状態を判定することに関係し得るが、染色体、エキソーム、および／または他の遺伝物質などの他の遺伝物質の状態も同様に判定することができることに留意されたい。例えば、ＣＮＶは、染色体、エキソーム、および／または他の遺伝物質に対して判定され得る。分類装置１３０の機能性についての説明を提供したが、ここで、様々なモデル１４０をトレーニングし、モデル１４０を使用して、検査下の特定の試料が特定の遺伝子状態を示す確率を予測することによって、遺伝子の状態を判定するより詳細な例に注意が向けられる。

ＴＮＤ試料に基づくモデルのトレーニング

一部の実施形態では、分類装置１３０は、試料１０１からのデータを使用する。データは、腫瘍が検出されない試料（「ＴＮＤ」試料）のセットを含むことができる。分類装置１３０は、ＴＮＤ試料を使用して、ＴＮＤ試料中の各生殖細胞系列ＳＮＰのヘテロ接合性の出現率およびＴＮＤ試料中の各生殖細胞系列ＳＮＰのマイナー対立遺伝子頻度（ＭＡＦ）の標準偏差を判定することができる。本開示全体を通して記載される式および計算において、標準偏差の代わりに分散を使用するこのような計算に対して適当な調整がなされさえすれば、標準偏差の代わりに分散を使用することができることに留意されたい。ヘテロ接合性の出現率および標準偏差は、「正常な」試料、すなわち、疾患状態を示さない試料のベースライン期待値を与え得る。分類装置１３０は、各部位ｉに関する生殖細胞系列の出現率（以前の）ｇ_ｉを推定することもできる。各生殖細胞系列ＳＮＰのヘテロ接合性の出現率の例示的計算は、等式（１）によって与えられ得る：
（式中、
ｐ_ａ（ｇ_ｉ）は、各生殖細胞系列ＳＮＰのヘテロ接合性の出現率を表し、
ｂ_ｉｊは、ＳＮＰ部位ｉにおいて観察された塩基のセットを表し、
ｇ_ｉは、ＳＮＰ部位ｉにおける遺伝子型（ＡＡ／Ａａ／ａａ）を表す）。

体細胞ホモ接合欠失のモデリング

分類装置１３０は、確率分布により、遺伝子に関連する１つまたは複数の生殖細胞系列一塩基多型（ＳＮＰ）の位置に基づいて、対立遺伝子数についての第１のモデル１４０ａを作成することができる。第１のモデルは、遺伝子の体細胞ホモ接合欠失を表す（例えば、モデリングする）ことができる。例えば、ＴＮＤ試料中の各生殖細胞系列ＳＮＰのヘテロ接合性の出現率（式（１））およびＴＮＤ試料中の各生殖細胞系列ＳＮＰのＭＡＦの標準偏差を考慮すると、分類装置１３０は、個体由来の特定の試料の遺伝子が、体細胞ホモ接合欠失に関連する確率をモデリングすることができる。そうするために、分類装置１３０は、ＩＵＴ１１１の試料の遺伝子における体細胞ホモ接合欠失の存在を支持する分子の数およびＩＵＴ１１１の試料中の分子の総数にアクセスすることができる。例えば、分類装置１３０は、試料中の遺伝子が体細胞ホモ接合欠失を有する確率を表す、モデル１４０ａなどのモデルを作成することができる。一部の実施形態では、分類装置１３０は、ベータ－二項確率分布を使用して、モデル１４０ａを作成することができるが、二項確率分布、正規分布（ガウス分布）、および／または他の確率モデリングなどの他の確率分布を使用してもよい。

ベータ－二項分布は、各試行における成功確率が固定されるが、ベータ分布から無作為に導かれるｎベルヌーイ試行の二項分布である。ベータ－二項分布は２つのパラメーター：αおよびβ（分布の平均／標準偏差によって固有に判定される）を使用することができる。ｎ＝１である場合、分布はベルヌーイ分布に対して低下する。α＝β＝１では、０からｎまでの別々の一様な分布である。

二項分布は、二項ランダム変数の確率分布である。二項ランダム変数は、二項実験のＮ反復試行における成功回数である。二項分布は、以下の特性を有する：分布の平均（μｘ）はｎ^＊Ｐに等しい；分散はｎ^＊Ｐ^＊（１－Ｐ）によって与えられる；および標準偏差（σｘ）は式（２）によって与えられる：

正規分布は、正規方程式によって定義され得る：
（式中、
Ｘは、正規ランダム変数であり、
μは、平均であり、
σは、標準偏差であり、
πは、およそ３．１４１５９であり、
ｅは、およそ２．７１８２８である）。

ベータ－二項確率分布を適用する例は、ここで、例示目的で記載されることになる。当業者であれば、二項、正規、および／または他の確率分布を、本明細書の開示に基づいて同様に使用することができることを理解するであろう。ベータ－二項確率分布では、分類装置１３０は、等式（４）に従って、ＲＰｒｏｊｅｃｔのＶＧＡＭパッケージにおけるｄｂｅｔａｂｉｎｏｍ関数を使用することができる：
（式中、
ｍ_ｉは、ＳＮＰ部位ｉにおいてＳＮＰ対立遺伝子を支持する分子の数を表し、
Ｒ_ｉは、分子の総数を表し、
Ｐ_ａ（ｇ_ｉ）は、ＳＮＰ部位ｉにおけるヘテロ接合性の出現率を表し、
ｓｄ（ｇ_ｉ）は、ＭＡＦの標準偏差を表す）。

分類装置１３０は、等式（５）に従って、第１のモデル１４０ａの第１の確率出力（Ｌ_１）を作成することができる：

体細胞ヘテロ接合欠失のモデリング

分類装置１３０は、確率分布により、１つまたは複数の生殖細胞系列ＳＮＰの位置に基づいて、試料中の対立遺伝子数の第２のモデル１４０ｂを作成することができる。第２のモデル１４０ｂは、遺伝子の体細胞ヘテロ接合欠失を表す（例えば、モデリングする）ことができる。ヘテロ接合欠失の検出はＴＦによって影響を及ぼされる場合があるため、分類装置１３０は、ＩＵＴ１１１の試料中の読み取りデータのカバレッジ（配列読み取りデータカバレッジ）に基づいて、ＴＦの平均、ｍｕ．ｔｆ（μ．ｔｆと表されてもよい）、および標準偏差、ｓｄ．ｔｆ（σ．ｔｆと表されてもよい）を判定することができる。

一部の実施形態では、分類装置１３０は、ベータ－二項確率分布を使用して、モデル１４０ｂを作成することができるが、二項確率分布、ガウス分布、および／または他の確率モデリングなどの他の確率分布を使用してもよい。

ベータ－二項確率分布では、分類装置１３０は、等式（６）に従って、ＲＰｒｏｊｅｃｔのＶＧＡＭパッケージにおけるｄｂｅｔａｂｉｎｏｍ関数を使用してもよい：
（式中、
ｍ_ｉは、ＳＮＰ部位ｉにおいてＳＮＰ対立遺伝子を支持する分子の数を表し、
Ｒ_ｉは、分子の総数を表し、
ｍ_ｕｉは、ＩＵＴ１１１の試料について計算されたＴＦの平均を表し、
ｓｄ_ｉは、ＩＵＴ１１１の試料について計算されたＴＦの標準偏差を表す）。

分類装置１３０は、等式（５）に従って、第２のモデル１４０ｂの第２の確率出力Ｌ_０を作成することができる：
式中、

第１のモデル１４０ａおよび第２のモデル１４０ｂは、第１のモデル１４０ａおよび第２のモデル１４０ｂがそれぞれ確率を出力しさえすれば、同じ確率分布を使用する必要はないことに留意されたい。

分類装置１３０は、第１のモデル１４０ａの第１の確率出力と第２のモデル１４０ｂの第２の確率出力とを比較して、どの確率出力がより可能性が高いかを判定することができる。例えば、分類装置１３０は、体細胞ホモ接合欠失または体細胞ヘテロ接合欠失がより可能性が高いか否かを判定することができる。特定の例では、分類装置１３０は、対数尤度比（「ＬＬＲ」）を使用して、第１の確率出力（体細胞ホモ接合欠失の確率）および第２の確率出力（体細胞ヘテロ接合欠失の確率）に基づいて、ＬＬＲスコアを作成することができる。一部の実施形態では、ＬＬＲスコアが閾値カットオフスコアを超えなければ、ヌル確率が拒絶されるように、第１または第２の確率出力のうちの一方をヌル確率として使用することができる。例えば、分類装置１３０は、ＬＬＲスコアを閾値カットオフスコアと比較して、第２の確率出力が拒絶されるべきか否かを判定することができる。言い換えれば、ＬＬＲスコアが閾値カットオフスコアを超える場合、分類装置１３０は、第１の確率出力が選択されるべきであることを判定することができる。この例では、分類装置１３０は、比較に基づいて、遺伝子に関する体細胞ホモ接合欠失が、ＩＵＴ１１１の試料中に存在するという予測を作成することができる。

一部の例では、エラーを軽減するために、モデル１４０Ａまたは１４０Ｂを使用して、所与の遺伝子と重複する各ＳＮＰに関する試料の遺伝子型を判定することができる。生殖細胞系列ＳＮＰがヘテロ接合性であることが判定されなければ、所与の遺伝子は「コールなし」と標識されてもよく、体細胞ホモ接合またはヘテロ接合欠失は所与の遺伝子に関連しない。

閾値スコアカットオフの学習

一部の実施形態では、閾値カットオフスコアを、アッセイされる様々な遺伝子または他の遺伝物質に対してカスタマイズすることができる。例えば、ＢＲＣＡ１遺伝子は、ＢＲＣＡ２遺伝子と異なる閾値カットオフスコアに関連し得る。他の遺伝子も同様に、カスタム閾値カットオフスコアに関連し得る。これらの実施形態では、分類装置１３０をトレーニングして、閾値カットオフスコアを判定することができる。これらの実施形態の一部では、分類装置１３０をトレーニングして、特定の遺伝子に関する閾値カットオフスコアを判定することができる。例えば、ＴＮＤ試料から開始する体細胞ヘテロ接合欠失のシミュレーションを使用して、分類装置１３０をトレーニングすることができる。例えば、図１０Ａおよび１０Ｂを参照して、ブランク限界（ＬｏＢ）、または最大ＬＬＲスコアは、ホモ接合欠失が、ＢＲＣＡ１およびＢＲＣＡ２陰性試料に対して存在しない場合に見出されることが期待される。図１０Ａおよび１０Ｂを参照して、ＴＮＤ試料から開始する体細胞ヘテロ接合欠失の１００，０００の事例がシミュレーションされた。２８，０００個の試料において観察されたＴＦ分布を、ＢＲＣＡ１およびＢＲＣＡ２に関するＬｏＢを判定するためのＴＦとして使用した。例示したように、ＬＬＲスコアと比較するための閾値カットオフスコアは、ＢＲＣＡ１およびＢＲＣＡ２に関して、それぞれ、２０．１および０である。よって、ＢＲＣＡ１の体細胞欠失がＩＵＴ１１１の試料において観察され、ＩＵＴ１１１の試料中のＢＲＣＡ１に関するＬＬＲスコアが２０．１を超える場合、分類装置１３０は、体細胞欠失が体細胞ホモ接合欠失であることを予測することができる。同様に、ＢＲＣＡ１の体細胞欠失がＩＵＴ１１１の試料において観察され、ＩＵＴ１１１の試料中のＢＲＣＡ２に関するＬＬＲスコアが０を超える場合、分類装置１３０は、体細胞欠失が体細胞ホモ接合欠失であることを予測することができる。他の遺伝子を同様にシミュレーションして、閾値カットオフスコアを判定することができることに留意されたい。

一部の実施形態では、モデルバリデーター１３２は、シミュレーションされたおよび／または臨床データを使用して、モデル１４０の結果を検証することができる。例えば、モデルバリデーター１３２は、診断結果データ記憶１５０および／または臨床結果データ記憶１６０を調べて、予測を検証することができる。シミュレーションされた結果では、公知の試料のパネルをモデリングして、これらの試料の遺伝物質の状態の予測を作成することができる。これらの結果を使用して、以前の予測および／または将来の予測の結果を検証することができる。

図３は、本開示の実施形態に従って、トレーニングされたモデルに基づいて体細胞ホモ接合またはヘテロ接合欠失を予測するプロセス３００を例示する。本明細書に記載の方法を実行するためには種々の方法が存在するため、プロセス３００は、例として提供される。プロセス３００は、主に、図１に例示されるコンピューターシステム１１０（プロセッサー１２０を介する）によって実施されるものとして記載されているが、プロセス３００は、他のシステム、またはシステムの組合せによって実行またはそうでなければ実施されてもよい。図３に示される各ブロックは、１つまたは複数のプロセス、方法、またはサブルーチンをさらに表してもよく、ブロックの１つまたは複数は、非一時的なコンピューター可読媒体に保存され、プロセッサーまたは他の種類の処理回路によって実行される機械可読命令を含み、本明細書に記載の１つまたは複数の操作を実施することができる。本明細書に開示されるプロセス３００の様々な操作、または本明細書に開示されるシステムによって実行されるブロックは、同一もしくは異なる地理的場所、例えば、国において、および／または同一もしくは異なる人々によって、同時または異なる時間に実行され得る。

操作３０２では、プロセッサー１２０は、ＴＮＤ試料を含む試料のセットからの生殖細胞系列ＳＮＰデータにアクセスすることができる。操作３０４では、プロセッサー１２０は、生殖細胞系列ＳＮＰデータに基づいて、ヘテロ接合性の出現率およびＭＡＦのＳＤを判定することができる。操作３０６では、プロセッサー１２０は、個体由来の試料が遺伝子において体細胞ホモ接合欠失を含むという判定を支持する、各生殖細胞系列ＳＮＰ部位に関する読み取りデータの第１の数を判定することができる。

操作３０８では、プロセッサー１２０は、ヘテロ接合性の出現率、ＭＡＦの標準偏差（ｓｄ）、生殖細胞系列ＳＮＰデータ、および読み取りデータの数に基づいて、遺伝子が、体細胞ホモ接合欠失に関連する確率の第１のモデルの第１の出力を作成することができる。操作３１０では、プロセッサー１２０は、個体由来の試料に基づいて、ＴＦの平均および標準偏差を判定することができる。操作３１２では、プロセッサー１２０は、個体由来の試料が、遺伝子において体細胞ヘテロ接合欠失を含むという判定を支持する、各生殖細胞系列ＳＮＰ部位に関する読み取りデータの第２の数を判定することができる。操作３１４では、プロセッサー１２０は、ＴＦの平均およびＳＤ、生殖細胞系列ＳＮＰデータ、および読み取りデータの第２の数に基づいて、遺伝子が体細胞ヘテロ接合欠失に関連する確率の第２のモデルの第２の出力を作成することができる。操作３１６では、プロセッサー１２０は、第１の出力と第２の出力とを比較することができる。操作３１８では、プロセッサー１２０は、比較に基づいて、第１の出力が選択されるべきか否かを判定することができる。操作３２０では、プロセッサー１２０は、第１の出力が選択されるべきか否かの判定に基づいて、遺伝子が体細胞ホモ接合欠失を含む確率を作成することができる。

分類装置１３０は、遺伝子の状態を予測するために、様々なモデリング技法を適用することができる。分類装置１３０は、同様に、他のモデリング技法を使用することができる。例えば、図９Ａおよび９Ｂは、異なるモデリング技法の結果の比較を例示する。他の確率技法も同様に使用することができる。

遺伝物質の他の種類の状態のモデリング

分類装置１３０は、遺伝物質の他の種類の状態をモデリングすることができる。例えば、分類装置１３０は、ＣＮＶなどの遺伝物質の様々な種類の状態を予測することができる。ここで、遺伝物質の状態を予測するプロセス４００を例示する図４に対して言及されることになる。本明細書に記載の方法を実行するためには種々の方法が存在し得るため、プロセス４００は、例として提供される。方法４００は、主に、図１に例示されるコンピューターシステム１１０（プロセッサー１２０を介して）によって実施されるものとして記載されるが、プロセス４００は、他のシステム、またはシステムの組合せによって実行またはそうでなければ実施され得る。図４に示される各ブロックは、１つまたは複数のプロセス、方法、またはサブルーチンをさらに表してもよく、ブロックの１つまたは複数は、非一時的なコンピューター可読媒体に保存され、プロセッサーまたは他の種類の処理回路によって実行される機械可読命令を含み、本明細書に記載の１つまたは複数の操作を実施することができる。本明細書に開示されるプロセス４００の様々な操作、または本明細書に開示されるシステムによって実行されるブロックは、同一もしくは異なる地理的場所、例えば、国において、および／または同一もしくは異なる人々によって、同時または異なる時間に実行され得る。

図４に関して記載される例は、ＩＵＴ１１１の試料中のＣＮＶを判定することを含む。より詳細には、例を使用して、ＩＵＴ１１１の試料由来の遺伝物質におけるコピー数分散（ｃｏｐｙｎｕｍｂｅｒｖａｒｉａｎｃｅ）（増幅など）を判定することができる。しかし、異なる状態の代替の（競合する）確率を使用し、最も可能性の高い確率を選択して、遺伝物質の他の種類の状態を同様にして判定することができる。

操作４０２では、プロセッサー１２０は、遺伝物質の第１の状態をモデリングする第１のモデルを作成することができる。第１の状態は、第１のＣＮＶまたは他の状態を含んでもよい。操作４０４では、プロセッサー１２０は、遺伝物質の第２の状態をモデリングする第２のモデルを作成することができる。第２の状態は、第２のＣＮＶまたは他の状態を含んでもよい。操作４０６では、プロセッサー１２０は、第１のモデルに基づいて、第１のスコアを作成することができる。第１のスコアは、遺伝物質が第１の状態にある確率を示すことができる。

操作４０８では、プロセッサー１２０は、第２のモデルに基づいて、第２のスコアを作成することができる。第２のスコアは、遺伝物質が第２の状態にある確率を示すことができる。操作４１０では、プロセッサー１２０は、第１のスコアと第２のスコアとを比較することができる。操作４１２では、プロセッサー１２０は、比較に基づいて、遺伝物質が第１の状態または第２の状態にあるという予測を作成することができる。

生殖細胞系列ＳＮＰに関するＭＡＦを分類装置１３０によって使用して、体細胞ヘテロ接合欠失および体細胞ホモ接合欠失の確率を作成する方法と同様に、ＭＡＦを使用して、ＣＮＶの確率を解明することができる。例えば、ＣＮＶが検出されなかった試料中の生殖細胞系列ＳＮＰのＭＡＦを使用して、試料中の読み取りデータが特定の増幅を支持するか否かを判定することができる。

図５は、本開示の実施形態に従って、体細胞欠失の種類を例示する。体細胞ホモ接合欠失は、２つの方法で生じ得る：（１）生殖系細胞は遺伝子の単一のコピーを有し、体細胞は第２の欠失を獲得する（単一コピー増幅の検出に類似するＬｏＤ）。これらは、カバレッジ＋重複するヘテロ接合性ＳＮＰなしに基づいて検出され得る。一部の例では、これらが観察されなかったとしても、生殖系細胞は遺伝子のコピーを有することができない。（２）体細胞ホモ接合欠失が生じ得る第２の方法は、生殖系細胞が遺伝子の２つのコピーを有し、体細胞が両コピーを失うことである（このシナリオがより高い出現率で観察された）。一部の実施形態では、二対立遺伝子体細胞コピー数の喪失では、生殖系細胞と体細胞の混合物において、生殖細胞系列ヘテロ接合性ＳＮＰの参照対立遺伝子頻度は０．５である。体細胞ＬＯＨの場合には、参照対立遺伝子ががん細胞において喪失しているかまたは保持されているかどうかに応じて、参照対立遺伝子頻度は０．５－０．５^＊ＴＦ（腫瘍含有率）または０．５＋０．５^＊ＴＦである。一部の実施形態では、ＬＯＨでは、期待された対立遺伝子頻度は、腫瘍細胞の割合に応じて変わり得る。よって、システムは、期待された対立遺伝子頻度０．５と比較して、計算された対立遺伝子頻度に基づいて、ＬＯＨと二対立遺伝子コピー数喪失とを識別することができる。

図６Ａは、本開示の実施形態に従って、ＢＲＣＡ１ホモ接合欠失の例示的プロット６００（Ａ）（１）および６００（Ａ）（２）を例示する。図６Ｂは、本開示の実施形態に従って、ＢＲＣＡ２ヘテロ接合欠失の例示的プロット６００（Ａ）（１）および６００（Ａ）（２）を示す。プロット６００（Ａ）（１）および６００（Ｂ）（１）を参照して、所与のｃｆＤＮＡ試料に関して、正規化された分子カバレッジ（ｙ軸）は、ゲノムの場所によって選別された標的化プローブ（ｘ軸）にわたって表される。染色体分離は、縦線とプロットのボトムラインに提示した識別子によって表される。体細胞コピー数の変化を伴わない領域は、２に近い分子カバレッジを示すが、一方、体細胞欠失は、２未満の分子カバレッジレベルによって特定され得る。プロット６００（Ｂ）（１）および６００（Ｂ）（２）を参照して、同じ試料では、公知の生殖細胞系列ＳＮＰのＭＡＦ（ｙ軸）は、それらのゲノムの場所（ｘ軸）に対して表される。体細胞欠失は、上の行のカバレッジプロットにおいて観察されるように、５０％に近い生殖細胞系列バリアントＭＡＦを明示するが（図６Ａに例示されるプロットを参照されたい）、一方、ヘテロ接合性欠失は不均衡な生殖細胞系列バリアントＭＡＦを生じる（図６Ｂに例示されるプロットを参照されたい）。

図７Ａは、本開示の実施形態に従って、ＴＮＤ試料において観察される、ＡＴＭ、ＢＲＣＡ１およびＢＲＣＡ２遺伝子と重複する公知の生殖細胞系列ＳＮＰに関して、ヘテロ接合性遺伝子型の出現率の例示的プロットを例示する。図７Ｂは、本開示の実施形態に従って、ＴＮＤ試料にわたるＭＡＦの例示的プロットを例示する。

図８Ａは、本開示の実施形態に従って、ＢＲＣＡ１に関するＭＡＦ値の例示的プロットを例示する。図８Ｂは、本開示の実施形態に従って、ＢＲＣＡ２に関するＭＡＦ値の例示的プロットを例示する。図８Ａおよび８Ｂは、各ＳＮＰの３つの可能な遺伝子型（ホモ接合性代替対立遺伝子／ヘテロ接合性／ホモ接合性参照対立遺伝子）（ｘ軸）に関する９つの公知の生殖細胞系列ＳＮＶのＭＡＦ（ｙ軸）の例を示す。図９Ａは、本開示の実施形態に従って、ＢＲＣＡ２パネルに関するベータ－二項モデルと二項モデルのスコア比較の例示的プロットを例示する。図９Ｂは、本開示の実施形態に従って、ＢＲＣＡ２パネルに関するベータ－二項モデルとガウス分布モデルのスコア比較の例示的プロットを例示する。図１０Ａは、本開示の実施形態に従って、ＢＲＣＡ１陰性試料に関するＬＬＲスコア分布の例示的プロットを例示する。図１０Ｂは、本開示の実施形態に従って、ＢＲＣＡ２陰性試料に関するＬＬＲスコア分布の例示的プロットを例示する。

図１１Ａは、本開示の実施形態に従って、ＢＲＣＡ１に関する欠失のＬｏＤの例示的プロットを例示する。図１１Ｂは、本開示の実施形態に従って、ＢＲＣＡ１に関するヘテロ接合性の喪失（ＬＯＨ）（本明細書において、交換可能に「ヘテロ接合欠失」と称される）のＬｏＤの例示的プロットを示す。シミュレーション：ＴＮＤ試料から開始するホモ接合体細胞欠失の１００ｋの事例。

使用されたＴＦ＝２８，１９９個の試料において観察されたＴＦ分布。ＬｏＤは、２つの因子に依存する（２段階アルゴリズム）：（１）欠失検出感度（カバレッジのみに基づく）：ＢＲＣＡ１増幅／欠失平均カットオフ＝０．０５；および（２）ホモ接合体細胞欠失とヘテロ接合体細胞欠失とを区別する能力（ＬＬＲ検査）。

図１２Ａは、本開示の実施形態に従って、ＢＲＣＡ２に関する欠失のＬｏＤの例示的プロットを例示する。図１２Ｂは、本開示の実施形態に従って、ＢＲＣＡ２に関するＬＯＨのＬｏＤの例示的プロットを例示する。シミュレーション：ＴＮＤ試料から開始するホモ接合体細胞欠失の１００ｋの事例。

使用されたＴＦ＝２８，１９９個の試料において観察されたＴＦ分布。

ＬｏＤは、２つの因子に依存する（２段階アルゴリズム）：（１）欠失検出感度（カバレッジのみに基づく）：ＢＲＣＡ２増幅／欠失平均カットオフ＝０．０９；および（２）ホモ接合体細胞欠失とヘテロ接合体細胞欠失とを区別する能力（ＬＬＲ検査）。

図１４は、本開示の実施形態に従って、ＢＲＣＡ１およびＢＲＣＡ２に関するＬＬＲスコアの密度の例示的プロットを例示する。２８，０００個のトレーニング試料のセットは、ランダムに選択され、２．５および０のカットオフを有し（ＬｏＢ部分において判定される）、ＢＲＣＡ１／２ホモ接合欠失を有する試料をコールした。３８７個および９９４個の試料は、それぞれ、ＢＲＣＡ１およびＢＲＣＡ２に関する体細胞欠失を示した。これらの試料のうち、４９個および６０個が、それぞれ、ＢＲＣＡ１およびＢＲＣＡ２のホモ接合欠失を有することがコールされた。

図１５は、本開示の実施形態に従って、複数のがんの種類の集団において観察されたＢＲＣＡ２ホモ接合欠失の出現率の例示的チャートを例示する。図１６は、本開示の実施形態に従って、複数のがんの種類の集団において観察されたＢＲＣＡ１ホモ接合欠失の出現率の例示的チャートを例示する。図１７は、本開示の実施形態に従って、ＢＲＣＡ２のホモ接合欠失と潜在的な臨床的対処可能性の例を例示する。図１７に例示したプロットは、参照によりその全体が本明細書に組み込まれる、ＲｏｂｉｎｓｏｎＤ，ＶａｎＡｌｌｅｎＥＭ，ＷｕＹＭ，ＳｃｈｕｌｔｚＮ，ＬｏｎｉｇｒｏＲＪ，ＭｏｓｑｕｅｒａＪＭ，ＭｏｎｔｇｏｍｅｒｙＢ，ＴａｐｌｉｎＭＥ，ＰｒｉｔｃｈａｒｄＣＣ，ＡｔｔａｒｄＧ，ｅｔａｌ．（「Ｒｏｂｉｎｓｏｎ」）による”Ｉｎｔｅｇｒａｔｉｖｅｃｌｉｎｉｃａｌｇｅｎｏｍｉｃｓｏｆａｄｖａｎｃｅｄｐｒｏｓｔａｔｅｃａｎｃｅｒ，” Ｃｅｌｌ１６１：１２１５－１２２８
（２０１５）からのものである。Ｒｏｂｉｎｓｏｎは、ＢＲＣＡ２における体細胞の変更と病原性生殖細胞系列の変更の両方についての統合解析によって、ＢＲＣＡ２を喪失した１９／１５０（１２．７％）の事例を特定し、そのおよそ９０％が二対立遺伝子の喪失を示したことを示す。これは、概して、体細胞点突然変異およびヘテロ接合性の喪失、ならびにホモ接合欠失の結果であった。非選択のｍＣＲＰＣに罹患した個体におけるポリ（ＡＤＰ－リボース）ポリメラーゼ（ＰＡＲＰ）阻害を評価する臨床検査は、臨床利益を経験した、この検査における複数の罹患した個体が、二対立遺伝子ＢＲＣＡ２の喪失を保有したことを示しており、臨床的対処可能性のさらなるエビデンスを提供する。

図１８Ａは、本開示の実施形態に従って、ＢＲＣＡ１ホモ接合欠失の例示的プロットを例示する。図１８Ｂは、本開示の実施形態に従って、ＢＲＣＡ１ホモ接合欠失の例示的プロットを例示する。図１９Ａは、本開示の実施形態に従って、ＢＲＣＡ２ホモ接合欠失の例示的プロットを例示する。図１９Ｂは、本開示の実施形態に従って、ＢＲＣＡ２ホモ接合欠失の例示的プロットを例示する。図１８Ａ、１８Ｂ、１９Ａ、および１９Ｂは、ヒトゲノムに基づくプロットである。

図２０Ａは、本開示の実施形態に従って、ＢＲＣＡ１二対立遺伝子体細胞コピー数の喪失の例示的プロットを例示する。この開示の目的として、用語「二対立遺伝子体細胞コピー数の喪失」は、「ホモ接合欠失」と交換可能に使用されるであろう。図２０Ｂは、本開示の実施形態に従って、ＢＲＣＡ１ＬＯＨの例示的プロットを例示する。この開示の目的として、用語「ＬＯＨ」は、「ヘテロ接合欠失」と交換可能に使用されるであろう。図２１Ａは、本開示の実施形態に従って、ＢＲＣＡ２二対立遺伝子体細胞コピー数の喪失の例示的プロットを例示する。図２１Ｂは、本開示の実施形態に従って、ＢＲＣＡ２ＬＯＨの例示的プロットを例示する。図２０Ａ、２０Ｂ、２１Ａ、および２１Ｂは、３つの（ヒト）染色体に基づくプロットである。図２２は、本開示の実施形態に従って、ＢＲＣＡ１およびＢＲＣＡ２体細胞欠失の出現率のプロットを例示する。

コンピューターによる実装

本方法は、湿式化学ステップ以外の本明細書または添付の特許請求の範囲に記載されるステップのいずれかまたはすべてが、好適なプログラミングされたコンピューターにおいて実施され得るように、コンピューターに実装され得る。コンピューターは、メインフレーム、パーソナルコンピューター、タブレット、スマートフォン、クラウド、オンラインデータストレージ、リモートデータストレージなどであってもよい。コンピューターは、１つまたは複数の場所で操作され得る。

本方法の様々な操作は、情報および／またはプログラムを利用することができ、コンピューター可読媒体（例えば、ハードドライブ、補助メモリー、外部メモリー、サーバー；データベース、ポータブルメモリーデバイス（例えば、ＣＤ－Ｒ、ＤＶＤ、ＺＩＰディスク、フラッシュメモリーカード）など）に記憶される結果を生じる。

本開示は、実行した場合に、本発明の方法のステップを実装する１つまたは複数のプログラムを含有する機械可読媒体を含む、核酸集団を解析するための製品も含む。

本開示は、ハードウェアおよび／またはソフトウェアに実装され得る。例えば、本開示の異なる態様は、クライアントサイドロジックまたはサーバーサイドロジックのいずれかで実装され得る。本開示またはそのコンポーネントは、適当に設定されたコンピューティングデバイスへとロードされた場合に、そのデバイスに本開示に従って実施させるロジック命令および／またはデータを含有する固定媒体プログラムコンポーネントにおいて具現化され得る。ロジック命令を含有する固定媒体は、ビューアーコンピューターへの物理的ローディングのために、固定媒体上のビューアーに送達されてもよく、またはロジック命令を含有する固定媒体は、ビューアーが、通信媒体を介してアクセスして、プログラムコンポーネントをダウンロードするリモートサーバーに存在してもよい。

本開示は、本開示の方法を実装するようにプログラミングされたコンピューター制御システムを提供する。プロセッサー１２０は、シングルコアもしくはマルチコアプロセッサー、または並行処理のための複数のプロセッサーを含むことができる。ストレージデバイス１２２は、ランダムアクセスメモリー、リードオンリーメモリー、フラッシュメモリー、ハードディスク、および／または他の種類のストレージを含んでもよい。コンピューターシステム１１０は、１つまたは複数の他のシステムと通信するための通信インターフェース（例えば、ネットワークアダプター）、ならびにキャッシュ、他のメモリー、データストレージおよび／または電子ディスプレイアダプターなどの周辺デバイスを含んでもよい。コンピューターシステム１１０のコンポーネントは、内部通信バス、例えば、マザーボードを介して互いに通信することができる。ストレージデバイス１２２は、データを記憶するためのデータストレージユニット（またはデータリポジトリー）であってもよい。コンピューターシステム１１０は、通信インターフェースの助けを借りて、コンピューターネットワーク（「ネットワーク」）に作動可能に連結されていてもよい。ネットワークは、インターネット、インターネットおよび／もしくはエクストラネット、またはインターネットと通信するイントラネットおよび／もしくはエクストラネットであってもよい。ネットワークは、一部の場合には、遠距離通信および／またはデータネットワークである。ネットワークは、ローカルエリアネットワークを含んでもよい。ネットワークは、クラウドコンピューティングなどの分散コンピューティングを可能にし得る、１つまたは複数のコンピューターサーバーを含んでもよい。ネットワークは、コンピューターシステム１１０の助けを借りる一部の場合には、デバイスを、クライアントまたはサーバーとして機能するコンピューターシステム１２０に連結可能にし得る、ピアツーピアネットワークを実装し得る。

プロセッサー１２０は、プログラムまたはソフトウェアにおいて具現化され得る、機械可読命令のシーケンスを実行することができる。命令は、ストレージデバイス１２２などのメモリーの場所に記憶され得る。命令はプロセッサー１２０を対象とすることができ、次に、プロセッサー１２０が本開示の方法を実装するようにプログラミングするかまたはそうでなければ設定することができる。プロセッサー１２０によって実施された操作の例としては、フェッチ、デコード、実行、およびライトバックが挙げられ得る。

プロセッサー１２０は、集積回路などの回路の一部であってもよい。システム１００の１つまたは複数の他のコンポーネントは、回路に含まれてもよい。一部の場合には、回路は、特定用途向け集積回路（ＡＳＩＣ）を含んでもよい。

ストレージデバイス１２２は、ファイル、例えば、ドライバー、ライブラリーおよび保存されたプログラムを記憶し得る。ストレージデバイス１２２は、ユーザーのデータ、例えば、ユーザーの好みの設定およびユーザーのプログラムを記憶し得る。コンピューターシステム１１０は、一部の事例では、コンピューターシステム１１０の外部にある、例えば、イントラネットまたはインターネットを介してコンピューターシステム１１０と通信するリモートサーバーに設置された、１つもしくは複数の追加のデータストレージユニットを含んでもよい。

コンピューターシステム１１０は、ネットワークを介して１つまたは複数のリモートコンピューターシステムと通信することができる。例えば、コンピューターシステム１１０は、ユーザーのリモートコンピューターシステムと通信することができる。リモートコンピューターシステムの例としては、パーソナルコンピューター（例えば、ポータブルＰＣ）、スレートまたはタブレットＰＣ（例えば、Ａｐｐｌｅ（登録商標）のｉＰａｄ（登録商標）、Ｓａｍｓｕｎｇ（登録商標）のＧａｌａｘｙＴａｂ）、電話機、スマートフォン（例えば、Ａｐｐｌｅ（登録商標）のｉＰｈｏｎｅ（登録商標）、Ａｎｄｒｏｉｄ（登録商標）対応機種、Ｂｌａｃｋｂｅｒｒｙ（登録商標））、または携帯情報端末が挙げられる。ユーザーは、ネットワークを介してコンピューターシステム１１０にアクセスすることができる。

本明細書に記載される方法は、例えば、ストレージデバイス１２２などのコンピューターシステム１１０の電子ストレージの場所に記憶された機械（例えば、コンピュータープロセッサー）実行可能コードによって実装され得る。機械実行可能または機械可読コードは、ソフトウェアの形態で提供され得る。使用中、コードは、プロセッサー９０５によって実行され得る。一部の場合には、コードは、ストレージユニット９１５から検索され、プロセッサー１２０によって容易にアクセスするためにストレージデバイス１２２に記憶され得る。

コードは、コードを実行するために適合させたプロセッサーを有する機械で使用するためにプリコンパイルおよび設定されてもよく、または実行時間中にコンパイルされてもよい。コードは、プリコンパイルまたはコンパイルされた様式で、コードを実行可能にするために選択され得るプログラム言語で供給され得る。

本明細書において提供されるシステムおよび方法の態様、例えば、コンピューターシステム１１０は、プログラミングによって具現化され得る。技術の様々な態様は、典型的には、ある種の機械可読媒体で実行されるかまたはそこで具現化される機械（またはプロセッサー）実行可能コードおよび／または関連するデータの形態の「プロダクト」または「製品」として考えられ得る。機械実行可能コードは、メモリー（例えば、リードオンリーメモリー、ランダムアクセスメモリー、フラッシュメモリー）またはハードディスクのような電子ストレージユニットに記憶され得る。

「ストレージ」型媒体としては、コンピューター、プロセッサーなど、またはそれらの関連モジュールの有形メモリー、例えばソフトウェアプログラミングのいずれかの時点で非一時的ストレージを提供することができる様々な半導体メモリー、テープドライブ、ディスクドライブなどのいずれかまたはすべてを挙げることができる。ソフトウェアのすべてまたは一部は、インターネットまたは様々な他の遠距離通信ネットワークを介して通信可能であることがある。このような通信は、例えば、一方のコンピューターまたはプロセッサーから別のものへの、例えば、管理サーバーまたはホストコンピューターからアプリケーションサーバーのコンピュータープラットフォームへのソフトウェアのローディングを可能にし得る。よって、ソフトウェアエレメントを保有することができる別の種類の媒体は、ローカルデバイス間の物理的インターフェースを横切って、有線または光地上通信線ネットワークを介しておよび様々なエアリンクを介して使用されるような光波、電波および電磁波を含む。このような波を搬送する物理的エレメント、例えば、有線リンクまたは無線リンク、光リンクなどもソフトウェアを保有する媒体とみなされ得る。本明細書で使用される場合、非一時的な、有形の

「ストレージ」媒体に限定されなければ、コンピューターまたは機械「可読媒体」などの用語は、実行のためにプロセッサーへの命令の提供に関与する任意の媒体を指す。

したがって、コンピューター実行可能コードなどの機械可読媒体は、以下に限定されないが、有形ストレージ媒体、搬送波媒体または物理的な伝送媒体を含む多くの形態をとることができる。不揮発性ストレージ媒体としては、例えば、図面に示されるデータベースなどを実装するために使用することができるような、任意のコンピューターなどにおけるストレージデバイスのいずれかなどの光または磁気ディスクが挙げられる。揮発性ストレージ媒体は、このようなコンピュータープラットフォームのメインメモリーなどの動的メモリーを含む。有形伝送媒体は、同軸ケーブル；コンピューターシステム内にバスを含むワイヤを含む、銅線および光学ファイバーを含む。搬送波伝送媒体は、電気もしくは電磁シグナル、または高周波（ＲＦ）赤外（ＩＲ）データ通信中に生成されるものなどの音波もしくは光波の形態を取ることができる。したがって、コンピューター可読媒体の一般的な形態は、例えば、フロッピー（登録商標）ディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、ＣＤ－ＲＯＭ、ＤＶＤもしくはＤＶＤ－ＲＯＭ、任意の他の光学媒体、パンチカード、紙テープ、穴のパターンを有する任意の他の物理的ストレージ媒体、ＲＡＭ、ＲＯＭ、ＰＲＯＭおよびＥＰＲＯＭ、ＦＬＡＳＨ－ＥＰＲＯＭ、任意の他のメモリーチップもしくはカートリッジ、搬送波輸送データもしくは命令、このような搬送波を輸送するケーブルもしくはリンク、またはコンピューターがプログラミングコードおよび／もしくはデータを読むことができる任意の他の媒体を含む。コンピューター可読媒体のこれらの形態の多くは、実行のためにプロセッサーに対する１つまたは複数の命令の１つまたは複数の配列の保有に関与し得る。

コンピューターシステム１１０は、例えば、レポートを提供するためのユーザーインターフェース（ＵＩ）を含む電子ディスプレイ９３５を含むかまたはそれと通信し得る。ＵＩの例としては、限定されないが、グラフィカルユーザーインターフェース（ＧＵＩ）およびウェブベースのユーザーインターフェースが挙げられる。

本開示の方法およびシステムは、１つまたは複数のアルゴリズムとして実装され得る。アルゴリズムは、プロセッサー１２０による実行の際に、ソフトウェアとして実装され得る。

試料採取および解析パイプライン

試料１０１は、対象から単離される任意の生体試料であってもよい。試料としては、身体組織、例えば、公知のまたは疑わしい固形腫瘍、全血、血小板、血清、血漿、便、赤血球細胞、白血球細胞または白血球、内皮細胞、組織生検、脳脊髄液、滑液、リンパ液、腹水液、間質内または細胞外液、歯肉溝液、骨髄、胸水、脳脊髄液、唾液、粘液、痰、精液、汗、尿を含む細胞間の空間における液体を挙げることができる。試料は、好ましくは体液、特に血液およびその画分、および尿である。このような試料は、核酸を含み得る。このような試料は、核酸試料とも称することができる。これらの試料の一部では、核酸は、腫瘍から流出され得る。核酸は、ＤＮＡおよびＲＮＡを含んでもよく、二本鎖および／または一本鎖形態であってもよい。核酸がＲＮＡを含む例では、本明細書に記載のシステムおよび方法は、参照遺伝子（ＧＡＰＤＨのような内在性制御遺伝子など）に対する目的の遺伝子の遺伝子発現を、正常な試料から計算されたトレーニングされた閾値と比較することによって、ＲＮＡによってコードされた目的の遺伝子における体細胞欠失を判定することができる。試料は、対象から元々単離された形態であってもよく、またはさらなる処理に供されて、細胞などの構成成分を除去または付加するか、１つの構成成分を別のものに対して濃縮するか、または１つの形態の核酸を別のものに、例えば、ＲＮＡをＤＮＡに、もしくは一本鎖核酸を二本鎖に変換してもよい。よって、例えば、解析のための体液は、無細胞核酸、例えば、無細胞ＤＮＡ（ｃｆＤＮＡ）を含有する血漿または血清である。

血漿の体積は、配列決定された領域に関する所望の読み深度に応じて変化し得る。例示的体積は、０．４～４０ｍｌ、５～２０ｍｌ、１０～２０ｍｌである。例えば、体積は、０．５ｍｌ、１ｍｌ、５ｍｌ、１０ｍｌ、２０ｍｌ、３０ｍｌ、または４０ｍｌであってもよい。サンプリングされた血漿の体積は、５から２０ｍｌであってもよい。

試料は、ゲノム等価物を含有する様々な量の核酸を含むことができる。例えば、約３０ｎｇのＤＮＡの試料は、約１０，０００（１０^４）個の半数体ヒトゲノム等価物、ｃｆＤＮＡの場合には、約２０００億（２×１０^１１）個の個々のポリヌクレオチド分子を含有し得る。同様に、約１００ｎｇのＤＮＡの試料は、約３０，０００個の半数体ヒトゲノム等価物、ｃｆＤＮＡの場合には、約６０００億個の個々の分子を含有し得る。

試料は、異なる供給源由来の、例えば、細胞および無細胞由来の核酸を含んでもよい。試料は、突然変異を有する核酸を含んでもよい。例えば、試料は、生殖細胞系列突然変異および／または体細胞突然変異を有するＤＮＡを含んでもよい。試料は、がん関連突然変異（例えば、がん関連体細胞突然変異）を有するＤＮＡを含んでもよい。

増幅前の試料中の無細胞核酸の例示的な量は、約１ｆｇから約１μｇ、例えば、１ｐｇから２００ｎｇ、１ｎｇから１００ｎｇ、１０ｎｇから１０００ｎｇの範囲に及ぶ。例えば、量は、最大約６００ｎｇ、最大約５００ｎｇ、最大約４００ｎｇ、最大約３００ｎｇ、最大約２００ｎｇ、最大約１００ｎｇ、最大約５０ｎｇ、または最大約２０ｎｇの無細胞核酸分子であり得る。量は、少なくとも１ｆｇ、少なくとも１０ｆｇ、少なくとも１００ｆｇ、少なくとも１ｐｇ、少なくとも１０ｐｇ、少なくとも１００ｐｇ、少なくとも１ｎｇ、少なくとも１０ｎｇ、少なくとも１００ｎｇ、少なくとも１５０ｎｇ、または少なくとも２００ｎｇの無細胞核酸分子であり得る。量は、最大１フェムトグラム（ｆｇ）、１０ｆｇ、１００ｆｇ、１ピコグラム（ｐｇ）、１０ｐｇ、１００ｐｇ、１ｎｇ、１０ｎｇ、１００ｎｇ、１５０ｎｇ、または２００ｎｇの無細胞核酸分子であり得る。方法は、１フェムトグラム（ｆｇ）から２００ｎｇを得るステップを含むことができる。

無細胞核酸試料は、無細胞核酸を含有する対象由来の試料を指す。無細胞核酸は、細胞内に含有されない核酸またはそうでなければ、細胞に結合していない核酸である。例えば、無細胞核酸試料は、無傷細胞を除去した後に試料中に残っている核酸を含むことができる。無細胞核酸は、対象由来の体液（例えば、血液、尿、ＣＳＦなど）を供給源とするすべての封入されていない核酸を指し得る。無細胞核酸は、ゲノムＤＮＡ、ミトコンドリアＤＮＡ、循環ＤＮＡ、ｓｉＲＮＡ、ｍｉＲＮＡ、循環ＲＮＡ（ｃＲＮＡ）、ｔＲＮＡ、ｒＲＮＡ、核小体低分子ＲＮＡ（ｓｎｏＲＮＡ）、Ｐｉｗｉ相互作用ＲＮＡ（ｐｉＲＮＡ）、長鎖ノンコーディングＲＮＡ（長鎖ｎｃＲＮＡ）を含むＤＮＡ（ｃｆＤＮＡ）、ＲＮＡ（ｃｆＲＮＡ）、およびそれらのハイブリッド、またはこれらのいずれかの断片を含む。無細胞核酸は、二本鎖、一本鎖、またはこのハイブリッドであってもよい。無細胞核酸は、分泌または細胞死プロセス、例えば、細胞のネクローシスおよびアポトーシスによって体液に放出され得る。一部の無細胞核酸は、がん細胞、例えば、循環腫瘍ＤＮＡ（ｃｔＤＮＡ）から体液に放出される。他のものは、健康な細胞から放出される。ｃｔＤＮＡは、封入されていない腫瘍由来の断片化ＤＮＡであり得る。無細胞胎児ＤＮＡ（ｃｆｆＤＮＡ）は、母体の血流を自由に循環する胎児のＤＮＡである。

無細胞核酸またはそれに関連するタンパク質は、１つまたは複数のエピジェネティック改変を有してもよく、例えば、無細胞核酸は、アセチル化、５－メチル化、ユビキチン化、リン酸化、ＳＵＭＯ化、リボシル化、および／またはシトルリン化されてもよい。

無細胞核酸は、約１００～５００ヌクレオチドの例示的なサイズ分布を有し、１１０から約２３０ヌクレオチドの分子が、分子の約９０％に相当し、ヒトにおける最頻値は約１６８ヌクレオチドであり、第２のマイナーピークは、２４０から４４０ヌクレオチドの範囲にある。無細胞核酸は、約１６０から約１８０ヌクレオチド、または約３２０から約３６０ヌクレオチド、または約４４０から約４８０ヌクレオチドであってもよい。

無細胞核酸は、溶液中に見出される無細胞核酸を、無傷細胞および体液の他の不溶性成分から分離する分割ステップによって、体液から単離することができる。分割には、遠心分離または濾過などの技法が含まれ得る。あるいは、体液中の細胞を溶解し、無細胞核酸および細胞核酸を一緒に処理してもよい。一般に、緩衝液の添加および洗浄ステップの後に、無細胞核酸は、アルコールで沈降させることができる。夾雑物または塩を除去するために、シリカベースカラムなどのさらなる清澄化ステップを使用してもよい。手順のある特定の態様、例えば、収率を最適化するために、例えば、非特異的バルク担体核酸を、反応全体にわたり添加してもよい。

そのような処理の後、試料は、二本鎖ＤＮＡ、一本鎖ＤＮＡ、および一本鎖ＲＮＡを含む、様々な形態の核酸を含むことができる。必要に応じて、一本鎖ＤＮＡおよびＲＮＡは、後続の処理および解析ステップに含められるように、二本鎖形態に変換されてもよい。

タグ

一部の実施形態では、核酸分子（ポリヌクレオチドの試料由来）は、試料インデックスおよび／または分子バーコード（一般的に「タグ」と称される）でタグ付けされてもよい。タグは、他の方法の中でもとりわけ、化学合成、ライゲーション（例えば、平滑末端ライゲーションまたは付着末端ライゲーション）、またはオーバーラップ伸長ポリメラーゼ連鎖反応（ＰＣＲ）によって、アダプターに組み込まれてもよく、またはそうでなければ、アダプターに接合されてもよい。このようなアダプターは、最終的に、標的核酸分子に接合され得る。他の実施形態では、従来の核酸増幅方法を使用して、試料インデックスを核酸分子に導入するために、１回または複数の増幅サイクル（例えば、ＰＣＲ増幅）が一般的に適用される。増幅は、１種または複数の反応混合物（例えば、アレイにおける複数のマイクロウェル）中で行われてもよい。分子バーコードおよび／または試料インデックスは、同時に、または任意の連続的順序で導入されてもよい。一部の実施形態では、分子バーコードおよび／または試料インデックスは、配列捕捉ステップが実施される前および／または後に導入される。一部の実施形態では、分子バーコードのみがプローブ捕捉の前に導入され、試料インデックスは、配列捕捉ステップが実施された後に導入される。一部の実施形態では、分子バーコードと試料インデックスの両方が、プローブに基づく捕捉ステップを実施する前に導入される。一部の実施形態では、試料インデックスは、配列捕捉ステップが実施された後に導入される。一部の実施形態では、分子バーコードは、ライゲーション（例えば、平滑末端ライゲーションまたは粘着末端ライゲーション）により、アダプターを介して試料中の核酸分子（例えば、ｃｆＤＮＡ分子）に組み込まれる。一部の実施形態では、試料インデックスは、オーバーラップ伸長ポリメラーゼ連鎖反応（ＰＣＲ）によって、試料中の核酸分子（例えば、ｃｆＤＮＡ分子）に組み込まれる。典型的には、配列捕捉プロトコールは、標的化核酸配列に対して相補的な一本鎖核酸分子を導入することに関与し、例えば、ゲノム領域およびこのような領域の突然変異のコード配列は、がんの種類に関連する。

一部の実施形態では、タグは、試料核酸分子の一方の末端または両方の末端に位置付けられ得る。一部の実施形態では、タグは、所定のまたはランダムもしくはセミランダム配列のオリゴヌクレオチドである。一部の実施形態では、タグは、約５００、２００、１００、５０、２０、１０、９、８、７、６、５、４、３、２、または１ヌクレオチド長未満であってもよい。タグは、ランダムまたは非ランダムに試料核酸に連結され得る。

一部の実施形態では、各試料は、試料インデックスまたは試料インデックスの組合せで固有にタグ付けされる。一部の実施形態では、試料またはサブ試料の各核酸分子は、分子バーコードまたは分子バーコードの組合せで固有にタグ付けされる。他の実施形態では、分子バーコードが複数（例えば、非固有分子バーコード）の中で互いに必ずしも固有ではないように、複数の分子バーコードを使用することができる。これらの実施形態では、一般的に、分子バーコードとそれが結合し得る配列の組合せが個々に追跡され得る固有の配列を生じるように、分子バーコードは個々の分子に結合される（例えば、ライゲーションによって）。内在性配列情報（例えば、試料中の元の核酸分子の配列に対応する始まり（開始）および／もしくは末端（停止）部分、一方もしくは両方の末端の配列読み取りデータのサブ配列、配列読み取りデータの長さ、ならびに／または試料中の元の核酸分子の長さ）と組み合わせて非固有にタグ付けされた分子バーコードの検出により、典型的には、特定の分子に固有の同一性を割り当てることが可能となる。個々の配列読み取りデータの長さ、または塩基対の数も必要に応じて使用して、所与の分子に固有の同一性を割り当てる。本明細書に記載されるように、固有の同一性が割り当てられた核酸の一本鎖に由来する断片は、それによって、それに続く親鎖に由来する断片、および／または相補鎖の特定を可能にし得る。

一部の実施形態では、分子バーコードは、識別子のセット（例えば、固有または非固有の分子バーコードの組合せ）の予測される比で、試料中の分子に導入される。ある例示的な形式は、標的分子の両末端にライゲーションされた、約２から約１，０００，０００個の異なる分子バーコード、または約５から約１５０個の異なる分子バーコード、または約２０から約５０個の異なる分子バーコードを使用する。あるいは、約２５から約１，０００，０００個の異なる分子バーコードが使用されてもよい。例えば、２０～５０×２０～５０個の分子バーコードが使用されてもよい。このような識別子の数は、典型的には、同じ開始点および停止点を有する異なる分子が、異なる組合せの識別子を受容する高い確率（例えば、少なくとも９４％、９９．５％、９９．９９％、または９９．９９９％）を有するのに十分である。一部の実施形態では、約８０％、約９０％、約９５％、または約９９％の分子が、同じ組合せの分子バーコードを有する。

一部の実施形態では、反応における固有または非固有の分子バーコードの割り当ては、例えば、それぞれが参照によりその全体が本明細書に組み込まれる、米国特許出願第２００１００５３５１９号、同第２００３０１５２４９０号、および同第２０１１０１６００７８号、ならびに米国特許第６，５８２，９０８号、同第７，５３７，８９８号、同第９，５９８，７３１号、および同第９，９０２，９９２号に記載された方法およびシステムを使用して実施される。あるいは、一部の実施形態では、試料の異なる核酸分子は、内在性配列情報（例えば、開始および／もしくは停止位置、配列の一方もしくは両方の末端のサブ配列、ならびに／または長さ）のみを使用して特定されてもよい。

増幅

アダプターが隣接する試料核酸を、ＰＣＲ、および典型的に、増幅させようとするＤＮＡ分子に隣接するアダプターにおけるプライマー結合部位にプライマーが結合することによりプライミングされる他の増幅方法によって増幅することができる。増幅方法は、サーマルサイクリングの結果としての伸長、変性、およびアニーリングのサイクルに関与してもよく、または転写に媒介される増幅におけるような等温のものであってもよい。他の増幅方法としては、リガーゼ連鎖反応、鎖置換増幅、核酸配列ベースの増幅、および自己持続性配列ベースの複製が挙げられる。

従来の核酸増幅方法を使用して、バーコードを核酸分子に導入するために、１回または複数回の増幅を適用することができる。増幅は、１種または複数の反応混合物中で行われてもよい。分子タグおよび試料インデックス／タグは、同時に、または任意の連続的順序で導入されてもよい。分子タグおよび試料インデックス／タグは、配列捕捉の前および／または後に導入されてもよい。一部の場合には、分子タグのみがプローブ捕捉の前に導入され、一方で、試料インデックス／タグは、配列捕捉後に導入される。一部の場合には、分子タグと試料インデックス／タグの両方が、プローブ捕捉の前に導入される。一部の場合には、試料インデックス／タグは、配列捕捉の後に導入される。通常、配列捕捉は、標的化配列、例えば、ゲノム領域のコード配列に相補的な一本鎖核酸分子を導入することに関与し、このような領域の突然変異は、がんの種類と関連している。典型的には、増幅により、２００ｎｔから７００ｎｔ、２５０ｎｔから３５０ｎｔ、または３２０ｎｔから５５０ｎｔの範囲のサイズで、分子タグおよび試料インデックス／タグを有する非固有または固有にタグ付けされた複数の核酸アンプリコンが生成される。一部の実施形態では、アンプリコンは、約３００ｎｔのサイズを有する。一部の実施形態では、アンプリコンは、約５００ｎｔのサイズを有する。

濃縮

一部の実施形態では、配列は、核酸を配列決定する前に濃縮される。濃縮は、特定の標的領域に対して、または非特異的に、必要に応じて実施される（「標的配列」）。一部の実施形態では、目的の標的化領域は、差次的タイリングおよび捕捉スキームを使用して、１つまたは複数のベイトセットパネルに関して選択される核酸捕捉プローブ（「ベイト」）を用いて濃縮され得る。差次的タイリングおよび捕捉スキームは一般的に、異なる相対濃度のベイトセットを使用して、ベイトと関連するゲノム領域全体に差次的にタイリングし（例えば、異なる「分解能」で）、拘束セット（例えば、シーケンサー拘束、例えば、配列決定ロード、それぞれのベイトの有用性など）に供され、下流配列決定に所望のレベルで、標的化核酸を捕捉する。これらの目的の標的化ゲノム領域は、核酸構築物の天然または合成のヌクレオチド配列を必要に応じて含む。一部の実施形態では、１つまたは複数の目的の領域に対するプローブを有するビオチン標識化ビーズを使用して、標的配列を捕捉し、その後、必要に応じて、目的の領域の濃縮のためにこれらの領域を増幅させることができる。

配列捕捉は、典型的には、標的核酸配列にハイブリダイズするオリゴヌクレオチドプローブの使用に関与する。ある特定の実施形態では、プローブセット戦略は、目的の領域全体にプローブをタイリングすることに関連する。このようなプローブは、例えば、約６０から約１２０ヌクレオチド長であり得る。セットは、約２×、３×、４×、５×、６×、８×、９×、１０×、１５×、２０×、５０×、またはそれを上回る深度を有し得る。一般的に、配列捕捉の有効性は、部分的に、プローブの配列に相補的である（またはほぼ相補的である）標的分子内の配列の長さに依存する。一部の実施形態では、濃縮された集団は、配列決定前に増幅されてもよい。

配列決定パイプライン

事前の増幅を用いてまたは用いないで、アダプターに隣接する試料核酸を、例えば、１つまたは複数の配列決定デバイス１０７による、配列決定に供することができる。配列決定方法としては、例えば、サンガー配列決定、ハイスループット配列決定、ピロ配列決定、合成による配列決定、単一分子配列決定、ナノポア配列決定、半導体配列決定、ライゲーションによる配列決定、ハイブリダイゼーションによる配列決定、ＲＮＡ－Ｓｅｑ（Ｉｌｌｕｍｉｎａ）、ＤｉｇｉｔａｌＧｅｎｅＥｘｐｒｅｓｓｉｏｎ（Ｈｅｌｉｃｏｓ）、次世代配列決定、ＳｉｎｇｌｅＭｏｌｅｃｕｌｅＳｅｑｕｅｎｃｉｎｇｂｙＳｙｎｔｈｅｓｉｓ（ＳＭＳＳ）（Ｈｅｌｉｃｏｓ）、大規模並列配列決定、ＣｌｏｎａｌＳｉｎｇｌｅＭｏｌｅｃｕｌｅＡｒｒａｙ（Ｓｏｌｅｘａ）、ショットガン配列決定、ＩｏｎＴｏｒｒｅｎｔ、ＯｘｆｏｒｄＮａｎｏｐｏｒｅ、ＲｏｃｈｅＧｅｎｉａ、Ｍａｘｉｍ－Ｇｉｌｂｅｒｔ配列決定、プライマーウォーキング、ＰａｃＢｉｏ、ＳＯＬｉＤ、ＩｏｎＴｏｒｒｅｎｔ、またはＮａｎｏｐｏｒｅプラットフォームを使用する配列決定が挙げられる。配列決定の反応は、複数のレーン、複数のチャネル、複数のウェル、または複数の試料セットを実質的に同時に処理する他の手段であり得る、種々の試料処理ユニットにおいて実施することができる。試料処理ユニットは、複数のランを同時に処理することが可能な複数の試料チャンバーも含んでもよい。

配列決定反応は、がんまたは他の疾患のマーカーを含有することが公知の１つまたは複数の断片の種類に関して実施されてもよい。配列決定反応は、試料中に存在する任意の核酸断片に関して実施されてもよい。配列反応は、少なくとも５％、１０％、１５％、２０％、２５％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、９５％、９９％、９９．９％または１００％のゲノムの配列カバレッジを提供し得る。他の場合には、ゲノムの配列カバレッジは、５％、１０％、１５％、２０％、２５％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、９５％、９９％、９９．９％または１００％未満であり得る。

同時の配列決定反応は、マルチプレックス配列決定を使用して実施されてもよい。一部の場合には、無細胞ポリヌクレオチドは、少なくとも１０００、２０００、３０００、４０００、５０００、６０００、７０００、８０００、９０００、１００００、５００００、１００，０００回の配列決定反応で配列決定され得る。他の場合には、無細胞ポリヌクレオチドは、１０００、２０００、３０００、４０００、５０００、６０００、７０００、８０００、９０００、１００００、５００００、１００，０００回未満の配列決定反応で配列決定され得る。配列決定反応は、逐次的にまたは同時に実施されてもよい。次のデータ解析は、配列決定反応のすべてまたは一部に関して実施されてもよい。一部の場合には、データ解析は、少なくとも１０００、２０００、３０００、４０００、５０００、６０００、７０００、８０００、９０００、１００００、５００００、１００，０００回の配列決定反応で実施されてもよい。他の場合には、データ解析は、１０００、２０００、３０００、４０００、５０００、６０００、７０００、８０００、９０００、１００００、５００００、１００，０００回未満の配列決定反応で実施されてもよい。例示的な読み深度は、遺伝子座（塩基）当たり１０００～８００００個の読み取りデータである。

配列解析パイプライン

一部の実施形態では、試料中の核酸を、同じ核酸分子のいずれか２つのコピーが、両末端に連結したアダプターから分子バーコードの同じ組合せを受容する確率が低くなる（例えば、１または０．１％未満）ように、分子バーコードを含む十分な数のアダプターと接触させることができる。このようなアダプターの使用により、所与の核酸分子から生じる核酸配列（配列読み取りデータ）のファミリーの特定が可能になる。例えば、参照配列に同じ開始および停止点を有し、分子バーコードの同じ組合せに連結した核酸配列は、ファミリーの一部であると考えられ得る。このように、ファミリーは、試料中の所与の核酸分子の増幅産物の配列を表し、ここで、ファミリーメンバーは、増幅産物から得られた配列読み取りデータである。ファミリーメンバーの配列は、平滑末端形成およびアダプター結合によって改変されたように、元の試料中の核酸分子に関するコンセンサスヌクレオチドまたは完全コンセンサス配列を導出するようにコンパイルされ得る。言い換えれば、試料中の核酸の特定の位置を占有するヌクレオチドは、ファミリーメンバーの配列における対応する位置を占有するヌクレオチドのコンセンサスであることが判定される。ファミリーは、二本鎖核酸の一方または両方の鎖の配列を含むことができる。ファミリーのメンバーが、二本鎖核酸由来の両方の鎖の配列を含む場合、一方の鎖の配列は、コンセンサスヌクレオチドまたは配列を導出するためにすべての配列をコンパイルする目的で、それらの相補体に変換される。一部のファミリーは、単一のメンバーの配列のみを含む。この場合には、この配列は、増幅前の試料中の核酸の配列として得ることができる。あるいは、単一のメンバーの配列のみを有するファミリーは、次の解析から排除されてもよい。

配列決定された核酸におけるヌクレオチドの変異は、配列決定された核酸を参照配列と比較することによって、判定することができる。参照配列は、公知の配列、例えば、対象由来の公知の全ゲノム配列または部分的ゲノム配列（例えば、ヒト対象の全ゲノム配列）である場合が多い。参照配列は、例えば、ｈＧ１９またはｈＧ３８であってもよい。配列決定された核酸は、試料中の核酸について直接的に判定された配列、または上記のように、このような核酸の増幅産物の配列のコンセンサスを表し得る。参照配列の１つまたは複数の指定の位置で比較を実施してもよい。各配列が最大限にアラインされた場合に、参照配列の指定の位置に対応する位置を含む、配列決定された核酸のサブセットを特定することができる。このようなサブセット内では、配列決定された核酸が、もしあれば、指定の位置にヌクレオチド変異を含み、必要に応じて、もしあれば、参照ヌクレオチド（すなわち、参照配列におけるものと同じ）を含むことが判定され得る。ヌクレオチドバリアントを含むサブセットにおける配列決定された核酸の数が選択された閾値を超える場合、バリアントヌクレオチドは指定の位置でコールされ得る。閾値は、単一の数値、例えば、ヌクレオチドバリアントを含むサブセット内の少なくとも１、２、３、４、５、６、７、９、または１０個の配列決定された核酸であってもよく、または閾値は、比率、例えば、他の確率の中でもとりわけ、ヌクレオチドバリアントを含むサブセット内の配列決定された核酸の少なくとも０．５、１、２、３、４、５、１０、１５、または２０であってもよい。比較は、参照配列における目的のいずれかの指定の位置について反復することができる。時には、比較は、参照配列における少なくとも約２０、１００、２００、または３００の連続する位置、例えば、約２０～５００、または約５０～３００の連続する位置を占有する指定の位置について実施されてもよい。

本方法を使用して、対象における状態、特にがんを引き起こし得る遺伝的事象の存在または非存在を特定し、状態を特徴付け（例えば、がんの病期分類またはがんの不均一性の判定）、状態の処置に対する応答をモニターし、状態の発症または状態のその後の経過の予後リスクをもたらすことができる。

本発明の方法を使用して、様々ながんを検出することができる。がん細胞は、ほとんどの細胞と同様に、古い細胞が死滅して新しい細胞に置き換わるターンオーバーの速度によって特徴付けることができる。一般的に、所与の対象において脈管構造と接触している死細胞は、ＤＮＡまたはＤＮＡの断片を血流中に放出し得る。これは、疾患の様々なステージのがん細胞にも当てはまる。がん細胞は、その疾患のステージに依存して、コピー数変異ならびに稀な突然変異などの様々な遺伝子異常によって、特徴付けることもできる。この現象を使用して、本明細書に記載の方法およびシステムを使用して、個体におけるがんの存在または非存在を検出することができる。

検出され得るがんの種類および数としては、血液のがん、脳のがん、肺がん、皮膚がん、鼻のがん、咽喉がん、肝臓がん、骨がん、リンパ腫、膵がん、皮膚がん、腸がん、直腸がん、甲状腺がん、膀胱がん、腎臓がん、口腔がん、胃がん、固形腫瘍、不均一な腫瘍、均一な腫瘍などを挙げることができる。

がんは、突然変異、稀な突然変異、インデル、コピー数変異、トランスバージョン、転座、逆位、欠失、異数性、部分異数性、倍数性、染色体不安定性、染色体の構造変化、遺伝子融合、染色体融合、遺伝子切断、遺伝子増幅、遺伝子重複、染色体損傷、ＤＮＡ損傷、核酸化学修飾の異常な変化、エピジェネティックパターンの異常な変化を含む遺伝的変異から検出することができる。

がんの特異的形態を特徴付けるために、遺伝子データを使用することもできる。がんは、組成と病期分類の両方において不均一であることが多い。遺伝子プロファイルデータによって、がんの特異的サブタイプの診断または処置において重要であり得る、その特異的サブタイプの特徴付けが可能になり得る。この情報は、対象または開業医に、特定の種類のがんの予後に関する手掛かりを与え、対象または開業医のいずれかが、疾患の進行と一致した処置選択肢を採用することを可能にもし得る。一部のがんは進行し、より攻撃的かつ遺伝的に不安定になる。他のがんは、良性、不活性または休止状態のままであり得る。本開示のシステムおよび方法は、疾患進行を判定する際に有用であり得る。

本発明の解析は、特定の処置選択肢の有効性を判定する際にも有用である。処置が成功する場合、より多くのがんが死滅し、ＤＮＡを流出し得るため、成功する処置選択肢は、対象の血中で検出されるコピー数変異または稀な突然変異の量を増加させ得る。他の例では、これは生じ得ない。別の例では、おそらく、ある特定の処置選択肢は、がんの遺伝子プロファイルと経時的に相関し得る。この相関は、治療を選択する際に有用であり得る。さらに、がんが、処置後に寛解することが観察される場合、本発明の方法を使用して、残りの疾患または疾患の再発をモニターすることができる。

がん以外の状態における遺伝的変異を検出するために本発明の方法を使用することもできる。Ｂ細胞などの免疫細胞は、ある特定の疾患が存在すると、急速なクローン増殖を受け得る。クローン増殖は、コピー数変異の検出を使用してモニターすることができ、ある特定の免疫状態がモニターされ得る。この例では、コピー数変異の解析を経時的に実施して、特定の疾患がどのように進行し得るかというプロファイルを作出することができる。コピー数変異またはさらに稀な突然変異の検出を使用して、病原体の集団が、感染の経過中にどのように変化しているかを判定することができる。これは、ウイルスが感染の経過中に生活環状態を変化させ得る、および／またはより毒性の高い形に突然変異し得る、ＨＩＶ／ＡＩＤｓまたは肝炎感染などの慢性感染中に特に重要であり得る。本発明の方法は、免疫細胞が移植組織を破壊しようと試みる場合に、宿主の身体の拒絶活性を判定またはプロファイルするために使用され、移植組織の状態をモニターし、および処置の経過または拒絶の予防を変更することができる。

さらに、本開示の方法を使用して、対象における異常な状態の不均一性を特徴付けることができ、本方法は、対象における細胞外ポリヌクレオチドの遺伝子プロファイルを作成するステップであって、遺伝子プロファイルが、コピー数変異および稀な突然変異の解析から得られる複数のデータを含む、ステップを含む。以下に限定されないが、がんを含む一部の場合には、疾患は不均一である場合がある。疾患細胞は、同一でない場合がある。がんの例では、一部の腫瘍は、異なる種類の腫瘍細胞、がんの異なるステージにある一部の細胞を含むことが公知である。他の例では、不均一性は、疾患の複数の病巣を含む場合がある。さらに、がんの例では、１つまたは複数の病巣が、おそらく原発部位から拡がった転移の結果である、複数の腫瘍病巣が存在し得る。

本方法は、不均一な疾患における異なる細胞由来の遺伝子情報の総和であるプロファイル、フィンガープリントまたはデータのセットを作成するために使用することができる。このデータのセットは、コピー数変異および稀な突然変異の解析を単独または組合せで含んでもよい。

本方法は、がんまたは胎児期由来の他の疾患を診断、予測、モニターまたは観察するために使用することができる。すなわち、これらの方法論は、そのＤＮＡおよび他のポリヌクレオチドが母体の分子と共に循環している可能性がある出生前の対象におけるがんまたは他の疾患を診断、予測、モニターまたは観察するために、妊娠中の対象において用いることができる。

精度の高い処置の例

改良されたコンピューターシステム１１０によって提供される精度の高い診断によって、精度の高い処置計画を得ることができ、これらは、コンピューターシステム１１０によって特定され得る（および／または医療従事者によって精選され得る）。例えば、１種の精度の高い診断および処置は、相同組換え修復（ＨＲＲ）経路の遺伝子に関する場合がある。

相同組換えは、ヌクレオチド配列が、２つの、類似するかまたは同一のＤＮＡ分子の間で交換される遺伝子組換えの１種である。これは、二本鎖切断（ＤＳＢ）として公知の、ＤＮＡの両方の鎖で起こる有害な切断を正確に修復するために、細胞によって最も広く使用される。ＨＲＲは、細胞分裂が起こる前の染色体切断を排除するために、複製された（ＳおよびＧ２期）ＤＮＡに存在する損傷のエラーを含まない除去に関するメカニズムを提供する。相同組換えが、ＤＮＡにおける二本鎖切断をどのように修復するかについての主要なモデルは、二本鎖切断修復（ＤＳＢＲ）経路および合成依存鎖アニーリング（ＳＤＳＡ）経路を媒介する相同組換え修復経路である。相同組換え遺伝子における生殖細胞系列および体細胞の欠陥は、乳がん、卵巣がんおよび前立腺がんに強く関連していた。

試料中のバリアントヌクレオチドの数および種類は、試料を提供する対象の処置、すなわち治療介入の受け易さの指標を提供し得る。例えば、様々なポリＡＤＰリボースポリメラーゼ（ＰＡＲＰ）阻害剤は、ＢＲＣＡ１またはＢＲＣＡ２遺伝子における遺伝的突然変異によって引き起こされる乳がん、卵巣がんおよび前立腺がん由来の腫瘍の成長を停止させることが示されてきた。これらの治療剤のいくつかは、ＨＲＲの欠陥を補うことができる、塩基除去修復（ＢＥＲ）を阻害することができる。

一方、ある特定のＢＲＣＡおよびＨＲＲ野生型患者は、ＰＡＲＰ阻害剤による処置から臨床利益を達成することができない。さらに、ＢＲＣＡ突然変異を有する卵巣がん患者のすべてが、ＰＡＲＰ阻害剤に対して応答する訳ではない。さらに、異なる種類の突然変異は、異なる治療を示し得る。例えば、ＨＲＲ遺伝子における体細胞ヘテロ接合欠失は、体細胞ホモ接合欠失とは異なる治療を示し得る。よって、遺伝物質の状態は、治療に影響を及ぼし得る。一例では、ＰＡＲＰ阻害剤は、ＨＲＲ遺伝子に体細胞ホモ接合欠失を保有する個体に投与することができるが、ＨＲＲ遺伝子に野生型対立遺伝子または体細胞ヘテロ接合欠失を保有する個体には投与することができない。

配列決定された核酸におけるヌクレオチド変異は、配列決定された核酸を参照配列と比較することによって判定することができる。参照配列は、公知の配列、例えば、対象由来の公知の全ゲノム配列または部分的ゲノム配列、ヒト対象の全ゲノム配列であることが多い。参照配列は、ｈＧ１９であってもよい。配列決定された核酸は、試料中の核酸について直接的に判定された配列、または上記のように、このような核酸の増幅産物の配列のコンセンサスを表し得る。参照配列の１つまたは複数の指定の位置で比較を実施してもよい。各配列が最大限にアラインされた場合に、参照配列の指定の位置に対応する位置を含む、配列決定された核酸のサブセットを特定することができる。このようなサブセット内では、配列決定された核酸が、もしあれば、指定の位置にヌクレオチド変異を含み、必要に応じて、もしあれば、参照ヌクレオチド（すなわち、参照配列におけるものと同じ）を含むことが判定され得る。ヌクレオチドバリアントを含むサブセットにおける配列決定された核酸の数が閾値を超える場合、バリアントヌクレオチドは、指定の位置でコールされ得る。閾値は、単一の数値、例えば、ヌクレオチドバリアントを含むサブセット内の少なくとも１、２、３、４、５、６、７、８、９、または１０個の配列決定された核酸であってもよく、または閾値は、比率、例えば、他の確率の中でもとりわけ、ヌクレオチドバリアントを含むサブセット内の配列決定された核酸の少なくとも０．５、１、２、３、４、５、１０、１５、または２０であってもよい。比較は、参照配列における目的のいずれかの指定の位置について反復することができる。時には、比較は、参照配列における少なくとも２０、１００、２００、または３００の連続する位置、例えば、２０～５００、または５０～３００の連続する位置を占有する指定の位置について実施されてもよい。

ＧｕａｒｄａｎｔＨｅａｌｔｈ，Ｉｎｃ．からの７３－遺伝子次世代配列決定ｃｔＤＮＡパネルを使用して、配列決定された進行した固形腫瘍を有する２８，１９９名の患者由来の血漿試料に本明細書に記載のモデリングを適用した。

結果の例は、９％～１１％の腫瘍含有率を示す試料に対して、ＢＲＣＡ１／２遺伝子の欠失を検出する際に９５％の感度を示した。ＬＯＨおよび二対立遺伝子のコピー数喪失に関する検出限界は、１１％～１３％である。観察されたＢＲＣＡ１体細胞欠失の出現率は、乳がん、結腸直腸がん、前立腺がんおよび子宮内膜がんにおける３％より高い。観察されたＢＲＣＡ２体細胞欠失の出現率は、乳癌、肺癌、前立腺癌、頭頸部癌（ＨＮＳＣＣ）および肝細胞癌における６％より高い。

古典的ＨＲＤに関連するがんを有する５，５６８名の患者のコホートでは、体細胞ＬＯＨおよび二対立遺伝子体細胞コピー数の喪失は、ＢＲＣＡ１では試料の２．７％で、およびＢＲＣＡ２では試料の８．０％で検出され、以前に報告した組織出現率とアラインされる。ＢＲＣＡ１およびＢＲＣＡ２のＬＯＨは、乳がん、卵巣がん、前立腺がん、および膵臓がんを含む古典的相同組換え欠陥（ＨＲＤ）がんの２．４％（１３４／５５６８）および７．４％（４１５／５５６８）で観察された。ＢＲＣＡ１およびＢＲＣＡ２二対立遺伝子体細胞コピー数の喪失は、ＨＲＤがんのこの同じ群の０．３％（１９／５５６８）および０．５％（３１／５５６８）において観察された。ＢＲＣＡ１／２体細胞ＬＯＨおよび二対立遺伝子体細胞コピー数の喪失は、本明細書に記載のモデルの適用に基づいて、ｃｔＤＮＡにおいて正確に検出することができる。非侵襲的ｃｔＤＮＡ評価による、この治療的に標的可能なゲノム変更を特定する能力は、深部の内臓の場所、主に、乳がんおよび前立腺がんなどの骨および脳への転移のために、特に、その疾患が組織検査を要求する患者において、重要な臨床的意味を有する。

上記または下記において引用したすべての特許出願、ウェブサイト、他の刊行物、受託番号などは、各個別の項目が参照によって組み込まれることが具体的かつ個別に示されたのと同じ程度に、すべての目的に関して参照によりその全体が組み込まれる。配列の異なるバージョンが異なる時間に受託番号に関連付けられている場合、本出願の有効な出願日において受託番号に関連付けられているバージョンを意味する。有効出願日とは、該当する場合、受託番号に関する実際の出願日または優先出願の出願日の早い方を意味する。同様に、刊行物、ウェブサイトなどの異なるバージョンが異なる時間に公開されている場合、別段の指定のない限り、本出願の有効出願日の直近に公開されたバージョンを意味する。特に別段の指定のない限り、本開示の任意の特徴、ステップ、要素、実施形態、または態様は、任意の他のものと組み合わせて使用され得る。本開示は、明瞭さおよび理解のための例示および例によって、いくらか詳細に記載されているが、添付の特許請求の範囲の範囲内にある特定の変化および改変を実践することができることが明らかになろう。
特定の実施形態では、例えば以下の項目が提供される。
（項目１）
遺伝子の生殖細胞系列欠失を示さない試料中の前記遺伝子の体細胞ホモ接合欠失と体細胞ヘテロ接合欠失とを識別するためのコンピューターシステムであって、
第１の確率分布により、前記遺伝子に関連する１つまたは複数の生殖細胞系列一塩基多型（ＳＮＰ）の位置に基づいて、前記体細胞ホモ接合欠失を表す、対立遺伝子数の第１のモデルを作成し、
第２の確率分布により、前記１つまたは複数の生殖細胞系列ＳＮＰの位置に基づいて、前記体細胞ヘテロ接合欠失を表す、前記試料中の対立遺伝子数の第２のモデルを作成し、
前記第１のモデルの第１の出力と前記第２のモデルの第２の出力とを比較し、
前記比較に基づいて、前記遺伝子に関する前記体細胞ホモ接合欠失が前記試料中に存在するという予測を作成する
ようにプログラミングされたプロセッサー
を含む、コンピューターシステム。
（項目２）
前記第１のモデルが、前記試料が前記体細胞ホモ接合欠失を含む第１の確率を表し、前記第２のモデルが、前記試料が前記体細胞ヘテロ接合欠失を含む第２の確率を表す、項目１に記載のコンピューターシステム。
（項目３）
前記第１の確率分布が、前記第２の確率分布と同じ種類の確率分布である、項目１に記載のコンピューターシステム。
（項目４）
前記第１のモデルを作成するために、前記プロセッサーが、前記第１の確率分布に対する入力のための１つまたは複数のパラメーターを判定するようにプログラミングされている、項目１に記載のコンピューターシステム。
（項目５）
前記第１の確率分布が、ベータ－二項分布、二項分布、または正規分布のうちの１つを含む１種の確率分布を含む、項目４に記載のコンピューターシステム。
（項目６）
対立遺伝子数の前記第１のモデルを作成するために、前記プロセッサーが、
前記第１の確率分布に対する入力のために、試料のトレーニングセットにおいて、前記１つまたは複数の生殖細胞系列ＳＮＰのヘテロ接合性の出現率を判定する
ようにさらにプログラミングされている、項目４に記載のコンピューターシステム。
（項目７）
試料の前記トレーニングセットが、腫瘍が検出されない（ＴＮＤ）複数の試料を含む、項目６に記載のコンピューターシステム。
（項目８）
対立遺伝子数の前記第１のモデルを作成するために、前記プロセッサーが、
前記第１の確率分布に対する入力のために、試料の前記トレーニングセットにおいて、前記１つまたは複数の生殖細胞系列ＳＮＰと関連するマイナー対立遺伝子頻度（ＭＡＦ）の標準偏差を判定する
ようにさらにプログラミングされている、項目６に記載のコンピューターシステム。
（項目９）
前記第１のモデルを作成するために、前記プロセッサーが、
前記第１の確率分布に対する入力のために、変異型対立遺伝子を支持する前記試料中の分子の数を判定する
ようにさらにプログラミングされている、項目８に記載のコンピューターシステム。
（項目１０）
前記第１のモデルを作成するために、前記プロセッサーが、
前記第１の確率分布に対する入力のために、前記試料中の分子の総数を判定する
ようにさらにプログラミングされている、項目９に記載のコンピューターシステム。
（項目１１）
前記第１のモデルを作成するために、前記プロセッサーが、
体細胞ホモ接合欠失と関連する分子カバレッジに基づいて、前記体細胞ホモ接合欠失を仮定して、前記試料において、前記１つまたは複数の生殖細胞系列ＳＮＰの位置の前記対立遺伝子数の第１の尤度を計算する
ようにさらにプログラミングされている、項目１０に記載のコンピューターシステム。
（項目１２）
前記第２のモデルを作成するために、前記プロセッサーが、
体細胞ヘテロ接合欠失と関連する分子カバレッジに基づいて、前記体細胞ヘテロ接合欠失を仮定して、前記試料において、前記１つまたは複数の生殖細胞系列ＳＮＰの位置の前記対立遺伝子数の第２の尤度を計算する
ようにさらにプログラミングされている、項目１１に記載のコンピューターシステム。
（項目１３）
前記第２のモデルを作成するために、前記プロセッサーが、
前記第２のモデルに関する前記第２の確率分布に対する入力のために、前記試料から推定された腫瘍含有率の平均を判定する
ようにさらにプログラミングされている、項目４に記載のコンピューターシステム。
（項目１４）
前記腫瘍含有率が、配列カバレッジ情報に基づいて推定される、項目１３に記載のコンピューターシステム。
（項目１５）
前記第２のモデルを作成するために、前記プロセッサーが、
前記第２のモデルに関する前記第２の確率分布に対する入力のために、前記試料から推定される腫瘍含有率の標準偏差を判定する
ようにさらにプログラミングされている、項目１３に記載のコンピューターシステム。
（項目１６）
前記プロセッサーが、
複数の試料にアクセスし、
生殖細胞系列欠失を含む前記複数の試料の中から試料のセットを特定し、
前記複数の試料から試料の前記セットをフィルタリングして出力し、
前記フィルタリングされた複数の試料の中から、前記体細胞ホモ接合欠失または前記体細胞ヘテロ接合欠失の存在を特定する
ようにさらにプログラミングされている、項目１に記載のコンピューターシステム。
（項目１７）
前記第１の出力が、前記体細胞ホモ接合欠失の存在についての第１の確率を含み、前記第２の出力が、前記体細胞ヘテロ接合欠失の存在についての第２の確率を含む、項目１に記載のコンピューターシステム。
（項目１８）
前記第１のモデルの前記第１の出力と前記第２のモデルの前記第２の出力とを比較するために、前記プロセッサーが、
前記第１の出力と前記第２の出力とに基づいて、対数尤度関数を実行する
ようにさらにプログラミングされている、項目１４に記載のコンピューターシステム。
（項目１９）
前記遺伝子が、ＢＲＣＡ１、ＢＲＣＡ２、およびＡＴＭのうちの１つを含む、項目１に記載のコンピューターシステム。
（項目２０）
試料中の遺伝子が体細胞ホモ接合欠失を含む第１の確率を作成し、
前記試料中の前記遺伝子が体細胞ヘテロ接合欠失を含む第２の確率を作成し、
前記第１の確率と前記第２の確率とを比較し、
前記試料が前記体細胞ホモ接合欠失または前記体細胞ヘテロ接合欠失を含むか否かの予測を作成する
ようにプログラミングされたプロセッサー
を含むシステム。
（項目２１）
試料中の遺伝物質が第１の状態を含む第１の確率を作成し、
前記試料中の遺伝物質が第２の状態を含む第２の確率を作成し、
前記第１の確率と前記第２の確率とを比較し、
前記試料が前記第１の状態または前記第２の状態を含むか否かの予測を作成する
ようにプログラミングされたプロセッサー
を含むシステム。
（項目２２）
前記第１の状態が、第１のモデルに基づいて判定される体細胞ホモ接合欠失を含み、前記第２の状態が、第２のモデルに基づいて判定される体細胞ヘテロ接合欠失を含む、項目２１に記載のシステム。
（項目２３）
前記第１の状態が、第１のコピー数バリアント（ＣＮＶ）を含み、前記第２の状態が、前記第１のＣＮＶとは異なる第２のＣＮＶを含む、項目２１に記載のシステム。
（項目２４）
前記第１のＣＮＶおよび／または前記第２のＣＮＶが、有害な状態に関連する、項目２３に記載のシステム。
（項目２５）
前記第１の確率を作成するために、前記プロセッサーが、
遺伝子に関連する１つまたは複数の生殖細胞系列一塩基多型（ＳＮＰ）の位置にアクセスし、
試料のトレーニングセットにおいて前記１つまたは複数の生殖細胞系列ＳＮＰに関連するマイナー対立遺伝子頻度（ＭＡＦ）の標準偏差を判定する
ようにプログラミングされている、項目２３に記載のシステム。
（項目２６）
前記第１の確率を作成するために、前記プロセッサーが、
試料の前記トレーニングセットにおいて前記１つまたは複数の生殖細胞系列ＳＮＰと関連するマイナー対立遺伝子頻度（ＭＡＦ）の標準偏差を判定する
ようにプログラミングされている、項目２３に記載のシステム。
（項目２７）
プロセッサーによって実装される方法であって、
前記プロセッサーによって、第１の確率分布により、遺伝子に関連する１つまたは複数の生殖細胞系列一塩基多型（ＳＮＰ）の位置に基づいて、体細胞ホモ接合欠失を表す、対立遺伝子数の第１のモデルを作成するステップと、
前記プロセッサーによって、第２の確率分布により、前記１つまたは複数の生殖細胞系列ＳＮＰの位置に基づいて、体細胞ヘテロ接合欠失を表す、試料中の対立遺伝子数の第２のモデルを作成するステップと、
前記プロセッサーによって、前記第１のモデルの第１の出力と前記第２のモデルの第２の出力とを比較するステップと、
前記プロセッサーによって、前記比較に基づいて、前記遺伝子に関する前記体細胞ホモ接合欠失が前記試料中に存在するという予測を作成するステップと
を含む、方法。
（項目２８）
プロセッサーによって実装される方法であって、
前記プロセッサーによって、試料中の遺伝子が体細胞ホモ接合欠失を含む第１の確率を作成するステップと、
前記プロセッサーによって、前記試料中の前記遺伝子が体細胞ヘテロ接合欠失を含む第２の確率を作成するステップと、
前記プロセッサーによって、前記第１の確率と前記第２の確率とを比較するステップと、
前記プロセッサーによって、前記試料が前記体細胞ホモ接合欠失または前記体細胞ヘテロ接合欠失を含むか否かの予測を、前記比較に基づいて作成するステップと
を含む、方法。
（項目２９）
プロセッサーによって実装される方法であって、
前記プロセッサーによって、試料中の遺伝物質が第１の状態を含む第１の確率を作成するステップと、
前記プロセッサーによって、前記試料中の遺伝物質が第２の状態を含む第２の確率を作成するステップと、
前記プロセッサーによって、前記第１の確率と前記第２の確率とを比較するステップと、
前記試料が前記第１の状態または前記第２の状態を含むか否かの予測を、前記比較に基づいて作成するステップと
を含む、方法。
（項目３０）
いずれかの先行する項目に基づいて、体細胞ホモ接合欠失を有すると判定された対象に、前記体細胞ホモ接合欠失に関連するがんを処置するのに有効な治療介入を施与するための方法。
（項目３１）
前記治療介入が、ポリＡＤＰリボースポリメラーゼ（ＰＡＲＰ）阻害剤を含む、項目３０に記載の方法。
（項目３２）
前記治療介入が、塩基除去修復（ＢＥＲ）阻害剤を含む、項目３０に記載の方法。
（項目３３）
いずれかの先行する項目に基づいて、特定の状態の遺伝物質を有すると判定された対象に、前記遺伝物質の状態に関連する疾患を処置するのに有効な治療介入を施与するための方法。
（項目３４）
いずれかの先行する項目に基づいて、体細胞ホモ接合欠失を有さないと判定された対象に、ポリＡＤＰリボースポリメラーゼ（ＰＡＲＰ）阻害剤を除外するための治療介入を施与するための方法。
（項目３５）
前記試料中の前記遺伝子および／または遺伝物質の状態に関する情報、および／またはそれに由来する情報を必要に応じて含むレポートを作成するステップをさらに含む、項目１から２９のいずれか一項に記載の方法またはシステム。
（項目３６）
前記レポートを、前記試料が由来する前記対象または医療従事者などの第３のパーティーに通信するステップをさらに含む、項目３５に記載の方法またはシステム。
（項目３７）
試料中の遺伝子の体細胞欠失が、体細胞ホモ接合欠失または体細胞ヘテロ接合欠失であるか否かを判定する方法であって、前記試料が、前記遺伝子の生殖細胞系列欠失を示さず、前記方法が、
ａ）前記試料中の前記遺伝子における生殖細胞系列一塩基多型（ＳＮＰ）の参照対立遺伝子頻度を判定するステップと、
ｂ）前記体細胞欠失を
（ｉ）前記試料中の前記生殖細胞系列ＳＮＰの前記参照対立遺伝子頻度が、ＳＮＰの遺伝子型に応じて、腫瘍非検出（ＴＮＤ）試料において観察される、所定の範囲内にある場合は、体細胞ホモ接合欠失、または
（ｉｉ）前記試料中の前記生殖細胞系列ＳＮＰの前記参照対立遺伝子頻度が、前記所定の範囲から規定量、逸脱する場合は、体細胞ヘテロ接合欠失
として分類するステップと
を含む、方法。
（項目３８）
前記所定の範囲が、０～０．０１、０．４５～０．５５、または０．９９～１である、項目３７に記載の方法。
（項目３９）
前記試料中の推定腫瘍含有率を判定するステップと、
前記推定腫瘍含有率に基づいて、前記規定量を計算するステップと
をさらに含む、項目３７に記載の方法。

Claims

明細書に記載の発明。