JP2021536612A

JP2021536612A - マージされたリードおよびマージされないリードに基づいた遺伝的変異体の検出

Info

Publication number: JP2021536612A
Application number: JP2021510444A
Authority: JP
Inventors: ダーリヤチュドヴァ，; モハンマドレザモクタリ，
Original assignee: ガーダントヘルス，インコーポレイテッド
Priority date: 2018-08-31
Filing date: 2019-09-03
Publication date: 2021-12-27
Anticipated expiration: 2039-09-03
Also published as: US20200075123A1; EP3844760A1; WO2020047553A1; JP7535998B2

Abstract

核酸シーケンサーからの配列リードの中の同一の分子バーコードおよび配列を有する遺伝子配列リードを同定し、遺伝子リードをファミリーに群分けし、分割リードを含むファミリーを処理して、ポリヌクレオチド分子の試料中の変異体を検出することにより、核酸変異体の同定を改善するための方法およびシステム。本開示は、試料からシーケンシングされたゲノム、染色体、または他の遺伝的部分由来のＤＮＡまたはＲＮＡなどの核酸の種々の状態の決定に基づいた高精度の診断を提供するコンピュータ技術に関する。

Description

相互参照
本出願は、その全体が参照により本明細書に組み込まれる２０１８年８月３１日出願の米国仮出願第６２／７２６，１３１号の利益を主張するものである。

挿入、欠失、置換、再編成およびコピー数変異体などの遺伝的変異体が疾患と相関する可能性がある。挿入および欠失などの遺伝的変異体は、ヒトゲノムにおける遺伝的変異体のクラスのうち一塩基多型の次に頻度の高いものである。挿入および／または欠失は、疾患の病理発生、遺伝子発現および機能性にも寄与する。次世代シーケンシング技術またはハイスループットシーケンシングを用いて、遺伝的変異体を検出することができる。疾患に関連する遺伝的変異体の同定における次世代シーケンシング技術の使用に関しては、遺伝的変異体を正確に同定することが極めて重要である。

本開示は、試料からシーケンシングされたゲノム、染色体、または他の遺伝的部分由来のＤＮＡまたはＲＮＡなどの核酸の種々の状態の決定に基づいた高精度の診断を提供するコンピュータ技術に関する。状態は、試料からシーケンシングされた核酸の野生型配列からの変異を含み得る。そのような変異は、限定することなく、挿入、欠失、再編成、コピー数変異体（野生型状態に対して一連の挿入もしくは欠失を含み得る）、および／または他の状態を含み得る。再編成は、配列（例えば、ゲノム配列など）の一部分であって、その一部分は、他に野生型または参照状態ではその一部分を含まないその配列の位置に移動またはコピーされる配列の一部分を含み得る。高精度の診断法は、試料から生成される配列リードの解析に基づき得る。実験により誘導される変異体の事例を低減させるために、高精度の診断法は、実験により誘導される変異体の発生を低減することができる実験室システム処理の改変にさらに基づき得る。

当該システムは、高精度の診断だけでなく、例えば治療目的での変異体の意図的な導入を確認することなど、遺伝子治療の高精度の検証にも使用することができる。一態様では、本開示は、対象の試料中の核酸変異体を検出するために改善された方法およびコンピュータシステムに関する。

例えば、一部の実施形態では、対象由来の核酸分子の試料中の核酸変異体を検出するための方法は、対象由来の核酸分子の試料から生成された複数のペアエンドリードにアクセスするステップを含み得る。方法は、オーバーラップ基準に基づいて複数のペアエンドリードの中から複数のペアエンドリードの対を同定するステップと、オーバーラップしている複数のペアエンドリードの対に基づいて複数のマージされたリードを生成するステップとをさらに含み得る。マージされたリードは、オーバーラップしているペアエンドリードの対のそれぞれの配列に基づく配列を含み得る。方法は、複数のペアエンドリードの中から複数のマージされないリードを同定するステップを含み得る。所与のマージされないリードは、オーバーラップ基準を満たさないペアエンドリードをメイト（または対応する）ペアエンドリードと共に含み得る。方法は、複数のマージされたリードおよび複数のマージされないリードを参照ゲノムに対してアラインメントさせて、複数のアラインメントしたリードを生成するステップと、複数のアラインメントしたリードの中から複数の分割リードを同定するステップをさらに含み得る。所与の分割リードは、参照配列の第１の核酸遺伝子座にアラインメントする第１の部分配列部分および参照配列の第２の核酸遺伝子座にアラインメントする第２の部分配列部分を含む。方法は、所与の分割リードについて、第１の核酸遺伝子座および第２の核酸遺伝子座に対応するゲノム位置の対を含むブレークポイントを決定するステップと、複数の分割リードのそれぞれのブレークポイントに基づいて複数の分割リードをクラスター化して、複数の変異体クラスターを生成するステップと、所定の基準に合致する複数の変異体クラスターの任意の１つまたは複数を、検出された変異体を指し示すものとして同定するステップとをさらに含み得る。

一部の実施形態では、複数のマージされないリードの所与のマージされないリードは、対応するマージされないリードを有する。これらの実施形態では、方法は、所与のマージされないリードおよび対応するマージされないリードについて、人工ヌクレオチド配列を生成するステップをさらに含み得る。方法は、人工ヌクレオチド配列をマージされないリードの第１の配列および対応するマージされないリードの第２の配列および対応するマージされないリードの配列に鎖状連結するステップをさらに含み得る。

一部の実施形態では、人工ヌクレオチド配列は、第１の配列と第２の配列との間に位置する。一部の実施形態では、人工ヌクレオチド配列は、少なくとも１ヌクレオチド、少なくとも２ヌクレオチド、少なくとも５ヌクレオチド、少なくとも１０ヌクレオチド、少なくとも１５ヌクレオチド、少なくとも２０ヌクレオチド、少なくとも３０ヌクレオチド、少なくとも４０ヌクレオチド、少なくとも５０ヌクレオチド、または少なくとも１００ヌクレオチドの長さである。一部の実施形態では、ブレークポイントの位置は、人工ヌクレオチド配列内に位置するように近づけられている。一部の実施形態では、群は、人工ヌクレオチド配列内にブレークポイントを有する分割リードおよび第１のまたは第２の部分配列部分内にブレークポイントを有する分割リードを含む。

これらの実施形態の一部では、ブレークポイントは、５ヌクレオチド以下、１０ヌクレオチド以下または２５ヌクレオチド以下離れている。

一部の実施形態では、所定の基準は、群の中に１つよりも多くの分割リードを有することを含む。一部の実施形態では、所定の基準は、第１のまたは第２の部分配列内にブレークポイントが１つ存在する群内の少なくとも１つの分割リードを有することを含み得る。

一部の実施形態では、試料は、血液、血漿、血清、尿、唾液、粘膜排泄物、痰、便、および涙からなる群より選択される体液試料である。一部の実施形態では、対象は疾患を有し、疾患は、がんを含み得る。

一部の実施形態では、核酸分子はＤＮＡであり、ＤＮＡは無細胞ＤＮＡを含み得る。一部の実施形態では、方法は、シーケンシング前に無細胞ＤＮＡ分子のコピーを生成するステップを含み得る。

一部の実施形態では、方法は、シーケンシング前に核酸分子にバーコードを含む１つまたは複数のアダプターを付着させるステップを含み得る。一部の実施形態では、アダプターを核酸分子の両末端にランダムに付着させる。

一部の実施形態では、核酸分子に一意的にバーコード付けする。

一部の実施形態では、核酸分子に非一意的にバーコード付けする。

一部の実施形態では、各バーコードは、選択された領域からシーケンシングされた分子の多様性との組合せで一意的な分子の同定を可能にする固定された、セミランダムな、ランダムなオリゴヌクレオチド配列を含む。

一部の実施形態では、方法は、シーケンシング前に複数の核酸遺伝子座について核酸分子を選択的に富化するステップを含み得る。

一部の実施形態では、方法は、対象の試料由来のポリヌクレオチドを増幅するステップを含み得る。

一部の実施形態では、方法は、検出された変異体が挿入、欠失、または核酸再編成を含むことを決定するステップを含み得る。

一部の実施形態では、方法は、検出された変異体に基づいて、予測される病態を決定するステップを含み得る。

一部の実施形態では、対象由来の核酸分子の試料中の核酸変異体を検出するための方法は、対象由来の核酸分子の試料から生成された複数のペアエンドリードにアクセスするステップと、オーバーラップ基準を満たすペアエンドリードのそれぞれのメイト対に基づいて、複数のマージされたリードを生成するステップと、複数のペアエンドリードの中から複数のマージされないリードを同定するステップとを含み得る。所与のマージされないリードは、オーバーラップ基準を満たさないペアエンドリードを対応するメイトペアエンドリードと共に含む。方法は、複数のマージされないリードに基づいて複数の鎖状連結したマージされないリードを生成するステップと、コンピュータシステムにより、複数のマージされたリードおよび複数の鎖状連結したマージされないリードを参照ゲノムに対してアラインメントさせて、複数のアラインメントしたリードを生成するステップと、コンピュータシステムにより、複数のアラインメントしたリードの中から複数の分割リードを同定するステップとをさらに含み得る。複数の分割リードの中からの所与の分割リードは、参照配列の第１の核酸遺伝子座にアラインメントする第１の部分配列部分および参照配列の第２の核酸遺伝子座にアラインメントする第２の部分配列部分を含み、第２の核酸遺伝子座が第１の核酸遺伝子座とは異なる。方法は、複数の分割リードに基づいて１つまたは複数の変異体を同定するステップをさらに含み得る。

一部の実施形態では、方法は、複数のマージされたリードを起源とする複数の分割リードの中から複数のマージされた分割リードを同定するステップと、複数のマージされた分割リードに基づいて複数の変異体クラスターを生成するステップと、複数の変異体クラスターのうちの所与の１つについてブレークポイントの対を同定するステップとをさらに含み得る。所与のブレークポイントの対は、対応する第１の核酸遺伝子座に対応する第１のブレークポイントおよび対応する第２の核酸遺伝子座に対応する第２のブレークポイントを含む。１つまたは複数の変異体は、同定されたブレークポイントの対のうちの対応するものに基づいて同定される。

一部の実施形態では、方法は、基準に合致する複数の変異体クラスターのうちの１つまたは複数を１つまたは複数の変異体として同定するステップをさらに含み得る。

一部の実施形態では、方法は、複数のマージされないリードを起源とする複数の分割リードの中から複数のマージされない分割リードを同定するステップと、マージされない分割リードが第１の核酸遺伝子座および第２の核酸遺伝子座にアラインメントすることを決定するステップとをさらに含み得る。マージされない分割リードの第１の核酸遺伝子座および第２の核酸遺伝子座へのアラインメントが基準として使用される。

一部の実施形態では、所定の基準は、群の中に１つよりも多くの分割リードを有することを含む。一部の実施形態では、所定の基準は、第１のまたは第２の部分配列内にブレークポイントが１つ存在する群内の少なくとも１つの分割リードを有することを含む。

一部の実施形態では、複数の変異体クラスターを生成するステップは、マージされたリードに隣接する複数の鎖状連結したマージされないリードの１つまたは複数にさらに基づく。

一部の実施形態では、方法は、複数のマージされないリードを起源とする複数の分割リードの中から複数のマージされない分割リードを同定するステップと、複数のマージされない分割リードに基づいて複数の変異体クラスターを生成するステップと、複数の変異体クラスターのうちの所与の１つについてブレークポイントの対を同定するステップであって、所与のブレークポイントの対が、対応する第１の核酸遺伝子座に対応する第１のブレークポイントおよび対応する第２の核酸遺伝子座に対応する第２のブレークポイントを含む、ステップとをさらに含み得る。１つまたは複数の変異体は、同定されたブレークポイントの対のうちの対応するものに基づいて同定される。

一部の実施形態では、方法は、複数の分割リードに基づいて複数の変異体クラスターを生成するステップと、複数の変異体クラスターのうちの所与の１つについてブレークポイントの対を同定するステップであって、所与のブレークポイントの対が、対応する第１の核酸遺伝子座に対応する第１のブレークポイントおよび対応する第２の核酸遺伝子座に対応する第２のブレークポイントを含む、ステップとをさらに含み得る。１つまたは複数の変異体は、同定されたブレークポイントの対のうちの対応するものに基づいて同定される。

一部の実施形態では、方法は、１つまたは複数の変異体が挿入、欠失、または核酸再編成を含むことを決定するステップをさらに含み得る。

一部の実施形態では、方法は、検出された１つまたは複数の変異体に基づいて、予測される病態を決定するステップをさらに含み得る。

一部の実施形態では、対象由来の核酸分子の試料中の核酸変異体を検出するためのシステムは、コンピュータシステムを含み得る。コンピュータシステムは、対象由来の核酸分子の試料から生成された複数のペアエンドリードにアクセスする、オーバーラップ基準に基づいて複数のペアエンドリードの中から複数のペアエンドリードの対を同定する、かつオーバーラップしている複数のペアエンドリードの対に基づいて複数のマージされたリードを生成するようにプログラミングされたプロセッサーを含み得る。マージされたリードは、オーバーラップしているペアエンドリードの対のそれぞれの配列に基づく配列を含み得る。プロセッサーは、複数のペアエンドリードの中から複数のマージされないリードを同定するようにさらにプログラミングされたものであり得る。所与のマージされないリードは、オーバーラップ基準を満たさないペアエンドリードをメイトペアエンドリードと共に含み得る。プロセッサーは、複数のマージされたリードおよび複数のマージされないリードを参照ゲノムに対してアラインメントさせて、複数のアラインメントしたリードを生成する、複数のアラインメントしたリードの中から複数の分割リードを同定し、ここで、所与の分割リードは、参照配列の第１の核酸遺伝子座にアラインメントする第１の部分配列部分および参照配列の第２の核酸遺伝子座にアラインメントする第２の部分配列部分を含む、所与の分割リードについて、第１の核酸遺伝子座および第２の核酸遺伝子座に対応するゲノム位置の対を含むブレークポイントを決定する、複数の分割リードのそれぞれのブレークポイントに基づいて複数の分割リードをクラスター化して、複数の変異体クラスターを生成する、かつ所定の基準に合致する複数の変異体クラスターの任意の１つまたは複数を、検出された変異体として同定するようにさらにプログラミングされたものであり得る。

一部の実施形態では、複数のマージされないリードの所与のマージされないリードは、対応するマージされないリードを有する。これらの実施形態では、プロセッサーは、所与のマージされないリードおよび対応するマージされないリードについて、人工ヌクレオチド配列を生成するようにさらにプログラミングされたものであり得る。

一部の実施形態では、プロセッサーは、人工ヌクレオチド配列をマージされないリードの第１の配列および対応するマージされないリードの第２の配列および対応するマージされないリードの配列に鎖状連結するようにさらにプログラミングされたものであり得る。

一部の実施形態では、ブレークポイントの位置は、人工ヌクレオチド配列内に位置するように近づけられている。

一部の実施形態では、群は、人工ヌクレオチド配列内にブレークポイントを有する分割リードおよび第１のまたは第２の部分配列部分内にブレークポイントを有する分割リードを含む。

一部の実施形態では、システムは、対象の試料由来のポリヌクレオチドを増幅するための実験室システムをさらに含み得る。

一部の実施形態では、プロセッサーは、検出された変異体が挿入、欠失、または核酸再編成を含むことを決定するようにさらにプログラミングされたものであり得る。

一部の実施形態では、プロセッサーは、検出された変異体に基づいて、予測される病態を決定するようにさらにプログラミングされたものであり得る。

一部の実施形態では、対象由来の核酸分子の試料中の核酸変異体を検出するためのシステムは、コンピュータシステムを含み得る。コンピュータシステムは、対象由来の核酸分子の試料から生成された複数のペアエンドリードにアクセスする、オーバーラップ基準を満たすペアエンドリードのそれぞれのメイト対に基づいて、複数のマージされたリードを生成する、および複数のペアエンドリードの中から複数のマージされないリードを同定するようにプログラミングされたプロセッサーを含み得る。所与のマージされないリードは、オーバーラップ基準を満たさないペアエンドリードを対応するメイトペアエンドリードと共に含む。プロセッサーは、複数のマージされないリードに基づいて複数の鎖状連結したマージされないリードを生成する、複数のマージされたリードおよび複数の鎖状連結したマージされないリードを参照ゲノムに対してアラインメントさせて、複数のアラインメントしたリードを生成する、複数のアラインメントしたリードの中から複数の分割リードを同定し、ここで、複数の分割リードの中からの所与の分割リードは、参照配列の第１の核酸遺伝子座にアラインメントする第１の部分配列部分および参照配列の第２の核酸遺伝子座にアラインメントする第２の部分配列部分を含む、かつ複数の分割リードに基づいて１つまたは複数の変異体を同定するようにさらにプログラミングされたものであり得る。

一部の実施形態では、プロセッサーは、１つまたは複数の変異体が挿入、欠失、または核酸再編成を含むことを決定するようにさらにプログラミングされたものであり得る。

一部の実施形態では、プロセッサーは、１つまたは複数の変異体に基づいて、予測される病態を決定するようにさらにプログラミングされたものであり得る。

一部の実施形態では、本明細書に開示されるシステムおよび／または方法の結果を入力として使用して、報告書を作成する。報告書は紙であっても電子形式であってもよい。例えば、本明細書に開示される方法またはシステムによって決定される試料中の変異体の存在または非存在に関する情報、および／またはそれから導き出される情報をそのような報告書に表示することができる。本明細書に開示される方法またはシステムは、報告書を試料が由来する対象または健康管理実施者などの第三者に伝達するステップをさらに含み得る。

本明細書に開示される方法の種々のステップ、または本明細書に開示されるシステムによって行われるステップは、同時に行うこともでき、違う時間に行うこともでき、かつ／または、同じ地理的場所で行うこともでき、異なる地理的場所、例えば各国で行うこともできる。本明細書に開示される方法の種々のステップは、同じ人が実施してもよく、異なる人が実施してもよい。

図１は、本開示のある実施形態に従った、対象の試料中の核酸変異体を同定するためのシステムの例を説明する図である。

図２Ａは、本開示のある実施形態に従った、オーバーラップ基準に基づいて、ペアエンドリード対からマージされたリードまたは鎖状連結したマージされないリードを生成する方法を説明する図である。

図２Ｂは、本開示のある実施形態に従った、核酸変異体を同定するために使用される配列リードの型を説明する図である。

図３Ａは、本開示のある実施形態に従った、欠失変異体の例を説明する図である。

図３Ｂは、本開示のある実施形態に従った、挿入変異体の例を説明する図である。

図３Ｃは、本開示のある実施形態に従った、再編成変異体の例を説明する図である。

図４は、本開示のある実施形態に従った、代表的なリードを生成するための概略的なデータフローの例を説明する図である。

図５Ａ〜５Ｂは、それぞれ、本開示のある実施形態に従った、マージされないリードに基づいて代表的な配列を生成するための概略図の例を説明する図である。

図６は、本開示のある実施形態に従った、変異体クラスターの決定の概略図を説明する図である。

図７Ａ〜７Ｃは、それぞれ、本開示のある実施形態に従った、マージされないリードを使用して変異体を検出することの例を説明する図である。

図８は、開示のある実施形態に従った、マージされないリードを使用して、配列リードに対してクラスター化を実施することの例を説明する図である。

図９は、本開示のある実施形態に従った、試料中の変異体を検出する方法の例を説明する図である。

図１０は、本開示のある実施形態に従った、試料中の変異体を検出する方法の例を説明する図である。

定義
本開示の理解をより容易にするために、最初にある特定の用語を以下に定義する。以下の用語および他の用語についての追加的な定義が本明細書を通じて記載されている場合がある。下記の用語の定義が、参照により組み込まれる出願または特許における定義と相反する場合には、本出願に記載の定義を使用して用語の意味を理解すべきである。

本明細書および添付の特許請求の範囲で使用される場合、単数形「１つの（ａ）」、「１つの（ａｎ）」、および「その（ｔｈｅ）」は、文脈によりそうでないことが明確に規定されない限り、複数の参照対象を含む。したがって、例えば、「１つの（ａ）方法」への言及は、本明細書に記載のおよび／または本開示を読めば当業者には明らかになる型の１つまたは複数の方法および／またはステップを含む、などである。

本明細書において使用される用語法は、特定の実施形態を説明するためだけのものであり、限定的なものを意図しないことも理解される。さらに、別段の定義のない限り、本明細書において使用される全ての科学技術用語は、本開示が関係する技術分野の当業者に一般に理解されるものと同じ意味を有する。方法、コンピュータ可読媒体、およびシステムの記載および特許請求の範囲では、以下の用語法、およびそれらの文法上の変形が下記の定義に従って使用される。

アダプター：本明細書で使用される場合、「アダプター」は、一般には、少なくとも部分的に二本鎖であり、所与の試料核酸分子のいずれかまたは両方の末端に連結するために使用される短い核酸（例えば、約５００ヌクレオチド未満、約１００ヌクレオチド未満、または約５０ヌクレオチド未満の長さ）を指す。アダプターは、両末端にアダプターが隣接する核酸分子の増幅を可能にするための核酸プライマー結合性部位、および／または種々の次世代シーケンシング（ＮＧＳ）適用などのシーケンシング適用のためのプライマー結合性部位を含めたシーケンシングプライマー結合性部位を含み得る。アダプターはまた、例えば、フローセル支持体に付着させたオリゴヌクレオチドなどの捕捉プローブのための結合性部位も含み得る。アダプターはまた、本明細書に記載の核酸タグも含み得る。核酸タグは、一般には、増幅プライマーおよびシーケンシングプライマー結合性部位に対して、核酸タグが所与の核酸分子のアンプリコンおよび配列リードに含まれるように配置される。同じまたは異なるアダプターを核酸分子のそれぞれの末端に連結することができる。一部の実施形態では、核酸タグが異なる以外は同じ配列のアダプターを核酸分子のそれぞれの末端に連結する。一部の実施形態では、アダプターは、一方の末端が、１つまたは複数の相補的なヌクレオチドで同じく平滑末端化または尾部付加されている核酸分子との接合のために本明細書に記載の通り平滑末端化または尾部付加されているＹ形アダプターである。なお他の実施形態例では、アダプターは、解析される核酸分子との接合のための平滑または尾部付加末端を含むベル形アダプターである。アダプターの他の例としては、Ｔ尾部付加アダプターおよびＣ尾部付加アダプターが挙げられる。

バーコード：本明細書で使用される場合、「バーコード」または「分子バーコード」は、核酸の文脈においては、分子識別子として機能する配列を含む核酸分子を指す。例えば、個々の「バーコード」配列は、一般には、次世代シーケンシング（ＮＧＳ）ライブラリー調製の間に各ＤＮＡ断片に付加され、したがって、最終的なデータ解析の前に各シーケンシングリードを同定し、選別することができる。

デオキシリボ核酸またはリボ核酸：本明細書で使用される場合、「デオキシリボ核酸」または「ＤＮＡ」は、糖部分の２’位に水素基を有する天然のまたは修飾されたヌクレオチドを指す。ＤＮＡは、一般には、４つの型のヌクレオチド塩基；アデニン（Ａ）、チミン（Ｔ）、シトシン（Ｃ）、およびグアニン（Ｇ）で構成されるヌクレオチドの鎖を含む。本明細書で使用される場合、「リボ核酸」または「ＲＮＡ」は、糖部分の２’位にヒドロキシル基を有する天然のまたは修飾されたヌクレオチドを指す。ＲＮＡは、一般には、４つの型のヌクレオチド塩基、Ａ、ウラシル（Ｕ）、Ｇ、およびＣで構成されるヌクレオチドの鎖を含む。本明細書で使用される場合、「ヌクレオチド」という用語は、天然のヌクレオチドまたは修飾されたヌクレオチドを指す。ある特定のヌクレオチドの対は、互いに相補的に特異的に結合する（相補的塩基対合と称される）。ＤＮＡでは、アデニン（Ａ）とチミン（Ｔ）が対合し、シトシン（Ｃ）とグアニン（Ｇ）が対合する。ＲＮＡでは、アデニン（Ａ）とウラシル（Ｕ）が対合し、シトシン（Ｃ）とグアニン（Ｇ）が対合する。第１の核酸鎖が第１の鎖内のヌクレオチドと相補的なヌクレオチドで構成される第２の核酸鎖と結合する場合、この２つの鎖は結合して二本鎖を形成する。本明細書で使用される場合、「核酸シーケンシングデータ」、「核酸シーケンシング情報」、「配列情報」、「核酸配列」、「ヌクレオチド配列」、「ゲノム配列」、「遺伝子配列」または「断片配列」、または「核酸シーケンシングリード」は、ＤＮＡまたはＲＮＡなどの核酸の分子（例えば、全ゲノム、全トランスクリプトーム、エキソーム、オリゴヌクレオチド、ポリヌクレオチド、または断片）内のヌクレオチド塩基（例えば、アデニン、グアニン、シトシン、およびチミンまたはウラシル）の順序および正体を指し示すあらゆる情報またはデータを示す。本教示では、これだけに限定されないが、キャピラリー電気泳動、マイクロアレイ、ライゲーションに基づくシステム、ポリメラーゼに基づくシステム、ハイブリダイゼーションに基づくシステム、直接または間接的なヌクレオチド同定システム、パイロシーケンシング、イオン−またはｐＨに基づく検出システム、および電子シグネチャーに基づくシステムを含めた全ての利用可能な種々の技法、プラットフォームまたは技術を使用して得られる配列情報が意図されていることが理解されるべきである。

指定位置：参照配列内の「指定位置」という用語は、参照配列内のゲノム座標を指す。

リードのファミリー：「リードのファミリー」という句は、参照配列に対するアラインメント、分子バーコードの包含、および／または他の群分け基準に基づいて一緒に群分けされる対にならないリード、マージされたリード、マージされないリード、鎖状連結したマージされないリード、および／または他のリードの群分けを指す。

遺伝的変異体：遺伝的変異体は、対象の核酸試料またはゲノムにおける変更、変異体または多型を指す。そのような変更、変異体または多型は、種（例えば、ヒトについては、ｈＧ１９またはｈＧ３８）、対象または他の個体の参照ゲノムであり得る参照ゲノムに対するものであり得る。変異は、１つまたは複数の一塩基変異（ＳＮＶ）、挿入、欠失、リピート、小さな挿入、小さな欠失、小さなリピート、構造変異体接合部、種々の長さのタンデムリピート、および／または隣接配列を含み、コピー数変異体（ＣＮＶ）、転換、遺伝子融合および他の再編成も遺伝的変異の形態である。変異は、一塩基変異（ＳＮＶ）、挿入または欠失（インデル）、リピート、コピー数変異（ＣＮＶ）、転換、またはそれらの組合せであり得る。

マージされたリード：「マージされたリード」は、それぞれの配列間のアラインメントがオーバーラップ基準を満たす場合に、メイト対のペアエンドリードのそれぞれの配列を一緒に接合することによって生成される配列を指す。

核酸タグ：本明細書で使用される場合、「核酸タグ」は、核酸を、異なる型の、または異なる処理を受ける、異なる試料と（例えば、試料インデックスを表す）、または同じ試料中の異なる核酸分子と（例えば、分子バーコードを表す）弁別するために使用される短い核酸（例えば、約５００ヌクレオチド未満、約１００ヌクレオチド、約５０ヌクレオチド、または約１０ヌクレオチドの長さ）を指す。核酸タグは、所定の、固定された、非ランダムな、ランダムなまたはセミランダムなオリゴヌクレオチド配列を含む。そのような核酸タグを使用して、異なる核酸分子または異なる核酸試料もしくは副次試料を標識することができる。核酸タグは、一本鎖、二本鎖、または少なくとも部分的に二本鎖であり得る。核酸タグは、必要に応じて、同じ長さまたは様々な長さを有する。核酸タグは、１つもしくは複数の平滑末端を有する二本鎖分子も含み得る、５’もしくは３’一本鎖領域（例えば、突出）も含み得る、かつ／または、所与の分子内の他の位置に１つもしくは複数の他の一本鎖領域も含み得る。核酸タグは、他の核酸（例えば、増幅および／またはシーケンシングされる試料核酸）の一方の末端または両方の末端に付着させることができる。核酸タグを復号して、所与の核酸の起源試料、形態、またはプロセシングなどの情報を明らかにすることができる。例えば、核酸タグを使用して、異なる分子バーコードおよび／または試料インデックスを有する核酸を含む複数の試料のプールおよび／または並行処理を可能にすることもでき、その場合、その後、核酸タグを検出すること（例えば、読み取ること）によって核酸をデコンボリューションする。核酸タグは、識別子（例えば、分子識別子、試料識別子）と称することもできる。それに加えてまたはその代わりに、核酸タグを分子バーコードとして使用することができる（例えば、同じ試料または副次試料中の異なる分子または異なる親分子のアンプリコン間の弁別のために）。これは、例えば、所与の試料中の異なる核酸分子に一意的にタグ付けすること、またはそのような分子に非一意的にタグ付けすることを含む。非一意的なタグ付け適用の場合では、限られた数のタグ（すなわち、分子バーコード）を使用して核酸分子にタグ付けすることができ、したがって、異なる分子をそれらの内因性配列情報（例えば、それらが選択された参照ゲノムにマッピングされる開始および／もしくは終止位置、配列の一方の末端または両方の末端の部分配列、ならびに／または配列の長さ）と少なくとも１つの分子バーコードの組合せに基づいて弁別することができる。一般には、いずれか２つの分子が同じ内因性配列情報（例えば、開始および／もしくは終止位置、配列の一方の末端または両方の末端の部分配列、ならびに／または長さ）を有し、かつ同じ分子バーコードも有し得る確率が低くなるように（例えば、約１０％未満、約５％未満、約１％未満、または約０．１％未満の可能性）、十分な数の異なる分子バーコードを使用する。

オーバーラップ基準：「オーバーラップ基準」は、同じ基礎をなす配列を表す２つのペアエンドリードのアラインメントした部分を決定するために十分なアラインメント品質を指し得る。オーバーラップ基準は、限定することなく、少なくとも約１塩基、少なくとも約２塩基、少なくとも約３塩基、少なくとも約４塩基、少なくとも約５塩基、少なくとも約１０塩基、少なくとも約１５塩基、少なくとも約２０塩基、少なくとも約２５塩基、少なくとも約３０塩基、少なくとも約３５塩基、少なくとも約４０塩基、少なくとも約４５塩基、少なくとも約５０塩基、少なくとも約５５塩基、少なくとも約６０塩基、少なくとも約６５塩基、少なくとも約７０塩基、少なくとも約７５塩基、少なくとも約８０塩基、少なくとも約８５塩基、少なくとも約９０塩基、少なくとも約９５塩基、または少なくとも約１００塩基の最小のオーバーラップを含み得る。その代わりにまたはそれに加えて、オーバーラップ基準は、限定することなく、少なくとも約５％、少なくとも約１０％、少なくとも約１５％、少なくとも約２０％、少なくとも約２５％、少なくとも約３０％、少なくとも約３５％、少なくとも約４０％、少なくとも約４５％、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約６５％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９５％、またはそれよりも大きい最小のアラインメント同一性を含み得る。一部の場合では、基準は、鎖間のオーバーラップが少なくとも１５塩基対であると共に同一性が少なくとも約９０％であることを要求し得る。他の場合では、オーバーラップ基準は、鎖間のオーバーラップが少なくとも１９塩基対であると共に同一性が少なくとも９０％であることを要求し得る。オーバーラップする領域は、スライディングウインドウ解析を使用した場合に強力なピークによって表される。例えば、オーバーラップする領域をオーバーラップする領域の各末端上の塩基を含むようにスライドさせ、両方の鎖が互いに完全にオーバーラップするまで鎖間の同一性をコンピュータ計算する。鎖間の同一性は、同一性のパーセンテージとしてコンピュータ計算される。同一性のパーセンテージは、ピークの高さと正比例する。単一の強力なピークを有するマージされたリードまたはペアエンドリードをさらなる解析のために選択する。

ペアエンドリード：「ペアエンドリード」は、核酸アンプリコンまたは分子の両方の鎖またはセンスのシーケンシングを行ってペアエンドリードの対を生成するペアエンドシーケンシング戦略から生成された配列リードを指す。ペアエンドリードの対は、同じ核酸アンプリコンまたは分子のそれぞれの鎖またはセンスからシーケンシングされた２つのペアエンドリードを指す。ペアエンドリードの対はまた、本明細書では互換的に「メイト対」とも称される。

ポリヌクレオチド：「ポリヌクレオチド」、「核酸」、「核酸分子」、または「オリゴヌクレオチド」は、ヌクレオシド間連結によって接合したヌクレオシド（デオキシリボヌクレオシド、リボヌクレオシド、またはそれらの類似体を含む）の直鎖状ポリマーを指す。一般には、ポリヌクレオチドは、少なくとも３つのヌクレオシドを含む。多くの場合、オリゴヌクレオチドのサイズは数個の単量体単位、例えば、３〜４から、数百個の単量体単位までにわたる。ポリヌクレオチドが「ＡＴＧＣＣＴＧ」などの文字の配列によって表される時はいつでも、特に断りのない限り、ヌクレオチドが左から右に５’→３’の順序であること、および「Ａ」がデオキシアデノシンを示し、「Ｃ」がデオキシシチジンを示し、「Ｇ」がデオキシグアノシンを示し、「Ｔ」がチミジンを示すことが理解されよう。当技術分野における標準の通り、文字Ａ、Ｃ、Ｇ、およびＴを使用して、塩基自体、ヌクレオシド、または塩基を含むヌクレオチドを指すことができる。核酸分子は、概念的に５’末端、内部部分および３’末端に分けることができる。末端は、末端からの所定の数のヌクレオチドに基づいて指定することができる。例えば、５’末端は、例えば、５’末端までの２０個の末端ヌクレオチドによって表される。３’末端は、例えば、３’末端までの２０個の末端ヌクレオチドによって表される。あるいは、核酸分子は、記載の通りの末端部分と残りとに分けることができる。

処理すること（ｐｒｏｃｅｓｓｉｎｇ）：「処理すること（ｐｒｏｃｅｓｓｉｎｇ）」、「算出すること（ｃａｌｃｕｌａｔｉｎｇ）」、および「比較すること（ｃｏｍｐａｒｉｎｇ）」という用語は互換的に使用することができる。この用語は、差異、例えば、数または配列の差異を決定することを指し得る。例えば、遺伝子発現、コピー数変異（ＣＮＶ）、インデル、および／または一塩基変異体（ＳＮＶ）値または配列を処理することができる。

参照配列：参照配列は、実験により決定された配列との比較目的で使用される既知配列である。例えば、既知配列は、ゲノム全体、染色体、またはそれらの任意のセグメントであり得る。参照は、一般には、少なくとも２０、５０、１００、２００、２５０、３００、３５０、４００、４５０、５００、１，０００、１０，０００、５０，０００、１００，０００、１，０００，０００、５，０００，０００またはそれよりも多くのヌクレオチドを含む。参照配列は、ゲノムもしくは染色体の単一の連続的な配列とアラインメントすることができる、またはゲノムもしくは染色体の異なる領域にアラインメントする連続していないセグメントを含み得る。参照ヒトゲノムとしては、例えば、ｈＧ１９およびｈＧ３８が挙げられる。

代表的なリード：「代表的なリード」という用語は、一緒に群分けされるリードのファミリーを表す配列を指す。代表的なリードの配列は、ファミリー内のリードの代表的な単一のリードに基づいて、またはファミリー内の２つもしくはそれよりも多くのリードのコンセンサスによって決定することができる。

配列情報：本明細書で使用される場合、「配列情報」は、核酸ポリマーの文脈では、そのポリマー内の単量体単位（例えば、ヌクレオチドなど）の順序および正体を意味する。

シーケンシング：本明細書で使用される場合、「シーケンシング」という用語は、生体分子、例えば、ＤＮＡまたはＲＮＡなどの核酸の配列を決定するために使用されるいくつかの技術のいずれかを指す。例示的なシーケンシング方法としては、これだけに限定されないが、標的化シーケンシング、単一分子リアルタイムシーケンシング、エクソンシーケンシング、電子顕微鏡に基づくシーケンシング、パネルシーケンシング、トランジスタ媒介性シーケンシング、直接シーケンシング、ランダムショットガンシーケンシング、サンガージデオキシ終結シーケンシング、全ゲノムシーケンシング、ハイブリダイゼーションによるシーケンシング、パイロシーケンシング、キャピラリー電気泳動、２重鎖シーケンシング、サイクルシーケンシング、一塩基伸長シーケンシング、固相シーケンシング、ハイスループットシーケンシング、大規模並列処理シグネチャーシーケンシング、エマルジョンＰＣＲ、低変性温度での共増幅−ＰＣＲ（ＣＯＬＤ−ＰＣＲ）、多重ＰＣＲ、可逆的ダイターミネーターによるシーケンシング、ペアエンドシーケンシング、短期シーケンシング（near-term sequencing）、エキソヌクレアーゼシーケンシング、ライゲーションによるシーケンシング、ショートリードシーケンシング、単一分子シーケンシング、合成によるシーケンシング、リアルタイムシーケンシング、逆ターミネーターシーケンシング、ナノポアシーケンシング、４５４シーケンシング、ＳｏｌｅｘａＧｅｎｏｍｅＡｎａｌｙｚｅｒシーケンシング、ＳＯＬｉＤ（商標）シーケンシング、ＭＳ−ＰＥＴシーケンシング、およびそれらの組合せが挙げられる。一部の実施形態では、シーケンシングを、例えば、ＩｌｌｕｍｉｎａまたはＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓから市販されている遺伝子解析機器などの遺伝子解析機器によって実施することができる。「次世代シーケンシング」またはＮＧＳという句は、従来のサンガーに基づく手法およびキャピラリー電気泳動に基づく手法と比較して増大したスループットを有する、例えば、何十万の比較的小さな配列リードを同時に生成することができるシーケンシング技術を指す。次世代シーケンシング技法のいくつかの例としては、これだけに限定されないが、合成によるシーケンシング、ライゲーションによるシーケンシング、およびハイブリダイゼーションによるシーケンシングが挙げられる。

シーケンシングラン：「シーケンシングラン」という句は、少なくとも１つの生体分子（例えば、ＤＮＡまたはＲＮＡなどの核酸分子）に関するいくつかの情報を決定するために実施されるシーケンシング実験の任意のステップまたは部分を指す。

分割リード：「分割リード」は、配列リードの配列の異なる部分配列部分が、分割リードがアラインメントされる参照配列の異なる遺伝子座にアラインメントし、それにより、変異体が参照配列に対してシーケンシングされている可能性があることが示される、配列リードを指す。分割リードは、対にならないリード、マージされたリード、マージされないリード、鎖状連結したマージされないリード、および／または代表的なリードであり得る。

対象：本明細書で使用される場合、「対象」は、哺乳動物種（好ましくはヒト）もしくはトリ（例えば、鳥類）種などの動物、または他の生物体を指す。より詳細には、対象は、脊椎動物、例えば、マウス、霊長類、サルまたはヒトなどの哺乳動物であり得る。動物は、農場動物、競技動物、および愛玩動物を含む。対象は、健康な個体、症状もしくは徴候を有する、もしくは疾患（例えば、がん）を有する疑いがある、もしくは疾患の素因がある個体、または治療を必要とするまたは治療を必要とする疑いがある個体であり得る。

マージされないリード：マージされないリードは、対応するメイト対のペアエンドリード（それ自体がマージされないリードである）に対するアラインメントがオーバーラップ基準を満たさないメイト対のペアエンドリードを指す。鎖状連結したマージされないリードは、マージされないリードのメイト対のそれぞれの配列を鎖状連結することによって生成された、１つまたは複数のプレースホルダーで構成される人工配列によって一緒に接合した配列を指す。

詳細な説明
図１は、本開示のある実施形態に従った、対象１１１の試料中の核酸変異体を同定するためのシステム１００の例を説明する。システム１００は、対象１１１由来の１つまたは複数の試料１０１を処理して、変異体を検出するための配列リードを生成することができる。システム１００は、実験室システム１０２、コンピュータシステム１１０、および／または他の構成要素を含み得る。実験室システム１０２とコンピュータシステム１１０は、互いと離れていて、コンピュータネットワークを通じて互いに接続するものであってよいことに留意するべきである（図示していない）。実験室システム１０２は、試料採取および調製パイプライン１０３、シーケンシングパイプライン１０５、配列リードデータストア１０９、および／または他の構成要素を含み得る。シーケンシングパイプライン１０５は、１つまたは複数のシーケンシングデバイス１０７（図１においてシーケンシングデバイス１０７ａ…ｎとして説明されている）を含み得る。

コンピュータシステム１１０は、配列解析パイプライン１１２、プロセッサー１２０、ストレージデバイス１２２、変異体検出パイプライン１３０、および／または他の構成要素を含み得る。

配列解析パイプライン１１２は、配列品質管理（ＱＣ）構成要素１１３、他の解析構成要素１１５、および解析ＱＣ構成要素１１６を含み得る。配列解析パイプライン１１２からの出力を解析データストア１１７に記憶させることができる。

概して、プロセッサー１２０は、マージされたリード生成器１３２、鎖状連結したマージされないリード生成器１３４、リードファミリー生成器１３６、変異体検出器１３８、および／または他の構成要素などの、変異体検出パイプライン１３０の種々の構成要素をインプリメントする（それによってプログラミングする）ことができる。あるいは、変異体検出パイプライン１３０のこれらの構成要素のそれぞれは、ハードウェアモジュールを含み得ることに留意するべきである。便宜上、別々に説明しているが、マージされたリード生成器１３２、鎖状連結したマージされないリード生成器１３４、リードファミリー生成器１３６、および／または変異体検出器１３８などの種々の構成要素または命令の１つまたは複数を互いに統合することができる。いずれにしても、変異体検出パイプライン１３０は、コンピュータシステム１１０に変異体、変異体からの疾患（高精度の診断法）、および／または処置レジメンの同定を行わせることができる。高精度の診断法および処置レジメンを臨床結果ストア１６０または診断結果ストア１５０などのリポジトリに記憶させることができる。

図２Ａは、本開示のある実施形態に従った、オーバーラップ基準に基づいて、ペアエンドリード対からマージされたリードまたは鎖状連結したマージされないリードを生成する方法２００を説明する。２０１において、方法２００は、ペアエンドリード対を得ることを含み得る。例えば、方法２００では、配列リードデータストア１０９または解析データストア１１７からのペアエンドリード対にアクセスすることができる。２０３において、方法２００は、対のペアエンドリードのそれぞれの間のアラインメントがオーバーラップ基準を満たすかどうかを決定することを含み得る。基準を満たす場合には、２０５において、方法２００は、マージされたリードを生成することを含み得る。基準を満たさない場合には、２０７において、方法２００は、鎖状連結したマージされないリードを生成することを含み得る。

マージされたリードおよび鎖状連結したマージされないリードについて、本開示のある実施形態に従った、核酸変異体を同定するためにシステム１００によって使用される配列リードの型を説明する図２Ｂを参照してさらに記載する。例えば、コンピュータシステム１１０は、対にならないリード２１０、マージされたリード２２０、マージされないリード、および鎖状連結したマージされないリード２３０を含む配列リードを使用し、かつ／または生成して、核酸変異体ならびに対応する高精度の診断および／または処置を同定することができる。

対にならないリード２１０は、対応するペアエンドリードが利用できない配列リードを含み得る。ペアエンドシーケンシングを使用しない一部の例では、対にならないリードは、ペアエンドリードの欠如に起因し得る。ペアエンドシーケンシングを使用する例では、対にならないリードは、対応するペアエンドリードが品質閾値を合格できなかったかまたは他の点で使用できないと決定されたことに起因し得る。

マージされたリード２２０は、配列リードとそのペアエンドリードとの組合せを含み得る。例えば、マージされたリードは、対内のペアエンドリードのそれぞれのオーバーラップする部分に基づいて一緒にマージされたペアエンドリードの対を含み得る。ペアエンドリードの対は、対内のペアエンドリードのそれぞれの配列を一緒に接合して、マージされた配列を生成することによってマージすることができる。マージされた配列は、ペアエンドリード１Ａおよび１Ｂ（メイト１Ａおよび１Ｂと説明されている）のそれぞれのオーバーラップしない部分およびオーバーラップする部分に基づく配列を含む連続した配列を含み得る。例えば、マージされたリード２２０は、ペアエンドリード１Ａおよび１Ｂのオーバーラップする部分がオーバーラッピング基準を満たす場合に生成することができる。

鎖状連結したマージされないリード２３０も、配列リードとそのペアエンドリードとの組合せを含み得る。しかし、マージされたリードとは異なり、鎖状連結したマージされないリード２３０は、オーバーラッピング基準に合致していない場合に生成することができる。したがって、鎖状連結したマージされないリード２３０は、ペアエンドリード２Ａおよび２Ｂ（メイト２Ａおよび２Ｂと説明されている）の両方が利用可能であり、オーバーラッピング基準に基づいてオーバーラップしないと決定されるという決定に基づいて生成することができる。ペアエンドリード２Ａおよび２Ｂの両方が、オーバーラッピング基準に基づいてオーバーラップしないと決定されるので、マージされない配列は、ペアエンドリードの一方の配列（例えば、２Ｂなど）を他方のペアエンドリード（例えば、２Ａなど）に鎖状連結することによって生成することができる（両方の配列を同じ鎖／センスにするために一方の相補体を使用してまたは使用せずに）。したがって、マージされたリードとはさらに異なり、鎖状連結したマージされないリードの配列は、オーバーラップ基準に基づいてオーバーラップとみなされる部分を含まない。一部の例では、本明細書に記載される通り、マージされたリードと鎖状連結したマージされないリードとはシステムによって違うように解析され得るので、解析の間にそのように鎖状連結したマージされないリードとマージされたリードを弁別するために、鎖状連結したマージされないリード２３０をマージされない状態の指標と関連付けて記憶させることができる。一部の例では、ペアエンドリード２Ａおよび２Ｂの鎖状連結した配列の間に人工配列を挿入することができる。人工配列は、１つまたは複数のヌクレオチドプレースホルダーなどの、予め定義された配列を含み得る。ヌクレオチドプレースホルダーは、プレースホルダーを示すために「Ｎ」または「ｎ」を含み得るが、他の符号または文字（Ａ、Ｃ、Ｇ、Ｔ、およびＵなどの実際のヌクレオチド符号以外）を使用することができる。人工配列は、２０ヌクレオチドの長さであり得るが、システムがそのような人工配列および／またはその長さを認識することができる限りは他の長さを使用することができる。鎖状連結したマージされないリード２３０の例は、それぞれ図５Ａ〜Ｂにおいて説明されている。

図３Ａ〜３Ｃは、それぞれ、変異体の例、および本開示のある実施形態に従った、変異体を検出するための配列リード３０２、３０４の参照配列との予測されるアラインメントを説明する。図３Ａ〜３Ｃはそれぞれ配列リード３０２および配列リード３０４への参照を含む。他の数の配列リードも同様に使用することができることが理解されるべきである。さらに、配列リード３０２および３０４は、それぞれ、対にならないリード２１０（しかし、一部の実施形態では対にならないリード２１０を変異体検出から省略することができる）、マージされたリード２２０、マージされないリード、鎖状連結したマージされないリード２３０、および／またはそれらの代表的なリード（図４Ａ〜Ｄを参照して説明される）を指す。

図３Ａは、本開示のある実施形態に従った、欠失変異体の例を説明する。この例では、欠失核酸部分３０１が試料１０１中の核酸（例えば、染色体、遺伝子座など）から欠失している。したがって、変異体配列は欠失核酸部分３０１を欠く。欠失の結果として、第１の核酸遺伝子座Ｌ１と第２の核酸遺伝子座Ｌ２とが互いに近づき得る。コンピュータシステム１０１は、欠失核酸部分３０１に隣接する位置の配列リード３０２および３０４の参照配列に対するアラインメントに基づいて、欠失が生じたブレークポイント３１６および３１７を検出することができる。具体的には、本明細書では配列リード３０２および３０４を「分割リード」と称することができる。例えば、配列リード３０２は、参照配列上のブレークポイント３１６まで参照配列にマッピングされる部分配列部分３０２Ａ（塩基の喪失が生じないと仮定する）および参照配列へのマッピングが参照配列上のブレークポイント３１７から開始される部分配列部分３０２Ｂを含み得る。ブレークポイントは、変異体に対する配列の位置および変異体の性質に応じて配列リードのマッチングが終止するまたはマッチングが開始される参照配列上の位置を指し得る。

図３Ｂは、本開示のある実施形態に従った、挿入変異体の例を説明する。この例では、挿入核酸部分３０３が試料１０１中の核酸に挿入されている。したがって、挿入の結果として第１の核酸遺伝子座Ｌ１と第２の核酸遺伝子座Ｌ２とがさらに離れて広がる。コンピュータシステム１０１は、挿入ポイントよりも前の位置における配列リード３０２および３０４の参照配列に対するアラインメントに基づいてブレークポイント３１６を検出することができる。第１の部分配列部分３０２Ａを参照配列に対してブレークポイント３１６における挿入ポイントの直前にアラインメントすることができることに留意するべきである。第２の部分配列部分３０２Ｂは挿入核酸部分３０３にアラインメントすることができる。部分配列部分３０４Ａおよび３０４Ｂは、参照配列および挿入核酸部分３０３に同様にアラインメントすることができる。挿入核酸部分３０３の供給源に応じて、第２の部分配列部分３０２Ｂおよび３０４Ｂは、第２の核酸遺伝子座Ｌ２の配列、治療目的もしくは他の目的で核酸に挿入された、意図的に挿入された核酸配列などの別の配列、またはその他で核酸のブレークポイント３１６に挿入された他の配列にアラインメントすることができる。

図３Ｃは、本開示のある実施形態に従った、再編成変異体の例を説明する。この例では、第１の核酸遺伝子座Ｌ１が第２の核酸遺伝子座Ｌ２と再編成される。ある例では、第１の核酸遺伝子座Ｌ１はゲノムの染色体などの第１の部分を起源とし得、第２の核酸遺伝子座Ｌ２はゲノムの別の染色体などの第２の部分を起源とし得る。この例では、再編成は、染色体間再編成を含み得る。染色体内再編成、逆位などを含めた他の型の再編成が起こり得、コンピュータシステム１１０により検出することができる。コンピュータシステム１１０は、第１の核酸遺伝子座Ｌ１および第２の核酸遺伝子座Ｌ２に対応する位置における配列リード３０２および３０４の参照配列に対するアラインメントに基づいてブレークポイント３１６および３１７を検出することができる。

図４は、本開示のある実施形態に従った、代表的なリードを生成するための概略的なデータフローの例を説明する。図４において説明されている例では、９つのメイト対のペアエンドリードが示されている。ペアエンドリードのそれぞれについて、両末端の分子バーコードによってタグ付けしたポリヌクレオチド分子（および／またはそのアンプリコン）からシーケンシングを行うことができる。そのような分子バーコードが概略的に黒色の四角、灰色の四角、および白色の四角で示されている。ポリヌクレオチド分子の一部または全部を増幅し、その上または代替的に、分子バーコードによるタグ付けを伴わずにシーケンシングを行うことができることに留意するべきである。

変異体検出パイプライン１３０は、変異体を検出するための代表的なリードを生成するために、ペアエンドリードを解析して、ペアエンドリードをマージし、鎖状連結し、群分けすることができる。例えば、４０２において、マージされたリード生成器１３２は、マージされたリードを生成することができ（線でつながった２つの四角として示されている）、鎖状連結したマージされないリード生成器１３４は、鎖状連結したマージされないリードを生成して（線でつながった２つの四角および「ＮＮＮ」と記された四角として示されている）、ペアエンドリードを組み合わせることによってより長い配列のリードを有効に生成することができる。

ペアエンドリードからマージされたリードが生成されるかどうかを決定するために、マージされたリード生成器１３２は、メイト対の各ペアエンドリードを対応するメイト対のペアエンドリードに対してアラインメントさせて、いずれのアラインメントがオーバーラップ基準を合格するかを決定することができる。

オーバーラップ基準に合致する場合、マージされたリード生成器１４２は、ペアエンドリードをマージして、マージされたリードを形成することができる。例えば、ペアエンドリードの両方の鎖をトリミングして、３’末端のオーバーラップした領域内の配列の少なくとも一部分を取り除くことができる。例えば、３’末端のオーバーラップした領域内の配列の半分を取り除いて、配列品質が低い塩基、３’末端の分子バーコード、およびあらゆるミスマッチを除外することができる。これは、シーケンシングのエラーを低減させることに有用であり得る。マージされたリード生成器１３２は、ペアエンドリードのセンス鎖をその対応するペアエンドリードのアンチセンス鎖とマージすることができる。例えば、マージされたリード生成器１４２は、ペアエンドリードを逆平行になるように再配向させ、次いで、マージして、マージされたリードまたはペアエンドリードを形成することができる。ペアエンドリードまたはマージされたリードは、オーバーラップする領域を有するセンス鎖およびアンチセンス鎖を含む。そのように、マージされたリードは、シーケンシングされた対応するポリヌクレオチド分子の連続した配列を表し得る。複数のペアエンドリードのうちのあるペアエンドリードがオーバーラップ基準に合致しない場合、鎖状連結したマージされないリード生成器１３４は、マージされないリード（アラインメントがオーバーラップ基準を満たさなかったメイト対のペアエンドリード）を、マージされないリードのそれぞれの配列を人工配列を用いて接合することによって鎖状連結することができる。

例えば、鎖状連結したマージされないリード生成器１３４は、ペアエンドリードを接合して、鎖状連結したマージされないリードを生成することができる。鎖状連結したマージされないリード生成器１３４では、オーバーラップ領域におけるメイト対をマージする代わりに、メイト対を図２Ａおよび２Ｂにおいて以前に記載されている一連のＮまたは他の符号２０個などの人工配列と接合することができる以外は、マージされたリード生成器１３２によるマージされたリードの生成と同様にマージされないリードを生成することができる。

リードのマージまたは鎖状連結を不必要または不可能にし得る他のシーケンシング技法も同様に使用することができることに留意するべきである。さらに、本明細書に開示される技法に基づいて所与の鋳型（例えば、アンプリコンなど）に対して配列の対を生成し、一緒にマージする、異なるシーケンシング技法を使用することができる。あるいは、一意的な配列（バーコードと内部の配列との組合せに基づく）をペアエンドリードのセットの中から決定する。次いで、マージされたリード生成器１４２は、ペアエンドリードをマージして、代表的なマージされた一意的な配列リードを生成することができる。

４０４において、リードファミリー生成器１３６は、マージされたリードおよび／または鎖状連結したマージされないリードを１つまたは複数のファミリーに群分けすることができる。例えば、リードファミリー生成器１３６は、マージされたリードおよび／または鎖状連結したマージされないリードを、互いに対するアラインメント（マッピング）に基づいて、参照配列に対するアラインメント（この場合、参照配列の同じ領域にアラインメントするマージされたリードおよび／または鎖状連結したマージされないリードを一緒に群分けすることができる）に基づいて、マージされたリードおよび鎖状連結したマージされないリード内に含有される一意的な分子バーコードに基づいて、ならびに／または他の群分け基準に基づいて、ファミリーに群分けすることができる。図４では、例示を明瞭にするために、それぞれがそれぞれの分子バーコードのセットに対応する３つのファミリー（Ａ〜Ｃ）のみが示されている。他のファミリーの数および各ファミリー内のペアエンドリードの組成も同様に生成することができる。説明されている通り、ファミリーＡはマージされたリードのみを含み、ファミリーＢはマージされたリードと鎖状連結したマージされないリードの混合を含み、ファミリーＣは鎖状連結したマージされないリードのみを含む。

４０６において、リードファミリー生成器１３６は、各ファミリーについて代表的なリードを選択することができる。例えば、ファミリー内の単一のマージされたリードまたは単一の鎖状連結したマージされないリードを、ファミリーを表すように選択することができる。そのような選択は、基礎をなす配列の品質（シーケンシングシステム１０２で決定される）、参照配列に対するアラインメントの品質、および／または他の基準に基づき得る。別の例では、リードファミリー生成器１３６は、ファミリー内の２つまたはそれよりも多くの基礎をなすリードのコンセンサスに基づいて代表的なリードを決定することができる。一部の実施形態では、変異体検出器１３８により、参照リード（および／または本明細書に記載の他のリード）を解析して、試料１０１中の変異体を検出することができる。

図５Ａは、本開示のある実施形態に従った、マージされないリードに基づいて代表的な配列を生成するための概略図の例を説明する。説明されている通り、分子バーコード５０３でタグ付けされた、タグ付けされた分子５０２のシーケンシングを行って、ペアエンドリードの対を生成することができ（明確にするために、あらゆる中間アンプリコンを省略している）、そのそれぞれを、それぞれ鎖状連結して、鎖状連結したマージされないリード５０４を生成する。参照配列に対してアラインメントさせた場合、鎖状連結して鎖状連結したマージされないリード５０４を形成するペアエンドリードのいずれも参照配列上の領域５０１をカバーしない。参照配列の領域５０１の外側の部分は鎖状連結したマージされないリード５０４の１つまたは複数によってカバーされ得る。

リードファミリー生成器１３６は、鎖状連結したマージされないリード４０４について、これらの鎖状連結したマージされないリード５０４によって共有される分子バーコード５０３配列に基づいて、および／または参照配列に対するアラインメント位置に基づいて、群分けされたセットを生成することができる。リードファミリー生成器１３６は、群分けされたセットの中から代表的な配列５０６を生成することができる。図５Ａにおいて説明されている例では、代表的な配列５０６は、領域５０１の代わりに挿入された人工配列を有するペアエンドリードのオーバーラップする領域の中でコンセンサス配列を含み得る。鎖状連結したマージされないリード生成器１３４では、セットについて領域５０１以外の領域内のコンセンサス配列を生成するために必要な最小のカバレッジを特定するカバレッジ基準を適用することができる。カバレッジ基準は、マージされたリード生成器１３２によって使用されるオーバーラップ基準のうちの１つまたは複数などの他のまたは追加的な要件も含み得る。図６〜８に記載される通り、代表的な配列５０６、鎖状連結したマージされないリード５０４、および／または基礎をなすペアエンドリードを、変異体を検出するために使用することができる。

ここで図５Ｂを参照して、一部の例では、１つまたは複数の鎖状連結したマージされないリード５１０は、場合によって１つまたは複数のマージされたリード５１１と一緒に、分子バーコード５０９でタグ付けされている、タグ付けされたポリヌクレオチド分子５０８の配列をカバーし得る。この例では、ペアエンドとマージされなかった配列リードをそれでもマージされたリードのセットと共に含めて、追加的な配列カバレッジをもたらすことができる（例えば、セットまたはファミリー内のコンセンサス呼び出しまたはヌクレオチド曖昧性除去などのために）。例えば、ペアエンドリードから生成された鎖状連結したマージされないリード５１０のセットは、他の鎖状連結したマージされないリードの配列によってカバーされるギャップを有し得、かつ／またはマージされたリード５１１の配列もタグ付けされたポリヌクレオチド分子５０９から生成される。したがって、鎖状連結したマージされないリードのセットの配列にわたってカバレッジ基準が満たされ得る。そのように、鎖状連結したマージされないリード生成器１３４は、人工配列を伴わない代表的な配列５１２を生成することができる。図６〜８に記載される通り、代表的な配列５１２および／または基礎をなすリードを、変異体を検出するために使用することができる。

変異体検出

概して、変異体検出器１３８は、配列リードを、配列解析パイプライン１１２から直接、マージされたリード生成器１３２によるマージを伴って、もしくは伴わずに、かつ／または、鎖状連結したマージされないリード生成器１３４による鎖状連結したマージされないリードの生成を伴って、もしくは伴わずに、解析することができる。言い換えれば、変異体検出器１３８は、個々のリード、マージされたリード、代表的なマージされたリード（マージされたリードのファミリーコンセンサス）、鎖状連結したマージされないリード、および／または代表的な鎖状連結したマージされないリード（鎖状連結したマージされないリードのファミリーコンセンサス）に対して動作し得る。変異体検出器１３８は、配列リードを参照配列に対してアラインメントさせることができる。例えば、変異体検出器１３８は、マッピングツールを使用してアラインメントを実施することができ、マッピングツールの非限定的な例としては、Ｂｕｒｒｏｗ’ｓＷｈｅｅｌｅｒＴｒａｎｓｆｏｒｍ（ＢＷＡ）、Ｎｏｖｏａｌｉｇｎ、Ｂｏｗｔｉｅを挙げることができる。マッピングツールは、使用されるアラインメントパラメーター、参照配列上の代表的なマージされた一意的なリードの位置（例えば、座標など）およびマッピングの品質スコアが記載されているアラインメントファイルを生成することができる。例えば、シーケンシングリードと参照配列との間で許容される差異の数、許容されるギャップおよびギャップ開始ペナルティの数、ギャップ伸長の数などのアラインメントパラメーターは、ユーザーが定義することができる。一例として、デフォルトアラインメントパラメーターを用いるＢＷＡマッピングツールを使用して、配列リードを参照配列に対してアラインメントさせることができる。ＢＷＡツールにより、アラインメント統計値を含むＢＡＭファイルである出力ファイルがもたらされる。アラインメント統計値は、配列リードがアラインメントする参照配列の座標を含み得る。アラインメント統計値から、参照配列にマッピングされた場合の配列リードの一意性を通知するためのＭａｐＱスコアももたらされる。次いで、分子バーコードおよび参照配列上の座標を使用して配列リードを選別することができる。

一部の例では、リードファミリー生成器１３６は、配列リードをファミリーに群分けすることができる。ファミリーは、同じ元のタグ付けされたポリヌクレオチド分子を起源とするリードを含む。配列リードは、参照配列上のマッピング座標も同じである。例えば、バーコード４０４〜４０６などの分子バーコードの対、および参照配列上の同じ座標（例えば、１番染色体の１３００〜１５００）にアラインメントする内因性配列を有する配列リードをファミリーに群分けすることができる。一部の実施形態では、各ファミリーを代表的なリードによって表すことができる。代表的なリードは、代表的なリードが生成されたファミリーのコンセンサス配列（「ファミリーコンセンサス配列」）に基づく配列を含み得る。配列リードが、ファミリー内のリードの残りと同じ分子バーコード、および同様の参照配列上の末端位置を少なくとも１つ有する場合、配列リードをファミリーに追加することができる。例えば、配列リードは、同じ分子バーコードおよび同じ開始位置を有し得るが、終止位置は所定のヌクレオチド範囲内にあり得る。配列リードが、圧縮時に同じ圧縮された終止配列を有する場合、配列リードを同じファミリーに群分けする。

同様に、配列リードは、同じ分子バーコードおよび同じ終止位置を有し得るが、開始位置は所定のヌクレオチド範囲内にあり得る。配列リードが、圧縮時に同じ圧縮された開始配列を有する場合、配列リードを同じファミリーに群分けする。ホモポリマー内の重複ヌクレオチドが除去されるように配列リードを圧縮することができる。ホモポリマー内の重複ヌクレオチドを、２ヌクレオチド未満、３ヌクレオチド未満、４ヌクレオチド未満、５ヌクレオチド未満、６ヌクレオチド未満、７ヌクレオチド未満、８ヌクレオチド未満、９ヌクレオチド未満、１０ヌクレオチド未満、３０ヌクレオチド未満、３０ヌクレオチド未満、４０ヌクレオチド未満、または５０ヌクレオチド未満の所定の範囲内で除去することができる。一部の場合では、所定の範囲は、１０ヌクレオチド未満であり得る。一部の場合では、所定の範囲は、７ヌクレオチド未満であり得る。一部の場合では、所定の範囲は、５ヌクレオチド未満であり得る。一部の場合では、所定の範囲は、３ヌクレオチド未満であり得る。一例として、所定の範囲は、４ヌクレオチドである。圧縮時に、末端配列内の少なくとも７ヌクレオチドが残りの代表的なマージされた一意的なリードと参照配列上の同じ位置にマッピングされる場合、圧縮されたリードを同じファミリーに群分けする。マージされたリードを圧縮することにより、例えば配列リードの末端におけるシーケンシングのエラーに起因して生じるファミリーの数が低減する。

ある特定の実施形態では、１つまたは複数のホモポリマーは、開始配列および／または終止配列に存在し得る。１つまたは複数のホモポリマーは、配列リード内のどこにでも存在し得る。一部の実施形態では、ホモポリマーは、ポリ（ｄＡ）またはポリ（ｄＴ）を含み得る。他の実施形態では、ホモポリマーは、ポリ（ｄＧ）またはポリ（ｄＣ）を含み得る。一例として、２つの配列リードについて、第１の配列リードの開始位置が第２の配列リードの開始位置から５ヌクレオチド未満などの所定の範囲内にあり、かつ、第１の配列リードの圧縮された配列の最初の７塩基が第２の配列リードの圧縮された配列の最初の７塩基と同一であり、かつ第１の配列リードおよび第２の配列リードの末端位置が同一である場合、これらのリードを同じファミリーに群分けすることができる。同様に、第１の配列リードの末端位置が第２の配列リードの末端位置から５ヌクレオチド未満などの所定の範囲内にあり、かつ、第１の配列リードの圧縮された配列の最後の７塩基が第２の配列リードの圧縮された配列の最後の７塩基と同一であり、かつ第１の配列リードおよび第２の配列リードの開始位置が同一である場合、これらのリードを同じファミリーに群分けすることができる。

図６は、本開示のある実施形態に従った、変異体クラスターの決定の概略図を説明する。図６に示されている通り、ファミリー内の分割リードを参照配列６０１にマッピングすることができる。第１のファミリー６０２は、分割リード６０３、６０４および６０５の第１のセットを含む。第２のファミリー６０６は、分割リード６０７および６０８の第２のセットを含む。第３のファミリー６０９は、分割リード６１０、６１１および６１２の第３のセットを含む。第４のファミリー６１３は、分割リード６１４および６１５の第４のセットを含む。分割リード６０３〜６０５、６０７、６０８、６１０〜６１２、６１４、および６１５はそれぞれは、個々の配列リード、対にならないリード、マージされたリード（またはそれらの代表的なもの）、または鎖状連結したマージされないリード（またはその代表的なもの）であり得る。

分割リードの第１のセットおよび分割リードの第２のセットは第１のブレークポイント対６１６および６１７に近接する核酸遺伝子座にマッピングされる。分割リードの第３のセットは第２のブレークポイント対６１６および６１８に近接する核酸遺伝子座にマッピングされる。分割リードの第４のセットはブレークポイント６１６、６１７または６１８に近接するいずれの核酸遺伝子座にもマッピングされない。

一部の実施形態では、ファミリー由来の分割リードコンセンサス配列は、ブレークポイント対の周囲にクラスター化され得、変異体クラスターを形成し得る。変異体クラスターは、参照配列に対して、ブレークポイントが、参照配列に対するアラインメントの最初に、参照配列に対するアラインメントの最後に、または参照配列に対するアラインメントの最初もしくは最後からある特定の距離に存在することを示唆する様式でアラインメントする配列のセットであり得る。例えば、第１のファミリー６０２は、第１の分割リードコンセンサス配列６１９によって表される。第２のファミリー６０６は、第２の分割リードコンセンサス配列６２０によって表される。第３のファミリー６０９は、第３の分割リードコンセンサス配列６２１によって表される。第４のファミリー５１３は、第４の分割リードコンセンサス配列６２２によって表される。第１のファミリー６０２、第２のファミリー６０６および第３のファミリー６０９はブレークポイント対の周囲にクラスター化される一方、第４のファミリー６１３はブレークポイント対の周囲にクラスター化されない。

一部の実施形態では、変異体クラスターを、ブレークポイント対に対するコンセンサス配列のマッピングに基づいて検出する。例えば、第１の分割リードコンセンサス配列６１９、第２の分割リードコンセンサス配列６２０および第３の分割リードコンセンサス配列６２１は変異体クラスター６２３を形成する。しかし、第４の分割リードコンセンサス配列６２２は、それぞれのブレークポイント間の距離が所定のブレークポイント距離よりも大きいので、変異体クラスター６２３に含まれない。この実施形態では、これらの分割リードコンセンサス配列は、それぞれのブレークポイント６４８間の距離が所定のブレークポイント距離未満、例えば、１０ヌクレオチド未満であるので、変異体クラスターに含められる。コンセンサスブレークポイントを、例えば、変異体クラスター内の大多数のブレークポイント（ブレークポイント６１６および６１７）に基づいて呼び出すことができる。

他の実施形態では、同様のブレークポイント対を有する分割リードを含むファミリーを変異体クラスターに群分けすることができる。例えば、第１のファミリー６０２、第２のファミリー６０６および第３のファミリー６０９は、同様のブレークポイント対の周囲にクラスター化される。この実施形態では、これらのファミリーは、それぞれのブレークポイント６４８間の距離が所定のブレークポイント距離未満、例えば、１０ヌクレオチド未満であるので、変異体クラスターに含められる。コンセンサスブレークポイントを、例えば、変異体クラスター内の大多数のブレークポイントに基づいて呼び出すことができる。

コンセンサスブレークポイント対が同定されたら、挿入、欠失または融合などの遺伝的変異体を検出することができる。

変異体検出器１３８は、挿入および欠失（インデル）と遺伝子融合などの再編成を弁別することができる。例えば、変異体検出器１３８では、これだけに限定されないが、（１）ブレークポイント対間の距離、（２）同じ染色体上のブレークポイントの位置、（３）同じ方向もしくは異なる方向の部分配列、および／または（４）ゲノムの順序が通常または逆の部分配列を含めた１つまたは複数の因子を考慮に入れることができる。ブレークポイントが異なる染色体上に存在する場合、変異体は常に融合とみなされる。ブレークポイントが同じ染色体上にあるが、部分配列が異なる（反対の）５’−３’配向である場合、変異体は同じく融合とみなされるか、または一部の場合では、逆位とみなされる。ブレークポイントが同じ染色体上にあり、部分配列が同じ５’−３’配向である場合、ブレークポイント対間の距離が所定の最大距離未満（例えば、遺伝子内で、５，０００ヌクレオチド未満、４，０００ヌクレオチド未満、３，０００ヌクレオチド未満、２，０００ヌクレオチド未満、または１，０００ヌクレオチド未満）であれば変異体を挿入または欠失として呼び出すことができ、そうでなければ、変異体は融合、または再編成として呼び出される。上記の基準を使用して決定された挿入および欠失を、部分配列のゲノムの順序が通常であるか（すなわち、染色体における部分配列の通常の順序がＡ−Ｂである場合には、標的分子の順序もＡ−Ｂである−そのような場合では、欠失として呼び出される）、またはゲノムの順序が逆であるか（すなわち、染色体における部分配列の通常の順序がＡ−Ｂである場合には、標的分子の順序がＢ−Ａである−そのような場合では、挿入として呼び出される）に基づいて、互いにさらに弁別することができる。上記の規則により欠失が確立された場合、実際の欠失配列は２つのブレークポイント間にある。上記の規則により挿入が確立された場合、２つのブレークポイント間の配列のコピーがブレークポイントのうちの１つの隣に挿入される（すなわち、２つのブレークポイント間の配列が重複する）。部分配列は、ファミリー内の分割リードの配列またはファミリーコンセンサス配列の配列を指し得る。

一部の実施形態では、ブレークポイント対間の所定の最大距離は、５，０００ヌクレオチド未満、４，５００ヌクレオチド未満、４，０００ヌクレオチド未満、３，５００ヌクレオチド未満、３，０００ヌクレオチド未満、２，５００ヌクレオチド未満、２，０００ヌクレオチド未満、１，５００ヌクレオチド未満、１，０００ヌクレオチド未満、５００ヌクレオチド未満、または２５０ヌクレオチド未満であり得る。一部の実施形態では、ブレークポイント対間の所定の最大距離は、目的の標的遺伝子内の領域のヌクレオチドの数未満（例えば、ＭＥＴにおけるエクソン１４の長さ未満）である。

ある特定の実施形態では、本明細書に開示されるシステムおよび方法は、中サイズのインデル（例えば、２１〜５０の間のヌクレオチドのものなど）および／または長いインデル（例えば、５０ヌクレオチドよりも大きい、１００ヌクレオチドよりも大きい、５００ヌクレオチドよりも大きい、１，０００ヌクレオチドよりも大きい、２，０００ヌクレオチドよりも大きい、３，０００ヌクレオチドよりも大きい、４，０００ヌクレオチドよりも大きい、５，０００ヌクレオチドよりも大きい、１０，０００ヌクレオチドよりも大きいもの、エクソンおよび／もしくはイントロン全体、または遺伝子全体など）を検出するために特に有用である。

一部の実施形態では、挿入および／または欠失は、これだけに限定されないが、ＡＰＣ、ＡＲＩＤ１Ａ、ＡＲＩＤ１Ｂ、ＡＴＭ、ＢＲＣＡ１、ＢＲＣＡ２、ＣＤＨ１、ＣＤＫＮ２Ａ、ＥＧＦＲ、ＥＲＢＢ２、ＦＭＮ２、ＧＡＴＡ３、ＫＩＴ、ＭＥＴ、ＭＥＣＰ２、ＭＬＨ１、ＭＴＯＲ、ＮＦ１、ＰＤＧＦＲＡ、ＰＧＡＰ３、ＰＲＯＤＨ、ＰＴＥＮ、ＲＢ１、ＳＭＡＤ４、ＳＲＤ５Ａ３、ＳＴＫ１１、ＴＰ５３、ＴＳＣ１、ＶＨＬ、およびＵＢＥ３Ａからなる群を含む遺伝子内で生じ得る。一部の実施形態では、挿入および／または欠失は、これだけに限定されないが、ＥＧＦＲ（エクソン１８〜２１）、ＥＲＢＢ２（エクソン１９および２０）、ＥＳＲ１（エクソン１０）、ＭＥＴ（エクソン１３〜１４およびイントロン１３〜１４）、ＢＲＡＦ（エクソン１５）、ＣＴＮＮＢ１（エクソン３）、ＦＧＦＲ２（エクソン６）、ＧＡＴＡ２（エクソン５〜６）、ＧＮＡＳ（エクソン８）、ＩＤＨ１（エクソン４）、ＩＤＨ２（エクソン４）、ＫＩＴ（エクソン１〜２１）、ＫＲＡＳ（エクソン２〜３）、ＮＲＡＳ（エクソン２〜３）、ＰＩＫ３ＣＡ（エクソン１０および２１）、ＰＴＥＮ（エクソン５）、ＳＭＡＤ４（エクソン１２）、ＴＰ５３（エクソン４〜８および１１）を含む遺伝子内で生じ得る。ある特定の実施形態では、挿入および／または欠失は、これだけに限定されないが、フレームシフト突然変異、非フレームシフト突然変異、逆位（染色体再編成）、エクソン全体の欠失、および／または縦列重複を含み得る。

一部の実施形態では、変異体クラスターに含まれるファミリーコンセンサス配列が、挿入および／または欠失の呼び出しの基準のいずれかまたは全てを満たせない場合、融合が呼び出され得る。

変異体検出器１３８は、配列リード（例えば、個々のリード、対にならないリード、マージされたリード（またはそれらの代表的な配列）、マージされないリード、および／または鎖状連結したマージされないリード（またはそれらの代表的な配列）など）を参照配列にマッピングし、一意的なリード識別子を配列リードに割り当てることによって挿入、欠失および／または融合を呼び出すことができる。配列リードのアラインメントに基づいて、参照配列上のブレークポイントおよびブレークポイント対を決定して、融合を有する配列リードを決定する。ブレークポイントおよびブレークポイント対を、ブレークポイントＩＤならびにブレークポイントおよびブレークポイント対にアラインメントした配列リードの数によって報告することができる。同様のブレークポイントを有する配列リードを共通のブレークポイント対に基づいてファミリーに群分けする。次いで、ファミリーのリード、またはファミリーのコンセンサス配列を、互いの所定のブレークポイント距離内のブレークポイントに基づいて変異体クラスターに群分けする。参照配列内のブレークポイント間の所定のブレークポイント距離は、２５ヌクレオチド未満または１０ヌクレオチド未満または５ヌクレオチド未満であり得る。

図７Ａ〜７Ｃは、それぞれ、本開示のある実施形態に従った、鎖状連結したマージされないリードを使用して変異体を検出することの例を説明する。図７Ａおよび７Ｂにおいて説明されている通り、ブレークポイント６１６および／または６１７（または他のブレークポイント）は、鎖状連結したマージされないリード７０１Ａまたは７０１Ｂの実際の配列内（人工配列とは対照的に）に存在し得る。これらの例では、それぞれ図７Ａおよび７Ｂに示されている鎖状連結したマージされないリード７０１Ａおよび７０１Ｂを、図６において説明されている通り、リードをクラスター化し、ブレークポイントを発見するために使用することができる。

図７Ｃにおいて説明されている通り、ブレークポイント６１６および６１７は、鎖状連結したマージされないリードの人工配列内にあり得る。鎖状連結したマージされないリード７０１Ｃの参照配列に対するアラインメントに基づいて直接的なブレークポイントは観察されない可能性があるにもかかわらず、コンピュータシステム１０１では、鎖状連結したマージされないリード７０１Ｃを種々のやり方で使用することができる。一部の例では、鎖状連結したマージされないリード内のメイトの各々がそれぞれ核酸の核酸遺伝子座Ｌ１およびＬ２にアラインメントし、核酸遺伝子座Ｌ１およびＬ２が試料１０１中の異なる染色体または他の別個の核酸分子の一部である場合、再編成が生じたことが示唆される。核酸遺伝子座Ｌ１およびＬ２が試料中の同じ染色体または他の核酸分子上にあり、鎖状連結したマージされないリードのメイトが参照配列に所定のヌクレオチドの数よりも大きい（例えば、増幅し、シーケンシングを行った分子の予測サイズよりも大きい）距離でアラインメントする場合、コンピュータシステム１０１では、鎖状連結したマージされないリード７０１Ｃを、鎖状連結したマージされないリード７０１Ｃのペアエンドリード間に挿入が存在する証拠として使用することができる。例えば、コンピュータシステム１０１では、鎖状連結したマージされないリード７０１Ｃを挿入の呼び出しの基準として使用することができる（例えば、挿入が呼び出されるには、挿入の証拠をもたらす１つまたは複数の鎖状連結したマージされないリード７０１Ｃが存在するという基準など）。

核酸遺伝子座Ｌ１およびＬ２が試料中の同じ染色体または他の核酸分子上に存在し、鎖状連結したマージされないリードのメイトが参照配列に所定のヌクレオチドの数未満（例えば、増幅し、シーケンシングを行った分子の予測サイズ未満など）の距離でアラインメントする場合、コンピュータシステム１０１では、鎖状連結したマージされないリード７０１Ｃを、鎖状連結したマージされないリード７０１Ｃのペアエンドリード間に欠失が存在する証拠として使用することができる。例えば、コンピュータシステム１０１では、鎖状連結したマージされないリード７０１Ｃを欠失の呼び出しの基準として使用することができる（例えば、欠失が呼び出されるには、挿入の証拠をもたらす１つまたは複数の鎖状連結したマージされないリード７０１Ｃが存在するという基準など）。

図７Ｄにおいて説明されている通り、ブレークポイント６１６および６１７は、鎖状連結したマージされないリードの人工配列内にあり得る。鎖状連結したマージされないリード７０１Ｄでは、ペアエンドリード７０１Ｄ１の一部分または全てが核酸遺伝子座Ｌ１にアラインメントする可能性がある一方、他方のペアエンドリード７０１Ｄ２の別の部分または全ては、参照配列に全くアラインメントしない可能性がある。この例では、挿入配列７０３が核酸分子に挿入されており、他のペアエンドリードが挿入配列７０３にアラインメントし得る（既知または既知でない可能性がある）。挿入配列７０３は、他方のペアエンドリード７０１Ｄ２が核酸遺伝子座Ｌ２の一部または試料１０１中の核酸の他の部分にアラインメントし得るように十分に小さなものであり得ることが理解されるべきである。

その代わりにまたはそれに加えて、図８において説明されている通り、コンピュータシステム１１０では、鎖状連結したマージされないリードを使用して、変異体を検出するための配列リードをクラスター化することができる。図８は、本開示のある実施形態に従った、鎖状連結したマージされないリード８０１（代表的な鎖状連結したマージされないリードまたは個々の鎖状連結したマージされないリードであり得る）を使用して、配列リード１〜５に対してクラスター化を実施することの例を説明する。リード１〜５は、それぞれ、参照配列に対するアラインメントから決定される通り、そのヌクレオチド配列内にブレークポイント６１６、６１７、および／または他のブレークポイント６１８を含む配列リードであり得る。したがって、リード１〜５は、対にならないリード、マージされたリード、マージされないリードまたは別の鎖状連結したマージされないリード（または基礎をなすリードのコンセンサス配列）を含み得る。

所定のブレークポイント距離８０２を使用して配列リードをクラスター化することに加えてまたはその代わりに、コンピュータシステム１１０では、鎖状連結したマージされないリード８０１を使用することができる。例えば、配列リード１〜４を、それらの参照配列に対するアラインメントがペアエンドリード８０１Ａと８０１Ｂとの間に入ることに基づいて一緒にクラスター化することができる。例えば、鎖状連結したマージされないリード８０１のペアエンドリード８０１Ａが核酸遺伝子座Ｌ１にアラインメントし、鎖状連結したマージされないリード８０１のペアエンドリード８０１Ｂが核酸遺伝子座Ｌ２にアラインメントし、かつ核酸遺伝子座Ｌ１と核酸遺伝子座Ｌ２が異なる染色体上にあるか、またはそうでなければ、鎖状連結したマージされないリード８０１のペアエンドリード８０１Ａおよび８０１Ｂの両方にアラインメントしないことが予測される場合（ペアエンドリード８０１Ａおよび８０１Ｂがシーケンシングされた分子の予測サイズに基づき得る）、鎖状連結したマージされないリード８０１は、試料１０１において核酸の再編成が存在するという結論を裏付けることができる。この例では、リード１〜４は参照配列の核酸遺伝子座Ｌ１の、８１１Ａ位を超える位置でアラインメントする部分配列を含むので、これらを一緒にクラスター化することができる。同様に、リード１〜４は参照配列の核酸遺伝子座Ｌ２に、８１１Ｂ位未満（または参照配列および部分配列のセンスに応じてそれを超える位置）にアラインメントする部分配列を含むので、これらを一緒にクラスター化することができる。他方では、リード５は８１１Ａ位および８１１Ｂ位の外側にアラインメントするので、リード５をリード１〜４と共にクラスター化することはできない。

図９は、本開示のある実施形態に従った、試料中の変異体を検出する方法９００の例を説明する。９０２において、方法９００は、コンピュータシステムにより、対象由来の核酸分子の試料から生成された複数のペアエンドリードにアクセスするステップを含み得る。

９０４において、方法９００は、コンピュータシステムにより、オーバーラップ基準に基づいて複数のペアエンドリードの中から複数のペアエンドリードの対を同定するステップを含み得る。

９０６において、方法９００は、コンピュータシステムにより、オーバーラップしている複数のペアエンドリードの対に基づいて複数のマージされたリードを生成するステップであって、マージされたリードが、オーバーラップしているペアエンドリードの対のそれぞれの配列に基づく配列を含む、ステップを含み得る。

９０８において、方法９００は、コンピュータシステムにより、複数のペアエンドリードの中から複数の鎖状連結したマージされないリードを同定するステップであって、所与の鎖状連結したマージされないリードが、オーバーラップ基準を満たさないペアエンドリードをメイトペアエンドリードと共に含む、ステップを含み得る。

９１０において、方法９００は、コンピュータシステムにより、複数のマージされたリードおよび複数の鎖状連結したマージされないリードを参照ゲノムに対してアラインメントさせて、複数のアラインメントしたリードを生成するステップを含み得る。

９１２において、方法９００は、コンピュータシステムにより、複数のアラインメントしたリードの中から複数の分割リードを同定するステップであって、所与の分割リードが、参照配列の第１の核酸遺伝子座にアラインメントする第１の部分配列部分および参照配列の第２の核酸遺伝子座にアラインメントする第２の部分配列部分を含み、第２の核酸遺伝子座が第１の核酸遺伝子座とは異なる、ステップを含み得る。

９１４において、方法９００は、コンピュータシステムにより、所与の分割リードについて、第１の核酸遺伝子座および第２の核酸遺伝子座に対応するゲノム位置の対を含むブレークポイントを決定するステップを含み得る。

９１６において、方法９００は、コンピュータシステムにより、複数の分割リードのそれぞれのブレークポイントに基づいて複数の分割リードをクラスター化して、複数の変異体クラスターを生成するステップを含み得る。

９１８において、方法９００は、コンピュータシステムにより、所定の基準に合致する複数の変異体クラスターの任意の１つまたは複数を、検出された変異体を指し示すものとして同定するステップを含み得る。

図１０は、本開示のある実施形態に従った、試料中の変異体を検出する方法１０００の別の例を説明する。１００２において、方法１０００は、対象由来の核酸分子の試料から生成された複数のペアエンドリードにアクセスするステップを含み得る。

１００４において、方法１０００は、オーバーラップ基準を満たすペアエンドリードのそれぞれのメイト対に基づいて、複数のマージされたリードを生成するステップを含み得る。

１００６において、方法１０００は、コンピュータシステムにより、複数のペアエンドリードの中から複数のマージされないリードを同定するステップであって、所与のマージされないリードが、オーバーラップ基準を満たさないペアエンドリードを対応するメイトペアエンドリードと共に含む、ステップを含み得る。

１００８において、方法１０００は、複数のマージされないリードに基づいて複数の鎖状連結したマージされないリードを生成するステップを含み得る。例えば、方法１０００は、マージされないリードのメイト対の配列の間に人工配列を挿入することができる。

１０１０において、方法１０００は、複数のマージされたリードおよび複数の鎖状連結したマージされないリードを参照ゲノムに対してアラインメントさせて、複数のアラインメントしたリードを生成するステップを含み得る。

１０１２において、方法１０００は、複数のアラインメントしたリードの中から複数の分割リードを同定するステップであって、複数の分割リードの中からの所与の分割リードが、参照配列の第１の核酸遺伝子座にアラインメントする第１の部分配列部分および参照配列の第２の核酸遺伝子座にアラインメントする第２の部分配列部分を含み、第２の核酸遺伝子座が第１の核酸遺伝子座とは異なる、ステップとを含み得る。

１０１４において、方法１０００は、複数の分割リードに基づいて１つまたは複数の変異体を同定するステップを含み得る。

それぞれ図２Ａ、９および１０に示されている種々の処理操作２０１〜２０７、９０２〜９１８および１００２〜１０１４および／または方法２００、９００および１０００を、上に詳細に記載されているシステム構成要素の一部または全部を使用して実現することができ、一部のインプリメンテーションでは、種々の操作を異なる順序で実施することができ、種々の操作を省くことができる。流れ図に示されている操作の一部または全部と一緒に追加的な操作を実施することができる。１つまたは複数の操作を同時に実施することができる。したがって、説明されている（および以下により詳細に記載されている）操作は例として提示されており、したがって、必ずしも限定するものとみなされるべきではない。

本明細書に記載の実施形態では一般にペアエンドシーケンシングの使用の例に言及しているが、他の実施形態は、個々の配列リード長を増強して、変異体検出のための配列カバレッジを増大させることができる、ペアエンド技法を使用しないシーケンシング技術を目的とし得る。例えば、シーケンシングリードが核酸配列を連続的にカバーしないシーケンシング戦略を、配列リードを鎖状連結することによるものなどの本明細書に記載の技法を使用して拡張することができる。そのような鎖状連結は、例えば、鎖状連結したマージされないリードに関して本明細書に記載の通り実施することができる。特定の非限定的な例では、目的の核酸配列を対象とするプライマーから生成された配列リード間にギャップが生じて、目的の核酸配列を「ウォーキングする」ことができる核酸配列ウォーキング技法を用いることができる。本明細書に記載の通り配列リードを鎖状連結し、目的の核酸配列の参照配列に対してアラインメントさせて、遺伝的変異体を検出することによって目的の核酸における遺伝的変異体を検出するために、本明細書に開示される種々の実施形態を使用することができる。他の例では、配列リードを、ペアエンド配列リードではないにもかかわらず一緒にマージすることができる。なぜなら、プライマーが近接配列を生成することが予測されるからである。

コンピュータインプリメンテーション

本方法をコンピュータによりインプリメントすることができ、したがって、本明細書または添付の特許請求の範囲に記載されているステップのウェットな化学ステップ以外のいずれかまたは全てを適切なプログラミングされたコンピュータで実施することができる。コンピュータは、メインフレーム、パーソナルコンピュータ、タブレット、スマートフォン、クラウド、オンラインデータストレージ、遠隔データストレージなどであってよい。コンピュータは、１つまたは複数の場所で動作させることができる。

本方法の種々の操作では、情報および／またはプログラムを利用し、結果を生成することができ、その結果は、コンピュータ可読媒体（例えば、ハードドライブ、補助メモリ、外部メモリ、サーバー；データベース、携帯型メモリデバイス（例えば、ＣＤ−Ｒ、ＤＶＤ、ＺＩＰディスク、フラッシュメモリカード）などに記憶される。

本開示は、実行されると本方法のステップをインプリメントする１つまたは複数のプログラムを含有する機械可読媒体を含む、核酸集団を解析するための製造品も含む。

本開示は、ハードウェアおよび／またはソフトウェアでインプリメントすることができる。例えば、本開示の異なる態様をクライアント側論理またはサーバー側論理のいずれかでインプリメントすることができる。本開示またはその構成要素は、適正に構成されたコンピューティングデバイスにローディングされるとそのデバイスを本開示に従って実行させる論理命令および／またはデータを含有する固定媒体プログラム構成要素に具体化することができる。論理命令を含有する固定媒体を、ビューアーのコンピュータに物理的にローディングするために固定媒体上のビューアーに送達することもでき、または論理命令を含有する固定媒体は、ビューアーが通信媒体を通じてアクセスして、プログラム構成要素をダウンロードする遠隔サーバー上に存在していてもよい。

本開示は、本開示の方法をインプリメントするようにプログラミングされたコンピュータ制御システムを提供する。プロセッサー１２０は、シングルコアプロセッサーもしくはマルチコアプロセッサー、または並行処理用の複数のプロセッサーを含み得る。ストレージデバイス１２２は、ランダムアクセスメモリ、リードオンリーメモリ、フラッシュメモリ、ハードディスク、および／または他の型のストレージを含み得る。コンピュータシステム１１０は、１つまたは複数の他のシステムと通信するための通信インターフェース（例えば、ネットワークアダプター）、ならびにキャッシュ、他のメモリ、データストレージおよび／または電子ディスプレイアダプターなどの周辺機器を含み得る。コンピュータシステム１１０の構成要素は、マザーボードなどの内部通信バスを通じて互いに通信することができる。ストレージデバイス１２２は、データを記憶させるためのデータストレージユニット（またはデータリポジトリ）であってよい。コンピュータシステム１１０は、通信インターフェースを用いてコンピュータネットワーク（「ネットワーク」）に動作可能にカップリングすることができる。ネットワークは、インターネット、インターネットおよび／もしくはエクストラネット、またはインターネットと通信するイントラネットおよび／もしくはエクストラネットであってよい。一部の場合では、ネットワークは電気通信および／またはデータネットワークである。ネットワークは、ローカルエリアネットワークを含み得る。ネットワークは、クラウドコンピューティングなどの分散コンピューティングを可能にすることができる、１つまたは複数のコンピュータサーバーを含み得る。一部の場合では、ネットワークは、コンピュータシステム１１０を用いて、コンピュータシステム１２０とカップリングしたデバイスがクライアントまたはサーバーとして挙動することを可能にし得る、ピアツーピアネットワークをインプリメントすることができる。

プロセッサー１２０は、プログラムまたはソフトウェアに具体化することができる機械可読命令のシーケンスを実行することができるものである。命令をストレージデバイス１２２などのメモリ位置に記憶させることができる。命令をプロセッサー１２０に指示することができ、その後、プロセッサー１２０を、本開示の方法をインプリメントするようにプログラムするまたは他の方法で構成することができる。プロセッサー１２０によって実施される操作の例としては、フェッチ、復号、実行、およびライトバックを挙げることができる。

プロセッサー１２０は、集積回路などの回路の一部であってよい。システム１００の１つまたは複数の他の構成要素を回路に含めることができる。一部の場合では、回路は、特定用途向け集積回路（ＡＳＩＣ）を含み得る。

ストレージデバイス１２２は、ドライバー、ライブラリーおよびセーブされたプログラムなどのファイルを記憶してもよい。ストレージデバイス１２２は、ユーザーデータ、例えば、ユーザー選好およびユーザープログラムを記憶することができる。コンピュータシステム１１０は、一部の場合では、例えば、コンピュータシステム１１０とイントラネットまたはインターネットを通じて通信する遠隔サーバー上に位置するものなど、コンピュータシステム１１０に対して外付けの１つまたは複数の追加的なデータストレージユニットを含み得る。

コンピュータシステム１１０は、１つまたは複数の遠隔コンピュータシステムとネットワークを通じて通信し得る。例えば、コンピュータシステム１１０は、ユーザーの遠隔コンピュータシステムと通信し得る。遠隔コンピュータシステムの例としては、パーソナルコンピュータ（例えば、携帯型ＰＣ）、スレートまたはタブレットＰＣ（例えば、Ａｐｐｌｅ（登録商標）ｉＰａｄ（登録商標）、Ｓａｍｓｕｎｇ（登録商標）ＧａｌａｘｙＴａｂ）、電話機、スマートフォン（例えば、Ａｐｐｌｅ（登録商標）ｉＰｈｏｎｅ（登録商標）、Ａｎｄｒｏｉｄ対応デバイス、Ｂｌａｃｋｂｅｒｒｙ（登録商標））、または携帯情報端末が挙げられる。ユーザーは、コンピュータシステム１１０にネットワークを介してアクセスすることができる。

本明細書に記載の方法は、コンピュータシステム１１０の電子ストレージ位置、例えば、ストレージデバイス１２２などに記憶された、機械（例えば、コンピュータプロセッサー）により実行可能なコードを介してインプリメントすることができる。機械により実行可能なまたは機械可読のコードは、ソフトウェアの形態で提供することができる。使用中、コードはプロセッサー９０５によって実行することができる。一部の場合では、コードをストレージユニット９１５から検索し、プロセッサー１２０がすぐにアクセスできるようにストレージデバイス１２２に記憶させることができる。

コードをプリコンパイルし、コードを実行するように適合させたプロセッサーを有する機械での使用のために構成することもでき、実行時間中にコンパイルすることもできる。コードは、コードをプリコンパイルまたは都度コンパイル様式で実行することが可能になるように選択することができるプログラミング言語で供給することができる。

コンピュータシステム１１０などの本明細書に提示されるシステムおよび方法の態様は、プログラミングに具体化することができる。当該技術の種々の態様は、一般には、機械可読媒体の一種で実施または具体化される機械（またはプロセッサー）により実行可能なコードおよび／または関連するデータの形態の「製品」または「製造品」と考えることができる。機械により実行可能なコードは、メモリ（例えば、リードオンリーメモリ、ランダムアクセスメモリ、フラッシュメモリ）またはハードディスクなどの電子ストレージユニットに記憶され得る。

「ストレージ」型媒体は、ソフトウェアプログラミングの任意の時点で非一時的ストレージをもたらすことができるコンピュータの有形メモリ、プロセッサーなど、または、種々の半導体メモリ、テープドライブ、ディスクドライブなどのそれらの関連モジュールのいずれかまたは全てを含み得る。ソフトウェアの全てまたは部分は、時々、インターネットまたは種々の他の電気通信ネットワークを通じて通信することができる。そのような通信は、例えば、ソフトウェアを１つのコンピュータまたはプロセッサーから別のものに、例えば、管理サーバーまたはホストコンピュータからアプリケーションサーバーのコンピュータプラットフォームにローディングすることが可能になり得る。したがって、ソフトウェア要素を有する別の型の媒体として、有線および光陸上通信線ネットワークを通じて、および種々のエアリンクを伝わってローカルデバイス間の物理的なインターフェースを越えて使用されるものなどの光波、電波および電磁波が挙げられる。有線または無線リンク、光学リンクなどの、そのような波を伝える物理的要素も、ソフトウェアを担持する媒体とみなすことができる。本明細書で使用される場合、非一時的な有形記憶媒体に制限される場合を除き、「媒体」は、他の型の（無形）媒体を含み得る。

「記憶」媒体、コンピュータまたは機械「可読媒体」などの用語は、プロセッサーへの実行の命令の提供に関与する任意の有形（例えば、物理的）、非一時的媒体を指す。

したがって、コンピュータで実行可能なコードなどの機械可読媒体は、これだけに限定されないが、有形記憶媒体、搬送波媒体または物理的伝送媒体を含めた多くの形態を取り得る。非揮発性記憶媒体としては、例えば、任意のコンピュータ内のストレージデバイスのいずれかなどの光学ディスクまたは磁気ディスクなど、例えば、図に示されているデータベースなどをインプリメントするために使用することができるものなどが挙げられる。揮発性記憶媒体としては、そのようなコンピュータプラットフォームのメインメモリなどのダイナミックメモリが挙げられる。有形伝達媒体としては、同軸ケーブル；コンピュータシステム内のバスを含む電線を含めた銅線および光ファイバーが挙げられる。搬送波伝送媒体は、電気シグナルもしくは電磁気シグナル、または無線周波数（ＲＦ）および赤外（ＩＲ）データ通信の間に生成されるものなどの音波または光波の形態を取り得る。したがって、コンピュータ可読媒体の一般的な形態としては、例えば、フロッピー（登録商標）ディスク、フレシキブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤもしくはＤＶＤ−ＲＯＭ、任意の他の光学媒体、パンチカード紙テープ、穴のパターンを有する任意の他の物理的記憶媒体、ＲＡＭ、ＲＯＭ、ＰＲＯＭおよびＥＰＲＯＭ、ＦＬＡＳＨ（登録商標）−ＥＰＲＯＭ、任意の他のメモリチップもしくはカートリッジ、搬送波伝達データもしくは命令、そのような搬送波を移送するケーブルもしくはリンク、またはコンピュータがそれからプログラミングコードおよび／またはデータを読み込むことができる任意の他の媒体が挙げられる。これらの形態のコンピュータ可読媒体の多くは、１つまたは複数の命令の１つまたは複数のシーケンスを実行のためにプロセッサーに運ぶことに関与し得る。

コンピュータシステム１１０は、例えば報告書を提供するためのユーザーインターフェース（ＵＩ）を含む電子ディスプレイ９３５を含み得るまたはそれと通信し得る。ＵＩの例としては、限定することなく、グラフィカルユーザーインターフェース（ＧＵＩ）およびウェブに基づくユーザーインターフェースが挙げられる。

本開示の方法およびシステムは、１つまたは複数のアルゴリズムによってインプリメントされ得る。アルゴリズムは、ソフトウェアにより、プロセッサー１２０によって実行されるとインプリメントされ得る。

試料

試料１０１は、対象から単離された任意の生体試料であってよい。試料は、体組織、例えば、既知のもしくは疑わしい固形腫瘍、全血、血小板、血清、血漿、便、赤血球、白血球（ｗｈｉｔｅｂｌｏｏｄｃｅｌｌ）もしくは白血球（ｌｅｕｃｏｃｙｔｅ）、内皮細胞、組織生検材料、脳脊髄液、滑液、リンパ液、腹水、間質もしくは細胞外液、歯肉滲出液を含めた細胞間空間滲出液、骨髄、胸水、脳脊髄液、唾液、粘液、痰、精液、汗、尿などを含み得る。試料は、好ましくは体液、特に、血液およびその画分、ならびに尿である。そのような試料は、腫瘍から排出された核酸を含む。核酸は、ＤＮＡおよびＲＮＡを含み得、二本鎖形態および／または一本鎖形態であり得る。試料は、対象から元々単離された形態であってもよく、細胞などの構成成分を除去または付加するため、１つの構成成分を別の構成成分に対して富化するため、または１つの形態の核酸を別の形態の核酸に変換する、例えば、ＲＮＡをＤＮＡに変換する、もしくは一本鎖核酸を二本鎖に変換するために、さらなる処理に供されたものであってもよい。したがって、例えば、分析用の体液は、無細胞核酸、例えば、無細胞ＤＮＡ（ｃｆＤＮＡ）を含有する血漿または血清である。

一部の実施形態では、対象から取得した体液の試料体積は、シーケンシングされる領域に対する所望のリードの深さに依存する。例示的な体積は、約０．４〜４０ｍｌ、約５〜２０ｍｌ、約１０〜２０ｍｌである。例えば、体積は、約０．５ｍｌ、約１ｍｌ、約５ｍｌ、約１０ｍｌ、約２０ｍｌ、約３０ｍｌ、約４０ｍｌ、またはそれよりも大きなミリリットル数であり得る。試料採取された血漿の体積は、一般には、約５ｍｌ〜約２０ｍｌの間である。

試料は、種々の量の核酸を含み得る。一般には、所与の試料中の核酸の量は、複数のゲノム等価物と等しい。例えば、約３０ｎｇのＤＮＡの試料は、約１０，０００（１０^４）個の一倍体ヒトゲノム等価物、およびｃｆＤＮＡの場合では、約２０００億（２×１０^１１）個の個々のポリヌクレオチド分子を含有し得る。同様に、約１００ｎｇのＤＮＡの試料は、約３０，０００個の一倍体ヒトゲノム等価物、およびｃｆＤＮＡの場合では、約６０００億個の個々の分子を含有し得る。

一部の実施形態では、試料は、異なる供給源に由来する核酸、例えば、細胞由来の核酸および無細胞供給源（例えば、血液試料など）由来の核酸を含む。典型的には、試料は、突然変異を有する核酸を含む。例えば、試料は、必要に応じて、生殖細胞系列突然変異および／または体細胞突然変異を有するＤＮＡを含む。典型的には、試料は、がん関連突然変異（例えば、がん関連体細胞突然変異）を有するＤＮＡを含む。

増幅前の試料中の無細胞核酸の例示的な量は、典型的には、約１フェムトグラム（ｆｇ）〜約１マイクログラム（μｇ）、例えば、約１ピコグラム（ｐｇ）〜約２００ナノグラム（ｎｇ）、約１ｎｇ〜約１００ｎｇ、約１０ｎｇ〜約１０００ｎｇにわたる。一部の実施形態では、試料は、最大約６００ｎｇ、最大約５００ｎｇ、最大約４００ｎｇ、最大約３００ｎｇ、最大約２００ｎｇ、最大約１００ｎｇ、最大約５０ｎｇ、または最大約２０ｎｇの無細胞核酸分子を含む。必要に応じて、量は、少なくとも約１ｆｇ、少なくとも約１０ｆｇ、少なくとも約１００ｆｇ、少なくとも約１ｐｇ、少なくとも約１０ｐｇ、少なくとも約１００ｐｇ、少なくとも約１ｎｇ、少なくとも約１０ｎｇ、少なくとも約１００ｎｇ、少なくとも約１５０ｎｇ、または少なくとも約２００ｎｇの無細胞核酸分子である。ある特定の実施形態では、量は、最大約１ｆｇ、約１０ｆｇ、約１００ｆｇ、約１ｐｇ、約１０ｐｇ、約１００ｐｇ、約１ｎｇ、約１０ｎｇ、約１００ｎｇ、約１５０ｎｇ、または約２００ｎｇの無細胞核酸分子である。一部の実施形態では、方法は、試料から約１ｆｇ〜約２００ｎｇの無細胞核酸分子を得るステップを含む。

無細胞核酸は、典型的には、約１００ヌクレオチドの長さから約５００ヌクレオチドの長さの間のサイズ分布を有し、約１１０ヌクレオチドの長さ〜約２３０ヌクレオチドの長さの分子が試料中の分子の約９０％に相当し、最頻値は約１６８ヌクレオチドの長さであり、第２の副次的なピークは約２４０〜約４４０ヌクレオチドの長さである。ある特定の実施形態では、無細胞核酸は、約１６０ヌクレオチドから約１８０ヌクレオチドまでの長さ、または約３２０ヌクレオチドから約３６０ヌクレオチドまでの長さ、または約４４０ヌクレオチドから約４８０ヌクレオチドまでの長さである。

一部の実施形態では、溶液中に見出される無細胞核酸をインタクトな細胞および体液の他の不溶性構成成分から分離する分割ステップを通じて、無細胞核酸を体液から単離する。これらの実施形態の一部では、分割は、遠心分離または濾過などの技法を含む。あるいは、体液中の細胞を溶解させ、無細胞核酸と細胞性核酸を一緒に処理する。一般に、緩衝液の添加および洗浄ステップ後、無細胞核酸を、例えばアルコールを用いて沈殿させる。ある特定の実施形態では、夾雑物または塩を除去するためにシリカに基づくカラムなどの追加的な清澄化ステップを使用する。収量などの、例示的な手順のある特定の側面を最適化するために、反応全体を通して、例えば非特異的バルクキャリア核酸を必要に応じて添加する。そのような処理後、試料は、典型的には、二本鎖ＤＮＡ、一本鎖ＤＮＡおよび／または一本鎖ＲＮＡを含む様々な形態の核酸を含む。必要に応じて、一本鎖ＤＮＡおよび／または一本鎖ＲＮＡを二本鎖形態に変換し、したがって、その後の処理および解析ステップには二本鎖形態が含まれる。

核酸タグ

一部の実施形態では、核酸分子（ポリヌクレオチドの試料に由来する）に、試料インデックスおよび／または分子バーコード（一般に「タグ」と称される）をタグ付けすることができる。タグは、他の方法の中でも、化学合成、ライゲーション（例えば、平滑末端ライゲーションまたは粘着末端ライゲーション）、またはオーバーラップ伸長ポリメラーゼ連鎖反応（ＰＣＲ）によってアダプターに組み入れるまたは他のやり方で接合することができる。そのようなアダプターを最終的に標的核酸分子に接合することができる。他の実施形態では、従来の核酸増幅方法を使用して試料インデックスを核酸分子に導入するために、１つまたは複数のラウンドの増幅サイクル（例えば、ＰＣＲ増幅）を一般に適用する。増幅は、１つまたは複数の反応混合物（例えば、アレイ内の複数のマイクロウェル）中で行うことができる。分子バーコードおよび／または試料インデックスは、同時に導入することもでき、任意の逐次的順序で導入することもできる。一部の実施形態では、分子バーコードおよび／または試料インデックスを、配列捕捉ステップを実施する前および／または実施した後に導入する。一部の実施形態では、分子バーコードのみをプローブ捕捉の前に導入し、試料インデックスを配列捕捉ステップの実施後に導入する。一部の実施形態では、分子バーコードおよび試料インデックスの両方をプローブに基づく捕捉ステップの実施前に導入する。一部の実施形態では、試料インデックスを配列捕捉ステップの実施後に導入する。一部の実施形態では、分子バーコードを試料中の核酸分子（例えば、ｃｆＤＮＡ分子）にアダプターを通じて、ライゲーション（例えば、平滑末端ライゲーションまたは粘着末端ライゲーション）によって組み入れる。一部の実施形態では、試料インデックスを試料中の核酸分子（例えば、ｃｆＤＮＡ分子）にオーバーラップ伸長ポリメラーゼ連鎖反応（ＰＣＲ）を通じて組み入れる。一般には、配列捕捉プロトコールは、標的とされる核酸配列、例えば、ゲノム領域のコード配列と相補的な一本鎖核酸分子を導入することを伴い、そのような領域の突然変異はがんの型に関連付けられる。

一部の実施形態では、タグを試料核酸分子の一方の末端または両方の末端に位置付けることができる。一部の実施形態では、タグは、所定のまたはランダムなまたはセミランダムな配列のオリゴヌクレオチドである。一部の実施形態では、タグは、約５００ヌクレオチド未満、約２００ヌクレオチド未満、約１００ヌクレオチド未満、約５０ヌクレオチド未満、約２０ヌクレオチド未満、約１０ヌクレオチド未満、約９ヌクレオチド未満、約８ヌクレオチド未満、約７ヌクレオチド未満、約６ヌクレオチド未満、約５ヌクレオチド未満、約４ヌクレオチド未満、約３ヌクレオチド未満、約２ヌクレオチド未満、または約１ヌクレオチドの長さであり得る。タグは、試料核酸にランダムに連結することもでき、非ランダムに連結することもできる。

一部の実施形態では、各試料に、試料インデックスまたは試料インデックスの組合せを用いて一意的にタグ付けする。一部の実施形態では、試料または副次試料の各核酸分子に、分子バーコードまたは分子バーコードの組合せを用いて一意的にタグ付けする。他の実施形態では、複数の分子バーコードを、分子バーコードが必ずしも複数内で互いに一意的にならないように使用することができる（例えば、非一意的分子バーコード）。これらの実施形態では、一般に、分子バーコードを個々の分子に、分子バーコードとそれを付着させることができる配列の組合せにより、個別に追跡することができる一意的な配列が創出されるように付着させる（例えば、ライゲーションによって）。非一意的にタグ付けされた分子バーコードと内因性配列情報（例えば、試料中の元の核酸分子の配列に対応する最初の（開始）および／もしくは最後の（終止）部分、一方の末端もしくは両方の末端における配列リードの部分配列、配列リードの長さ、および／または試料中の元の核酸分子の長さ）の組合せの検出により、一般には、特定の分子に一意的な正体を割り当てることが可能になる。個々の配列リードの長さ、または塩基対の数も所与の分子に一意的な正体を割り当てるために必要に応じて使用することができる。本明細書に記載の通り、核酸の一本鎖由来の断片に一意的な正体が割り当てられていることにより、その後、親鎖、および／または相補鎖から断片を同定することが可能になり得る。

一部の実施形態では、分子バーコードを、分子バーコードのセット（例えば、一意的または非一意的分子バーコードの組合せ）の試料中の分子に対する予測比率で導入する。フォーマットの１つの例では、約２種から約１，０００，０００種までの異なる分子バーコード、または約５種から約１５０種までの異なる分子バーコード、または約２０種から約５０種までの異なる分子バーコードを標的分子の両末端にライゲーションして使用する。あるいは、約２５種から約１，０００，０００種までの異なる分子バーコードを使用することができる。例えば、標的分子の各末端に２０〜５０種の分子バーコード。このような識別子の数は、一般には、同じ開始点および終止点を有する異なる分子が識別子の異なる組合せを得る確率を高くする（例えば、少なくとも９４％、９９．５％、９９．９９％、または９９．９９９％）ために十分である。一部の実施形態では、分子の約８０％、約９０％、約９５％、または約９９％が分子バーコードの同じ組合せを有する。

一部の実施形態では、反応における一意的または非一意的分子バーコードの割り当てを、例えば、そのそれぞれの全体が参照により本明細書に組み込まれる米国特許出願第２００１００５３５１９号、同第２００３０１５２４９０号、および同第２０１１０１６００７８号、および米国特許第６，５８２，９０８号、同第７，５３７，８９８号、同第９，５９８，７３１号、および同第９，９０２，９９２号に記載されている方法およびシステムを使用して実施する。あるいは、一部の実施形態では、内因性配列情報（例えば、開始および／または終止位置、配列の一方の末端または両方の末端の部分配列、および／または長さ）のみを使用して試料の異なる核酸分子を同定することができる。

核酸増幅

アダプターが隣接する試料核酸を、一般には、増幅されるＤＮＡ分子に隣接するアダプター内のプライマー結合性部位に結合する核酸プライマーを使用してＰＣＲおよび他の増幅方法によって増幅する。一部の実施形態では、増幅方法は、伸長、変性およびアニーリングのサイクルを伴い、これは、サーモサイクリングによるもの、または、例えば転写媒介増幅におけるものと同様に等温性であり得る。必要に応じて利用することができる他の例示的な増幅方法としては、他の手法の中でも、リガーゼ連鎖反応、鎖置換増幅、核酸配列に基づく増幅、および自家持続配列ベース複製が挙げられる。

一般に、従来の核酸増幅方法を使用して試料インデックスを核酸分子に導入するために、１つまたは複数のラウンドの増幅サイクルが適用される。増幅は、一般には、１つまたは複数の反応混合物中で行われる。分子タグおよび試料インデックス／タグを必要に応じて同時にまたは任意の逐次的順序で導入する。一部の実施形態では、分子タグおよび試料インデックスを、核酸富化を実施する前におよび／または実施した後に導入する。一部の実施形態では、分子タグのみをプローブ捕捉の前に導入し、試料インデックスを核酸富化の実施後に導入する。ある特定の実施形態では、分子タグおよび試料インデックス／タグの両方をプローブに基づく捕捉ステップの実施前に導入する。一部の実施形態では、試料インデックス／タグを配列捕捉ステップの実施後に導入する。一般には、配列捕捉プロトコールは、標的とされる核酸配列、例えば、ゲノム領域のコード配列と相補的な一本鎖核酸分子を導入することを伴い、そのような領域の突然変異はがんの型に関連付けられる。一般には、増幅反応は、約２００ヌクレオチド（ｎｔ）から約７００ｎｔまで、２５０ｎｔから約３５０ｎｔまで、または約３２０ｎｔから約５５０ｎｔまでにわたるサイズの、分子タグおよび試料インデックス／タグで非一意的にまたは一意的にタグ付けされた核酸アンプリコンを複数生成する。一部の実施形態では、アンプリコンのサイズは約３００ｎｔである。一部の実施形態では、アンプリコンのサイズは約５００ｎｔである。

核酸富化

一部の実施形態では、核酸のシーケンシングを行う前に、配列を富化する。富化は、特定の標的領域に対して必要に応じて実施する。一部の実施形態では、標的とされる目的の領域を、１つまたは複数のベイトセットパネルについて選択された核酸捕捉プローブ（「ベイト」）を用い、示差的タイリング（ｄｉｆｆｅｒｅｎｔｉａｌｔｉｌｉｎｇ）および捕捉スキームを使用して富化することができる。示差的タイリングおよび捕捉スキームでは、一般に、ベイトが結び付くゲノム領域にわたって示差的にタイリングするために（例えば、異なる「分解能」で）異なる相対的濃度のベイトセットを使用し、１組の制約（例えば、シーケンシング負荷などのシーケンサー制約、各ベイトの有用性など）に供し、標的とされる核酸を下流のシーケンシングのために所望のレベルで捕捉する。これらの目的の標的とされるゲノム領域は、必要に応じて核酸構築物の天然または合成ヌクレオチド配列を含む。一部の実施形態では、目的の１つまたは複数の領域に対するプローブを伴うビオチン標識ビーズを使用して、標的配列を捕捉することができ、必要に応じて、その後、これらの領域を増幅して、目的の領域を富化する。

配列捕捉は、一般には、標的核酸配列とハイブリダイズするオリゴヌクレオチドプローブの使用を伴う。ある特定の実施形態では、プローブセット戦略は、目的の領域にわたってプローブをタイリングすることを伴う。そのようなプローブは、例えば、約６０ヌクレオチドから約１２０ヌクレオチドまでの長さであり得る。セットの深さは、約２×またはそれよりも深い、３×またはそれよりも深い、４×またはそれよりも深い、５×またはそれよりも深い、６×またはそれよりも深い、７×またはそれよりも深い、８×またはそれよりも深い、９×またはそれよりも深い、１０×またはそれよりも深い、１５×またはそれよりも深い、２０×またはそれよりも深い、５０×またはそれよりも深いものであり得る。配列捕捉の効果は、一般に、一部において、プローブの配列と相補的な（またはほぼ相補的な）標的分子の配列の長さに依存する。

核酸シーケンシング

先の増幅を伴うまたは伴わない、アダプターが隣接する試料核酸を１つまたは複数のシーケンシングデバイス１０７によるものなどのシーケンシングに供することができる。シーケンシング方法としては、例えば、サンガーシーケンシング、ハイスループットシーケンシング、パイロシーケンシング、合成によるシーケンシング、単一分子のシーケンシング、ナノポアシーケンシング、半導体シーケンシング、ライゲーションによるシーケンシング、ハイブリダイゼーションによるシーケンシング、ＲＮＡ−Ｓｅｑ（Ｉｌｌｕｍｉｎａ）、ＤｉｇｉｔａｌＧｅｎｅＥｘｐｒｅｓｓｉｏｎ（Ｈｅｌｉｃｏｓ）、次世代シーケンシング、合成による単一分子シーケンシング（ＳＭＳＳ）（Ｈｅｌｉｃｏｓ）、大規模並列シーケンシング、ＣｌｏｎａｌＳｉｎｇｌｅＭｏｌｅｃｕｌｅＡｒｒａｙ（Ｓｏｌｅｘａ）、ショットガンシーケンシング、ＩｏｎＴｏｒｒｅｎｔ、ＯｘｆｏｒｄＮａｎｏｐｏｒｅ、ＲｏｃｈｅＧｅｎｉａ、Ｍａｘｉｍ−Ｇｉｌｂｅｒｔシーケンシング、プライマーウォーキング、ＰａｃＢｉｏ、ＳＯＬｉＤ、ＩｏｎＴｏｒｒｅｎｔ、またはＮａｎｏｐｏｒｅプラットフォームを使用したシーケンシングが挙げられる。シーケンシング反応は、複数の試料セットを実質的に同時に処理する複数のレーン、複数のチャネル、複数のウェル、または他の手段であり得る種々の試料処理装置で実施することができる。試料処理装置は、複数のランを同時に処理することを可能にするために複数の試料チャンバーも含み得る。

シーケンシング反応は、がんまたは他の疾患のマーカーを含有することが分かっている１つまたは複数の断片型に対して実施することができる。シーケンシング反応はまた、試料中に存在する任意の核酸断片に対して実施することができる。シーケンシング反応は、少なくとも５％、１０％、１５％、２０％、２５％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、９５％、９９％、９９．９％または１００％のゲノムの配列カバレッジをもたらし得る。他の場合では、ゲノムの配列カバレッジは、５％未満、１０％未満、１５％未満、２０％未満、２５％未満、３０％未満、４０％未満、５０％未満、６０％未満、７０％未満、８０％未満、９０％未満、９５％未満、９９％未満、９９．９％未満または１００％未満であり得る。

同時シーケンシング反応を、マルチプレックスシーケンシングを使用して実施することができる。一部の場合では、無細胞ポリヌクレオチドのシーケンシングを、少なくとも１０００、２０００、３０００、４０００、５０００、６０００、７０００、８０００、９０００、１００００、５００００、１００，０００シーケンシング反応で行うことができる。他の場合では、無細胞ポリヌクレオチドのシーケンシングを、１０００未満、２０００未満、３０００未満、４０００未満、５０００未満、６０００未満、７０００未満、８０００未満、９０００未満、１００００未満、５００００未満、１００，０００未満のシーケンシング反応で行うことができる。シーケンシング反応は、逐次的に実施することもでき、同時に実施することもできる。その後のデータ解析をシーケンシング反応の全部または一部に対して実施することができる。一部の場合では、データ解析を少なくとも１０００、２０００、３０００、４０００、５０００、６０００、７０００、８０００、９０００、１００００、５００００、１００，０００シーケンシング反応に対して実施することができる。他の場合では、データ解析を１０００未満、２０００未満、３０００未満、４０００未満、５０００未満、６０００未満、７０００未満、８０００未満、９０００未満、１００００未満、５００００未満、１００，０００未満のシーケンシング反応に対して実施することができる。例示的なリードの深さは、遺伝子座（塩基）当たり１０００リードから５００００リードまでである。

配列解析パイプライン

本方法を対象における状態、特にがんの存在を診断するため、状態を特徴付けるため（例えば、がんのステージ分類を行うため、またはがんの不均一性を決定するため）、状態の処置への応答をモニタリングするため、状態が発生するリスクまたはその後の状態の経過の予後判定を行うために使用することができる。

種々のがんを、本方法を使用して検出することができる。がん細胞は、大多数の細胞と同様に、古い細胞が死滅し、新しい細胞で置き換えられるターンオーバーの速度によって特徴付けることができる。一般に、所与の対象の脈管構造と接触している死細胞は、ＤＮＡまたはＤＮＡの断片を血流中に放出し得る。これは、疾患の種々のステージにあるがん細胞にも当てはまる。がん細胞はまた、疾患のステージに応じて、コピー数変異ならびに稀な突然変異などの種々の遺伝子異常によって、特徴付けることもできる。この現象を本明細書に記載の方法およびシステムを使用して個体におけるがんの存在または非存在を検出するために使用することができる。

検出することができるがんの型および数は、血液がん、脳がん、肺がん、皮膚がん、鼻のがん、咽頭がん、肝がん、骨がん、リンパ腫、膵がん、皮膚がん、腸がん、直腸がん、甲状腺がん、膀胱がん、腎がん、口腔がん、胃がん、固体状態の腫瘍、不均一な腫瘍、均一な腫瘍などを含み得る。

がんは、突然変異、稀な突然変異、インデル、コピー数変異、転換、転座、逆位、欠失、異数性、部分的な異数性、倍数性、染色体不安定性、染色体構造変更、遺伝子融合、染色体融合、遺伝子短縮、遺伝子増幅、遺伝子重複、染色体病変、ＤＮＡ病変、核酸化学修飾の異常な変化、エピジェネティックパターンの異常な変化を含めた遺伝的変異から検出することができる。

がんの特定の形態を特徴付けるために遺伝的データを使用することもできる。がんは、多くの場合、組成およびステージ分類のどちらも不均一である。遺伝的プロファイルデータにより、がんの特定の亜型の診断または処置において重要であり得るその特定の亜型の特徴付けが可能になる。この情報はまた、対象または実施者に特定の型のがんの予後に関する手がかりをもたらし、かつ対象または実施者のいずれかが疾患の進行に従って処置選択肢を適合させることを可能にする。いくつかのがんは進行し、より侵攻性かつ遺伝的に不安定なものになる。他のがんは良性、非活動性または休止状態のままであり得る。本開示のシステムおよび方法は、疾患増悪の決定において有用であり得る。

本解析はまた、特定の処置選択肢の有効性の決定においても有用である。上首尾の処置選択肢では、処置が上首尾であれば、より多くのがんが死滅し、ＤＮＡが放出される可能性があるので、対象の血液中に検出されるコピー数変異または稀な突然変異の量が増加する。他の例では、これは起こらない可能性がある。別の例では、おそらく、ある特定の処置選択肢は、がんの遺伝的プロファイルと経時的に相関し得る。この相関は、治療の選択において有用であり得る。さらに、がんが処置後に寛解の状態にあることが認められた場合、本方法を使用して、残留する疾患または疾患の再発をモニタリングすることができる。

本方法を、がん以外の状態における遺伝的変異を検出するために使用することもできる。Ｂ細胞などの免疫細胞は、ある特定の疾患が存在すると、迅速なクローン性増大を起こし得る。クローン性増大はコピー数変異検出を使用してモニタリングすることができ、また、ある特定の免疫状態をモニタリングすることができる。この例では、コピー数変異解析を経時的に実施して、特定の疾患がどのように進行し得るかのプロファイルを作製することができる。コピー数変異またはさらには稀な突然変異の検出を使用して、病原体の集団が感染の過程中にどのように変化するかを決定することができる。これは、これによりウイルスが感染の過程中に生活環状態を変化させ得、かつ／またはより毒性の強い形態に突然変異し得るＨＩＶ／ＡＩＤまたは肝炎感染などの慢性感染の間に特に重要であり得る。免疫細胞が移植された組織を破壊しようとするので、移植された組織の状態をモニタリングするため、ならびに拒絶の処置または予防の過程を変化させるために本方法を使用して、宿主の体の拒絶活性を決定するまたはプロファイリングすることができる。

さらに、本開示の方法は、対象における異常な状態の不均一性を特徴付けるために使用することができ、対象における細胞外ポリヌクレオチドの遺伝的プロファイルを生成するステップを含み、遺伝的プロファイルが、コピー数変異および稀な突然変異の解析の結果得られた複数のデータを含む。一部の場合では、これだけに限定されないが、がんを含め、疾患は不均一であり得る。疾患細胞は同一でない可能性がある。がんの例では、一部の腫瘍は異なる型の腫瘍細胞を含み、一部の細胞はがんの異なるステージにあることが分かっている。他の例では、不均一性は、疾患の複数の病巣を構成し得る。再度、がんの例では、複数の腫瘍病巣が存在する可能性があり、おそらく、１つまたは複数の病巣は原発部位から広がった転移の結果である。

本方法を、不均一な疾患における異なる細胞に由来する遺伝情報の合計であるフィンガープリントまたはデータのセットを生成またはプロファイリングするために使用することができる。このデータのセットは、コピー数変異および稀な突然変異の解析を単独でまたは組み合わせて含み得る。

本方法を、胎児起源のがんまたは他の疾患を診断する、予後判定する、モニタリングするまたは観察するために使用することができる。すなわち、これらの方法体系を、ＤＮＡおよび他のポリヌクレオチドが母系分子と共循環し得る、まだ生まれていない対象におけるがんまたは他の疾患を診断する、予後判定する、モニタリングするまたは観察するために、妊娠中の対象に使用することができる。

高精度の処置例

改善されたコンピュータシステム１１０によって提供される高精度の診断法の結果、高精度の処置計画を得ることができ、これは、コンピュータシステム１１０により同定すること（および／または医療従事者がキュレートすること）ができる。

試料中の核酸変異体の数および型により、試料を提供した対象の、処置、すなわち治療介入の影響の受けやすさの指標をもたらすことができる。例えば、多数の核酸変異体が存在することは免疫療法に対する正の指標になる。なぜなら、そのような突然変異の存在が免疫療法の標的を形成するネオエピトープに関連付けられるからである。免疫療法は、他の処置の中でも、ＰＤ−１、ＰＤ−２、ＰＤ−Ｌ１、ＰＤ−Ｌ２、ＣＴＬＡ−４０、ＯＸ４０、Ｂ７．１、Ｂ７Ｈｅ、ＬＡＧ３、ＣＤ１３７、ＫＩＲ、ＣＣＲ５、ＣＤ２７、またはＣＤ４０のいずれかに対する抗体の使用を含み得る。免疫療法のための他の例示的な薬剤としては、ＩＬ−１β、ＩＬ−６、およびＴＮＦ−αなどの炎症促進サイトカインが挙げられる。他の例示的な薬剤は、例えば、Ｔ細胞から腫瘍抗原を標的とするキメラ抗原を発現することにより、腫瘍に対して活性化されるＴ細胞である。免疫療法では、免疫系を、突然変異の存在によって野生型対応物と弁別される腫瘍抗原を攻撃するように刺激する。

他の処置選択肢としては、特定の変異体に対する標的化治療の施行が挙げられる。例えば、核酸再編成（例えば、ＥＧＦＲまたはＡＬＫ融合）の標的化治療は、エルロチニブ、アファチニブ、アレクチニブ、ブリガチニブ、セリチニブ、セツキシマブ、クリゾチニブ、エンサルチニブ、ラロトレクチニブ（ｌａｒｏｔｅｒｃｔｉｎｉｂ）、レンバチニブ、ロルラチニブ、オシメルチニブ、パゾパニブ、レゴラフェニブ、およびＴＰＸ−０００５などのチロシンキナーゼ阻害剤を含み得る。

シーケンシングされた核酸の核酸変異体は、シーケンシングされた核酸を参照配列と比較することによって決定することができる。参照配列は、多くの場合、既知配列、例えば、対象物由来の既知の全ゲノム配列または部分的なゲノム配列、ヒト対象物の全ゲノム配列である。参照配列はｈＧ１９であり得る。シーケンシングされた核酸は、上記の通り、試料中の核酸について直接決定された配列、またはそのような核酸の増幅産物の配列のコンセンサスを表し得る。参照配列上の１つまたは複数の指定位置で比較を実施することができる。それぞれの配列を最大限にアラインメントさせた場合、参照配列の指定位置に対応する位置を含めた、シーケンシングされた核酸のサブセットを同定することができる。そのようなサブセット内で、もしあれば、どのシーケンシングされた核酸が指定位置にヌクレオチド変異を含むか、および、必要に応じて、もしあれば、どれが参照ヌクレオチド（すなわち、参照配列内と同じ）を含むかを決定することができる。ヌクレオチド変異体を含むサブセット内のシーケンシングされた核酸の数が閾値を超える場合には、変異体ヌクレオチドをその指定位置で呼び出す。閾値は、他の可能性の中でも、ヌクレオチド変異体を含むサブセット内のシーケンシングされた核酸が少なくとも１、２、３、４、５、６、７、８、９、もしくは１０個などの単純な数であり得る、またはサブセット内のシーケンシングされた核酸の少なくとも０．５、１、２、３、４、５、１０、１５、または２０個がヌクレオチド変異体を含むなどの比率であり得る。比較を参照配列内の任意の目的の指定位置で繰り返すことができる。時には、比較を参照配列上の少なくとも２０、１００、２００、または３００の連続的な位置、例えば、２０〜５００、または５０〜３００の連続的な位置を占有する指定位置について実施することができる。

上文または下で引用されている特許出願、ウェブサイト、他の刊行物、受託番号などは全て、各項目が、参照により組み込まれることが具体的にかつ個別に示されたものと同じく、あらゆる目的に関してその全体が参照により組み込まれる。異なるバージョンの配列が違う時間に受託番号に関連付けられている場合、本出願の有効な出願日に受託番号に関連付けられたバージョンが意図される。有効な出願日とは、実際の出願日よりも前または該当する場合には受託番号を参照する優先出願の出願日を意味する。同様に、異なるバージョンの刊行物、ウェブサイトなどが違う時間に公開されている場合、別段の指定のない限り、本出願の有効な出願日のごく最近に公開されたバージョンが意図される。特に他の指示がなければ、本開示の任意の特色、ステップ、要素、実施形態、または態様を任意の他の特色、ステップ、要素、実施形態、または態様と組み合わせて使用することができる。本開示は、明瞭さおよび理解のために実例および例としていくつかの詳細が記載されているが、ある特定の変化および改変を添付の特許請求の範囲の範囲内で行うことができることが明らかになろう。

Claims

対象由来の核酸分子の試料中の核酸変異体を検出するための方法であって、
コンピュータシステムにより、前記対象由来の前記核酸分子の試料から生成された複数のペアエンドリードにアクセスするステップと、
前記コンピュータシステムにより、オーバーラップ基準に基づいて前記複数のペアエンドリードの中から複数のペアエンドリードの対を同定するステップと、
前記コンピュータシステムにより、オーバーラッピング基準を満たす前記複数のペアエンドリードの対に基づいて複数のマージされたリードを生成するステップであって、マージされたリードが、ペアエンドリードの対のそれぞれの配列に基づく配列を含む、ステップと、
前記コンピュータシステムにより、前記オーバーラップ基準を満たさない前記複数のペアエンドリードの中から複数のマージされないリードを同定するステップであって、所与のマージされないリードが、前記オーバーラップ基準を満たさないペアエンドリードをメイトペアエンドリードと共に含む、ステップと、
前記コンピュータシステムにより、前記複数のマージされたリードおよび前記複数のマージされないリードを参照ゲノムに対してアラインメントさせて、複数のアラインメントしたリードを生成するステップと、
前記コンピュータシステムにより、前記複数のアラインメントしたリードの中から複数の分割リードを同定するステップであって、所与の分割リードが、参照配列の第１の核酸遺伝子座にアラインメントする第１の部分配列部分および参照配列の第２の核酸遺伝子座にアラインメントする第２の部分配列部分を含み、前記第２の核酸遺伝子座が、前記第１の核酸遺伝子座とは異なる、ステップと、
前記コンピュータシステムにより、所与の分割リードについて、前記第１の核酸遺伝子座および前記第２の核酸遺伝子座に対応するゲノム位置の対を含むブレークポイントを決定するステップと、
前記コンピュータシステムにより、前記複数の分割リードのそれぞれのブレークポイントに基づいて前記複数の分割リードをクラスター化して、複数の変異体クラスターを生成するステップと、
前記コンピュータシステムにより、所定の基準に合致する前記複数の変異体クラスターの任意の１つまたは複数を、検出された変異体を指し示すものとして同定するステップと
を含む、方法。
前記複数のマージされないリードの所与のマージされないリードが、対応するマージされないリードを有し、前記方法が、
所与のマージされないリードおよび対応するマージされないリードについて、人工ヌクレオチド配列を生成するステップをさらに含む、請求項１に記載の方法。
前記人工ヌクレオチド配列を前記マージされないリードの第１の配列および前記対応するマージされないリードの第２の配列および前記対応するマージされないリードの配列に鎖状連結するステップをさらに含む、請求項２に記載の方法。
前記人工ヌクレオチド配列が、前記第１の配列と前記第２の配列との間に位置する、請求項３に記載の方法。
前記人工ヌクレオチド配列が、少なくとも１ヌクレオチド、少なくとも２ヌクレオチド、少なくとも５ヌクレオチド、少なくとも１０ヌクレオチド、少なくとも１５ヌクレオチド、少なくとも２０ヌクレオチド、少なくとも３０ヌクレオチド、少なくとも４０ヌクレオチド、少なくとも５０ヌクレオチド、または少なくとも１００ヌクレオチドの長さである、請求項２に記載の方法。
ブレークポイントの位置が、前記人工ヌクレオチド配列内に位置するように近づけられている、請求項２に記載の方法。
群が、前記人工ヌクレオチド配列内にブレークポイントを有する分割リードおよび前記第１の部分配列部分または前記第２の部分配列部分内にブレークポイントを有する分割リードを含む、請求項６に記載の方法。
前記それぞれのブレークポイントが、５ヌクレオチド以下、１０ヌクレオチド以下または２５ヌクレオチド以下離れている、請求項１に記載の方法。
前記所定の基準が、前記複数の変異体クラスターの任意の１つまたは複数の中に１つよりも多くの分割リードを有することを含む、請求項１に記載の方法。
前記所定の基準が、前記第１の部分配列または前記第２の部分配列内にブレークポイントが１つ存在する前記複数の変異体クラスターの任意の１つまたは複数内に少なくとも１つの分割リードを有することを含む、請求項１または９に記載の方法。
前記試料が、血液、血漿、血清、尿、唾液、粘膜排泄物、痰、便、および涙からなる群より選択される体液試料である、請求項１に記載の方法。
前記対象が疾患を有する、請求項１に記載の方法。
前記疾患ががんである、請求項１２に記載の方法。
前記核酸分子がＤＮＡである、請求項１に記載の方法。
前記ＤＮＡが、無細胞ＤＮＡである、請求項１４に記載の方法。
シーケンシング前に前記無細胞ＤＮＡ分子のコピーを生成するステップをさらに含む、請求項１５に記載の方法。
シーケンシング前に前記核酸分子にバーコードを含む１つまたは複数のアダプターを付着させるステップをさらに含む、請求項１に記載の方法。
前記アダプターを前記核酸分子の両末端にランダムに付着させる、請求項１７に記載の方法。
前記核酸分子に一意的にバーコード付けする、請求項１８に記載の方法。
前記核酸分子に非一意的にバーコード付けする、請求項１８に記載の方法。
各バーコードが、選択された領域からシーケンシングされた分子の多様性との組合せで一意的な分子の同定を可能にする固定されたまたはセミランダムなオリゴヌクレオチド配列を含む、請求項１８に記載の方法。
シーケンシング前に複数の核酸遺伝子座について前記核酸分子を選択的に富化するステップをさらに含む、請求項１に記載の方法。
実験室システムにより、前記対象の前記試料由来のポリヌクレオチドを増幅するステップをさらに含む、請求項１に記載の方法。
前記検出された変異体が挿入、欠失、または核酸再編成を含むことを決定するステップ
をさらに含む、請求項１に記載の方法。
前記検出された変異体に基づいて、予測される病態を決定するステップ
をさらに含む、請求項２４に記載の方法。
対象由来の核酸分子の試料中の核酸変異体を検出するための方法であって、
コンピュータシステムにより、前記対象由来の前記核酸分子の試料から生成された複数のペアエンドリードにアクセスするステップと、
前記コンピュータシステムにより、オーバーラップ基準を満たすペアエンドリードのそれぞれのメイト対に基づいて、複数のマージされたリードを生成するステップと、
前記コンピュータシステムにより、前記複数のペアエンドリードの中から複数のマージされないリードを同定するステップであって、所与のマージされないリードが、オーバーラップ基準を満たさないペアエンドリードをメイトペアエンドリードと共に含む、ステップと、
前記コンピュータシステムにより、前記複数のマージされないリードに基づいて、複数の鎖状連結したマージされないリードを生成するステップと、
前記コンピュータシステムにより、前記複数のマージされたリードおよび前記複数の鎖状連結したマージされないリードを参照ゲノムに対してアラインメントさせて、複数のアラインメントしたリードを生成するステップと、
前記コンピュータシステムにより、前記複数のアラインメントしたリードの中から複数の分割リードを同定するステップであって、前記複数の分割リードの中からの所与の分割リードが、参照配列の第１の核酸遺伝子座にアラインメントする第１の部分配列部分および参照配列の第２の核酸遺伝子座にアラインメントする第２の部分配列部分を含み、前記第２の核酸遺伝子座が前記第１の核酸遺伝子座とは異なる、ステップと、
前記コンピュータシステムにより、前記複数の分割リードに基づいて１つまたは複数の変異体を同定するステップと
を含む、方法。
前記複数のマージされたリードを起源とする前記複数の分割リードの中から複数のマージされた分割リードを同定するステップと、
前記複数のマージされた分割リードに基づいて複数の変異体クラスターを生成するステップと、
前記複数の変異体クラスターのうちの所与の１つについてブレークポイントの対を同定するステップであって、所与のブレークポイントの対が、対応する第１の核酸遺伝子座に対応する第１のブレークポイントおよび対応する第２の核酸遺伝子座に対応する第２のブレークポイントを含む、ステップと
をさらに含み、
前記１つまたは複数の変異体が、同定された前記ブレークポイントの対のうちの対応するものに基づいて同定される、請求項２６に記載の方法。
基準に合致する前記複数の変異体クラスターのうちの１つまたは複数を前記１つまたは複数の変異体として同定するステップ
をさらに含む、請求項２７に記載の方法。
前記複数のマージされないリードを起源とする前記複数の分割リードの中から複数のマージされない分割リードを同定するステップと、
マージされない分割リードが前記第１の核酸遺伝子座および前記第２の核酸遺伝子座にアラインメントすることを決定するステップであって、前記マージされない分割リードの前記第１の核酸遺伝子座および前記第２の核酸遺伝子座に対する前記アラインメントが前記基準として使用される、ステップ
をさらに含む、請求項２８に記載の方法。
前記所定の基準が、前記複数の変異体クラスターのうちの１つまたは複数の中に１つよりも多くの分割リードを有することを含む、請求項２８に記載の方法。
前記所定の基準が、前記第１の部分配列または前記第２の部分配列内にブレークポイントが１つ存在する前記複数の変異体クラスターのうちの１つまたは複数内に少なくとも１つの分割リードを有することを含む、請求項２８に記載の方法。
前記複数の変異体クラスターを生成するステップが、マージされたリードに隣接する前記複数の鎖状連結したマージされないリードの１つまたは複数にさらに基づく、請求項２７に記載の方法。
前記複数のマージされないリードを起源とする前記複数の分割リードの中から複数のマージされない分割リードを同定するステップと、
前記複数のマージされない分割リードに基づいて複数の変異体クラスターを生成するステップと、
前記複数の変異体クラスターのうちの所与の１つについてブレークポイントの対を同定するステップであって、所与のブレークポイントの対が、対応する第１の核酸遺伝子座に対応する第１のブレークポイントおよび対応する第２の核酸遺伝子座に対応する第２のブレークポイントを含む、ステップと
をさらに含み、
前記１つまたは複数の変異体が、同定された前記ブレークポイントの対のうちの対応するものに基づいて同定される、請求項２６に記載の方法。
前記複数の分割リードに基づいて複数の変異体クラスターを生成するステップと、
前記複数の変異体クラスターのうちの所与の１つについてブレークポイントの対を同定するステップであって、所与のブレークポイントの対が、対応する第１の核酸遺伝子座に対応する第１のブレークポイントおよび対応する第２の核酸遺伝子座に対応する第２のブレークポイントを含む、ステップと
をさらに含み、
前記１つまたは複数の変異体が、同定された前記ブレークポイントの対のうちの対応するものに基づいて同定される、請求項２６に記載の方法。
前記１つまたは複数の変異体が挿入、欠失、または核酸再編成を含むことを決定するステップ
をさらに含む、請求項２６に記載の方法。
検出された前記１つまたは複数の変異体に基づいて、予測される病態を決定するステップ
をさらに含む、請求項３５に記載の方法。
対象由来の核酸分子の試料中の核酸変異体を検出するためのシステムであって、
前記対象由来の前記核酸分子の試料から生成された複数のペアエンドリードにアクセスする；
オーバーラップ基準に基づいて前記複数のペアエンドリードの中から複数のペアエンドリードの対を同定する；
オーバーラップしている前記複数のペアエンドリードの対に基づいて複数のマージされたリードを生成し、ここで、マージされたリードは、オーバーラップしているペアエンドリードの対のそれぞれの配列に基づく配列を含む；
前記複数のペアエンドリードの中から複数のマージされないリードを同定し、ここで、所与のマージされないリードはオーバーラップ基準を満たさないペアエンドリードをメイトペアエンドリードと共に含む；
前記複数のマージされたリードおよび前記複数のマージされないリードを参照ゲノムに対してアラインメントさせて、複数のアラインメントしたリードを生成する；
前記複数のアラインメントしたリードの中から複数の分割リードを同定し、ここで、所与の分割リードは、参照配列の第１の核酸遺伝子座にアラインメントする第１の部分配列部分および参照配列の第２の核酸遺伝子座にアラインメントする第２の部分配列部分を含み、前記第２の核酸遺伝子座は、前記第１の核酸遺伝子座とは異なる；
所与の分割リードについて、前記第１の核酸遺伝子座および前記第２の核酸遺伝子座に対応するゲノム位置の対を含むブレークポイントを決定する；
前記複数の分割リードのそれぞれのブレークポイントに基づいて前記複数の分割リードをクラスター化して、複数の変異体クラスターを生成する；かつ
所定の基準に合致する前記複数の変異体クラスターの任意の１つまたは複数を、検出された変異体として同定する
ようにプログラミングされたプロセッサーを含むコンピュータシステム
を含む、システム。
前記複数のマージされないリードの所与のマージされないリードが、対応するマージされないリードを有し、前記プロセッサーが、所与のマージされないリードおよび対応するマージされないリードについて、人工ヌクレオチド配列を生成するようにさらにプログラミングされている、請求項３７に記載のシステム。
前記プロセッサーが、
前記人工ヌクレオチド配列を前記マージされないリードの第１の配列および前記対応するマージされないリードの第２の配列および前記対応するマージされないリードの配列に鎖状連結する
ようにさらにプログラミングされている、請求項３８に記載のシステム。
ブレークポイントの位置が、前記人工ヌクレオチド配列内に位置するように近づけられている、請求項３８に記載のシステム。
群が、前記人工ヌクレオチド配列内にブレークポイントを有する分割リードおよび前記第１の部分配列部分または前記第２の部分配列部分内にブレークポイントを有する分割リードを含む、請求項４０に記載のシステム。
前記対象の前記試料由来のポリヌクレオチドを増幅するための実験室システムをさらに含む、請求項３７に記載のシステム。
前記プロセッサーが、
前記検出された変異体が挿入、欠失、または核酸再編成を含むことを決定する
ようにさらにプログラミングされている、請求項３７に記載のシステム。
前記プロセッサーが、
前記検出された変異体に基づいて、予測される病態を決定する
ようにさらにプログラミングされている、請求項４３に記載のシステム。
対象由来の核酸分子の試料中の核酸変異体を検出するためのシステムであって、
前記対象由来の前記核酸分子の試料から生成された複数のペアエンドリードにアクセスする；
オーバーラップ基準を満たすペアエンドリードのそれぞれのメイト対に基づいて、複数のマージされたリードを生成する；
前記複数のペアエンドリードの中から複数のマージされないリードを同定し、ここで、所与のマージされないリードは、オーバーラップ基準を満たさないペアエンドリードを対応するメイトペアエンドリードと共に含む；
前記複数のマージされないリードに基づいて複数の鎖状連結したマージされないリードを生成する；
前記複数のマージされたリードおよび前記複数の鎖状連結したマージされないリードを参照ゲノムに対してアラインメントさせて、複数のアラインメントしたリードを生成する；
前記複数のアラインメントしたリードの中から複数の分割リードを同定し、ここで、前記複数の分割リードの中からの所与の分割リードは、参照配列の第１の核酸遺伝子座にアラインメントする第１の部分配列部分および参照配列の第２の核酸遺伝子座にアラインメントする第２の部分配列部分を含み、前記第２の核酸遺伝子座が前記第１の核酸遺伝子座とは異なる；かつ
前記複数の分割リードに基づいて１つまたは複数の変異体を同定する
ようにプログラミングされたプロセッサーを含むコンピュータシステム
を含む、システム。
前記対象の前記試料由来のポリヌクレオチドを増幅するための実験室システムをさらに含む、請求項４５に記載のシステム。
前記プロセッサーが、
前記１つまたは複数の変異体が挿入、欠失、または核酸再編成を含むことを決定する
ようにさらにプログラミングされている、請求項４５に記載のシステム。
前記プロセッサーが、
前記１つまたは複数の変異体に基づいて、予測される病態を決定する
ようにさらにプログラミングされている、請求項４７に記載のシステム。
前記試料中の前記変異体の存在または非存在に関する情報、および／または前記試料中の前記変異体の存在または非存在から導き出された情報を必要に応じて含む報告書を作成することをさらに含む、先行する請求項のいずれか一項に記載の方法またはシステム。
前記報告書を前記試料が由来する前記対象または健康管理実施者などの第三者に伝達することをさらに含む、請求項４９に記載の方法またはシステム。