JP2023139307A

JP2023139307A - 挿入および欠失を検出するための方法およびシステム

Info

Publication number: JP2023139307A
Application number: JP2023127052A
Authority: JP
Inventors: シコラマーシン; Sikora Marcin; アール．モクタリモハンマド; R Mokhtari Mohammad; チュドヴァダーリヤ; Chudova Darya
Original assignee: Guardant Health Inc
Current assignee: Guardant Health Inc
Priority date: 2017-05-19
Filing date: 2023-08-03
Publication date: 2023-10-03
Also published as: WO2018213814A1; US20190371432A1; EP3625713A1; US20240006022A1; CN110622250A; JP2020521216A; US20230335219A1

Abstract

【課題】挿入および欠失を検出するための方法およびシステムの提供。【解決手段】核酸シーケンシング装置からのシーケンスリードの中から同じ分子バーコードおよびシーケンスを有する遺伝子シーケンスリードを識別し、遺伝子リードをファミリーにグルーピングし、分割リードを含むファミリーを処理し、ポリヌクレオチド分子のサンプル中の挿入および／または欠失を検出することによって、挿入および／または欠失のコールを改良するための方法およびシステム。本発明の方法およびシステムは、疾患と相関され得る挿入、欠失、置換、再編成、およびコピー数多型等の遺伝子バリアントを検出し得る。【選択図】なし

Description

相互参照
本出願は、２０１７年５月１９日に出願された米国仮出願番号第６２／５０９，００３号；２０１７年５月２２日に出願された同第６２／５０９，６９９号；および２０１７年５月２５日に出願された同第６２／５１１，１８６号の利益を主張しており、これら仮出願の各々は、それらの全体が参考として本明細書中に援用される。

背景
挿入、欠失、置換、再編成、およびコピー数多型等の遺伝子バリアントは、疾患と相関され得る。次世代シーケンシング技術または高スループットシーケンシングが、遺伝子バリアントを検出するために採用されることができる。遺伝子バリアントを正確に識別することは、疾患と関連付けられた遺伝子バリアントを識別する際に次世代シーケンシング技術を使用するために重要である。

挿入および欠失等の遺伝子バリアントは、一塩基多型に続く、ヒトゲノムにおける遺伝子バリアントの２番目に最も頻繁に認められるクラスを代表する。挿入および／または欠失もまた、疾患の病因、遺伝子発現、および機能性に寄与する。

要旨
ある側面では、本開示は、システムであって、（ａ）通信ネットワークを経由して、核酸シーケンシング装置によって生成されたシーケンスリードを受信する、通信インターフェースと、（ｂ）通信インターフェースと通信する、コンピュータであって、１つまたはそれを上回るコンピュータプロセッサと、１つまたはそれを上回るコンピュータプロセッサによる実行に応じて、ｉ．通信ネットワークを経由して、核酸シーケンシング装置によって生成された遺伝子シーケンスリードを受信するステップと、ｉｉ．遺伝子シーケンスリードを処理し、処理されたシーケンスリードを生成するステップと、ｉｉｉ．遺伝子シーケンスリードを参照シーケンスにマッピングするステップと、ｉｖ．処理されたシーケンスリードをファミリーにグルーピングするステップであって、各ファミリーは、サンプル中の同一ポリヌクレオチド分子から生じる一意のシーケンスリードを含む、ステップと、ｖ．ファミリーの少なくとも一部を融合クラスタにグルーピングするステップであって、各融合クラスタは、分割リードを含み、各分割リードは、第１の遺伝子座にマッピングされる第１の切断点に隣接する第１のサブシーケンスと、第２の別個の遺伝子座にマッピングされる第２の切断点に隣接する第２のサブシーケンスとを含み、第１の切断点および第２の切断点は、切断点ペアを形成する、ステップと、ｖｉ．融合クラスタを挿入および／または欠失を含むとしてコールするステップであって、切断点ペアは、同一染色体にマッピングされ、切断点ペア内の第１の切断点と第２の切断点との間の距離は、参照シーケンス上の所定の最大距離未満であって、サブシーケンスは、同一５´－３´配向にある、ステップとを含む、方法を実装する、機械実行可能コードを含む、コンピュータ可読媒体とを含む、コンピュータとを含む、システムを提供する。いくつかの実施形態では、本システムはさらに、融合クラスタを、（ｖｉ）における前述の基準のうちの少なくとも１つが満たされない、融合を有するとしてコールするステップを含む。いくつかの実施形態では、本システムはさらに、挿入、欠失、および／または融合を含む、ポリヌクレオチド分子のインジケーションを提供する、電子報告を生成するステップを含む。

いくつかの実施形態では、参照シーケンス上に同一の開始－停止位置を伴う、処理されたシーケンスリードは、ファミリーにグルーピングされる。いくつかの実施形態では、遺伝子シーケンスリードは、対合端シーケンスリードを含む。いくつかの実施形態では、重複領域を伴う、対合端シーケンスは、マージされ、マージされたリードを含む、処理されたリードを生成する。いくつかの実施形態では、少なくとも７０％の同一性を有する重複領域を伴う、対合端リードは、マージされる。いくつかの実施形態では、少なくとも８０％の同一性を有する重複領域を伴う、対合端リードは、マージされる。いくつかの実施形態では、少なくとも９０％の同一性を有する重複領域を伴う、対合端リードは、マージされる。いくつかの実施形態では、少なくとも１３個の塩基の重複を伴う、対合端リードは、マージされる。いくつかの実施形態では、少なくとも１５個の塩基の重複を伴う、対合端リードは、マージされる。いくつかの実施形態では、少なくとも１７個の塩基の重複を伴う、対合端リードは、マージされる。いくつかの実施形態では、少なくとも１９個の塩基の重複を伴う、対合端リードは、マージされる。

いくつかの実施形態では、重複領域を伴う、対合端シーケンスは、マージされ、マージされたリードを形成し、マージされたシーケンスリードは、さらに処理され、代表のマージされた一意のリードを含む、処理されたリードを生成する。いくつかの実施形態では、ファミリーの少なくとも一部は、複数の分割リードを含む。いくつかの実施形態では、本システムはさらに、複数の分割リードを含むファミリー毎に、コンセンサスシーケンスを生成するステップを含む。いくつかの実施形態では、分割リードは、各ファミリーから生成されたコンセンサスシーケンスである。

いくつかの実施形態では、融合クラスタ内の分割リードの第１の切断点間の距離は、相互からヌクレオチド１０個未満であって、融合クラスタ内の分割リードの第２の切断点間の距離は、相互からヌクレオチド１０個未満である。いくつかの実施形態では、分割リードは、ファミリーのコンセンサスシーケンスである。

いくつかの実施形態では、所定の最大距離は、ヌクレオチド５，０００個未満である。いくつかの実施形態では、所定の最大距離は、３，５００個未満である。

いくつかの実施形態では、ファミリーはさらに、（ａ）同一の開始位置および同一短縮停止シーケンスを有するか、または（ｂ）同一停止位置および同一短縮開始シーケンスを有する、処理されたリードを含む。

いくつかの実施形態では、短縮開始／停止シーケンスは、一意のシーケンスリードの全体を短縮し、ホモポリマー中の重複ヌクレオチドを除去することによって生成される。いくつかの実施形態では、ホモポリマーは、ポリ（ｄＡ）またはポリ（ｄＴ）を含む。いくつかの実施形態では、ホモポリマーは、ポリ（ｄＧ）またはポリ（ｄＣ）を含む。

いくつかの実施形態では、サンプルは、無細胞ＤＮＡを含む。いくつかの実施形態では、参照シーケンスは、ヒト参照シーケンスである。いくつかの実施形態では、核酸シーケンシング装置は、次世代シーケンシング装置である。いくつかの実施形態では、対合端シーケンスリードは、品質スコアを生成するために、品質に関して査定される。

いくつかの実施形態では、コンピュータ可読媒体は、メモリ、ハードドライブ、またはコンピュータサーバを含む。いくつかの実施形態では、通信ネットワークは、電気通信ネットワーク、インターネット、エクストラネット、またはイントラネットを含む。いくつかの実施形態では、通信ネットワークは、分散型コンピューティングに対応可能な１つまたはそれを上回るコンピュータサーバを含む。いくつかの実施形態では、分散型コンピューティングは、クラウドコンピューティングである。

いくつかの実施形態では、通信ネットワークは、遺伝子シーケンスリードを含む、記憶デバイスを含む。

いくつかの実施形態では、コンピュータは、核酸シーケンシング装置から遠隔に位置する、コンピュータサーバ上に位置する。

いくつかの実施形態では、本システムはさらに、ネットワークを経由してコンピュータと通信する電子ディスプレイを含み、電子ディスプレイは、（ｉ）－（ｖｉ）を実装することに応じた結果を表示するためのユーザインターフェース（ｉ）－（ｖｉ）を実装することに応じた結果を表示するためのユーザインターフェースを含む。いくつかの実施形態では、ユーザインターフェースは、グラフィカルユーザインターフェース（ＧＵＩ）またはウェブベースのユーザインターフェースである。いくつかの実施形態では、電子ディスプレイは、パーソナルコンピュータ内にある。いくつかの実施形態では、電子ディスプレイは、インターネット対応コンピュータ内にある。いくつかの実施形態では、インターネット対応コンピュータは、コンピュータから遠隔場所に位置する。

別の側面では、本開示は、遺伝子シーケンスリード内の挿入および／または欠失を検出するためのコンピュータ実装方法であって、（ａ）コンピュータプロセッサを用いて、核酸シーケンシング装置から生成されたポリヌクレオチド分子の遺伝子シーケンスリードを受信するステップと、（ｂ）コンピュータプロセッサを用いて、遺伝子シーケンスリードを処理するステップであって、処理されたシーケンスリードを生成するステップと、（ｃ）コンピュータプロセッサを用いて、処理されたシーケンスリードを参照シーケンスにマッピングするステップと、（ｄ）コンピュータプロセッサによって、処理されたシーケンスリードをファミリーにグルーピングするステップであって、各ファミリーは、サンプル中の同一ポリヌクレオチド分子から生じる一意のシーケンスリードを含む、ステップと、（ｅ）コンピュータプロセッサによって、ファミリーの少なくとも一部を融合クラスタにグルーピングするステップであって、各融合クラスタは、分割リードを含み、各分割リードは、第１の遺伝子座にマッピングされる第１の切断点に隣接する第１のサブシーケンスと、第２の別個の遺伝子座にマッピングされる第２の切断点に隣接する第２のサブシーケンスとを含み、第１の切断点および第２の切断点は、切断点ペアを形成する、ステップと、（ｆ）コンピュータプロセッサによって、融合クラスタを挿入および／または欠失を含むとしてコールするステップであって、ｉ．切断点ペアは、参照シーケンスの同一染色体上に位置し、ｉｉ．切断点ペア内の第１の切断点と第２の切断点との間の距離は、参照シーケンス上の所定の最大距離未満であって、ｉｉｉ．サブシーケンスは、同一５´－３´配向にある、ステップとを含む、方法を提供する。いくつかの実施形態では、本方法はさらに、（ｇ）コンピュータプロセッサによって、融合クラスタを、（ｆ）内の基準のうちの少なくとも１つが満たされない、融合を含むとしてコールするステップを含む。

いくつかの実施形態では、本明細書に開示されるシステムおよび方法は、第１および第２のサブシーケンスが、参照シーケンスと比較して、正常ゲノム順序にある場合、融合クラスタを欠失としてコールするステップを含む。他の実施形態では、本明細書に開示されるシステムおよび方法は、第１および第２のサブシーケンスが、参照シーケンスと比較して、逆ゲノム順序にある場合、融合クラスタを挿入としてコールするステップを含む。

いくつかの実施形態では、遺伝子シーケンスリードは、対合端シーケンスリードのセットを含む。いくつかの実施形態では、処理するステップは、ｉ．対合端シーケンスリードをマージし、マージされたリードを形成することを含む。いくつかの実施形態では、処理するステップはさらに、ｉｉ．同じバーコードおよび同一の内部シーケンスを有するマージされたリードの集合を一意のセットにグルーピングすることと、ｉｉｉ．一意のセット毎に、処理されたシーケンスリードを生成することとを含む。いくつかの実施形態では、重複領域を伴う、対合端シーケンスリードは、マージされ、マージされたシーケンスリードを形成する。いくつかの実施形態では、少なくとも６０％の同一性を有する重複領域を伴う、対合端シーケンスリードは、マージされる。いくつかの実施形態では、少なくとも７０％の同一性を有する重複領域を伴う、対合端リードは、マージされる。いくつかの実施形態では、少なくとも８０％の同一性を有する重複領域を伴う、対合端リードは、マージされる。いくつかの実施形態では、少なくとも９０％の同一性を有する重複領域を伴う、対合端リードは、マージされる。いくつかの実施形態では、少なくとも１３個の塩基の重複を伴う、対合端リードは、マージされる。いくつかの実施形態では、少なくとも１５個の塩基の重複を伴う、対合端リードは、マージされる。いくつかの実施形態では、少なくとも１７個の塩基の重複を伴う、対合端リードは、マージされる。いくつかの実施形態では、少なくとも１９個の塩基の重複を伴う、対合端リードは、マージされる。

いくつかの実施形態では、融合クラスタ内の分割リードの第１の切断点間の距離は、相互からヌクレオチド１０個未満であって、融合クラスタ内の分割リードの第２の切断点間の距離は、相互からヌクレオチド１０個未満である。いくつかの実施形態では、所定の最大距離は、ヌクレオチド５，０００個未満である。いくつかの実施形態では、所定の最大距離は、ヌクレオチド３，０００個未満である。

いくつかの実施形態では、処理されたシーケンスリードは、同一対の分子バーコードを有することに基づいて、ファミリーにグルーピングされる。いくつかの実施形態では、処理されたシーケンスリードは、参照シーケンス上の同一場所へのマッピングに基づいて、ファミリーにグルーピングされる。

いくつかの実施形態では、ファミリー内の処理されたシーケンスリードは、（ａ）同一の開始位置および同一短縮停止シーケンスを有するか、または（ｂ）同一停止位置および同一短縮開始シーケンスを有する、シーケンスリードを含む。いくつかの実施形態では、短縮開始または停止シーケンスは、処理されたシーケンスリードの一部を短縮し、ホモポリマー中の重複ヌクレオチドを除去することによって生成される。いくつかの実施形態では、ホモポリマーは、ポリ（ｄＡ）またはポリ（ｄＴ）を含む。いくつかの実施形態では、ホモポリマーは、ポリ（ｄＧ）またはポリ（ｄＣ）を含む。

いくつかの実施形態では、ファミリーは、相互から所定の切断点距離内の切断点を有する、分割リードに基づいて、融合クラスタにグルーピングされる。いくつかの実施形態では、所定の切断点距離は、ヌクレオチド２５個未満である。いくつかの実施形態では、所定の切断点距離は、ヌクレオチド１０個未満である。

いくつかの実施形態では、分割リードは、分割リードを含むファミリー毎に生成されたコンセンサスシーケンスである。いくつかの実施形態では、コンセンサスシーケンスは、相互から所定の切断点距離内の切断点を有する、分割リードに基づいて、融合クラスタにグルーピングされる。いくつかの実施形態では、所定の切断点距離は、ヌクレオチド２５個未満である。いくつかの実施形態では、所定の切断点距離は、ヌクレオチド１０個未満である。

いくつかの実施形態では、参照シーケンスは、ヒト参照シーケンスである。いくつかの実施形態では、核酸シーケンシング装置は、次世代シーケンシング装置である。

いくつかの実施形態では、サンプルは、対象から取得された体液である。いくつかの実施形態では、体液は、血液、血漿、血清、尿、唾液、粘膜分泌液、喀痰、糞便、および涙液から成る群から選択される。いくつかの実施形態では、対象は、癌を有する。いくつかの実施形態では、サンプルは、無細胞ＤＮＡ分子を含む。

いくつかの実施形態では、本方法はさらに、挿入および／または欠失ならびに／もしくは融合を有する、ポリヌクレオチド分子のインジケーションを提供する、電子フォーマットを生成するステップを含む。本方法はさらに、挿入および／または欠失ならびに／もしくは融合を有する、ポリヌクレオチド分子のインジケーションを提供する、電子フォーマットを生成するステップを含む。

別の側面では、本開示は、方法であって、（ａ）ポリヌクレオチド分子の遺伝子シーケンスリードを参照シーケンスにマッピングするステップと、（ｂ）分割リードを含む、遺伝子シーケンスリードを識別するステップであって、各分割リードは、第１の遺伝子座にマッピングされる第１の切断点に隣接する第１のサブシーケンスと、第２の別個の遺伝子座にマッピングされる第２の切断点に隣接する第２のサブシーケンスとを含み、第１の切断点および第２の切断点は、切断点ペアを形成する、ステップと、（ｂ）分割リードをファミリーにグルーピングするステップであって、各ファミリーは、サンプル中の同一ポリヌクレオチド分子から生じるシーケンスリードを含む、ステップと、（ｄ）ファミリー毎に、コンセンサス分割リードシーケンスを生成するステップと、（ｅ）ファミリー毎のコンセンサス分割リードシーケンスを融合クラスタにグルーピングするステップであって、融合クラスタ内のコンセンサスシーケンスは、類似切断点ペアを有する、ステップと、（ｆ）融合クラスタを挿入および／または欠失を含むとしてコールするステップであって、ｉ．切断点ペアは、参照シーケンスの同一染色体上に位置し、ｉｉ．切断点ペア内の第１の切断点と第２の切断点との間の距離は、参照シーケンス上の所定の最大距離未満であって、ｉｉｉ．サブシーケンスは、同一５´－３´配向にある、ステップとを含む、方法を提供する。いくつかの実施形態では、本方法はさらに、（ｇ）融合クラスタを、（ｆ）内の基準のうちの少なくとも１つが満たされない、融合を含むとしてコールするステップを含む。

いくつかの実施形態では、各融合クラスタ内のコンセンサスシーケンスは、相互間の第１の所定の切断点距離内にある、第１の切断点と、相互間の第２の所定の切断点距離内にある、第２の切断点とを有する、分割リードを含む。いくつかの実施形態では、第１の所定の切断点距離は、ヌクレオチド２５個未満である。いくつかの実施形態では、所定の距離は、ヌクレオチド１０個未満である。いくつかの実施形態では、第２の所定の切断点距離は、ヌクレオチド２５個未満である。いくつかの実施形態では、第２の所定の距離は、ヌクレオチド１０個未満である。

別の側面では、本開示は、方法であって、（ａ）ポリヌクレオチド分子の遺伝子シーケンスリードを参照シーケンスにマッピングするステップと、（ｂ）遺伝子シーケンスリードをファミリーにグルーピングするステップであって、各ファミリーは、サンプル中の同一ポリヌクレオチド分子から生じる一意のシーケンスリードを含む、ステップと、（ｃ）ファミリーの一意のシーケンスリードを融合クラスタにグルーピングするステップであって、各融合クラスタは、分割リードを含み、各分割リードは、サブシーケンス、すなわち、第１の遺伝子座にマッピングされる第１の切断点に隣接する第１のサブシーケンスと、第２の別個の遺伝子座にマッピングされる第２の切断点に隣接する第２のサブシーケンスとによって特徴付けられ、第１の切断点および第２の切断点は、切断点ペアを形成する、ステップと、（ｄ）融合クラスタの一意のシーケンスリードを挿入および／または欠失を含むとしてコールするステップであって、ｉ．切断点ペアは、同一染色体にマッピングされ、ｉｉ．切断点ペア内の第１の切断点と第２の切断点との間の距離は、参照シーケンス上の所定の最大距離未満であって、ｉｉｉ．サブシーケンスは、同一５´－３´配向にある、ステップとを含む、方法を提供する。いくつかの実施形態では、本方法はさらに、（ｅ）融合クラスタの一意のシーケンスリードを、（ｄ）内の基準のうちの少なくとも１つが満たされない、融合を含むとしてコールするステップを含む。いくつかの実施形態では、本方法はさらに、挿入および／または欠失ならびに／もしくは融合を有する、ポリヌクレオチド分子のインジケーションを提供する、電子フォーマットを生成するステップを含む。本方法はさらに、挿入および／または欠失ならびに／もしくは融合を有する、ポリヌクレオチド分子のインジケーションを提供する、電子フォーマットを生成するステップを含む。

別の側面では、本開示は、挿入および／または欠失ならびに／もしくは融合を検出するためのコンピュータ実装方法であって、（ａ）コンピュータプロセッサを用いて、核酸シーケンシング装置から収集される対合端シーケンスリードをアライメントおよびマージするステップであって、対合端シーケンスリードのセットから代表のマージされた一意のリードを生成するステップであって、各代表のマージされた一意のリードは、対合端シーケンスリードのマージ後、同一分子バーコードおよびシーケンスを有する、対合端シーケンスリードを代表する、ステップと、（ｂ）プロセッサを用いて、代表のマージされた一意のリードを参照シーケンスにマッピングするステップと、（ｃ）プロセッサを用いて、代表のマージされた一意のリードをファミリーにグルーピングするステップであって、各ファミリーは、同一のオリジナルのタグ付けされたポリヌクレオチド分子から生じる代表のマージされた一意のリードを含み、各ファミリーは、コンセンサスシーケンスによって代表される、ステップと、（ｄ）プロセッサを用いて、ファミリーのコンセンサスシーケンスを融合クラスタにグルーピングするステップであって、各融合クラスタは、分割リードのファミリーからのコンセンサスシーケンスを含み、各分割リードは、サブシーケンス、すなわち、第１の遺伝子座にマッピングされる第１の切断点に隣接する第１のサブシーケンスと、第２の別個の遺伝子座にマッピングされる第２の切断点に隣接する第２のサブシーケンスとによって特徴付けられ、第１の切断点および第２の切断点は、切断点ペアを形成し、融合クラスタ内のコンセンサスシーケンスは、類似切断点ペアを含む、ステップと、（ｅ）プロセッサを用いて、融合クラスタを挿入および／または欠失を有するとしてコールするステップであって、（ｉ）切断点ペアは、同一染色体にマッピングされ、（ｉｉ）切断点ペア間の距離は、所定の最大距離未満であって、（ｉｉｉ）サブシーケンスは、同一５´－３´配向にある、ステップとを含む、方法を提供する。いくつかの実施形態では、本方法はさらに、プロセッサによって、以下の基準、すなわち、ｉ．切断点ペアは、同一染色体にマッピングされ、ｉｉ．切断点ペア間の距離は、所定の最大距離未満であって、ｉｉｉ．サブシーケンスは、同一５´－３´配向にあることのうちの少なくとも１つが満たされない、融合を有する、融合クラスタをコールするステップを含む。

いくつかの実施形態では、コンピュータ実装方法はさらに、プロセッサを用いて、対合端シーケンスリードのシーケンシング品質を計算し、対合端シーケンスリードに関する品質スコアを提供するステップを含む。

別の側面では、本開示は、癌を患う患者を処置するための方法であって、（ａ）患者内の融合クラスタの存在または量に関するデータを受信するステップであって、データは、前述の方法のいずれかを使用して取得される、ステップと、（ｂ）融合クラスタの存在または量に基づいて、患者に異なる処置計画を受けさせるステップとを含む、方法を提供する。

いくつかの実施形態では、融合クラスタまたはより大量の融合クラスタの存在を伴う患者は、融合クラスタを伴わないまたはより小量の融合クラスタを伴う患者より厳しい療法計画を受ける。いくつかの実施形態では、より厳しい計画は、あまり厳しくない計画における処置薬の用量より高い用量の処置薬によって特徴付けられる。

いくつかの実施形態では、融合クラスタは、ＭＥＴエクソン１４スキッピング欠失としてコールされる。いくつかの実施形態では、処置薬は、ＭＥＴ阻害剤である。いくつかの実施形態では、ＭＥＴ阻害剤は、クリゾチニブ、カボザンチニブ、カプマチニブ、テポチニブ、およびグレサチニブから成る群から選択される。いくつかの実施形態では、処置計画は、化学、放射線、または免疫療法を含む。

いくつかの実施形態では、データは、癌のための処置を受ける患者における融合クラスタの存在を示し、処置は、そのような患者において継続される。

全ての本明細書に説明される方法は、コンピュータ実装方法であることができる。

全ての本明細書に説明される方法はさらに、挿入および／または欠失ならびに／もしくは融合を有する、ポリヌクレオチド分子のインジケーションを提供する、報告を電子フォーマットで生成するステップを含むことができる。

本開示の付加的側面および利点は、本開示の例証的実施形態のみが示され、説明される、以下の発明を実施するための形態から、当業者に容易に明白となるであろう。認識されるであろうように、本開示は、他の異なる実施形態が可能であり、そのいくつかの詳細は、全て本開示から逸脱することなく、種々の明白な点で修正が可能である。故に、図面および説明は、制限的ではなくて本質的に例証的と見なされるものである。
本発明は、例えば、以下を提供する。
（項目１）
システムであって、
（ａ）通信ネットワークを経由して、核酸シーケンシング装置によって生成された遺伝子シーケンスリードを受信する、通信インターフェースと、
（ｂ）前記通信インターフェースと通信する、コンピュータであって、１つまたはそれを上回るコンピュータプロセッサと、前記１つまたはそれを上回るコンピュータプロセッサによる実行に応じて、
ｉ．前記通信ネットワークを経由して、前記核酸シーケンシング装置によって生成された前記遺伝子シーケンスリードを受信するステップと、
ｉｉ．前記遺伝子シーケンスリードを処理するステップであって、処理されたシーケンスリードを生成するステップと、
ｉｉｉ．前記処理されたシーケンスリードを参照シーケンスにマッピングするステップと、
ｉｖ．前記処理されたシーケンスリードをファミリーにグルーピングするステップであって、各ファミリーは、サンプル中の同一ポリヌクレオチド分子から生じる一意のシーケンスリードを含む、ステップと、
ｖ．前記ファミリーの少なくとも一部を融合クラスタにグルーピングするステップであって、各融合クラスタは、分割リードを含み、各分割リードは、第１の遺伝子座にマッピングされる第１の切断点に隣接する第１のサブシーケンスと、第２の別個の遺伝子座にマッピングされる第２の切断点に隣接する第２のサブシーケンスとを含み、前記第１の切断点および前記第２の切断点は、切断点ペアを形成する、ステップと、
ｖｉ．融合クラスタを挿入および／または欠失を含むとしてコールするステップであって、切断点ペアは、同一染色体にマッピングされ、前記切断点ペア内の前記第１の切断点と前記第２の切断点との間の距離は、前記参照シーケンス上の所定の最大距離未満であって、サブシーケンスは、同一５´－３´配向にある、ステップと、
を含む、方法を実装する、機械実行可能コードを含む、コンピュータ可読媒体とを含む、コンピュータと、
を含む、システム。
（項目２）
融合クラスタを、（ｖｉ）における前述の基準のうちの少なくとも１つが満たされない、融合を有するとしてコールするステップをさらに含む、項目１に記載のシステム。
（項目３）
前記挿入、欠失、および／または融合を含む、前記ポリヌクレオチド分子のインジケーションを提供する、電子報告を生成するステップをさらに含む、項目１または２に記載のシステム。
（項目４）
前記参照シーケンス上に同一の開始－停止位置を有する前記処理されたシーケンスリードは、ファミリーにグルーピングされる、項目１に記載のシステム。
（項目５）
前記遺伝子シーケンスリードは、対合端シーケンスリードを含む、項目１に記載のシステム。
（項目６）
重複領域を伴う、前記対合端シーケンスリードは、マージされ、マージされたリードを含む、処理されたリードを生成する、項目５に記載のシステム。
（項目７）
少なくとも７０％の同一性を有する重複領域を伴う、前記対合端シーケンスリードは、マージされる、項目６に記載のシステム。
（項目８）
少なくとも８０％の同一性を有する重複領域を伴う、前記対合端シーケンスリードは、マージされる、項目６に記載のシステム。
（項目９）
少なくとも９０％の同一性を有する重複領域を伴う、前記対合端シーケンスリードは、マージされる、項目６に記載のシステム。
（項目１０）
少なくとも１３個の塩基の重複を伴う、前記対合端シーケンスリードは、マージされる、項目６に記載のシステム。
（項目１１）
少なくとも１５個の塩基の重複を伴う、前記対合端シーケンスリードは、マージされる、項目６に記載のシステム。
（項目１２）
少なくとも１７個の塩基の重複を伴う、前記対合端シーケンスリードは、マージされる、項目６に記載のシステム。
（項目１３）
少なくとも１９個の塩基の重複を伴う、前記対合端シーケンスリードは、マージされる、項目６に記載のシステム。
（項目１４）
重複領域を伴う、前記対合端シーケンスリードは、マージされ、マージされたリードを形成し、前記マージされたシーケンスリードは、さらに処理され、代表のマージされた一意のリードを含む、処理されたリードを生成する、項目５に記載のシステム。
（項目１５）
前記ファミリーの少なくとも一部は、複数の分割リードを含む、項目１に記載のシステム。
（項目１６）
前記複数の分割リードを含むファミリー毎に、コンセンサスシーケンスを生成するステップをさらに含む、項目１５に記載のシステム。
（項目１７）
前記分割リードは、各ファミリーから生成されたコンセンサスシーケンスである、項目１に記載のシステム。
（項目１８）
前記融合クラスタ内の分割リードの第１の切断点間の距離は、相互からヌクレオチド１０個を上回り、前記融合クラスタ内の分割リードの第２の切断点間の距離は、相互からヌクレオチド１０個未満である、項目１に記載のシステム。
（項目１９）
前記分割リードは、ファミリーのコンセンサスシーケンスである、項目１に記載のシステム。
（項目２０）
前記所定の最大距離は、ヌクレオチド５，０００個未満である、項目１に記載のシステム。
（項目２１）
前記所定の最大距離は、３，５００個未満である、項目１に記載のシステム。
（項目２２）
前記ファミリーはさらに、
（ａ）同一の開始位置および同一短縮停止シーケンスを有するか、または
（ｂ）同一停止位置および同一短縮開始シーケンスを有する、
処理されたリードを含む、項目１に記載のシステム。
（項目２３）
前記短縮開始／停止シーケンスは、一意のシーケンスリードの全体を短縮し、ホモポリマー中の重複ヌクレオチドを除去することによって生成される、項目２２に記載のシステム。
（項目２４）
前記ホモポリマーは、ポリ（ｄＡ）またはポリ（ｄＴ）を含む、項目２３に記載のシステム。
（項目２５）
前記ホモポリマーは、ポリ（ｄＧ）またはポリ（ｄＣ）を含む、項目２３に記載のシステム。
（項目２６）
前記サンプルは、無細胞ＤＮＡを含む、項目１に記載のシステム。
（項目２７）
前記参照シーケンスは、ヒト参照シーケンスである、項目１に記載のシステム。
（項目２８）
前記核酸シーケンシング装置は、次世代シーケンシング装置である、項目１に記載のシステム。
（項目２９）
前記対合端シーケンスリードは、品質スコアを生成するために、品質に関して査定される、項目５に記載のシステム。
（項目３０）
前記コンピュータ可読媒体は、メモリ、ハードドライブ、またはコンピュータサーバを含む、項目１に記載のシステム。
（項目３１）
前記通信ネットワークは、電気通信ネットワーク、インターネット、エクストラネット、またはイントラネットを含む、項目１に記載のシステム。
（項目３２）
前記通信ネットワークは、分散型コンピューティングに対応可能な１つまたはそれを上回るコンピュータサーバを含む、項目１に記載のシステム。
（項目３３）
分散型コンピューティングは、クラウドコンピューティングである、項目３２に記載のシステム。
（項目３４）
前記通信ネットワークは、前記遺伝子シーケンスリードを含む、記憶デバイスを含む、項目１に記載のシステム。
（項目３５）
前記コンピュータは、前記核酸シーケンシング装置から遠隔にある、コンピュータサーバ上に位置する、項目１に記載のシステム。
（項目３６）
ネットワークを経由して前記コンピュータと通信する電子ディスプレイをさらに含み、前記電子ディスプレイは、（ｉ）－（ｖｉ）を実装することに応じた結果を表示するためのユーザインターフェースを含む、項目１に記載のシステム。
（項目３７）
前記ユーザインターフェースは、グラフィカルユーザインターフェース（ＧＵＩ）またはウェブベースのユーザインターフェースである、項目３６に記載のシステム。
（項目３８）
前記電子ディスプレイは、パーソナルコンピュータ内にある、項目３６に記載のシステム。
（項目３９）
前記電子ディスプレイは、インターネット対応コンピュータ内にある、項目３６に記載のシステム。
（項目４０）
前記インターネット対応コンピュータは、前記コンピュータから遠隔場所に位置する、項目３９に記載のシステム。
（項目４１）
前記融合クラスタは、前記第１および第２のサブシーケンスが、前記参照シーケンスと比較して、正常ゲノム順序にある場合、欠失とコールされる、項目１に記載のシステム。
（項目４２）
前記融合クラスタは、前記第１および第２のサブシーケンスが、前記参照シーケンスと比較して、逆ゲノム順序にある場合、挿入とコールされる、項目１に記載のシステム。
（項目４３）
遺伝子シーケンスリード内の挿入および／または欠失を検出するためのコンピュータ実装方法であって、
（ａ）コンピュータプロセッサを用いて、核酸シーケンシング装置から生成されたポリヌクレオチド分子の遺伝子シーケンスリードを受信するステップと、
（ｂ）前記コンピュータプロセッサを用いて、前記遺伝子シーケンスリードを処理するステップであって、処理されたシーケンスリードを生成するステップと、
（ｃ）前記コンピュータプロセッサを用いて、前記処理されたシーケンスリードを参照シーケンスにマッピングするステップと、
（ｄ）前記コンピュータプロセッサによって、前記処理されたシーケンスリードをファミリーにグルーピングするステップであって、各ファミリーは、サンプル中の同一ポリヌクレオチド分子から生じる一意のシーケンスリードを含む、ステップと、
（ｅ）前記コンピュータプロセッサによって、前記ファミリーの少なくとも一部を融合クラスタにグルーピングするステップであって、各融合クラスタは、分割リードを含み、各分割リードは、第１の遺伝子座にマッピングされる第１の切断点に隣接する第１のサブシーケンスと、第２の別個の遺伝子座にマッピングされる第２の切断点に隣接する第２のサブシーケンスとを含み、前記第１の切断点および前記第２の切断点は、切断点ペアを形成する、ステップと、
（ｆ）前記コンピュータプロセッサによって、融合クラスタを挿入および／または欠失を含むとしてコールするステップであって、
ｉ．切断点ペアは、前記参照シーケンスの同一染色体上に位置し、
ｉｉ．前記切断点ペア内の前記第１の切断点と前記第２の切断点との間の距離は、前記参照シーケンス上の所定の最大距離未満であって、
ｉｉｉ．サブシーケンスは、同一５´－３´配向にある、
ステップと、
を含む、方法。
（項目４４）
（ｇ）前記コンピュータプロセッサによって、融合クラスタを、（ｆ）内の前記基準のうちの少なくとも１つが満たされない、融合を含むとしてコールするステップをさらに含む、項目４３に記載の方法。
（項目４５）
前記シーケンスリードは、対合端シーケンスリードのセットを含む、項目４３に記載の方法。
（項目４６）
ｉ．前記処理するステップは、前記対合端シーケンスリードをマージすることであって、マージされたリードを形成することを含む、項目４５に記載の方法。
（項目４７）
前記処理するステップはさらに、
ｉｉ．同じバーコードおよび同一の内部シーケンスを有するマージされたリードの集合を一意のセットにグルーピングするステップと、
ｉｉｉ．一意のセット毎に、処理されたシーケンスリードを生成するステップと、
を含む、項目４６に記載の方法。
（項目４８）
重複領域を伴う、前記対合端シーケンスリードは、マージされ、マージされたシーケンスリードを形成する、項目４５に記載の方法。
（項目４９）
少なくとも６０％の同一性を有する重複領域を伴う、前記対合端シーケンスリードは、マージされる、項目４８に記載の方法。
（項目５０）
少なくとも７０％の同一性を有する重複領域を伴う、前記対合端シーケンスリードは、マージされる、項目４８に記載の方法。
（項目５１）
少なくとも８０％の同一性を有する重複領域を伴う、前記対合端シーケンスリードは、マージされる、項目４８に記載の方法。
（項目５２）
少なくとも９０％の同一性を有する重複領域を伴う、前記対合端シーケンスリードは、マージされる、項目４８に記載の方法。
（項目５３）
少なくとも１３個の塩基の重複を伴う、前記対合端シーケンスリードは、マージされる、項目４８に記載の方法。
（項目５４）
少なくとも１５個の塩基の重複を伴う、前記対合端シーケンスリードは、マージされる、項目４８に記載の方法。
（項目５５）
少なくとも１７個の塩基の重複を伴う、前記対合端シーケンスリードは、マージされる、項目４８に記載の方法。
（項目５６）
少なくとも１９個の塩基の重複を伴う、前記対合端シーケンスリードは、マージされる、項目４８に記載の方法。
（項目５７）
前記融合クラスタ内の分割リードの第１の切断点間の距離は、相互からヌクレオチド１０個未満であって、前記融合クラスタ内の分割リードの第２の切断点間の距離は、相互からヌクレオチド１０個未満である、項目４３に記載の方法。
（項目５８）
前記所定の最大距離は、ヌクレオチド５，０００個未満である、項目４３に記載の方法。
（項目５９）
前記所定の最大距離は、ヌクレオチド３，０００個未満である、項目４３に記載の方法。
（項目６０）
前記処理されたシーケンスリードは、同一対の分子バーコードを有することに基づいて、ファミリーにグルーピングされる、項目４３に記載の方法。
（項目６１）
前記処理されたシーケンスリードは、前記参照シーケンス上の同一場所へのマッピングに基づいて、ファミリーにグルーピングされる、項目４３または６０に記載の方法。
（項目６２）
前記ファミリー内の処理されたシーケンスリードは、
（ａ）同一の開始位置および同一短縮停止シーケンスを有するか、または
（ｂ）同一停止位置および同一短縮開始シーケンスを有する、
シーケンスリードを含む、項目４３または６０に記載の方法。
（項目６３）
前記短縮開始または停止シーケンスは、前記処理されたシーケンスリードの一部を短縮し、ホモポリマー中の重複ヌクレオチドを除去することによって生成される、項目６２に記載の方法。
（項目６４）
前記ホモポリマーは、ポリ（ｄＡ）またはポリ（ｄＴ）を含む、項目６３に記載の方法。
（項目６５）
前記ホモポリマーは、ポリ（ｄＧ）またはポリ（ｄＣ）を含む、項目６３に記載の方法。
（項目６６）
前記ファミリーは、相互から所定の切断点距離内の第１の切断点および相互から所定の切断点距離内の第２の切断点を有する、前記ファミリー内の分割リードに基づいて、融合クラスタにグルーピングされる、項目４３に記載の方法。
（項目６７）
前記第１および第２の所定の切断点距離は、ヌクレオチド２５個未満である、項目６６に記載の方法。
（項目６８）
前記第１および第２の所定の切断点距離は、ヌクレオチド１０個未満である、項目６６に記載の方法。
（項目６９）
前記分割リードは、前記分割リードを含むファミリー毎に生成されたコンセンサスシーケンスである、項目４３に記載の方法。
（項目７０）
前記コンセンサスシーケンスは、相互から所定の切断点距離内の切断点を有する、分割リードに基づいて、融合クラスタにグルーピングされる、項目６９に記載の方法。
（項目７１）
前記所定の切断点距離は、ヌクレオチド２５個未満である、項目７０に記載の方法。
（項目７２）
前記所定の切断点距離は、ヌクレオチド１０個未満である、項目７０に記載の方法。
（項目７３）
前記参照シーケンスは、ヒト参照シーケンスである、項目４３に記載の方法。
（項目７４）
前記核酸シーケンシング装置は、次世代シーケンシング装置である、項目４３に記載の方法。
（項目７５）
前記サンプルは、対象から取得された体液である、項目４３に記載の方法。
（項目７６）
前記体液は、血液、血漿、血清、尿、唾液、粘膜分泌液、喀痰、糞便、および涙液から成る群から選択される、項目７５に記載の方法。
（項目７７）
前記対象は、癌を有する、項目７５または７６に記載の方法。
（項目７８）
前記融合クラスタは、前記第１および第２のサブシーケンスが、前記参照シーケンスと比較して、正常ゲノム順序にある場合、欠失としてコールされる、項目４３に記載の方法。
（項目７９）
前記融合クラスタは、前記第１および第２のサブシーケンスが、前記参照シーケンスと比較して、逆ゲノム順序にある場合、挿入としてコールされる、項目４３に記載の方法。
（項目８０）
前記サンプルは、無細胞ＤＮＡ分子を含む、項目７５～７７に記載の方法。
（項目８１）
方法であって、
（ａ）ポリヌクレオチド分子の遺伝子シーケンスリードを参照シーケンスにマッピングするステップと、
（ｂ）分割リードを含む、遺伝子シーケンスリードを識別するステップであって、各分割リードは、第１の遺伝子座にマッピングされる第１の切断点に隣接する第１のサブシーケンスと、第２の別個の遺伝子座にマッピングされる第２の切断点に隣接する第２のサブシーケンスとを含み、前記第１の切断点および前記第２の切断点は、切断点ペアを形成する、ステップと、
（ｂ）前記分割リードをファミリーにグルーピングするステップであって、各ファミリーは、サンプル中の同一ポリヌクレオチド分子から生じるシーケンスリードを含む、ステップと、
（ｄ）ファミリー毎に、コンセンサス分割リードシーケンスを生成するステップと、
（ｅ）ファミリー毎のコンセンサス分割リードシーケンスを融合クラスタにグルーピングするステップであって、前記融合クラスタ内のコンセンサスシーケンスは、類似切断点ペアを有する、ステップと、
（ｆ）融合クラスタを挿入および／または欠失を含むとしてコールするステップであって、
ｉ．切断点ペアは、前記参照シーケンスの同一染色体上に位置し、
ｉｉ．前記切断点ペア内の前記第１の切断点と前記第２の切断点との間の距離は、前記参照シーケンス上の所定の最大距離未満であって、
ｉｉｉ．サブシーケンスは、同一５´－３´配向にある、
ステップと、
を含む、方法。
（項目８２）
（ｇ）融合クラスタを、（ｆ）内の前記基準のうちの少なくとも１つが満たされない、融合を含むとしてコールするステップをさらに含む、項目８１に記載の方法。
（項目８３）
各融合クラスタ内のコンセンサスシーケンスは、相互間の第１の所定の切断点距離内にある、第１の切断点と、相互間の第２の所定の切断点距離内にある、第２の切断点とを有する、分割リードを含む、項目８１に記載の方法。
（項目８４）
前記第１および第２の所定の切断点距離は、ヌクレオチド２５個未満である、項目８３に記載の方法。
（項目８５）
前記第１および第２の所定の切断点距離は、ヌクレオチド１０個未満である、項目８３に記載の方法。
（項目８６）
方法であって、
（ａ）ポリヌクレオチド分子の遺伝子シーケンスリードを参照シーケンスにマッピングするステップと、
（ｂ）前記遺伝子シーケンスリードをファミリーにグルーピングするステップであって、各ファミリーは、サンプル中の同一ポリヌクレオチド分子から生じる一意のシーケンスリードを含む、ステップと、
（ｃ）ファミリーの一意のシーケンスリードを融合クラスタにグルーピングするステップであって、各融合クラスタは、分割リードを含み、各分割リードは、サブシーケンス：第１の遺伝子座にマッピングされる第１の切断点に隣接する第１のサブシーケンスと、第２の別個の遺伝子座にマッピングされる第２の切断点に隣接する第２のサブシーケンスとによって特徴付けられ、前記第１の切断点および前記第２の切断点は、切断点ペアを形成する、ステップと、
（ｄ）融合クラスタの一意のシーケンスリードを挿入および／または欠失を含むとしてコールするステップであって、
ｉ．切断点ペアは、同一染色体にマッピングされ、
ｉｉ．前記切断点ペア内の前記第１の切断点と前記第２の切断点との間の距離は、前記参照シーケンス上の所定の最大距離未満であって、
ｉｉｉ．サブシーケンスは、同一５´－３´配向にある、
ステップと、
を含む、方法。
（項目８７）
（ｅ）融合クラスタの一意のシーケンスリードを、（ｄ）内の前記基準のうちの少なくとも１つが満たされない、融合を含むとしてコールするステップをさらに含む、項目８６に記載の方法。
（項目８８）
前記遺伝子シーケンスリードは、核酸シーケンシング装置によって生成される、項目８６に記載の方法。
（項目８９）
挿入および／または欠失ならびに／もしくは融合を検出するためのコンピュータ実装方法であって、
（ａ）コンピュータプロセッサを用いて、核酸シーケンシング装置から収集される対合端シーケンスリードをアライメントおよびマージするステップであって、対合端シーケンスリードのセットから代表のマージされた一意のリードを生成するステップであって、各代表のマージされた一意のリードは、前記対合端シーケンスリードのマージ後、同一分子バーコードおよびシーケンスを有する、対合端シーケンスリードを代表する、ステップと、
（ｂ）前記プロセッサを用いて、前記代表のマージされた一意のリードを参照シーケンスにマッピングするステップと、
（ｃ）前記プロセッサを用いて、前記代表のマージされた一意のリードをファミリーにグルーピングするステップであって、各ファミリーは、同一のオリジナルのタグ付けされたポリヌクレオチド分子から生じる代表のマージされた一意のリードを含み、各ファミリーは、コンセンサスシーケンスによって代表される、ステップと、
（ｄ）前記プロセッサを用いて、ファミリーのコンセンサスシーケンスを融合クラスタにグルーピングするステップであって、各融合クラスタは、分割リードのファミリーからのコンセンサスシーケンスを含む、ステップであって
各分割リードは、サブシーケンスであって、第１の遺伝子座にマッピングされる第１の切断点に隣接する第１のサブシーケンスと、第２の別個の遺伝子座にマッピングされる第２の切断点に隣接する第２のサブシーケンスとによって特徴付けられ、
前記第１の切断点および前記第２の切断点は、切断点ペアを形成し、
前記融合クラスタ内のコンセンサスシーケンスは、類似切断点ペアを含む、
ステップと、
（ｅ）前記プロセッサを用いて、融合クラスタを挿入および／または欠失を有するとしてコールするステップであって、
ｉ．切断点ペアは、同一染色体にマッピングされ、
ｉｉ．切断点ペア間の距離は、所定の最大距離未満であって、
ｉｉｉ．サブシーケンスは、同一５´－３´配向にある、
ステップと、
を含む、方法。
（項目９０）
前記プロセッサによって、融合クラスタを、以下の基準：
ｉ．切断点ペアは、同一染色体にマッピングされ、
ｉｉ．切断点ペア間の距離は、所定の最大距離未満であって、
ｉｉｉ．サブシーケンスは、同一５´－３´配向にある、
ことのうちの少なくとも１つが満たされない、融合を有するとしてコールするステップをさらに含む、項目８９に記載の方法
（項目９１）
前記挿入および／または欠失ならびに／もしくは融合を有する、ポリヌクレオチド分子のインジケーションを提供する、報告を電子フォーマットで生成するステップをさらに含む、項目８９または９０に記載の方法。
（項目９２）
前記プロセッサを用いて、前記対合端シーケンスリードのシーケンシング品質を計算するステップであって、前記対合端シーケンスリードに関する品質スコアを提供するステップをさらに含む、項目８９に記載の方法。
（項目９３）
項目４３～８０のいずれか１項に記載の方法が実施される、挿入および／または欠失ならびに／もしくは融合を検出する方法。
（項目９４）
前記方法は、コンピュータ実装方法である、項目８１または項目８６に記載の方法。
（項目９５）
前記方法はさらに、前記挿入および／または欠失ならびに／もしくは融合を有する、ポリヌクレオチド分子のインジケーションを提供する、電子フォーマットを生成するステップを含む、項目４３または項目８１または項目８６に記載の方法。
（項目９６）
癌を患う患者を処置するための方法であって、
（ａ）前記患者内の融合クラスタの存在または量に関するデータを受信するステップであって、前記データは、項目４３～８０または項目８１～８５または項目８６～８８または項目８９～９２に記載の方法のいずれかを使用して取得される、ステップと、
（ｂ）前記融合クラスタの存在または量に基づいて、前記患者に異なる処置計画を受けさせるステップと、
を含む、方法。
（項目９７）
前記融合クラスタまたはより大量の前記融合クラスタの存在を伴う患者は、前記融合クラスタを伴わないまたはより小量の前記融合クラスタを伴う患者より厳しい療法計画を受ける、項目９６に記載の方法。
（項目９８）
前記より厳しい計画は、より厳しくない計画における処置薬の用量より高い用量の処置薬によって特徴付けられる、項目９７に記載の方法。
（項目９９）
前記融合クラスタは、ＭＥＴエクソン１４スキッピング欠失としてコールされる、項目９８に記載の方法。
（項目１００）
前記処置薬は、ＭＥＴ阻害剤である、項目９９に記載の方法。
（項目１０１）
前記ＭＥＴ阻害剤は、クリゾチニブ、カボザンチニブ、カプマチニブ、テポチニブ、およびグレサチニブから成る群から選択される、項目１００に記載の方法。
（項目１０２）
前記処置計画は、化学療法、放射線療法、または免疫療法を含む、項目９６～１０１に記載の方法。
（項目１０３）
前記データは、癌のための処置を受ける患者における前記融合クラスタの存在を示し、前記処置はそのような患者において継続される、項目９６に記載の方法。
参照による引用

本明細書で記述される全ての出版物、特許、および特許出願は、各個々の出版物、特許、または特許出願が、参照することによって組み込まれるように具体的かつ個別に示された場合と同一の程度に、参照することによって本明細書に組み込まれる。参照することによって組み込まれる出版物および特許または特許出願が、本明細書に含有される本開示と矛盾する程度まで、本明細書は、いずれのそのような矛盾する資料にも取って代わる、および／または優先することを意図している。

図１は、遺伝子バリアントを検出するためのワークフローを示す、本開示の実施形態を図示する。

図２は、代表のマージされたリードを生成するための手技を示す、本開示の実施形態を図示する。

図３は、融合クラスタを判定するための手技を示す、本開示の実施形態を図示する。

図４は、本明細書に提供される方法を実装するようにプログラムまたは別様に構成される、例示的コンピュータ制御システムを示す。

詳細な説明
本開示は、無細胞ＤＮＡの混合サンプル等のポリヌクレオチド分子のサンプル中の挿入、欠失、および融合等の遺伝子バリアントを検出するための方法およびシステムを提供する。本明細書に説明される方法およびシステムは、改良された感度および特異性を伴って、異なる遺伝子バリアントを検出することができる。例えば、本明細書に説明される方法は、最大１，０００個の塩基対等の大量の挿入および／または欠失ならびに／もしくは融合を検出することができる。

図１は、本開示の実施形態を図示する。１０１では、ポリヌクレオチド分子を含む、サンプルが、シーケンシングのために調製される。ポリヌクレオチド分子は、標識されたタグ付けされ、タグ付けされた分子を生成する。１０２では、タグ付けされた分子は、シーケンシングされ、遺伝子シーケンスリードを生成する。１０３では、遺伝子シーケンスリードは、処理され、処理されたリードを生成する。１０４では、処理されたリードは、参照シーケンスにマッピングされ、ファミリーにグルーピングされる。１０５では、ファミリーは、処理され、ポリヌクレオチド分子中の遺伝子バリアントを検出する。

１０１では、腫瘍由来および非腫瘍由来ポリヌクレオチド分子の混合サンプル等のポリヌクレオチド分子を含む、サンプルが、シーケンシングのために調製される。そのような調製は、使用される用途およびシーケンシングプラットフォーム、例えば、次世代シーケンシングプラットフォームに依存する。

サンプルは、対象から単離された任意の生物学的サンプルであることができる。サンプルは、既知または疑われる固形腫瘍、全血、血小板、血清、血漿、糞便、赤血球、白血球または白血球、内皮細胞、組織生検、脳脊髄液、滑液、リンパ液、腹水液、間質または細胞外流体、歯肉溝滲出液、骨髄、胸膜滲出液、脳脊髄液（ＣＳＦ）、唾液、粘液、喀痰、精液、汗、尿を含む、細胞間の空間内の流体等の身体組織を含むことができる。サンプルは、好ましくは、体液、特に、血液およびその分画、および尿である。そのようなサンプルは、腫瘍から流出された核酸を含む。核酸は、ＤＮＡと、ＲＮＡとを含むことができ、二本鎖および／または一本鎖形態であることができる。サンプルは、元々は対象から単離された形態であることができるか、またはさらなる処理を受け、細胞等の成分を除去または追加する、一方の成分を別の成分に対して富化するか、またはＲＮＡからＤＮＡもしくは一本鎖核酸から二本鎖核酸等、１つの形態の核酸から別の形態の核酸に変換することができる。したがって、例えば、分析のための体液は、無細胞核酸、例えば、無細胞ＤＮＡ（ｃｆＤＮＡ）を含有する、血漿または血清である。

体液の体積は、シーケンシングされる領域のための所望のリード深度に依存し得る。例示的体積は、０．４～４０ｍｌ、５～２０ｍｌ、１０～２０ｍｌである。例えば、体積は、０．５ｍｌ、１ｍｌ、５ｍｌ、１０ｍｌ、２０ｍｌ、３０ｍｌ、または４０ｍｌであることができる。サンプリングされる血漿の体積は、５～２０ｍｌであってもよい。

サンプルは、ゲノム均等物を含有する、種々の量の核酸を含むことができる。例えば、約３０ｎｇのＤＮＡのサンプルは、約１０，０００（１０^４）個の半数体ヒトゲノム均等物、ｃｆＤＮＡの場合、約２千億（２×１０^１１）個の個々のポリヌクレオチド分子を含有することができる。同様に、約１００ｎｇのＤＮＡのサンプルは、約３０，０００個の半数体ヒトゲノム均等物、ｃｆＤＮＡの場合、約６千億個の個々の分子を含有することができる。

サンプルは、異なる源から、例えば、細胞および無細胞からの核酸を含むことができる。サンプルは、核酸保有突然変異体を含むことができる。例えば、サンプルは、ＤＮＡ保有生殖細胞系統突然変異体および／または体細胞突然変異体を含むことができる。サンプルは、ＤＮＡ保有癌関連突然変異体（例えば、癌関連体細胞突然変異体）を含むことができる。ある場合には、核酸は、エフェロソームまたはエキソソームに見出され得る。

無細胞核酸は、対象からの体液（例えば、血液、尿、ＣＳＦ等）に由来するあらゆる非被包型核酸に対して参照され得る。無細胞核酸は、ＤＮＡ（ｃｆＤＮＡ）、ＲＮＡ（ｃｆＲＮＡ）、およびそのハイブリッドを含み、ゲノムＤＮＡ、ミトコンドリアＤＮＡ、循環ＤＮＡ、ｓｉＲＮＡ、ｍｉＲＮＡ、循環ＲＮＡ（ｃＲＮＡ）、ｔＲＮＡ、ｒＲＮＡ、核小体ＲＮＡ（ｓｎｏＲＮＡ）、Ｐｉｗｉ相互作用ＲＮＡ（ｐｉＲＮＡ）、長鎖ノンコーディングＲＮＡ（長ｎｃＲＮＡ）、またはこれらのいずれかの断片を含む。無細胞核酸は、二本鎖、一本鎖、またはそのハイブリッドであることができる。無細胞核酸は、分泌または細胞死プロセス、例えば、細胞壊死およびアポトーシスを通して、体液中に放出され得る。いくつかの無細胞核酸は、癌細胞、例えば、循環腫瘍ＤＮＡ（ｃｔＤＮＡ）から体液中に放出される。その他は、健康な細胞から放出される。ｃｔＤＮＡは、非被包型腫瘍由来断片化ＤＮＡであることができる。無細胞胎児ＤＮＡ（ｃｆｆＤＮＡ）は、母体血流中で自由に循環する胎児ＤＮＡである。

無細胞ＤＮＡは、通常、高度に断片化され、サイズ分布は、約１００～３００塩基対（ｂｐ）の長さの範囲内であって、したがって、その付加的断片化は、要求されない。例えば、胎児および母体無細胞ＤＮＡのサイズは、約１６２ｂｐである一方、腫瘍由来の無細胞ＤＮＡのサイズは、約１６６ｂｐであり得る。サンプルがＤＮＡの長分子を有し得る事例では、断片化は、随意である。

無細胞核酸は、溶液中に見出されるような無細胞核酸が、無傷細胞および体液の他の非可溶性成分から分離される、パーティション化ステップを通して、体液から単離されることができる。パーティション化は、遠心分離または濾過等の技法を含んでもよい。代替として、体液中の細胞は、溶解され、無細胞および細胞核酸は、ともに処理されることができる。概して、緩衝液の添加および洗浄ステップ後、無細胞核酸は、アルコールで析出されることができる。汚染物質または塩類を除去するためのシリカベースのカラム等のさらなる清浄ステップが、使用されてもよい。非特異的バルク担体核酸が、例えば、反応全体を通して添加され、収率等の手技のある側面を最適化してもよい。

そのような処理後、サンプルは、二本鎖ＤＮＡ、一本鎖ＤＮＡ、および／または一本鎖ＲＮＡを含む、種々の形態の核酸を含むことができる。随意に、一本鎖ＤＮＡおよび／または一本鎖ＲＮＡは、それらが後続処理および分析内に含まれるように、二本鎖形態に変換されることができる。

増幅前のサンプル中の無細胞核酸の例示的量は、約１ｆｇ～約１ｕｇ、例えば、１ｐｇ～２００ｎｇ、１ｎｇ～１００ｎｇ、１０ｎｇ～１０００ｎｇに及ぶ。例えば、量は、最大約６００ｎｇ、最大約５００ｎｇ、最大約４００ｎｇ、最大約３００ｎｇ、最大約２００ｎｇ、最大約１００ｎｇ、最大約５０ｎｇ、または最大約２０ｎｇの無細胞核酸分子であることができる。量は、少なくとも１ｆｇ、少なくとも１０ｆｇ、少なくとも１００ｆｇ、少なくとも１ｐｇ、少なくとも１０ｐｇ、少なくとも１００ｐｇ、少なくとも１ｎｇ、少なくとも１０ｎｇ、少なくとも１００ｎｇ、少なくとも１５０ｎｇ、または少なくとも２００ｎｇの無細胞核酸分子であることができる。量は、最大１フェムトグラム（ｆｇ）、１０ｆｇ、１００ｆｇ、１ピコグラム（ｐｇ）、１０ｐｇ、１００ｐｇ、１ｎｇ、１０ｎｇ、１００ｎｇ、１５０ｎｇ、または２００ｎｇの無細胞核酸分子であることができる。方法は、１フェムトグラム（ｆｇ）～２００ｎｇを取得するステップを含むことができる。

分子バーコードおよびアダプタ等の付加的シーケンスが、ポリヌクレオチド分子の一端または両端に付加されてもよい。そのような付加的シーケンスは、プライマーハイブリダイゼーションまたはライゲーション反応を介して付加されることができる。プライマーハイブリダイゼーションは、ポリメラーゼ連鎖反応（ＰＣＲ）等の増幅反応を通して、付加的シーケンスの付加を含むことができる。ライゲーション反応は、付加的シーケンスとポリヌクレオチド分子の断片との間の共有結合の形成を含むことができる。ライゲーションは、平滑末端ライゲーションまたは付着末端ライゲーションであることができる。いくつかの事例では、ポリヌクレオチド分子の断片は、オーバーハングヌクレオチドを導入するか、またはポリヌクレオチドシーケンスを増幅させる等のライゲーション反応に先立って、修飾されてもよい。

アダプタは、シーケンシングプライマーに相補的オリゴヌクレオチドシーケンスを含んでもよい。例えば、アダプタは、シーケンシングプライマー結合部位を含むことができ、ポリメラーゼ酵素は、ポリヌクレオチド分子をシーケンシングするために、結合し、重合を開始することができる。

アダプタは、アダプタが次世代シーケンシングプラットフォーム内のシーケンシングレーンに結合することを可能にするシーケンスを含んでもよい。例えば、アダプタは、Ｉｌｌｕｍｉｎａプラットフォーム内のシーケンシングレーンに付加されるための流動細胞付着部位を含むことができる。アダプタは、次世代シーケンシングプラットフォーム内のシーケンシングレーンに付加されるオリゴヌクレオチドに相補的シーケンスを含むことができる。例えば、アダプタは、Ｉｌｌｕｍｉｎａプラットフォーム内のシーケンシングレーンの流動細胞に付加されるオリゴヌクレオチドとハイブリダイズし得る、相補的シーケンスを含むことができる。

アダプタは、分子バーコードまたはインデックスまたは標識等の付加的シーケンスを含んでもよい。分子バーコードまたはインデックスまたは標識は、異なるサンプルに由来するシーケンスリード間で区別するために使用されることができる。分子バーコードは、１つを上回るサンプルとの多重化シーケンシング反応に有用であり得る。分子バーコードは、ポリヌクレオチド分子の一端または両端のいずれかに無作為または非無作為にタグ付けされてもよい。ポリヌクレオチド分子が、両端で標識される場合、バーコードの組み合わせは、総称的に、「識別子」と称され得る。分子バーコードは、アダプタとポリヌクレオチド分子との間に付加されてもよい。分子バーコードは、二本鎖または一本鎖であることができる。好ましくは、アダプタは、二本鎖分子バーコードをそのステムに、および／または一本鎖分子バーコードをＹの非相補的末端に含む、Ｙ形状のアダプタである。いくつかの実施形態では、サンプルは、サンプル中に存在するポリヌクレオチド分子より多くの別個の分子バーコードと接触される。他の事例では、小数の別個の分子バーコードが、ポリヌクレオチド分子のそれぞれを標識するために使用される（例えば、ＤＮＡ分子の数未満）。

ある実施形態では、分子バーコードは、分子バーコードシーケンスがサンプル中の任意の他のポリヌクレオチド分子によって共有されないように、一意であってもよい。本状況では、ポリヌクレオチド分子は、「一意に標識される」。いくつかの実施形態では、分子バーコードは、分子バーコードシーケンスがサンプル中の少なくとも１つの他のポリヌクレオチド分子によって共有されるように、一意ではなくてもよい。本状況では、サンプル中のポリヌクレオチド分子は、「非一意に標識される」。非一意の標識のある実施形態では、異なるバーコードの数は、サンプル中のポリヌクレオチド分子の総数より少ない。

使用される分子バーコードの数は、約１、２、３、４、５、６、７、８、９、１０、２０、５０、１００、５００、１０００、５０００、１０，０００、５０，０００、１００，０００、５００，０００、１，０００，０００、１０，０００，０００、５０，０００，０００、または１，０００，０００，０００個を上回ってもよい。いくつかの実施形態では、標識フォーマットは、随意に、アダプタの一部として、標的分子の両端にライゲーションされる、５～１０，０００、５～５，０００、５～１，０００、または１００個の異なる分子バーコードを使用する。いくつかの実施形態では、標識フォーマットは、随意に、アダプタの一部として、標的分子の両端にライゲーションされる、２０～５０個の異なる分子バーコードを使用して、２０～５０×２０～５０個のバーコード、例えば、４００～２５００個のバーコードを作成する。

別の実施形態では、異なるバーコードの数またはバーコードの組み合わせは、少なくとも、ポリヌクレオチド分子から生成されたシーケンスリードが、基準ゲノム内の同一の開始／停止座標にマッピングされるか、またはそのシーケンス内のいくつかの点にマッピングされる（例えば、参照シーケンス内の塩基位置に重複する）シーケンスリードが、一意に標識される、９９．９９％の機会が存在するために十分であり得る。

例えば、図２に示されるように、ポリヌクレオチド分子２０１、２０２、および２０３は、それぞれ、２０４、２０５、および２０６分子バーコードによって、両端上で標識される。タグ付けされた分子は、次いで、増幅され、オリジナルポリヌクレオチド分子のコピーを生成する。例えば、タグ付けされた分子２０７、２０８、および２０９は、それぞれ、増幅され、２１０－２１５、２１６－２２１、および２２２－２２７アンプリコンを生成する。

ある実施形態では、ポリヌクレオチドは、シーケンシングに先立って、富化されることができる。富化は、特異的標的領域（「標的シーケンス」）のために、または非特異的に実施されることができる。いくつかの実施形態では、標的着目領域は、弁別タイリングおよび捕捉スキームを使用して、１つまたはそれを上回るベイトセットパネルに関して選択された捕捉プローブ（「ベイト」）で富化されてもよい。弁別タイリングおよび捕捉スキームは、異なる相対的濃度のベイトセットを使用して、制約のセット（例えば、シーケンシング負荷等のシーケンシング装置制約、各ベイトの有用性等）に従って、ベイトと関連付けられたゲノム領域を横断して弁別的にタイリングし（例えば、異なる「分解能」で）、下流シーケンシングのために、それらを所望のレベルで捕捉する。これらの標的ゲノム着目領域は、対象のゲノムまたはトランスクリプトームの領域を含んでもよい。いくつかの実施形態では、１つまたはそれを上回る着目領域へのプローブを伴う、ビオチン標識ビーズが、標的シーケンスを捕捉後、随意に、それらの領域の増幅が続き、着目領域を富化するために使用されることができる。

シーケンス捕捉は、典型的には、標的シーケンスにハイブリダイズする、オリゴヌクレオチドプローブの使用を伴う。プローブセット方略は、着目領域を横断してプローブをタイリングすることを伴うことができる。そのようなプローブは、例えば、約６０～１２０塩基長であることができる。セットは、約２倍、３倍、４倍、５倍、６倍、８倍、９倍、ｌ０倍、１５倍、２０倍、５０倍、またはそれを上回る深度を有することができる。シーケンス捕捉の有効性は、部分的に、プローブのシーケンスに相補的（またはほぼ相補的）標的分子内のシーケンスの長さに依存する。

いくつかの実施形態では、本開示の方法は、シーケンシングに先立って、対象のゲノムまたはトランスクリプトームからの領域を選択的に富化するステップを含む。他の実施形態では、本開示の方法は、シーケンシングに先立って、対象のゲノムまたはトランスクリプトームからの領域を非選択的に富化するステップを含む。

ある実施形態では、サンプルインデックスシーケンスが、富化後、ポリヌクレオチドに導入される。サンプルインデックスシーケンスは、ＰＣＲを通して導入されるか、または、随意に、アダプタの一部として、ポリヌクレオチドにライゲーションされてもよい。

図１に戻って参照すると、１０２では、タグ付けされたポリヌクレオチド分子が、シーケンシングされる。シーケンシングは、好ましくは、Ｉｌｌｕｍｉｎａ^ＴＭ、ＩｏｎＴｏｒｒｅｎｔ^ＴＭ、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓシーケンシングシステム、またはＯｘｆｏｒｄＮａｎｏｐｏｒｅシーケンシング技術等の次世代シーケンシングプラットフォームを使用して実施される。シーケンシングは、長リードまたは短リードである、シーケンスリードを含む、未加工シーケンシングデータを生産する。長リードは、１キロベース（ｋｂ）を上回る長さであることができる一方、短リードは、１ｋｂ未満の長さであることができる。

あるシーケンシングシステムは、例えば、ポリヌクレオチド分子の増幅およびアンプリコンの後続シーケンシングによって、オリジナルポリヌクレオチド分子毎に、冗長リードを生産する。Ｉｌｌｕｍｉｎａ等のあるシーケンシングシステムは、対合端シーケンスリード、すなわち、対のリードが重複する場合とそうではない場合がある、分子の両端からのシーケンスリードを生産する。他のシーケンシングシステムは、ポリヌクレオチド分子全体の単一シーケンスリードシーケンスを生産することができる。対合端リードを生産しない、シーケンシングシステムでは、リードをマージするステップは、排除されることができ、代表されるリードは、全長リードから選択されることができる。

図１に示されるような方法は、コンピュータを使用して実装されることができる。例えば、コンピュータ実装方法が、挿入および／または欠失ならびに／もしくは融合を検出するために使用されることができる。本方法は、コンピュータプロセッサを用いてシーケンシング装置から収集される対合端シーケンスリードの品質を計算するためのアルゴリズムを含んでもよい。例えば、シーケンシングの品質に基づいて、対合端シーケンスリードに関する品質スコアが、提供されてもよい。対合端シーケンスリードはさらに、アライメントおよびマージされ、対合端シーケンスリードのセットから、代表的マージされ処理されたリードを生成してもよい。各代表的マージされ処理されたリードは、同一分子バーコードおよび内部シーケンスを有する、対合端シーケンスリードを代表する。

対合端シーケンスリードのセットを含む、未加工シーケンシングデータは、ＦＡＳＴＱ、ＶＣＦ、ＣＲＡＭ、またはＢＡＭ等の種々のファイルフォーマットで提供されることができる。未加工シーケンシングデータを伴うファイルは、対合端リード等の一方の鎖または両鎖に関するシーケンスデータを含み得る。一実施例では、未加工シーケンシングデータは、両鎖、すなわち、対合端シーケンシング手技から生成されたセンスおよびアンチセンス鎖に関するＦＡＳＴＱファイルで提供される。ファイルは、リードの品質についての情報を提供する、付加的記号を含んでもよく、また、品質スコアを提供してもよい。各ポリヌクレオチド分子の未加工シーケンシングデータは、ローカルドライブ上、クラウド、またはサーバ内に保存されてもよい。

シーケンスリード、例えば、対合端リードの収集では、同一シーケンスを有する複数のリードが存在するであろうことが予期される。これは、特に、オリジナルポリヌクレオチド分子が、増幅され、多くのコピーを生産し、アンプリコンが、シーケンシングされる場合に当てはまる。故に、シーケンスリードのセット内の任意の特定のシーケンスは、セット内に複数のコピーが存在し得る、「一意のシーケンス」であると見なされ得る。一意のシーケンスリードは、本明細書に開示されるマッピングするステップにおいて使用される全てのシーケンスのセットから選択されることができる。

１０３では、処理されたリードが、シーケンシング装置からの遺伝子シーケンスリードから生成される。処理は、遺伝子シーケンスリードの分析をより効率的にする、任意の方法を含んでもよい。例えば、ある場合には、処理は、対合端遺伝子シーケンスリードをマージし、マージされたリードを形成するステップを含んでもよい。ある場合には、処理は、同じバーコードおよび実質的に類似または同一の内部シーケンスを有するマージされたリードの集合を一意のセットにグルーピングし、代表のマージされたリードを生成するステップを含んでもよい。他の場合には、処理は、遺伝子シーケンスリードからの標識をトリミングするステップを含んでもよい。１０３は、重複シーケンスリードを除去し、実質的算出分析を排除する。

例えば、図２に示されるように、対合端リード２２８、２２９、および２３０のセットはそれぞれ、２つのメイトペアを含む。メイトペアは、マージされ、マージされたリードを形成する。同一バーコードおよび実質的に類似または同一の内部シーケンスを有する、マージされたリードの集合は、一意のセットにグルーピングされる。次いで、一意のセット毎の代表のマージされた一意のリードが、選択される。例えば、代表のマージされた一意のリード２３１、２３２、および２３３は、例えば、分子バーコードおよび内部シーケンスに基づいて、マージされたリードを一意のセットにグルーピング後、２０１に関する対合端シーケンスリードのために生成される。同様に、代表のマージされた一意のリード２３４および２３５は、２０２に関する対合端シーケンスリードのために生成される。代表のマージされた一意のリード２３６、２３７、および２３８は、２０３に関する対合端シーケンスリードのために生成される。

代替として、一意のシーケンス（バーコードおよび内部シーケンスの組み合わせに基づく）が、対合端リードのセットの中から判定される。次いで、対合端リードは、マージされ、代表のマージされた一意のシーケンスリードを生成する。

対合端シーケンスリードのセンス鎖は、対合端シーケンスリードのアンチセンス鎖とマージされる。例えば、対合端シーケンスリードは、アンチパラレルとなるように再配向され、次いで、マージされ、マージされたリードまたはメイトペアを形成する。メイトペアまたはマージされたリードは、重複領域を有する、センス鎖およびアンチセンス鎖を含む。重複領域は、少なくとも約１個の塩基、２個の塩基、３個の塩基、４個の塩基、５個の塩基、１０個の塩基、１５個の塩基、２０個の塩基、２５個の塩基、３０個の塩基、３５個の塩基、４０個の塩基、４５個の塩基、５０個の塩基、５５個の塩基、６０個の塩基、６５個の塩基、７０個の塩基、７５個の塩基、８０個の塩基、８５個の塩基、９０個の塩基、９５個の塩基、または１００個の塩基を含んでもよい。重複領域内の鎖間の塩基の同一性は、少なくとも約５％、１０％、１５％、２０％、２５％、３０％、３５％、４０％、４５％、５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９５％、またはそれを上回ることができる。ある場合には、所与の重複領域は、少なくとも約９０％の同一性を鎖間に伴う、少なくとも１５個の塩基を含むことができる。他の場合には、重複は、少なくとも９０％の同一性を鎖間に伴う、少なくとも１９個の塩基を含むことができる。重複領域は、スライディングウィンドウ分析を使用するとき、強ピークによって代表される。例えば、重複領域は、重複領域の各末端上の塩基を含むようにスライディングされ、鎖間の同一性が、両鎖が相互に相互に完全に重複するまで算出される。鎖間の同一性は、同一性のパーセンテージとして算出される。同一性のパーセンテージは、ピークの高さに正比例する。単一強ピークを伴う、マージされたリードまたはメイトペアが、さらなる分析のために選択される。

図１に戻って参照すると、１０３では、マージされたリードの両鎖が、トリミングされ、重複領域内の３´末端におけるシーケンスの少なくとも一部を除去してもよい。例えば、３´末端における重複領域内のシーケンスの半分が、除去され、低シーケンス品質を伴う塩基、３´末端上の分子バーコード、および任意の誤アライメントを除外することができる。本ステップは、シーケンシング誤差を低減させる際に有用である。

１０４では、マージされたリードまたは代表のマージされたリード（処理ステップに応じて）を含む、処理されたリードが、マッピングツールを使用して、参照シーケンスにアライメントされ、その非限定的実施例は、Ｂｕｒｏｗ’ｓＷｈｅｅｌｅｒＴｒａｎｓｆｏｒｍ（ＢＷＡ）、Ｎｏｖｏａｌｉｇｎ、Ｂｏｗｔｉｅを含み得る。マッピングツールは、使用されるアライメントパラメータ、参照シーケンス上の代表のマージされた一意のリードの位置（座標等）、およびマッピングの品質スコアを記述するアライメントファイルを生成する。シーケンシングリードと参照シーケンスとの間で許容される差異の数、許容されるギャップの数およびギャップオープニングペナルティ、ギャップ拡張の数、および同等物等のアライメントパラメータは、ユーザによって定義されてもよい。

１つの事例では、デフォルトアライメントパラメータを伴う、ＢＷＡマッピングツールは、処理されたリードをｈｇ１９等のヒト基準ゲノムにアライメントさせるために使用される。ＢＷＡツールは、アライメント統計を含む、ＢＡＭファイルである、出力ファイルを提供する。アライメント統計は、処理されたリードがアライメントされる、参照シーケンスの座標を含んでもよい。アライメント統計はまた、参照シーケンスにマッピングされるとき、ＭａｐＱスコアを提供し、処理されたリードの一意性を知らせてもよい。処理されたリードは、次いで、分子バーコードおよび参照シーケンス上の座標を使用して、ソートされてもよい。

いくつかの実施形態では、核酸シーケンシング装置からの遺伝子シーケンスリードは、処理されず、参照シーケンスにアライメントまたはマッピングされてもよい。

処理されたリードは、ファミリーにグルーピングされてもよい。ファミリーは、同一のオリジナルのタグ付けされたポリヌクレオチド分子から生じるリードを含む。処理されたリードはまた、同一マッピング座標を参照シーケンス上に有する。例えば、一対の分子バーコード（例えば、標識１および標識２）と、参照シーケンス上の同一座標にアライメントされる、内因性シーケンス（例えば、染色体１上の１２００～１５００）とを有する、処理されたリードは、ファミリーにグルーピングされてもよい。いくつかの実施形態では、各ファミリーは、（「ファミリーコンセンサスシーケンス」）コンセンサスシーケンスによって表されてもよい。処理されたリードは、処理されたリードが、同一分子バーコードと、ファミリー内のリードの残りに類似する基準ゲノム上の少なくとも１つの末端位置とを有する場合、ファミリーに追加されてもよい。例えば、処理されたリードは、同一分子バーコードおよび同一の開始位置を有し得るが、停止位置が、所定のヌクレオチド範囲内にあり得る。処理されたリードが、短縮に応じて、同一短縮停止シーケンスを有する場合、処理されたリードは、同一ファミリーにグルーピングされる。

同様に、処理されたリードは、同一分子バーコードおよび同一停止位置を有し得るが、開始位置が、所定のヌクレオチド範囲内にあり得る。処理されたリードが、短縮に応じて、同一短縮開始シーケンスを有する場合、処理されたリードは、同一ファミリーにグルーピングされる。

処理されたリードは、短縮され、ホモポリマー中の重複ヌクレオチドを除去することができる。ホモポリマー中の重複ヌクレオチドは、２個のヌクレオチド、３個のヌクレオチド、４個のヌクレオチド、５個のヌクレオチド、６個のヌクレオチド、７個のヌクレオチド、８個のヌクレオチド、９個のヌクレオチド、１０個のヌクレオチド、２０個のヌクレオチド、３０個のヌクレオチド、４０個のヌクレオチド、または５０個のヌクレオチド未満の所定の範囲内で除去されることができる。ある場合には、所定の範囲は、ヌクレオチド１０個未満であることができる。ある場合には、所定の範囲は、ヌクレオチド７個未満であることができる。ある場合には、所定の範囲は、ヌクレオチド５個未満であることができる。ある場合には、所定の範囲は、ヌクレオチド３個未満であることができる。１つの事例では、所定の範囲は、４個のヌクレオチドである。短縮に応じて、末端シーケンス内の少なくとも７個のヌクレオチドが、代表のマージされた一意のリードの残りと参照シーケンス上の同一位置にマッピングされる場合、短縮リードは、同一ファミリーにグルーピングされる。マージされたリードの短縮は、例えば、シーケンスリードの末端におけるシーケンシング誤差に起因して生産されるファミリーの数を低減させる。

ある実施形態では、１つまたはそれを上回るホモポリマーが、開始シーケンスおよび／または停止シーケンスに存在し得る。１つまたはそれを上回るホモポリマーは、処理されたリード内の任意の場所に存在し得る。いくつかの実施形態では、ホモポリマーは、ポリ（ｄＡ）またはポリ（ｄＴ）を含み得る。他の実施形態では、ホモポリマーは、ポリ（ｄＧ）またはポリ（ｄＣ）を含み得る。

実施例として、２つの処理されたリードに関して、第１の処理されたリードの開始位置が、第２の処理されたリードの開始位置５個のヌクレオチド未満等の所定の範囲内にあって、第１の処理されたリードの短縮シーケンスの最初の７個の塩基が、第２の処理されたリードの短縮シーケンスの最初の７個の塩基と同じであって、第１の処理されたリードおよび第２の処理されたリードの末端位置が、同じである場合、これらのリードは、同一ファミリーにグルーピングされることができる。同様に、第１の処理されたリードの末端位置が、第２の処理されたリードの末端位置の５個のヌクレオチド未満等の所定の範囲内にあって、第１の処理されたリードの短縮シーケンスの最後の７個の塩基が、第２の処理されたリードの短縮シーケンスの最後の７個の塩基と同じであって、第１の処理されたリードおよび第２の処理されたリードの開始位置が、同じである場合、これらのリードは、同一ファミリーにグルーピングされることができる。

処理されたリードを伴うファミリーは、参照シーケンスにアライメントされ、参照シーケンスに連続的にアライメントされない、分割リードを識別することができる。例えば、各分割リードは、サブシーケンスによって特徴付けられることができる。第１のサブシーケンスは、第１の遺伝子座にマッピングされる一方、第２のサブシーケンスは、第２の遺伝子座にマッピングされる。第１の遺伝子座は、第２の遺伝子座とは別個の。第１のサブシーケンスは、第１の切断点に隣接する第１の遺伝子座にマッピングされ、第２のサブシーケンスマップは、第２の切断点に隣接する第２の遺伝子座にマッピングされる。第１の切断点および第２の切断点は、切断点ペアを形成することができる。

例えば、図３に示されるように、ファミリー内の分割リードは、参照シーケンス３０１にマッピングされる。第１のファミリー３０２は、第１のセットの分割リード３０３、３０４、および３０５を含む。第２のファミリー３０６は、第２のセットの分割リード３０７および３０８を含む。第３のファミリー３０９は、第３のセットの分割リード３１０、３１１、および３１２を含む。第４のファミリー３１３は、第４のセットの分割リード３１４および３１５を含む。

第１のセットの分割リードおよび第２のセットの分割リードは、第１の切断点ペア３１６および３１７に隣接する遺伝子座にマッピングされる。第３のセットの分割リードは、第２の切断点ペア３１６および３１８に隣接する遺伝子座にマッピングされる。第４のセットの分割リードは、切断点３１６、３１７または３１８に隣接する任意の遺伝子座にマッピングされない。

いくつかの実施形態では、ファミリーからの分割リードコンセンサスシーケンスは、切断点ペアの周囲にクラスタ化し、融合クラスタを形成し得る。例えば、第１のファミリー３０２は、第１の分割リードコンセンサスシーケンス３１９によって代表される。第２のファミリー３０６は、第２の分割リードコンセンサスシーケンス３２０によって代表される。第３のファミリー３０９は、第３の分割リードコンセンサスシーケンス３２１によって代表される。第４のファミリー３１３は、第４の分割リードコンセンサスシーケンス３２２によって代表される。第１のファミリー３０２、第２のファミリー３０６、および第３のファミリー３０９は、切断点ペアの周囲にクラスタ化する一方、第４のファミリー３１３は、クラスタ化しない。

いくつかの実施形態では、融合クラスタは、切断点ペア上のコンセンサスシーケンスのマッピングに基づいて検出される。例えば、図３におけるように、第１の分割リードコンセンサスシーケンス３１９、第２の分割リードコンセンサスシーケンス３２０、および第３の分割リードコンセンサスシーケンス３２１は、融合クラスタ３２３を形成する。しかしながら、第４の分割リードコンセンサスシーケンス３２２は、融合クラスタ３２３内に含まれない。これらの分割リードコンセンサスシーケンスは、個別の切断点１４８間の距離が、所定の切断点距離未満である、例えば、ヌクレオチド１０個未満であるため、本実施形態では、融合クラスタ内に含まれる。コンセンサス切断点は、例えば、融合クラスタ内の主要切断点（図３における切断点３１６および３１７）に基づいてコールされることができる。

他の実施形態では、類似切断点ペアを有する、分割リードを含むファミリーは、融合クラスタにグルーピングされてもよい。例えば、図３におけるように、第１のファミリー３０２、第２のファミリー３０６、および第３のファミリー３０９は、類似切断点ペアの周囲にクラスタ化する。これらのファミリーは、個別の切断点１４８間の距離が、所定の切断点距離未満である、例えば、ヌクレオチド１０個未満であるため、本実施形態では、融合クラスタ内に含まれる。コンセンサス切断点は、例えば、融合クラスタ内の主要切断点に基づいてコールされることができる。

いったんコンセンサス切断点ペアが、識別されると、挿入、欠失、または融合等の遺伝子バリアントが、検出されることができる。

遺伝子融合からの挿入および欠失（インデル）を区別するステップが、例えば、コンピュータによって実行されるアルゴリズムを使用して実施されることができる。アルゴリズムは、限定ではないが、（１）切断点ペア間の距離、（２）同一染色体上の切断点の場所、（３）同一または異なる配向内のサブシーケンス、および／または（４）正常または逆転ゲノム順序におけるサブシーケンスを含む、１つまたはそれを上回る要因を考慮することができる。切断点が、異なる染色体上で生じる場合、バリアントは、常時、融合と見なされるであろう。切断点が、同一染色体上にあるが、サブシーケンスが、異なる（対向）５´－３´配向にある場合、バリアントはまた、融合、またはある場合には、反転と見なされるであろう。切断点が、同一染色体上にあって、サブシーケンスが、同一５´－３´配向にある場合、バリアントは、切断点ペア間の距離が、所定の最大距離未満（例えば、遺伝子内において、ヌクレオチド５，０００個未満、ヌクレオチド４，０００個未満、ヌクレオチド３，０００個未満、ヌクレオチド２，０００個未満、またはヌクレオチド１，０００個未満である）である場合、挿入または欠失としてコールされることができ、そうでなければ、融合としてコールされるであろう。上記の基準を使用して判定された挿入および欠失は、サブシーケンスが、正常ゲノム順序（すなわち、染色体上のサブシーケンスの正常順序が、Ａ－Ｂである場合、標的分子内の順序もまた、Ａ－Ｂであって、そのような場合、欠失としてコールされる）または逆転ゲノム順序（すなわち、染色体上のサブシーケンスの正常順序が、Ａ－Ｂである場合、標的分子内の順序は、Ｂ－Ａであって、そのような場合、挿入としてコールされる）にあるかどうかに基づいて、相互からさらに区別されることができる。上記のルールが、欠失を確立した場合、実際の欠失されたシーケンスが、２つの切断点間にある。上記のルールが、挿入を確立した場合、２つの切断点間のシーケンスのコピーが、切断点のうちの１つの隣に挿入される（すなわち、２つの切断点間のシーケンスは、重複される）。サブシーケンスは、ファミリー内の分割リードのシーケンスまたはファミリーコンセンサスシーケンスのシーケンスを指し得る。

いくつかの実施形態では、切断点ペア間の所定の最大距離は、ヌクレオチド５，０００個未満、ヌクレオチド４，５００個未満、ヌクレオチド４，０００個未満、ヌクレオチド３，５００個未満、ヌクレオチド３，０００個未満、ヌクレオチド２，５００個未満、ヌクレオチド２，０００個未満、ヌクレオチド１，５００個未満、ヌクレオチド１，０００個未満、ヌクレオチド５００個未満、またはヌクレオチド２５０個未満であってもよい。いくつかの実施形態では、切断点ペア間の所定の最大距離は、標的着目遺伝子内の領域のヌクレオチドの数未満（例えば、ＭＥＴ内のエクソン１４の長さ未満）である。

ある実施形態では、本明細書に開示されるシステムおよび方法は、特に、中サイズのインデル（例えば、２１～５０個のヌクレオチドのもの等）および／または長インデル（例えば、５０個を上回るヌクレオチド、１００個を上回るヌクレオチド、５００個を上回るヌクレオチド、１，０００個を上回るヌクレオチド、２，０００個を上回るヌクレオチド、３，０００個を上回るヌクレオチド、４，０００個を上回るヌクレオチド、５，０００個を上回るヌクレオチド、１０，０００個を上回るヌクレオチドのもの、エクソンおよび／またはイントロン全体、もしくは遺伝子全体等）を検出するために有用である。

いくつかの実施形態では、挿入および／または欠失は、限定ではないが、ＡＰＣ、ＡＲＩＤ１Ａ、ＡＲＩＤ１Ｂ、ＡＴＭ、ＢＲＣＡ１、ＢＲＣＡ２、ＣＤＨ１、ＣＤＫＮ２Ａ、ＥＧＦＲ、ＥＲＢＢ２、ＦＭＮ２、ＧＡＴＡ３、ＫＩＴ、ＭＥＴ、ＭＥＣＰ２、ＭＬＨ１、ＭＴＯＲ、ＮＦ１、ＰＤＧＦＲＡ、ＰＧＡＰ３、ＰＲＯＤＨ、ＰＴＥＮ、ＲＢ１、ＳＭＡＤ４、ＳＲＤ５Ａ３、ＳＴＫ１１、ＴＰ５３、ＴＳＣ１、ＶＨＬ、およびＵＢＥ３Ａから成る群を含む、遺伝子内で生じ得る。いくつかの実施形態では、挿入および／または欠失は、限定ではないが、ＥＧＦＲ（エクソン１８－２１）、ＥＲＢＢ２（エクソン１９および２０）、ＥＳＲ１（エクソン１０）、ＭＥＴ（エクソン１３－１４およびイントロン１３－１４）、ＢＲＡＦ（エクソン１５）、ＣＴＮＮＢ１（エクソン３）、ＦＧＦＲ２（エクソン６）、ＧＡＴＡ２（エクソン５－６）、ＧＮＡＳ（エクソン８）、ＩＤＨ１（エクソン４）、ＩＤＨ２（エクソン４）、ＫＩＴ（エクソン１－２１）、ＫＲＡＳ（エクソン２－３）、ＮＲＡＳ（エクソン２－３）、ＰＩＫ３ＣＡ（エクソン１０および２１）、ＰＴＥＮ（エクソン５）、ＳＭＡＤ４（エクソン１２）、ＴＰ５３（エクソン４－８および１１）を含む、遺伝子内で生じ得る。ある実施形態では、挿入および／または欠失は、限定ではないが、フレームシフト突然変異、非フレームシフト突然変異、反転（染色体再編成）、全体的エクソン欠失、および／または縦列重複を含んでもよい。

いくつかの実施形態では、融合は、融合クラスタ内に含まれるファミリーコンセンサスシーケンスが、挿入および／または欠失をコールするための基準のいずれかまたは全てを満たすことができないときにコールされることができる。

挿入および／または欠失ならびに／もしくは融合をコールするためのアルゴリズムは、処理されたリードを参照シーケンスにマッピングし、一意のリード識別子を処理されたリードに割り当てるステップを含んでもよい。処理されたリードのアライメントに基づいて、切断点および切断点ペアが、参照シーケンス上で判定され、融合を有する、処理されたリードを判定する。切断点および切断点ペアは、切断点ＩＤと、切断点および切断点ペアにアライメントされる処理されたリードの数とによって報告されてもよい。類似切断点を有する、処理されたリードは、コンセンサス切断点ペアに基づいて、ファミリーにグルーピングされる。ファミリーのリードまたはファミリーのコンセンサスシーケンスが、次いで、相互から所定の切断点距離内の切断点に基づいて、融合クラスタにグルーピングされる。参照シーケンス内の切断点間の所定の切断点距離は、ヌクレオチド２５個未満またはヌクレオチド１０個またはヌクレオチド５個未満であってもよい。

融合を伴う処理されたリードは、参照シーケンスに連続的にマッピングされることができない。融合を伴う処理されたリード内の切断点は、マッピングされた部分と、参照シーケンスに連続的にマッピングされることができない、クリッピングされた部分とを含むことができる。融合は、処理されたリードが、少なくとも２つの切断点にマッピングされ、かつ同一鎖（例えば、５´鎖または３´鎖）にマッピングされるときにコールされる。処理されたリード内の融合は、全ての切断点のうち、最も多くのアライメントされ、処理されたリードを有する、切断点が、融合切断点としてコールされる、投票方法を使用して、判定されることができる。異なる処理されたリードの切断点は、品質アルゴリズムを使用して加重されてもよい。

いくつかの実施形態では、検出された融合は、限定ではないが、ＡＬＫ、ＦＧＦＲ２、ＦＧＦＲ３、ＴＲＫ１、ＲＥＴ、および／またはＲＯＳ１から成る群を含む、遺伝子と関連付けられてもよい。

システムおよび方法は、特に、無細胞ＤＮＡの分析において有用であり得る。無細胞ＤＮＡは、癌を伴わない対象、癌のリスクがある対象、または癌を有することが既知の対象（例えば、他の手段を通して）等の任意の数の対象から抽出されてもよい。

いくつかの実施形態では、本開示の方法は、挿入および／または欠失ならびに／もしくは融合を有する、もしくは有していない、ポリヌクレオチド分子のインジケーションを提供する、報告を電子フォーマットで生成するステップを含んでもよい。

用語「ポリヌクレオチド」または「ポリヌクレオチドシーケンス」または「ポリヌクレオチド分子」は、本明細書で使用されるように、概して、１つまたはそれを上回る核酸サブユニットを含む、分子を指す。ポリヌクレオチドは、アデノシン（Ａ）、シトシン（Ｃ）、グアニン（Ｇ）、チミン（Ｔ）およびウラシル（Ｕ）、またはそのバリアントから選択された１つまたはそれを上回るサブユニットを含むことができる。ヌクレオチドは、Ａ、Ｃ、Ｇ、Ｔ、またはＵ、もしくはそのバリアントを含むことができる。ヌクレオチドは、成長核酸鎖の中に組み込まれ得る、任意のサブユニットを含むことができる。そのようなサブユニットは、１つまたはそれを上回る相補的Ａ、Ｃ、Ｇ、Ｔ、またはＵに特有であるか、またはプリン（すなわち、ＡまたはＧ、もしくはそのバリアント）またはピリミジン（すなわち、Ｃ、ＴまたはＵ、もしくはそのバリアント）に相補的である、Ａ、Ｃ、Ｇ、Ｔ、またはＵ、もしくは任意の他のサブユニットであることができる。サブユニットは、個々の核酸塩基または塩基群（例えば、ＡＡ、ＴＡ、ＡＴ、ＧＣ、ＣＧ、ＣＴ、ＴＣ、ＧＴ、ＴＧ、ＡＣ、ＣＡ、またはそのウラシル対応物）が分解されることを可能にすることができる。いくつかの実施例では、ポリヌクレオチドは、デオキシリボ核酸（ＤＮＡ）またはリボ核酸（ＲＮＡ）、もしくはその誘導体である。ポリヌクレオチドは、一本鎖または二本鎖であることができる。

ポリヌクレオチドは、癌と関連付けられたシーケンスを含むことができる。癌関連シーケンスは、一塩基多型（ＳＮＶ）、コピー数多型（ＣＮＶ）、挿入、欠失、および／または再編成を含むことができる。

用語「対象」は、本明細書で使用されるように、概して、哺乳類種（例えば、ヒト）または鳥類（例えば、トリ）種等の動物、もしくは植物等の他の生命体を指す。より具体的には、対象は、脊椎動物、哺乳類、マウス、霊長類、類人猿、またはヒトであることができる。動物として、限定ではないが、家畜動物、スポーツ動物、およびペットが挙げられる。対象は、健康な個人、疾患または疾患に対する素因を有する、もしくは有すると疑われる、個人、または療法の必要があるもしくは療法の必要があると疑われる、個人であることができる。対象は、患者であることができる。

シーケンシング方法は、限定ではないが、Ｓａｎｇｅｒシーケンシング、高スループットシーケンシング、パイロシーケンシング、合成によるシーケンシング、単分子シーケンシング、ナノ細孔シーケンシング、半導体シーケンシング、ライゲーションによるシーケンシング、ハイブリダイゼーションによるシーケンシング、ＲＮＡ－Ｓｅｑ（Ｉｌｌｕｍｉｎａ）、デジタル遺伝子発現（Ｈｅｌｉｃｏｓ）、次世代シーケンシング、合成による単分子シーケンシング（ＳＭＳＳ）（Ｈｅｌｉｃｏｓ）、超並列シーケンシング、クローン単分子アレイ（Ｓｏｌｅｘａ）、ショットガンシーケンシング、Ｍａｘｉｍ－Ｇｉｌｂｅｒｔシーケンシング、プライマーウォーキング、ＰａｃＢｉｏ、ＳＯＬｉＤ、ＩｏｎＴｏｒｒｅｎｔ、またはナノ細孔プラットフォームを使用したシーケンシング、および当技術分野において公知の任意の他のシーケンシング方法を含んでもよい。

無細胞ＤＮＡシーケンスのシーケンシングデータが、シーケンシングリードとして収集された後、１つまたはそれを上回るバイオインフォマティクスプロセスが、シーケンシングリードに適用されてもよい。付加的バイオインフォマティクスプロセスは、同時に、または続いて、コピー数多型、稀な突然変異体（例えば、一塩基多型または多塩基多型）、または、限定ではないが、メチル化プロファイルを含む、エピジェネティクスマーカにおける変化等の遺伝子特徴または異常を検出するために適用されてもよい。

限定ではないが、核酸シーケンシング、核酸定量化、シーケンシング最適化、遺伝子発現の検出、遺伝子発現の定量化、ゲノムプロファイリング、癌プロファイリング、または代表されるマーカの分析を含む、種々の異なる反応および動作が、本明細書に開示されるシステムおよび方法内で生じ得る。さらに、本システムおよび方法は、多数の医療用途を有する。例えば、癌を含む、種々の遺伝子および非遺伝子疾患ならびに障害の識別、検出、診断、処置、病期分類、またはリスク予測のために使用されてもよい。遺伝子および非遺伝子疾患の異なる処置に対する対象応答を査定するか、または疾患進行度および予後に関する情報を提供するために使用されてもよい。

故に、全ての本開示の実施形態は、を挿入および／または欠失ならびに／もしくは融合を含む、遺伝子バリアントを判定するための方法として実装されることができる。いくつかの実施形態では、これらの遺伝子は、種々の遺伝子および非遺伝子疾患の識別、検出、診断、処置、病期分類、またはリスク予測のために使用されることができる。いくつかの実施形態では、疾患は、癌である。
（コンピュータシステム）

本開示の方法は、コンピュータシステムを使用して、またはその助けを借りて、実装されることができる。例えば、（ｉ）対合端シーケンスリードの重複領域をマージし、一意のシーケンスを生成し、（ｉｉ）一意のシーケンスリードを参照シーケンスにマッピングし、（ｉｉｉ）一意のシーケンスリードをファミリーにグルーピングし、（ｉｖ）ファミリーの一意のシーケンスリードを融合クラスタにグルーピングし、および／または（ｖ）融合クラスタを挿入および／または欠失ならびに／もしくは融合を含むとしてコールする、方法が、コンピュータプロセッサを用いて実施されることができる。図４は、本開示の方法を実装するようにプログラムまたは別様に構成される、コンピュータシステム４０１を示す。コンピュータシステム４０１は、サンプル調製、シーケンシング、および／または分析の種々の側面を調整することができる。いくつかの実施例では、コンピュータシステム４０１は、核酸シーケンシングを含む、サンプル調製およびサンプル分析を実施するように構成される。

コンピュータシステム４０１は、単一コアまたはマルチコアプロセッサ、もしくは並列処理用の複数のプロセッサであり得る、中央処理装置（ＣＰＵ、本明細書ではまた、「プロセッサ」および「コンピュータプロセッサ」）４０５を含む。コンピュータシステム４０１はまた、メモリまたはメモリ場所４１０（例えば、無作為アクセスメモリ、読取専用メモリ、フラッシュメモリ）、電子記憶ユニット４１５（例えば、ハードディスク）、１つまたはそれを上回る他のシステムと通信するための通信インターフェース４２０（例えば、ネットワークアダプタ）、ならびにキャッシュ、他のメモリ、データ記憶装置、および／または電子ディスプレイアダプタ等の周辺デバイス４２５も含む。メモリ４１０、記憶ユニット４１５、インターフェース４２０、および周辺デバイス４２５は、マザーボード等の通信ネットワークまたはバス（実線）を通してＣＰＵ４０５と通信する。記憶ユニット４１５は、データを記憶するためのデータ記憶ユニット（またはデータレポジトリ）であり得る。コンピュータシステム４０１は、通信インターフェース４２０の助けを借りて、コンピュータネットワーク４３０に動作可能に結合されることができる。コンピュータネットワーク４３０は、インターネット、インターネットおよび／またはエクストラネット、もしくはインターネットと通信しているイントラネットおよび／またはエクストラネットであり得る。コンピュータネットワーク４３０は、ある場合には、電気通信および／またはデータネットワークである。コンピュータネットワーク４３０は、クラウドコンピューティング等の分散コンピューティングを可能にし得る、１つまたはそれを上回るコンピュータサーバを含むことができる。ネットワーク４３０は、ある場合には、コンピュータシステム４０１の助けを借りて、コンピュータシステム４０１に結合されたデバイスがクライアントまたはサーバとして挙動することを可能にし得る、ピアツーピアネットワークを実装することができる。

ＣＰＵ４０５は、プログラムまたはソフトウェアで具現化され得る、一連の機械可読命令を実行することができる。命令は、メモリ４１０等のメモリ場所に記憶されてもよい。ＣＰＵ４０５によって行われる動作の実施例は、フェッチ、解読、実行、およびライトバックを含むことができる。

記憶ユニット４１５は、ドライバ、ライブラリ、および保存されたプログラム等のファイルを記憶することができる。記憶ユニット４１５は、ユーザによって生成されたプログラムおよび記録されたセッションならびにプログラムと関連づけられた出力を記憶することができる。記憶ユニット４１５は、ユーザデータ、例えば、ユーザ選好およびユーザプログラムを記憶することができる。コンピュータシステム４０１は、ある場合には、イントラネットまたはインターネットを通してコンピュータシステム４０１と通信している遠隔サーバ上に位置するもの等の、コンピュータシステム４０１の外部にある１つまたはそれを上回る付加的データ記憶ユニットを含むことができる。

コンピュータシステム４０１は、ネットワーク４３０を通して１つまたはそれを上回る遠隔コンピュータシステムと通信することができる。例えば、コンピュータシステム４０１は、ユーザの遠隔コンピュータシステム（例えば、オペレータ）と通信することができる。遠隔コンピュータシステムの実施例は、パーソナルコンピュータ（例えば、ポータブルＰＣ）、スレートまたはタブレットＰＣ（例えば、Ａｐｐｌｅ（登録商標）ｉＰａｄ（登録商標）、Ｓａｍｓｕｎｇ（登録商標）ＧａｌａｘｙＴａｂ）、電話、スマートフォン（例えば、Ａｐｐｌｅ（登録商標）ｉＰｈｏｎｅ（登録商標）、Ａｎｄｒｏｉｄ対応デバイス、Ｂｌａｃｋｂｅｒｒｙ（登録商標））、または携帯情報端末を含む。ユーザは、ネットワーク４３０を介してコンピュータシステム４０１にアクセスすることができる。

本明細書に説明されるような方法は、例えば、メモリ４１０または電子記憶ユニット４１５上等のコンピュータシステム４０１の電子記憶場所上に記憶された機械（例えば、コンピュータプロセッサ）実行可能コードを介して実装されることができる。機械実行可能または機械可読コードは、ソフトウェアの形態で提供されることができる。使用中に、コードは、プロセッサ４０５によって実行されることができる。ある場合には、コードは、記憶ユニット４１５から読み出され、プロセッサ４０５による容易なアクセスのためにメモリ４１０上に記憶されることができる。ある状況では、電子記憶ユニット４１５は、排除されることができ、機械実行可能命令が、メモリ４１０上に記憶される。

コードは、コードを実行するように適合されるプロセッサを有する機械と併用するために事前にコンパイルおよび構成されることができるか、または実行時間中にコンパイルされることができる。コードは、事前コンパイルされた、またはコンパイルされた時点の様式で、コードが実行されることを可能にするように選択され得る、プログラミング言語で供給されることができる。

コンピュータシステム４０１等の本明細書で提供されるシステムおよび方法の側面は、プログラミングで具現化されることができる。本技術の種々の側面は、典型的には、一種の機械可読媒体上で搬送されるか、またはその中で具現化される、機械（もしくはプロセッサ）実行可能コードおよび／または関連データの形態の「製品」もしくは「製造品」と考えられてもよい。機械実行可能コードは、メモリ（例えば、読取専用メモリ、無作為アクセスメモリ、フラッシュメモリ）またはハードディスク等の電子記憶ユニット上に記憶されることができる。「記憶」型媒体は、ソフトウェアプログラミングのためにいかなる時でも非一過性の記臆装置を提供し得る、コンピュータ、プロセッサ、もしくは同等物の有形メモリ、または種々の半導体メモリ、テープドライブ、ハードドライブ、および同等物等のそれらの関連モジュールのうちのいずれかもしくは全てを含むことができる。

ソフトウェアの全てまたは部分は、時として、インターネットまたは種々の他の電気通信ネットワークを通して通信されてもよい。そのような通信は、例えば、１つのコンピュータまたはプロセッサから別のコンピュータまたはプロセッサへ、例えば、管理サーバまたはホストコンピュータからアプリケーションサーバのコンピュータプラットフォームへのソフトウェアのロードを可能にし得る。したがって、ソフトウェア要素を持ち得る別のタイプの媒体は、ローカルデバイス間の物理的インターフェースを横断し、有線および光学地上通信線ネットワークを通し、かつ種々のエアリンクを経由して使用されるような光波、電波、および電磁波を含む。有線もしくは無線リンク、光学リンク、または同等物等のそのような波動を搬送する物理的要素もまた、ソフトウェアを持つ媒体と見なされてもよい。本明細書で使用されるように、非一過性の有形「記憶」媒体に制限されない限り、コンピュータまたは機械「可読媒体」等の用語は、実行のために命令をプロセッサに提供することに参加する任意の媒体を指す。

したがって、コンピュータ実行可能コード等の機械可読媒体は、有形記憶媒体、搬送波媒体、または物理的伝送媒体を含むが、それらに限定されない、多くの形態を成してもよい。不揮発性記憶媒体は、例えば、図面に示されるデータベース等を実装するために使用されるような、任意のコンピュータまたは同等物の中の記憶デバイスのうちのいずれか等の光学または磁気ディスクを含む。揮発性記憶媒体は、そのようなコンピュータプラットフォームのメインメモリ等のダイナミックメモリを含む。有形伝送媒体は、同軸ケーブル、すなわち、コンピュータシステム内のバスを含むワイヤを含む、銅線および光ファイバを含む。搬送波伝送媒体は、電気もしくは電磁信号、または高周波（ＲＦ）および赤外線（ＩＲ）データ伝送中に生成されるもの等の音波もしくは光波の形態をとってもよい。コンピュータ可読媒体の一般的な形態は、したがって、例えば、フロッピー（登録商標）ディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、ＣＤ－ＲＯＭ、ＤＶＤまたはＤＶＤ－ＲＯＭ、任意の他の光学媒体、パンチカード紙テープ、孔のパターンを伴う任意の他の物理的記憶媒体、ＲＡＭ、ＲＯＭ、ＰＲＯＭおよびＥＰＲＯＭ、ＦＬＡＳＨ－ＥＰＲＯＭ、任意の他のメモリチップまたはカートリッジ、データもしくは命令を輸送する搬送波、そのような搬送波を輸送するケーブルまたはリンク、もしくはコンピュータがプログラミングコードおよび／またはデータを読み取り得る任意の他の媒体を含む。コンピュータ可読媒体のこれらの形態の多くは、実行するために１つまたはそれを上回る命令の１つまたはそれを上回るシーケンスをプロセッサに搬送することに関与し得る。

コンピュータシステム４０１は、例えば、サンプル分析の１つまたはそれを上回る結果を提供するためのユーザインターフェース（ＵＩ）を含む、電子ディスプレイを含む、またはそれと通信することができる。ＵＩの実施例は、限定ではないが、グラフィカルユーザインターフェース（ＧＵＩ）およびウェブベースのユーザインターフェースを含む。
（用途）
Ａ．癌の早期検出

多数の癌が、本明細書に説明される方法およびシステムを使用して検出され得る。癌細胞は、大部分の細胞のように、古い細胞が死滅し、より新しい細胞によって置換される、代謝率によって特徴付けられることができる。概して、所与の対象内の血管系と接触する死滅細胞は、ＤＮＡまたはＤＮＡの断片を血流中に放出し得る。これはまた、疾患の種々の段階の間の癌細胞にも当てはまる。癌細胞はまた、疾患の段階に応じて、コピー数多型ならびに稀な突然変異体等の種々の遺伝子異常によっても特徴付けられ得る。本現象は、本明細書に説明される方法およびシステムを使用して、個人の癌の存在または不在を検出するために使用され得る。

例えば、癌のリスクのある対象からの血液が、採取され、本明細書に説明されるように調製され、無細胞ポリヌクレオチドの集団を生成してもよい。一実施例では、これは、無細胞ＤＮＡであり得る。本開示のシステムおよび方法は、存在するある癌内に存在し得る、稀な突然変異体またはコピー数多型を検出するために採用されてもよい。本方法は、疾患の症状または他の顕著な特徴の不在にもかかわらず、身体内の癌性細胞の存在を検出することに役立ち得る。

検出され得る、癌のタイプおよび数は、限定ではないが、血液癌、脳癌、肺癌、皮膚癌、鼻癌、喉癌、肝臓癌、骨癌、リンパ腫、膵臓癌、皮膚癌、腸癌、直腸癌、甲状腺癌、膀胱癌、腎臓癌、口腔癌、胃癌、固形腫瘍、異種腫瘍、同種腫瘍、および同等物を含んでもよい。

癌の早期検出では、稀な突然変異体検出またはコピー数多型検出を含む、本明細書に説明されるシステムまたは方法のいずれかは、癌を検出するために利用されてもよい。これらのシステムおよび方法は、癌を引き起こす、またはそこから生じ得る、任意の数の遺伝子異常を検出するために使用されてもよい。これらは、限定ではないが、突然変異体、稀な突然変異体、インデル、コピー数多型、転換、転座、反転、欠失、染色体不安定性、染色体構造改変、遺伝子融合、染色体融合、遺伝子切断、遺伝子増幅、遺伝子重複、染色体病変、ＤＮＡ病変、および癌を含んでもよい。

加えて、本明細書に説明されるシステムおよび方法はまた、ある癌を特性評価することに役立てるために使用されてもよい。本開示のシステムおよび方法から生産された遺伝子データは、施術者が、具体的形態の癌をより良好に特性評価することに役立つことを可能にし得る。多くの場合、癌は、組成および病期分類の両方において異種である。遺伝子プロファイルデータは、具体的サブタイプの診断または処置において重要であり得る、癌の具体的サブタイプの特性評価を可能にし得る。本情報はまた、対象または施術者に、癌の具体的タイプの予後に関する手掛かりを提供し得る。
Ｂ．癌処置、監視、および予後

本明細書に提供されるシステムおよび方法は、特定の対象におけるすでに既知の癌または他の疾患を処置または監視するために使用されてもよい。これは、対象または施術者のいずれかが、疾患の進行度に従って、処置オプションを適合させることを可能にし得る。本実施例では、本明細書に説明されるシステムおよび方法は、疾患の過程にある特定の対象の遺伝子プロファイルを構築するために使用されてもよい。いくつかの事例では、癌は、進行し、より侵襲性かつ遺伝子的に不安定になり得る。他の実施例では、癌は、良性、不活性、休止状態、または寛解状態のままであり得る。本開示のシステムおよび方法は、疾患進行度、寛解、または再発を判定する際に有用であり得る。

さらに、本明細書に説明されるシステムおよび方法は、特定の処置オプションの有効性を判定する際に有用であり得る。一実施例では、成功処置オプションは、より多くの癌が、死滅し、ＤＮＡを流出し得るため、処置が成功する場合、実際には、対象の血液中で検出されたインデルの量を増加させ得る。他の実施例では、これは、生じない場合がある。別の実施例では、おそらく、ある処置オプションは、癌の遺伝子プロファイルと経時的に相関され得る。本相関は、療法を選択する際に有用であり得る。加えて、癌が、処置後、寛解したと観察される場合、本明細書に説明されるシステムおよび方法は、残存疾患または疾患の再発を監視する際に有用であり得る。
Ｃ．他の疾患または疾患状態の早期検出および監視

本明細書に説明される方法およびシステムは、癌と関連付けられたインデルのみの検出に限定されなくてもよい。種々の他の疾患および感染症は、早期検出および監視に好適であり得る、他のタイプの状態をもたらし得る。例えば、ある場合には、遺伝子障害または感染性疾患は、ある遺伝子モザイク現象を対象内に引き起こし得る。本遺伝子モザイク現象は、観察され得る、コピー数多型および稀な突然変異体を引き起こし得る。

さらに、本開示のシステムおよび方法はまた、細菌またはウイルス等の病原によって生じ得るような全身性感染症自体を監視するめに使用されてもよい。インデル検出は、病原の集団が、感染症の過程の間、変化する状態を判定するために使用されてもよい。これは、特に、それによってウイルスが、感染症の過程の間、寿命サイクル状態を変化させ、および／またはより悪性形態に変異し得る、ＨＩＶ／ＡＩＤＳまたは肝炎感染症等の慢性感染症の間、重要であり得る。

さらに、本開示の方法は、対象内の異常状態の異質性を特性評価するために使用されてもよく、本方法は、対象内の細胞外ポリヌクレオチドの遺伝子プロファイルを生成するステップを含み、遺伝子プロファイルは、インデル分析から生じる複数のデータを含む。限定ではないが、癌を含む、ある場合には、疾患は、異種であり得る。疾患細胞は、同じではない場合がある。癌の実施例では、いくつかの腫瘍は、異なるタイプの腫瘍細胞を含み、いくつかの細胞が癌の異なる段階にあることが既知である。他の実施例では、異質性は、疾患の複数の病巣を含み得る。再び、癌の実施例では、複数の腫瘍病巣が存在し得、おそらく、１つまたはそれを上回る病巣は、一次部位から拡散した転移の結果である。

本開示の方法は、異種疾患における異なる細胞に由来する遺伝子情報の総和である、プロファイル、フィンガプリント、またはデータのセットを生成するために使用されてもよい。本データのセットは、単独で、または組み合わせて、コピー数多型および稀な突然変異体分析を含んでもよい。
Ｄ．他の疾患または胎児起源の疾患状態の早期検出および監視

加えて、本開示のシステムおよび方法は、癌または胎児起源の他の疾患を診断する、予後の判断を行う、監視するか、または観察するために使用されてもよい。すなわち、これらの方法論は、妊娠対象において、そのＤＮＡおよび他のポリヌクレオチドが母体分子と同時に循環し得る、未出生対象における癌または他の疾患を診断する、予後の判断を行う、監視するか、または観察するために採用されてもよい。

本発明の好ましい実施形態が、本明細書で示され、説明されているが、そのような実施形態は、一例のみとして提供されることが当業者に明白となるであろう。本発明が本明細書内で提供される具体的実施例によって限定されることは意図されない。本発明は、前述の明細書を参照して説明されているが、本明細書の実施形態の説明および例証は、限定的な意味で解釈されるように意図されていない。多数の変形例、変更、および代用が、ここで、本発明から逸脱することなく、当業者に想起されるであろう。さらに、本発明の全ての側面は、種々の条件および変数に依存する、本明細書に記載される具体的描写、構成、または相対的割合に限定されないことを理解されたい。本明細書に説明される本発明の実施形態の種々の代替物が、本発明を実践する際に採用され得ることを理解されたい。したがって、本発明はまた、任意のそのような代替物、修正、変形例、または均等物も網羅するものとすると考慮される。以下の請求項は、本発明の範囲を定義し、それにより、これらの請求項およびそれらの均等物の範囲内の方法および構造が対象となることが意図される。

（実施例１）
２７個の異なるサンプル中のＭＥＴエクソン１４スキッピング欠失の検出
患者サンプルのセットが、ＧｕａｒｄａｎｔＨｅａｌｔｈ，Ｉｎｃ．（ＲｅｄｗｏｏｄＣｉｔｙ，ＣＡ）によって開発された血液ベースのＤＮＡアッセイを使用して処理および分析された。シーケンスリードが、遺伝子バリアントに関して分析された。下記の表１に示されるように、セットの中の２７個の異なるサンプルが、融合クラスタを有すると検出された。

表１では、各行は、コンセンサス切断点ペアを伴う融合クラスタを代表する。融合クラスタは、（１）切断点ペアが、同一染色体、すなわち、染色体７番にマッピングされ、（２）サブシーケンスが同一５´－３´配向にあることが見出され、（３）、切断点位置１と２との間の距離が、所定の最大距離、この場合、３，２２２ヌクレオチド内にあって、加えて、（４）参照シーケンスと比較して、正常ゲノム順序にあることを含む、欠失をコールするための基準を満たす。シーケンスリードの基準アライメントは、検出された遺伝子バリアントがＭＥＴエクソン１４スキッピング欠失であることを示した。

Claims

明細書に記載の発明。