JP2023513315A

JP2023513315A - 融合事象を決定するための方法およびシステム

Info

Publication number: JP2023513315A
Application number: JP2022548660A
Authority: JP
Inventors: サンテネーレ，
Original assignee: ガーダントヘルス，インコーポレイテッド
Priority date: 2020-02-14
Filing date: 2021-02-12
Publication date: 2023-03-30
Also published as: WO2021163592A1; KR20220142466A; US20210375397A1; EP4104176A1; CA3166037A1; AU2021218731A1; CN115136241A

Abstract

融合事象を決定するための方法、システムおよび装置が記載される。一部の種類のがん、ならびに他の身体的または先天的事象は、細胞の複製メカニズムを破壊し、再編成または可変長のインデル（挿入もしくは欠失）を導入することにより基礎をなすＤＮＡを損傷させる。これらの事象の検出は、特に、高い特異性が求められる場合、旧来の融合コーラーが何千もの擬陽性を生じさせると予想されるに至るほど困難な問題であることは周知である。本明細書に記載される方法、システムおよび装置は、融合事象をコールする前に入力配列リードのデノボアセンブリを使用して高い感度および特異度で融合事象を検出する改善された能力を有する。

Description

相互参照
本願は、２０２０年２月１４日に出願した米国仮特許出願第６２／９７６，８８４号の優先日の利益を主張するものであり、この仮特許出願は、その全体があらゆる目的で参照により組み込まれる。

背景
がんは、世界中の主たる死亡原因の１つであり、その発生、無制限増殖、浸潤、および転移に関与する多様な経路の複数の遺伝子を有する不均一な複雑な疾患の一類である。がんの１つの顕著な特徴は、染色体転座、挿入、重複、欠失および逆位につながり得る遺伝子不安定性である。これらの遺伝子変異は、多くの場合、遺伝子融合を引き起こし、その結果として、融合ｍＲＮＡまたは融合転写物に転写される。しかし、そのような融合事象のデノボ検出は、特に、高い特異度が求められる場合、難易度が高い場合がある。アッセイレベルでも解析レベルでも導入される技術的アーチファクトが擬陽性をもたらし得るからである。これは、入力データがウルトラディープカバレッジでのアッセイにより生成された配列を含有する場合、悪化する。

したがって、全体的な感度に悪影響を及ぼすことなく特異度を大幅に増加させる、融合事象を検出するための改善されたシステムおよび方法が必要とされている。それ故、融合事象をコールする前に入力配列リードのデノボアセンブリによって融合事象を検出する改善された能力を有する、コンピューターにインプリメントされたシステムおよび方法を提供することが、本発明の目的である。

要旨
下記の一般的な説明と下記の詳細な説明の両方が、例示的かつ説明的なものに過ぎず、制限するものでないことを、理解されたい。融合事象を決定するための方法、システムおよび装置が本明細書に記載される。

ある実施形態では、複数の配列リードを参照配列にアラインさせるステップ、複数の配列リードの少なくとも１つの配列リードの参照配列へのアラインメントで１つまたは複数の切断点を決定するステップ、アラインメントで１つまたは複数の切断点に関連する任意の配列リードを候補融合配列リードとして同定するステップ、１つまたは複数の切断点のうちの共通の切断点に関連する候補融合配列リードを決定するステップ、１つまたは複数の共通の切断点に基づいて候補融合配列リードをグループ化するステップ、グループ内の候補融合配列リードを１つまたは複数のコンティグにアセンブルするステップ、グループからのコンティグを参照配列にアラインさせるステップ、グループからのコンティグのアラインメントに基づいて、１つまたは複数の候補融合事象を決定するステップ、１つまたは複数の候補融合事象に１つまたは複数の基準を適用するステップ、および１つまたは複数の候補融合事象に１つまたは複数の基準を適用するステップに基づいて、１つまたは複数の融合事象を決定するステップを含む方法が記載される。

別の実施形態では、複数の配列リードを参照配列にアラインさせるステップ；配列リードの参照配列へのアラインメントでの１つまたは複数の切断点に基づいて、複数の配列リードの１つまたは複数の候補融合配列リードを決定するステップ；１つまたは複数の共通の切断点に基づいて、１つまたは複数の候補融合配列リードを１つまたは複数のコンテナデータ構造にグループ化するステップ；各コンテナデータ構造について、１つまたは複数の候補融合配列リードを１つまたは複数のコンティグにアセンブルするステップ；各コンテナデータ構造について、１つまたは複数のコンティグを参照配列にアラインさせるステップ；および１つまたは複数の基準に基づいて、融合事象を示す１つまたは複数のアラインされたコンティグを決定するステップを含む方法が記載される。

ある特定の実施形態では、アラインメントで１つまたは複数の切断点に関連する任意の配列リードを候補融合配列リードとして同定するステップは、論理的であるアラインメントを破棄することを含む。ある特定の実施形態では、１つまたは複数の切断点のうちの共通の切断点に関連する候補融合配列リードを決定するステップは、少なくとも２つの候補融合配列リードが同じ染色体に、かつ同じ配向にある切断点を含むことを決定することを含む。ある特定の実施形態では、１つまたは複数の切断点のうちの共通の切断点に関連する候補融合配列リードを決定するステップは、少なくとも２つの候補融合配列リードが同じ位置にある切断点を含むことを決定することを含む。ある特定の実施形態では、１つまたは複数の切断点のうちの共通の切断点に関連する候補融合配列リードを決定するステップは、少なくとも２つの候補融合配列リードがある位置から閾値塩基数以内にある切断点を含むことを決定することを含む。ある特定の実施形態では、１つまたは複数の切断点のうちの共通の切断点に関連する候補融合配列リードを決定するステップは、少なくとも２つの候補融合配列リードが同じ染色体に、かつ同じ配向にある複数の切断点を含むことを決定することを含む。ある特定の実施形態では、１つまたは複数の切断点のうちの共通の切断点に関連する候補融合配列リードを決定するステップは、少なくとも２つの候補融合配列リードが同じ位置にある複数の切断点を含むことを決定することを含む。ある特定の実施形態では、１つまたは複数の切断点のうちの共通の切断点に関連する候補融合配列リードを決定するステップは、少なくとも２つの候補融合配列リード各々が複数の位置から閾値塩基数以内にある複数の切断点を含むことを決定することを含む。

ある特定の実施形態では、１つまたは複数の共通の切断点に基づいて候補融合配列リードをグループ化するステップは、グループについてのｄｅＢｒｕｉｊｎグラフを生成することを含む。ある特定の実施形態では、グループ内の候補融合配列リードを１つまたは複数のコンティグにアセンブルするステップは、ｄｅＢｒｕｉｊｎグラフを線形化してグループについてのコンティグを生成することを含む。ある特定の実施形態では、グループ内の候補融合配列リードを１つまたは複数のコンティグにアセンブルするステップは、１つまたは複数のエラー補正手順を行うことを含む。ある特定の実施形態では、１つまたは複数のエラー補正手順は、候補融合配列リードと参照配列の間のミスマッチを解消することを含む。ある特定の実施形態では、１つまたは複数のエラー補正手順は、少なくとも２つの候補融合配列リード間にパディングを挿入することを含む。ある特定の実施形態では、１つまたは複数のエラー補正手順は、閾値を超えるアラインされていない部分を有する１つまたは複数の候補融合配列リードを破棄することを含む。

ある特定の実施形態では、グループからのコンティグのアラインメントに基づいて１つまたは複数の候補融合事象を決定するステップが、フットプリント試験またはばらつき試験の１つまたは複数を適用することを含む。ある特定の実施形態では、フットプリント試験を適用することは、コンティグを支持する候補融合配列リードのファミリーの閾値数が切断点に及ぶことを決定することを含む。ある特定の実施形態では、ばらつき試験を適用することは、閾値ばらつき量が、コンティグを支持し切断点に及ぶ候補融合配列リードの少なくとも２つのファミリー間に存在することを決定することを含む。

ある特定の実施形態では、１つまたは複数の候補融合事象に１つまたは複数の基準を適用するステップは、候補融合事象について、１つまたは複数のアラインされたコンティグの切断点とパネルの少なくとも１つのプローブの位置との間の距離を決定すること；およびパネルの少なくとも１つのプローブの位置からの距離が閾値未満である切断点を含有しない１つまたは複数のコンティグのアラインされたコンティグに関連する任意の候補融合事象を破棄することを含む。ある特定の実施形態では、１つまたは複数の候補融合事象に１つまたは複数の基準を適用するステップは、目的の１つまたは複数の遺伝子を決定すること；および目的の１つまたは複数の遺伝子に関連する切断点を含有しない１つまたは複数のコンティグのアラインされたコンティグに関連する任意の候補融合事象を破棄することを含む。ある特定の実施形態では、１つまたは複数の候補融合事象に１つまたは複数の基準を適用するステップが、候補融合事象について、１つまたは複数のアラインされたコンティグの切断点が欠失であることを決定すること；および別の欠失から離れているいくつかの塩基内に位置する欠失を含む１つまたは複数のコンティグのアラインされたコンティグに関連する任意の候補融合事象を破棄することを含む、請求項１から２０のいずれか一項に記載の方法。ある特定の実施形態では、１つまたは複数の候補融合事象に１つまたは複数の基準を適用するステップは、候補融合事象について、１つまたは複数のアラインされたコンティグの切断点が欠失であることを決定すること；および閾値未満のいくつかの塩基を含む欠失を含む１つまたは複数のコンティグのアラインされたコンティグに関連する任意の候補融合事象を破棄することを含む。ある特定の実施形態では、１つまたは複数の候補融合事象に１つまたは複数の基準を適用するステップは、イントロン領域に完全に埋まっている挿入または欠失を含む１つまたは複数のコンティグのアラインされたコンティグに関連する任意の候補融合事象を破棄することを含む。ある特定の実施形態では、１つまたは複数の候補融合事象に１つまたは複数の基準を適用するステップは、候補融合事象について、１つまたは複数のアラインされたコンティグについて、分子のリードに対する比を決定すること；および閾値を超える分子のリードに対する比に関連しているが二本鎖支持分子に関連していない、１つまたは複数のコンティグのアラインされたコンティグに関連する任意の候補融合事象を破棄することを含む。ある特定の実施形態では、１つまたは複数の候補融合事象に１つまたは複数の基準を適用するステップは、候補融合事象について、１つまたは複数のアラインされたコンティグの切断点対について、切断点対の切断点に隣接している配列を決定すること；切断点対の切断点に隣接している配列をアラインさせること；切断点対の切断点に隣接している配列のアラインメントについてのアラインメントスコアを決定すること；および閾値を超えるアラインメントスコアに基づく１つまたは複数のコンティグのアラインされたコンティグに関連する任意の候補融合事象を破棄することを含む。ある特定の実施形態では、１つまたは複数の候補融合事象に１つまたは複数の基準を適用するステップは、候補融合事象について、１つまたは複数のアラインされたコンティグの切断点対について、切断点対の切断点に中心がある配列を決定すること；切断点を中心とする配列を互いにアラインさせること；切断点を中心とする配列のアラインメントについてのアラインメントスコアを決定すること；および閾値を超えるアラインメントスコアに基づく１つまたは複数のコンティグのアラインされたコンティグに関連する任意の候補融合事象を破棄することを含む。

一部の実施形態では、本明細書で開示されるシステムおよび方法の結果は、レポートを生成するための入力として使用される。レポートは、紙形式であることも、または電子形式であることもある。例えば、本明細書で開示される方法およびシステムにより決定した融合事象を、そのようなレポートで直接表示することができる。あるいはまたは加えて、融合事象の決定に基づいて診断情報または治療上の推奨事項をレポートに含めることができる。

本明細書で開示される方法の様々なステップ、または本明細書で開示されるシステムにより実行されるステップは、同じもしくは異なる時点で、同じもしくは異なる地理的場所、例えば国において、および／または同じもしくは異なる人物により実行され得る。

一部の実施形態では、対象を処置する方法であって、対象に１つまたは複数の治療薬を投与するステップを含み、対象が、融合事象を決定する開示された方法を使用して融合事象を有すると決定されている、方法が記載される。一部の実施形態では、対象を処置する方法であって、対象に以前に投与されたものとは異なる治療薬を投与するステップを含み、対象が、融合事象を決定する開示された方法を使用して融合事象を有すると決定されている、方法が記載される。一部の実施形態では、対象を処置する方法であって、対象への治療薬の投与を中止するステップを含み、対象が、融合事象を決定する開示された方法を使用して融合事象を有すると決定されている、方法が記載される。

追加の利点は、後に続く説明の中で一部は示されるか、または実践により知ることができる。利点は、特に添付の特許請求の範囲において指摘される、要素および組合せによって、実現および達成される。
添付の図面は、本明細書に組み込まれ、その一部を構成するものであり、本明細書に記載される方法およびシステムの原理を説明するのに役立つ。

図１は、方法の例を示す。図２Ａ～２Ｃは、断片を生成するためのステッチングおよびトリミングプロセスの例を示す。図３は、ステッチングプロセスからのアーチファクトの例を示す。図４は、方法の例を示す。図５は、切断点の例を示す。図６は、候補融合配列リードの選択を示す。図７は、２つの候補融合配列リード間の共通の切断点の同定を示す。図８は、２つの候補融合配列リード間の共通の切断点の同定を示す。図９Ａ～Ｂは、ｄｅＢｒｕｉｊｎグラフおよび簡潔ｄｅＢｒｕｉｊｎグラフの最小限の例を示す。図１０は、グラフデータ構造の各頂点についての隣接リストの使用の例を示す。図１１は、グラフデータ構造の各頂点および辺についての隣接リストの使用の例を示す。図１２は、エラー補正手順を示す。図１３は、エラー補正手順を示す。図１４は、エラー補正手順を示す。図１５は、エラー補正手順を示す。図１６は、候補融合事象の決定を示す。図１７は、候補融合事象の決定を示す。図１８は、広範ながんコホートにおけるＦＧＦＲ２／３融合パートナー保有率を示す。広範ながんコホートにおいて検出されたＦＧＦＲ２およびＦＧＦＲ３融合パートナーの頻度。ＩＧＲ：遺伝子間領域。それ自体に対するパートナー遺伝子としてのＦＧＦＲ２は、長い欠失または挿入を表す。図１９は、進行尿路上皮がん（ａＵＣ）におけるＦＧＦＲ３融合パートナー保有率を示す。ＦＧＦＲ３融合を有するいくつかのａＵＣ患者がパートナー遺伝子により検出された。ＩＧＲ：遺伝子間領域。それ自体に対するパートナー遺伝子としてのＦＧＦＲ３は、長い欠失または挿入を表す。図２０は、広範ながんコホートにおいてＦＧＦＲ２／３融合と同時に起こる突然変異を示す。広範ながんコホートにおいて少なくとも３名のＦＧＦＲ２またはＦＧＦＲ３融合陽性患者に起こる突然変異が示されている。三角形が付いているバリアントは、融合陽性集団において顕著な濃縮を示す（▼ ｐ＜１×１０^－４、▼▼ ｐ＜１×１０^－１０、カイ２乗検定、ボンフェローニ補正）。図２１は、コンピューターデバイスの例を示す。図２２は、方法の例を示す。図２３は、方法の例を示す。

詳細な説明
本明細書および添付の特許請求の範囲で使用される場合、単数形「１つの（ａ）」、「１つの（ａｎ）」および「その（ｔｈｅ）」は、文脈による別段の明白な指図がない限り、複数の指示対象を含む。範囲は、本明細書では、「約」ある特定の値から、および／または「約」別の特定の値まで、として表され得る。そのような範囲が表されている場合、別の構成は、ある特定の値から、および／または他の特定の値まで、を含む。同様に、値が、先行する「約」の使用により近似値で表される場合、特定の値が別の構成を形成することは理解されよう。範囲の各々についての終点が、他の終点との関連でも、他の終点とは無関係でも有意であることは、さらに理解されよう。

「必要に応じた」および「必要に応じて」は、その後に記載される事象または状況が、起こることもありまたは起こらないこともあること、および記載が、前記事象または状況が起こるケースと、それが起こらないケースとを含むことを意味する。

本明細書の説明および特許請求の範囲を通して、語「含む（ｃｏｍｐｒｉｓｅ）」ならびに語の変形形態、例えば、「含むこと（ｃｏｍｐｒｉｓｉｎｇ）」および「含む（ｃｏｍｐｒｉｓｅｓ）」は、「含むが、これらに限定されない（ｉｎｃｌｕｓｉｎｇｂｕｔｎｏｔｌｉｍｉｔｉｎｇｔｏ）」を意味し、例えば他の構成要素、整数またはステップを、除外するように意図されたものではない。「例示的（な）」は、「の例」を意味し、好ましいまたは理想的な構成を示すものを伝えるように意図されたものではない。「などの」は、制限的な意味ではなく、説明を目的として使用される。

用語「対象」は、哺乳動物種（好ましくはヒト）または鳥類（例えば、トリ）の種などの、動物を指し得る。より具体的には、対象は、脊椎動物、例えば、哺乳動物、例えばマウス、霊長類、サルまたはヒトであり得る。動物は、家畜、競技用動物、およびペットを含む。対象は、健康な個体、症状もしくは徴候を有する、または疾患を有する疑いがある、または疾患の素因がある個体、あるいは治療を必要としている、または治療を必要とする疑いがある個体であり得る。一部の実施形態では、対象は、ヒト、例えば、がんを有する、またはがんを有する疑いがあるヒトである。

句「無細胞核酸」は、対象からの体液（例えば、血液、尿、ＣＳＦなど）から供給される非カプセル化核酸と呼ばれ得る。無細胞核酸は、ゲノムＤＮＡ、ミトコンドリアＤＮＡ、循環ＤＮＡ、ｓｉＲＮＡ、ｍｉＲＮＡ、循環ＲＮＡ（ｃＲＮＡ）、ｔＲＮＡ、ｒＲＮＡ、核小体低分子ＲＮＡ（ｓｎｏＲＮＡ）、Ｐｉｗｉ結合ＲＮＡ（ｐｉＲＮＡ）、長鎖ノンコーディングＲＮＡ（長鎖ｎｃＲＮＡ）またはこれらのいずれかの断片を含む、ＤＮＡ（ｃｆＤＮＡ）、ＲＮＡ（ｃｆＲＮＡ）およびこれらのハイブリッドを含む。無細胞核酸は、二本鎖状、一本鎖状、または、部分的に二本鎖および一本鎖状であり得る。無細胞核酸は、分泌または細胞死過程、例えば細胞壊死およびアポトーシス、によって体液に放出され得る。一部の無細胞核酸は、がん細胞、例えば、循環腫瘍ＤＮＡ（ｃｔＤＮＡ）から体液に放出される。健康な細胞から放出されるものもある。ｃｔＤＮＡは、非カプセル化腫瘍由来断片化ＤＮＡであり得る。無細胞胎児ＤＮＡ（ｃｆｆＤＮＡ）は、母体血流で自由に循環する胎児ＤＮＡである。無細胞核酸は、１つまたは複数の関連エピジェネティック改変を有することがあり、例えば、アセチル化、５－メチル化、ユビキチン化、リン酸化、ＳＵＭＯ化、リボシル化および／またはシトルリン化されていることもある。一部の実施形態では、無細胞核酸はｃｆＤＮＡであり、これは、通常は二本鎖ｃｆＤＮＡを含む。

用語「アラインメント」、および「アラインさせること」などは、類似性の領域を同定するためにＤＮＡまたはＲＮＡの配列を並べることを指し得る。類似性は、配列間の機能的、構造的および／または進化的関係性に関連し得る。ＤＮＡ配列のアラインメントは、１つの配列のゲノムＤＮＡと少なくとも１つの他の配列のゲノムＤＮＡのアラインメントを含む。そのようなアラインメントは、非ゲノムＤＮＡ、例えば、分子バーコード、およびパディング塩基などを除外し得る。例えば、配列リードのゲノムＤＮＡは、配列リードに付着し得る任意の分子タグを除外して、参照ＤＮＡ配列のゲノムＤＮＡにアラインされ得る。

本明細書で使用される場合、ヌクレオチドが配列中のヌクレオチド「に対応する」という記述は、ＧＡＰアルゴリズムなどの標準的なアラインメントアルゴリズムを使用して同一性を最大にするように配列とのアラインメントの際に同定されるヌクレオチドを指す。

本明細書で使用される場合、「配列同一性」、「配列相同性」、または「同一性」は、２つまたはそれより多くのポリヌクレオチド配列間のアラインメントにおける同一または類似ヌクレオチド塩基の数を指す。１つの非限定的な例では、「と少なくとも９０％同一の」は、参照ポリヌクレオチドに対して９０～１００％の同一性パーセントを指す。９０％またはそれより高いレベルでの同一性は、例示を目的として１００ヌクレオチドの試験および参照ポリヌクレオチド長が比較されると仮定して、試験ポリヌクレオチド中のヌクレオチドの１０％（すなわち、１００のうちの１０）以下が参照ポリヌクレオチドのものと異なるという事実を示す。そのような差異は、ヌクレオチド配列の全長にわたってランダムに分布している点突然変異として表されることもあり、またはそれらは、最大許容可能、例えば１０／１００ヌクレオチド差（おおよそ９０％の同一性）までの可変長の１つまたは複数の場所にクラスター化されることもある。差異は、核酸置換、挿入または欠失として定義される。

配列同一性を核酸配列の配列アラインメントにより決定して類似性または同一性の領域を同定することができる。本明細書での目的のために、配列同一性は、概して、同一塩基を同定するためのアラインメントにより決定される。アラインメントは、局所的、または大域的であり得る。マッチ、ミスマッチおよびギャップが、比較される配列間で同定され得る。ギャップは、アラインされた配列の塩期間に挿入されるヌルヌクレオチドであり、したがって、同一または類似の文字がアラインされる。一般に、内部および末端ギャップがあり得る。配列同一性を、ギャップを考慮に入れることによって、同一塩基数／最短配列長×１００として決定することができる。ギャップペナルティーを使用する場合、配列同一性をエンドギャップに対するペナルティーなし（例えば、末端ギャップにペナルティーを科さない）で決定することができる。あるいは、配列同一性を、ギャップを考慮に入れずに、同一位置数／（アラインされた配列の総長）×１００として決定することができる。

本明細書で使用される場合、「大域アラインメント」は、２つの配列を最初から最後までアラインさせるアラインメントであって、各配列内の各塩基を１回だけアラインさせる。アラインメントは、配列間に類似性または同一性があるか否かを問わず、生成される。例えば、「大域アラインメント」に基づく５０％配列同一性は、長さが各々１００ヌクレオチドの２つの比較される配列の全配列のアラインメントで、塩基の５０％が同じであることを意味する。アラインされる配列の長さが同じでない場合であっても、大域アラインメントを同様に配列同一性を決定するために使用することができることは理解されよう。配列の末端部における差異は、「エンドギャップのペナルティーなし」が選択されない限り、配列同一性を決定する際に考慮される。一般に、大域アラインメントは、それらの長さの大部分にわたって有意な類似性を共有する配列に関して使用される。大域アラインメントを行うための例示的なアルゴリズムとしては、Ｎｅｅｄｌｅｍａｎ－Ｗｕｎｓｃｈアルゴリズム（Needleman et al. J. Mol. Biol. 48: 443 (1970)）が挙げられる。大域アラインメントを行うための例示的なプログラムは、公的に入手可能であり、米国国立生物工学情報センター（ＮＣＢＩ）ウェブサイト（ncbi.nlm.nih.gov/）で入手可能なＧｌｏｂａｌＳｅｑｕｅｎｃｅＡｌｉｇｎｍｅｎｔＴｏｏｌ、およびdeepc2.psi.iastate.edu/aat/align/align.htmlで入手可能なプログラムを含む。

本明細書で使用される場合、「局所アラインメント」は、２つの配列をアラインさせるアラインメントであるが、類似性または同一性を共有する配列の部分のみをアラインさせる。それ故、局所アラインメントは、ある配列のサブセグメントが別の配列に存在するかどうかを決定する。類似性がない場合、返信されることになるアラインメントはない。局所アラインメントアルゴリズムとしては、ＢＬＡＳＴまたはＳｍｉｔｈ－Ｗａｔｅｒｍａｎアルゴリズム（Adv. Appl. Math. 2: 482 (1981)）が挙げられる。例えば、「局所アラインメント」に基づく５０％配列同一性は、任意の長さの２つの比較される配列の全配列のアラインメントで、長さ１００ヌクレオチドの類似性または同一性の領域にはその類似性または同一性の領域内に同じである塩基の５０％を有することを意味する。

句「核酸タグ」は、異なる試料（例えば、試料インデックスを表す）または異なるタイプのもしくは異なる処理を経た同じ試料（例えば、分子バーコードを表す）中の異なる核酸分子から核酸を区別するために核酸分子を標識するために使用される短い核酸（例えば、５００、１００、５０または１０ヌクレオチド長未満）、を指す。タグは、一本鎖状、二本鎖状、または少なくとも部分的に二本鎖状であることがある。タグは、同じ長さ、または多様な長さを有することもある。タグは、平滑末端であることも、またはオーバーハングを有することもある。タグを核酸の一方の末端または両方の末端に付着させることができる。核酸タグを解読して、核酸の起源試料、型または処理などの情報を明らかにすることができる。タグを使用して、異なる分子バーコードおよび／または試料インデックスを有する核酸を含む複数の試料のプールおよび並行処理することを可能にすることでき、核酸は、その後、分子バーコードを読み取ることによりデコンボリューションされる。加えてまたは代替的に、核酸タグを使用して同じ試料中の異なる分子を区別することができる（すなわち、分子バーコード）。これは、試料中の異なる分子に一意的にタグを付けること、または試料中の分子に一意的でなくタグを付けることの両方を含む。一意的でないタグを付けるケースでは、限定数の異なるタグを使用して分子にタグを付けすることができ、したがって、少なくとも１つのタグと組み合わせて、異なる分子を、それらが参照ゲノム上に位置する開始および／または停止位置（すなわち、ゲノム座標）に基づいて区別することできる。典型的にはその後、同じ開始／停止を有する任意の２つの分子が同じタグも有する確率が低くなる（例えば、＜１０％、＜５％、＜１％、または＜０．１％）ように十分な数の異なるタグが使用される。一部のタグは、試料、試料内の分子の形態、ならびに同じ開始点および停止点を有する形態内の分子を標識するために、複数の識別子を含む。そのようなタグは、型Ａ１ｉ（ここで、文字は、同じ試料タイプを示し、アラビア数字は、試料内の分子の形態を示し、ローマ数字は、形態内の分子を示す）で存在し得る。

用語「アダプター」は、試料核酸分子のどちらかまたは両方の末端への連結のための通常は少なくとも部分的に二本鎖状の短い核酸（例えば、５００、１００または５０ヌクレオチド長未満）を指す。アダプターは、両末端にアダプターが隣接している核酸分子の増幅を可能にするためのプライマー結合部位、および／または次世代シークエンシング（ＮＧＳ）のためのプライマー結合部位を含むシークエンシングプライマー結合部位を、含むことができる。アダプターは、フローセル支持体に付着されたオリゴヌクレオチドなどの、捕捉用プローブのための結合部位も含むことができる。アダプターは、上記のタグも含むことができる。タグは、好ましくは、タグが核酸分子のアンプリコンおよびシークエンシングリードに含まれるようにプライマーおよびシークエンシングプライマー結合部位に対して位置する。同じまたは異なる配列のアダプターを核酸分子のそれぞれの末端に連結させることができる。バーコードが異なることを除いて、同じ配列のアダプターがそれぞれの末端に連結されることもある。好ましいアダプターは、核酸分子に接合させるための、一方の末端が平滑末端化されているかまたは尾部を有するＹ型アダプターであり、核酸分子もまた、平滑末端化されているか、または１つもしくは複数の相補的ヌクレオチドを伴う尾部を有する。別の好ましいアダプターは、解析すべき核酸に接合させるための平滑末端または尾部を有する末端を同じく有する、釣り鐘型アダプターである。

本明細書で使用される場合、用語「シークエンシング」または「シークエンサー」は、生体分子、例えば、核酸、例えばＤＮＡまたはＲＮＡ、の配列を決定するために使用されるいくつかの技術のうちのいずれかを指す。例示的なシークエンシング方法としは、標的化シークエンシング、単一分子リアルタイムシークエンシング、エクソンシークエンシング、電子顕微鏡法に基づくシークエンシング、パネルシークエンシング、トランジスタ媒介シークエンシング、ダイレクトシークエンシング、ランダムショットガンシークエンシング、サンガージデオキシターミネーションシークエンシング、全ゲノムシークエンシング、ハイブリダイゼーションによるシークエンシング、パイロシークエンシング、デュプレックスシークエンシング、サイクルシークエンシング、一塩基伸長シークエンシング、固相シークエンシング、ハイスループットシークエンシング、大規模並列シグネチャーシークエンシング、エマルジョンＰＣＲ、より低い変性温度での共増幅－ＰＣＲ（ＣＯＬＤ－ＰＣＲ）、マルチプレックスＰＣＲ、可逆的ダイターミネーターによるシークエンシング、ペアエンドシークエンシング、ニアタームシークエンシング、エクソヌクレアーゼシークエンシング、ライゲーションによるシークエンシング、ショートリードシークエンシング、単一分子シークエンシング、一塩基合成法、リアルタイムシークエンシング、リバースターミネーターシークエンシング、ナノポアシークエンシング、４５４シークエンシング、ＳｏｌｅｘａＧｅｎｏｍｅＡｎａｌｙｚｅｒシークエンシング、ＳＯＬｉＤ（商標）シークエンシング、ＭＳ－ＰＥＴシークエンシング、およびこれらの組合せが挙げられるが、それらに限定されない。一部の実施形態では、シークエンシングは、例えば、ＩｌｌｕｍｉｎａまたはＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓから市販されている遺伝子解析装置などの、遺伝子解析装置により行うことができる。

句「次世代シークエンシング」またはＮＧＳは、旧来のサンガーおよびキャピラリー電気泳動に基づくアプローチと比較してスループットが増大した、例えば、何十万もの比較的短い配列リードを同時に生成する能力がある、シークエンシング技術を指す。次世代シークエンシング技法の一部の例としては、一塩基合成法、ライゲーションによるシークエンシング、およびハイブリダイゼーションによるシークエンシングが挙げられるが、これらに限定されない。

用語「ＤＮＡ（デオキシリボ核酸）」は、４つの核酸塩基、すなわち、アデニン（Ａ）、チミン（Ｔ）、シトシン（Ｃ）およびグアニン（Ｇ）、のうちの１つを各々が含むデオキシリボヌクレオシドを含むヌクレオチドの鎖を指す。用語「ＲＮＡ（リボ核酸）」は、４つの核酸塩基、すなわち、Ａ、ウラシル（Ｕ）、ＧおよびＣ、のうちの１つを各々が含む４タイプのリボヌクレオシドを含むヌクレオチドの鎖を指す。ある特定のヌクレオチド対は、相補的な形で互いに特異的に結合する（相補的塩基対合と呼ばれる）。ＤＮＡでは、アデニン（Ａ）はチミン（Ｔ）と対合し、シトシン（Ｃ）はグアニン（Ｇ）と対合する。ＲＮＡでは、アデニン（Ａ）はウラシル（Ｕ）と対合し、シトシン（Ｃ）はグアニン（Ｇ）と対合する。第１の核酸鎖が、第１鎖中のヌクレオチドと相補的であるヌクレオチドで構成されている第２の核酸鎖に結合する場合、２本の鎖が結合して二本鎖を形成する。本明細書で使用される場合、「核酸シークエンシングデータ」、「核酸シークエンシング情報」、「核酸配列」、「ヌクレオチド配列」、「ゲノム配列」、「遺伝子配列」または「断片配列」、または「核酸シークエンシングリード」は、ＤＮＡまたはＲＮＡなどの核酸の分子（例えば、全ゲノム、全トランスクリプトーム、エクソーム、オリゴヌクレオチド、ポリヌクレオチド、または断片）中のヌクレオチド塩基（例えば、アデニン、グアニン、シトシン、およびチミンまたはウラシル）の順序を示す任意の情報またはデータを意味する。本教示が、キャピラリー電気泳動、マイクロアレイ、ライゲーションに基づくシステム、ポリメラーゼに基づくシステム、ハイブリダイゼーションに基づくシステム、直接または間接的ヌクレオチド同定システム、パイロシークエンシング、イオンまたはｐＨに基づく検出ステム、および電子署名に基づくシステムを含むがこれらに限定されない、あらゆる利用可能な種類の技法、プラットフォームまたは技術を使用して得られる配列情報を企図していることを、理解されたい。

「ポリヌクレオチド」、「核酸」、「核酸分子」、または「オリゴヌクレオチド」は、ヌクレオシド間連結により接合されたヌクレオシドの直鎖状ポリマー（デオキシリボヌクレオシド、リボヌクレオシド、またはこれらのアナログを含む）を指す。典型的には、ポリヌクレオチドは、少なくとも３つのヌクレオシドを含む。オリゴヌクレオチドは、多くの場合、サイズが少数のモノマー単位、例えば３～４、から数百モノマー単位の範囲である。ポリヌクレオチドが、「ＡＴＧＣＣＴＧ」などの、文字の配列によって表される場合は常に、別段の断り書きがない限り、ヌクレオチドが左から右へ５’→３’の順序であること、および「Ａ」がアデノシンを示し、「Ｃ」がシトシンを示し、「Ｇ」がグアノシンを示し、「Ｔ」がチミジンを示すことは、理解されるであろう。文字Ａ、Ｃ、ＧおよびＴは、当技術分野では一般的であるように、塩基自体を、ヌクレオシドを、または塩基を含むヌクレオチドを指すために使用されることもある。

句「参照配列」は、実験的に決定された配列との比較の目的で使用される公知の配列を指す。例えば、公知の配列は、全ゲノム、染色体、またはこれらの任意のセグメントであり得る。参照は、典型的には、少なくとも２０、５０、１００、２００、２５０、３００、３５０、４００、４５０、５００、１０００、またはそれより多くのヌクレオチドを含む。参照配列は、ゲノムもしくは染色体の単一の連続する配列とアラインさせることができるか、またはゲノムもしくは染色体の異なる領域とアラインする不連続なセグメントを含むことができる。一部の実施形態では、参照配列は、ヒトゲノムである。参照ヒトゲノムは、例えば、ｈＧ１９およびｈＧ３８を含む。

句「生体試料」は、本明細書で使用される場合、一般に、対象に由来する組織または流体試料を指す。生体試料は、対象から直接得ることができる。生体試料は、１つまたは複数の核酸分子、例えば、デオキシリボ核酸（ＤＮＡ）もしくはリボ核酸（ＲＮＡ）分子であり得るか、またはそれを含み得る。生体試料は、任意の臓器、組織または生体液に由来し得る。生体試料は、例えば、体液または固形組織試料を含み得る。固形組織試料の例は、例えば固形腫瘍生検からの、腫瘍試料である。体液は、例えば、血液、血清、血漿、腫瘍細胞、唾液、尿、リンパ液、前立腺液、精液、母乳、痰、糞便、涙、およびこれらの派生物を含む。一部の実施形態では、生体試料は、血液であるか、または血液に由来する。

核酸配列情報の文脈での句「融合配列リード」は、所与の参照配列の異なる不連続な領域または遺伝子座に位置する部分配列を含むシークエンシングリードを指す。「候補融合配列リード」は、融合配列リードであり得る配列リードである。ある特定の実施形態では、例えば、所与の融合配列リードの第１の部分配列は、参照配列の所与の遺伝子の第１エクソンに位置するが、その所与の融合配列リードの第２の部分配列は、参照配列の同じ遺伝子の第２エクソンに位置し、これらの第１および第２エクソンは、参照配列の同じ遺伝子の介在イントロンにより隔てられている。これらの実施形態の一部では、そのような融合配列リードは、所与の融合配列リードが得られた対象のゲノム内の遺伝子内融合体の存在を示す。他の例示的な実施形態では、所与の融合配列リードの第１の部分配列は、参照配列の第１の遺伝子のエクソンに位置するが、その所与の融合配列リードの第２の部分配列は、参照配列の異なる第２の遺伝子のエクソンに位置し、これらのエクソンは、参照配列中で互いに不連続である。これらの実施形態の一部では、そのような融合配列リードは、所与の融合配列リードが得られた対象のゲノム内の遺伝子内融合体の存在を示す。

用語「配列リード」は、個体から得られた試料からのヌクレオチド配列リードを指す。配列リードは、当技術分野において公知の様々な方法によって得ることができる。

核酸融合分子または対応するシークエンシングリードの文脈での用語「切断点」は、核酸融合体の融合した部分配列間の接合部における、または対応するシークエンシングリードで表される末端ヌクレオチド位置を指す。例えば、所与の分割配列リードは、その分割配列リードにおける第２の部分配列と連続しており、かつその５’側にある、第１の部分配列を含み得、第１の部分配列は、第２の部分配列が位置するその参照配列内の第２の遺伝子座と不連続である参照配列における第１の遺伝子座に位置する。この例では、分割配列リードの第１の部分配列は、その３’末端ヌクレオチドに切断点を含むが、分割配列リードの第２の部分配列は、その５’末端ヌクレオチドに切断点を含む。ある特定の応用では、切断点、例えばこれらの切断点は、「切断点対」と呼ばれる。

用語「融合事象」は、特定の場所における２つの別個の遺伝子間の融合を指す。融合事象の原因例としては、転座、中間部欠失、または染色体逆位事象が挙げられる。

用語「アブフュージョン」、「デノボ融合コーラー」、「融合コーラー」、または「デノボ法」は、デノボで、すなわち、以前に知られている遺伝子融合事象のデータベースから得ることができるものなどの予備知識なしで、融合事象を同定する、ＤＮＡ融合コーラーまたはＲＮＡ融合コーラーのどちらかの、融合コーラーを指す。

目的の１つまたは複数の値または要素に適用される場合の句「約」または「おおよそ」は、述べられている参照値または要素と同様である値または要素を指す。ある特定の実施形態では、用語「約」または「おおよそ」は、別段の記述がない限り、または文脈からそうでないことが明らかでない限り、述べられている参照値または要素の両方向に（それを超えるまたはそれに満たない）２５％、２０％、１９％、１８％、１７％、１６％、１５％、１４％、１３％、１２％、１１％、１０％、９％、８％、７％、６％、５％、４％、３％、２％、１％、またはそれ未満内に入る、値または要素の範囲を指す（そのような数が可能な値または要素の１００％を超える場合を除く）。

構成要素の組合せ、サブセット、相互作用、群などが記載される場合、これらの各々の様々な個々のおよび集合としての組合せおよび順列の具体的な言及が明確に記載されないこともあるが、各々が本明細書において具体的に企図され、記載されていると理解されよう。これは、記載される方法におけるステップを含むがこれらに限定されない、本願のすべての部分に当てはまる。したがって、行われ得る様々な追加のステップが存在する場合、これらの追加のステップの各々が、記載される方法の任意の特定の構成または構成の組合せで行われ得ることが理解されよう。

当業者には理解されるように、ハードウェア、ソフトウェア、またはソフトウェアとハードウェアの組合せをインプリメントすることができる。さらに、記憶媒体で具現化されるプロセッサー実行可能命令（例えば、コンピューターソフトウェア）を有するコンピューター可読記憶媒体（例えば、非一時的）上のコンピュータープログラム製品。ハードディスク、ＣＤ－ＲＯＭ、光学記憶デバイス、磁気記憶デバイス、記憶抵抗、不揮発性ランダムアクセスメモリー（ＮＶＲＡＭ）、フラッシュメモリー、またはこれらの組合せを含む、任意の好適なコンピューター可読記憶媒体を利用することができる。

本願を通して、ブロック図およびフローチャートに言及がなされる。ブロック図およびフローチャートの各ブロック、ならびにブロック図およびフローチャートにおけるブロックの組合せが、それぞれ、プロセッサー実行可能命令によりインプリメントされ得ることは理解されよう。これらのプロセッサー実行可能命令を、汎用コンピューター、専用コンピューター、または他のプログラム可能なデータ処理装置にロードして、コンピューターまたは他のプログラム可能なデータ処理装置で実行するプロセッサー実行可能命令によってフローチャートブロック（単数または複数）で指定された関数をインプリメントするためのデバイスが作出されるような機械を製造することができる。

これらのプロセッサー実行可能命令を、コンピューターまたは他のプログラム可能なデータ処理装置に指図することができるコンピューター可読メモリーに、コンピューター可読メモリーに記憶されたプロセッサー実行可能命令によってフローチャートブロック（単数または複数）で指定された関数をインプリメントするためのプロセッサー実行可能命令を含む製造物品が製造されるような特定の様式で機能するように、記憶させることもできる。プロセッサー実行可能命令を、コンピューターまたは他のプログラム可能なデータ処理装置にロードして、コンピューターにインプリメントされたプロセスを生成するための一連のオペレーションのステップをコンピューターまたは他のプログラム可能な装置で行わせることもでき、したがって、コンピューターまたは他のプログラム可能な装置で実行されるプロセッサー実行可能命令によって、フローチャートブロック（単数または複数）で指定された関数をインプリメントするためのステップが提供される。

ブロック図およびフローチャートのブロックは、指定された関数を実施するためのデバイスの組合せ、指定された関数を実施するためのステップの組合せ、および指定された関数を実施するためのプログラム命令手段を支持する。ブロック図およびフローチャートにおける各ブロック、ならびにブロック図およびフローチャートにおけるブロックの組合せが、指定された関数もしくはステップを実施する専用のハードウェアに基づくコンピューターシステム、または専用ハードウェアとコンピューター命令の組合せによってインプリメントされ得ることも理解されよう。

図１は、個体から得た試験試料を処理して融合事象をコールするための方法の例１００である。試験試料を患者から得ることができる。ステップ１１０で、核酸（ＤＮＡまたはＲＮＡ）を試験試料から抽出することができる。ある実施形態では、核酸は、無細胞核酸を含む。様々な実施形態では、試験試料は、血液、血漿、血清、尿、糞便、唾液試料、および／またはこれらの組合せなどのうちの１つまたは複数から選択される試料であり得る。あるいは、生体試料は、全血、血液画分、組織生検、胸膜液、心膜液、脳脊髄液、および腹水のうちの１つまたは複数から選択される試料を含み得る。一実施形態では、試験試料は、無細胞核酸を含み得、この例は、無細胞ＤＮＡおよび／または無細胞ＲＮＡである。例えば、試験試料は、対象の血液から採取した無細胞核酸試料であり得る。一実施形態では、無細胞核酸試料を、がんを有することが分かっている対象（例えば、がん患者）、またはがんを有する疑いがある対象から得た試験試料から抽出することができる。

融合コーリングに関する以下の説明は、ＤＮＡおよびＲＮＡ両方のタイプの核酸配列に当てはまり得る。様々な実施形態では、核酸を精製プロセスによって試験試料から抽出する。一般に、当技術分野における任意の公知の方法を核酸を精製するために使用することができる。例えば、管中で核酸をペレット化および／または沈殿させることにより、核酸を単離することができる。一部の実施形態では、核酸をさらに処理することができる。例えば、試験試料から抽出される無細胞核酸はＲＮＡであり得、そのＲＮＡを、次に逆転写酵素を使用してＤＮＡに変換する。

一部の態様では、方法１００は、ステップ１１０を含む。一部の態様では、方法１００は、試験試料から得られた核酸を使用してステップ１２０で始まることもある。

方法１００は、ステップ１２０でシークエンシングライブラリーの調製を含み得る。ライブラリー調製中に、例えば、その後のクラスター生成および／またはシークエンシングにおける使用のための１つまたは複数のシークエンシングオリゴヌクレオチド（例えば、一塩基合成法（ＳＢＳ）（Ｉｌｌｕｍｉｎａ、ＳａｎＤｉｅｇｏ、Ｃａｌｉｆ．）で使用される公知のＰ５およびＰ７配列）を含むアダプターを、アダプターライゲーションによって核酸分子の末端にライゲーションすることができる。一実施形態では、分子バーコードを、アダプターライゲーション中に抽出された核酸に付加させることができる。一部の実施形態では、分子バーコードは、核酸から得た配列リードを同定するために使用することができる一意的タグとして役立つ縮重塩基対である。他の実施形態では、分子バーコードは、限られたセットの分子バーコード（例えば、２～１，０００，０００；２～１００，０００；２～１０，０００；２～１，０００の異なる分子バーコード配列）から選択される。一部の実施形態では、分子バーコードのセット内の分子バーコードの数は、試料中のポリヌクレオチドの数未満である。セット内の限られた数の分子バーコードを有する一部の実施形態では、分子バーコードは、分子バーコードからの配列情報、および配列リードが参照配列のどこに位置するのかに基づくゲノム座標情報に基づいて、異なる分子を区別するために使用することができる、非縮重塩基対を含み得る。一部の実施形態では、分子バーコードは、アダプターライゲーション中に核酸の末端に付加される短い核酸配列（例えば、４～１０塩基対）である。分子バーコードを付着し核酸とともに増幅中にさらに複製することができ、このことにより、下流での解析で同じ元の核酸セグメントから生じる配列リードを同定する手段が得られる。

ある実施形態では、ステップ１２０は、ハイブリダイゼーションプローブを使用して核酸をハイブリダイズすること、および／または核酸断片の濃縮を行うことを必要に応じて含み得る。例えば、標的遺伝子パネルを通して配列リードを生成する場合、または全エクソームシークエンシングによって配列リードを生成する場合。逆に、ハイブリダイゼーションプローブ使用して核酸をハイブリダイズすること、および／または核酸断片の濃縮を行うことは、全ゲノムシークエンシングによって配列リードを生成する場合には行わない。ハイブリダイゼーションプローブを使用して核酸をハイブリダイズすることは、ハイブリダイゼーションプローブを使用して、核酸の選択されたセットについてのシークエンシングライブラリーを濃縮することを含み得る。がん（もしくは疾患）の存在もしくは非存在、がんの状態、またはがんの分類（例えば、がんのタイプもしくは起源の組織）についての情報を与え得る標的核酸分子をプルダウンし、濃縮するために、標的核酸配列を標的とし、それとハイブリダイズするように、ハイブリダイゼーションプローブを設計することができる。このステップに従って、複数のハイブリダイゼーションプルダウンプローブを所与の標的配列または遺伝子に使用することができる。プローブは、長さが約４０～約１６０塩基対（ｂｐ）、約６０～約１２０ｂｐ、または約７０ｂｐ～約１００ｂｐの範囲であり得る。一実施形態では、プローブは、標的領域または遺伝子の重複部分をカバーする。標的遺伝子パネルシークエンシングのために、ハイブリダイゼーションプローブを、標的遺伝子パネルに含まれている特定の遺伝子配列に由来する核酸分子を標的とし、それをプルダウンするように、設計することができる。全エクソームシークエンシングのために、ハイブリダイゼーションプローブを、参照ゲノム内のエクソン配列に由来する核酸分子を標的とし、それをプルダウンするように、設計することができる。その後、ハイブリダイズした核酸分子を濃縮することができる。例えば、ハイブリダイズした核酸を、ＰＣＲを使用して補足し、増幅することができる。標的配列を濃縮して濃縮された配列を得、それを、その後、シークエンシングすることができる。例えば、当技術分野において周知であるように、ビオチン部分をプローブの５’末端に付加させて（すなわち、ビオチン化して）、ストレプトアビジン被覆表面（例えば、ストレプトアビジン被覆ビーズ）を使用する標的プローブ－核酸複合体のプルダウンを助長することができる。これは、配列リードのシーケンシングデプスを改善し得る。しかし、ＰＣＲは不完全であり、それは、増幅されたＤＮＡ分子のプールにアーチファクト（例えば、スキューおよび新しいハイブリッドまたはエラーのある配列）を導入する。例えば、増幅中に２つの鋳型が合わさって新規キメラ産物を形成するプロセスである鋳型乗り換えが、アーチファクトを生成することがある。ＰＣＲ鋳型乗り換えは、投入物に既に存在する２つの配列のハイブリッド配列を生成する。ＤＮＡポリメラーゼは、ＰＣＲ中に新生ＤＮＡ鎖を中断することなく相補性領域内で１つの鋳型から別の鋳型にジャンプすることができる。したがって、この新生鎖は、一片が古い鋳型に相補的であり、他片が新しい鋳型に相補的である、新しいハイブリッド配列を有する。同様に、新生転写物は、完了前に中断され得るが、その後、ＰＣＲの後続のサイクルでプライマーとしての役割を果たし、その結果、再び新しいハイブリット種をもたらし得る。

一部の態様では、方法１００は、ステップ１１０および１２０を含む。一部の態様では、方法１００は、試験試料から得られた核酸を使用してステップ１２０で始まることもある。一部の態様では、方法１００は、以前に調製した配列ライブラリーを使用してステップ１３０で始まることもある。一部の態様では、以前に調製された配列ライブラリーを購入することができる。

方法１００は、ステップ１３０でシークエンシングライブラリー内の核酸をシークエンシングして配列リードを生成することを含み得る。配列リードは、当技術分野において公知の手段により獲得することができる。例えば、いくつかの技法およびプラットフォームによって、平行して何百万もの個々の核酸（例えば、ＤＮＡ、例えばｃｆＤＮＡもしくはｇＤＮＡ、またはＲＮＡ、例えばｃｆＲＮＡ）分子から配列リードが直接得られる。そのような技法は、標的遺伝子パネルシークエンシング、全エクソームシークエンシング、全ゲノムシークエンシング、標的遺伝子パネルバイサルファイトシークエンシング、および全ゲノムバイサルファイトシークエンシングのいずれかを行うのに好適であり得る。

第１の例として、一塩基合成法技術は、蛍光ヌクレオチドの検出に依存する。蛍光ヌクレオチドは、シークエンシングされることになる鋳型に相補的であるＤＮＡの新生鎖に組み込まれるからである。１つの方法では、長さ３０～５０塩基のオリゴヌクレオチドを、５’末端でガラス製カバースリップに共有結合で固着させる。これらの固着した鎖は、２つの機能を果たす。第１に、それらは、鋳型が、表面に結合されたオリゴヌクレオチドに相補的な捕捉テールを用いて構成された場合、標的鋳型鎖の捕捉部位としての役割を果たす。それらは、配列読み取りの基礎となる鋳型指向性プライマー伸長のためのプライマーとしての役割も果たす。捕捉プライマーは、合成、検出、および色素を除去するための色素－リンカーの化学的切断の複数のサイクルを使用する配列決定のための定位置部位として機能する。各サイクルは、ポリメラーゼ／標識ヌクレオチドの混合物の付加、すすぎ、色素のイメージングおよび切断からなる。

代替方法では、ポリメラーゼを蛍光ドナー分子で修飾し、スライドガラスに固定化し、その一方で、各ヌクレオチドを、ガンマ－ホスフェートに付着したアクセプター蛍光部分で色分けする。システムは、蛍光タグ付きポリメラーゼと蛍光修飾ヌクレオチドとの相互作用を、ヌクレオチドがデノボ鎖に組み込まれると検出する。

任意の好適な一塩基合成法プラットフォームを使用して突然変異を同定することができる。一塩基合成法プラットフォームとしては、Ｒｏｃｈｅ／４５４ＬｉｆｅＳｃｉｅｎｃｅｓからのＧｅｎｏｍｅＳｅｑｕｅｎｃｅｒｓ、Ｉｌｌｕｍｉｎａ／ＳＯＬＥＸＡからのＧＥＮＯＭＥＡＮＡＬＹＺＥＲ、ＡｐｐｌｉｅｄＢｉｏＳｙｓｔｅｍｓからのＳＯＬＩＤシステム、およびＨｅｌｉｃｏｓＢｉｏｓｃｉｅｎｃｅｓからのＨＥＬＩＳＣＯＰＥシステムが挙げられる。一塩基合成法プラットフォームは、ＶｉｓｉＧｅｎＢｉｏｔｅｃｈｎｏｌｏｇｉｅｓによっても記載されている。一部の実施形態では、シークエンシングされることになる複数の核酸分子を支持体（例えば、固体支持体）に結合させる。支持体上に核酸を固定化するために、捕捉配列／ユニバーサルプライミング部位を鋳型の３’および／または５’末端に付加させることができる。支持体に共有結合で付着した相補配列に捕捉配列をハイブリダイズさせることによって、核酸を支持体に結合させることができる。捕捉配列（ユニバーサル捕捉配列とも呼ばれる）は、ユニバーサルプライマーとして二重に役立ち得る、支持体に付着された配列に相補的な核酸配列である。

捕捉配列の代替案として、カップリング対（例えば、抗体／抗原、受容体／リガンド、またはアビジン－ビオチン対など）のメンバーを、そのカップリング対のそれぞれの第２のメンバーで被覆された表面に捕捉される各分子に、連結させることができる。捕捉の後で、例えば、鋳型依存性一塩基合成法を含む単一分子検出／シークエンシングによって、配列を解析することができる。一塩基合成法では、表面結合分子は、ポリメラーゼの存在下で複数の標識ヌクレオチド三リン酸に曝露される。鋳型の配列は、成長鎖の３’末端に組み込まれた標識ヌクレオチドの順序によって決定される。これをリアルタイムで行うことができるか、またはステップ・アンド・リピート方式で行うことができる。リアルタイム解析については、各ヌクレオチドに異なる光学標識を組み込むことができ、組み込まれたヌクレオチドの刺激のために複数のレーザーを利用することができる。

大規模並列シークエンシングまたは次世代シークエンシング（ＮＧＳ）技法は、合成技術、パイロシークエンシング、イオン半導体技術、単一分子リアルタイムシークエンシング、ライゲーションによるシークエンシング、またはペアエンドシークエンシングを含む。大規模並列シークエンシングプラットフォームの例は、ＩｌｌｕｍｉｎａＨＩＳＥＱまたはＭＩＳＥＱ、ＩＯＮＰＥＲＳＯＮＡＬＧＥＮＯＭＥＭＡＣＨＩＮＥ、ＰＡＣＢＩＯＲＳＩＩシークエンサーまたはＳＥＱＵＥＬＳｙｓｔｅｍ、ＱｉａｇｅｎのＧＥＮＥＲＥＡＤＥＲ、およびＯｘｆｏｒｄＭＩＮＩＯＮである。さらなる同様の現行の大規模並列シークエンシング技術、ならびに未来の世代のこれらの技法を使用することができる。

様々な実施形態では、配列リードは、Ｒ１およびＲ２と示されるリード対から構成され得る。例えば、第１のリードＲ１を核酸分子の第１の末端からシークエンシングすることができ、その一方で、第２のリードＲ２をその核酸分子の第２の末端からシークエンシングすることができる。

ある実施形態では、ステップ１３０で、配列リードをさらなる処理に付すことができる。ある実施形態では、ステップ１１０～１３０によって配列リードを生成するのではなく、配列リードを任意の入手可能なデータ源から得ること、ダウンロード、決定する、および受信することなどができる。配列リードを、例えば、全エクソームシークエンシング（ＷＥＳ）データ（ＤＮＡ－ｓｅｑ）、全ゲノムシークエンシング（ＷＧＳ）データ（ＤＮＡ－ｓｅｑ）、および／またはトランスクリプトームシークエンシング（ＲＮＡ－ｓｅｑ）データから、得る、ダウンロードする、決定する、および受信することなどができる。記載した方法およびシステムによって、例えば、配列リードを生成するために使用するシークエンシングプラットフォームに応じて、様々な形式（例えば、ＦＡＳＴＡ、ＦＡＳＴＱ、および／または他の有標形式）のうちの１つで配列リードを得ることができる。したがって、シークエンシングプラットフォームから配列リードを得ることは、配列リードを本明細書に記載のさらなる処理および解析に使用することができるようにリード形式の標準化を含み得る。配列形式を標準化することの１つの非限定的な例は、配列リードの品質スコア形式を調整することである。一部の実施形態では、配列リードを含有するデータファールの構造を最適化して、データファイルの検索を向上させる（例えば、加速またはより効率的に）することができる。

さらなる処理としては、例えば、配列リードを除去するための事前フィルタリングステップ、リードペアのステッチング、および／またはリードペアのオーバーハングトリミングを挙げることができる。事前フィルタリングは、１つまたは複数の基準を満たす配列リードを除去することを含み得る。基準の例は、配列リードがシングルトンであるかどうかを同定すること、配列リードがハードクリップであるかどうかを同定すること、鋳型長（ＴＬＥＮ）（例えば、閾値ＴＬＥＮ）に基づくフィルタリング、アラインメントスコア（例えば、閾値アラインメントスコア）に基づくフィルタリング、または塩基品質スコア（例えば、中央値または平均値塩基品質スコアの閾値）に基づくフィルタリングを含むが、これらに限定されない。別の基準は、配列リード対が、リード対のリードが異なる染色体からのものであるという基準を満たす場合には、配列リード対を維持し、フィルタリングで除去しないと決定することを含む。基準のさらなる例は、ビットフラグ、シガー、編集距離（例えば、最小または最大編集距離）、準最適アラインメントスコア、または補完的アラインメント尺度に基づく、フィルタリングを含む。

図２Ａ、図２Ｂおよび図２Ｃは、ある実施形態に従って、リードペアｒ_１２１０Ａおよびｒ_２２１０Ｂから断片ｓ２０５を生成するための、ステッチングおよびトリミングプロセスの例を描示する。

図２Ａ、図２Ｂおよび図２Ｃに示されているように、ｒ_１２１０Ａおよびｒ_２２１０Ｂは、フォワードおよびリバース相補鎖を示す、互いに向かい合っている矢印として表されている。リード対（ｒ_１、ｒ_２）を評価して、それらが同じ断片ｓ２０５にステッチングされる必要がある、つまりｒ_１およびｒ_２がｋｍｅｒに分解され、各々の共通のｋｍｅｒが、ｒ_１２１０Ａとｒ_２２１０Ｂの接尾辞－接頭辞アラインメントを固定するかどうか、を決定する（図２Ａ）。アラインメントの類似性がある特定の閾値に合格した場合、ステッチングを適用する。図２Ａに示されているように、リード対間のオーバーラップ領域２２０は、それらの間の共有ｋｍｅｒ（例えば、オーバーラップ）の１つを示し、これが接尾辞－接頭辞アラインメントのアンカーである。したがって、ステッチングされた断片ｓ２０５は、ｒ_１２１０Ａの接頭辞、オーバーラップ、およびｒ_２２１０Ｂの接尾辞の連結である。時には、ステッチングコードは、完璧なリピートで長い分子を融合させ、これによって融合体に似ているアーチファクトが生じる。図３に示されているように、リードメイトは、デノボでステッチングされるが、隣り合う完璧なリピートは、長い分子を不正確にステッチングさせ得る。

別のシナリオでは、ｒ_１／ｒ_２の３’末端がｒ_１／ｒ_２の５’を超えて伸長した場合（オーバーハング）、断片ｓ２０５は、オーバーラップ領域になる。これは、ｒ_１２１０Ａおよび／またはｒ_２２１０Ｂが他のリードの５’領域を超えて伸長する、図２Ｂに示されているシナリオである。オーバーハングはトリミングされ、断片ｓ２０５はオーバーラップである。

別のシナリオでは、図２Ｃに示されているように、ｒ_１２１０Ａおよびｒ_２２１０Ｂを、それらがオーバーラップしていないおよび／またはあまりにも多くのシークエンシングエラーがあるというどちらかの理由で、ステッチングすることができなかった場合、対のリードが連結されて断片ｓ２０５を形成し、この場合、逆相補性ｒ_２２１０Ｂによって両方のリードが同じ鎖に変換される。いずれのｋｍｅｒにも含有されない非アルファベット文字を恣意的に選択して、データからの存在しないｋｍｅｒの生成を防止する。

方法１００は、コンピューター解析を使用して配列リードを処理してステップ１４０で融合事象をコールすることを含み得る。そのようなコンピューター解析が次に図４に関して記載されており、図４は、ある実施形態に従って融合事象を同定する方法４００を描示する。一般に、コンピューター解析は、予備知識なしで個体における融合事象の存在を予測するように構成されているデノボ融合コーラーである。

方法４００は、ステップ４１０で候補融合配列リードを決定すること、ステップ４２０で候補融合配列リードからコンティグを生成すること、ステップ４３０で候補融合事象を決定すること、およびステップ４４０で融合事象を決定することを含み得る。

ステップ４１０での候補融合配列リードを決定することは、複数の配列リードを参照配列にアラインさせることを含み得る。参照配列は、染色体などのゲノム領域全体のＤＮＡ配列を含み得る。ゲノム領域全体のＤＮＡ配列を含む参照配列を使用して、その特定のゲノム領域に影響を与える候補融合事象を同定することができる。参照配列は、エクソンＤＮＡ配列を含み得る。したがって、参照配列を使用して、エクソンＤＮＡ配列に影響を与える候補融合事象を同定することができる。一部の実施形態では、参照配列は、エクソンＤＮＡ配列に加えて、イントロンＤＮＡ配列を含み得る。したがって、参照配列を使用して、エクソンＤＮＡ配列とイントロンＤＮＡ配列の両方に影響を与える候補融合事象を同定することができる。一部の実施形態では、参照配列は、エクソンＤＮＡ配列と、イントロンＤＮＡ配列と、パディング領域内の追加のヌクレオチド塩基との組合せを含み得る。パディング領域は、遺伝子融合事象に関連する可能性が低いことが公知である核酸配列、例えば、反復核酸配列または他のイントロン領域であり得る。したがって、参照配列を使用して、エクソンＤＮＡ配列、イントロンＤＮＡ配列はもちろん、エクソン／イントロンＤＮＡ配列間の接合部にも影響を与える、候補融合事象を同定することができる。

複数の配列リードと参照配列のアラインメントは、当技術分野において公知の任意のアラインメント技法を含み得る。アラインメント技法の例としては、ペアワイズアラインメントおよび多重配列アラインメントが挙げられるが、これらに限定されない。ペアワイズアラインメントは、例えば、網羅的または発見的（例えば、網羅的でない）ペアワイズアラインメントを含み得る。網羅的ペアワイズアラインメントは、「総当たり」アプローチと呼ばれることもあり、セットの中のあらゆる可能な対の配列間のあらゆる可能なアラインメントについてのアラインメントスコアを算出する。多重配列アラインメントは、プログラムＣｌｕｓｔａｌＷによりインプリメントされるような、プログレッシブアラインメントを含み得る（例えば、Thompson, et al., Nucl. Acids. Res., 22:4673-80 (1994)を参照されたい）。アラインメントの結果は、１つまたは複数のバイナリアラインメントマップ（ＢＡＭ）ファイルを含み得る。

ステップ４１０での候補融合配列リードを決定することは、複数の配列リードのうちの少なくとも１つの配列リードの参照配列へのアラインメントで１つまたは複数の切断点を決定することをさらに含み得る。アラインメントで１つまたは複数の切断点に関連する任意の配列リードを候補融合配列リードとして同定することができる。切断点は、配列リードが参照配列から変化した領域または点であり得る。各配列リードのアラインメントは、１つまたは複数の切断点に寄与し得る。切断点は、染色体上の配向位置であり得る。アラインメントでの切断点の存在は、シークエンシングプロセスにおけるエラー、または真の融合事象についての本物のシグナルのいずれかを示し得る。図５は、候補融合配列リードであると決定される配列リード５１０の例を示す。配列リード５１０は、参照配列５２０にアラインされる。配列リード５１０の第１の部分５３０は、参照配列５２０にうまくアラインされるが、第２の位置５４０は、切断点５５０で開始して、参照配列５２０にうまくアラインされない。配列リード５１０を、切断点５５０の存在に基づいて、候補融合配列リードとみなすことができる。図５には示されていないが、別の切断点が同じ配列リード５１０の他のアラインメントから生成される。

ある実施形態では、１つまたは複数のＢＡＭファイルを照会して、破棄するおよび／または候補融合配列リードとみなすべき、配列リードを決定することができる。ＢＡＭファイルをスキャンすることができ、任意の論理配列リードを破棄することができる。論理配列リードは、融合事象を含有するように見えない（例えば、ハードクリップしていない、ソフトクリップしていない）リードを含み得る。ある実施形態では、最小アラインメント長および／または最大アラインメント長を使用して論理配列リードを同定することができる。最小アラインメント長は、例えば、１～１００（両端の値を含む）であり得る。ある実施形態では、最小アラインメント長は、４０であり得る。最大アラインメント長は、例えば、６００～１０００（両端の値を含む）であり得る。ある実施形態では、最大アラインメント長は、８００であり得る。参照配列にアラインされた、最小アラインメント長未満のまたは最大アラインメント長を超えるいくつかの塩基を含有する、任意の配列リードは、論理配列リードとみなされず、さらなる解析のために保持することができる。ある実施形態では、低いマッピング品質スコア（ＭＡＰＱ）に関連する配列リードを破棄することができる。低いマッピング品質スコアは、例えば、０～６０のいずれか（両端の値を含む）であり得る。ある実施形態では、低いマッピング品質スコアは、５０またはそれ未満であり得る。閾値より長いインデルを含む配列リードを候補融合配列リードとして保持することができる。閾値は、例えば、１５～３０塩基のいずれか（両端の塩基数を含む）であり得る。ある実施形態では、閾値は、２４塩基であり得る。図６は、候補融合配列リードであると決定される配列リード６１０の例を示す。配列リード６１０は、参照配列６２０に対する２つアラインメントを有する。配列リード６１０の部分が配列リード６１０のいずれの側でも参照配列６２０にうまくマッチしない、一次アラインメント６３０（ソフトクリップされた塩基）、および配列リード６１０が参照配列６２０の１カ所より多くの位置にかなりうまくアラインし得、アラインメントの前に除去された配列リード６１０の部分を含む、二次アラインメント６４０（ハードクリップされた塩基）。

図４に戻って、ステップ４２０で候補融合配列リードからコンティグを生成することは、候補融合配列リードを１つまたは複数の共通の切断点に基づいてグループ（（または「コンテナ」もしくは「パケット」）にグループ化すること、および各パケット内の候補融合配列リードを１つまたは複数のコンティグにアセンブルすることを含み得る。同じまたは隣り合う切断点（例えば、共通の切断点）を共有する候補融合配列リードを、同じパケット／コンテナに入れることができる。ある実施形態では、共通の切断点は、１）同じ染色体に同じ配向で存在する２つの候補融合配列リードの各々における切断点、および／または２）同じ位置の、もしくは閾値塩基数以内（例えば、１～４０塩基（両端の塩基数を含む）のいずれかの閾値以内、例えば１２塩基）の、かつ同じ配向を有する、２つの候補融合配列リードの各々における切断点であってもよい。別の実施形態では、切断点の２つのベクトルについての適合性試験を行うことができる。

図７は、ある候補融合配列リードが単一の切断点を含み、別の候補融合配列リードが複数の切断点を含む、シナリオを示す。第１の候補融合配列リードは、切断点７１０を含み、第２の候補融合配列リードは、切断点７２０、切断点７３０、および切断点７４０を含む。切断点７２０および切断点７４０は、切断点７１０の位置から閾値塩基数以内の位置になく、したがって、第１の候補融合配列リードおよび第２の候補融合配列リードのグループ化に寄与しない。しかし、切断点７１０および切断点７３０の位置は、閾値塩基数以内にあり、第１の候補融合配列リードおよび第２の候補融合配列リードを同じパケットにグループ化するための基礎として役立ち得る。

図８は、ある候補融合配列リードが複数の切断点を含み、別の候補融合配列リードも複数の切断点を含む、シナリオを示す。第１の候補融合配列リードは、切断点８１０、切断点８２０、および切断点８３０を含む。第２の候補融合配列リードは、切断点８４０、切断点８５０、および切断点８６０を含む。第１の候補融合配列リードの各切断点と第２の候補融合配列リードの各切断点の比較を行うことができる。図８に示されているように、切断点８１０および切断点８４０は、閾値塩基数以内の位置にあり、切断点８３０および切断点８６０は、閾値塩基数以内の位置にある。これらの対の切断点は、第１の候補融合配列リードおよび第２の候補融合配列リードを同じパケットにグループ化するための基礎として役立ち得る。しかし、切断点８２０および切断点８６０は、任意の他の切断点の閾値塩基数以内になく、したがって、第１の候補融合配列リードおよび第２の候補融合配列リードのグループ化に寄与しない。

ある実施形態では、候補融合配列リードのパケットを、１つまたは複数のコンテナデータ構造を構築することによりコンピューターで生成することができる。ある実施形態では、１つまたは複数のコンテナデータ構造は、１つまたは複数のグラフデータ構造を含み得る。グラフデータ構造は、候補融合配列リードを表す節点、および適合する候補融合配列リードを表す節点を接続する辺を含み得る。各接続された節点をパケットの一部とみなすことができる。グラフデータ構造構築は、そのような構築の計算集約な性質を考えると、並列化することができる。

グラフデータ構造は、対の頂点（節点とも呼ばれる）が辺により接続されているタイプのデータ構造を含み得る。ある実施形態では、グラフデータ構造をメモリーサブシステム（図２１、メモリー２１０７）に記憶させ、メモリーサブシステムは、各頂点が記憶されているメモリー２１０７内の物理的位置を同定するためのポインターを含み得る。典型的には、グラフデータ構造における節点各々がセット内の要素を表し、その一方で、辺が要素間の関係性を表す。グラフデータ構造は、有向グラフ、木、および／または有向非巡回グラフ（ＤＡＧ）などを含み得る。有向グラフは、辺が方向を有するグラフである。木は、根節点と各々が内部節点または葉節点のどちらかであるいくつかの追加の節点とを有するタイプの有向グラフデータ構造である。根節点および内部節点は、各々が１つまたは複数の「子」節点を有し、各々がその子節点の「親」と呼ばれる。葉節点は、いずれの子節点も有さない。木の中の辺は、従来、親から子へと方向づけられる。木では、節点は親を１つだけ有する。有向非巡回グラフ（ＤＡＧ）として公知の木の一般化によって、節点が複数の親を有することは可能になるが、辺が閉路を形成することは可能にならない。

ある実施形態では、グラフデータ構造は、ｄｅＢｒｕｉｊｎグラフを表し得る。ｄｅＢｒｕｉｊｎグラフは、リードをｋ－ｍｅｒと呼ばれるより小さいＤＮＡ配列に分解することによってコンピューターによる計算労力を軽減し、パラメーターｋは、これらの配列の塩基の長さを示す。ｄｅＢｒｕｉｊｎグラフでは、すべてのリードをｋ－ｍｅｒ（リード内の長さｋのすべての部分配列）に分解し、ｋ－ｍｅｒ間のパスを算出する。この方法によるアセンブリでは、リードを、ｋ－ｍｅｒを通るパスとして表す。ｄｅＢｒｕｉｊｎグラフは、これらのｋ－ｍｅｒ間の長さｋ－１のオーバーラップを捕捉し、実際のリード間のものを捕捉しない。したがって、例えば、配列ＣＡＴＧＧＡを、次の２－ｍｅｒによってパスとして表すことができる：ＣＡ、ＡＴ、ＴＧ、ＧＧ、およびＧＡ。他のｋ－ｍｅｒ、例えば、１－ｍｅｒ、３－ｍｅｒ、４－ｍｅｒ、５－ｍｅｒ、６－ｍｅｒ、７－ｍｅｒ、８－ｍｅｒなどが、企図される。ｄｅＢｒｕｉｊｎグラフアプローチは、冗長性にうまく対処し、複雑なパスのコンピューターによる計算を扱いやすくする。全データセットをｋ－ｍｅｒオーバーラップに縮小することにより、ｄｅＢｒｕｉｊｎグラフは、ショートリードデータセットでの高い冗長性を低減する。特定のアセンブリについての最高効率のｋ－ｍｅｒサイズを、リード長およびエラー率によって決定することができる。パラメーターｋの値は、アセンブリの品質に対して顕著な影響を及ぼす。良好な値の推定をアセンブリの前に行うことができるか、または最適な値を、小範囲の値を試験することにより見つけることができる。

ある実施形態では、候補融合配列リードの各々は、記号の文字列を含み得る。例えば、文字列ｓは、アルファベット

から書き出される一連の記号であり得る。ｓの長さは、｜ｓ｜によって示される。ｓの部分文字列は、ｓ中に存在する文字列であり、開始位置ｉおよび長さｌを有し、ｓ（ｉ，ｌ）によって示される。長さｌの部分文字列は、ｌ－ｍｅｒとも示される。以下では、

は、ＤＮＡアルファベット

であると仮定し、これらの記号には相補体があり、（Ａ，Ｔ）および（Ｃ，Ｇ）は相補性の対である。逆相補文字列

は、ｓの中の相補記号の逆向きの配列である。正準文字列

は、ｓおよびその逆相補体

のうちの辞書順で最小のものである。ｌ－ｍｅｒｘの最小解は、ｘ中に存在するｇ－ｍｅｒｙであり、したがって、ｇ＜ｌであり、ｙは、ｘ中のすべてのｇ－ｍｅｒのうちの辞書順で最小のものである。辞書式順序は、ポリＡのｇ－ｍｅｒが、シークエンシングデータ中に自然に存在し、多くの場合、ランダムな順序に置き換えられるので、使用が面倒である。ランダムな順序を得るための最も簡単な方法は、ｘ中の各ｇ－ｍｅｒについてのハッシュ値をコンピューターで計算し、ハッシュ値が最も小さいｇ－ｍｅｒを最小解として選択することである。ある実施形態では、ランダムな順序づけによって生じた最小解を使用することができる。

ｄｅＢｒｕｉｊｎグラフ（ｄＢＧ）は、各頂点ｖ∈Ｖがｋ－ｍｅｒを表す、有向グラフＧ＝（Ｖ，Ｅ）であり得る。ｋ－ｍｅｒｘおよびｘ’をそれぞれ表す頂点ｖから頂点ｖ’への有向辺ｅ∈Ｅは、ｘ（２，ｋ－１）＝ｘ’（１，ｋ－１）の場合に、およびその場合にのみ、存在する。各ｋ－ｍｅｒｘは、Ｇに

可能な次節点

を有し、ここで、

であり、

は、連結演算子である。ｄＢＧの元の組合せの定義では、アルファベット

についてのすべての可能なｋ－ｍｅｒがグラフ中に存在するが、本実施形態では、定義が、入力中のｋ－ｍｅｒを表すｄｅＢｒｕｉｊｎグラフのサブセットに限定されることに留意されたい。グラフ中のパスは、一連の明確に異なる接続された頂点ｐ＝（ｖ_１，．．．，ｖ_ｍ）である。パスｐは、１つより多くの内向辺を有し得る終点ｖ_１および１つより多くの外向辺を有し得る始点ｖ_ｍを除いて、すべてのその頂点が１の入次数および出次数を有する場合、非分岐である。非分岐パスは、分岐せずにグラフ内で伸長することができない場合、最大である。圧縮ｄｅＢｒｕｉｊｎグラフ（ｃｄＢＧ）は、ワード長ｋ＋η－１を表す、ユニティグと呼ばれる、単一の頂点にｄＢＧからのη個の頂点の最大非分岐パスすべてをマージする。ｄＢＧおよびｃｄＢＧの最小の例を図９Ａおよび図９Ｂにそれぞれ提供する。グラフデータ構造を生成するための従来の技法は、Ｂｌｏｏｍフィルターを含む。しかし、Ｂｌｏｏｍフィルターデータ構造では、１つの要素に対応するビットがビットマップ上に散在しているため、偽陽性率の低下に伴うメモリー使用量および時間計算量と不良なデータ局所性がトレードオフとなり、その結果、挿入および照会するときに一部のＣＰＵキャッシュミスが生じることになる。これらの技術的限界を克服するために、ある実施形態では、ローリングハッシュ関数を使用して、単一のｋ－ｍｅｒ内の最小解としてｇ－ｍｅｒを選択することができる。オーバーラップしているｋ－ｍｅｒは、最小解を共有し得るので、最小値から上昇させるアプローチを使用して、配列中の隣接ｋ－ｍｅｒの最小解の反復が配列の長さに線形になるように償却Ｏ（１）コストで最小解をコンピューターで再計算することができる。インプリメントすることができる別の最適化は、最小解のコンピューターによる計算をｋ－ｍｅｒのｇ－ｍｅｒのサブセットに限定すること、すなわち、最小解になる候補から最初と最後のｇ－ｍｅｒを除外することである。これにより、所与のｋ－ｍｅｒについて、その前方の、それぞれ後方の、隣接ｋ－ｍｅｒのすべてが同じ最小解を必ず共有することが確実になる。ｋ－ｍｅｒｘとその近傍ｘ’が、最小解を共有する可能性が高い上に、この近傍ハッシュアプローチは、ｘのすべての前方の、それぞれ後方の、近傍を検索したとき、それらがすべて同じ最小解を有することになり、同じブロック内に記憶されることになることを保証し、その結果、キャッシュミスが最小限に抑えられる。

ある実施形態では、隣接技法を使用して、グラフデータ構造（例えば、ｄＢＧまたはｃｄＢＧを表す）をメモリーサブシステム（例えば、図２１、メモリー２１０７）に記憶させ、このメモリーサブシステムは、各頂点が記憶されているメモリー２１０７の物理的位置を同定するためのポインターを含み得る。ある実施形態では、隣接リストを使用して、グラフデータ構造をメモリー２１０７に記憶させる。一部の実施形態では、頂点ごとに隣接リストがある。

図１０は、頂点オブジェクト１００５および辺オブジェクト１００９を含む、グラフデータ構造１０００を示す。配列（例えば、ｋ－ｍｅｒ）の部分をブロックとして同定し、それらのブロックを、有形メモリーデバイスに記憶させるオブジェクト１００５に変換する。このオブジェクトが、１バイトの情報を使用して記憶される可能性があり得ることに留意されたい。例えば、Ａ＝００、Ｃ＝０１、Ｇ＝１０、およびＴ＝１１の場合には、文字列「ＡＧＴＴ」を表すブロックは、００１０１１１１（１バイト）を含有する。オブジェクト１００５を接続して、候補融合配列の各々にパスが存在するようにパスを作出する。パスは、各パスの方向が核酸の５’から３’への方向性に対応するという意味で、有向である。しかし、３’から５’への方向で配列を表すことが簡便または望ましいことがあること、およびそのようにすることが本発明の範囲から外れないことに留意されたい。パスを作出する接続自体をオブジェクトとしてインプリメントすることができ、その結果、ブロックが頂点オブジェクト１００５により表され、接続が辺オブジェクト１００９により表される。このように、有向グラフは、有形メモリーデバイスに記憶された頂点および辺オブジェクトを含む。グラフデータ構造１０００は、元の候補融合配列の１つ１つを、パスをそのパスの方向で読み取ることにより検索することができることから、複数の候補融合配列を表すことができる。しかし、グラフデータ構造１０００は、元の候補融合配列とは、少なくとも、アラインされたときに互いにマッチする配列の部分が単一のオブジェクトに変換されている点で、異なる物である。候補融合配列文字列を、頂点オブジェクト１００５または辺オブジェクト１００９のどちらかの中に記憶させることができる（節点および頂点を同義語として使用する）。本明細書で使用する場合、節点オブジェクト１００５および辺オブジェクト１００９は、コンピューターシステムを使用して作出されたオブジェクトを指す。

図１０は、各頂点１００５についての隣接リスト１００１の使用をさらに示す。開示された方法およびシステムは、プロセッサーを使用して、隣接性、例えば、隣接リストまたはインデックスフリー隣接性の使用により、頂点オブジェクト１００５と辺オブジェクト１００９とを含むグラフデータ構造１０００を作出することができる。例えば、プロセッサーは、インデックスフリー隣接性を使用して、頂点１００５が、接続される別の頂点１００５に対するポインターを含み、ポインターが、接続された頂点が記憶されるメモリーデバイス１８０７上の物理的位置を同定する、グラフデータ構造１０００を作出することができる。グラフデータ構造１０００を、隣接リストを使用して、各頂点または辺が、それらが隣接するそのようなオブジェクトのリストを記憶するようにインプリメントすることができる。各隣接リストは、隣接オブジェクトについてのメモリーデバイス内の特定の物理的位置に対するポインターを含む。

グラフデータ構造１０００を、典型的には、メモリーサブシステム１８０７の物理的デバイス上に非常に迅速なトラバーサルを提供する形で記憶させる。その意味で、図１０の下の部分は、オブジェクトが、メモリーサブシステム１８０７の有形部上の特定の物理的位置に記憶されることを表す。各節点１００５は物理的位置に記憶され、その位置が、その節点を参照する任意の隣接リスト１００１中のポインターにより参照される。各節点１００５は、グラフデータ構造１０００内のあらゆる隣接節点を含む隣接リスト１００１を有する。リスト１００１のエントリーは、隣接節点に対するポインターである。

ある特定の実施形態では、各頂点および辺についての隣接リストがあり、頂点または辺についての隣接リストにその頂点または辺が隣接する辺または頂点が載っている。

図１１は、各頂点１００５および辺１００９についての隣接リスト１１０１の使用を示す。図１１に示されているように、開示された方法およびシステムは、各頂点および辺についての隣接リスト１００１を使用してグラフデータ構造１０００を作出することができ、頂点１００５または辺１００９についての隣接リスト１００１にその頂点または辺が隣接する辺または頂点が載っている。隣接リスト１１０１の各エントリーは、隣接する頂点または辺に対するポインターである。

各ポインターは、隣接オブジェクトが記憶されるメモリーサブシステム内の物理的位置を同定する。好ましい実施形態では、ポインターまたはネイティブポインターは、それが、メモリー上の物理的位置を指し示し、ポインターの逆参照によって意図したデータへのアクセスを可能にすることから、メモリーアドレスとして操作可能である。つまり、ポインターは、メモリー内のどこかに記憶されたデータへの参照であり、そのデータを得ることは、ポインターを逆参照することである。ポインターを他の種類の参照から分離する特徴は、ポインターの値が、低レベルまたはハードウェアレベルで、メモリーアドレスと解釈されることである。そのようなグラフ表現は、高速ランダムアクセス、修正、およびデータ検索の手段を提供する。

一部の実施形態では、あらゆる要素が、その隣接要素に対する直接ポインターを含有し、それよってインデックスルックアップの必要性がなくなり、トラバーサルを非常に迅速にさせることから、高速ランダムアクセスが支持され、グラフオブジェクト記憶がインデックスフリー隣接性でインプリメントされる。インデックスフリー隣接性は、データ検索のための低レベル、またはハードウェアレベル、メモリー参照の別の例である。具体的には、要素内に含有されるポインターがメモリー内の物理的位置への参照となるように、インデックスフリー隣接性をインプリメントすることができる。

ネイティブポインターなどの物理的メモリーアドレス指定を使用する技術的インプリメンテーションは、別個のインデックステーブルも他の介在ルックアップステップも必要とすることなく、そのような軽量方式でデータにアクセスし、使用することができるので、所与のコンピューター、例えば、任意の最新の消費者グレードのデスクトップコンピューターの性能が、ゲノム規模のグラフ（例えば、候補融合配列群を表すグラフデータ構造１０００などのコンテナデータ構造）のフルオペレーションを可能にするように拡張される。したがって、ネイティブポインターを伴うオブジェクトのライブラリー、またはインデックスフリー隣接性を提供する他のインプリメンテーションを使用して、グラフ要素（例えば、節点および辺）を記憶することによって、ゲノム情報の記憶、検索およびアラインメントを提供する技術の能力が、これは特定の方法でコンピューターの物理的メモリーを使用するので、実際に改善される。

ある実施形態では、エラー補正手順を所与のパケット／コンテナ内の候補融合配列リードに対して行うことができる。エラー補正手順を、非融合事象が融合事象として同定される尤度を低下させるように設計する。ある実施形態では、閾値塩基数を超えるかまたはそれに等しいインデルは、エラー補正手順を免除され得る。閾値塩基数は、２０～３０塩基のいずれか（両端の塩基数を含む）であり得る。ある実施形態では、閾値塩基数は、２４塩基であり得る。図１２は、ミスマッチまたは局所的差異（例えば、バリアント）を参照配列からの対応する塩基で置き換える、エラー補正手順を示す。図１３は、閾値塩基数内で参照配列にアラインする２つの候補融合配列リードに適用したエラー補正手順を示す。１つの候補融合配列リードは、いくつかのパディング塩基を含む。２つの候補融合配列リード間のギャップを、ギャップと同じ位置の参照配列からの塩基を使用して埋めることができる。ある実施形態では、パディング塩基を保持することができるか、またはパディング塩基と同じ位置の参照配列からの塩基で置き換えることができる。いくつかのパディング塩基を２つの候補融合配列リード間に挿入し、２つの候補融合配列リードを単一のリードとして接合させることができる。図１４は、閾値を超えるアラインされていない部分を有する候補融合配列リードを破棄するエラー補正手順を示す。例えば、候補融合配列リードの閾値パーセンテージを超えるまたはそれに等しいアラインされていない部分を有する任意の候補融合配列リードは除外され得る。ある実施形態では、閾値パーセンテージは、１％～９９％のいずれか（両端の％値を含む）であり得る。ある実施形態では、閾値パーセンテージは１０％であり得、これは、１０％のまたはそれを超えるアラインされていない塩基を有する任意の候補融合配列リードが破棄され得ることを意味する。実際の結果は、ソフトクリップされた塩基を含む候補融合配列リードの除外であり得る。図１５は、閾値を超えるアラインされていない部分を有する候補融合配列リードが除外される、図１４のエラー補正手順をさらに示す。

各パケット／コンテナ内の残存候補融合配列リードを１つまたは複数のコンティグにアセンブルすることは、任意の公知コンティグアセンブリ方法を含み得る。例えば、アラインメントによるアセンブリは、配列リードを互いにアラインさせることにより、または配列リードを参照にアラインさせることにより、進行し得る。例えば、各リードを次々に参照ゲノムにアラインさせることにより、リードのすべてを互いに関連づけながら配置してアセンブリを作出することができる。ある実施形態では、各パケットについてのコンテナデータ構造は、ｄｅＢｒｕｉｊｎグラフを表すグラフデータ構造を含むことができ、各パケットの候補融合配列リードをコンティグにアセンブルすることは、ｄｅＢｒｕｉｊｎグラフを線形化して各パケットについてのコンティグを出力することを含む。例えば、欲張りアルゴリズムを使用して、配列リードによって最も多く表されるｄｅＢｒｕｉｊｎグラフの辺を選択することができる。

図４に戻って、ステップ４３０での候補融合事象を決定することは、各パケットからのコンティグを参照配列にアラインさせること、およびアラインメントに基づいて１つまたは複数の候補融合事象を決定することを含み得る。ある実施形態では、パケットからのコンティグを参照配列（デコイを伴う）にアラインさせることができ、パケットについての候補融合配列リードをコンティグにアラインさせることができる。パケットについての候補融合配列リードをファミリーにクラスター化することができる。ファミリーは、同じ分子に関連する候補融合配列リードを含み得る。ファミリーを分子バーコーディングに基づいて決定することができる。同じ分子バーコードを含有する候補融合配列リードを同じファミリーにグループ化することができる。ある実施形態では、同じ分子バーコードを含有し、それらのアラインメントが互いの塩基数（例えば、３０～５０塩基）以内で始まる配列リードを、同じファミリーにグループ化することができる。１つまたは複数の試験を得られたアラインメントに適用して、候補融合事象を決定することができる。１つまたは複数の試験は、フットプリント試験および／またはばらつき試験を含み得る。フットプリント試験は、コンティグを支持する候補融合配列リードのファミリーの閾値数が切断点に及ぶことを決定することを含み得る。閾値は、例えば、２～５ファミリーのいずれか（両端のファミリー数を含む）であり得る。ある実施形態では、閾値は、２ファミリーであり得る。ある実施形態では、閾値は、３ファミリーであり得る。ばらつき試験は、閾値ばらつき量が、コンティグを支持し、切断点に及ぶ候補融合配列リードの少なくとも２つのファミリーの配列リード間に存在することを決定することを含み得る。ある実施形態では、ばらつき試験は、各配列リードをコンティグにアラインさせることを含む。次いで、各配列リードについて、最初および最後の塩基についてのコンティグ上の開始および停止座標をコンピューターで計算する。各配列リードの開始点のすべてについての平均および標準偏差を算出し、平均開始点および開始標準偏差を作出する。各配列リードの停止点のすべてについての平均および標準偏差を算出し、平均停止点および停止標準偏差を作出する。次いで、ばらつきを開始標準偏差と停止標準偏差の間の最小または最低標準偏差として定義することができる。それ故、一部の実施形態では、標準偏差のみが、ばらつき試験を定義するために使用されることは理解されよう。ばらつき試験の閾値は、１～１５塩基（両端の塩基数を含む）であり得る。ある実施形態では、閾値は、８塩基であり得る。ばらつきが８未満である場合には、融合体は、ばらつき試験に不合格であり、破棄される。ある実施形態では、閾値は、７塩基であり得る。ある実施形態では、閾値は、６塩基であり得る。ある実施形態では、閾値は、５塩基であり得る。

フットプリント試験は、図１６に示されている。図１６は、参照配列１６２０の第１の部分および参照配列１６３０の第２の部分にアラインされたコンティグ１６１０を示す。切断点１６４０が、アラインされた部分の間に存在する。コンティグを支持する候補融合配列リードが、候補融合配列リード１６５０、候補融合配列リード１６６０、候補融合配列リード１６７０、および候補融合配列リード１６８０として示されている。候補融合配列リード１６５０は、第１のファミリーに属し、候補融合配列リード１６６０は、第２のファミリーに属し、候補融合配列リード１６７０および候補融合配列リード１６８０は、第３のファミリーに属する。図１６に示されているように、コンティグを支持する候補融合配列リードの少なくとも２つのファミリーは、切断点１６４０に及び、その結果、切断点１６４０が候補融合事象として同定されることになる。

ばらつき試験を図１７に示す。示されているように、各配列リード１６５０～１６８０について、最初の塩基および最後の塩基についてのコンティグ１６１０上の開始および停止座標を決定することができる。各配列リード１６５０～１６８０の開始点のすべてについての平均および標準偏差を決定することができ、その結果、平均開始点および開始標準偏差が得られる。同様に、各配列リード１６５０～１６８０の停止点のすべてについての平均および標準偏差を決定することができ、その結果、平均停止点および停止標準偏差が得られる。次いで、ばらつき（１７１０、１７２０）を、開始標準偏差と停止標準偏差の間の最小または最低標準偏差として定義することができる。ばらつき試験の閾値は、１～１５塩基（両端の塩基数を含む）であり得る。ある実施形態では、閾値は、８塩基であり得る。ばらつき（１７１０、１７２０）が８未満である場合には、融合体は、ばらつき試験に不合格であり、破棄される。ある実施形態では、閾値は、７塩基であり得る。ある実施形態では、閾値は、６塩基であり得る。

図４に戻って、ステップ４４０での融合事象を決定することは、１つまたは複数の基準を１つまたは複数の候補融合事象に適用すること、および１つまたは複数の基準の適用に基づいて１つまたは複数の融合事象を決定することを含み得る。１つまたは複数の基準の適用後に残存する任意の候補融合事象を、融合事象として同定することができる。

１つまたは複数の基準は、例えば、プローブへの候補融合事象の近さを含み得る。少なくとも１つの候補融合事象（例えば、切断点）は、試料の濃縮ステップに使用されるプローブの距離内になければならないか、またはそうでなければ候補融合事象は破棄される。例として、距離は、２５０～５００塩基のいずれか（両端の塩基数を含む）であり得る。ある実施形態では、距離は、３００塩基であり得る。ある実施形態では、距離は、３５０塩基であり得る。ある実施形態では、距離は、４００塩基であり得る。ある実施形態では、距離は、４５０塩基であり得る。

１つまたは複数の基準は、例えば、ホワイトリストの適用を含み得る。遺伝子のホワイトリストを決定することができる。候補融合事象（例えば、切断点）がホワイトリスト内の遺伝子の１つに関連づけられない場合、候補融合事象は破棄される。

１つまたは複数の基準は、例えば、ブラックリストの適用を含み得る。遺伝子のブラックリストを決定することができる。候補融合事象（例えば、切断点）がブラックリスト内の遺伝子の１つに関連づけられる場合、候補融合事象は破棄される。

１つまたは複数の基準は、例えば、ある特定のインデルをフィルタリングすることを含み得る。候補融合事象（例えば、切断点）が、イントロン領域に完全に埋まっているインデルである場合、候補融合事象は破棄される。候補融合事象（例えば、切断点）が欠失であり、閾値塩基数より短い場合、候補融合事象は破棄される。閾値塩基数は、１０～１００塩基のいずれか（両端の塩基数を含む）であり得る。ある実施形態では、閾値塩基数は、５０塩基であり得る。候補融合事象（例えば、切断点）が欠失であり、別の欠失の閾値距離以内にある場合、候補融合事象は破棄される。閾値距離は、１０～１００塩基のいずれか（両端の塩基数を含む）であり得る。ある実施形態では、閾値距離は、４９塩基であり得る。ある実施形態では、閾値距離は、４８塩基であり得る。ある実施形態では、閾値距離は、４７塩基であり得る。ある実施形態では、閾値距離は、４６塩基であり得る。ある実施形態では、閾値距離は、４５塩基であり得る。

１つまたは複数の基準は、例えば、分子のリードに対する比が閾値を超えるかどうかおよび二本鎖支持分子（二本鎖支持分子は、各鎖上に２つまたはそれより多くのリードを有する分子と定義される）があるかどうかを決定することを含み得る。閾値は、．５～．９のいずれか（両端の値を含む）であり得る。ある実施形態では、閾値は、．８であり得る。ある実施形態では、閾値は、．７であり得る。ある実施形態では、閾値は、．６であり得る。ある実施形態では、閾値は、．５であり得る。候補融合事象に関連する比が閾値より大きいおよび／またはそれに等しい場合、候補融合事象は破棄される。

１つまたは複数の基準は、例えば、候補融合事象がステッチングアーチファクトであることを決定することを含み得る。ステッチングアーチファクトは、短いリピートにわたって（人工的な欠失事象を導入する）ステッチングされた長い分子であり得る。ステッチングプロセスは、完璧なリピートで長い分子を融合することができ、その結果、候補融合事象として分類され得るステッチングアーチファクトが生じる。図３に示されているように、２つの配列リード上の隣り合う完璧なリピートは、長い分子を不正確にステッチングさせ得る。この問題に対処するために、切断点に隣接している参照配列のいくつかの塩基を互いにアラインさせることができ、アラインメントスコアが閾値スコアより大きいかまたはそれに等しい場合、候補融合事象は破棄され得る。塩基の数は、８０～１６０のいずれか（両端の数を含む）であり得る。ある実施形態では、塩基の数は、１２０であり得る。閾値スコアは、６０～８０のいずれか（両端のスコア含む）であり得る。ある実施形態では、閾値スコアは、７０であり得る。

１つまたは複数の基準は、例えば、候補融合事象が鋳型乗り換えアーチファクトであることを決定することを含み得る。鋳型乗り換えは、配列類似性に起因する、配列ライブラリー調製中に起こるアーチファクトである。この問題は、スティチングアーチファクトと類似している。この問題に対処するために、２つの切断点を中心とする参照のいくつかの塩基を互いにアラインさせることができ、アラインメントスコアが閾値スコアより大きいかまたはそれに等しい場合、候補融合事象は破棄され得る。閾値スコアは、１０～３０のいずれか（両端のスコア含む）であり得る。ある実施形態では、閾値スコアは、２０であり得る。

アラインメントスコアを決定することは、当技術分野において周知である。配列アラインメントは、２つの配列間の類似性を確立するためにアルゴリズムを使用し得る。例えば、正の数を配列の各マッチに割り当てることができ、負の数を配列の各ミスマッチに割り当てることができる。次いで、これらの数の総和をアラインメントスコアとして使用することができる。ＢａｓｉｃＬｏｃａｌＡｌｉｇｎｍｅｎｔＳｅａｒｃｈＴｏｏｌ（ＢＬＡＳＴ）、ＭＵＳＣＬＥ、Ｍａｕｖｅ、ＭＡＦＦＴ、ＣｌｕｓｔａｌＯｍｅｇａ、ＪｏｔｕｎＨｅｉｎ、Ｗｉｌｂｕｒ－Ｌｉｐｍａｎ、ＭａｒｔｉｎｅｚＮｅｅｄｌｅｍａｎ－Ｗｕｎｓｃｈ、Ｌｉｐｍａｎ－Ｐｅａｒｓｏｎ、Ｋａｌｉｇｎ、ＭＶｉｅｗ、およびＥＭＢＯＳＳＣｏｎｓなどのプログラムを使用して、アラインメントスコアを決定することができる。

１つまたは複数の基準は、例えば、候補融合事象が好適な数の非シングルトン支持分子を含有することを決定することを含み得る。シングルトン支持分子は、１のファミリーサイズを有する配列分子であり、適合性試験は、１つもしくは複数の非シングルトン分子の存在について、または２つもしくはそれより多くの非シングルトン分子の存在について、または事前に定義された数もしくはそれより多くの非シングルトン分子の存在についてチェックすることができる。

融合事象を決定するための上述の方法およびシステムは、入力リードの参照ゲノムに対するアラインメントのみに頼って融合事象の結果であり得る不一致アラインメントを同定する典型的な技法とは異なる。アラインメントのみに頼った場合、融合支持リードがミスアラインされると、それを下流でもはや回復することができず、それによって、偽陽性融合コールに至る。さらに、本方法およびシステムは、迅速かつ正確に融合事象を同定し、以前のシステムと比較して時間を短縮することおよび複雑さを軽減することができる。

融合検出は、腫瘍学パイプラインの重要な態様である。腫瘍が、ゲノムの部分を、それが必要とする腫瘍の機能を増強する、または腫瘍サプレッサー遺伝子の機能性を抑制する、どちらかのために再編成することは公知である。一部の薬物は、ある特定の融合により駆動されるある特定の腫瘍に対処するように特異的に設計される。これらの融合の同定は、所与の患者のための処置の特定および処置の選択に大きな影響を与える。

記載される方法およびシステムは、対象のＤＮＡ配列情報（ＤＮＡ－ＳＥＱ）および／またはＲＮＡ配列情報（ＲＮＡ－ＳＥＱ）データセットに基づく擬陽性の少ない遺伝子融合検出を含む臨床的に意義のある遺伝子融合データを生成する。得られるアノテーション付き遺伝子融合データは、臨床および／またはＲ＆Ｄの場で使用することができる、臨床的に意義のある情報および高特異性遺伝子融合同定（例えば、少ない擬陽性）を含む。

開示された方法で決定される情報（例えば、融合事象の同定）を使用する方法を開示する。例えば、対象を処置する方法であって、対象にがん治療薬を投与するステップを含み、対象が、開示された方法のうちの１つまたは複数を使用して融合事象を有すると決定されている、方法を開示する。一部の態様では、対象は、開示された方法のうちの１つまたは複数を使用する融合事象の同定に基づいてがんを有すると決定されている。一部の態様では、がんは、融合事象に関連する任意のがんであり得る。融合事象に関連するがんは、融合事象により引き起こされる任意のがんであり得る。例えば、融合事象に関連するがんは、進行尿路上皮がん、前立腺がん、乳がん、肺がん、結腸がん、神経膠芽腫、肝臓がん、または卵巣がんであり得るが、これらに限定されない。一部の態様では、がん治療薬は、特定のがんを処置するために使用される公知のがん治療薬であり得る。例えば、対象が、ＦＧＦＲ２／３融合事象を有すると決定された場合には、ＦＤＡ承認薬であるエルダフィチニブを対象に投与することができる。したがって、一部の態様では、がん治療薬は、融合事象に特異的である。融合事象に特異的ながん治療薬は、特定の融合事象に関連するがんを有効に処置すると以前に決定されたがん治療薬であり得る。

一部の態様では、対象は、以前に（融合事象を知る前に）がんと診断されたことがあり、その場合、開示された方法を使用する融合事象の同定によって、特定のがん治療薬を対象に投与することができる。したがって、開示された方法を使用する融合事象の同定は、個別化医療を可能にし得る。

開示された方法およびシステムの性能評価をプロキシに依存して行った。プロキシは、ＡＶ試料、および健康なドナーからの試料を含む。融合コーラー関数を有する、既存の生産パイプラインのソフトウェアパッケージは、融合事象の選択されたセットで（デノボコーラーとしてではなく）徹底的に検証されたものである。アブフュージョンの感度は、融合コーラー関数の感度と同等であるが、アブフュージョンは、融合ケースの非常に限られたセットに対してのみ実行される。

一例では、デノボ融合コーラーを、臨床ｃｆＤＮＡからＦＧＦＲ２／３融合を同定するために使用した。ＦＧＦＲ２／３再編成は、特に、ＦＤＡ承認エルダフィチニブを用いる進行尿路上皮がん（ａＵＣ）において、治療標的である。液体生検は、これらの融合を同定するための魅力的な非侵襲的方法であるが、ｃｆＤＮＡの検出は、低い腫瘍脱落レベル、短い分子、および遺伝子パートナーの幅広い多様性のため、技術的に困難である。これに対処するために、デノボ融合コーラーを使用した。混合がん型を有する患者１７，７１８名のコホート（ａＵＣ患者７９５名、ならびに乳房、胆管癌、結腸直腸、および胃を含む）に加えて、ｃｆＤＮＡＮＧＳに基づくアッセイで以前に試験した２７６の健康な対照試料を、デノボ融合コーラーを使用して再解析した。一意的分子カバレッジ中央値は、１５，０００×リードデプスまでシークエンシングして、おおよそ３，０００分子であった。試料を、新規アルゴリズムを使用してｉｎｓｉｌｉｃｏで再解析した：手短に言えば、候補融合切断点にアラインしたリードをｄｅＢｒｕｉｊｎグラフにアセンブルした。得られたコンティグを参照にアラインさせ、フィルターを適用して技術的アーチファクトを除去した。混合がんコホートにおけるＦＧＦＲ２融合パートナー（８５％）およびＦＧＦＲ３融合パートナー（６６％）の大部分が、以前の報告と一致して、１回だけ観察された（図１８）。ＦＧＦＲ３－ＴＡＣＣ３は、ＦＧＦＲ３融合陽性患者の５９％に存在する、最も多く見られる融合であった。ＦＧＦＲ２融合陽性患者の３６％における、デノボコーラー検出パートナーは、以前に記載されていなかった。ａＵＣコホートでは、ＦＧＦＲ３融合が、患者の３．１％において検出され、１回だけ存在する８／１０（８０％）のパートナー遺伝子／遺伝子間領域あった。これは、以前の報告と合致している（図１９）。融合は、２７６の健康な対照試料では同定されなかった。混合がんコホートでは、これらの融合を有する患者において濃縮されたＦＧＦＲ２融合と同時に起こった共通の突然変異は、ＦＧＦＲ２Ｎ５４９Ｋ（７．１％）、ＦＧＦＲ２Ｎ５４９Ｄ（３．２％）、およびＦＧＦＲ２Ｖ５６４Ｉ（２．６％）であり、これらの融合を有する患者において濃縮されたＦＧＦＲ３融合と同時に起こった共通の突然変異としては、ＫＲＡＳＱ６１Ｈが挙げられ、この突然変異は、ＦＧＦＲ３融合を有する患者の３０．６％において観察された；図２０。したがって、組織検査についての以前の報告と同等であるａＵＣ患者からのｃｆＤＮＡで観察されたＦＧＦＲ３融合保有率は、標的化可能なゲノム再編成を血漿に基づくＮＧＳで捕捉することが可能であることを実証する。高度に特異的なアセンブリに基づくデノボ融合コーラーにより検出されるＦＧＦＲ２／３融合パートナーは、不均一であり、個々に低頻度であり、デノボアプローチの重要性を強調していた。

図２１は、ネットワーク２１０３によって接続されているコンピューターデバイス２１０１およびサーバー２１０２の非限定的な例を含む、環境２１００を描示するブロック図である。ある態様では、記載する任意の方法の一部またはすべてのステップを、本明細書に記載のコンピューターデバイスで行うことができる。コンピューターデバイス２１０１は、融合コーラーモジュール２１０４、および配列データ２１０５（例えば、配列リード、コンティグ、参照配列、基準、コンテナデータ構造、グラフデータ構造など）などのうちの１つまたは複数を記憶するように構成された、１つまたは複数のコンピューターを含むことができる。サーバー２１０２は、遠隔アクセスのために融合コーラーモジュール２１０４、および配列データ２１０５（例えば、配列リード、コンティグ、参照配列、基準など）などのうちの１つまたは複数を記憶するように構成された、１つまたは複数のコンピューターを含むことができる。複数のサーバー２１０２は、ネットワーク２１０３によってコンピューターデバイス２１０１と通信することができる。

コンピューターデバイス２１０１およびサーバー２１０２は、ハードウェアアーキテクチャに関して、一般に、プロセッサー２１０６、メモリーシステム２１０７、入力／出力（Ｉ／Ｏ）インターフェース２１０８、およびネットワークインターフェース２１０９を含む、デジタルコンピューターであり得る。これらの構成要素（２１０６、２１０７、２１０８、および２１０９）は、ローカルインターフェース２１１０によって通信可能につなげられている。ローカルインターフェース２１１０は、例えば、当技術分野において公知であるような、１つもしくは複数のバスまたは他の有線もしくは無線接続であり得るが、これらに限定されない。ローカルインターフェース２１１０は、単純化するために省かれている追加の要素、例えば、コントローラー、バッファー（キャッシュ）、ドライバー、リピーター、およびレシーバーを、通信を可能にするために有することができる。さらに、ローカルインターフェースは、上述の構成要素間の適切な通信を可能にするために、アドレス、コントロール、および／またはデータ接続を含み得る。

プロセッサー２１０６は、特にメモリーシステム２１０７に記憶された、ソフトウェアを実行するための、ハードウェアデバイスであり得る。プロセッサー２１０６は、任意の注文生産もしくは市販のプロセッサー、中央処理装置（ＣＰＵ）、コンピューターデバイス２１０１およびサーバー２１０２に付随するいくつかのプロセッサー間の補助プロセッサー、半導体に基づくマイクロプロセッサー（マイクロチップまたはチップセットの形態で）、または一般に、ソフトウェア命令を実行するための任意のデバイスであり得る。コンピューターデバイス２１０１および／またはサーバー２１０２がオペレーション中であるときに、メモリーシステム２１０７内に記憶されたソフトウェアを実行するように、データをメモリーシステム２１０７におよびメモリーシステム２１０７から伝えるように、ならびにソフトウェアに従ってコンピューターデバイス２１０１およびサーバー２１０２のオペレーションを一般に制御するように、プロセッサー２１０６を構成することができる。

Ｉ／Ｏインターフェース２１０８は、ユーザー入力を１つもしくは複数のデバイスもしくは構成要素から受信するために、および／またはシステム出力を１つもしくは複数のデバイスもしくは構成要素に提供するために、使用することができる。ユーザー入力は、例えば、キーボードおよび／またはマウスによって提供することができる。システム出力は、ディスプレーデバイスおよびプリンター（図示なし）によって提供することができる。Ｉ／Ｏインターフェース２１０８は、例えば、シリアルポート、パラレルポート、小型コンピューターシステムインターフェース（ＳＣＳＩ）、赤外線（ＩＲ）インターフェース、無線周波数（ＲＦ）インターフェース、および／またはユニバーサルシリアルバス（ＵＳＢ）インターフェースを含み得る。

ネットワークインターフェース２１０９を使用して、ネットワーク２１０３上でコンピューターデバイス２１０１および／またはサーバー２１０２から転送および受信することができる。ネットワークインターフェース２１０９は、例えば、１０ＢａｓｅＴＥｔｈｅｒｎｅｔＡｄａｐｔｏｒ、１００ＢａｓｅＴＥｔｈｅｒｎｅｔＡｄａｐｔｏｒ、ＬＡＮＰＨＹＥｔｈｅｒｎｅｔＡｄａｐｔｏｒ、ＴｏｋｅｎＲｉｎｇＡｄａｐｔｏｒ、無線ネットワークアダプター（例えば、ＷｉＦｉ、セルラー、サテライト）、または任意の他の好適なネットワークインターフェースデバイスを含み得る。ネットワークインターフェース２１０９は、ネットワーク２１０３での適切な通信を可能にするために、アドレス、コントロール、および／またはデータ接続を含み得る。

メモリーシステム２１０７は、揮発性メモリー素子（例えば、ランダムアクセスメモリー（ＲＡＭ、例えば、ＤＲＡＭ、ＳＲＡＭ、ＳＤＲＡＭなど））および不揮発性メモリー素子（例えば、ＲＯＭ、ハードドライブ、テープ、ＣＤＲＯＭ、ＤＶＤＲＯＭなど）のいずれか１つまたは組合せを含み得る。さらに、メモリーシステム２１０７は、電子、磁気、光学式、および／または他のタイプの記憶媒体を組み込むことができる。メモリーシステム２１０７が、様々な構成要素が互いに遠隔地にあるがそれらにプロセッサー２１０６によってアクセスすることができる、分散型アーキテクチャを有し得ることに留意されたい。

メモリーシステム２１０７におけるソフトウェアは、各々が論理関数をインプリメントするための実行可能命令の順序付きリストを含む１つまたは複数のソフトウェアプログラムを含み得る。図２１の例では、コンピューターデバイス２１０１のメモリーシステム２１０７におけるソフトウェアは、融合コーラーモジュール２１０４（またはそのサブ構成要素）、配列データ２１０５、および好適なオペレーティングシステム（Ｏ／Ｓ）２１１１を含み得る。オペレーティングシステム２１１１は、他のコンピュータープログラムの実行を本質的に制御し、スケジューリング、入力－出力制御、ファイルおよびデータ管理、メモリー管理、ならびに通信管理および関連サービスを提供する。

説明のために、アプリケーションプログラムおよび他の実行可能なプログラム構成要素、例えばオペレーティングシステム２１１１は、本明細書では個別のブロックとして示されているが、そのようなプログラムおよび構成要素は、コンピューターデバイス２１０１および／またはサーバー２１０２の異なる記憶構成要素中に様々な時点で、存在し得ることが認識される。融合コーラーモジュール２１０４のインプリメンテーションを、何らかの形態のコンピューター可読媒体に記憶させるか、またはそれ経由で送信することができる。開示された方法のいずれも、コンピューター可読媒体で具現化されるコンピューター可読命令によって行うことができる。コンピューター可読媒体は、コンピューターがアクセスすることができる任意の利用可能な媒体であり得る。例として、限定としてではなく、コンピューター可読媒体は、「コンピューター記憶媒体」および「通信媒体」を含み得る。「コンピューター記憶媒体」は、コンピューター可読命令、データ構造、プログラムモジュール、または他のデータなどの、情報の記憶のための任意の方法または技術でインプリメントされる、揮発性および不揮発性の、取り外し可能なおよび取り外し不能の媒体を含み得る。例示的なコンピューター記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリーもしくは他のメモリー技術、ＣＤ－ＲＯＭ、デジタル多用途ディスク（ＤＶＤ）もしくは他の光学式記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置もしくは他の磁気記憶デバイス、または所望の情報を記憶するために使用することができ、コンピューターがアクセスすることができる、任意の他の媒体を含み得る。

ある実施形態では、融合コーラーモジュール２１０４を、配列データ２１０５にアクセスし、図２２に示されている方法２２００を行うように構成することができる。方法２２００を、全部または一部において、単一のコンピューターデバイス、および複数の電子デバイスなどによって行うことができる。方法２２００は、ステップ２２０１で複数の配列リードを参照配列にアラインさせることを含み得る。

方法２２００は、ステップ２２０２で、複数の配列リードのうちの少なくとも１つの配列リードの参照配列へのアラインメントで１つまたは複数の切断点を決定することを含み得る。

方法２２００は、ステップ２２０３で、アラインメントで１つまたは複数の切断点に関連する任意の配列リードを候補融合配列リードとして同定することを含み得る。アラインメントで１つまたは複数の切断点に関連する任意の配列リードを候補融合配列リードとして同定することは、閾値未満のマッピング可能性スコアを有するアラインメントを破棄することを含み得る。アラインメントで１つまたは複数の切断点に関連する任意の配列リードを候補融合配列リードとして同定することは、論理的であるアラインメントを破棄することを含み得る。

方法２２００は、ステップ２２０４で、１つまたは複数の切断点のうちの共通の切断点に関連する候補融合配列リードを決定することを含み得る。１つまたは複数の切断点のうちの共通の切断点に関連する候補融合配列リードを決定することは、２つの候補融合配列リードが切断点を同じ染色体に同じ配向で含むことを決定することを含み得る。１つまたは複数の切断点のうちの共通の切断点に関連する候補融合配列リードを決定することは、２つの候補融合配列リードが切断点を同じ位置に含むことを決定することを含み得る。１つまたは複数の切断点のうちの共通の切断点に関連する候補融合配列リードを決定することは、２つの候補融合配列リードが切断点をある位置から閾値塩基数以内に含むことを決定することを含み得る。位置からの閾値塩基数は、例えば、１～４０塩基であり得る。ある実施形態では、位置からの閾値塩基数は、１０塩基であり得る。ある実施形態では、位置からの閾値塩基数は、１１塩基であり得る。ある実施形態では、位置からの閾値塩基数は、１２塩基であり得る。１つまたは複数の切断点のうちの共通の切断点に関連する候補融合配列リードを決定することは、２つの候補融合配列リードが複数の切断点を同じ染色体に同じ配向で含むことを決定することを含み得る。１つまたは複数の切断点のうちの共通の切断点に関連する候補融合配列リードを決定することは、２つの候補融合配列リードが複数の切断点を同じ位置に含むことを決定することを含み得る。１つまたは複数の切断点のうちの共通の切断点に関連する候補融合配列リードを決定することは、２つの候補融合配列リードが複数の切断点を複数の位置から閾値塩基数以内に含むことを決定することを含み得る。複数の位置からの閾値塩基数は、例えば、１～４０塩基であり得る。ある実施形態では、複数の位置からの閾値塩基数は、１０塩基であり得る。ある実施形態では、複数の位置からの閾値塩基数は、１１塩基であり得る。ある実施形態では、複数の位置からの閾値塩基数は、１２塩基であり得る。ある実施形態では、複数の位置からの閾値塩基数は、１３塩基であり得る。ある実施形態では、複数の位置からの閾値塩基数は、１４塩基であり得る。ある実施形態では、複数の位置からの閾値塩基数は、１５塩基であり得る。

方法２２００は、ステップ２２０５で、１つまたは複数の共通の切断点に基づいて候補融合配列リードをグループ化することを含み得る。１つまたは複数の共通の切断点に基づいて候補融合配列リードをグループ化することは、グループについての（例えば、各グループについての）ｄｅＢｒｕｉｊｎグラフを生成することを含み得る。

方法２２００は、ステップ２２０６で、グループ内の（例えば、各グループについての）候補融合配列リードを１つまたは複数のコンティグにアセンブルすることを含み得る。グループ内の候補融合配列リードを１つまたは複数のコンティグにアセンブルすることは、各ｄｅＢｒｕｉｊｎグラフを線形化してグループについてのコンティグを生成することを含み得る。グループ内の候補融合配列リードを１つまたは複数のコンティグにアセンブルすることは、１つまたは複数のエラー補正手順を行うことを含み得る。１つまたは複数のエラー補正手順は、候補融合配列リードと参照配列の間のミスマッチを解消することを含み得る。１つまたは複数のエラー補正手順は、少なくとも２つの候補融合配列リード間にパディングを挿入することを含み得る。１つまたは複数のエラー補正手順は、閾値を超えるアラインされていない部分を有する１つまたは複数の候補融合配列リードを破棄することを含み得る。

方法２２００は、ステップ２２０７で、グループからの（例えば、各グループについての）コンティグを参照配列にアラインさせることを含み得る。

方法２２００は、ステップ２２０８で、グループからの（例えば、各グループについての）コンティグのアラインメントに基づいて、１つまたは複数の候補融合事象を決定することを含み得る。グループからのコンティグのアラインメントに基づいて、１つまたは複数の候補融合事象を決定することは、フットプリント試験またはばらつき試験の１つまたは複数を適用することを含み得る。フットプリント試験を適用することは、コンティグを支持する候補融合配列リードのファミリーの閾値数が切断点に及ぶことを決定することを含み得る。ばらつき試験を適用することは、閾値ばらつき量が、コンティグを支持し切断点に及ぶ候補融合配列リードの少なくとも２つのファミリー間に存在することを決定することを含み得る。

方法２２００は、ステップ２２０９で、１つまたは複数の候補融合事象に１つまたは複数の基準を適用することを含み得る。

１つまたは複数の候補融合事象に１つまたは複数の基準を適用することは、候補融合事象について（例えば、各候補融合事象について）、１つまたは複数のアラインされたコンティグの切断点とパネルの少なくとも１つのプローブの位置との間の距離を決定すること、およびパネルの少なくとも１つのプローブの位置からの距離が閾値未満である切断点を含有しない１つまたは複数のコンティグのアラインされたコンティグに関連する任意の候補融合事象を破棄することを含み得る。例として、距離は、１～１，０００塩基であり得る。ある実施形態では、距離は、３５０塩基であり得る。候補融合事象を決定する配列リード（ステップ２２０１）は、パネルについての濃縮されたＤＮＡに由来し得る。

１つまたは複数の候補融合事象に１つまたは複数の基準を適用することは、目的の１つまたは複数の遺伝子を決定すること、および目的の１つまたは複数の遺伝子に関連する切断点を含有しない１つまたは複数のコンティグのアラインされたコンティグに関連する任意の候補融合事象を破棄することを含み得る。

１つまたは複数の候補融合事象に１つまたは複数の基準を適用することは、候補融合事象について、１つまたは複数のアラインされたコンティグの切断点が欠失であることを決定すること、および別の欠失から離れているいくつかの塩基内に位置する欠失を含む１つまたは複数のコンティグのアラインされたコンティグに関連する任意の候補融合事象を破棄することを含み得る。

１つまたは複数の候補融合事象に１つまたは複数の基準を適用することは、候補融合事象について、１つまたは複数のアラインされたコンティグの切断点が欠失であることを決定すること、および閾値未満のいくつかの塩基を含む欠失を含む１つまたは複数のコンティグのアラインされたコンティグに関連する任意の候補融合事象を破棄することを含み得る。

１つまたは複数の候補融合事象に１つまたは複数の基準を適用することは、イントロン領域に完全に埋まっている挿入または欠失を含む１つまたは複数のコンティグのアラインされたコンティグに関連する任意の候補融合事象を破棄することを含み得る。

１つまたは複数の候補融合事象に１つまたは複数の基準を適用することは、候補融合事象について、１つまたは複数のアラインされたコンティグについて、分子のリードに対する比を決定すること、および閾値を超える分子のリードに対する比に関連しているが二本鎖支持分子に関連していない、１つまたは複数のコンティグのアラインされたコンティグに関連する任意の候補融合事象を破棄することを含み得る。

１つまたは複数の候補融合事象に１つまたは複数の基準を適用することは、候補融合事象について、１つまたは複数のアラインされたコンティグの切断点対について、切断点対の切断点に隣接している配列を決定すること、切断点対の切断点に隣接している配列をアラインさせること、切断点対の切断点に隣接している配列のアラインメントについてのアラインメントスコアを決定すること、および閾値を超えるアラインメントスコアに基づく１つまたは複数のコンティグのアラインされたコンティグに関連する任意の候補融合事象を破棄することを含み得る。

１つまたは複数の候補融合事象に１つまたは複数の基準を適用することは、候補融合事象について、１つまたは複数のアラインされたコンティグの切断点対について、切断点対の切断点に中心がある配列を決定すること、切断点を中心とする配列を互いにアラインさせること、切断点を中心とする配列のアラインメントについてのアラインメントスコアを決定すること、および閾値を超えるアラインメントスコアに基づく１つまたは複数のコンティグのアラインされたコンティグに関連する任意の候補融合事象を破棄することを含み得る。

方法２２００は、ステップ２２１０で、１つまたは複数の候補融合事象に１つまたは複数の基準を適用することに基づいて、１つまたは複数の融合事象を決定することを含み得る。任意の残存候補融合事象を、１つまたは複数の融合事象として決定することができる。

ある実施形態では、融合コーラーモジュール２１０４を、配列データ２１０５にアクセスし、図２３に示されている方法２３００を行うように構成することができる。方法２３００を、全部または一部において、単一のコンピューターデバイス、および複数の電子デバイスなどによって行うことができる。方法２３００は、ステップ２３１０で複数の配列リードを参照配列にアラインさせることを含み得る。

方法２３００は、ステップ２３２０で、配列リードの参照配列へのアラインメントでの１つまたは複数の切断点に基づいて、複数の配列リードの１つまたは複数の候補融合配列リードを決定することを含み得る。配列リードの参照配列へのアラインメントでの１つまたは複数の切断点に基づいて、複数の配列リードの１つまたは複数の候補融合配列リードを決定することは、２つの候補融合配列リードが切断点を同じ染色体に同じ配向で含むことを決定することを含み得る。配列リードの参照配列へのアラインメントでの１つまたは複数の切断点に基づいて、複数の配列リードの１つまたは複数の候補融合配列リードを決定することは、２つの候補融合配列リードが切断点を同じ位置に含むことを決定することを含み得る。配列リードの参照配列へのアラインメントでの１つまたは複数の切断点に基づいて、複数の配列リードの１つまたは複数の候補融合配列リードを決定することは、２つの候補融合配列リードが切断点をある位置から閾値塩基数以内に含むことを決定することを含み得る。位置からの閾値塩基数は、例えば、１～４０塩基であり得る。ある実施形態では、位置からの閾値塩基数は、１０塩基であり得る。ある実施形態では、位置からの閾値塩基数は、１１塩基であり得る。ある実施形態では、位置からの閾値塩基数は、１２塩基であり得る。配列リードの参照配列へのアラインメントでの１つまたは複数の切断点に基づいて、複数の配列リードの１つまたは複数の候補融合配列リードを決定することは、２つの候補融合配列リードが複数の切断点を同じ染色体に同じ配向で含むことを決定することを含み得る。配列リードの参照配列へのアラインメントでの１つまたは複数の切断点に基づいて、複数の配列リードの１つまたは複数の候補融合配列リードを決定することは、２つの候補融合配列リードが複数の切断点を同じ位置に含むことを決定することを含み得る。配列リードの参照配列へのアラインメントでの１つまたは複数の切断点に基づいて、複数の配列リードの１つまたは複数の候補融合配列リードを決定することは、２つの候補融合配列リードが複数の切断点を複数の位置から閾値塩基数以内に含むことを決定することを含み得る。複数の位置からの閾値塩基数は、例えば、１～４０塩基であり得る。ある実施形態では、位置からの閾値塩基数は、１０塩基であり得る。ある実施形態では、位置からの閾値塩基数は、１１塩基であり得る。ある実施形態では、複数の位置からの閾値塩基数は、１２塩基であり得る。

方法２３００は、ステップ２３３０で、１つまたは複数の共通の切断点に基づいて、１つまたは複数の候補融合配列リードを１つまたは複数のコンテナデータ構造にグループ化することを含み得る。異なるアラインメントからの切断点を共通のコンテナデータ構造に割り当てることができる。ｄｅＢｒｕｉｊｎグラフ技法による１つまたは複数のコンテナデータ構造への１つまたは複数の候補融合配列リード。

方法２３００は、ステップ２３４０で、コンテナデータ構造について（例えば、各コンテナデータ構造について）、１つまたは複数の候補融合配列リードを１つまたは複数のコンティグにアセンブルすることを含み得る。１つまたは複数の候補融合リードを１つまたは複数のコンティグにアセンブルすることは、コンテナデータ構造について（例えば、各コンテナデータ構造について）、１つまたは複数の候補融合配列リードをグラフデータ構造にアセンブルすること、およびグラフデータ構造を線形化して１つまたは複数のコンティグを生成することを含み得る。１つまたは複数の候補融合配列リードを１つまたは複数のコンティグにアセンブルすることは、１つまたは複数のエラー補正手順を行うことを含み得る。１つまたは複数のエラー補正手順は、候補融合配列リードと参照配列の間のミスマッチを解消することを含み得る。１つまたは複数のエラー補正手順は、２つまたはそれより多くの候補融合配列リード間にパディングを挿入することを含み得る。１つまたは複数のエラー補正手順は、閾値を超えるアラインされていない部分を有する１つまたは複数の候補融合配列リードを破棄することを含み得る。

方法２３００は、ステップ２３５０で、コンテナデータ構造について（例えば、各コンテナデータ構造について）、１つまたは複数のコンティグを参照配列にアラインさせることを含み得る。方法２３００は、フットプリント試験またはばらつき試験の１つまたは複数を適用することを含み得る、コンテナデータ構造からのコンティグのアラインメントに基づいて１つまたは複数の候補融合事象を決定するステップを、さらに含み得る。フットプリント試験を適用することは、コンティグを支持する候補融合配列リードのファミリーの閾値数が切断点に及ぶことを決定することを含み得る。ばらつき試験を適用することは、閾値ばらつき量が、コンティグを支持し切断点に及ぶ候補融合配列リードの少なくとも２つのファミリー間に存在することを決定することを含む。

方法２３００は、ステップ２３６０で、１つまたは複数の基準に基づいて、融合事象を示す１つまたは複数のアラインされたコンティグを決定することを含み得る。任意の残存候補融合事象を、１つまたは複数の融合事象として決定することができる。１つまたは複数の基準に基づいて、１つまたは複数の融合事象を示す１つまたは複数のアラインされたコンティグを決定することは、１つまたは複数のアラインされたコンティグの切断点とパネルの少なくとも１つのプローブの位置との間の距離を決定すること、およびパネルの少なくとも１つのプローブの位置からの距離が閾値未満である切断点を含有しない１つまたは複数のコンティグの任意のアラインされたコンティグを破棄することを含み得る。例として、距離は、１～１，０００塩基であり得る。ある実施形態では、距離は、３５０塩基であり得る。候補融合事象を決定する配列リード（ステップ２３１０）は、パネルについての濃縮されたＤＮＡに由来し得る。１つまたは複数の基準に基づいて、融合事象を示す１つまたは複数のアラインされたコンティグを決定することは、目的の１つまたは複数の遺伝子を決定すること、および目的の１つまたは複数の遺伝子に関連する切断点を含有しない１つまたは複数のコンティグの任意のアラインされたコンティグを破棄することを含み得る。１つまたは複数の基準に基づいて、融合事象を示す１つまたは複数のアラインされたコンティグを決定することは、１つまたは複数のアラインされたコンティグの切断点が欠失であることを決定すること、および別の欠失から離れているいくつかの塩基内に位置する欠失を含む１つまたは複数のコンティグの任意のアラインされたコンティグを破棄することを含み得る。１つまたは複数の基準に基づいて、融合事象を示す１つまたは複数のアラインされたコンティグを決定することは、１つまたは複数のアラインされたコンティグの切断点が欠失であることを決定すること、および閾値未満のいくつかの塩基を含む欠失を含む１つまたは複数のコンティグの任意のアラインされたコンティグを破棄することを含み得る。１つまたは複数の基準に基づいて、融合事象を示す１つまたは複数のアラインされたコンティグを決定することは、イントロン領域に完全に埋まっている挿入または欠失を含む１つまたは複数のコンティグの任意のアラインされたコンティグを破棄することを含み得る。１つまたは複数の基準に基づいて、融合事象を示す１つまたは複数のアラインされたコンティグを決定することは、１つまたは複数のアラインされたコンティグについて、分子のリードに対する比を決定すること、および閾値を超える分子のリードに対する比に関連しているが二本鎖支持分子に関連していない、１つまたは複数のコンティグの任意のアラインされたコンティグを破棄することを含み得る。１つまたは複数の基準に基づいて、融合事象を示す１つまたは複数のアラインされたコンティグを決定することは、１つまたは複数のアラインされたコンティグの切断点対について、切断点対の切断点に隣接している配列を決定すること、切断点対の切断点に隣接している配列をアラインさせること、切断点対の切断点に隣接している配列のアラインメントについてのアラインメントスコアを決定すること、および閾値を超えるアラインメントスコアに基づく１つまたは複数のコンティグの任意のアラインされたコンティグを破棄することを含み得る。１つまたは複数の基準に基づいて、融合事象を示す１つまたは複数のアラインされたコンティグを決定することは、１つまたは複数のアラインされたコンティグの切断点対について、切断点対の切断点に中心がある配列を決定すること、切断点を中心とする配列を互いにアラインさせること、切断点を中心とする配列のアラインメントについてのアラインメントスコアを決定すること、および閾値を超えるアラインメントスコアに基づく１つまたは複数のコンティグの任意のアラインされたコンティグを破棄することを含み得る。

方法２３００は、１つまたは複数のコンティグの任意のアラインされたコンティグを破棄することに基づいて、ライブラリー調製に関連する問題点を示す通知を生成することをさらに含み得る。

特定の構成を説明してきたが、本明細書における構成は、あらゆる点で、限定的ではなく可能な構成であることを意図したものであるので、示した特定の構成に範囲を限定することを意図したものではない。別段の明確な記述がない限り、本明細書で示したいずれの方法も、そのステップを特定の順序で行うことを要求すると解釈されることを意図したものでは決してない。したがって、そのステップが後に続くような順序が方法請求項に実際に記述されていない、またはステップを特定の順序に限定するべきであることが特許請求の範囲でも明細書でも別様に具体的に述べられていない場合、いかなる点においても順序を推論することを意図したものでは決してない。このことは、ステップまたはオペレーショナルフローの配置に関する論理の問題；文法構成または句読点から導かれる明らかな意味；明細書に記載されている構成の数またはタイプをはじめとする、解釈のあらゆる可能な非明示的根拠に当てはまる。

当業者には、本範囲または趣旨を逸脱することなく、様々な修正および変更を加えることができることは明らかであろう。他の構成は、当業者には、本明細書、および本明細書に記載の実践を考察することでは明らかであろう。本明細書および記載の構成は例示とみなされることを意図したものに過ぎず、真の範囲および趣旨は、後続の特許請求の範囲によって示す。

Claims

複数の配列リードを参照配列にアラインさせるステップ；
前記複数の配列リードの複数の配列リードの前記参照配列へのアラインメントで１つまたは複数の切断点を決定するステップ；
前記アラインメントで前記１つまたは複数の切断点に関連する任意の配列リードを候補融合配列リードとして同定するステップ；
１つまたは複数の切断点のうちの共通の切断点に関連する候補融合配列リードを決定するステップ；
１つまたは複数の共通の切断点に基づいて前記候補融合配列リードをグループ化するステップ；
前記グループ内の前記候補融合配列リードを１つまたは複数のコンティグにアセンブルするステップ；
複数のグループのうちの前記グループからの前記コンティグを前記参照配列にアラインさせるステップ；
前記グループからの前記コンティグの前記アラインメントに基づいて、１つまたは複数の候補融合事象を決定するステップ；
前記１つまたは複数の候補融合事象に１つまたは複数の基準を適用するステップ；および
前記１つまたは複数の候補融合事象に前記１つまたは複数の基準を適用するステップに基づいて、１つまたは複数の融合事象を決定するステップ
を含む方法。
前記アラインメントで前記１つまたは複数の切断点に関連する任意の配列リードを候補融合配列リードとして同定するステップが、閾値未満のマッピング可能性スコアを有するアラインメントを破棄することを含む、請求項１に記載の方法。
前記アラインメントで前記１つまたは複数の切断点に関連する任意の配列リードを候補融合配列リードとして同定するステップが、論理的であるアラインメントを破棄することを含む、請求項１から２のいずれか一項に記載の方法。
１つまたは複数の切断点のうちの共通の切断点に関連する候補融合配列リードを決定するステップが、少なくとも２つの候補融合配列リードが同じ染色体に、かつ同じ配向にある切断点を含むことを決定することを含む、請求項１から３のいずれか一項に記載の方法。
１つまたは複数の切断点のうちの共通の切断点に関連する候補融合配列リードを決定するステップが、少なくとも２つの候補融合配列リードが同じ位置にある切断点を含むことを決定することを含む、請求項１から４のいずれか一項に記載の方法。
１つまたは複数の切断点のうちの共通の切断点に関連する候補融合配列リードを決定するステップが、少なくとも２つの候補融合配列リードがある位置から閾値塩基数以内にある切断点を含むことを決定することを含む、請求項１から５のいずれか一項に記載の方法。
１つまたは複数の切断点のうちの共通の切断点に関連する候補融合配列リードを決定するステップが、少なくとも２つの候補融合配列リードが同じ染色体に、かつ同じ配向にある複数の切断点を含むことを決定することを含む、請求項１から６のいずれか一項に記載の方法。
１つまたは複数の切断点のうちの共通の切断点に関連する候補融合配列リードを決定するステップが、少なくとも２つの候補融合配列リードが同じ位置にある複数の切断点を含むことを決定することを含む、請求項１から７のいずれか一項に記載の方法。
１つまたは複数の切断点のうちの共通の切断点に関連する候補融合配列リードを決定するステップが、少なくとも２つの候補融合配列リード各々が複数の位置から閾値塩基数以内にある複数の切断点を含むことを決定することを含む、請求項１から８のいずれか一項に記載の方法。
１つまたは複数の共通の切断点に基づいて前記候補融合配列リードをグループ化するステップが、前記グループについてのｄｅＢｒｕｉｊｎグラフを生成することを含む、請求項１から９のいずれか一項に記載の方法。
前記グループ内の前記候補融合配列リードを１つまたは複数のコンティグにアセンブルするステップが、前記ｄｅＢｒｕｉｊｎグラフを線形化して前記グループについてのコンティグを生成することを含む、請求項１０に記載の方法。
前記グループ内の前記候補融合配列リードを１つまたは複数のコンティグにアセンブルするステップが、１つまたは複数のエラー補正手順を行うことを含む、請求項１から１１のいずれか一項に記載の方法。
前記１つまたは複数のエラー補正手順が、候補融合配列リードと前記参照配列の間のミスマッチを解消することを含む、請求項１２に記載の方法。
前記１つまたは複数のエラー補正手順が、少なくとも２つの候補融合配列リード間にパディングを挿入することを含む、請求項１２から１３のいずれか一項に記載の方法。
前記１つまたは複数のエラー補正手順が、閾値を超えるアラインされていない部分を有する１つまたは複数の候補融合配列リードを破棄することを含む、請求項１２から１４のいずれか一項に記載の方法。
前記グループからの前記コンティグの前記アラインメントに基づいて１つまたは複数の候補融合事象を決定するステップが、フットプリント試験またはばらつき試験の１つまたは複数を適用することを含む、請求項１から１５のいずれか一項に記載の方法。
前記フットプリント試験を適用することが、前記コンティグを支持する候補融合配列リードのファミリーの閾値数が前記切断点に及ぶことを決定することを含む、請求項１６に記載の方法。
前記ばらつき試験を適用することが、閾値ばらつき量が、前記コンティグを支持し前記切断点に及ぶ候補融合配列リードの少なくとも２つのファミリー間に存在することを決定することを含む、請求項１６から１７のいずれか一項に記載の方法。
前記１つまたは複数の候補融合事象に１つまたは複数の基準を適用するステップが、
前記候補融合事象について、前記１つまたは複数のアラインされたコンティグの切断点とパネルの少なくとも１つのプローブの位置との間の距離を決定すること；および
パネルの少なくとも１つのプローブの位置からの距離が閾値未満である切断点を含有しない前記１つまたは複数のコンティグのアラインされたコンティグに関連する任意の候補融合事象を破棄すること
を含む、請求項１から１８のいずれか一項に記載の方法。
前記１つまたは複数の候補融合事象に１つまたは複数の基準を適用するステップが、
目的の１つまたは複数の遺伝子を決定すること；および
目的の前記１つまたは複数の遺伝子に関連する切断点を含有しない前記１つまたは複数のコンティグのアラインされたコンティグに関連する任意の候補融合事象を破棄すること
を含む、請求項１から１９のいずれか一項に記載の方法。
前記１つまたは複数の候補融合事象に１つまたは複数の基準を適用するステップが、
前記候補融合事象について、前記１つまたは複数のアラインされたコンティグの切断点が欠失であることを決定すること；および
別の欠失から離れているいくつかの塩基内に位置する欠失を含む前記１つまたは複数のコンティグのアラインされたコンティグに関連する任意の候補融合事象を破棄すること
を含む、請求項１から２０のいずれか一項に記載の方法。
前記１つまたは複数の候補融合事象に１つまたは複数の基準を適用するステップが、
前記候補融合事象について、前記１つまたは複数のアラインされたコンティグの切断点が欠失であることを決定すること；および
閾値未満のいくつかの塩基を含む欠失を含む前記１つまたは複数のコンティグのアラインされたコンティグに関連する任意の候補融合事象を破棄すること
を含む、請求項１から２１のいずれか一項に記載の方法。
前記１つまたは複数の候補融合事象に１つまたは複数の基準を適用するステップが、
イントロン領域に完全に埋まっている挿入または欠失を含む前記１つまたは複数のコンティグのアラインされたコンティグに関連する任意の候補融合事象を破棄すること
を含む、請求項１から２２のいずれか一項に記載の方法。
前記１つまたは複数の候補融合事象に１つまたは複数の基準を適用するステップが、
前記候補融合事象について、前記１つまたは複数のアラインされたコンティグについて、分子のリードに対する比を決定すること；および
閾値を超える分子のリードに対する比に関連しているが二本鎖支持分子に関連していない、前記１つまたは複数のコンティグのアラインされたコンティグに関連する任意の候補融合事象を破棄すること
を含む、請求項１から２３のいずれか一項に記載の方法。
前記１つまたは複数の候補融合事象に１つまたは複数の基準を適用するステップが、
前記候補融合事象について、前記１つまたは複数のアラインされたコンティグの切断点対について、前記切断点対の前記切断点に隣接している配列を決定すること；
前記切断点対の前記切断点に隣接している前記配列をアラインさせること；
前記切断点対の前記切断点に隣接している前記配列の前記アラインメントについてのアラインメントスコアを決定すること；および
閾値を超える前記アラインメントスコアに基づく前記１つまたは複数のコンティグのアラインされたコンティグに関連する任意の候補融合事象を破棄すること
を含む、請求項１から２４のいずれか一項に記載の方法。
前記１つまたは複数の候補融合事象に１つまたは複数の基準を適用するステップが、
前記候補融合事象について、前記１つまたは複数のアラインされたコンティグの前記切断点対について、前記切断点対の前記切断点に中心がある配列を決定すること；
前記切断点を中心とする配列を互いにアラインさせること；
前記切断点を中心とする前記配列の前記アラインメントについてのアラインメントスコアを決定すること；および
閾値を超える前記アラインメントスコアに基づく前記１つまたは複数のコンティグのアラインされたコンティグに関連する任意の候補融合事象を破棄すること
を含む、請求項１から２５のいずれか一項に記載の方法。
複数の配列リードを参照配列にアラインさせるステップ；
配列リードの前記参照配列への前記アラインメントでの１つまたは複数の切断点に基づいて、前記複数の配列リードの１つまたは複数の候補融合配列リードを決定するステップ；
１つまたは複数の共通の切断点に基づいて、前記１つまたは複数の候補融合配列リードを１つまたは複数のコンテナデータ構造にグループ化するステップ；
前記コンテナデータ構造について、前記１つまたは複数の候補融合配列リードを１つまたは複数のコンティグにアセンブルするステップ；
前記コンテナデータ構造について、前記１つまたは複数のコンティグを前記参照配列にアラインさせるステップ；および
１つまたは複数の基準に基づいて、融合事象を示す１つまたは複数のアラインされたコンティグを決定するステップ
を含む方法。
配列リードの前記参照配列への前記アラインメントでの１つまたは複数の切断点に基づいて、前記複数の配列リードの１つまたは複数の候補融合配列リードを決定するステップが、少なくとも２つの候補融合配列リードが同じ染色体に、かつ同じ配向にある切断点を含むことを決定することを含む、請求項２７に記載の方法。
配列リードの前記参照配列への前記アラインメントでの１つまたは複数の切断点に基づいて、前記複数の配列リードの１つまたは複数の候補融合配列リードを決定するステップが、少なくとも２つの候補融合配列リードが同じ位置にある切断点を含むことを決定することを含む、請求項２７から２８のいずれか一項に記載の方法。
配列リードの前記参照配列への前記アラインメントでの１つまたは複数の切断点に基づいて、前記複数の配列リードの１つまたは複数の候補融合配列リードを決定するステップが、少なくとも２つの候補融合配列リードがある位置から閾値塩基数以内にある切断点を含むことを決定することを含む、請求項２７から２９のいずれか一項に記載の方法。
配列リードの前記参照配列への前記アラインメントでの１つまたは複数の切断点に基づいて、前記複数の配列リードの１つまたは複数の候補融合配列リードを決定するステップが、少なくとも２つの候補融合配列リードが同じ染色体に、かつ同じ配向にある複数の切断点を含むことを決定することを含む、請求項２７から３０のいずれか一項に記載の方法。
配列リードの前記参照配列への前記アラインメントでの１つまたは複数の切断点に基づいて、前記複数の配列リードの１つまたは複数の候補融合配列リードを決定するステップが、少なくとも２つの候補融合配列リードが同じ位置にある複数の切断点を含むことを決定することを含む、請求項２７から３１のいずれか一項に記載の方法。
配列リードの前記参照配列への前記アラインメントでの１つまたは複数の切断点に基づいて、前記複数の配列リードの１つまたは複数の候補融合配列リードを決定するステップが、少なくとも２つの候補融合配列リードが複数の位置から閾値塩基数以内にある複数の切断点を含むことを決定することを含む、請求項２７から３２のいずれか一項に記載の方法。
異なるアラインメントからの切断点が、共通のコンテナデータ構造に割り当てられる、請求項２７から３３のいずれか一項に記載の方法。
前記グループについて、前記１つまたは複数の候補融合リードを１つまたは複数のコンティグにアセンブルするステップが、
前記グループについて、前記１つまたは複数の候補融合配列リードをグラフデータ構造にアセンブルすること；および
前記グラフデータ構造を線形化して１つまたは複数のコンティグを生成すること
を含む、請求項２７から３４のいずれか一項に記載の方法。
前記１つまたは複数の候補融合配列リードを１つまたは複数のコンティグにアセンブルするステップが、１つまたは複数のエラー補正手順を行うことを含む、請求項２７から３５のいずれか一項に記載の方法。
前記１つまたは複数のエラー補正手順が、候補融合配列リードと前記参照配列の間のミスマッチを解消することを含む、請求項３６に記載の方法。
前記１つまたは複数のエラー補正手順が、少なくとも２つの候補融合配列リード間にパディングを挿入することを含む、請求項３６から３７のいずれか一項に記載の方法。
前記１つまたは複数のエラー補正手順が、閾値を超えるアラインされていない部分を有する１つまたは複数の候補融合配列リードを破棄することを含む、請求項３６から３８のいずれか一項に記載の方法。
前記グループからの前記コンティグの前記アラインメントに基づいて、１つまたは複数の候補融合事象を決定するステップであって、フットプリント試験またはばらつき試験の１つまたは複数を適用することを含むステップをさらに含む、請求項２７から３９のいずれか一項に記載の方法。
前記フットプリント試験を適用することが、前記コンティグを支持する候補融合配列リードのファミリーの閾値数が前記切断点に及ぶことを決定することを含む、請求項４０に記載の方法。
前記ばらつき試験を適用することが、閾値ばらつき量が、前記コンティグを支持し前記切断点に及ぶ候補融合配列リードの少なくとも２つのファミリー間に存在することを決定することを含む、請求項４０から４１のいずれか一項に記載の方法。
前記１つまたは複数の基準に基づいて、１つまたは複数の融合事象を示す前記１つまたは複数のアラインされたコンティグを決定するステップが、
前記１つまたは複数のアラインされたコンティグの切断点とパネルの少なくとも１つのプローブの位置との間の距離を決定すること；および
パネルの少なくとも１つのプローブの位置からの距離が閾値未満である切断点を含有しない前記１つまたは複数のコンティグの任意のアラインされたコンティグを破棄すること
を含む、請求項２７から４２のいずれか一項に記載の方法。
前記１つまたは複数の基準に基づいて、前記融合事象を示す前記１つまたは複数のアラインされたコンティグを決定するステップが、
目的の１つまたは複数の遺伝子を決定すること；および
目的の前記１つまたは複数の遺伝子に関連する切断点を含有しない前記１つまたは複数のコンティグの任意のアラインされたコンティグを破棄すること
を含む、請求項２７から４３のいずれか一項に記載の方法。
前記１つまたは複数の基準に基づいて、前記融合事象を示す前記１つまたは複数のアラインされたコンティグを決定するステップが、
前記１つまたは複数のアラインされたコンティグの切断点が欠失であることを決定すること；および
別の欠失から離れているいくつかの塩基内に位置する欠失を含む前記１つまたは複数のコンティグの任意のアラインされたコンティグを破棄すること
を含む、請求項２７から４４のいずれか一項に記載の方法。
前記１つまたは複数の基準に基づいて、前記融合事象を示す前記１つまたは複数のアラインされたコンティグを決定するステップが、
前記１つまたは複数のアラインされたコンティグの切断点が欠失であることを決定すること；および
閾値未満のいくつかの塩基を含む欠失を含む前記１つまたは複数のコンティグの任意のアラインされたコンティグを破棄すること
を含む、請求項２７から４５のいずれか一項に記載の方法。
前記１つまたは複数の基準に基づいて、前記融合事象を示す前記１つまたは複数のアラインされたコンティグを決定するステップが、
イントロン領域に完全に埋まっている挿入または欠失を含む前記１つまたは複数のコンティグの任意のアラインされたコンティグを破棄すること
を含む、請求項２７から４６のいずれか一項に記載の方法。
前記１つまたは複数の基準に基づいて、前記融合事象を示す前記１つまたは複数のアラインされたコンティグを決定するステップが、
前記１つまたは複数のアラインされたコンティグについて、分子のリードに対する比を決定すること；および
閾値を超える分子のリードに対する比に関連しているが二本鎖支持分子に関連していない、前記１つまたは複数のコンティグの任意のアラインされたコンティグを破棄すること
を含む、請求項２７から４７のいずれか一項に記載の方法。
前記１つまたは複数の基準に基づいて、前記融合事象を示す前記１つまたは複数のアラインされたコンティグを決定するステップが、
前記１つまたは複数のアラインされたコンティグの切断点対について、前記切断点対の前記切断点に隣接している配列を決定すること；
前記切断点対の前記切断点に隣接している前記配列をアラインさせること；
前記切断点対の前記切断点に隣接している前記配列の前記アラインメントについてのアラインメントスコアを決定すること；および
閾値を超える前記アラインメントスコアに基づく前記１つまたは複数のコンティグの任意のアラインされたコンティグを破棄すること
を含む、請求項２７から４８のいずれか一項に記載の方法。
前記１つまたは複数の基準に基づいて、前記融合事象を示す前記１つまたは複数のアラインされたコンティグを決定するステップが、
前記１つまたは複数のアラインされたコンティグの前記切断点対について、前記切断点対の前記切断点に中心がある配列を決定すること；
前記切断点を中心とする配列を互いにアラインさせること；
前記切断点を中心とする前記配列の前記アラインメントについてのアラインメントスコアを決定すること；および
閾値を超える前記アラインメントスコアに基づく前記１つまたは複数のコンティグの任意のアラインされたコンティグを破棄すること
を含む、請求項２７から４９のいずれか一項に記載の方法。
前記１つまたは複数のコンティグの任意のアラインされたコンティグを破棄することに基づいて、ライブラリー調製に関連する問題点を示す通知を生成するステップ
をさらに含む、請求項２７から５０のいずれか一項に記載の方法。
１つまたは複数のプロセッサーと；
前記１つまたは複数のプロセッサーによる実行時に、請求項１から５１のいずれかに記載の方法を装置に行わせる、プロセッサー実行可能命令を記憶するメモリーと
を含む、装置。
少なくとも１つのコンピューターデバイスによる実行時に、請求項１から５１のいずれかに記載の方法を前記少なくとも１つのコンピューターデバイスに行わせる、プロセッサー実行可能命令を記憶する非一時的なコンピューター可読媒体。
請求項１から５１のいずれかに記載の方法を行うように構成された少なくとも１つのコンピューターデバイスを含むシステム。
対象を処置する方法であって、前記対象に治療薬を投与するステップを含み、前記対象が、請求項１から５１に記載の方法のうちの１つまたは複数を使用して融合事象を有すると決定されている、方法。
融合事象を有すると決定された前記対象が、がんを有すると診断されている、請求項５５に記載の方法。
前記がんが、融合事象に関連するがんである、請求項５６に記載の方法。
融合事象に関連する前記がんが、進行尿路上皮がん、前立腺がん、乳がん、肺がん、結腸がん、神経膠芽腫、肝臓がん、および卵巣がんからなる群から選択される、請求項５７に記載の方法。
前記治療薬が、がん治療薬である、請求項５５から５８のいずれか一項に記載の方法。
前記がん治療薬が、前記対象が診断されたがんに特異的である、請求項５９に記載の方法。
前記がん治療薬が、前記融合事象に特異的である、請求項５９から６０のいずれか一項に記載の方法。