JP2023017894A

JP2023017894A - 圧縮分子タグ付き核酸配列データを用いた融合の検出のための方法

Info

Publication number: JP2023017894A
Application number: JP2022176189A
Authority: JP
Inventors: ラジェッシュゴッティムッカラ; Gottimukkala Rajesh; チェンゾンバイ; Cheng Zong Bai; ドゥミトルブリンザ; Brinza Dumitru; ジョフリースカージマン; Schageman Jeoffrey; ヴァルンバガイ; Bagai Varun
Original assignee: Life Technologies Corp
Current assignee: Life Technologies Corp
Priority date: 2017-09-20
Filing date: 2022-11-02
Publication date: 2023-02-07
Anticipated expiration: 2038-09-20
Also published as: JP7373047B2; US20240203525A1; JP2020534011A; WO2019060494A1; CN111108218A; KR20200058457A; US11894105B2; JP7171709B2; US20190087539A1; EP3684947A1

Abstract

【課題】核酸配列データを圧縮し、各配列読み取りが分子タグ配列と関係する方法を提供する。【解決手段】配列読み取りのアラインメントの一部が、標的融合参照配列へマッピングされた配列読み取りと対応する、圧縮するための方法は、配列読み取りのファミリーに対応するフロースペースシグナル測定に基づく配列読み取りの各ファミリーのコンセンサス配列読み取りを決定することであって、コンセンサス配列アラインメントの一部が、標的融合参照配列と整列したコンセンサス配列読み取りに対応する、決定することと、コンセンサス圧縮データを含む圧縮されたデータ構造を生じることであって、各ファミリーのコンセンサス配列読み取りとコンセンサス配列アラインメントとを含む、生じることと、コンセンサス配列読み取りと圧縮されたデータ構造からのコンセンサス配列アラインメントを用いて融合を検出することとを含む。【選択図】図１

Description

相互参照
本出願は、２０１７年９月２０日出願の米国特許法第１１９条（ｅ）項に基づく米国仮出願第６２／５６０，７４５号の利益を主張する。上記出願の全内容は、参照により本明細書に組み込まれる。

大規模な欠失、挿入、逆位、ゲノム再編成、遺伝子融合、およびこれらに類するものなどの構造変異体は、様々な遺伝的障害および癌と関係している可能性がある。構造変異体はしばしば、細胞の適切な機能に不可欠なタンパク質の生成に有意な混乱をもたらす可能性がある。例えば、ゲノム再編成および遺伝子融合は、１つのタンパク質からの第１の部分と別のタンパク質からの第２の部分とを有するキメラタンパク質をコードするｍＲＮＡが生じる可能性がある。しばしば、これらのキメラタンパク質はもはや、第１または第２のいずれかのタンパク質のように機能せず、規則性経路の混乱につながる可能性がある。癌細胞において、混乱した調節経路は、アポトーシス、細胞成長、またはこれらに類するものの調節に関与していることがあり、遺伝子融合の結果として、癌細胞がチェックされずに成長することができることがある。

核酸配列の分子タグ付けは、同じポリヌクレオチド分子、例えば無細胞ＤＮＡ（ｃｆＤＮＡ）試料に由来する核酸配列読み取りを特定し、それらのタグ配列に基づいてファミリーに分類するのに有用である。種々の技術、プラットフォーム、または技法を用いて核酸試料から得られた多量の分子タグ付き核酸配列データは、融合の検出のために保存および加工することができる。分子タグ付き核酸配列データを圧縮して保存のためのメモリ必要条件を低減させ、ｃｆＤＮＡ試料から取得したものを含む圧縮分子タグ付き核酸配列データにおいて融合を検出する新たな方法、システム、電子計算機可読媒体についての必要性がある。

例示的な実施形態によると、融合検出についての分子タグ付き核酸配列データを圧縮するための方法であって、（ａ）複数の核酸配列読み取りおよび複数の配列読み取りファミリーの複数の配列アラインメントを受け取ることであって、各配列読み取りが分子タグ配列と関係しており、分子タグ配列が、核酸試料中の特定のポリヌクレオチド分子から結果として生じる配列読み取りのファミリーを特定し、各ファミリーが番号配列読み取りを有し、配列アラインメントの一部が、標的融合参照配列へマッピングされた配列読み取りに対応する、受け取ることと、（ｂ）配列読み取りの各ファミリーについての配列読み取りに対応するフロースペースシグナル測定値に基づいて、各ファミリーのコンセンサス配列読み取りを決定することと、（ｃ）配列読み取りの各ファミリーについてのコンセンサス配列アラインメントを決定することであって、コンセンサス配列アラインメントの一部が、標的融合参照配列と整列しているコンセンサス配列読み取りに対応する、決定することと、（ｄ）コンセンサス圧縮データを含む圧縮データ構造を生成することであって、コンセンサス圧縮データが、コンセンサス配列読み取りと各ファミリーについてのコンセンサス配列アラインメントとを含む、生成することと、（ｅ）コンセンサス配列読み取りと圧縮データ構造からのコンセンサス配列アラインメントとを使用して融合を検出することと、を含む、方法が提供される。

例示的な実施形態によると、プロセッサによって実行されるとき、プロセッサに、融合検出についての分子タグ付き核酸配列データを圧縮するための方法を実行させる命令を含む、非一時的な機械可読記憶媒体であって、（ａ）複数の核酸配列読み取りと配列読み取りの複数のファミリーについての複数の配列アラインメントを受け取り、各配列読み取りが分子タグ配列と関係しており、分子タグ配列が核酸試料中の特定のポリヌクレオチド分詞から結果として生じる配列読み取りのファミリーを特定し、各ファミリーが番号配列読み取りを有し、配列アラインメントの一部が標的融合参照配列へマッピングされた配列読み取りに対応する、受け取ることと、（ｂ）ファミリーについての配列読み取りに対応するフロースペースシグナル測定値に基づいて配列読み取りの各ファミリーについてコンセンサス配列読み取りを決定することと、（ｃ）配列読み取りの各ファミリーについてコンセンサス配列アラインメントを決定することであって、コンセンサス配列アラインメントの一部が、標的融合参照配列と整列したコンセンサス配列読み取りに対応する、決定することと、（ｄ）コンセンサス圧縮データを含む圧縮データ構造を生成することであって、コンセンサス圧縮データがコンセンサス配列読み取りと各ファミリーについてのコンセンサス配列アラインメントとを含む、生成することと、（ｅ）コンセンサス配列読み取りと圧縮データ構造からのコンセンサス配列アラインメントとを使用して、融合を検出することと、を含む、非一時的な機械可読記憶媒体が提供される。

例示的な実施形態によれば、機械可読メモリと、メモリと通信するプロセッサとを備えた、融合検出のために分子タグ付き核酸配列データを圧縮するためのシステムであって、機械可読命令を実行するように構成されたシステムであって、機械可読命令が、プロセッサによって実行されるとき、（ａ）複数の核酸配列読み取りと配列読み取りの複数のファミリーについての複数の配列アラインメントとを受信することであって、各配列読み取りが、分子タグ配列と関係しており、分子タグ配列が、核酸試料中の特定のポリヌクレオチド分子から結果として生じる配列読み取りのファミリーを特定し、各ファミリーが番号配列読み取りを有し、配列アラインメントの一部が、標的融合参照配列へマッピングされた配列読み取りに対応する、受信することと、（ｂ）ファミリーについての配列読み取りに対応するフロースペースシグナル測定値に基づいて、配列読み取りの各ファミリーのコンセンサス配列読み取りを決定すること、（ｃ）配列読み取りの各ファミリーについてのコンセンサス配列アラインメントを決定することであって、コンセンサス配列アラインメントの一部が、標的融合参照配列と整列したコンセンサス配列読み取りに対応する、決定することと、（ｄ）コンセンサス圧縮データを含む圧縮データ構造を生成することであって、コンセンサス圧縮データが、コンセンサス配列読み取りと各ファミリーについてのコンセンサス配列アラインメントとを含む、生成することと、（ｅ）コンセンサス配列読み取りと圧縮データ構造からのコンセンサス配列アラインメントとを使用して融合を検出することと、を含む、システムが提供される。

本発明の新規の特色は、添付の特許請求の範囲に詳細に明らかにされている。本発明の特色および利点のより良好な理解は、本発明の原理が利用されている、例示的な実施形態を発表する以下の発明を実施するための形態と、添付の図面とに対する参照によって得られることになる。

一実施形態による、プライマーが分子タグを有する融合の検出のためのプライマー設計の例を示す。一実施形態による、融合を検出するためのコンセンサス圧縮データを生成する例示的な方法のブロック図である。一実施形態による、フロースペースコンセンサスパイプラインの例示的な方法のブロック図である。塩基呼び出しが行われ得るフロースペースシグナル測定値の例示的な表現を示す。単一のファミリーのフロースペースシグナル測定値の例示的なプロットを示す。単一のファミリーのコンセンサスフロースペースシグナル測定値の例示的なプロットを示す。一実施形態による、融合呼び出し動作のためにコンセンサス圧縮データを使用する例示的な方法のブロック図である。一実施形態による、核酸配列決定のための例示的なシステムのブロック図である。

本出願に具体化された教示および原理に従って、分子タグ付き核酸配列データを圧縮して、固有の分子タグに関連する核酸配列読み取りのファミリーのコンセンサス圧縮データを形成し、かつコンセンサス圧縮データに基づいて融合を検出するために、新しい方法、システム、および非一時的な機械可読記憶媒体が提供される。

様々な実施形態では、ＤＮＡ（デオキシリボ核酸）は、４種類のヌクレオチド、Ａ（アデニン）、Ｔ（チミン）、Ｃ（シトシン）、およびＧ（グアニン）からなるヌクレオチドの鎖と称され得、そのＲＮＡ（リボ核酸）は、４種類のヌクレオチド、Ａ、Ｕ（ウラシル）、Ｇ、およびＣからなる。ヌクレオチドのある特定の対は、相補的な様式で互いに特異的に結合する（相補的な塩基ペアリングと呼ばれる）。つまり、アデニン（Ａ）は、チミン（Ｔ）と対になり（しかしながら、ＲＮＡの場合、アデニン（Ａ）は、ウラシル（Ｕ）と対になる）、シトシン（Ｃ）は、グアニン（Ｇ）と対になる。第１の核酸鎖が、第１の鎖のヌクレオチドと相補的なヌクレオチドで構成される第２の核酸鎖と結合すると、２つの鎖は、結合して二重鎖を形成する。様々な実施形態では、「核酸配列決定データ」、「核酸配列決定情報」、「核酸配列」、「ゲノム配列」、「遺伝子配列」、または「フラグメント配列」、または「核酸配列決定読み取り」、または「核酸配列読み取り」、または「配列読み取り」は、ＤＮＡまたはＲＮＡの分子（例えば、全ゲノム、全トランスクリプトーム、エクソーム、オリゴヌクレオチド、ポリヌクレオチド、フラグメントなど）中のヌクレオチド塩基（例えば、アデニン、グアニン、シトシン、およびチミン／ウラシル）の順番を示す任意の情報またはデータを示す。

様々な実施形態では、「ポリヌクレオチド」、「核酸」、または「オリゴヌクレオチド」は、ヌクレオシド間結合により連結されたヌクレオシド（デオキシリボヌクレオシド、リボヌクレオシド、またはその類似体を含む）の直鎖状ポリマーを指す。典型的には、ポリヌクレオチドは、少なくとも３つのヌクレオシドを含む。通常、オリゴヌクレオチドのサイズは、数個のモノマー単位、例えば、３～４個から数百個のモノマー単位の範囲である。オリゴヌクレオチドなどのポリヌクレオチドが「ＡＴＧＣＣＴＧ」などの文字配列によって表されるときはいつでも、別段に示されない限り、ヌクレオチドは左から右へ５’～３’の順序であり、「Ａ」はデオキシアデノシンを示し、「Ｃ」はデオキシシチジンを示し、「Ｇ」はデオキシグアノシンを示し、「Ｔ」はチミジンを示すことが理解されるであろう。文字Ａ、Ｃ、Ｇ、およびＴは、当該技術分野で標準的であるように、塩基自体、ヌクレオシド、または塩基を含むヌクレオチドを指すために使用され得る。

本明細書で使用される「遺伝子座」という用語は、染色体または核酸分子上の特定の位置を指す。遺伝子座の対立遺伝子は、相同染色体上の同一部位に位置する。

本明細書で使用される場合、「アダプター」または「アダプターおよびその補体」およびそれらの誘導体は、本開示の核酸分子にライゲーションされ得る任意の直鎖状オリゴヌクレオチドを指す。任意に、アダプターは、試料内の少なくとも１つの標的配列の３’末端または５’末端に実質的に相補的ではない核酸配列を含む。いくつかの実施形態では、アダプターは、試料中に存在する任意の標的配列の３’末端または５’末端と実質的に非相補的である。いくつかの実施形態では、アダプターは、増幅された標的配列と実質的に相補的ではない任意の一本鎖または二本鎖直鎖状オリゴヌクレオチドを含む。いくつかの実施形態では、アダプターは、試料の核酸分子の少なくとも１つ、いくつか、または全てと実質的に非相補的である。いくつかの実施形態では、好適なアダプター長さは、約１０～１００ヌクレオチド長、約１２～６０ヌクレオチド長、および約１５～５０ヌクレオチド長の範囲である。アダプターは、ヌクレオチドおよび／または核酸のいずれかの組み合わせを含むことができる。いくつかの態様では、アダプターは、１つ以上の位置に１つ以上の切断可能な基を含む。いくつかの実施形態では、アダプターは、プライマー、例えば、ユニバーサルプライマーの少なくとも一部分と実質的に同一または実質的に相補的である配列を含み得る。いくつかの実施形態では、アダプターは、ダウンストリームのカタログ化、識別、または配列決定を補助するバーコードまたはタグを含み得る。いくつかの実施形態では、一本鎖アダプターは、増幅された標的配列にライゲーションされたとき、特に好適な温度およびｐＨ下でポリメラーゼおよびｄＮＴＰの存在下、増幅のための基板として作用し得る。

本明細書で使用される場合、「ＤＮＡバーコード」または「ＤＮＡタグ付け配列」およびその派生語は、試料中の複数の増幅された標的配列を区別または分離するための「鍵」として作用し得るアダプター内の固有の短い（例えば、６～１４ヌクレオチド）核酸配列を指す。この開示の目的のために、ＤＮＡバーコードまたはＤＮＡタグ付け配列は、アダプターのヌクレオチド配列に組み込まれ得る。

いくつかの実施形態では、本開示は、標的核酸分子の集団からの複数の標的特異的配列の増幅を提供する。いくつかの実施形態では、方法は、１つ以上の標的特異的プライマー対を標的配列にハイブリダイズすることと、プライマー対の第１のプライマーを伸長することと、核酸分子の集団から伸長した第１のプライマー産物を変性させることと、伸長した第１のプライマーにプライアー対の第２のプライマーをハイブリダイズすることと、第２のプライマーを伸長して二本鎖産物を形成することと、標的特異的プライマー対を二本鎖産物から消化して複数の増幅された標的配列を生成することとを含む。いくつかの実施形態では、消化は、増幅された標的配列からの標的特異的プライマーのうちの１つ以上の部分消化を含む。いくつかの実施形態では、増幅された標的配列は、１つ以上のアダプターにライゲーションされ得る。いくつかの実施形態では、アダプターは、１つ以上のＤＮＡバーコードまたはタグ付け配列を含み得る。いくつかの実施形態では、一度アダプターにライゲーションされた増幅された標的配列は、ニックトランスレーション反応および／またはさらなる増幅を受けて、アダプターライゲーション増幅標的配列のライブラリを生成し得る。

いくつかの実施形態では、本開示の方法は、複数の核酸分子を含む試料中の標的配列を選択的に増幅することと、増幅された標的配列を少なくとも１つのアダプターおよび／またはバーコードにライゲーションすることとを含む。分子生物学ライブラリ調製技術で使用するためのアダプターおよびバーコードは、当業者に周知である。本明細書で使用されるアダプターおよびバーコードの定義は、当該技術分野で使用される用語と一致する。例えば、バーコードの使用は、多重反応ごとに複数の試料、ソース、組織、または核酸分子の集団を検出および分析を可能にする。バーコード化および増幅された標的配列は、両方の核酸分子からバーコードを除いたものが同じ核酸配列を含む場合でも、ある増幅された核酸分子を別の増幅された核酸分子から識別および区別する固有の核酸配列、典型的には、短い６～１５ヌクレオチド配列を含む。アダプターの使用は、均一な様式での各増幅された核酸分子の増幅を可能にし、鎖の偏りを低減するのを助ける。アダプターは、ユニバーサルアダプターまたは適切なアダプターを含むことができ、その両方がダウンストリームで使用され、１つ以上の異なる機能を実行することができる。例えば、本明細書に開示された方法により調製された増幅された標的配列は、クローン増幅のプラットフォームとしてダウンストリームで使用され得るアダプターにライゲーションされ得る。アダプターは、プライマーの２番目のセットを使用してその後の増幅のテンプレート鎖として機能することができる、アダプターライゲーション増幅標的配列の一般的な増幅を可能する。いくつかの実施形態では、アンプリコンのプールを生成するための標的核酸の選択的増幅は、増幅された標的配列に１つ以上のバーコードおよび／またはアダプターをライゲーションすることをさらに含み得る。バーコードを組み込む能力は、試料のスループットを高め、同時に複数の試料または材料のソースの分析を可能にする。

この出願において、「反応閉じ込め領域」は、一般に、反応が閉じ込められ得る任意の領域を指し、例えば、「反応チャンバ」、「ウェル」、および「マイクロウェル」（その各々が互換的に使用され得る）を含む。反応閉じ込め領域には、例えば、固体基板の物理的または化学的属性が対象の反応の局在化を可能し得る領域と、対象の分析物を特異的に結合することができる基板の表面の離散領域（そのような表面に共有結合されたオリゴヌクレオチドまたは抗体を含む離散領域など）とが含まれ得る。反応閉じ込め領域は、中空であってもよく、明確に定義された形状および体積を有してもよく、これらは基板に製造されてもよい。これらの後者の種類の反応閉じ込め領域は、本明細書ではマイクロウェルまたは反応チャンバと称され、任意の好適な微細加工技術を使用して加工され得る。反応閉じ込め領域はまた、例えば、ウェルのない基板上の実質的に平坦な領域であってもよい。

複数の定義されたスペースまたは反応閉じ込め領域は、アレイに配置されてもよく、各定義されたスペースまたは反応閉じ込め領域は、少なくとも１つのセンサと電気通信して、１つ以上の検出可能または測定可能なパラメータまたは特徴の検出または測定を可能にし得る。このアレイは、本明細書ではセンサアレイと称される。センサは、反応副産物の存在、濃度、または量の変化（または反応物のイオン特徴の変化）を出力シグナルに変換されてもよく、出力シグナルは、例えば、電圧レベルまたは電流レベルの変化として電子的に登録されてもよく、次に、処理されて、化学反応または所望の会合イベント、例えば、ヌクレオチド取り込みイベントに関する情報を抽出し得る。センサは、化学反応の特性に関連する少なくとも１つの出力シグナルまたはその近傍の対象の標的分析物を生成するように構成され得る少なくとも１つの化学感受性電界効果トランジスタ（「ｃｈｅｍＦＥＴ」）を含み得る。そのような特性は、反応物、産物もしくは副産物の濃度（または濃度の変化）、またはイオン濃度などの物理的特性の値（またはそのような値の変化）を含み得る。定義されたスペースまたは反応閉じ込め領域のｐＨの初期測定または調査は、例えば、電気シグナルまたは電圧として表すことができ、それはデジタル化することができる（例えば、電気シグナルまたは電圧のデジタル表現に変換される）。これらの測定値および表現のいずれかは、生データまたは生シグナルと見なされる。

様々な実施形態では、「ベーススペース」という語句は、ヌクレオチドの配列の表現を指す。「フロースペース」という語句は、特定のヌクレオチドフローの取り込みイベントまたは非取り込みイベントの表現を指す。例えば、フロースペースは、特定のヌクレオチドフローのヌクレオチド取り込みイベント（１、「１」など）または非取り込みイベント（ゼロ、「０」など）を表す一連の値であり得る。非取り込みイベントを有するヌクレオチドフローは、空のフローと称され得、ヌクレオチド取り込みイベントを有するヌクレオチドフローは、ポジティブフローと称され得る。ゼロおよび１は、非取り込みイベントおよびヌクレオチド取り込みイベントの好都合な表現であることが理解されるべきであるが、しかしながら、任意の他の記号または名称が、これらのイベントおよび非イベントを表すおよび／または特定するために代替的に使用され得る。特に、ホモポリマーストレッチなどのように、複数のヌクレオチドが所与の位置で組み込まれる場合、値は、ヌクレオチド取り込みイベントの数、したがってホモポリマーストレッチの長さに比例し得る。

図１は、５’プライマーおよび３’プライマーがそれぞれ分子タグを有する融合の検出のためのプライマー設計の例を示す。遺伝子間融合を検出するために、プライマーは、遺伝子の各々の既知のブレークポイントの増幅可能な範囲内で設計される。例えば、５’プライマー１０６は、遺伝子Ａのブレークポイント１０２の左側にあるように設計されており、３’プライマーは、遺伝子Ｂのブレークポイント１０２の右側にあるように設計されている。各プライマーは、結果として生じるアンプリコンが融合ブレークポイント１０２で融合される遺伝子Ａおよび遺伝子Ｂの部分を含むように、それぞれのブレークポイント１０２の塩基または範囲１１２および１１４の数内である。範囲１１２および１１４は、アンプリコンのサイズに関連している。アンプリコンのサイズに応じて、プライマーは、ブレークポイント１０２からある特定の範囲１１２および１１４で設計され得る。いくつかの実施形態では、融合設計範囲１１２および１１４は、プライマー設計に使用され得る配列の最大量を示し得る。特定の融合ブレークポイント１０２を標的とするプライマー１０４および１０６は、ブレークポイント１０２に隣接して融合アンプリコンを生成する。図１の融合ＩＤアンプリコンは、標的融合の存在を特定することができる理想的な融合アンプリコンを表す。同じ戦略は、遺伝子内融合イベントを検出するように設計されたアッセイに適用され得る。例えば、図１では、遺伝子ＡはエクソンＡであり、遺伝子ＢはエクソンＢである。遺伝子内イベントには、エクソンスキッピング、非正規および野生型転写物などのイベントが含まれ得る。個々のポリヌクレオチド分子を特定するために、分子タグ１０８および１１０は、５’プライマー１０４に付加される接頭タグ１０８および３’プライマー１０６に付加される接尾タグ１１０を含む、それぞれ５’プライマー１０４および３’プライマーに付加される。個々のポリヌクレオチド分子は、固有の分子タグで標識され、ＰＣＲ反応で増幅され、配列決定されて融合アンプリコンを生成する。所与の標的融合の融合アンプリコンは、融合ＩＤアンプリコンの配列ならびに５’末端の接頭タグ１０８および３’末端の接尾タグ１１０を含み得る。ＰＣＲ増幅および配列決定は、標的融合が存在する場合、元のタグ付けされたポリヌクレオチド分子ごとに複数の配列読み取りをもたらす複数の融合アンプリコンを生成し得る。固有の分子タグを使用して、同じポリヌクレオチド分子に由来する配列読み取りを特定し、それらを同じタグ配列を有するファミリーに分類する。

ファミリー、または分子ファミリーは、同じ固有の分子タグを有する配列読み取りのセットを指す。ファミリーサイズは、ファミリー内の配列読み取りの数である。機能的ファミリーは、最小ファミリーサイズよりも大きなメンバーの数を有するファミリーである。最小ファミリーサイズは、任意の整数値であり得る。例えば、最小ファミリーサイズは、３以上であり得る。

図２は、一実施形態による、融合を検出するためのコンセンサス圧縮データを生成する例示的な方法のブロック図である。フロースペースシグナル測定値は、核酸配列決定デバイスによってプロセッサに提供され得る。いくつかの実施形態では、各フロースペースシグナル測定値は、センサアレイのマイクロウェル内の試料核酸によるフローされたヌクレオチドの取り込みまたは非取り込みに応じて測定されるシグナル振幅または強度を表す。取り込みイベントの場合、シグナル振幅は、１つのフローで取り込まれた塩基の数に依存する。ホモポリマーの場合、シグナル振幅は、ホモポリマーの長さが増加するにつれて増加する。プロセッサは、塩基呼び出し機２０２を適用して、フロースペースシグナル測定値を分析することにより読み取られた配列の塩基呼び出しを生成することができる。

図４は、塩基呼び出しが行われ得るフロースペースシグナル測定値の例示的な表現を示す。この例では、ｘ軸は、フロー指数と、フロー配列でフローされたヌクレオチドとを示す。グラフのバーは、センサアレイ内のマイクロウェルの特定の位置からの各フローのフロースペースシグナル測定値の振幅を示す。フロースペースシグナル測定値は、生の取得データ、または例えば、スケーリング、バックグラウンドフィルタリング、正規化、シグナル減衰の補正、および／または位相エラーもしくは効果の補正などによって処理されているデータであり得る。塩基呼び出しは、任意の好適なシグナル特徴（例えば、シグナル振幅または強度など）を分析することによって作成され得る。本教示と共に使用するためのセンサアレイ、シグナル処理、および塩基呼び出しの構造および／または設計は、参照によりその全体が本明細書に組み込まれる、２０１３年４月１１日出願の米国特許出願公開第２０１３／００９０８６０号に記載される１つ以上の特徴を含み得る。

配列読み取りのための塩基配列が決定されると、配列読み取りは、例えば、マッピングされていないＢＡＭファイルでマッパー２０４に提供され得る。いくつかの実施形態では、マッパー２０４は、配列読み取りを、カスタム融合参照配列および対照遺伝子参照配列に整列させて、整列された配列読み取りおよび関連するマッピング品質パラメータを決定する。カスタム融合参照は、標的融合のキメラ配列を含んでもよい。対照遺伝子参照配列は、ハウスキーピング遺伝子のＲＮＡ転写配列を含んでもよい。ハウスキーピング遺伝子は、基本的な細胞機能の維持に必要であり、通常および病理学的状態の生物の細胞中に発現される。標的融合参照配列および対照遺伝子参照配列は、ＦＡＳＴＡファイル形式または他の好適なファイル形式を使用してファイルで提供され得る。本教示と共に使用するための配列読み取りを整列するための方法は、参照によりその全体が本明細書に組み込まれる、２０１２年８月２日出願の米国特許出願公開第２０１２／０１９７６２３号に記載される１つ以上の特徴を含み得る。整列された配列読み取りは、例えば、マッピングされたＢＡＭファイルでフロースペースコンセンサスパイプライン２０６に提供され得る。

ＢＡＭファイル形式の構造は、本明細書で「ＢＡＭ仕様」と称される、２０１４年９月１２日の「ＳｅｑｕｅｎｃｅＡｌｉｇｎｍｅｎｔ／ＭａｐＦｏｒｍａｔＳｐｅｃｉｆｉｃａｔｉｏｎ」（ｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／ｓａｍｔｏｏｌｓ／ｈｔｓ－ｓｐｅｃｓ）に記載されている。本明細書に記載されるように、「ＢＡＭファイル」は、ＢＡＭ形式と互換性のあるファイルを指す。本明細書に記載されるように、「マッピングされていない」ＢＡＭファイルは、整列された配列読み取り情報またはマッピング品質パラメータを含まないＢＡＭファイルを指し、「マッピングされた」ＢＡＭファイルは、整列された配列読み取り情報およびマッピング品質パラメータを含むＢＡＭファイルを指す。本明細書に記載されるように、「コンセンサス」ＢＡＭファイルは、コンセンサス圧縮データを含むＢＡＭファイルを指す。

いくつかの実施形態では、分子タグ付けで読み取られる配列の読み取り構造は、５’末端から開始して、ライブラリキー、バーコード配列、バーコードアダプター、接頭分子タグ、配列テンプレート、接尾分子タグ、およびＰ１アダプターを含み得る。塩基呼び出しは、ライブラリキー、バーコード配列、およびバーコードアダプターを残りの配列読み取りからトリミングすることと、ＢＡＭファイル形式の読み取りグループヘッダー＠ＲＧのキー配列（ＫＳ）タグフィールドにそれらを保存することとを含み得る。塩基呼び出しは、配列読み取りからＰ１アダプターをトリミングすることと、ＢＡＭヘッダーのコメント行＠ＣＯにそれを保存することとを含み得る。

いくつかの実施形態では、塩基呼び出し機２０２は、タグ構造を検出し、読み取られた配列からタグをトリミングするように構成され得る。トリミングされたタグは、カスタムタグＺＴ（例えば、接頭タグ）およびＹＴ（例えば、接尾タグ）のフィールドのＢＡＭ読み取りグループヘッダー（＠ＲＧ）に保存され得る。読み取りグループヘッダーは、テンプレートの配列読み取りデータに関連付けられているため、ファミリーグループとのタグの関連付けの整合性が維持され得る。その後のマッピングまたは参照配列とのアラインメントは、接頭タグまたは接尾タグ無しでテンプレート配列に適用され得る。これは、参照配列へのタグの一部の誤ったマッピングの可能性を低減する。

いくつかの実施形態では、タグ配列は、ランダムな塩基のサブセットおよび既知の塩基のサブセットを含み得る。タグトリミング方法は、読み取られた配列のタグ部分の塩基の配列が既知の塩基と一致することを必要とし得る。タグトリミング方法は、タグの既知の長さに等しいいくつかの塩基を有する塩基文字列を選択し得る。いくつかの実施形態では、タグトリミング方法は、挿入および欠失などのタグ内の配列決定エラーを検出および修正することができる。タグ内の配列決定エラーを修正することは、より正確なファミリー識別を提供し得る。

いくつかの実施形態では、マッピングされたＢＡＭファイルは、複数の配列読み取り、フロースペースシグナル測定値の複数のベクトル、および配列読み取りに対応する複数の配列アラインメントを保存することができる。マッピングされたＢＡＭファイルは、カスタムタグフィールドＺＭにフロースペースシグナル測定値のベクトルを保存することができる。マッピングされたＢＡＭファイルは、カスタムタグフィールドＺＰにモデルパラメータを保存することができる。マッピングされたＢＡＭファイルは、上に記載されるように、ＢＡＭ読み取りグループヘッダーに配列読み取りに関連する分子タグ配列を保存することができる。マッピングされたＢＡＭファイルは、メモリに保存され、フロースペースコンセンサスパイプライン２０６に提供され得る。いくつかの実施形態では、他のファイル形式を使用して、複数の配列読み取り、フロースペースシグナル測定値の複数のベクトル、複数の配列アラインメント、および配列読み取りに対応する分子タグ配列を保存することができる。

図３は、一実施形態による、フロースペースコンセンサスパイプライン２０６の例示的な方法のブロック図である。グループ化操作３０２は、分子タグ配列情報を使用して、配列読み取りのファミリーおよび対応するフロースペースシグナル測定値を特定し得る。グループ化操作３０２は、配列読み取りに関連する分子タグ配列を比較し、グループ化しきい値を適用し得る。例えば、グループ化のしきい値の基準は、配列読み取りのグループのメンバーの全てのタグ配列が１００％のタグ配列同一性を有することを必要とし得る。グループ化のしきい値の基準を満たすことにより、共通タグ配列を共有すると決定された配列読み取りおよび対応するフロースペースシグナル測定値は、共通タグ配列がそのファミリーに固有である所与のファミリーにグループ化される。各ファミリーは、ファミリー内でグループ化された配列読み取りの数であるメンバーの数を有する。いくつかの実施形態では、少なくとも最小数のメンバーを有さないファミリーはさらに処理されず、メモリから削除されてもよい。本教示と共に使用するための分子タグ配列に基づいて配列読み取りをグループ化する方法は、参照によりその全体が本明細書に組み込まれる、２０１６年１２月１５日出願の米国特許出願公開第２０１６／０３６２７４８号に記載される１つ以上の特徴を含み得る。

いくつかの実施形態では、フロースペースコンセンサス圧縮機３０４は、以下のように、グループ化されたファミリーのそれぞれのフロースペース信号測定値に基づいてコンセンサス圧縮データを決定し得る：
Ａ．各グループ化されたファミリーのフロースペース信号測定値のベクトルの算術平均値を計算して、各ファミリーについてのコンセンサスフロースペース信号測定値のベクトルを形成する。
Ｂ．各ファミリーのフロースペース信号測定値のベクトルの標準偏差を計算して、各ファミリーについての標準偏差のベクトルを形成する。
いくつかの実施形態では、フロースペースコンセンサス圧縮機３０４は、フロースペース信号測定値の各ベクトルに対応する少なくとも１つのモデルパラメータを受信し得る。フロースペースコンセンサス圧縮機３０４は、ファミリーのモデルパラメータの算術平均値を計算して、ファミリーについての少なくとも１つのコンセンサスモデルパラメータを形成し得る。以下で記載するように、モデルパラメータは、塩基呼び出しに使用され得る。いくつかの実施形態では、モデルパラメータは、フロースペース信号測定値の各ベクトルについて不完全拡張（ＩＥ）パラメータおよび繰り越し（ＣＦ）パラメータを含み得る。フロースペースコンセンサス圧縮機３０４は、各ファミリーのＩＥパラメータの算術平均値、およびＣＦパラメータの算術平均値を計算して、各ファミリーについてのコンセンサスＩＥパラメータおよびコンセンサスＣＦパラメータを形成し得る。

いくつかの実施形態では、塩基呼び出し機２０２は、各ファミリーについてのコンセンサスフロースペース信号測定値のベクトルに適用されて、それぞれのファミリーについてのコンセンサス塩基配列を生成し得る。コンセンサス塩基配列は、本明細書ではコンセンサス配列読み取りとも称される。コンセンサスモデルパラメータは、塩基呼び出しについてのモデルを適用する際に使用され得る。例えば、各ファミリーについてのコンセンサス不完全拡張（ＩＥ）パラメータおよびコンセンサス繰り越し（ＣＦ）パラメータが、塩基呼び出し機２０２に提供され得る。塩基呼び出しは、２０１３年４月１１日に公開された米国特許出願公開第２０１３／００９０８６０号、および／または２０１２年５月３日に公開された米国特許出願公開第２０１２／０１０９５９８号に記載される１つ以上の特徴を含み得、これらは全て、その全体が参照により本明細書に組み込まれる。コンセンサス塩基配列についてのコンセンサス配列アラインメントは、コンセンサス塩基配列を、最も高いマッピング特質を有するファミリーにおいて読み取られた配列と比較することにより決定され得る。コンセンサス塩基配列が、最も高いマッピング特質を有する読み取られた配列と一致する場合に、対応する配列アラインメントがコンセンサス配列アラインメントとして選択される。コンセンサス塩基配列が、最も高いマッピング特質を有するファミリーにおいて読み取られた配列と一致しない場合に、マッパー２０４は、コンセンサス塩基配列を、標的融合参照配列および制御遺伝子参照配列とアライメントさせて、コンセンサス配列アライメントを決定し得る。コンセンサス配列読み取りをアラインする方法は、参照によりその全体が本明細書に組み込まれる、２０１２年８月２日に公開された米国特許出願公開第２０１２／０１９７６２３に記載される１つ以上の特徴を含み得る。いくつかの実施形態では、平均して、コンセンサス配列読み取りの約１％は、マッパー２０４による再アライメントが必要になり得る。

いくつかの実施形態では、プロセッサは、メモリ内の圧縮データ構造内の各ファミリーについてのコンセンサス圧縮データを格納し得る。コンセンサス圧縮データは、コンセンサス配列の読み取り、コンセンサス配列のアラインメント、コンセンサスフロースペース信号測定のベクトル、標準偏差のベクトル、および各ファミリーについてのメンバーの数を含む。コンセンサス圧縮データは、各ファミリーについてのコンセンサスモデルパラメータのセットをさらに含み得る。ファミリーがサブファミリーに分離されている場合、コンセンサス圧縮データは、コンセンサス配列の読み取り、コンセンサス配列のアラインメント、コンセンサスフロースペース信号測定のベクトル、標準偏差のベクトル、および各サブファミリーについてのメンバーの数を含む。いくつかの実施形態では、圧縮データ構造は、マップされたコンセンサスＢＡＭファイルを生成するためにＢＡＭファイル形式と互換性であり得る。ＢＡＭ仕様により、ユーザは、カスタムタグフィールドを定義できる。例えば、表１に示すように、コンセンサス圧縮データの一部を格納するために使用されるＢＡＭファイルに対してカスタムタグフィールドが定義され得る。

元の配列読み取り、フロースペース信号測定の元のベクトル、および各ファミリーの元のモデルパラメータは、コンセンサス圧縮データに含まれておらず、メモリから削除され得る。いくつかの実施形態では、圧縮データ構造は、カスタムファイル形式を含む、ＢＡＭファイル形式とは異なる形式プロトコルを使用し得る。

図５は、単一のファミリーについてのフロースペース信号測定値の例示的なプロットを示す。フロー指数は、フロー配列におけるｊ番目のフローを示す。正規化された振幅は、フロースペース信号測定値を示す。プロット記号の種類は、特定のフローのヌクレオチドに対応する。フロースペース信号測定のこのプロットは、共通の分子タグに関連付けられた配列読み取りの単一ファミリーに対応する。各フローでのフロースペース信号測定値は、同様の値の近くでクラスタ化される。フロー指数は、フロースペース信号測定値のベクトルにおける要素指数に対応する。このプロットで表されるフロースペース信号測定値は、フロースペースコンセンサス圧縮機３０４に入力され得る。

図６は、単一のファミリーについてのコンセンサスフロースペース信号測定値の例示的なプロットを示す。このプロットは、図５に示されるフロースペース信号測定値でのコンセンサス計算から生じるコンセンサスフロースペース信号測定値を示す。プロット記号は、ファミリーについてのコンセンサスフロースペース測定値のベクトルの要素である算術平均値を示す。バーは、ファミリーについての標準偏差のベクトルの要素である標準偏差を示す。

双方向配列の場合、第１のファミリーは順方向配列読み取り用に指定され、第２のファミリーは逆方向配列読み取り用に指定される。表２の例に示すように、順方向読み取りの接頭および接尾タグは、逆方向読み取り用の接頭および接尾タグの逆補数であり得る。

いくつかの実施形態では、ファミリーはサブファミリーに分割され、同じ分子タグを有するファミリーごとに２つ以上のコンセンサス配列読み取りがもたらされ得る。コンセンサスフロースペース測定値のベクトルを決定するために各サブファミリーが同期化されたフロースペース信号測定値を有するように、サブファミリーがフロー同期のために形成され得る。ファミリー内の配列読み取りに変動がある場合、ファミリーはサブファミリーに分割され、そのためコンセンサス配列読み取りが各サブファミリーに対して生成される。本教示と共に使用するための分子タグ付き核酸配列データのフロースペースコンセンサス圧縮のための方法は、２０１８年５月１５日に出願された米国特許出願第１５／９７９，８０４号に記載される１つ以上の特徴を含み得、参照によりその全体が本書に組み込まれる。

図２に戻ると、いくつかの実施形態では、二次コンプレッサ２０８は、融合分析の前に、コンセンサス圧縮データに適用され得る。二次コンプレッサ２０８は、同じ分子タグを有するサブファミリーを、１つのコンセンサス配列読み取りを含む単一のファミリーに結合し得る。双方向配列読み取りについてのいくつかの実施形態では、二次コンプレッサ２０８は、順方向および逆方向配列読み取りについてのファミリーを以下のように合わせ得る：
１．逆方向読み取りの接頭および接尾タグの逆補数を決定して、逆補数タグを形成し、
２．逆相数タグを順方向読み取りタグと一致させ、
３．順方向読み取りファミリーと一致するタグおよび逆方向読み取りファミリーを合わせて、１つのコンセンサス配列読み取りを含む１つのファミリーにする。
表２を参照すると、合わせたファミリーで表される読み取りの数は、順方向および逆方向読み取りファミリーにおける配列読み取りの数の合計である。マップされたコンセンサスＢＡＭファイルを変更して、合わせたファミリー情報を含め、サブファミリー情報を削除し得る。合計値は、マップされたコンセンサスＢＡＭファイルのＺＲフィールドに入力され得る。二次コンプレッサ２０８は、合わせたファミリーに対して単一のコンセンサス配列読み取りを提供する。合わせたファミリーごとに１つのサブファミリーのコンセンサス配列読み取りを排除することにより、二次コンプレッサ２０８は、追加のデータ圧縮を提供する。二次圧縮後、コンセンサス圧縮データは、融合呼び出し機２１０に提供され得る。

図７は、融合呼び出し動作のためにコンセンサス圧縮データを使用する例示的な方法のブロック図である。いくつかの実施形態では、ステップ７０１で、プロセッサは、以下により、標的融合についてのカウントを検証および提供し得る：
ａ．コンセンサス配列の読み取りと標的融合参照配列とのアラインメントの特徴を分析することにより、標的融合検出についてカウントするに適格であるコンセンサス配列読み取りを特定する。
ｂ．適格な配列読み取りの場合、各標的融合参照配列と整列する適格なコンセンサス配列読み取りに対応するファミリーの数を計算して、ファミリー計算を与える。双方向配列の場合、鎖あたりのファミリーの数を計算して、鎖あたりのファミリー計算を与える。
ｃ．各標的融合についてのファミリー計算に最小分子計算しきい値を適用する。例えば、最小分子計算しきい値は、３以上の値に設定することができる。双方向配列決定の場合、鎖あたりの最小分子計算しきい値を鎖あたりのファミリー計数に適用する。例えば、鎖あたりの最小分子計算しきい値は、１以上の値に設定することができる。
ｄ．各標的融合参照配列と整列する適格なコンセンサス配列読み取りに対応するファミリーについての配列読み取りの数を合計して、各標的融合についての読み取り計算を与える。各ファミリーについての配列読み取りの数は、マップされたコンセンサスＢＡＭファイルに含まれ得る。
ｅ．各標的融合についての読み取り計算に最小読み取り計算しきい値を適用する。例えば、最小読み取り計数しきい値は、２１以上の値に設定することができる。
ｆ．プロセス制御に関連する試料品質管理（ＱＣ）パラメータを決定する。プロセス制御、または発現制御は、マッパー２０４によって決定され、マップされたコンセンサスＢＡＭファイルに含まれる、コンセンサス配列読み取りと対照遺伝子参照配列とのアラインメントの結果を示す。いくつかの実施形態では、試料ＱＣパラメータは、検証に必要な最小数のプロセス制御を含み得る。例えば、２つの対照遺伝子を使用する場合、プロセス対照の最小数を１に設定すると、２つの対照遺伝子の少なくとも１つについて、対照遺伝子参照配列と整列したコンセンサス配列読み取りが存在すべきである。例えば、６つの対照遺伝子を使用する双方向配列の場合、プロセス対照の最小数を３に設定すると、６つの対照遺伝子の少なくとも３つについて、対照遺伝子参照配列と整列したコンセンサス配列読み取りが存在すべきである。プロセス対照標的は、コンセンサス配列の読み取りが対照遺伝子参照配列に配列される場合、存在するとして呼び出しされ得、ファミリー計算は最小分子計算しきい値より大きく、読み取り計算は読み取り計算しきい値以上である。いくつかの実施形態では、試料ＱＣパラメータは、融合パネルについてマッピングされた配列読み取りの最小合計を含み得る。例えば、マッピングされた配列読み取りの最小合計は、２０，０００の値を有する。いくつかの実施形態では、試料ＱＣパラメータは、試料内の全ての配列読み取りについての最小平均配列読み取り長を含み得る。例えば、最小平均読み取り長は、５０の値を有する。
ｇ．標的融合の存在に対して呼び出しか、または呼び出し無しかの判定を決定する。標的融合ブレークポイントについて、最小分子計算しきい値、最小読み取り計算しきい値、および試料ＱＣパラメータが満たされている場合、標的融合が存在するという呼び出し判定が行われ得る。標的融合ブレークポイントについて、最小分子計算しきい値および最小読み取り計算しきい値の１つ以上が満たされない場合、存在しないという決定が行われ得る。いくつかの実施形態では、試料が最小合計のマッピングされた配列読み取りよりも少ない場合、パネル内の全ての標的融合は、呼び出し無しの判定が与えられる。いくつかの実施形態では、全ての配列からの平均配列読み取り長が計算され、平均が最小平均配列読み取り長未満である場合、パネル内の全ての標的融合は、呼び出し無しの判定が与えられる。いくつかの実施形態では、検出されたプロセス制御の数がプロセス制御のしきい値の最小数未満である場合、パネル内の全ての標的融合は、呼び出し無しの判定が与えられる。

いくつかの実施形態では、適格なコンセンサス配列読み取りを特定するステップ（上記のステップａ）は、コンセンサス配列読み取りを分析して、各整列されたコンセンサス配列読み取りが融合検出について計算される前に遺伝子融合に関与する両方の遺伝子パートナーからの表現を有するかを確認することを含む。標的融合参照配列とコンセンサス配列読み取りとの整列の特性には、相同性特性、マッピング品質特性、およびブレークポイントスキャニング特性が含まれ得る。プロセッサは、以下のように、これらの特性についての各整列されたコンセンサス配列読み取りを分析する：
ｉ．コンセンサス配列読み取りが、標的融合参照配列での融合ブレークポイントに及ぶかを決定する。
ｉｉ．各パートナー配列とコンセンサス配列読み取りとの相同性レベルを決定し、第１および第２の相同性レベルを与える。相同性は、コンセンサス配列読み取りおよび標的配列の間の重複における塩基の数である。パートナー配列は、融合ブレークポイントの片側での標的融合参照配列の部分である。各標的融合は、標的融合参照配列におけるブレークポイントの各側に１つ、第１および第２のパートナー配列を有する。
ｉｉｉ．第１および第２の相同性レベルを最小相同性しきい値と比較する。最小相同性しきい値は、所望される感度および厳密性に基づいて選択され得る。例えば、最小相同性しきい値は、高感度／低厳密性の場合は６０％、デフォルト値の場合は７０％、および高厳密性の場合は８０％に設定され得る。最小相同性しきい値についての他の値がさらに使用され得る。これらの値は、５０％～１００％の範囲であり得る。
ｉｖ．各パートナー配列内での整列されたコンセンサス配列読み取りについてのマッピング品質値を決定して、第１および第２のマッピング品質値を生成する。マッピング品質値は、パートナー配列と一致する整列されたコンセンサス配列読み取りにおいて一致する塩基の数と、パートナー配列と重複する整列されたコンセンサス配列読み取りにおいて重複する塩基の数の比を計算することによって決定され得る。
ｖ．第１および第２のマッピング品質値をマッピング品質しきい値と比較する。例えば、マッピング品質しきい値は、６６．６％の値を有し得る。他のマッピング品質しきい値がさらに使用され得る。これらの値は、５０％～１００％の範囲であり得る。
ｖｉ．コンセンサス配列読み取りが融合ブレークポイントにかかる基準を満たす場合、少なくとも最小相同性しきい値である第１および第２の相同性レベルを有し、かつ少なくともマッピング品質しきい値である第１および第２のマッピング品質値を有し、それは上記のステップｂについての適格なコンセンサス配列読み取りである。いくつかの実施形態では、コンセンサス配列読み取りがこれらの基準を満たさない場合、図７におけるステップ７０２に提供され得、非標的融合の存在を特定するか、またはフィルタリングして除去され得る。

いくつかの実施形態では、上記の基準を満たさないコンセンサス配列読み取りは、標的融合参照配列に部分的にマップされ得る。部分的にマッピングされたコンセンサス配列の読み取りは、マッピングされた部分およびマッピングされていない部分を有することができる。マッピングされた部分は、コンセンサス配列読み取りの終了の近くのマッピングされていない部分と共に、コンセンサス配列の読み取りの開始する近くであり得るか、またはマッピングされていない部分は、コンセンサス配列の読み取りの開始する近くであり得、マッピングされた部分は、コンセンサス配列の読み取りの終了の近くであり得る。

いくつかの実施形態では、ステップ７０２で、プロセッサは、部分的にマッピングされたコンセンサス配列読み取りを分析して、以下のように非標的融合の組み合わせの任意の証拠を特定する：
ａ）部分的にマッピングされたコンセンサス配列読み取りを、マッピングされた部分およびマッピングされていない部分に分割し、部分的にマッピングされたコンセンサス配列の読み取りが２つの読み取りフラグメントを生成するようにする。
ｂ）読み取りフラグメントを融合参照配列に独立して整列させる。例えば、部分的にマッピングされた読み取りの第１のフラグメントは、融合参照配列内の第１の遺伝子座にマッピングされ、部分的にマッピングされた読み取りの第２のフラグメントは、融合参照配列内の第２の遺伝子座にマッピングされるであろう。遺伝子座は、参照配列での読み取りフラグメントについてマッピングされた位置であり得る。例えば、２つの読み取りフラグメントは、２つの異なる融合参照配列に整列され得る。例えば、２つの読み取りフラグメントは、同じ融合参照配列に整列され得る。
ｃ）それぞれの融合参照配列の第１のフラグメントが５’末端に整列し、第２のフラグメントが３’末端に整列しているかを決定する。
ｄ）各パートナー配列内の整列された読み取りフラグメントについてのマッピング品質値が、マッピング品質しきい値以上であるかを決定する。マッピング品質値は、上記のステップｉｖおよびｖに記載される。例えば、マッピング品質しきい値は、６６．６％の値を有し得る。
ｅ）第１および第２の整列された読み取りフラグメントについての相同性レベルを決定する。相同性レベルは、上記のステップｉｉに記載される。相同性レベルを合計して、両方の読み取りフラグメントについて合わせた相同性レベルを与える。
ｆ）合わせた相同性レベルが、合わせた相同性しきい値以上であるかを決定する。例えば、合わせた相同性しきい値は、１５０％であり得る。例えば、第１のフラグメントについては１００％、第２のフラグメントについては５０％の相同性レベルが許可される。例えば、第１のフラグメントについては９０％、第２のフラグメントについては７０％の相同性レベルが許可される。例えば、第１のフラグメントについての８０％、および第２のフラグメントについての６０％の相同性レベルは、合計が１５０％未満であるため十分ではない。
ｇ）相同性レベルしきい値およびマッピング品質しきい値の組み合わせを満たす整列された読み取りラグメントについて、それぞれの融合参照配列と整列された読み取りフラグメントを生成したコンセンサス読み取り配列に対応するファミリーの数を計算して、ファミリー計算を与える。
ｈ）ファミリー計算に最小分子計算しきい値を適用する。例えば、最小分子計算しきい値は、３以上の値に設定することができる。双方向配列決定の場合、鎖あたりの最小分子計算しきい値を鎖あたりのファミリー計数に適用する。例えば、鎖あたりの最小分子計算しきい値は、１以上の値に設定することができる。
ｉ）コンセンサス配列読み取りに対応するファミリーについての配列読み取りの数を合計して、それぞれの融合参照配列と整列された読み取りフラグメントを生成し、読み取り計算を与える。
ｊ）各標的融合についての読み取り計算に最小読み取り計算しきい値を適用する。例えば、最小読み取り計数しきい値は、２１以上の値に設定することができる。

本教示と共に使用するための部分的にマッピングされた配列読み取りにおける融合を決定するための方法は、参照により全体が本明細書に組み込まれる、２０１６年１２月１５日出願の米国特許出願第２０１６／０３６２７４８号に記載される１つ以上の特徴を含み得る。

いくつかの実施形態では、ステップ７０１および７０２から生成されたファミリーカウントが集計されて、総ファミリーカウントを形成し得る。最小ファミリーカウントしきい値は、総ファミリーカウントに適用され得る。いくつかの実施形態では、ステップ７０１および７０２から生成された読み取りカウントが集計されて、総読み取りカウントを形成し得る。最小読み取りカウントしきい値は、総読み取りカウントに適用され得る。

図１、２、３、および７に関して記載された方法は、遺伝子間融合事象および遺伝子内融合事象の両方に適用され得る。遺伝子間融合事象の場合、標的化された融合参照配列は、融合ブレークポイントでの２つの遺伝子の融合の参照配列を含む。遺伝子内融合事象の場合、標的化された融合参照配列は、同じ遺伝子からの融合ブレークポイントでの２つのエクソンの融合の参照配列を含む。

遺伝子内融合事象は、エクソン欠失、非標準および野生型転写物を検出するように設計され得る。エクソン欠失標的の例には、ＥＧＦＲ－ＥＧＦＲ．Ｅ１Ｅ８．ＤｅｌＰｏｓｉｔｉｖｅ（一般にＥＧＦＲｖＩＩＩ欠失として知られているもの）およびＭＥＴ－ＭＥＴ．Ｍ１３Ｍ１５（ＭＥＴエクソン１４スキッピングアッセイ）が含まれる。遺伝子内融合事象は、ＲＮＡＥｘｏｎＶａｒｉａｎｔと称される。いくつかの実施形態では、遺伝子内融合標的を有する全ての遺伝子について、その遺伝子の標準転写物を増幅するように設計された少なくとも１つの野生型標的が追加される。カスタム融合参照および対照遺伝子は、野生型標的の参照配列を含み得る。コンセンサス配列読み取りの一部分は、野生型参照配列と整列し得る。野生型標的は、野生型ＲＮＡＥｘｏｎＶａｒｉａｎｔと称される。追加の注釈が、例えば、ＢＥＤファイル形式で、野生型標的に提供され得る。

いくつかの実施形態では、エクソン欠失および代替転写物を検出するためのＲＮＡＥｘｏｎＶａｒｉａｎｔの分析には、以下の測定基準の計算および報告が含まれ得る。
Ｉ．遺伝子内融合ＲＮＡＥｘｏｎＶａｒｉａｎｔＶ_iの野生型ＲＮＡＥｘｏｎＶａｒｉａｎｔに対する比率：
比率＝（Ｖ_iの読み取りカウント）／（同じ遺伝子の全ての野生型ＲＮＡＥｘｏｎＶａｒｉａｎｔの平均読み取りカウント）。
遺伝子内融合のＶ_iの読み取りカウントは、標的融合参照配列と整列したコンセンサス配列読み取りの一部分に対応するファミリーの配列読み取りの数を加えることによって決定され得る。野生型ＲＮＡＥｘｏｎＶａｒｉａｎｔの読み取りカウントは、野生型参照配列と整列したコンセンサス配列読み取りの一部分に対応するファミリーの配列読み取りの数を加えることによって決定され得る。
ＩＩ．遺伝子内融合ＲＮＡＥｘｏｎＶａｒｉａｎｔＶ_iの同じ遺伝子内の正規化されたカウント：
正規化されたカウント＝（Ｖ_iの読み取りカウント）／（同じ遺伝子の全てのＲＮＡＥｘｏｎＶａｒｉａｎｔの読み取りカウントの合計）。
全てのＲＮＡＥｘｏｎＶａｒｉａｎｔの読み取りカウントの合計は、野生型参照配列に対応する読み取りカウントと、同じ遺伝子の標的融合参照配列に対応する読み取りカウントとを加えることによって決定され得る。野生型参照配列に対応する読み取りカウントは、同じ遺伝子の野生型参照配列と整列したコンセンサス配列読み取りの一部分に対応するファミリーの配列読み取りの数を加えることによって決定され得る。標的融合参照配列に対応する読み取りカウントは、同じ遺伝子の標的融合参照配列と整列したコンセンサス配列読み取りに対応するファミリーの読み取りカウントを加えることによって決定され得る。

ステップ７０３で、プロセッサは、ステップ７０１で決定された標的融合から生じる総カウントを照合およびフォーマットし、ステップ７０３で生成された非標的融合およびＲＮＡＥｘｏｎＶａｒｉａｎｔの追加の測定基準はファイルに保存するために照合およびフォーマットされ得る。ステップ７０４で、プロセッサは、ユーザに提示するために、融合／対照遺伝子について正規化されたカウントの要約表および動的ヒートマップなどの融合結果の可視化を生成し得る。結果の一例が表３に示される。

遺伝子座情報、注釈情報、分析名、試料名、およびバーコードＩＤなどの他の情報もこの結果表に含まれてもよい。

表４は、双方向配列読み取りデータについて本明細書に記載の方法によって達成される結果として生じる圧縮を示す。

表５は、一方向配列読み取りデータについて本明細書に記載の方法によって達成される結果として生じる圧縮を示す。

表４および５では、元の読み取りカウントは、変異体（エクソン）の列に示される遺伝子座に整列した配列読み取りの元の数を示す。コンセンサス圧縮の列は、フロースペースコンセンサスパイプライン２０６による圧縮後の、整列したコンセンサス配列読み取りの数またはファミリーの数を示す。はるかに多数の元の配列読み取りは、コンセンサス圧縮データのコンセンサスシーケンス読み取りに置き換えられる。その結果、データ量の著しい減少が達成される。２回目の圧縮およびフィルタリングの列は、二次コンプレッサ２０８を適用し、融合検出のためのカウントの資格のないコンセンサス配列読み取りを有するものを除去した後に残っている、整列したコンセンサス配列読み取りの数、またはファミリーの数を示す。コンセンサス配列読み取りの数のさらなる減少により、データ量のさらなる減少がもたらされる。全体的な圧縮により、元の配列読み取りデータからのデータ量の著しい減少がもたらされる。圧縮率は、元の配列読み取りデータを格納するのに必要なメモリ量からのコンセンサス配列読み取りデータを格納するのに必要なメモリ量の減少に直接関係する。

いくつかの実施形態では、本明細書に記載の方法は、分散型、クラスタ、リモート、またはクラウドコンピューティングリソースを少なくとも部分的に使用して実施または実装され得る。コンセンサス圧縮データを提供するための配列読み取りデータの圧縮は、分散型、クラスタ、リモート、またはクラウドコンピューティングリソースにおいてプロセッサにデータを送信するための利点を提供する。データ量が減少するため、コンピューティングリソース間のデータ転送インターフェース上での送信に必要な帯域幅および／または時間が削減される。例えば、マッピングされたコンセンサスＢＡＭファイルは、融合検出動作のためにローカルコンピューティングリソースからクラウドコンピューティングリソースに転送され得る。マッピングされたコンセンサスＢＡＭファイルのサイズは、元のマッピングされたＢＡＭファイルのサイズよりも著しく小さいであろう。マッピングされたコンセンサスＢＡＭファイルのサイズがより小さい場合、クラウドコンピューティングリソースへのデータ転送インターフェース上での送信に必要な帯域幅および／または時間が削減されるであろう。

例示的な実施形態によると、融合検出についての分子タグ付き核酸配列データを圧縮するための方法であって、（ａ）複数の核酸配列読み取りおよび複数の配列読み取りファミリーの複数の配列アラインメントを受け取ることであって、各配列読み取りが分子タグ配列と関係しており、分子タグ配列が、核酸試料中の特定のポリヌクレオチド分子から結果として生じる配列読み取りのファミリーを特定し、各ファミリーが番号配列読み取りを有し、配列アラインメントの一部が、標的融合参照配列へマッピングされた配列読み取りに対応する、受け取ることと、（ｂ）配列読み取りの各ファミリーについての配列読み取りに対応するフロースペースシグナル測定値に基づいて、各ファミリーのコンセンサス配列読み取りを決定することと、（ｃ）配列読み取りの各ファミリーについてのコンセンサス配列アラインメントを決定することであって、コンセンサス配列アラインメントの一部が、標的融合参照配列と整列しているコンセンサス配列読み取りに対応する、決定することと、（ｄ）コンセンサス圧縮データを含む圧縮データ構造を生成することであって、コンセンサス圧縮データが、コンセンサス配列読み取りと各ファミリーについてのコンセンサス配列アラインメントとを含む、生成することと、（ｅ）コンセンサス配列読み取りと圧縮データ構造からのコンセンサス配列アラインメントとを使用して融合を検出することと、を含む、方法が提供される。方法は、順方向コンセンサス配列読み取りおよび逆方向コンセンサス配列読み取りが、順方向ファミリーが第１の接頭タグおよび第１の接尾タグと関係し、逆方向ファミリーが第２の接頭タグおよび第２の接尾タグと関係する別個のファミリーにある双方向配列決定のために、第２の接頭タグと第２の接尾タグの逆補数が第１の接頭タグと第１の接尾タグに一致して、圧縮データ構造のために１つのコンセンサス配列読み取りを有する合わせたファミリーを形成するとき、順方向ファミリーと逆方向ファミリーとを組み合わせることを含む。融合を検出するステップは、コンセンサス配列読み取りと標的融合参照配列とのコンセンサス配列アラインメントの特徴に基づいて適格なコンセンサス配列読み取りを特定することをさらに含み得る。特徴は、相同性特徴と、マッピング品質特徴と、ブレークポイントスパニング特徴とを含み得る。適格なコンセンサス配列読み取りを特定するステップは、標的融合参照配列と整列したコンセンサス配列読み取りが標的融合参照配列の融合ブレークポイントに及ぶかどうかを決定することをさらに含み得る。適格なコンセンサス配列読み取りを特定するステップは、標的融合参照配列のコンセンサス配列読み取りとそれぞれ第１および第２のパートナー配列との第１および第２の相同性レベルが最小相同性しきい値以上であるかどうかを判定することをさらに含み得る。適格なコンセンサス配列読み取りを特定するステップは、標的融合参照配列のそれぞれ第１および第２のパートナー配列内のコンセンサス配列読み取りについての第１および第２のマッピング品質値が、マッピング品質のしきい値以上であるかどうかを判定することをさらに含み得る。適格なコンセンサス配列読み取りを特定するステップは、パートナー配列と重複するコンセンサス配列読み取りにおいてパートナー配列をいくつかの重複塩基と一致させるコンセンサス配列において、いくつかの符合している塩基の比を計算することによって、マッピングの質の値を決定することをさらに含み得る。適格なコンセンサス配列読み取りを特定するステップは、標的融合参照配列と整列した適格なコンセンサス配列読み取りに対応するファミリーの数が最小分子カウントしきい値以上であるかどうかを決定することをさらに含み得る。適格なコンセンサス配列読み取りを特定するステップは、読み取り計数が最小読み取りしきい値以上であるかどうかを判定することをさらに含み得、読み取り計数は、標的融合参照配列と整列した適格なコンセンサス配列に対応するファミリーについての配列読み取りの数の合計である。配列読み取りに対応する配列アラインメントの一部は、対照遺伝子参照配列へマッピングし得、コンセンサス圧縮データは、対照遺伝子参照配列に対応するコンセンサス配列読み取りおよびコンセンサス配列アラインメントをさらに含む。方法は、ファミリー計数が最小分子カウントしきい値よりも大きく、読み取り計数が読み取り計数しきい値よりも大きい場合、対照遺伝子参照配列に対応するプロセス制御標的の存在を決定することをさらに含み得、ファミリー計数は、対照遺伝子参照配列と整列したコンセンサス配列読み取りに対応するファミリーの数であり、読み取り計数は、対応するファミリーについての配列読み取りの数の合計である。融合は、遺伝子間融合を含み得、標的融合参照配列は、融合ブレークポイントでの２つの遺伝子の融合のための参照配列を含み得る。融合は、遺伝子内融合を含み得、標的融合参照配列は、同じ遺伝子内の融合ブレークポイントでの２つのエクソンの融合のための参照配列を含み得る。コンセンサス配列アラインメントの一部は、同じ遺伝子について１つ以上の野生型参照配列と整列したコンセンサス配列読み取りに対応し得る。遺伝子内融合の場合、融合を検出するステップはさらに、同じ遺伝子について、遺伝子内融合の読み取り計数の、野生型参照配列と整列したコンセンサス配列読み取りに対応する平均読み取り計数に対する比率を計算することをさらに含み得る。遺伝子内融合の場合、融合を検出するステップはさらに、同じ遺伝子について、遺伝子内融合の読み取り計数の、野生型参照配列と整列したコンセンサス配列読み取り、および標的融合参照配列と整列したコンセンサス配列読み取りに対応する読み取り計数の合計に対する比率を計算することをさらに含み得る。コンセンサス配列読み取りの一部は、標的融合参照配列へ部分的にマッピングし得る。融合を検出するステップは、部分的にマッピングされたコンセンサス配列読み取りに基づいて非標的融合を検出することをさらに含み得る。

例示的な実施形態によると、プロセッサによって実行されるとき、プロセッサに、融合検出についての分子タグ付き核酸配列データを圧縮するための方法を実行させる命令を含む、非一時的な機械可読記憶媒体であって、（ａ）複数の核酸配列読み取りと配列読み取りの複数のファミリーについての複数の配列アラインメントを受け取り、各配列読み取りが分子タグ配列と関係しており、分子タグ配列が核酸試料中の特定のポリヌクレオチド分詞から結果として生じる配列読み取りのファミリーを特定し、各ファミリーが番号配列読み取りを有し、配列アラインメントの一部が標的融合参照配列へマッピングされた配列読み取りに対応する、受け取ることと、（ｂ）ファミリーについての配列読み取りに対応するフロースペースシグナル測定値に基づいて配列読み取りの各ファミリーについてコンセンサス配列読み取りを決定することと、（ｃ）配列読み取りの各ファミリーについてコンセンサス配列アラインメントを決定することであって、コンセンサス配列アラインメントの一部が、標的融合参照配列と整列したコンセンサス配列読み取りに対応する、決定することと、（ｄ）コンセンサス圧縮データを含む圧縮データ構造を生成することであって、コンセンサス圧縮データがコンセンサス配列読み取りと各ファミリーについてのコンセンサス配列アラインメントとを含む、生成することと、（ｅ）コンセンサス配列読み取りと圧縮データ構造からのコンセンサス配列アラインメントとを使用して、融合を検出することと、を含む、非一時的な機械可読記憶媒体が提供される。方法は、順方向コンセンサス配列読み取りおよび逆方向コンセンサス配列読み取りが、順方向ファミリーが第１の接頭タグおよび第１の接尾タグと関係し、逆方向ファミリーが第２の接頭タグおよび第２の接尾タグと関係する別個のファミリーにある双方向配列決定のために、第２の接頭タグと第２の接尾タグの逆補数が第１の接頭タグと第１の接尾タグに一致して、圧縮データ構造のために１つのコンセンサス配列読み取りを有する合わせたファミリーを形成するとき、順方向ファミリーと逆方向ファミリーとを組み合わせることを含む。融合を検出するステップは、コンセンサス配列読み取りと標的融合参照配列とのコンセンサス配列アラインメントの特徴に基づいて適格なコンセンサス配列読み取りを特定することをさらに含み得る。特徴は、相同性特徴と、マッピング品質特徴と、ブレークポイントスパニング特徴とを含み得る。適格なコンセンサス配列読み取りを特定するステップは、標的融合参照配列と整列したコンセンサス配列読み取りが標的融合参照配列の融合ブレークポイントに及ぶかどうかを決定することをさらに含み得る。適格なコンセンサス配列読み取りを特定するステップは、標的融合参照配列のコンセンサス配列読み取りとそれぞれ第１および第２のパートナー配列との第１および第２の相同性レベルが最小相同性しきい値以上であるかどうかを判定することをさらに含み得る。適格なコンセンサス配列読み取りを特定するステップは、標的融合参照配列のそれぞれ第１および第２のパートナー配列内のコンセンサス配列読み取りについての第１および第２のマッピング品質値が、マッピング品質のしきい値以上であるかどうかを判定することをさらに含み得る。適格なコンセンサス配列読み取りを特定するステップは、パートナー配列と重複するコンセンサス配列読み取りにおいてパートナー配列をいくつかの重複塩基と一致させるコンセンサス配列において、いくつかの符合している塩基の比を計算することによって、マッピングの質の値を決定することをさらに含み得る。適格なコンセンサス配列読み取りを特定するステップは、標的融合参照配列と整列した適格なコンセンサス配列読み取りに対応するファミリーの数が最小分子カウントしきい値以上であるかどうかを決定することをさらに含み得る。適格なコンセンサス配列読み取りを特定するステップは、読み取り計数が最小読み取りしきい値以上であるかどうかを判定することをさらに含み得、読み取り計数は、標的融合参照配列と整列した適格なコンセンサス配列に対応するファミリーについての配列読み取りの数の合計である。配列読み取りに対応する配列アラインメントの一部は、対照遺伝子参照配列へマッピングし得、コンセンサス圧縮データは、対照遺伝子参照配列に対応するコンセンサス配列読み取りおよびコンセンサス配列アラインメントをさらに含む。方法は、ファミリー計数が最小分子カウントしきい値よりも大きく、読み取り計数が読み取り計数しきい値よりも大きい場合、対照遺伝子参照配列に対応するプロセス制御標的の存在を決定することをさらに含み得、ファミリー計数は、対照遺伝子参照配列と整列したコンセンサス配列読み取りに対応するファミリーの数であり、読み取り計数は、対応するファミリーについての配列読み取りの数の合計である。融合は、遺伝子間融合を含み得、標的融合参照配列は、融合ブレークポイントでの２つの遺伝子の融合のための参照配列を含み得る。融合は、遺伝子内融合を含み得、標的融合参照配列は、同じ遺伝子内の融合ブレークポイントでの２つのエクソンの融合のための参照配列を含み得る。コンセンサス配列アラインメントの一部は、同じ遺伝子について１つ以上の野生型参照配列と整列したコンセンサス配列読み取りに対応し得る。遺伝子内融合の場合、融合を検出するステップはさらに、同じ遺伝子について、遺伝子内融合の読み取り計数の、野生型参照配列と整列したコンセンサス配列読み取りに対応する平均読み取り計数に対する比率を計算することをさらに含み得る。遺伝子内融合の場合、融合を検出するステップはさらに、同じ遺伝子について、遺伝子内融合の読み取り計数の、野生型参照配列と整列したコンセンサス配列読み取り、および標的融合参照配列と整列したコンセンサス配列読み取りに対応する読み取り計数の合計に対する比率を計算することをさらに含み得る。コンセンサス配列読み取りの一部は、標的融合参照配列へ部分的にマッピングし得る。融合を検出するステップは、部分的にマッピングされたコンセンサス配列読み取りに基づいて非標的融合を検出することをさらに含み得る。

例示的な実施形態によれば、機械可読メモリと、メモリと通信するプロセッサとを備えた、融合検出のために分子タグ付き核酸配列データを圧縮するためのシステムであって、機械可読命令を実行するように構成されたシステムであって、機械可読命令が、プロセッサによって実行されるとき、（ａ）複数の核酸配列読み取りと配列読み取りの複数のファミリーについての複数の配列アラインメントとを受信することであって、各配列読み取りが、分子タグ配列と関係しており、分子タグ配列が、核酸試料中の特定のポリヌクレオチド分子から結果として生じる配列読み取りのファミリーを特定し、各ファミリーが番号配列読み取りを有し、配列アラインメントの一部が、標的融合参照配列へマッピングされた配列読み取りに対応する、受信することと、（ｂ）ファミリーについての配列読み取りに対応するフロースペースシグナル測定値に基づいて、配列読み取りの各ファミリーのコンセンサス配列読み取りを決定すること、（ｃ）配列読み取りの各ファミリーについてのコンセンサス配列アラインメントを決定することであって、コンセンサス配列アラインメントの一部が、標的融合参照配列と整列したコンセンサス配列読み取りに対応する、決定することと、（ｄ）コンセンサス圧縮データを含む圧縮データ構造を生成することであって、コンセンサス圧縮データが、コンセンサス配列読み取りと各ファミリーについてのコンセンサス配列アラインメントとを含む、生成することと、（ｅ）コンセンサス配列読み取りと圧縮データ構造からのコンセンサス配列アラインメントとを使用して融合を検出することと、を含む、システムが提供される。方法は、順方向コンセンサス配列読み取りおよび逆方向コンセンサス配列読み取りが、順方向ファミリーが第１の接頭タグおよび第１の接尾タグと関係し、逆方向ファミリーが第２の接頭タグおよび第２の接尾タグと関係する別個のファミリーにある双方向配列決定のために、第２の接頭タグと第２の接尾タグの逆補数が第１の接頭タグと第１の接尾タグに一致して、圧縮データ構造のために１つのコンセンサス配列読み取りを有する合わせたファミリーを形成するとき、順方向ファミリーと逆方向ファミリーとを組み合わせることを含む。融合を検出するステップは、コンセンサス配列読み取りと標的融合参照配列とのコンセンサス配列アラインメントの特徴に基づいて適格なコンセンサス配列読み取りを特定することをさらに含み得る。特徴は、相同性特徴と、マッピング品質特徴と、ブレークポイントスパニング特徴とを含み得る。適格なコンセンサス配列読み取りを特定するステップは、標的融合参照配列と整列したコンセンサス配列読み取りが標的融合参照配列の融合ブレークポイントに及ぶかどうかを決定することをさらに含み得る。適格なコンセンサス配列読み取りを特定するステップは、標的融合参照配列のコンセンサス配列読み取りとそれぞれ第１および第２のパートナー配列との第１および第２の相同性レベルが最小相同性しきい値以上であるかどうかを判定することをさらに含み得る。適格なコンセンサス配列読み取りを特定するステップは、標的融合参照配列のそれぞれ第１および第２のパートナー配列内のコンセンサス配列読み取りについての第１および第２のマッピング品質値が、マッピング品質のしきい値以上であるかどうかを判定することをさらに含み得る。適格なコンセンサス配列読み取りを特定するステップは、パートナー配列と重複するコンセンサス配列読み取りにおいてパートナー配列をいくつかの重複塩基と一致させるコンセンサス配列において、いくつかの符合している塩基の比を計算することによって、マッピングの質の値を決定することをさらに含み得る。適格なコンセンサス配列読み取りを特定するステップは、標的融合参照配列と整列した適格なコンセンサス配列読み取りに対応するファミリーの数が最小分子カウントしきい値以上であるかどうかを決定することをさらに含み得る。適格なコンセンサス配列読み取りを特定するステップは、読み取り計数が最小読み取りしきい値以上であるかどうかを判定することをさらに含み得、読み取り計数は、標的融合参照配列と整列した適格なコンセンサス配列に対応するファミリーについての配列読み取りの数の合計である。配列読み取りに対応する配列アラインメントの一部は、対照遺伝子参照配列へマッピングし得、コンセンサス圧縮データは、対照遺伝子参照配列に対応するコンセンサス配列読み取りおよびコンセンサス配列アラインメントをさらに含む。方法は、ファミリー計数が最小分子カウントしきい値よりも大きく、読み取り計数が読み取り計数しきい値よりも大きい場合、対照遺伝子参照配列に対応するプロセス制御標的の存在を決定することをさらに含み得、ファミリー計数は、対照遺伝子参照配列と整列したコンセンサス配列読み取りに対応するファミリーの数であり、読み取り計数は、対応するファミリーについての配列読み取りの数の合計である。融合は、遺伝子間融合を含み得、標的融合参照配列は、融合ブレークポイントでの２つの遺伝子の融合のための参照配列を含み得る。融合は、遺伝子内融合を含み得、標的融合参照配列は、同じ遺伝子内の融合ブレークポイントでの２つのエクソンの融合のための参照配列を含み得る。コンセンサス配列アラインメントの一部は、同じ遺伝子について１つ以上の野生型参照配列と整列したコンセンサス配列読み取りに対応し得る。遺伝子内融合の場合、融合を検出するステップはさらに、同じ遺伝子について、遺伝子内融合の読み取り計数の、野生型参照配列と整列したコンセンサス配列読み取りに対応する平均読み取り計数に対する比率を計算することをさらに含み得る。遺伝子内融合の場合、融合を検出するステップはさらに、同じ遺伝子について、遺伝子内融合の読み取り計数の、野生型参照配列と整列したコンセンサス配列読み取り、および標的融合参照配列と整列したコンセンサス配列読み取りに対応する読み取り計数の合計に対する比率を計算することをさらに含み得る。コンセンサス配列読み取りの一部は、標的融合参照配列へ部分的にマッピングし得る。融合を検出するステップは、部分的にマッピングされたコンセンサス配列読み取りに基づいて非標的融合を検出することをさらに含み得る。

核酸配列データは、キャピラリー電気泳動、マイクロアレイ、ライゲーションに基づくシステム、ポリメラーゼに基づくシステム、ハイブリダイゼーションに基づくシステム、直接または間接的ヌクレオチド特定システム、ピロシーケンシング、イオンまたはｐＨに基づく検出システム、電子署名に基づくシステムなどを含む、様々な技法、プラットフォーム、または技術を使用して生成され得る。

核酸シーケンサーなどの核酸配列決定プラットフォームの様々な実施形態は、図１０のブロック図に表示されている構成部品を含むことができる。様々な実施形態によれば、配列決定機器１２００は、流体送達および制御ユニット１２０２、試料処理ユニット１２０４、シグナル検出ユニット１２０６、ならびにデータ取得、分析、および制御ユニット１２０８を含むことができる。次世代配列決定に使用される機器、試薬、ライブラリ、および方法の様々な実施形態は、米国特許出願公開第２００９／０１２７５８９号および第２００９／００２６０８２号に記載されている。機器１２００の様々な実施形態は、実質的に同時になど、複数の配列から配列情報を並行して収集するために使用され得る自動配列決定を提供することができる。

様々な実施形態では、流体送達および制御ユニット１２０２は、試薬送達システムを含むことができる。試薬送達システムは、様々な試薬を保管するための試薬リザーバを含むことができる。試薬には、ＲＮＡベースのプライマー、フォワード／リバースＤＮＡプライマー、ライゲーション配列決定用のオリゴヌクレオチド混合物、合成による配列決定用のヌクレオチド混合物、任意のＥＣＣオリゴヌクレオチド混合物、緩衝液、洗浄試薬、ブロッキング試薬、ストリッピング試薬などが含まれ得る。加えて、試薬送達システムは、試料処理ユニットを試薬リザーバに接続するピペッティングシステムまたは連続フローシステムを含むことができる。

様々な実施形態では、試料処理ユニット１２０４は、フローセル、基板、マイクロアレイ、マルチウェルトレイなどの試料チャンバを含むことができる。試料処理ユニット１２０４は、複数のレーン、複数のチャネル、複数のウェル、または複数の試料セットを実質的に同時に処理する他の手段を含むことができる。加えて、試料処理ユニットは、複数の実行を同時に処理することができるように、複数の試料チャンバを含むことができる。特定の実施形態では、このシステムは、１つの試料チャンバ上でシグナル検出を実行しながら、別の試料チャンバを実質的に同時に処理することができる。加えて、試料処理ユニットは、試料チャンバを移動させるか、または操作するための自動化システムを含むことができる。

様々な実施形態では、シグナル検出ユニット１２０６は、撮像または検出センサを含むことができる。例えば、撮像または検出センサは、ＣＣＤ、ＣＭＯＳ、イオンまたは化学センサ、例えば、ＣＭＯＳまたはＦＥＴを覆うイオン感受性層、検流器または検電器などを含むことができる。シグナル検出ユニット１２０６は、蛍光色素などのプローブにシグナルを放出させる励起システムを含むことができる。励起システムは、アークランプ、レーザ、発光ダイオード（ＬＥＤ）などの照明源を含むことができる。特定の実施形態では、シグナル検出ユニット１２０６は、照明源から試料へ、または試料から撮像または検出センサへの光の伝達のための光学を含むことができる。あるいは、シグナル検出ユニット１２０６は、検出のための電子または非光子ベースの方法を提供することができ、その結果、照明源を含まない。様々な実施形態では、検出可能なシグナルまたは種が配列決定反応中に生成されると、電子ベースのシグナル検出が起こり得る。例えば、シグナルは、イオンまたは化学物質感受性層と相互作用する、放出された副産物または部分、例えば、水素イオンなどの放出されたイオンの相互作用によって生成され得る。他の実施形態では、ＡＴＰスルフリラーゼとさらに反応してアデノシン５´ホスホ硫酸の存在下でＡＴＰを生成するポリメラーゼによる塩基組み込みによってピロリン酸塩が生成されるピロシーケンシング（例えば、米国特許出願公開第２００９／０３２５１４５号を参照のこと）で使用されるような酵素カスケードの結果として、検出可能なシグナルが生じ得、生成されたＡＴＰは、ルシフェラーゼ媒介反応で消費されて、化学発光シグナルを生成することができる。別の例では、核酸が照明源を必要とすることなくナノポアを通過するときに、電流の変化が検出され得る。

様々な実施形態では、データ取得分析および制御ユニット１２０８は、様々なシステムパラメータを監視することができる。システムパラメータには、試料処理ユニットまたは試薬リザーバなどの機器１２００の様々な部分の温度、様々な試薬の量、マニピュレータ、ステッピングモータ、ポンプなどの様々なシステム従属部品の状態、またはそれらの任意の組み合わせが含まれ得る。

当業者であれば、機器１２００の様々な実施形態を使用して、ライゲーションに基づく方法、合成による配列決定、単一分子法、ナノポア配列決定、および他の配列決定技法を含む様々な配列決定方法を実施することができることを理解するであろう。

様々な実施形態では、配列決定機器１２００は、ポリヌクレオチドまたはオリゴヌクレオチドなどの核酸の配列を決定することができる。核酸はＤＮＡまたはＲＮＡを含み得、ｓｓＤＮＡおよびＲＮＡなどの一本鎖、またはｄｓＤＮＡまたはＲＮＡ／ｃＤＮＡ対などの二本鎖であり得る。様々な実施形態では、核酸は、フラグメントライブラリ、メイトペアライブラリ、ＣｈＩＰフラグメントなどを含み得るか、またはそれに由来し得る。特定の実施形態では、配列決定機器１２００は、単一の核酸分子から、または実質的に同一の核酸分子の群から配列情報を取得することができる。

様々な実施形態では、配列決定機器１２００は、＊．ｆａｓｔａ、＊．ｃｓｆａｓｔａ、＊ｓｅｑ．ｔｘｔ、＊ｑｓｅｑ．ｔｘｔ、＊．ｆａｓｔｑ、＊．ｓｆｆ、＊ｐｒｂ．ｔｘｔ、＊．ｓｍｓ、＊ｓｒｓ、および／または＊．ｑｖを含むが、これらに限定されない様々な異なる出力データファイルタイプ／型式で核酸配列決定読み取りデータを出力することができる。

様々な例示的な実施形態によると、上記の教示および／または例示的な実施形態のうちのいずれか１つ以上の１つ以上の特徴は、適切に構成および／またはプログラムされたハードウェアおよび／またはソフトウェア要素を使用して実施または実装され得る。実施形態がハードウェアおよび／またはソフトウェアを要素を使用して実装されるかどうかの判定は、任意の要因、例えば、所望の計算速度、出力レベル、耐熱性、処理サイクル予算、入力データ速度、出力データ速度、メモリリソース、データバススピード等、および他の設計または性能の制約に基づき得る。

ハードウェア要素の例としては、プロセッサ、マイクロプロセッサ、ローカルインターフェース回路を介して通信可能に連結した入力（複数可）および／または出力（複数可）（Ｉ／Ｏ）デバイス（複数可）（または周辺機器）、回路要素（例えば、トランジスタ、抵抗器、コンデンサ、インダクタ等）、集積回路、特定用途向け集積回路（ＡＳＩＣ）、プログラム可能論理デバイス（ＰＬＤ）、デジタル信号プロセッサ（ＤＳＰ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、論理ゲート、レジスタ、半導体デバイス、チップ、マイクロチップ、チップセット等が挙げられ得る。ローカルインターフェースには、例えば、ハードウェア部品間の適切な通信を可能にする１つ以上のバスまたは他の有線もしくは無線接続、制御器、バッファ（キャッシュ）、ドライバ、リピータ、およびレシーバ等が含まれ得る。プロセッサは、ソフトウェア、特に、メモリ内に保存されたソフトウェアを実行するためのハードウェアデバイスである。プロセッサは、任意のオーダーメードまたは市販のプロセッサ、中央処理装置（ＣＰＵ）、コンピュータに関連するいくつかのプロセッサのうちの補助プロセッサ、半導体ベースのマイクロプロセッサ（例えば、マイクロチップまたはチップセットの形態にある）、マクロプロセッサ、またはソフトウェア命令を実行するための概してあらゆるデバイスであり得る。プロセッサはまた、分散型処理アーキテクチャを表し得る。Ｉ／Ｏデバイスには、入力デバイス、例えば、キーボード、マウス、スキャナー、マイクロフォン、タッチスクリーン、様々な医療デバイスおよび／または実験機器のためのインターフェース、バーコード読み取り機、スタイラス、レーザ読み取り機、無線周波デバイス読み取り機等が含まれ得る。さらに、Ｉ／Ｏデバイスには、出力デバイス、例えば、プリンタ、バーコードプリンタ、ディスプレイ等も含まれ得る。最後に、Ｉ／Ｏデバイスには、入力および出力の両方として通信するデバイス、例えば、変調器／復調器（モデム；別のデバイス、システム、またはネットワークにアクセスするため）、無線周波（ＲＦ）トランシーバまたは他のトランシーバ、電話インターフェース、ブリッジ、ルータ等がさらに含まれ得る。

ソフトウェアの例としては、ソフトウェア要素、プログラム、アプリケーション、コンピュータプログラム、アプリケーションプログラム、システムプログラム、マシンプログラム、オペレーティングシステムソフトウェア、ミドルウェア、ファームウェア、ソフトウェアモジュール、ルーチン、サブルーチン、関数、方法、手続き、ソフトウェアインターフェース、アプリケーションプログラムインターフェース（ＡＰＩ）、命令セット、演算コード、コンピュータコード、コードセグメント、コンピュータコードセグメント、ワード、値、記号、またはそれらの任意の組み合わせが挙げられ得る。メモリ内のソフトウェアは、論理関数を実装するための実行可能な命令の順序リストを含み得る１つ以上の別個のプログラムを含み得る。メモリ内のソフトウェアは、本教示に従うデータ流を特定するためのシステム、ならびにシステム等の他のコンピュータプログラムの実行を制御し得、スケジューリング、入出力制御、ファイルおよびデータ管理、メモリ管理、通信制御等を提供する任意の好適なオーダーメードまたは市販のオペレーティングシステム（Ｏ／Ｓ）を含み得る。

様々な例示的な実施形態によると、上記の教示および／または例示的な実施形態のうちのいずれか１つ以上の１つ以上の特徴は、機械によって実行された場合、例示的な実施形態に従う方法および／または動作を機械が行うことを引き起こし得る命令または命令のセットを保存し得る、適切に構成および／またはプログラムされた非一時的機械可読媒体または物品を使用して実施または実装され得る。かかる機械には、例えば、任意の好適な処理プラットフォーム、コンピューティングプラットフォーム、コンピューティングデバイス、処理デバイス、コンピューティングシステム、処理システム、コンピュータ、プロセッサ、科学機器または実験機器等が含まれ得、ハードウェアおよび／またはソフトウェアの任意の好適な組み合わせを使用して実装され得る。機械可読媒体または物品には、例えば、任意の好適な種類のメモリユニット、メモリデバイス、メモリ物品、メモリ媒体、記憶デバイス、記憶物品、記憶媒体、および／または記憶ユニット、例えば、メモリ、リムーバブルまたはノンリムーバブル媒体、消去可能または非消去可能な媒体、書き込み可能または書き換え可能な媒体、デジタルまたはアナログ媒体、ハードディスク、フロッピーディスク、読み出し専用コンパクトディスク（ＣＤ－ＲＯＭ）、記録可能コンパクトディスク（ＣＤ－Ｒ）、書き換え可能コンパクト（ＣＤ－ＲＷ）、光ディスク、磁気媒体、光磁気媒体、リムーバブルメモリカードまたはディスク、様々な種類のデジタル多用途ディスク（ＤＶＤ）、テープ、カセット等が含まれ得、コンピュータにおける使用に好適な任意の媒体を含む。メモリには、揮発性メモリ素子（例えば、ランダムアクセスメモリ（ＲＡＭ、例えば、ＤＲＡＭ、ＳＲＡＭ、ＳＤＲＡＭ等））および不揮発性メモリ素子（例えば、ＲＯＭ、ＥＰＲＯＭ、ＥＥＲＯＭ、フラッシュメモリ、ハードドライブ、テープ、ＣＤＲＯＭ等）のうちのいずれか１つまたは組み合わせが含まれ得る。さらに、メモリは、電気、磁気、光、および／または他の種類の記憶媒体を組み込みことができる。メモリは、様々な部品が互いから離れて位置しているが、依然としてプロセッサによってアクセスされる分散型アーキテクチャを有し得る。命令には、任意の好適な種類のコード、例えば、任意の好適な高レベル、低レベル、オブジェクト指向、ビジュアル、コンパイル済み、および／または解釈されたプログラミング言語を使用して実装された、ソースコード、コンパイル済みコード、解釈されたコード、実行可能コード、静的コード、動的コード、暗号化されたコード等が含まれ得る。

様々な例示的な実施形態によると、上記の教示および／または例示的な実施形態のうちのいずれか１つ以上の１つ以上の特徴は、分散型、クラスタ、リモート、またはクラウド計算リソースを少なくとも部分的に使用して実施または実装され得る。

様々な例示的な実施形態によると、上記の教示および／または例示的な実施形態のうちのいずれか１つ以上の１つ以上の特徴は、ソースプログラム、実行可能プログラム（目的コード）、スクリプト、または行われる命令のセットを含む任意の他のエンティティを使用して実施または実装され得る。ソースプログラムである場合、プログラムは、Ｏ／Ｓと通信して正常に動作するように、メモリ内に含まれるかまたは含まれない場合があるコンパイラ、アセンブラ、インタープリタ等を介して翻訳され得る。命令は、（ａ）データおよび方法のクラスを有するオブジェクト指向プログラミング言語、または（ｂ）例えば、Ｃ、Ｃ＋＋、Ｒ、Ｐａｓｃａｌ、Ｂａｓｉｃ、Ｆｏｒｔｒａｎ、Ｃｏｂｏｌ、Ｐｅｒｌ、Ｊａｖａ、およびＡｄａを含み得る、ルーチン、サブルーチン、および／または機能を有する手続き型プログラミング言語を使用して書き込まれ得る。

様々な例示的な実施形態によると、上記の例示的な実施形態のうちの１つ以上は、ユーザインタフェースデバイス、コンピュータ可読記憶媒体、ローカルコンピュータシステム、またはリモートコンピュータシステムに、かかる例示的な実施形態によって生成、アクセス、または使用された任意の情報、信号、データ、および／または中間もしくは最終結果を伝達、表示、保存、印刷、または出力することを含み得る。かかる伝達、表示、保存、印刷、または出力された情報は、例えば、ランおよび報告、画像、表、チャート、グラフ、スプレッドシート、相関、配列、ならびにそれらの組み合わせの検索可能および／またはフィルタリング可能なリストの形態であり得る。

本発明の好ましい実施形態が本明細書において示され、記載されてきたが、かかる実施形態が単に例として提供されることは、当業者には明らかであろう。多くの変化形、変更、および置換が本発明から逸脱することなく当業者に思いつくであろう。本明細書に記載される本発明の実施形態の種々の代替物が本発明の実施に用いられ得ることを理解されたい。以下の特許請求の範囲は、本発明の範囲を定義し、これらの特許請求の範囲の範囲内の方法および構造ならびにそれらの等価物がそれにより網羅されることが意図される。

［実施形態１］
融合検出のために分子タグ付き核酸配列データを圧縮するための方法であって、
複数の核酸配列読み取りおよび複数の配列読み取りファミリーの複数の配列アラインメントを受け取ることであって、各配列読み取りが分子タグ配列と関係しており、前記分子タグ配列が、核酸試料中の特定のポリヌクレオチド分子から結果として生じる配列読み取りのファミリーを特定し、各ファミリーが配列読み取りの数を有し、前記配列アラインメントの一部が、標的融合参照配列へマッピングされた配列読み取りに対応する、前記受け取ることと、
配列読み取りの各ファミリーについての配列読み取りに対応するフロースペースシグナル測定値に基づいて、前記ファミリーのコンセンサス配列読み取りを決定することと、
配列読み取りの各ファミリーについてのコンセンサス配列アラインメントを決定することであって、配列読み取りの前記ファミリーに対応する、最も高いマッピング特質を有する前記配列アラインメントを選択することを含み、前記コンセンサス配列アラインメントの一部が、前記標的融合参照配列と整合している前記コンセンサス配列読み取りに対応する、前記決定することと、
コンセンサス圧縮データを含む圧縮データ構造を生成することであって、前記コンセンサス圧縮データが、前記コンセンサス配列読み取りと各ファミリーについての前記コンセンサス配列アラインメントとを含む、前記生成することと、
前記圧縮データ構造からの前記コンセンサス配列読み取りと前記コンセンサス配列アラインメントとを使用して融合を検出することと、を含み、
前記融合を検出することが、前記コンセンサス配列読み取りと前記標的融合参照配列とのコンセンサス配列アラインメントの特徴に基づいて適格なコンセンサス配列読み取りを特定することをさらに含み、
前記融合を検出することは、前記標的融合参照配列と整合した前記適格なコンセンサス配列読み取りに対応するファミリーの数が最小分子カウントしきい値以上であるかどうかを決定することをさらに含む、方法。
［実施形態２］
前記配列読み取りが双方向配列決定から結果として生じ、順方向コンセンサス配列読み取りおよび逆方向コンセンサス配列読み取りが、第１の接頭タグおよび第１の接尾タグと関係する順方向ファミリーと、第２の接頭タグおよび第２の接尾タグと関係する逆方向のファミリーとを含む、別個のファミリーにあり、前記方法は、前記第２の接頭タグと前記第２の接尾タグの逆補数が前記第１の接頭タグと前記第１の接尾タグに一致して、前記圧縮データ構造のために１つのコンセンサス配列読み取りを有する合わせたファミリーを形成するとき、前記順方向ファミリーと逆方向ファミリーとを組み合わせることをさらに含む、実施形態１に記載の方法。
［実施形態３］
前記特徴が、相同性特徴と、マッピング品質特徴と、ブレークポイントスパニング特徴とを含む、実施形態１に記載の方法。
［実施形態４］
前記適格なコンセンサス配列読み取りを特定することは、前記標的融合参照配列と整合した前記コンセンサス配列読み取りが標的融合参照配列の融合ブレークポイントに及ぶかどうかを決定することをさらに含む、実施形態１に記載の方法。
［実施形態５］
前記適格なコンセンサス配列読み取りを特定することは、前記標的融合参照配列の前記コンセンサス配列読み取りとそれぞれ第１および第２のパートナー配列との第１および第２の相同性レベルが最小相同性しきい値以上であるかどうかを判定することをさらに含む、実施形態１に記載の方法。
［実施形態６］
前記適格なコンセンサス配列読み取りを特定することは、前記標的融合参照配列のそれぞれ第１および第２のパートナー配列内の前記コンセンサス配列読み取りについての第１および第２のマッピング品質値が、マッピング品質のしきい値以上であるかどうかを判定することをさらに含む、実施形態１に記載の方法。
［実施形態７］
前記適格なコンセンサス配列読み取りを特定することは、前記パートナー配列と重複する前記コンセンサス配列読み取りにおいて前記パートナー配列をいくつかの重複塩基と一致させる前記コンセンサス配列において、いくつかの符合している塩基の比を計算することによって、前記マッピングの質の値を決定することをさらに含む、実施形態６に記載の方法。
［実施形態８］
前記融合を検出することは、読み取り計数が最小読み取りしきい値以上であるかどうかを判定することをさらに含み、前記読み取り計数が、前記標的融合参照配列と整合した前記適格なコンセンサス配列に対応する前記ファミリーについての配列読み取りの前記数の合計である、実施形態１に記載の方法。
［実施形態９］
前記配列アラインメントの第２の部分が、対照遺伝子参照配列へマッピングされた配列読み取りに対応しており、コンセンサス圧縮データが、前記対照遺伝子参照配列に対応するコンセンサス配列読み取りおよびコンセンサス配列アラインメントをさらに含む、実施形態１に記載の方法。
［実施形態１０］
ファミリー計数が最小分子カウントしきい値よりも大きく、読み取り計数が読み取り計数しきい値よりも大きい場合、前記対照遺伝子参照配列に対応するプロセス制御標的の存在を決定することをさらに含み、前記ファミリー計数が、前記対照遺伝子参照配列と整合した前記コンセンサス配列読み取りに対応するファミリーの数であり、前記読み取り計数が、前記対応するファミリーについての配列読み取りの数の合計である、実施形態９に記載の方法。
［実施形態１１］
前記融合が、遺伝子間融合を含み、前記標的融合参照配列が、融合ブレークポイントでの２つの遺伝子の前記融合のための参照配列を含む、実施形態１記載の方法。
［実施形態１２］
前記融合が、遺伝子内融合を含み、前記標的融合参照配列が、同じ遺伝子内の融合ブレークポイントでの２つのエクソンの前記融合のための参照配列を含む、実施形態１記載の方法。
［実施形態１３］
前記コンセンサス配列アラインメントの第２の部分が、同じ遺伝子について１つ以上の野生型参照配列と整合したコンセンサス配列読み取りに対応する、実施形態１２に記載の方法。
［実施形態１４］
前記融合を検出することが、同じ遺伝子について、前記遺伝子内融合の読み取り計数の、前記野生型参照配列と整合した前記コンセンサス配列読み取りに対応する平均読み取り計数に対する比率を計算することをさらに含む、実施形態１３に記載の方法。
［実施形態１５］
前記融合を検出することが、同じ遺伝子について、前記遺伝子内融合の読み取り計数の、前記野生型参照配列と整合した前記コンセンサス配列読み取り、および前記標的融合参照配列と整合した前記コンセンサス配列読み取りに対応する読み取り計数の合計に対する比率を計算することをさらに含む、実施形態１３に記載の方法。
［実施形態１６］
前記コンセンサス配列読み取りの一部が、前記標的融合参照配列に部分的にマッピングし、融合を検出することが、部分的にマッピングされたコンセンサス配列読み取りに基づいて非標的融合を検出することをさらに含む、実施形態１に記載の方法。
［実施形態１７］
プロセッサによって実行されるとき、前記プロセッサに、融合検出のために分子タグ付き核酸配列データを圧縮するための方法を実行させる命令を含む、非一時的な機械可読記憶媒体であって、
前記方法は、
複数の核酸配列読み取りおよび複数の配列読み取りファミリーの複数の配列アラインメントを受け取ることであって、各配列読み取りが分子タグ配列と関係しており、前記分子タグ配列が、核酸試料中の特定のポリヌクレオチド分子から結果として生じる配列読み取りのファミリーを特定し、各ファミリーが配列読み取りの数を有し、前記配列アラインメントの一部が、標的融合参照配列へマッピングされた配列読み取りに対応する、前記受け取ることと、
配列読み取りの各ファミリーについての配列読み取りに対応するフロースペースシグナル測定値に基づいて、前記ファミリーのコンセンサス配列読み取りを決定することと、
配列読み取りの各ファミリーについてのコンセンサス配列アラインメントを決定することであって、配列読み取りの前記ファミリーに対応する、最も高いマッピング特質を有する前記配列アラインメントを選択することを含み、前記コンセンサス配列アラインメントの一部が、前記標的融合参照配列と整合している前記コンセンサス配列読み取りに対応する、前記決定することと、
コンセンサス圧縮データを含む圧縮データ構造を生成することであって、前記コンセンサス圧縮データが、前記コンセンサス配列読み取りと各ファミリーについての前記コンセンサス配列アラインメントとを含む、前記生成することと、
前記圧縮データ構造からの前記コンセンサス配列読み取りと前記コンセンサス配列アラインメントとを使用して融合を検出することと、を含み、
前記融合を検出することが、前記コンセンサス配列読み取りと前記標的融合参照配列とのコンセンサス配列アラインメントの特徴に基づいて適格なコンセンサス配列読み取りを特定することをさらに含み、
前記融合を検出することは、前記標的融合参照配列と整合した前記適格なコンセンサス配列読み取りに対応するファミリーの数が最小分子カウントしきい値以上であるかどうかを決定することをさらに含む、非一時的な機械可読記憶媒体。
［実施形態１８］
融合検出のために分子タグ付き核酸配列データを圧縮するためのシステムであって、
機械可読メモリと、
前記メモリと通信するプロセッサであって、前記プロセッサが、当該プロセッサによって実行されるとき、前記システムに、方法を実行させる機械可読命令を実行するように構成されている、前記プロセッサと、を含み、
前記方法は、
複数の核酸配列読み取りおよび複数の配列読み取りファミリーの複数の配列アラインメントを受け取ることであって、各配列読み取りが分子タグ配列と関係しており、前記分子タグ配列が、核酸試料中の特定のポリヌクレオチド分子から結果として生じる配列読み取りのファミリーを特定し、各ファミリーが配列読み取りの数を有し、前記配列アラインメントの一部が、標的融合参照配列へマッピングされた配列読み取りに対応する、前記受け取ることと、
配列読み取りの各ファミリーについての配列読み取りに対応するフロースペースシグナル測定値に基づいて、前記ファミリーのコンセンサス配列読み取りを決定することと、
配列読み取りの各ファミリーについてのコンセンサス配列アラインメントを決定することであって、配列読み取りの前記ファミリーに対応する、最も高いマッピング特質を有する前記配列アラインメントを選択することを含み、前記コンセンサス配列アラインメントの一部が、前記標的融合参照配列と整合している前記コンセンサス配列読み取りに対応する、前記決定することと、
コンセンサス圧縮データを含む圧縮データ構造を生成することであって、前記コンセンサス圧縮データが、前記コンセンサス配列読み取りと各ファミリーについての前記コンセンサス配列アラインメントとを含む、前記生成することと、
前記圧縮データ構造からの前記コンセンサス配列読み取りと前記コンセンサス配列アラインメントとを使用して融合を検出することと、を含み、
前記融合を検出することが、前記コンセンサス配列読み取りと前記標的融合参照配列とのコンセンサス配列アラインメントの特徴に基づいて適格なコンセンサス配列読み取りを特定することをさらに含み、
前記融合を検出することは、前記標的融合参照配列と整合した前記適格なコンセンサス配列読み取りに対応するファミリーの数が最小分子カウントしきい値以上であるかどうかを決定することをさらに含む、システム。

Claims

融合検出のために分子タグ付き核酸配列データを圧縮するための方法であって、
複数の核酸配列読み取りおよび複数の配列読み取りファミリーの複数の配列アラインメントを受け取ることであって、各配列読み取りが分子タグ配列と関係しており、前記分子タグ配列が、核酸試料中の特定のポリヌクレオチド分子から結果として生じる配列読み取りのファミリーを特定し、各ファミリーが番号配列読み取りを有し、前記配列アラインメントの一部が、標的融合参照配列へマッピングされた配列読み取りに対応する、前記受け取ることと、
配列読み取りの各ファミリーについての配列読み取りに対応するフロースペースシグナル測定値に基づいて、前記ファミリーのコンセンサス配列読み取りを決定することと、
配列読み取りの各ファミリーについてのコンセンサス配列アラインメントを決定することであって、前記コンセンサス配列アラインメントの一部が、前記標的融合参照配列と整列している前記コンセンサス配列読み取りに対応する、前記決定することと、
コンセンサス圧縮データを含む圧縮データ構造を生成することであって、前記コンセンサス圧縮データが、前記コンセンサス配列読み取りと各ファミリーについての前記コンセンサス配列アラインメントとを含む、前記生成することと、
前記コンセンサス配列読み取りと前記圧縮データ構造からの前記コンセンサス配列アラインメントとを使用して融合を検出することと、を含む、方法。
前記配列読み取りが双方向配列決定から結果として生じ、順方向コンセンサス配列読み取りおよび逆方向コンセンサス配列読み取りが、第１の接頭タグおよび第１の接尾タグと関係する順方向ファミリーと、第２の接頭タグおよび第２の接尾タグと関係する逆方向のファミリーとを含む、別個のファミリーにあり、前記方法は、前記第２の接頭タグと前記第２の接尾タグの逆補数が前記第１の接頭タグと前記第１の接尾タグに一致して、前記圧縮データ構造のために１つのコンセンサス配列読み取りを有する合わせたファミリーを形成するとき、前記順方向ファミリーと逆方向ファミリーとを組み合わせることをさらに含む、請求項１に記載の方法。
前記融合を検出することが、前記コンセンサス配列読み取りと前記標的融合参照配列とのコンセンサス配列アラインメントの特徴に基づいて適格なコンセンサス配列読み取りを特定することをさらに含む、請求項１に記載の方法。
前記特徴が、相同性特徴と、マッピング品質特徴と、ブレークポイントスパニング特徴とを含む、請求項３に記載の方法。
前記適格なコンセンサス配列読み取りを特定することは、前記標的融合参照配列と整列した前記コンセンサス配列読み取りが標的融合参照配列の融合ブレークポイントに及ぶかどうかを決定することをさらに含む、請求項３に記載の方法。
前記適格なコンセンサス配列読み取りを特定することは、前記標的融合参照配列の前記コンセンサス配列読み取りとそれぞれ第１および第２のパートナー配列との第１および第２の相同性レベルが最小相同性しきい値以上であるかどうかを判定することをさらに含む、請求項３に記載の方法。
前記適格なコンセンサス配列読み取りを特定することは、前記標的融合参照配列のそれぞれ第１および第２のパートナー配列内の前記コンセンサス配列読み取りについての第１および第２のマッピング品質値が、マッピング品質のしきい値以上であるかどうかを判定することをさらに含む、請求項３に記載の方法。
前記適格なコンセンサス配列読み取りを特定することは、前記パートナー配列と重複する前記コンセンサス配列読み取りにおいて前記パートナー配列をいくつかの重複塩基と一致させる前記コンセンサス配列において、いくつかの符合している塩基の比を計算することによって、前記マッピングの質の値を決定することをさらに含む、請求項７に記載の方法。
前記融合を検出することは、前記標的融合参照配列と整列した前記適格なコンセンサス配列読み取りに対応するファミリーの数が最小分子カウントしきい値以上であるかどうかを決定することをさらに含む、請求項３に記載の方法。
前記融合を検出することは、読み取り計数が最小読み取りしきい値以上であるかどうかを判定することをさらに含み、前記読み取り計数が、前記標的融合参照配列と整列した前記適格なコンセンサス配列に対応する前記ファミリーについての配列読み取りの前記数の合計である、請求項３に記載の方法。
前記配列アラインメントの第２の部分が、対照遺伝子参照配列へマッピングされた配列読み取りに対応しており、コンセンサス圧縮データが、前記対照遺伝子参照配列に対応するコンセンサス配列読み取りおよびコンセンサス配列アラインメントをさらに含む、請求項１に記載の方法。
ファミリー計数が最小分子カウントしきい値よりも大きく、読み取り計数が読み取り計数しきい値よりも大きい場合、前記対照遺伝子参照配列に対応するプロセス制御標的の存在を決定することをさらに含み、前記ファミリー計数が、前記対照遺伝子参照配列と整列した前記コンセンサス配列読み取りに対応するファミリーの数であり、前記読み取り計数が、前記対応するファミリーについての配列読み取りの数の合計である、請求項１１に記載の方法。
前記融合が、遺伝子間融合を含み、前記標的融合参照配列が、融合ブレークポイントでの２つの遺伝子の前記融合のための参照配列を含む、請求項１記載の方法。
前記融合が、遺伝子内融合を含み、前記標的融合参照配列が、同じ遺伝子内の融合ブレークポイントでの２つのエクソンの前記融合のための参照配列を含む、請求項１記載の方法。
前記コンセンサス配列アラインメントの第２の部分が、同じ遺伝子について１つ以上の野生型参照配列と整列したコンセンサス配列読み取りに対応する、請求項１４に記載の方法。
前記融合を検出することが、同じ遺伝子について、前記遺伝子内融合の読み取り計数の、前記野生型参照配列と整列した前記コンセンサス配列読み取りに対応する平均読み取り計数に対する比率を計算することをさらに含む、請求項１５に記載の方法。
前記融合を検出することが、同じ遺伝子について、前記遺伝子内融合の読み取り計数の、前記野生型参照配列と整列した前記コンセンサス配列読み取り、および前記標的融合参照配列と整列した前記コンセンサス配列読み取りに対応する読み取り計数の合計に対する比率を計算することをさらに含む、請求項１５に記載の方法。
前記コンセンサス配列読み取りの一部が、前記標的融合参照配列に部分的にマッピングし、融合を検出することが、部分的にマッピングされたコンセンサス配列読み取りに基づいて非標的融合を検出することをさらに含む、請求項１に記載の方法。
プロセッサによって実行されるとき、前記プロセッサに、融合検出のために分子タグ付き核酸配列データを圧縮するための方法を実行させる命令を含む、非一時的な機械可読記憶媒体であって、
前記方法は、
複数の核酸配列読み取りおよび複数の配列読み取りファミリーの複数の配列アラインメントを受け取ることであって、各配列読み取りが分子タグ配列と関係しており、前記分子タグ配列が、核酸試料中の特定のポリヌクレオチド分子から結果として生じる配列読み取りのファミリーを特定し、各ファミリーが番号配列読み取りを有し、前記配列アラインメントの一部が、標的融合参照配列へマッピングされた配列読み取りに対応する、前記受け取ることと、
配列読み取りの各ファミリーについての配列読み取りに対応するフロースペースシグナル測定値に基づいて、前記ファミリーのコンセンサス配列読み取りを決定することと、
配列読み取りの各ファミリーについてのコンセンサス配列アラインメントを決定することであって、前記コンセンサス配列アラインメントの一部が、前記標的融合参照配列と整列している前記コンセンサス配列読み取りに対応する、前記決定することと、
コンセンサス圧縮データを含む圧縮データ構造を生成することであって、前記コンセンサス圧縮データが、前記コンセンサス配列読み取りと各ファミリーについての前記コンセンサス配列アラインメントとを含む、前記生成することと、
前記コンセンサス配列読み取りと前記圧縮データ構造からの前記コンセンサス配列アラインメントとを使用して融合を検出することと、を含む、非一時的な機械可読記憶媒体。
融合検出のために分子タグ付き核酸配列データを圧縮するためのシステムであって、
機械可読メモリと、
前記メモリと通信するプロセッサであって、前記プロセッサが、当該プロセッサによって実行されるとき、前記システムに、方法を実行させる機械可読命令を実行するように構成されている、前記プロセッサと、を含み、
前記方法は、
複数の核酸配列読み取りおよび複数の配列読み取りファミリーの複数の配列アラインメントを受け取ることであって、各配列読み取りが分子タグ配列と関係しており、前記分子タグ配列が、核酸試料中の特定のポリヌクレオチド分子から結果として生じる配列読み取りのファミリーを特定し、各ファミリーが番号配列読み取りを有し、前記配列アラインメントの一部が、標的融合参照配列へマッピングされた配列読み取りに対応する、前記受け取ることと、
配列読み取りの各ファミリーについての配列読み取りに対応するフロースペースシグナル測定値に基づいて、前記ファミリーのコンセンサス配列読み取りを決定することと、
配列読み取りの各ファミリーについてのコンセンサス配列アラインメントを決定することであって、前記コンセンサス配列アラインメントの一部が、前記標的融合参照配列と整列している前記コンセンサス配列読み取りに対応する、前記決定することと、
コンセンサス圧縮データを含む圧縮データ構造を生成することであって、前記コンセンサス圧縮データが、前記コンセンサス配列読み取りと各ファミリーについての前記コンセンサス配列アラインメントとを含む、前記生成することと、
前記コンセンサス配列読み取りと前記圧縮データ構造からの前記コンセンサス配列アラインメントとを使用して融合を検出することと、を含む、システム。