JP2023503739A

JP2023503739A - 遺伝子融合の迅速な検出

Info

Publication number: JP2023503739A
Application number: JP2021557678A
Authority: JP
Inventors: ヴィラジ・デシュパンデ; ヨハン・フェリックス・ウィルヘルム・シュレジンジャー; ショーン・トゥルオン; ジョン・クーパー・ロディ; マイケル・ルーレ; セヴリーヌ・カトリュクス; ラミ・メヒオ
Original assignee: イルミナインコーポレイテッド
Priority date: 2019-12-05
Filing date: 2020-12-04
Publication date: 2023-02-01
Also published as: WO2021113779A1; CA3131487A1; IL286129A; EP4070320A1; AU2020398180A1; MX2021012019A; CN113574603A; BR112021018933A2; SG11202109079YA; US20210193254A1; KR20220107117A

Abstract

生体サンプル中の遺伝子融合を同定するためのコンピュータプログラムを含む方法、システム、及び装置が開示される。本方法は、複数の配列されたリードを表す第１のデータを取得する操作と、取得された第１のデータ内に含まれる複数の融合候補を同定する操作と、フィルタ処理された融合候補のセットの特定の融合候補ごとに、複数の融合候補をフィルタリングして、融合候補のフィルタ処理されたセットを決定する操作と、を含み得るが、１つ以上のコンピュータによって、特定の融合候補を表す抽出された特徴データを含む機械学習モデルに入力するための入力データを生成し、融合候補が有効な遺伝子融合である可能性を表す出力データを生成するように訓練された機械学習モデルへの入力として生成された入力データを提供し、特定の融合候補が出力データに基づいて有効な遺伝子融合に対応するかどうかを決定する。

Description

（関連出願の相互参照）
本出願は、米国特許仮出願第６２／９４４，３０４号（２０１９年１２月５日出願）の利益を主張し、その全体が参照として本明細書に組み込まれる。

遺伝子融合は、癌などの疾患の治療において重要な診断及び治療標的である発癌動因として使用することができる。

本開示の革新的な一態様によれば、生体サンプル中の１つ以上の遺伝子融合を同定するためのコンピュータ実装方法が開示される。一態様では、方法は、１つ以上のコンピュータによって、リード配列ユニットから複数の配列されたリードを表す第１のデータを取得する操作と、１つ以上のコンピュータによって、取得された第１のデータ内に含まれる複数の遺伝子融合候補を同定する操作と、１つ以上のコンピュータによって、複数の遺伝子融合候補をフィルタリングして、フィルタ処理された遺伝子融合候補のセットを決定する操作と、を含み得、フィルタ処理された遺伝子融合候補の特定の遺伝子融合候補のそれぞれについて、１つ以上のコンピュータによって、機械学習モデルへの入力のための入力データを生成することであって、入力データを生成することが、（ｉ）特定の遺伝子融合候補がリード配列ユニットによって配列された参照配列の１つ以上のセグメントと、（ｉｉ）リード配列ユニットの出力に基づいて生成されたデータと、を含むデータから、特徴データを抽出して特定の遺伝子融合候補を表すことを含む、入力データを生成することと、１つ以上のコンピュータによって、生成された入力データを機械学習モデルへの入力として提供することであって、機械学習モデルは、（ｉ）特定の遺伝子融合候補がリード配列ユニットによって配列された参照配列の１つ以上のセグメントと、（ｉｉ）リード配列ユニットの出力に基づいて生成されたデータと、を表す機械学習モデル処理入力データに基づいて、遺伝子融合候補が有効な遺伝子融合である可能性を表す出力データを生成するように訓練されている、生成された入力データを機械学習モデルへの入力として提供することと、１つ以上のコンピュータによって、生成された入力データを処理する機械学習モデルに基づいて、機械学習モデルによって生成された出力データを取得することと、１つ以上のコンピュータによって、特定の遺伝子融合候補が、出力データに基づいて、有効な遺伝子融合候補に対応するかどうかを決定することと、を含み得る。

その他のバージョンは、コンピュータ可読記憶デバイス上に符号化された命令によって定義される方法のアクションを実行するための、対応するシステム、装置、及びコンピュータプログラムを含む。

これら及びその他のバージョンは、任意で、以下の特徴のうちの１つ以上を含んでもよい。例えば、いくつかの実装形態では、入力データを生成することは、特定の遺伝子融合候補がリード配列ユニットによって配列された参照配列のセグメントのアノテーションを記述するアノテーションデータを含む特徴データを抽出することを更に含む。このような実装形態では、機械学習モデルは、（ｉ）特定の遺伝子融合候補がリード配列ユニットによって配列された参照配列の１つ以上のセグメントと、（ｉｉ）特定の遺伝子融合候補がリード配列ユニットによって配列された参照配列のセグメントのアノテーションを記述するアノテーションデータと、（ｉｉｉ）リード配列ユニットの出力に基づいて生成されたデータと、表す、機械学習モデル処理入力データに基づいて、遺伝子融合候補が有効な遺伝子融合候補である可能性を表す出力データを生成するよう訓練されている。

いくつかの実装形態では、１つ以上のコンピュータによって、取得された第１のデータ内に含まれる複数の遺伝子融合候補を同定することは、１つ以上のコンピュータによって、複数の分割リード配列を同定することを含み得る。

いくつかの実装形態では、１つ以上のコンピュータによって、取得された第１のデータ内に含まれる複数の遺伝子融合候補を同定することは、１つ以上のコンピュータによって、複数の不一致リードペア配列を同定することを含む。

いくつかの実装形態では、リード配列ユニットは、操作を実行するように物理的に配置されたハードウェア論理回路を使用して構成されている１つ以上の処理エンジンセットを使用して実装され、ハードウェア論理回路を使用して、（ｉ）第１のリードを表すデータを受信し、（ｉｉ）第１のリードを表すデータを、参照配列の１つ以上の部分にマップして、整合参照配列の１つ以上の位置を同定し、（ｉｉｉ）第１のリードの整合参照配列位置のそれぞれに対応する１つ以上の配列スコアを生成し、（ｉｖ）１つ以上の配列スコアに基づいて、第１のリードのための１つ以上の候補配列を選択し、（ｖ）第１のリードの候補配列を表すデータを出力する。

いくつかの実装形態では、リード配列ユニットは、１つ以上の中央演算処理装置（ＣＰＵ）又は１つ以上のグラフィックス演算処理装置（ＧＰＵ）を使用することによって１つ以上の処理エンジンのセットを使用して実装され、１つ以上のＣＰＵ又は１つ以上のＧＰＵＳに、（ｉ）第１のリードを表すデータを受信させ、（ｉｉ）第１のリードを表すデータを、参照配列の１つ以上の部分にマップして、第１のリードの整合参照配列の１つ以上の位置を同定させ、（ｉｉｉ）第１のリードの整合参照配列位置のそれぞれに対応する１つ以上の配列スコアを生成させ、（ｉｖ）１つ以上の配列スコアに基づいて、第１のリードのための１つ以上の候補配列を選択させ、（ｖ）第１のリードの候補配列を表すデータを出力させる、ソフトウェア命令を実行する。

いくつかの実装形態では、方法は、リード配列ユニットによって、まだ配列されていない複数のリードを受信することと、リード配列ユニットによって、複数のリードの第１のサブセットを配列させることと、リード配列ユニットによって、配列されたリードの第１のサブセットをメモリデバイス内に記憶することと、を更に含み得る。このような実装形態では、１つ以上のコンピュータによって、リード配列ユニットから複数の配列されたリードを表す第１のデータを取得することは、１つ以上のコンピュータによって、メモリデバイスから配列されたリードの第１のサブセットを取得することと、リード配列ユニットが、まだ配列されていない複数のリードの第２のサブセットを配列させている間に、請求項１に記載の１つ以上の操作を実行することと、を含み得る。

いくつかの実装形態では、リード配列ユニットの出力に基づいて生成されたデータは、変異体対立遺伝子頻度のカウント、特異リード配列のカウント、転写物にわたるリード確率、ＭＡＰＱスコア、又は親遺伝子間の相同性を示すデータのうちの任意の１つ以上を含み得る。

いくつかの実装形態では、特定の融合候補が、出力データに基づいて有効な遺伝子融合候補に対応するかどうかを決定することは、１つ以上のコンピュータによって、出力データが所定の閾値を満たすかどうかを決定することと、出力データが所定の閾値を満たすと決定することに基づいて、特定の融合候補が有効な遺伝子融合候補に対応すると決定することと、を含み得る。

いくつかの実装形態では、特定の融合候補が、出力データに基づいて有効な遺伝子融合候補に対応するかどうかを決定することは、１つ以上のコンピュータによって、出力データが所定の閾値を満たすかどうかを決定することと、出力データが所定の閾値を満たさないと決定することに基づいて、特定の融合候補が有効な遺伝子融合候補に対応しないと決定することと、を含み得る。

本開示のこれら及びその他の革新的な態様は、発明を実施するための形態、添付図面、及び特許請求の範囲を考慮することで容易に明らかである。

有効な遺伝子融合を迅速に検出するためのシステムの一例のブロック図である。

有効な遺伝子融合の迅速な検出を行うためのプロセスの一例のフローチャートである。

有効な遺伝子融合を迅速に検出するためのシステムの別の例のブロック図である。

有効な遺伝子融合の迅速な検出のためのシステムを実装するために使用され得るシステム構成要素のブロック図である。

本開示は、遺伝子融合を迅速に検出するためのシステム、方法、装置、コンピュータプログラム、又はこれらの任意の組み合わせに関する。特定の遺伝子融合の存在は、特定の疾患の重要な指標、特定の疾患の特定の治療法の使用を示唆する指標、又はこれらの組み合わせであり得る。例えば、特定の遺伝子融合は、特定の種類の癌、例えば、急性骨髄性白血病及び慢性骨髄性白血病、脊髄形成異常性症候群（ＭＤＳ）、軟組織肉腫、又はその治療の指標であり得る。本開示は、各融合候補が有効な遺伝子融合であるかどうかを決定するために処理された遺伝子融合候補（本明細書では「融合候補」とも呼ばれる）の数を低減するために、フィルタリングエンジンを使用することによって、正確な遺伝子融合を迅速に検出することができる。このフィルタリングエンジンは、候補遺伝子融合のフィルタ処理されたサブセットのみを、本明細書に記載された更なる下流処理のために促進することができるため、後続分析のために融合候補をより正確に選択することを可能にする一方で、有効な遺伝子融合を同定するために費やされる必要性がある演算リソースの低減を達成することもできる。

候補遺伝子融合セットの低減もまた、他の技術的利点を提供する。例えば、本明細書にて開示する方法及びシステムは、全ての遺伝子融合候補を処理及び採点する従来の方法と比較して、低減された実行時間を提供する。その操作を実行するための低減された実行時間はまた、処理リソース（例えば、ＣＰＵ又はＧＰＵリソース）の消費量、メモリ使用量、及び電力消費の低減をもたらす。フィルタリングエンジンは、従来の方法と比較して低減された実行時間を提供するが、本明細書にて開示する方法及びシステムはまた、実行時間を低減するための他の方法も提供し得る。例えば、いくつかの実装形態では、実行時間における更なる低減は、候補遺伝子融合を処理するために使用されるメタデータのマッピング、配列、及び生成を実行するために、ハードウェア・アクセラレートリード配列ユニット（hardware-accelerated read alignment unit）を使用することによって達成され得る。

図１は、有効な遺伝子融合を迅速に検出するためのシステム１００の一例のブロック図である。システム１００は、核酸配列決定デバイス１１０と、メモリ１２０と、二次解析ユニット１３０と、融合候補同定モジュール１４０と、融合候補フィルタリングモジュール１５０と、特徴セット生成モジュール１６０と、機械学習モデル１７０と、遺伝子融合決定モジュール１８０と、出力アプリケーションプログラムインターフェース（ＡＰＩ）モジュール１９０と、出力ディスプレイ１９５と、を含み得る。図１の実施例では、これらの構成要素のそれぞれは、核酸配列決定デバイス１１０内に実装されるものとして記載される。しかしながら、本開示は、このような実施形態に限定されない。

その代わりに、いくつかの実装形態では、図１に記載された構成要素のうちの１つ以上は、核酸配列決定デバイス１１０の外側のコンピュータ上で実行され得る。例えば、いくつかの実装形態では、二次解析モジュールは、核酸配列決定デバイス１１０内に実装されてもよく、融合候補同定モジュール１４０、融合候補フィルタリングモジュール１５０、特徴セット生成モジュール１６０、機械学習モデル１７０、遺伝子融合決定モジュール１８０、出力アプリケーションプログラムインターフェース（ＡＰＩ）モジュール１９０は、１つ以上の異なるコンピュータ内に実装され得る。このような実装形態では、１つ以上の異なるコンピュータ及び核酸配列決定デバイスは、１つ以上の有線ネットワーク、１つ以上の無線ネットワーク、又はこれらの組み合わせを使用して通信可能に連結され得る。

本明細書の目的のために、用語「モジュール」は、１つ以上のソフトウェア構成要素、１つ以上のハードウェア構成要素、又はこれらの任意の組み合わせを含み、これらは、本明細書によるそれぞれのモジュールに起因する機能性を実現するために使用され得る。一般に、本明細書に記載された「モジュール」は、本明細書に記載されたモジュールの機能性を実現するために、ソフトウェア命令を実行するための１つ以上のプロセッサを使用する。プロセッサは、中央演算処理装置（ＣＰＵ）、グラフィック演算処理装置（ＧＰＵ）等を含み得る。

同様に、本明細書で使用される用語「ユニット」は、１つ以上のソフトウェア構成要素、１つ以上のハードウェア構成要素、又はこれらの任意の組み合わせを含み、これらは、本明細書によるそれぞれのユニットに起因する機能性を実現するために使用され得る。一般に、本明細書に記載される「ユニット」は、本明細書に記載されたユニットの機能を実現する操作を実行するように処理エンジンとして配置された、ハードワイヤードデジタル論理ゲート又はハードワイヤードデジタル論理ブロックなどの１つ以上のハードウェア構成要素を使用する。このようなハードワイヤードデジタル論理ゲート又はハードワイヤードデジタル論理回路は、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）などを含み得る。

核酸配列決定デバイス１１０（本明細書では配列決定デバイス１１０とも呼ばれる）は、一次核酸配列解析を行うように構成されている。一次解析を実施することは、配列決定デバイス１１０によって、血液サンプル、組織サンプル、痰、又は核酸サンプルなどの生体サンプル１０５を受領することと、配列決定デバイス１１０によって、受領した生体サンプルの核酸配列のヌクレオチドの順序をそれぞれ表す１つ以上のリード１１２などの出力データを生成することと、を含み得る。いくつかの実装形態では、核酸シーケンサ１１０による配列決定は、複数のリードサイクルで実行され得、第１のリードサイクル「リード１」は、核酸配列フラグメントの第１の端部からのヌクレオチドの順序を表す１つ以上の第１のリードを生成し、第２のリードサイクル「リード２」は１つ以上の第２のリードを生成し、それぞれ、核酸配列フラグメントのうちの１つのその他の端部からのヌクレオチドの順序を表す。いくつかの実装形態では、リードは、長さが約８０～１２０のヌクレオチドの短いリードであり得る。しかしながら、本開示は、任意の特定のヌクレオチド長のリードに限定されない。その代わりに、本開示は、任意のヌクレオチド長のリードに使用され得る。

いくつかの実装形態では、生体サンプル１０５は、ＤＮＡサンプルを含み得、核酸シーケンサ１１０は、ＤＮＡシーケンサを含み得る。このような実装形態では、核酸シーケンサによって生成される、リード中の配列決定されたヌクレオチドの順序は、グアニン（Ｇ）、シトシン（Ｃ）、アデニン（Ａ）、及びチミン（Ｔ）のうちの１つ以上を任意の組み合わせで含み得る。いくつかの実装形態では、核酸シーケンサ１１０を使用することで、生体サンプル１０５のＲＮＡリードを生成し得る。このような実装形態では、このことは、ＲＮＡ－ｓｅｑプロトコルを使用して行うことができる。例として、逆転写酵素を使用して相補的ＤＮＡ（ｃＤＮＡ）を形成するために、逆転写を使用して、生体サンプル１０５を前処理し得る。その他の実装形態では、核酸シーケンサ１１０は、ＲＮＡシーケンサを含み得、生体サンプルは、ＲＮＡサンプルを含み得る。ｃＤＮＡを使用して、又はＲＮＡシーケンサを介して生成されたＲＮＡリードは、Ｃ、Ｇ、Ａ、及びＵｒａｃｉｌ（Ｕ）から構成され得る。本明細書に記載された図１の実施例は、ＲＮＡリードの生成及び解析に関して説明される。しかしながら、本開示は、ＤＮＡ又はＲＮＡリードを含む任意の種類の核酸配列リードを生成及び解析するために使用され得る。

配列決定デバイス１１０は、所与のサンプルに関して、大規模並列配列決定技術（massively parallel sequencing technology）の使用による超高スループット、超高スケーラビリティ、及び超高速度を達成する方法で、リード１１２－１、１１２－２、１１２－ｎ（「ｎ」は、０を超える任意の正の整数である）などの配列リードを生成するように構成されている、次世代シーケンサ（ＮＧＳ）を含み得る。ＮＧＳは、ゲノム全体の迅速な配列決定と、深く配列決定された標的領域にズームするか、ＲＮＡ配列決定（ＲＮＡ－Ｓｅｑ）を利用して、新規ＲＮＡ変異体及びスプライス部位を発見するか、又は遺伝子発現解析、ゲノムワイドＤＮＡメチル化及びＤＮＡ－タンパク質相互作用などのエピジェネティック因子の解析、希少体細胞変異体及び腫瘍サブクローンを研究するための癌サンプルの配列決定、例えばヒト又は環境における微生物多様性の研究のためのｍＲＮＡを定量化する能力と、を可能にする。

配列決定デバイス１１０は、生体サンプル１０５を配列し、Ａ、Ｃ、Ｔ、及びＧを使用して表されるリードの対応するセットを生成し得る。配列決定デバイスは、次に、逆転写を実行して、対応するＲＮＡ配列を表すｃＤＮＡ配列を生成し得る。これらのＲＮＡ配列リード１１２－１、１１２－２、１１２－ｎは、配列決定デバイス１１０によって出力され、メモリデバイス１２０内に記憶される。いくつかの実装形態では、ＲＮＡ配列リード１１２－１、１１２－２、１１２－ｎは、メモリデバイス１２０内のリード１１２－１、１１２－２、１１２－ｎの記憶に先立って、より小さいサイズのデータレコード内へと圧縮されてもよい。メモリデバイス１２０は、二次解析ユニット１３０、融合候補同定モジュール１４０、融合候補フィルタリングモジュール１５０、特徴セット生成モジュール１６０、機械学習モデル１７０、遺伝子融合決定モジュール１８０、及び出力ＡＰＩモジュール１９０を含む、図１の構成要素のそれぞれによって、アクセス可能であり得る。それぞれのモジュールは、第１のモジュールの出力を第２のモジュールに提供するものとして示されてもよいが、このような機能の実際的な実装は、メモリ１２０などのメモリデバイス内に出力を記憶する第１のモジュールと、メモリデバイスから記憶された出力にアクセスして、アクセスした出力を第２のモジュールへの入力として処理する第２のモジュールと、を含んでもよい。

二次解析ユニット１３０は、メモリデバイス１２０内に記憶されたリード１１２－１、１１２－２、１１２－ｎにアクセスし、リード１１２－１、１１２－２、１１２－ｎに対して１つ以上の二次解析操作を実行し得る。いくつかの実装形態では、リード１１２－１、１１２－２、１１２－ｎは、圧縮データレコードでメモリデバイス１２０内に記憶されてもよい。このような実装形態では、二次解析ユニットは、リード記録に対して二次解析操作を実行するのに先立って、圧縮されたリード記録に対して展開操作を実行し得る。二次解析操作は、１つ以上のリードを参照ゲノムにマッピングすることと、１つ以上のリードを参照ゲノムに配列させること、又はその両方を含み得る。いくつかの実装形態では、二次解析操作はまた、変異体コーリング操作を含み得る。二次解析操作の実行に加えて、二次解析ユニット１３０はまた、分類操作を実行するように構成され得る。分類操作としては、例えば、配列されたリードがマップされた参照ゲノム内の位置に基づいて、二次解析ユニットによって配列されたリードを順序付けることを含み得る。

図１の実施例などのいくつかの実装形態では、二次解析ユニット１３０は、メモリ１３２及びプログラマブル論理デバイス１３４を含み得る。プログラマブル論理デバイス１３４は、リード配列ユニット１３６などの１つ以上の二次解析操作ユニットを含むように動的に構成され得るハードウェア論理回路を有することができ、ハードウェア論理回路を使用して１つ以上の二次解析操作を実行するために使用され得る。プログラマブル論理デバイス１３４を、リード配列ユニット１３６などの二次解析操作ユニットを含むように動的に構成することは、例えば、リード配列ユニット１３６のハードウェア論理において、プログラマブル論理デバイス１３４に、機能を実現するように構成されているハードワイヤードデジタル論理構成内へとプログラマブル論理デバイス１３４のハードウェア論理ゲートを配列させる１つ以上の命令を、プログラマブル論理デバイス１３４に提供することを含み得る。

プログラマブル論理デバイス１３４の動的構成を誘発する１つ以上の操作は、コンパイルされたハードウェア記述言語コードと、コンパイルされたハードウェア記述言語コードに基づいてそれ自体を構成するための、プログラマブル論理デバイス１３４のための１つ以上の命令等と、を含み得る。プログラマブル論理デバイス１３４の動的構成を誘発するこのような操作は、配列決定デバイス１１０、又は制御プログラムをホスティングするその他のコンピュータによって実行される制御プログラムによって、プログラマブル論理デバイス１３４に生成され得、かつプログラマブル論理デバイス１３４に展開され得る。いくつかの実装形態では、制御プログラムは、命令がメモリ１２０などのメモリデバイス内に存在するソフトウェアモジュールとすることができる。プログラマブル論理デバイス１３４を構成するための命令ハードウェア記述言語コード又はその他の命令を生成及び展開するための制御プログラムの機能性は、１つ以上のＣＰＵ又は１つ以上のＧＰＵなどの１つ以上のプロセッサを使用して、制御プログラムソフトウェアモジュールを実行することによって実現し得る。

リード配列ユニット１３６の機能性は、配列決定デバイス１１０によってメモリ１２０内に記憶されたＲＮＡリード１１２－１、１１２－２、１１２－ｎなどの１つ以上の第１のリードを取得することと、取得した第１のリード１１２－１、１１２－２、１１２－ｎを参照配列の１つ以上の参照配列位置にマッピングすることと、次に、マップされた第１のリード１１２－１、１１２－２、１１２－ｎを参照配列に配列させることと、を含み得る。すなわち、マッピング段階は、特定のリードに一致する取得された第１のリードのそれぞれの特定のリードの候補参照配列位置のセットを同定し得る。次に、配列段階は、候補参照配列位置のそれぞれを採点し、特定のリードのための正確な配列として最も高い配列スコアを有する特定の参照配列位置を選択し得る。参照配列は、周知のゲノムに対応する編成された一連のヌクレオチドを含み得る。

制御プログラムからの１つ以上の命令に応答してプログラマブル論理デバイス１３４のハードウェア論理ゲートを配置することは、ＡＮＤゲート、ＯＲゲート、ＮＯＲゲート、ＸＯＲゲート、又はこれらの任意の組み合わせなどの論理ゲートを構成することで、リード配列ユニット１３６のデジタル論理機能を実行することを含み得る。あるいは又は加えて、ハードウェア論理ゲートを配列することは、加算、乗算、比較等を含む複雑な演算操作を実行するようにカスタマイズ可能なハードウェア論理ユニットを含む、動的に構成された論理ブロックを含み得る。ハードウェア論理ゲート、論理ブロック、又はこれらの組み合わせの正確な配列は、制御プログラムから受信した命令によって定義される。受信した命令は、エンティティによって書かれ、プログラマブル論理デバイス１３４へとプログラムされる二次解析操作ユニットの概略レイアウトを定義する、コンパイルされたハードウェア記述言語（ＨＤＬ）プログラムコードを含み得るか、又はそれから導出される。ＨＤＬプログラムコードは、超高速集積回路ハードウェア記述言語（ＶＨＤＬ）、Ｖｅｒｉｌｏｇ等の言語で書かれたプログラムコードを含み得る。このエンティティは、ＨＤＬプログラムコードを下書きする１人以上のヒトユーザー、ＨＤＬプログラムコードを生成する１つ以上の人工知能エージェント、又はこれらの組み合わせを含み得る。

プログラマブル論理デバイス１３４は、任意の種類のプログラマブル論理デバイスを含み得る。例えば、プログラマブル論理デバイス１３４は、制御プログラムによって特定のワークフローを実行するために、必要に応じて動的に構成可能であり、再構成可能である、１つ以上のフィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、１以上の複合プログラマブル論理デバイス（ＣＰＬＤ）、１つ以上のプログラマブル論理アレイ（ＰＬＡ）、又はこれらの組み合わせを含み得る。例えば、いくつかの実装形態では、上述のように、プログラマブル論理デバイス１３４をリード配列ユニット１３６として使用することが望ましい場合がある。しかしながら、その他の実装形態では、プログラマブル論理デバイス１３４を使用して、変異体コーリング機能、又は隠れマルコフ・モデル（ＨＭＭ）ユニットなどの変異体コーリングの支持における機能を実行することが望ましい場合がある。更にその他の実装形態では、プログラマブル論理デバイス１３４はまた、プログラマブル論理デバイス１３４のハードウェアロジックが、これらのタスクを実行することが可能であり、上記で同定されたその他のタスクが、１つ以上の演算処理ユニット１５０によって実行されるソフトウェア命令を使用した同じタスクの実行よりもはるかに速い故に、圧縮及び展開などの一般的な演算タスクを支持するように動的に構成され得る。いくつかの実装形態では、プログラマブル論理デバイス１３４は、異なる操作を実行するために、実行時間中に動的に再構成することができる。

例として、いくつかの実装形態では、プログラマブル論理デバイス１３４は、メモリデバイス１２０又は１３２内に記憶された第１のリード１１２－１、１１２－２、１１２－ｎの圧縮バージョンを表すデータにアクセスするために、展開ユニットとして動的に構成されるＦＰＧＡを使用して実装され得る。二次解析ユニット１３０は、（例えば、核酸シーケンサから受信したリードが圧縮された場合）展開ユニットを使用して、第１のリード１１２－１、１１２－２、１２２－ｎを表す圧縮データを展開し得る。展開ユニットは、メモリ１２０又は１３２内に展開されたリードを記憶し得る。このような実装形態では、ＦＰＧＡは、次に、リード配列ユニット１３６として動的に再構成され、今度はメモリ１３２又は１２０内に記憶されている圧縮された第１のリード１１２－１、１１２－２、１１２－ｎのマッピング及び配列を実行するために使用され得る。リード配列ユニット１３６は、次に、メモリ１３２又は１２０内の、マップされ配列されたリードを表すデータを記憶し得る。一連の操作は、展開操作及びマッピング操作及び配列操作を含むものとして記載されているが、本開示は、これらの操作を実行することに限定されるものではなく、又はこれらの操作のみを実行することに限定されるものではない。代わりに、プログラマブル論理デバイス１３４は、本明細書に記載された機能性を実現するために、必要に応じて、任意の順序で任意の操作ユニットの機能性を実行するように動的に構成され得る。

図１の実施例は、リード配列ユニット１３６を実装するためにプログラマブル論理デバイス１３４の形態のハードウェア論理デバイスを使用する二次解析ユニット１３０を説明する。しかしながら、本開示は、リード配列ユニット１３６を実装するためにプログラマブル論理デバイスを使用することに限定されない。代わりに、他の種類の集積回路を使用して、二次解析ユニット１３０のハードワイヤードデジタル論理内にリード配列ユニット１３６を実装し得る。例えば、いくつかの実装形態では、二次解析ユニット１４３は、１つ以上の特定用途向け集積回路（ＡＳＩＣ）を使用して、１つ以上の二次解析操作ユニットの機能性を実現するように構成され得る。再プログラム可能ではないが、１つ以上のＡＳＩＣは、二次解析操作の実行を加速及び並行化するために、リード配列ユニット１３６、変異体コーリングユニット、変異体コーリング演算支持ユニット等などの１つ以上の二次解析操作ユニットのカスタムハードウェア論理を用いて設計され得る。いくつかの実装形態では、１つ以上の二次解析操作ユニットの機能性を実現する、二次解析ユニット１３０のハードワイヤード論理回路としての、１つ以上のＡＳＩＣの使用は、ＦＰＧＡなどのプログラマブル論理デバイスを使用するよりも更に高速であり得る。したがって、当業者であれば、本明細書に記載された実施形態のいずれかにおけるＦＰＧＡなどのプログラマブル論理デバイスの代わりに、ＡＳＩＣを使用し得ることを理解するであろう。ＡＳＩＣが採用される実装形態では、ＡＳＩＣによって実行される二次解析操作ユニットごとに、専用のＡＳＩＣ又は単一のＡＳＩＣの専用論理グループを用いる必要がある。例として、リード配列のための１つ以上のＡＳＩＣ、展開のための１つ以上のＡＳＩＣ、圧縮のための１つ以上のＡＳＩＣ、又はこれらの組み合わせがある。あるいは、同じ機能性はまた、同じＡＳＩＣ内の専用論理グループで達成され得る。

加えて、図１及び図３のシステム１００及び３００に関して説明される本開示の実施例は、それぞれ、プログラマブル論理デバイスにおけるリード配列ユニット１３６のハードウェア実装の使用に関して記載される。加えて、１つ以上のＡＳＩＣを使用して、リード配列エンジン又はその他の二次解析操作ユニットを実装し得ることが、上記に示されている。しかしながら、本開示は、このような二次解析操作を実施するためのハードウェアユニットの使用に限定されない。代わりに、いくつかの実装形態では、リード配列、圧縮、又は展開などのプログラマブル論理デバイスによって実行されるような本明細書に記載された操作のいずれかもまた、１つ以上のソフトウェアモジュールを使用して実施され得る。

図１の実施例を参照すると、システム１００の実行は、配列決定デバイス１１０が生体サンプル１０５を配列決定することで開始され得る。生体サンプルを配列決定することは、配列決定デバイス１１０によって、生体サンプル１０５中に存在するヌクレオチドの順序付けられた配列のデータ表現であるリード配列を生成することを含み得る。システム１００がＤＮＡリードを処理するように構成されている場合、次に、配列決定デバイス１１０によって生成されたリードは、メモリ１２０内に記憶され得る。

あるいは、いくつかの実装形態では、システム１００がＲＮＡリードを処理するように構成されている場合、配列決定デバイス１１０は、逆転写酵素を使用して相補的ＤＮＡ（ｃＤＮＡ）を形成する逆転写を使用して、生体サンプル１１０の前処理を実行するように構成され得る。図１の実施例での実装形態などの、このような実装形態では、配列決定デバイス１１０によって生成されたリードは、ＲＮＡリード１１２－１、１１２－２、１１２－ｎを含む。その他の実装形態では、核酸シーケンサ１１０はＲＮＡシーケンサを含み得、生体サンプルはＲＮＡサンプルを含み得る。ＲＮＡリードが、ｃＤＮＡを使用するＤＮＡ配列決定デバイスによって、又はＲＮＡシーケンサを介して生成されるかどうかにかかわらず、ＲＮＡリードはそれぞれ、Ｃ、Ｇ、Ａ、及びＵからなるヌクレオチドの配列を含む。リード１１２－１、１１２－２、１１２－ｎは、圧縮形式又は非圧縮形式でメモリ１２０内に記憶され得る。

システム１００の実行は、二次解析ユニット１３０がメモリ１２０内に記憶されたリード１１２－１、１１２－２、１１２－ｎを取得することで続行し得る。いくつかの実装形態では、二次解析ユニット１３０は、メモリデバイス１２０内のリード１１２－１、１１２－２、１１２－ｎにアクセスし、アクセスされたリード１１２－１、１１２－２、１２２－ｎを二次解析ユニット１３０のメモリ１３２内へと記憶し得る。その他の実装形態では、リード１１２－１、１１２－２、１１２－ｎの配列決定が完了し、二次解析ユニット１３０が二次解析操作を実行するために利用可能である制御プログラムによる決定の際に、制御プログラムは、リード１１２－１、１１２－２、１１２－ｎを二次解析ユニット１３０のメモリ１３２内へとロードし得る。

リード１１２－１、１１２－２、１１２－ｎが圧縮された場合、二次解析ユニット１３０は、メモリ１３２又は１２０内のリード１１２－１、１１２－２、１１２－ｎにアクセスして、リード１１２－１、１１２－２、１１２－ｎを展開し、次に、展開されたリード１１２－１、１１２－２、１１２－ｎをメモリ１３２０又は１２０内に記憶するために、展開ユニットとしてプログラマブル論理デバイス１３４を動的に構成し得る。いくつかの実装形態では、二次解析ユニットは、プログラマブル論理デバイスを動的に再構成し、制御プログラムからの命令に応答して展開を実行し得る。

リード１１２－１、１１２－２、１２２－ｎが圧縮されない場合、二次解析ユニット１３０は、メモリ１３２又は１２０からのリードにアクセスし、リード配列操作を実行することができる。いくつかの実装形態では、二次解析ユニット１３０は、リード配列ユニット１３６を含むようにプログラマブル論理デバイス１３４を構成又は再構成するように二次解析ユニット１３０に命令する制御プログラムから、命令を受信し、次に、リード配列ユニット１３６を使用してリード１１２－１、１１２－２、１１２－ｎの配列を実行してもよい。あるいは、その他の実装形態では、プログラマブル論理デバイスは、リード配列ユニット１３６を含むように既に構成されていて、リード配列ユニット１３６を使用してリード１１２－１、１１２－２、１１２－ｎの配列を実行してもよい。更にその他の実装形態では、二次解析ユニット１３０は、リード配列を実行し、次に、ＡＳＩＣを使用してリード１１２－１、１１２－２、１１２－ｎの配列を実行するように構成されたＡＳＩＣを含んでもよい。

二次解析ユニット１３０は、遺伝子融合解析と並行して、リード配列操作を実行するように構成され得る。例えば、二次解析ユニット１４０は、配列していない配列決定デバイス１１０によって生成されたリードの第１のバッチを取得し、リード配列ユニット１３６を使用してリードの第１のバッチを配列させることができ、プログラムされた論理デバイス１３６のハードウェア構成、又はプログラム命令を実行することによってソフトウェア内に実装され得るソーティングエンジンを使用して、配列されたリードを分類し、次に、メモリデバイス１３２、１３０内での記憶のために、配列され、分類されたリードの第１のバッチを出力する。いくつかの実装形態では、メモリ１３２は、リード配列ユニットによって処理されるデータをロードし、次に、リード配列ユニット１３６によって出力されたデータをオフロードする二次解析ユニット１３２のローカルキャッシュとして機能し得る。したがって、配列されたリードの第１のバッチがリード配列ユニット１３６によってメモリ１３２に出力されると、配列されたリードの第１のバッチを分類し、次に、メモリ１２０に出力することができる。次に、融合候補同定モジュール１４０は、メモリ１２０から配列され分類されたリードの第１のバッチにアクセスし、配列され分類されたリードの第１のバッチを処理し得るが、一方で、二次解析ユニット１３０は、配列決定デバイス１１０によって生成され、従前に配列されていないリードの第２のバッチでの配列操作を実行する。本プロセスは、リードの各バッチがシステム１００を通して処理されるまで反復的に実行され得る。本実施例は、配列され分類されたバッチを有するものとして記載されているが、配列されたリードのバッチも分類されることは、本開示の要件にはない。代わりに、後述のように、低減された実行時間などの性能向上を得るために、システム１００又はシステム３００において、配列及び分類されたリードの使用を用いることができる。

融合候補同定モジュール１４０は、リード配列ユニット１３６によって配列された、配列され分類されたリードのバッチを取得して、配列され分類されたリードのバッチが１つ以上の遺伝子融合候補を含むかどうかを決定し得る。いくつかの実装形態では、受信されたバッチが配列され分類されたリードを含む場合、次に、融合候補同定モジュール１４０は、バッチに対応するゲノム間隔が少なくとも１つの融合候補の切断点と重複するバッチの分類されたリードを評価し得る。これにより、下流解析を必要とする融合候補の数を低減し得る。その他の実装形態では、受信されたバッチが分類されていない配列されたリードを含む場合、次に、融合候補同定モジュール１４０は、配列されたリードが融合候補であるかどうかを決定するために、バッチ内の配列されたリードのそれぞれを評価し得る。いくつかの実装形態では、リードのバッチが１つ以上の融合候補を含むかどうかを融合候補同定モジュール１４０によって決定する操作は、融合候補同定モジュール１４０によって、リードのバッチが、１つ以上の分割リード配列、１つ以上の不一致リードペア、１つ以上のソフトクリップ配列、又はこれらの組み合わせを含むかどうかを決定することを含む。

いくつかの実装形態では、融合候補同定モジュール１４０は、融合候補として分割リード配列を同定するように構成され得る。融合候補同定モジュール１４０は、配列されたリードのバッチ内で各特定のリードが配列された参照配列の遺伝子を解析することによって、分割リード配列を同定し得る。融合候補同定モジュール１４０が、単一の遺伝子へのリードマップを決定する場合、融合候補同定モジュール１４０は、リードが分割リードではないと決定し得る。あるいは、融合候補同定モジュール１４０が、リードが２つの異なる遺伝子に配列していると決定した場合、次に、リードは分割リードであると決定され得る。このような実装形態では、分割リードは、融合候補であると決定され得る。例えば、リードのヌクレオチドの第１のサブセットが参照ゲノムの第１の親遺伝子に配列され、リードのヌクレオチドの第２のサブセットが参照ゲノムの第２の親遺伝子に配列される場合、リードは、２つの異なるリードに配列すると決定され得る。いくつかの実装形態では、ヌクレオチドの第１のサブセットはリードの接頭部であってもよく、ヌクレオチドの第２のサブセットはリードの接尾部であってもよい。融合候補同定モジュール１４０が分割リードを同定するように構成されている場合、分割リードを同定するデータは、もしあれば、メモリデバイス１２０内に記憶され得る。

いくつかの実装形態では、融合候補同定モジュール１４０は、融合候補として不一致リードペアを同定するように構成され得る。融合候補同定モジュール１４０は、配列されたリードのバッチ内で各特定のリードペアが配列された参照配列の遺伝子を解析することによって、不一致リードペアを同定し得る。リードペアが参照配列に配列され、配列の配向及び範囲が予想される配向及び範囲である場合、次に、リードペアは、不一致リードではないと決定される。あるいは、リードペアが参照配列に配列され、配列の向き又は範囲が予想外である場合、次に、リードペアは、不一致リードペアであると決定される。このような実装形態では、１つのペアにおける１つのリードが１つの親遺伝子をマップし、他が別の親遺伝子をマップする場合、不一致リードは、融合候補であると決定され得る。融合候補同定モジュール１４０が不一致リードを同定するように構成されている場合、不一致リードを同定するデータは、もしあれば、メモリデバイス１２０内に記憶され得る。

いくつかの実装形態では、融合候補同定モジュール１４０は、ソフトクリップ配列を同定するように構成され得る。融合候補同定モジュール１４０は、配列されたリードのバッチ内で各特定の配列されたリードが配列された参照配列の遺伝子を解析することによって、ソフトクリップ配列を同定し得る。いくつかの実装形態では、融合候補同定モジュール１４０は、リードが参照ゲノム内の単一の位置にその全体が配列されているかどうかを決定し得る。リードが参照ゲノム内の単一の位置にその全体が配列されたと融合候補同定モジュール１４０が決定した場合、次に、融合候補同定モジュール１４０は、リードがソフトクリップリードではないと決定し得る。あるいは、融合候補同定モジュール１４０が、リードの一部分のみが参照ゲノムに配列されていると決定した場合、次に、融合候補同定モジュール１４０は、リードがソフトクリップリードであると決定し得る。リードマップの配列された部分が１つの親遺伝子に配列され、非配列部分が別の親遺伝子と類似の配列を有すると決定された場合、次に、ソフトクリップリードは、融合候補であると決定される。融合候補同定モジュール１４０がソフトクリップリードを同定するように構成されている場合、ソフトクリップリードを同定するデータは、もしあれば、メモリデバイス１２０内に遺伝子融合候補として記憶され得る。

融合候補フィルタリングモジュール１５０は、融合候補同定モジュール１４０によって同定された融合候補のセットを記述するデータを取得し得る。いくつかの実装形態では、融合候補フィルタリングモジュールは、メモリデバイス１２０にアクセスし、メモリデバイス１２０．から融合候補を記述するデータを取得し得る。その他の実装形態では、融合候補フィルタリングモジュールは、融合候補同定モジュール１４０などの前述のモジュールの出力から融合候補を記述するデータを受信し得る。融合候補フィルタリングモジュール１５０は、遺伝子融合候補のセット全体よりも小さいフィルタ処理された遺伝子融合候補のセットを同定するために、融合候補のセットを記述するデータをフィルタ処理するための１つ以上のフィルタを使用し得る。いくつかの実装形態では、これらのフィルタは、単一の段階で適用される。例えば、１つ以上のフィルタのそれぞれを適用することができ、融合候補のセット内の各融合候補を１つ以上のフィルタのそれぞれに対して評価し得る。しかしながら、その他の実装形態では、多段階のフィルタリングアプローチを採用し得る。このような実装形態では、融合候補同定モジュール１４０によって同定された融合候補の初期セットに、１つ以上のフィルタの第１のセットが適用される。次に、第１のフィルタリング段階の適用後に残る、フィルタ処理された融合候補の第１のセットに、１つ以上のフィルタの第２のセットが適用される。最適なフィルタ処理された融合候補のセットを達成するために、必要に応じて追加のフィルタリング段階を適用することもできる。

いくつかの実装形態では、融合候補フィルタリングモジュール１５０は、ショートリード配列決定の間に使用される高深度の適用範囲から生じる重複融合候補を考慮するために、融合候補のセットをフィルタ処理し得る。例えば、３０ｘ配列決定から生じるパイルアップは、融合候補同定モジュール１４０が、重複している最大３０の融合候補を同定することにつながり得る。融合候補フィルタリングモジュール１５０は、融合候補の特性にフィルタを適用して重複を確認することによって、このような重複融合候補を除去し得る。例えば、融合候補フィルタリングモジュール１５０は、複数の融合候補が同じ親遺伝子に配列されているか、同じ又は類似の切断点に及ぶ参照ゲノムの一部に配列されるか、又はそれらの組み合わせに配列されるかどうかを決定し得る。融合候補フィルタリングモジュール１５０が、同じ親遺伝子に配列される、同じ又は類似の切断点に及ぶ参照ゲノムの一部に配列される、又はそれらの組み合わせに配列される、複数の融合候補を同定する場合、融合候補フィルタリングモジュール１５０は、融合候補が重複しており、融合候補のうちの１つのみを代表的な融合候補として選択することを決定し得る。このような場合、同じ又は類似の切断点又はこれらの組み合わせに及ぶ参照ゲノムの一部に配列された、同じ親遺伝子に配列された残りの融合候補を、更なる下流解析なしに廃棄し得る。次に、代表的な融合候補を、メモリデバイス１２０などのメモリデバイス内のフィルタ処理された融合候補のセットに更に追加し得る。

あるいは又は加えて、融合候補フィルタリングモジュール１５０は、１つ以上の規定条件に基づいて、融合候補のセットをフィルタ処理し得る。例えば、融合候補フィルタリングモジュール１５０は、それぞれの融合候補を解析し、融合候補が１つ以上の属性を有するかどうかを決定することが、フィルタリングモジュール１５０によって採用される１つ以上の規定条件を満たすかどうかを決定し得る。いくつかの実装形態では、１つ以上の規定条件は、融合候補の各部分の配列の位置、融合候補によって及んでいる切断点に対する配列の重複距離、融合候補の配列の向き、融合候補のリード配列品質、融合候補の更なるマッピング位置、又はそれらの任意の組み合わせを含み得る。

例として、融合候補フィルタリングモジュール１５０によって１つ以上の規定条件を使用して、配列位置に基づいて融合候補をフィルタ処理し得る。いくつかの実装形態では、例えば、融合候補フィルタリングモジュール１５０は、配列の全長が、所定の数を超えるヌクレオチドによって融合切断点と交差する様式で、参照配列に配列されたリードを有する融合候補をフィルタ処理する規定条件を使用するように構成され得る。いくつかの実装形態では、本規定条件の所定の数のヌクレオチドは、８個のヌクレオチドであり得る。あるいは又は加えて、融合候補フィルタリングモジュール１５０は、参照配列上の配列の全長が、融合切断点の所定の閾値数のヌクレオチド内に到達しないような様式で、参照配列に配列されたリードを有する融合候補をフィルタ処理するように構成され得る。いくつかの実装形態では、本規定条件についての所定の閾値数のヌクレオチドは、５０個のヌクレオチドであり得る。あるいは又は加えて、融合候補フィルタリングモジュール１５０は、２つの融合切断点におけるリードの配列された位置が少なくとも所定の数のヌクレオチドを共有するような様式で、参照配列に配列されたリードを有する融合候補をフィルタ処理する規定条件を使用するように構成され得る。いくつかの実装形態では、所定の数の共有ヌクレオチドは、少なくとも８個のヌクレオチドを含み得る。

別の例として、融合候補フィルタリングモジュール１５０によって１つ以上の規定条件を使用して、配向に基づいて融合候補をフィルタ処理し得る。いくつかの実装形態では、例えば、融合候補フィルタリングモジュール１５０は、融合転写物内で親遺伝子のうちの少なくとも１つのヌクレオチド配列が転写したことを示す配列の配向を有する融合候補をフィルタ処理する規定条件を使用するように、構成され得る。

別の例として、融合候補フィルタリングモジュール１５０によって１つ以上の規定条件を使用して、マッピング品質に基づいて融合候補をフィルタリングし得る。いくつかの実装形態では、例えば、融合候補フィルタリングモジュール１５０は、所定の閾値を満たさないマッピング品質スコアを有するリード配列を有する融合候補をフィルタ処理する規定条件を使用するように、構成され得る。

別の例として、融合候補フィルタリングモジュール１５０によって１つ以上の規定条件を使用して、追加のマッピング位置に基づいて融合候補をフィルタリングし得る。いくつかの実装形態では、例えば、融合候補フィルタリングモジュール１５０は、融合候補のリード部分が参照配列の複数の位置にマップするとの決定に基づいて融合候補をフィルタ処理する規定条件を使用するように、構成され得る。いくつかの実装形態では、融合候補フィルタリングモジュール１５０は、相同遺伝子であることが注釈された位置を除外するように構成され得る。

１つ以上の規定条件のそれぞれを満たす融合候補は、メモリデバイス１２０などのメモリデバイス内のフィルタ処理された融合候補のセットに追加され得る。１つ以上の規定条件のそれぞれを満たさない融合候補は、更なる下流解析なしに廃棄され得る。いくつかの実装形態では、融合候補の規定条件に基づくフィルタリングは、第１段階の重複排除フィルタの適用後に、第２段階のフィルタとして適用され得る。その他の実装形態では、第１のフィルタリング段階として、融合候補の規定条件に基づくフィルタリングを適用し得、次に、重複排除フィルタを第２段階のフィルタとして適用し得る。その他の実装形態では、規定条件に基づくフィルタリングは、従来の重複排除フィルタリングなしに、単一段階のフィルタとして適用され得る。これらの規定条件のうちの１つ以上に基づいて融合候補をフィルタリングすることは、下流で更に処理する必要がある融合候補の数を大幅に低減し得る。

融合候補フィルタリングモジュール１５０によって、フィルタ処理された融合候補のセット内のそれぞれの融合候補に対して下流処理を実行し得る。下流処理は、特徴セット生成モジュール１６０、機械学習モデル１７０、遺伝子融合決定モジュール１８０、及び出力ＡＰＩモジュール１９０の実行を含む。このような下流処理は、候補融合候補が有効な遺伝子融合に対応するかどうかを決定するために使用され得る。

特徴セット生成モジュール１６０は、複数のデータソースからデータを引き出して、特徴抽出を実行するデータ属性のセットを同定し得る。これらのデータソースは、融合候補についてメモリ１２０内に記憶された属性データを含み、（ｉ）融合候補のリード（複数可）と、（ｉｉ）融合候補のリードが配列された参照配列位置の部分（複数可）と、（ｉｉｉ）特定の遺伝子融合候補が配列された参照ゲノムのセグメントのアノテーションと、を含む。いくつかの実装形態では、アノテーションは、遺伝子エクソンのアノテーション、相同遺伝子の存在を示すアノテーション、富化遺伝子のリストを示すアノテーション、又はこれらの組み合わせを含み得る。

データは、特徴セット生成モジュール１６０が配列プロセス中にリード配列ユニット１３６によって生成されたデータも含み得ることをソースする。いくつかの実装形態では、特徴セット生成モジュール１６０は、融合候補の配列中に、リード配列ユニット１３６によって生成されたデータから特徴データを導出し得る。例えば、特徴セット生成モジュール１６０は、リード配列ユニット１３６によって生成されたデータから、例えば、変異体対立遺伝子頻度数、特異リード配列数、転写物にわたるリード確率、ＭＡＰＱスコア、親遺伝子間の相同性を示すデータ、又はこれらの組み合わせなどの情報を導出し得る。

特徴セット生成モジュール１６０は、複数のデータソースから引き出された融合候補の上述の属性のうち１つ以上を表す特徴データを生成し、機械学習モデル１７０への入力のために、特徴データを１つ以上のデータ構造１６２へとコード化するために使用され得る。例えば、いくつかの実装形態では、融合候補の属性から抽出された特徴のセット全体は、機械学習モジュール１７０へと組み込まれた単一のベクトル１６２へとコード化されてもよい。例えば、分割リード配列又はソフトクリップ配列のシナリオでは、これらの種類の融合候補の属性から抽出された特徴のそれぞれは、単一のベクトル１６２へとコード化され得る。

その他の実装形態では、特徴データは、すなわち、融合候補の属性から抽出されてもよく、コード化された複数の入力ベクトルであってもよい。このようなシナリオでは、入力ベクトル１６２は、一対の入力ベクトル１６２ａ、１６２ｂから構成されてもよい。例えば、分割リード融合候補のシナリオでは、分割リードの接頭部に関連する属性から抽出された特徴のそれぞれは、分割リードの接頭部のヌクレオチドを表す特徴を含み、接頭部が配列する参照配列のセグメントを表す特徴、及び接頭部に関連する上述の属性から抽出された任意のその他の特徴、又はこれらの任意の組み合わせを、入力ベクトル１６２ａへとコード化してもよい。同様に、このような実装形態では、各特徴は、分割リードの接尾部のヌクレオチドを表す特徴を含む、分割リードの接尾部に関連する属性から抽出され、接尾部が配列する参照配列のセグメントを表す特徴、及び接尾部に関連する上述の属性から抽出された任意のその他の特徴、又はこれらの任意の組み合わせを、入力ベクトル１６２ｂへとコード化してもよい。別の例として、不一致リードペアが融合候補として同定される場合、次に、不一致リードペアの第１のリードを表す抽出された特徴、そこへ配列された参照配列の部分を表す抽出された特徴、不一致リードペアの第１のリードに関連する属性から抽出された特徴、又はこれらの任意の組み合わせは、入力ベクトル１６２ａへとコード化されてもよい。同様に、このような実施例では、不一致リードペアの第２のリードを表す抽出された特徴、そこへ配列された参照配列の部分を表す抽出された特徴、不一致リードペアの第２のリードに関連する属性から抽出された特徴、又はこれらの任意の組み合わせは、入力ベクトル１６２ｂへとコード化されてもよい。

１つ以上のベクトル１６２のそれぞれは、生成された特徴データを数値的に表し得、特徴データは、融合候補から抽出された特徴のうちのいずれか、又は融合候補に関連するリード配列ユニット１３６から受信され、メモリ１２０内に記憶されたデータから抽出された特徴のいずれかを含む。例えば、各ベクトル１６２又は１６２ａ、１６２ｂは、それぞれが特定の融合候補の特定のリードの特定の特徴に対応する複数のフィールドを含み得る。特定の融合候補に依存して、これは、上述のように、１つ以上の入力ベクトルをもたらし得る。特徴セット生成モジュール１６０は、融合候補の特定のリードの属性において特定の特徴が表現された程度を説明するフィールドのそれぞれについての数値を決定し得る。フィールドのそれぞれについて決定された数値を使用して、融合候補のリードの属性を表す生成された特徴データを、１つ以上のそれぞれのベクトル１６２へとコード化し得る。融合候補の対応するリードを数値的に表す、生成された１つ以上のベクトル１６２ａ、１６２ｂは、機械学習モデル１７０への入力として提供される。いくつかの実装形態では、複数の概念ベクトルが融合候補のために生成される場合であっても、複数の概念ベクトルは、機械学習モデル１７０へと入力され得る単一ベクトル１６２に接触し得る。このような実装形態では、（ｉ）接頭部の特徴が第１のベクトルに割り当てられ、接尾部の特徴が第２のベクトルに割り当てられる、特定の分割リード実装において、又は（ｉｉ）単一ベクトルの第１の部分が第１の概念ベクトルに対応し得、単一ベクトルの第２の部分が第２の概念ベクトルに対応し得る、不一致ペア実装において、複数のベクトルが保証された。

機械学習モデル１７０は、融合候補の特徴を表す１つ以上の入力ベクトル１６２を入力する処理に基づいて、融合候補が有効な遺伝子融合に対応する可能性を発生させるように訓練された深層ニューラルネットワークを含み得る。有効な遺伝子融合は、１つの親遺伝子の接頭部を別の親遺伝子の接尾部と接続するゲノム中の再配列故に、複数の遺伝子からの配列を含有するキメラ転写物である。本開示との関係においては、有効な遺伝子融合は、例えば、機械学習モデルによって生成された出力データ１７８が所定の閾値を満たす場合に、モデル１７０によって予測されていると決定される。機械学習モデル１７０は、入力データを受信するための入力層１７２と、入力層１７２を介して受信した入力データを処理するための１つ以上の隠れ層１７４ａ、１７４ｂ、１７４ｃ、及び出力データ１７８を提供するための出力層１７６と、を含み得る。各隠れ層１７４ａ、１７４ｂ、１７４ｃは、１つ以上の重量又はその他のパラメータを含む。訓練中、それぞれ対応する隠れ層１７４ａ、１７４ｂ、１７４ｃの重量又は他のパラメータを調節することができるが、これにより、訓練された深層ニューラルネットワークが、１つ以上の入力ベクトル１６２を処理する機械学習モデル１７０に基づいて１つ以上の入力ベクトル１６２が有効な遺伝子候補を示す可能性を示す、所望の標的出力１７８を生成する。

機械学習モデル１７０は、多数の異なる方法で訓練され得る。一実装形態では、機械学習モデル１７０は、（ｉ）有効な融合候補の属性から抽出された特徴を表す１つ以上の入力ベクトルと、（ｉｉ）無効な融合候補の属性から抽出された特徴を表す１つ以上の入力ベクトルと、を区別するように訓練され得る。いくつかの実装形態では、このような訓練は、標識された訓練ベクトル対を使用して達成され得る。各訓練ベクトルは、訓練融合候補を表すことができるが、上記の１つ以上の入力ベクトル１６２と同じ種類の特徴データから構成され得る。このような実装形態では、融合候補の属性から抽出された特徴を表す１つ以上の入力ベクトル１６２は、有効な遺伝子融合又は無効な遺伝子融合であると標識され得る。いくつかの実装形態では、有効な遺伝子融合標識又は無効な遺伝子融合標識は、数値として表すことができる。例えば、いくつかの実装形態では、有効な遺伝子融合標識は「１」であり得、無効な遺伝子融合標識は「０」であり得る。その他の実装形態では、例えば、有効な遺伝子融合標識は、所定の閾値を満たす「０」～「１」の数であり得、無効な遺伝子融合標識は、所定の閾値を満たさない「０」～「１」の数であり得る。このような実装形態では、数が所定の閾値を満たす又は満たさない大きさは、入力ベクトルの訓練対が有効な遺伝子融合又は無効な遺伝子融合を表すという信頼度の指標である。いくつかの実装形態では、所定の閾値を満たすことは、所定の閾値を超えることを含み得る。しかしながら、実装形態は、閾値を満たすことが所定の閾値を超えないことを意味するように構成することもできる。このような実装形態は、例えば、コンパレータ及びパラメータが両方とも否定された実装形態を含み得る。

訓練中、１つ以上の訓練ベクトルの各標識されたセットは、機械学習モデル１７０への入力として提供され、機械学習モデル１７０によって処理され、次に、機械学習モデル１７０によって生成された訓練出力を使用して、１つ以上の訓練ベクトルの標識されたセットそれぞれについて予測標識を決定する。訓練融合候補のための一対のリードに対応する標識された１つ以上の訓練ベクトルの機械学習モデルの処理に基づいて、機械学習モデル１７０によって生成された予測標識を、訓練融合候補の１つ以上のリード（又はリード部分）に対応する１つ以上の訓練ベクトルの訓練標識と比較することができる。次に、機械学習モデル１７０のパラメータは、予測標識と訓練標識との差に基づいて調整され得る。本プロセスは、訓練融合候補に対応する１つ以上の訓練ベクトルのセットの処理に基づいて、機械学習モデル１７０によって生成された予測融合候補標識が、所定のレベルの誤差内で、それぞれの訓練融合候補に対応する１つ以上の訓練ベクトルのセットの訓練標識と一致するまで、それぞれの訓練融合候補に対応する複数の標識訓練ベクトル（複数可）の各々について、反復継続し得る。

いくつかの実装形態では、標識された訓練融合候補は、１人以上のヒトユーザーによってレビュー及び標識された訓練融合候補のライブラリから取得され得る。しかしながら、その他の実装形態では、標識された訓練融合候補は、シミュレータによって生成及び標識された訓練融合候補を含み得る。このような実装形態では、シミュレータを使用して、機械学習モデル１７０を訓練するために使用され得る訓練融合候補の異なるカテゴリの分布を作成し得る。一般に、実行時間機械学習モデル１７０が単一の入力ベクトル１６２を許容する場合、融合候補の抽出された特徴のそれぞれは、単一の入力ベクトル１６２をコード化しており、次に、機械学習モデル１７０は、上記の訓練プロセスを使用して入力ベクトル１６２と同じ特徴の単一入力ベクトルを使用して訓練される。同様に、実行時間機械学習モジュール１７０が、上述のように２つの訓練ベクトル１６２ａ、１６２ｂを許容する場合、次に、機械学習モデル１７０は、上記の入力ベクトル１６２ａ、１６２ｂの同じ対応する特徴をそれぞれ有する２つの入力ベクトルを使用して訓練される。すなわち、実行時間に処理される入力ベクトルの種類は、上述の訓練プロセスを使用してモデル１７０を訓練するために使用されるベクトルと同じ時間である。

融合候補の属性から抽出された特徴に対応する入力データ１６２の処理中に、各隠れ層１７４ａ、１７４ｂ、１７４ｃの出力は活性化ベクトルを含み得る。各それぞれの隠れ層によって出力される活性化ベクトルは、深層ニューラルネットワークの後続層を通って伝搬され、出力層によって使用されて、出力データ１７８を生成し得る。図１の実施例では、機械学習モデル１７０は、それぞれが融合候補のリードのうちの１つに対応する別個の入力ベクトル１６２ａ、１６２ｂの機械学習モデル処理に基づいて、機械学習モデル１７０によって生成された組み合わせスコアを表す出力データ１７８を生成するように訓練される。この組み合わせスコア１７８は、最終隠れ層１７４ｃから受信した活性化ベクトル上で、訓練された機械学習モデル１７０の出力層１７６によって実行される演算に基づいて、訓練された機械学習モデルの出力層１７６によって最終的に生成される。

訓練された機械学習モデル１７０によって生成された出力データ１７８は、１つ以上の入力ベクトル１６２に対応する融合候補が有効な融合候補であることを示すかどうかを決定するために、遺伝子融合決定モジュール１８０によって評価され得る。いくつかの実装形態では、出力データ１７８は、訓練された機械学習モデル１７０によって遺伝子融合決定モジュール１８０に提供され得る。その他の実装形態では、システム１００は、訓練された機械学習モデル１７０の出力１７８を、遺伝子融合決定モジュール１８０による後続のアクセスのためにメモリデバイス１２０などのメモリデバイスに記憶し得る。
遺伝子融合決定モジュール１８０は、機械学習モデル１７０によって生成された出力データ１７８を取得し、出力データ１７８を評価して、出力データ１７８に基づいて、入力ベクトル１６２ａ、１６２ｂの対１６２に対応する融合候補が有効な遺伝子融合であるかどうかを決定し得る。いくつかの実装形態では、遺伝子融合決定モジュール１８０は、１つ以上の入力ベクトル１６２に対応する融合候補が、機械学習モデルによって生成された出力データ１７８を所定の閾値と比較することによって、有効な遺伝子融合であるかどうかを決定し得る。遺伝子融合決定モジュール１８０が、出力データ１７８が所定の閾値を満たすと決定した場合、次に、遺伝子融合決定モジュール１８０は、１つ以上の入力ベクトル１６２に対応する融合候補が有効な遺伝子融合であると決定し得る。あるいは、遺伝子融合決定モジュール１８０が、出力データ１７８が所定の閾値を満たさないと決定した場合、次に、遺伝子融合決定モジュール１８０は、１つ以上の入力ベクトル１６２に対応する融合候補が有効な遺伝子融合ではないと決定し得る。

いくつかの実装形態では、遺伝子融合決定モジュール１８０は、機械学習モデル１７０によって生成された出力データ１７８の遺伝子融合決定モジュール１８０の評価に基づいて、遺伝子融合決定モジュール１８０によって行われた決定の結果を示す出力データ１８２を生成し得る。本出力データ１８２は、１つ以上の入力ベクトル１６２に対応する遺伝子融合候補を同定するデータと、遺伝子融合決定モジュール１８０の決定を同定するデータと、を含み得る。遺伝子融合決定モジュール１８０の決定を同定するデータは、１つ以上の入力ベクトル１６２に対応する遺伝子融合候補が有効な遺伝子融合又は無効な遺伝子融合であるかどうかを示すデータを含み得る。いくつかの実装形態では、出力データ１８２は、出力データ１７８に基づいて同定された有効な遺伝子融合のリスト、出力データ１７８に基づいて同定された無効な遺伝子融合のリスト、有効な遺伝子融合が同定されなかったことを示すデータ、又はこれらの任意の組み合わせのみを示してもよい。いくつかの実装形態では、本出力データ１８２は、別の演算モジュールによる後続の使用のために、ユーザーデバイスへの後続の出力等のために、メモリ１８２内に記憶され得る。

あるいは又は加えて、遺伝子融合決定モジュール１８０は、出力アプリケーション・プログラミング・インターフェース（ＡＰＩ）モジュール１９０の入力として提供され得る出力データ１８４を生成し得る。出力データ１８４は、１つ以上の入力ベクトル１６２に対応する遺伝子融合候補が有効な遺伝子融合又は無効な遺伝子融合であるかどうかを示す出力を、出力ディスプレイに発生させるように、出力ＡＰＩに指示し得る。いくつかの実装形態では、命令は、出力ＡＰＩモジュール１９０に、メモリデバイス１２０内に記憶された出力データ１８２にアクセスし、レンダリングデータを生成させ得るが、これは、出力ディスプレイ１９５に結合された演算デバイスによってレンダリングされた場合に、出力ディスプレイ１９５に、（ｉ）１つ以上の入力ベクトル１６２に対応する融合候補を同定するデータと、（ｉｉ）同定された融合候補が有効な遺伝子融合又は無効な遺伝子融合であるかどうかを示すデータと、を生起させる。これは、出力ディスプレイ１９５に、メモリ１８４内に記憶された出力データ１８２のいずれかを表示させることを含み得る。いくつかの実装形態では、本出力はレポートの形態で表示され得る。

いくつかの実装形態では、遺伝子融合決定モジュール１８０は、フィルタ処理された遺伝子融合候補のセットの各融合候補に対して実行される下流処理の性能に基づいて、メモリデバイス１２０内の各遺伝子融合候補に関する出力データ１８２を記憶する。このような実装形態では、遺伝子融合決定モジュール１８０は、各融合候補の下流処理が完了すると、フィルタ処理された遺伝子融合候補のセットのそれぞれの融合候補について、メモリ１２０内に記憶された遺伝子融合解析の結果を出力するように、出力ＡＰＩモジュール１９０にのみ指示してもよい。このようなシナリオでは、出力ディスプレイ１９５上に表示するために提供される出力１９２は、有効な遺伝子融合のリスト、無効な遺伝子融合のリスト、又はその両方を含み得る。その他の実装形態では、遺伝子融合決定モジュール１８０は、その特定の融合候補に対する下流処理の完了時に、もしあれば、出力ＡＰＩモジュール１９０に、同定された遺伝子融合のリストを示す結果データを出力させ得る。

その他の種類の出力１９２は、出力ＡＰＩモジュール１９０によって提供され得る。例えば、いくつかの実装形態では、出力１９２は、（ｉ）１つ以上のベクトル１６２に対応する融合候補を同定するデータと、（ｉｉ）同定された融合候補が有効な遺伝子であるかどうかを示すデータと、を含むレポートを出力させるためのプリンタなどの、別のデバイスを生起させるデータとすることができる。その他の実装形態では、本出力データ１９２は、（ｉ）１つ以上のベクトル１６２に対応する融合候補を同定するデータと、（ｉｉ）同定された融合候補が有効な遺伝子であるかどうかを示すデータと、を含むオーディオデータを、スピーカに出力させ得る。その他の種類の出力データはまた、出力ＡＰＩＲモジュール１９０によって誘発され得る。

いくつかの実装形態では、出力ディスプレイ１９５は、配列決定デバイス１１０のディスプレイパネルであり得る。その他の実装形態では、出力ディスプレイ１９５は、１つ以上のネットワークを使用して配列決定デバイス１１０に接続されたユーザーデバイスのディスプレイパネルであり得る。実際に、配列決定デバイス１１０は、出力データ１９２を、任意のディスプレイを有する任意のデバイスに通信するために使用され得る。

図２は、有効な遺伝子融合の迅速な検出を行うためのプロセス２００の一例のフローチャートである。システム１００などのシステムは、１つ以上のコンピュータを使用して、リード配列ユニット（２１０）からの複数の配列されたリードを表す第１のデータを取得することによって、プロセス２００の実行を開始し得る。システムは、取得された第１のデータ（２２０）内に含まれる複数の遺伝子融合候補を同定し得る。システムは、複数の遺伝子融合候補をフィルタ処理して、遺伝子融合候補（２３０）のフィルタ処理されたセットを決定し得る。

本システムは、フィルタ処理された遺伝子融合候補のセット（２４０）の特定の遺伝子融合候補を取得し得る。システムは、機械学習モデルへの入力のための入力データを生成し得るが、入力データを生成することは、（ｉ）特定の遺伝子融合候補がリード配列ユニットによって配列された参照配列の１つ以上のセグメントと、（ｉｉ）リード配列ユニット（２５０）の出力に基づいて生成されたデータと、を含むデータから特定の遺伝子融合候補を表す特徴データを抽出することを含む。

システムは、生成された入力データを機械学習モデルへの入力として提供し得るが、機械学習モデルは、（ｉ）特定の遺伝子融合候補がリード配列ユニットによって配列された参照ゲノムのセグメントと、（ｉｉ）リード配列ユニット（２６０）の出力に基づいて生成されたデータと、を表す機械学習モデル処理入力データに基づいて、遺伝子融合候補が有効な遺伝子融合である可能性を表す出力データを生成するように訓練されている。システムは、入力データ（２７０）を処理する機械学習モデルに基づいて、機械学習モデルによって生成された出力データを取得し得る。システムは、特定の融合候補が、出力データ（２８０）に基づいて、有効な遺伝子融合候補に対応するかどうかを決定し得る。

段階２８０の完了時に、システムは、フィルタ処理された融合候補のセットの別の融合候補が評価されるべきかどうかを決定し得る（２９０）。システムが、評価されるべきフィルタ処理された融合候補のセットの別の融合候補が存在すると決定した場合、次に、システムは、段階２４０でプロセス２００の実行を継続し得る。あるいは、システムが、評価されるべきフィルタ処理された融合候補のセットの別の融合候補が存在しないと決定した場合、次に、システムは、段階２９５でプロセスの実行を終了し得る。融合候補のセットのセットが使い尽されていない場合、別の融合候補が、フィルタ処理された融合候補のセット内に存在し得る。

図３は、有効な遺伝子融合を迅速に検出するためのシステム３００の別の例のブロック図である。システム３００が、配列決定デバイス１１０を使用してＲＮＡ（又はＤＮＡ）配列リード１１２を生成する、ＲＮＡ配列リード１１２を参照配列に配列させるために二次解析ユニット１３０を使用する、融合候補同定モジュール１４０を使用して融合候補を同定する、融合候補フィルタリングモジュール１５０を使用して下流解析のためにフィルタ処理された融合候補のセットを決定する、次に、フィルタ処理された融合候補のセットの下流解析を実行して、特徴セット生成モジュール１６０と、機械学習モジュール１７０と、遺伝子融合決定モジュール１９０と、出力ＡＰＩモジュール１９０と、を使用して、有効な遺伝子融合を同定する、という点で、システム３００はシステム１００と同じ機能を実行する。これらの機能ユニット、モジュール、又はモデルのそれぞれは、図１のシステム１００の説明においてそれらに起因したものと同じ機能を実行する。

システム３００とシステム１００との間の差異は、融合候補の同定、融合候補フィルタリング、及びフィルタ処理された融合候補のセットの下流解析が、異なるコンピュータ３２０上で実行され、配列決定デバイス１１０内ではない、という点である。したがって、システム３００とシステム１００との間の差異は、ネットワーク３１０を使用して、遺伝子融合解析のために配列されたリードがどのように実装されてコンピュータ３２０に連結されるか、コンピュータ３２０によってどのように取り出されるか、また遺伝子融合結果がどのように実装されて、出力のための対応するディスプレイを有する別のデバイスへと送信されるか、という点にある。

より詳細には、配列決定デバイス１１０は、生体サンプル１０５を配列し、ＲＮＡリード１１２－１、１１２－２、１１２－ｎを生成し得るが、ここで「ｎ」は、システム１００に関して記載されるように、０を超える任意の正の整数である。ＲＮＡリードは一例として使用されるが、システムはまた、ＤＮＡリード上で同じプロセスを実施し得る。配列決定デバイス１１０は、メモリ１２０内にリード１１２－１、１１２－２、１１２－ｎを記憶し得る。いくつかの実装形態では、リード１１２－１、１１２－２、１１２－ｎは、圧縮形式であってもよい。

二次解析ユニット１３０は、リード１１２－１、１１２－２、１１２－ｎを取得し、二次解析ユニット１３０のメモリ１３２内にリード１１２－１、１１２－２、１２２－ｎを記憶し得る。いくつかの実装形態では、これは、配列決定デバイス１１０の制御プログラムを含んで、リード１１２－１、１１２－２、１１２－ｎを二次解析ユニット１３０のメモリ１３２内へとストリーミングし得る。その他の実装形態では、二次解析ユニット１３０は、リード１１２－１、１１２－２、１２２－ｎを要求し得る。リード１１２－１、１１２－２、１１２－ｎが圧縮される場合、二次解析ユニット１３０のプログラマブル論理デバイス１３４は、展開ユニット１３８として状態Ｂへと構成されて、リード１１２－１、１１２－２、１１２－ｎを展開するために使用され得る。次に、プログラマブル論理デバイス１３４は、リード配列ユニットとして状態Ａに再構成されて、リード１１２－１、１１２－２、１１２－ｎを参照配列に配列させるために使用され得る。

二次解析ユニット１３０は、圧縮ユニットとして状態Ｂに再構成されて、圧縮ユニットを使用して配列されたリードを圧縮して、コンピュータ３２０への送信のために配列されたリードを準備し得る。本実施例では、配列されたリードの第１のバッチの圧縮は、配列されたリードのみならず、遺伝子融合解析に使用される配列されたリードに関連するリード配列ユニット１３６によって生成されたデータもまた圧縮することを含む。本データは、図１のシステム１００に関して説明されており、例えば、変異体対立遺伝子頻度数、特異リード配列数、転写物にわたるリード確率、ＭＡＰＱスコア、親遺伝子間の相同性を示すデータ、又はこれらの組み合わせを含み得る。加えて、配列されたリードの第１のバッチ内へと圧縮され得るその他のデータは、（ｉ）融合候補のリードと、（ｉｉ）融合候補のリードが配列された参照配列位置の部分と、（ｉｉｉ）特定の遺伝子融合候補が配列された参照ゲノムのセグメントのアノテーションと、を含み得る。いくつかの実装形態では、アノテーションは、遺伝子エクソンのアノテーション、相同遺伝子の存在を示すアノテーション、富化遺伝子のリストを示すアノテーション、又はこれらの組み合わせを含み得る。

配列されたリードを圧縮した後、二次解析ユニット１３０は、メモリ１２０内に圧縮されたリードの第１のバッチを記憶し得る。次に、配列決定デバイス１１０は、遺伝子融合解析のために、ネットワーク３１０にわたって、配列されたリードの第１のバッチ１２５をコンピュータ３２０に送信し得る。ネットワーク３１０は、１つ以上の有線ネットワーク、１つ以上の無線ネットワーク、又はこれらの組み合わせを含み得る。異なる実装形態では、ネットワーク３１０は、有線イーサネット、有線光ネットワーク、ＬＡＮ、ＷＡＮ、セルラーネットワーク、インターネット、又はこれらの組み合わせのうちの１つ以上であってもよい。いくつかの実装形態では、コンピュータ３２０は、リモートクラウドサーバであり得る。しかしながら、他の実装形態では、コンピュータ３２０は、直接イーサネット接続、ＵＳＢ－Ｃ接続等の直接接続を介して、配列決定デバイス１１０に接続され得る。図３００の本実施例では、リードの第１のバッチは通信前に圧縮されるが、圧縮が使用される必要はない。その代わりに、圧縮は、ネットワーク帯域幅の消費を低減し、記憶コストを最小化する方法として提供されるが、これは、ゲノムの大きなデータサイズに対処する場合に、著しい技術的利益を提供し、コストを削減し得る。

いくつかの実装形態では、配列されたリードの第１のバッチは、サンプル１０５に対して生成されたリードのセット全体を含む。その他の実装形態では、配列されたリードの第１のバッチは、サンプル１０５に対して生成されたリードのセット全体の一部分のみであり、バッチ処理システムを使用して、平行処理を容易にし得る。例えば、いくつかの実装形態では、二次解析ユニットがメモリ１２０内で配列されたリードの第１のバッチを記憶した後、二次解析ユニット１３０は、メモリ１３２内に記憶するために、まだ配列されていないリードの第２のバッチを取得する。次に、リードの第２のバッチが圧縮された場合、二次解析ユニット１３０は展開を実行し得、コンピュータ３２０がリードの第１のバッチの遺伝子融合解析を実施している間に、リードの第２のバッチの配列を実行し得る。リードのバッチ処理によって容易になるこのような平行処理は、サンプル１０５のリードのための有効な遺伝子融合を決定するために必要とされるシステム３００の実行時間を著しく低減し得る。

コンピュータ３２０は、ネットワーク３１０を介してリードの第１のバッチ１２５を受信し、メモリ３２０内にリードの第１のバッチを記憶し得る。リードの第１のバッチ１２５が圧縮された場合、コンピュータ３２０は、圧縮／展開モジュール３２５を使用して、リードの第１のバッチを展開し、メモリ３２０内にリードの第１のバッチを記憶し得る。次に、コンピュータ３２０は、図１のシステム１００に関して説明したのと同じ様式で、融合候補同定モジュール１４０と、融合候補フィルタリングモジュール１５０と、特徴セット生成モジュール１６０と、機械学習モデル１７０と、遺伝子融合決定モジュール１８０と、出力ＡＰＩモジュール１９０と、の遺伝子融合解析パイプラインを実行し得る。

出力１９２は、ネットワーク３１０を介して多数の異なるデバイスに提供され得る。例として、出力データは、シーケンサのディスプレイ１９５上で出力するために配列決定デバイスに送信され得る。あるいは又は加えて、出力１９２は、ネットワーク３１０を介してユーザーデバイス３３０のディスプレイ上に表示するために提供され得る。ユーザーデバイス３３０は、スマートフォン、タブレットコンピュータ、ラップトップコンピュータ、デスクトップコンピュータ、又はディスプレイを備える任意の他のコンピュータを含み得る。あるいは又は加えて、出力１９２はまた、ネットワーク３１０を介してプリンタ３４０を介して出力するために提供され得る。このような実装形態では、出力は、決定された有効な遺伝子融合のハードコピーレポートであってもよい。

図４は、遺伝子融合の迅速な検出のためのシステムを実行するために使用され得るシステム構成要素のブロック図である。

コンピューティングデバイス４００は、ラップトップ、デスクトップ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、及び他の適切なコンピュータなどの種々の形態のデジタルコンピュータを表すことが意図されている。コンピューティングデバイス４５０は、パーソナルデジタルアシスタント、携帯電話、スマートフォン、及び他の同様のコンピューティングデバイスなどの種々の形態のモバイルデバイスを表すことが意図されている。これに加えて、コンピューティングデバイス４００又は４５０は、ユニバーサルシリアルバス（ＵＳＢ）フラッシュドライブを含み得る。ＵＳＢフラッシュドライブは、オペレーティングシステム及び他のアプリケーションを記憶し得る。ＵＳＢフラッシュドライブは、別のコンピューティングデバイスのＵＳＢポートに挿入できる無線送信機又はＵＳＢコネクタなどの入力／出力構成要素を含み得る。本明細書に示される構成要素、この構成要素の接続及び関係、並びにこの構成要素の機能は、単なる例であることを意味し、本文書に記載及び／又は特許請求される発明の実装形態を限定することを意味するものではない。

コンピューティングデバイス４００は、プロセッサ４０２と、メモリ４０４と、記憶デバイス４０６と、メモリ４０４及び高速拡張ポート４１０に接続する高速インターフェース４０８と、低速バス４１４及び記憶デバイス４０８に接続する低速インターフェース４１２と、を含む。４０２、４０４、４０６、４０８、４１０、及び４１２の各構成要素は、種々のバスを使用して相互接続されており、共通のマザーボード上に、又は適切な他の様式で装着され得る。プロセッサ４０２は、メモリ４０４又は記憶デバイス４０８上に記憶された命令を含むコンピューティングデバイス４００内での実行のための命令を処理して、高速インターフェース４０８に結合されたディスプレイ４１６などの外部入力／出力デバイス上のＧＵＩに関するグラフィカル情報を表示し得る。他の実装形態では、複数のプロセッサ及び／又は複数のバスを、適切な複数のメモリ及び複数の種類のメモリと共に使用し得る。また、複数のコンピューティングデバイス４００を接続して、各デバイスが、例えば、サーババンク、ブレードサーバ群、又はマルチプロセッサシステムとして、必要な操作の部分を提供するようにすることができる。

メモリ４０４は、コンピューティングデバイス４００内に情報を記憶する。一実装形態では、メモリ４０４は、揮発性メモリユニット又は複数の揮発性メモリユニットである。別の実装形態では、メモリ４０４は、不揮発性メモリユニット又は複数の不揮発性メモリユニットである。メモリ４０４を、磁気ディスク又は光ディスクなどの別の形態のコンピュータ可読媒体とすることもできる。

記憶デバイス４０８は、コンピューティングデバイス４００のための大規模な記憶機構を提供することができる。一実装形態では、記憶デバイス４０８は、フロッピーディスクデバイス、ハードディスクデバイス、光ディスクデバイス、若しくはテープデバイス、フラッシュメモリ若しくはその他の類似のソリッドステートメモリデバイス、又はストレージエリアネットワーク若しくはその他の構成内のデバイスを含むデバイスのアレイなどのコンピュータ可読媒体であり得るか、又はそれを内包し得る。コンピュータプログラム製品は、情報キャリア内で有形に具現化され得る。コンピュータプログラム製品はまた、実行された場合、上述したものなどの１つ以上の方法を実行する命令を内包し得る。情報キャリアは、メモリ４０４、記憶デバイス４０８、又はプロセッサ４０２上のメモリなどのコンピュータ可読媒体又は機械可読媒体である。

高速コントローラ４０８は、コンピューティングデバイス４００の帯域幅集約操作を管理する一方、低速コントローラ４１２は、低帯域幅集約操作を管理する。このような機能の割り当ては、一実施例に過ぎない。一実装形態では、高速コントローラ４０８は、例えば、グラフィックプロセッサ又はアクセラレータを介してメモリ４０４、ディスプレイ４１６に、及び種々の拡張カード（図示せず）を受容し得る高速拡張ポート４１０に連結されている。本実装形態では、低速コントローラ４１２は、記憶デバイス４０８及び低速拡張ポート４１４に連結されている。種々の通信ポート、例えば、ＵＳＢ、Ｂｌｕｅｔｏｏｔｈ、イーサネット、無線イーサネットを含み得る低速拡張ポートは、例えば、ネットワークアダプタを介して、キーボード、ポインティングデバイス、マイクロフォン／スピーカペア、スキャナ、又はスイッチ若しくはルータなどのネットワーキングデバイスなどの１つ以上の入力／出力デバイスに連結され得る。コンピューティングデバイス４００は、図に示されるように、多数の異なる形態で実装され得る。例えば、コンピューティングデバイス４００は、標準サーバ４２０として、又はこのようなサーバのグループ内で複数回、実装され得る。コンピューティングデバイス４００はまた、ラックサーバシステム４２４の一部として実装され得る。加えて、コンピューティングデバイス４００は、ラップトップコンピュータ４２２などのパーソナルコンピュータに実装され得る。これに代えて、コンピューティングデバイス４００からの構成要素を、デバイス４５０などのモバイルデバイス（図示せず）内のその他の構成要素と組み合わせることができる。このようなデバイスのそれぞれは、コンピューティングデバイス４００、４５０のうちの１つ以上を内包し得、システム全体を、互いに通信する複数のコンピューティングデバイス４００、４５０から構成することができる。

コンピューティングデバイス４００は、図に示されるように、多数の異なる形態で実装され得る。例えば、コンピューティングデバイス４００は、標準サーバ４２０として、又はこのようなサーバのグループ内で複数回、実装され得る。コンピューティングデバイス４００はまた、ラックサーバシステム４２４の一部として実装され得る。加えて、コンピューティングデバイス４００は、ラップトップコンピュータ４２２などのパーソナルコンピュータに実装され得る。これに代えて、コンピューティングデバイス４００からの構成要素を、デバイス４５０などのモバイルデバイス（図示せず）内のその他の構成要素と組み合わせることができる。このようなデバイスのそれぞれは、コンピューティングデバイス４００、４５０のうちの１つ以上を内包し得、システム全体を、互いに通信する複数のコンピューティングデバイス４００、４５０から構成することができる。

コンピューティングデバイス４５０は、構成要素の中でもとりわけ、プロセッサ４５２と、メモリ４６４と、ディスプレイ４５４、通信インターフェース４６６、及び送受信機４６８などの入出力デバイスと、を含む。デバイス４５０はまた、追加の記憶機構を提供するために、マイクロドライブ又はその他のデバイスなどの記憶デバイスを備え得る。構成要素４５０、４５２、４６４、４５４、４６６、及び４６８のそれぞれは、種々のバスを使用して相互接続されており、構成要素のうちのいくつかは、共通のマザーボード上に、又は適切なその他の様式で装着され得る。

プロセッサ４５２は、メモリ４６４に記憶された命令を含む、コンピューティングデバイス４５０内の命令を実行し得る。プロセッサは、別個及び複数のアナログ及びデジタルプロセッサを含むチップのチップセットとして実装できる。これに加えて、プロセッサは、いくつかのアーキテクチャのうちのいずれかを使用して実装できる。例えば、プロセッサ４１０は、ＣＩＳＣ（複合命令セットコンピュータ）プロセッサ、ＲＩＳＣ（縮小命令セットコンピュータ）プロセッサ、又はＭＩＳＣ（最小命令セットコンピュータ）プロセッサであり得る。プロセッサは、例えば、ユーザーインタフェースの制御、デバイス４５０によって実行されるアプリケーション、及びデバイス４５０による無線通信などの、デバイス４５０の他の構成要素の協調を提供することができる。

プロセッサ４５２は、制御インターフェース４５８と、ディスプレイ４５４に連結されたディスプレイインターフェース４５６と、を介して、ユーザーと通信し得る。ディスプレイ４５４は、例えば、ＴＦＴ（薄膜トランジスタ液晶ディスプレイ）ディスプレイ、ＯＬＥＤ（有機発光ダイオード）ディスプレイ、又はその他の適切なディスプレイ技術であり得る。ディスプレイインターフェース４５６は、ディスプレイ４５４を駆動してグラフィカル情報及びその他の情報をユーザーに提示するための適切な回路を含み得る。制御インターフェース４５８は、ユーザーから指令を受信して、この指令をプロセッサ４５２への発信用に変換し得る。加えて、デバイス４５０とその他のデバイスとの近接領域通信を可能にするために、プロセッサ４５２と通信する外部インターフェース４６２を提供し得る。外部インターフェース４６２は、例えば、いくつかの実装形態では有線通信を、又は他の実装形態では無線通信を提供し得るが、複数のインターフェースもまた使用し得る。

メモリ４６４は、コンピューティングデバイス４５０内に情報を記憶する。メモリ４６４は、コンピュータ可読媒体（単数）若しくはコンピュータ可読媒体（複数）、揮発性メモリユニット（単数）若しくは揮発性メモリユニット（複数）、又は不揮発性メモリユニット（単数）若しくは不揮発性メモリユニット（複数）のうちの１つ以上として、実装され得る。また、例えばＳＩＭＭ（シングルインラインメモリモジュール）カードインターフェースを含み得る、拡張インターフェース４７２を介して、デバイス４５０に拡張メモリ４７４を提供及び接続し得る。このような拡張メモリ４７４は、デバイス４５０のための増設記憶空間を提供し得るか、又はデバイス４５０のためのアプリケーション若しくはその他の情報もまた記憶し得る。具体的には、拡張メモリ４７４は、上述したプロセスを実行又は補完する命令を含み得るが、機密情報もまた含み得る。したがって、例えば、拡張メモリ４７４は、デバイス４５０のためのセキュリティモジュールとして提供され得るが、デバイス４５０の安全な使用を可能にする命令を用いてプログラムされ得る。加えて、安全なアプリケーションは、ハッキング不能な様式でＳＩＭＭカード上に識別情報を配置するなど、追加情報と共に、ＳＩＭＭカードを介して提供され得る。

メモリは、例えば、後述するように、フラッシュメモリ及び／又はＮＶＲＡＭメモリを含み得る。一実装形態では、コンピュータプログラム製品は、情報キャリア内で有形に具現化され得る。コンピュータプログラム製品は、実行された場合、上述したものなどの１つ以上の方法を実行する命令を内包する。情報キャリアは、例えば、送受信機４６８又は外部インターフェース４６２を介して受信し得るメモリ４６４、拡張メモリ４７４、若しくはプロセッサ４５２上のメモリなどの、コンピュータ可読媒体又は機械可読媒体である。

デバイス４５０は、必要に応じてデジタル信号処理回路を含み得る通信インターフェース４６６を介して、無線通信し得る。通信インターフェース４６６は、とりわけＧＳＭ音声通話、ＳＭＳ、ＥＭＳ、若しくはＭＭＳメッセージング、ＣＤＭＡ、ＴＤＭＡ、ＰＤＣ、ＷＣＤＭＡ(登録商標)、ＣＤＭＡ２０００、若しくはＧＰＲＳなどの種々のモード又はプロトコル下での通信を提供し得る。このような通信は、例えば、高周波送受信機４６８を介して行うことができる。加えて、Ｂｌｕｅｔｏｏｔｈ、Ｗｉ－Ｆｉ、又はその他のこのような送受信機（図示せず）を使用するなど、短距離通信を行うことができる。加えて、ＧＰＳ（全地球測位システム）受信機モジュール４７０が、デバイス４５０に追加のナビゲーション関連及び位置関連の無線データを提供し得るが、これは、デバイス４５０上で作動するアプリケーションによって適切に使用され得る。

デバイス４５０はまた、音声符復号器４６０を使用して可聴的に通信し得るが、これは、ユーザーから発話情報を受信し、この発話情報を使用可能なデジタル情報へと変換し得る。音声符復号器４６０は同様に、例えば、デバイス４５０のハンドセット内のスピーカを介してなど、ユーザーのための可聴音を発生させ得る。このような音は、音声電話通話からの音を含み得るが、録音された音、例えば、音声メッセージ、音楽ファイル等などを含み得、また、デバイス４５０上で操作するアプリケーションによって生成される音もまた含み得る。

コンピューティングデバイス４５０は、図に示されるように、多数の異なる形態で実装され得る。例えば、コンピューティングデバイス４５０は、携帯電話４８０として実装され得る。また、コンピューティングデバイス４５０を、スマートフォン４８２、携帯情報端末、又はその他の類似したモバイルデバイスの一部として実装し得る。

本明細書に記載されたシステム及び方法の種々の実装形態は、デジタル電子回路、集積回路、専用に設計されたＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はこのような実装形態の組み合わせで実現され得る。これらの種々の実装形態は、少なくとも１つのプログラマブル・プロセッサを含むプログラマブルシステム上で実行可能及び／解釈可能な１つ以上のコンピュータプログラムにおける実装形態を含み得るが、これは、専用又は汎用であり得、記憶システム、少なくとも１つの入力デバイス、及び少なくとも１つの出力デバイスからデータ及び命令を受信し、かつこれらにデータ及び命令を送信するように連結される。

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとしても知られている）は、プログラマブル・プロセッサのための機械命令を含み、高水準言語（high-level procedural language）及び／又はオブジェクト指向プログラミング言語で、及び／又はアセンブリ言語／機械言語で実装され得る。本明細書で使用される場合、用語「機械可読媒体」「コンピュータ可読媒体」とは、任意のコンピュータプログラム製品、装置、及び／又はデバイス、例えば、磁気ディスク、光ディスク、メモリ、機械命令及び／又はデータをプログラマブル・プロセッサに提供するために使用されるプログラマブル論理デバイス（ＰＬＤ）を意味し、機械可読信号として機械命令を受信する機械可読媒体を含む。用語「機械可読信号」とは、プログラマブル・プロセッサに機械命令及び／又はデータを提供するために使用される任意の信号を意味する。

ユーザーとの相互作用を提供するために、本明細書に記載されたシステム及び技術は、ユーザーに情報を表示するためのディスプレイデバイス、例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ、並びにユーザーがコンピュータに入力を提供し得るポインティングデバイス、例えばマウス又はトラックボールを有するコンピュータ上に実装され得る。同様に他の種類のデバイスを使用して、ユーザーとの相互作用を提供し得るが、例えば、ユーザーに提供されるフィードバックは、任意の形態の感覚フィードバック、例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバックであり得、ユーザーからの入力は、音響入力、発話入力、又は触覚入力を含む任意の形態で受信され得る。

本明細書に記載されるシステム並びに技術は、例えばデータサーバとしてのバックエンド構成要素を含むコンピューティングシステムで、若しくはミドルウェアコンポーネント、例えばアプリケーションサーバを含むコンピューティングシステムで、若しくはフロントエンド構成要素、例えばユーザーがそれらを介して本明細書に記載されたシステム及び技術の実装形態と相互作用し得るグラフィカル・ユーザー・インターフェース若しくはウェブブラウザを有するクライアントコンピュータを含むコンピューティングシステムで、又はこのようなバックエンド、ミドルウェア、若しくはフロントエンドの構成要素の任意の組み合わせで、実装できる。システムの構成要素は、デジタルデータ通信、例えば通信ネットワークの任意の形態又は媒体によって相互接続され得る。通信ネットワークの例としては、ローカルエリアネットワーク（「ＬＡＮ」）、広域ネットワーク（「ＷＡＮ」）、及びインターネットが挙げられる。

コンピューティングシステムは、クライアント及びサーバを含み得る。クライアント及びサーバは、一般に、互いにリモートであり、典型的には、通信ネットワークを介して相互作用する。クライアントとサーバとの関係は、それぞれのコンピュータ上で作動し、かつ互いにクライアント－サーバ関係を有するコンピュータプログラムによって生じる。
他の実施形態

いくつかの実施形態が記載されてきた。それにもかかわらず、本発明の趣旨及び範囲から逸脱することなく、種々の変更を行い得ることが理解されよう。加えて、図に描示される論理フローは、所望の結果を達成するために、示される特定の順序、又は連続的な順序を必要としない。加えて、記載されたフローからその他の工程を提供し得る、又は工程を排除し得る、及び記載されたシステムにその他の構成要素を追加し得る、又はそこから除去し得る。したがって、他の実施形態は、以下の特許請求の範囲内にある。

Claims

生体サンプル中の１つ以上の遺伝子融合を同定するためのコンピュータ実装方法であって、
１つ以上のコンピュータによって、リード配列ユニットから複数の配列されたリードを表す第１のデータを取得することと、
１つ以上のコンピュータによって、前記取得された第１のデータ内に含まれる複数の遺伝子融合候補を同定することと、
１つ以上のコンピュータによって、前記複数の遺伝子融合候補をフィルタリングして、フィルタ処理された遺伝子融合候補のセットを決定することと、を含み、
前記フィルタ処理された遺伝子融合候補の特定の遺伝子融合候補のそれぞれについて、
１つ以上のコンピュータによって、機械学習モデルへの入力のための入力データを生成することであって、前記入力データを生成することが、
（ｉ）前記特定の遺伝子融合候補が前記リード配列ユニットによって配列された参照配列の１つ以上のセグメントと、
（ｉｉ）前記リード配列ユニットの出力に基づいて生成されたデータと、を含むデータから、特徴データを抽出して前記特定の遺伝子融合候補を表すことを含む、入力データを生成することと、
１つ以上のコンピュータによって、前記生成された入力データを前記機械学習モデルへの入力として提供することであって、前記機械学習モデルは、（ｉ）前記特定の遺伝子融合候補が前記リード配列ユニットによって配列された参照配列の１つ以上のセグメントと、（ｉｉ）前記リード配列ユニットの出力に基づいて生成されたデータと、を表す前記機械学習モデル処理入力データに基づいて、遺伝子融合候補が有効な遺伝子融合である可能性を表す出力データを生成するように訓練されている、前記生成された入力データを前記機械学習モデルへの入力として提供することと、
１つ以上のコンピュータによって、前記生成された入力データを処理する前記機械学習モデルに基づいて、前記機械学習モデルによって生成された出力データを取得することと、
１つ以上のコンピュータによって、前記特定の融合候補が、前記出力データに基づいて、有効な遺伝子融合候補に対応するかどうかを決定することと、を含む、コンピュータ実装方法。
前記入力データを生成することは、前記特定の遺伝子融合候補が前記リード配列ユニットによって配列された前記参照配列の前記セグメントのアノテーションを記述するアノテーションデータを含む特徴データを抽出することを更に含み、
前記機械学習モデルは、前記機械学習モデル処理入力データに基づいて、遺伝子融合候補が有効な遺伝子融合候補である可能性を表す出力データを生成するよう訓練されており、前記機械学習モデル処理入力データは、
（ｉ）前記特定の遺伝子融合候補が前記リード配列ユニットによって配列された参照配列の１つ以上のセグメントと、
（ｉｉ）前記特定の遺伝子融合候補が前記リード配列ユニットによって配列された前記参照配列の前記セグメントのアノテーションを記述するアノテーションデータと、
（ｉｉｉ）前記リード配列ユニットの出力に基づいて生成されたデータと、を表す、請求項１に記載の方法。
１つ以上のコンピュータによって、前記取得された第１のデータ内に含まれる複数の遺伝子融合候補を同定することが、１つ以上のコンピュータによって、複数の分割リード配列を同定することを含む、請求項１又は２に記載の方法。
１つ以上のコンピュータによって、前記取得された第１のデータ内に含まれる複数の遺伝子融合候補を同定することが、１つ以上のコンピュータによって、複数の不一致リードペア配列を同定することを含む、請求項１～３のいずれか一項に記載の方法。
前記リード配列ユニットが、操作を実行するように物理的に配置されたハードウェア論理回路を使用して構成されている１つ以上の処理エンジンのセットを使用して実装され、前記ハードウェア論理回路を使用して、
（ｉ）第１のリードを表すデータを受信し、
（ｉｉ）前記第１のリードを表す前記データを、参照配列の１つ以上の部分にマップして、整合参照配列の１つ以上の位置を同定し、
（ｉｉｉ）前記第１のリードの前記整合参照配列位置のそれぞれに対応する１つ以上の配列スコアを生成し、
（ｉｖ）前記１つ以上の配列スコアに基づいて、前記第１のリードのための１つ以上の候補配列を選択し、
（ｖ）前記第１のリードの候補配列を表すデータを出力する、請求項１～４のいずれか一項に記載の方法。
前記リード配列ユニットが、１つ以上の中央演算処理装置（ＣＰＵ）又は１つ以上のグラフィックス演算処理装置（ＧＰＵ）を使用することによって１つ以上の処理エンジンのセットを使用して実装され、前記１つ以上のＣＰＵ又は１つ以上のＧＰＵＳに、
（ｉ）第１のリードを表すデータを受信させ、
（ｉｉ）前記第１のリードを表す前記データを、参照配列の１つ以上の部分にマップして、前記第１のリードの整合参照配列の１つ以上の位置を同定させ、
（ｉｉｉ）前記第１のリードの前記整合参照配列位置のそれぞれに対応する１つ以上の配列スコアを生成させ、
（ｉｖ）前記１つ以上の配列スコアに基づいて、前記第１のリードのための１つ以上の候補配列を選択させ、
（ｖ）前記第１のリードの候補配列を表すデータを出力させる、ソフトウェア命令を実行する、請求項１～４のいずれか一項に記載の方法。
前記リード配列ユニットによって、まだ配列されていない複数のリードを受信することと、
前記リード配列ユニットによって、前記複数のリードの第１のサブセットを配列させることと、
前記リード配列ユニットによって、配列されたリードの前記第１のサブセットをメモリデバイス内に記憶することと、を更に含み、
１つ以上のコンピュータによって、リード配列ユニットから複数の配列されたリードを表す第１のデータを取得することは、１つ以上のコンピュータによって、前記メモリデバイスから配列されたリードの前記第１のサブセットを取得することと、前記リード配列ユニットが、まだ配列されていない前記複数のリードの第２のサブセットを配列させている間に、請求項１に記載の操作のうちの１つ以上を実行することと、を含む、請求項１～６のいずれか一項に記載の方法。
前記リード配列ユニットの前記出力に基づいて生成された前記データが、変異体対立遺伝子頻度のカウント、特異リード配列のカウント、転写物にわたるリード確率、ＭＡＰＱスコア、又は親遺伝子間の相同性を示すデータのうちの任意の１つ以上を含む、請求項１～７のいずれか一項に記載の方法。
前記特定の融合候補が、前記出力データに基づいて有効な遺伝子融合候補に対応するかどうかを決定することが、
１つ以上のコンピュータによって、前記出力データが所定の閾値を満たすかどうかを決定することと、
前記出力データが前記所定の閾値を満たすと決定することに基づいて、前記特定の融合候補が有効な遺伝子融合候補に対応すると決定することと、を含む、請求項１～８のいずれか一項に記載の方法。
前記特定の融合候補が、前記出力データに基づいて有効な遺伝子融合候補に対応するかどうかを決定することが、
１つ以上のコンピュータによって、前記出力データが所定の閾値を満たすかどうかを決定することと、
前記出力データが前記所定の閾値を満たさないと決定することに基づいて、前記特定の融合候補が有効な遺伝子融合候補に対応しないと決定することと、を含む、請求項１～９のいずれか一項に記載の方法。
生体サンプル中の１つ以上の遺伝子融合を同定するためのシステムであって、
操作可能である命令を記憶している１つ以上のコンピュータ及び１つ以上の記憶デバイスを含み、前記１つ以上のコンピュータによって実行された場合に、前記１つ以上のコンピュータに、
１つ以上のコンピュータによって、リード配列ユニットから複数の配列されたリードを表す第１のデータを取得することと、
１つ以上のコンピュータによって、前記取得された第１のデータ内に含まれる複数の遺伝子融合候補を同定することと、
１つ以上のコンピュータによって、前記複数の遺伝子融合候補をフィルタリングして、フィルタ処理された遺伝子融合候補のセットを決定することと、を含む操作を実行させて、
前記フィルタ処理された遺伝子融合候補の特定の遺伝子融合候補のそれぞれについて、
１つ以上のコンピュータによって、機械学習モデルへの入力のための入力データを生成することであって、前記入力データを生成することが、
（ｉ）前記特定の遺伝子融合候補が前記リード配列ユニットによって配列された参照配列の１つ以上のセグメントと、
（ｉｉ）前記リード配列ユニットの出力に基づいて生成されたデータと、を含むデータから、特徴データを抽出して前記特定の遺伝子融合候補を表すことを含む、入力データを生成することと、
１つ以上のコンピュータによって、前記生成された入力データを前記機械学習モデルへの入力として提供することであって、前記機械学習モデルは、（ｉ）前記特定の遺伝子融合候補が前記リード配列ユニットによって配列された参照配列の１つ以上のセグメントと、（ｉｉ）前記リード配列ユニットの出力に基づいて生成されたデータと、を表す前記機械学習モデル処理入力データに基づいて、遺伝子融合候補が有効な遺伝子融合である可能性を表す出力データを生成するように訓練されている、前記生成された入力データを前記機械学習モデルへの入力として提供することと、
１つ以上のコンピュータによって、前記生成された入力データを処理する前記機械学習モデルに基づいて、前記機械学習モデルによって生成された出力データを取得することと、
１つ以上のコンピュータによって、前記特定の融合候補が、前記出力データに基づいて、有効な遺伝子融合候補に対応するかどうかを決定することと、を含む、システム。
前記入力データを生成することは、前記特定の遺伝子融合候補が前記リード配列ユニットによって配列された前記参照配列の前記セグメントのアノテーションを記述するアノテーションデータを含む特徴データを抽出することを更に含み、
前記機械学習モデルは、前記機械学習モデル処理入力データに基づいて、遺伝子融合候補が有効な遺伝子融合候補である可能性を表す出力データを生成するよう訓練されており、前記機械学習モデル処理入力データは、
（ｉ）前記特定の遺伝子融合候補が前記リード配列ユニットによって配列された参照配列の１つ以上のセグメントと、
（ｉｉ）前記特定の遺伝子融合候補が前記リード配列ユニットによって配列された前記参照配列の前記セグメントのアノテーションを記述するアノテーションデータと、
（ｉｉｉ）前記リード配列ユニットの出力に基づいて生成されたデータと、を表す、請求項１１に記載のシステム。
１つ以上のコンピュータによって、前記取得された第１のデータ内に含まれる複数の遺伝子融合候補を同定することが、１つ以上のコンピュータによって、複数の分割リード配列を同定することを含む、請求項１１～１２のいずれか一項に記載のシステム。
１つ以上のコンピュータによって、前記取得された第１のデータ内に含まれる複数の遺伝子融合候補を同定することが、１つ以上のコンピュータによって、複数の不一致リードペア配列を同定することを含む、請求項１１～１３のいずれか一項に記載のシステム。
前記リード配列ユニットが、操作を実行するように物理的に配列されたハードウェア論理回路を使用して構成されている１つ以上の処理エンジンのセットを使用して実装され、前記ハードウェア論理回路を使用して、
（ｉ）第１のリードを表すデータを受信し、
（ｉｉ）前記第１のリードを表す前記データを、参照配列の１つ以上の部分にマップして、整合参照配列の１つ以上の位置を同定し、
（ｉｉｉ）前記第１のリードの前記整合参照配列位置のそれぞれに対応する１つ以上の配列スコアを生成し、
（ｉｖ）前記１つ以上の配列スコアに基づいて、前記第１のリードのための１つ以上の候補配列を選択し、
（ｖ）前記第１のリードの候補配列を表すデータを出力する、請求項１１～１４のいずれか一項に記載のシステム。
前記リード配列ユニットが、１つ以上の中央演算処理装置（ＣＰＵ）又は１つ以上のグラフィックス演算処理装置（ＧＰＵ）を使用することによって１つ以上の処理エンジンのセットを使用して実装され、前記１つ以上のＣＰＵ又は１つ以上のＧＰＵＳに、
（ｉ）第１のリードを表すデータを受信させ、
（ｉｉ）前記第１のリードを表す前記データを、参照配列の１つ以上の部分にマップして、前記第１のリードの整合参照配列の１つ以上の位置を同定させ、
（ｉｉｉ）前記第１のリードの前記整合参照配列位置のそれぞれに対応する１つ以上の配列スコアを生成させ、
（ｉｖ）前記１つ以上の配列スコアに基づいて、前記第１のリードのための１つ以上の候補配列を選択させ、
（ｖ）前記第１のリードの候補配列を表すデータを出力させる、ソフトウェア命令を実行する、請求項１１～１４のいずれか一項に記載のシステム。
前記操作が、
前記リード配列ユニットによって、まだ配列されていない複数のリードを受信することと、
前記リード配列ユニットによって、前記複数のリードの第１のサブセットを配列させることと、
前記リード配列ユニットによって、配列されたリードの前記第１のサブセットをメモリデバイス内に記憶することと、を更に含み、
１つ以上のコンピュータによって、リード配列ユニットから複数の配列されたリードを表す第１のデータを取得することは、１つ以上のコンピュータによって、前記メモリデバイスから配列されたリードの前記第１のサブセットを取得することと、前記リード配列ユニットが、まだ配列していない前記複数のリードの第２サブセットを配列させている間に、請求項１１に記載の操作のうちの１つ以上を実行することと、を含む、請求項１１～１６のいずれか一項に記載のシステム。
前記リード配列ユニットの前記出力に基づいて生成された前記データが、変異体対立遺伝子頻度のカウント、特異リード配列のカウント、転写物にわたるリード確率、ＭＡＰＱスコア、又は親遺伝子間の相同性を示すデータのうちの任意の１つ以上を含む、請求項１１～１７のいずれか一項に記載のシステム。
前記特定の融合候補が、前記出力データに基づいて有効な遺伝子融合候補に対応するかどうかを決定することが、
１つ以上のコンピュータによって、前記出力データが所定の閾値を満たすかどうかを決定することと、
前記出力データが前記所定の閾値を満たすと決定することに基づいて、前記特定の融合候補が有効な遺伝子融合候補に対応すると決定することと、を含む、請求項１１～１８のいずれか一項に記載のシステム。
前記特定の融合候補が、前記出力データに基づいて有効な遺伝子融合候補に対応するかどうかを決定することが、
１つ以上のコンピュータによって、前記出力データが所定の閾値を満たすかどうかを決定することと、
前記出力データが前記所定の閾値を満たさないと決定することに基づいて、前記特定の融合候補が有効な遺伝子融合候補に対応しないと決定することと、を含む、請求項１１～１９のいずれか一項に記載のシステム。
１つ以上のコンピュータによって実行可能な命令を含むソフトウェアを記憶している非一時的コンピュータ可読媒体であって、前記命令が、このような実行時に、前記１つ以上のコンピュータに、
リード配列ユニットからの複数の配列されたリードを表す第１のデータを取得することと、
前記取得された第１のデータ内に含まれる複数の遺伝子融合候補を同定することと、
前記複数の遺伝子融合候補をフィルタリングして、遺伝子融合候補のフィルタ処理されたセットを決定することと、を含む操作を実行させ、
前記フィルタ処理された遺伝子融合候補の特定の遺伝子融合候補のそれぞれについて、
機械学習モデルへの入力のための入力データを生成することであって、前記入力データを生成することが、
（ｉ）前記特定の遺伝子融合候補が前記リード配列ユニットによって配列された参照配列の１つ以上のセグメントと、
（ｉｉ）前記リード配列ユニットの出力に基づいて生成されたデータと、を含むデータから、特徴データを抽出して前記特定の遺伝子融合候補を表すことを含む、入力データを生成することと、
前記生成された入力データを前記機械学習モデルへの入力として提供することであって、前記機械学習モデルは、（ｉ）前記特定の遺伝子融合候補が前記リード配列ユニットによって配列された参照配列の１つ以上のセグメントと、（ｉｉ）前記リード配列ユニットの出力に基づいて生成されたデータと、を表す前記機械学習モデル処理入力データに基づいて、遺伝子融合候補が有効な遺伝子融合である可能性を表す出力データを生成するように訓練されている、前記生成された入力データを前記機械学習モデルへの入力として提供することと、
前記生成された入力データを処理する前記機械学習モデルに基づいて、前記機械学習モデルによって生成された出力データを取得することと、
前記特定の融合候補が、前記出力データに基づいて、有効な遺伝子融合候補に対応するかどうかを決定することと、を含む、非一時的コンピュータ可読媒体。
前記入力データを生成することは、前記特定の遺伝子融合候補が前記リード配列ユニットによって配列された前記参照配列の前記セグメントのアノテーションを記述するアノテーションデータを含む特徴データを抽出することを更に含み、
前記機械学習モデルは、前記機械学習モデル処理入力データに基づいて、遺伝子融合候補が有効な遺伝子融合候補である可能性を表す出力データを生成するよう訓練されており、前記機械学習モデル処理入力データは、
（ｉ）前記特定の遺伝子融合候補が前記リード配列ユニットによって配列された参照配列の１つ以上のセグメントと、
（ｉｉ）前記特定の遺伝子融合候補が前記リード配列ユニットによって配列された前記参照配列の前記セグメントのアノテーションを記述するアノテーションデータと、
（ｉｉｉ）前記リード配列ユニットの出力に基づいて生成されたデータと、を表す、請求項２１に記載のコンピュータ可読媒体。
前記取得された第１のデータ内に含まれる複数の遺伝子融合候補を同定することが、１つ以上のコンピュータによって、複数の分割リード配列を同定することを含む、請求項２１～２２のいずれか一項に記載のコンピュータ可読媒体。
前記取得された第１のデータ内に含まれる複数の遺伝子融合候補を同定することが、１つ以上のコンピュータによって、複数の不一致リードペア配列を同定することを含む、請求項２１～２３のいずれか一項に記載のコンピュータ可読媒体。
前記リード配列ユニットが、操作を実行するように物理的に配列されたハードウェア論理回路を使用して構成されている１つ以上の処理エンジンのセットを使用して実装され、前記ハードウェア論理回路を使用して、
（ｉ）第１のリードを表すデータを受信し、
（ｉｉ）前記第１のリードを表す前記データを、参照配列の１つ以上の部分にマップして、整合参照配列の１つ以上の位置を同定し、
（ｉｉｉ）前記第１のリードの前記整合参照配列位置のそれぞれに対応する１つ以上の配列スコアを生成し、
（ｉｖ）前記１つ以上の配列スコアに基づいて、前記第１のリードのための１つ以上の候補配列を選択し、
（ｖ）前記第１のリードの候補配列を表すデータを出力する、請求項２１～２４のいずれか一項に記載のコンピュータ可読媒体。
前記リード配列ユニットが、１つ以上の中央演算処理装置（ＣＰＵ）又は１つ以上のグラフィックス演算処理装置（ＧＰＵ）を使用することによって１つ以上の処理エンジンのセットを使用して実装され、前記１つ以上のＣＰＵ又は１つ以上のＧＰＵＳに、
（ｉ）第１のリードを表すデータを受信させ、
（ｉｉ）前記第１のリードを表す前記データを、参照配列の１つ以上の部分にマップして、前記第１のリードの整合参照配列の１つ以上の位置を同定させ、
（ｉｉｉ）前記第１のリードの前記整合参照配列位置のそれぞれに対応する１つ以上の配列スコアを生成させ、
（ｉｖ）前記１つ以上の配列スコアに基づいて、前記第１のリードのための１つ以上の候補配列を選択させ、
（ｖ）前記第１のリードの候補配列を表すデータを出力させる、請求項２１～２４のいずれか一項に記載のコンピュータ可読媒体。
前記操作が、
前記リード配列ユニットによって、まだ配列されていない複数のリードを受信することと、
前記リード配列ユニットによって、前記複数のリードの第１のサブセットを配列させることと、
前記リード配列ユニットによって、配列されたリードの前記第１のサブセットをメモリデバイス内に記憶することと、を更に含み、
リード配列ユニットから複数の配列されたリードを表す第１のデータを取得することは、前記メモリデバイスから配列されたリードの前記第１のサブセットを取得することと、前記リード配列ユニットが、まだ配列していない前記複数のリードの第２のサブセットを配列させている間に、請求項２１に記載の操作のうちの１つ以上を実行することと、を含む、請求項２１～２６のいずれか一項に記載のコンピュータ可読媒体。
前記リード配列ユニットの前記出力に基づいて生成された前記データが、変異体対立遺伝子頻度のカウント、特異リード配列のカウント、転写物にわたるリード確率、ＭＡＰＱスコア、又は親遺伝子間の相同性を示すデータのうちの任意の１つ以上を含む、請求項２１～２７のいずれか一項に記載のコンピュータ可読媒体。
前記特定の融合候補が、前記出力データに基づいて有効な遺伝子融合候補に対応するかどうかを決定することが、
前記出力データが所定の閾値を満たすかどうかを決定することと、
前記出力データが前記所定の閾値を満たすと決定することに基づいて、前記特定の融合候補が有効な遺伝子融合候補に対応すると決定することと、を含む、請求項２１～２８のいずれか一項に記載のコンピュータ可読媒体。
前記特定の融合候補が、前記出力データに基づいて有効な遺伝子融合候補に対応するかどうかを決定することが、
前記出力データが所定の閾値を満たすかどうかを決定することと、
前記出力データが前記所定の閾値を満たさないと決定することに基づいて、前記特定の融合候補が有効な遺伝子融合候補に対応しないと決定することと、を含む、請求項２１～２９のいずれか一項に記載のコンピュータ可読媒体。