JP2023503739A - 遺伝子融合の迅速な検出 - Google Patents

遺伝子融合の迅速な検出 Download PDF

Info

Publication number
JP2023503739A
JP2023503739A JP2021557678A JP2021557678A JP2023503739A JP 2023503739 A JP2023503739 A JP 2023503739A JP 2021557678 A JP2021557678 A JP 2021557678A JP 2021557678 A JP2021557678 A JP 2021557678A JP 2023503739 A JP2023503739 A JP 2023503739A
Authority
JP
Japan
Prior art keywords
read
data
gene fusion
sequence
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021557678A
Other languages
English (en)
Inventor
ヴィラジ・デシュパンデ
ヨハン・フェリックス・ウィルヘルム・シュレジンジャー
ショーン・トゥルオン
ジョン・クーパー・ロディ
マイケル・ルーレ
セヴリーヌ・カトリュクス
ラミ・メヒオ
Original Assignee
イルミナ インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by イルミナ インコーポレイテッド filed Critical イルミナ インコーポレイテッド
Publication of JP2023503739A publication Critical patent/JP2023503739A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis

Abstract

生体サンプル中の遺伝子融合を同定するためのコンピュータプログラムを含む方法、システム、及び装置が開示される。本方法は、複数の配列されたリードを表す第1のデータを取得する操作と、取得された第1のデータ内に含まれる複数の融合候補を同定する操作と、フィルタ処理された融合候補のセットの特定の融合候補ごとに、複数の融合候補をフィルタリングして、融合候補のフィルタ処理されたセットを決定する操作と、を含み得るが、1つ以上のコンピュータによって、特定の融合候補を表す抽出された特徴データを含む機械学習モデルに入力するための入力データを生成し、融合候補が有効な遺伝子融合である可能性を表す出力データを生成するように訓練された機械学習モデルへの入力として生成された入力データを提供し、特定の融合候補が出力データに基づいて有効な遺伝子融合に対応するかどうかを決定する。

Description

(関連出願の相互参照)
本出願は、米国特許仮出願第62/944,304号(2019年12月5日出願)の利益を主張し、その全体が参照として本明細書に組み込まれる。
遺伝子融合は、癌などの疾患の治療において重要な診断及び治療標的である発癌動因として使用することができる。
本開示の革新的な一態様によれば、生体サンプル中の1つ以上の遺伝子融合を同定するためのコンピュータ実装方法が開示される。一態様では、方法は、1つ以上のコンピュータによって、リード配列ユニットから複数の配列されたリードを表す第1のデータを取得する操作と、1つ以上のコンピュータによって、取得された第1のデータ内に含まれる複数の遺伝子融合候補を同定する操作と、1つ以上のコンピュータによって、複数の遺伝子融合候補をフィルタリングして、フィルタ処理された遺伝子融合候補のセットを決定する操作と、を含み得、フィルタ処理された遺伝子融合候補の特定の遺伝子融合候補のそれぞれについて、1つ以上のコンピュータによって、機械学習モデルへの入力のための入力データを生成することであって、入力データを生成することが、(i)特定の遺伝子融合候補がリード配列ユニットによって配列された参照配列の1つ以上のセグメントと、(ii)リード配列ユニットの出力に基づいて生成されたデータと、を含むデータから、特徴データを抽出して特定の遺伝子融合候補を表すことを含む、入力データを生成することと、1つ以上のコンピュータによって、生成された入力データを機械学習モデルへの入力として提供することであって、機械学習モデルは、(i)特定の遺伝子融合候補がリード配列ユニットによって配列された参照配列の1つ以上のセグメントと、(ii)リード配列ユニットの出力に基づいて生成されたデータと、を表す機械学習モデル処理入力データに基づいて、遺伝子融合候補が有効な遺伝子融合である可能性を表す出力データを生成するように訓練されている、生成された入力データを機械学習モデルへの入力として提供することと、1つ以上のコンピュータによって、生成された入力データを処理する機械学習モデルに基づいて、機械学習モデルによって生成された出力データを取得することと、1つ以上のコンピュータによって、特定の遺伝子融合候補が、出力データに基づいて、有効な遺伝子融合候補に対応するかどうかを決定することと、を含み得る。
その他のバージョンは、コンピュータ可読記憶デバイス上に符号化された命令によって定義される方法のアクションを実行するための、対応するシステム、装置、及びコンピュータプログラムを含む。
これら及びその他のバージョンは、任意で、以下の特徴のうちの1つ以上を含んでもよい。例えば、いくつかの実装形態では、入力データを生成することは、特定の遺伝子融合候補がリード配列ユニットによって配列された参照配列のセグメントのアノテーションを記述するアノテーションデータを含む特徴データを抽出することを更に含む。このような実装形態では、機械学習モデルは、(i)特定の遺伝子融合候補がリード配列ユニットによって配列された参照配列の1つ以上のセグメントと、(ii)特定の遺伝子融合候補がリード配列ユニットによって配列された参照配列のセグメントのアノテーションを記述するアノテーションデータと、(iii)リード配列ユニットの出力に基づいて生成されたデータと、表す、機械学習モデル処理入力データに基づいて、遺伝子融合候補が有効な遺伝子融合候補である可能性を表す出力データを生成するよう訓練されている。
いくつかの実装形態では、1つ以上のコンピュータによって、取得された第1のデータ内に含まれる複数の遺伝子融合候補を同定することは、1つ以上のコンピュータによって、複数の分割リード配列を同定することを含み得る。
いくつかの実装形態では、1つ以上のコンピュータによって、取得された第1のデータ内に含まれる複数の遺伝子融合候補を同定することは、1つ以上のコンピュータによって、複数の不一致リードペア配列を同定することを含む。
いくつかの実装形態では、リード配列ユニットは、操作を実行するように物理的に配置されたハードウェア論理回路を使用して構成されている1つ以上の処理エンジンセットを使用して実装され、ハードウェア論理回路を使用して、(i)第1のリードを表すデータを受信し、(ii)第1のリードを表すデータを、参照配列の1つ以上の部分にマップして、整合参照配列の1つ以上の位置を同定し、(iii)第1のリードの整合参照配列位置のそれぞれに対応する1つ以上の配列スコアを生成し、(iv)1つ以上の配列スコアに基づいて、第1のリードのための1つ以上の候補配列を選択し、(v)第1のリードの候補配列を表すデータを出力する。
いくつかの実装形態では、リード配列ユニットは、1つ以上の中央演算処理装置(CPU)又は1つ以上のグラフィックス演算処理装置(GPU)を使用することによって1つ以上の処理エンジンのセットを使用して実装され、1つ以上のCPU又は1つ以上のGPUSに、(i)第1のリードを表すデータを受信させ、(ii)第1のリードを表すデータを、参照配列の1つ以上の部分にマップして、第1のリードの整合参照配列の1つ以上の位置を同定させ、(iii)第1のリードの整合参照配列位置のそれぞれに対応する1つ以上の配列スコアを生成させ、(iv)1つ以上の配列スコアに基づいて、第1のリードのための1つ以上の候補配列を選択させ、(v)第1のリードの候補配列を表すデータを出力させる、ソフトウェア命令を実行する。
いくつかの実装形態では、方法は、リード配列ユニットによって、まだ配列されていない複数のリードを受信することと、リード配列ユニットによって、複数のリードの第1のサブセットを配列させることと、リード配列ユニットによって、配列されたリードの第1のサブセットをメモリデバイス内に記憶することと、を更に含み得る。このような実装形態では、1つ以上のコンピュータによって、リード配列ユニットから複数の配列されたリードを表す第1のデータを取得することは、1つ以上のコンピュータによって、メモリデバイスから配列されたリードの第1のサブセットを取得することと、リード配列ユニットが、まだ配列されていない複数のリードの第2のサブセットを配列させている間に、請求項1に記載の1つ以上の操作を実行することと、を含み得る。
いくつかの実装形態では、リード配列ユニットの出力に基づいて生成されたデータは、変異体対立遺伝子頻度のカウント、特異リード配列のカウント、転写物にわたるリード確率、MAPQスコア、又は親遺伝子間の相同性を示すデータのうちの任意の1つ以上を含み得る。
いくつかの実装形態では、特定の融合候補が、出力データに基づいて有効な遺伝子融合候補に対応するかどうかを決定することは、1つ以上のコンピュータによって、出力データが所定の閾値を満たすかどうかを決定することと、出力データが所定の閾値を満たすと決定することに基づいて、特定の融合候補が有効な遺伝子融合候補に対応すると決定することと、を含み得る。
いくつかの実装形態では、特定の融合候補が、出力データに基づいて有効な遺伝子融合候補に対応するかどうかを決定することは、1つ以上のコンピュータによって、出力データが所定の閾値を満たすかどうかを決定することと、出力データが所定の閾値を満たさないと決定することに基づいて、特定の融合候補が有効な遺伝子融合候補に対応しないと決定することと、を含み得る。
本開示のこれら及びその他の革新的な態様は、発明を実施するための形態、添付図面、及び特許請求の範囲を考慮することで容易に明らかである。
有効な遺伝子融合を迅速に検出するためのシステムの一例のブロック図である。
有効な遺伝子融合の迅速な検出を行うためのプロセスの一例のフローチャートである。
有効な遺伝子融合を迅速に検出するためのシステムの別の例のブロック図である。
有効な遺伝子融合の迅速な検出のためのシステムを実装するために使用され得るシステム構成要素のブロック図である。
本開示は、遺伝子融合を迅速に検出するためのシステム、方法、装置、コンピュータプログラム、又はこれらの任意の組み合わせに関する。特定の遺伝子融合の存在は、特定の疾患の重要な指標、特定の疾患の特定の治療法の使用を示唆する指標、又はこれらの組み合わせであり得る。例えば、特定の遺伝子融合は、特定の種類の癌、例えば、急性骨髄性白血病及び慢性骨髄性白血病、脊髄形成異常性症候群(MDS)、軟組織肉腫、又はその治療の指標であり得る。本開示は、各融合候補が有効な遺伝子融合であるかどうかを決定するために処理された遺伝子融合候補(本明細書では「融合候補」とも呼ばれる)の数を低減するために、フィルタリングエンジンを使用することによって、正確な遺伝子融合を迅速に検出することができる。このフィルタリングエンジンは、候補遺伝子融合のフィルタ処理されたサブセットのみを、本明細書に記載された更なる下流処理のために促進することができるため、後続分析のために融合候補をより正確に選択することを可能にする一方で、有効な遺伝子融合を同定するために費やされる必要性がある演算リソースの低減を達成することもできる。
候補遺伝子融合セットの低減もまた、他の技術的利点を提供する。例えば、本明細書にて開示する方法及びシステムは、全ての遺伝子融合候補を処理及び採点する従来の方法と比較して、低減された実行時間を提供する。その操作を実行するための低減された実行時間はまた、処理リソース(例えば、CPU又はGPUリソース)の消費量、メモリ使用量、及び電力消費の低減をもたらす。フィルタリングエンジンは、従来の方法と比較して低減された実行時間を提供するが、本明細書にて開示する方法及びシステムはまた、実行時間を低減するための他の方法も提供し得る。例えば、いくつかの実装形態では、実行時間における更なる低減は、候補遺伝子融合を処理するために使用されるメタデータのマッピング、配列、及び生成を実行するために、ハードウェア・アクセラレートリード配列ユニット(hardware-accelerated read alignment unit)を使用することによって達成され得る。
図1は、有効な遺伝子融合を迅速に検出するためのシステム100の一例のブロック図である。システム100は、核酸配列決定デバイス110と、メモリ120と、二次解析ユニット130と、融合候補同定モジュール140と、融合候補フィルタリングモジュール150と、特徴セット生成モジュール160と、機械学習モデル170と、遺伝子融合決定モジュール180と、出力アプリケーションプログラムインターフェース(API)モジュール190と、出力ディスプレイ195と、を含み得る。図1の実施例では、これらの構成要素のそれぞれは、核酸配列決定デバイス110内に実装されるものとして記載される。しかしながら、本開示は、このような実施形態に限定されない。
その代わりに、いくつかの実装形態では、図1に記載された構成要素のうちの1つ以上は、核酸配列決定デバイス110の外側のコンピュータ上で実行され得る。例えば、いくつかの実装形態では、二次解析モジュールは、核酸配列決定デバイス110内に実装されてもよく、融合候補同定モジュール140、融合候補フィルタリングモジュール150、特徴セット生成モジュール160、機械学習モデル170、遺伝子融合決定モジュール180、出力アプリケーションプログラムインターフェース(API)モジュール190は、1つ以上の異なるコンピュータ内に実装され得る。このような実装形態では、1つ以上の異なるコンピュータ及び核酸配列決定デバイスは、1つ以上の有線ネットワーク、1つ以上の無線ネットワーク、又はこれらの組み合わせを使用して通信可能に連結され得る。
本明細書の目的のために、用語「モジュール」は、1つ以上のソフトウェア構成要素、1つ以上のハードウェア構成要素、又はこれらの任意の組み合わせを含み、これらは、本明細書によるそれぞれのモジュールに起因する機能性を実現するために使用され得る。一般に、本明細書に記載された「モジュール」は、本明細書に記載されたモジュールの機能性を実現するために、ソフトウェア命令を実行するための1つ以上のプロセッサを使用する。プロセッサは、中央演算処理装置(CPU)、グラフィック演算処理装置(GPU)等を含み得る。
同様に、本明細書で使用される用語「ユニット」は、1つ以上のソフトウェア構成要素、1つ以上のハードウェア構成要素、又はこれらの任意の組み合わせを含み、これらは、本明細書によるそれぞれのユニットに起因する機能性を実現するために使用され得る。一般に、本明細書に記載される「ユニット」は、本明細書に記載されたユニットの機能を実現する操作を実行するように処理エンジンとして配置された、ハードワイヤードデジタル論理ゲート又はハードワイヤードデジタル論理ブロックなどの1つ以上のハードウェア構成要素を使用する。このようなハードワイヤードデジタル論理ゲート又はハードワイヤードデジタル論理回路は、フィールド・プログラマブル・ゲート・アレイ(FPGA)、特定用途向け集積回路(ASIC)などを含み得る。
核酸配列決定デバイス110(本明細書では配列決定デバイス110とも呼ばれる)は、一次核酸配列解析を行うように構成されている。一次解析を実施することは、配列決定デバイス110によって、血液サンプル、組織サンプル、痰、又は核酸サンプルなどの生体サンプル105を受領することと、配列決定デバイス110によって、受領した生体サンプルの核酸配列のヌクレオチドの順序をそれぞれ表す1つ以上のリード112などの出力データを生成することと、を含み得る。いくつかの実装形態では、核酸シーケンサ110による配列決定は、複数のリードサイクルで実行され得、第1のリードサイクル「リード1」は、核酸配列フラグメントの第1の端部からのヌクレオチドの順序を表す1つ以上の第1のリードを生成し、第2のリードサイクル「リード2」は1つ以上の第2のリードを生成し、それぞれ、核酸配列フラグメントのうちの1つのその他の端部からのヌクレオチドの順序を表す。いくつかの実装形態では、リードは、長さが約80~120のヌクレオチドの短いリードであり得る。しかしながら、本開示は、任意の特定のヌクレオチド長のリードに限定されない。その代わりに、本開示は、任意のヌクレオチド長のリードに使用され得る。
いくつかの実装形態では、生体サンプル105は、DNAサンプルを含み得、核酸シーケンサ110は、DNAシーケンサを含み得る。このような実装形態では、核酸シーケンサによって生成される、リード中の配列決定されたヌクレオチドの順序は、グアニン(G)、シトシン(C)、アデニン(A)、及びチミン(T)のうちの1つ以上を任意の組み合わせで含み得る。いくつかの実装形態では、核酸シーケンサ110を使用することで、生体サンプル105のRNAリードを生成し得る。このような実装形態では、このことは、RNA-seqプロトコルを使用して行うことができる。例として、逆転写酵素を使用して相補的DNA(cDNA)を形成するために、逆転写を使用して、生体サンプル105を前処理し得る。その他の実装形態では、核酸シーケンサ110は、RNAシーケンサを含み得、生体サンプルは、RNAサンプルを含み得る。cDNAを使用して、又はRNAシーケンサを介して生成されたRNAリードは、C、G、A、及びUracil(U)から構成され得る。本明細書に記載された図1の実施例は、RNAリードの生成及び解析に関して説明される。しかしながら、本開示は、DNA又はRNAリードを含む任意の種類の核酸配列リードを生成及び解析するために使用され得る。
配列決定デバイス110は、所与のサンプルに関して、大規模並列配列決定技術(massively parallel sequencing technology)の使用による超高スループット、超高スケーラビリティ、及び超高速度を達成する方法で、リード112-1、112-2、112-n(「n」は、0を超える任意の正の整数である)などの配列リードを生成するように構成されている、次世代シーケンサ(NGS)を含み得る。NGSは、ゲノム全体の迅速な配列決定と、深く配列決定された標的領域にズームするか、RNA配列決定(RNA-Seq)を利用して、新規RNA変異体及びスプライス部位を発見するか、又は遺伝子発現解析、ゲノムワイドDNAメチル化及びDNA-タンパク質相互作用などのエピジェネティック因子の解析、希少体細胞変異体及び腫瘍サブクローンを研究するための癌サンプルの配列決定、例えばヒト又は環境における微生物多様性の研究のためのmRNAを定量化する能力と、を可能にする。
配列決定デバイス110は、生体サンプル105を配列し、A、C、T、及びGを使用して表されるリードの対応するセットを生成し得る。配列決定デバイスは、次に、逆転写を実行して、対応するRNA配列を表すcDNA配列を生成し得る。これらのRNA配列リード112-1、112-2、112-nは、配列決定デバイス110によって出力され、メモリデバイス120内に記憶される。いくつかの実装形態では、RNA配列リード112-1、112-2、112-nは、メモリデバイス120内のリード112-1、112-2、112-nの記憶に先立って、より小さいサイズのデータレコード内へと圧縮されてもよい。メモリデバイス120は、二次解析ユニット130、融合候補同定モジュール140、融合候補フィルタリングモジュール150、特徴セット生成モジュール160、機械学習モデル170、遺伝子融合決定モジュール180、及び出力APIモジュール190を含む、図1の構成要素のそれぞれによって、アクセス可能であり得る。それぞれのモジュールは、第1のモジュールの出力を第2のモジュールに提供するものとして示されてもよいが、このような機能の実際的な実装は、メモリ120などのメモリデバイス内に出力を記憶する第1のモジュールと、メモリデバイスから記憶された出力にアクセスして、アクセスした出力を第2のモジュールへの入力として処理する第2のモジュールと、を含んでもよい。
二次解析ユニット130は、メモリデバイス120内に記憶されたリード112-1、112-2、112-nにアクセスし、リード112-1、112-2、112-nに対して1つ以上の二次解析操作を実行し得る。いくつかの実装形態では、リード112-1、112-2、112-nは、圧縮データレコードでメモリデバイス120内に記憶されてもよい。このような実装形態では、二次解析ユニットは、リード記録に対して二次解析操作を実行するのに先立って、圧縮されたリード記録に対して展開操作を実行し得る。二次解析操作は、1つ以上のリードを参照ゲノムにマッピングすることと、1つ以上のリードを参照ゲノムに配列させること、又はその両方を含み得る。いくつかの実装形態では、二次解析操作はまた、変異体コーリング操作を含み得る。二次解析操作の実行に加えて、二次解析ユニット130はまた、分類操作を実行するように構成され得る。分類操作としては、例えば、配列されたリードがマップされた参照ゲノム内の位置に基づいて、二次解析ユニットによって配列されたリードを順序付けることを含み得る。
図1の実施例などのいくつかの実装形態では、二次解析ユニット130は、メモリ132及びプログラマブル論理デバイス134を含み得る。プログラマブル論理デバイス134は、リード配列ユニット136などの1つ以上の二次解析操作ユニットを含むように動的に構成され得るハードウェア論理回路を有することができ、ハードウェア論理回路を使用して1つ以上の二次解析操作を実行するために使用され得る。プログラマブル論理デバイス134を、リード配列ユニット136などの二次解析操作ユニットを含むように動的に構成することは、例えば、リード配列ユニット136のハードウェア論理において、プログラマブル論理デバイス134に、機能を実現するように構成されているハードワイヤードデジタル論理構成内へとプログラマブル論理デバイス134のハードウェア論理ゲートを配列させる1つ以上の命令を、プログラマブル論理デバイス134に提供することを含み得る。
プログラマブル論理デバイス134の動的構成を誘発する1つ以上の操作は、コンパイルされたハードウェア記述言語コードと、コンパイルされたハードウェア記述言語コードに基づいてそれ自体を構成するための、プログラマブル論理デバイス134のための1つ以上の命令等と、を含み得る。プログラマブル論理デバイス134の動的構成を誘発するこのような操作は、配列決定デバイス110、又は制御プログラムをホスティングするその他のコンピュータによって実行される制御プログラムによって、プログラマブル論理デバイス134に生成され得、かつプログラマブル論理デバイス134に展開され得る。いくつかの実装形態では、制御プログラムは、命令がメモリ120などのメモリデバイス内に存在するソフトウェアモジュールとすることができる。プログラマブル論理デバイス134を構成するための命令ハードウェア記述言語コード又はその他の命令を生成及び展開するための制御プログラムの機能性は、1つ以上のCPU又は1つ以上のGPUなどの1つ以上のプロセッサを使用して、制御プログラムソフトウェアモジュールを実行することによって実現し得る。
リード配列ユニット136の機能性は、配列決定デバイス110によってメモリ120内に記憶されたRNAリード112-1、112-2、112-nなどの1つ以上の第1のリードを取得することと、取得した第1のリード112-1、112-2、112-nを参照配列の1つ以上の参照配列位置にマッピングすることと、次に、マップされた第1のリード112-1、112-2、112-nを参照配列に配列させることと、を含み得る。すなわち、マッピング段階は、特定のリードに一致する取得された第1のリードのそれぞれの特定のリードの候補参照配列位置のセットを同定し得る。次に、配列段階は、候補参照配列位置のそれぞれを採点し、特定のリードのための正確な配列として最も高い配列スコアを有する特定の参照配列位置を選択し得る。参照配列は、周知のゲノムに対応する編成された一連のヌクレオチドを含み得る。
制御プログラムからの1つ以上の命令に応答してプログラマブル論理デバイス134のハードウェア論理ゲートを配置することは、ANDゲート、ORゲート、NORゲート、XORゲート、又はこれらの任意の組み合わせなどの論理ゲートを構成することで、リード配列ユニット136のデジタル論理機能を実行することを含み得る。あるいは又は加えて、ハードウェア論理ゲートを配列することは、加算、乗算、比較等を含む複雑な演算操作を実行するようにカスタマイズ可能なハードウェア論理ユニットを含む、動的に構成された論理ブロックを含み得る。ハードウェア論理ゲート、論理ブロック、又はこれらの組み合わせの正確な配列は、制御プログラムから受信した命令によって定義される。受信した命令は、エンティティによって書かれ、プログラマブル論理デバイス134へとプログラムされる二次解析操作ユニットの概略レイアウトを定義する、コンパイルされたハードウェア記述言語(HDL)プログラムコードを含み得るか、又はそれから導出される。HDLプログラムコードは、超高速集積回路ハードウェア記述言語(VHDL)、Verilog等の言語で書かれたプログラムコードを含み得る。このエンティティは、HDLプログラムコードを下書きする1人以上のヒトユーザー、HDLプログラムコードを生成する1つ以上の人工知能エージェント、又はこれらの組み合わせを含み得る。
プログラマブル論理デバイス134は、任意の種類のプログラマブル論理デバイスを含み得る。例えば、プログラマブル論理デバイス134は、制御プログラムによって特定のワークフローを実行するために、必要に応じて動的に構成可能であり、再構成可能である、1つ以上のフィールド・プログラマブル・ゲート・アレイ(FPGA)、1以上の複合プログラマブル論理デバイス(CPLD)、1つ以上のプログラマブル論理アレイ(PLA)、又はこれらの組み合わせを含み得る。例えば、いくつかの実装形態では、上述のように、プログラマブル論理デバイス134をリード配列ユニット136として使用することが望ましい場合がある。しかしながら、その他の実装形態では、プログラマブル論理デバイス134を使用して、変異体コーリング機能、又は隠れマルコフ・モデル(HMM)ユニットなどの変異体コーリングの支持における機能を実行することが望ましい場合がある。更にその他の実装形態では、プログラマブル論理デバイス134はまた、プログラマブル論理デバイス134のハードウェアロジックが、これらのタスクを実行することが可能であり、上記で同定されたその他のタスクが、1つ以上の演算処理ユニット150によって実行されるソフトウェア命令を使用した同じタスクの実行よりもはるかに速い故に、圧縮及び展開などの一般的な演算タスクを支持するように動的に構成され得る。いくつかの実装形態では、プログラマブル論理デバイス134は、異なる操作を実行するために、実行時間中に動的に再構成することができる。
例として、いくつかの実装形態では、プログラマブル論理デバイス134は、メモリデバイス120又は132内に記憶された第1のリード112-1、112-2、112-nの圧縮バージョンを表すデータにアクセスするために、展開ユニットとして動的に構成されるFPGAを使用して実装され得る。二次解析ユニット130は、(例えば、核酸シーケンサから受信したリードが圧縮された場合)展開ユニットを使用して、第1のリード112-1、112-2、122-nを表す圧縮データを展開し得る。展開ユニットは、メモリ120又は132内に展開されたリードを記憶し得る。このような実装形態では、FPGAは、次に、リード配列ユニット136として動的に再構成され、今度はメモリ132又は120内に記憶されている圧縮された第1のリード112-1、112-2、112-nのマッピング及び配列を実行するために使用され得る。リード配列ユニット136は、次に、メモリ132又は120内の、マップされ配列されたリードを表すデータを記憶し得る。一連の操作は、展開操作及びマッピング操作及び配列操作を含むものとして記載されているが、本開示は、これらの操作を実行することに限定されるものではなく、又はこれらの操作のみを実行することに限定されるものではない。代わりに、プログラマブル論理デバイス134は、本明細書に記載された機能性を実現するために、必要に応じて、任意の順序で任意の操作ユニットの機能性を実行するように動的に構成され得る。
図1の実施例は、リード配列ユニット136を実装するためにプログラマブル論理デバイス134の形態のハードウェア論理デバイスを使用する二次解析ユニット130を説明する。しかしながら、本開示は、リード配列ユニット136を実装するためにプログラマブル論理デバイスを使用することに限定されない。代わりに、他の種類の集積回路を使用して、二次解析ユニット130のハードワイヤードデジタル論理内にリード配列ユニット136を実装し得る。例えば、いくつかの実装形態では、二次解析ユニット143は、1つ以上の特定用途向け集積回路(ASIC)を使用して、1つ以上の二次解析操作ユニットの機能性を実現するように構成され得る。再プログラム可能ではないが、1つ以上のASICは、二次解析操作の実行を加速及び並行化するために、リード配列ユニット136、変異体コーリングユニット、変異体コーリング演算支持ユニット等などの1つ以上の二次解析操作ユニットのカスタムハードウェア論理を用いて設計され得る。いくつかの実装形態では、1つ以上の二次解析操作ユニットの機能性を実現する、二次解析ユニット130のハードワイヤード論理回路としての、1つ以上のASICの使用は、FPGAなどのプログラマブル論理デバイスを使用するよりも更に高速であり得る。したがって、当業者であれば、本明細書に記載された実施形態のいずれかにおけるFPGAなどのプログラマブル論理デバイスの代わりに、ASICを使用し得ることを理解するであろう。ASICが採用される実装形態では、ASICによって実行される二次解析操作ユニットごとに、専用のASIC又は単一のASICの専用論理グループを用いる必要がある。例として、リード配列のための1つ以上のASIC、展開のための1つ以上のASIC、圧縮のための1つ以上のASIC、又はこれらの組み合わせがある。あるいは、同じ機能性はまた、同じASIC内の専用論理グループで達成され得る。
加えて、図1及び図3のシステム100及び300に関して説明される本開示の実施例は、それぞれ、プログラマブル論理デバイスにおけるリード配列ユニット136のハードウェア実装の使用に関して記載される。加えて、1つ以上のASICを使用して、リード配列エンジン又はその他の二次解析操作ユニットを実装し得ることが、上記に示されている。しかしながら、本開示は、このような二次解析操作を実施するためのハードウェアユニットの使用に限定されない。代わりに、いくつかの実装形態では、リード配列、圧縮、又は展開などのプログラマブル論理デバイスによって実行されるような本明細書に記載された操作のいずれかもまた、1つ以上のソフトウェアモジュールを使用して実施され得る。
図1の実施例を参照すると、システム100の実行は、配列決定デバイス110が生体サンプル105を配列決定することで開始され得る。生体サンプルを配列決定することは、配列決定デバイス110によって、生体サンプル105中に存在するヌクレオチドの順序付けられた配列のデータ表現であるリード配列を生成することを含み得る。システム100がDNAリードを処理するように構成されている場合、次に、配列決定デバイス110によって生成されたリードは、メモリ120内に記憶され得る。
あるいは、いくつかの実装形態では、システム100がRNAリードを処理するように構成されている場合、配列決定デバイス110は、逆転写酵素を使用して相補的DNA(cDNA)を形成する逆転写を使用して、生体サンプル110の前処理を実行するように構成され得る。図1の実施例での実装形態などの、このような実装形態では、配列決定デバイス110によって生成されたリードは、RNAリード112-1、112-2、112-nを含む。その他の実装形態では、核酸シーケンサ110はRNAシーケンサを含み得、生体サンプルはRNAサンプルを含み得る。RNAリードが、cDNAを使用するDNA配列決定デバイスによって、又はRNAシーケンサを介して生成されるかどうかにかかわらず、RNAリードはそれぞれ、C、G、A、及びUからなるヌクレオチドの配列を含む。リード112-1、112-2、112-nは、圧縮形式又は非圧縮形式でメモリ120内に記憶され得る。
システム100の実行は、二次解析ユニット130がメモリ120内に記憶されたリード112-1、112-2、112-nを取得することで続行し得る。いくつかの実装形態では、二次解析ユニット130は、メモリデバイス120内のリード112-1、112-2、112-nにアクセスし、アクセスされたリード112-1、112-2、122-nを二次解析ユニット130のメモリ132内へと記憶し得る。その他の実装形態では、リード112-1、112-2、112-nの配列決定が完了し、二次解析ユニット130が二次解析操作を実行するために利用可能である制御プログラムによる決定の際に、制御プログラムは、リード112-1、112-2、112-nを二次解析ユニット130のメモリ132内へとロードし得る。
リード112-1、112-2、112-nが圧縮された場合、二次解析ユニット130は、メモリ132又は120内のリード112-1、112-2、112-nにアクセスして、リード112-1、112-2、112-nを展開し、次に、展開されたリード112-1、112-2、112-nをメモリ1320又は120内に記憶するために、展開ユニットとしてプログラマブル論理デバイス134を動的に構成し得る。いくつかの実装形態では、二次解析ユニットは、プログラマブル論理デバイスを動的に再構成し、制御プログラムからの命令に応答して展開を実行し得る。
リード112-1、112-2、122-nが圧縮されない場合、二次解析ユニット130は、メモリ132又は120からのリードにアクセスし、リード配列操作を実行することができる。いくつかの実装形態では、二次解析ユニット130は、リード配列ユニット136を含むようにプログラマブル論理デバイス134を構成又は再構成するように二次解析ユニット130に命令する制御プログラムから、命令を受信し、次に、リード配列ユニット136を使用してリード112-1、112-2、112-nの配列を実行してもよい。あるいは、その他の実装形態では、プログラマブル論理デバイスは、リード配列ユニット136を含むように既に構成されていて、リード配列ユニット136を使用してリード112-1、112-2、112-nの配列を実行してもよい。更にその他の実装形態では、二次解析ユニット130は、リード配列を実行し、次に、ASICを使用してリード112-1、112-2、112-nの配列を実行するように構成されたASICを含んでもよい。
二次解析ユニット130は、遺伝子融合解析と並行して、リード配列操作を実行するように構成され得る。例えば、二次解析ユニット140は、配列していない配列決定デバイス110によって生成されたリードの第1のバッチを取得し、リード配列ユニット136を使用してリードの第1のバッチを配列させることができ、プログラムされた論理デバイス136のハードウェア構成、又はプログラム命令を実行することによってソフトウェア内に実装され得るソーティングエンジンを使用して、配列されたリードを分類し、次に、メモリデバイス132、130内での記憶のために、配列され、分類されたリードの第1のバッチを出力する。いくつかの実装形態では、メモリ132は、リード配列ユニットによって処理されるデータをロードし、次に、リード配列ユニット136によって出力されたデータをオフロードする二次解析ユニット132のローカルキャッシュとして機能し得る。したがって、配列されたリードの第1のバッチがリード配列ユニット136によってメモリ132に出力されると、配列されたリードの第1のバッチを分類し、次に、メモリ120に出力することができる。次に、融合候補同定モジュール140は、メモリ120から配列され分類されたリードの第1のバッチにアクセスし、配列され分類されたリードの第1のバッチを処理し得るが、一方で、二次解析ユニット130は、配列決定デバイス110によって生成され、従前に配列されていないリードの第2のバッチでの配列操作を実行する。本プロセスは、リードの各バッチがシステム100を通して処理されるまで反復的に実行され得る。本実施例は、配列され分類されたバッチを有するものとして記載されているが、配列されたリードのバッチも分類されることは、本開示の要件にはない。代わりに、後述のように、低減された実行時間などの性能向上を得るために、システム100又はシステム300において、配列及び分類されたリードの使用を用いることができる。
融合候補同定モジュール140は、リード配列ユニット136によって配列された、配列され分類されたリードのバッチを取得して、配列され分類されたリードのバッチが1つ以上の遺伝子融合候補を含むかどうかを決定し得る。いくつかの実装形態では、受信されたバッチが配列され分類されたリードを含む場合、次に、融合候補同定モジュール140は、バッチに対応するゲノム間隔が少なくとも1つの融合候補の切断点と重複するバッチの分類されたリードを評価し得る。これにより、下流解析を必要とする融合候補の数を低減し得る。その他の実装形態では、受信されたバッチが分類されていない配列されたリードを含む場合、次に、融合候補同定モジュール140は、配列されたリードが融合候補であるかどうかを決定するために、バッチ内の配列されたリードのそれぞれを評価し得る。いくつかの実装形態では、リードのバッチが1つ以上の融合候補を含むかどうかを融合候補同定モジュール140によって決定する操作は、融合候補同定モジュール140によって、リードのバッチが、1つ以上の分割リード配列、1つ以上の不一致リードペア、1つ以上のソフトクリップ配列、又はこれらの組み合わせを含むかどうかを決定することを含む。
いくつかの実装形態では、融合候補同定モジュール140は、融合候補として分割リード配列を同定するように構成され得る。融合候補同定モジュール140は、配列されたリードのバッチ内で各特定のリードが配列された参照配列の遺伝子を解析することによって、分割リード配列を同定し得る。融合候補同定モジュール140が、単一の遺伝子へのリードマップを決定する場合、融合候補同定モジュール140は、リードが分割リードではないと決定し得る。あるいは、融合候補同定モジュール140が、リードが2つの異なる遺伝子に配列していると決定した場合、次に、リードは分割リードであると決定され得る。このような実装形態では、分割リードは、融合候補であると決定され得る。例えば、リードのヌクレオチドの第1のサブセットが参照ゲノムの第1の親遺伝子に配列され、リードのヌクレオチドの第2のサブセットが参照ゲノムの第2の親遺伝子に配列される場合、リードは、2つの異なるリードに配列すると決定され得る。いくつかの実装形態では、ヌクレオチドの第1のサブセットはリードの接頭部であってもよく、ヌクレオチドの第2のサブセットはリードの接尾部であってもよい。融合候補同定モジュール140が分割リードを同定するように構成されている場合、分割リードを同定するデータは、もしあれば、メモリデバイス120内に記憶され得る。
いくつかの実装形態では、融合候補同定モジュール140は、融合候補として不一致リードペアを同定するように構成され得る。融合候補同定モジュール140は、配列されたリードのバッチ内で各特定のリードペアが配列された参照配列の遺伝子を解析することによって、不一致リードペアを同定し得る。リードペアが参照配列に配列され、配列の配向及び範囲が予想される配向及び範囲である場合、次に、リードペアは、不一致リードではないと決定される。あるいは、リードペアが参照配列に配列され、配列の向き又は範囲が予想外である場合、次に、リードペアは、不一致リードペアであると決定される。このような実装形態では、1つのペアにおける1つのリードが1つの親遺伝子をマップし、他が別の親遺伝子をマップする場合、不一致リードは、融合候補であると決定され得る。融合候補同定モジュール140が不一致リードを同定するように構成されている場合、不一致リードを同定するデータは、もしあれば、メモリデバイス120内に記憶され得る。
いくつかの実装形態では、融合候補同定モジュール140は、ソフトクリップ配列を同定するように構成され得る。融合候補同定モジュール140は、配列されたリードのバッチ内で各特定の配列されたリードが配列された参照配列の遺伝子を解析することによって、ソフトクリップ配列を同定し得る。いくつかの実装形態では、融合候補同定モジュール140は、リードが参照ゲノム内の単一の位置にその全体が配列されているかどうかを決定し得る。リードが参照ゲノム内の単一の位置にその全体が配列されたと融合候補同定モジュール140が決定した場合、次に、融合候補同定モジュール140は、リードがソフトクリップリードではないと決定し得る。あるいは、融合候補同定モジュール140が、リードの一部分のみが参照ゲノムに配列されていると決定した場合、次に、融合候補同定モジュール140は、リードがソフトクリップリードであると決定し得る。リードマップの配列された部分が1つの親遺伝子に配列され、非配列部分が別の親遺伝子と類似の配列を有すると決定された場合、次に、ソフトクリップリードは、融合候補であると決定される。融合候補同定モジュール140がソフトクリップリードを同定するように構成されている場合、ソフトクリップリードを同定するデータは、もしあれば、メモリデバイス120内に遺伝子融合候補として記憶され得る。
融合候補フィルタリングモジュール150は、融合候補同定モジュール140によって同定された融合候補のセットを記述するデータを取得し得る。いくつかの実装形態では、融合候補フィルタリングモジュールは、メモリデバイス120にアクセスし、メモリデバイス120.から融合候補を記述するデータを取得し得る。その他の実装形態では、融合候補フィルタリングモジュールは、融合候補同定モジュール140などの前述のモジュールの出力から融合候補を記述するデータを受信し得る。融合候補フィルタリングモジュール150は、遺伝子融合候補のセット全体よりも小さいフィルタ処理された遺伝子融合候補のセットを同定するために、融合候補のセットを記述するデータをフィルタ処理するための1つ以上のフィルタを使用し得る。いくつかの実装形態では、これらのフィルタは、単一の段階で適用される。例えば、1つ以上のフィルタのそれぞれを適用することができ、融合候補のセット内の各融合候補を1つ以上のフィルタのそれぞれに対して評価し得る。しかしながら、その他の実装形態では、多段階のフィルタリングアプローチを採用し得る。このような実装形態では、融合候補同定モジュール140によって同定された融合候補の初期セットに、1つ以上のフィルタの第1のセットが適用される。次に、第1のフィルタリング段階の適用後に残る、フィルタ処理された融合候補の第1のセットに、1つ以上のフィルタの第2のセットが適用される。最適なフィルタ処理された融合候補のセットを達成するために、必要に応じて追加のフィルタリング段階を適用することもできる。
いくつかの実装形態では、融合候補フィルタリングモジュール150は、ショートリード配列決定の間に使用される高深度の適用範囲から生じる重複融合候補を考慮するために、融合候補のセットをフィルタ処理し得る。例えば、30x配列決定から生じるパイルアップは、融合候補同定モジュール140が、重複している最大30の融合候補を同定することにつながり得る。融合候補フィルタリングモジュール150は、融合候補の特性にフィルタを適用して重複を確認することによって、このような重複融合候補を除去し得る。例えば、融合候補フィルタリングモジュール150は、複数の融合候補が同じ親遺伝子に配列されているか、同じ又は類似の切断点に及ぶ参照ゲノムの一部に配列されるか、又はそれらの組み合わせに配列されるかどうかを決定し得る。融合候補フィルタリングモジュール150が、同じ親遺伝子に配列される、同じ又は類似の切断点に及ぶ参照ゲノムの一部に配列される、又はそれらの組み合わせに配列される、複数の融合候補を同定する場合、融合候補フィルタリングモジュール150は、融合候補が重複しており、融合候補のうちの1つのみを代表的な融合候補として選択することを決定し得る。このような場合、同じ又は類似の切断点又はこれらの組み合わせに及ぶ参照ゲノムの一部に配列された、同じ親遺伝子に配列された残りの融合候補を、更なる下流解析なしに廃棄し得る。次に、代表的な融合候補を、メモリデバイス120などのメモリデバイス内のフィルタ処理された融合候補のセットに更に追加し得る。
あるいは又は加えて、融合候補フィルタリングモジュール150は、1つ以上の規定条件に基づいて、融合候補のセットをフィルタ処理し得る。例えば、融合候補フィルタリングモジュール150は、それぞれの融合候補を解析し、融合候補が1つ以上の属性を有するかどうかを決定することが、フィルタリングモジュール150によって採用される1つ以上の規定条件を満たすかどうかを決定し得る。いくつかの実装形態では、1つ以上の規定条件は、融合候補の各部分の配列の位置、融合候補によって及んでいる切断点に対する配列の重複距離、融合候補の配列の向き、融合候補のリード配列品質、融合候補の更なるマッピング位置、又はそれらの任意の組み合わせを含み得る。
例として、融合候補フィルタリングモジュール150によって1つ以上の規定条件を使用して、配列位置に基づいて融合候補をフィルタ処理し得る。いくつかの実装形態では、例えば、融合候補フィルタリングモジュール150は、配列の全長が、所定の数を超えるヌクレオチドによって融合切断点と交差する様式で、参照配列に配列されたリードを有する融合候補をフィルタ処理する規定条件を使用するように構成され得る。いくつかの実装形態では、本規定条件の所定の数のヌクレオチドは、8個のヌクレオチドであり得る。あるいは又は加えて、融合候補フィルタリングモジュール150は、参照配列上の配列の全長が、融合切断点の所定の閾値数のヌクレオチド内に到達しないような様式で、参照配列に配列されたリードを有する融合候補をフィルタ処理するように構成され得る。いくつかの実装形態では、本規定条件についての所定の閾値数のヌクレオチドは、50個のヌクレオチドであり得る。あるいは又は加えて、融合候補フィルタリングモジュール150は、2つの融合切断点におけるリードの配列された位置が少なくとも所定の数のヌクレオチドを共有するような様式で、参照配列に配列されたリードを有する融合候補をフィルタ処理する規定条件を使用するように構成され得る。いくつかの実装形態では、所定の数の共有ヌクレオチドは、少なくとも8個のヌクレオチドを含み得る。
別の例として、融合候補フィルタリングモジュール150によって1つ以上の規定条件を使用して、配向に基づいて融合候補をフィルタ処理し得る。いくつかの実装形態では、例えば、融合候補フィルタリングモジュール150は、融合転写物内で親遺伝子のうちの少なくとも1つのヌクレオチド配列が転写したことを示す配列の配向を有する融合候補をフィルタ処理する規定条件を使用するように、構成され得る。
別の例として、融合候補フィルタリングモジュール150によって1つ以上の規定条件を使用して、マッピング品質に基づいて融合候補をフィルタリングし得る。いくつかの実装形態では、例えば、融合候補フィルタリングモジュール150は、所定の閾値を満たさないマッピング品質スコアを有するリード配列を有する融合候補をフィルタ処理する規定条件を使用するように、構成され得る。
別の例として、融合候補フィルタリングモジュール150によって1つ以上の規定条件を使用して、追加のマッピング位置に基づいて融合候補をフィルタリングし得る。いくつかの実装形態では、例えば、融合候補フィルタリングモジュール150は、融合候補のリード部分が参照配列の複数の位置にマップするとの決定に基づいて融合候補をフィルタ処理する規定条件を使用するように、構成され得る。いくつかの実装形態では、融合候補フィルタリングモジュール150は、相同遺伝子であることが注釈された位置を除外するように構成され得る。
1つ以上の規定条件のそれぞれを満たす融合候補は、メモリデバイス120などのメモリデバイス内のフィルタ処理された融合候補のセットに追加され得る。1つ以上の規定条件のそれぞれを満たさない融合候補は、更なる下流解析なしに廃棄され得る。いくつかの実装形態では、融合候補の規定条件に基づくフィルタリングは、第1段階の重複排除フィルタの適用後に、第2段階のフィルタとして適用され得る。その他の実装形態では、第1のフィルタリング段階として、融合候補の規定条件に基づくフィルタリングを適用し得、次に、重複排除フィルタを第2段階のフィルタとして適用し得る。その他の実装形態では、規定条件に基づくフィルタリングは、従来の重複排除フィルタリングなしに、単一段階のフィルタとして適用され得る。これらの規定条件のうちの1つ以上に基づいて融合候補をフィルタリングすることは、下流で更に処理する必要がある融合候補の数を大幅に低減し得る。
融合候補フィルタリングモジュール150によって、フィルタ処理された融合候補のセット内のそれぞれの融合候補に対して下流処理を実行し得る。下流処理は、特徴セット生成モジュール160、機械学習モデル170、遺伝子融合決定モジュール180、及び出力APIモジュール190の実行を含む。このような下流処理は、候補融合候補が有効な遺伝子融合に対応するかどうかを決定するために使用され得る。
特徴セット生成モジュール160は、複数のデータソースからデータを引き出して、特徴抽出を実行するデータ属性のセットを同定し得る。これらのデータソースは、融合候補についてメモリ120内に記憶された属性データを含み、(i)融合候補のリード(複数可)と、(ii)融合候補のリードが配列された参照配列位置の部分(複数可)と、(iii)特定の遺伝子融合候補が配列された参照ゲノムのセグメントのアノテーションと、を含む。いくつかの実装形態では、アノテーションは、遺伝子エクソンのアノテーション、相同遺伝子の存在を示すアノテーション、富化遺伝子のリストを示すアノテーション、又はこれらの組み合わせを含み得る。
データは、特徴セット生成モジュール160が配列プロセス中にリード配列ユニット136によって生成されたデータも含み得ることをソースする。いくつかの実装形態では、特徴セット生成モジュール160は、融合候補の配列中に、リード配列ユニット136によって生成されたデータから特徴データを導出し得る。例えば、特徴セット生成モジュール160は、リード配列ユニット136によって生成されたデータから、例えば、変異体対立遺伝子頻度数、特異リード配列数、転写物にわたるリード確率、MAPQスコア、親遺伝子間の相同性を示すデータ、又はこれらの組み合わせなどの情報を導出し得る。
特徴セット生成モジュール160は、複数のデータソースから引き出された融合候補の上述の属性のうち1つ以上を表す特徴データを生成し、機械学習モデル170への入力のために、特徴データを1つ以上のデータ構造162へとコード化するために使用され得る。例えば、いくつかの実装形態では、融合候補の属性から抽出された特徴のセット全体は、機械学習モジュール170へと組み込まれた単一のベクトル162へとコード化されてもよい。例えば、分割リード配列又はソフトクリップ配列のシナリオでは、これらの種類の融合候補の属性から抽出された特徴のそれぞれは、単一のベクトル162へとコード化され得る。
その他の実装形態では、特徴データは、すなわち、融合候補の属性から抽出されてもよく、コード化された複数の入力ベクトルであってもよい。このようなシナリオでは、入力ベクトル162は、一対の入力ベクトル162a、162bから構成されてもよい。例えば、分割リード融合候補のシナリオでは、分割リードの接頭部に関連する属性から抽出された特徴のそれぞれは、分割リードの接頭部のヌクレオチドを表す特徴を含み、接頭部が配列する参照配列のセグメントを表す特徴、及び接頭部に関連する上述の属性から抽出された任意のその他の特徴、又はこれらの任意の組み合わせを、入力ベクトル162aへとコード化してもよい。同様に、このような実装形態では、各特徴は、分割リードの接尾部のヌクレオチドを表す特徴を含む、分割リードの接尾部に関連する属性から抽出され、接尾部が配列する参照配列のセグメントを表す特徴、及び接尾部に関連する上述の属性から抽出された任意のその他の特徴、又はこれらの任意の組み合わせを、入力ベクトル162bへとコード化してもよい。別の例として、不一致リードペアが融合候補として同定される場合、次に、不一致リードペアの第1のリードを表す抽出された特徴、そこへ配列された参照配列の部分を表す抽出された特徴、不一致リードペアの第1のリードに関連する属性から抽出された特徴、又はこれらの任意の組み合わせは、入力ベクトル162aへとコード化されてもよい。同様に、このような実施例では、不一致リードペアの第2のリードを表す抽出された特徴、そこへ配列された参照配列の部分を表す抽出された特徴、不一致リードペアの第2のリードに関連する属性から抽出された特徴、又はこれらの任意の組み合わせは、入力ベクトル162bへとコード化されてもよい。
1つ以上のベクトル162のそれぞれは、生成された特徴データを数値的に表し得、特徴データは、融合候補から抽出された特徴のうちのいずれか、又は融合候補に関連するリード配列ユニット136から受信され、メモリ120内に記憶されたデータから抽出された特徴のいずれかを含む。例えば、各ベクトル162又は162a、162bは、それぞれが特定の融合候補の特定のリードの特定の特徴に対応する複数のフィールドを含み得る。特定の融合候補に依存して、これは、上述のように、1つ以上の入力ベクトルをもたらし得る。特徴セット生成モジュール160は、融合候補の特定のリードの属性において特定の特徴が表現された程度を説明するフィールドのそれぞれについての数値を決定し得る。フィールドのそれぞれについて決定された数値を使用して、融合候補のリードの属性を表す生成された特徴データを、1つ以上のそれぞれのベクトル162へとコード化し得る。融合候補の対応するリードを数値的に表す、生成された1つ以上のベクトル162a、162bは、機械学習モデル170への入力として提供される。いくつかの実装形態では、複数の概念ベクトルが融合候補のために生成される場合であっても、複数の概念ベクトルは、機械学習モデル170へと入力され得る単一ベクトル162に接触し得る。このような実装形態では、(i)接頭部の特徴が第1のベクトルに割り当てられ、接尾部の特徴が第2のベクトルに割り当てられる、特定の分割リード実装において、又は(ii)単一ベクトルの第1の部分が第1の概念ベクトルに対応し得、単一ベクトルの第2の部分が第2の概念ベクトルに対応し得る、不一致ペア実装において、複数のベクトルが保証された。
機械学習モデル170は、融合候補の特徴を表す1つ以上の入力ベクトル162を入力する処理に基づいて、融合候補が有効な遺伝子融合に対応する可能性を発生させるように訓練された深層ニューラルネットワークを含み得る。有効な遺伝子融合は、1つの親遺伝子の接頭部を別の親遺伝子の接尾部と接続するゲノム中の再配列故に、複数の遺伝子からの配列を含有するキメラ転写物である。本開示との関係においては、有効な遺伝子融合は、例えば、機械学習モデルによって生成された出力データ178が所定の閾値を満たす場合に、モデル170によって予測されていると決定される。機械学習モデル170は、入力データを受信するための入力層172と、入力層172を介して受信した入力データを処理するための1つ以上の隠れ層174a、174b、174c、及び出力データ178を提供するための出力層176と、を含み得る。各隠れ層174a、174b、174cは、1つ以上の重量又はその他のパラメータを含む。訓練中、それぞれ対応する隠れ層174a、174b、174cの重量又は他のパラメータを調節することができるが、これにより、訓練された深層ニューラルネットワークが、1つ以上の入力ベクトル162を処理する機械学習モデル170に基づいて1つ以上の入力ベクトル162が有効な遺伝子候補を示す可能性を示す、所望の標的出力178を生成する。
機械学習モデル170は、多数の異なる方法で訓練され得る。一実装形態では、機械学習モデル170は、(i)有効な融合候補の属性から抽出された特徴を表す1つ以上の入力ベクトルと、(ii)無効な融合候補の属性から抽出された特徴を表す1つ以上の入力ベクトルと、を区別するように訓練され得る。いくつかの実装形態では、このような訓練は、標識された訓練ベクトル対を使用して達成され得る。各訓練ベクトルは、訓練融合候補を表すことができるが、上記の1つ以上の入力ベクトル162と同じ種類の特徴データから構成され得る。このような実装形態では、融合候補の属性から抽出された特徴を表す1つ以上の入力ベクトル162は、有効な遺伝子融合又は無効な遺伝子融合であると標識され得る。いくつかの実装形態では、有効な遺伝子融合標識又は無効な遺伝子融合標識は、数値として表すことができる。例えば、いくつかの実装形態では、有効な遺伝子融合標識は「1」であり得、無効な遺伝子融合標識は「0」であり得る。その他の実装形態では、例えば、有効な遺伝子融合標識は、所定の閾値を満たす「0」~「1」の数であり得、無効な遺伝子融合標識は、所定の閾値を満たさない「0」~「1」の数であり得る。このような実装形態では、数が所定の閾値を満たす又は満たさない大きさは、入力ベクトルの訓練対が有効な遺伝子融合又は無効な遺伝子融合を表すという信頼度の指標である。いくつかの実装形態では、所定の閾値を満たすことは、所定の閾値を超えることを含み得る。しかしながら、実装形態は、閾値を満たすことが所定の閾値を超えないことを意味するように構成することもできる。このような実装形態は、例えば、コンパレータ及びパラメータが両方とも否定された実装形態を含み得る。
訓練中、1つ以上の訓練ベクトルの各標識されたセットは、機械学習モデル170への入力として提供され、機械学習モデル170によって処理され、次に、機械学習モデル170によって生成された訓練出力を使用して、1つ以上の訓練ベクトルの標識されたセットそれぞれについて予測標識を決定する。訓練融合候補のための一対のリードに対応する標識された1つ以上の訓練ベクトルの機械学習モデルの処理に基づいて、機械学習モデル170によって生成された予測標識を、訓練融合候補の1つ以上のリード(又はリード部分)に対応する1つ以上の訓練ベクトルの訓練標識と比較することができる。次に、機械学習モデル170のパラメータは、予測標識と訓練標識との差に基づいて調整され得る。本プロセスは、訓練融合候補に対応する1つ以上の訓練ベクトルのセットの処理に基づいて、機械学習モデル170によって生成された予測融合候補標識が、所定のレベルの誤差内で、それぞれの訓練融合候補に対応する1つ以上の訓練ベクトルのセットの訓練標識と一致するまで、それぞれの訓練融合候補に対応する複数の標識訓練ベクトル(複数可)の各々について、反復継続し得る。
いくつかの実装形態では、標識された訓練融合候補は、1人以上のヒトユーザーによってレビュー及び標識された訓練融合候補のライブラリから取得され得る。しかしながら、その他の実装形態では、標識された訓練融合候補は、シミュレータによって生成及び標識された訓練融合候補を含み得る。このような実装形態では、シミュレータを使用して、機械学習モデル170を訓練するために使用され得る訓練融合候補の異なるカテゴリの分布を作成し得る。一般に、実行時間機械学習モデル170が単一の入力ベクトル162を許容する場合、融合候補の抽出された特徴のそれぞれは、単一の入力ベクトル162をコード化しており、次に、機械学習モデル170は、上記の訓練プロセスを使用して入力ベクトル162と同じ特徴の単一入力ベクトルを使用して訓練される。同様に、実行時間機械学習モジュール170が、上述のように2つの訓練ベクトル162a、162bを許容する場合、次に、機械学習モデル170は、上記の入力ベクトル162a、162bの同じ対応する特徴をそれぞれ有する2つの入力ベクトルを使用して訓練される。すなわち、実行時間に処理される入力ベクトルの種類は、上述の訓練プロセスを使用してモデル170を訓練するために使用されるベクトルと同じ時間である。
融合候補の属性から抽出された特徴に対応する入力データ162の処理中に、各隠れ層174a、174b、174cの出力は活性化ベクトルを含み得る。各それぞれの隠れ層によって出力される活性化ベクトルは、深層ニューラルネットワークの後続層を通って伝搬され、出力層によって使用されて、出力データ178を生成し得る。図1の実施例では、機械学習モデル170は、それぞれが融合候補のリードのうちの1つに対応する別個の入力ベクトル162a、162bの機械学習モデル処理に基づいて、機械学習モデル170によって生成された組み合わせスコアを表す出力データ178を生成するように訓練される。この組み合わせスコア178は、最終隠れ層174cから受信した活性化ベクトル上で、訓練された機械学習モデル170の出力層176によって実行される演算に基づいて、訓練された機械学習モデルの出力層176によって最終的に生成される。
訓練された機械学習モデル170によって生成された出力データ178は、1つ以上の入力ベクトル162に対応する融合候補が有効な融合候補であることを示すかどうかを決定するために、遺伝子融合決定モジュール180によって評価され得る。いくつかの実装形態では、出力データ178は、訓練された機械学習モデル170によって遺伝子融合決定モジュール180に提供され得る。その他の実装形態では、システム100は、訓練された機械学習モデル170の出力178を、遺伝子融合決定モジュール180による後続のアクセスのためにメモリデバイス120などのメモリデバイスに記憶し得る。
遺伝子融合決定モジュール180は、機械学習モデル170によって生成された出力データ178を取得し、出力データ178を評価して、出力データ178に基づいて、入力ベクトル162a、162bの対162に対応する融合候補が有効な遺伝子融合であるかどうかを決定し得る。いくつかの実装形態では、遺伝子融合決定モジュール180は、1つ以上の入力ベクトル162に対応する融合候補が、機械学習モデルによって生成された出力データ178を所定の閾値と比較することによって、有効な遺伝子融合であるかどうかを決定し得る。遺伝子融合決定モジュール180が、出力データ178が所定の閾値を満たすと決定した場合、次に、遺伝子融合決定モジュール180は、1つ以上の入力ベクトル162に対応する融合候補が有効な遺伝子融合であると決定し得る。あるいは、遺伝子融合決定モジュール180が、出力データ178が所定の閾値を満たさないと決定した場合、次に、遺伝子融合決定モジュール180は、1つ以上の入力ベクトル162に対応する融合候補が有効な遺伝子融合ではないと決定し得る。
いくつかの実装形態では、遺伝子融合決定モジュール180は、機械学習モデル170によって生成された出力データ178の遺伝子融合決定モジュール180の評価に基づいて、遺伝子融合決定モジュール180によって行われた決定の結果を示す出力データ182を生成し得る。本出力データ182は、1つ以上の入力ベクトル162に対応する遺伝子融合候補を同定するデータと、遺伝子融合決定モジュール180の決定を同定するデータと、を含み得る。遺伝子融合決定モジュール180の決定を同定するデータは、1つ以上の入力ベクトル162に対応する遺伝子融合候補が有効な遺伝子融合又は無効な遺伝子融合であるかどうかを示すデータを含み得る。いくつかの実装形態では、出力データ182は、出力データ178に基づいて同定された有効な遺伝子融合のリスト、出力データ178に基づいて同定された無効な遺伝子融合のリスト、有効な遺伝子融合が同定されなかったことを示すデータ、又はこれらの任意の組み合わせのみを示してもよい。いくつかの実装形態では、本出力データ182は、別の演算モジュールによる後続の使用のために、ユーザーデバイスへの後続の出力等のために、メモリ182内に記憶され得る。
あるいは又は加えて、遺伝子融合決定モジュール180は、出力アプリケーション・プログラミング・インターフェース(API)モジュール190の入力として提供され得る出力データ184を生成し得る。出力データ184は、1つ以上の入力ベクトル162に対応する遺伝子融合候補が有効な遺伝子融合又は無効な遺伝子融合であるかどうかを示す出力を、出力ディスプレイに発生させるように、出力APIに指示し得る。いくつかの実装形態では、命令は、出力APIモジュール190に、メモリデバイス120内に記憶された出力データ182にアクセスし、レンダリングデータを生成させ得るが、これは、出力ディスプレイ195に結合された演算デバイスによってレンダリングされた場合に、出力ディスプレイ195に、(i)1つ以上の入力ベクトル162に対応する融合候補を同定するデータと、(ii)同定された融合候補が有効な遺伝子融合又は無効な遺伝子融合であるかどうかを示すデータと、を生起させる。これは、出力ディスプレイ195に、メモリ184内に記憶された出力データ182のいずれかを表示させることを含み得る。いくつかの実装形態では、本出力はレポートの形態で表示され得る。
いくつかの実装形態では、遺伝子融合決定モジュール180は、フィルタ処理された遺伝子融合候補のセットの各融合候補に対して実行される下流処理の性能に基づいて、メモリデバイス120内の各遺伝子融合候補に関する出力データ182を記憶する。このような実装形態では、遺伝子融合決定モジュール180は、各融合候補の下流処理が完了すると、フィルタ処理された遺伝子融合候補のセットのそれぞれの融合候補について、メモリ120内に記憶された遺伝子融合解析の結果を出力するように、出力APIモジュール190にのみ指示してもよい。このようなシナリオでは、出力ディスプレイ195上に表示するために提供される出力192は、有効な遺伝子融合のリスト、無効な遺伝子融合のリスト、又はその両方を含み得る。その他の実装形態では、遺伝子融合決定モジュール180は、その特定の融合候補に対する下流処理の完了時に、もしあれば、出力APIモジュール190に、同定された遺伝子融合のリストを示す結果データを出力させ得る。
その他の種類の出力192は、出力APIモジュール190によって提供され得る。例えば、いくつかの実装形態では、出力192は、(i)1つ以上のベクトル162に対応する融合候補を同定するデータと、(ii)同定された融合候補が有効な遺伝子であるかどうかを示すデータと、を含むレポートを出力させるためのプリンタなどの、別のデバイスを生起させるデータとすることができる。その他の実装形態では、本出力データ192は、(i)1つ以上のベクトル162に対応する融合候補を同定するデータと、(ii)同定された融合候補が有効な遺伝子であるかどうかを示すデータと、を含むオーディオデータを、スピーカに出力させ得る。その他の種類の出力データはまた、出力APIRモジュール190によって誘発され得る。
いくつかの実装形態では、出力ディスプレイ195は、配列決定デバイス110のディスプレイパネルであり得る。その他の実装形態では、出力ディスプレイ195は、1つ以上のネットワークを使用して配列決定デバイス110に接続されたユーザーデバイスのディスプレイパネルであり得る。実際に、配列決定デバイス110は、出力データ192を、任意のディスプレイを有する任意のデバイスに通信するために使用され得る。
図2は、有効な遺伝子融合の迅速な検出を行うためのプロセス200の一例のフローチャートである。システム100などのシステムは、1つ以上のコンピュータを使用して、リード配列ユニット(210)からの複数の配列されたリードを表す第1のデータを取得することによって、プロセス200の実行を開始し得る。システムは、取得された第1のデータ(220)内に含まれる複数の遺伝子融合候補を同定し得る。システムは、複数の遺伝子融合候補をフィルタ処理して、遺伝子融合候補(230)のフィルタ処理されたセットを決定し得る。
本システムは、フィルタ処理された遺伝子融合候補のセット(240)の特定の遺伝子融合候補を取得し得る。システムは、機械学習モデルへの入力のための入力データを生成し得るが、入力データを生成することは、(i)特定の遺伝子融合候補がリード配列ユニットによって配列された参照配列の1つ以上のセグメントと、(ii)リード配列ユニット(250)の出力に基づいて生成されたデータと、を含むデータから特定の遺伝子融合候補を表す特徴データを抽出することを含む。
システムは、生成された入力データを機械学習モデルへの入力として提供し得るが、機械学習モデルは、(i)特定の遺伝子融合候補がリード配列ユニットによって配列された参照ゲノムのセグメントと、(ii)リード配列ユニット(260)の出力に基づいて生成されたデータと、を表す機械学習モデル処理入力データに基づいて、遺伝子融合候補が有効な遺伝子融合である可能性を表す出力データを生成するように訓練されている。システムは、入力データ(270)を処理する機械学習モデルに基づいて、機械学習モデルによって生成された出力データを取得し得る。システムは、特定の融合候補が、出力データ(280)に基づいて、有効な遺伝子融合候補に対応するかどうかを決定し得る。
段階280の完了時に、システムは、フィルタ処理された融合候補のセットの別の融合候補が評価されるべきかどうかを決定し得る(290)。システムが、評価されるべきフィルタ処理された融合候補のセットの別の融合候補が存在すると決定した場合、次に、システムは、段階240でプロセス200の実行を継続し得る。あるいは、システムが、評価されるべきフィルタ処理された融合候補のセットの別の融合候補が存在しないと決定した場合、次に、システムは、段階295でプロセスの実行を終了し得る。融合候補のセットのセットが使い尽されていない場合、別の融合候補が、フィルタ処理された融合候補のセット内に存在し得る。
図3は、有効な遺伝子融合を迅速に検出するためのシステム300の別の例のブロック図である。システム300が、配列決定デバイス110を使用してRNA(又はDNA)配列リード112を生成する、RNA配列リード112を参照配列に配列させるために二次解析ユニット130を使用する、融合候補同定モジュール140を使用して融合候補を同定する、融合候補フィルタリングモジュール150を使用して下流解析のためにフィルタ処理された融合候補のセットを決定する、次に、フィルタ処理された融合候補のセットの下流解析を実行して、特徴セット生成モジュール160と、機械学習モジュール170と、遺伝子融合決定モジュール190と、出力APIモジュール190と、を使用して、有効な遺伝子融合を同定する、という点で、システム300はシステム100と同じ機能を実行する。これらの機能ユニット、モジュール、又はモデルのそれぞれは、図1のシステム100の説明においてそれらに起因したものと同じ機能を実行する。
システム300とシステム100との間の差異は、融合候補の同定、融合候補フィルタリング、及びフィルタ処理された融合候補のセットの下流解析が、異なるコンピュータ320上で実行され、配列決定デバイス110内ではない、という点である。したがって、システム300とシステム100との間の差異は、ネットワーク310を使用して、遺伝子融合解析のために配列されたリードがどのように実装されてコンピュータ320に連結されるか、コンピュータ320によってどのように取り出されるか、また遺伝子融合結果がどのように実装されて、出力のための対応するディスプレイを有する別のデバイスへと送信されるか、という点にある。
より詳細には、配列決定デバイス110は、生体サンプル105を配列し、RNAリード112-1、112-2、112-nを生成し得るが、ここで「n」は、システム100に関して記載されるように、0を超える任意の正の整数である。RNAリードは一例として使用されるが、システムはまた、DNAリード上で同じプロセスを実施し得る。配列決定デバイス110は、メモリ120内にリード112-1、112-2、112-nを記憶し得る。いくつかの実装形態では、リード112-1、112-2、112-nは、圧縮形式であってもよい。
二次解析ユニット130は、リード112-1、112-2、112-nを取得し、二次解析ユニット130のメモリ132内にリード112-1、112-2、122-nを記憶し得る。いくつかの実装形態では、これは、配列決定デバイス110の制御プログラムを含んで、リード112-1、112-2、112-nを二次解析ユニット130のメモリ132内へとストリーミングし得る。その他の実装形態では、二次解析ユニット130は、リード112-1、112-2、122-nを要求し得る。リード112-1、112-2、112-nが圧縮される場合、二次解析ユニット130のプログラマブル論理デバイス134は、展開ユニット138として状態Bへと構成されて、リード112-1、112-2、112-nを展開するために使用され得る。次に、プログラマブル論理デバイス134は、リード配列ユニットとして状態Aに再構成されて、リード112-1、112-2、112-nを参照配列に配列させるために使用され得る。
二次解析ユニット130は、圧縮ユニットとして状態Bに再構成されて、圧縮ユニットを使用して配列されたリードを圧縮して、コンピュータ320への送信のために配列されたリードを準備し得る。本実施例では、配列されたリードの第1のバッチの圧縮は、配列されたリードのみならず、遺伝子融合解析に使用される配列されたリードに関連するリード配列ユニット136によって生成されたデータもまた圧縮することを含む。本データは、図1のシステム100に関して説明されており、例えば、変異体対立遺伝子頻度数、特異リード配列数、転写物にわたるリード確率、MAPQスコア、親遺伝子間の相同性を示すデータ、又はこれらの組み合わせを含み得る。加えて、配列されたリードの第1のバッチ内へと圧縮され得るその他のデータは、(i)融合候補のリードと、(ii)融合候補のリードが配列された参照配列位置の部分と、(iii)特定の遺伝子融合候補が配列された参照ゲノムのセグメントのアノテーションと、を含み得る。いくつかの実装形態では、アノテーションは、遺伝子エクソンのアノテーション、相同遺伝子の存在を示すアノテーション、富化遺伝子のリストを示すアノテーション、又はこれらの組み合わせを含み得る。
配列されたリードを圧縮した後、二次解析ユニット130は、メモリ120内に圧縮されたリードの第1のバッチを記憶し得る。次に、配列決定デバイス110は、遺伝子融合解析のために、ネットワーク310にわたって、配列されたリードの第1のバッチ125をコンピュータ320に送信し得る。ネットワーク310は、1つ以上の有線ネットワーク、1つ以上の無線ネットワーク、又はこれらの組み合わせを含み得る。異なる実装形態では、ネットワーク310は、有線イーサネット、有線光ネットワーク、LAN、WAN、セルラーネットワーク、インターネット、又はこれらの組み合わせのうちの1つ以上であってもよい。いくつかの実装形態では、コンピュータ320は、リモートクラウドサーバであり得る。しかしながら、他の実装形態では、コンピュータ320は、直接イーサネット接続、USB-C接続等の直接接続を介して、配列決定デバイス110に接続され得る。図300の本実施例では、リードの第1のバッチは通信前に圧縮されるが、圧縮が使用される必要はない。その代わりに、圧縮は、ネットワーク帯域幅の消費を低減し、記憶コストを最小化する方法として提供されるが、これは、ゲノムの大きなデータサイズに対処する場合に、著しい技術的利益を提供し、コストを削減し得る。
いくつかの実装形態では、配列されたリードの第1のバッチは、サンプル105に対して生成されたリードのセット全体を含む。その他の実装形態では、配列されたリードの第1のバッチは、サンプル105に対して生成されたリードのセット全体の一部分のみであり、バッチ処理システムを使用して、平行処理を容易にし得る。例えば、いくつかの実装形態では、二次解析ユニットがメモリ120内で配列されたリードの第1のバッチを記憶した後、二次解析ユニット130は、メモリ132内に記憶するために、まだ配列されていないリードの第2のバッチを取得する。次に、リードの第2のバッチが圧縮された場合、二次解析ユニット130は展開を実行し得、コンピュータ320がリードの第1のバッチの遺伝子融合解析を実施している間に、リードの第2のバッチの配列を実行し得る。リードのバッチ処理によって容易になるこのような平行処理は、サンプル105のリードのための有効な遺伝子融合を決定するために必要とされるシステム300の実行時間を著しく低減し得る。
コンピュータ320は、ネットワーク310を介してリードの第1のバッチ125を受信し、メモリ320内にリードの第1のバッチを記憶し得る。リードの第1のバッチ125が圧縮された場合、コンピュータ320は、圧縮/展開モジュール325を使用して、リードの第1のバッチを展開し、メモリ320内にリードの第1のバッチを記憶し得る。次に、コンピュータ320は、図1のシステム100に関して説明したのと同じ様式で、融合候補同定モジュール140と、融合候補フィルタリングモジュール150と、特徴セット生成モジュール160と、機械学習モデル170と、遺伝子融合決定モジュール180と、出力APIモジュール190と、の遺伝子融合解析パイプラインを実行し得る。
出力192は、ネットワーク310を介して多数の異なるデバイスに提供され得る。例として、出力データは、シーケンサのディスプレイ195上で出力するために配列決定デバイスに送信され得る。あるいは又は加えて、出力192は、ネットワーク310を介してユーザーデバイス330のディスプレイ上に表示するために提供され得る。ユーザーデバイス330は、スマートフォン、タブレットコンピュータ、ラップトップコンピュータ、デスクトップコンピュータ、又はディスプレイを備える任意の他のコンピュータを含み得る。あるいは又は加えて、出力192はまた、ネットワーク310を介してプリンタ340を介して出力するために提供され得る。このような実装形態では、出力は、決定された有効な遺伝子融合のハードコピーレポートであってもよい。
図4は、遺伝子融合の迅速な検出のためのシステムを実行するために使用され得るシステム構成要素のブロック図である。
コンピューティングデバイス400は、ラップトップ、デスクトップ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、及び他の適切なコンピュータなどの種々の形態のデジタルコンピュータを表すことが意図されている。コンピューティングデバイス450は、パーソナルデジタルアシスタント、携帯電話、スマートフォン、及び他の同様のコンピューティングデバイスなどの種々の形態のモバイルデバイスを表すことが意図されている。これに加えて、コンピューティングデバイス400又は450は、ユニバーサルシリアルバス(USB)フラッシュドライブを含み得る。USBフラッシュドライブは、オペレーティングシステム及び他のアプリケーションを記憶し得る。USBフラッシュドライブは、別のコンピューティングデバイスのUSBポートに挿入できる無線送信機又はUSBコネクタなどの入力/出力構成要素を含み得る。本明細書に示される構成要素、この構成要素の接続及び関係、並びにこの構成要素の機能は、単なる例であることを意味し、本文書に記載及び/又は特許請求される発明の実装形態を限定することを意味するものではない。
コンピューティングデバイス400は、プロセッサ402と、メモリ404と、記憶デバイス406と、メモリ404及び高速拡張ポート410に接続する高速インターフェース408と、低速バス414及び記憶デバイス408に接続する低速インターフェース412と、を含む。402、404、406、408、410、及び412の各構成要素は、種々のバスを使用して相互接続されており、共通のマザーボード上に、又は適切な他の様式で装着され得る。プロセッサ402は、メモリ404又は記憶デバイス408上に記憶された命令を含むコンピューティングデバイス400内での実行のための命令を処理して、高速インターフェース408に結合されたディスプレイ416などの外部入力/出力デバイス上のGUIに関するグラフィカル情報を表示し得る。他の実装形態では、複数のプロセッサ及び/又は複数のバスを、適切な複数のメモリ及び複数の種類のメモリと共に使用し得る。また、複数のコンピューティングデバイス400を接続して、各デバイスが、例えば、サーババンク、ブレードサーバ群、又はマルチプロセッサシステムとして、必要な操作の部分を提供するようにすることができる。
メモリ404は、コンピューティングデバイス400内に情報を記憶する。一実装形態では、メモリ404は、揮発性メモリユニット又は複数の揮発性メモリユニットである。別の実装形態では、メモリ404は、不揮発性メモリユニット又は複数の不揮発性メモリユニットである。メモリ404を、磁気ディスク又は光ディスクなどの別の形態のコンピュータ可読媒体とすることもできる。
記憶デバイス408は、コンピューティングデバイス400のための大規模な記憶機構を提供することができる。一実装形態では、記憶デバイス408は、フロッピーディスクデバイス、ハードディスクデバイス、光ディスクデバイス、若しくはテープデバイス、フラッシュメモリ若しくはその他の類似のソリッドステートメモリデバイス、又はストレージエリアネットワーク若しくはその他の構成内のデバイスを含むデバイスのアレイなどのコンピュータ可読媒体であり得るか、又はそれを内包し得る。コンピュータプログラム製品は、情報キャリア内で有形に具現化され得る。コンピュータプログラム製品はまた、実行された場合、上述したものなどの1つ以上の方法を実行する命令を内包し得る。情報キャリアは、メモリ404、記憶デバイス408、又はプロセッサ402上のメモリなどのコンピュータ可読媒体又は機械可読媒体である。
高速コントローラ408は、コンピューティングデバイス400の帯域幅集約操作を管理する一方、低速コントローラ412は、低帯域幅集約操作を管理する。このような機能の割り当ては、一実施例に過ぎない。一実装形態では、高速コントローラ408は、例えば、グラフィックプロセッサ又はアクセラレータを介してメモリ404、ディスプレイ416に、及び種々の拡張カード(図示せず)を受容し得る高速拡張ポート410に連結されている。本実装形態では、低速コントローラ412は、記憶デバイス408及び低速拡張ポート414に連結されている。種々の通信ポート、例えば、USB、Bluetooth、イーサネット、無線イーサネットを含み得る低速拡張ポートは、例えば、ネットワークアダプタを介して、キーボード、ポインティングデバイス、マイクロフォン/スピーカペア、スキャナ、又はスイッチ若しくはルータなどのネットワーキングデバイスなどの1つ以上の入力/出力デバイスに連結され得る。コンピューティングデバイス400は、図に示されるように、多数の異なる形態で実装され得る。例えば、コンピューティングデバイス400は、標準サーバ420として、又はこのようなサーバのグループ内で複数回、実装され得る。コンピューティングデバイス400はまた、ラックサーバシステム424の一部として実装され得る。加えて、コンピューティングデバイス400は、ラップトップコンピュータ422などのパーソナルコンピュータに実装され得る。これに代えて、コンピューティングデバイス400からの構成要素を、デバイス450などのモバイルデバイス(図示せず)内のその他の構成要素と組み合わせることができる。このようなデバイスのそれぞれは、コンピューティングデバイス400、450のうちの1つ以上を内包し得、システム全体を、互いに通信する複数のコンピューティングデバイス400、450から構成することができる。
コンピューティングデバイス400は、図に示されるように、多数の異なる形態で実装され得る。例えば、コンピューティングデバイス400は、標準サーバ420として、又はこのようなサーバのグループ内で複数回、実装され得る。コンピューティングデバイス400はまた、ラックサーバシステム424の一部として実装され得る。加えて、コンピューティングデバイス400は、ラップトップコンピュータ422などのパーソナルコンピュータに実装され得る。これに代えて、コンピューティングデバイス400からの構成要素を、デバイス450などのモバイルデバイス(図示せず)内のその他の構成要素と組み合わせることができる。このようなデバイスのそれぞれは、コンピューティングデバイス400、450のうちの1つ以上を内包し得、システム全体を、互いに通信する複数のコンピューティングデバイス400、450から構成することができる。
コンピューティングデバイス450は、構成要素の中でもとりわけ、プロセッサ452と、メモリ464と、ディスプレイ454、通信インターフェース466、及び送受信機468などの入出力デバイスと、を含む。デバイス450はまた、追加の記憶機構を提供するために、マイクロドライブ又はその他のデバイスなどの記憶デバイスを備え得る。構成要素450、452、464、454、466、及び468のそれぞれは、種々のバスを使用して相互接続されており、構成要素のうちのいくつかは、共通のマザーボード上に、又は適切なその他の様式で装着され得る。
プロセッサ452は、メモリ464に記憶された命令を含む、コンピューティングデバイス450内の命令を実行し得る。プロセッサは、別個及び複数のアナログ及びデジタルプロセッサを含むチップのチップセットとして実装できる。これに加えて、プロセッサは、いくつかのアーキテクチャのうちのいずれかを使用して実装できる。例えば、プロセッサ410は、CISC(複合命令セットコンピュータ)プロセッサ、RISC(縮小命令セットコンピュータ)プロセッサ、又はMISC(最小命令セットコンピュータ)プロセッサであり得る。プロセッサは、例えば、ユーザーインタフェースの制御、デバイス450によって実行されるアプリケーション、及びデバイス450による無線通信などの、デバイス450の他の構成要素の協調を提供することができる。
プロセッサ452は、制御インターフェース458と、ディスプレイ454に連結されたディスプレイインターフェース456と、を介して、ユーザーと通信し得る。ディスプレイ454は、例えば、TFT(薄膜トランジスタ液晶ディスプレイ)ディスプレイ、OLED(有機発光ダイオード)ディスプレイ、又はその他の適切なディスプレイ技術であり得る。ディスプレイインターフェース456は、ディスプレイ454を駆動してグラフィカル情報及びその他の情報をユーザーに提示するための適切な回路を含み得る。制御インターフェース458は、ユーザーから指令を受信して、この指令をプロセッサ452への発信用に変換し得る。加えて、デバイス450とその他のデバイスとの近接領域通信を可能にするために、プロセッサ452と通信する外部インターフェース462を提供し得る。外部インターフェース462は、例えば、いくつかの実装形態では有線通信を、又は他の実装形態では無線通信を提供し得るが、複数のインターフェースもまた使用し得る。
メモリ464は、コンピューティングデバイス450内に情報を記憶する。メモリ464は、コンピュータ可読媒体(単数)若しくはコンピュータ可読媒体(複数)、揮発性メモリユニット(単数)若しくは揮発性メモリユニット(複数)、又は不揮発性メモリユニット(単数)若しくは不揮発性メモリユニット(複数)のうちの1つ以上として、実装され得る。また、例えばSIMM(シングルインラインメモリモジュール)カードインターフェースを含み得る、拡張インターフェース472を介して、デバイス450に拡張メモリ474を提供及び接続し得る。このような拡張メモリ474は、デバイス450のための増設記憶空間を提供し得るか、又はデバイス450のためのアプリケーション若しくはその他の情報もまた記憶し得る。具体的には、拡張メモリ474は、上述したプロセスを実行又は補完する命令を含み得るが、機密情報もまた含み得る。したがって、例えば、拡張メモリ474は、デバイス450のためのセキュリティモジュールとして提供され得るが、デバイス450の安全な使用を可能にする命令を用いてプログラムされ得る。加えて、安全なアプリケーションは、ハッキング不能な様式でSIMMカード上に識別情報を配置するなど、追加情報と共に、SIMMカードを介して提供され得る。
メモリは、例えば、後述するように、フラッシュメモリ及び/又はNVRAMメモリを含み得る。一実装形態では、コンピュータプログラム製品は、情報キャリア内で有形に具現化され得る。コンピュータプログラム製品は、実行された場合、上述したものなどの1つ以上の方法を実行する命令を内包する。情報キャリアは、例えば、送受信機468又は外部インターフェース462を介して受信し得るメモリ464、拡張メモリ474、若しくはプロセッサ452上のメモリなどの、コンピュータ可読媒体又は機械可読媒体である。
デバイス450は、必要に応じてデジタル信号処理回路を含み得る通信インターフェース466を介して、無線通信し得る。通信インターフェース466は、とりわけGSM音声通話、SMS、EMS、若しくはMMSメッセージング、CDMA、TDMA、PDC、WCDMA(登録商標)、CDMA2000、若しくはGPRSなどの種々のモード又はプロトコル下での通信を提供し得る。このような通信は、例えば、高周波送受信機468を介して行うことができる。加えて、Bluetooth、Wi-Fi、又はその他のこのような送受信機(図示せず)を使用するなど、短距離通信を行うことができる。加えて、GPS(全地球測位システム)受信機モジュール470が、デバイス450に追加のナビゲーション関連及び位置関連の無線データを提供し得るが、これは、デバイス450上で作動するアプリケーションによって適切に使用され得る。
デバイス450はまた、音声符復号器460を使用して可聴的に通信し得るが、これは、ユーザーから発話情報を受信し、この発話情報を使用可能なデジタル情報へと変換し得る。音声符復号器460は同様に、例えば、デバイス450のハンドセット内のスピーカを介してなど、ユーザーのための可聴音を発生させ得る。このような音は、音声電話通話からの音を含み得るが、録音された音、例えば、音声メッセージ、音楽ファイル等などを含み得、また、デバイス450上で操作するアプリケーションによって生成される音もまた含み得る。
コンピューティングデバイス450は、図に示されるように、多数の異なる形態で実装され得る。例えば、コンピューティングデバイス450は、携帯電話480として実装され得る。また、コンピューティングデバイス450を、スマートフォン482、携帯情報端末、又はその他の類似したモバイルデバイスの一部として実装し得る。
本明細書に記載されたシステム及び方法の種々の実装形態は、デジタル電子回路、集積回路、専用に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はこのような実装形態の組み合わせで実現され得る。これらの種々の実装形態は、少なくとも1つのプログラマブル・プロセッサを含むプログラマブルシステム上で実行可能及び/解釈可能な1つ以上のコンピュータプログラムにおける実装形態を含み得るが、これは、専用又は汎用であり得、記憶システム、少なくとも1つの入力デバイス、及び少なくとも1つの出力デバイスからデータ及び命令を受信し、かつこれらにデータ及び命令を送信するように連結される。
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとしても知られている)は、プログラマブル・プロセッサのための機械命令を含み、高水準言語(high-level procedural language)及び/又はオブジェクト指向プログラミング言語で、及び/又はアセンブリ言語/機械言語で実装され得る。本明細書で使用される場合、用語「機械可読媒体」「コンピュータ可読媒体」とは、任意のコンピュータプログラム製品、装置、及び/又はデバイス、例えば、磁気ディスク、光ディスク、メモリ、機械命令及び/又はデータをプログラマブル・プロセッサに提供するために使用されるプログラマブル論理デバイス(PLD)を意味し、機械可読信号として機械命令を受信する機械可読媒体を含む。用語「機械可読信号」とは、プログラマブル・プロセッサに機械命令及び/又はデータを提供するために使用される任意の信号を意味する。
ユーザーとの相互作用を提供するために、本明細書に記載されたシステム及び技術は、ユーザーに情報を表示するためのディスプレイデバイス、例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ、並びにユーザーがコンピュータに入力を提供し得るポインティングデバイス、例えばマウス又はトラックボールを有するコンピュータ上に実装され得る。同様に他の種類のデバイスを使用して、ユーザーとの相互作用を提供し得るが、例えば、ユーザーに提供されるフィードバックは、任意の形態の感覚フィードバック、例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバックであり得、ユーザーからの入力は、音響入力、発話入力、又は触覚入力を含む任意の形態で受信され得る。
本明細書に記載されるシステム並びに技術は、例えばデータサーバとしてのバックエンド構成要素を含むコンピューティングシステムで、若しくはミドルウェアコンポーネント、例えばアプリケーションサーバを含むコンピューティングシステムで、若しくはフロントエンド構成要素、例えばユーザーがそれらを介して本明細書に記載されたシステム及び技術の実装形態と相互作用し得るグラフィカル・ユーザー・インターフェース若しくはウェブブラウザを有するクライアントコンピュータを含むコンピューティングシステムで、又はこのようなバックエンド、ミドルウェア、若しくはフロントエンドの構成要素の任意の組み合わせで、実装できる。システムの構成要素は、デジタルデータ通信、例えば通信ネットワークの任意の形態又は媒体によって相互接続され得る。通信ネットワークの例としては、ローカルエリアネットワーク(「LAN」)、広域ネットワーク(「WAN」)、及びインターネットが挙げられる。
コンピューティングシステムは、クライアント及びサーバを含み得る。クライアント及びサーバは、一般に、互いにリモートであり、典型的には、通信ネットワークを介して相互作用する。クライアントとサーバとの関係は、それぞれのコンピュータ上で作動し、かつ互いにクライアント-サーバ関係を有するコンピュータプログラムによって生じる。
他の実施形態
いくつかの実施形態が記載されてきた。それにもかかわらず、本発明の趣旨及び範囲から逸脱することなく、種々の変更を行い得ることが理解されよう。加えて、図に描示される論理フローは、所望の結果を達成するために、示される特定の順序、又は連続的な順序を必要としない。加えて、記載されたフローからその他の工程を提供し得る、又は工程を排除し得る、及び記載されたシステムにその他の構成要素を追加し得る、又はそこから除去し得る。したがって、他の実施形態は、以下の特許請求の範囲内にある。

Claims (30)

  1. 生体サンプル中の1つ以上の遺伝子融合を同定するためのコンピュータ実装方法であって、
    1つ以上のコンピュータによって、リード配列ユニットから複数の配列されたリードを表す第1のデータを取得することと、
    1つ以上のコンピュータによって、前記取得された第1のデータ内に含まれる複数の遺伝子融合候補を同定することと、
    1つ以上のコンピュータによって、前記複数の遺伝子融合候補をフィルタリングして、フィルタ処理された遺伝子融合候補のセットを決定することと、を含み、
    前記フィルタ処理された遺伝子融合候補の特定の遺伝子融合候補のそれぞれについて、
    1つ以上のコンピュータによって、機械学習モデルへの入力のための入力データを生成することであって、前記入力データを生成することが、
    (i)前記特定の遺伝子融合候補が前記リード配列ユニットによって配列された参照配列の1つ以上のセグメントと、
    (ii)前記リード配列ユニットの出力に基づいて生成されたデータと、を含むデータから、特徴データを抽出して前記特定の遺伝子融合候補を表すことを含む、入力データを生成することと、
    1つ以上のコンピュータによって、前記生成された入力データを前記機械学習モデルへの入力として提供することであって、前記機械学習モデルは、(i)前記特定の遺伝子融合候補が前記リード配列ユニットによって配列された参照配列の1つ以上のセグメントと、(ii)前記リード配列ユニットの出力に基づいて生成されたデータと、を表す前記機械学習モデル処理入力データに基づいて、遺伝子融合候補が有効な遺伝子融合である可能性を表す出力データを生成するように訓練されている、前記生成された入力データを前記機械学習モデルへの入力として提供することと、
    1つ以上のコンピュータによって、前記生成された入力データを処理する前記機械学習モデルに基づいて、前記機械学習モデルによって生成された出力データを取得することと、
    1つ以上のコンピュータによって、前記特定の融合候補が、前記出力データに基づいて、有効な遺伝子融合候補に対応するかどうかを決定することと、を含む、コンピュータ実装方法。
  2. 前記入力データを生成することは、前記特定の遺伝子融合候補が前記リード配列ユニットによって配列された前記参照配列の前記セグメントのアノテーションを記述するアノテーションデータを含む特徴データを抽出することを更に含み、
    前記機械学習モデルは、前記機械学習モデル処理入力データに基づいて、遺伝子融合候補が有効な遺伝子融合候補である可能性を表す出力データを生成するよう訓練されており、前記機械学習モデル処理入力データは、
    (i)前記特定の遺伝子融合候補が前記リード配列ユニットによって配列された参照配列の1つ以上のセグメントと、
    (ii)前記特定の遺伝子融合候補が前記リード配列ユニットによって配列された前記参照配列の前記セグメントのアノテーションを記述するアノテーションデータと、
    (iii)前記リード配列ユニットの出力に基づいて生成されたデータと、を表す、請求項1に記載の方法。
  3. 1つ以上のコンピュータによって、前記取得された第1のデータ内に含まれる複数の遺伝子融合候補を同定することが、1つ以上のコンピュータによって、複数の分割リード配列を同定することを含む、請求項1又は2に記載の方法。
  4. 1つ以上のコンピュータによって、前記取得された第1のデータ内に含まれる複数の遺伝子融合候補を同定することが、1つ以上のコンピュータによって、複数の不一致リードペア配列を同定することを含む、請求項1~3のいずれか一項に記載の方法。
  5. 前記リード配列ユニットが、操作を実行するように物理的に配置されたハードウェア論理回路を使用して構成されている1つ以上の処理エンジンのセットを使用して実装され、前記ハードウェア論理回路を使用して、
    (i)第1のリードを表すデータを受信し、
    (ii)前記第1のリードを表す前記データを、参照配列の1つ以上の部分にマップして、整合参照配列の1つ以上の位置を同定し、
    (iii)前記第1のリードの前記整合参照配列位置のそれぞれに対応する1つ以上の配列スコアを生成し、
    (iv)前記1つ以上の配列スコアに基づいて、前記第1のリードのための1つ以上の候補配列を選択し、
    (v)前記第1のリードの候補配列を表すデータを出力する、請求項1~4のいずれか一項に記載の方法。
  6. 前記リード配列ユニットが、1つ以上の中央演算処理装置(CPU)又は1つ以上のグラフィックス演算処理装置(GPU)を使用することによって1つ以上の処理エンジンのセットを使用して実装され、前記1つ以上のCPU又は1つ以上のGPUSに、
    (i)第1のリードを表すデータを受信させ、
    (ii)前記第1のリードを表す前記データを、参照配列の1つ以上の部分にマップして、前記第1のリードの整合参照配列の1つ以上の位置を同定させ、
    (iii)前記第1のリードの前記整合参照配列位置のそれぞれに対応する1つ以上の配列スコアを生成させ、
    (iv)前記1つ以上の配列スコアに基づいて、前記第1のリードのための1つ以上の候補配列を選択させ、
    (v)前記第1のリードの候補配列を表すデータを出力させる、ソフトウェア命令を実行する、請求項1~4のいずれか一項に記載の方法。
  7. 前記リード配列ユニットによって、まだ配列されていない複数のリードを受信することと、
    前記リード配列ユニットによって、前記複数のリードの第1のサブセットを配列させることと、
    前記リード配列ユニットによって、配列されたリードの前記第1のサブセットをメモリデバイス内に記憶することと、を更に含み、
    1つ以上のコンピュータによって、リード配列ユニットから複数の配列されたリードを表す第1のデータを取得することは、1つ以上のコンピュータによって、前記メモリデバイスから配列されたリードの前記第1のサブセットを取得することと、前記リード配列ユニットが、まだ配列されていない前記複数のリードの第2のサブセットを配列させている間に、請求項1に記載の操作のうちの1つ以上を実行することと、を含む、請求項1~6のいずれか一項に記載の方法。
  8. 前記リード配列ユニットの前記出力に基づいて生成された前記データが、変異体対立遺伝子頻度のカウント、特異リード配列のカウント、転写物にわたるリード確率、MAPQスコア、又は親遺伝子間の相同性を示すデータのうちの任意の1つ以上を含む、請求項1~7のいずれか一項に記載の方法。
  9. 前記特定の融合候補が、前記出力データに基づいて有効な遺伝子融合候補に対応するかどうかを決定することが、
    1つ以上のコンピュータによって、前記出力データが所定の閾値を満たすかどうかを決定することと、
    前記出力データが前記所定の閾値を満たすと決定することに基づいて、前記特定の融合候補が有効な遺伝子融合候補に対応すると決定することと、を含む、請求項1~8のいずれか一項に記載の方法。
  10. 前記特定の融合候補が、前記出力データに基づいて有効な遺伝子融合候補に対応するかどうかを決定することが、
    1つ以上のコンピュータによって、前記出力データが所定の閾値を満たすかどうかを決定することと、
    前記出力データが前記所定の閾値を満たさないと決定することに基づいて、前記特定の融合候補が有効な遺伝子融合候補に対応しないと決定することと、を含む、請求項1~9のいずれか一項に記載の方法。
  11. 生体サンプル中の1つ以上の遺伝子融合を同定するためのシステムであって、
    操作可能である命令を記憶している1つ以上のコンピュータ及び1つ以上の記憶デバイスを含み、前記1つ以上のコンピュータによって実行された場合に、前記1つ以上のコンピュータに、
    1つ以上のコンピュータによって、リード配列ユニットから複数の配列されたリードを表す第1のデータを取得することと、
    1つ以上のコンピュータによって、前記取得された第1のデータ内に含まれる複数の遺伝子融合候補を同定することと、
    1つ以上のコンピュータによって、前記複数の遺伝子融合候補をフィルタリングして、フィルタ処理された遺伝子融合候補のセットを決定することと、を含む操作を実行させて、
    前記フィルタ処理された遺伝子融合候補の特定の遺伝子融合候補のそれぞれについて、
    1つ以上のコンピュータによって、機械学習モデルへの入力のための入力データを生成することであって、前記入力データを生成することが、
    (i)前記特定の遺伝子融合候補が前記リード配列ユニットによって配列された参照配列の1つ以上のセグメントと、
    (ii)前記リード配列ユニットの出力に基づいて生成されたデータと、を含むデータから、特徴データを抽出して前記特定の遺伝子融合候補を表すことを含む、入力データを生成することと、
    1つ以上のコンピュータによって、前記生成された入力データを前記機械学習モデルへの入力として提供することであって、前記機械学習モデルは、(i)前記特定の遺伝子融合候補が前記リード配列ユニットによって配列された参照配列の1つ以上のセグメントと、(ii)前記リード配列ユニットの出力に基づいて生成されたデータと、を表す前記機械学習モデル処理入力データに基づいて、遺伝子融合候補が有効な遺伝子融合である可能性を表す出力データを生成するように訓練されている、前記生成された入力データを前記機械学習モデルへの入力として提供することと、
    1つ以上のコンピュータによって、前記生成された入力データを処理する前記機械学習モデルに基づいて、前記機械学習モデルによって生成された出力データを取得することと、
    1つ以上のコンピュータによって、前記特定の融合候補が、前記出力データに基づいて、有効な遺伝子融合候補に対応するかどうかを決定することと、を含む、システム。
  12. 前記入力データを生成することは、前記特定の遺伝子融合候補が前記リード配列ユニットによって配列された前記参照配列の前記セグメントのアノテーションを記述するアノテーションデータを含む特徴データを抽出することを更に含み、
    前記機械学習モデルは、前記機械学習モデル処理入力データに基づいて、遺伝子融合候補が有効な遺伝子融合候補である可能性を表す出力データを生成するよう訓練されており、前記機械学習モデル処理入力データは、
    (i)前記特定の遺伝子融合候補が前記リード配列ユニットによって配列された参照配列の1つ以上のセグメントと、
    (ii)前記特定の遺伝子融合候補が前記リード配列ユニットによって配列された前記参照配列の前記セグメントのアノテーションを記述するアノテーションデータと、
    (iii)前記リード配列ユニットの出力に基づいて生成されたデータと、を表す、請求項11に記載のシステム。
  13. 1つ以上のコンピュータによって、前記取得された第1のデータ内に含まれる複数の遺伝子融合候補を同定することが、1つ以上のコンピュータによって、複数の分割リード配列を同定することを含む、請求項11~12のいずれか一項に記載のシステム。
  14. 1つ以上のコンピュータによって、前記取得された第1のデータ内に含まれる複数の遺伝子融合候補を同定することが、1つ以上のコンピュータによって、複数の不一致リードペア配列を同定することを含む、請求項11~13のいずれか一項に記載のシステム。
  15. 前記リード配列ユニットが、操作を実行するように物理的に配列されたハードウェア論理回路を使用して構成されている1つ以上の処理エンジンのセットを使用して実装され、前記ハードウェア論理回路を使用して、
    (i)第1のリードを表すデータを受信し、
    (ii)前記第1のリードを表す前記データを、参照配列の1つ以上の部分にマップして、整合参照配列の1つ以上の位置を同定し、
    (iii)前記第1のリードの前記整合参照配列位置のそれぞれに対応する1つ以上の配列スコアを生成し、
    (iv)前記1つ以上の配列スコアに基づいて、前記第1のリードのための1つ以上の候補配列を選択し、
    (v)前記第1のリードの候補配列を表すデータを出力する、請求項11~14のいずれか一項に記載のシステム。
  16. 前記リード配列ユニットが、1つ以上の中央演算処理装置(CPU)又は1つ以上のグラフィックス演算処理装置(GPU)を使用することによって1つ以上の処理エンジンのセットを使用して実装され、前記1つ以上のCPU又は1つ以上のGPUSに、
    (i)第1のリードを表すデータを受信させ、
    (ii)前記第1のリードを表す前記データを、参照配列の1つ以上の部分にマップして、前記第1のリードの整合参照配列の1つ以上の位置を同定させ、
    (iii)前記第1のリードの前記整合参照配列位置のそれぞれに対応する1つ以上の配列スコアを生成させ、
    (iv)前記1つ以上の配列スコアに基づいて、前記第1のリードのための1つ以上の候補配列を選択させ、
    (v)前記第1のリードの候補配列を表すデータを出力させる、ソフトウェア命令を実行する、請求項11~14のいずれか一項に記載のシステム。
  17. 前記操作が、
    前記リード配列ユニットによって、まだ配列されていない複数のリードを受信することと、
    前記リード配列ユニットによって、前記複数のリードの第1のサブセットを配列させることと、
    前記リード配列ユニットによって、配列されたリードの前記第1のサブセットをメモリデバイス内に記憶することと、を更に含み、
    1つ以上のコンピュータによって、リード配列ユニットから複数の配列されたリードを表す第1のデータを取得することは、1つ以上のコンピュータによって、前記メモリデバイスから配列されたリードの前記第1のサブセットを取得することと、前記リード配列ユニットが、まだ配列していない前記複数のリードの第2サブセットを配列させている間に、請求項11に記載の操作のうちの1つ以上を実行することと、を含む、請求項11~16のいずれか一項に記載のシステム。
  18. 前記リード配列ユニットの前記出力に基づいて生成された前記データが、変異体対立遺伝子頻度のカウント、特異リード配列のカウント、転写物にわたるリード確率、MAPQスコア、又は親遺伝子間の相同性を示すデータのうちの任意の1つ以上を含む、請求項11~17のいずれか一項に記載のシステム。
  19. 前記特定の融合候補が、前記出力データに基づいて有効な遺伝子融合候補に対応するかどうかを決定することが、
    1つ以上のコンピュータによって、前記出力データが所定の閾値を満たすかどうかを決定することと、
    前記出力データが前記所定の閾値を満たすと決定することに基づいて、前記特定の融合候補が有効な遺伝子融合候補に対応すると決定することと、を含む、請求項11~18のいずれか一項に記載のシステム。
  20. 前記特定の融合候補が、前記出力データに基づいて有効な遺伝子融合候補に対応するかどうかを決定することが、
    1つ以上のコンピュータによって、前記出力データが所定の閾値を満たすかどうかを決定することと、
    前記出力データが前記所定の閾値を満たさないと決定することに基づいて、前記特定の融合候補が有効な遺伝子融合候補に対応しないと決定することと、を含む、請求項11~19のいずれか一項に記載のシステム。
  21. 1つ以上のコンピュータによって実行可能な命令を含むソフトウェアを記憶している非一時的コンピュータ可読媒体であって、前記命令が、このような実行時に、前記1つ以上のコンピュータに、
    リード配列ユニットからの複数の配列されたリードを表す第1のデータを取得することと、
    前記取得された第1のデータ内に含まれる複数の遺伝子融合候補を同定することと、
    前記複数の遺伝子融合候補をフィルタリングして、遺伝子融合候補のフィルタ処理されたセットを決定することと、を含む操作を実行させ、
    前記フィルタ処理された遺伝子融合候補の特定の遺伝子融合候補のそれぞれについて、
    機械学習モデルへの入力のための入力データを生成することであって、前記入力データを生成することが、
    (i)前記特定の遺伝子融合候補が前記リード配列ユニットによって配列された参照配列の1つ以上のセグメントと、
    (ii)前記リード配列ユニットの出力に基づいて生成されたデータと、を含むデータから、特徴データを抽出して前記特定の遺伝子融合候補を表すことを含む、入力データを生成することと、
    前記生成された入力データを前記機械学習モデルへの入力として提供することであって、前記機械学習モデルは、(i)前記特定の遺伝子融合候補が前記リード配列ユニットによって配列された参照配列の1つ以上のセグメントと、(ii)前記リード配列ユニットの出力に基づいて生成されたデータと、を表す前記機械学習モデル処理入力データに基づいて、遺伝子融合候補が有効な遺伝子融合である可能性を表す出力データを生成するように訓練されている、前記生成された入力データを前記機械学習モデルへの入力として提供することと、
    前記生成された入力データを処理する前記機械学習モデルに基づいて、前記機械学習モデルによって生成された出力データを取得することと、
    前記特定の融合候補が、前記出力データに基づいて、有効な遺伝子融合候補に対応するかどうかを決定することと、を含む、非一時的コンピュータ可読媒体。
  22. 前記入力データを生成することは、前記特定の遺伝子融合候補が前記リード配列ユニットによって配列された前記参照配列の前記セグメントのアノテーションを記述するアノテーションデータを含む特徴データを抽出することを更に含み、
    前記機械学習モデルは、前記機械学習モデル処理入力データに基づいて、遺伝子融合候補が有効な遺伝子融合候補である可能性を表す出力データを生成するよう訓練されており、前記機械学習モデル処理入力データは、
    (i)前記特定の遺伝子融合候補が前記リード配列ユニットによって配列された参照配列の1つ以上のセグメントと、
    (ii)前記特定の遺伝子融合候補が前記リード配列ユニットによって配列された前記参照配列の前記セグメントのアノテーションを記述するアノテーションデータと、
    (iii)前記リード配列ユニットの出力に基づいて生成されたデータと、を表す、請求項21に記載のコンピュータ可読媒体。
  23. 前記取得された第1のデータ内に含まれる複数の遺伝子融合候補を同定することが、1つ以上のコンピュータによって、複数の分割リード配列を同定することを含む、請求項21~22のいずれか一項に記載のコンピュータ可読媒体。
  24. 前記取得された第1のデータ内に含まれる複数の遺伝子融合候補を同定することが、1つ以上のコンピュータによって、複数の不一致リードペア配列を同定することを含む、請求項21~23のいずれか一項に記載のコンピュータ可読媒体。
  25. 前記リード配列ユニットが、操作を実行するように物理的に配列されたハードウェア論理回路を使用して構成されている1つ以上の処理エンジンのセットを使用して実装され、前記ハードウェア論理回路を使用して、
    (i)第1のリードを表すデータを受信し、
    (ii)前記第1のリードを表す前記データを、参照配列の1つ以上の部分にマップして、整合参照配列の1つ以上の位置を同定し、
    (iii)前記第1のリードの前記整合参照配列位置のそれぞれに対応する1つ以上の配列スコアを生成し、
    (iv)前記1つ以上の配列スコアに基づいて、前記第1のリードのための1つ以上の候補配列を選択し、
    (v)前記第1のリードの候補配列を表すデータを出力する、請求項21~24のいずれか一項に記載のコンピュータ可読媒体。
  26. 前記リード配列ユニットが、1つ以上の中央演算処理装置(CPU)又は1つ以上のグラフィックス演算処理装置(GPU)を使用することによって1つ以上の処理エンジンのセットを使用して実装され、前記1つ以上のCPU又は1つ以上のGPUSに、
    (i)第1のリードを表すデータを受信させ、
    (ii)前記第1のリードを表す前記データを、参照配列の1つ以上の部分にマップして、前記第1のリードの整合参照配列の1つ以上の位置を同定させ、
    (iii)前記第1のリードの前記整合参照配列位置のそれぞれに対応する1つ以上の配列スコアを生成させ、
    (iv)前記1つ以上の配列スコアに基づいて、前記第1のリードのための1つ以上の候補配列を選択させ、
    (v)前記第1のリードの候補配列を表すデータを出力させる、請求項21~24のいずれか一項に記載のコンピュータ可読媒体。
  27. 前記操作が、
    前記リード配列ユニットによって、まだ配列されていない複数のリードを受信することと、
    前記リード配列ユニットによって、前記複数のリードの第1のサブセットを配列させることと、
    前記リード配列ユニットによって、配列されたリードの前記第1のサブセットをメモリデバイス内に記憶することと、を更に含み、
    リード配列ユニットから複数の配列されたリードを表す第1のデータを取得することは、前記メモリデバイスから配列されたリードの前記第1のサブセットを取得することと、前記リード配列ユニットが、まだ配列していない前記複数のリードの第2のサブセットを配列させている間に、請求項21に記載の操作のうちの1つ以上を実行することと、を含む、請求項21~26のいずれか一項に記載のコンピュータ可読媒体。
  28. 前記リード配列ユニットの前記出力に基づいて生成された前記データが、変異体対立遺伝子頻度のカウント、特異リード配列のカウント、転写物にわたるリード確率、MAPQスコア、又は親遺伝子間の相同性を示すデータのうちの任意の1つ以上を含む、請求項21~27のいずれか一項に記載のコンピュータ可読媒体。
  29. 前記特定の融合候補が、前記出力データに基づいて有効な遺伝子融合候補に対応するかどうかを決定することが、
    前記出力データが所定の閾値を満たすかどうかを決定することと、
    前記出力データが前記所定の閾値を満たすと決定することに基づいて、前記特定の融合候補が有効な遺伝子融合候補に対応すると決定することと、を含む、請求項21~28のいずれか一項に記載のコンピュータ可読媒体。
  30. 前記特定の融合候補が、前記出力データに基づいて有効な遺伝子融合候補に対応するかどうかを決定することが、
    前記出力データが所定の閾値を満たすかどうかを決定することと、
    前記出力データが前記所定の閾値を満たさないと決定することに基づいて、前記特定の融合候補が有効な遺伝子融合候補に対応しないと決定することと、を含む、請求項21~29のいずれか一項に記載のコンピュータ可読媒体。
JP2021557678A 2019-12-05 2020-12-04 遺伝子融合の迅速な検出 Pending JP2023503739A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962944304P 2019-12-05 2019-12-05
US62/944,304 2019-12-05
PCT/US2020/063496 WO2021113779A1 (en) 2019-12-05 2020-12-04 Rapid detection of gene fusions

Publications (1)

Publication Number Publication Date
JP2023503739A true JP2023503739A (ja) 2023-02-01

Family

ID=74004162

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021557678A Pending JP2023503739A (ja) 2019-12-05 2020-12-04 遺伝子融合の迅速な検出

Country Status (12)

Country Link
US (1) US20210193254A1 (ja)
EP (1) EP4070320A1 (ja)
JP (1) JP2023503739A (ja)
KR (1) KR20220107117A (ja)
CN (1) CN113574603A (ja)
AU (1) AU2020398180A1 (ja)
BR (1) BR112021018933A2 (ja)
CA (1) CA3131487A1 (ja)
IL (1) IL286129A (ja)
MX (1) MX2021012019A (ja)
SG (1) SG11202109079YA (ja)
WO (1) WO2021113779A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115662520B (zh) * 2022-10-27 2023-04-14 黑龙江金域医学检验实验室有限公司 Bcr/abl1融合基因的检测方法及相关设备

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107075571B (zh) * 2014-07-18 2022-01-04 生命科技股份有限公司 用于检测结构变异体的系统和方法
US20190244678A1 (en) * 2014-10-10 2019-08-08 Invitae Corporation Methods, systems and processes of de novo assembly of sequencing reads
US10354747B1 (en) * 2016-05-06 2019-07-16 Verily Life Sciences Llc Deep learning analysis pipeline for next generation sequencing
CN117457074A (zh) * 2016-11-16 2024-01-26 宜曼达股份有限公司 测序数据读段重新比对的方法
US10964410B2 (en) * 2017-05-25 2021-03-30 Koninklijke Philips N.V. System and method for detecting gene fusion
WO2018231860A1 (en) * 2017-06-12 2018-12-20 Grail, Inc. Alignment free filtering for identifying fusions
CN107267646A (zh) * 2017-08-02 2017-10-20 广东国盛医学科技有限公司 一种基于下一代测序的多基因融合检测方法
US20200105373A1 (en) * 2018-09-28 2020-04-02 10X Genomics, Inc. Systems and methods for cellular analysis using nucleic acid sequencing
MX2021006234A (es) * 2018-11-30 2021-09-10 Caris Mpi Inc Perfilado molecular de proxima generacion.
CN110322925B (zh) * 2019-07-18 2021-09-03 杭州纽安津生物科技有限公司 一种预测融合基因产生新生抗原的方法

Also Published As

Publication number Publication date
WO2021113779A1 (en) 2021-06-10
CA3131487A1 (en) 2021-06-10
IL286129A (en) 2021-10-31
EP4070320A1 (en) 2022-10-12
AU2020398180A1 (en) 2021-09-16
MX2021012019A (es) 2021-10-26
CN113574603A (zh) 2021-10-29
BR112021018933A2 (pt) 2022-06-21
SG11202109079YA (en) 2021-09-29
US20210193254A1 (en) 2021-06-24
KR20220107117A (ko) 2022-08-02

Similar Documents

Publication Publication Date Title
US11702708B2 (en) Systems and methods for analyzing viral nucleic acids
Le et al. Classifying promoters by interpreting the hidden information of DNA sequences via deep learning and combination of continuous fasttext N-grams
Schbath et al. Mapping reads on a genomic sequence: an algorithmic overview and a practical comparative analysis
CN108985008B (zh) 一种快速比对基因数据的方法和比对系统
Dunn et al. Squigglefilter: An accelerator for portable virus detection
WO2015081754A1 (en) Genome compression and decompression
KR20130044290A (ko) 악성 소프트웨어를 분석 및 검출하기 위한 방법 및 장치
Zhang et al. Protein complex prediction in large ontology attributed protein-protein interaction networks
US20160132640A1 (en) System, method and computer readable medium for rapid dna identification
Alser et al. From molecules to genomic variations: Accelerating genome analysis via intelligent algorithms and architectures
US20150142334A1 (en) System, method and computer-accessible medium for genetic base calling and mapping
KR20230101760A (ko) 품질 점수 압축
JP2022533492A (ja) ハッシュテーブルゲノムマッピングのための柔軟性のあるシード伸長
Sadasivan Accelerated Systems for Portable DNA Sequencing
JP2023503739A (ja) 遺伝子融合の迅速な検出
Alser et al. Going from molecules to genomic variations to scientific discovery: Intelligent algorithms and architectures for intelligent genome analysis
JP2023520832A (ja) ハードウェア加速K-merグラフ生成
US20210233621A1 (en) Scaffold-oriented universal line system
Darmawan et al. MITNet: a fusion transformer and convolutional neural network architecture approach for T-cell epitope prediction
CN112151119A (zh) 基因向量模型训练方法、分析基因数据的方法及各自装置
KR102507111B1 (ko) 데이터베이스에 저장된 면역 펩티돔 정보의 신뢰도를 결정하기 위한 방법 및 장치
Kumar Gene sequence classification using K-mer decomposition and soft-computing-based approach
US20210285043A1 (en) Incremental secondary analysis of nucleic acid sequences
CN110797087B (zh) 测序序列处理方法及装置、存储介质、电子设备
KR102547975B1 (ko) 인공지능 기술을 사용하여 클러스터 데이터에 대응되는 주조직 적합성 복합체를 결정하기 위한 방법 및 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231201