JP2023017894A - 圧縮分子タグ付き核酸配列データを用いた融合の検出のための方法 - Google Patents

圧縮分子タグ付き核酸配列データを用いた融合の検出のための方法 Download PDF

Info

Publication number
JP2023017894A
JP2023017894A JP2022176189A JP2022176189A JP2023017894A JP 2023017894 A JP2023017894 A JP 2023017894A JP 2022176189 A JP2022176189 A JP 2022176189A JP 2022176189 A JP2022176189 A JP 2022176189A JP 2023017894 A JP2023017894 A JP 2023017894A
Authority
JP
Japan
Prior art keywords
sequence
consensus
sequence reads
family
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022176189A
Other languages
English (en)
Other versions
JP7373047B2 (ja
Inventor
ラジェッシュ ゴッティムッカラ
Gottimukkala Rajesh
チェンゾン バイ
Cheng Zong Bai
ドゥミトル ブリンザ
Brinza Dumitru
ジョフリー スカージマン
Schageman Jeoffrey
ヴァルン バガイ
Bagai Varun
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Life Technologies Corp
Original Assignee
Life Technologies Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Life Technologies Corp filed Critical Life Technologies Corp
Publication of JP2023017894A publication Critical patent/JP2023017894A/ja
Application granted granted Critical
Publication of JP7373047B2 publication Critical patent/JP7373047B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6853Nucleic acid amplification reactions using modified primers or templates
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/50Compression of genetic data

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Organic Chemistry (AREA)
  • Molecular Biology (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

【課題】核酸配列データを圧縮し、各配列読み取りが分子タグ配列と関係する方法を提供する。【解決手段】配列読み取りのアラインメントの一部が、標的融合参照配列へマッピングされた配列読み取りと対応する、圧縮するための方法は、配列読み取りのファミリーに対応するフロースペースシグナル測定に基づく配列読み取りの各ファミリーのコンセンサス配列読み取りを決定することであって、コンセンサス配列アラインメントの一部が、標的融合参照配列と整列したコンセンサス配列読み取りに対応する、決定することと、コンセンサス圧縮データを含む圧縮されたデータ構造を生じることであって、各ファミリーのコンセンサス配列読み取りとコンセンサス配列アラインメントとを含む、生じることと、コンセンサス配列読み取りと圧縮されたデータ構造からのコンセンサス配列アラインメントを用いて融合を検出することとを含む。【選択図】図1

Description

相互参照
本出願は、2017年9月20日出願の米国特許法第119条(e)項に基づく米国仮出願第62/560,745号の利益を主張する。上記出願の全内容は、参照により本明細書に組み込まれる。
大規模な欠失、挿入、逆位、ゲノム再編成、遺伝子融合、およびこれらに類するものなどの構造変異体は、様々な遺伝的障害および癌と関係している可能性がある。構造変異体はしばしば、細胞の適切な機能に不可欠なタンパク質の生成に有意な混乱をもたらす可能性がある。例えば、ゲノム再編成および遺伝子融合は、1つのタンパク質からの第1の部分と別のタンパク質からの第2の部分とを有するキメラタンパク質をコードするmRNAが生じる可能性がある。しばしば、これらのキメラタンパク質はもはや、第1または第2のいずれかのタンパク質のように機能せず、規則性経路の混乱につながる可能性がある。癌細胞において、混乱した調節経路は、アポトーシス、細胞成長、またはこれらに類するものの調節に関与していることがあり、遺伝子融合の結果として、癌細胞がチェックされずに成長することができることがある。
核酸配列の分子タグ付けは、同じポリヌクレオチド分子、例えば無細胞DNA(cfDNA)試料に由来する核酸配列読み取りを特定し、それらのタグ配列に基づいてファミリーに分類するのに有用である。種々の技術、プラットフォーム、または技法を用いて核酸試料から得られた多量の分子タグ付き核酸配列データは、融合の検出のために保存および加工することができる。分子タグ付き核酸配列データを圧縮して保存のためのメモリ必要条件を低減させ、cfDNA試料から取得したものを含む圧縮分子タグ付き核酸配列データにおいて融合を検出する新たな方法、システム、電子計算機可読媒体についての必要性がある。
例示的な実施形態によると、融合検出についての分子タグ付き核酸配列データを圧縮するための方法であって、(a)複数の核酸配列読み取りおよび複数の配列読み取りファミリーの複数の配列アラインメントを受け取ることであって、各配列読み取りが分子タグ配列と関係しており、分子タグ配列が、核酸試料中の特定のポリヌクレオチド分子から結果として生じる配列読み取りのファミリーを特定し、各ファミリーが番号配列読み取りを有し、配列アラインメントの一部が、標的融合参照配列へマッピングされた配列読み取りに対応する、受け取ることと、(b)配列読み取りの各ファミリーについての配列読み取りに対応するフロースペースシグナル測定値に基づいて、各ファミリーのコンセンサス配列読み取りを決定することと、(c)配列読み取りの各ファミリーについてのコンセンサス配列アラインメントを決定することであって、コンセンサス配列アラインメントの一部が、標的融合参照配列と整列しているコンセンサス配列読み取りに対応する、決定することと、(d)コンセンサス圧縮データを含む圧縮データ構造を生成することであって、コンセンサス圧縮データが、コンセンサス配列読み取りと各ファミリーについてのコンセンサス配列アラインメントとを含む、生成することと、(e)コンセンサス配列読み取りと圧縮データ構造からのコンセンサス配列アラインメントとを使用して融合を検出することと、を含む、方法が提供される。
例示的な実施形態によると、プロセッサによって実行されるとき、プロセッサに、融合検出についての分子タグ付き核酸配列データを圧縮するための方法を実行させる命令を含む、非一時的な機械可読記憶媒体であって、(a)複数の核酸配列読み取りと配列読み取りの複数のファミリーについての複数の配列アラインメントを受け取り、各配列読み取りが分子タグ配列と関係しており、分子タグ配列が核酸試料中の特定のポリヌクレオチド分詞から結果として生じる配列読み取りのファミリーを特定し、各ファミリーが番号配列読み取りを有し、配列アラインメントの一部が標的融合参照配列へマッピングされた配列読み取りに対応する、受け取ることと、(b)ファミリーについての配列読み取りに対応するフロースペースシグナル測定値に基づいて配列読み取りの各ファミリーについてコンセンサス配列読み取りを決定することと、(c)配列読み取りの各ファミリーについてコンセンサス配列アラインメントを決定することであって、コンセンサス配列アラインメントの一部が、標的融合参照配列と整列したコンセンサス配列読み取りに対応する、決定することと、(d)コンセンサス圧縮データを含む圧縮データ構造を生成することであって、コンセンサス圧縮データがコンセンサス配列読み取りと各ファミリーについてのコンセンサス配列アラインメントとを含む、生成することと、(e)コンセンサス配列読み取りと圧縮データ構造からのコンセンサス配列アラインメントとを使用して、融合を検出することと、を含む、非一時的な機械可読記憶媒体が提供される。
例示的な実施形態によれば、機械可読メモリと、メモリと通信するプロセッサとを備えた、融合検出のために分子タグ付き核酸配列データを圧縮するためのシステムであって、機械可読命令を実行するように構成されたシステムであって、機械可読命令が、プロセッサによって実行されるとき、(a)複数の核酸配列読み取りと配列読み取りの複数のファミリーについての複数の配列アラインメントとを受信することであって、各配列読み取りが、分子タグ配列と関係しており、分子タグ配列が、核酸試料中の特定のポリヌクレオチド分子から結果として生じる配列読み取りのファミリーを特定し、各ファミリーが番号配列読み取りを有し、配列アラインメントの一部が、標的融合参照配列へマッピングされた配列読み取りに対応する、受信することと、(b)ファミリーについての配列読み取りに対応するフロースペースシグナル測定値に基づいて、配列読み取りの各ファミリーのコンセンサス配列読み取りを決定すること、(c)配列読み取りの各ファミリーについてのコンセンサス配列アラインメントを決定することであって、コンセンサス配列アラインメントの一部が、標的融合参照配列と整列したコンセンサス配列読み取りに対応する、決定することと、(d)コンセンサス圧縮データを含む圧縮データ構造を生成することであって、コンセンサス圧縮データが、コンセンサス配列読み取りと各ファミリーについてのコンセンサス配列アラインメントとを含む、生成することと、(e)コンセンサス配列読み取りと圧縮データ構造からのコンセンサス配列アラインメントとを使用して融合を検出することと、を含む、システムが提供される。
本発明の新規の特色は、添付の特許請求の範囲に詳細に明らかにされている。本発明の特色および利点のより良好な理解は、本発明の原理が利用されている、例示的な実施形態を発表する以下の発明を実施するための形態と、添付の図面とに対する参照によって得られることになる。
一実施形態による、プライマーが分子タグを有する融合の検出のためのプライマー設計の例を示す。 一実施形態による、融合を検出するためのコンセンサス圧縮データを生成する例示的な方法のブロック図である。 一実施形態による、フロースペースコンセンサスパイプラインの例示的な方法のブロック図である。 塩基呼び出しが行われ得るフロースペースシグナル測定値の例示的な表現を示す。 単一のファミリーのフロースペースシグナル測定値の例示的なプロットを示す。 単一のファミリーのコンセンサスフロースペースシグナル測定値の例示的なプロットを示す。 一実施形態による、融合呼び出し動作のためにコンセンサス圧縮データを使用する例示的な方法のブロック図である。 一実施形態による、核酸配列決定のための例示的なシステムのブロック図である。
本出願に具体化された教示および原理に従って、分子タグ付き核酸配列データを圧縮して、固有の分子タグに関連する核酸配列読み取りのファミリーのコンセンサス圧縮データを形成し、かつコンセンサス圧縮データに基づいて融合を検出するために、新しい方法、システム、および非一時的な機械可読記憶媒体が提供される。
様々な実施形態では、DNA(デオキシリボ核酸)は、4種類のヌクレオチド、A(アデニン)、T(チミン)、C(シトシン)、およびG(グアニン)からなるヌクレオチドの鎖と称され得、そのRNA(リボ核酸)は、4種類のヌクレオチド、A、U(ウラシル)、G、およびCからなる。ヌクレオチドのある特定の対は、相補的な様式で互いに特異的に結合する(相補的な塩基ペアリングと呼ばれる)。つまり、アデニン(A)は、チミン(T)と対になり(しかしながら、RNAの場合、アデニン(A)は、ウラシル(U)と対になる)、シトシン(C)は、グアニン(G)と対になる。第1の核酸鎖が、第1の鎖のヌクレオチドと相補的なヌクレオチドで構成される第2の核酸鎖と結合すると、2つの鎖は、結合して二重鎖を形成する。様々な実施形態では、「核酸配列決定データ」、「核酸配列決定情報」、「核酸配列」、「ゲノム配列」、「遺伝子配列」、または「フラグメント配列」、または「核酸配列決定読み取り」、または「核酸配列読み取り」、または「配列読み取り」は、DNAまたはRNAの分子(例えば、全ゲノム、全トランスクリプトーム、エクソーム、オリゴヌクレオチド、ポリヌクレオチド、フラグメントなど)中のヌクレオチド塩基(例えば、アデニン、グアニン、シトシン、およびチミン/ウラシル)の順番を示す任意の情報またはデータを示す。
様々な実施形態では、「ポリヌクレオチド」、「核酸」、または「オリゴヌクレオチド」は、ヌクレオシド間結合により連結されたヌクレオシド(デオキシリボヌクレオシド、リボヌクレオシド、またはその類似体を含む)の直鎖状ポリマーを指す。典型的には、ポリヌクレオチドは、少なくとも3つのヌクレオシドを含む。通常、オリゴヌクレオチドのサイズは、数個のモノマー単位、例えば、3~4個から数百個のモノマー単位の範囲である。オリゴヌクレオチドなどのポリヌクレオチドが「ATGCCTG」などの文字配列によって表されるときはいつでも、別段に示されない限り、ヌクレオチドは左から右へ5’~3’の順序であり、「A」はデオキシアデノシンを示し、「C」はデオキシシチジンを示し、「G」はデオキシグアノシンを示し、「T」はチミジンを示すことが理解されるであろう。文字A、C、G、およびTは、当該技術分野で標準的であるように、塩基自体、ヌクレオシド、または塩基を含むヌクレオチドを指すために使用され得る。
本明細書で使用される「遺伝子座」という用語は、染色体または核酸分子上の特定の位置を指す。遺伝子座の対立遺伝子は、相同染色体上の同一部位に位置する。
本明細書で使用される場合、「アダプター」または「アダプターおよびその補体」およびそれらの誘導体は、本開示の核酸分子にライゲーションされ得る任意の直鎖状オリゴヌクレオチドを指す。任意に、アダプターは、試料内の少なくとも1つの標的配列の3’末端または5’末端に実質的に相補的ではない核酸配列を含む。いくつかの実施形態では、アダプターは、試料中に存在する任意の標的配列の3’末端または5’末端と実質的に非相補的である。いくつかの実施形態では、アダプターは、増幅された標的配列と実質的に相補的ではない任意の一本鎖または二本鎖直鎖状オリゴヌクレオチドを含む。いくつかの実施形態では、アダプターは、試料の核酸分子の少なくとも1つ、いくつか、または全てと実質的に非相補的である。いくつかの実施形態では、好適なアダプター長さは、約10~100ヌクレオチド長、約12~60ヌクレオチド長、および約15~50ヌクレオチド長の範囲である。アダプターは、ヌクレオチドおよび/または核酸のいずれかの組み合わせを含むことができる。いくつかの態様では、アダプターは、1つ以上の位置に1つ以上の切断可能な基を含む。いくつかの実施形態では、アダプターは、プライマー、例えば、ユニバーサルプライマーの少なくとも一部分と実質的に同一または実質的に相補的である配列を含み得る。いくつかの実施形態では、アダプターは、ダウンストリームのカタログ化、識別、または配列決定を補助するバーコードまたはタグを含み得る。いくつかの実施形態では、一本鎖アダプターは、増幅された標的配列にライゲーションされたとき、特に好適な温度およびpH下でポリメラーゼおよびdNTPの存在下、増幅のための基板として作用し得る。
本明細書で使用される場合、「DNAバーコード」または「DNAタグ付け配列」およびその派生語は、試料中の複数の増幅された標的配列を区別または分離するための「鍵」として作用し得るアダプター内の固有の短い(例えば、6~14ヌクレオチド)核酸配列を指す。この開示の目的のために、DNAバーコードまたはDNAタグ付け配列は、アダプターのヌクレオチド配列に組み込まれ得る。
いくつかの実施形態では、本開示は、標的核酸分子の集団からの複数の標的特異的配列の増幅を提供する。いくつかの実施形態では、方法は、1つ以上の標的特異的プライマー対を標的配列にハイブリダイズすることと、プライマー対の第1のプライマーを伸長することと、核酸分子の集団から伸長した第1のプライマー産物を変性させることと、伸長した第1のプライマーにプライアー対の第2のプライマーをハイブリダイズすることと、第2のプライマーを伸長して二本鎖産物を形成することと、標的特異的プライマー対を二本鎖産物から消化して複数の増幅された標的配列を生成することとを含む。いくつかの実施形態では、消化は、増幅された標的配列からの標的特異的プライマーのうちの1つ以上の部分消化を含む。いくつかの実施形態では、増幅された標的配列は、1つ以上のアダプターにライゲーションされ得る。いくつかの実施形態では、アダプターは、1つ以上のDNAバーコードまたはタグ付け配列を含み得る。いくつかの実施形態では、一度アダプターにライゲーションされた増幅された標的配列は、ニックトランスレーション反応および/またはさらなる増幅を受けて、アダプターライゲーション増幅標的配列のライブラリを生成し得る。
いくつかの実施形態では、本開示の方法は、複数の核酸分子を含む試料中の標的配列を選択的に増幅することと、増幅された標的配列を少なくとも1つのアダプターおよび/またはバーコードにライゲーションすることとを含む。分子生物学ライブラリ調製技術で使用するためのアダプターおよびバーコードは、当業者に周知である。本明細書で使用されるアダプターおよびバーコードの定義は、当該技術分野で使用される用語と一致する。例えば、バーコードの使用は、多重反応ごとに複数の試料、ソース、組織、または核酸分子の集団を検出および分析を可能にする。バーコード化および増幅された標的配列は、両方の核酸分子からバーコードを除いたものが同じ核酸配列を含む場合でも、ある増幅された核酸分子を別の増幅された核酸分子から識別および区別する固有の核酸配列、典型的には、短い6~15ヌクレオチド配列を含む。アダプターの使用は、均一な様式での各増幅された核酸分子の増幅を可能にし、鎖の偏りを低減するのを助ける。アダプターは、ユニバーサルアダプターまたは適切なアダプターを含むことができ、その両方がダウンストリームで使用され、1つ以上の異なる機能を実行することができる。例えば、本明細書に開示された方法により調製された増幅された標的配列は、クローン増幅のプラットフォームとしてダウンストリームで使用され得るアダプターにライゲーションされ得る。アダプターは、プライマーの2番目のセットを使用してその後の増幅のテンプレート鎖として機能することができる、アダプターライゲーション増幅標的配列の一般的な増幅を可能する。いくつかの実施形態では、アンプリコンのプールを生成するための標的核酸の選択的増幅は、増幅された標的配列に1つ以上のバーコードおよび/またはアダプターをライゲーションすることをさらに含み得る。バーコードを組み込む能力は、試料のスループットを高め、同時に複数の試料または材料のソースの分析を可能にする。
この出願において、「反応閉じ込め領域」は、一般に、反応が閉じ込められ得る任意の領域を指し、例えば、「反応チャンバ」、「ウェル」、および「マイクロウェル」(その各々が互換的に使用され得る)を含む。反応閉じ込め領域には、例えば、固体基板の物理的または化学的属性が対象の反応の局在化を可能し得る領域と、対象の分析物を特異的に結合することができる基板の表面の離散領域(そのような表面に共有結合されたオリゴヌクレオチドまたは抗体を含む離散領域など)とが含まれ得る。反応閉じ込め領域は、中空であってもよく、明確に定義された形状および体積を有してもよく、これらは基板に製造されてもよい。これらの後者の種類の反応閉じ込め領域は、本明細書ではマイクロウェルまたは反応チャンバと称され、任意の好適な微細加工技術を使用して加工され得る。反応閉じ込め領域はまた、例えば、ウェルのない基板上の実質的に平坦な領域であってもよい。
複数の定義されたスペースまたは反応閉じ込め領域は、アレイに配置されてもよく、各定義されたスペースまたは反応閉じ込め領域は、少なくとも1つのセンサと電気通信して、1つ以上の検出可能または測定可能なパラメータまたは特徴の検出または測定を可能にし得る。このアレイは、本明細書ではセンサアレイと称される。センサは、反応副産物の存在、濃度、または量の変化(または反応物のイオン特徴の変化)を出力シグナルに変換されてもよく、出力シグナルは、例えば、電圧レベルまたは電流レベルの変化として電子的に登録されてもよく、次に、処理されて、化学反応または所望の会合イベント、例えば、ヌクレオチド取り込みイベントに関する情報を抽出し得る。センサは、化学反応の特性に関連する少なくとも1つの出力シグナルまたはその近傍の対象の標的分析物を生成するように構成され得る少なくとも1つの化学感受性電界効果トランジスタ(「chemFET」)を含み得る。そのような特性は、反応物、産物もしくは副産物の濃度(または濃度の変化)、またはイオン濃度などの物理的特性の値(またはそのような値の変化)を含み得る。定義されたスペースまたは反応閉じ込め領域のpHの初期測定または調査は、例えば、電気シグナルまたは電圧として表すことができ、それはデジタル化することができる(例えば、電気シグナルまたは電圧のデジタル表現に変換される)。これらの測定値および表現のいずれかは、生データまたは生シグナルと見なされる。
様々な実施形態では、「ベーススペース」という語句は、ヌクレオチドの配列の表現を指す。「フロースペース」という語句は、特定のヌクレオチドフローの取り込みイベントまたは非取り込みイベントの表現を指す。例えば、フロースペースは、特定のヌクレオチドフローのヌクレオチド取り込みイベント(1、「1」など)または非取り込みイベント(ゼロ、「0」など)を表す一連の値であり得る。非取り込みイベントを有するヌクレオチドフローは、空のフローと称され得、ヌクレオチド取り込みイベントを有するヌクレオチドフローは、ポジティブフローと称され得る。ゼロおよび1は、非取り込みイベントおよびヌクレオチド取り込みイベントの好都合な表現であることが理解されるべきであるが、しかしながら、任意の他の記号または名称が、これらのイベントおよび非イベントを表すおよび/または特定するために代替的に使用され得る。特に、ホモポリマーストレッチなどのように、複数のヌクレオチドが所与の位置で組み込まれる場合、値は、ヌクレオチド取り込みイベントの数、したがってホモポリマーストレッチの長さに比例し得る。
図1は、5’プライマーおよび3’プライマーがそれぞれ分子タグを有する融合の検出のためのプライマー設計の例を示す。遺伝子間融合を検出するために、プライマーは、遺伝子の各々の既知のブレークポイントの増幅可能な範囲内で設計される。例えば、5’プライマー106は、遺伝子Aのブレークポイント102の左側にあるように設計されており、3’プライマーは、遺伝子Bのブレークポイント102の右側にあるように設計されている。各プライマーは、結果として生じるアンプリコンが融合ブレークポイント102で融合される遺伝子Aおよび遺伝子Bの部分を含むように、それぞれのブレークポイント102の塩基または範囲112および114の数内である。範囲112および114は、アンプリコンのサイズに関連している。アンプリコンのサイズに応じて、プライマーは、ブレークポイント102からある特定の範囲112および114で設計され得る。いくつかの実施形態では、融合設計範囲112および114は、プライマー設計に使用され得る配列の最大量を示し得る。特定の融合ブレークポイント102を標的とするプライマー104および106は、ブレークポイント102に隣接して融合アンプリコンを生成する。図1の融合IDアンプリコンは、標的融合の存在を特定することができる理想的な融合アンプリコンを表す。同じ戦略は、遺伝子内融合イベントを検出するように設計されたアッセイに適用され得る。例えば、図1では、遺伝子AはエクソンAであり、遺伝子BはエクソンBである。遺伝子内イベントには、エクソンスキッピング、非正規および野生型転写物などのイベントが含まれ得る。個々のポリヌクレオチド分子を特定するために、分子タグ108および110は、5’プライマー104に付加される接頭タグ108および3’プライマー106に付加される接尾タグ110を含む、それぞれ5’プライマー104および3’プライマーに付加される。個々のポリヌクレオチド分子は、固有の分子タグで標識され、PCR反応で増幅され、配列決定されて融合アンプリコンを生成する。所与の標的融合の融合アンプリコンは、融合IDアンプリコンの配列ならびに5’末端の接頭タグ108および3’末端の接尾タグ110を含み得る。PCR増幅および配列決定は、標的融合が存在する場合、元のタグ付けされたポリヌクレオチド分子ごとに複数の配列読み取りをもたらす複数の融合アンプリコンを生成し得る。固有の分子タグを使用して、同じポリヌクレオチド分子に由来する配列読み取りを特定し、それらを同じタグ配列を有するファミリーに分類する。
ファミリー、または分子ファミリーは、同じ固有の分子タグを有する配列読み取りのセットを指す。ファミリーサイズは、ファミリー内の配列読み取りの数である。機能的ファミリーは、最小ファミリーサイズよりも大きなメンバーの数を有するファミリーである。最小ファミリーサイズは、任意の整数値であり得る。例えば、最小ファミリーサイズは、3以上であり得る。
図2は、一実施形態による、融合を検出するためのコンセンサス圧縮データを生成する例示的な方法のブロック図である。フロースペースシグナル測定値は、核酸配列決定デバイスによってプロセッサに提供され得る。いくつかの実施形態では、各フロースペースシグナル測定値は、センサアレイのマイクロウェル内の試料核酸によるフローされたヌクレオチドの取り込みまたは非取り込みに応じて測定されるシグナル振幅または強度を表す。取り込みイベントの場合、シグナル振幅は、1つのフローで取り込まれた塩基の数に依存する。ホモポリマーの場合、シグナル振幅は、ホモポリマーの長さが増加するにつれて増加する。プロセッサは、塩基呼び出し機202を適用して、フロースペースシグナル測定値を分析することにより読み取られた配列の塩基呼び出しを生成することができる。
図4は、塩基呼び出しが行われ得るフロースペースシグナル測定値の例示的な表現を示す。この例では、x軸は、フロー指数と、フロー配列でフローされたヌクレオチドとを示す。グラフのバーは、センサアレイ内のマイクロウェルの特定の位置からの各フローのフロースペースシグナル測定値の振幅を示す。フロースペースシグナル測定値は、生の取得データ、または例えば、スケーリング、バックグラウンドフィルタリング、正規化、シグナル減衰の補正、および/または位相エラーもしくは効果の補正などによって処理されているデータであり得る。塩基呼び出しは、任意の好適なシグナル特徴(例えば、シグナル振幅または強度など)を分析することによって作成され得る。本教示と共に使用するためのセンサアレイ、シグナル処理、および塩基呼び出しの構造および/または設計は、参照によりその全体が本明細書に組み込まれる、2013年4月11日出願の米国特許出願公開第2013/0090860号に記載される1つ以上の特徴を含み得る。
配列読み取りのための塩基配列が決定されると、配列読み取りは、例えば、マッピングされていないBAMファイルでマッパー204に提供され得る。いくつかの実施形態では、マッパー204は、配列読み取りを、カスタム融合参照配列および対照遺伝子参照配列に整列させて、整列された配列読み取りおよび関連するマッピング品質パラメータを決定する。カスタム融合参照は、標的融合のキメラ配列を含んでもよい。対照遺伝子参照配列は、ハウスキーピング遺伝子のRNA転写配列を含んでもよい。ハウスキーピング遺伝子は、基本的な細胞機能の維持に必要であり、通常および病理学的状態の生物の細胞中に発現される。標的融合参照配列および対照遺伝子参照配列は、FASTAファイル形式または他の好適なファイル形式を使用してファイルで提供され得る。本教示と共に使用するための配列読み取りを整列するための方法は、参照によりその全体が本明細書に組み込まれる、2012年8月2日出願の米国特許出願公開第2012/0197623号に記載される1つ以上の特徴を含み得る。整列された配列読み取りは、例えば、マッピングされたBAMファイルでフロースペースコンセンサスパイプライン206に提供され得る。
BAMファイル形式の構造は、本明細書で「BAM仕様」と称される、2014年9月12日の「Sequence Alignment/Map Format Specification」(https://github.com/samtools/hts-specs)に記載されている。本明細書に記載されるように、「BAMファイル」は、BAM形式と互換性のあるファイルを指す。本明細書に記載されるように、「マッピングされていない」BAMファイルは、整列された配列読み取り情報またはマッピング品質パラメータを含まないBAMファイルを指し、「マッピングされた」BAMファイルは、整列された配列読み取り情報およびマッピング品質パラメータを含むBAMファイルを指す。本明細書に記載されるように、「コンセンサス」BAMファイルは、コンセンサス圧縮データを含むBAMファイルを指す。
いくつかの実施形態では、分子タグ付けで読み取られる配列の読み取り構造は、5’末端から開始して、ライブラリキー、バーコード配列、バーコードアダプター、接頭分子タグ、配列テンプレート、接尾分子タグ、およびP1アダプターを含み得る。塩基呼び出しは、ライブラリキー、バーコード配列、およびバーコードアダプターを残りの配列読み取りからトリミングすることと、BAMファイル形式の読み取りグループヘッダー@RGのキー配列(KS)タグフィールドにそれらを保存することとを含み得る。塩基呼び出しは、配列読み取りからP1アダプターをトリミングすることと、BAMヘッダーのコメント行@COにそれを保存することとを含み得る。
いくつかの実施形態では、塩基呼び出し機202は、タグ構造を検出し、読み取られた配列からタグをトリミングするように構成され得る。トリミングされたタグは、カスタムタグZT(例えば、接頭タグ)およびYT(例えば、接尾タグ)のフィールドのBAM読み取りグループヘッダー(@RG)に保存され得る。読み取りグループヘッダーは、テンプレートの配列読み取りデータに関連付けられているため、ファミリーグループとのタグの関連付けの整合性が維持され得る。その後のマッピングまたは参照配列とのアラインメントは、接頭タグまたは接尾タグ無しでテンプレート配列に適用され得る。これは、参照配列へのタグの一部の誤ったマッピングの可能性を低減する。
いくつかの実施形態では、タグ配列は、ランダムな塩基のサブセットおよび既知の塩基のサブセットを含み得る。タグトリミング方法は、読み取られた配列のタグ部分の塩基の配列が既知の塩基と一致することを必要とし得る。タグトリミング方法は、タグの既知の長さに等しいいくつかの塩基を有する塩基文字列を選択し得る。いくつかの実施形態では、タグトリミング方法は、挿入および欠失などのタグ内の配列決定エラーを検出および修正することができる。タグ内の配列決定エラーを修正することは、より正確なファミリー識別を提供し得る。
いくつかの実施形態では、マッピングされたBAMファイルは、複数の配列読み取り、フロースペースシグナル測定値の複数のベクトル、および配列読み取りに対応する複数の配列アラインメントを保存することができる。マッピングされたBAMファイルは、カスタムタグフィールドZMにフロースペースシグナル測定値のベクトルを保存することができる。マッピングされたBAMファイルは、カスタムタグフィールドZPにモデルパラメータを保存することができる。マッピングされたBAMファイルは、上に記載されるように、BAM読み取りグループヘッダーに配列読み取りに関連する分子タグ配列を保存することができる。マッピングされたBAMファイルは、メモリに保存され、フロースペースコンセンサスパイプライン206に提供され得る。いくつかの実施形態では、他のファイル形式を使用して、複数の配列読み取り、フロースペースシグナル測定値の複数のベクトル、複数の配列アラインメント、および配列読み取りに対応する分子タグ配列を保存することができる。
図3は、一実施形態による、フロースペースコンセンサスパイプライン206の例示的な方法のブロック図である。グループ化操作302は、分子タグ配列情報を使用して、配列読み取りのファミリーおよび対応するフロースペースシグナル測定値を特定し得る。グループ化操作302は、配列読み取りに関連する分子タグ配列を比較し、グループ化しきい値を適用し得る。例えば、グループ化のしきい値の基準は、配列読み取りのグループのメンバーの全てのタグ配列が100%のタグ配列同一性を有することを必要とし得る。グループ化のしきい値の基準を満たすことにより、共通タグ配列を共有すると決定された配列読み取りおよび対応するフロースペースシグナル測定値は、共通タグ配列がそのファミリーに固有である所与のファミリーにグループ化される。各ファミリーは、ファミリー内でグループ化された配列読み取りの数であるメンバーの数を有する。いくつかの実施形態では、少なくとも最小数のメンバーを有さないファミリーはさらに処理されず、メモリから削除されてもよい。本教示と共に使用するための分子タグ配列に基づいて配列読み取りをグループ化する方法は、参照によりその全体が本明細書に組み込まれる、2016年12月15日出願の米国特許出願公開第2016/0362748号に記載される1つ以上の特徴を含み得る。
いくつかの実施形態では、フロースペースコンセンサス圧縮機304は、以下のように、グループ化されたファミリーのそれぞれのフロースペース信号測定値に基づいてコンセンサス圧縮データを決定し得る:
A.各グループ化されたファミリーのフロースペース信号測定値のベクトルの算術平均値を計算して、各ファミリーについてのコンセンサスフロースペース信号測定値のベクトルを形成する。
B.各ファミリーのフロースペース信号測定値のベクトルの標準偏差を計算して、各ファミリーについての標準偏差のベクトルを形成する。
いくつかの実施形態では、フロースペースコンセンサス圧縮機304は、フロースペース信号測定値の各ベクトルに対応する少なくとも1つのモデルパラメータを受信し得る。フロースペースコンセンサス圧縮機304は、ファミリーのモデルパラメータの算術平均値を計算して、ファミリーについての少なくとも1つのコンセンサスモデルパラメータを形成し得る。以下で記載するように、モデルパラメータは、塩基呼び出しに使用され得る。いくつかの実施形態では、モデルパラメータは、フロースペース信号測定値の各ベクトルについて不完全拡張(IE)パラメータおよび繰り越し(CF)パラメータを含み得る。フロースペースコンセンサス圧縮機304は、各ファミリーのIEパラメータの算術平均値、およびCFパラメータの算術平均値を計算して、各ファミリーについてのコンセンサスIEパラメータおよびコンセンサスCFパラメータを形成し得る。
いくつかの実施形態では、塩基呼び出し機202は、各ファミリーについてのコンセンサスフロースペース信号測定値のベクトルに適用されて、それぞれのファミリーについてのコンセンサス塩基配列を生成し得る。コンセンサス塩基配列は、本明細書ではコンセンサス配列読み取りとも称される。コンセンサスモデルパラメータは、塩基呼び出しについてのモデルを適用する際に使用され得る。例えば、各ファミリーについてのコンセンサス不完全拡張(IE)パラメータおよびコンセンサス繰り越し(CF)パラメータが、塩基呼び出し機202に提供され得る。塩基呼び出しは、2013年4月11日に公開された米国特許出願公開第2013/0090860号、および/または2012年5月3日に公開された米国特許出願公開第2012/0109598号に記載される1つ以上の特徴を含み得、これらは全て、その全体が参照により本明細書に組み込まれる。コンセンサス塩基配列についてのコンセンサス配列アラインメントは、コンセンサス塩基配列を、最も高いマッピング特質を有するファミリーにおいて読み取られた配列と比較することにより決定され得る。コンセンサス塩基配列が、最も高いマッピング特質を有する読み取られた配列と一致する場合に、対応する配列アラインメントがコンセンサス配列アラインメントとして選択される。コンセンサス塩基配列が、最も高いマッピング特質を有するファミリーにおいて読み取られた配列と一致しない場合に、マッパー204は、コンセンサス塩基配列を、標的融合参照配列および制御遺伝子参照配列とアライメントさせて、コンセンサス配列アライメントを決定し得る。コンセンサス配列読み取りをアラインする方法は、参照によりその全体が本明細書に組み込まれる、2012年8月2日に公開された米国特許出願公開第2012/0197623に記載される1つ以上の特徴を含み得る。いくつかの実施形態では、平均して、コンセンサス配列読み取りの約1%は、マッパー204による再アライメントが必要になり得る。
いくつかの実施形態では、プロセッサは、メモリ内の圧縮データ構造内の各ファミリーについてのコンセンサス圧縮データを格納し得る。コンセンサス圧縮データは、コンセンサス配列の読み取り、コンセンサス配列のアラインメント、コンセンサスフロースペース信号測定のベクトル、標準偏差のベクトル、および各ファミリーについてのメンバーの数を含む。コンセンサス圧縮データは、各ファミリーについてのコンセンサスモデルパラメータのセットをさらに含み得る。ファミリーがサブファミリーに分離されている場合、コンセンサス圧縮データは、コンセンサス配列の読み取り、コンセンサス配列のアラインメント、コンセンサスフロースペース信号測定のベクトル、標準偏差のベクトル、および各サブファミリーについてのメンバーの数を含む。いくつかの実施形態では、圧縮データ構造は、マップされたコンセンサスBAMファイルを生成するためにBAMファイル形式と互換性であり得る。BAM仕様により、ユーザは、カスタムタグフィールドを定義できる。例えば、表1に示すように、コンセンサス圧縮データの一部を格納するために使用されるBAMファイルに対してカスタムタグフィールドが定義され得る。
Figure 2023017894000002
元の配列読み取り、フロースペース信号測定の元のベクトル、および各ファミリーの元のモデルパラメータは、コンセンサス圧縮データに含まれておらず、メモリから削除され得る。いくつかの実施形態では、圧縮データ構造は、カスタムファイル形式を含む、BAMファイル形式とは異なる形式プロトコルを使用し得る。
図5は、単一のファミリーについてのフロースペース信号測定値の例示的なプロットを示す。フロー指数は、フロー配列におけるj番目のフローを示す。正規化された振幅は、フロースペース信号測定値を示す。プロット記号の種類は、特定のフローのヌクレオチドに対応する。フロースペース信号測定のこのプロットは、共通の分子タグに関連付けられた配列読み取りの単一ファミリーに対応する。各フローでのフロースペース信号測定値は、同様の値の近くでクラスタ化される。フロー指数は、フロースペース信号測定値のベクトルにおける要素指数に対応する。このプロットで表されるフロースペース信号測定値は、フロースペースコンセンサス圧縮機304に入力され得る。
図6は、単一のファミリーについてのコンセンサスフロースペース信号測定値の例示的なプロットを示す。このプロットは、図5に示されるフロースペース信号測定値でのコンセンサス計算から生じるコンセンサスフロースペース信号測定値を示す。プロット記号は、ファミリーについてのコンセンサスフロースペース測定値のベクトルの要素である算術平均値を示す。バーは、ファミリーについての標準偏差のベクトルの要素である標準偏差を示す。
双方向配列の場合、第1のファミリーは順方向配列読み取り用に指定され、第2のファミリーは逆方向配列読み取り用に指定される。表2の例に示すように、順方向読み取りの接頭および接尾タグは、逆方向読み取り用の接頭および接尾タグの逆補数であり得る。
Figure 2023017894000003
いくつかの実施形態では、ファミリーはサブファミリーに分割され、同じ分子タグを有するファミリーごとに2つ以上のコンセンサス配列読み取りがもたらされ得る。コンセンサスフロースペース測定値のベクトルを決定するために各サブファミリーが同期化されたフロースペース信号測定値を有するように、サブファミリーがフロー同期のために形成され得る。ファミリー内の配列読み取りに変動がある場合、ファミリーはサブファミリーに分割され、そのためコンセンサス配列読み取りが各サブファミリーに対して生成される。本教示と共に使用するための分子タグ付き核酸配列データのフロースペースコンセンサス圧縮のための方法は、2018年5月15日に出願された米国特許出願第15/979,804号に記載される1つ以上の特徴を含み得、参照によりその全体が本書に組み込まれる。
図2に戻ると、いくつかの実施形態では、二次コンプレッサ208は、融合分析の前に、コンセンサス圧縮データに適用され得る。二次コンプレッサ208は、同じ分子タグを有するサブファミリーを、1つのコンセンサス配列読み取りを含む単一のファミリーに結合し得る。双方向配列読み取りについてのいくつかの実施形態では、二次コンプレッサ208は、順方向および逆方向配列読み取りについてのファミリーを以下のように合わせ得る:
1.逆方向読み取りの接頭および接尾タグの逆補数を決定して、逆補数タグを形成し、
2.逆相数タグを順方向読み取りタグと一致させ、
3.順方向読み取りファミリーと一致するタグおよび逆方向読み取りファミリーを合わせて、1つのコンセンサス配列読み取りを含む1つのファミリーにする。
表2を参照すると、合わせたファミリーで表される読み取りの数は、順方向および逆方向読み取りファミリーにおける配列読み取りの数の合計である。マップされたコンセンサスBAMファイルを変更して、合わせたファミリー情報を含め、サブファミリー情報を削除し得る。合計値は、マップされたコンセンサスBAMファイルのZRフィールドに入力され得る。二次コンプレッサ208は、合わせたファミリーに対して単一のコンセンサス配列読み取りを提供する。合わせたファミリーごとに1つのサブファミリーのコンセンサス配列読み取りを排除することにより、二次コンプレッサ208は、追加のデータ圧縮を提供する。二次圧縮後、コンセンサス圧縮データは、融合呼び出し機210に提供され得る。
図7は、融合呼び出し動作のためにコンセンサス圧縮データを使用する例示的な方法のブロック図である。いくつかの実施形態では、ステップ701で、プロセッサは、以下により、標的融合についてのカウントを検証および提供し得る:
a.コンセンサス配列の読み取りと標的融合参照配列とのアラインメントの特徴を分析することにより、標的融合検出についてカウントするに適格であるコンセンサス配列読み取りを特定する。
b.適格な配列読み取りの場合、各標的融合参照配列と整列する適格なコンセンサス配列読み取りに対応するファミリーの数を計算して、ファミリー計算を与える。双方向配列の場合、鎖あたりのファミリーの数を計算して、鎖あたりのファミリー計算を与える。
c.各標的融合についてのファミリー計算に最小分子計算しきい値を適用する。例えば、最小分子計算しきい値は、3以上の値に設定することができる。双方向配列決定の場合、鎖あたりの最小分子計算しきい値を鎖あたりのファミリー計数に適用する。例えば、鎖あたりの最小分子計算しきい値は、1以上の値に設定することができる。
d.各標的融合参照配列と整列する適格なコンセンサス配列読み取りに対応するファミリーについての配列読み取りの数を合計して、各標的融合についての読み取り計算を与える。各ファミリーについての配列読み取りの数は、マップされたコンセンサスBAMファイルに含まれ得る。
e.各標的融合についての読み取り計算に最小読み取り計算しきい値を適用する。例えば、最小読み取り計数しきい値は、21以上の値に設定することができる。
f.プロセス制御に関連する試料品質管理(QC)パラメータを決定する。プロセス制御、または発現制御は、マッパー204によって決定され、マップされたコンセンサスBAMファイルに含まれる、コンセンサス配列読み取りと対照遺伝子参照配列とのアラインメントの結果を示す。いくつかの実施形態では、試料QCパラメータは、検証に必要な最小数のプロセス制御を含み得る。例えば、2つの対照遺伝子を使用する場合、プロセス対照の最小数を1に設定すると、2つの対照遺伝子の少なくとも1つについて、対照遺伝子参照配列と整列したコンセンサス配列読み取りが存在すべきである。例えば、6つの対照遺伝子を使用する双方向配列の場合、プロセス対照の最小数を3に設定すると、6つの対照遺伝子の少なくとも3つについて、対照遺伝子参照配列と整列したコンセンサス配列読み取りが存在すべきである。プロセス対照標的は、コンセンサス配列の読み取りが対照遺伝子参照配列に配列される場合、存在するとして呼び出しされ得、ファミリー計算は最小分子計算しきい値より大きく、読み取り計算は読み取り計算しきい値以上である。いくつかの実施形態では、試料QCパラメータは、融合パネルについてマッピングされた配列読み取りの最小合計を含み得る。例えば、マッピングされた配列読み取りの最小合計は、20,000の値を有する。いくつかの実施形態では、試料QCパラメータは、試料内の全ての配列読み取りについての最小平均配列読み取り長を含み得る。例えば、最小平均読み取り長は、50の値を有する。
g.標的融合の存在に対して呼び出しか、または呼び出し無しかの判定を決定する。標的融合ブレークポイントについて、最小分子計算しきい値、最小読み取り計算しきい値、および試料QCパラメータが満たされている場合、標的融合が存在するという呼び出し判定が行われ得る。標的融合ブレークポイントについて、最小分子計算しきい値および最小読み取り計算しきい値の1つ以上が満たされない場合、存在しないという決定が行われ得る。いくつかの実施形態では、試料が最小合計のマッピングされた配列読み取りよりも少ない場合、パネル内の全ての標的融合は、呼び出し無しの判定が与えられる。いくつかの実施形態では、全ての配列からの平均配列読み取り長が計算され、平均が最小平均配列読み取り長未満である場合、パネル内の全ての標的融合は、呼び出し無しの判定が与えられる。いくつかの実施形態では、検出されたプロセス制御の数がプロセス制御のしきい値の最小数未満である場合、パネル内の全ての標的融合は、呼び出し無しの判定が与えられる。
いくつかの実施形態では、適格なコンセンサス配列読み取りを特定するステップ(上記のステップa)は、コンセンサス配列読み取りを分析して、各整列されたコンセンサス配列読み取りが融合検出について計算される前に遺伝子融合に関与する両方の遺伝子パートナーからの表現を有するかを確認することを含む。標的融合参照配列とコンセンサス配列読み取りとの整列の特性には、相同性特性、マッピング品質特性、およびブレークポイントスキャニング特性が含まれ得る。プロセッサは、以下のように、これらの特性についての各整列されたコンセンサス配列読み取りを分析する:
i.コンセンサス配列読み取りが、標的融合参照配列での融合ブレークポイントに及ぶかを決定する。
ii.各パートナー配列とコンセンサス配列読み取りとの相同性レベルを決定し、第1および第2の相同性レベルを与える。相同性は、コンセンサス配列読み取りおよび標的配列の間の重複における塩基の数である。パートナー配列は、融合ブレークポイントの片側での標的融合参照配列の部分である。各標的融合は、標的融合参照配列におけるブレークポイントの各側に1つ、第1および第2のパートナー配列を有する。
iii.第1および第2の相同性レベルを最小相同性しきい値と比較する。最小相同性しきい値は、所望される感度および厳密性に基づいて選択され得る。例えば、最小相同性しきい値は、高感度/低厳密性の場合は60%、デフォルト値の場合は70%、および高厳密性の場合は80%に設定され得る。最小相同性しきい値についての他の値がさらに使用され得る。これらの値は、50%~100%の範囲であり得る。
iv.各パートナー配列内での整列されたコンセンサス配列読み取りについてのマッピング品質値を決定して、第1および第2のマッピング品質値を生成する。マッピング品質値は、パートナー配列と一致する整列されたコンセンサス配列読み取りにおいて一致する塩基の数と、パートナー配列と重複する整列されたコンセンサス配列読み取りにおいて重複する塩基の数の比を計算することによって決定され得る。
v.第1および第2のマッピング品質値をマッピング品質しきい値と比較する。例えば、マッピング品質しきい値は、66.6%の値を有し得る。他のマッピング品質しきい値がさらに使用され得る。これらの値は、50%~100%の範囲であり得る。
vi.コンセンサス配列読み取りが融合ブレークポイントにかかる基準を満たす場合、少なくとも最小相同性しきい値である第1および第2の相同性レベルを有し、かつ少なくともマッピング品質しきい値である第1および第2のマッピング品質値を有し、それは上記のステップbについての適格なコンセンサス配列読み取りである。いくつかの実施形態では、コンセンサス配列読み取りがこれらの基準を満たさない場合、図7におけるステップ702に提供され得、非標的融合の存在を特定するか、またはフィルタリングして除去され得る。
いくつかの実施形態では、上記の基準を満たさないコンセンサス配列読み取りは、標的融合参照配列に部分的にマップされ得る。部分的にマッピングされたコンセンサス配列の読み取りは、マッピングされた部分およびマッピングされていない部分を有することができる。マッピングされた部分は、コンセンサス配列読み取りの終了の近くのマッピングされていない部分と共に、コンセンサス配列の読み取りの開始する近くであり得るか、またはマッピングされていない部分は、コンセンサス配列の読み取りの開始する近くであり得、マッピングされた部分は、コンセンサス配列の読み取りの終了の近くであり得る。
いくつかの実施形態では、ステップ702で、プロセッサは、部分的にマッピングされたコンセンサス配列読み取りを分析して、以下のように非標的融合の組み合わせの任意の証拠を特定する:
a)部分的にマッピングされたコンセンサス配列読み取りを、マッピングされた部分およびマッピングされていない部分に分割し、部分的にマッピングされたコンセンサス配列の読み取りが2つの読み取りフラグメントを生成するようにする。
b)読み取りフラグメントを融合参照配列に独立して整列させる。例えば、部分的にマッピングされた読み取りの第1のフラグメントは、融合参照配列内の第1の遺伝子座にマッピングされ、部分的にマッピングされた読み取りの第2のフラグメントは、融合参照配列内の第2の遺伝子座にマッピングされるであろう。遺伝子座は、参照配列での読み取りフラグメントについてマッピングされた位置であり得る。例えば、2つの読み取りフラグメントは、2つの異なる融合参照配列に整列され得る。例えば、2つの読み取りフラグメントは、同じ融合参照配列に整列され得る。
c)それぞれの融合参照配列の第1のフラグメントが5’末端に整列し、第2のフラグメントが3’末端に整列しているかを決定する。
d)各パートナー配列内の整列された読み取りフラグメントについてのマッピング品質値が、マッピング品質しきい値以上であるかを決定する。マッピング品質値は、上記のステップivおよびvに記載される。例えば、マッピング品質しきい値は、66.6%の値を有し得る。
e)第1および第2の整列された読み取りフラグメントについての相同性レベルを決定する。相同性レベルは、上記のステップiiに記載される。相同性レベルを合計して、両方の読み取りフラグメントについて合わせた相同性レベルを与える。
f)合わせた相同性レベルが、合わせた相同性しきい値以上であるかを決定する。例えば、合わせた相同性しきい値は、150%であり得る。例えば、第1のフラグメントについては100%、第2のフラグメントについては50%の相同性レベルが許可される。例えば、第1のフラグメントについては90%、第2のフラグメントについては70%の相同性レベルが許可される。例えば、第1のフラグメントについての80%、および第2のフラグメントについての60%の相同性レベルは、合計が150%未満であるため十分ではない。
g)相同性レベルしきい値およびマッピング品質しきい値の組み合わせを満たす整列された読み取りラグメントについて、それぞれの融合参照配列と整列された読み取りフラグメントを生成したコンセンサス読み取り配列に対応するファミリーの数を計算して、ファミリー計算を与える。
h)ファミリー計算に最小分子計算しきい値を適用する。例えば、最小分子計算しきい値は、3以上の値に設定することができる。双方向配列決定の場合、鎖あたりの最小分子計算しきい値を鎖あたりのファミリー計数に適用する。例えば、鎖あたりの最小分子計算しきい値は、1以上の値に設定することができる。
i)コンセンサス配列読み取りに対応するファミリーについての配列読み取りの数を合計して、それぞれの融合参照配列と整列された読み取りフラグメントを生成し、読み取り計算を与える。
j)各標的融合についての読み取り計算に最小読み取り計算しきい値を適用する。例えば、最小読み取り計数しきい値は、21以上の値に設定することができる。
本教示と共に使用するための部分的にマッピングされた配列読み取りにおける融合を決定するための方法は、参照により全体が本明細書に組み込まれる、2016年12月15日出願の米国特許出願第2016/0362748号に記載される1つ以上の特徴を含み得る。
いくつかの実施形態では、ステップ701および702から生成されたファミリーカウントが集計されて、総ファミリーカウントを形成し得る。最小ファミリーカウントしきい値は、総ファミリーカウントに適用され得る。いくつかの実施形態では、ステップ701および702から生成された読み取りカウントが集計されて、総読み取りカウントを形成し得る。最小読み取りカウントしきい値は、総読み取りカウントに適用され得る。
図1、2、3、および7に関して記載された方法は、遺伝子間融合事象および遺伝子内融合事象の両方に適用され得る。遺伝子間融合事象の場合、標的化された融合参照配列は、融合ブレークポイントでの2つの遺伝子の融合の参照配列を含む。遺伝子内融合事象の場合、標的化された融合参照配列は、同じ遺伝子からの融合ブレークポイントでの2つのエクソンの融合の参照配列を含む。
遺伝子内融合事象は、エクソン欠失、非標準および野生型転写物を検出するように設計され得る。エクソン欠失標的の例には、EGFR-EGFR.E1E8.DelPositive(一般にEGFRvIII欠失として知られているもの)およびMET-MET.M13M15(METエクソン14スキッピングアッセイ)が含まれる。遺伝子内融合事象は、RNAExonVariantと称される。いくつかの実施形態では、遺伝子内融合標的を有する全ての遺伝子について、その遺伝子の標準転写物を増幅するように設計された少なくとも1つの野生型標的が追加される。カスタム融合参照および対照遺伝子は、野生型標的の参照配列を含み得る。コンセンサス配列読み取りの一部分は、野生型参照配列と整列し得る。野生型標的は、野生型RNAExonVariantと称される。追加の注釈が、例えば、BEDファイル形式で、野生型標的に提供され得る。
いくつかの実施形態では、エクソン欠失および代替転写物を検出するためのRNAExonVariantの分析には、以下の測定基準の計算および報告が含まれ得る。
I.遺伝子内融合RNAExonVariant Viの野生型RNAExonVariantに対する比率:
比率=(Viの読み取りカウント)/(同じ遺伝子の全ての野生型RNAExonVariantの平均読み取りカウント)。
遺伝子内融合のViの読み取りカウントは、標的融合参照配列と整列したコンセンサス配列読み取りの一部分に対応するファミリーの配列読み取りの数を加えることによって決定され得る。野生型RNAExonVariantの読み取りカウントは、野生型参照配列と整列したコンセンサス配列読み取りの一部分に対応するファミリーの配列読み取りの数を加えることによって決定され得る。
II.遺伝子内融合RNAExonVariant Viの同じ遺伝子内の正規化されたカウント:
正規化されたカウント=(Viの読み取りカウント)/(同じ遺伝子の全てのRNAExonVariantの読み取りカウントの合計)。
全てのRNAExonVariantの読み取りカウントの合計は、野生型参照配列に対応する読み取りカウントと、同じ遺伝子の標的融合参照配列に対応する読み取りカウントとを加えることによって決定され得る。野生型参照配列に対応する読み取りカウントは、同じ遺伝子の野生型参照配列と整列したコンセンサス配列読み取りの一部分に対応するファミリーの配列読み取りの数を加えることによって決定され得る。標的融合参照配列に対応する読み取りカウントは、同じ遺伝子の標的融合参照配列と整列したコンセンサス配列読み取りに対応するファミリーの読み取りカウントを加えることによって決定され得る。
ステップ703で、プロセッサは、ステップ701で決定された標的融合から生じる総カウントを照合およびフォーマットし、ステップ703で生成された非標的融合およびRNAExonVariantの追加の測定基準はファイルに保存するために照合およびフォーマットされ得る。ステップ704で、プロセッサは、ユーザに提示するために、融合/対照遺伝子について正規化されたカウントの要約表および動的ヒートマップなどの融合結果の可視化を生成し得る。結果の一例が表3に示される。
Figure 2023017894000004
遺伝子座情報、注釈情報、分析名、試料名、およびバーコードIDなどの他の情報もこの結果表に含まれてもよい。
表4は、双方向配列読み取りデータについて本明細書に記載の方法によって達成される結果として生じる圧縮を示す。
Figure 2023017894000005
表5は、一方向配列読み取りデータについて本明細書に記載の方法によって達成される結果として生じる圧縮を示す。
Figure 2023017894000006
表4および5では、元の読み取りカウントは、変異体(エクソン)の列に示される遺伝子座に整列した配列読み取りの元の数を示す。コンセンサス圧縮の列は、フロースペースコンセンサスパイプライン206による圧縮後の、整列したコンセンサス配列読み取りの数またはファミリーの数を示す。はるかに多数の元の配列読み取りは、コンセンサス圧縮データのコンセンサスシーケンス読み取りに置き換えられる。その結果、データ量の著しい減少が達成される。2回目の圧縮およびフィルタリングの列は、二次コンプレッサ208を適用し、融合検出のためのカウントの資格のないコンセンサス配列読み取りを有するものを除去した後に残っている、整列したコンセンサス配列読み取りの数、またはファミリーの数を示す。コンセンサス配列読み取りの数のさらなる減少により、データ量のさらなる減少がもたらされる。全体的な圧縮により、元の配列読み取りデータからのデータ量の著しい減少がもたらされる。圧縮率は、元の配列読み取りデータを格納するのに必要なメモリ量からのコンセンサス配列読み取りデータを格納するのに必要なメモリ量の減少に直接関係する。
いくつかの実施形態では、本明細書に記載の方法は、分散型、クラスタ、リモート、またはクラウドコンピューティングリソースを少なくとも部分的に使用して実施または実装され得る。コンセンサス圧縮データを提供するための配列読み取りデータの圧縮は、分散型、クラスタ、リモート、またはクラウドコンピューティングリソースにおいてプロセッサにデータを送信するための利点を提供する。データ量が減少するため、コンピューティングリソース間のデータ転送インターフェース上での送信に必要な帯域幅および/または時間が削減される。例えば、マッピングされたコンセンサスBAMファイルは、融合検出動作のためにローカルコンピューティングリソースからクラウドコンピューティングリソースに転送され得る。マッピングされたコンセンサスBAMファイルのサイズは、元のマッピングされたBAMファイルのサイズよりも著しく小さいであろう。マッピングされたコンセンサスBAMファイルのサイズがより小さい場合、クラウドコンピューティングリソースへのデータ転送インターフェース上での送信に必要な帯域幅および/または時間が削減されるであろう。
例示的な実施形態によると、融合検出についての分子タグ付き核酸配列データを圧縮するための方法であって、(a)複数の核酸配列読み取りおよび複数の配列読み取りファミリーの複数の配列アラインメントを受け取ることであって、各配列読み取りが分子タグ配列と関係しており、分子タグ配列が、核酸試料中の特定のポリヌクレオチド分子から結果として生じる配列読み取りのファミリーを特定し、各ファミリーが番号配列読み取りを有し、配列アラインメントの一部が、標的融合参照配列へマッピングされた配列読み取りに対応する、受け取ることと、(b)配列読み取りの各ファミリーについての配列読み取りに対応するフロースペースシグナル測定値に基づいて、各ファミリーのコンセンサス配列読み取りを決定することと、(c)配列読み取りの各ファミリーについてのコンセンサス配列アラインメントを決定することであって、コンセンサス配列アラインメントの一部が、標的融合参照配列と整列しているコンセンサス配列読み取りに対応する、決定することと、(d)コンセンサス圧縮データを含む圧縮データ構造を生成することであって、コンセンサス圧縮データが、コンセンサス配列読み取りと各ファミリーについてのコンセンサス配列アラインメントとを含む、生成することと、(e)コンセンサス配列読み取りと圧縮データ構造からのコンセンサス配列アラインメントとを使用して融合を検出することと、を含む、方法が提供される。方法は、順方向コンセンサス配列読み取りおよび逆方向コンセンサス配列読み取りが、順方向ファミリーが第1の接頭タグおよび第1の接尾タグと関係し、逆方向ファミリーが第2の接頭タグおよび第2の接尾タグと関係する別個のファミリーにある双方向配列決定のために、第2の接頭タグと第2の接尾タグの逆補数が第1の接頭タグと第1の接尾タグに一致して、圧縮データ構造のために1つのコンセンサス配列読み取りを有する合わせたファミリーを形成するとき、順方向ファミリーと逆方向ファミリーとを組み合わせることを含む。融合を検出するステップは、コンセンサス配列読み取りと標的融合参照配列とのコンセンサス配列アラインメントの特徴に基づいて適格なコンセンサス配列読み取りを特定することをさらに含み得る。特徴は、相同性特徴と、マッピング品質特徴と、ブレークポイントスパニング特徴とを含み得る。適格なコンセンサス配列読み取りを特定するステップは、標的融合参照配列と整列したコンセンサス配列読み取りが標的融合参照配列の融合ブレークポイントに及ぶかどうかを決定することをさらに含み得る。適格なコンセンサス配列読み取りを特定するステップは、標的融合参照配列のコンセンサス配列読み取りとそれぞれ第1および第2のパートナー配列との第1および第2の相同性レベルが最小相同性しきい値以上であるかどうかを判定することをさらに含み得る。適格なコンセンサス配列読み取りを特定するステップは、標的融合参照配列のそれぞれ第1および第2のパートナー配列内のコンセンサス配列読み取りについての第1および第2のマッピング品質値が、マッピング品質のしきい値以上であるかどうかを判定することをさらに含み得る。適格なコンセンサス配列読み取りを特定するステップは、パートナー配列と重複するコンセンサス配列読み取りにおいてパートナー配列をいくつかの重複塩基と一致させるコンセンサス配列において、いくつかの符合している塩基の比を計算することによって、マッピングの質の値を決定することをさらに含み得る。適格なコンセンサス配列読み取りを特定するステップは、標的融合参照配列と整列した適格なコンセンサス配列読み取りに対応するファミリーの数が最小分子カウントしきい値以上であるかどうかを決定することをさらに含み得る。適格なコンセンサス配列読み取りを特定するステップは、読み取り計数が最小読み取りしきい値以上であるかどうかを判定することをさらに含み得、読み取り計数は、標的融合参照配列と整列した適格なコンセンサス配列に対応するファミリーについての配列読み取りの数の合計である。配列読み取りに対応する配列アラインメントの一部は、対照遺伝子参照配列へマッピングし得、コンセンサス圧縮データは、対照遺伝子参照配列に対応するコンセンサス配列読み取りおよびコンセンサス配列アラインメントをさらに含む。方法は、ファミリー計数が最小分子カウントしきい値よりも大きく、読み取り計数が読み取り計数しきい値よりも大きい場合、対照遺伝子参照配列に対応するプロセス制御標的の存在を決定することをさらに含み得、ファミリー計数は、対照遺伝子参照配列と整列したコンセンサス配列読み取りに対応するファミリーの数であり、読み取り計数は、対応するファミリーについての配列読み取りの数の合計である。融合は、遺伝子間融合を含み得、標的融合参照配列は、融合ブレークポイントでの2つの遺伝子の融合のための参照配列を含み得る。融合は、遺伝子内融合を含み得、標的融合参照配列は、同じ遺伝子内の融合ブレークポイントでの2つのエクソンの融合のための参照配列を含み得る。コンセンサス配列アラインメントの一部は、同じ遺伝子について1つ以上の野生型参照配列と整列したコンセンサス配列読み取りに対応し得る。遺伝子内融合の場合、融合を検出するステップはさらに、同じ遺伝子について、遺伝子内融合の読み取り計数の、野生型参照配列と整列したコンセンサス配列読み取りに対応する平均読み取り計数に対する比率を計算することをさらに含み得る。遺伝子内融合の場合、融合を検出するステップはさらに、同じ遺伝子について、遺伝子内融合の読み取り計数の、野生型参照配列と整列したコンセンサス配列読み取り、および標的融合参照配列と整列したコンセンサス配列読み取りに対応する読み取り計数の合計に対する比率を計算することをさらに含み得る。コンセンサス配列読み取りの一部は、標的融合参照配列へ部分的にマッピングし得る。融合を検出するステップは、部分的にマッピングされたコンセンサス配列読み取りに基づいて非標的融合を検出することをさらに含み得る。
例示的な実施形態によると、プロセッサによって実行されるとき、プロセッサに、融合検出についての分子タグ付き核酸配列データを圧縮するための方法を実行させる命令を含む、非一時的な機械可読記憶媒体であって、(a)複数の核酸配列読み取りと配列読み取りの複数のファミリーについての複数の配列アラインメントを受け取り、各配列読み取りが分子タグ配列と関係しており、分子タグ配列が核酸試料中の特定のポリヌクレオチド分詞から結果として生じる配列読み取りのファミリーを特定し、各ファミリーが番号配列読み取りを有し、配列アラインメントの一部が標的融合参照配列へマッピングされた配列読み取りに対応する、受け取ることと、(b)ファミリーについての配列読み取りに対応するフロースペースシグナル測定値に基づいて配列読み取りの各ファミリーについてコンセンサス配列読み取りを決定することと、(c)配列読み取りの各ファミリーについてコンセンサス配列アラインメントを決定することであって、コンセンサス配列アラインメントの一部が、標的融合参照配列と整列したコンセンサス配列読み取りに対応する、決定することと、(d)コンセンサス圧縮データを含む圧縮データ構造を生成することであって、コンセンサス圧縮データがコンセンサス配列読み取りと各ファミリーについてのコンセンサス配列アラインメントとを含む、生成することと、(e)コンセンサス配列読み取りと圧縮データ構造からのコンセンサス配列アラインメントとを使用して、融合を検出することと、を含む、非一時的な機械可読記憶媒体が提供される。方法は、順方向コンセンサス配列読み取りおよび逆方向コンセンサス配列読み取りが、順方向ファミリーが第1の接頭タグおよび第1の接尾タグと関係し、逆方向ファミリーが第2の接頭タグおよび第2の接尾タグと関係する別個のファミリーにある双方向配列決定のために、第2の接頭タグと第2の接尾タグの逆補数が第1の接頭タグと第1の接尾タグに一致して、圧縮データ構造のために1つのコンセンサス配列読み取りを有する合わせたファミリーを形成するとき、順方向ファミリーと逆方向ファミリーとを組み合わせることを含む。融合を検出するステップは、コンセンサス配列読み取りと標的融合参照配列とのコンセンサス配列アラインメントの特徴に基づいて適格なコンセンサス配列読み取りを特定することをさらに含み得る。特徴は、相同性特徴と、マッピング品質特徴と、ブレークポイントスパニング特徴とを含み得る。適格なコンセンサス配列読み取りを特定するステップは、標的融合参照配列と整列したコンセンサス配列読み取りが標的融合参照配列の融合ブレークポイントに及ぶかどうかを決定することをさらに含み得る。適格なコンセンサス配列読み取りを特定するステップは、標的融合参照配列のコンセンサス配列読み取りとそれぞれ第1および第2のパートナー配列との第1および第2の相同性レベルが最小相同性しきい値以上であるかどうかを判定することをさらに含み得る。適格なコンセンサス配列読み取りを特定するステップは、標的融合参照配列のそれぞれ第1および第2のパートナー配列内のコンセンサス配列読み取りについての第1および第2のマッピング品質値が、マッピング品質のしきい値以上であるかどうかを判定することをさらに含み得る。適格なコンセンサス配列読み取りを特定するステップは、パートナー配列と重複するコンセンサス配列読み取りにおいてパートナー配列をいくつかの重複塩基と一致させるコンセンサス配列において、いくつかの符合している塩基の比を計算することによって、マッピングの質の値を決定することをさらに含み得る。適格なコンセンサス配列読み取りを特定するステップは、標的融合参照配列と整列した適格なコンセンサス配列読み取りに対応するファミリーの数が最小分子カウントしきい値以上であるかどうかを決定することをさらに含み得る。適格なコンセンサス配列読み取りを特定するステップは、読み取り計数が最小読み取りしきい値以上であるかどうかを判定することをさらに含み得、読み取り計数は、標的融合参照配列と整列した適格なコンセンサス配列に対応するファミリーについての配列読み取りの数の合計である。配列読み取りに対応する配列アラインメントの一部は、対照遺伝子参照配列へマッピングし得、コンセンサス圧縮データは、対照遺伝子参照配列に対応するコンセンサス配列読み取りおよびコンセンサス配列アラインメントをさらに含む。方法は、ファミリー計数が最小分子カウントしきい値よりも大きく、読み取り計数が読み取り計数しきい値よりも大きい場合、対照遺伝子参照配列に対応するプロセス制御標的の存在を決定することをさらに含み得、ファミリー計数は、対照遺伝子参照配列と整列したコンセンサス配列読み取りに対応するファミリーの数であり、読み取り計数は、対応するファミリーについての配列読み取りの数の合計である。融合は、遺伝子間融合を含み得、標的融合参照配列は、融合ブレークポイントでの2つの遺伝子の融合のための参照配列を含み得る。融合は、遺伝子内融合を含み得、標的融合参照配列は、同じ遺伝子内の融合ブレークポイントでの2つのエクソンの融合のための参照配列を含み得る。コンセンサス配列アラインメントの一部は、同じ遺伝子について1つ以上の野生型参照配列と整列したコンセンサス配列読み取りに対応し得る。遺伝子内融合の場合、融合を検出するステップはさらに、同じ遺伝子について、遺伝子内融合の読み取り計数の、野生型参照配列と整列したコンセンサス配列読み取りに対応する平均読み取り計数に対する比率を計算することをさらに含み得る。遺伝子内融合の場合、融合を検出するステップはさらに、同じ遺伝子について、遺伝子内融合の読み取り計数の、野生型参照配列と整列したコンセンサス配列読み取り、および標的融合参照配列と整列したコンセンサス配列読み取りに対応する読み取り計数の合計に対する比率を計算することをさらに含み得る。コンセンサス配列読み取りの一部は、標的融合参照配列へ部分的にマッピングし得る。融合を検出するステップは、部分的にマッピングされたコンセンサス配列読み取りに基づいて非標的融合を検出することをさらに含み得る。
例示的な実施形態によれば、機械可読メモリと、メモリと通信するプロセッサとを備えた、融合検出のために分子タグ付き核酸配列データを圧縮するためのシステムであって、機械可読命令を実行するように構成されたシステムであって、機械可読命令が、プロセッサによって実行されるとき、(a)複数の核酸配列読み取りと配列読み取りの複数のファミリーについての複数の配列アラインメントとを受信することであって、各配列読み取りが、分子タグ配列と関係しており、分子タグ配列が、核酸試料中の特定のポリヌクレオチド分子から結果として生じる配列読み取りのファミリーを特定し、各ファミリーが番号配列読み取りを有し、配列アラインメントの一部が、標的融合参照配列へマッピングされた配列読み取りに対応する、受信することと、(b)ファミリーについての配列読み取りに対応するフロースペースシグナル測定値に基づいて、配列読み取りの各ファミリーのコンセンサス配列読み取りを決定すること、(c)配列読み取りの各ファミリーについてのコンセンサス配列アラインメントを決定することであって、コンセンサス配列アラインメントの一部が、標的融合参照配列と整列したコンセンサス配列読み取りに対応する、決定することと、(d)コンセンサス圧縮データを含む圧縮データ構造を生成することであって、コンセンサス圧縮データが、コンセンサス配列読み取りと各ファミリーについてのコンセンサス配列アラインメントとを含む、生成することと、(e)コンセンサス配列読み取りと圧縮データ構造からのコンセンサス配列アラインメントとを使用して融合を検出することと、を含む、システムが提供される。方法は、順方向コンセンサス配列読み取りおよび逆方向コンセンサス配列読み取りが、順方向ファミリーが第1の接頭タグおよび第1の接尾タグと関係し、逆方向ファミリーが第2の接頭タグおよび第2の接尾タグと関係する別個のファミリーにある双方向配列決定のために、第2の接頭タグと第2の接尾タグの逆補数が第1の接頭タグと第1の接尾タグに一致して、圧縮データ構造のために1つのコンセンサス配列読み取りを有する合わせたファミリーを形成するとき、順方向ファミリーと逆方向ファミリーとを組み合わせることを含む。融合を検出するステップは、コンセンサス配列読み取りと標的融合参照配列とのコンセンサス配列アラインメントの特徴に基づいて適格なコンセンサス配列読み取りを特定することをさらに含み得る。特徴は、相同性特徴と、マッピング品質特徴と、ブレークポイントスパニング特徴とを含み得る。適格なコンセンサス配列読み取りを特定するステップは、標的融合参照配列と整列したコンセンサス配列読み取りが標的融合参照配列の融合ブレークポイントに及ぶかどうかを決定することをさらに含み得る。適格なコンセンサス配列読み取りを特定するステップは、標的融合参照配列のコンセンサス配列読み取りとそれぞれ第1および第2のパートナー配列との第1および第2の相同性レベルが最小相同性しきい値以上であるかどうかを判定することをさらに含み得る。適格なコンセンサス配列読み取りを特定するステップは、標的融合参照配列のそれぞれ第1および第2のパートナー配列内のコンセンサス配列読み取りについての第1および第2のマッピング品質値が、マッピング品質のしきい値以上であるかどうかを判定することをさらに含み得る。適格なコンセンサス配列読み取りを特定するステップは、パートナー配列と重複するコンセンサス配列読み取りにおいてパートナー配列をいくつかの重複塩基と一致させるコンセンサス配列において、いくつかの符合している塩基の比を計算することによって、マッピングの質の値を決定することをさらに含み得る。適格なコンセンサス配列読み取りを特定するステップは、標的融合参照配列と整列した適格なコンセンサス配列読み取りに対応するファミリーの数が最小分子カウントしきい値以上であるかどうかを決定することをさらに含み得る。適格なコンセンサス配列読み取りを特定するステップは、読み取り計数が最小読み取りしきい値以上であるかどうかを判定することをさらに含み得、読み取り計数は、標的融合参照配列と整列した適格なコンセンサス配列に対応するファミリーについての配列読み取りの数の合計である。配列読み取りに対応する配列アラインメントの一部は、対照遺伝子参照配列へマッピングし得、コンセンサス圧縮データは、対照遺伝子参照配列に対応するコンセンサス配列読み取りおよびコンセンサス配列アラインメントをさらに含む。方法は、ファミリー計数が最小分子カウントしきい値よりも大きく、読み取り計数が読み取り計数しきい値よりも大きい場合、対照遺伝子参照配列に対応するプロセス制御標的の存在を決定することをさらに含み得、ファミリー計数は、対照遺伝子参照配列と整列したコンセンサス配列読み取りに対応するファミリーの数であり、読み取り計数は、対応するファミリーについての配列読み取りの数の合計である。融合は、遺伝子間融合を含み得、標的融合参照配列は、融合ブレークポイントでの2つの遺伝子の融合のための参照配列を含み得る。融合は、遺伝子内融合を含み得、標的融合参照配列は、同じ遺伝子内の融合ブレークポイントでの2つのエクソンの融合のための参照配列を含み得る。コンセンサス配列アラインメントの一部は、同じ遺伝子について1つ以上の野生型参照配列と整列したコンセンサス配列読み取りに対応し得る。遺伝子内融合の場合、融合を検出するステップはさらに、同じ遺伝子について、遺伝子内融合の読み取り計数の、野生型参照配列と整列したコンセンサス配列読み取りに対応する平均読み取り計数に対する比率を計算することをさらに含み得る。遺伝子内融合の場合、融合を検出するステップはさらに、同じ遺伝子について、遺伝子内融合の読み取り計数の、野生型参照配列と整列したコンセンサス配列読み取り、および標的融合参照配列と整列したコンセンサス配列読み取りに対応する読み取り計数の合計に対する比率を計算することをさらに含み得る。コンセンサス配列読み取りの一部は、標的融合参照配列へ部分的にマッピングし得る。融合を検出するステップは、部分的にマッピングされたコンセンサス配列読み取りに基づいて非標的融合を検出することをさらに含み得る。
核酸配列データは、キャピラリー電気泳動、マイクロアレイ、ライゲーションに基づくシステム、ポリメラーゼに基づくシステム、ハイブリダイゼーションに基づくシステム、直接または間接的ヌクレオチド特定システム、ピロシーケンシング、イオンまたはpHに基づく検出システム、電子署名に基づくシステムなどを含む、様々な技法、プラットフォーム、または技術を使用して生成され得る。
核酸シーケンサーなどの核酸配列決定プラットフォームの様々な実施形態は、図10のブロック図に表示されている構成部品を含むことができる。様々な実施形態によれば、配列決定機器1200は、流体送達および制御ユニット1202、試料処理ユニット1204、シグナル検出ユニット1206、ならびにデータ取得、分析、および制御ユニット1208を含むことができる。次世代配列決定に使用される機器、試薬、ライブラリ、および方法の様々な実施形態は、米国特許出願公開第2009/0127589号および第2009/0026082号に記載されている。機器1200の様々な実施形態は、実質的に同時になど、複数の配列から配列情報を並行して収集するために使用され得る自動配列決定を提供することができる。
様々な実施形態では、流体送達および制御ユニット1202は、試薬送達システムを含むことができる。試薬送達システムは、様々な試薬を保管するための試薬リザーバを含むことができる。試薬には、RNAベースのプライマー、フォワード/リバースDNAプライマー、ライゲーション配列決定用のオリゴヌクレオチド混合物、合成による配列決定用のヌクレオチド混合物、任意のECCオリゴヌクレオチド混合物、緩衝液、洗浄試薬、ブロッキング試薬、ストリッピング試薬などが含まれ得る。加えて、試薬送達システムは、試料処理ユニットを試薬リザーバに接続するピペッティングシステムまたは連続フローシステムを含むことができる。
様々な実施形態では、試料処理ユニット1204は、フローセル、基板、マイクロアレイ、マルチウェルトレイなどの試料チャンバを含むことができる。試料処理ユニット1204は、複数のレーン、複数のチャネル、複数のウェル、または複数の試料セットを実質的に同時に処理する他の手段を含むことができる。加えて、試料処理ユニットは、複数の実行を同時に処理することができるように、複数の試料チャンバを含むことができる。特定の実施形態では、このシステムは、1つの試料チャンバ上でシグナル検出を実行しながら、別の試料チャンバを実質的に同時に処理することができる。加えて、試料処理ユニットは、試料チャンバを移動させるか、または操作するための自動化システムを含むことができる。
様々な実施形態では、シグナル検出ユニット1206は、撮像または検出センサを含むことができる。例えば、撮像または検出センサは、CCD、CMOS、イオンまたは化学センサ、例えば、CMOSまたはFETを覆うイオン感受性層、検流器または検電器などを含むことができる。シグナル検出ユニット1206は、蛍光色素などのプローブにシグナルを放出させる励起システムを含むことができる。励起システムは、アークランプ、レーザ、発光ダイオード(LED)などの照明源を含むことができる。特定の実施形態では、シグナル検出ユニット1206は、照明源から試料へ、または試料から撮像または検出センサへの光の伝達のための光学を含むことができる。あるいは、シグナル検出ユニット1206は、検出のための電子または非光子ベースの方法を提供することができ、その結果、照明源を含まない。様々な実施形態では、検出可能なシグナルまたは種が配列決定反応中に生成されると、電子ベースのシグナル検出が起こり得る。例えば、シグナルは、イオンまたは化学物質感受性層と相互作用する、放出された副産物または部分、例えば、水素イオンなどの放出されたイオンの相互作用によって生成され得る。他の実施形態では、ATPスルフリラーゼとさらに反応してアデノシン5´ホスホ硫酸の存在下でATPを生成するポリメラーゼによる塩基組み込みによってピロリン酸塩が生成されるピロシーケンシング(例えば、米国特許出願公開第2009/0325145号を参照のこと)で使用されるような酵素カスケードの結果として、検出可能なシグナルが生じ得、生成されたATPは、ルシフェラーゼ媒介反応で消費されて、化学発光シグナルを生成することができる。別の例では、核酸が照明源を必要とすることなくナノポアを通過するときに、電流の変化が検出され得る。
様々な実施形態では、データ取得分析および制御ユニット1208は、様々なシステムパラメータを監視することができる。システムパラメータには、試料処理ユニットまたは試薬リザーバなどの機器1200の様々な部分の温度、様々な試薬の量、マニピュレータ、ステッピングモータ、ポンプなどの様々なシステム従属部品の状態、またはそれらの任意の組み合わせが含まれ得る。
当業者であれば、機器1200の様々な実施形態を使用して、ライゲーションに基づく方法、合成による配列決定、単一分子法、ナノポア配列決定、および他の配列決定技法を含む様々な配列決定方法を実施することができることを理解するであろう。
様々な実施形態では、配列決定機器1200は、ポリヌクレオチドまたはオリゴヌクレオチドなどの核酸の配列を決定することができる。核酸はDNAまたはRNAを含み得、ssDNAおよびRNAなどの一本鎖、またはdsDNAまたはRNA/cDNA対などの二本鎖であり得る。様々な実施形態では、核酸は、フラグメントライブラリ、メイトペアライブラリ、ChIPフラグメントなどを含み得るか、またはそれに由来し得る。特定の実施形態では、配列決定機器1200は、単一の核酸分子から、または実質的に同一の核酸分子の群から配列情報を取得することができる。
様々な実施形態では、配列決定機器1200は、*.fasta、*.csfasta、*seq.txt、*qseq.txt、*.fastq、*.sff、*prb.txt、*.sms、*srs、および/または*.qvを含むが、これらに限定されない様々な異なる出力データファイルタイプ/型式で核酸配列決定読み取りデータを出力することができる。
様々な例示的な実施形態によると、上記の教示および/または例示的な実施形態のうちのいずれか1つ以上の1つ以上の特徴は、適切に構成および/またはプログラムされたハードウェアおよび/またはソフトウェア要素を使用して実施または実装され得る。実施形態がハードウェアおよび/またはソフトウェアを要素を使用して実装されるかどうかの判定は、任意の要因、例えば、所望の計算速度、出力レベル、耐熱性、処理サイクル予算、入力データ速度、出力データ速度、メモリリソース、データバススピード等、および他の設計または性能の制約に基づき得る。
ハードウェア要素の例としては、プロセッサ、マイクロプロセッサ、ローカルインターフェース回路を介して通信可能に連結した入力(複数可)および/または出力(複数可)(I/O)デバイス(複数可)(または周辺機器)、回路要素(例えば、トランジスタ、抵抗器、コンデンサ、インダクタ等)、集積回路、特定用途向け集積回路(ASIC)、プログラム可能論理デバイス(PLD)、デジタル信号プロセッサ(DSP)、フィールドプログラマブルゲートアレイ(FPGA)、論理ゲート、レジスタ、半導体デバイス、チップ、マイクロチップ、チップセット等が挙げられ得る。ローカルインターフェースには、例えば、ハードウェア部品間の適切な通信を可能にする1つ以上のバスまたは他の有線もしくは無線接続、制御器、バッファ(キャッシュ)、ドライバ、リピータ、およびレシーバ等が含まれ得る。プロセッサは、ソフトウェア、特に、メモリ内に保存されたソフトウェアを実行するためのハードウェアデバイスである。プロセッサは、任意のオーダーメードまたは市販のプロセッサ、中央処理装置(CPU)、コンピュータに関連するいくつかのプロセッサのうちの補助プロセッサ、半導体ベースのマイクロプロセッサ(例えば、マイクロチップまたはチップセットの形態にある)、マクロプロセッサ、またはソフトウェア命令を実行するための概してあらゆるデバイスであり得る。プロセッサはまた、分散型処理アーキテクチャを表し得る。I/Oデバイスには、入力デバイス、例えば、キーボード、マウス、スキャナー、マイクロフォン、タッチスクリーン、様々な医療デバイスおよび/または実験機器のためのインターフェース、バーコード読み取り機、スタイラス、レーザ読み取り機、無線周波デバイス読み取り機等が含まれ得る。さらに、I/Oデバイスには、出力デバイス、例えば、プリンタ、バーコードプリンタ、ディスプレイ等も含まれ得る。最後に、I/Oデバイスには、入力および出力の両方として通信するデバイス、例えば、変調器/復調器(モデム;別のデバイス、システム、またはネットワークにアクセスするため)、無線周波(RF)トランシーバまたは他のトランシーバ、電話インターフェース、ブリッジ、ルータ等がさらに含まれ得る。
ソフトウェアの例としては、ソフトウェア要素、プログラム、アプリケーション、コンピュータプログラム、アプリケーションプログラム、システムプログラム、マシンプログラム、オペレーティングシステムソフトウェア、ミドルウェア、ファームウェア、ソフトウェアモジュール、ルーチン、サブルーチン、関数、方法、手続き、ソフトウェアインターフェース、アプリケーションプログラムインターフェース(API)、命令セット、演算コード、コンピュータコード、コードセグメント、コンピュータコードセグメント、ワード、値、記号、またはそれらの任意の組み合わせが挙げられ得る。メモリ内のソフトウェアは、論理関数を実装するための実行可能な命令の順序リストを含み得る1つ以上の別個のプログラムを含み得る。メモリ内のソフトウェアは、本教示に従うデータ流を特定するためのシステム、ならびにシステム等の他のコンピュータプログラムの実行を制御し得、スケジューリング、入出力制御、ファイルおよびデータ管理、メモリ管理、通信制御等を提供する任意の好適なオーダーメードまたは市販のオペレーティングシステム(O/S)を含み得る。
様々な例示的な実施形態によると、上記の教示および/または例示的な実施形態のうちのいずれか1つ以上の1つ以上の特徴は、機械によって実行された場合、例示的な実施形態に従う方法および/または動作を機械が行うことを引き起こし得る命令または命令のセットを保存し得る、適切に構成および/またはプログラムされた非一時的機械可読媒体または物品を使用して実施または実装され得る。かかる機械には、例えば、任意の好適な処理プラットフォーム、コンピューティングプラットフォーム、コンピューティングデバイス、処理デバイス、コンピューティングシステム、処理システム、コンピュータ、プロセッサ、科学機器または実験機器等が含まれ得、ハードウェアおよび/またはソフトウェアの任意の好適な組み合わせを使用して実装され得る。機械可読媒体または物品には、例えば、任意の好適な種類のメモリユニット、メモリデバイス、メモリ物品、メモリ媒体、記憶デバイス、記憶物品、記憶媒体、および/または記憶ユニット、例えば、メモリ、リムーバブルまたはノンリムーバブル媒体、消去可能または非消去可能な媒体、書き込み可能または書き換え可能な媒体、デジタルまたはアナログ媒体、ハードディスク、フロッピーディスク、読み出し専用コンパクトディスク(CD-ROM)、記録可能コンパクトディスク(CD-R)、書き換え可能コンパクト(CD-RW)、光ディスク、磁気媒体、光磁気媒体、リムーバブルメモリカードまたはディスク、様々な種類のデジタル多用途ディスク(DVD)、テープ、カセット等が含まれ得、コンピュータにおける使用に好適な任意の媒体を含む。メモリには、揮発性メモリ素子(例えば、ランダムアクセスメモリ(RAM、例えば、DRAM、SRAM、SDRAM等))および不揮発性メモリ素子(例えば、ROM、EPROM、EEROM、フラッシュメモリ、ハードドライブ、テープ、CDROM等)のうちのいずれか1つまたは組み合わせが含まれ得る。さらに、メモリは、電気、磁気、光、および/または他の種類の記憶媒体を組み込みことができる。メモリは、様々な部品が互いから離れて位置しているが、依然としてプロセッサによってアクセスされる分散型アーキテクチャを有し得る。命令には、任意の好適な種類のコード、例えば、任意の好適な高レベル、低レベル、オブジェクト指向、ビジュアル、コンパイル済み、および/または解釈されたプログラミング言語を使用して実装された、ソースコード、コンパイル済みコード、解釈されたコード、実行可能コード、静的コード、動的コード、暗号化されたコード等が含まれ得る。
様々な例示的な実施形態によると、上記の教示および/または例示的な実施形態のうちのいずれか1つ以上の1つ以上の特徴は、分散型、クラスタ、リモート、またはクラウド計算リソースを少なくとも部分的に使用して実施または実装され得る。
様々な例示的な実施形態によると、上記の教示および/または例示的な実施形態のうちのいずれか1つ以上の1つ以上の特徴は、ソースプログラム、実行可能プログラム(目的コード)、スクリプト、または行われる命令のセットを含む任意の他のエンティティを使用して実施または実装され得る。ソースプログラムである場合、プログラムは、O/Sと通信して正常に動作するように、メモリ内に含まれるかまたは含まれない場合があるコンパイラ、アセンブラ、インタープリタ等を介して翻訳され得る。命令は、(a)データおよび方法のクラスを有するオブジェクト指向プログラミング言語、または(b)例えば、C、C++、R、Pascal、Basic、Fortran、Cobol、Perl、Java、およびAdaを含み得る、ルーチン、サブルーチン、および/または機能を有する手続き型プログラミング言語を使用して書き込まれ得る。
様々な例示的な実施形態によると、上記の例示的な実施形態のうちの1つ以上は、ユーザインタフェースデバイス、コンピュータ可読記憶媒体、ローカルコンピュータシステム、またはリモートコンピュータシステムに、かかる例示的な実施形態によって生成、アクセス、または使用された任意の情報、信号、データ、および/または中間もしくは最終結果を伝達、表示、保存、印刷、または出力することを含み得る。かかる伝達、表示、保存、印刷、または出力された情報は、例えば、ランおよび報告、画像、表、チャート、グラフ、スプレッドシート、相関、配列、ならびにそれらの組み合わせの検索可能および/またはフィルタリング可能なリストの形態であり得る。
本発明の好ましい実施形態が本明細書において示され、記載されてきたが、かかる実施形態が単に例として提供されることは、当業者には明らかであろう。多くの変化形、変更、および置換が本発明から逸脱することなく当業者に思いつくであろう。本明細書に記載される本発明の実施形態の種々の代替物が本発明の実施に用いられ得ることを理解されたい。以下の特許請求の範囲は、本発明の範囲を定義し、これらの特許請求の範囲の範囲内の方法および構造ならびにそれらの等価物がそれにより網羅されることが意図される。
[実施形態1]
融合検出のために分子タグ付き核酸配列データを圧縮するための方法であって、
複数の核酸配列読み取りおよび複数の配列読み取りファミリーの複数の配列アラインメントを受け取ることであって、各配列読み取りが分子タグ配列と関係しており、前記分子タグ配列が、核酸試料中の特定のポリヌクレオチド分子から結果として生じる配列読み取りのファミリーを特定し、各ファミリーが配列読み取りの数を有し、前記配列アラインメントの一部が、標的融合参照配列へマッピングされた配列読み取りに対応する、前記受け取ることと、
配列読み取りの各ファミリーについての配列読み取りに対応するフロースペースシグナル測定値に基づいて、前記ファミリーのコンセンサス配列読み取りを決定することと、
配列読み取りの各ファミリーについてのコンセンサス配列アラインメントを決定することであって、配列読み取りの前記ファミリーに対応する、最も高いマッピング特質を有する前記配列アラインメントを選択することを含み、前記コンセンサス配列アラインメントの一部が、前記標的融合参照配列と整合している前記コンセンサス配列読み取りに対応する、前記決定することと、
コンセンサス圧縮データを含む圧縮データ構造を生成することであって、前記コンセンサス圧縮データが、前記コンセンサス配列読み取りと各ファミリーについての前記コンセンサス配列アラインメントとを含む、前記生成することと、
前記圧縮データ構造からの前記コンセンサス配列読み取りと前記コンセンサス配列アラインメントとを使用して融合を検出することと、を含み、
前記融合を検出することが、前記コンセンサス配列読み取りと前記標的融合参照配列とのコンセンサス配列アラインメントの特徴に基づいて適格なコンセンサス配列読み取りを特定することをさらに含み、
前記融合を検出することは、前記標的融合参照配列と整合した前記適格なコンセンサス配列読み取りに対応するファミリーの数が最小分子カウントしきい値以上であるかどうかを決定することをさらに含む、方法。
[実施形態2]
前記配列読み取りが双方向配列決定から結果として生じ、順方向コンセンサス配列読み取りおよび逆方向コンセンサス配列読み取りが、第1の接頭タグおよび第1の接尾タグと関係する順方向ファミリーと、第2の接頭タグおよび第2の接尾タグと関係する逆方向のファミリーとを含む、別個のファミリーにあり、前記方法は、前記第2の接頭タグと前記第2の接尾タグの逆補数が前記第1の接頭タグと前記第1の接尾タグに一致して、前記圧縮データ構造のために1つのコンセンサス配列読み取りを有する合わせたファミリーを形成するとき、前記順方向ファミリーと逆方向ファミリーとを組み合わせることをさらに含む、実施形態1に記載の方法。
[実施形態3]
前記特徴が、相同性特徴と、マッピング品質特徴と、ブレークポイントスパニング特徴とを含む、実施形態1に記載の方法。
[実施形態4]
前記適格なコンセンサス配列読み取りを特定することは、前記標的融合参照配列と整合した前記コンセンサス配列読み取りが標的融合参照配列の融合ブレークポイントに及ぶかどうかを決定することをさらに含む、実施形態1に記載の方法。
[実施形態5]
前記適格なコンセンサス配列読み取りを特定することは、前記標的融合参照配列の前記コンセンサス配列読み取りとそれぞれ第1および第2のパートナー配列との第1および第2の相同性レベルが最小相同性しきい値以上であるかどうかを判定することをさらに含む、実施形態1に記載の方法。
[実施形態6]
前記適格なコンセンサス配列読み取りを特定することは、前記標的融合参照配列のそれぞれ第1および第2のパートナー配列内の前記コンセンサス配列読み取りについての第1および第2のマッピング品質値が、マッピング品質のしきい値以上であるかどうかを判定することをさらに含む、実施形態1に記載の方法。
[実施形態7]
前記適格なコンセンサス配列読み取りを特定することは、前記パートナー配列と重複する前記コンセンサス配列読み取りにおいて前記パートナー配列をいくつかの重複塩基と一致させる前記コンセンサス配列において、いくつかの符合している塩基の比を計算することによって、前記マッピングの質の値を決定することをさらに含む、実施形態6に記載の方法。
[実施形態8]
前記融合を検出することは、読み取り計数が最小読み取りしきい値以上であるかどうかを判定することをさらに含み、前記読み取り計数が、前記標的融合参照配列と整合した前記適格なコンセンサス配列に対応する前記ファミリーについての配列読み取りの前記数の合計である、実施形態1に記載の方法。
[実施形態9]
前記配列アラインメントの第2の部分が、対照遺伝子参照配列へマッピングされた配列読み取りに対応しており、コンセンサス圧縮データが、前記対照遺伝子参照配列に対応するコンセンサス配列読み取りおよびコンセンサス配列アラインメントをさらに含む、実施形態1に記載の方法。
[実施形態10]
ファミリー計数が最小分子カウントしきい値よりも大きく、読み取り計数が読み取り計数しきい値よりも大きい場合、前記対照遺伝子参照配列に対応するプロセス制御標的の存在を決定することをさらに含み、前記ファミリー計数が、前記対照遺伝子参照配列と整合した前記コンセンサス配列読み取りに対応するファミリーの数であり、前記読み取り計数が、前記対応するファミリーについての配列読み取りの数の合計である、実施形態9に記載の方法。
[実施形態11]
前記融合が、遺伝子間融合を含み、前記標的融合参照配列が、融合ブレークポイントでの2つの遺伝子の前記融合のための参照配列を含む、実施形態1記載の方法。
[実施形態12]
前記融合が、遺伝子内融合を含み、前記標的融合参照配列が、同じ遺伝子内の融合ブレークポイントでの2つのエクソンの前記融合のための参照配列を含む、実施形態1記載の方法。
[実施形態13]
前記コンセンサス配列アラインメントの第2の部分が、同じ遺伝子について1つ以上の野生型参照配列と整合したコンセンサス配列読み取りに対応する、実施形態12に記載の方法。
[実施形態14]
前記融合を検出することが、同じ遺伝子について、前記遺伝子内融合の読み取り計数の、前記野生型参照配列と整合した前記コンセンサス配列読み取りに対応する平均読み取り計数に対する比率を計算することをさらに含む、実施形態13に記載の方法。
[実施形態15]
前記融合を検出することが、同じ遺伝子について、前記遺伝子内融合の読み取り計数の、前記野生型参照配列と整合した前記コンセンサス配列読み取り、および前記標的融合参照配列と整合した前記コンセンサス配列読み取りに対応する読み取り計数の合計に対する比率を計算することをさらに含む、実施形態13に記載の方法。
[実施形態16]
前記コンセンサス配列読み取りの一部が、前記標的融合参照配列に部分的にマッピングし、融合を検出することが、部分的にマッピングされたコンセンサス配列読み取りに基づいて非標的融合を検出することをさらに含む、実施形態1に記載の方法。
[実施形態17]
プロセッサによって実行されるとき、前記プロセッサに、融合検出のために分子タグ付き核酸配列データを圧縮するための方法を実行させる命令を含む、非一時的な機械可読記憶媒体であって、
前記方法は、
複数の核酸配列読み取りおよび複数の配列読み取りファミリーの複数の配列アラインメントを受け取ることであって、各配列読み取りが分子タグ配列と関係しており、前記分子タグ配列が、核酸試料中の特定のポリヌクレオチド分子から結果として生じる配列読み取りのファミリーを特定し、各ファミリーが配列読み取りの数を有し、前記配列アラインメントの一部が、標的融合参照配列へマッピングされた配列読み取りに対応する、前記受け取ることと、
配列読み取りの各ファミリーについての配列読み取りに対応するフロースペースシグナル測定値に基づいて、前記ファミリーのコンセンサス配列読み取りを決定することと、
配列読み取りの各ファミリーについてのコンセンサス配列アラインメントを決定することであって、配列読み取りの前記ファミリーに対応する、最も高いマッピング特質を有する前記配列アラインメントを選択することを含み、前記コンセンサス配列アラインメントの一部が、前記標的融合参照配列と整合している前記コンセンサス配列読み取りに対応する、前記決定することと、
コンセンサス圧縮データを含む圧縮データ構造を生成することであって、前記コンセンサス圧縮データが、前記コンセンサス配列読み取りと各ファミリーについての前記コンセンサス配列アラインメントとを含む、前記生成することと、
前記圧縮データ構造からの前記コンセンサス配列読み取りと前記コンセンサス配列アラインメントとを使用して融合を検出することと、を含み、
前記融合を検出することが、前記コンセンサス配列読み取りと前記標的融合参照配列とのコンセンサス配列アラインメントの特徴に基づいて適格なコンセンサス配列読み取りを特定することをさらに含み、
前記融合を検出することは、前記標的融合参照配列と整合した前記適格なコンセンサス配列読み取りに対応するファミリーの数が最小分子カウントしきい値以上であるかどうかを決定することをさらに含む、非一時的な機械可読記憶媒体。
[実施形態18]
融合検出のために分子タグ付き核酸配列データを圧縮するためのシステムであって、
機械可読メモリと、
前記メモリと通信するプロセッサであって、前記プロセッサが、当該プロセッサによって実行されるとき、前記システムに、方法を実行させる機械可読命令を実行するように構成されている、前記プロセッサと、を含み、
前記方法は、
複数の核酸配列読み取りおよび複数の配列読み取りファミリーの複数の配列アラインメントを受け取ることであって、各配列読み取りが分子タグ配列と関係しており、前記分子タグ配列が、核酸試料中の特定のポリヌクレオチド分子から結果として生じる配列読み取りのファミリーを特定し、各ファミリーが配列読み取りの数を有し、前記配列アラインメントの一部が、標的融合参照配列へマッピングされた配列読み取りに対応する、前記受け取ることと、
配列読み取りの各ファミリーについての配列読み取りに対応するフロースペースシグナル測定値に基づいて、前記ファミリーのコンセンサス配列読み取りを決定することと、
配列読み取りの各ファミリーについてのコンセンサス配列アラインメントを決定することであって、配列読み取りの前記ファミリーに対応する、最も高いマッピング特質を有する前記配列アラインメントを選択することを含み、前記コンセンサス配列アラインメントの一部が、前記標的融合参照配列と整合している前記コンセンサス配列読み取りに対応する、前記決定することと、
コンセンサス圧縮データを含む圧縮データ構造を生成することであって、前記コンセンサス圧縮データが、前記コンセンサス配列読み取りと各ファミリーについての前記コンセンサス配列アラインメントとを含む、前記生成することと、
前記圧縮データ構造からの前記コンセンサス配列読み取りと前記コンセンサス配列アラインメントとを使用して融合を検出することと、を含み、
前記融合を検出することが、前記コンセンサス配列読み取りと前記標的融合参照配列とのコンセンサス配列アラインメントの特徴に基づいて適格なコンセンサス配列読み取りを特定することをさらに含み、
前記融合を検出することは、前記標的融合参照配列と整合した前記適格なコンセンサス配列読み取りに対応するファミリーの数が最小分子カウントしきい値以上であるかどうかを決定することをさらに含む、システム。

Claims (20)

  1. 融合検出のために分子タグ付き核酸配列データを圧縮するための方法であって、
    複数の核酸配列読み取りおよび複数の配列読み取りファミリーの複数の配列アラインメントを受け取ることであって、各配列読み取りが分子タグ配列と関係しており、前記分子タグ配列が、核酸試料中の特定のポリヌクレオチド分子から結果として生じる配列読み取りのファミリーを特定し、各ファミリーが番号配列読み取りを有し、前記配列アラインメントの一部が、標的融合参照配列へマッピングされた配列読み取りに対応する、前記受け取ることと、
    配列読み取りの各ファミリーについての配列読み取りに対応するフロースペースシグナル測定値に基づいて、前記ファミリーのコンセンサス配列読み取りを決定することと、
    配列読み取りの各ファミリーについてのコンセンサス配列アラインメントを決定することであって、前記コンセンサス配列アラインメントの一部が、前記標的融合参照配列と整列している前記コンセンサス配列読み取りに対応する、前記決定することと、
    コンセンサス圧縮データを含む圧縮データ構造を生成することであって、前記コンセンサス圧縮データが、前記コンセンサス配列読み取りと各ファミリーについての前記コンセンサス配列アラインメントとを含む、前記生成することと、
    前記コンセンサス配列読み取りと前記圧縮データ構造からの前記コンセンサス配列アラインメントとを使用して融合を検出することと、を含む、方法。
  2. 前記配列読み取りが双方向配列決定から結果として生じ、順方向コンセンサス配列読み取りおよび逆方向コンセンサス配列読み取りが、第1の接頭タグおよび第1の接尾タグと関係する順方向ファミリーと、第2の接頭タグおよび第2の接尾タグと関係する逆方向のファミリーとを含む、別個のファミリーにあり、前記方法は、前記第2の接頭タグと前記第2の接尾タグの逆補数が前記第1の接頭タグと前記第1の接尾タグに一致して、前記圧縮データ構造のために1つのコンセンサス配列読み取りを有する合わせたファミリーを形成するとき、前記順方向ファミリーと逆方向ファミリーとを組み合わせることをさらに含む、請求項1に記載の方法。
  3. 前記融合を検出することが、前記コンセンサス配列読み取りと前記標的融合参照配列とのコンセンサス配列アラインメントの特徴に基づいて適格なコンセンサス配列読み取りを特定することをさらに含む、請求項1に記載の方法。
  4. 前記特徴が、相同性特徴と、マッピング品質特徴と、ブレークポイントスパニング特徴とを含む、請求項3に記載の方法。
  5. 前記適格なコンセンサス配列読み取りを特定することは、前記標的融合参照配列と整列した前記コンセンサス配列読み取りが標的融合参照配列の融合ブレークポイントに及ぶかどうかを決定することをさらに含む、請求項3に記載の方法。
  6. 前記適格なコンセンサス配列読み取りを特定することは、前記標的融合参照配列の前記コンセンサス配列読み取りとそれぞれ第1および第2のパートナー配列との第1および第2の相同性レベルが最小相同性しきい値以上であるかどうかを判定することをさらに含む、請求項3に記載の方法。
  7. 前記適格なコンセンサス配列読み取りを特定することは、前記標的融合参照配列のそれぞれ第1および第2のパートナー配列内の前記コンセンサス配列読み取りについての第1および第2のマッピング品質値が、マッピング品質のしきい値以上であるかどうかを判定することをさらに含む、請求項3に記載の方法。
  8. 前記適格なコンセンサス配列読み取りを特定することは、前記パートナー配列と重複する前記コンセンサス配列読み取りにおいて前記パートナー配列をいくつかの重複塩基と一致させる前記コンセンサス配列において、いくつかの符合している塩基の比を計算することによって、前記マッピングの質の値を決定することをさらに含む、請求項7に記載の方法。
  9. 前記融合を検出することは、前記標的融合参照配列と整列した前記適格なコンセンサス配列読み取りに対応するファミリーの数が最小分子カウントしきい値以上であるかどうかを決定することをさらに含む、請求項3に記載の方法。
  10. 前記融合を検出することは、読み取り計数が最小読み取りしきい値以上であるかどうかを判定することをさらに含み、前記読み取り計数が、前記標的融合参照配列と整列した前記適格なコンセンサス配列に対応する前記ファミリーについての配列読み取りの前記数の合計である、請求項3に記載の方法。
  11. 前記配列アラインメントの第2の部分が、対照遺伝子参照配列へマッピングされた配列読み取りに対応しており、コンセンサス圧縮データが、前記対照遺伝子参照配列に対応するコンセンサス配列読み取りおよびコンセンサス配列アラインメントをさらに含む、請求項1に記載の方法。
  12. ファミリー計数が最小分子カウントしきい値よりも大きく、読み取り計数が読み取り計数しきい値よりも大きい場合、前記対照遺伝子参照配列に対応するプロセス制御標的の存在を決定することをさらに含み、前記ファミリー計数が、前記対照遺伝子参照配列と整列した前記コンセンサス配列読み取りに対応するファミリーの数であり、前記読み取り計数が、前記対応するファミリーについての配列読み取りの数の合計である、請求項11に記載の方法。
  13. 前記融合が、遺伝子間融合を含み、前記標的融合参照配列が、融合ブレークポイントでの2つの遺伝子の前記融合のための参照配列を含む、請求項1記載の方法。
  14. 前記融合が、遺伝子内融合を含み、前記標的融合参照配列が、同じ遺伝子内の融合ブレークポイントでの2つのエクソンの前記融合のための参照配列を含む、請求項1記載の方法。
  15. 前記コンセンサス配列アラインメントの第2の部分が、同じ遺伝子について1つ以上の野生型参照配列と整列したコンセンサス配列読み取りに対応する、請求項14に記載の方法。
  16. 前記融合を検出することが、同じ遺伝子について、前記遺伝子内融合の読み取り計数の、前記野生型参照配列と整列した前記コンセンサス配列読み取りに対応する平均読み取り計数に対する比率を計算することをさらに含む、請求項15に記載の方法。
  17. 前記融合を検出することが、同じ遺伝子について、前記遺伝子内融合の読み取り計数の、前記野生型参照配列と整列した前記コンセンサス配列読み取り、および前記標的融合参照配列と整列した前記コンセンサス配列読み取りに対応する読み取り計数の合計に対する比率を計算することをさらに含む、請求項15に記載の方法。
  18. 前記コンセンサス配列読み取りの一部が、前記標的融合参照配列に部分的にマッピングし、融合を検出することが、部分的にマッピングされたコンセンサス配列読み取りに基づいて非標的融合を検出することをさらに含む、請求項1に記載の方法。
  19. プロセッサによって実行されるとき、前記プロセッサに、融合検出のために分子タグ付き核酸配列データを圧縮するための方法を実行させる命令を含む、非一時的な機械可読記憶媒体であって、
    前記方法は、
    複数の核酸配列読み取りおよび複数の配列読み取りファミリーの複数の配列アラインメントを受け取ることであって、各配列読み取りが分子タグ配列と関係しており、前記分子タグ配列が、核酸試料中の特定のポリヌクレオチド分子から結果として生じる配列読み取りのファミリーを特定し、各ファミリーが番号配列読み取りを有し、前記配列アラインメントの一部が、標的融合参照配列へマッピングされた配列読み取りに対応する、前記受け取ることと、
    配列読み取りの各ファミリーについての配列読み取りに対応するフロースペースシグナル測定値に基づいて、前記ファミリーのコンセンサス配列読み取りを決定することと、
    配列読み取りの各ファミリーについてのコンセンサス配列アラインメントを決定することであって、前記コンセンサス配列アラインメントの一部が、前記標的融合参照配列と整列している前記コンセンサス配列読み取りに対応する、前記決定することと、
    コンセンサス圧縮データを含む圧縮データ構造を生成することであって、前記コンセンサス圧縮データが、前記コンセンサス配列読み取りと各ファミリーについての前記コンセンサス配列アラインメントとを含む、前記生成することと、
    前記コンセンサス配列読み取りと前記圧縮データ構造からの前記コンセンサス配列アラインメントとを使用して融合を検出することと、を含む、非一時的な機械可読記憶媒体。
  20. 融合検出のために分子タグ付き核酸配列データを圧縮するためのシステムであって、
    機械可読メモリと、
    前記メモリと通信するプロセッサであって、前記プロセッサが、当該プロセッサによって実行されるとき、前記システムに、方法を実行させる機械可読命令を実行するように構成されている、前記プロセッサと、を含み、
    前記方法は、
    複数の核酸配列読み取りおよび複数の配列読み取りファミリーの複数の配列アラインメントを受け取ることであって、各配列読み取りが分子タグ配列と関係しており、前記分子タグ配列が、核酸試料中の特定のポリヌクレオチド分子から結果として生じる配列読み取りのファミリーを特定し、各ファミリーが番号配列読み取りを有し、前記配列アラインメントの一部が、標的融合参照配列へマッピングされた配列読み取りに対応する、前記受け取ることと、
    配列読み取りの各ファミリーについての配列読み取りに対応するフロースペースシグナル測定値に基づいて、前記ファミリーのコンセンサス配列読み取りを決定することと、
    配列読み取りの各ファミリーについてのコンセンサス配列アラインメントを決定することであって、前記コンセンサス配列アラインメントの一部が、前記標的融合参照配列と整列している前記コンセンサス配列読み取りに対応する、前記決定することと、
    コンセンサス圧縮データを含む圧縮データ構造を生成することであって、前記コンセンサス圧縮データが、前記コンセンサス配列読み取りと各ファミリーについての前記コンセンサス配列アラインメントとを含む、前記生成することと、
    前記コンセンサス配列読み取りと前記圧縮データ構造からの前記コンセンサス配列アラインメントとを使用して融合を検出することと、を含む、システム。
JP2022176189A 2017-09-20 2022-11-02 圧縮分子タグ付き核酸配列データを用いた融合の検出のための方法 Active JP7373047B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201762560745P 2017-09-20 2017-09-20
US62/560,745 2017-09-20
JP2020516558A JP7171709B2 (ja) 2017-09-20 2018-09-20 圧縮分子タグ付き核酸配列データを用いた融合の検出のための方法
PCT/US2018/051872 WO2019060494A1 (en) 2017-09-20 2018-09-20 METHODS OF DETECTING FUSIONS USING COMPRESSED MOLECULAR LABEL NUCLEIC ACID SEQUENCE DATA

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2020516558A Division JP7171709B2 (ja) 2017-09-20 2018-09-20 圧縮分子タグ付き核酸配列データを用いた融合の検出のための方法

Publications (2)

Publication Number Publication Date
JP2023017894A true JP2023017894A (ja) 2023-02-07
JP7373047B2 JP7373047B2 (ja) 2023-11-01

Family

ID=63794711

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2020516558A Active JP7171709B2 (ja) 2017-09-20 2018-09-20 圧縮分子タグ付き核酸配列データを用いた融合の検出のための方法
JP2022176189A Active JP7373047B2 (ja) 2017-09-20 2022-11-02 圧縮分子タグ付き核酸配列データを用いた融合の検出のための方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2020516558A Active JP7171709B2 (ja) 2017-09-20 2018-09-20 圧縮分子タグ付き核酸配列データを用いた融合の検出のための方法

Country Status (5)

Country Link
US (2) US11894105B2 (ja)
EP (1) EP3684947A1 (ja)
JP (2) JP7171709B2 (ja)
KR (1) KR20200058457A (ja)
WO (1) WO2019060494A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110033829B (zh) * 2019-04-11 2021-07-23 北京诺禾心康基因科技有限公司 基于差异snp标记物的同源基因的融合检测方法
JP2022544991A (ja) 2019-08-20 2022-10-24 ライフ テクノロジーズ コーポレーション 配列決定デバイスの制御のための方法
WO2021034711A1 (en) 2019-08-21 2021-02-25 Life Technologies Corporation System and method for sequencing
CN117083394A (zh) 2020-11-14 2023-11-17 生命技术公司 用于自动重复测序的系统和方法
US20220170093A1 (en) 2020-11-16 2022-06-02 Life Technologies Corporation System and method for sequencing
WO2022146708A1 (en) 2020-12-31 2022-07-07 Life Technologies Corporation System and method for control of sequencing process

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2463389A1 (en) 2006-10-20 2012-06-13 Innogenetics N.V. Methodology for analysis of sequence variations within the HCV NS5B genomic region
EP2092322B1 (en) 2006-12-14 2016-02-17 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale fet arrays
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
EP2633470B1 (en) 2010-10-27 2016-10-26 Life Technologies Corporation Predictive model for use in sequencing-by-synthesis
US20130090860A1 (en) 2010-12-30 2013-04-11 Life Technologies Corporation Methods, systems, and computer readable media for making base calls in nucleic acid sequencing
US8594951B2 (en) 2011-02-01 2013-11-26 Life Technologies Corporation Methods and systems for nucleic acid sequence analysis
GB201409282D0 (en) * 2014-05-23 2014-07-09 Univ Sydney Tech Sequencing process
EP3169806B1 (en) * 2014-07-18 2019-05-01 Life Technologies Corporation Systems and methods for detecting structural variants
WO2016114009A1 (ja) 2015-01-16 2016-07-21 国立研究開発法人国立がん研究センター 融合遺伝子解析装置、融合遺伝子解析方法、及びプログラム
US10344336B2 (en) 2015-06-09 2019-07-09 Life Technologies Corporation Methods, systems, compositions, kits, apparatus and computer-readable media for molecular tagging

Also Published As

Publication number Publication date
JP7373047B2 (ja) 2023-11-01
US20240203525A1 (en) 2024-06-20
JP2020534011A (ja) 2020-11-26
WO2019060494A1 (en) 2019-03-28
CN111108218A (zh) 2020-05-05
KR20200058457A (ko) 2020-05-27
US11894105B2 (en) 2024-02-06
JP7171709B2 (ja) 2022-11-15
US20190087539A1 (en) 2019-03-21
EP3684947A1 (en) 2020-07-29

Similar Documents

Publication Publication Date Title
US10984887B2 (en) Systems and methods for detecting structural variants
JP7171709B2 (ja) 圧縮分子タグ付き核酸配列データを用いた融合の検出のための方法
US20240035094A1 (en) Methods and systems to detect large rearrangements in brca1/2
US11887699B2 (en) Methods for compression of molecular tagged nucleic acid sequence data
US20220392574A1 (en) Methods, systems and computer readable media to correct base calls in repeat regions of nucleic acid sequence reads
US11866778B2 (en) Methods and systems for evaluating microsatellite instability status
US20200318175A1 (en) Methods for partner agnostic gene fusion detection
CN111108218B (zh) 使用压缩的分子标记的核酸序列数据检测融合的方法
WO2024073544A1 (en) System and method for genotyping structural variants
WO2024059487A1 (en) Methods for detecting allele dosages in polyploid organisms

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221128

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221128

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230921

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231020

R150 Certificate of patent or registration of utility model

Ref document number: 7373047

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150