JP2022525758A - パートナー非依存性遺伝子融合検出のための方法 - Google Patents

パートナー非依存性遺伝子融合検出のための方法 Download PDF

Info

Publication number
JP2022525758A
JP2022525758A JP2021555541A JP2021555541A JP2022525758A JP 2022525758 A JP2022525758 A JP 2022525758A JP 2021555541 A JP2021555541 A JP 2021555541A JP 2021555541 A JP2021555541 A JP 2021555541A JP 2022525758 A JP2022525758 A JP 2022525758A
Authority
JP
Japan
Prior art keywords
amplicon
imbalance
gene
array
sum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021555541A
Other languages
English (en)
Other versions
JPWO2020198004A5 (ja
Inventor
ヴェイッチ,ジェイムズ
ゴッチムッカラ,ラジェッシュ
マルコヴィッツ,アミル
チャゲマン,ジェオフリー
バガイ,ヴァルン
グ,ジアン
ブラムレット,ケリー
ミランド,スコット
ハイランド,フィオナ
サディス,セス
ウィリアムズ,ポール
Original Assignee
ライフ テクノロジーズ コーポレーション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ライフ テクノロジーズ コーポレーション filed Critical ライフ テクノロジーズ コーポレーション
Publication of JP2022525758A publication Critical patent/JP2022525758A/ja
Publication of JPWO2020198004A5 publication Critical patent/JPWO2020198004A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6851Quantitative amplification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Analytical Chemistry (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Zoology (AREA)
  • Mathematical Physics (AREA)
  • Wood Science & Technology (AREA)
  • Pure & Applied Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Software Systems (AREA)
  • Operations Research (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Algebra (AREA)
  • Biochemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

遺伝子融合を検出する方法は、プライマープールの存在下で核酸試料を増幅して、複数のアンプリコンを生成することを含む。プライマープールは、ドライバ遺伝子の複数のエクソン-エクソンジャンクションを標的化するプライマーを含む。アンプリコンは、エクソン-エクソンジャンクションに対応する。アンプリコンを配列決定して、参照配列と整列させる。各アンプリコンに対応する読み取り数を正規化して、正規化された読み取りカウントを求める。ベースライン補正をアンプリコンについての正規化された読み取りカウントに適用して、補正された読み取りカウントを生成する。バイナリセグメンテーションスコアを、補正された読み取りカウントごとに計算する。遺伝子融合についての予測ブレークポイントを、最大絶対バイナリセグメンテーションスコアに対応するアンプリコンインデックスに基づいて決定する。遺伝子融合イベントが、パートナー非依存性様式で、すなわち、特定の融合パートナー遺伝子又は特定のブレークポイント情報の事前知識なしに、検出されうる。

Description

関連出願の相互参照
本出願は、2019年3月22日出願の米国特許法第119条(e)項に基づく米国仮出願第62/822,429号の利益を主張する。上記出願の全内容は、参照により本明細書に組み込まれる。
本出願は、一般に、遺伝子融合を検出するための方法、システム、及びコンピュータ可読媒体に関連し、より具体的には、次世代配列決定技術を用いたドライバ遺伝子のエクソン-エクソンジャンクションの標的化されたRNAの配列決定に基づく遺伝子融合のパートナー非依存性検出に関連する。
ALK、RET、NTRK1等のドライバ遺伝子における染色体再配列イベントに起因する遺伝子融合転写産物は、がんの診断及び標的療法の選択のための重要なバイオマーカーとして浮上している。様々な例示的な実施形態では、ドライバ遺伝子におけるエクソン-エクソンジャンクションのいくつか又はすべての標的化されたRNAの配列決定に基づく遺伝子融合の検出のための方法が提供される。各エクソン-エクソンジャンクションの発現を測定し、発現の不均衡パターンを検出することによって、そのドライバ遺伝子が関与する試料における遺伝子融合イベントを予測することができる。遺伝子融合イベントを、パートナー非依存性様式で、すなわち、特定の融合パートナー遺伝子又は特定のブレークポイント情報のいずれの事前知識も用いずに、検出することができる。この方法によって、試験試料における標的化されたドライバ遺伝子のいずれかに関与する融合を検出することができ、融合に対して陽性であると特定されたドライバ遺伝子内のおおよそのブレークポイント位置を予測することができる。遺伝子融合イベントが検出され、信頼スコアとp値と共に報告される。正常な試料のセットからの読み取りデータに基づいて構築されたRNAベースラインにより、融合検出の堅牢性と精度を向上する。本明細書に記載の方法の結果は、標的化された融合アイソフォームの配列決定等の他の融合検出方法の結果と共に報告されうる。
発現の不均衡に基づいて遺伝子融合を検出することは、試料の種類、組織の種類、バーコードの多重化、及び腫瘍の内容に基づくドライバ遺伝子のRNA発現の変動など、様々な要因のために困難である。本明細書に記載の方法は、遺伝子ごとに複数のアンプリコンを特定のパターンに配置し、ドライバ遺伝子のアンプリコンのカバレッジ発現値を正規化し、正常な試料のセットから計算されたベースラインを用いた遺伝子特異的補正を適用し、不均衡スコアとp値を計算することによって、カバレッジパターン検出問題として遺伝子融合産物の不均衡な発現シグネチャをモデル化することにより、これらの課題のいくつかに対処する。
例示的な実施形態では、遺伝子融合を検出するための方法であって、(a)プライマープールの存在下で核酸試料を増幅して複数のアンプリコンを生成することであって、プライマープールがドライバ遺伝子の複数のエクソン-エクソンジャンクションを標的化するプライマーを含み、アンプリコンが標的化されたエクソン-エクソンジャンクションに対応する、生成することと、(b)アンプリコンを配列決定して、複数の読み取りを生成することと、(c)読み取りを参照配列に整列させることであって、参照配列がドライバ遺伝子の標的化されたエクソン-エクソンジャンクションに対応するアンプリコンの核酸配列を含む、整列させることと、(d)各標的化されたエクソン-エクソンジャンクションに対応する各アンプリコンについての読み取り数を決定することと、(e)各アンプリコンについての読み取り数をドライバ遺伝子のアンプリコン間の最大読み取り数で除算して、各アンプリコンについての正規化された読み取りカウントを得ることと、(f)アンプリコンについての正規化された読み取りカウントにベースライン補正を適用して、補正された読み取りカウントを生成することであって、ベースライン補正が複数の正常な試料のアンプリコンについての読み取りカウントに基づくベースライン値を用いる、生成することと、(g)ドライバ遺伝子の5’末端に対応するアンプリコンについての補正された読み取りカウントとドライバ遺伝子の3’末端に対応するアンプリコンについての補正された読み取りカウントとの間の不均衡を決定することと、(h)不均衡に基づいてドライバ遺伝子における遺伝子融合を検出することと、を含む、方法が提供される。
例示的な実施形態では、機械可読メモリ及びメモリと通信するプロセッサを含む、遺伝子融合を検出するためのシステムであって、プロセッサが機械可読命令を実行するように構成され、命令が、プロセッサによって実行される場合、システムに、(a)プロセッサで、プライマープールの存在下で核酸試料の増幅によって生成された複数のアンプリコンについての複数の核酸配列読み取りを受信することであって、プライマープールがドライバ遺伝子の複数のエクソン-エクソンジャンクションを標的化し、アンプリコンがエクソン-エクソンジャンクションに対応する、受信することと、(b)読み取りを参照配列に整列させることであって、参照配列がドライバ遺伝子の標的化されたエクソン-エクソンジャンクションに対応するアンプリコンの核酸配列を含む、整列させることと、(c)各標的化されたエクソン-エクソンジャンクションに対応する各アンプリコンについての読み取り数を決定することと、(d)各アンプリコンについての読み取り数をドライバ遺伝子のアンプリコン間の最大読み取り数で除算して、各アンプリコンについての正規化された読み取りカウントを得ることと、(e)アンプリコンについての正規化された読み取りカウントにベースライン補正を適用して、補正された読み取りカウントを生成することであって、ベースライン補正が複数の正常な試料のアンプリコンの読み取りカウントに基づくベースライン値を用いる、生成することと、(f)ドライバ遺伝子の5’末端に対応するアンプリコンについての補正された読み取りカウントとドライバ遺伝子の3’末端に対応するアンプリコンについての補正された読み取りカウントとの間の不均衡を決定することと、(f)不均衡に基づいてドライバ遺伝子における遺伝子融合を検出することと、を含む方法を実行させる、システムが提供される。
例示的な実施形態では、プロセッサによって実行される場合、プロセッサに、遺伝子融合を検出するための方法を実行させる命令を含む非一時的機械可読記憶媒体であって、方法が、(a)プロセッサで、プライマープールの存在下で核酸試料の増幅によって生成された複数のアンプリコンについての複数の核酸配列読み取りを受信することであって、プライマープールがドライバ遺伝子の複数のエクソン-エクソンジャンクションを標的化し、アンプリコンがエクソン-エクソンジャンクションに対応する、受信することと、(b)読み取りを参照配列に整列させることであって、参照配列がドライバ遺伝子の標的化されたエクソン-エクソンジャンクションに対応するアンプリコンの核酸配列を含む、整列させることと、(c)各標的化されたエクソン-エクソンジャンクションに対応する各アンプリコンについての読み取り数を決定することと、(d)各アンプリコンについての読み取り数をドライバ遺伝子のアンプリコン間の最大読み取り数で除算して、各アンプリコンについての正規化された読み取りカウントを得ることと、(e)アンプリコンについての正規化された読み取りカウントにベースライン補正を適用して、補正された読み取りカウントを生成することであって、ベースライン補正が複数の正常な試料のアンプリコンの読み取りカウントに基づくベースライン値を用いる、生成することと、(f)ドライバ遺伝子の5’末端に対応するアンプリコンについての補正された読み取りカウントとドライバ遺伝子の3’末端に対応するアンプリコンについての補正された読み取りカウントとの間の不均衡を決定することと、(f)不均衡に基づいてドライバ遺伝子における遺伝子融合を検出することと、を含む、非一時的機械可読記憶媒体が提供される。
例示的な実施形態では、遺伝子融合を検出するための方法であって、(a)プライマープールの存在下で核酸試料を増幅して複数のアンプリコンを生成することであって、プライマープールがドライバ遺伝子の複数のエクソン-エクソンジャンクションを標的化するプライマーを含み、アンプリコンがエクソン-エクソンジャンクションに対応する、生成することと、(b)アンプリコンを配列決定して、複数の読み取りを生成することと、(c)読み取りを参照配列に整列させることと、(d)読み取り数をドライバ遺伝子のアンプリコン間の最大読み取り数で除算することによって各アンプリコンに対応する読み取り数を正規化して、各アンプリコンについての正規化された読み取りカウントを得ることと、(e)ドライバ遺伝子のアンプリコンについての正規化された読み取りカウントにベースライン補正を適用して、補正された読み取りカウントを生成することであって、アンプリコンについての補正された読み取りカウントが、アンプリコンについてのベースライン値で除算された正規化読み取りカウントのlog2により決定される、生成することと、(f)補正された読み取りカウントごとにバイナリセグメンテーションスコアを計算して、複数のアンプリコンに対応する複数のバイナリセグメンテーションスコアを提供することと、(g)最大絶対バイナリセグメンテーションスコアに対応するアンプリコンインデックスに基づいて、遺伝子融合の予測ブレークポイントを決定することと、を含む、方法が提供される。
例示的な実施形態では、機械可読メモリ及びメモリと通信するプロセッサを含む、遺伝子融合を検出するためのシステムであって、プロセッサが機械可読命令を実行するように構成され、命令が、プロセッサによって実行される場合、システムに、(a)プライマープールの存在下で核酸試料を増幅して複数のアンプリコンを生成することであって、プライマープールがドライバ遺伝子の複数のエクソン-エクソンジャンクションを標的化するプライマーを含み、アンプリコンがエクソン-エクソンジャンクションに対応する、生成することと、(b)アンプリコンを配列決定して、複数の読み取りを生成することと、(c)読み取りを参照配列に整列させることと、(d)読み取り数をドライバ遺伝子のアンプリコン間の最大読み取り数で除算することによって各アンプリコンに対応する読み取り数を正規化して、各アンプリコンについての正規化された読み取りカウントを得ることと、(e)ドライバ遺伝子のアンプリコンについての正規化された読み取りカウントにベースライン補正を適用して、補正された読み取りカウントを生成することであって、アンプリコンについての補正された読み取りカウントが、アンプリコンについてのベースライン値で除算された正規化読み取りカウントのlog2により決定される、生成することと、(f)補正された読み取りカウントごとにバイナリセグメンテーションスコアを計算して、複数のアンプリコンに対応する複数のバイナリセグメンテーションスコアを提供することと、(g)最大絶対バイナリセグメンテーションスコアに対応するアンプリコンインデックスに基づいて、遺伝子融合の予測ブレークポイントを決定することと、を含む方法を実行させる、システムが提供される。
例示的な実施形態では、プロセッサによって実行される場合、プロセッサに、遺伝子融合を検出するための方法を実行させる命令を含む非一時的機械可読記憶媒体であって、(a)プライマープールの存在下で核酸試料を増幅して複数のアンプリコンを生成することであって、プライマープールがドライバ遺伝子の複数のエクソン-エクソンジャンクションを標的化するプライマーを含み、アンプリコンがエクソン-エクソンジャンクションに対応する、生成することと、(b)アンプリコンを配列決定して、複数の読み取りを生成することと、(c)読み取りを参照配列に整列させることと、(d)読み取り数をドライバ遺伝子のアンプリコン間の最大読み取り数で除算することによって各アンプリコンに対応する読み取り数を正規化して、各アンプリコンについての正規化された読み取りカウントを得ることと、(e)ドライバ遺伝子のアンプリコンについての正規化された読み取りカウントにベースライン補正を適用して、補正された読み取りカウントを生成することであって、アンプリコンについての補正された読み取りカウントが、アンプリコンについてのベースライン値で除算された正規化読み取りカウントのlog2により決定される、生成することと、(f)補正された読み取りカウントごとにバイナリセグメンテーションスコアを計算して、複数のアンプリコンに対応する複数のバイナリセグメンテーションスコアを提供することと、(g)最大絶対バイナリセグメンテーションスコアに対応するアンプリコンインデックスに基づいて、遺伝子融合の予測ブレークポイントを決定することと、を含む、非一時的機械可読記憶媒体が提供される。
本発明の新しい特徴は、添付の特許請求の範囲に詳細に記載されている。特徴及び利点のより良好な理解が、例示的な実施形態を記載している以下の詳細な説明及び添付図面を参照することによって得られるであろう。
EML4-ALK融合を標的化するプライマー設計及びアンプリコンの例を示す。 融合陰性試料におけるほぼバランスの取れた3’/5’発現カバレッジパターンの例を示す。 融合陽性試料の著しく不均衡な3’/5’発現カバレッジパターンの例を示す。 融合を検出するためのエクソンタイリングカバレッジ分析の例を示す。 正常な試料におけるドライバ遺伝子アンプリコンの野生型転写産物カバレッジパターンの例を示す。 融合陽性試料についてのドライバ遺伝子アンプリコンの転写産物カバレッジパターンの例を示す。 ALK遺伝子の標的化エクソン-エクソンジャンクションの正規化読み取りカウントのプロットの例である。 ベースライン補正後の標的化エクソン-エクソンジャンクションの補正された読み取りカウントの例、ならびに正常な試料のグループについての正規化読み取りカウント及びベースライン補正された読み取りカウントのプロットを示す。 ALK遺伝子のアンプリコンに対応するバイナリセグメンテーションスコアZ(図5Bのベースライン補正されたプロファイルから計算)のプロットの例を示す。 ALK遺伝子におけるアンプリコンあたりの正規化された読み取りカウントのプロット及びアンプリコンあたりのベースライン正規化された読み取りカウントのプロットの例を示す。 コントロール遺伝子ITGB7についてのベースライン補正された読み取りカウントのプロットの例を示す。 コントロール遺伝子ITGB7についてのバイナリセグメンテーションスコアのプロットの例を示す。 コントロール遺伝子HMBSについてのベースライン補正された読み取りカウントの例を示す。 コントロール遺伝子HMBSについてのバイナリセグメンテーションスコアのプロットの例を示す。 試験試料の遺伝子ALK、ITGB7コントロール遺伝子、及びHMBSコントロール遺伝子についてのバイナリセグメンテーションスコアの分布の例を示す。 RET遺伝子についてのベースラインを決定するための複数の正常な試料からの正規化されたカウントのプロットの例を示す。 BRAF遺伝子のベースラインを決定するための複数の試料からの正規化されたカウントのプロットの例を示す。 正常な試料のバックグラウンドでの2つの試験試料の正規化された分子カウントのプロットの例と、ROS1遺伝子についてそれらから計算されたベースラインを示す。 ベースライン補正を適用する前に2つのROS1試料に対して決定されたバイナリセグメンテーションスコアのプロットの例を示す。 融合陽性試料(2つの複製)142及び融合陰性試料(2つの複製)144の両方のベースライン補正分子数のプロットの例を示す。 ベースライン補正後の融合陽性試料複製のバイナリセグメンテーションスコアのプロットの例を示す。 ALK遺伝子についての融合検出結果の例を示す。 RET遺伝子についての融合検出結果の例を示す。 FGFR3遺伝子についての融合検出結果の例を示す。 NTRK1遺伝子についての融合検出結果の例を示す。 ALKでの融合の陽性として知られているFFPE試料についてのエクソンタイリング融合不均衡及び標的化された融合についての結果の例の表を示す。 NTRK1遺伝子についての補正された読み取りカウントのプロットの例を示す。 RET遺伝子についての補正された読み取りカウントのプロットの例を示す。 ROS1遺伝子ついての補正された読み取りカウントのプロットの例を示す。 ALK遺伝子についての元の読み取りカウントセット及び低減された読み取りカウントセットの読み取りカウントのプロットの例を示す。 ALK遺伝子についての元の読み取りカウントセット及び低減された読み取りカウントセットの正規化された読み取りカウントのプロットの例を示す。 ALK遺伝子についての元の分子カウントセット及び低減された分子カウントセットのプロットの例を示す。 ALK遺伝子についての元の分子カウントセット及び低減された分子数セットの正規化された分子数のプロットの例を示す。 一実施形態による、不均衡解析に基づく融合を検出するための例示的な方法のブロック図である。 一実施形態による、不均衡解析に基づく融合を検出するためのコンセンサス圧縮データを生成するための例示的な方法のブロック図である。 は、一実施形態による、フロースペースコンセンサスパイプライン2606の例示的な方法のブロック図である。 塩基呼び出しが行われうるフロースペースシグナル測定値の例示的な表現を示す。 単一のファミリーについてのフロースペースシグナル測定値の例示的なプロットを示す。フローインデックスは、フロー配列におけるj番目のフローを示す。 単一のファミリーについてのコンセンサスフロースペースシグナル測定値の例示的なプロットを示す。 様々な実施形態による、核酸配列決定システムのブロック図を示す。
この出願で具現化される教示及び原則に従って、新しい方法、システム、及び非一時的機械可読記憶媒体が、ドライバ遺伝子におけるエクソン-エクソンジャンクションの標的化されたRNAシーケンスに基づく遺伝子融合及び5’発現と3’発現との間の不均衡のパートナー非依存性検出のために提供される。
様々な実施形態では、DNA(デオキシリボ核酸)は、4種類のヌクレオチド、A(アデニン)、T(チミン)、C(シトシン)、及びG(グアニン)からなるヌクレオチドの鎖ということができ、そのRNA(リボ核酸)は、4種類のヌクレオチド、A、U(ウラシル)、G、及びCからなる。ヌクレオチドのある特定の対は、相補的な様式で互いに特異的に結合する(相補的塩基対という)。つまり、アデニン(A)は、チミン(T)と対になり(しかしながら、RNAの場合、アデニン(A)は、ウラシル(U)と対になる)、シトシン(C)は、グアニン(G)と対になる。第1の核酸鎖が、第1の鎖のヌクレオチドと相補的なヌクレオチドで構成される第2の核酸鎖と結合すると、2つの鎖は、結合して二重鎖を形成する。様々な実施形態では、「核酸配列決定データ」、「核酸配列決定情報」、「核酸配列」、「ゲノム配列」、「遺伝子配列」、又は「フラグメント配列」、又は「核酸配列決定読み取り」、又は「核酸配列読み取り」、又は「配列読み取り」は、DNA又はRNAの分子(例えば、全ゲノム、全トランスクリプトーム、エクソーム、オリゴヌクレオチド、ポリヌクレオチド、フラグメントなど)中のヌクレオチド塩基(例えば、アデニン、グアニン、シトシン、及びチミン/ウラシル)の順番を示すいかなる情報又はデータを示す。
様々な実施形態では、「ポリヌクレオチド」、「核酸」、又は「オリゴヌクレオチド」は、ヌクレオシド間結合により連結されたヌクレオシド(デオキシリボヌクレオシド、リボヌクレオシド、又はその類似体を含む)の直鎖状ポリマーをいう。通常、ポリヌクレオチドは、少なくとも3つのヌクレオシドを含む。通常、オリゴヌクレオチドのサイズは、数個のモノマー単位、例えば、3~4個から数百個のモノマー単位の範囲である。オリゴヌクレオチド等のポリヌクレオチドが「ATGCCTG」等の文字配列によって表される場合はいつでも、別段に示されない限り、ヌクレオチドは左から右へ5’~3’の順序であり、「A」はデオキシアデノシンを示し、「C」はデオキシシチジンを示し、「G」はデオキシグアノシンを示し、「T」はチミジンを示すことが理解されるであろう。文字A、C、G、及びTは、当該技術分野で標準的であるように、塩基自体、ヌクレオシド、又は塩基を含むヌクレオチドをいうのに用いられうる。
本明細書で用いられる用語「遺伝子座」は、染色体又は核酸分子上の特定の位置をいう。遺伝子座の対立遺伝子は、相同染色体上の同一部位に位置する。
本明細書で用いられる場合、「アダプター」又は「アダプター及びその補体」及びそれらの誘導体は、本開示の核酸分子にライゲーションされうるいかなる直鎖状オリゴヌクレオチドをいう。場合によっては、アダプターは、試料内の少なくとも1つの標的配列の3’末端又は5’末端に実質的に相補的ではない核酸配列を含む。ある実施形態では、アダプターは、試料中に存在するいかなる標的配列の3’末端又は5’末端と実質的に非相補的である。ある実施形態では、アダプターは、増幅された標的配列と実質的に相補的ではないいかなる一本鎖又は二本鎖直鎖状オリゴヌクレオチドを含む。ある実施形態では、アダプターは、試料の核酸分子の少なくとも1つ、いくつか、又は全てと実質的に非相補的である。ある実施形態では、好適なアダプター長さは、約10~100ヌクレオチド長、約12~60ヌクレオチド長、及び約15~50ヌクレオチド長の範囲である。アダプターは、ヌクレオチド及び/又は核酸のいずれかの組み合わせを含むことができる。いくつかの態様では、アダプターは、1つ以上の位置に1つ以上の切断可能な基を含む。ある実施形態では、アダプターは、プライマー、例えば、ユニバーサルプライマーの少なくとも一部分と実質的に同一又は実質的に相補的である配列を含みうる。ある実施形態では、アダプターは、ダウンストリームのカタログ化、識別、又は配列決定を補助するバーコード又はタグを含みうる。ある実施形態では、一本鎖アダプターは、増幅された標的配列にライゲーションされる場合、特に好適な温度及びpH下でポリメラーゼ及びdNTPの存在下、増幅のための基板として作用しうる。
本明細書で用いられる場合、「DNAバーコード」又は「DNAタグ付け配列」及びその派生語は、試料中の複数の増幅された標的配列を区別又は分離するための「鍵」として作用しうるアダプター内の固有の短い(例えば、6~14ヌクレオチド)核酸配列をいう。この開示の目的のため、DNAバーコード又はDNAタグ付け配列は、アダプターのヌクレオチド配列に組み込まれうる。
ある実施形態では、本開示は、標的核酸分子の集団からの複数の標的特異的配列の増幅を提供する。ある実施形態では、方法は、1つ以上の標的特異的プライマー対を標的配列にハイブリダイズすることと、プライマー対の第1のプライマーを伸長することと、核酸分子の集団から伸長した第1のプライマー産物を変性させることと、伸長した第1のプライマーにプライマー対の第2のプライマーをハイブリダイズすることと、第2のプライマーを伸長して二本鎖産物を形成することと、標的特異的プライマー対を二本鎖産物から消化して複数の増幅された標的配列を生成することとを含む。ある実施形態では、消化は、増幅された標的配列からの標的特異的プライマーのうちの1つ以上の部分消化を含む。ある実施形態では、増幅された標的配列は、1つ以上のアダプターにライゲーションされうる。ある実施形態では、アダプターは、1つ以上のDNAバーコード又はタグ付け配列を含みうる。ある実施形態では、一度アダプターにライゲーションされた増幅された標的配列は、ニックトランスレーション反応及び/又はさらなる増幅を受けて、アダプターライゲーション増幅標的配列のライブラリを生成しうる。
ある実施形態では、本開示の方法は、複数の核酸分子を含む試料中の標的配列を選択的に増幅することと、増幅された標的配列を少なくとも1つのアダプター及び/又はバーコードにライゲーションすることとを含む。分子生物学ライブラリ調製技術で用いるアダプター及びバーコードは、当業者に周知である。本明細書で用いられるアダプター及びバーコードの定義は、当該技術分野で用いられる用語と一致する。例えば、バーコードを用いると、多重反応ごとに複数の試料、ソース、組織、又は核酸分子の集団を検出及び分析できる。バーコード化及び増幅された標的配列は、両方の核酸分子からバーコードを除いたものが同じ核酸配列を含む場合でも、ある増幅された核酸分子を別の増幅された核酸分子から識別及び区別する固有の核酸配列、通常、短い6~15ヌクレオチド配列を含む。アダプターを用いると、均一な様式での各増幅された核酸分子が増幅でき、鎖の偏りが低減される。アダプターは、ユニバーサルアダプター又は適切なアダプターを含むことができ、その両方がダウンストリームで用いられ、1つ以上の異なる機能を実行することができる。例えば、本明細書に開示された方法で調製された増幅された標的配列は、クローン増幅のプラットフォームとしてダウンストリームで用いられうるアダプターにライゲーションされうる。アダプターにより、プライマーの2番目のセットを用いてその後の増幅のテンプレート鎖として機能することができる、アダプターライゲーション増幅標的配列が一般的に増幅される。ある実施形態では、アンプリコンのプールを生成する標的核酸の選択的増幅は、増幅された標的配列に1つ以上のバーコード及び/又はアダプターをライゲーションすることをさらに含みうる。バーコードを組み込む機能により、試料のスループットが高まり、同時に複数の試料又は材料のソースが分析される。
本明細書では、「反応閉じ込め領域」は、一般に、反応が閉じ込められうるいかなる領域をいい、例えば、「反応チャンバ」、「ウェル」、及び「マイクロウェル」(その各々が互換的に用いられうる)があげられる。反応閉じ込め領域としては、例えば、固体基板の物理的又は化学的属性が対象の反応の局在化を可能しうる領域、対象の分析物を特異的に結合することができる基板の表面の離散領域(そのような表面に共有結合されたオリゴヌクレオチド又は抗体を含む離散領域など)があげられる。反応閉じ込め領域は、中空であってよく、明確に定義された形状及び体積を有してよく、これらは基板に製造されてよい。これらの後者の種類の反応閉じ込め領域は、本明細書ではマイクロウェル又は反応チャンバといい、いかなる好適な微細加工技術を用いて加工されうる。反応閉じ込め領域はまた、例えば、ウェルのない基板上の実質的に平坦な領域であってよい。
複数の定義されたスペース又は反応閉じ込め領域は、アレイに配置されてよく、各定義されたスペース又は反応閉じ込め領域は、少なくとも1つのセンサと電気通信して、それにより1つ以上の検出可能又は測定可能なパラメータ又は特徴が検出又は測定される。このアレイは、本明細書ではセンサアレイという。センサは、反応副産物の存在、濃度、又は量の変化(又は反応物のイオン特徴の変化)を出力シグナルに変換されてよく、出力シグナルは、例えば、電圧レベル又は電流レベルの変化として電子的に登録されてよく、次に、処理されて、化学反応又は所望の会合イベント、例えば、ヌクレオチド取り込みイベントに関する情報を抽出しうる。センサは、化学反応の特性に関連する少なくとも1つの出力シグナル又はその近傍の対象の標的分析物を生成するように構成されうる少なくとも1つの化学感受性電界効果トランジスタ(「chemFET」)を含みうる。当該特性は、反応物、産物若しくは副産物の濃度(又は濃度の変化)、又はイオン濃度等の物理的特性の値(又はそのような値の変化)を含みうる。定義されたスペース又は反応閉じ込め領域のpHの初期測定又は調査は、例えば、電気シグナル又は電圧として表すことができ、デジタル化できる(例えば、電気シグナル又は電圧のデジタル表現に変換される)。これらの測定値及び表現のいずれかは、生データ又は生シグナルと見なされる。
様々な実施形態では、用語「ベーススペース」は、ヌクレオチドの配列の表現をいう。用語「フロースペース」は、特定のヌクレオチドフローの取り込みイベント又は非取り込みイベントの表現をいう。例えば、フロースペースは、特定のヌクレオチドフローのヌクレオチド取り込みイベント(1、「1」など)又は非取り込みイベント(ゼロ、「0」など)を表す一連の値でありうる。非取り込みイベントがあるヌクレオチドフローは、空のフローといってよく、ヌクレオチド取り込みイベントがあるヌクレオチドフローは、ポジティブフローといってよい。ゼロ及び1は、非取り込みイベント及びヌクレオチド取り込みイベントの好都合な表現であることが理解されるべきであるが、いかなる他の記号又は名称も、これらのイベント及び非イベントを表す及び/又は特定に代替的に用いられうる。特に、ホモポリマーストレッチ等の、複数のヌクレオチドが所与の位置で組み込まれる場合、値は、ヌクレオチド取り込みイベントの数、したがってホモポリマーストレッチの長さに比例しうる。
図1は、EML4-ALK融合を標的化するプライマー対の設計及びアンプリコンの例を示す。標的化された融合アイソフォームの場合、プライマーの設計は、既知の融合ブレークポイントでの既知の融合産物(すなわち、ドライバ遺伝子とパートナー遺伝子との間のキメラ遺伝子融合)に限定される。この例では、EML4部分12とALK部分16とがブレークポイント14で融合される。結果として得られるアンプリコンは、ブレークポイント14を横切って整列し、各アンプリコンの一部分が両側に配置される。母集団の一般的なバリエーションでは、ブレークポイントの場所のバリエーションをサポートするために複数のアイソフォームが必要である。ドライバ遺伝子は、多くのブレークポイントで数十の遺伝子とパートナーになりうる。
図2A及び2Bは、3’/5’の発現カバレッジの不均衡を伴う融合を検出する例を示す。この例では、ALKはドライバ遺伝子である。図2Aに示すようなドライバ遺伝子の野生型転写物では、5’のアンプリコン22及び3’のアンプリコン24は、融合陰性試料の発現パターンはほぼ均衡されている。図2Bに示すようなドライバ遺伝子を含む融合陽性の試料では、融合転写物の発現の増強により、ドライバ遺伝子の5’発現と3’発現26との間には、後者の発現の増加を支持して、著しい不均衡が存在する。融合陽性試料の場合、融合転写物のみ、又は融合転写物と野生型転写物の両方が発現される。
図3は、融合を検出するエクソンタイリングカバレッジ分析の例を示す。この例では、ドライバ遺伝子のエクソン-エクソンジャンクションごとに1つのアンプリコンが設計されている。アンプリコンカバレッジパターンは、エクソン6とエクソン7のエクソン-エクソンジャンクション後のカウントの増加を示し、ブレークポイント32の存在を示す。
図4A及び4Bは、正常な試料(図4A)及び融合陽性試料(図4B)における野生型転写物の遺伝子全体にわたるカバレッジパターンの概略例を示す。y軸は、ベースラインに対して正規化した後の読み取りカウントを表す。x軸は、エクソン-エクソンジャンクションに対応するイントロンインデックスを表す。図4Aは、正常な試料についての遺伝子全体にわたるかなり均一な読み取りカバレッジを示す。図4Bは、融合陽性試料のブレークポイント後のカバレッジの急峻な増加を示す。
ある実施形態では、エクソンタイリング融合検出で用いるためのアンプリコンのためのプライマーの設計ガイドラインは、以下の:
・90~100bpの好ましい範囲の均一なアンプリコンの長さ
・40~60%の好ましい範囲の均一なGC含有量
・各遺伝子の既知の融合ブレークポイントの周りのアンプリコンの配置
o既知のブレークポイントの両側の少なくとも3つのアンプリコン
・最も一般的なブレークポイントのエクソン-エクソンジャンクションにまたがっていない
oこれにより、最も一般的な融合のプライマーの共有が回避される(例:ALKエクソン20)
・パートナー非依存性融合検出のためのドライバ遺伝子の優先順位
・いくつかの組織タイプにわたる遺伝子のRNA発現レベル
・他のRNA標的化された融合プライマーとの競合を最小限に抑える
・ある実施形態では、設計は、遺伝子の非翻訳領域(UTR)に近接して発生する融合ブレークポイントを標的化する(例えば、ドライバ遺伝子FGFR2及びFGFR3において、5’末端でより頻繁に融合し、融合接合部はそれらの3pUTRに向かって発生する)のうちの1つ以上を含む。このような場合、UTR領域でエクソン-エクソンジャンクションアンプリコンに追加のデザインが補充できるため、ブレークポイントの両側の発現の十分なサンプリングが維持される。
ある実施形態では、ドライバ遺伝子のエクソン-エクソンジャンクションのアンプリコンタイリングは、既知のブレークポイント領域のエクソンから分離されうる。アンプリコンタイリング用のプライマーに加えて、既知の融合産物の標的化されたアイソフォームのアンプリコンを生成するように設計されたプライマーを用いてよい。タイリングアンプリコンを用いて、遺伝子の他の場所での可能性のあるde novoブレークポイントの検出に加えて、既知のブレークポイントの標的化されたアイソフォームを試験しうる。ある実施形態では、ドライバ遺伝子のエッジ近くの可能なブレークポイントを試験する場合、アンプリコンタイリングは、非翻訳領域(UTR)を有するエッジ上のエクソンの境界にまたがってよい。
ある実施形態では、表1は、エクソンタイリングアッセイの例を示す。
Figure 2022525758000002
ある実施形態では、表2の例のように、含まれうる遺伝子はより少ない。
Figure 2022525758000003
様々な実施形態では、遺伝子及びアンプリコンの数の他の組み合わせが、エクソンタイリングアッセイのために提供されうる。
ある実施形態では、所与のエクソン-エクソンジャンクションのための5’プライマー及び3’プライマーには各々、分子タグがある。個々のポリヌクレオチド分子を特定するため、分子タグが、5’プライマーに付加される前固定タグ及び3’プライマーに付加される後固定タグを含む、5’プライマー及び3’プライマーに各々付加される。個々のポリヌクレオチド分子は、固有の分子タグで標識され、PCR反応で増幅され、エクソンタイリングアンプリコンを生成して配列決定される。所与の標的化された融合用のエクソンタイリングアンプリコンには、5’末端の前固定タグと3’末端の後固定タグが含まれうる。PCR増幅及び配列決定は、対応するエクソン-エクソンジャンクションが存在する場合、元のタグ付けされたポリヌクレオチド分子ごとに複数の配列読み取りをもたらす複数のアンプリコンを生成しうる。固有の分子タグを用いて、同じポリヌクレオチド分子に由来する配列読み取りを特定し、それらを同じタグ配列を有するファミリーに分類する。
ファミリー、又は分子ファミリーは、同じ固有の分子タグを有する配列読み取りのセットをいう。ファミリーサイズは、ファミリー内の配列読み取りの数である。機能的ファミリーは、最小ファミリーサイズよりも大きなメンバーの数を有するファミリーである。最小ファミリーサイズは、いかなる整数値でありうる。例えば、最小ファミリーサイズは、3以上でありうる。特定のアンプリコンに対応する分子カウントは、そのアンプリコンについてカウントされたファミリーの数である。
図5A~5Cでは、遺伝子について表示される「イントロン」とラベル付けされたx軸上の番号は、転写産物RNAのエクソン-エクソンジャンクションについてのインデックスに対応する(すなわち、イントロンインデックスは、DNA鎖における物理的イントロン配列を表さない)。図5A~5Cのプロット上の円は、アンプリコンカバレッジデータがそれらの位置で生成されるように、プライマーによって標的化される標的化されたエクソン-エクソン接合部を示す。アンプリコンの位置の数は、遺伝子内のエクソン-エクソンジャンクションの総数以下である。
図5Aは、ALK遺伝子における標的化されたエクソン-エクソンジャンクションの正規化読み取りカウントのプロットの例である。図5Aでは、キナーゼ領域におけるイントロンインデックス26のアンプリコンは、隣接するアンプリコンのそれよりも著しく低下した数の正規化読み取りを示す。アンプリコンカバレッジにおけるこの低下の考えられる原因には、アンプリコンプライマー結合の障害、エクソンスキッピング又は他の技術的バイアスをもたらすスプライシングアイソフォームが含まれる。このアンプリコンについてのカバレッジは、正常な試料を含むすべての試料で系統的に低くなることがよくある。図5Bに補正された読み取りカウントによって示されるように、ベースライン補正によりこの問題が軽減される。
ある実施形態では、不均衡解析を適用して、エクソンタイリングアンプリコンから得られた読み取りカウントに基づいて融合を検出する。不均衡解析への入力は、試験試料における遺伝子のエクソンタイリングで標的化されたエクソン-エクソンジャンクションに対応するアンプリコンについての読み取り数又はカバレッジである。例えば、入力情報はBAMファイルで提供されうる。ベースラインは、遺伝子融合について陰性である複数の正常な試料から得られた遺伝子のアンプリコンの読み取り数から決定される。ステップの順序は例示的なものであり、様々な実施形態では異なるステップの順序が可能である。
1)遺伝子の各アンプリコンについての読み取り数を遺伝子のアンプリコン間の最大読み取り数で除算して、各アンプリコンについての正規化読み取りカウントを求めることによって、遺伝子の各アンプリコンの読み取り数を正規化する。図5Aは、ALK遺伝子の各標的化エクソン-エクソンジャンクションについての正規化読み取りカウントのプロットの例である。
2)ベースライン補正で用いるため、40~60個の正常な試料(すなわち、直交法で検証された融合陰性試料)のセットからベースラインを計算する。各正常試料における遺伝子アンプリコンの読み取りカウントは、各遺伝子アンプリコンの読み取り数を、正常な試料において最もカバレッジが高い遺伝子アンプリコンの読み取り数で除算することによって正規化される。各アンプリコンのベースライン値は、すべての正常な試料にわたるアンプリコンの正規化された値の中央値として計算される。あるいは、遺伝子の各アンプリコンについての正規化された読み取りカウントの平均を計算して、ベースライン値を求めうる。
3)試験試料の遺伝子のアンプリコンについての正規化された読み取りカウントにベースライン補正を適用して、補正された読み取りカウントを生成する。試験試料の遺伝子の各アンプリコンについて、補正された読み取りカウントは次のように計算されうる。
補正された読み取りカウント=log[試験試料におけるアンプリコンの正規化された読み取りカウント÷アンプリコンのベースライン値]
図5Bは、ベースライン補正後の各標的化エクソン-エクソンジャンクションについての補正された読み取りカウント52のプロットの例、ならびに正常な試料54のグループの正規化された読み取りカウント及びベースライン補正された読み取りカウントのプロットを示す。図5Bは、図5Aに示されるALK遺伝子の各エクソン-エクソンジャンクションについての修正された読み取りカウント52のプロットの例を示す。
4)バイナリセグメンテーションスコアを計算する。アンプリコンの計算値X~Xの場合、各Xは、i番目のエクソン-エクソンジャンクションに対応するi番目のアンプリコンに対する補正された読み出しカウントを表し、Xは補正された読み取りカウントの総数であり、nは系列中のアンプリコンの数である。例えば、図5Bでは、補正された読み取りカウントの各データポイントは、XからXまでの一連のアンプリコン測定値におけるXに対応し、ここで、n=14である。バイナリセグメンテーションスコアは、次のように計算されうる:
a.1番目からi番目までのアンプリコンのアンプリコン測定値の部分和Sを計算する:
=X+…+X
b.1番目からn番目までのアンプリコンのすべてのアンプリコン測定値の総和Sを計算し、式中、nは補正された読み取りカウントの総数である:
=X+…+X
c.計算バイナリセグメンテーションスコアZを計算する(測定値X...Xn-1に対して
Figure 2022525758000004
図5Cは、ALK遺伝子のアンプリコンに対応するバイナリセグメンテーションスコアZのプロットの例を示す。
d.最大絶対バイナリセグメンテーションスコア|Z|に対応するアンプリコンインデックスiを求める。予測されたブレークポイントbは、遺伝子についての最大絶対バイナリセグメンテーションスコアZmaxに対応するアンプリコンのインデックスimaxである。遺伝子の物理的融合ブレークポイントは、最大絶対バイナリセグメンテーションスコアZmaxに対応するアンプリコンインデックスimaxと次のアンプリコンインデックス(imax+1)との間の範囲内に位置しうる。図5Cの例では、ブレークポイント領域は、イントロンインデックス15と20との間、又は最大絶対バイナリセグメンテーションスコアZmax=|Z|に対応するアンプリコンインデックス=9の後に示されている。
5)不均衡スコアを計算する。アレイUは、アンプリコンごとの正規化された読み取りカウントを有するN個のアンプリコンのアレイとして定義され、アレイVは、正常な試料からのアンプリコンについてのN個のベースライン正規化された読み取りカウントの配列として定義され、Nは測定されたアンプリコンの総数である。N個のベースライン正規化された読み取りカウントのアレイには、ステップ2)で計算された各アンプリコンのベースライン値が含まれる。図6は、アンプリコン62あたりの正規化された読み取りカウントのプロット及びアンプリコン64あたりのベースライン正規化された読み取りカウントのプロットの例を示す。円は、測定されたアンプリコンの正規化された読み取りカウントを示す。不均衡スコアは次のように計算される:
a.アレイVのベースライン正規化された読み取りカウント(ベースライン値)に基づいて、予想される不均衡値を計算する。部分和{V[(1+b):N])}において、bは試験試料のバイナリセグメンテーションスコアによって決定される予測ブレークポイントであり、ベースライン正規化された読み取りカウントの和は、アレイ要素(1+b)からアレイ要素Nまで計算される。
予想される不均衡=和{V[(1+b):N])}/和[V(1:N)]
予想される不均衡のこの計算は、シナリオのパートナー遺伝子-ドライバ遺伝子のステップ5)cにおける3’/5’不均衡スコアを決定するために用いられ、ドライバ遺伝子は融合の3’末端に位置する。
b.アレイUの正規化された読み取りカウントに基づいて、観測された不均衡値を計算する。部分和{U[(1+b):N])}において、bは試験試料のバイナリセグメンテーションスコアによって決定される予測ブレークポイントであり、正規化された読み取りカウントの和は、アレイ要素(1+b)からアレイ要素Nまで計算される。
観測された不均衡=和{U[(1+b):N])}/和[U(1:N)]
観察された不均衡のこの計算は、シナリオのパートナー遺伝子-ドライバ遺伝子のステップ5)cにおける3’/5’不均衡スコアを決定するために用いられ、ドライバ遺伝子は融合の3’末端に位置する。
c.不均衡スコアは、観測された不均衡値と予想される不均衡値の比である。
不均衡スコア=観察された不均衡/予想される不均衡
d.ドライバ遺伝子が5’末端で融合する可能性がある場合、ステップ5)a及び5)bの不均衡計算は次のように逆になる。
予想される不均衡=和{V[1:b])}/和[V(1:N)]
観測された不均衡=和{U[1:b])}/和[U(1:N)]
予想される不均衡及び観察される不均衡のこれらの計算は、シナリオのドライバ遺伝子-パートナー遺伝子のステップ5)cにおける3’/5’不均衡スコアを決定するために用いられ、ドライバ遺伝子は融合の5’末端に位置する。
6)ウィルコクソン順位検定を適用して、試験試料のバイナリセグメンテーションスコアをコントロール遺伝子のバイナリセグメンテーションスコアと比較し、p値を決定する。図7Bは、ステップ4)aから4)cに記載されるように計算されたコントロール遺伝子ITGB7についてのバイナリセグメンテーションスコアのプロットの例を示す。図7Aは、ITGB7についてのベースライン補正後の各標的化エクソン-エクソンジャンクションについての補正された読み取りカウントのプロットの例を示す。図8Bは、ステップ4)aから4)cに記載されるように計算されたコントロール遺伝子HMBSについてのバイナリセグメンテーションスコアのプロットの例を示す。図8Aは、HMBSについてのベースライン補正後の各標的化エクソン-エクソンジャンクションについての補正された読み取りカウントのプロットの例を示す。図9は、試験試料の遺伝子ALK、ITGB7コントロール遺伝子及びHMBSコントロール遺伝子のバイナリセグメンテーションスコアの分布を示す。p値はITGB7コントロール遺伝子に関しては9.3e-06であり、HMBSコントロール遺伝子に関しては4.0e-04である。2つのコントロール遺伝子について、各々のp値のうち大きい方を、融合検出のための不均衡の有意性を評価するためのp値として用いてよい。ある実施形態では、単一のコントロール遺伝子を用いて、単一のp値を生成しうる。
7)不均衡スコア及びp値に閾値を適用して、ドライバ遺伝子融合を検出する。例えば、決定論理は、計算された不均衡スコアが遺伝子の不均衡スコア閾値以上であり、かつ計算されたp値がp値閾値以下である場合、陽性不均衡呼び出しを示しうる。他の数学的に同等の式を用いて、閾値を適用しうる。例えば、-log10(p値)は-log10(p値の閾値)以上でありうる。遺伝子において、その長さ、一般的なブレークポイントの位置、及び結果として得られる発現の不均衡パターンが著しく異なるため、不均衡スコアの閾値及びp値の閾値が遺伝子特異的でありうる。発現レベルが異なる遺伝子で異なりうるため、特定の遺伝子について閾値を設定しうる。真理集合からの既知の陽性及び陰性試料の試験を、特定の遺伝子の閾値を設定するために使用しうる。表3は、発現不均衡解析の陽性呼び出しのための調整可能な遺伝子特異的閾値の例を示す。
Figure 2022525758000005
ある実施形態では、コントロール試料(例えば、ITGB7又はHMBS)のアンプリコンの読み取りカウントは、上記のステップ1)から3)で記載されるように、正規化され、ベースライン補正される。
バイナリセグメンテーションスコアの背景情報は、Olshen,Adam B.et al.,“Circular binary segmentation for the analysis of array-based DNA copy number data,”Biostatistics(2004),Vol.5 No.4,pp.557-572に記載されている。
ある実施形態では、エクソンタイリングアンプリコンに対応する配列読み取りは、分子タグを含む。これらの配列読み取りは、共通の分子タグを共有するファミリーにグループ化されうる。ファミリーについて、エクソン-エクソンジャンクションに対応するアンプリコンに対してカウントされて、分子カウントが生成されうる。不均衡解析方法のステップ1)から7)は、読み取りカウント又は読み取り数の代わりに、各エクソンタイリングアンプリコンについての分子カウント又はファミリーカウントに適用されうる。
ある実施形態では、ベースラインは、乳房、肺、結腸、脳、皮膚、及び前立腺等の様々な組織からの複数の正常な試料を試験することによって収集された読み取りカウントデータから決定されうる。例えば、ベースラインの測定値を生成するために用いられる試料の数は、遺伝子ベースラインごとに15~64個のFFPE試料であり、中央値は59である。より多くの正常な試料を使用しうる。上記のステップ2)に記載されるように、正常な試料のアンプリコンの読み取りカウントは、特定の遺伝子に対して正規化されうる。各試料における各遺伝子は、その試料のその遺伝子の測定された最大読み取りカウントに関して正規化される。遺伝子の各アンプリコンについての正規化された読み取りカウントの中央値を計算して、ベースラインを求めうる。あるいは、遺伝子の各アンプリコンについての正規化された読み取りカウントの平均を計算して、ベースラインを求めうる。アンプリコンのすべてが十分な読み取りカウントカバレッジを有する場合、正常な試料が、遺伝子についてのベースライン計算に含まれる。例えば、アンプリコンあたりの正規化されたカバレッジの中央値が0.1未満の正常な試料は、ベースラインから除外されうる。図10~11は、ベースラインを決定するための複数の正常な試料からの正規化されたカウントの例を示す。中央値及び平均値も示されている。図10は、RET遺伝子についてのベースラインを決定するための複数の正常な試料からの正規化されたカウントの例を示す。図11は、BRAF遺伝子についてのベースラインを決定するための複数の試料からの正規化されたカウントの例を示す。
ベースライン補正により、GCバイアス、アンプリコン特異的変動など、データの系統的な変動を補正しうる。図12及び13は、ベースライン補正前のROS1遺伝子についての融合陽性試料についての結果の例を示す。図12は、陽性試験試料122及びベースライン124の2つの複製についての正規化された分子カウントを示す。図13は、ベースライン補正を適用する前に2つの試料に対して決定されたバイナリセグメンテーションスコアを示す。図13は、予測ブレークポイントに対応するアンプリコンインデックス23(すなわち、遺伝子5’からの23番目のエクソン-エクソンジャンクション)での最大絶対バイナリセグメンテーションスコアを示す。図14及び15は、ベースライン補正後のROS1遺伝子についての融合陽性試料の2つの複製及び融合陰性試料の2つのレプリケートについての結果の例を示す。図14は、融合陽性試料(2つの複製)142及び融合陰性試料(2つの複製)144の両方についてのベースライン補正分子カウント、log2(試験試料中の正規化された分子カウント/アンプリコンのベースライン値)のプロットを示す。図15は、ベースライン補正後の融合陽性試料複製のバイナリセグメンテーションスコアを示す。図15は、予測されたブレークポイントに対応するアンプリコンインデックス21での最大絶対バイナリセグメンテーションスコアを示す。予測されたブレークポイントにより、ベースライン補正の結果としてシフトし、ブレークポイントがより正確に予測された。
図16~19は、異なるドライバ遺伝子の融合検出の結果の例を示す。これらの結果は、特定の遺伝子の真理集合からの既知の陽性及び陰性試料を試験することから生成された。陽性試料は、正常な試料(融合陰性肺試料)の様々なバックグラウンドで2%~20%の濃度に希釈され、アッセイの検出限界(LOD)範囲が示された。図16~19は、x軸上の不均衡スコア及びy軸上のp値の負のlog10で個々の試験試料を表す点のプロットを示す。遺伝子ごとに指定された検出閾値を表す破線の垂直線と水平線は、ポイントを右上の正の呼び出し象限を有する象限(すなわち、不均衡スコア>不均衡閾値及びp値<p値閾値)に分割する。プラス記号は既知の融合陽性試料を表し、円の点は既知の融合陰性FFPE試料を表す。右上象限内の試料は、融合陽性と呼ばれる。図16は、ALK遺伝子の結果の例を示す。これらの結果は、固形腫瘍FFPE試料(ホルマリン固定パラフィン包埋)におけるALK遺伝子についての陽性(2%に希釈されたALK融合細胞株の6つの試料及び20%に希釈された2つのALK融合FFPE臨床研究試料)及び陰性のならびに細胞株の良好な分類を示す。同様に、図17は、RET遺伝子についての結果の例を示す。これらの結果は、RET遺伝子についての融合陽性(2%に希釈されたRET融合細胞株の5つの試料及び20%に希釈された1つのRET FFPE臨床研究試料)及び陰性試料の全体的に良好な分類を示す。図18は、3’末端でのパートナー遺伝子に5’末端でより頻繁に融合する、FGFR3ドライバ遺伝子についての結果の例を示す。この遺伝子では、x軸に沿った不均衡スコアは、ステップ5)dに関して前述したように、逆5’/3’不均衡測定を表している。このプロットは、陽性(20%に希釈されたFGFR3-TACC3細胞株の6つの試料)及び陰性FFPE試料の良好な分類を示す。結果は、他の遺伝子と比較してFGFR3陽性値に対するより低い不均衡値を示すため、アッセイについて高感度を維持しながら、より低い閾値を適用して陽性を正確に分類しうる。図19は、NTRK1遺伝子についての結果の例を示す。NTRK1融合細胞株の4つの試料を試験した。結果は、陽性試料の正確な分類を示す。
ある実施形態では、不均衡解析に基づいて遺伝子融合を呼び出すために、様々な閾値を適用しうる。ステップ7)によれば、p値及び不均衡スコアについての遺伝子特異的閾値を適用しうる。例えば、p値についての遺伝子特異的閾値は、0.05~0.1の範囲にあり得、不均衡スコアについての遺伝子特異的閾値は、1.5~3.5の範囲にありうる。ある実施形態では、アンプリコンあたりの平均読み取りカウント≧30、アンプリコンあたりの平均分子カウント≧3、及び予測されたブレークポイントに隣接するアンプリコンの数≧2を含む、追加の閾値を適用しうる。
ある実施形態では、不均衡呼び出しの結果は、その情報が利用可能である場合、標的化されたアイソフォーム呼び出しの結果と組み合わされうる。不均衡呼び出しを標的化されたアイソフォーム呼び出しと組み合わせて、報告された融合呼び出しを行う例を表4に示す。
Figure 2022525758000006
図20は、ALKでの融合の陽性として知られているFFPE試料についてのエクソンタイリング融合不均衡及び標的化された融合についての結果の例の表を示す。2番目の列の「エクソン15~20」という用語は、最大絶対バイナリセグメンテーションスコアZmaxに対応するブレークポイントのエクソン位置の予測範囲を示す。標的化された融合アイソフォームについて検出されたブレークポイントのエクソン位置は、3番目の列のボックス2002に番号で示されている。2番目の列のブレークポイントの予測範囲は、列3のボックス2002で標的化融合によって検出されたブレークポイントのエクソン位置と一致している。すべての試料数についてのエクソンタイリング融合不均衡の結果により、標的化融合検出と比較して、エクソン-エクソン融合の正確な範囲が予測された。
図21は、NTRK1遺伝子についての補正された読み取りカウントのプロットの例を示す。NTRK1は、キナーゼドメインの近くにある4つのアンプリコンが予想されるレベルで発現し、5’末端の近くにある3つの追加のアンプリコンが明らかに過小発現しているという不均衡の兆候を明確に示す。ある実施形態では、追加のエクソン-エクソンジャンクションをカバーするためのより多くのアンプリコンは、偽陰性を低減し、融合不均衡検出を改善しうる。ある実施形態では、不均衡スコア及び/又はp値の遺伝子特異的閾値を調整することにより、融合不均衡検出を最適化しうる。
図22は、RET遺伝子の補正された読み取りカウントのプロットの例を示す。不均衡スコアは1.906であり、p値は0.0027である。図23は、ROS1遺伝子についての修正された読み取りカウントのプロットの例を示す。不均衡スコアは3.399であり、p値は6e-04である。これらの例は両方とも、融合不均衡検出についての閾値要件を満たしている。
ある実施形態では、BAMファイル内の読み取りカウント又は分子カウントは、元のカウントの一部分にサブサンプリングされうる。例えば、その一部分は元のカウントの2%~20%の範囲でありうる。サブサンプリングでは、読み取りをランダムに選択しうる。サブサンプリングされたアンプリコンは、再マッピング及びカウントされて、低減されたエクソンタイリング読み取りカウントのセット又は低減されたエクソンタイリング分子カウントのセットを生成しうる。次に、ステップ1)から7)に記載される不均衡解析を、低減されたエクソンタイリング読み取りカウントのセット又は低減されたエクソンタイリング分子カウントのセットに適用しうる。図24A~24Dは、ALK遺伝子についての元の及び低減された読み取りカウントのセットの例を示す。図24A及び24Bのプロットは読み取りカウントを示し、図24C及び24Dのプロットは分子カウントを示す。これらのプロットは、低減された読み取りのセットが用いられる場合にカバレッジプロファイルが保持されることを示す。表5は、低減された読み取りのセットに対するエクソンタイリング融合の不均衡の結果の例を示す。PPVは陽性の予測値、FPは偽陽性、FNは偽陰性、TPは真陽性である。
Figure 2022525758000007
これらの結果は、低減された読み取りのセットが融合不均衡検出において同等の性能を提供できることを示す。サブサンプリングは、表5の「マッピングされた読み取りの合計」列に示されているように、読み取りデータの圧縮も提供する。読み取りのセットが減ると、ストレージに必要なメモリが少なくなる。さらに、解析する読み取りが少ないため、低減された読み取りのセットにより、不均衡解析のための計算がより少なくなる。コンピュータにこの方法を実装する場合、メモリの節約及び計算負荷の軽減により、計算性能が向上する。
図25は、一実施形態による、不均衡解析に基づく融合を検出する例示的な方法のブロック図である。フロースペースシグナル測定値は、核酸配列決定デバイスによってプロセッサに提供されうる。ある実施形態では、各フロースペースシグナル測定値は、センサアレイのマイクロウェル内の試料核酸によるフローされたヌクレオチドの取り込み又は非取り込みに応じて測定されるシグナル振幅又は強度を表す。取り込みイベントの場合、シグナル振幅は、1つのフローで取り込まれた塩基の数に依存する。ホモポリマーの場合、シグナル振幅は、ホモポリマーの長さが長くなるにつれて高まる。プロセッサは、塩基呼び出し器2502を適用して、フロースペースシグナル測定値を分析することにより読み取られた配列の塩基呼び出しを生成することができる。
図28は、塩基呼び出しが行われうるフロースペースシグナル測定値の例示的な表現を示す。この例では、x軸は、フローインデックスと、フロー配列でフローされたヌクレオチドとを示す。グラフのバーは、センサアレイ内のマイクロウェルの特定の位置からの各フローのフロースペースシグナル測定値の振幅を示す。フロースペースシグナル測定値は、生の取得データ、又は例えば、スケーリング、バックグラウンドフィルタリング、正規化、シグナル減衰の補正、及び/又は位相エラー若しくは効果の補正などによって処理されているデータでありうる。塩基呼び出しは、いかなる好適なシグナル特徴(例えば、シグナル振幅又は強度など)を分析することによって作成されうる。本教示と共に用いるためのセンサアレイ、シグナル処理、及び塩基呼び出しの構造及び/又は設計は、参照によりその全体が本明細書に組み込まれる、2013年4月11日出願の米国特許出願公開第2013/0090860号に記載される1つ以上の特徴を含みうる。
配列読み取りのための塩基配列が決定されると、配列読み取りは、例えば、マッピングされていないBAMファイルでマッパー2504に提供されうる。ある実施形態では、マッパー2504は、配列読み取りを、標的化されたエクソン-エクソンジャンクション及びコントロール遺伝子参照配列を含む参照配列に整列させて、整列された配列読み取り及び関連するマッピング品質パラメータを決定する。参照配列及びコントロール遺伝子参照配列は、FASTAファイル形式又は別の好適なファイル形式を用いてファイルで提供されうる。本教示と共に用いるための配列読み取りを整列するための方法は、2012年8月2日に公開された米国特許出願公開第2012/0197623に記載される1つ以上の特徴を含み得、参照によりその全体が本明細書に組み込まれる。
ある実施形態では、整列された配列読み取りは、不均衡解析パイプライン2512に提供されうる。不均衡解析パイプライン2512には、上記のステップ1)から7)を適用しうる。ドライバ遺伝子融合を検出するために不均衡スコア及びp値に適用された閾値化の結果は、融合呼び出し器2510に提供されうる。融合呼び出し器2510は、不均衡解析で適用された閾値化の結果に基づいて融合呼び出しを提供しうる。ある実施形態では、不均衡呼び出しの結果は、その情報が利用可能である場合、標的化されたアイソフォーム呼び出しの結果と組み合わされうる。不均衡呼び出しを標的化されたアイソフォーム呼び出しと組み合わせて、報告された融合呼び出しを行う例を、上記の表4に示す。本教示で用いるための標的化融合を検出するための方法は、2018年9月20日に出願された米国特許出願第16/136,463号に記載される1つ以上の特徴を含み得、参照によりその全体が本明細書に組み込まれる。
ある実施形態では、エクソンタイリングアンプリコンに対応する配列読み取りは、分子タグを含む。これらの配列読み取りは、共通の分子タグを共有するファミリーにグループ化されうる。ファミリーについて、エクソン-エクソンジャンクションに対応するアンプリコンに対してカウントされて、分子カウントが生成されうる。図26は、一実施形態により、不均衡解析に基づいて融合を検出するためのコンセンサス圧縮データを生成するための例示的な方法のブロック図である。整列された配列読み取りは、例えば、マッピングされたBAMファイルでフロースペースコンセンサスパイプライン2606に提供されうる。マッピングされたコンセンサスBAMファイルは、第2のレベル圧縮器2608に提供されうる。ファミリーカウント、又は分子カウントは、不均衡解析パイプライン2512に提供されうる。不均衡解析パイプライン2512は、読み取りカウント又は読み取り数の代わりに、エクソンタイリングアンプリコンについての分子カウント又はファミリーカウントに不均衡解析方法のステップ1)から7)を適用することができる。
BAMファイル形式の構造は、本明細書で「BAM仕様」と称される、2014年9月12日の「Sequence Alignment/Map Format Specification」(https://github.com/samtools/hts-specs)に記載されている。本明細書に記載されるように、「BAMファイル」は、BAM形式と互換性のあるファイルをいう。本明細書に記載されるように、「マッピングされていない」BAMファイルは、整列された配列読み取り情報又はマッピング品質パラメータを含まないBAMファイルを指し、「マッピングされた」BAMファイルは、整列された配列読み取り情報及びマッピング品質パラメータを含むBAMファイルをいう。本明細書に記載されるように、「コンセンサス」BAMファイルは、コンセンサス圧縮データを含むBAMファイルをいう。
ある実施形態では、分子タグ付けで読み取られる配列の読み取り構造は、5’末端から開始して、ライブラリキー、バーコード配列、バーコードアダプター、接頭分子タグ、配列テンプレート、接尾分子タグ、及びP1アダプターを含みうる。塩基呼び出しは、ライブラリキー、バーコード配列、及びバーコードアダプターを残りの配列読み取りからトリミングすることと、BAMファイル形式の読み取りグループヘッダー@RGのキー配列(KS)タグフィールドにそれらを保存することとを含みうる。塩基呼び出しは、配列読み取りからP1アダプターをトリミングすることと、BAMヘッダーのコメント行@COにそれを保存することとを含みうる。
ある実施形態では、塩基呼び出し器2502は、タグ構造を検出し、読み取られた配列からタグをトリミングするように構成されうる。トリミングされたタグは、カスタムタグZT(例えば、接頭タグ)及びYT(例えば、接尾タグ)のフィールドのBAM読み取りグループヘッダー(@RG)に保存されうる。読み取りグループヘッダーは、テンプレートの配列読み取りデータに関連付けられているため、ファミリーグループとのタグの関連付けの整合性が維持されうる。その後のマッピング又は参照配列との整列は、接頭タグ又は接尾タグ無しでテンプレート配列に適用されうる。これは、参照配列へのタグの一部の誤ったマッピングの可能性を低減する。
ある実施形態では、タグ配列は、ランダムな塩基のサブセット及び既知の塩基のサブセットを含みうる。タグトリミング方法は、読み取られた配列のタグ部分の塩基の配列が既知の塩基と一致することを必要としうる。タグトリミング方法は、タグの既知の長さに等しいいくつかの塩基を有する塩基文字列を選択しうる。ある実施形態では、タグトリミング方法は、挿入及び欠失等のタグ内の配列決定エラーを検出及び修正することができる。タグ内の配列決定エラーを修正することは、より正確なファミリー識別を提供しうる。
ある実施形態では、マッピングされたBAMファイルは、複数の配列読み取り、フロースペースシグナル測定値の複数のベクトル、及び配列読み取りに対応する複数の配列の整列を保存することができる。マッピングされたBAMファイルは、カスタムタグフィールドZMにフロースペースシグナル測定値のベクトルを保存することができる。マッピングされたBAMファイルは、カスタムタグフィールドZPにモデルパラメータを保存することができる。マッピングされたBAMファイルは、上に記載されるように、BAM読み取りグループヘッダーに配列読み取りに関連する分子タグ配列を保存することができる。マッピングされたBAMファイルは、メモリに保存され、フロースペースコンセンサスパイプライン2606に提供されうる。ある実施形態では、他のファイル形式を用いて、複数の配列読み取り、フロースペースシグナル測定値の複数のベクトル、複数の配列の整列、及び配列読み取りに対応する分子タグ配列を保存することができる。
図27は、一実施形態による、フロースペースコンセンサスパイプライン2606の例示的な方法のブロック図である。グループ化操作302は、分子タグ配列情報を用いて、配列読み取りのファミリー及び対応するフロースペースシグナル測定値を特定しうる。グループ化操作302は、配列読み取りに関連する分子タグ配列を比較し、グループ化閾値を適用しうる。例えば、グループ化の閾値の基準は、配列読み取りのグループのメンバーの全てのタグ配列が100%のタグ配列同一性を有することを必要としうる。グループ化の閾値の基準を満たすことにより、共通タグ配列を共有すると決定された配列読み取り及び対応するフロースペースシグナル測定値は、共通タグ配列がそのファミリーに固有である所与のファミリーにグループ化される。各ファミリーは、ファミリー内でグループ化された配列読み取りの数であるメンバーの数を有する。ある実施形態では、少なくとも最小数のメンバーを有さないファミリーはさらに処理されず、メモリから削除されてよい。本教示と共に用いるための分子タグ配列に基づいて配列読み取りをグループ化する方法は、2016年12月15日出願の米国特許出願第2016/0362748号に記載される1つ以上の特徴を含み得、参照により全体が本明細書に組み込まれる。
ある実施形態では、フロースペースコンセンサス圧縮機304は、以下のように、グループ化されたファミリーの各々のフロースペース信号測定値に基づいてコンセンサス圧縮データを決定しうる:
A.各グループ化されたファミリーのフロースペース信号測定値のベクトルの算術平均値を計算して、各ファミリーについてのコンセンサスフロースペース信号測定値のベクトルを生成する。
B.各ファミリーのフロースペース信号測定値のベクトルの標準偏差を計算して、各ファミリーについての標準偏差のベクトルを形成する。
ある実施形態では、フロースペースコンセンサス圧縮機304は、フロースペース信号測定値の各ベクトルに対応する少なくとも1つのモデルパラメータを受信しうる。フロースペースコンセンサス圧縮機304は、ファミリーのモデルパラメータの算術平均値を計算して、ファミリーについての少なくとも1つのコンセンサスモデルパラメータを形成しうる。以下で記載するように、モデルパラメータは、塩基呼び出しに用いられうる。ある実施形態では、モデルパラメータは、フロースペース信号測定値の各ベクトルについて不完全拡張(IE)パラメータ及び繰り越し(CF)パラメータを含みうる。フロースペースコンセンサス圧縮機304は、各ファミリーのIEパラメータの算術平均値、及びCFパラメータの算術平均値を計算して、各ファミリーについてのコンセンサスIEパラメータ及びコンセンサスCFパラメータを形成しうる。
ある実施形態では、塩基呼び出し器2502は、各ファミリーについてのコンセンサスフロースペース信号測定値のベクトルに適用されて、各々のファミリーについてのコンセンサス塩基配列を生成しうる。コンセンサス塩基配列は、本明細書ではコンセンサス配列読み取りとも称される。コンセンサスモデルパラメータは、塩基呼び出しについてのモデルを適用する際に用いられうる。例えば、各ファミリーについてのコンセンサス不完全拡張(IE)パラメータ及びコンセンサス繰り越し(CF)パラメータが、塩基呼び出し器2502に提供されうる。塩基呼び出しは、2013年4月11日に公開された米国特許出願公開第2013/0090860号、及び/又は2012年5月3日に公開された米国特許出願公開第2012/0109598号に記載される1つ以上の特徴を含み得、これらは全て、その全体が参照により本明細書に組み込まれる。コンセンサス塩基配列についてのコンセンサス配列の整列は、コンセンサス塩基配列を、最も高いマッピング特質を有するファミリーにおいて読み取られた配列と比較することにより決定されうる。コンセンサス塩基配列が、最も高いマッピング特質を有する読み取られた配列と一致する場合に、対応する配列の整列がコンセンサス配列の整列として選択される。コンセンサス塩基配列が、最も高いマッピング特質を有するファミリーにおいて読み取られた配列と一致しない場合に、マッパー2504は、コンセンサス塩基配列を、標的融合参照配列及び制御遺伝子参照配列と整列させて、コンセンサス配列整列を決定しうる。コンセンサス配列読み取りを整列させる方法は、参照によりその全体が本明細書に組み込まれる、2012年8月2日に公開された米国特許出願公開第2012/0197623に記載される1つ以上の特徴を含みうる。ある実施形態では、平均して、コンセンサス配列読み取りの約1%は、マッパー2504による再整列が必要になりうる。
ある実施形態では、プロセッサは、メモリ内の圧縮データ構造内の各ファミリーについてのコンセンサス圧縮データを格納しうる。コンセンサス圧縮データは、コンセンサス配列の読み取り、コンセンサス配列の整列、コンセンサスフロースペース信号測定のベクトル、標準偏差のベクトル、及び各ファミリーについてのメンバーの数を含む。コンセンサス圧縮データは、各ファミリーについてのコンセンサスモデルパラメータのセットをさらに含みうる。ファミリーがサブファミリーに分離されている場合、コンセンサス圧縮データは、コンセンサス配列の読み取り、コンセンサス配列の整列、コンセンサスフロースペース信号測定のベクトル、標準偏差のベクトル、及び各サブファミリーについてのメンバーの数を含む。ある実施形態では、圧縮データ構造は、マップされたコンセンサスBAMファイルを生成するためにBAMファイル形式と互換性でありうる。BAM仕様により、ユーザは、カスタムタグフィールドを定義できる。例えば、表6に示すように、コンセンサス圧縮データの一部を格納するために用いられるBAMファイルに対してカスタムタグフィールドが定義されうる。
Figure 2022525758000008
元の配列読み取り、フロースペース信号測定の元のベクトル、及び各ファミリーの元のモデルパラメータは、コンセンサス圧縮データに含まれておらず、メモリから削除されうる。ある実施形態では、圧縮データ構造は、カスタムファイル形式を含む、BAMファイル形式とは異なる形式プロトコルを使用しうる。
図29は、単一のファミリーについてのフロースペース信号測定値の例示的なプロットを示す。フローインデックスは、フロー配列におけるj番目のフローを示す。正規化された振幅は、フロースペース信号測定値を示す。プロット記号の種類は、特定のフローのヌクレオチドに対応する。フロースペース信号測定のこのプロットは、共通の分子タグに関連付けられた配列読み取りの単一ファミリーに対応する。各フローでのフロースペース信号測定値は、同様の値の近くでクラスタ化される。フローインデックスは、フロースペース信号測定値のベクトルにおける要素インデックスに対応する。このプロットで表されるフロースペース信号測定値は、フロースペースコンセンサス圧縮機304に入力されうる。
図30は、単一のファミリーについてのコンセンサスフロースペース信号測定値の例示的なプロットを示す。このプロットは、図29に示されるフロースペース信号測定値でのコンセンサス計算から生じるコンセンサスフロースペース信号測定値を示す。プロット記号は、ファミリーについてのコンセンサスフロースペース測定値のベクトルの要素である算術平均値を示す。バーは、ファミリーについての標準偏差のベクトルの要素である標準偏差を示す。
双方向配列の場合、第1のファミリーは順方向配列読み取り用に指定され、第2のファミリーは逆方向配列読み取り用に指定される。表7の例に示すように、順方向読み取りの接頭及び接尾タグは、逆方向読み取り用の接頭及び接尾タグの逆補数でありうる。
Figure 2022525758000009
ある実施形態では、ファミリーはサブファミリーに分割され、同じ分子タグを有するファミリーごとに2つ以上のコンセンサス配列読み取りがもたらされうる。コンセンサスフロースペース測定値のベクトルを決定するために各サブファミリーが同期化されたフロースペース信号測定値を有するように、サブファミリーがフロー同期のために形成されうる。ファミリー内の配列読み取りに変動がある場合、ファミリーはサブファミリーに分割され、そのためコンセンサス配列読み取りが各サブファミリーに対して生成される。本教示と共に用いるための分子タグ付き核酸配列データのフロースペースコンセンサス圧縮のための方法は、2018年5月15日に出願された米国特許出願第15/979,804号に記載される1つ以上の特徴を含み得、参照によりその全体が本書に組み込まれる。
図26に戻ると、ある実施形態では、二次コンプレッサ2608は、融合分析の前に、コンセンサス圧縮データに適用されうる。二次コンプレッサ2608は、同じ分子タグを有するサブファミリーを、1つのコンセンサス配列読み取りを含む単一のファミリーに結合しうる。双方向配列読み取りについてのある実施形態では、二次コンプレッサ2608は、順方向及び逆方向配列読み取りについてのファミリーを以下のように合わせうる:
1.逆方向読み取りの接頭及び接尾タグの逆補数を決定して、逆補数タグを形成し、
2.逆相数タグを順方向読み取りタグと一致させ、
3.順方向読み取りファミリーと一致するタグ及び逆方向読み取りファミリーを合わせて、1つのコンセンサス配列読み取りを含む1つのファミリーにする。
表7を参照すると、合わせたファミリーで表される読み取りの数は、順方向及び逆方向読み取りファミリーにおける配列読み取りの数の合計である。マップされたコンセンサスBAMファイルを変更して、合わせたファミリー情報を含め、サブファミリー情報を削除しうる。合計値は、マップされたコンセンサスBAMファイルのZRフィールドに入力されうる。二次コンプレッサ2608は、合わせたファミリーに対して単一のコンセンサス配列読み取りを提供する。合わせたファミリーごとに1つのサブファミリーのコンセンサス配列読み取りを排除することにより、二次コンプレッサ2608は、追加のデータ圧縮を提供する。二次圧縮後、コンセンサス圧縮データは、不均衡解析パイプライン2512に提供されうる。
ある実施形態では、本明細書に記載の方法は、分散型、クラスタ、リモート、又はクラウドコンピューティングリソースを少なくとも部分的に用いて実施又は実装されうる。コンセンサス圧縮データを提供するための配列読み取りデータの圧縮は、分散型、クラスタ、リモート、又はクラウドコンピューティングリソースにおいてプロセッサにデータを送信するための利点を提供する。データ量が減少するため、コンピューティングリソース間のデータ転送インターフェース上での送信に必要な帯域幅及び/又は時間が削減される。例えば、マッピングされたコンセンサスBAMファイルは、融合検出動作のためにローカルコンピューティングリソースからクラウドコンピューティングリソースに転送されうる。マッピングされたコンセンサスBAMファイルのサイズは、元のマッピングされたBAMファイルのサイズよりも著しく小さいであろう。マッピングされたコンセンサスBAMファイルのサイズがより小さい場合、クラウドコンピューティングリソースへのデータ転送インターフェース上での送信に必要な帯域幅及び/又は時間が削減されるであろう。
例示的な実施形態では、遺伝子融合を検出するための方法であって、(a)プライマープールの存在下で核酸試料を増幅して複数のアンプリコンを生成することであって、プライマープールがドライバ遺伝子の複数のエクソン-エクソンジャンクションを標的化するプライマーを含み、アンプリコンが標的化されたエクソン-エクソンジャンクションに対応する、生成することと、(b)複数の読み取りを生成するためにアンプリコンを配列決定することと、(c)読み取りを参照配列に整列させることであって、参照配列がドライバ遺伝子の標的化されたエクソン-エクソンジャンクションに対応するアンプリコンの核酸配列を含む、アラインメントすることと、(d)各標的化されたエクソン-エクソンジャンクションに対応する各アンプリコンについての読み取り数を決定することと、(e)各アンプリコンについての読み取り数をドライバ遺伝子のアンプリコン間の最大読み取り数で除算して、各アンプリコンについての正規化された読み取りカウントを求めることと、(f)アンプリコンについての正規化された読み取りカウントにベースライン補正を適用して、補正された読み取りカウントを生成することであって、ベースライン補正が複数の正常な試料のアンプリコンについての読み取りカウントに基づくベースライン値を用いる、生成することと、(g)ドライバ遺伝子の5’末端に対応するアンプリコンについての補正された読み取りカウントとドライバ遺伝子の3’末端に対応するアンプリコンについての補正された読み取りカウントとの間の不均衡を決定することと、(h)不均衡に基づいてドライバ遺伝子における遺伝子融合を検出することと、を含む、方法が提供される。不均衡を決定するステップは、1番目のアンプリコンからi番目のアンプリコンまでの補正された読み取りカウントXの分部和Sを計算することであって、S=X+...+Xである、計算することと、1番目のアンプリコンからn番目のアンプリコンまでの和Sを計算することであって、S=X+...+Xであり、式中、nが補正された読み取りカウントの総数である、計算することと、をさらに含みうる。不均衡を決定するステップは、下式によって、i番目のアンプリコンのためのバイナリセグメンテーションスコアZを決定することをさらに含みうる。
Figure 2022525758000010
不均衡を決定するステップは、最大絶対バイナリセグメンテーションスコアに対応するアンプリコンインデックスに基づいて、遺伝子融合についての予測ブレークポイントを決定することをさらに含みうる。不均衡を決定するステップは、観察された不均衡値と予想される不均衡値との比に基づいて不均衡スコアを決定することをさらに含みうる。予想される不均衡値は、ベースライン値の第1のアレイに基づき得、観察される不均衡値は、正規化された読み取りカウントの第2のアレイに基づき得、各アレイのアレイ要素の数はNである。不均衡スコアを決定するステップは、(a)アレイ要素(1+b)からアレイ要素Nまでの第1のアレイのベースライン値の第1の和を計算することであって、bは予測されるブレークポイントである、計算することと、(b)アレイ要素1からアレイ要素Nまでの第1のアレイのベースライン値の第2の和を計算することと、(c)第1の和を第2の和で除算して、予想される不均衡値を生成することと、をさらに含みうる。不均衡スコアを決定するステップは、(a)アレイ要素(1+b)からアレイ要素Nまでの第2のアレイの正規化された読み取りカウントの第1の和を計算することであって、bが予測ブレークポイントである、計算することと、(b)アレイ要素1からアレイ要素Nまでの第2のアレイの正規化された読み取りカウントの第2の和を計算することと、(c)第1の和を第2の和で除算して、観測された不均衡値を生成することと、をさらに含みうる。5’末端に位置するドライバ遺伝子の場合、不均衡スコアを決定するステップは、(a)アレイ要素1からアレイ要素bまでの第1のアレイのベースライン値の第1の和を計算することであって、bが予測ブレークポイントである、計算することと、(b)アレイ要素1からアレイ要素Nまでの第1のアレイのベースライン値の第2の和を計算することと、(c)第1の和を第2の和で除算して、予想される不均衡値を生成することと、をさらに含みうる。5’末端に位置するドライバ遺伝子の場合、不均衡スコアを決定するステップは、(a)アレイ要素1からアレイ要素bまでの第2のアレイの正規化された読み取りカウントの第1の和を計算することであって、bが予測ブレークポイントである、計算することと、(b)アレイ要素1からアレイ要素Nまでの第2のアレイの正規化された読み取りカウントの第2の和を計算することと、(c)第1の和を第2の和で除算して、観察された不均衡値を生成することと、をさらに含みうる。各アンプリコンについてのベースライン値は、複数の正常な試料のアンプリコンについて決定された複数の正規化された読み取りカウントの中央値でありうる。遺伝子融合を検出するステップは、ウィルコクソン順位検定を適用して、複数のバイナリセグメンテーションスコアをコントロール遺伝子の第2の複数のアンプリコンに対応する第2の複数のバイナリセグメンテーションスコアと比較することによって、p値を決定することをさらに含みうる。遺伝子融合を検出するステップは、p値に閾値を適用することをさらに含みうる。遺伝子融合を検出するステップは、不均衡スコアに閾値を適用することをさらに含みうる。
例示的な実施形態では、機械可読メモリ及びメモリと通信するプロセッサを含む、遺伝子融合を検出するためのシステムであって、プロセッサが機械可読命令を実行するように構成され、命令が、プロセッサによって実行される場合、システムに、(a)プロセッサで、プライマープールの存在下で核酸試料の増幅によって生成された複数のアンプリコンについての複数の核酸配列読み取りを受信することであって、プライマープールがドライバ遺伝子の複数のエクソン-エクソンジャンクションを標的化し、アンプリコンがエクソン-エクソンジャンクションに対応する、受信することと、(b)読み取りを参照配列に整列させることであって、参照配列がドライバ遺伝子の標的化されたエクソン-エクソンジャンクションに対応するアンプリコンの核酸配列を含む、整列させることと、(c)各標的化されたエクソン-エクソンジャンクションに対応する各アンプリコンについての読み取り数を決定することと、(d)各アンプリコンについての読み取り数をドライバ遺伝子のアンプリコン間の最大読み取り数で除算して、各アンプリコンについての正規化された読み取りカウントを求めることと、(e)アンプリコンについての正規化された読み取りカウントにベースライン補正を適用して、補正された読み取りカウントを生成することであって、ベースライン補正が複数の正常な試料のアンプリコンの読み取りカウントに基づくベースライン値を用いる、生成することと、(f)ドライバ遺伝子の5’末端に対応するアンプリコンについての補正された読み取りカウントとドライバ遺伝子の3’末端に対応するアンプリコンについての補正された読み取りカウントとの間の不均衡を決定することと、(f)不均衡に基づいてドライバ遺伝子における遺伝子融合を検出することと、を含む方法を実行させる、システムが提供される。不均衡を決定するステップは、1番目のアンプリコンからi番目のアンプリコンまでの補正された読み取りカウントXの分部和Sを計算することであって、S=X+...+Xである、計算することと、1番目のアンプリコンからn番目のアンプリコンまでの和Sを計算することであって、S=X+...+Xであり、式中、nが補正された読み取りカウントの総数である、計算することと、をさらに含みうる。不均衡を決定するステップは、下式によって、i番目のアンプリコンについてのバイナリセグメンテーションスコアZを決定することをさらに含みうる。
Figure 2022525758000011
不均衡を決定するステップは、最大絶対バイナリセグメンテーションスコアに対応するアンプリコンインデックスに基づいて、遺伝子融合についての予測ブレークポイントを決定することをさらに含みうる。不均衡を決定するステップは、観察された不均衡値と予想される不均衡値との比に基づいて不均衡スコアを決定することをさらに含みうる。予想される不均衡値は、ベースライン値の第1のアレイに基づき得、観察される不均衡値は、正規化された読み取りカウントの第2のアレイに基づき得、各アレイのアレイ要素の数はNである。不均衡スコアを決定するステップは、(a)アレイ要素(1+b)からアレイ要素Nまでの第1のアレイのベースライン値の第1の和を計算することであって、bは予測されるブレークポイントである、計算することと、(b)アレイ要素1からアレイ要素Nまでの第1のアレイのベースライン値の第2の和を計算することと、(c)第1の和を第2の和で除算して、予想される不均衡値を生成することと、をさらに含みうる。不均衡スコアを決定するステップは、(a)アレイ要素(1+b)からアレイ要素Nまでの第2の配列の正規化された読み取りカウントの第1の和を計算することであって、bが予測ブレークポイントである、計算することと、(b)アレイ要素1からアレイ要素Nまでの第2のアレイの正規化された読み取りカウントの第2の合計を計算することと、(c)第1の和を第2の和で除算して、観測された不均衡値を生成することと、をさらに含みうる。5’末端に位置するドライバ遺伝子の場合、不均衡スコアを決定するステップは、(a)アレイ要素1からアレイ要素bまでの第1のアレイのベースライン値の第1の和を計算することであって、bが予測ブレークポイントである、計算することと、(b)アレイ要素1からアレイ要素Nまでの第1のアレイのベースライン値の第2の和を計算することと、(c)第1の和を第2の和で除算して、予想される不均衡値を生成することと、をさらに含みうる。5’末端に位置するドライバ遺伝子の場合、不均衡スコアを決定するステップは、(a)アレイ要素1からアレイ要素bまでの第2のアレイの正規化された読み取りカウントの第1の和を計算することであって、bが予測ブレークポイントである、計算することと、(b)アレイ要素1からアレイ要素Nまでの第2のアレイの正規化された読み取りカウントの第2の和を計算することと、(c)第1の和を第2の和で除算して、観察された不均衡値を生成することと、をさらに含みうる。各アンプリコンについてのベースライン値は、複数の正常な試料のアンプリコンについて決定された複数の正規化された読み取りカウントの中央値でありうる。遺伝子融合を検出するステップは、ウィルコクソン順位検定を適用して、複数のバイナリセグメンテーションスコアをコントロール遺伝子の第2の複数のアンプリコンに対応する第2の複数のバイナリセグメンテーションスコアと比較することによって、p値を決定することをさらに含みうる。遺伝子融合を検出するステップは、p値に閾値を適用することをさらに含みうる。遺伝子融合を検出するステップは、不均衡スコアに閾値を適用することをさらに含みうる。
例示的な実施形態では、プロセッサによって実行される場合、プロセッサに、遺伝子融合を検出するための方法を実行させる命令を含む非一時的機械可読記憶媒体であって、方法が、(a)プロセッサで、プライマープールの存在下で核酸試料の増幅によって生成された複数のアンプリコンについての複数の核酸配列読み取りを受信することであって、プライマープールがドライバ遺伝子の複数のエクソン-エクソンジャンクションを標的化し、アンプリコンがエクソン-エクソンジャンクションに対応する、受信することと、(b)読み取りを参照配列に整列させることであって、参照配列がドライバ遺伝子の標的化されたエクソン-エクソンジャンクションに対応するアンプリコンの核酸配列を含む、整列させることと、(c)各標的化されたエクソン-エクソンジャンクションに対応する各アンプリコンについての読み取り数を決定することと、(d)各アンプリコンについての読み取り数をドライバ遺伝子のアンプリコン間の最大読み取り数で除算して、各アンプリコンについての正規化された読み取りカウントを求めることと、(e)アンプリコンについての正規化された読み取りカウントにベースライン補正を適用して、補正された読み取りカウントを生成することであって、ベースライン補正が複数の正常な試料のアンプリコンについての読み取りカウントに基づくベースライン値を用いる、生成することと、(f)ドライバ遺伝子の5’末端に対応するアンプリコンについての補正された読み取りカウントとドライバ遺伝子の3’末端に対応するアンプリコンについての補正された読み取りカウントとの間の不均衡を決定することと、(f)不均衡に基づいてドライバ遺伝子における遺伝子融合を検出することと、を含む、非一時的機械可読記憶媒体が提供される。不均衡を決定するステップは、1番目のアンプリコンからi番目のアンプリコンまでの補正された読み取りカウントXの分部和Sを計算することであって、S=X+...+Xである、計算することと、1番目のアンプリコンからn番目のアンプリコンまでの和Sを計算することであって、S=X+...+Xであり、式中、nが補正された読み取りカウントの総数である、計算することと、をさらに含みうる。不均衡を決定するステップは、下式によって、i番目のアンプリコンのためのバイナリセグメンテーションスコアZを決定することをさらに含みうる。
Figure 2022525758000012
不均衡を決定するステップは、最大絶対バイナリセグメンテーションスコアに対応するアンプリコンインデックスに基づいて、遺伝子融合についての予測ブレークポイントを決定することをさらに含みうる。不均衡を決定するステップは、観察された不均衡値と予想される不均衡値との比に基づいて不均衡スコアを決定することをさらに含みうる。予想される不均衡値は、ベースライン値の第1のアレイに基づき得、観察される不均衡値は、正規化された読み取りカウントの第2のアレイに基づき得、各アレイのアレイ要素の数はNである。不均衡スコアを決定するステップは、(a)アレイ要素(1+b)からアレイ要素Nまでの第1のアレイのベースライン値の第1の和を計算することであって、bは予測されるブレークポイントである、計算することと、(b)アレイ要素1からアレイ要素Nまでの第1のアレイのベースライン値の第2の和を計算することと、(c)第1の和を第2の和で除算して、予想される不均衡値を生成することと、をさらに含みうる。不均衡スコアを決定するステップは、(a)アレイ要素(1+b)からアレイ要素Nまでの第2のアレイの正規化された読み取りカウントの第1の和を計算することであって、bが予測ブレークポイントである、計算することと、(b)アレイ要素1からアレイ要素Nまでの第2のアレイの正規化された読み取りカウントの第2の和を計算することと、(c)第1の和を第2の和で除算して、観測された不均衡値を生成することと、をさらに含みうる。5’末端に位置するドライバ遺伝子の場合、不均衡スコアを決定するステップは、(a)アレイ要素1からアレイ要素bまでの第1のアレイのベースライン値の第1の和を計算することであって、bが予測ブレークポイントである、計算することと、(b)アレイ要素1からアレイ要素Nまでの第1のアレイのベースライン値の第2の和を計算することと、(c)第1の和を第2の和で除算して、予想される不均衡値を生成することと、をさらに含みうる。5’末端に位置するドライバ遺伝子の場合、不均衡スコアを決定するステップは、(a)アレイ要素1からアレイ要素bまでの第2のアレイの正規化された読み取りカウントの第1の和を計算することであって、bが予測ブレークポイントである、計算することと、(b)アレイ要素1からアレイ要素Nまでの第2のアレイの正規化された読み取りカウントの第2の和を計算することと、(c)第1の和を第2の和で除算して、観察された不均衡値を生成することと、をさらに含みうる。各アンプリコンについてのベースライン値は、複数の正常な試料のアンプリコンについて決定された複数の正規化された読み取りカウントの中央値でありうる。遺伝子融合を検出するステップは、ウィルコクソン順位検定を適用して、複数のバイナリセグメンテーションスコアをコントロール遺伝子の第2の複数のアンプリコンに対応する第2の複数のバイナリセグメンテーションスコアと比較することによって、p値を決定することをさらに含みうる。遺伝子融合を検出するステップは、p値に閾値を適用することをさらに含みうる。遺伝子融合を検出するステップは、不均衡スコアに閾値を適用することをさらに含みうる。
例示的な実施形態では、遺伝子融合を検出するための方法であって、(a)プライマープールの存在下で核酸試料を増幅して複数のアンプリコンを生成することであって、プライマープールがドライバ遺伝子の複数のエクソン-エクソンジャンクションを標的化するプライマーを含み、アンプリコンがエクソン-エクソンジャンクションに対応する、生成することと、(b)アンプリコンを配列決定して、複数の読み取りを生成することと、(c)読み取りを参照配列に整列させることと、(d)読み取り数をドライバ遺伝子のアンプリコン間の最大読み取り数で除算することによって各アンプリコンに対応する読み取り数を正規化して、各アンプリコンについての正規化された読み取りカウントを求めることと、(e)ドライバ遺伝子のアンプリコンについての正規化された読み取りカウントにベースライン補正を適用して、補正された読み取りカウントを生成することであって、アンプリコンについての補正された読み取りカウントが、アンプリコンについてのベースライン値で除算された正規化された読み取りカウントのlog2により決定される、生成することと、(f)補正された読み取りカウントごとにバイナリセグメンテーションスコアを計算して、複数のアンプリコンに対応する複数のバイナリセグメンテーションスコアを提供することと、(g)最大絶対バイナリセグメンテーションスコアに対応するアンプリコンインデックスに基づいて、遺伝子融合についての予測ブレークポイントを決定することと、を含む、方法が提供される。バイナリセグメンテーションスコアを計算するステップは、1番目のアンプリコンからi番目のアンプリコンまでの補正された読み取りカウントXの分部和Sを計算することであって、S=X+...+Xである、計算することと、1番目のアンプリコンからn番目のアンプリコンまでの和Sを計算することであって、S=X+...+Xであり、式中、nが補正された読み取りカウントの総数である、計算することと、をさらに含みうる。バイナリセグメンテーションスコアを計算するステップは、下式によって、i番目のアンプリコンについてのバイナリセグメンテーションスコアを決定することをさらに含みうる。
Figure 2022525758000013
この方法は、観察された不均衡値と予想される不均衡値との比に基づいて不均衡スコアを決定することをさらに含みうる。予想される不均衡値は、ベースライン正規化された読み取りカウントのアレイに基づき得、アレイのアレイ要素の数はNであり、ベースライン正規化された読み取りカウントは、正常な試料のアンプリコンに対応する。不均衡スコアを決定するステップは、アレイ要素(1+b)からアレイ要素Nまでのアレイのベースライン正規化された読み取りカウントの第1の和を計算することであって、bが予測ブレークポイントである、計算することと、アレイ要素1からアレイ要素Nまでのアレイのベースライン正規化された読み取りカウントの第2の和を計算することであって、第1の和を第2の和で除算して、予想される不均衡値を生成することと、をさらに含みうる。観測された不均衡値は、正規化された読み取りカウントのアレイに基づき得、アレイのアレイ要素の数はNである。不均衡スコアを決定するステップは、アレイ要素(1+b)からアレイ要素Nまでのアレイの正規化された読み取りカウントの第1の和を計算することであって、bが予測ブレークポイントである、計算することと、アレイ要素1からアレイ要素Nまでのアレイの正規化された読み取りカウントの第2の和を計算することと、第1の和を第2の和で除算して、観察された不均衡値を生成することと、をさらに含みうる。この方法は、複数の正常な試料における対応するアンプリコンについての複数の正規化された読み取りカウントの中央値を計算することによって、アンプリコンについてのベースライン値を決定することをさらに含みうる。この方法は、ウィルコクソン順位検定を適用して、複数のバイナリセグメンテーションスコアをコントロール遺伝子の第2の複数のアンプリコンに対応する第2の複数のバイナリセグメンテーションスコアと比較することによって、p値を決定することをさらに含みうる。
例示的な実施形態では、機械可読メモリ及びメモリと通信するプロセッサを含む、遺伝子融合を検出するためのシステムであって、プロセッサが機械可読命令を実行するように構成され、命令が、プロセッサによって実行される場合、システムに、(a)プライマープールの存在下で核酸試料を増幅して複数のアンプリコンを生成することであって、プライマープールがドライバ遺伝子の複数のエクソン-エクソンジャンクションを標的化するプライマーを含み、アンプリコンがエクソン-エクソンジャンクションに対応する、生成することと、(b)アンプリコンを配列決定して、複数の読み取りを生成することと、(c)読み取りを参照配列に整列させることと、(d)読み取り数をドライバ遺伝子のアンプリコン間の最大読み取り数で除算することによって各アンプリコンに対応する読み取り数を正規化して、各アンプリコンについての正規化された読み取りカウントを得ることと、(e)ドライバ遺伝子のアンプリコンについての正規化された読み取りカウントにベースライン補正を適用して、補正された読み取りカウントを生成することであって、アンプリコンについての補正された読み取りカウントが、アンプリコンについてのベースライン値で除算された正規化読み取りカウントのlog2により決定される、生成することと、(f)補正された読み取りカウントごとにバイナリセグメンテーションスコアを計算して、複数のアンプリコンに対応する複数のバイナリセグメンテーションスコアを提供することと、(g)最大絶対バイナリセグメンテーションスコアに対応するアンプリコンインデックスに基づいて、遺伝子融合の予測ブレークポイントを決定することと、を含む方法を実行させる、システムが提供される。バイナリセグメンテーションスコアを計算するステップは、1番目のアンプリコンからi番目のアンプリコンまでの補正された読み取りカウントXの分部和Siを計算することであって、S=X+...+Xである、計算することと、1番目のアンプリコンからn番目のアンプリコンまでの和Snを計算することであって、S=X+...+Xであり、式中、nが補正された読み取りカウントの総数である、計算することと、をさらに含みうる。バイナリセグメンテーションスコアを計算するステップは、下式によって、i番目のアンプリコンについてのバイナリセグメンテーションスコアを決定することをさらに含みうる。
Figure 2022525758000014
この方法は、観察された不均衡値と予想される不均衡値との比に基づいて不均衡スコアを決定することをさらに含みうる。予想される不均衡値は、ベースライン正規化された読み取りカウントのアレイに基づき得、アレイのアレイ要素の数はNであり、ベースライン正規化された読み取りカウントは、正常な試料のアンプリコンに対応する。不均衡スコアを決定するステップは、アレイ要素(1+b)からアレイ要素Nまでのアレイのベースライン正規化された読み取りカウントの第1の和を計算することであって、bが予測ブレークポイントである、計算することと、アレイ要素1からアレイ要素Nまでのアレイのベースライン正規化された読み取りカウントの第2の和を計算することであって、第1の和を第2の和で除算して、予想される不均衡値を生成することと、をさらに含みうる。観測された不均衡値は、正規化された読み取りカウントのアレイに基づき得、アレイのアレイ要素の数はNである。不均衡スコアを決定するステップは、アレイ要素(1+b)からアレイ要素Nまでのアレイの正規化された読み取りカウントの第1の和を計算することであって、bが予測ブレークポイントである、計算することと、アレイ要素1からアレイ要素Nまでのアレイの正規化された読み取りカウントの第2の和を計算することと、第1の和を第2の和で除算して、観察された不均衡値を生成することと、をさらに含みうる。この方法は、複数の正常な試料における対応するアンプリコンについての複数の正規化された読み取りカウントの中央値を計算することによって、アンプリコンについてのベースライン値を決定することをさらに含みうる。この方法は、ウィルコクソン順位検定を適用して、複数のバイナリセグメンテーションスコアをコントロール遺伝子の第2の複数のアンプリコンに対応する第2の複数のバイナリセグメンテーションスコアと比較することによって、p値を決定することをさらに含みうる。
例示的な実施形態では、プロセッサによって実行される場合、プロセッサに、遺伝子融合を検出するための方法を実行させる命令を含む非一時的機械可読記憶媒体であって、方法が、(a)プライマープールの存在下で核酸試料を増幅して複数のアンプリコンを生成することであって、プライマープールがドライバ遺伝子の複数のエクソン-エクソンジャンクションを標的化するプライマーを含み、アンプリコンがエクソン-エクソンジャンクションに対応する、生成することと、(b)アンプリコンを配列決定して、複数の読み取りを生成することと、(c)読み取りを参照配列に整列させることと、(d)読み取り数をドライバ遺伝子のアンプリコン間の最大読み取り数で除算することによって各アンプリコンに対応する読み取り数を正規化して、各アンプリコンについての正規化された読み取りカウントを求めることと、(e)ドライバ遺伝子のアンプリコンについての正規化された読み取りカウントにベースライン補正を適用して、補正された読み取りカウントを生成することであって、アンプリコンについての補正された読み取りカウントが、アンプリコンについてのベースライン値で除算された正規化された読み取りカウントのlog2により決定される、生成することと、(f)補正された読み取りカウントごとにバイナリセグメンテーションスコアを計算して、複数のアンプリコンに対応する複数のバイナリセグメンテーションスコアを提供することと、(g)最大絶対バイナリセグメンテーションスコアに対応するアンプリコンインデックスに基づいて、遺伝子融合についての予測ブレークポイントを決定することと、を含む、非一時的機械可読記憶媒体が提供される。バイナリセグメンテーションスコアを計算するステップは、1番目のアンプリコンからi番目のアンプリコンまでの補正された読み取りカウントXの分部和Sを計算することであって、S=X+...+Xである、計算することと、1番目のアンプリコンからn番目のアンプリコンまでの和Snを計算することであって、S=X+...+Xであり、式中、nが補正された読み取りカウントの総数である、計算することと、をさらに含みうる。バイナリセグメンテーションスコアを計算するステップは、下式によって、i番目のアンプリコンについてのバイナリセグメンテーションスコアを決定することをさらに含みうる。
Figure 2022525758000015
この方法は、観察された不均衡値と予想される不均衡値との比に基づいて不均衡スコアを決定することをさらに含みうる。予想される不均衡値は、ベースライン正規化された読み取りカウントのアレイに基づき得、アレイのアレイ要素の数はNであり、ベースライン正規化された読み取りカウントは、正常な試料のアンプリコンに対応する。不均衡スコアを決定するステップは、アレイ要素(1+b)からアレイ要素Nまでのアレイのベースライン正規化された読み取りカウントの第1の和を計算することであって、bが予測ブレークポイントである、計算することと、アレイ要素1からアレイ要素Nまでのアレイのベースライン正規化された読み取りカウントの第2の和を計算することであって、第1の和を第2の和で除算して、予想される不均衡値を生成することと、をさらに含みうる。観測された不均衡値は、正規化された読み取りカウントのアレイに基づき得、アレイのアレイ要素の数はNである。不均衡スコアを決定するステップは、アレイ要素(1+b)からアレイ要素Nまでのアレイの正規化された読み取りカウントの第1の和を計算することであって、bが予測ブレークポイントである、計算することと、アレイ要素1からアレイ要素Nまでのアレイの正規化された読み取りカウントの第2の和を計算することと、第1の和を第2の和で除算して、観察された不均衡値を生成することと、をさらに含みうる。この方法は、複数の正常な試料における対応するアンプリコンについての複数の正規化された読み取りカウントの中央値を計算することによって、アンプリコンについてのベースライン値を決定することをさらに含みうる。この方法は、ウィルコクソン順位検定を適用して、複数のバイナリセグメンテーションスコアをコントロール遺伝子の第2の複数のアンプリコンに対応する第2の複数のバイナリセグメンテーションスコアと比較することによって、p値を決定することをさらに含みうる。
核酸配列データは、キャピラリー電気泳動、マイクロアレイ、ライゲーションに基づくシステム、ポリメラーゼに基づくシステム、ハイブリダイゼーションに基づくシステム、直接又は間接的ヌクレオチド特定システム、ピロシーケンシング、イオン又はpHに基づく検出システム、電子署名に基づくシステムなどを含む、様々な技法、プラットフォーム、又は技術を用いて生成されうる。
核酸シーケンサー等の核酸配列決定プラットフォームの様々な実施形態は、図31のブロック図に表示されている構成部品を含むことができる。様々な実施形態では、配列決定機器1200は、流体送達及び制御ユニット1202、試料処理ユニット1204、シグナル検出ユニット1206、ならびにデータ取得、分析、及び制御ユニット1208を含むことができる。次世代配列決定に用いられる機器、試薬、ライブラリ、及び方法の様々な実施形態は、米国特許出願公開第2009/0127589号及び第2009/0026082号に記載されている。機器1200の様々な実施形態は、実質的に同時になど、複数の配列から配列情報を並行して収集するために用いられうる自動配列決定を提供することができる。
様々な実施形態では、流体送達及び制御ユニット1202は、試薬送達システムを含むことができる。試薬送達システムは、様々な試薬を保管するための試薬リザーバを含むことができる。試薬には、RNAベースのプライマー、フォワード/リバースDNAプライマー、ライゲーション配列決定用のオリゴヌクレオチド混合物、合成による配列決定用のヌクレオチド混合物、いかなるECCオリゴヌクレオチド混合物、緩衝液、洗浄試薬、ブロッキング試薬、ストリッピング試薬などが含まれうる。加えて、試薬送達システムは、試料処理ユニットを試薬リザーバに接続するピペッティングシステム又は連続フローシステムを含むことができる。
様々な実施形態では、試料処理ユニット1204は、フローセル、基板、マイクロアレイ、マルチウェルトレイ等の試料チャンバを含むことができる。試料処理ユニット1204は、複数のレーン、複数のチャネル、複数のウェル、又は複数の試料セットを実質的に同時に処理する他の手段を含むことができる。加えて、試料処理ユニットは、複数の実行を同時に処理することができるように、複数の試料チャンバを含むことができる。特定の実施形態では、このシステムは、1つの試料チャンバ上でシグナル検出を実行しながら、別の試料チャンバを実質的に同時に処理することができる。加えて、試料処理ユニットは、試料チャンバを移動させるか、又は操作するための自動化システムを含むことができる。
様々な実施形態では、シグナル検出ユニット1206は、撮像又は検出センサを含むことができる。例えば、撮像又は検出センサは、CCD、CMOS、イオン又は化学センサ、例えば、CMOS又はFETを覆うイオン感受性層、検流器又は検電器などを含むことができる。シグナル検出ユニット1206は、蛍光色素等のプローブにシグナルを放出させる励起システムを含むことができる。励起システムは、アークランプ、レーザ、発光ダイオード(LED)等の照明源を含むことができる。特定の実施形態では、シグナル検出ユニット1206は、照明源から試料へ、又は試料から撮像又は検出センサへの光の伝達のための光学を含むことができる。あるいは、シグナル検出ユニット1206は、検出のための電子又は非光子ベースの方法を提供することができ、その結果、照明源を含まない。様々な実施形態では、検出可能なシグナル又は種が配列決定反応中に生成されると、電子ベースのシグナル検出が起こりうる。例えば、シグナルは、イオン又は化学物質感受性層と相互作用する、放出された副産物又は部分、例えば、水素イオン等の放出されたイオンの相互作用によって生成されうる。他の実施形態では、ATPスルフリラーゼとさらに反応してアデノシン5´ホスホ硫酸の存在下でATPを生成するポリメラーゼによる塩基組み込みによってピロリン酸塩が生成されるピロシーケンシング(例えば、米国特許出願公開第2009/0325145号を参照のこと)で用いられるような酵素カスケードの結果として、検出可能なシグナルが生じ得、生成されたATPは、ルシフェラーゼ媒介反応で消費されて、化学発光シグナルを生成することができる。別の例では、核酸が照明源を必要とすることなくナノポアを通過する場合、電流の変化が検出されうる。
様々な実施形態では、データ取得分析及び制御ユニット1208は、様々なシステムパラメータを監視することができる。システムパラメータには、試料処理ユニット又は試薬リザーバ等の機器1200の様々な部分の温度、様々な試薬の量、マニピュレータ、ステッピングモータ、ポンプ等の様々なシステム従属部品の状態、又はそれらのいかなる組み合わせが含まれうる。
当業者であれば、機器1200の様々な実施形態を用いて、ライゲーションに基づく方法、合成による配列決定、単一分子法、ナノポア配列決定、及び他の配列決定技法を含む様々な配列決定方法を実施することができることを理解するであろう。
様々な実施形態では、配列決定機器1200は、ポリヌクレオチド又はオリゴヌクレオチド等の核酸の配列を決定することができる。核酸はDNA又はRNAを含み得、ssDNA及びRNA等の一本鎖、又はdsDNA又はRNA/cDNA対等の二本鎖でありうる。様々な実施形態では、核酸は、フラグメントライブラリ、メイトペアライブラリ、ChIPフラグメントなどを含みうるか、又はそれに由来しうる。特定の実施形態では、配列決定機器1200は、単一の核酸分子から、又は実質的に同一の核酸分子の群から配列情報を取得することができる。
様々な実施形態では、配列決定機器1200は、*.fasta、*.csfasta、*seq.txt、*qseq.txt、*.fastq、*.sff、*prb.txt、*.sms、*srs、及び/又は*.qvを含むが、これらに限定されない様々な異なる出力データファイルタイプ/型式で核酸配列決定読み取りデータを出力することができる。
様々な例示的な実施形態によると、上記の教示及び/又は例示的な実施形態のうちのいずれか1つ以上の1つ以上の特徴は、適切に構成及び/又はプログラムされたハードウェア及び/又はソフトウェア要素を用いて実施又は実装されうる。実施形態がハードウェア及び/又はソフトウェア要素を用いて実装されるかどうかの判定は、いかなる要因、例えば、所望の計算速度、出力レベル、耐熱性、処理サイクル予算、入力データ速度、出力データ速度、メモリリソース、データバススピード等、及び他の設計又は性能の制約に基づきうる。
ハードウェア要素の例としては、プロセッサ、マイクロプロセッサ、ローカルインターフェース回路を介して通信可能に連結した入力及び/又は出力(I/O)デバイス(又は周辺機器)、回路要素(例えば、トランジスタ、抵抗器、コンデンサ、インダクタ等)、集積回路、特定用途向け集積回路(ASIC)、プログラム可能論理デバイス(PLD)、デジタル信号プロセッサ(DSP)、フィールドプログラマブルゲートアレイ(FPGA)、論理ゲート、レジスタ、半導体デバイス、チップ、マイクロチップ、チップセット等が挙げられうる。ローカルインターフェースには、例えば、ハードウェア部品間の適切な通信を可能にする1つ以上のバス又は他の有線若しくは無線接続、制御器、バッファ(キャッシュ)、ドライバ、リピータ、及びレシーバ等が含まれうる。プロセッサは、ソフトウェア、特に、メモリ内に保存されたソフトウェアを実行するためのハードウェアデバイスである。プロセッサは、いかなるオーダーメード又は市販のプロセッサ、中央処理装置(CPU)、コンピュータに関連するいくつかのプロセッサのうちの補助プロセッサ、半導体ベースのマイクロプロセッサ(例えば、マイクロチップ又はチップセットの形態にある)、マクロプロセッサ、又はソフトウェア命令を実行するための概してあらゆるデバイスでありうる。プロセッサはまた、分散型処理アーキテクチャを表しうる。I/Oデバイスには、入力デバイス、例えば、キーボード、マウス、スキャナー、マイクロフォン、タッチスクリーン、様々な医療デバイス及び/又は実験機器のためのインターフェース、バーコード読み取り機、スタイラス、レーザ読み取り機、無線周波デバイス読み取り機等が含まれうる。さらに、I/Oデバイスには、出力デバイス、例えば、プリンタ、バーコードプリンタ、ディスプレイ等も含まれうる。最後に、I/Oデバイスには、入力及び出力の両方として通信するデバイス、例えば、変調器/復調器(モデム;別のデバイス、システム、又はネットワークにアクセスするため)、無線周波(RF)トランシーバ又は他のトランシーバ、電話インターフェース、ブリッジ、ルータ等がさらに含まれうる。
ソフトウェアの例としては、ソフトウェア要素、プログラム、アプリケーション、コンピュータプログラム、アプリケーションプログラム、システムプログラム、マシンプログラム、オペレーティングシステムソフトウェア、ミドルウェア、ファームウェア、ソフトウェアモジュール、ルーチン、サブルーチン、関数、方法、手続き、ソフトウェアインターフェース、アプリケーションプログラムインターフェース(API)、命令セット、演算コード、コンピュータコード、コードセグメント、コンピュータコードセグメント、ワード、値、記号、又はそれらのいかなる組み合わせが挙げられうる。メモリ内のソフトウェアは、論理関数を実装するための実行可能な命令の順序リストを含みうる1つ以上の別個のプログラムを含みうる。メモリ内のソフトウェアは、本教示に従うデータ流を特定するためのシステム、ならびにシステム等の他のコンピュータプログラムの実行を制御し得、スケジューリング、入出力制御、ファイル及びデータ管理、メモリ管理、通信制御等を提供するいかなる好適なオーダーメード又は市販のオペレーティングシステム(O/S)を含みうる。
様々な例示的な実施形態によると、上記の教示及び/又は例示的な実施形態のうちのいずれか1つ以上の1つ以上の特徴は、機械によって実行された場合、例示的な実施形態に従う方法及び/又は動作を機械が行うことを引き起こしうる命令又は命令のセットを保存しうる、適切に構成及び/又はプログラムされた非一時的機械可読媒体又は物品を用いて実施又は実装されうる。かかる機械には、例えば、いかなる好適な処理プラットフォーム、コンピューティングプラットフォーム、コンピューティングデバイス、処理デバイス、コンピューティングシステム、処理システム、コンピュータ、プロセッサ、科学機器又は実験機器等が含まれ得、ハードウェア及び/又はソフトウェアのいかなる好適な組み合わせを用いて実装されうる。機械可読媒体又は物品には、例えば、いかなる好適な種類のメモリユニット、メモリデバイス、メモリ物品、メモリ媒体、記憶デバイス、記憶物品、記憶媒体、及び/又は記憶ユニット、例えば、メモリ、リムーバブル又はノンリムーバブル媒体、消去可能又は非消去可能な媒体、書き込み可能又は書き換え可能な媒体、デジタル又はアナログ媒体、ハードディスク、フロッピーディスク、読み出し専用コンパクトディスク(CD-ROM)、記録可能コンパクトディスク(CD-R)、書き換え可能コンパクト(CD-RW)、光ディスク、磁気媒体、光磁気媒体、リムーバブルメモリカード又はディスク、様々な種類のデジタル多用途ディスク(DVD)、テープ、カセット等が含まれ得、コンピュータにおける使用に好適ないかなる媒体を含む。メモリには、揮発性メモリ素子(例えば、ランダムアクセスメモリ(RAM、例えば、DRAM、SRAM、SDRAM等))及び不揮発性メモリ素子(例えば、ROM、EPROM、EEROM、フラッシュメモリ、ハードドライブ、テープ、CDROM等)のうちのいずれか1つ又は組み合わせが含まれうる。さらに、メモリは、電気、磁気、光、及び/又は他の種類の記憶媒体を組み込みことができる。メモリは、様々な部品が互いから離れて位置しているが、依然としてプロセッサによってアクセスされる分散型アーキテクチャを有しうる。命令には、いかなる好適な種類のコード、例えば、いかなる好適な高レベル、低レベル、オブジェクト指向、ビジュアル、コンパイル済み、及び/又は解釈されたプログラミング言語を用いて実装された、ソースコード、コンパイル済みコード、解釈されたコード、実行可能コード、静的コード、動的コード、暗号化されたコード等が含まれうる。
様々な例示的な実施形態によると、上記の教示及び/又は例示的な実施形態のうちのいずれか1つ以上の1つ以上の特徴は、分散型、クラスタ、リモート、又はクラウド計算リソースを少なくとも部分的に用いて実施又は実装されうる。
様々な例示的な実施形態によると、上記の教示及び/又は例示的な実施形態のうちのいずれか1つ以上の1つ以上の特徴は、ソースプログラム、実行可能プログラム(目的コード)、スクリプト、又は行われる命令のセットを含むいかなる他のエンティティを用いて実施又は実装されうる。ソースプログラムである場合、プログラムは、O/Sと通信して正常に動作するように、メモリ内に含まれるか又は含まれない場合があるコンパイラ、アセンブラ、インタープリタ等を介して翻訳されうる。命令は、(a)データ及び方法のクラスを有するオブジェクト指向プログラミング言語、又は(b)例えば、C、C++、R、Pascal、Basic、Fortran、Cobol、Perl、Java、及びAdaを含みうる、ルーチン、サブルーチン、及び/又は機能を有する手続き型プログラミング言語を用いて書き込まれうる。
様々な例示的な実施形態によると、上記の例示的な実施形態のうちの1つ以上は、ユーザインタフェースデバイス、コンピュータ可読記憶媒体、ローカルコンピュータシステム、又はリモートコンピュータシステムに、かかる例示的な実施形態によって生成、アクセス、又は用いられたいかなる情報、信号、データ、及び/又は中間若しくは最終結果を伝達、表示、保存、印刷、又は出力することを含みうる。かかる伝達、表示、保存、印刷、又は出力された情報は、例えば、ラン及び報告、画像、表、チャート、グラフ、スプレッドシート、相関、配列、ならびにそれらの組み合わせの検索可能及び/又はフィルタリング可能なリストの形態でありうる。
当業者は、前述の説明から、本教示が様々な形態で実施されうること、及び様々な実施形態が単独で又は組み合わせて実施されうることを理解しうる。したがって、本教示の実施形態は、その特定の実施例に関連して説明されているが、図面、明細書、及び以下の特許請求の範囲の調査の際に他の修正が当業者に明らかになるため、本教示の実施形態及び/又は方法の真の範囲はそのように限定されるべきではない。

Claims (20)

  1. 遺伝子融合を検出するための方法であって、
    プライマープールの存在下で核酸試料を増幅して複数のアンプリコンを生成することであって、前記プライマープールが、ドライバ遺伝子の複数のエクソン-エクソンジャンクションを標的化するプライマーを含み、前記アンプリコンが前記標的化されたエクソン-エクソンジャンクションに対応する、生成することと、
    前記アンプリコンを配列決定して、複数の読み取りを生成することと、
    前記読み取りを参照配列に整列させることであって、前記参照配列が、前記ドライバ遺伝子の前記標的化されたエクソン-エクソンジャンクションに対応する前記アンプリコンの核酸配列を含む、整列させることと、
    各標的化されたエクソン-エクソンジャンクションに対応する各アンプリコンの読み取り数を決定することと、
    各アンプリコンについての前記読み取り数を前記ドライバ遺伝子の前記アンプリコン間の最大読み取り数で除算して、各アンプリコンの正規化された読み取りカウントを求めることと、
    前記アンプリコンについての前記正規化された読み取りカウントにベースライン補正を適用して、補正された読み取りカウントを生成することであって、前記ベースライン補正が、複数の正常な試料のアンプリコンの読み取りカウントに基づくベースライン値を用いる、生成することと、
    前記ドライバ遺伝子の5’末端に対応するアンプリコンについての前記補正された読み取りカウントと前記ドライバ遺伝子の3’末端に対応するアンプリコンについての前記補正された読み取りカウントとの間の不均衡を決定することと、
    前記不均衡に基づいて前記ドライバ遺伝子における前記遺伝子融合を検出することと、を含む、方法。
  2. 不均衡の前記決定が、
    第1のアンプリコンからi番目のアンプリコンまでの前記補正された読み取りカウントXの分部和Sを計算することであって、S=X+...+Xである、計算することと、
    前記第1のアンプリコンからn番目のアンプリコンまでの前記補正された読み取りカウントの和Sを計算することであって、S=X+...+Xであり、式中、nが補正された読み取りカウントの総数である、計算することと、をさらに含む、請求項1に記載の方法。
  3. 不均衡の前記決定が、下式によって、前記i番目のアンプリコンについて、バイナリセグメンテーションスコアZを決定することをさらに含む、請求項2に記載の方法。
    Figure 2022525758000016
  4. 不均衡の前記決定が、最大絶対バイナリセグメンテーションスコアに対応するアンプリコンインデックスに基づいて前記遺伝子融合の予測ブレークポイントを決定することをさらに含む、請求項3に記載の方法。
  5. 不均衡の前記決定が、観察された不均衡値と予想される不均衡値との比に基づいて不均衡スコアを決定することをさらに含む、請求項1に記載の方法。
  6. 前記予想される不均衡値が前記ベースライン値の第1のアレイに基づいており、前記観察された不均衡値が前記正規化された読み取りカウントの第2のアレイに基づいており、各アレイのアレイ要素の数がNである、請求項5に記載の方法。
  7. 不均衡スコアの前記決定が、
    アレイ要素(1+b)からアレイ要素Nまでの前記第1のアレイの前記ベースライン値の第1の和を計算することであって、bが予測ブレークポイントである、計算することと、
    アレイ要素1から前記アレイ要素Nまでの前記第1のアレイの前記ベースライン値の第2の和を計算することと、
    前記第1の和を前記第2の和で除算して、前記予想される不均衡値を生成することと、をさらに含む、請求項6に記載の方法。
  8. 不均衡スコアの前記決定が、
    アレイ要素(1+b)からアレイ要素Nまでの前記第2のアレイの前記正規化された読み取りカウントの第1の和を計算することであって、bが予測ブレークポイントである、計算することと、
    アレイ要素1から前記アレイ要素Nまでの前記第2のアレイの前記正規化された読み取りカウントの第2の和を計算することと、
    前記第1の和を前記第2の和で除算して、前記観察された不均衡値を生成することと、をさらに含む、請求項6に記載の方法。
  9. 不均衡スコアの前記決定が、
    前記5’末端に位置する前記ドライバ遺伝子の場合、
    アレイ要素1からアレイ要素bまでの前記第1のアレイの前記ベースライン値の第1の和を計算することであって、bが予測ブレークポイントである、計算することと、
    アレイ要素1から前記アレイ要素Nまでの前記第1のアレイの前記ベースライン値の第2の和を計算することと、
    前記第1の和を前記第2の和で除算して、前記予想される不均衡値を生成することと、をさらに含む、請求項6に記載の方法。
  10. 不均衡スコアの前記決定が、
    前記5’末端に位置する前記ドライバ遺伝子の場合、
    アレイ要素1からアレイ要素bまでの前記第2のアレイの前記正規化された読み取りカウントの第1の和を計算することであって、bが予測ブレークポイントである、計算することと、
    アレイ要素1から前記アレイ要素Nまでの前記第2のアレイの前記正規化された読み取りカウントの第2の和を計算することと、
    前記第1の和を前記第2の和で除算して、前記観察された不均衡値を生成することと、をさらに含む、請求項6に記載の方法。
  11. 各アンプリコンについての前記ベースライン値が、前記複数の正常な試料の前記アンプリコンについて決定された複数の正規化された読み取りカウントの中央値である、請求項1に記載の方法。
  12. 前記遺伝子融合の前記検出が、ウィルコクソン順位検定を適用して、複数の前記バイナリセグメンテーションスコアをコントロール遺伝子の第2の複数のアンプリコンに対応する第2の複数のバイナリセグメンテーションスコアと比較することによって、p値を決定することをさらに含む、請求項3に記載の方法。
  13. 前記遺伝子融合の前記検出が、前記p値に閾値を適用することをさらに含む、請求項10に記載の方法。
  14. 前記遺伝子融合の前記検出が、前記不均衡スコアに閾値を適用することをさらに含む、請求項5に記載の方法。
  15. 遺伝子融合を検出するためのシステムであって、
    機械可読メモリと、
    前記メモリと通信するプロセッサと、をさらに含み、前記プロセッサが、前記プロセッサによって実行される場合、前記システムに、方法を実行させる機械可読命令を実行するように構成されており、前記方法は、
    前記プロセッサで、プライマープールの存在下で核酸試料の増幅によって生成された複数のアンプリコンについての複数の核酸配列読み取りを受信することであって、前記プライマープールが、ドライバ遺伝子の複数のエクソン-エクソンジャンクションを標的化するプライマーを含み、前記アンプリコンが前記エクソン-エクソンジャンクションに対応する、受信することと、
    前記読み取りを参照配列に整列させることであって、前記参照配列が、前記ドライバ遺伝子の前記標的化されたエクソン-エクソンジャンクションに対応する前記アンプリコンの核酸配列を含む、整列させることと、
    各標的化されたエクソン-エクソンジャンクションに対応する各アンプリコンの読み取り数を決定することと、
    各アンプリコンについての前記読み取り数を前記ドライバ遺伝子の前記アンプリコン間の最大読み取り数で除算して、各アンプリコンの正規化された読み取りカウントを求めることと、
    前記アンプリコンについての前記正規化された読み取りカウントにベースライン補正を適用して、補正された読み取りカウントを生成することであって、前記ベースライン補正が、複数の正常な試料のアンプリコンの読み取りカウントに基づくベースライン値を用いる、生成することと、
    前記ドライバ遺伝子の5’末端に対応するアンプリコンについての前記補正された読み取りカウントと前記ドライバ遺伝子の3’末端に対応するアンプリコンについての前記補正された読み取りカウントとの間の不均衡を決定することと、
    前記不均衡に基づいて前記ドライバ遺伝子における前記遺伝子融合を検出することと、を含む、方法。
  16. 不均衡の前記決定が、
    第1のアンプリコンからi番目のアンプリコンまでの前記補正された読み取りカウントXの分部和Sを計算することであって、S=X+...+Xである、計算することと、
    前記第1のアンプリコンからn番目のアンプリコンまでの前記補正された読み取りカウントの和Sを計算することであって、S=X+...+Xであり、式中、nが補正された読み取りカウントの総数である、計算することと、をさらに含む、請求項15に記載のシステム。
  17. 不均衡の前記決定が、下式によって、前記i番目のアンプリコンについて、バイナリセグメンテーションスコアZを決定することをさらに含む、請求項16に記載のシステム。
    Figure 2022525758000017
  18. 不均衡の前記決定が、最大絶対バイナリセグメンテーションスコアに対応するアンプリコンインデックスに基づいて前記遺伝子融合の予測ブレークポイントを決定することをさらに含む、請求項17に記載のシステム。
  19. 不均衡の前記決定が、観察された不均衡値と予想される不均衡値との比に基づいて不均衡スコアを決定することをさらに含む、請求項15に記載のシステム。
  20. 前記予想される不均衡値が前記ベースライン値の第1のアレイに基づいており、前記観察された不均衡値が前記正規化された読み取りカウントの第2のアレイに基づいており、各アレイのアレイ要素の数がNである、請求項19に記載のシステム。
JP2021555541A 2019-03-22 2020-03-20 パートナー非依存性遺伝子融合検出のための方法 Pending JP2022525758A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962822429P 2019-03-22 2019-03-22
US62/822,429 2019-03-22
PCT/US2020/023850 WO2020198004A1 (en) 2019-03-22 2020-03-20 Methods for partner agnostic gene fusion detection

Publications (2)

Publication Number Publication Date
JP2022525758A true JP2022525758A (ja) 2022-05-19
JPWO2020198004A5 JPWO2020198004A5 (ja) 2023-03-02

Family

ID=70285964

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021555541A Pending JP2022525758A (ja) 2019-03-22 2020-03-20 パートナー非依存性遺伝子融合検出のための方法

Country Status (5)

Country Link
US (1) US20200318175A1 (ja)
EP (1) EP3942557A1 (ja)
JP (1) JP2022525758A (ja)
CN (1) CN113614832A (ja)
WO (1) WO2020198004A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116978453B (zh) * 2023-09-22 2024-01-23 北京诺禾致源科技股份有限公司 判断融合基因真实性的方法和电子装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090325145A1 (en) 2006-10-20 2009-12-31 Erwin Sablon Methodology for analysis of sequence variations within the hcv ns5b genomic region
ES2923759T3 (es) 2006-12-14 2022-09-30 Life Technologies Corp Aparato para medir analitos utilizando matrices de FET
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
CA2774349C (en) * 2009-09-17 2019-03-19 The Regents Of The University Of Michigan Recurrent gene fusions in prostate cancer
EP3141614B1 (en) 2010-10-27 2018-11-28 Life Technologies Corporation Predictive model for use in sequencing-by-synthesis
US20130090860A1 (en) 2010-12-30 2013-04-11 Life Technologies Corporation Methods, systems, and computer readable media for making base calls in nucleic acid sequencing
US8594951B2 (en) 2011-02-01 2013-11-26 Life Technologies Corporation Methods and systems for nucleic acid sequence analysis
WO2016011378A1 (en) * 2014-07-18 2016-01-21 Life Technologies Corporation Systems and methods for detecting structural variants
EP3307908B1 (en) 2015-06-09 2019-09-11 Life Technologies Corporation Methods for molecular tagging

Also Published As

Publication number Publication date
US20200318175A1 (en) 2020-10-08
CN113614832A (zh) 2021-11-05
EP3942557A1 (en) 2022-01-26
WO2020198004A1 (en) 2020-10-01

Similar Documents

Publication Publication Date Title
US20240035094A1 (en) Methods and systems to detect large rearrangements in brca1/2
JP7373047B2 (ja) 圧縮分子タグ付き核酸配列データを用いた融合の検出のための方法
US11887699B2 (en) Methods for compression of molecular tagged nucleic acid sequence data
CN110383385B (zh) 从肿瘤样品中检测突变负荷的方法
US20220392574A1 (en) Methods, systems and computer readable media to correct base calls in repeat regions of nucleic acid sequence reads
US20240175084A1 (en) Methods and systems for evaluating microsatellite instability status
CN112639984A (zh) 从肿瘤样品中检测突变负荷的方法
JP2022525758A (ja) パートナー非依存性遺伝子融合検出のための方法
JP2021526857A (ja) 生体試料のフィンガープリンティングのための方法
US20240006019A1 (en) Methods for assessing genomic instability
WO2024059487A1 (en) Methods for detecting allele dosages in polyploid organisms
WO2024073544A1 (en) System and method for genotyping structural variants

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230221

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230221

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240425