JP2023513315A - 融合事象を決定するための方法およびシステム - Google Patents

融合事象を決定するための方法およびシステム Download PDF

Info

Publication number
JP2023513315A
JP2023513315A JP2022548660A JP2022548660A JP2023513315A JP 2023513315 A JP2023513315 A JP 2023513315A JP 2022548660 A JP2022548660 A JP 2022548660A JP 2022548660 A JP2022548660 A JP 2022548660A JP 2023513315 A JP2023513315 A JP 2023513315A
Authority
JP
Japan
Prior art keywords
determining
contigs
sequence reads
candidate fusion
breakpoints
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022548660A
Other languages
English (en)
Other versions
JPWO2021163592A5 (ja
Inventor
サンテ ネーレ,
Original Assignee
ガーダント ヘルス, インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ガーダント ヘルス, インコーポレイテッド filed Critical ガーダント ヘルス, インコーポレイテッド
Publication of JP2023513315A publication Critical patent/JP2023513315A/ja
Publication of JPWO2021163592A5 publication Critical patent/JPWO2021163592A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Analytical Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Genetics & Genomics (AREA)
  • Organic Chemistry (AREA)
  • Molecular Biology (AREA)
  • Wood Science & Technology (AREA)
  • Pathology (AREA)
  • Immunology (AREA)
  • Zoology (AREA)
  • Oncology (AREA)
  • Microbiology (AREA)
  • Hospice & Palliative Care (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Lining Or Joining Of Plastics Or The Like (AREA)

Abstract

融合事象を決定するための方法、システムおよび装置が記載される。一部の種類のがん、ならびに他の身体的または先天的事象は、細胞の複製メカニズムを破壊し、再編成または可変長のインデル(挿入もしくは欠失)を導入することにより基礎をなすDNAを損傷させる。これらの事象の検出は、特に、高い特異性が求められる場合、旧来の融合コーラーが何千もの擬陽性を生じさせると予想されるに至るほど困難な問題であることは周知である。本明細書に記載される方法、システムおよび装置は、融合事象をコールする前に入力配列リードのデノボアセンブリを使用して高い感度および特異度で融合事象を検出する改善された能力を有する。

Description

相互参照
本願は、2020年2月14日に出願した米国仮特許出願第62/976,884号の優先日の利益を主張するものであり、この仮特許出願は、その全体があらゆる目的で参照により組み込まれる。
背景
がんは、世界中の主たる死亡原因の1つであり、その発生、無制限増殖、浸潤、および転移に関与する多様な経路の複数の遺伝子を有する不均一な複雑な疾患の一類である。がんの1つの顕著な特徴は、染色体転座、挿入、重複、欠失および逆位につながり得る遺伝子不安定性である。これらの遺伝子変異は、多くの場合、遺伝子融合を引き起こし、その結果として、融合mRNAまたは融合転写物に転写される。しかし、そのような融合事象のデノボ検出は、特に、高い特異度が求められる場合、難易度が高い場合がある。アッセイレベルでも解析レベルでも導入される技術的アーチファクトが擬陽性をもたらし得るからである。これは、入力データがウルトラディープカバレッジでのアッセイにより生成された配列を含有する場合、悪化する。
したがって、全体的な感度に悪影響を及ぼすことなく特異度を大幅に増加させる、融合事象を検出するための改善されたシステムおよび方法が必要とされている。それ故、融合事象をコールする前に入力配列リードのデノボアセンブリによって融合事象を検出する改善された能力を有する、コンピューターにインプリメントされたシステムおよび方法を提供することが、本発明の目的である。
要旨
下記の一般的な説明と下記の詳細な説明の両方が、例示的かつ説明的なものに過ぎず、制限するものでないことを、理解されたい。融合事象を決定するための方法、システムおよび装置が本明細書に記載される。
ある実施形態では、複数の配列リードを参照配列にアラインさせるステップ、複数の配列リードの少なくとも1つの配列リードの参照配列へのアラインメントで1つまたは複数の切断点を決定するステップ、アラインメントで1つまたは複数の切断点に関連する任意の配列リードを候補融合配列リードとして同定するステップ、1つまたは複数の切断点のうちの共通の切断点に関連する候補融合配列リードを決定するステップ、1つまたは複数の共通の切断点に基づいて候補融合配列リードをグループ化するステップ、グループ内の候補融合配列リードを1つまたは複数のコンティグにアセンブルするステップ、グループからのコンティグを参照配列にアラインさせるステップ、グループからのコンティグのアラインメントに基づいて、1つまたは複数の候補融合事象を決定するステップ、1つまたは複数の候補融合事象に1つまたは複数の基準を適用するステップ、および1つまたは複数の候補融合事象に1つまたは複数の基準を適用するステップに基づいて、1つまたは複数の融合事象を決定するステップを含む方法が記載される。
別の実施形態では、複数の配列リードを参照配列にアラインさせるステップ;配列リードの参照配列へのアラインメントでの1つまたは複数の切断点に基づいて、複数の配列リードの1つまたは複数の候補融合配列リードを決定するステップ;1つまたは複数の共通の切断点に基づいて、1つまたは複数の候補融合配列リードを1つまたは複数のコンテナデータ構造にグループ化するステップ;各コンテナデータ構造について、1つまたは複数の候補融合配列リードを1つまたは複数のコンティグにアセンブルするステップ;各コンテナデータ構造について、1つまたは複数のコンティグを参照配列にアラインさせるステップ;および1つまたは複数の基準に基づいて、融合事象を示す1つまたは複数のアラインされたコンティグを決定するステップを含む方法が記載される。
ある特定の実施形態では、アラインメントで1つまたは複数の切断点に関連する任意の配列リードを候補融合配列リードとして同定するステップは、論理的であるアラインメントを破棄することを含む。ある特定の実施形態では、1つまたは複数の切断点のうちの共通の切断点に関連する候補融合配列リードを決定するステップは、少なくとも2つの候補融合配列リードが同じ染色体に、かつ同じ配向にある切断点を含むことを決定することを含む。ある特定の実施形態では、1つまたは複数の切断点のうちの共通の切断点に関連する候補融合配列リードを決定するステップは、少なくとも2つの候補融合配列リードが同じ位置にある切断点を含むことを決定することを含む。ある特定の実施形態では、1つまたは複数の切断点のうちの共通の切断点に関連する候補融合配列リードを決定するステップは、少なくとも2つの候補融合配列リードがある位置から閾値塩基数以内にある切断点を含むことを決定することを含む。ある特定の実施形態では、1つまたは複数の切断点のうちの共通の切断点に関連する候補融合配列リードを決定するステップは、少なくとも2つの候補融合配列リードが同じ染色体に、かつ同じ配向にある複数の切断点を含むことを決定することを含む。ある特定の実施形態では、1つまたは複数の切断点のうちの共通の切断点に関連する候補融合配列リードを決定するステップは、少なくとも2つの候補融合配列リードが同じ位置にある複数の切断点を含むことを決定することを含む。ある特定の実施形態では、1つまたは複数の切断点のうちの共通の切断点に関連する候補融合配列リードを決定するステップは、少なくとも2つの候補融合配列リード各々が複数の位置から閾値塩基数以内にある複数の切断点を含むことを決定することを含む。
ある特定の実施形態では、1つまたは複数の共通の切断点に基づいて候補融合配列リードをグループ化するステップは、グループについてのde Bruijnグラフを生成することを含む。ある特定の実施形態では、グループ内の候補融合配列リードを1つまたは複数のコンティグにアセンブルするステップは、de Bruijnグラフを線形化してグループについてのコンティグを生成することを含む。ある特定の実施形態では、グループ内の候補融合配列リードを1つまたは複数のコンティグにアセンブルするステップは、1つまたは複数のエラー補正手順を行うことを含む。ある特定の実施形態では、1つまたは複数のエラー補正手順は、候補融合配列リードと参照配列の間のミスマッチを解消することを含む。ある特定の実施形態では、1つまたは複数のエラー補正手順は、少なくとも2つの候補融合配列リード間にパディングを挿入することを含む。ある特定の実施形態では、1つまたは複数のエラー補正手順は、閾値を超えるアラインされていない部分を有する1つまたは複数の候補融合配列リードを破棄することを含む。
ある特定の実施形態では、グループからのコンティグのアラインメントに基づいて1つまたは複数の候補融合事象を決定するステップが、フットプリント試験またはばらつき試験の1つまたは複数を適用することを含む。ある特定の実施形態では、フットプリント試験を適用することは、コンティグを支持する候補融合配列リードのファミリーの閾値数が切断点に及ぶことを決定することを含む。ある特定の実施形態では、ばらつき試験を適用することは、閾値ばらつき量が、コンティグを支持し切断点に及ぶ候補融合配列リードの少なくとも2つのファミリー間に存在することを決定することを含む。
ある特定の実施形態では、1つまたは複数の候補融合事象に1つまたは複数の基準を適用するステップは、候補融合事象について、1つまたは複数のアラインされたコンティグの切断点とパネルの少なくとも1つのプローブの位置との間の距離を決定すること;およびパネルの少なくとも1つのプローブの位置からの距離が閾値未満である切断点を含有しない1つまたは複数のコンティグのアラインされたコンティグに関連する任意の候補融合事象を破棄することを含む。ある特定の実施形態では、1つまたは複数の候補融合事象に1つまたは複数の基準を適用するステップは、目的の1つまたは複数の遺伝子を決定すること;および目的の1つまたは複数の遺伝子に関連する切断点を含有しない1つまたは複数のコンティグのアラインされたコンティグに関連する任意の候補融合事象を破棄することを含む。ある特定の実施形態では、1つまたは複数の候補融合事象に1つまたは複数の基準を適用するステップが、候補融合事象について、1つまたは複数のアラインされたコンティグの切断点が欠失であることを決定すること;および別の欠失から離れているいくつかの塩基内に位置する欠失を含む1つまたは複数のコンティグのアラインされたコンティグに関連する任意の候補融合事象を破棄することを含む、請求項1から20のいずれか一項に記載の方法。ある特定の実施形態では、1つまたは複数の候補融合事象に1つまたは複数の基準を適用するステップは、候補融合事象について、1つまたは複数のアラインされたコンティグの切断点が欠失であることを決定すること;および閾値未満のいくつかの塩基を含む欠失を含む1つまたは複数のコンティグのアラインされたコンティグに関連する任意の候補融合事象を破棄することを含む。ある特定の実施形態では、1つまたは複数の候補融合事象に1つまたは複数の基準を適用するステップは、イントロン領域に完全に埋まっている挿入または欠失を含む1つまたは複数のコンティグのアラインされたコンティグに関連する任意の候補融合事象を破棄することを含む。ある特定の実施形態では、1つまたは複数の候補融合事象に1つまたは複数の基準を適用するステップは、候補融合事象について、1つまたは複数のアラインされたコンティグについて、分子のリードに対する比を決定すること;および閾値を超える分子のリードに対する比に関連しているが二本鎖支持分子に関連していない、1つまたは複数のコンティグのアラインされたコンティグに関連する任意の候補融合事象を破棄することを含む。ある特定の実施形態では、1つまたは複数の候補融合事象に1つまたは複数の基準を適用するステップは、候補融合事象について、1つまたは複数のアラインされたコンティグの切断点対について、切断点対の切断点に隣接している配列を決定すること;切断点対の切断点に隣接している配列をアラインさせること;切断点対の切断点に隣接している配列のアラインメントについてのアラインメントスコアを決定すること;および閾値を超えるアラインメントスコアに基づく1つまたは複数のコンティグのアラインされたコンティグに関連する任意の候補融合事象を破棄することを含む。ある特定の実施形態では、1つまたは複数の候補融合事象に1つまたは複数の基準を適用するステップは、候補融合事象について、1つまたは複数のアラインされたコンティグの切断点対について、切断点対の切断点に中心がある配列を決定すること;切断点を中心とする配列を互いにアラインさせること;切断点を中心とする配列のアラインメントについてのアラインメントスコアを決定すること;および閾値を超えるアラインメントスコアに基づく1つまたは複数のコンティグのアラインされたコンティグに関連する任意の候補融合事象を破棄することを含む。
一部の実施形態では、本明細書で開示されるシステムおよび方法の結果は、レポートを生成するための入力として使用される。レポートは、紙形式であることも、または電子形式であることもある。例えば、本明細書で開示される方法およびシステムにより決定した融合事象を、そのようなレポートで直接表示することができる。あるいはまたは加えて、融合事象の決定に基づいて診断情報または治療上の推奨事項をレポートに含めることができる。
本明細書で開示される方法の様々なステップ、または本明細書で開示されるシステムにより実行されるステップは、同じもしくは異なる時点で、同じもしくは異なる地理的場所、例えば国において、および/または同じもしくは異なる人物により実行され得る。
一部の実施形態では、対象を処置する方法であって、対象に1つまたは複数の治療薬を投与するステップを含み、対象が、融合事象を決定する開示された方法を使用して融合事象を有すると決定されている、方法が記載される。一部の実施形態では、対象を処置する方法であって、対象に以前に投与されたものとは異なる治療薬を投与するステップを含み、対象が、融合事象を決定する開示された方法を使用して融合事象を有すると決定されている、方法が記載される。一部の実施形態では、対象を処置する方法であって、対象への治療薬の投与を中止するステップを含み、対象が、融合事象を決定する開示された方法を使用して融合事象を有すると決定されている、方法が記載される。
追加の利点は、後に続く説明の中で一部は示されるか、または実践により知ることができる。利点は、特に添付の特許請求の範囲において指摘される、要素および組合せによって、実現および達成される。
添付の図面は、本明細書に組み込まれ、その一部を構成するものであり、本明細書に記載される方法およびシステムの原理を説明するのに役立つ。
図1は、方法の例を示す。 図2A~2Cは、断片を生成するためのステッチングおよびトリミングプロセスの例を示す。 図3は、ステッチングプロセスからのアーチファクトの例を示す。 図4は、方法の例を示す。 図5は、切断点の例を示す。 図6は、候補融合配列リードの選択を示す。 図7は、2つの候補融合配列リード間の共通の切断点の同定を示す。 図8は、2つの候補融合配列リード間の共通の切断点の同定を示す。 図9A~Bは、de Bruijnグラフおよび簡潔de Bruijnグラフの最小限の例を示す。 図10は、グラフデータ構造の各頂点についての隣接リストの使用の例を示す。 図11は、グラフデータ構造の各頂点および辺についての隣接リストの使用の例を示す。 図12は、エラー補正手順を示す。 図13は、エラー補正手順を示す。 図14は、エラー補正手順を示す。 図15は、エラー補正手順を示す。 図16は、候補融合事象の決定を示す。 図17は、候補融合事象の決定を示す。 図18は、広範ながんコホートにおけるFGFR2/3融合パートナー保有率を示す。広範ながんコホートにおいて検出されたFGFR2およびFGFR3融合パートナーの頻度。IGR:遺伝子間領域。それ自体に対するパートナー遺伝子としてのFGFR2は、長い欠失または挿入を表す。 図19は、進行尿路上皮がん(aUC)におけるFGFR3融合パートナー保有率を示す。FGFR3融合を有するいくつかのaUC患者がパートナー遺伝子により検出された。IGR:遺伝子間領域。それ自体に対するパートナー遺伝子としてのFGFR3は、長い欠失または挿入を表す。 図20は、広範ながんコホートにおいてFGFR2/3融合と同時に起こる突然変異を示す。広範ながんコホートにおいて少なくとも3名のFGFR2またはFGFR3融合陽性患者に起こる突然変異が示されている。三角形が付いているバリアントは、融合陽性集団において顕著な濃縮を示す(▼ p<1×10-4、▼▼ p<1×10-10、カイ2乗検定、ボンフェローニ補正)。 図21は、コンピューターデバイスの例を示す。 図22は、方法の例を示す。 図23は、方法の例を示す。
詳細な説明
本明細書および添付の特許請求の範囲で使用される場合、単数形「1つの(a)」、「1つの(an)」および「その(the)」は、文脈による別段の明白な指図がない限り、複数の指示対象を含む。範囲は、本明細書では、「約」ある特定の値から、および/または「約」別の特定の値まで、として表され得る。そのような範囲が表されている場合、別の構成は、ある特定の値から、および/または他の特定の値まで、を含む。同様に、値が、先行する「約」の使用により近似値で表される場合、特定の値が別の構成を形成することは理解されよう。範囲の各々についての終点が、他の終点との関連でも、他の終点とは無関係でも有意であることは、さらに理解されよう。
「必要に応じた」および「必要に応じて」は、その後に記載される事象または状況が、起こることもありまたは起こらないこともあること、および記載が、前記事象または状況が起こるケースと、それが起こらないケースとを含むことを意味する。
本明細書の説明および特許請求の範囲を通して、語「含む(comprise)」ならびに語の変形形態、例えば、「含むこと(comprising)」および「含む(comprises)」は、「含むが、これらに限定されない(inclusing but not limiting to)」を意味し、例えば他の構成要素、整数またはステップを、除外するように意図されたものではない。「例示的(な)」は、「の例」を意味し、好ましいまたは理想的な構成を示すものを伝えるように意図されたものではない。「などの」は、制限的な意味ではなく、説明を目的として使用される。
用語「対象」は、哺乳動物種(好ましくはヒト)または鳥類(例えば、トリ)の種などの、動物を指し得る。より具体的には、対象は、脊椎動物、例えば、哺乳動物、例えばマウス、霊長類、サルまたはヒトであり得る。動物は、家畜、競技用動物、およびペットを含む。対象は、健康な個体、症状もしくは徴候を有する、または疾患を有する疑いがある、または疾患の素因がある個体、あるいは治療を必要としている、または治療を必要とする疑いがある個体であり得る。一部の実施形態では、対象は、ヒト、例えば、がんを有する、またはがんを有する疑いがあるヒトである。
句「無細胞核酸」は、対象からの体液(例えば、血液、尿、CSFなど)から供給される非カプセル化核酸と呼ばれ得る。無細胞核酸は、ゲノムDNA、ミトコンドリアDNA、循環DNA、siRNA、miRNA、循環RNA(cRNA)、tRNA、rRNA、核小体低分子RNA(snoRNA)、Piwi結合RNA(piRNA)、長鎖ノンコーディングRNA(長鎖ncRNA)またはこれらのいずれかの断片を含む、DNA(cfDNA)、RNA(cfRNA)およびこれらのハイブリッドを含む。無細胞核酸は、二本鎖状、一本鎖状、または、部分的に二本鎖および一本鎖状であり得る。無細胞核酸は、分泌または細胞死過程、例えば細胞壊死およびアポトーシス、によって体液に放出され得る。一部の無細胞核酸は、がん細胞、例えば、循環腫瘍DNA(ctDNA)から体液に放出される。健康な細胞から放出されるものもある。ctDNAは、非カプセル化腫瘍由来断片化DNAであり得る。無細胞胎児DNA(cffDNA)は、母体血流で自由に循環する胎児DNAである。無細胞核酸は、1つまたは複数の関連エピジェネティック改変を有することがあり、例えば、アセチル化、5-メチル化、ユビキチン化、リン酸化、SUMO化、リボシル化および/またはシトルリン化されていることもある。一部の実施形態では、無細胞核酸はcfDNAであり、これは、通常は二本鎖cfDNAを含む。
用語「アラインメント」、および「アラインさせること」などは、類似性の領域を同定するためにDNAまたはRNAの配列を並べることを指し得る。類似性は、配列間の機能的、構造的および/または進化的関係性に関連し得る。DNA配列のアラインメントは、1つの配列のゲノムDNAと少なくとも1つの他の配列のゲノムDNAのアラインメントを含む。そのようなアラインメントは、非ゲノムDNA、例えば、分子バーコード、およびパディング塩基などを除外し得る。例えば、配列リードのゲノムDNAは、配列リードに付着し得る任意の分子タグを除外して、参照DNA配列のゲノムDNAにアラインされ得る。
本明細書で使用される場合、ヌクレオチドが配列中のヌクレオチド「に対応する」という記述は、GAPアルゴリズムなどの標準的なアラインメントアルゴリズムを使用して同一性を最大にするように配列とのアラインメントの際に同定されるヌクレオチドを指す。
本明細書で使用される場合、「配列同一性」、「配列相同性」、または「同一性」は、2つまたはそれより多くのポリヌクレオチド配列間のアラインメントにおける同一または類似ヌクレオチド塩基の数を指す。1つの非限定的な例では、「と少なくとも90%同一の」は、参照ポリヌクレオチドに対して90~100%の同一性パーセントを指す。90%またはそれより高いレベルでの同一性は、例示を目的として100ヌクレオチドの試験および参照ポリヌクレオチド長が比較されると仮定して、試験ポリヌクレオチド中のヌクレオチドの10%(すなわち、100のうちの10)以下が参照ポリヌクレオチドのものと異なるという事実を示す。そのような差異は、ヌクレオチド配列の全長にわたってランダムに分布している点突然変異として表されることもあり、またはそれらは、最大許容可能、例えば10/100ヌクレオチド差(おおよそ90%の同一性)までの可変長の1つまたは複数の場所にクラスター化されることもある。差異は、核酸置換、挿入または欠失として定義される。
配列同一性を核酸配列の配列アラインメントにより決定して類似性または同一性の領域を同定することができる。本明細書での目的のために、配列同一性は、概して、同一塩基を同定するためのアラインメントにより決定される。アラインメントは、局所的、または大域的であり得る。マッチ、ミスマッチおよびギャップが、比較される配列間で同定され得る。ギャップは、アラインされた配列の塩期間に挿入されるヌルヌクレオチドであり、したがって、同一または類似の文字がアラインされる。一般に、内部および末端ギャップがあり得る。配列同一性を、ギャップを考慮に入れることによって、同一塩基数/最短配列長×100として決定することができる。ギャップペナルティーを使用する場合、配列同一性をエンドギャップに対するペナルティーなし(例えば、末端ギャップにペナルティーを科さない)で決定することができる。あるいは、配列同一性を、ギャップを考慮に入れずに、同一位置数/(アラインされた配列の総長)×100として決定することができる。
本明細書で使用される場合、「大域アラインメント」は、2つの配列を最初から最後までアラインさせるアラインメントであって、各配列内の各塩基を1回だけアラインさせる。アラインメントは、配列間に類似性または同一性があるか否かを問わず、生成される。例えば、「大域アラインメント」に基づく50%配列同一性は、長さが各々100ヌクレオチドの2つの比較される配列の全配列のアラインメントで、塩基の50%が同じであることを意味する。アラインされる配列の長さが同じでない場合であっても、大域アラインメントを同様に配列同一性を決定するために使用することができることは理解されよう。配列の末端部における差異は、「エンドギャップのペナルティーなし」が選択されない限り、配列同一性を決定する際に考慮される。一般に、大域アラインメントは、それらの長さの大部分にわたって有意な類似性を共有する配列に関して使用される。大域アラインメントを行うための例示的なアルゴリズムとしては、Needleman-Wunschアルゴリズム(Needleman et al. J. Mol. Biol. 48: 443 (1970))が挙げられる。大域アラインメントを行うための例示的なプログラムは、公的に入手可能であり、米国国立生物工学情報センター(NCBI)ウェブサイト(ncbi.nlm.nih.gov/)で入手可能なGlobal Sequence Alignment Tool、およびdeepc2.psi.iastate.edu/aat/align/align.htmlで入手可能なプログラムを含む。
本明細書で使用される場合、「局所アラインメント」は、2つの配列をアラインさせるアラインメントであるが、類似性または同一性を共有する配列の部分のみをアラインさせる。それ故、局所アラインメントは、ある配列のサブセグメントが別の配列に存在するかどうかを決定する。類似性がない場合、返信されることになるアラインメントはない。局所アラインメントアルゴリズムとしては、BLASTまたはSmith-Watermanアルゴリズム(Adv. Appl. Math. 2: 482 (1981))が挙げられる。例えば、「局所アラインメント」に基づく50%配列同一性は、任意の長さの2つの比較される配列の全配列のアラインメントで、長さ100ヌクレオチドの類似性または同一性の領域にはその類似性または同一性の領域内に同じである塩基の50%を有することを意味する。
句「核酸タグ」は、異なる試料(例えば、試料インデックスを表す)または異なるタイプのもしくは異なる処理を経た同じ試料(例えば、分子バーコードを表す)中の異なる核酸分子から核酸を区別するために核酸分子を標識するために使用される短い核酸(例えば、500、100、50または10ヌクレオチド長未満)、を指す。タグは、一本鎖状、二本鎖状、または少なくとも部分的に二本鎖状であることがある。タグは、同じ長さ、または多様な長さを有することもある。タグは、平滑末端であることも、またはオーバーハングを有することもある。タグを核酸の一方の末端または両方の末端に付着させることができる。核酸タグを解読して、核酸の起源試料、型または処理などの情報を明らかにすることができる。タグを使用して、異なる分子バーコードおよび/または試料インデックスを有する核酸を含む複数の試料のプールおよび並行処理することを可能にすることでき、核酸は、その後、分子バーコードを読み取ることによりデコンボリューションされる。加えてまたは代替的に、核酸タグを使用して同じ試料中の異なる分子を区別することができる(すなわち、分子バーコード)。これは、試料中の異なる分子に一意的にタグを付けること、または試料中の分子に一意的でなくタグを付けることの両方を含む。一意的でないタグを付けるケースでは、限定数の異なるタグを使用して分子にタグを付けすることができ、したがって、少なくとも1つのタグと組み合わせて、異なる分子を、それらが参照ゲノム上に位置する開始および/または停止位置(すなわち、ゲノム座標)に基づいて区別することできる。典型的にはその後、同じ開始/停止を有する任意の2つの分子が同じタグも有する確率が低くなる(例えば、<10%、<5%、<1%、または<0.1%)ように十分な数の異なるタグが使用される。一部のタグは、試料、試料内の分子の形態、ならびに同じ開始点および停止点を有する形態内の分子を標識するために、複数の識別子を含む。そのようなタグは、型A1i(ここで、文字は、同じ試料タイプを示し、アラビア数字は、試料内の分子の形態を示し、ローマ数字は、形態内の分子を示す)で存在し得る。
用語「アダプター」は、試料核酸分子のどちらかまたは両方の末端への連結のための通常は少なくとも部分的に二本鎖状の短い核酸(例えば、500、100または50ヌクレオチド長未満)を指す。アダプターは、両末端にアダプターが隣接している核酸分子の増幅を可能にするためのプライマー結合部位、および/または次世代シークエンシング(NGS)のためのプライマー結合部位を含むシークエンシングプライマー結合部位を、含むことができる。アダプターは、フローセル支持体に付着されたオリゴヌクレオチドなどの、捕捉用プローブのための結合部位も含むことができる。アダプターは、上記のタグも含むことができる。タグは、好ましくは、タグが核酸分子のアンプリコンおよびシークエンシングリードに含まれるようにプライマーおよびシークエンシングプライマー結合部位に対して位置する。同じまたは異なる配列のアダプターを核酸分子のそれぞれの末端に連結させることができる。バーコードが異なることを除いて、同じ配列のアダプターがそれぞれの末端に連結されることもある。好ましいアダプターは、核酸分子に接合させるための、一方の末端が平滑末端化されているかまたは尾部を有するY型アダプターであり、核酸分子もまた、平滑末端化されているか、または1つもしくは複数の相補的ヌクレオチドを伴う尾部を有する。別の好ましいアダプターは、解析すべき核酸に接合させるための平滑末端または尾部を有する末端を同じく有する、釣り鐘型アダプターである。
本明細書で使用される場合、用語「シークエンシング」または「シークエンサー」は、生体分子、例えば、核酸、例えばDNAまたはRNA、の配列を決定するために使用されるいくつかの技術のうちのいずれかを指す。例示的なシークエンシング方法としは、標的化シークエンシング、単一分子リアルタイムシークエンシング、エクソンシークエンシング、電子顕微鏡法に基づくシークエンシング、パネルシークエンシング、トランジスタ媒介シークエンシング、ダイレクトシークエンシング、ランダムショットガンシークエンシング、サンガージデオキシターミネーションシークエンシング、全ゲノムシークエンシング、ハイブリダイゼーションによるシークエンシング、パイロシークエンシング、デュプレックスシークエンシング、サイクルシークエンシング、一塩基伸長シークエンシング、固相シークエンシング、ハイスループットシークエンシング、大規模並列シグネチャーシークエンシング、エマルジョンPCR、より低い変性温度での共増幅-PCR(COLD-PCR)、マルチプレックスPCR、可逆的ダイターミネーターによるシークエンシング、ペアエンドシークエンシング、ニアタームシークエンシング、エクソヌクレアーゼシークエンシング、ライゲーションによるシークエンシング、ショートリードシークエンシング、単一分子シークエンシング、一塩基合成法、リアルタイムシークエンシング、リバースターミネーターシークエンシング、ナノポアシークエンシング、454シークエンシング、Solexa Genome Analyzerシークエンシング、SOLiD(商標)シークエンシング、MS-PETシークエンシング、およびこれらの組合せが挙げられるが、それらに限定されない。一部の実施形態では、シークエンシングは、例えば、IlluminaまたはApplied Biosystemsから市販されている遺伝子解析装置などの、遺伝子解析装置により行うことができる。
句「次世代シークエンシング」またはNGSは、旧来のサンガーおよびキャピラリー電気泳動に基づくアプローチと比較してスループットが増大した、例えば、何十万もの比較的短い配列リードを同時に生成する能力がある、シークエンシング技術を指す。次世代シークエンシング技法の一部の例としては、一塩基合成法、ライゲーションによるシークエンシング、およびハイブリダイゼーションによるシークエンシングが挙げられるが、これらに限定されない。
用語「DNA(デオキシリボ核酸)」は、4つの核酸塩基、すなわち、アデニン(A)、チミン(T)、シトシン(C)およびグアニン(G)、のうちの1つを各々が含むデオキシリボヌクレオシドを含むヌクレオチドの鎖を指す。用語「RNA(リボ核酸)」は、4つの核酸塩基、すなわち、A、ウラシル(U)、GおよびC、のうちの1つを各々が含む4タイプのリボヌクレオシドを含むヌクレオチドの鎖を指す。ある特定のヌクレオチド対は、相補的な形で互いに特異的に結合する(相補的塩基対合と呼ばれる)。DNAでは、アデニン(A)はチミン(T)と対合し、シトシン(C)はグアニン(G)と対合する。RNAでは、アデニン(A)はウラシル(U)と対合し、シトシン(C)はグアニン(G)と対合する。第1の核酸鎖が、第1鎖中のヌクレオチドと相補的であるヌクレオチドで構成されている第2の核酸鎖に結合する場合、2本の鎖が結合して二本鎖を形成する。本明細書で使用される場合、「核酸シークエンシングデータ」、「核酸シークエンシング情報」、「核酸配列」、「ヌクレオチド配列」、「ゲノム配列」、「遺伝子配列」または「断片配列」、または「核酸シークエンシングリード」は、DNAまたはRNAなどの核酸の分子(例えば、全ゲノム、全トランスクリプトーム、エクソーム、オリゴヌクレオチド、ポリヌクレオチド、または断片)中のヌクレオチド塩基(例えば、アデニン、グアニン、シトシン、およびチミンまたはウラシル)の順序を示す任意の情報またはデータを意味する。本教示が、キャピラリー電気泳動、マイクロアレイ、ライゲーションに基づくシステム、ポリメラーゼに基づくシステム、ハイブリダイゼーションに基づくシステム、直接または間接的ヌクレオチド同定システム、パイロシークエンシング、イオンまたはpHに基づく検出ステム、および電子署名に基づくシステムを含むがこれらに限定されない、あらゆる利用可能な種類の技法、プラットフォームまたは技術を使用して得られる配列情報を企図していることを、理解されたい。
「ポリヌクレオチド」、「核酸」、「核酸分子」、または「オリゴヌクレオチド」は、ヌクレオシド間連結により接合されたヌクレオシドの直鎖状ポリマー(デオキシリボヌクレオシド、リボヌクレオシド、またはこれらのアナログを含む)を指す。典型的には、ポリヌクレオチドは、少なくとも3つのヌクレオシドを含む。オリゴヌクレオチドは、多くの場合、サイズが少数のモノマー単位、例えば3~4、から数百モノマー単位の範囲である。ポリヌクレオチドが、「ATGCCTG」などの、文字の配列によって表される場合は常に、別段の断り書きがない限り、ヌクレオチドが左から右へ5’→3’の順序であること、および「A」がアデノシンを示し、「C」がシトシンを示し、「G」がグアノシンを示し、「T」がチミジンを示すことは、理解されるであろう。文字A、C、GおよびTは、当技術分野では一般的であるように、塩基自体を、ヌクレオシドを、または塩基を含むヌクレオチドを指すために使用されることもある。
句「参照配列」は、実験的に決定された配列との比較の目的で使用される公知の配列を指す。例えば、公知の配列は、全ゲノム、染色体、またはこれらの任意のセグメントであり得る。参照は、典型的には、少なくとも20、50、100、200、250、300、350、400、450、500、1000、またはそれより多くのヌクレオチドを含む。参照配列は、ゲノムもしくは染色体の単一の連続する配列とアラインさせることができるか、またはゲノムもしくは染色体の異なる領域とアラインする不連続なセグメントを含むことができる。一部の実施形態では、参照配列は、ヒトゲノムである。参照ヒトゲノムは、例えば、hG19およびhG38を含む。
句「生体試料」は、本明細書で使用される場合、一般に、対象に由来する組織または流体試料を指す。生体試料は、対象から直接得ることができる。生体試料は、1つまたは複数の核酸分子、例えば、デオキシリボ核酸(DNA)もしくはリボ核酸(RNA)分子であり得るか、またはそれを含み得る。生体試料は、任意の臓器、組織または生体液に由来し得る。生体試料は、例えば、体液または固形組織試料を含み得る。固形組織試料の例は、例えば固形腫瘍生検からの、腫瘍試料である。体液は、例えば、血液、血清、血漿、腫瘍細胞、唾液、尿、リンパ液、前立腺液、精液、母乳、痰、糞便、涙、およびこれらの派生物を含む。一部の実施形態では、生体試料は、血液であるか、または血液に由来する。
核酸配列情報の文脈での句「融合配列リード」は、所与の参照配列の異なる不連続な領域または遺伝子座に位置する部分配列を含むシークエンシングリードを指す。「候補融合配列リード」は、融合配列リードであり得る配列リードである。ある特定の実施形態では、例えば、所与の融合配列リードの第1の部分配列は、参照配列の所与の遺伝子の第1エクソンに位置するが、その所与の融合配列リードの第2の部分配列は、参照配列の同じ遺伝子の第2エクソンに位置し、これらの第1および第2エクソンは、参照配列の同じ遺伝子の介在イントロンにより隔てられている。これらの実施形態の一部では、そのような融合配列リードは、所与の融合配列リードが得られた対象のゲノム内の遺伝子内融合体の存在を示す。他の例示的な実施形態では、所与の融合配列リードの第1の部分配列は、参照配列の第1の遺伝子のエクソンに位置するが、その所与の融合配列リードの第2の部分配列は、参照配列の異なる第2の遺伝子のエクソンに位置し、これらのエクソンは、参照配列中で互いに不連続である。これらの実施形態の一部では、そのような融合配列リードは、所与の融合配列リードが得られた対象のゲノム内の遺伝子内融合体の存在を示す。
用語「配列リード」は、個体から得られた試料からのヌクレオチド配列リードを指す。配列リードは、当技術分野において公知の様々な方法によって得ることができる。
核酸融合分子または対応するシークエンシングリードの文脈での用語「切断点」は、核酸融合体の融合した部分配列間の接合部における、または対応するシークエンシングリードで表される末端ヌクレオチド位置を指す。例えば、所与の分割配列リードは、その分割配列リードにおける第2の部分配列と連続しており、かつその5’側にある、第1の部分配列を含み得、第1の部分配列は、第2の部分配列が位置するその参照配列内の第2の遺伝子座と不連続である参照配列における第1の遺伝子座に位置する。この例では、分割配列リードの第1の部分配列は、その3’末端ヌクレオチドに切断点を含むが、分割配列リードの第2の部分配列は、その5’末端ヌクレオチドに切断点を含む。ある特定の応用では、切断点、例えばこれらの切断点は、「切断点対」と呼ばれる。
用語「融合事象」は、特定の場所における2つの別個の遺伝子間の融合を指す。融合事象の原因例としては、転座、中間部欠失、または染色体逆位事象が挙げられる。
用語「アブフュージョン」、「デノボ融合コーラー」、「融合コーラー」、または「デノボ法」は、デノボで、すなわち、以前に知られている遺伝子融合事象のデータベースから得ることができるものなどの予備知識なしで、融合事象を同定する、DNA融合コーラーまたはRNA融合コーラーのどちらかの、融合コーラーを指す。
目的の1つまたは複数の値または要素に適用される場合の句「約」または「おおよそ」は、述べられている参照値または要素と同様である値または要素を指す。ある特定の実施形態では、用語「約」または「おおよそ」は、別段の記述がない限り、または文脈からそうでないことが明らかでない限り、述べられている参照値または要素の両方向に(それを超えるまたはそれに満たない)25%、20%、19%、18%、17%、16%、15%、14%、13%、12%、11%、10%、9%、8%、7%、6%、5%、4%、3%、2%、1%、またはそれ未満内に入る、値または要素の範囲を指す(そのような数が可能な値または要素の100%を超える場合を除く)。
構成要素の組合せ、サブセット、相互作用、群などが記載される場合、これらの各々の様々な個々のおよび集合としての組合せおよび順列の具体的な言及が明確に記載されないこともあるが、各々が本明細書において具体的に企図され、記載されていると理解されよう。これは、記載される方法におけるステップを含むがこれらに限定されない、本願のすべての部分に当てはまる。したがって、行われ得る様々な追加のステップが存在する場合、これらの追加のステップの各々が、記載される方法の任意の特定の構成または構成の組合せで行われ得ることが理解されよう。
当業者には理解されるように、ハードウェア、ソフトウェア、またはソフトウェアとハードウェアの組合せをインプリメントすることができる。さらに、記憶媒体で具現化されるプロセッサー実行可能命令(例えば、コンピューターソフトウェア)を有するコンピューター可読記憶媒体(例えば、非一時的)上のコンピュータープログラム製品。ハードディスク、CD-ROM、光学記憶デバイス、磁気記憶デバイス、記憶抵抗、不揮発性ランダムアクセスメモリー(NVRAM)、フラッシュメモリー、またはこれらの組合せを含む、任意の好適なコンピューター可読記憶媒体を利用することができる。
本願を通して、ブロック図およびフローチャートに言及がなされる。ブロック図およびフローチャートの各ブロック、ならびにブロック図およびフローチャートにおけるブロックの組合せが、それぞれ、プロセッサー実行可能命令によりインプリメントされ得ることは理解されよう。これらのプロセッサー実行可能命令を、汎用コンピューター、専用コンピューター、または他のプログラム可能なデータ処理装置にロードして、コンピューターまたは他のプログラム可能なデータ処理装置で実行するプロセッサー実行可能命令によってフローチャートブロック(単数または複数)で指定された関数をインプリメントするためのデバイスが作出されるような機械を製造することができる。
これらのプロセッサー実行可能命令を、コンピューターまたは他のプログラム可能なデータ処理装置に指図することができるコンピューター可読メモリーに、コンピューター可読メモリーに記憶されたプロセッサー実行可能命令によってフローチャートブロック(単数または複数)で指定された関数をインプリメントするためのプロセッサー実行可能命令を含む製造物品が製造されるような特定の様式で機能するように、記憶させることもできる。プロセッサー実行可能命令を、コンピューターまたは他のプログラム可能なデータ処理装置にロードして、コンピューターにインプリメントされたプロセスを生成するための一連のオペレーションのステップをコンピューターまたは他のプログラム可能な装置で行わせることもでき、したがって、コンピューターまたは他のプログラム可能な装置で実行されるプロセッサー実行可能命令によって、フローチャートブロック(単数または複数)で指定された関数をインプリメントするためのステップが提供される。
ブロック図およびフローチャートのブロックは、指定された関数を実施するためのデバイスの組合せ、指定された関数を実施するためのステップの組合せ、および指定された関数を実施するためのプログラム命令手段を支持する。ブロック図およびフローチャートにおける各ブロック、ならびにブロック図およびフローチャートにおけるブロックの組合せが、指定された関数もしくはステップを実施する専用のハードウェアに基づくコンピューターシステム、または専用ハードウェアとコンピューター命令の組合せによってインプリメントされ得ることも理解されよう。
図1は、個体から得た試験試料を処理して融合事象をコールするための方法の例100である。試験試料を患者から得ることができる。ステップ110で、核酸(DNAまたはRNA)を試験試料から抽出することができる。ある実施形態では、核酸は、無細胞核酸を含む。様々な実施形態では、試験試料は、血液、血漿、血清、尿、糞便、唾液試料、および/またはこれらの組合せなどのうちの1つまたは複数から選択される試料であり得る。あるいは、生体試料は、全血、血液画分、組織生検、胸膜液、心膜液、脳脊髄液、および腹水のうちの1つまたは複数から選択される試料を含み得る。一実施形態では、試験試料は、無細胞核酸を含み得、この例は、無細胞DNAおよび/または無細胞RNAである。例えば、試験試料は、対象の血液から採取した無細胞核酸試料であり得る。一実施形態では、無細胞核酸試料を、がんを有することが分かっている対象(例えば、がん患者)、またはがんを有する疑いがある対象から得た試験試料から抽出することができる。
融合コーリングに関する以下の説明は、DNAおよびRNA両方のタイプの核酸配列に当てはまり得る。様々な実施形態では、核酸を精製プロセスによって試験試料から抽出する。一般に、当技術分野における任意の公知の方法を核酸を精製するために使用することができる。例えば、管中で核酸をペレット化および/または沈殿させることにより、核酸を単離することができる。一部の実施形態では、核酸をさらに処理することができる。例えば、試験試料から抽出される無細胞核酸はRNAであり得、そのRNAを、次に逆転写酵素を使用してDNAに変換する。
一部の態様では、方法100は、ステップ110を含む。一部の態様では、方法100は、試験試料から得られた核酸を使用してステップ120で始まることもある。
方法100は、ステップ120でシークエンシングライブラリーの調製を含み得る。ライブラリー調製中に、例えば、その後のクラスター生成および/またはシークエンシングにおける使用のための1つまたは複数のシークエンシングオリゴヌクレオチド(例えば、一塩基合成法(SBS)(Illumina、San Diego、Calif.)で使用される公知のP5およびP7配列)を含むアダプターを、アダプターライゲーションによって核酸分子の末端にライゲーションすることができる。一実施形態では、分子バーコードを、アダプターライゲーション中に抽出された核酸に付加させることができる。一部の実施形態では、分子バーコードは、核酸から得た配列リードを同定するために使用することができる一意的タグとして役立つ縮重塩基対である。他の実施形態では、分子バーコードは、限られたセットの分子バーコード(例えば、2~1,000,000;2~100,000;2~10,000;2~1,000の異なる分子バーコード配列)から選択される。一部の実施形態では、分子バーコードのセット内の分子バーコードの数は、試料中のポリヌクレオチドの数未満である。セット内の限られた数の分子バーコードを有する一部の実施形態では、分子バーコードは、分子バーコードからの配列情報、および配列リードが参照配列のどこに位置するのかに基づくゲノム座標情報に基づいて、異なる分子を区別するために使用することができる、非縮重塩基対を含み得る。一部の実施形態では、分子バーコードは、アダプターライゲーション中に核酸の末端に付加される短い核酸配列(例えば、4~10塩基対)である。分子バーコードを付着し核酸とともに増幅中にさらに複製することができ、このことにより、下流での解析で同じ元の核酸セグメントから生じる配列リードを同定する手段が得られる。
ある実施形態では、ステップ120は、ハイブリダイゼーションプローブを使用して核酸をハイブリダイズすること、および/または核酸断片の濃縮を行うことを必要に応じて含み得る。例えば、標的遺伝子パネルを通して配列リードを生成する場合、または全エクソームシークエンシングによって配列リードを生成する場合。逆に、ハイブリダイゼーションプローブ使用して核酸をハイブリダイズすること、および/または核酸断片の濃縮を行うことは、全ゲノムシークエンシングによって配列リードを生成する場合には行わない。ハイブリダイゼーションプローブを使用して核酸をハイブリダイズすることは、ハイブリダイゼーションプローブを使用して、核酸の選択されたセットについてのシークエンシングライブラリーを濃縮することを含み得る。がん(もしくは疾患)の存在もしくは非存在、がんの状態、またはがんの分類(例えば、がんのタイプもしくは起源の組織)についての情報を与え得る標的核酸分子をプルダウンし、濃縮するために、標的核酸配列を標的とし、それとハイブリダイズするように、ハイブリダイゼーションプローブを設計することができる。このステップに従って、複数のハイブリダイゼーションプルダウンプローブを所与の標的配列または遺伝子に使用することができる。プローブは、長さが約40~約160塩基対(bp)、約60~約120bp、または約70bp~約100bpの範囲であり得る。一実施形態では、プローブは、標的領域または遺伝子の重複部分をカバーする。標的遺伝子パネルシークエンシングのために、ハイブリダイゼーションプローブを、標的遺伝子パネルに含まれている特定の遺伝子配列に由来する核酸分子を標的とし、それをプルダウンするように、設計することができる。全エクソームシークエンシングのために、ハイブリダイゼーションプローブを、参照ゲノム内のエクソン配列に由来する核酸分子を標的とし、それをプルダウンするように、設計することができる。その後、ハイブリダイズした核酸分子を濃縮することができる。例えば、ハイブリダイズした核酸を、PCRを使用して補足し、増幅することができる。標的配列を濃縮して濃縮された配列を得、それを、その後、シークエンシングすることができる。例えば、当技術分野において周知であるように、ビオチン部分をプローブの5’末端に付加させて(すなわち、ビオチン化して)、ストレプトアビジン被覆表面(例えば、ストレプトアビジン被覆ビーズ)を使用する標的プローブ-核酸複合体のプルダウンを助長することができる。これは、配列リードのシーケンシングデプスを改善し得る。しかし、PCRは不完全であり、それは、増幅されたDNA分子のプールにアーチファクト(例えば、スキューおよび新しいハイブリッドまたはエラーのある配列)を導入する。例えば、増幅中に2つの鋳型が合わさって新規キメラ産物を形成するプロセスである鋳型乗り換えが、アーチファクトを生成することがある。PCR鋳型乗り換えは、投入物に既に存在する2つの配列のハイブリッド配列を生成する。DNAポリメラーゼは、PCR中に新生DNA鎖を中断することなく相補性領域内で1つの鋳型から別の鋳型にジャンプすることができる。したがって、この新生鎖は、一片が古い鋳型に相補的であり、他片が新しい鋳型に相補的である、新しいハイブリッド配列を有する。同様に、新生転写物は、完了前に中断され得るが、その後、PCRの後続のサイクルでプライマーとしての役割を果たし、その結果、再び新しいハイブリット種をもたらし得る。
一部の態様では、方法100は、ステップ110および120を含む。一部の態様では、方法100は、試験試料から得られた核酸を使用してステップ120で始まることもある。一部の態様では、方法100は、以前に調製した配列ライブラリーを使用してステップ130で始まることもある。一部の態様では、以前に調製された配列ライブラリーを購入することができる。
方法100は、ステップ130でシークエンシングライブラリー内の核酸をシークエンシングして配列リードを生成することを含み得る。配列リードは、当技術分野において公知の手段により獲得することができる。例えば、いくつかの技法およびプラットフォームによって、平行して何百万もの個々の核酸(例えば、DNA、例えばcfDNAもしくはgDNA、またはRNA、例えばcfRNA)分子から配列リードが直接得られる。そのような技法は、標的遺伝子パネルシークエンシング、全エクソームシークエンシング、全ゲノムシークエンシング、標的遺伝子パネルバイサルファイトシークエンシング、および全ゲノムバイサルファイトシークエンシングのいずれかを行うのに好適であり得る。
第1の例として、一塩基合成法技術は、蛍光ヌクレオチドの検出に依存する。蛍光ヌクレオチドは、シークエンシングされることになる鋳型に相補的であるDNAの新生鎖に組み込まれるからである。1つの方法では、長さ30~50塩基のオリゴヌクレオチドを、5’末端でガラス製カバースリップに共有結合で固着させる。これらの固着した鎖は、2つの機能を果たす。第1に、それらは、鋳型が、表面に結合されたオリゴヌクレオチドに相補的な捕捉テールを用いて構成された場合、標的鋳型鎖の捕捉部位としての役割を果たす。それらは、配列読み取りの基礎となる鋳型指向性プライマー伸長のためのプライマーとしての役割も果たす。捕捉プライマーは、合成、検出、および色素を除去するための色素-リンカーの化学的切断の複数のサイクルを使用する配列決定のための定位置部位として機能する。各サイクルは、ポリメラーゼ/標識ヌクレオチドの混合物の付加、すすぎ、色素のイメージングおよび切断からなる。
代替方法では、ポリメラーゼを蛍光ドナー分子で修飾し、スライドガラスに固定化し、その一方で、各ヌクレオチドを、ガンマ-ホスフェートに付着したアクセプター蛍光部分で色分けする。システムは、蛍光タグ付きポリメラーゼと蛍光修飾ヌクレオチドとの相互作用を、ヌクレオチドがデノボ鎖に組み込まれると検出する。
任意の好適な一塩基合成法プラットフォームを使用して突然変異を同定することができる。一塩基合成法プラットフォームとしては、Roche/454 Life SciencesからのGenome Sequencers、Illumina/SOLEXAからのGENOME ANALYZER、Applied BioSystemsからのSOLIDシステム、およびHelicos BiosciencesからのHELISCOPEシステムが挙げられる。一塩基合成法プラットフォームは、VisiGen Biotechnologiesによっても記載されている。一部の実施形態では、シークエンシングされることになる複数の核酸分子を支持体(例えば、固体支持体)に結合させる。支持体上に核酸を固定化するために、捕捉配列/ユニバーサルプライミング部位を鋳型の3’および/または5’末端に付加させることができる。支持体に共有結合で付着した相補配列に捕捉配列をハイブリダイズさせることによって、核酸を支持体に結合させることができる。捕捉配列(ユニバーサル捕捉配列とも呼ばれる)は、ユニバーサルプライマーとして二重に役立ち得る、支持体に付着された配列に相補的な核酸配列である。
捕捉配列の代替案として、カップリング対(例えば、抗体/抗原、受容体/リガンド、またはアビジン-ビオチン対など)のメンバーを、そのカップリング対のそれぞれの第2のメンバーで被覆された表面に捕捉される各分子に、連結させることができる。捕捉の後で、例えば、鋳型依存性一塩基合成法を含む単一分子検出/シークエンシングによって、配列を解析することができる。一塩基合成法では、表面結合分子は、ポリメラーゼの存在下で複数の標識ヌクレオチド三リン酸に曝露される。鋳型の配列は、成長鎖の3’末端に組み込まれた標識ヌクレオチドの順序によって決定される。これをリアルタイムで行うことができるか、またはステップ・アンド・リピート方式で行うことができる。リアルタイム解析については、各ヌクレオチドに異なる光学標識を組み込むことができ、組み込まれたヌクレオチドの刺激のために複数のレーザーを利用することができる。
大規模並列シークエンシングまたは次世代シークエンシング(NGS)技法は、合成技術、パイロシークエンシング、イオン半導体技術、単一分子リアルタイムシークエンシング、ライゲーションによるシークエンシング、またはペアエンドシークエンシングを含む。大規模並列シークエンシングプラットフォームの例は、Illumina HISEQまたはMISEQ、ION PERSONAL GENOME MACHINE、PACBIO RSIIシークエンサーまたはSEQUEL System、QiagenのGENEREADER、およびOxford MINIONである。さらなる同様の現行の大規模並列シークエンシング技術、ならびに未来の世代のこれらの技法を使用することができる。
様々な実施形態では、配列リードは、R1およびR2と示されるリード対から構成され得る。例えば、第1のリードR1を核酸分子の第1の末端からシークエンシングすることができ、その一方で、第2のリードR2をその核酸分子の第2の末端からシークエンシングすることができる。
ある実施形態では、ステップ130で、配列リードをさらなる処理に付すことができる。ある実施形態では、ステップ110~130によって配列リードを生成するのではなく、配列リードを任意の入手可能なデータ源から得ること、ダウンロード、決定する、および受信することなどができる。配列リードを、例えば、全エクソームシークエンシング(WES)データ(DNA-seq)、全ゲノムシークエンシング(WGS)データ(DNA-seq)、および/またはトランスクリプトームシークエンシング(RNA-seq)データから、得る、ダウンロードする、決定する、および受信することなどができる。記載した方法およびシステムによって、例えば、配列リードを生成するために使用するシークエンシングプラットフォームに応じて、様々な形式(例えば、FASTA、FASTQ、および/または他の有標形式)のうちの1つで配列リードを得ることができる。したがって、シークエンシングプラットフォームから配列リードを得ることは、配列リードを本明細書に記載のさらなる処理および解析に使用することができるようにリード形式の標準化を含み得る。配列形式を標準化することの1つの非限定的な例は、配列リードの品質スコア形式を調整することである。一部の実施形態では、配列リードを含有するデータファールの構造を最適化して、データファイルの検索を向上させる(例えば、加速またはより効率的に)することができる。
さらなる処理としては、例えば、配列リードを除去するための事前フィルタリングステップ、リードペアのステッチング、および/またはリードペアのオーバーハングトリミングを挙げることができる。事前フィルタリングは、1つまたは複数の基準を満たす配列リードを除去することを含み得る。基準の例は、配列リードがシングルトンであるかどうかを同定すること、配列リードがハードクリップであるかどうかを同定すること、鋳型長(TLEN)(例えば、閾値TLEN)に基づくフィルタリング、アラインメントスコア(例えば、閾値アラインメントスコア)に基づくフィルタリング、または塩基品質スコア(例えば、中央値または平均値塩基品質スコアの閾値)に基づくフィルタリングを含むが、これらに限定されない。別の基準は、配列リード対が、リード対のリードが異なる染色体からのものであるという基準を満たす場合には、配列リード対を維持し、フィルタリングで除去しないと決定することを含む。基準のさらなる例は、ビットフラグ、シガー、編集距離(例えば、最小または最大編集距離)、準最適アラインメントスコア、または補完的アラインメント尺度に基づく、フィルタリングを含む。
図2A、図2Bおよび図2Cは、ある実施形態に従って、リードペアr 210Aおよびr 210Bから断片s 205を生成するための、ステッチングおよびトリミングプロセスの例を描示する。
図2A、図2Bおよび図2Cに示されているように、r 210Aおよびr 210Bは、フォワードおよびリバース相補鎖を示す、互いに向かい合っている矢印として表されている。リード対(r、r)を評価して、それらが同じ断片s 205にステッチングされる必要がある、つまりrおよびrがkmerに分解され、各々の共通のkmerが、r 210Aとr 210Bの接尾辞-接頭辞アラインメントを固定するかどうか、を決定する(図2A)。アラインメントの類似性がある特定の閾値に合格した場合、ステッチングを適用する。図2Aに示されているように、リード対間のオーバーラップ領域220は、それらの間の共有kmer(例えば、オーバーラップ)の1つを示し、これが接尾辞-接頭辞アラインメントのアンカーである。したがって、ステッチングされた断片s 205は、r 210Aの接頭辞、オーバーラップ、およびr 210Bの接尾辞の連結である。時には、ステッチングコードは、完璧なリピートで長い分子を融合させ、これによって融合体に似ているアーチファクトが生じる。図3に示されているように、リードメイトは、デノボでステッチングされるが、隣り合う完璧なリピートは、長い分子を不正確にステッチングさせ得る。
別のシナリオでは、r/rの3’末端がr/rの5’を超えて伸長した場合(オーバーハング)、断片s 205は、オーバーラップ領域になる。これは、r 210Aおよび/またはr 210Bが他のリードの5’領域を超えて伸長する、図2Bに示されているシナリオである。オーバーハングはトリミングされ、断片s 205はオーバーラップである。
別のシナリオでは、図2Cに示されているように、r 210Aおよびr 210Bを、それらがオーバーラップしていないおよび/またはあまりにも多くのシークエンシングエラーがあるというどちらかの理由で、ステッチングすることができなかった場合、対のリードが連結されて断片s 205を形成し、この場合、逆相補性r 210Bによって両方のリードが同じ鎖に変換される。いずれのkmerにも含有されない非アルファベット文字を恣意的に選択して、データからの存在しないkmerの生成を防止する。
方法100は、コンピューター解析を使用して配列リードを処理してステップ140で融合事象をコールすることを含み得る。そのようなコンピューター解析が次に図4に関して記載されており、図4は、ある実施形態に従って融合事象を同定する方法400を描示する。一般に、コンピューター解析は、予備知識なしで個体における融合事象の存在を予測するように構成されているデノボ融合コーラーである。
方法400は、ステップ410で候補融合配列リードを決定すること、ステップ420で候補融合配列リードからコンティグを生成すること、ステップ430で候補融合事象を決定すること、およびステップ440で融合事象を決定することを含み得る。
ステップ410での候補融合配列リードを決定することは、複数の配列リードを参照配列にアラインさせることを含み得る。参照配列は、染色体などのゲノム領域全体のDNA配列を含み得る。ゲノム領域全体のDNA配列を含む参照配列を使用して、その特定のゲノム領域に影響を与える候補融合事象を同定することができる。参照配列は、エクソンDNA配列を含み得る。したがって、参照配列を使用して、エクソンDNA配列に影響を与える候補融合事象を同定することができる。一部の実施形態では、参照配列は、エクソンDNA配列に加えて、イントロンDNA配列を含み得る。したがって、参照配列を使用して、エクソンDNA配列とイントロンDNA配列の両方に影響を与える候補融合事象を同定することができる。一部の実施形態では、参照配列は、エクソンDNA配列と、イントロンDNA配列と、パディング領域内の追加のヌクレオチド塩基との組合せを含み得る。パディング領域は、遺伝子融合事象に関連する可能性が低いことが公知である核酸配列、例えば、反復核酸配列または他のイントロン領域であり得る。したがって、参照配列を使用して、エクソンDNA配列、イントロンDNA配列はもちろん、エクソン/イントロンDNA配列間の接合部にも影響を与える、候補融合事象を同定することができる。
複数の配列リードと参照配列のアラインメントは、当技術分野において公知の任意のアラインメント技法を含み得る。アラインメント技法の例としては、ペアワイズアラインメントおよび多重配列アラインメントが挙げられるが、これらに限定されない。ペアワイズアラインメントは、例えば、網羅的または発見的(例えば、網羅的でない)ペアワイズアラインメントを含み得る。網羅的ペアワイズアラインメントは、「総当たり」アプローチと呼ばれることもあり、セットの中のあらゆる可能な対の配列間のあらゆる可能なアラインメントについてのアラインメントスコアを算出する。多重配列アラインメントは、プログラムClustalWによりインプリメントされるような、プログレッシブアラインメントを含み得る(例えば、Thompson, et al., Nucl. Acids. Res., 22:4673-80 (1994)を参照されたい)。アラインメントの結果は、1つまたは複数のバイナリアラインメントマップ(BAM)ファイルを含み得る。
ステップ410での候補融合配列リードを決定することは、複数の配列リードのうちの少なくとも1つの配列リードの参照配列へのアラインメントで1つまたは複数の切断点を決定することをさらに含み得る。アラインメントで1つまたは複数の切断点に関連する任意の配列リードを候補融合配列リードとして同定することができる。切断点は、配列リードが参照配列から変化した領域または点であり得る。各配列リードのアラインメントは、1つまたは複数の切断点に寄与し得る。切断点は、染色体上の配向位置であり得る。アラインメントでの切断点の存在は、シークエンシングプロセスにおけるエラー、または真の融合事象についての本物のシグナルのいずれかを示し得る。図5は、候補融合配列リードであると決定される配列リード510の例を示す。配列リード510は、参照配列520にアラインされる。配列リード510の第1の部分530は、参照配列520にうまくアラインされるが、第2の位置540は、切断点550で開始して、参照配列520にうまくアラインされない。配列リード510を、切断点550の存在に基づいて、候補融合配列リードとみなすことができる。図5には示されていないが、別の切断点が同じ配列リード510の他のアラインメントから生成される。
ある実施形態では、1つまたは複数のBAMファイルを照会して、破棄するおよび/または候補融合配列リードとみなすべき、配列リードを決定することができる。BAMファイルをスキャンすることができ、任意の論理配列リードを破棄することができる。論理配列リードは、融合事象を含有するように見えない(例えば、ハードクリップしていない、ソフトクリップしていない)リードを含み得る。ある実施形態では、最小アラインメント長および/または最大アラインメント長を使用して論理配列リードを同定することができる。最小アラインメント長は、例えば、1~100(両端の値を含む)であり得る。ある実施形態では、最小アラインメント長は、40であり得る。最大アラインメント長は、例えば、600~1000(両端の値を含む)であり得る。ある実施形態では、最大アラインメント長は、800であり得る。参照配列にアラインされた、最小アラインメント長未満のまたは最大アラインメント長を超えるいくつかの塩基を含有する、任意の配列リードは、論理配列リードとみなされず、さらなる解析のために保持することができる。ある実施形態では、低いマッピング品質スコア(MAPQ)に関連する配列リードを破棄することができる。低いマッピング品質スコアは、例えば、0~60のいずれか(両端の値を含む)であり得る。ある実施形態では、低いマッピング品質スコアは、50またはそれ未満であり得る。閾値より長いインデルを含む配列リードを候補融合配列リードとして保持することができる。閾値は、例えば、15~30塩基のいずれか(両端の塩基数を含む)であり得る。ある実施形態では、閾値は、24塩基であり得る。図6は、候補融合配列リードであると決定される配列リード610の例を示す。配列リード610は、参照配列620に対する2つアラインメントを有する。配列リード610の部分が配列リード610のいずれの側でも参照配列620にうまくマッチしない、一次アラインメント630(ソフトクリップされた塩基)、および配列リード610が参照配列620の1カ所より多くの位置にかなりうまくアラインし得、アラインメントの前に除去された配列リード610の部分を含む、二次アラインメント640(ハードクリップされた塩基)。
図4に戻って、ステップ420で候補融合配列リードからコンティグを生成することは、候補融合配列リードを1つまたは複数の共通の切断点に基づいてグループ((または「コンテナ」もしくは「パケット」)にグループ化すること、および各パケット内の候補融合配列リードを1つまたは複数のコンティグにアセンブルすることを含み得る。同じまたは隣り合う切断点(例えば、共通の切断点)を共有する候補融合配列リードを、同じパケット/コンテナに入れることができる。ある実施形態では、共通の切断点は、1)同じ染色体に同じ配向で存在する2つの候補融合配列リードの各々における切断点、および/または2)同じ位置の、もしくは閾値塩基数以内(例えば、1~40塩基(両端の塩基数を含む)のいずれかの閾値以内、例えば12塩基)の、かつ同じ配向を有する、2つの候補融合配列リードの各々における切断点であってもよい。別の実施形態では、切断点の2つのベクトルについての適合性試験を行うことができる。
図7は、ある候補融合配列リードが単一の切断点を含み、別の候補融合配列リードが複数の切断点を含む、シナリオを示す。第1の候補融合配列リードは、切断点710を含み、第2の候補融合配列リードは、切断点720、切断点730、および切断点740を含む。切断点720および切断点740は、切断点710の位置から閾値塩基数以内の位置になく、したがって、第1の候補融合配列リードおよび第2の候補融合配列リードのグループ化に寄与しない。しかし、切断点710および切断点730の位置は、閾値塩基数以内にあり、第1の候補融合配列リードおよび第2の候補融合配列リードを同じパケットにグループ化するための基礎として役立ち得る。
図8は、ある候補融合配列リードが複数の切断点を含み、別の候補融合配列リードも複数の切断点を含む、シナリオを示す。第1の候補融合配列リードは、切断点810、切断点820、および切断点830を含む。第2の候補融合配列リードは、切断点840、切断点850、および切断点860を含む。第1の候補融合配列リードの各切断点と第2の候補融合配列リードの各切断点の比較を行うことができる。図8に示されているように、切断点810および切断点840は、閾値塩基数以内の位置にあり、切断点830および切断点860は、閾値塩基数以内の位置にある。これらの対の切断点は、第1の候補融合配列リードおよび第2の候補融合配列リードを同じパケットにグループ化するための基礎として役立ち得る。しかし、切断点820および切断点860は、任意の他の切断点の閾値塩基数以内になく、したがって、第1の候補融合配列リードおよび第2の候補融合配列リードのグループ化に寄与しない。
ある実施形態では、候補融合配列リードのパケットを、1つまたは複数のコンテナデータ構造を構築することによりコンピューターで生成することができる。ある実施形態では、1つまたは複数のコンテナデータ構造は、1つまたは複数のグラフデータ構造を含み得る。グラフデータ構造は、候補融合配列リードを表す節点、および適合する候補融合配列リードを表す節点を接続する辺を含み得る。各接続された節点をパケットの一部とみなすことができる。グラフデータ構造構築は、そのような構築の計算集約な性質を考えると、並列化することができる。
グラフデータ構造は、対の頂点(節点とも呼ばれる)が辺により接続されているタイプのデータ構造を含み得る。ある実施形態では、グラフデータ構造をメモリーサブシステム(図21、メモリー2107)に記憶させ、メモリーサブシステムは、各頂点が記憶されているメモリー2107内の物理的位置を同定するためのポインターを含み得る。典型的には、グラフデータ構造における節点各々がセット内の要素を表し、その一方で、辺が要素間の関係性を表す。グラフデータ構造は、有向グラフ、木、および/または有向非巡回グラフ(DAG)などを含み得る。有向グラフは、辺が方向を有するグラフである。木は、根節点と各々が内部節点または葉節点のどちらかであるいくつかの追加の節点とを有するタイプの有向グラフデータ構造である。根節点および内部節点は、各々が1つまたは複数の「子」節点を有し、各々がその子節点の「親」と呼ばれる。葉節点は、いずれの子節点も有さない。木の中の辺は、従来、親から子へと方向づけられる。木では、節点は親を1つだけ有する。有向非巡回グラフ(DAG)として公知の木の一般化によって、節点が複数の親を有することは可能になるが、辺が閉路を形成することは可能にならない。
ある実施形態では、グラフデータ構造は、de Bruijnグラフを表し得る。de Bruijnグラフは、リードをk-merと呼ばれるより小さいDNA配列に分解することによってコンピューターによる計算労力を軽減し、パラメーターkは、これらの配列の塩基の長さを示す。de Bruijnグラフでは、すべてのリードをk-mer(リード内の長さkのすべての部分配列)に分解し、k-mer間のパスを算出する。この方法によるアセンブリでは、リードを、k-merを通るパスとして表す。de Bruijnグラフは、これらのk-mer間の長さk-1のオーバーラップを捕捉し、実際のリード間のものを捕捉しない。したがって、例えば、配列CATGGAを、次の2-merによってパスとして表すことができる:CA、AT、TG、GG、およびGA。他のk-mer、例えば、1-mer、3-mer、4-mer、5-mer、6-mer、7-mer、8-merなどが、企図される。de Bruijnグラフアプローチは、冗長性にうまく対処し、複雑なパスのコンピューターによる計算を扱いやすくする。全データセットをk-merオーバーラップに縮小することにより、de Bruijnグラフは、ショートリードデータセットでの高い冗長性を低減する。特定のアセンブリについての最高効率のk-merサイズを、リード長およびエラー率によって決定することができる。パラメーターkの値は、アセンブリの品質に対して顕著な影響を及ぼす。良好な値の推定をアセンブリの前に行うことができるか、または最適な値を、小範囲の値を試験することにより見つけることができる。
ある実施形態では、候補融合配列リードの各々は、記号の文字列を含み得る。例えば、文字列sは、アルファベット
Figure 2023513315000002
から書き出される一連の記号であり得る。sの長さは、|s|によって示される。sの部分文字列は、s中に存在する文字列であり、開始位置iおよび長さlを有し、s(i,l)によって示される。長さlの部分文字列は、l-merとも示される。以下では、
Figure 2023513315000003
は、DNAアルファベット
Figure 2023513315000004
であると仮定し、これらの記号には相補体があり、(A,T)および(C,G)は相補性の対である。逆相補文字列
Figure 2023513315000005
は、sの中の相補記号の逆向きの配列である。正準文字列
Figure 2023513315000006
は、sおよびその逆相補体
Figure 2023513315000007
のうちの辞書順で最小のものである。l-mer xの最小解は、x中に存在するg-mer yであり、したがって、g<lであり、yは、x中のすべてのg-merのうちの辞書順で最小のものである。辞書式順序は、ポリAのg-merが、シークエンシングデータ中に自然に存在し、多くの場合、ランダムな順序に置き換えられるので、使用が面倒である。ランダムな順序を得るための最も簡単な方法は、x中の各g-merについてのハッシュ値をコンピューターで計算し、ハッシュ値が最も小さいg-merを最小解として選択することである。ある実施形態では、ランダムな順序づけによって生じた最小解を使用することができる。
de Bruijnグラフ(dBG)は、各頂点v∈Vがk-merを表す、有向グラフG=(V,E)であり得る。k-mer xおよびx’をそれぞれ表す頂点vから頂点v’への有向辺e∈Eは、x(2,k-1)=x’(1,k-1)の場合に、およびその場合にのみ、存在する。各k-mer xは、Gに
Figure 2023513315000008
可能な次節点
Figure 2023513315000009
を有し、ここで、
Figure 2023513315000010
であり、
Figure 2023513315000011
は、連結演算子である。dBGの元の組合せの定義では、アルファベット
Figure 2023513315000012
についてのすべての可能なk-merがグラフ中に存在するが、本実施形態では、定義が、入力中のk-merを表すde Bruijnグラフのサブセットに限定されることに留意されたい。グラフ中のパスは、一連の明確に異なる接続された頂点p=(v,...,v)である。パスpは、1つより多くの内向辺を有し得る終点vおよび1つより多くの外向辺を有し得る始点vを除いて、すべてのその頂点が1の入次数および出次数を有する場合、非分岐である。非分岐パスは、分岐せずにグラフ内で伸長することができない場合、最大である。圧縮de Bruijnグラフ(cdBG)は、ワード長k+η-1を表す、ユニティグと呼ばれる、単一の頂点にdBGからのη個の頂点の最大非分岐パスすべてをマージする。dBGおよびcdBGの最小の例を図9Aおよび図9Bにそれぞれ提供する。グラフデータ構造を生成するための従来の技法は、Bloomフィルターを含む。しかし、Bloomフィルターデータ構造では、1つの要素に対応するビットがビットマップ上に散在しているため、偽陽性率の低下に伴うメモリー使用量および時間計算量と不良なデータ局所性がトレードオフとなり、その結果、挿入および照会するときに一部のCPUキャッシュミスが生じることになる。これらの技術的限界を克服するために、ある実施形態では、ローリングハッシュ関数を使用して、単一のk-mer内の最小解としてg-merを選択することができる。オーバーラップしているk-merは、最小解を共有し得るので、最小値から上昇させるアプローチを使用して、配列中の隣接k-merの最小解の反復が配列の長さに線形になるように償却O(1)コストで最小解をコンピューターで再計算することができる。インプリメントすることができる別の最適化は、最小解のコンピューターによる計算をk-merのg-merのサブセットに限定すること、すなわち、最小解になる候補から最初と最後のg-merを除外することである。これにより、所与のk-merについて、その前方の、それぞれ後方の、隣接k-merのすべてが同じ最小解を必ず共有することが確実になる。k-mer xとその近傍x’が、最小解を共有する可能性が高い上に、この近傍ハッシュアプローチは、xのすべての前方の、それぞれ後方の、近傍を検索したとき、それらがすべて同じ最小解を有することになり、同じブロック内に記憶されることになることを保証し、その結果、キャッシュミスが最小限に抑えられる。
ある実施形態では、隣接技法を使用して、グラフデータ構造(例えば、dBGまたはcdBGを表す)をメモリーサブシステム(例えば、図21、メモリー2107)に記憶させ、このメモリーサブシステムは、各頂点が記憶されているメモリー2107の物理的位置を同定するためのポインターを含み得る。ある実施形態では、隣接リストを使用して、グラフデータ構造をメモリー2107に記憶させる。一部の実施形態では、頂点ごとに隣接リストがある。
図10は、頂点オブジェクト1005および辺オブジェクト1009を含む、グラフデータ構造1000を示す。配列(例えば、k-mer)の部分をブロックとして同定し、それらのブロックを、有形メモリーデバイスに記憶させるオブジェクト1005に変換する。このオブジェクトが、1バイトの情報を使用して記憶される可能性があり得ることに留意されたい。例えば、A=00、C=01、G=10、およびT=11の場合には、文字列「AGTT」を表すブロックは、00101111(1バイト)を含有する。オブジェクト1005を接続して、候補融合配列の各々にパスが存在するようにパスを作出する。パスは、各パスの方向が核酸の5’から3’への方向性に対応するという意味で、有向である。しかし、3’から5’への方向で配列を表すことが簡便または望ましいことがあること、およびそのようにすることが本発明の範囲から外れないことに留意されたい。パスを作出する接続自体をオブジェクトとしてインプリメントすることができ、その結果、ブロックが頂点オブジェクト1005により表され、接続が辺オブジェクト1009により表される。このように、有向グラフは、有形メモリーデバイスに記憶された頂点および辺オブジェクトを含む。グラフデータ構造1000は、元の候補融合配列の1つ1つを、パスをそのパスの方向で読み取ることにより検索することができることから、複数の候補融合配列を表すことができる。しかし、グラフデータ構造1000は、元の候補融合配列とは、少なくとも、アラインされたときに互いにマッチする配列の部分が単一のオブジェクトに変換されている点で、異なる物である。候補融合配列文字列を、頂点オブジェクト1005または辺オブジェクト1009のどちらかの中に記憶させることができる(節点および頂点を同義語として使用する)。本明細書で使用する場合、節点オブジェクト1005および辺オブジェクト1009は、コンピューターシステムを使用して作出されたオブジェクトを指す。
図10は、各頂点1005についての隣接リスト1001の使用をさらに示す。開示された方法およびシステムは、プロセッサーを使用して、隣接性、例えば、隣接リストまたはインデックスフリー隣接性の使用により、頂点オブジェクト1005と辺オブジェクト1009とを含むグラフデータ構造1000を作出することができる。例えば、プロセッサーは、インデックスフリー隣接性を使用して、頂点1005が、接続される別の頂点1005に対するポインターを含み、ポインターが、接続された頂点が記憶されるメモリーデバイス1807上の物理的位置を同定する、グラフデータ構造1000を作出することができる。グラフデータ構造1000を、隣接リストを使用して、各頂点または辺が、それらが隣接するそのようなオブジェクトのリストを記憶するようにインプリメントすることができる。各隣接リストは、隣接オブジェクトについてのメモリーデバイス内の特定の物理的位置に対するポインターを含む。
グラフデータ構造1000を、典型的には、メモリーサブシステム1807の物理的デバイス上に非常に迅速なトラバーサルを提供する形で記憶させる。その意味で、図10の下の部分は、オブジェクトが、メモリーサブシステム1807の有形部上の特定の物理的位置に記憶されることを表す。各節点1005は物理的位置に記憶され、その位置が、その節点を参照する任意の隣接リスト1001中のポインターにより参照される。各節点1005は、グラフデータ構造1000内のあらゆる隣接節点を含む隣接リスト1001を有する。リスト1001のエントリーは、隣接節点に対するポインターである。
ある特定の実施形態では、各頂点および辺についての隣接リストがあり、頂点または辺についての隣接リストにその頂点または辺が隣接する辺または頂点が載っている。
図11は、各頂点1005および辺1009についての隣接リスト1101の使用を示す。図11に示されているように、開示された方法およびシステムは、各頂点および辺についての隣接リスト1001を使用してグラフデータ構造1000を作出することができ、頂点1005または辺1009についての隣接リスト1001にその頂点または辺が隣接する辺または頂点が載っている。隣接リスト1101の各エントリーは、隣接する頂点または辺に対するポインターである。
各ポインターは、隣接オブジェクトが記憶されるメモリーサブシステム内の物理的位置を同定する。好ましい実施形態では、ポインターまたはネイティブポインターは、それが、メモリー上の物理的位置を指し示し、ポインターの逆参照によって意図したデータへのアクセスを可能にすることから、メモリーアドレスとして操作可能である。つまり、ポインターは、メモリー内のどこかに記憶されたデータへの参照であり、そのデータを得ることは、ポインターを逆参照することである。ポインターを他の種類の参照から分離する特徴は、ポインターの値が、低レベルまたはハードウェアレベルで、メモリーアドレスと解釈されることである。そのようなグラフ表現は、高速ランダムアクセス、修正、およびデータ検索の手段を提供する。
一部の実施形態では、あらゆる要素が、その隣接要素に対する直接ポインターを含有し、それよってインデックスルックアップの必要性がなくなり、トラバーサルを非常に迅速にさせることから、高速ランダムアクセスが支持され、グラフオブジェクト記憶がインデックスフリー隣接性でインプリメントされる。インデックスフリー隣接性は、データ検索のための低レベル、またはハードウェアレベル、メモリー参照の別の例である。具体的には、要素内に含有されるポインターがメモリー内の物理的位置への参照となるように、インデックスフリー隣接性をインプリメントすることができる。
ネイティブポインターなどの物理的メモリーアドレス指定を使用する技術的インプリメンテーションは、別個のインデックステーブルも他の介在ルックアップステップも必要とすることなく、そのような軽量方式でデータにアクセスし、使用することができるので、所与のコンピューター、例えば、任意の最新の消費者グレードのデスクトップコンピューターの性能が、ゲノム規模のグラフ(例えば、候補融合配列群を表すグラフデータ構造1000などのコンテナデータ構造)のフルオペレーションを可能にするように拡張される。したがって、ネイティブポインターを伴うオブジェクトのライブラリー、またはインデックスフリー隣接性を提供する他のインプリメンテーションを使用して、グラフ要素(例えば、節点および辺)を記憶することによって、ゲノム情報の記憶、検索およびアラインメントを提供する技術の能力が、これは特定の方法でコンピューターの物理的メモリーを使用するので、実際に改善される。
ある実施形態では、エラー補正手順を所与のパケット/コンテナ内の候補融合配列リードに対して行うことができる。エラー補正手順を、非融合事象が融合事象として同定される尤度を低下させるように設計する。ある実施形態では、閾値塩基数を超えるかまたはそれに等しいインデルは、エラー補正手順を免除され得る。閾値塩基数は、20~30塩基のいずれか(両端の塩基数を含む)であり得る。ある実施形態では、閾値塩基数は、24塩基であり得る。図12は、ミスマッチまたは局所的差異(例えば、バリアント)を参照配列からの対応する塩基で置き換える、エラー補正手順を示す。図13は、閾値塩基数内で参照配列にアラインする2つの候補融合配列リードに適用したエラー補正手順を示す。1つの候補融合配列リードは、いくつかのパディング塩基を含む。2つの候補融合配列リード間のギャップを、ギャップと同じ位置の参照配列からの塩基を使用して埋めることができる。ある実施形態では、パディング塩基を保持することができるか、またはパディング塩基と同じ位置の参照配列からの塩基で置き換えることができる。いくつかのパディング塩基を2つの候補融合配列リード間に挿入し、2つの候補融合配列リードを単一のリードとして接合させることができる。図14は、閾値を超えるアラインされていない部分を有する候補融合配列リードを破棄するエラー補正手順を示す。例えば、候補融合配列リードの閾値パーセンテージを超えるまたはそれに等しいアラインされていない部分を有する任意の候補融合配列リードは除外され得る。ある実施形態では、閾値パーセンテージは、1%~99%のいずれか(両端の%値を含む)であり得る。ある実施形態では、閾値パーセンテージは10%であり得、これは、10%のまたはそれを超えるアラインされていない塩基を有する任意の候補融合配列リードが破棄され得ることを意味する。実際の結果は、ソフトクリップされた塩基を含む候補融合配列リードの除外であり得る。図15は、閾値を超えるアラインされていない部分を有する候補融合配列リードが除外される、図14のエラー補正手順をさらに示す。
各パケット/コンテナ内の残存候補融合配列リードを1つまたは複数のコンティグにアセンブルすることは、任意の公知コンティグアセンブリ方法を含み得る。例えば、アラインメントによるアセンブリは、配列リードを互いにアラインさせることにより、または配列リードを参照にアラインさせることにより、進行し得る。例えば、各リードを次々に参照ゲノムにアラインさせることにより、リードのすべてを互いに関連づけながら配置してアセンブリを作出することができる。ある実施形態では、各パケットについてのコンテナデータ構造は、de Bruijnグラフを表すグラフデータ構造を含むことができ、各パケットの候補融合配列リードをコンティグにアセンブルすることは、de Bruijnグラフを線形化して各パケットについてのコンティグを出力することを含む。例えば、欲張りアルゴリズムを使用して、配列リードによって最も多く表されるde Bruijnグラフの辺を選択することができる。
図4に戻って、ステップ430での候補融合事象を決定することは、各パケットからのコンティグを参照配列にアラインさせること、およびアラインメントに基づいて1つまたは複数の候補融合事象を決定することを含み得る。ある実施形態では、パケットからのコンティグを参照配列(デコイを伴う)にアラインさせることができ、パケットについての候補融合配列リードをコンティグにアラインさせることができる。パケットについての候補融合配列リードをファミリーにクラスター化することができる。ファミリーは、同じ分子に関連する候補融合配列リードを含み得る。ファミリーを分子バーコーディングに基づいて決定することができる。同じ分子バーコードを含有する候補融合配列リードを同じファミリーにグループ化することができる。ある実施形態では、同じ分子バーコードを含有し、それらのアラインメントが互いの塩基数(例えば、30~50塩基)以内で始まる配列リードを、同じファミリーにグループ化することができる。1つまたは複数の試験を得られたアラインメントに適用して、候補融合事象を決定することができる。1つまたは複数の試験は、フットプリント試験および/またはばらつき試験を含み得る。フットプリント試験は、コンティグを支持する候補融合配列リードのファミリーの閾値数が切断点に及ぶことを決定することを含み得る。閾値は、例えば、2~5ファミリーのいずれか(両端のファミリー数を含む)であり得る。ある実施形態では、閾値は、2ファミリーであり得る。ある実施形態では、閾値は、3ファミリーであり得る。ばらつき試験は、閾値ばらつき量が、コンティグを支持し、切断点に及ぶ候補融合配列リードの少なくとも2つのファミリーの配列リード間に存在することを決定することを含み得る。ある実施形態では、ばらつき試験は、各配列リードをコンティグにアラインさせることを含む。次いで、各配列リードについて、最初および最後の塩基についてのコンティグ上の開始および停止座標をコンピューターで計算する。各配列リードの開始点のすべてについての平均および標準偏差を算出し、平均開始点および開始標準偏差を作出する。各配列リードの停止点のすべてについての平均および標準偏差を算出し、平均停止点および停止標準偏差を作出する。次いで、ばらつきを開始標準偏差と停止標準偏差の間の最小または最低標準偏差として定義することができる。それ故、一部の実施形態では、標準偏差のみが、ばらつき試験を定義するために使用されることは理解されよう。ばらつき試験の閾値は、1~15塩基(両端の塩基数を含む)であり得る。ある実施形態では、閾値は、8塩基であり得る。ばらつきが8未満である場合には、融合体は、ばらつき試験に不合格であり、破棄される。ある実施形態では、閾値は、7塩基であり得る。ある実施形態では、閾値は、6塩基であり得る。ある実施形態では、閾値は、5塩基であり得る。
フットプリント試験は、図16に示されている。図16は、参照配列1620の第1の部分および参照配列1630の第2の部分にアラインされたコンティグ1610を示す。切断点1640が、アラインされた部分の間に存在する。コンティグを支持する候補融合配列リードが、候補融合配列リード1650、候補融合配列リード1660、候補融合配列リード1670、および候補融合配列リード1680として示されている。候補融合配列リード1650は、第1のファミリーに属し、候補融合配列リード1660は、第2のファミリーに属し、候補融合配列リード1670および候補融合配列リード1680は、第3のファミリーに属する。図16に示されているように、コンティグを支持する候補融合配列リードの少なくとも2つのファミリーは、切断点1640に及び、その結果、切断点1640が候補融合事象として同定されることになる。
ばらつき試験を図17に示す。示されているように、各配列リード1650~1680について、最初の塩基および最後の塩基についてのコンティグ1610上の開始および停止座標を決定することができる。各配列リード1650~1680の開始点のすべてについての平均および標準偏差を決定することができ、その結果、平均開始点および開始標準偏差が得られる。同様に、各配列リード1650~1680の停止点のすべてについての平均および標準偏差を決定することができ、その結果、平均停止点および停止標準偏差が得られる。次いで、ばらつき(1710、1720)を、開始標準偏差と停止標準偏差の間の最小または最低標準偏差として定義することができる。ばらつき試験の閾値は、1~15塩基(両端の塩基数を含む)であり得る。ある実施形態では、閾値は、8塩基であり得る。ばらつき(1710、1720)が8未満である場合には、融合体は、ばらつき試験に不合格であり、破棄される。ある実施形態では、閾値は、7塩基であり得る。ある実施形態では、閾値は、6塩基であり得る。
図4に戻って、ステップ440での融合事象を決定することは、1つまたは複数の基準を1つまたは複数の候補融合事象に適用すること、および1つまたは複数の基準の適用に基づいて1つまたは複数の融合事象を決定することを含み得る。1つまたは複数の基準の適用後に残存する任意の候補融合事象を、融合事象として同定することができる。
1つまたは複数の基準は、例えば、プローブへの候補融合事象の近さを含み得る。少なくとも1つの候補融合事象(例えば、切断点)は、試料の濃縮ステップに使用されるプローブの距離内になければならないか、またはそうでなければ候補融合事象は破棄される。例として、距離は、250~500塩基のいずれか(両端の塩基数を含む)であり得る。ある実施形態では、距離は、300塩基であり得る。ある実施形態では、距離は、350塩基であり得る。ある実施形態では、距離は、400塩基であり得る。ある実施形態では、距離は、450塩基であり得る。
1つまたは複数の基準は、例えば、ホワイトリストの適用を含み得る。遺伝子のホワイトリストを決定することができる。候補融合事象(例えば、切断点)がホワイトリスト内の遺伝子の1つに関連づけられない場合、候補融合事象は破棄される。
1つまたは複数の基準は、例えば、ブラックリストの適用を含み得る。遺伝子のブラックリストを決定することができる。候補融合事象(例えば、切断点)がブラックリスト内の遺伝子の1つに関連づけられる場合、候補融合事象は破棄される。
1つまたは複数の基準は、例えば、ある特定のインデルをフィルタリングすることを含み得る。候補融合事象(例えば、切断点)が、イントロン領域に完全に埋まっているインデルである場合、候補融合事象は破棄される。候補融合事象(例えば、切断点)が欠失であり、閾値塩基数より短い場合、候補融合事象は破棄される。閾値塩基数は、10~100塩基のいずれか(両端の塩基数を含む)であり得る。ある実施形態では、閾値塩基数は、50塩基であり得る。候補融合事象(例えば、切断点)が欠失であり、別の欠失の閾値距離以内にある場合、候補融合事象は破棄される。閾値距離は、10~100塩基のいずれか(両端の塩基数を含む)であり得る。ある実施形態では、閾値距離は、49塩基であり得る。ある実施形態では、閾値距離は、48塩基であり得る。ある実施形態では、閾値距離は、47塩基であり得る。ある実施形態では、閾値距離は、46塩基であり得る。ある実施形態では、閾値距離は、45塩基であり得る。
1つまたは複数の基準は、例えば、分子のリードに対する比が閾値を超えるかどうかおよび二本鎖支持分子(二本鎖支持分子は、各鎖上に2つまたはそれより多くのリードを有する分子と定義される)があるかどうかを決定することを含み得る。閾値は、.5~.9のいずれか(両端の値を含む)であり得る。ある実施形態では、閾値は、.8であり得る。ある実施形態では、閾値は、.7であり得る。ある実施形態では、閾値は、.6であり得る。ある実施形態では、閾値は、.5であり得る。候補融合事象に関連する比が閾値より大きいおよび/またはそれに等しい場合、候補融合事象は破棄される。
1つまたは複数の基準は、例えば、候補融合事象がステッチングアーチファクトであることを決定することを含み得る。ステッチングアーチファクトは、短いリピートにわたって(人工的な欠失事象を導入する)ステッチングされた長い分子であり得る。ステッチングプロセスは、完璧なリピートで長い分子を融合することができ、その結果、候補融合事象として分類され得るステッチングアーチファクトが生じる。図3に示されているように、2つの配列リード上の隣り合う完璧なリピートは、長い分子を不正確にステッチングさせ得る。この問題に対処するために、切断点に隣接している参照配列のいくつかの塩基を互いにアラインさせることができ、アラインメントスコアが閾値スコアより大きいかまたはそれに等しい場合、候補融合事象は破棄され得る。塩基の数は、80~160のいずれか(両端の数を含む)であり得る。ある実施形態では、塩基の数は、120であり得る。閾値スコアは、60~80のいずれか(両端のスコア含む)であり得る。ある実施形態では、閾値スコアは、70であり得る。
1つまたは複数の基準は、例えば、候補融合事象が鋳型乗り換えアーチファクトであることを決定することを含み得る。鋳型乗り換えは、配列類似性に起因する、配列ライブラリー調製中に起こるアーチファクトである。この問題は、スティチングアーチファクトと類似している。この問題に対処するために、2つの切断点を中心とする参照のいくつかの塩基を互いにアラインさせることができ、アラインメントスコアが閾値スコアより大きいかまたはそれに等しい場合、候補融合事象は破棄され得る。閾値スコアは、10~30のいずれか(両端のスコア含む)であり得る。ある実施形態では、閾値スコアは、20であり得る。
アラインメントスコアを決定することは、当技術分野において周知である。配列アラインメントは、2つの配列間の類似性を確立するためにアルゴリズムを使用し得る。例えば、正の数を配列の各マッチに割り当てることができ、負の数を配列の各ミスマッチに割り当てることができる。次いで、これらの数の総和をアラインメントスコアとして使用することができる。Basic Local Alignment Search Tool(BLAST)、MUSCLE、Mauve、MAFFT、Clustal Omega、Jotun Hein、Wilbur-Lipman、Martinez Needleman-Wunsch、Lipman-Pearson、Kalign、MView、およびEMBOSS Consなどのプログラムを使用して、アラインメントスコアを決定することができる。
1つまたは複数の基準は、例えば、候補融合事象が好適な数の非シングルトン支持分子を含有することを決定することを含み得る。シングルトン支持分子は、1のファミリーサイズを有する配列分子であり、適合性試験は、1つもしくは複数の非シングルトン分子の存在について、または2つもしくはそれより多くの非シングルトン分子の存在について、または事前に定義された数もしくはそれより多くの非シングルトン分子の存在についてチェックすることができる。
融合事象を決定するための上述の方法およびシステムは、入力リードの参照ゲノムに対するアラインメントのみに頼って融合事象の結果であり得る不一致アラインメントを同定する典型的な技法とは異なる。アラインメントのみに頼った場合、融合支持リードがミスアラインされると、それを下流でもはや回復することができず、それによって、偽陽性融合コールに至る。さらに、本方法およびシステムは、迅速かつ正確に融合事象を同定し、以前のシステムと比較して時間を短縮することおよび複雑さを軽減することができる。
融合検出は、腫瘍学パイプラインの重要な態様である。腫瘍が、ゲノムの部分を、それが必要とする腫瘍の機能を増強する、または腫瘍サプレッサー遺伝子の機能性を抑制する、どちらかのために再編成することは公知である。一部の薬物は、ある特定の融合により駆動されるある特定の腫瘍に対処するように特異的に設計される。これらの融合の同定は、所与の患者のための処置の特定および処置の選択に大きな影響を与える。
記載される方法およびシステムは、対象のDNA配列情報(DNA-SEQ)および/またはRNA配列情報(RNA-SEQ)データセットに基づく擬陽性の少ない遺伝子融合検出を含む臨床的に意義のある遺伝子融合データを生成する。得られるアノテーション付き遺伝子融合データは、臨床および/またはR&Dの場で使用することができる、臨床的に意義のある情報および高特異性遺伝子融合同定(例えば、少ない擬陽性)を含む。
開示された方法で決定される情報(例えば、融合事象の同定)を使用する方法を開示する。例えば、対象を処置する方法であって、対象にがん治療薬を投与するステップを含み、対象が、開示された方法のうちの1つまたは複数を使用して融合事象を有すると決定されている、方法を開示する。一部の態様では、対象は、開示された方法のうちの1つまたは複数を使用する融合事象の同定に基づいてがんを有すると決定されている。一部の態様では、がんは、融合事象に関連する任意のがんであり得る。融合事象に関連するがんは、融合事象により引き起こされる任意のがんであり得る。例えば、融合事象に関連するがんは、進行尿路上皮がん、前立腺がん、乳がん、肺がん、結腸がん、神経膠芽腫、肝臓がん、または卵巣がんであり得るが、これらに限定されない。一部の態様では、がん治療薬は、特定のがんを処置するために使用される公知のがん治療薬であり得る。例えば、対象が、FGFR2/3融合事象を有すると決定された場合には、FDA承認薬であるエルダフィチニブを対象に投与することができる。したがって、一部の態様では、がん治療薬は、融合事象に特異的である。融合事象に特異的ながん治療薬は、特定の融合事象に関連するがんを有効に処置すると以前に決定されたがん治療薬であり得る。
一部の態様では、対象は、以前に(融合事象を知る前に)がんと診断されたことがあり、その場合、開示された方法を使用する融合事象の同定によって、特定のがん治療薬を対象に投与することができる。したがって、開示された方法を使用する融合事象の同定は、個別化医療を可能にし得る。
開示された方法およびシステムの性能評価をプロキシに依存して行った。プロキシは、AV試料、および健康なドナーからの試料を含む。融合コーラー関数を有する、既存の生産パイプラインのソフトウェアパッケージは、融合事象の選択されたセットで(デノボコーラーとしてではなく)徹底的に検証されたものである。アブフュージョンの感度は、融合コーラー関数の感度と同等であるが、アブフュージョンは、融合ケースの非常に限られたセットに対してのみ実行される。
一例では、デノボ融合コーラーを、臨床cfDNAからFGFR2/3融合を同定するために使用した。FGFR2/3再編成は、特に、FDA承認エルダフィチニブを用いる進行尿路上皮がん(aUC)において、治療標的である。液体生検は、これらの融合を同定するための魅力的な非侵襲的方法であるが、cfDNAの検出は、低い腫瘍脱落レベル、短い分子、および遺伝子パートナーの幅広い多様性のため、技術的に困難である。これに対処するために、デノボ融合コーラーを使用した。混合がん型を有する患者17,718名のコホート(aUC患者795名、ならびに乳房、胆管癌、結腸直腸、および胃を含む)に加えて、cfDNA NGSに基づくアッセイで以前に試験した276の健康な対照試料を、デノボ融合コーラーを使用して再解析した。一意的分子カバレッジ中央値は、15,000×リードデプスまでシークエンシングして、おおよそ3,000分子であった。試料を、新規アルゴリズムを使用してin silicoで再解析した:手短に言えば、候補融合切断点にアラインしたリードをde Bruijnグラフにアセンブルした。得られたコンティグを参照にアラインさせ、フィルターを適用して技術的アーチファクトを除去した。混合がんコホートにおけるFGFR2融合パートナー(85%)およびFGFR3融合パートナー(66%)の大部分が、以前の報告と一致して、1回だけ観察された(図18)。FGFR3-TACC3は、FGFR3融合陽性患者の59%に存在する、最も多く見られる融合であった。FGFR2融合陽性患者の36%における、デノボコーラー検出パートナーは、以前に記載されていなかった。aUCコホートでは、FGFR3融合が、患者の3.1%において検出され、1回だけ存在する8/10(80%)のパートナー遺伝子/遺伝子間領域あった。これは、以前の報告と合致している(図19)。融合は、276の健康な対照試料では同定されなかった。混合がんコホートでは、これらの融合を有する患者において濃縮されたFGFR2融合と同時に起こった共通の突然変異は、FGFR2 N549K(7.1%)、FGFR2 N549D(3.2%)、およびFGFR2 V564I(2.6%)であり、これらの融合を有する患者において濃縮されたFGFR3融合と同時に起こった共通の突然変異としては、KRAS Q61Hが挙げられ、この突然変異は、FGFR3融合を有する患者の30.6%において観察された;図20。したがって、組織検査についての以前の報告と同等であるaUC患者からのcfDNAで観察されたFGFR3融合保有率は、標的化可能なゲノム再編成を血漿に基づくNGSで捕捉することが可能であることを実証する。高度に特異的なアセンブリに基づくデノボ融合コーラーにより検出されるFGFR2/3融合パートナーは、不均一であり、個々に低頻度であり、デノボアプローチの重要性を強調していた。
図21は、ネットワーク2103によって接続されているコンピューターデバイス2101およびサーバー2102の非限定的な例を含む、環境2100を描示するブロック図である。ある態様では、記載する任意の方法の一部またはすべてのステップを、本明細書に記載のコンピューターデバイスで行うことができる。コンピューターデバイス2101は、融合コーラーモジュール2104、および配列データ2105(例えば、配列リード、コンティグ、参照配列、基準、コンテナデータ構造、グラフデータ構造など)などのうちの1つまたは複数を記憶するように構成された、1つまたは複数のコンピューターを含むことができる。サーバー2102は、遠隔アクセスのために融合コーラーモジュール2104、および配列データ2105(例えば、配列リード、コンティグ、参照配列、基準など)などのうちの1つまたは複数を記憶するように構成された、1つまたは複数のコンピューターを含むことができる。複数のサーバー2102は、ネットワーク2103によってコンピューターデバイス2101と通信することができる。
コンピューターデバイス2101およびサーバー2102は、ハードウェアアーキテクチャに関して、一般に、プロセッサー2106、メモリーシステム2107、入力/出力(I/O)インターフェース2108、およびネットワークインターフェース2109を含む、デジタルコンピューターであり得る。これらの構成要素(2106、2107、2108、および2109)は、ローカルインターフェース2110によって通信可能につなげられている。ローカルインターフェース2110は、例えば、当技術分野において公知であるような、1つもしくは複数のバスまたは他の有線もしくは無線接続であり得るが、これらに限定されない。ローカルインターフェース2110は、単純化するために省かれている追加の要素、例えば、コントローラー、バッファー(キャッシュ)、ドライバー、リピーター、およびレシーバーを、通信を可能にするために有することができる。さらに、ローカルインターフェースは、上述の構成要素間の適切な通信を可能にするために、アドレス、コントロール、および/またはデータ接続を含み得る。
プロセッサー2106は、特にメモリーシステム2107に記憶された、ソフトウェアを実行するための、ハードウェアデバイスであり得る。プロセッサー2106は、任意の注文生産もしくは市販のプロセッサー、中央処理装置(CPU)、コンピューターデバイス2101およびサーバー2102に付随するいくつかのプロセッサー間の補助プロセッサー、半導体に基づくマイクロプロセッサー(マイクロチップまたはチップセットの形態で)、または一般に、ソフトウェア命令を実行するための任意のデバイスであり得る。コンピューターデバイス2101および/またはサーバー2102がオペレーション中であるときに、メモリーシステム2107内に記憶されたソフトウェアを実行するように、データをメモリーシステム2107におよびメモリーシステム2107から伝えるように、ならびにソフトウェアに従ってコンピューターデバイス2101およびサーバー2102のオペレーションを一般に制御するように、プロセッサー2106を構成することができる。
I/Oインターフェース2108は、ユーザー入力を1つもしくは複数のデバイスもしくは構成要素から受信するために、および/またはシステム出力を1つもしくは複数のデバイスもしくは構成要素に提供するために、使用することができる。ユーザー入力は、例えば、キーボードおよび/またはマウスによって提供することができる。システム出力は、ディスプレーデバイスおよびプリンター(図示なし)によって提供することができる。I/Oインターフェース2108は、例えば、シリアルポート、パラレルポート、小型コンピューターシステムインターフェース(SCSI)、赤外線(IR)インターフェース、無線周波数(RF)インターフェース、および/またはユニバーサルシリアルバス(USB)インターフェースを含み得る。
ネットワークインターフェース2109を使用して、ネットワーク2103上でコンピューターデバイス2101および/またはサーバー2102から転送および受信することができる。ネットワークインターフェース2109は、例えば、10BaseT Ethernet Adaptor、100BaseT Ethernet Adaptor、LAN PHY Ethernet Adaptor、Token Ring Adaptor、無線ネットワークアダプター(例えば、WiFi、セルラー、サテライト)、または任意の他の好適なネットワークインターフェースデバイスを含み得る。ネットワークインターフェース2109は、ネットワーク2103での適切な通信を可能にするために、アドレス、コントロール、および/またはデータ接続を含み得る。
メモリーシステム2107は、揮発性メモリー素子(例えば、ランダムアクセスメモリー(RAM、例えば、DRAM、SRAM、SDRAMなど))および不揮発性メモリー素子(例えば、ROM、ハードドライブ、テープ、CDROM、DVDROMなど)のいずれか1つまたは組合せを含み得る。さらに、メモリーシステム2107は、電子、磁気、光学式、および/または他のタイプの記憶媒体を組み込むことができる。メモリーシステム2107が、様々な構成要素が互いに遠隔地にあるがそれらにプロセッサー2106によってアクセスすることができる、分散型アーキテクチャを有し得ることに留意されたい。
メモリーシステム2107におけるソフトウェアは、各々が論理関数をインプリメントするための実行可能命令の順序付きリストを含む1つまたは複数のソフトウェアプログラムを含み得る。図21の例では、コンピューターデバイス2101のメモリーシステム2107におけるソフトウェアは、融合コーラーモジュール2104(またはそのサブ構成要素)、配列データ2105、および好適なオペレーティングシステム(O/S)2111を含み得る。オペレーティングシステム2111は、他のコンピュータープログラムの実行を本質的に制御し、スケジューリング、入力-出力制御、ファイルおよびデータ管理、メモリー管理、ならびに通信管理および関連サービスを提供する。
説明のために、アプリケーションプログラムおよび他の実行可能なプログラム構成要素、例えばオペレーティングシステム2111は、本明細書では個別のブロックとして示されているが、そのようなプログラムおよび構成要素は、コンピューターデバイス2101および/またはサーバー2102の異なる記憶構成要素中に様々な時点で、存在し得ることが認識される。融合コーラーモジュール2104のインプリメンテーションを、何らかの形態のコンピューター可読媒体に記憶させるか、またはそれ経由で送信することができる。開示された方法のいずれも、コンピューター可読媒体で具現化されるコンピューター可読命令によって行うことができる。コンピューター可読媒体は、コンピューターがアクセスすることができる任意の利用可能な媒体であり得る。例として、限定としてではなく、コンピューター可読媒体は、「コンピューター記憶媒体」および「通信媒体」を含み得る。「コンピューター記憶媒体」は、コンピューター可読命令、データ構造、プログラムモジュール、または他のデータなどの、情報の記憶のための任意の方法または技術でインプリメントされる、揮発性および不揮発性の、取り外し可能なおよび取り外し不能の媒体を含み得る。例示的なコンピューター記憶媒体は、RAM、ROM、EEPROM、フラッシュメモリーもしくは他のメモリー技術、CD-ROM、デジタル多用途ディスク(DVD)もしくは他の光学式記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置もしくは他の磁気記憶デバイス、または所望の情報を記憶するために使用することができ、コンピューターがアクセスすることができる、任意の他の媒体を含み得る。
ある実施形態では、融合コーラーモジュール2104を、配列データ2105にアクセスし、図22に示されている方法2200を行うように構成することができる。方法2200を、全部または一部において、単一のコンピューターデバイス、および複数の電子デバイスなどによって行うことができる。方法2200は、ステップ2201で複数の配列リードを参照配列にアラインさせることを含み得る。
方法2200は、ステップ2202で、複数の配列リードのうちの少なくとも1つの配列リードの参照配列へのアラインメントで1つまたは複数の切断点を決定することを含み得る。
方法2200は、ステップ2203で、アラインメントで1つまたは複数の切断点に関連する任意の配列リードを候補融合配列リードとして同定することを含み得る。アラインメントで1つまたは複数の切断点に関連する任意の配列リードを候補融合配列リードとして同定することは、閾値未満のマッピング可能性スコアを有するアラインメントを破棄することを含み得る。アラインメントで1つまたは複数の切断点に関連する任意の配列リードを候補融合配列リードとして同定することは、論理的であるアラインメントを破棄することを含み得る。
方法2200は、ステップ2204で、1つまたは複数の切断点のうちの共通の切断点に関連する候補融合配列リードを決定することを含み得る。1つまたは複数の切断点のうちの共通の切断点に関連する候補融合配列リードを決定することは、2つの候補融合配列リードが切断点を同じ染色体に同じ配向で含むことを決定することを含み得る。1つまたは複数の切断点のうちの共通の切断点に関連する候補融合配列リードを決定することは、2つの候補融合配列リードが切断点を同じ位置に含むことを決定することを含み得る。1つまたは複数の切断点のうちの共通の切断点に関連する候補融合配列リードを決定することは、2つの候補融合配列リードが切断点をある位置から閾値塩基数以内に含むことを決定することを含み得る。位置からの閾値塩基数は、例えば、1~40塩基であり得る。ある実施形態では、位置からの閾値塩基数は、10塩基であり得る。ある実施形態では、位置からの閾値塩基数は、11塩基であり得る。ある実施形態では、位置からの閾値塩基数は、12塩基であり得る。1つまたは複数の切断点のうちの共通の切断点に関連する候補融合配列リードを決定することは、2つの候補融合配列リードが複数の切断点を同じ染色体に同じ配向で含むことを決定することを含み得る。1つまたは複数の切断点のうちの共通の切断点に関連する候補融合配列リードを決定することは、2つの候補融合配列リードが複数の切断点を同じ位置に含むことを決定することを含み得る。1つまたは複数の切断点のうちの共通の切断点に関連する候補融合配列リードを決定することは、2つの候補融合配列リードが複数の切断点を複数の位置から閾値塩基数以内に含むことを決定することを含み得る。複数の位置からの閾値塩基数は、例えば、1~40塩基であり得る。ある実施形態では、複数の位置からの閾値塩基数は、10塩基であり得る。ある実施形態では、複数の位置からの閾値塩基数は、11塩基であり得る。ある実施形態では、複数の位置からの閾値塩基数は、12塩基であり得る。ある実施形態では、複数の位置からの閾値塩基数は、13塩基であり得る。ある実施形態では、複数の位置からの閾値塩基数は、14塩基であり得る。ある実施形態では、複数の位置からの閾値塩基数は、15塩基であり得る。
方法2200は、ステップ2205で、1つまたは複数の共通の切断点に基づいて候補融合配列リードをグループ化することを含み得る。1つまたは複数の共通の切断点に基づいて候補融合配列リードをグループ化することは、グループについての(例えば、各グループについての)de Bruijnグラフを生成することを含み得る。
方法2200は、ステップ2206で、グループ内の(例えば、各グループについての)候補融合配列リードを1つまたは複数のコンティグにアセンブルすることを含み得る。グループ内の候補融合配列リードを1つまたは複数のコンティグにアセンブルすることは、各de Bruijnグラフを線形化してグループについてのコンティグを生成することを含み得る。グループ内の候補融合配列リードを1つまたは複数のコンティグにアセンブルすることは、1つまたは複数のエラー補正手順を行うことを含み得る。1つまたは複数のエラー補正手順は、候補融合配列リードと参照配列の間のミスマッチを解消することを含み得る。1つまたは複数のエラー補正手順は、少なくとも2つの候補融合配列リード間にパディングを挿入することを含み得る。1つまたは複数のエラー補正手順は、閾値を超えるアラインされていない部分を有する1つまたは複数の候補融合配列リードを破棄することを含み得る。
方法2200は、ステップ2207で、グループからの(例えば、各グループについての)コンティグを参照配列にアラインさせることを含み得る。
方法2200は、ステップ2208で、グループからの(例えば、各グループについての)コンティグのアラインメントに基づいて、1つまたは複数の候補融合事象を決定することを含み得る。グループからのコンティグのアラインメントに基づいて、1つまたは複数の候補融合事象を決定することは、フットプリント試験またはばらつき試験の1つまたは複数を適用することを含み得る。フットプリント試験を適用することは、コンティグを支持する候補融合配列リードのファミリーの閾値数が切断点に及ぶことを決定することを含み得る。ばらつき試験を適用することは、閾値ばらつき量が、コンティグを支持し切断点に及ぶ候補融合配列リードの少なくとも2つのファミリー間に存在することを決定することを含み得る。
方法2200は、ステップ2209で、1つまたは複数の候補融合事象に1つまたは複数の基準を適用することを含み得る。
1つまたは複数の候補融合事象に1つまたは複数の基準を適用することは、候補融合事象について(例えば、各候補融合事象について)、1つまたは複数のアラインされたコンティグの切断点とパネルの少なくとも1つのプローブの位置との間の距離を決定すること、およびパネルの少なくとも1つのプローブの位置からの距離が閾値未満である切断点を含有しない1つまたは複数のコンティグのアラインされたコンティグに関連する任意の候補融合事象を破棄することを含み得る。例として、距離は、1~1,000塩基であり得る。ある実施形態では、距離は、350塩基であり得る。候補融合事象を決定する配列リード(ステップ2201)は、パネルについての濃縮されたDNAに由来し得る。
1つまたは複数の候補融合事象に1つまたは複数の基準を適用することは、目的の1つまたは複数の遺伝子を決定すること、および目的の1つまたは複数の遺伝子に関連する切断点を含有しない1つまたは複数のコンティグのアラインされたコンティグに関連する任意の候補融合事象を破棄することを含み得る。
1つまたは複数の候補融合事象に1つまたは複数の基準を適用することは、候補融合事象について、1つまたは複数のアラインされたコンティグの切断点が欠失であることを決定すること、および別の欠失から離れているいくつかの塩基内に位置する欠失を含む1つまたは複数のコンティグのアラインされたコンティグに関連する任意の候補融合事象を破棄することを含み得る。
1つまたは複数の候補融合事象に1つまたは複数の基準を適用することは、候補融合事象について、1つまたは複数のアラインされたコンティグの切断点が欠失であることを決定すること、および閾値未満のいくつかの塩基を含む欠失を含む1つまたは複数のコンティグのアラインされたコンティグに関連する任意の候補融合事象を破棄することを含み得る。
1つまたは複数の候補融合事象に1つまたは複数の基準を適用することは、イントロン領域に完全に埋まっている挿入または欠失を含む1つまたは複数のコンティグのアラインされたコンティグに関連する任意の候補融合事象を破棄することを含み得る。
1つまたは複数の候補融合事象に1つまたは複数の基準を適用することは、候補融合事象について、1つまたは複数のアラインされたコンティグについて、分子のリードに対する比を決定すること、および閾値を超える分子のリードに対する比に関連しているが二本鎖支持分子に関連していない、1つまたは複数のコンティグのアラインされたコンティグに関連する任意の候補融合事象を破棄することを含み得る。
1つまたは複数の候補融合事象に1つまたは複数の基準を適用することは、候補融合事象について、1つまたは複数のアラインされたコンティグの切断点対について、切断点対の切断点に隣接している配列を決定すること、切断点対の切断点に隣接している配列をアラインさせること、切断点対の切断点に隣接している配列のアラインメントについてのアラインメントスコアを決定すること、および閾値を超えるアラインメントスコアに基づく1つまたは複数のコンティグのアラインされたコンティグに関連する任意の候補融合事象を破棄することを含み得る。
1つまたは複数の候補融合事象に1つまたは複数の基準を適用することは、候補融合事象について、1つまたは複数のアラインされたコンティグの切断点対について、切断点対の切断点に中心がある配列を決定すること、切断点を中心とする配列を互いにアラインさせること、切断点を中心とする配列のアラインメントについてのアラインメントスコアを決定すること、および閾値を超えるアラインメントスコアに基づく1つまたは複数のコンティグのアラインされたコンティグに関連する任意の候補融合事象を破棄することを含み得る。
方法2200は、ステップ2210で、1つまたは複数の候補融合事象に1つまたは複数の基準を適用することに基づいて、1つまたは複数の融合事象を決定することを含み得る。任意の残存候補融合事象を、1つまたは複数の融合事象として決定することができる。
ある実施形態では、融合コーラーモジュール2104を、配列データ2105にアクセスし、図23に示されている方法2300を行うように構成することができる。方法2300を、全部または一部において、単一のコンピューターデバイス、および複数の電子デバイスなどによって行うことができる。方法2300は、ステップ2310で複数の配列リードを参照配列にアラインさせることを含み得る。
方法2300は、ステップ2320で、配列リードの参照配列へのアラインメントでの1つまたは複数の切断点に基づいて、複数の配列リードの1つまたは複数の候補融合配列リードを決定することを含み得る。配列リードの参照配列へのアラインメントでの1つまたは複数の切断点に基づいて、複数の配列リードの1つまたは複数の候補融合配列リードを決定することは、2つの候補融合配列リードが切断点を同じ染色体に同じ配向で含むことを決定することを含み得る。配列リードの参照配列へのアラインメントでの1つまたは複数の切断点に基づいて、複数の配列リードの1つまたは複数の候補融合配列リードを決定することは、2つの候補融合配列リードが切断点を同じ位置に含むことを決定することを含み得る。配列リードの参照配列へのアラインメントでの1つまたは複数の切断点に基づいて、複数の配列リードの1つまたは複数の候補融合配列リードを決定することは、2つの候補融合配列リードが切断点をある位置から閾値塩基数以内に含むことを決定することを含み得る。位置からの閾値塩基数は、例えば、1~40塩基であり得る。ある実施形態では、位置からの閾値塩基数は、10塩基であり得る。ある実施形態では、位置からの閾値塩基数は、11塩基であり得る。ある実施形態では、位置からの閾値塩基数は、12塩基であり得る。配列リードの参照配列へのアラインメントでの1つまたは複数の切断点に基づいて、複数の配列リードの1つまたは複数の候補融合配列リードを決定することは、2つの候補融合配列リードが複数の切断点を同じ染色体に同じ配向で含むことを決定することを含み得る。配列リードの参照配列へのアラインメントでの1つまたは複数の切断点に基づいて、複数の配列リードの1つまたは複数の候補融合配列リードを決定することは、2つの候補融合配列リードが複数の切断点を同じ位置に含むことを決定することを含み得る。配列リードの参照配列へのアラインメントでの1つまたは複数の切断点に基づいて、複数の配列リードの1つまたは複数の候補融合配列リードを決定することは、2つの候補融合配列リードが複数の切断点を複数の位置から閾値塩基数以内に含むことを決定することを含み得る。複数の位置からの閾値塩基数は、例えば、1~40塩基であり得る。ある実施形態では、位置からの閾値塩基数は、10塩基であり得る。ある実施形態では、位置からの閾値塩基数は、11塩基であり得る。ある実施形態では、複数の位置からの閾値塩基数は、12塩基であり得る。
方法2300は、ステップ2330で、1つまたは複数の共通の切断点に基づいて、1つまたは複数の候補融合配列リードを1つまたは複数のコンテナデータ構造にグループ化することを含み得る。異なるアラインメントからの切断点を共通のコンテナデータ構造に割り当てることができる。de Bruijnグラフ技法による1つまたは複数のコンテナデータ構造への1つまたは複数の候補融合配列リード。
方法2300は、ステップ2340で、コンテナデータ構造について(例えば、各コンテナデータ構造について)、1つまたは複数の候補融合配列リードを1つまたは複数のコンティグにアセンブルすることを含み得る。1つまたは複数の候補融合リードを1つまたは複数のコンティグにアセンブルすることは、コンテナデータ構造について(例えば、各コンテナデータ構造について)、1つまたは複数の候補融合配列リードをグラフデータ構造にアセンブルすること、およびグラフデータ構造を線形化して1つまたは複数のコンティグを生成することを含み得る。1つまたは複数の候補融合配列リードを1つまたは複数のコンティグにアセンブルすることは、1つまたは複数のエラー補正手順を行うことを含み得る。1つまたは複数のエラー補正手順は、候補融合配列リードと参照配列の間のミスマッチを解消することを含み得る。1つまたは複数のエラー補正手順は、2つまたはそれより多くの候補融合配列リード間にパディングを挿入することを含み得る。1つまたは複数のエラー補正手順は、閾値を超えるアラインされていない部分を有する1つまたは複数の候補融合配列リードを破棄することを含み得る。
方法2300は、ステップ2350で、コンテナデータ構造について(例えば、各コンテナデータ構造について)、1つまたは複数のコンティグを参照配列にアラインさせることを含み得る。方法2300は、フットプリント試験またはばらつき試験の1つまたは複数を適用することを含み得る、コンテナデータ構造からのコンティグのアラインメントに基づいて1つまたは複数の候補融合事象を決定するステップを、さらに含み得る。フットプリント試験を適用することは、コンティグを支持する候補融合配列リードのファミリーの閾値数が切断点に及ぶことを決定することを含み得る。ばらつき試験を適用することは、閾値ばらつき量が、コンティグを支持し切断点に及ぶ候補融合配列リードの少なくとも2つのファミリー間に存在することを決定することを含む。
方法2300は、ステップ2360で、1つまたは複数の基準に基づいて、融合事象を示す1つまたは複数のアラインされたコンティグを決定することを含み得る。任意の残存候補融合事象を、1つまたは複数の融合事象として決定することができる。1つまたは複数の基準に基づいて、1つまたは複数の融合事象を示す1つまたは複数のアラインされたコンティグを決定することは、1つまたは複数のアラインされたコンティグの切断点とパネルの少なくとも1つのプローブの位置との間の距離を決定すること、およびパネルの少なくとも1つのプローブの位置からの距離が閾値未満である切断点を含有しない1つまたは複数のコンティグの任意のアラインされたコンティグを破棄することを含み得る。例として、距離は、1~1,000塩基であり得る。ある実施形態では、距離は、350塩基であり得る。候補融合事象を決定する配列リード(ステップ2310)は、パネルについての濃縮されたDNAに由来し得る。1つまたは複数の基準に基づいて、融合事象を示す1つまたは複数のアラインされたコンティグを決定することは、目的の1つまたは複数の遺伝子を決定すること、および目的の1つまたは複数の遺伝子に関連する切断点を含有しない1つまたは複数のコンティグの任意のアラインされたコンティグを破棄することを含み得る。1つまたは複数の基準に基づいて、融合事象を示す1つまたは複数のアラインされたコンティグを決定することは、1つまたは複数のアラインされたコンティグの切断点が欠失であることを決定すること、および別の欠失から離れているいくつかの塩基内に位置する欠失を含む1つまたは複数のコンティグの任意のアラインされたコンティグを破棄することを含み得る。1つまたは複数の基準に基づいて、融合事象を示す1つまたは複数のアラインされたコンティグを決定することは、1つまたは複数のアラインされたコンティグの切断点が欠失であることを決定すること、および閾値未満のいくつかの塩基を含む欠失を含む1つまたは複数のコンティグの任意のアラインされたコンティグを破棄することを含み得る。1つまたは複数の基準に基づいて、融合事象を示す1つまたは複数のアラインされたコンティグを決定することは、イントロン領域に完全に埋まっている挿入または欠失を含む1つまたは複数のコンティグの任意のアラインされたコンティグを破棄することを含み得る。1つまたは複数の基準に基づいて、融合事象を示す1つまたは複数のアラインされたコンティグを決定することは、1つまたは複数のアラインされたコンティグについて、分子のリードに対する比を決定すること、および閾値を超える分子のリードに対する比に関連しているが二本鎖支持分子に関連していない、1つまたは複数のコンティグの任意のアラインされたコンティグを破棄することを含み得る。1つまたは複数の基準に基づいて、融合事象を示す1つまたは複数のアラインされたコンティグを決定することは、1つまたは複数のアラインされたコンティグの切断点対について、切断点対の切断点に隣接している配列を決定すること、切断点対の切断点に隣接している配列をアラインさせること、切断点対の切断点に隣接している配列のアラインメントについてのアラインメントスコアを決定すること、および閾値を超えるアラインメントスコアに基づく1つまたは複数のコンティグの任意のアラインされたコンティグを破棄することを含み得る。1つまたは複数の基準に基づいて、融合事象を示す1つまたは複数のアラインされたコンティグを決定することは、1つまたは複数のアラインされたコンティグの切断点対について、切断点対の切断点に中心がある配列を決定すること、切断点を中心とする配列を互いにアラインさせること、切断点を中心とする配列のアラインメントについてのアラインメントスコアを決定すること、および閾値を超えるアラインメントスコアに基づく1つまたは複数のコンティグの任意のアラインされたコンティグを破棄することを含み得る。
方法2300は、1つまたは複数のコンティグの任意のアラインされたコンティグを破棄することに基づいて、ライブラリー調製に関連する問題点を示す通知を生成することをさらに含み得る。
特定の構成を説明してきたが、本明細書における構成は、あらゆる点で、限定的ではなく可能な構成であることを意図したものであるので、示した特定の構成に範囲を限定することを意図したものではない。別段の明確な記述がない限り、本明細書で示したいずれの方法も、そのステップを特定の順序で行うことを要求すると解釈されることを意図したものでは決してない。したがって、そのステップが後に続くような順序が方法請求項に実際に記述されていない、またはステップを特定の順序に限定するべきであることが特許請求の範囲でも明細書でも別様に具体的に述べられていない場合、いかなる点においても順序を推論することを意図したものでは決してない。このことは、ステップまたはオペレーショナルフローの配置に関する論理の問題;文法構成または句読点から導かれる明らかな意味;明細書に記載されている構成の数またはタイプをはじめとする、解釈のあらゆる可能な非明示的根拠に当てはまる。
当業者には、本範囲または趣旨を逸脱することなく、様々な修正および変更を加えることができることは明らかであろう。他の構成は、当業者には、本明細書、および本明細書に記載の実践を考察することでは明らかであろう。本明細書および記載の構成は例示とみなされることを意図したものに過ぎず、真の範囲および趣旨は、後続の特許請求の範囲によって示す。

Claims (61)

  1. 複数の配列リードを参照配列にアラインさせるステップ;
    前記複数の配列リードの複数の配列リードの前記参照配列へのアラインメントで1つまたは複数の切断点を決定するステップ;
    前記アラインメントで前記1つまたは複数の切断点に関連する任意の配列リードを候補融合配列リードとして同定するステップ;
    1つまたは複数の切断点のうちの共通の切断点に関連する候補融合配列リードを決定するステップ;
    1つまたは複数の共通の切断点に基づいて前記候補融合配列リードをグループ化するステップ;
    前記グループ内の前記候補融合配列リードを1つまたは複数のコンティグにアセンブルするステップ;
    複数のグループのうちの前記グループからの前記コンティグを前記参照配列にアラインさせるステップ;
    前記グループからの前記コンティグの前記アラインメントに基づいて、1つまたは複数の候補融合事象を決定するステップ;
    前記1つまたは複数の候補融合事象に1つまたは複数の基準を適用するステップ;および
    前記1つまたは複数の候補融合事象に前記1つまたは複数の基準を適用するステップに基づいて、1つまたは複数の融合事象を決定するステップ
    を含む方法。
  2. 前記アラインメントで前記1つまたは複数の切断点に関連する任意の配列リードを候補融合配列リードとして同定するステップが、閾値未満のマッピング可能性スコアを有するアラインメントを破棄することを含む、請求項1に記載の方法。
  3. 前記アラインメントで前記1つまたは複数の切断点に関連する任意の配列リードを候補融合配列リードとして同定するステップが、論理的であるアラインメントを破棄することを含む、請求項1から2のいずれか一項に記載の方法。
  4. 1つまたは複数の切断点のうちの共通の切断点に関連する候補融合配列リードを決定するステップが、少なくとも2つの候補融合配列リードが同じ染色体に、かつ同じ配向にある切断点を含むことを決定することを含む、請求項1から3のいずれか一項に記載の方法。
  5. 1つまたは複数の切断点のうちの共通の切断点に関連する候補融合配列リードを決定するステップが、少なくとも2つの候補融合配列リードが同じ位置にある切断点を含むことを決定することを含む、請求項1から4のいずれか一項に記載の方法。
  6. 1つまたは複数の切断点のうちの共通の切断点に関連する候補融合配列リードを決定するステップが、少なくとも2つの候補融合配列リードがある位置から閾値塩基数以内にある切断点を含むことを決定することを含む、請求項1から5のいずれか一項に記載の方法。
  7. 1つまたは複数の切断点のうちの共通の切断点に関連する候補融合配列リードを決定するステップが、少なくとも2つの候補融合配列リードが同じ染色体に、かつ同じ配向にある複数の切断点を含むことを決定することを含む、請求項1から6のいずれか一項に記載の方法。
  8. 1つまたは複数の切断点のうちの共通の切断点に関連する候補融合配列リードを決定するステップが、少なくとも2つの候補融合配列リードが同じ位置にある複数の切断点を含むことを決定することを含む、請求項1から7のいずれか一項に記載の方法。
  9. 1つまたは複数の切断点のうちの共通の切断点に関連する候補融合配列リードを決定するステップが、少なくとも2つの候補融合配列リード各々が複数の位置から閾値塩基数以内にある複数の切断点を含むことを決定することを含む、請求項1から8のいずれか一項に記載の方法。
  10. 1つまたは複数の共通の切断点に基づいて前記候補融合配列リードをグループ化するステップが、前記グループについてのde Bruijnグラフを生成することを含む、請求項1から9のいずれか一項に記載の方法。
  11. 前記グループ内の前記候補融合配列リードを1つまたは複数のコンティグにアセンブルするステップが、前記de Bruijnグラフを線形化して前記グループについてのコンティグを生成することを含む、請求項10に記載の方法。
  12. 前記グループ内の前記候補融合配列リードを1つまたは複数のコンティグにアセンブルするステップが、1つまたは複数のエラー補正手順を行うことを含む、請求項1から11のいずれか一項に記載の方法。
  13. 前記1つまたは複数のエラー補正手順が、候補融合配列リードと前記参照配列の間のミスマッチを解消することを含む、請求項12に記載の方法。
  14. 前記1つまたは複数のエラー補正手順が、少なくとも2つの候補融合配列リード間にパディングを挿入することを含む、請求項12から13のいずれか一項に記載の方法。
  15. 前記1つまたは複数のエラー補正手順が、閾値を超えるアラインされていない部分を有する1つまたは複数の候補融合配列リードを破棄することを含む、請求項12から14のいずれか一項に記載の方法。
  16. 前記グループからの前記コンティグの前記アラインメントに基づいて1つまたは複数の候補融合事象を決定するステップが、フットプリント試験またはばらつき試験の1つまたは複数を適用することを含む、請求項1から15のいずれか一項に記載の方法。
  17. 前記フットプリント試験を適用することが、前記コンティグを支持する候補融合配列リードのファミリーの閾値数が前記切断点に及ぶことを決定することを含む、請求項16に記載の方法。
  18. 前記ばらつき試験を適用することが、閾値ばらつき量が、前記コンティグを支持し前記切断点に及ぶ候補融合配列リードの少なくとも2つのファミリー間に存在することを決定することを含む、請求項16から17のいずれか一項に記載の方法。
  19. 前記1つまたは複数の候補融合事象に1つまたは複数の基準を適用するステップが、
    前記候補融合事象について、前記1つまたは複数のアラインされたコンティグの切断点とパネルの少なくとも1つのプローブの位置との間の距離を決定すること;および
    パネルの少なくとも1つのプローブの位置からの距離が閾値未満である切断点を含有しない前記1つまたは複数のコンティグのアラインされたコンティグに関連する任意の候補融合事象を破棄すること
    を含む、請求項1から18のいずれか一項に記載の方法。
  20. 前記1つまたは複数の候補融合事象に1つまたは複数の基準を適用するステップが、
    目的の1つまたは複数の遺伝子を決定すること;および
    目的の前記1つまたは複数の遺伝子に関連する切断点を含有しない前記1つまたは複数のコンティグのアラインされたコンティグに関連する任意の候補融合事象を破棄すること
    を含む、請求項1から19のいずれか一項に記載の方法。
  21. 前記1つまたは複数の候補融合事象に1つまたは複数の基準を適用するステップが、
    前記候補融合事象について、前記1つまたは複数のアラインされたコンティグの切断点が欠失であることを決定すること;および
    別の欠失から離れているいくつかの塩基内に位置する欠失を含む前記1つまたは複数のコンティグのアラインされたコンティグに関連する任意の候補融合事象を破棄すること
    を含む、請求項1から20のいずれか一項に記載の方法。
  22. 前記1つまたは複数の候補融合事象に1つまたは複数の基準を適用するステップが、
    前記候補融合事象について、前記1つまたは複数のアラインされたコンティグの切断点が欠失であることを決定すること;および
    閾値未満のいくつかの塩基を含む欠失を含む前記1つまたは複数のコンティグのアラインされたコンティグに関連する任意の候補融合事象を破棄すること
    を含む、請求項1から21のいずれか一項に記載の方法。
  23. 前記1つまたは複数の候補融合事象に1つまたは複数の基準を適用するステップが、
    イントロン領域に完全に埋まっている挿入または欠失を含む前記1つまたは複数のコンティグのアラインされたコンティグに関連する任意の候補融合事象を破棄すること
    を含む、請求項1から22のいずれか一項に記載の方法。
  24. 前記1つまたは複数の候補融合事象に1つまたは複数の基準を適用するステップが、
    前記候補融合事象について、前記1つまたは複数のアラインされたコンティグについて、分子のリードに対する比を決定すること;および
    閾値を超える分子のリードに対する比に関連しているが二本鎖支持分子に関連していない、前記1つまたは複数のコンティグのアラインされたコンティグに関連する任意の候補融合事象を破棄すること
    を含む、請求項1から23のいずれか一項に記載の方法。
  25. 前記1つまたは複数の候補融合事象に1つまたは複数の基準を適用するステップが、
    前記候補融合事象について、前記1つまたは複数のアラインされたコンティグの切断点対について、前記切断点対の前記切断点に隣接している配列を決定すること;
    前記切断点対の前記切断点に隣接している前記配列をアラインさせること;
    前記切断点対の前記切断点に隣接している前記配列の前記アラインメントについてのアラインメントスコアを決定すること;および
    閾値を超える前記アラインメントスコアに基づく前記1つまたは複数のコンティグのアラインされたコンティグに関連する任意の候補融合事象を破棄すること
    を含む、請求項1から24のいずれか一項に記載の方法。
  26. 前記1つまたは複数の候補融合事象に1つまたは複数の基準を適用するステップが、
    前記候補融合事象について、前記1つまたは複数のアラインされたコンティグの前記切断点対について、前記切断点対の前記切断点に中心がある配列を決定すること;
    前記切断点を中心とする配列を互いにアラインさせること;
    前記切断点を中心とする前記配列の前記アラインメントについてのアラインメントスコアを決定すること;および
    閾値を超える前記アラインメントスコアに基づく前記1つまたは複数のコンティグのアラインされたコンティグに関連する任意の候補融合事象を破棄すること
    を含む、請求項1から25のいずれか一項に記載の方法。
  27. 複数の配列リードを参照配列にアラインさせるステップ;
    配列リードの前記参照配列への前記アラインメントでの1つまたは複数の切断点に基づいて、前記複数の配列リードの1つまたは複数の候補融合配列リードを決定するステップ;
    1つまたは複数の共通の切断点に基づいて、前記1つまたは複数の候補融合配列リードを1つまたは複数のコンテナデータ構造にグループ化するステップ;
    前記コンテナデータ構造について、前記1つまたは複数の候補融合配列リードを1つまたは複数のコンティグにアセンブルするステップ;
    前記コンテナデータ構造について、前記1つまたは複数のコンティグを前記参照配列にアラインさせるステップ;および
    1つまたは複数の基準に基づいて、融合事象を示す1つまたは複数のアラインされたコンティグを決定するステップ
    を含む方法。
  28. 配列リードの前記参照配列への前記アラインメントでの1つまたは複数の切断点に基づいて、前記複数の配列リードの1つまたは複数の候補融合配列リードを決定するステップが、少なくとも2つの候補融合配列リードが同じ染色体に、かつ同じ配向にある切断点を含むことを決定することを含む、請求項27に記載の方法。
  29. 配列リードの前記参照配列への前記アラインメントでの1つまたは複数の切断点に基づいて、前記複数の配列リードの1つまたは複数の候補融合配列リードを決定するステップが、少なくとも2つの候補融合配列リードが同じ位置にある切断点を含むことを決定することを含む、請求項27から28のいずれか一項に記載の方法。
  30. 配列リードの前記参照配列への前記アラインメントでの1つまたは複数の切断点に基づいて、前記複数の配列リードの1つまたは複数の候補融合配列リードを決定するステップが、少なくとも2つの候補融合配列リードがある位置から閾値塩基数以内にある切断点を含むことを決定することを含む、請求項27から29のいずれか一項に記載の方法。
  31. 配列リードの前記参照配列への前記アラインメントでの1つまたは複数の切断点に基づいて、前記複数の配列リードの1つまたは複数の候補融合配列リードを決定するステップが、少なくとも2つの候補融合配列リードが同じ染色体に、かつ同じ配向にある複数の切断点を含むことを決定することを含む、請求項27から30のいずれか一項に記載の方法。
  32. 配列リードの前記参照配列への前記アラインメントでの1つまたは複数の切断点に基づいて、前記複数の配列リードの1つまたは複数の候補融合配列リードを決定するステップが、少なくとも2つの候補融合配列リードが同じ位置にある複数の切断点を含むことを決定することを含む、請求項27から31のいずれか一項に記載の方法。
  33. 配列リードの前記参照配列への前記アラインメントでの1つまたは複数の切断点に基づいて、前記複数の配列リードの1つまたは複数の候補融合配列リードを決定するステップが、少なくとも2つの候補融合配列リードが複数の位置から閾値塩基数以内にある複数の切断点を含むことを決定することを含む、請求項27から32のいずれか一項に記載の方法。
  34. 異なるアラインメントからの切断点が、共通のコンテナデータ構造に割り当てられる、請求項27から33のいずれか一項に記載の方法。
  35. 前記グループについて、前記1つまたは複数の候補融合リードを1つまたは複数のコンティグにアセンブルするステップが、
    前記グループについて、前記1つまたは複数の候補融合配列リードをグラフデータ構造にアセンブルすること;および
    前記グラフデータ構造を線形化して1つまたは複数のコンティグを生成すること
    を含む、請求項27から34のいずれか一項に記載の方法。
  36. 前記1つまたは複数の候補融合配列リードを1つまたは複数のコンティグにアセンブルするステップが、1つまたは複数のエラー補正手順を行うことを含む、請求項27から35のいずれか一項に記載の方法。
  37. 前記1つまたは複数のエラー補正手順が、候補融合配列リードと前記参照配列の間のミスマッチを解消することを含む、請求項36に記載の方法。
  38. 前記1つまたは複数のエラー補正手順が、少なくとも2つの候補融合配列リード間にパディングを挿入することを含む、請求項36から37のいずれか一項に記載の方法。
  39. 前記1つまたは複数のエラー補正手順が、閾値を超えるアラインされていない部分を有する1つまたは複数の候補融合配列リードを破棄することを含む、請求項36から38のいずれか一項に記載の方法。
  40. 前記グループからの前記コンティグの前記アラインメントに基づいて、1つまたは複数の候補融合事象を決定するステップであって、フットプリント試験またはばらつき試験の1つまたは複数を適用することを含むステップをさらに含む、請求項27から39のいずれか一項に記載の方法。
  41. 前記フットプリント試験を適用することが、前記コンティグを支持する候補融合配列リードのファミリーの閾値数が前記切断点に及ぶことを決定することを含む、請求項40に記載の方法。
  42. 前記ばらつき試験を適用することが、閾値ばらつき量が、前記コンティグを支持し前記切断点に及ぶ候補融合配列リードの少なくとも2つのファミリー間に存在することを決定することを含む、請求項40から41のいずれか一項に記載の方法。
  43. 前記1つまたは複数の基準に基づいて、1つまたは複数の融合事象を示す前記1つまたは複数のアラインされたコンティグを決定するステップが、
    前記1つまたは複数のアラインされたコンティグの切断点とパネルの少なくとも1つのプローブの位置との間の距離を決定すること;および
    パネルの少なくとも1つのプローブの位置からの距離が閾値未満である切断点を含有しない前記1つまたは複数のコンティグの任意のアラインされたコンティグを破棄すること
    を含む、請求項27から42のいずれか一項に記載の方法。
  44. 前記1つまたは複数の基準に基づいて、前記融合事象を示す前記1つまたは複数のアラインされたコンティグを決定するステップが、
    目的の1つまたは複数の遺伝子を決定すること;および
    目的の前記1つまたは複数の遺伝子に関連する切断点を含有しない前記1つまたは複数のコンティグの任意のアラインされたコンティグを破棄すること
    を含む、請求項27から43のいずれか一項に記載の方法。
  45. 前記1つまたは複数の基準に基づいて、前記融合事象を示す前記1つまたは複数のアラインされたコンティグを決定するステップが、
    前記1つまたは複数のアラインされたコンティグの切断点が欠失であることを決定すること;および
    別の欠失から離れているいくつかの塩基内に位置する欠失を含む前記1つまたは複数のコンティグの任意のアラインされたコンティグを破棄すること
    を含む、請求項27から44のいずれか一項に記載の方法。
  46. 前記1つまたは複数の基準に基づいて、前記融合事象を示す前記1つまたは複数のアラインされたコンティグを決定するステップが、
    前記1つまたは複数のアラインされたコンティグの切断点が欠失であることを決定すること;および
    閾値未満のいくつかの塩基を含む欠失を含む前記1つまたは複数のコンティグの任意のアラインされたコンティグを破棄すること
    を含む、請求項27から45のいずれか一項に記載の方法。
  47. 前記1つまたは複数の基準に基づいて、前記融合事象を示す前記1つまたは複数のアラインされたコンティグを決定するステップが、
    イントロン領域に完全に埋まっている挿入または欠失を含む前記1つまたは複数のコンティグの任意のアラインされたコンティグを破棄すること
    を含む、請求項27から46のいずれか一項に記載の方法。
  48. 前記1つまたは複数の基準に基づいて、前記融合事象を示す前記1つまたは複数のアラインされたコンティグを決定するステップが、
    前記1つまたは複数のアラインされたコンティグについて、分子のリードに対する比を決定すること;および
    閾値を超える分子のリードに対する比に関連しているが二本鎖支持分子に関連していない、前記1つまたは複数のコンティグの任意のアラインされたコンティグを破棄すること
    を含む、請求項27から47のいずれか一項に記載の方法。
  49. 前記1つまたは複数の基準に基づいて、前記融合事象を示す前記1つまたは複数のアラインされたコンティグを決定するステップが、
    前記1つまたは複数のアラインされたコンティグの切断点対について、前記切断点対の前記切断点に隣接している配列を決定すること;
    前記切断点対の前記切断点に隣接している前記配列をアラインさせること;
    前記切断点対の前記切断点に隣接している前記配列の前記アラインメントについてのアラインメントスコアを決定すること;および
    閾値を超える前記アラインメントスコアに基づく前記1つまたは複数のコンティグの任意のアラインされたコンティグを破棄すること
    を含む、請求項27から48のいずれか一項に記載の方法。
  50. 前記1つまたは複数の基準に基づいて、前記融合事象を示す前記1つまたは複数のアラインされたコンティグを決定するステップが、
    前記1つまたは複数のアラインされたコンティグの前記切断点対について、前記切断点対の前記切断点に中心がある配列を決定すること;
    前記切断点を中心とする配列を互いにアラインさせること;
    前記切断点を中心とする前記配列の前記アラインメントについてのアラインメントスコアを決定すること;および
    閾値を超える前記アラインメントスコアに基づく前記1つまたは複数のコンティグの任意のアラインされたコンティグを破棄すること
    を含む、請求項27から49のいずれか一項に記載の方法。
  51. 前記1つまたは複数のコンティグの任意のアラインされたコンティグを破棄することに基づいて、ライブラリー調製に関連する問題点を示す通知を生成するステップ
    をさらに含む、請求項27から50のいずれか一項に記載の方法。
  52. 1つまたは複数のプロセッサーと;
    前記1つまたは複数のプロセッサーによる実行時に、請求項1から51のいずれかに記載の方法を装置に行わせる、プロセッサー実行可能命令を記憶するメモリーと
    を含む、装置。
  53. 少なくとも1つのコンピューターデバイスによる実行時に、請求項1から51のいずれかに記載の方法を前記少なくとも1つのコンピューターデバイスに行わせる、プロセッサー実行可能命令を記憶する非一時的なコンピューター可読媒体。
  54. 請求項1から51のいずれかに記載の方法を行うように構成された少なくとも1つのコンピューターデバイスを含むシステム。
  55. 対象を処置する方法であって、前記対象に治療薬を投与するステップを含み、前記対象が、請求項1から51に記載の方法のうちの1つまたは複数を使用して融合事象を有すると決定されている、方法。
  56. 融合事象を有すると決定された前記対象が、がんを有すると診断されている、請求項55に記載の方法。
  57. 前記がんが、融合事象に関連するがんである、請求項56に記載の方法。
  58. 融合事象に関連する前記がんが、進行尿路上皮がん、前立腺がん、乳がん、肺がん、結腸がん、神経膠芽腫、肝臓がん、および卵巣がんからなる群から選択される、請求項57に記載の方法。
  59. 前記治療薬が、がん治療薬である、請求項55から58のいずれか一項に記載の方法。
  60. 前記がん治療薬が、前記対象が診断されたがんに特異的である、請求項59に記載の方法。
  61. 前記がん治療薬が、前記融合事象に特異的である、請求項59から60のいずれか一項に記載の方法。
JP2022548660A 2020-02-14 2021-02-12 融合事象を決定するための方法およびシステム Pending JP2023513315A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202062976884P 2020-02-14 2020-02-14
US62/976,884 2020-02-14
PCT/US2021/017995 WO2021163592A1 (en) 2020-02-14 2021-02-12 Methods and systems for determining fusion events

Publications (2)

Publication Number Publication Date
JP2023513315A true JP2023513315A (ja) 2023-03-30
JPWO2021163592A5 JPWO2021163592A5 (ja) 2024-02-19

Family

ID=74867631

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022548660A Pending JP2023513315A (ja) 2020-02-14 2021-02-12 融合事象を決定するための方法およびシステム

Country Status (8)

Country Link
US (1) US20210375397A1 (ja)
EP (1) EP4104176A1 (ja)
JP (1) JP2023513315A (ja)
KR (1) KR20220142466A (ja)
CN (1) CN115136241A (ja)
AU (1) AU2021218731A1 (ja)
CA (1) CA3166037A1 (ja)
WO (1) WO2021163592A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210132855A (ko) * 2020-04-28 2021-11-05 삼성전자주식회사 음성 처리 방법 및 장치
US11776529B2 (en) * 2020-04-28 2023-10-03 Samsung Electronics Co., Ltd. Method and apparatus with speech processing
WO2023119252A1 (en) * 2021-12-24 2023-06-29 Canexia Health Inc. Compositions and methods for identification of gene fusions
CN115662523B (zh) * 2022-10-21 2023-06-20 哈尔滨工业大学 面向群体基因组索引表示与构建的方法及设备
CN116994656B (zh) * 2023-09-25 2024-01-02 北京求臻医学检验实验室有限公司 一种用于提高二代测序检测准确度的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11615864B2 (en) * 2017-02-17 2023-03-28 The Board Of Trustees Of The Leland Stanford Junior University Accurate and sensitive unveiling of chimeric biomolecule sequences and applications thereof

Also Published As

Publication number Publication date
WO2021163592A1 (en) 2021-08-19
KR20220142466A (ko) 2022-10-21
US20210375397A1 (en) 2021-12-02
EP4104176A1 (en) 2022-12-21
CA3166037A1 (en) 2021-08-19
AU2021218731A1 (en) 2022-08-04
CN115136241A (zh) 2022-09-30

Similar Documents

Publication Publication Date Title
JP7284849B2 (ja) 不均一分子長を有するユニーク分子インデックスセットの生成およびエラー補正のための方法およびシステム
US20210375397A1 (en) Methods and systems for determining fusion events
JP2022109297A (ja) 無細胞dna分析における遺伝子融合検出の方法および応用
CN111357054B (zh) 用于区分体细胞变异和种系变异的方法和系统
WO2013184643A1 (en) Determining the clinical significance of variant sequences
WO2021231921A1 (en) Homologous recombination repair deficiency detection
US20240233871A9 (en) Methods for the non-invasive detection and monitoring of therapeutic nucleic acid constructs
US20240141425A1 (en) Correcting for deamination-induced sequence errors
US20200232010A1 (en) Methods, compositions, and systems for improving recovery of nucleic acid molecules
US20200071754A1 (en) Methods and systems for detecting contamination between samples
CN115428087A (zh) 克隆水平缺乏靶变体的显著性建模
US20200075124A1 (en) Methods and systems for detecting allelic imbalance in cell-free nucleic acid samples
US20230420080A1 (en) Split-read alignment by intelligently identifying and scoring candidate split groups
US20220068433A1 (en) Computational detection of copy number variation at a locus in the absence of direct measurement of the locus
US20230360725A1 (en) Detecting degradation based on strand bias
KR20240135859A (ko) 이종 분자 길이를 가진 고유 분자 인덱스 세트의 생성 및 오류 수정 방법 및 시스템

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240208

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240208