JP7013490B2 - 配列バリアントコールのためのバリデーションの方法及びシステム - Google Patents

配列バリアントコールのためのバリデーションの方法及びシステム Download PDF

Info

Publication number
JP7013490B2
JP7013490B2 JP2019568644A JP2019568644A JP7013490B2 JP 7013490 B2 JP7013490 B2 JP 7013490B2 JP 2019568644 A JP2019568644 A JP 2019568644A JP 2019568644 A JP2019568644 A JP 2019568644A JP 7013490 B2 JP7013490 B2 JP 7013490B2
Authority
JP
Japan
Prior art keywords
sequence
subset
error rate
read
reads
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019568644A
Other languages
English (en)
Other versions
JP2020524499A (ja
Inventor
チェン・ジャオ
ティンティン・ジャン
Original Assignee
イルミナ インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by イルミナ インコーポレイテッド filed Critical イルミナ インコーポレイテッド
Publication of JP2020524499A publication Critical patent/JP2020524499A/ja
Application granted granted Critical
Publication of JP7013490B2 publication Critical patent/JP7013490B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Error Detection And Correction (AREA)

Description

関連出願の相互参照
本出願は、「配列バリアントコールのためのバリデーションの方法及びシステム」と題され、2017年11月30日に出願した米国仮出願第62/593,095号の優先権を主張し、その開示はすべての目的のために参照により本明細書に組み込まれる。
本開示は、一般に、配列データなどの生体試料に関連するデータの分野に関する。より詳細には、本開示は、シーケンシング操作中に取得された配列決定データに基づく配列バリアントコールをバリデーションするための技術に関する。
遺伝子シーケンシングは、遺伝子研究のますます重要な分野となっており、診断及び他の用途における将来の使用が有望になっている。一般に、遺伝子シーケンシングには、RNA又はDNAの断片などの核酸のヌクレオチドの順序を決定することが含まれる。次世代シーケンシング(NGS)は、生体試料における配列バリアントを同定する機能を提供する。NGS試験としては、単一ヌクレオチドバリアント(SNV)、小さな挿入及び欠失(インデル)、複数ヌクレオチドバリアント(MNV)、遺伝子増幅(CNV)を同定するためのDNAワークフローが挙げられる。NGS試験としては、スプライスバリアントと遺伝子融合を同定するためのRNAワークフローも挙げられる。試料の核酸配列が、配列に沿った1つ又は複数の塩基対位置で参照配列又はベースライン配列と異なると判断されると、配列バリアントが同定される。1つ又は複数の配列バリアントの同定を次々に使用して、患者試料の特徴付け、臨床状態の診断、及び/又は疾患(例、がん)の進行の分類を行うことができる。
しかし、配列バリアントのバリデーションは複雑である。ある種のシーケンシング技術では、バリアントコールに関連して偽陽性が生じる。例えば、この技術により、試料配列中の特定の場所(塩基対)にバリアントが存在すると誤って判断したり、及び/又はバリアントのタイプを誤って同定したりすることがあり、このことにより、同定された配列バリアントにおいて偽陽性がもたらされる。偽陽性の配列バリアントは、試料調製段階で試料自体に導入されたエラーの結果であり得るか、かつ/又は増幅若しくは配列取得中に導入された系統的エラーの結果であり得る。更に、ある種のタイプの試料(例えば、FFPE試料)は、エラーをより起こしやすい場合がある。効率的で費用対効果の高い方法で多くの偽陽性を減らしながら、DNAバリアントを正確に同定することができるシーケンシングの方法及びシステムの必要性が残っている。
定義
特許、特許出願、記事、書籍、論文、及びウェブページを含むがこれらに限定されない、本出願において引用されるすべての文献及び類似の資料は、そのような文献及び類似の資料の形式に関係なく、参照によりそれらの全体が明示的に組み込まれる。限定されるものではないが、定義した用語、用語の用い方、記載した技術などを含めて、組み込まれた文献及び類似の資料のうちの1つ又は複数が、本出願と異なるか又は矛盾する場合には、本出願が優先する。本明細書で使用される場合、以下の用語は示された意味を有する。
「染色体」という用語は、DNA及びタンパク質成分(特にヒストン)を含むクロマチン鎖に由来する、生細胞の遺伝を担う遺伝子キャリアを指す。本明細書では、従来の国際的に認められた個々のヒトゲノム染色体番号付けシステムが使用されている。
「部位」という用語は、参照ゲノム上の固有の位置(例えば、染色体ID、染色体の位置及び配向性)を指す。いくつかの実施形態では、部位は、残基、配列タグ、又は配列上のセグメントの位置であり得る。「遺伝子座」という用語は、参照染色体上の核酸配列又は核酸多型の特定の場所を指すために使用され得る。
本明細書における「試料」又は「生体試料」という用語は、典型的には、配列決定され得る、及び/又はフェーズ化され得る少なくとも1つの核酸配列を含む核酸又は核酸の混合物を含有する生体液、細胞、組織、器官、又は生物に由来する試料を指す。このような試料としては、喀痰/口腔液、羊水、血液、血液画分、細針生検試料(例えば、外科生検、細針生検など)、尿、腹水、胸水、組織外植片、臓器培養物、及びその他の組織若しくは細胞標本、又はそれらの画分若しくはそれらの派生物又はそれらからの単離物が挙げられるが、これらに限定されない。試料は多くの場合、ヒト対象(例えば、患者)から採取されるが、試料は、イヌ、ネコ、ウマ、ヤギ、ヒツジ、ウシ、ブタなどを含むがこれらに限定されない、染色体を有する任意の生物から採取することができる。試料は、生物学的供給源から入手して直接使用してもよいし、又は試料の特性を変更するための前処理後に使用してもよい。例えば、そのような前処理には、血液から血漿を調製すること、粘性流体を希釈することなどが含まれ得る。前処理の方法としては、ろ過、沈殿、希釈、蒸留、混合、遠心分離、凍結、凍結乾燥、濃縮、増幅、核酸断片化、干渉成分の不活性化、試薬の添加、溶解などが挙げられるが、これらに限定されない。
「配列」という用語は、互いに結合したヌクレオチドの鎖を含むか又は表す。ヌクレオチドは、DNA又はRNAに基づいていてもよい。1つの配列が複数の部分列を含むことがあると理解すべきである。例えば、(例えば、PCRアンプリコンの)単一配列は、350ヌクレオチドを有し得る。試料リードは、これらの350ヌクレオチド内の複数の部分列を含み得る。例えば、試料リードは、例えば20~50ヌクレオチドを有する第1の隣接部分列及び第2の隣接部分列を含み得る。第1の隣接部分列及び第2の隣接部分列は、対応する部分列(例えば、40~100ヌクレオチド)を有する反復セグメントのいずれかの側に位置してもよい。隣接部分列のそれぞれは、プライマー部分列(例えば、10~30ヌクレオチド)を含み得る(又はその一部を含み得る)。読みやすくするために、「部分列」という用語を「配列」と呼ぶが、2つの配列が共通の鎖上で必ずしも互いに分離されているわけではないことが理解される。本明細書に記載の種々の配列を区別するために、配列に異なる標識(例えば、標的配列、プライマー配列、隣接配列、ゲノム配列、試料配列、参照配列など)を付与してもよい。「対立遺伝子」などの他の用語には、類似の対象物を区別するために異なる標識を付与してもよい。
「ペアエンドシーケンシング」という用語は、標的断片の両端をシーケンシングするシーケンシングの方法を指す。ペアエンドシーケンシングは、ゲノム再編成及び反復セグメント、並びに遺伝子融合及び新規転写物の検出を促進し得る。ペアエンドシーケンシングの方法論は、PCT国際公開特許WO07010252、PCT出願出願番号PCTGB2007/003798及び米国特許出願公開第US2009/0088327号に記載されており、これらはそれぞれ参照により本明細書に組み込まれる。一例では、一連の操作は以下のように実施し得る:(a)核酸のクラスターを生成する、(b)核酸を直鎖化させる、(c)上記のように、第1のシーケンシングプライマーをハイブリダイズさせ、伸長、スキャン、デブロッキングのサイクルを繰り返し実行する、(d)相補的なコピーを合成してフローセル表面の標的核酸を反転させる、(e)再合成された鎖を直鎖化させる、(f)上記のように、第2のシーケンシングプライマーをハイブリダイズさせ、伸長、スキャン、デブロッキングのサイクルを繰り返し実行する。反転操作は、ブリッジ増幅の単一サイクルについて上記のように試薬を送達することで実行することができる。
「参照ゲノム」、「参照配列」、又は「ベースライン配列」という用語は、任意の生物の特定の既知の、部分的又は完全な、ゲノム配列であって、この配列を使用して対象から同定された配列を参照してもよく、この配列と比較して、1つ又は複数の配列バリアントを決定することができるものを指す。例えば、ヒト対象及び他の多くの生物に使用される参照ゲノムは、国立バイオテクノロジー情報センターのncbi.nlm.nih.govにおいて見出される。「ゲノム」又はゲノム配列とは、核酸配列に発現する生物又はウイルスの完全な遺伝情報を指す。ゲノムは、DNAの遺伝子と非コーディング配列の両方を含む。参照配列は、それにアライメントされるリードよりも大きくてもよい。例えば、参照配列は、少なくとも約100倍大きく、又は少なくとも約1000倍大きく、又は少なくとも約10,000倍大きく、又は少なくとも約105倍大きく、又は少なくとも約106倍大きく、又は少なくとも約107倍大きくてもよい。一例では、参照ゲノム配列は、完全長ヒトゲノムの配列である。別の例では、参照配列は、特定のヒト染色体に限定される。そのような配列は染色体参照配列と呼ばれることがあるが、参照ゲノムという用語はそのような配列を包含することを意図している。参照配列の他の例としては、他の種のゲノム、及び、任意の種の染色体、(鎖などの)サブ染色体領域などが挙げられる。別の実施形態では、参照配列は、標的シーケンシングパネルにアライメントするゲノムのサブセットに関する配列情報を含み得る。種々の実施形態において、参照ゲノムは、複数の個体に由来するコンセンサス配列又は他の組合せである。すなわち、参照配列は、仮想配列又は代表配列であり得る。しかし、ある種の用途においては、参照配列は特定の個体から採取してもよい。一実施形態では、参照配列は正常な配列であり、目的の試料は同じ個体からの対応した腫瘍配列である。別の実施形態では、参照配列は第1の時点で採取され、試料配列は第2の後続の時点で採取される。本明細書にて提供される場合、参照配列は、どの配列バリアントが決定されるかに関する基礎として使用され得る。参照配列は、プロセッサ実行命令に従ってアクセス及び/又は操作することができる保存データファイルとして提供されてもよい。更に、本明細書で提供されるシステムは、目的の試料及び/又はシーケンシングタイプ(ゲノム全体、標的シーケンシング)に関連するユーザー入力に基づいて選択され得る、異なる参照配列の保存セットを含んでもよい。一実施形態では、個々のユーザーからの試料をシーケンシングし、ゲノム配列データに対する配列バリアント操作のための入力として適切な参照配列に、(例えば、クラウドコンピューティング環境から)アクセスすることができる。
「リード」又は「配列リード」という用語は、ヌクレオチドテンプレート試料又は参照の断片を記述する配列データのコレクションを指す。断片は、試料調製中に生成された断片であってもよい。「リード」という用語は、(目的の生体試料からの)試料リード及び/又は参照リード(参照試料のシーケンシングの一部として取得された配列リード)を指してもよい。リードは、試料又は参照内の連続した短い塩基対の配列を表し得る。リードは、試料又は参照断片の、塩基対配列によって(ATCGで)記号的に表してもよい。リードをメモリデバイスに保存し、適切に処理して、リードが参照配列と一致するか、参照配列と異なるか、又は他の基準を満たすかどうかを判断することができる。配列リードは、シーケンシングデバイスから直接的に得てもよく、又は、試料に関し保存された配列情報から得てもよい。場合によっては、リードは、より大きな配列又は領域を同定するために使用することができる十分な長さ(例えば、少なくとも約25bp)のDNA配列であり、例えば、ゲノムアセンブリの一部として、染色体又はゲノム領域又は遺伝子にアライメントさせて、例えば、ステッチ(stitched)して、特異的に割り当てることができる。「試料リード」、「試料配列」又は「試料断片」という用語は、試料からの目的のゲノム配列の配列データを指す。例えば、一実施形態では、試料リードは、順方向及び逆方向プライマー配列を有するPCRアンプリコンからの配列データを含む。配列データは、適切な配列方法論から得ることができる。試料リードは、例えば、合成によるシーケンシング(sequencing-by-synthesis)(SBS)反応、ライゲーションによるシーケンシング(sequencing-by-ligation)反応、又はその他の好適なシーケンシング方法論からのものであり得、反復要素の長さ及び/又は同一性を決定することが望ましい。試料リードは、複数の試料リードに由来するコンセンサス(例えば、平均化又は重み付け)配列又はコラプシング配列(collapsed sequence)である。
次世代シーケンシング(NGS)の方法としては、例えば、合成技術によるシーケンシング(Illumina社)、パイロシーケンシング(454)、イオン半導体技術(Ion Torrentシーケンシング)、単一分子リアルタイムシーケンシング(Pacific Biosciences社)及びライゲーションによるシーケンシング(SOLiDシーケンシング)が挙げられる。シーケンシングの方法に応じて、各リードの長さは約30bp~10,000bp超で異なっていてもよい。例えば、SOLiDシーケンサーを使用したIlluminaシーケンシング法により、約50bpの核酸リードが生成する。別の例では、Ion Torrentシーケンシングにより、最大400bpの核酸リードが生成し、454パイロシーケンシングにより約700bpの核酸リードが生成する。更に別の例では、単一分子のリアルタイムシーケンシング法により、10,000bp~15,000bpのリードが生成する場合がある。したがって、ある種の実施形態では、本明細書で提供されるリードは、30~100bp、50~200bp、又は50~400bpの長さを有する。
「アライメントさせる」、「アライメント」又は「アライメントすること」という用語は、リード又はタグを参照配列と比較し、それによって参照配列がリード配列を含有するかどうかを判定するプロセスを指す。参照配列がリードを含有する場合、リードは参照配列に、又はある種の実施形態では、参照配列内の特定の場所にマッピングされてもよい。場合によっては、アライメントは、リードが特定の参照配列のメンバーであるかどうか(すなわち、リードが参照配列中に存在するか又は存在しないか)を伝えるだけである。場合によっては、アライメントは、リード又はタグがマッピングされる参照配列内の場所を更に示す。例えば、参照配列がヒトゲノム配列全体である場合、アライメントはリードが特定の染色体上に存在することを示し得、リードが特定の鎖及び/又は染色体の部位上にあることを更に示し得る。
「バリアント」又は「配列バリアント」という用語は、参照配列とは異なる核酸配列を指す。典型的な核酸配列バリアントとしては、一塩基多型(SNP)、短い欠失及び挿入多型(インデル)、コピー数多型(CNV)、マイクロサテライトマーカー又は縦列型反復配列(short tandem repeats)及び構造多型が挙げられる。バリアントは、少なくとも4つの反復ヌクレオチド、例えばAAAA、GGGG、CCCC、TTTTを有するホモポリマー領域でも発生し得る。本明細書で提供される体細胞バリアントコール、配列バリアントコール、又はバリアントコールは、目的の試料に存在する配列バリアントの同定及び/又はバリデーションを指す。一実施形態では、バリアントコールを使用して、がんの進行を特徴付けることができる。例えば、一定の割合の所与の塩基を包含するリードにおいて、単一のヌクレオチド変異が見られる場合がある。
「インデル」という用語は、生物のDNAにおける塩基の挿入及び/又は欠失を指す。マイクロインデルは、1~50ヌクレオチドの正味の変化をもたらすインデルを表す。ゲノムのコーディング領域では、インデルの長さが3の倍数でない限り、フレームシフト突然変異が生じる。インデルは点突然変異と対比することができる。インデルは、配列にヌクレオチドを挿入し、配列からヌクレオチドを削除するが、点突然変異は、DNAの全体数を変更せずにヌクレオチドの1つを置き換える置換形態である。インデルは、タンデム塩基変異(TBM)と対比することもでき、タンデム塩基変異は、隣接ヌクレオチドでの置換(主に2つの隣接ヌクレオチドでの置換)と定義することができるが、3つの隣接ヌクレオチドでの置換が観察されている。
「バリアント頻度」又は「バリアント対立遺伝子頻度(variant allele frequency)」という用語は、分率又は割合として表される、集団内の特定の遺伝子座における対立遺伝子(遺伝子のバリアント)の相対頻度を表す。例えば、分率又は割合は、その対立遺伝子を有する集団内のすべての染色体の分率であり得る。例として、試料バリアント頻度は、個体から目的のゲノム配列について得られたリード数及び/又は試料数に対応する「母集団」に関して、目的のゲノム配列に沿った特定の遺伝子座/位置での対立遺伝子/バリアントの相対頻度を表す。別の例として、ベースラインバリアント頻度は、「母集団」が、正常な個体群からの1つ又は複数のベースラインゲノム配列について得られたリード数及び/又は試料数に対応する、1つ又は複数のベースラインゲノム配列に沿った特定の遺伝子座/位置での対立遺伝子/バリアントの相対頻度を表す。
「位置」、「指定された位置」、及び「遺伝子座」という用語は、ヌクレオチド配列内の1つ又は複数のヌクレオチドの場所又は座標を指す。「位置」、「指定された位置」、及び「遺伝子座」という用語は、ヌクレオチド配列内の1つ又は複数の塩基対の場所又は座標も指す。
「ハプロタイプ」という用語は、一緒に遺伝される染色体上の隣接部位の対立遺伝子の組合せを指す。ハプロタイプは、所与の遺伝子座のセット間で発生した組換えイベントの数に応じて、1つの遺伝子座、複数の遺伝子座、又は染色体全体であり得る。
本明細書における「閾値」という用語は、試料、核酸、又はその一部(例えば、リード)を特徴付けるためのカットオフとして使用される数値又は非数値を指す。経験的分析に基づいて、閾値を変更してもよい。閾値を測定値又は計算値と比較して、そのような値の提示を生じさせる供給源が特定の方法で分類されるべきかどうかを判断することができる。閾値は、経験的又は分析的に特定することができる。閾値の選択は、ユーザーが分類を行う必要があると希望する信頼レベルに依存する。閾値は、特定の目的のために選択してもよい(例えば、感度と選択性のバランスを取るため)。本明細書で使用される「閾値」という用語は、分析過程が変更され得る点、及び/又は作用が引き起こされる可能性がある点を示す。閾値は、所定の数である必要はない。その代わりに、閾値は、例えば、複数の要因に基づく関数であってもよい。閾値は状況に適応し得る。更に、閾値は、上限、下限、又は極限間の範囲を示してもよい。
いくつかの実施形態では、シーケンシングデータに基づくメトリック又はスコアは、閾値と比較され得る。本発明で使用する場合、「メトリック」又は「スコア」という用語は、配列決定データから決定された値又は結果を含み得るか、又は配列決定データから決定された値又は結果に基づく関数を含み得る。閾値と同様に、メトリック又はスコアは、状況に適応し得る。例えば、メトリック又はスコアは、正規化された値であり得る。スコア又はメトリックの例として、1つ又は複数の実施形態では、データを分析するときにカウントスコアを使用してもよい。カウントスコアは、試料リード数に基づいていてもよい。試料リードは、1つ又は複数のフィルタリング段階を経て、試料リードが少なくとも1つの共通の特性又は品質を有してもよい。例えば、カウントスコアを決定するために使用される試料リードのそれぞれは、参照配列とアライメントされていてもよく、又は潜在的な対立遺伝子として割り当てられてもよい。共通の特性を有する試料リードの数を計数して、リードカウントを決定してもよい。カウントスコアは、リードカウントに基づいていてもよい。いくつかの実施形態では、カウントスコアは、リードカウントと等しい値であり得る。他の実施形態では、カウントスコアは、リードカウント及び他の情報に基づいていてもよい。例えば、カウントスコアは、遺伝子座の特定の対立遺伝子のリードカウント及び遺伝子座のリード総数に基づいてもよい。いくつかの実施形態では、カウントスコアは、リードカウント及び遺伝子座について以前に得られたデータに基づいてもよい。いくつかの実施形態では、カウントスコアは、所定の値の間の正規化されたスコアであり得る。カウントスコアはまた、試料の他の遺伝子座からのリードカウントの関数、又は目的の試料と同時に実行された他の試料からのリードカウントの関数であってもよい。例えば、カウントスコアは、特定の対立遺伝子のリードカウントと試料内の他の遺伝子座のリードカウント及び/又は他の試料からのリードカウントの関数であり得る。一例として、他の遺伝子座からのリードカウント及び/又は他の試料からのリードカウントを使用して、特定の対立遺伝子のカウントスコアを正規化することができる。「尤度スコア」は、開示された実施形態によるエラー率推定値を与えられたバリアント部位ごとのスコアであり、代替リードカウント(バリアント試料リード数のカウント)及び当該バリアント部位の総リードカウントに部分的に基づいてもよい。一実施形態では、エラー率は、本明細書で提供される配列エラーを有すると判定された配列リードの総カウントに基づく。総カウントが多い生体試料は、総カウントが少ない別の生体試料よりもエラー率が高いと見なされ得る。
「カバレッジ」、「配列カバレッジ」、「リードカバレッジ」、又は「断片カバレッジ」という用語は、配列の同じ断片の複数の試料リードのカウント又は他の尺度を指す。配列リードカウントは、対応する断片を包含するリード数のカウントを表し得る。或いは、リードカウントに、履歴的知見、試料の知見、遺伝子座の知見などに基づいて指定された係数を掛けることにより、カバレッジを決定してもよい。
「対立遺伝子品質」(AQ)は、ベースライン又は参照試料に対する試験試料において観察された対立遺伝子頻度の品質スコアである。
固有の分子インデックス(unique molecular indice)又は固有の分子識別子(unique molecular identifier)(UMI)は、核酸分子に適用されるか又は核酸分子において同定されるヌクレオチドの配列であり、個々の核酸分子を互いに区別するために使用することができる。UMIは、リード配列があるソース核酸分子の配列であるか別の核酸分子の配列であるかを決定するために、それらが関連する核酸分子とともにシーケンシングされてもよい。「UMI」という用語は、本明細書では、ポリヌクレオチドの配列情報と物理的ポリヌクレオチド自体の両方を指すために使用してもよい。UMIは、ある試料のリードと他の試料のリードを区別するために一般的に使用されるバーコードに類似しているが、個々の試料の多くの断片が一緒にシーケンシングされている場合、代わりにUMIを使用して核酸テンプレート断片を別の断片と区別する。UMIは一本鎖又は二本鎖であってもよく、少なくとも5塩基、少なくとも6塩基、少なくとも7塩基、少なくとも8塩基、又はそれ以上であってもよい。ある種の実施形態では、UMIは、長さが5~8塩基、5~10塩基、5~15塩基、5~25塩基、8~10塩基、8~12塩基、8~15塩基、又は8~25塩基等である。更に、ある種の実施形態では、UMIは、長さが30塩基以下、25塩基以下、20塩基以下、15塩基以下である。本明細書で提供されるUMI配列の長さは、配列の固有の/識別可能な部分を指してもよく、シーケンシングプライマーとして機能し得る、異なる識別子配列を有する複数のUMI間で共通の、隣接する共通又はアダプター配列(例えば、p5、p7)を除外し得ると理解されるべきである。
WO07010252 PCTGB2007/00379 米国特許出願公開第2009/0088327号 PCT/US2013/030867(WO2014/142831) WO2018093780 米国特許出願公開第2007/0166705号 米国特許出願公開第2006/0188901号 米国特許出願公開第2006/0240439号 米国特許出願公開第2006/0281109号 米国特許出願公開第2005/0100900号 米国特許第7,057,026号 WO05/065814 WO06/064199 WO07/010,251 米国特許第6,969,488号 米国特許第6,172,218号 米国特許第6,306,597号 米国特許第7,001,792号 米国特許第2009/0026082(A1)号 米国特許第2009/0127589(A1)号 米国特許第2010/0137143(A1)号 米国特許第2010/0282617(A1)号 米国特許第7,329,860号
Soni&Meller、Clin. Chem. 53、1996~2001頁 (2007) Healy、Nanomed. 2、459~481頁(2007) Cockroft等、J. Am. Chem. Soc. 130、818~820頁(2008) Levene等、Science 299、682~686頁(2003) Lundquist等、Opt. Lett. 33、1026~1028頁(2008) Korlach等、Proc. Natl. Acad. Sci. USA 105、1176~1181(2008)
本開示は、生体試料中の配列バリアントの検出及び/又は同定された配列バリアントのバリデーションのための新規アプローチを提供する。開示された技術は、配列アセンブリ及び/又は分析に使用される配列情報を利用して、配列データ中に存在する全体的なシーケンシングエラーの特徴を示す配列データエラー率を抽出する。このような技術は、エラーを減らすことを強化するか、又はエラーを減らすための他の技術と組み合わせて使用してもよい。例えば、ある種の技術では、リード群、すべてが同じ固有の分子識別子(UMI)を含むか、これと関連付けられている配列リードの群におけるエラーを減らすことを伴う。本明細書にて提供される場合、本技術は、ゲノム配列データの複数の個々のリード群内で識別されるエラーを追跡し、いくつかの実施形態ではこれらのエラーを特徴付け、ゲノム配列データの特徴的なエラー率を生成する。エラー率は、次々に個々の潜在的な配列バリアントが有効かどうかを判断するために使用されてもよい。例えば、エラー率が全体的に比較的高いゲノム配列データの場合、潜在的な配列バリアントは、バリデーションされる前に、より厳格なリードカバレッジの閾値に供されることがある。エラー率が全体的に比較的低いゲノム配列データの場合、個々の潜在的な配列バリアントをバリデーションするために、このような試料ではリードカバレッジの閾値を低くしてもよい。このように、配列バリアントのバリデーションは、エラー率によって示されるゲノム配列データの品質に依存し得る。
本技術は、配列バリアントの同定及びバリデーションにおける効率及び精度を改善する。ある種の実施形態では、本技術は、適切なエラー率を有すると識別された試料について、リードカバレッジが低く、かつ/又は適格な二重鎖が不在である文脈においてさえ、バリアントコールが可能である。ある種の実施形態では、本技術は、偽陽性を含有する可能性が高い、ゲノム配列データ、又はそのようなデータ内の部位を同定することにより、複数の同定された偽陽性配列バリアントを低減させる。更に、本技術は、コンセンサスシーケンシング中に通常は無視されるデータを利用して有意性のある情報を抽出し、それによりバリアントコールの効率を改善する。すなわち、リード群内の異常値配列を単に排除するのではなく、本技術は、これらの排除された配列を同定して、存在する配列エラーの数、及び実施形態ではそれらの性質を決定する。特定の試料の配列データにおけるすべてのシーケンシングエラー又はある種のタイプのシーケンシングエラーの全体的又は包括的なエラー率に基づいて、個々のバリアントをバリデーションしてもよい。バリデーション条件は、各タイプの変化のエラー率に基づいて設定してもよい。特定の試料が、ある種のタイプのヌクレオチド変化(例えば、CからTへの)の高いシーケンシングエラー率に関連付けられている場合、代替のCからTへの配列を有する同定されたバリアントは、試料内のより低いエラー率に関連する代替配列を有するバリアントに比べて、より厳格なバリデーション条件を有することがある。
したがって、個々の試料の特徴的なエラー率(又は複数のエラー率)は、試料対試料ベースで決定することができる。ゲノム配列データ中のエラーの存在は、予測することが複雑である様々なエラー源に関連し得るが、開示された実施形態では、そのようなエラー源とエラーのばらつきとを考慮して、カスタマイズされた方法でより正確な配列バリアント情報の決定が容易になる。
一実施形態では、コンピュータ実装方法を提供する。この方法は、命令を実行するプロセッサの制御下で実行される。この方法は、生体試料のゲノム配列データを受け取る工程を含み、ゲノム配列データは複数の配列リードを含み、各配列リードは複数の固有の分子識別子のうちの1つの固有の分子識別子に関連付けられる。この方法はまた、第1の固有の分子識別子に関連付けられた複数の配列リードの第1のサブセット内の配列不一致、第1のサブセットと、第1の固有の分子識別子に相補的な第2の固有の分子識別子を有する複数の配列リードの第2のサブセットの間の配列の不一致、又はそれらの両方、に基づいてゲノム配列データのエラーを識別して、ゲノム配列データのエラー率を生成する工程を含む。この方法はまた、参照配列に関連するゲノム配列データ内の複数の潜在的な配列バリアントを同定する工程と、ゲノム配列データのエラー率に基づいて、複数の潜在的な配列バリアントの偽陽性配列バリアントを分類する工程と、複数の潜在的な配列バリアントから偽陽性配列バリアントを排除して、複数の配列バリアントを生成する工程と、を含む。
一実施形態では、コンピュータ実装方法を提供する。この方法は、命令を実行するプロセッサの制御下で実行される。この方法は、第1の生体試料のゲノム配列データを受け取る工程を含み、ゲノム配列データは複数の配列リードを含み、各配列リードは複数の固有の分子識別子のうちの1つの固有の分子識別子に関連付けられる。この方法はまた、第1の固有の分子識別子に関連付けられた複数の配列リードの第1のサブセット内の第1の配列差異を識別する工程を含む。この方法はまた、第1のサブセットをコラプシングして、コラプシングされた第1のサブセット配列リードを生成する工程を含み、コラプシングすることは、第1のサブセットの少数の配列リードに存在する配列差異を排除することを含む。この方法はまた、第2の固有の分子識別子に関連付けられた複数の配列リードの第2のサブセット内の第2の配列差異を識別する工程を含み、第2の固有の分子識別子は、第1の固有の分子識別子に、少なくとも部分的に相補的である。この方法はまた、第2のサブセットをコラプシングして、コラプシングされた第2のサブセット配列リードを生成する工程を含み、コラプシングすることは、第2のサブセットの少数の配列リードに存在する配列差異を排除することを含む。この方法はまた、コラプシングされた第1のサブセット、コラプシングされた第2のサブセット、又はコラプシングされた第1のサブセットとコラプシングされた第2のサブセットの二重鎖におけるベースラインに対する配列バリアントが、ゲノム配列データのエラー率の関数に基づいて有効であることを判定する工程を含み、ここで、エラー率は、識別された第1の配列差異及び識別された第2の配列差異に部分的に基づいて決定される。
一実施形態では、生体試料のゲノム配列データ内の配列バリアントを同定するように構成されたシーケンシングデバイスを提供する。デバイスは、そこに保存された実行アプリケーション命令を含むメモリデバイスと、メモリデバイスに保存されたアプリケーション命令を実行するように構成されたプロセッサを含む。アプリケーション命令は、プロセッサに、生体試料のゲノム配列データを受け取らせる命令であって、ゲノム配列データは複数の配列リードを含み、各配列リードは複数の固有の分子識別子のうちの1つの固有の分子識別子に関連付けられている、命令;プロセッサに、複数の固有の分子識別子の各固有の分子識別子に関連付けられた配列リード間の配列不一致に基づいてゲノム配列データ内の複数のエラーを識別させて、ゲノム配列データのエラー率を生成する、命令;プロセッサに、参照配列に関連するゲノム配列データ内の複数の潜在的な配列バリアントを同定させる命令;及びプロセッサに、エラー率に少なくとも部分的に基づいて、複数の潜在的な配列バリアントのバリディティを決定させる命令を含む。
本技術によるゲノム配列エラー率を同定するためのワークフローの概略ダイアグラムである。 本技術による配列バリアントバリデーションの技術のフローダイアグラムである。 本技術による配列バリアント同定の技術のフローダイアグラムである。 本技術によるゲノム配列データエラー率を決定するための技術のフローダイアグラムである。 様々なソース試料及びエラータイプの層別エラー率を示す。 本技術による層別エラー率を決定するための、及び配列バリアントバリデーションの技術のフローダイアグラムである。 高エラー率を有する試料を含むソース試料の層別エラータイプを示す。 図7の高エラー率試料の様々なエラータイプの層別エラー率を示す。 決定木技術と比較して特異性の改善を示すプロットである。 デフォルトの決定木技術と比較した、感度及び特異性の結果を示す表である。 本技術によるシーケンシングデバイスのブロックダイアグラムである。
本技術は、改善された配列変異検出及び/又はバリデーションのためのシーケンシングデータの分析及び処理に関する。そのために、開示された技術は、偽陽性配列バリアントの指定を排除又は削減し、またある種の試料の配列バリアント検出の限界を改善することができる。図1は、試料調製及び配列取得ワークフローを示す概略ワークフローダイアグラム10である。
目的の生体試料に由来するテンプレート12は、ライブラリの調製(工程14)を受けて、1つ又は複数のUMI16を組み込む。テンプレート12は、複数の核酸断片を表してもよい。各テンプレート12は、複数のUMIの、(1つ又は複数の識別子配列を含み得る)個々のUMI16を組み込み、それにより異なるソースのテンプレート12が異なる配列を有する区別可能なUMI16にそれぞれ関連付けられる。例えば、描かれたダイアグラム10は、核酸テンプレート断片12の5'末端及び3'末端に結合するように構成された固有の分子識別子(UMI)16を含む、分岐したペアエンドシーケンシングアダプターの文脈で示され、こうしてテンプレート12は、UMI16の異なる部分16a、16bに隣接している。更に、プラス鎖20aは1つ又は複数の第1のUMI配列を含み、マイナス鎖20bは第1のUMI配列に相補的な第2のUMI配列を含む。第1のUMI配列及び第2のUMI配列は、単一のUMI16又は異なるUMI16の一部と見なしてもよい。1つ又は複数のUMI16の相補配列を同定することにより、プラス鎖20a及びマイナス鎖20bの配列を互いに関連付けてもよい。
ライブラリ調製に続いて、(複数のテンプレート12を含む)試料のゲノム配列データを、ここでペアエンドシーケンシングとして示される任意の好適なシーケンシング技術により取得する(工程26)。ペアエンドシーケンシングにより、複数の配列リード28が得られ、それにより次々にそれぞれのUMI16を介してテンプレートソースによって分割又は分離することができる。例えば、取得された配列リード28の第1のサブセットを含む第1のリード群30は、第1のUMI16に関連付けられてもよく、一方取得された配列リード28の第2のサブセットを含む第2のリード群32は、第1のUMI16に相補的な第2のUMI16内に関連付けられてもよい。前述のように、相補的なUMIはまた、単一のUMIと見なされてもよい。
一般に、関連するUMI16が配列リード28のサブセットをソーステンプレート12にリンクさせるために、単一のリード群(例えば、第1リード群30、第2リード群32)内の同じ鎖における配列リードは互いに同一でなければならない。群内の偏差又は差異は、試料調製又は配列取得エラーを示している。リード群をコラプシングしてコンセンサス配列又はコラプシング配列をもたらすために、リード群内の異常値リードを識別し排除すること(工程40)は、導入された配列エラーが配列データに伝播して偽陽性バリアントを生成するのを防ぐのに役立つ。本明細書にて提供される場合、第1のリード群30内の他の配列リードには存在しない、差異42などのそのような異常値の差異は、配列エラーによるものと見なされ得る。リード群内で識別された差異又は変異は、試料の全体的なエラー率を決定するための入力として提供される。
コンセンサス配列構築を通過する任意の差異、例えば差異46は、UMI16の相補鎖に関連する配列リードと更に比較され得る。すなわち、第1のリード群30及び第2のリード群32の配列は、二重鎖として組み立てられてもよい。ここでも、群30、32の間の差異を識別して相補鎖のコンセンサス二重鎖を組み立ててもよい(工程47)。このような差異を、エラー率の一部として追跡してもよい。加えて、コラプシングされた一重鎖群又は二重鎖群は、重なり合う領域で一緒につなぎ合わされ(工程48)、配列アセンブリの一部としてコラプシングされた長いフラグメントを生成する。ステッチング(Stitching)は、潜在的配列バリアントの頻度を決定するために使用してもよい。
描かれたダイアグラムは単一のテンプレート12(例えば、核酸フラグメント)を示しているが、開示された技術はゲノム配列データ全体にわたってエラーを追跡し、包括的又は全体的なエラー率を生成する。特に、図2は、生体試料のゲノム配列データを受け取る方法50のフローダイアグラムであり、ここで、ゲノム配列データは複数の配列リードを含み、各配列リードは複数の固有の分子識別子のうちの1つの固有の分子識別子に関連付けられており;この方法は、生体試料のゲノム配列データを受け取る工程を含む(ブロック52)。
受け取られる配列データは、本明細書で提供される、試料調製及び生体試料のシーケンシングに続いて受け取られてもよい。更に、受け取られたゲノム配列データは、保存された配列データ又は遡及的配列データ(retrospective sequence data)であってもよい。ゲノム配列データには、顧客情報、生体試料生物情報、生体試料タイプ情報(例えば、試料が未処理、凍結されている、又は保存されているかどうかを識別する情報)、組織タイプ、配列デバイスタイプ、及びシーケンシングアッセイタイプ(ゲノム全体、標的パネル)が含まれ得る。
ゲノム配列データは、ゲノム配列データのエラー率を決定するために操作される(ブロック54)。エラー率は、試料自体と試料の関連するゲノム配列データの特徴的である。したがって、エラー率は、目的の生体試料の各シーケンシングランについて新たに計算され得る。同じ個体から異なる時間に採取された試料のエラー率は、試料調製のばらつき、シーケンシングデバイスの設定などに依存する異なる特徴的なエラー率を示し得る。
この方法はまた、ゲノム配列データ内の潜在的な配列データを同定してもよい(ブロック56)。潜在的な配列バリアントは、参照配列に関連して同定され得る。潜在的な配列バリアントの同定は、配列リードの遺伝子座マッピング、及び対応する遺伝子座への割り当てを含む。試料リードは、試料リードのヌクレオチドの配列、又は換言すれば、試料リード内のヌクレオチドの順序(A、C、G、Tなど)に基づいて、対応する遺伝子座に割り当てられ得る。この分析に基づいて、試料リードは、場合により特定の遺伝子座のバリアント/対立遺伝子を含むものとして指定されてもよい。試料リードは、場合により遺伝子座のバリアント/対立遺伝子を含むと指定された他の試料リードとともに収集(又は集約又はビンニング)されてもよい。試料リードを分析して、試料リードを他の試料リードと区別するヌクレオチドの1つ又は複数の識別配列(例えば、UMI16)の場所を特定し得る。
マッピングされた試料リードは、潜在的な配列バリアントを同定するために参照配列と比較して分析される。とりわけ、分析の結果により、潜在的なバリアントコール、試料バリアント頻度、参照配列、及びバリアントが発生した目的のゲノム配列内の位置が同定される。例えば、遺伝子座がSNPを含んでいることがわかっている場合、その遺伝子座に対してコールされた、割り当てられたリードを解析して、割り当てられたリードのSNPを特定し得る。遺伝子座が多型の反復DNA要素を含んでいることがわかっている場合、割り当てられたリードを分析して、試料リード内の多型の反復DNA要素を同定するか又は特徴付けることができる。いくつかの実施形態では、割り当てられたリードがSTR遺伝子座及びSNP遺伝子座と有効に一致する場合、警告又はフラグが試料リードに割り当てられ得る。試料リードは、STR遺伝子座とSNP遺伝子座の両方として指定してもよい。分析は、アライメントプロトコルに従って割り当てられたリードをアライメントして、割り当てられたリードの配列及び/又は長さを決定することを含んでもよい。アライメントプロトコルは、2013年3月15日に出願された国際出願番号PCT/US2013/030867(公開番号WO2014/142831)に記載された方法を含んでもよく、その全体が参照により本明細書に組み込まれる。分析はまた、特定の遺伝子座の全カバレッジに対する特定の潜在的なバリアント対立遺伝子を有するリードの数を計数してもよい。
同定されると、潜在的な配列バリアントは、決定されたエラー率を考慮に入れて真陽性と偽陽性とを区別する関数によって操作される(ブロック58)。一実施形態では、個々の潜在的な配列バリアントについて、尤度比に基づいて尤度スコアが決定される:
尤度比(L)=尤度(観測されるバリアントはエラー|カバレッジ、エラー率)/尤度(観測されるバリアントは真陽性|カバレッジ、バリアント対立遺伝子頻度)(式中、バリアント対立遺伝子頻度(VAF)=最大(観測されるVAF、検出限界))。
尤度スコアは、エラー率、特定の部位でのリードカバレッジ、及び潜在的な配列バリアントがリード中に発生する頻度の関数である。例えば、低頻度のバリアントはバリデーションされる可能性が低くなる。尤度スコア又は尤度比は、ユーザー入力及び/又は試料タイプに基づいてユーザー又はシステムによって設定される調整可能な閾値を有し得る。潜在的な配列バリアントは、閾値を上回るか若しくは下回る、又は範囲内の尤度スコアに基づいてバリデーションされ得る。例えば、0.01未満及び0.0001を超える、又は10-6~10-2の間の尤度スコア又は尤度比は、合格を示し得る。別の実施形態では、閾値は、計算された特異性目標に基づいて設定されてもよい。
同定されると、バリデーションされた配列バリアントがユーザーに提供され得る(ブロック60)。例えば、バリデーションされた配列は、生成されたレポートとして提供されてもよく、例えば、レポートファイルとして保存されるか、又はユーザーとの対話のためにグラフィカルユーザーインターフェースに表示されてもよい。或いは、バリデーション操作が潜在的なバリアントコールを無効化又は不適格にする場合、バリデーション操作はまた、レポートの一部として、対応する表示(例えば、ネガティブインジケーター、ノーコールインジケーター、無効なコールインジケーター)をレポートするか又は保存することができる。バリデーションは、バリアントコールが正しい、又は無効なコールの指定が正しいという確信度に関連する尤度スコアも提供する。
図3は、生体試料の受け取られたゲノム配列データ(ブロック66)を操作して配列バリアントを決定する方法64のフローダイアグラムである。ゲノム配列データはUMIの配列を含み、これにより、各配列リードは、シーケンシングランにおいて使用される複数のUMIのうちの1つのUMIに関連付けられる。配列リードは、リード群に分離されてもよく、それにより、各リード群は、共通のUMIに関連付けられた配列リードのサブセットである(ブロック70)。したがって、各配列リードは、1つのリード群にのみ存在するべきである。いったん分離されると、ゲノム配列データのエラーは、リード群内の配列リードのサブセット間の配列不一致に基づいて識別される。特定のUMIに対する各配列リードは同一でなければならない。更に、ペアエンドシーケンシングでは、両方向にシーケンシングされた鎖がアライメントするべきである。特定のリード群内の配列のばらつきの存在は、システムエラーを示している。したがって、各異なるリード群内で識別された全体的なエラー(ブロック72)に基づいて、ゲノム配列データの全体的なエラー率が決定され得る(ブロック74)。またエラー率を次々に使用して、ゲノム配列データ内の配列バリアントを同定及び/又はバリデーションしてもよい(ブロック76)。
図4は、本明細書で提供されるエラー率を生成する方法80のフローダイアグラムである。方法80は、共通の固有の分子識別子に基づいてサブセットに分離された(ブロック84)生体試料の受け取られた配列データ(ブロック82)を操作する。コンセンサス配列又はコラプシング配列を生成する工程の一部として、サブセット内の配列の差異を識別する(ブロック86)。コラプシングされた配列は多数決ルールに基づいて決定されてもよく、これにより、特定のサブセット(すなわち、リード群)における少数の配列リード内にある配列差異が配列エラーとして指定される(ブロック88)が、過半数の配列リード内にある配列差異は、通過して、コンセンサス配列又はコラプシング配列を構築する(ブロック90)。識別された配列エラーに基づいて、エラー率を特定する(ブロック92)。しかし、各サブ群内のすべての配列差異がエラー率に必ずしも寄与するわけではない。過半数の配列リードにおける配列差異(図1の差異46を参照のこと)は、少数における配列差異と区別される。
ある種の実施形態は、ゲノム配列データの包括的又は全体的なエラー率の文脈において開示されるが、エラー率は、追加的又は代替的に、ヌクレオチド変化のタイプに基づいて層化することができる。このようにして、特定のヌクレオチドの変化に偏倚したシステムエラーを識別する。図5は、変化のタイプにより分けられたエラー率のパネルである。エラー率を、24個の単一無細胞DNA(cfDNA)BRN試料、7つのがん細胞株と6つの0.2%動物園混合試料のヌクレオソーム調製物、及び3つの健康な試料と21個のHD753滴定試料を含むゲノムpipDNAを含む異なる試料タイプ間で比較する。更に、エラー率決定のための入力は、二重鎖、一重鎖、ステッチした、及びステッチしていない配列リードの種々の組合せによって分けられる。図1を参照して述べたように、二重鎖構築及びステッチングにより、エラーに関連する配列差異を排除することによって、テンプレート配列におけるエラーが修正される。
観察されるように、各タイプのエラーのエラー率は、試料タイプに基づいて異なる。例えば、無細胞DNA及びヌクレオソーム調製物では、脱アミノ化及び得られたGからAへのエラーが比較的高いレベルで存在する。pipDNAでは酸化が支配的であるため、GからTへの変化の高いエラー率が観察される。したがって、ある種の実施形態では、ある種の生体試料タイプは特定の特徴的なエラーに関連付けられ得る。一実施形態では、配列バリアントの決定は、当該試料タイプのエラーに関連する潜在的なバリアントに対する重み係数を含んでもよい。
図6は、図5に示す層化エラー率を決定する方法100のフローダイアグラムである。単一のリード群の一部である配列リードの場合、群内及び少数の鎖に配列差異を有する個々のリードは排除され、テンプレートが修正される。これらの排除された配列リードを更に分析して、各遺伝子座で発生するエラー配列変化のタイプを同定することができる(ブロック102)。エラー配列変化を形成するヌクレオチド変化を、群内の過半数の配列リードと比較して考慮して、ヌクレオチド変化のタイプを識別する。例えば、過半数の配列リードは、位置(n)にGを含み、1つ又は複数の少数のリードは、位置(n)にAを含む場合、変化のタイプはG>Aの変化としてビニングすることができる。この変化は、単一ヌクレオチドの変化又はインデルであり得る。このプロセスは、配列差異を有する少数の配列リードを含むすべての個々のリード群に適用されて、ゲノム配列データ全体の各タイプのヌクレオチド変化の層別エラー率を生成し(ブロック104)、これにより、ヌクレオチド変化は、ゲノム配列データ自体のうちの不一致に基づく。層別エラー率を使用して、潜在的な配列バリアントをバリデーションすることができる。バリアント同定操作の一部として受け取られると(ブロック106)、ゲノム配列データ内の潜在的な配列バリアントは、参照配列に対するヌクレオチド変化のタイプに従って分類される(ブロック108)。特に、エラー率はゲノム配列データの内部の測定値(本明細書で提供されるリード群の配列リード間の内部配列不一致)を使用して計算されるが、配列バリアントは参照配列に対して決定される。潜在的なバリアント配列が参照配列と比較してG>Aの変化である場合、G>Aのエラー率(かつ他の種類のヌクレオチドの変化の他のエラー率ではない)を使用して、例えば、尤度比決定の一部として、潜在的な配列バリアントが真陽性又は偽陽性であると決定する(ブロック110)。このように、G>Aエラー率が比較的低い生体試料では、G>A配列バリアントをバリデーションし得るが、G>Tエラー率が比較的高い同じ生体試料では、より厳格な条件を適用してG>Tの配列バリアントの可能性をバリデーションしてもよい。一実施形態では、各タイプのエラーの重み係数は、層別エラー率に基づいて生成され得る。
図7は、互いに関連する異なる無細胞DNA試料におけるエラー率の比較、及び各試料の配列バリアント同定の関連する特異性を示す。ハイライトされた試料BRN022は、試料コホートと比較してC>Tエラーの有意な増加を示す。しかし、試料コホートは全体的に、C>T又はG>A脱アミノ化の変化を示す他のエラータイプと比較して、比較的高いC>Tエラーを示す。それにもかかわらず、C>T又はG>Aの高いエラー率を有する試料の特異性は約99.95%以上であり、高い配列エラー率を有する生体試料及びゲノム配列データとの文脈における高い特異性を示している。
図8は、二重鎖及び一重鎖(プラス及びマイナス)データ、ステッチした及びステッチしていない、図7の高エラー率試料の様々なエラータイプの層別エラー率を示す。ステッチしたデータにおけるテンプレート修正は、ステッチしていないデータとは異なるエラー識別に関連付けられているように見える。しかし、プラス鎖とマイナス鎖のエラーは相関しているように見え、C>Tのエラーが反対の鎖ではG>Aとして現れる。同様に、T>Cエラーにおいて特定されたピークは、反対の鎖においてA>Gエラーにおけるピークとして現れる。識別された高エラーC>T及びG>Aの変化を、本明細書にて提供されるエラー率を計算しないデフォルトの技術と比較して検査する。デフォルトの技術では、BRN022試料において257個のC>T及びG>Aの偽陽性を特定したが、成層エラー率法では、(検出閾値の制限に応じて)24個及び14個を特定し、高エラー率試料の偽陽性識別の大幅な減少を示している。
図9は、決定木技術と比較して特異性の改善を示すプロットである。そのような技術は、PCT公開WO2018093780で提供されている技術であり、断片タイプの重み付けに基づく1つ又は複数の品質スコアを伴う。決定木技術とは対照的に、開示された技術は、所定の重み係数を使用するのではなく、試料ごとにエラー率を決定し得る。例えば、ある種の試料では、プラス鎖対マイナス鎖における誤差が大きくなる場合がある。したがって、新たに計算された断片タイプに基づいてエラーを層化してもよい。図9に示すように、本明細書で提供されるエラー率技術、尤度モデルは、検査された3つの試料タイプすべてについて決定木技術と比較してより高い特異性をもたらす。図10は、動物園混合の割合を含むヌクレオソーム調製物試料のデフォルトの決定木技術に対する感度及び特異性の結果を示す表であり、決定木技術に沿った感度を示している。(エラー率に基づく)尤度技術は高い特異性を示し、バリアントコールにおける改善及び偽陽性の減少を示す。
図11は、本明細書で提供される配列バリアントコールを識別及び/又はバリデーションするために使用されるシーケンシングデータを取得するための、開示された実施形態と併せて使用され得るシーケンシングデバイス160の概略図である。シーケンシングデバイス160は、それらの開示はそれらの全体が参照により本明細書に組み込まれる、米国特許出願公開第2007/0166705号;同第2006/0188901号;同第2006/0240439号;同第2006/0281109号;同第2005/0100900号;米国特許第7,057,026号;WO05/065814;WO06/064199;WO07/010,251、に記載されている合成によるシーケンシングの方法を組み込んだものなど、任意のシーケンシング技術に従って実装することができる。或いは、ライゲーション技術によるシーケンシングを、シーケンシングデバイス160で使用してもよい。そのような技術は、DNAリガーゼを使用してオリゴヌクレオチドを組み込み、そのようなオリゴヌクレオチドの組み込みを同定し、そのような技術は、米国特許第6,969,488号;米国特許第6,172,218号;及び米国特許第6,306,597号に記載されており、それらの開示は、それらの全体が参照により本明細書に組み込まれる。いくつかの実施形態は、ナノポアシーケンシングを利用することができ、それにより、標的核酸鎖、又は標的核酸から細胞外核酸分解的に除去されたヌクレオチドがナノポアを通過する。標的核酸又はヌクレオチドがナノポアを通過する際、ポアの導電率の変動を測定することにより、各タイプの塩基を同定することができる(米国特許第7,001,792号;Soni&Meller、Clin. Chem. 53、1996~2001頁 (2007); Healy、Nanomed. 2、459~481頁(2007);及びCockroft等、J. Am. Chem. Soc. 130、818~820頁(2008)、それらの開示は、それらの全体が参照により本明細書に組み込まれる)。更に他の実施形態は、伸長産物にヌクレオチドを組み込む時に放出されるプロトンの検出を含む。例えば、放出されたプロトンの検出に基づくシーケンシングでは、Ion Torrent社(Guilford、CT、Life Technologies社の子会社)から市販されている電気検出器及び関連技術、又はそれらそれぞれはその全体が参照により本明細書に組み込まれる、米国特許第2009/0026082(A1)号;米国特許第2009/0127589(A1)号;米国特許第2010/0137143(A1);又は米国特許第2010/0282617(A1)号に記載されているシーケンシングの方法及びシステムを使用することができる。特定の実施形態は、DNAポリメラーゼ活性のリアルタイム監視を含む方法を利用することができる。ヌクレオチドの取り込みは、フルオロフォアを含むポリメラーゼとγ-リン酸標識ヌクレオチド間の蛍光共鳴エネルギー移動(FRET)相互作用によって、又は、それらの開示はそれらの全体が参照により本明細書に組み込まれる、Levene等、Science 299、682~686頁(2003);Lundquist等、Opt. Lett. 33、1026~1028頁(2008);Korlach等、Proc. Natl. Acad. Sci. USA 105、1176~1181(2008)に記載されたゼロモード導波路を使用して検出することができる。他の好適な代替技術としては、例えば、蛍光インサイチュシーケンシング(FISSEQ)、及び超並列シグネチャーシーケンシング(Massively Parallel Signature Sequencing)(MPSS)が挙げられる。特定の実施形態では、シーケンシングデバイス160は、Illumina社(La Jolla、CA)製のHiSeq、MiSeq、又はHiScanSQであってもよい。他の実施形態では、シーケンシングデバイス160は、DNA堆積が各フォトダイオードと一対一にアライメントするように、フォトダイオード上に作製されたナノウェルを備えたCMOSセンサを使用して動作するように構成され得る。
シーケンシングデバイス160は、「1チャネル」検出デバイスであってもよく、ここでは、4つのヌクレオチドのうち2つのみが標識され、任意の所与の画像について検出可能である。例えば、チミンは恒久的な蛍光標識を有してもよく、一方アデニンは同じ蛍光標識を取り外し可能な形態で使用する。グアニンは恒久的に暗くてもよく、シトシンは、最初は暗いが、サイクル中に標識を付加できる場合がある。したがって、各サイクルは初期画像と、色素がアデニンから切断され、シトシンに付加される第2の画像を含み、初期画像ではチミンとアデニンのみが検出可能であるが、第2の画像ではチミンとシトシンのみが検出可能である。グアニンの両方の画像中の暗い塩基、及び両方の画像で検出可能な塩基はチミンである。第1の画像では検出可能であるが、第2の画像では検出できない塩基はアデニンであり、第1の画像では検出できないが第2の画像では検出可能な塩基はシトシンである。第1の画像と第2の画像からの情報を組み合わせることにより、1つのチャネルを使用して4つの塩基すべてを同定することができる。
図示される実施形態では、シーケンシングデバイス160は、別個の試料処理デバイス162及び関連するコンピュータ164を含む。しかし、上記のように、これらは単一のデバイスとして実装されてもよい。更に、関連するコンピュータ164は、試料処理デバイス162に対してローカルであるか、又はネットワークで接続されていてもよい。図示される実施形態では、生体試料は、試料基板170、例えばフローセル又はスライド上の試料処理デバイス162にロードされてもよく、これは、配列データを生成するために画像化される。例えば、生体試料と相互作用する試薬は、イメージングモジュール172によって生成された励起ビームに応答して特定の波長で蛍光を発し、それによりイメージングのために放射線を戻す。例えば、蛍光成分は、成分の相補的分子又はポリメラーゼを使用してオリゴヌクレオチドに組み込まれる蛍光タグ付きヌクレオチドにハイブリダイズする蛍光タグ付き核酸によって生成されてもよい。当業者が理解するように、試料の色素が励起される波長及びそれらが蛍光を発する波長は、特定の色素の吸収及び発光スペクトルに依存する。そのような戻り放射線は、指向光学系を介して戻って伝搬する可能性がある。このレトロビームは一般に、イメージングモジュール172の検出光学系に向けられ得る。
イメージングモジュール検出光学系は、任意の好適な技術に基づいてもよく、例えば、デバイス内の場所に衝突する光子に基づいてピクセル化画像データを生成する電荷結合素子(CCD)センサであってもよい。しかし、時間遅延積分(TDI)動作用に構成された検出器アレイ、相補型金属酸化膜半導体(CMOS)検出器、アバランシェフォトダイオード(APD)検出器、ガイガーモードフォトンカウンター、又はその他の好適な検出器などを含むが、これらに限定されない様々な他の検出器を使用してもよい。TDIモード検出は、参照により本明細書に組み込まれる、米国特許第7,329,860号に記載されているように、ライン走査と結合することができる。他の有用な検出器は、例えば、種々の核酸シーケンシング方法論の文脈において、本明細書で以前に提供された参考文献に記載されている。
イメージングモジュール172は、例えばプロセッサ174を介してプロセッサ制御下にあってもよく、試料受け取りデバイス162はまた、I/O制御176、内部バス78、不揮発性メモリ180、RAM182、及びメモリが実行可能な命令を保存できるような任意の他のメモリ構造、及び図11に関して説明したものに類似し得る他の好適なハードウェア構成要素を含んでもよい。更に、関連するコンピュータ164は、プロセッサ184、I/O制御186、通信モジュール184、並びにRAM188及び不揮発性メモリ190を含むメモリアーキテクチャもまた含んでもよく、メモリアーキテクチャは実行可能な命令192を保存することができる。ハードウェア構成要素は、内部バス194によってリンクされてもよく、内部バス194は、ディスプレイ196にもリンクすることができる。シーケンシングデバイス160が一体型デバイスとして実装される実施形態では、一定の冗長なハードウェア要素を排除することができる。
プロセッサ184は、本明細書で提供されるゲノム配列データを操作するようにプログラムされてもよい。特定の実施形態では、イメージングモジュール172により取得された画像データに基づいて、シーケンシングデバイス160は、配列リードの各塩基に対する塩基コールを含むシーケンシングデータを生成するように構成されてもよい。更に、画像データに基づいて、連続して実行される配列リードの場合であっても、個々のリードは画像データを介して同じ場所に、したがって同じテンプレート鎖にリンクされてもよい。プロセッサ184はまた、試料への配列リードの割り当てに続いて、特定の試料のための挿入物に対応する配列の下流分析を実行するようにプログラムされてもよい。プロセッサ184は、BAMファイルの形式で配列データを操作し、.VCF又は.GVCFファイルなどの種々のフォーマットでバリアントコールを出力するように構成されてもよい。
本開示のある種の特徴のみが本明細書で説明され記載されてきたが、当業者には多くの改変及び変更が思い浮かぶであろう。したがって、添付の特許請求の範囲は、本開示の真の精神に含まれるすべてのそのような改変及び変更を包含するように意図されていることが理解されるべきである。
10 ワークフローダイアグラム
12 テンプレート
14 ライブラリ調製
16 UMI
16a 部分
16b 部分
20a プラス鎖
20b マイナス鎖
26 ペアエンドシーケンシング(PE SEQ)
28 配列リード
30 第1のリード群
32 第2のリード群
40 コラプシング
42 差異
46 差異
47 コラプシング
48 ステッチング
50 方法
64 方法
80 方法
100 方法
160 シーケンシングデバイス
162 試料処理デバイス
164 コンピュータ
170 基板
172 イメージングモジュール
174 プロセッサ
176 I/O制御
178 内部バス
180 不揮発性メモリ
182 RAM
184 プロセッサ
186 I/O制御
188 RAM
190 不揮発性メモリ
192 実行可能な命令
194 内部バス
196 ディスプレイ

Claims (22)

  1. 生体試料のゲノム配列データを受け取る工程であって、ゲノム配列データは複数の配列リードを含み、各配列リードは複数の固有の分子識別子のうちの1つの固有の分子識別子に関連付けられる、工程と;
    複数の固有の分子識別子に関して、第1の固有の分子識別子に関連付けられた複数の配列リードの第1のサブセット内の配列不一致、第1のサブセットと、第1の固有の分子識別子に相補的な第2の固有の分子識別子を有する複数の配列リードの第2のサブセットとの間の配列の不一致、又はそれらの両方、に基づいてゲノム配列データのエラーを同定して、ゲノム配列データのエラー率を生成する工程と;
    参照配列に関連するゲノム配列データ内の複数の潜在的な配列バリアントを同定する工程と;
    ゲノム配列データのエラー率に基づいて、潜在的な配列バリアント偽陽性又は真陽性配列バリアントへと分類されることを決定する工程と、
    複数の潜在的な配列バリアントから偽陽性配列バリアントを排除して、複数の配列バリアントを生成する工程と
    を含む、命令を実行するプロセッサの制御下にあるコンピュータ実装方法。
  2. エラー率が、ヌクレオチド変化のタイプに基づく個々のエラー率を含む、請求項1に記載の方法。
  3. 分類する工程が、個々のタイプのヌクレオチド変化のエラー率及び個々の潜在的配列バリアントのリードカバレッジの関数を適用して、個々の潜在的配列バリアントが偽陽性配列バリアントであると判定することを含む、請求項2に記載の方法。
  4. 複数の配列リードの第1のサブセット内の配列不一致に基づいて、ゲノム配列データのエラーを同定する工程が、個々の固有の分子識別子と関連する第1のリード方向第2のリード方向の間の第1の差異を同定することを含み、同定された第1の差異がエラー率に寄与する、請求項1に記載の方法。
  5. 複数の配列リードの第1のサブセット内の配列不一致に基づいて、ゲノム配列データのエラーを同定し、第1のサブセットの配列リードをコラプシングして、第1のサブセットの配列リードの過半数のコンセンサス配列を示す、コラプシングされた第1のサブセット配列を生成することを含む、請求項1に記載の方法。
  6. 第1のサブセットと、第2のサブセットとの間の配列の不一致に基づいてゲノム配列データ内のエラーを同定する工程が、コラプシングされた第1のサブセット配列の相補配列第2のサブセットのそれぞれ個々の配列リードとの間の第2の差異を同定することを含み、同定された第2の差異がエラー率に寄与する、請求項5に記載の方法。
  7. 第2のサブセットの配列リードをコラプシングして、コラプシングされた第2のサブセット配列リードを生成し、コラプシングされた第2のサブセット配列リード及びコラプシングされた第1のサブセット配列リード二重鎖コラプシング配列を組み立てることを含む、請求項6に記載の方法。
  8. 二重鎖コラプシング配列リードを、参照配列と比較して、複数の潜在的な配列バリアントのうちの1つの潜在的な配列バリアントを同定する、請求項7に記載の方法。
  9. 分類する工程が、エラー率に少なくとも部分的に基づく関数を、各潜在的な配列バリアントに適用して、スコアを生成すること、及びスコアに基づいて、各潜在的配列バリアントの偽陽性又は真陽性への分類を決定することを含む、請求項1に記載の方法。
  10. エラー率が、配列データの包括的なエラー率であり、関数が、エラー率と、個々の潜在的な各配列バリアントの部位でのリードカバレッジに基づく、請求項9に記載の方法。
  11. エラー率が、潜在的な配列バリアントのタイプに基づいて、各潜在的な配列バリアント部位での複数のエラー率から選択され、関数が、選択されたエラー率と、個々の潜在的な各配列バリアント部位でのリードカバレッジに基づく、請求項9に記載の方法。
  12. エラー率が、生体試料のタイプに基づいて重み付けされ、関数は、重み付けされたエラー率と、個々の潜在的な各配列バリアント部位でのリードカバレッジに基づく、請求項9に記載の方法。
  13. ディスプレイ上に複数の配列バリアントの表示を提供することを含む、請求項1に記載の方法。
  14. エラー率が、第1のサブセット又は第2のサブセットに関連付けられた鎖で同定された差異の位置とは独立している、請求項1に記載の方法。
  15. 第1の生体試料のゲノム配列データを受け取る工程であって、ゲノム配列データは複数の配列リードを含み、各配列リードは複数の固有の分子識別子のうちの1つの固有の分子識別子に関連付けられる、工程と;
    第1の固有の分子識別子に関連付けられた複数の配列リードの第1のサブセット内の第1の配列差異を同定する工程と;
    コラプシングされた第1のサブセット配列リードを生成するように第1のサブセットをコラプシングする工程であって、第1のサブセットの少数の配列リードに存在する配列差異を排除することを含む、工程と;
    第2の固有の分子識別子に関連付けられた複数の配列リードの第2のサブセット内の第2の配列差異を同定する工程であって、第2の固有の分子識別子は、第1の固有の分子識別子に、少なくとも部分的に相補的である、工程と;
    コラプシングされた第2のサブセット配列リードを生成するように第2のサブセットをコラプシングする工程であって、第2のサブセットの少数の配列リードに存在する配列差異を排除することを含む、工程と;
    コラプシングされた第1のサブセット配列リード、コラプシングされた第2のサブセット配列リード、又はコラプシングされた第1のサブセット配列リードとコラプシングされた第2のサブセット配列リードの二重鎖におけるベースラインに対する配列バリアントが、ゲノム配列データのエラー率の関数に基づいて有効であることを判定する工程であって、エラー率は、同定された第1の配列差異及び同定された第2の配列差異に部分的に基づいて決定される、工程と
    を含む、命令を実行するプロセッサの制御下にあるコンピュータ実装方法。
  16. エラー率の関数に基づいて、複数の配列リードの第3のサブセット内の追加の配列バリアントが有効であると判定する工程を含み、第3のサブセットが第3の固有の分子識別子に関連付けられている、請求項15に記載の方法。
  17. エラー率の関数に基づいて、複数の配列リードの第3のサブセット内の追加の配列バリアントが偽陽性であると判定する工程を含み、第3のサブセットが第3の固有の分子識別子に関連付けられている、請求項15に記載の方法。
  18. ゲノム配列データ中の配列バリアントから追加の配列バリアントを排除する工程を含む、請求項17に記載の方法。
  19. 生体試料のゲノム配列データ内の配列バリアントを同定するように構成されたシーケンシングデバイスであって、
    そこに保存された実行アプリケーション命令を含むメモリデバイスと;
    メモリデバイスに保存されたアプリケーション命令を実行するように構成されたプロセッサと
    を備え、アプリケーション命令は、
    プロセッサに、生体試料のゲノム配列データを受け取らせる命令であって、ゲノム配列データは複数の配列リードを含み、各配列リードは複数の固有の分子識別子のうちの1つの固有の分子識別子に関連付けられている、命令;
    プロセッサに、複数の固有の分子識別子の各固有の分子識別子に関連付けられた配列リード間の配列不一致に基づいてゲノム配列データ内の複数のエラーを同定させて、ゲノム配列データのエラー率を生成する、命令;
    プロセッサに、参照配列に関連するゲノム配列データ内の複数の潜在的な配列バリアントを同定させる命令;及び
    プロセッサに、エラー率に少なくとも部分的に基づいて、複数の潜在的な配列バリアントのバリディティを決定させる命令
    を含む、シーケンシングデバイス。
  20. バリディティが、エラー率及び個々の潜在的な配列バリアントの配列カバレッジの関数に基づいている、請求項19に記載のシーケンシングデバイス。
  21. ユーザー入力を受け取るように構成されたユーザーインターフェースを備え、ユーザー入力が生体試料の試料タイプを含む、請求項19に記載のシーケンシングデバイス。
  22. エラー率が、試料タイプに基づいて重み付けされる、請求項21に記載のシーケンシングデバイス。
JP2019568644A 2017-11-30 2018-11-30 配列バリアントコールのためのバリデーションの方法及びシステム Active JP7013490B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762593095P 2017-11-30 2017-11-30
US62/593,095 2017-11-30
PCT/US2018/063372 WO2019108972A1 (en) 2017-11-30 2018-11-30 Validation methods and systems for sequence variant calls

Publications (2)

Publication Number Publication Date
JP2020524499A JP2020524499A (ja) 2020-08-20
JP7013490B2 true JP7013490B2 (ja) 2022-02-15

Family

ID=64744960

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019568644A Active JP7013490B2 (ja) 2017-11-30 2018-11-30 配列バリアントコールのためのバリデーションの方法及びシステム

Country Status (9)

Country Link
US (1) US20190206510A1 (ja)
EP (1) EP3718113A1 (ja)
JP (1) JP7013490B2 (ja)
KR (1) KR102356323B1 (ja)
CN (1) CN110870016A (ja)
AU (2) AU2018375785A1 (ja)
CA (1) CA3067425C (ja)
IL (1) IL271235A (ja)
WO (1) WO2019108972A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110016499B (zh) 2011-04-15 2023-11-14 约翰·霍普金斯大学 安全测序系统
CN104956225B (zh) 2012-10-29 2018-10-02 约翰·霍普金斯大学 卵巢和子宫内膜癌的帕帕尼科拉乌测试
US11286531B2 (en) 2015-08-11 2022-03-29 The Johns Hopkins University Assaying ovarian cyst fluid
WO2021195594A1 (en) * 2020-03-26 2021-09-30 San Diego State University (SDSU) Foundation, dba San Diego State University Research Foundation Compositions and methods for treating or ameliorating infections
IL299042A (en) 2020-07-08 2023-02-01 Illumina Inc Beads as transpososome carriers
EP4192951A1 (en) 2020-08-06 2023-06-14 Illumina, Inc. Preparation of rna and dna sequencing libraries using bead-linked transposomes
CA3198842A1 (en) 2020-10-21 2022-04-28 Illumina, Inc. Sequencing templates comprising multiple inserts and compositions and methods for improving sequencing throughput
US11880416B2 (en) * 2020-10-21 2024-01-23 International Business Machines Corporation Sorting documents according to comprehensibility scores determined for the documents
EP4314282A1 (en) 2021-03-30 2024-02-07 Illumina, Inc. Improved methods of isothermal complementary dna and library preparation
BR112023019945A2 (pt) 2021-03-31 2023-11-14 Illumina Cambridge Ltd Métodos para a preparação de bibliotecas de sequenciamento por tagmentação direcional com o uso de tecnologia baseada em transposon com identificadores moleculares exclusivos para correção de erros
WO2023086474A1 (en) * 2021-11-10 2023-05-19 Albert Einstein College Of Medicine Method for measuring somatic dna mutation and dna damage profiles and a diagnostic kit suitable therefore
KR102529553B1 (ko) * 2022-03-21 2023-05-10 주식회사 아이엠비디엑스 핵산 서열 분석에서 위양성 변이를 판별하는 방법
US20230392201A1 (en) * 2022-06-06 2023-12-07 Element Biosciences, Inc. Methods for assembling and reading nucleic acid sequences from mixed populations

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150044687A1 (en) 2012-03-20 2015-02-12 University Of Washington Through Its Center For Commercialization Methods of lowering the error rate of massively parallel dna sequencing using duplex consensus sequencing
JP2015527057A (ja) 2012-06-21 2015-09-17 ザ チャイニーズ ユニバーシティー オブ ホンコン 癌検出のための血漿中dnaの突然変異解析
US20150275289A1 (en) 2012-05-31 2015-10-01 Board Of Regents, The University Of Texas System Method for Accurate Sequencing of DNA
US20160319345A1 (en) 2015-04-28 2016-11-03 Illumina, Inc. Error suppression in sequenced dna fragments using redundant reads with unique molecular indices (umis)
JP2017506875A (ja) 2013-12-28 2017-03-16 ガーダント ヘルス, インコーポレイテッド 遺伝的バリアントを検出するための方法およびシステム
JP2017520821A (ja) 2014-05-12 2017-07-27 エフ.ホフマン−ラ ロシュ アーゲーF. Hoffmann−La Roche Aktiengesellschaft ウルトラディープシークエンシングにおける希少バリアントコール

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5846719A (en) 1994-10-13 1998-12-08 Lynx Therapeutics, Inc. Oligonucleotide tags for sorting and identification
US5750341A (en) 1995-04-17 1998-05-12 Lynx Therapeutics, Inc. DNA sequencing by parallel oligonucleotide extensions
ES2563643T3 (es) 1997-04-01 2016-03-15 Illumina Cambridge Limited Método de secuenciación de ácido nucleico
US6969488B2 (en) 1998-05-22 2005-11-29 Solexa, Inc. System and apparatus for sequential processing of analytes
US7001792B2 (en) 2000-04-24 2006-02-21 Eagle Research & Development, Llc Ultra-fast nucleic acid sequencing device and a method for making and using the same
US7057026B2 (en) 2001-12-04 2006-06-06 Solexa Limited Labelled nucleotides
JP2006509040A (ja) 2002-08-23 2006-03-16 ソレックサ リミテッド 修飾されたヌクレオチド
GB0321306D0 (en) 2003-09-11 2003-10-15 Solexa Ltd Modified polymerases for improved incorporation of nucleotide analogues
EP3673986A1 (en) 2004-01-07 2020-07-01 Illumina Cambridge Limited Improvements in or relating to molecular arrays
WO2006064199A1 (en) 2004-12-13 2006-06-22 Solexa Limited Improved method of nucleotide detection
US8623628B2 (en) 2005-05-10 2014-01-07 Illumina, Inc. Polymerases
GB0514936D0 (en) 2005-07-20 2005-08-24 Solexa Ltd Preparation of templates for nucleic acid sequencing
GB0514910D0 (en) 2005-07-20 2005-08-24 Solexa Ltd Method for sequencing a polynucleotide template
US7329860B2 (en) 2005-11-23 2008-02-12 Illumina, Inc. Confocal imaging methods and apparatus
US7754429B2 (en) 2006-10-06 2010-07-13 Illumina Cambridge Limited Method for pair-wise sequencing a plurity of target polynucleotides
EP2092322B1 (en) 2006-12-14 2016-02-17 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale fet arrays
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
US8349167B2 (en) 2006-12-14 2013-01-08 Life Technologies Corporation Methods and apparatus for detecting molecular interactions using FET arrays
US20100137143A1 (en) 2008-10-22 2010-06-03 Ion Torrent Systems Incorporated Methods and apparatus for measuring analytes
EP2602734A1 (en) * 2011-12-08 2013-06-12 Koninklijke Philips Electronics N.V. Robust variant identification and validation
AU2013382195B2 (en) 2013-03-13 2019-09-19 Illumina, Inc. Methods and systems for aligning repetitive DNA elements
CN107075730A (zh) * 2014-09-12 2017-08-18 利兰·斯坦福青年大学托管委员会 循环核酸的鉴定及用途
KR102638152B1 (ko) 2016-11-16 2024-02-16 일루미나, 인코포레이티드 서열 변이체 호출을 위한 검증 방법 및 시스템

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150044687A1 (en) 2012-03-20 2015-02-12 University Of Washington Through Its Center For Commercialization Methods of lowering the error rate of massively parallel dna sequencing using duplex consensus sequencing
US20150275289A1 (en) 2012-05-31 2015-10-01 Board Of Regents, The University Of Texas System Method for Accurate Sequencing of DNA
JP2015527057A (ja) 2012-06-21 2015-09-17 ザ チャイニーズ ユニバーシティー オブ ホンコン 癌検出のための血漿中dnaの突然変異解析
JP2017506875A (ja) 2013-12-28 2017-03-16 ガーダント ヘルス, インコーポレイテッド 遺伝的バリアントを検出するための方法およびシステム
JP2017520821A (ja) 2014-05-12 2017-07-27 エフ.ホフマン−ラ ロシュ アーゲーF. Hoffmann−La Roche Aktiengesellschaft ウルトラディープシークエンシングにおける希少バリアントコール
US20160319345A1 (en) 2015-04-28 2016-11-03 Illumina, Inc. Error suppression in sequenced dna fragments using redundant reads with unique molecular indices (umis)

Also Published As

Publication number Publication date
CA3067425A1 (en) 2019-06-06
US20190206510A1 (en) 2019-07-04
IL271235A (en) 2020-01-30
JP2020524499A (ja) 2020-08-20
WO2019108972A1 (en) 2019-06-06
AU2018375785A1 (en) 2019-12-12
CN110870016A (zh) 2020-03-06
KR102356323B1 (ko) 2022-01-26
AU2021269294A1 (en) 2021-12-09
CA3067425C (en) 2023-10-31
AU2021269294B2 (en) 2023-12-14
EP3718113A1 (en) 2020-10-07
KR20200013709A (ko) 2020-02-07

Similar Documents

Publication Publication Date Title
JP7013490B2 (ja) 配列バリアントコールのためのバリデーションの方法及びシステム
KR102638152B1 (ko) 서열 변이체 호출을 위한 검증 방법 및 시스템
JP7373047B2 (ja) 圧縮分子タグ付き核酸配列データを用いた融合の検出のための方法
JP7067896B2 (ja) 品質評価方法、品質評価装置、プログラム、および記録媒体
Smart et al. A novel phylogenetic approach for de novo discovery of putative nuclear mitochondrial (pNumt) haplotypes
US20200318175A1 (en) Methods for partner agnostic gene fusion detection
US20200075124A1 (en) Methods and systems for detecting allelic imbalance in cell-free nucleic acid samples
Pala Sequence Variation Of Copy Number Variable Regions In The Human Genome
Konnick et al. Existing and Emerging Molecular Technologies in Myeloid Neoplasms
Chen et al. ERVcaller: Identify polymorphic endogenous retrovirus (ERV) and other transposable element (TE) insertions using whole-genome sequencing data
WO2024073544A1 (en) System and method for genotyping structural variants
WO2024059487A1 (en) Methods for detecting allele dosages in polyploid organisms
KR20230165273A (ko) 어댑터 이량체 검출을 갖는 핵산 라이브러리 서열분석 기술
Wood Mitochondrial Haplogrouping and Short Tandem Repeat Analyses in Anthropological Research using Next-Generation Sequencing Technologies
CN115552535A (zh) 基因组测序和检测技术

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210112

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210412

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210614

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210708

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211224

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220119

R150 Certificate of patent or registration of utility model

Ref document number: 7013490

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150