JP2022550841A - 単一細胞分析を使用して改善されたバリアントコーラー - Google Patents

単一細胞分析を使用して改善されたバリアントコーラー Download PDF

Info

Publication number
JP2022550841A
JP2022550841A JP2022520391A JP2022520391A JP2022550841A JP 2022550841 A JP2022550841 A JP 2022550841A JP 2022520391 A JP2022520391 A JP 2022520391A JP 2022520391 A JP2022520391 A JP 2022520391A JP 2022550841 A JP2022550841 A JP 2022550841A
Authority
JP
Japan
Prior art keywords
base
sequence reads
interest
bases
cell
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022520391A
Other languages
English (en)
Other versions
JPWO2021067721A5 (ja
Inventor
マニモジ マニヴァナン
ドンミョンヒ キム
ソンビート サフ
サウラブ グラティ
シュ ワン
Original Assignee
ミッション バイオ インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ミッション バイオ インコーポレイテッド filed Critical ミッション バイオ インコーポレイテッド
Publication of JP2022550841A publication Critical patent/JP2022550841A/ja
Publication of JPWO2021067721A5 publication Critical patent/JPWO2021067721A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)

Abstract

2段階プロセスを含む改善されたバリアントコーリング法が本明細書に説明され、2段階プロセスは、1)細胞特異的プロセスを通じての配列リードの塩基のエラー修正と、2)エラー修正された配列リードを使用する細胞集団全体にわたるバリアントコーリングとを含む。概して、エラー修正の第1のステップは、第1の機械学習済みモデルを適用して、配列リードの塩基を識別及び修正することを含む。バリアントコーリングの第2のステップは、第2の機械学習済みモデルを適用して、塩基を分類することを含む。そのような改善されたバリアントコーリング法は、病的な生物学的プロセス等の生物学的プロセスに関係するバリアントを識別するのに役立つ可能性がある。【選択図】図1

Description

関連出願の相互参照
本願は、2019年10月2日に出願された米国仮特許出願第62/909,670号の利益及び優先権を主張し、その開示全体は、あらゆる目的のために全体として本明細書によって参照により組み込まれている。
背景
多くの場合、配列決定技術により、PCRに起因するエラーと、0.5%~2%の範囲にわたる配列決定エラーと、が問題になる配列リードが生成されることがある。多くの場合、細胞集団のバリアントをコールすることを目的とするバリアントコーラーは、バリアントコーラーの精度に悪影響をもたらすこれらのエラーの結果として、偽陽性を識別することがある。偽陽性を軽減するための従来の戦略では、多くの場合、ハードカットオフを使用する。しかしながら、これらのハードカットオフを実装すると、かなりの数の真陽性がなくなり、多くの場合、その問題は、欠測データの問題と呼ばれることがある。したがって、真陽性を犠牲にすることなく、偽陽性を良好に識別できるバリアントコーラーの改善が必要である。
概要
2段階プロセスを通じて改善されたバリアントコーリング法の実施形態が本明細書に説明され、2段階プロセスは、1)細胞特異的プロセスを通じて配列リードの塩基のエラー修正と、2)エラー修正された配列リードを使用して細胞集団全体にわたるバリアントコーリングとを含む。塩基のエラーは、多くの場合、PCRエラー、配列決定エラー、配列決定アライメントエラー、または修正エラーのいずれかから発生することがある。ここでは、2段階プロセスにより誤った塩基の識別及び修正が可能になることによって、より正確なバリアントコールが可能になる。様々な実施形態では、塩基のエラー修正は、誤った塩基を修正するために使用される、第1のトレーニングされた機械学習モデル(以下、エラー修正モデルと呼ばれる)の実施を含む。したがって、エラー修正モデルは、個々の細胞からの配列リードの修正を可能にする。細胞特異的方式により塩基のエラー修正を行うことは、バルク配列決定に由来する配列リードを修正することと比較して有利である。例えば、塩基エラーは単一細胞からの配列リードで発生する可能性があるため、これらの塩基エラーは単一細胞に対して一緒に修正できる。様々な実施形態では、細胞集団全体にわたるバリアントコーリングは、第2のトレーニングされた機械学習モデル(以下、バリアントコーラーモデルと呼ばれる)の実施を含む。バリアントコーラーモデルは、修正された配列リードを分析し、細胞集団内に存在する真のバリアントである可能性がより高いバリアントをコールする。同時に、エラー修正モデル及びバリアントコーラーモデルの実施を含む2段階プロセスにより、真のバリアントをコールする際により高精度が実現する。これは、がん等の疾患に関係し得る真のバリアントを識別するのに役立つ可能性がある。
細胞集団の1つ以上のバリアントをコールするための方法が本明細書に開示され、本方法は、複数の配列リードを細胞集団の細胞から取得することと、細胞集団中の複数の細胞について、細胞から取得された配列リードを修正することであって、参照塩基とは異なる配列リードの関心対象の塩基を識別すること、関心対象の塩基の単一細胞の特徴を分析するためにエラー修正モデルを適用することであって、エラー修正モデルが、関心対象の塩基の確率を予測するためにトレーニングされる、適用すること、及び細胞に由来する配列リードの関心対象の塩基を修正すること、を含む、修正することと、細胞集団の細胞全体にわたって修正された配列リードを集約することによって細胞集団の特徴を生成することであって、修正された配列リードが、修正された塩基を含む、生成することと、細胞集団全体にわたって1つ以上のバリアントを識別するために、バリアントコーラーモデルを、集約された配列リードに由来する細胞集団の特徴に適用することと、を含む。
様々な実施形態では、単一細胞の特徴は、関心対象の塩基の周りのコンテクスト配列、関心対象の塩基の配列決定深度、関心対象の塩基のアレル頻度、及び関心対象の塩基の周りのウィンドウ内の塩基のアレル頻度を含む。様々な実施形態では、配列リードの関心対象の塩基を識別することは、参照塩基とミスマッチ塩基との間の遷移の尤度を含む遷移マトリクスを、ミスマッチ塩基について配列リード全体にわたってヌクレオチド塩基の割合を観察する確率に適用することを含む。様々な実施形態では、配列リードの関心対象の塩基を識別することは、ミスマッチ塩基について配列リード全体にわたってヌクレオチド塩基の割合を観察する確率を算出することと、算出された確率を遷移マトリクスからの遷移の尤度と比較することと、をさらに含む。様々な実施形態では、算出された確率が遷移の尤度よりも大きいことに応答して、ミスマッチ塩基を関心対象の塩基として識別する。様々な実施形態では、1つ以上のサンプル細胞集団に由来する配列リードを含むトレーニングデータを使用して、遷移マトリクスを生成する。様々な実施形態では、細胞集団の細胞からの複数の配列リードを使用して、遷移マトリクスを生成する。様々な実施形態では、細胞集団の1つ以上の細胞の配列リードが修正されるとき、遷移マトリクスの遷移の尤度は動的に更新される。
様々な実施形態では、エラー修正モデルはニューラルネットワークである。様々な実施形態では、エラー修正モデルは、関心対象の塩基の周りのモチーフ及び局所的配列コンテクストを学習する1つ以上の層を含む深層学習ニューラルネットワークである。様々な実施形態では、細胞結果に由来する複数の配列リードの1つ以上の配列リードを修正することは、参照塩基とは異なる関心対象の塩基の少なくとも25%を修正することを含む。
様々な実施形態では、細胞集団の特徴は、ヘテロ接合コールのパーセンテージ、ヘテロ接合コールのバリアントアレル頻度(VAF)の中央値、ヘテロ接合コールの遺伝子型品質の中央値、ヘテロ接合コールの読み取り深度の中央値、ホモ接合コールのパーセンテージ、ホモ接合コールのVAFの中央値、ホモ接合コールの遺伝子型品質の中央値、ホモ接合コールの読み取り深度の中央値、参照コールのパーセンテージ、ホモ接合コールの読み取り深度の変動係数(CV)、ヘテロ接合コールの読み取り深度のCV、ホモ接合コールの遺伝子型品質のCV、ヘテロ接合コールの遺伝子型品質のCV、ホモ接合コールのVAFのCV、ヘテロ接合コールのVAFのCV、ホモ接合コールのVAFの平均値と中央値との差、ヘテロ接合コールのVAFの平均値と中央値との差、及び単位複製配列GCのパーセンテージの1つ以上を含む。
様々な実施形態では、バリアントコーラーモデルは、関心対象のヘテロ接合バリアントまたは関心対象のホモ接合バリアントの少なくとも1つを予測する。様々な実施形態では、バリアントコーラーモデルは、不確定バリアントをさらに予測する。様々な実施形態では、バリアントコーラーモデルは、1つ以上の細胞株に由来する配列リードと、1つ以上の細胞株に存在する既知のヘテロ接合バリアントまたはホモ接合バリアントの指標とを含むトレーニングデータを使用してトレーニングされる。様々な実施形態では、エラー修正モデル及びバリアントコーラーモデルの適用は、従来のGTAKバリアントコーラーと比較して、0.5%の検出限界(LOD)において真のバリアント陽性的中率の少なくとも2倍の増加を実現する。様々な実施形態では、エラー修正モデル及びバリアントコーラーモデルの適用は、0.5%の検出限界(LOD)において少なくとも0.6の真のバリアント陽性的中率を実現する。様々な実施形態では、細胞に由来する複数の配列リードは、単一細胞ワークフロー分析によって決定される。様々な実施形態では、参照塩基は参照ゲノム配列から決定される。様々な実施形態では、参照塩基は、対照細胞から取得された1つ以上の配列リードから決定される。
さらに、細胞集団の1つ以上のバリアントをコールするための非一時的コンピュータ可読媒体が本明細書に開示され、非一時的コンピュータ可読媒体は命令を含み、命令は、プロセッサによって実行されるとき、プロセッサに、複数の配列リードを細胞集団の細胞から取得することと、細胞集団中の複数の細胞について、細胞から取得された配列リードを修正することであって、参照塩基とは異なる配列リードの関心対象の塩基を識別すること、関心対象の塩基の単一細胞の特徴を分析するためにエラー修正モデルを適用することであって、エラー修正モデルが、関心対象の塩基の確率を予測するためにトレーニングされる、適用すること、及び細胞に由来する配列リードの関心対象の塩基を修正すること、を含む、修正することと、細胞集団の細胞全体にわたって修正された配列リードを集約することによって細胞集団の特徴を生成することであって、修正された配列リードが、修正された塩基を含む、生成することと、細胞集団全体にわたって1つ以上のバリアントを識別するために、バリアントコーラーモデルを、集約された配列リードに由来する細胞集団の特徴に適用することと、を行わせる。
様々な実施形態では、単一細胞の特徴は、関心対象の塩基の周りのコンテクスト配列、関心対象の塩基の配列決定深度、関心対象の塩基のアレル頻度、及び関心対象の塩基の周りのウィンドウ内の塩基のアレル頻度を含む。様々な実施形態では、プロセッサに配列リードの関心対象の塩基を識別させる命令は、プロセッサによって実行されるとき、プロセッサに、参照塩基とミスマッチ塩基との間の遷移の尤度を含む遷移マトリクスを適用させる命令をさらに含む。
様々な実施形態では、プロセッサに配列リードの関心対象の塩基を識別させる命令は、プロセッサによって実行されるとき、プロセッサに、ミスマッチ塩基について配列リード全体にわたってヌクレオチド塩基の割合を観察する確率を算出することと、算出された確率を遷移マトリクスからの遷移の尤度と比較することと、を行わせる命令をさらに含む。様々な実施形態では、算出された確率が遷移の尤度よりも大きいことに応答して、ミスマッチ塩基を関心対象の塩基として識別する。様々な実施形態では、1つ以上のサンプル細胞集団に由来する配列リードを含むトレーニングデータを使用して、遷移マトリクスを生成する。様々な実施形態では、細胞集団の細胞からの複数の配列リードを使用して、遷移マトリクスを生成する。様々な実施形態では、細胞集団の1つ以上の細胞の配列リードが修正されるとき、遷移マトリクスの遷移の尤度は動的に更新される。
様々な実施形態では、エラー修正モデルはニューラルネットワークである。様々な実施形態では、エラー修正モデルは、関心対象の塩基の周りのモチーフ及び局所的配列コンテクストを学習する1つ以上の層を含む深層学習ニューラルネットワークである。様々な実施形態では、細胞結果に由来する複数の配列リードの1つ以上の配列リードを修正することは、参照塩基とは異なる関心対象の塩基の少なくとも25%を修正することを含む。様々な実施形態では、細胞集団の特徴は、ヘテロ接合コールのパーセンテージ、ヘテロ接合コールのバリアントアレル頻度(VAF)の中央値、ヘテロ接合コールの遺伝子型品質の中央値、ヘテロ接合コールの読み取り深度の中央値、ホモ接合コールのパーセンテージ、ホモ接合コールのVAFの中央値、ホモ接合コールの遺伝子型品質の中央値、ホモ接合コールの読み取り深度の中央値、参照コールのパーセンテージ、ホモ接合コールの読み取り深度の変動係数(CV)、ヘテロ接合コールの読み取り深度のCV、ホモ接合コールの遺伝子型品質のCV、ヘテロ接合コールの遺伝子型品質のCV、ホモ接合コールのVAFのCV、ヘテロ接合コールのVAFのCV、ホモ接合コールのVAFの平均値と中央値との差、ヘテロ接合コールのVAFの平均値と中央値との差、及び単位複製配列GCのパーセンテージの1つ以上を含む。
様々な実施形態では、バリアントコーラーモデルは、関心対象のヘテロ接合バリアントまたは関心対象のホモ接合バリアントの少なくとも1つを予測する。様々な実施形態では、バリアントコーラーモデルは、不確定バリアントをさらに予測する。様々な実施形態では、バリアントコーラーモデルは、1つ以上の細胞株に由来する配列リードと、1つ以上の細胞株に存在する既知のヘテロ接合バリアントまたはホモ接合バリアントの指標とを含むトレーニングデータを使用してトレーニングされる。様々な実施形態では、エラー修正モデル及びバリアントコーラーモデルの適用は、従来のGTAKバリアントコーラーと比較して、0.5%の検出限界(LOD)において真のバリアント陽性的中率の少なくとも2倍の増加を実現する。様々な実施形態では、エラー修正モデル及びバリアントコーラーモデルの適用は、0.5%の検出限界(LOD)において少なくとも0.6の真のバリアント陽性的中率を実現する。様々な実施形態では、細胞に由来する複数の配列リードは、単一細胞ワークフロー分析によって決定される。様々な実施形態では、参照塩基は参照ゲノム配列から決定される。様々な実施形態では、参照塩基は、対照細胞から取得された1つ以上の配列リードから決定される。
さらに、本明細書に開示されるのは、以下を備えるシステムである:細胞集団の細胞の複数の配列リードを生成するように構成される単一細胞分析ワークフローデバイス;単一細胞分析ワークフローデバイスに通信可能に連結された計算デバイスであって、複数の配列リードを細胞集団の細胞から取得することと、細胞集団中の複数の細胞について、細胞から取得された配列リードを修正することであって、参照塩基とは異なる配列リードの関心対象の塩基を識別すること、関心対象の塩基の単一細胞の特徴を分析するためにエラー修正モデルを適用することであって、エラー修正モデルが、関心対象の塩基の確率を予測するためにトレーニングされる、適用すること、及び細胞に由来する配列リードの関心対象の塩基を修正すること、を含む、修正することと、細胞集団の細胞全体にわたって修正された配列リードを集約することによって細胞集団の特徴を生成することであって、修正された配列リードが、修正された塩基を含む、生成することと、細胞集団全体にわたって1つ以上のバリアントを識別するために、バリアントコーラーモデルを、集約された配列リードに由来する細胞集団の特徴に適用することと、を行うように構成される、計算デバイス。様々な実施形態では、単一細胞の特徴は、関心対象の塩基の周りのコンテクスト配列、関心対象の塩基の配列決定深度、関心対象の塩基のアレル頻度、及び関心対象の塩基の周りのウィンドウ内の塩基のアレル頻度を含む。
様々な実施形態では、配列リードの関心対象の塩基を識別することは、参照塩基とミスマッチ塩基との間の遷移の尤度を含む遷移マトリクスを、ミスマッチ塩基について配列リード全体にわたってヌクレオチド塩基の割合を観察する確率に適用することを含む。様々な実施形態では、配列リードの関心対象の塩基を識別することは、ミスマッチ塩基について配列リード全体にわたってヌクレオチド塩基の割合を観察する確率を算出することと、算出された確率を遷移マトリクスからの遷移の尤度と比較することと、を含む。様々な実施形態では、算出された確率が遷移の尤度よりも大きいことに応答して、ミスマッチ塩基を関心対象の塩基として識別する。様々な実施形態では、1つ以上のサンプル細胞集団に由来する配列リードを含むトレーニングデータを使用して、遷移マトリクスを生成する。様々な実施形態では、細胞集団の細胞からの複数の配列リードを使用して、遷移マトリクスを生成する。様々な実施形態では、細胞集団の1つ以上の細胞の配列リードが修正されるとき、遷移マトリクスの遷移の尤度は動的に更新される。
様々な実施形態では、エラー修正モデルはニューラルネットワークである。様々な実施形態では、エラー修正モデルは、関心対象の塩基の周りのモチーフ及び局所的配列コンテクストを学習する1つ以上の層を含む深層学習ニューラルネットワークである。様々な実施形態では、細胞結果に由来する複数の配列リードの1つ以上の配列リードを修正することは、参照塩基とは異なる関心対象の塩基の少なくとも25%を修正することを含む。
様々な実施形態では、細胞集団の特徴は、ヘテロ接合コールのパーセンテージ、ヘテロ接合コールのバリアントアレル頻度(VAF)の中央値、ヘテロ接合コールの遺伝子型品質の中央値、ヘテロ接合コールの読み取り深度の中央値、ホモ接合コールのパーセンテージ、ホモ接合コールのVAFの中央値、ホモ接合コールの遺伝子型品質の中央値、ホモ接合コールの読み取り深度の中央値、参照コールのパーセンテージ、ホモ接合コールの読み取り深度の変動係数(CV)、ヘテロ接合コールの読み取り深度のCV、ホモ接合コールの遺伝子型品質のCV、ヘテロ接合コールの遺伝子型品質のCV、ホモ接合コールのVAFのCV、ヘテロ接合コールのVAFのCV、ホモ接合コールのVAFの平均値と中央値との差、ヘテロ接合コールのVAFの平均値と中央値との差、及び単位複製配列GCのパーセンテージの1つ以上を含む。
様々な実施形態では、バリアントコーラーモデルは、関心対象のヘテロ接合バリアントまたは関心対象のホモ接合バリアントの少なくとも1つを予測する。様々な実施形態では、バリアントコーラーモデルは、不確定バリアントをさらに予測する。様々な実施形態では、バリアントコーラーモデルは、1つ以上の細胞株に由来する配列リードと、1つ以上の細胞株に存在する既知のヘテロ接合バリアントまたはホモ接合バリアントの指標とを含むトレーニングデータを使用してトレーニングされる。
様々な実施形態では、エラー修正モデル及びバリアントコーラーモデルの適用は、従来のGTAKバリアントコーラーと比較して、0.5%の検出限界(LOD)において真のバリアント陽性的中率の少なくとも2倍の増加を実現する。様々な実施形態では、エラー修正モデル及びバリアントコーラーモデルの適用は、0.5%の検出限界(LOD)において少なくとも0.6の真のバリアント陽性的中率を実現する。様々な実施形態では、参照塩基は参照ゲノム配列から決定される。様々な実施形態では、参照塩基は、対照細胞から取得された1つ以上の配列リードから決定される。
本発明のこれらの及び他の特徴、態様、及び利点は、以下の説明及び添付の図面に関してより深く理解されるであろう。
ある実施形態による、細胞分析ワークフローデバイス及びバリアントコールを識別するための塩基コーラーデバイスを含む全体的なシステム環境を示す。 ある実施形態による、塩基コーラーデバイスの別個のモジュールのブロック図である。 ある実施形態による、単一細胞に由来する配列リードを修正するためのフロー図である。 ある実施形態による、修正された配列リードを使用して、細胞集団のバリアントをコールするためのフロー図を示す。 ある実施形態による、エラー修正モデルの実施態様を示す。 ある実施形態による、バリアントコーラーモデルの実施態様を示す。 図1~図4を参照して説明されるシステム及び方法を実施するための例示的なコンピューティングデバイスを示す。 塩基エラーの大部分が1つの細胞だけに観察される、塩基エラーの分布の例を示す。 遷移マトリクスの例証である。 図8A及び図8Bは、異なる位置にわたる6つの配列リードのパイルアップの例証である。 図8A及び図8Bは、異なる位置にわたる6つの配列リードのパイルアップの例証である。 エラー修正モデルの入力及び出力の例を示す。 エラー修正モデルによって予測された確率を使用して関心対象の塩基を修正する例を示す。 エラー修正モデルを実施した結果として、4つの異なる細胞集団にわたる20~35%の塩基の修正を示す。 エラー修正モデル及びバリアントコーラーモデルの実施後の真のバリアントの改善された陽性的中率を示す。
詳細な説明
定義
特許請求の範囲及び明細書で使用される用語は、特に明記しない限り、下記に記載するように定義される。
「ミスマッチ塩基」及び「代替塩基」という語句は言い換え可能に使用され、同じ位置にある既知の参照塩基とは異なる位置にある塩基を指す。いくつかのシナリオでは、ミスマッチ塩基が誤って識別される(例えば、配列決定中に誤って識別される)。塩基の誤った識別は、PCRエラー、配列決定エラー、配列決定アライメントエラー、及び/または修正エラー等の様々な原因から発生する可能性がある。例を提供するために、参照位置の既知の塩基はアデニン(A)であり得る。ミスマッチ塩基または代替塩基は、同じ位置にあるアデニン(A)以外の塩基を指す(例えば、塩基はグアニン(G)、シトシン(C)、またはチミン(T)のいずれか1つである)。
「参照塩基」という語句は、既知のヌクレオチド塩基を有する既知の塩基を指す。一実施形態では、参照塩基は参照ゲノム配列から決定される。一実施形態では、参照塩基は、対照細胞から取得された1つ以上の配列リードから決定される。
「エラー修正モデル」という語句は、関心対象の塩基を修正できるように、関心対象の塩基を分析するために実施される予測モデルまたは機械学習済みモデルを指す。概して、エラー修正モデルは、細胞特異的方式で関心対象の塩基を分析するために実施される。一実施形態では、エラー修正モデルは関心対象の塩基に生成されたパイルアップを分析し、パイルアップは単一細胞から派生する配列リードの塩基を定量化する。そのような実施形態では、関心対象の塩基を含む単一細胞からの配列リードは、一緒に修正できる。
「関心対象の塩基」という語句は、参照塩基と比較してミスマッチである細胞に由来する配列リード全体の塩基を指す。様々な実施形態では、関心対象の塩基は、遷移マトリクスを適用することによる誤った塩基である可能性が高い。概して、関心対象の塩基に生成されたパイルアップは、関心対象の塩基が誤った塩基である可能性が高いかどうかを判断するために、エラー修正モデルによって分析される。
「単一細胞の特徴」という語句は、単一細胞の配列リードにおける関心対象の塩基に関連する特徴を指す。様々な実施形態では、単一細胞の特徴は、4つのヌクレオチド塩基(アデニン、グアニン、シトシン、及びチミン)に対応する確率分布を求めるためにエラー修正モデルによって分析され、確率分布は、関心対象の塩基が4つのヌクレオチド塩基のうちの1つである尤度を表す。単一細胞の特徴の例は、関心対象の塩基の周りのコンテクスト配列、関心対象の塩基の配列決定深度、関心対象の塩基のアレル頻度、及び関心対象の塩基の周りのウィンドウ内の塩基のアレル頻度を含む。
「バリアントコーラーモデル」という語句は、細胞集団のバリアントをコールするために実施される予測モデルまたは機械学習済みモデルを指す。バリアントコーラーモデルは、細胞集団全体にわたって修正された配列リードに由来する細胞集団の特徴を分析し、配列リードはエラー修正を受ける(例えば、エラー修正モデルを使用して修正される)。一実施形態では、バリアントコーラーモデルは、入力として細胞集団の特徴を受信し、候補バリアントの分類を予測する。一実施形態では、バリアントコーラーモデルは、以前に修正された配列リードから細胞集団の特徴を抽出し、抽出された細胞集団の特徴に基づいて候補バリアントの分類を予測する。
「細胞集団の特徴」という語句は、細胞集団全体にわたって修正された配列リードに由来する候補バリアントに関連する特徴を指す。細胞集団の特徴は、細胞集団の真のバリアントを予測するために、バリアントコーラーモデルによって分析される。細胞集団の特徴の例は、ヘテロ接合コールのパーセンテージ、ヘテロ接合コールのバリアントアレル頻度(VAF)の中央値、ヘテロ接合コールの遺伝子型品質の中央値、ヘテロ接合コールの読み取り深度の中央値、ホモ接合コールのパーセンテージ、ホモ接合コールのVAFの中央値、ホモ接合コールの遺伝子型品質の中央値、ホモ接合コールの読み取り深度の中央値、参照コールのパーセンテージ、ホモ接合コールの読み取り深度の変動係数(CV)、ヘテロ接合コールの読み取り深度のCV、ホモ接合コールの遺伝子型品質のCV、ヘテロ接合コールの遺伝子型品質のCV、ホモ接合コールのVAFのCV、ヘテロ接合コールのVAFのCV、ホモ接合コールのVAFの平均値と中央値との差、ヘテロ接合コールのVAFの平均値と中央値との差、及び単位複製配列GCのパーセンテージを含む。
「候補バリアント」という語句は、参照塩基と比較してミスマッチである細胞集団の配列リード全体の塩基を指す。概して、バリアントコーラーモデルは、候補バリアントがホモ接合バリアントまたはヘテロ接合バリアント等の真のバリアントであるかどうかを判断するために実施される。
「真のバリアント」という語句は、細胞集団の1つ以上の細胞内に存在する遺伝的バリアントを指す。
概要
本明細書に説明される実施形態は、塩基の細胞特異的エラー修正を行い、さらに、エラー修正された配列リードを使用してバリアントの識別を行う、改善されたバリアントコーラーを指す。様々な実施形態では、細胞特異的エラー修正は、エラー修正モデルを実施することを含み、バリアントの識別は、バリアントコーラーモデルを実施することを含む。要するに、本明細書に説明されるバリアントコーラー法は、エラー修正モデル及び/またはバリアントコーラーモデルとは対照的に、ハードカットオフを使用する従来のバリアントコーラー法(例えば、Genome Analysis Toolkit(GATK))と比較して、細胞内に存在する真のバリアントをコールする際により高精度が実現する。GATKで使用されるハードフィルタに関するさらなる詳細は、De Summa,S.,Malerba,G.,Pinto,R.et al.「GATK hard filtering:tunable parameters to improve variant calling for next generation sequencing targeted gene panel data」BMC Bioinformatics 18,119(2017)に見つけられ、当該文献は、参照により全体として組み込まれている。
図1を参照すると、ある実施形態による、細胞分析ワークフローデバイス120及びバリアントコーリングのための塩基コーラーデバイス130を含む全体的なシステム環境100を示す。細胞集団110が取得される。様々な実施形態では、細胞集団110は、被験者または患者から取得された試験サンプルから単離できる。様々な実施形態では、細胞集団110は、健常な被験者から採取した正常細胞を含む。様々な実施形態では、細胞集団110は、被験者から採取した異常細胞を含む。一実施形態では、細胞集団110は、以前にがんと診断された被験者から採取したがん細胞を含む。例えば、がん細胞は、がんと診断された被験者の血流中で得られる腫瘍細胞であり得る。別の例として、がん細胞は、腫瘍生検によって取得された細胞であり得る。
細胞分析ワークフローデバイス120は、細胞を処理して、配列決定するために核酸を生成するデバイスを指す。様々な実施形態では、細胞分析ワークフローデバイス120は、細胞を処理して、配列決定するために核酸を生成する1つ以上のデバイスを備えるシステムを指す。様々な実施形態では、細胞分析ワークフローデバイス120は核酸を単一細胞から生成するワークフローデバイスであり、それによって、配列リードの識別及び配列リードが起源である個々の細胞の後続の識別を可能にする。様々な実施形態では、細胞分析ワークフローデバイス120は、個々の細胞をエマルションにカプセル化し、エマルション中の細胞を溶解し、エマルションの細胞溶解物の細胞バーコーディングを行い、エマルションで核増幅反応を行うことによって単一細胞処理を行うことができる。したがって、増幅された核酸を収集し、配列決定できる。単一細胞ワークフロープロセスの例示的な実施形態のさらなる説明は、全体として本明細書によって参照により組み込まれている米国出願第14/420,646号に説明されている。
特定の実施形態では、細胞分析ワークフローデバイス120は、Tapestri(商標)プラットフォーム、inDrop(商標)システム、Nadia(商標)機器、またはChromium(商標)機器のいずれかであり得る。様々な実施形態では、細胞分析ワークフローデバイス120は、配列リードを生成するために核酸を配列決定するためのシーケンサーを含む。
塩基コーラーデバイス130は、細胞分析ワークフローデバイス120からの配列リードを受信し、配列リードを処理して、1つ以上のバリアント140をコールするように構成される。様々な実施形態では、塩基コーラーデバイス130は細胞分析ワークフローデバイス120に通信可能に連結されるため、細胞分析ワークフローデバイス120からの配列リードを直接受信する。塩基コーラーデバイス130は、配列リードの関心対象の塩基をエラー修正し、次に、細胞集団110内の可能性が高いバリアントをコールする。特定の実施形態では、塩基コーラーデバイス130は、細胞特異的ワークフロープロセスを通じて配列リードの関心対象の塩基を修正し、修正された配列リードを使用して細胞集団全体にわたってバリアントを後でコールする。要するに、細胞特異的エラー修正及び細胞集団バリアントコーリングのこの2段階プロセスは、細胞集団110全体にわたって、より正確なバリアントコール140を可能にする。
塩基コーラーデバイス
図2は、図1に説明された実施形態による、塩基コーラーデバイス130のブロック図である。図2に示されるように、塩基コーラーデバイス130は、塩基識別モジュール210、塩基修正モジュール220、細胞集団モジュール230、塩基コーラーモジュール240、及びトレーニングモジュール250を含む。いくつかの実施形態では、塩基コーラーデバイス130のモジュールは、図2に示される実施形態とは異なって配置できる。例えば、トレーニングモジュール250(点線で示される)は、塩基コーラーデバイス130以外のデバイスによって実装でき、トレーニングモジュール250に関して下記に説明される方法は、他のデバイスによって行うことができる。
概して、塩基識別モジュール210は、個々の細胞に由来する配列リードを分析し、参照塩基と比較してミスマッチである1つ以上の関心対象の塩基を識別する。塩基識別モジュール210は、細胞毎に関心対象の塩基を識別する。例えば、塩基識別モジュール210は、第1の細胞からの配列リードを分析し、第1の細胞からの配列リードの関心対象の塩基を決定する。塩基識別モジュール210は、さらに、第2の細胞からの配列リードを分析し、第2の細胞からの配列リードの関心対象の塩基を決定する等を行う。異なる細胞からの配列リードは、バーコード技術を使用して互いに区別でき、その例は、全体として本明細書によって参照により組み込まれているPCT/US2016/016444にさらに説明されている。さらに、細胞毎に、塩基識別モジュール210は、細胞の関心対象の塩基に対応する配列リードのパイルアップを生成し、関心対象の塩基のいずれかを修正するかどうかを決定するために、パイルアップを塩基修正モジュール220に提供する。
様々な実施形態では、塩基識別モジュール210は、参照ゲノムに整列された配列リードを取得する。例として、塩基識別モジュール210は、SAM(配列アライメントマップ)ファイルフォーマットまたはBAM(バイナリアライメントマップ)ファイルフォーマット等の可読ファイルフォーマットで配列リードを取得できる。
整列された配列リードが与えられると、塩基識別モジュール210は、細胞に由来する配列リード全体にわたって1つ以上の関心対象の塩基を識別する。様々な実施形態では、塩基識別モジュール210は、各ミスマッチ塩基を分析し、ミスマッチ塩基が関心対象の塩基であるかどうかを判定する。
様々な実施形態では、関心対象の塩基を識別するために、塩基識別モジュール210は、細胞からの位置における配列リードの少なくとも閾値数が、その位置における参照塩基とは異なる特定のヌクレオチド塩基を有するかどうかを判定する際にフィルタを適用する。様々な実施形態では、その位置における配列リードの閾値数を超えるものが参照塩基とは異なるヌクレオチド塩基を有する場合、塩基識別モジュール210は塩基を後続の修正の関心対象の塩基として識別する。
様々な実施形態では、特定の位置における配列リードの閾値数は固定値である。様々な実施形態では、配列リードの閾値数は、1000よりも大きい、2000よりも大きい、3000よりも大きい、4000よりも大きい、5000よりも大きい、6000よりも大きい、7000よりも大きい、8000よりも大きい、9000よりも大きい、10,000よりも大きい、20,000よりも大きい、30,000よりも大きい、40,000よりも大きい、50,000よりも大きい、75,000よりも大きい、100,000よりも大きい、150,000よりも大きい、200,000よりも大きい、250,000よりも大きい、または500,000の配列リードよりも大きい。様々な実施形態では、配列リードの閾値数は、細胞からの位置における配列リードの総数の5%よりも大きい、細胞からの位置における配列リードの総数の10%よりも大きい、細胞からの位置における配列リードの総数の20%よりも大きい、細胞からの位置における配列リードの総数の30%よりも大きい、細胞からの位置における配列リードの総数の40%よりも大きい、細胞からの位置における配列リードの総数の50%よりも大きい、細胞からの位置における配列リードの総数の60%よりも大きい、細胞からの位置における配列リードの総数の70%よりも大きい、細胞からの位置における配列リードの総数の75%よりも大きい、細胞からの位置における配列リードの総数の80%よりも大きい、細胞からの位置における配列リードの総数の85%よりも大きい、細胞からの位置における配列リードの総数の90%よりも大きい、または細胞からの位置における配列リードの総数の95%よりも大きい。
様々な実施形態では、塩基識別モジュール210は、遷移マトリクスを適用することによって、関心対象の塩基を識別する。そのような実施形態では、遷移マトリクスを適用することは、遷移マトリクスの確率を、配列リードのヌクレオチド塩基の割合を観察する尤度を反映する確率と比較することを含む。
最初に遷移マトリクスを参照すると、参照塩基のヌクレオチドと特定の位置における観察塩基のヌクレオチドとの間の遷移の頻度を表す確率が含まれる。概して、遷移マトリクスの遷移の頻度を表す確率により、塩基識別モジュール210は、エラー(PCRエラー、配列決定エラー等)が原因である可能性が高いミスマッチ塩基と、エラーが原因で発生しなかったミスマッチ塩基とを区別することが可能になる。
様々な実施形態では、遷移マトリクスは、所与の参照塩基(例えば、A、C、G、またはT)について、参照塩基が配列リードにおいて異なる塩基として観察される確率を含む。様々な実施形態では、遷移マトリクスは、12個の確率値(例えば、参照塩基からミスマッチ塩基への遷移を反映する3つの確率値)を含む。様々な実施形態では、遷移マトリクスは16個の確率値を含む。これは、配列リードで観察塩基が参照塩基と一致する各参照塩基の確率を含む。遷移マトリクスの例は、図7を参照して下記に説明される。
図7は、遷移マトリクスの例証である。ここで、遷移マトリクスは、参照塩基(例えば、y軸の「REF」)及び観察塩基(例えば、x軸の「観察された塩基」)の呼称を含む。遷移マトリクスの各細胞は、参照塩基のヌクレオチドが観察塩基のヌクレオチドとして観察される確率を表す尤度値を含む。例えば、遷移マトリクスの1行目は、既知のアデニン参照塩基「A」の場合、観察塩基が参照アデニン塩基と一致する確率が99%であることを示す(1行目)。しかしながら、いくつかのシナリオでは、参照アデニン塩基が配列リードで異なって観察される。例えば、既知のアデニン参照塩基「A」について、観察塩基が参照アデニン塩基とミスマッチである確率は、0.26%(1行目の2列目は観察されたチミン塩基を示す)、0.61%(1行目の3列目は観察されたグアニン塩基)、及び0.13%(1行目の4列目は観察されたシトシン塩基を示す)である。
いくつかの実施形態では、遷移マトリクスは、1つ以上の以前のサンプルから以前に生成されたものである。以前のサンプルは、細胞集団の細胞を含み得る、または細胞集団の混合物の細胞を含み得る。そのような実施形態では、遷移マトリクスは、異なるサンプル全体に適用できる参照として機能する。したがって、遷移マトリクスを使用して、異なるサンプルの関心対象の塩基を識別できる。様々な実施形態では、塩基識別モジュール210は、バリアントコーリングプロセスを受けるサンプル毎に遷移マトリクスを生成する。したがって、そのような実施形態では、塩基識別モジュール210は、関心対象の塩基を識別するとき、サンプル毎に異なる遷移マトリクスを適用する。これは、いくつかのシナリオでは、サンプルに依存してエラーが発生する可能性があるため、望ましくあり得る。
様々な実施形態では、塩基識別モジュール210は、少なくとも部分的に、塩基識別モジュール210が関心対象の塩基を識別するために分析しているのと同じ配列リードを使用して、遷移マトリクスを生成する。そのような実施形態では、関心対象の塩基が修正されるとき(例えば、下記に説明されるエラー修正モデルを使用して修正されるとき)、塩基識別モジュール210は、修正された塩基の新しいヌクレオチド塩基を反映するように遷移マトリクスの確率を動的に更新できる。塩基識別モジュール210が遷移マトリクスを生成する方法の例として、「A」の参照塩基を有する位置について、塩基識別モジュール210は、その位置における4つのヌクレオチド塩基(A、C、T、またはG)のいずれかを有する配列リードの割合を算出する。したがって、塩基識別モジュール210は、「A」の参照塩基を有する位置について、4つのヌクレオチド塩基にわたる確率分布を定量化する。塩基識別モジュール210は、「C」、「T」、及び「G」の参照ヌクレオチド塩基の遷移の確率を算出することができる。
様々な実施形態では、塩基識別モジュール210は、配列リード全体にわたる位置について、ヌクレオチド塩基の割合を観察する尤度を反映する確率を算出する。いくつかの実施形態では、確率は次のように表すことができる。
P(アデニン=W、シトシン=X、グアニン=Y、チミン=Z|N回の読み取り)
ここで、Wはその位置におけるアデニンヌクレオチド塩基を有する観察された配列リードの数であり、Xはその位置におけるシトシンヌクレオチド塩基を有する観察された配列リードの数であり、Yはその位置におけるチミンヌクレオチド塩基を有する観察された配列リードの数であり、Zはその位置におけるチミンヌクレオチド塩基を有する観察された配列リードの数であり、Nはその位置における観察された配列リードの総数である。
いくつかの実施形態では、確率は、配列リード全体にわたる位置について、ミスマッチヌクレオチド塩基の割合を観察する尤度を反映している。ここでは、確率は、以下のように示すことができる。
P(塩基1=X、塩基2=Y、塩基3=Z|N回の読み取り)
ここで、塩基1、塩基2、及び塩基3は参照塩基と一致しないヌクレオチド塩基を指す。ここで、Xはその位置における塩基1を有する観察された配列リードの数であり、Yはその位置における塩基2を有する観察された配列リードの数であり、Zはその位置における塩基3を有する観察された配列リードの数であり、Nはその位置における観察された配列リードの総数である。
塩基識別モジュール210は、その位置のヌクレオチド塩基の割合を観察する尤度を反映する確率を、遷移マトリクスの確率と比較する。様々な実施形態では、比較により、ヌクレオチド塩基の割合を観察する尤度を反映する確率が遷移マトリクスの確率よりも大きいことがもたらされる場合、塩基識別モジュール210は関心対象の塩基として塩基を識別する。したがって、関心対象の塩基は、修正を後で受けることができる。比較により、ヌクレオチド塩基の割合を観察する尤度を反映する確率が遷移マトリクスの確率よりも小さいことがもたらされる場合、塩基識別モジュール210は関心対象の塩基として塩基を識別しない。したがって、塩基は修正を受けず、ミスマッチ塩基のままになる。
関心対象の塩基を識別する全般的な例として、塩基識別モジュール210は、ある位置における配列リードの大部分が、グアニン(観察塩基)に対するアデニン(参照塩基)のミスマッチがあることを識別し得る。遷移マトリクスは、参照アデニン塩基から観察されたグアニン塩基への遷移の尤度を反映する確率を含む。この確率は0.01と仮定する。塩基識別モジュール210は、参照塩基以外のヌクレオチド塩基の割合を観察する確率(例えば、グアニン塩基、シトシン塩基、またはチミンヌクレオチド塩基を観察する確率)が0.05であると算出し得る。塩基識別モジュール210は、ヌクレオチド塩基の割合を観察する確率(0.05)を、遷移マトリクスの確率(0.01)と比較する。ここでは、ヌクレオチド塩基の割合を観察する確率(0.05)が遷移マトリクスの確率(0.01)よりも大きいと仮定して、塩基識別モジュール210は関心対象の塩基として塩基を識別する。
様々な実施形態では、関心対象の塩基を識別して、塩基識別モジュール210は、関心対象の塩基毎に配列リードのパイルアップを生成する。具体的には、塩基識別モジュール210は、関心対象の塩基のX位置の上流及びY位置の下流に位置する塩基を含む配列リードを含むパイルアップを生成する。様々な実施形態では、X及びYは同じ値である。他の実施形態では、X及びYは異なる値である。様々な実施形態では、Xは、関心対象の塩基の上流に、1個の位置、2個の位置、3個の位置、4個の位置、5個の位置、6個の位置、7個の位置、8個の位置、9個の位置、10個の位置、15個の位置、20個の位置、25個の位置、30個の位置、40個の位置、50個の位置、60個の位置、70個の位置、80個の位置、90個の位置、100個の位置、110個の位置、120個の位置、130個の位置、140個の位置、または150個の位置があり得る。様々な実施形態では、Yは、関心対象の塩基の下流に、1個の位置、2個の位置、3個の位置、4個の位置、5個の位置、6個の位置、7個の位置、8個の位置、9個の位置、10個の位置、15個の位置、20個の位置、25個の位置、30個の位置、40個の位置、50個の位置、60個の位置、70個の位置、80個の位置、90個の位置、100個の位置、110個の位置、120個の位置、130個の位置、140個の位置、または150個の位置があり得る。
様々な実施形態では、塩基識別モジュール210は、関心対象の塩基の位置の上流及び下流に位置する位置について、パイルアップが、4つのヌクレオチド塩基(例えば、アデニン、グアニン、シトシン、またはチミン)のうちの1つを有する配列リードの割合を示す確率を含むように、パイルアップを生成する。例えば、パイルアップは、パイルアップにおける位置毎に、マトリクスがその位置に対応するアデニン、グアニン、シトシン、またはチミンを有した配列リードの割合を識別する確率を含むように、マトリクスとして具体化され得る。
塩基修正モジュール220は、エラー修正モデルを適用して、関心対象の塩基の可能性が高いヌクレオチドを割り出す。したがって、塩基修正モジュール220は、細胞に由来する1つ以上の配列リード全体にわたって関心対象の塩基を修正できる。修正された配列リードは、真のバリアントをコールするために後で使用できる改善された配列リードを表す。概して、塩基修正モデル220は、細胞特異的プロセスを通じて配列リードを修正する。ここで、塩基修正モデル220は、第1の細胞の配列リードで関心対象の塩基を修正し得るが、第2の細胞の配列リードで同じ塩基を修正し得ない。エラー(例えば、PCRエラー、配列決定エラー、配列決定アライメントエラー、または修正エラー)が個々の細胞で発生する可能性があるため、塩基修正モデル220によって行われる方法は、これらのエラーに対処するために細胞毎に配列リードの修正を可能にする。
塩基修正モジュール220は、関心対象の塩基のために生成されたパイルアップを受信する。一実施形態では、塩基修正モジュール220は、エラー修正モデルへの入力として、関心対象の塩基のパイルアップを適用する。ここでは、エラー修正モデルは、関心対象の塩基の周りのコンテクスト配列、関心対象の塩基の配列決定深度、関心対象の塩基のアレル頻度、及び関心対象の塩基の周りのウィンドウ内の塩基のアレル頻度を含むパイルアップの単一細胞の特徴を抽出及び分析できる。様々な実施形態では、「ウィンドウ」は、関心対象の塩基の上流に位置するX塩基及び関心対象の塩基の下流に位置するY塩基を指す。様々な実施形態では、X及びYは、互いに独立して、2個の塩基、3個の塩基、4個の塩基、5個の塩基、6個の塩基、7個の塩基、8個の塩基、9個の塩基、10個の塩基、20個の塩基、30個の塩基、40個の塩基、50個の塩基、60個の塩基、70個の塩基、75個の塩基、80個の塩基、90個の塩基、100個の塩基、150個の塩基、200個の塩基、300個の塩基、400個の塩基、または500個の塩基であり得る。例として、エラー修正モデルは、パイルアップから単一細胞の特徴を抽出し、単一細胞の特徴を分析するニューラルネットワーク(例えば、深層学習ニューラルネットワーク)であり得る。いくつかの実施形態では、塩基修正モジュール220は、機能抽出プロセスを行い、単一細胞の特徴をパイルアップから抽出する。そのような実施形態では、単一細胞の特徴は、エラー修正モデルへの入力として提供できる。様々な実施形態では、エラー修正モデルは、4つのヌクレオチド塩基(アデニン、グアニン、シトシン、及びチミン)に対応する確率分布を出力し、確率分布は、関心対象の塩基が分析された単一細胞の特徴に基づく4つのヌクレオチド塩基のうちの1つである尤度を表す。
様々な実施形態では、塩基修正モデル220は、エラー修正モデルによって出力された確率分布に基づいて、関心対象の塩基を異なるヌクレオチド塩基に修正する。一実施形態では、塩基修正モデル220は、エラー修正モデルによって出力された分布の確率の中の最高確率があるヌクレオチド塩基に関心対象の塩基を修正する。ここで、修正されたヌクレオチド塩基は、細胞内に存在する可能性が高い塩基を表す。関心対象の塩基を異なるヌクレオチド塩基に修正するために、塩基修正モデル220は、正しいヌクレオチド塩基を反映するように関心対象の塩基を含む1つ以上の配列リードを修正する。要するに、塩基修正モデル220は、細胞の配列をより正確に反映する修正されたヌクレオチド塩基を有する修正された配列リードを再生成する。
様々な実施形態では、塩基修正モデル220は、関心対象の塩基を有する単一細胞に由来する全ての配列リードを修正し、その結果、修正後、修正された配列リードは、正しい塩基を含む。様々な実施形態では、塩基修正モデル220は、関心対象の塩基を有する単一細胞に由来する一部の配列リードを修正する。例えば、関心対象の塩基を有する配列リードの一部は正しい塩基を有し得るため、修正する必要はない。別の例として、関心対象の塩基を有するいくつかの配列リードは、信頼性の低い読み取りであり得、修正するのではなく破棄できる。様々な実施形態では、塩基修正モデル220は、BAMファイルフォーマットまたはSAMファイルフォーマット等の可読ファイルフォーマットで修正された配列リードを生成する。
細胞集団モジュール230は、細胞集団全体にわたって修正された配列リードから細胞集団の特徴を決定する。概して、細胞集団モジュール230は、細胞毎に組織化された修正された配列リードを分析し、細胞集団を説明する細胞集団の特徴を決定する。
細胞集団モジュール230は、細胞の配列リードがエラー修正された後に残る、細胞集団全体にわたって1つ以上の候補バリアントを識別する。様々な実施形態では、候補バリアントは、配列リードが修正された後に残る全てのバリアントを含む。様々な実施形態では、細胞集団モジュール230がフィルタを行うことにより、候補バリアントは、配列リードが修正された後に残る全てのバリアントのサブセットになる。例えば、細胞集団モジュール230は、塩基が1つ以上の基準を満たす場合、特定の位置で候補バリアントを識別する。様々な実施形態では、1つ以上の基準は、1)最小アレル頻度及び2)その位置においてミスマッチ塩基を有する最小数の細胞の一方または両方を含むハードカットオフとして機能する。
様々な実施形態では、細胞集団全体にわたって細胞集団の特徴を決定するために、細胞集団モジュール230は、細胞毎に修正された配列リードを集約し、次に、集約された配列リードを使用して細胞集団全体にわたって細胞集団の特徴を決定する。例えば、細胞毎に、細胞集団モジュール230は、各位置で特定のヌクレオチド塩基(例えば、A、C、T、またはG)を有する配列リードの割合を定量化できる。次に、細胞集団モジュール230は、配列リードの定量化された割合を分析することによって、細胞集団全体にわたって細胞集団の特徴を決定する。
様々な実施形態では、細胞集団モジュール230は、1つ以上の候補バリアントのそれぞれに対して細胞集団の特徴を決定する。特定の例として、細胞集団の特徴は、特定の候補バリアントに対するヘテロ接合コールのパーセンテージであり得る(例えば、特定の位置で、候補バリアントの第1のコピーが参照塩基と比較してミスマッチであり、候補バリアントの第2のコピーが参照塩基と一致する細胞のパーセンテージである)。したがって、細胞について、細胞集団モジュール230は、細胞の修正された配列リードを集約し、細胞の候補バリアントがヘテロ接合コールであるかどうかを判定する。細胞集団モジュール230は、細胞集団の細胞全体にわたってこのプロセスを繰り返して、候補バリアントに対応するヘテロ接合コールを有する細胞のパーセンテージを導出する。追加の候補バリアントについて、細胞集団モジュール230は、追加の候補バリアントのそれぞれのヘテロ接合コピーを有する細胞のパーセンテージを算出する。
細胞集団の特徴の例は、限定ではないが、ヘテロ接合コールのパーセンテージ、ヘテロ接合コールのバリアントアレル頻度(VAF)の中央値、ヘテロ接合コールの遺伝子型品質の中央値、ヘテロ接合コールの読み取り深度の中央値、ホモ接合コールのパーセンテージ、ホモ接合コールのVAFの中央値、ホモ接合コールの遺伝子型品質の中央値、ホモ接合コールの読み取り深度の中央値、参照コールのパーセンテージ、ホモ接合コールの読み取り深度の変動係数(CV)、ヘテロ接合コールの読み取り深度のCV、ホモ接合コールの遺伝子型品質のCV、ヘテロ接合コールの遺伝子型品質のCV、ホモ接合コールのVAFのCV、ヘテロ接合コールのVAFのCV、ホモ接合コールのVAFの平均値と中央値との差、ヘテロ接合コールのVAFの平均値と中央値との差、及び単位複製配列GCのパーセンテージを含む。
塩基コーラーモジュール240は、バリアントコーラーモデルを適用して、細胞集団の1つ以上の真のバリアントを予測する。様々な実施形態では、塩基コーラーモジュール240は、入力として、候補バリアントの細胞集団の特徴をバリアントコーラーモデルに提供する。バリアントコーラーモデルは、細胞集団の特徴を分析し、候補バリアントの予測を出力する。
様々な実施形態では、バリアントコーラーは、複数の可能な分類から候補バリアントの分類を出力する分類器である。いくつかの実施形態では、バリアントコーラーモデルは、候補バリアントの2つの分類のうちの1つを出力する分類器である。例として、バリアントコーラーモデルは、真のバリアントまたは偽陽性バリアントの分類を出力できる。別の例として、バリアントコーラーモデルは、ホモ接合バリアントまたはヘテロ接合バリアントの1つ等の真のバリアントのタイプに関する分類を出力できる。いくつかの実施形態では、バリアントコーラーモデルは、候補バリアントの3つ以上の可能な分類のうちの1つを出力する分類器である。例として、バリアントコーラーモデルは、ホモ接合バリアント、ヘテロ接合バリアント、または偽陽性バリアントの分類を出力できる。いくつかの実施形態では、バリアントコーラーモデルは、不確定バリアントの分類を出力する。不確定バリアントは信頼性の低いコーリングを表す可能性があり、このとき、不確定バリアントが真のバリアントであるかどうかについて確認するために追加の分析が必要になり得る。いくつかの実施形態では、バリアントコーラーモデルは、非バリアント(例えば、偽陽性バリアント)の分類を出力する。
トレーニングモジュール250は、概して、エラー修正モデル及びバリアントコーラーモデルの一方または両方を生成するための方法を実施する。様々な実施形態では、トレーニングモジュール250は、塩基コーラーデバイス130以外のデバイスまたはシステムによって実装される。例えば、トレーニングモジュール250は、サードパーティによって実装できる。そのようなシナリオでは、サードパーティがエラー修正モデル及びバリアントコーラーモデルの一方または両方を生成する。次に、サードパーティは、トレーニングされたエラー修正モデル及びトレーニングされたバリアントコーラーモデルの一方または両方を、塩基コーラーデバイス130に提供できる。
様々な実施形態では、トレーニングモジュール250は、エラー修正モデルをトレーニングする。トレーニングモジュール250は、線形回帰アルゴリズム、ロジスティック回帰アルゴリズム、デシジョンツリーアルゴリズム、サポートベクターマシン分類、ナイーブベイズ分類、K最近傍分類、ランダムフォレストアルゴリズム、深層学習アルゴリズム、勾配ブーストアルゴリズムのいずれか1つ等のエラー修正モデルをトレーニングする機械学習実施方法、多様体学習、主成分分析、因子分析、オートエンコーダー正規化、独立成分分析等の次元縮小法、またはそれらの組み合わせを使用できる。様々な実施形態では、トレーニングモジュール250は、教師あり学習アルゴリズム、教師なし学習アルゴリズム、半教師あり学習アルゴリズム(例えば、部分的教師)、転移学習、マルチタスク学習、またはそれらのいずれかの組み合わせを使用して、エラー修正モデルをトレーニングする。
トレーニングモジュール250は、エラー修正トレーニングサンプルを使用してエラー修正モデルをトレーニングする。様々な実施形態では、エラー修正トレーニングサンプルは、個々の細胞に由来するトレーニング配列リードを含む。そのようなトレーニングサンプルは、SAMまたはBAMファイルフォーマット等の一般的に使用されるファイルフォーマットで表現できる。様々な実施形態では、エラー修正トレーニングサンプルにおけるトレーニング配列リードは、参照塩基と比較してミスマッチである既知の関心対象の塩基を有する配列リードを含む。これらのトレーニング配列リードは、既知の関心対象の塩基の位置に遺伝的バリアントを有することが知られている個々の細胞に由来することができる。
様々な実施形態では、エラー修正トレーニングサンプルは、細胞内に存在する遺伝的バリアントの既知の塩基を示す参照グラウンドトゥルースで標識付けできる。様々な実施形態では、既知の塩基の標識は、整数(例えば、0、1、2、及び3)であり得る。ここで、各整数値は、既知の塩基の場合、ヌクレオチド塩基(例えば、A、C、T、またはGの1つ)を示す。様々な実施形態では、既知の塩基の標識は、ベクトル(例えば、[0,0,0,1]等の1×4マトリクス)として構造化できる。そのような例では、マトリクス内の各細胞は4つのヌクレオチド塩基のうちの1つに対応する。「0」の値は対応するヌクレオチド塩基が既知の塩基ではないことを示す一方、「1」の値は対応するヌクレオチド塩基が既知の塩基であることを示す。
様々な実施形態では、エラー修正トレーニングサンプルは、1)関心対象の塩基を有する細胞に由来する1つ以上のトレーニング配列リードと、2)既知の塩基を示す標識とを含む。様々な実施形態では、トレーニングモジュール250は、エラー修正トレーニングサンプルの1つ以上のトレーニング配列リードを使用して、様々なサイズのトレーニングパイルアップを作成する。したがって、エラー修正モデルは、トレーニングサンプルのトレーニング配列リードに由来するパイルアップを使用して繰り返しトレーニングできる。エラー修正モデルのパラメータがトレーニングの反復中に調整されることにより、エラー修正モデルが関心対象の塩基の確率分布を良好に予測できる。
様々な実施形態では、トレーニングモジュール250は、バリアントコーラーモデルをトレーニングする。トレーニングモジュール250は、線形回帰アルゴリズム、ロジスティック回帰アルゴリズム、デシジョンツリーアルゴリズム、サポートベクターマシン分類、ナイーブベイズ分類、K最近傍分類、ランダムフォレストアルゴリズム、深層学習アルゴリズム、勾配ブーストアルゴリズムのいずれか1つ等のバリアントコーラーモデルをトレーニングする機械学習実施方法、多様体学習、主成分分析、因子分析、オートエンコーダー正規化、独立成分分析等の次元縮小法、またはそれらの組み合わせを使用できる。様々な実施形態では、トレーニングモジュール250は、教師あり学習アルゴリズム、教師なし学習アルゴリズム、半教師あり学習アルゴリズム(例えば、部分的教師)、転移学習、マルチタスク学習、またはそれらのいずれかの組み合わせを使用して、バリアントコーラーモデルをトレーニングする。
トレーニングモジュール250は、バリアントコーラートレーニングサンプルを使用して、バリアントコーラーモデルをトレーニングする。様々な実施形態では、バリアントコーラートレーニングサンプルは、既知のバリアントまたは既知の参照塩基を含むトレーニング配列リードを含む。様々な実施形態では、バリアントコーラートレーニングサンプルは、トレーニング配列リードに由来する細胞集団の特徴を含む。
バリアントコーラートレーニングサンプルは、バリアントの分類を示す参照グラウンドトゥルースで標識付けできる。一実施形態では、参照グラウンドトゥルースは、真のバリアントと偽陽性バリアントとを区別する。一実施形態では、参照グランドトゥルースは、ホモ接合バリアント及び異種バリアント等の異なる真のバリアントを区別する。一実施形態では、参照グランドトゥルースは、ホモ接合バリアント、ヘテロ接合バリアント、及び参照塩基(例えば、非バリアント)を区別する。
様々な実施形態では、バリアントコーラートレーニングサンプルの標識は、バルク配列決定法等の他の配列決定法によって事前に決定及び/または確認できる。様々な実施形態では、バリアントコーラートレーニングサンプルの標識は、特定の細胞株に存在する既知の遺伝的バリアントに少なくとも部分的に基づいて事前に決定することができる。様々な実施形態では、標識は、バリアントが真のバリアントまたは偽陽性バリアントであるかを示すバイナリ値(例えば、0または1の値)であり得る。いくつかの実施形態では、標識は、バリアントコーラーモデルが予測するように設計されている分類の数に応じて、異なる整数値(例えば、0、1、2、3等)であり得る。例えば、ホモ接合バリアント、ヘテロ接合バリアント、及び参照塩基(例えば、非バリアント)を予測するバリアントコーラーモデルについて、標識は3つの整数値(例えば、0、1、及び2)であり得、各整数値は分類の1つに対応する。
様々な実施形態では、各バリアントコーラートレーニングサンプルは、1)既知の参照塩基または既知のバリアントを有する細胞集団のトレーニング配列リードと、2)トレーニング配列リードに対応する既知の参照塩基または既知のバリアントの存在を示す標識とを含む。したがって、バリアントコーラーモデルは、各バリアントコーラートレーニングサンプルを使用して繰り返しトレーニングできる。様々な実施形態では、バリアントコーラーモデルのパラメータがトレーニング反復中に調整されることにより、バリアントコーラーモデルが細胞集団の配列リードが参照塩基または真のバリアントを有するかどうかを良好に予測できる。
細胞集団のバリアントをコールするための方法
ここで、図3A及び図3Bに示されるフロー図300及びフロー図350を参照すると、1)細胞特異的プロセスを通じた配列リードの塩基のエラー修正と、2)エラー修正された配列リードを使用した細胞集団全体にわたるバリアントコーリングとを含む2段階プロセスが説明されている。
図3Aは、ある実施形態による、単一細胞に由来する配列リードを修正するためのフロー図300である。ステップ305において、配列リードは細胞から取得される。様々な実施形態では、一方の細胞からの配列リードは、別の細胞からの配列リード(例えば、以前にバーコード技術を使用して区別されたもの)と区別可能である。さらに、そのような配列リードは参照ゲノムに整列できる。
ステップ310において、細胞の配列リードは、配列リードにおける誤った塩基を修正することによって修正される。ステップ310は、ステップ315、320、及び325を含む細胞特異的プロセスである。様々な実施形態では、ステップ315、320、及び325は、細胞集団の1つ以上の細胞のそれぞれに対して並行して行われる。様々な実施形態では、ステップ315、320、及び325は、細胞集団の1つ以上の細胞のそれぞれに対して連続して行われる。要するに、ステップ315、320、及び325は、細胞集団の1つ以上の細胞のそれぞれに対して、修正された配列リードの生成をもたらす。
ステップ315は、細胞からの配列リードの関心対象の塩基を識別することを含み、関心対象の塩基は参照塩基とは異なる。様々な実施形態では、関心対象の塩基を識別することは、遷移マトリクスを適用して、塩基のミスマッチがエラーに起因する可能性が高いかどうかを判定することを含む。遷移マトリクスを適用することは、遷移マトリクスの確率を、配列リードのヌクレオチド塩基の割合を観察する尤度を反映する確率と比較することを含む。
ステップ320は、関心対象の塩基の確率を予測するためにエラー修正モデルを適用することを含む。様々な実施形態では、エラー修正モデルは、関心対象の塩基のために生成されたパイルアップに由来する単一細胞の特徴を分析し、確率分布を出力する。
ステップ325は、関心対象の塩基を修正することを含む。ここで、関心対象の塩基は、予測された確率に対応する別の塩基に修正される。関心対象の塩基を含む細胞からの1つ以上の配列リードは、別の塩基に修正できる。
図3Bは、ある実施形態による、修正された配列リードを使用して、細胞集団のバリアントをコールするためのフロー図350を示す。ここでは、355、360、及び365のステップが細胞集団レベルで行われるため、細胞集団全体にわたって真のバリアントをコールすることができる。
ステップ355は、細胞集団全体にわたって修正された配列リードから細胞集団の特徴を生成することを含む。様々な実施形態では、ステップ355は、修正された配列リードを使用して、細胞集団の候補バリアントの細胞集団の特徴を生成することを含む。ステップ360は、バリアントコーラーモデルを細胞集団の特徴に適用することを含む。様々な実施形態では、候補バリアントの細胞集団の特徴は、バリアントコーラーモデルへの入力として適用される。バリアントコーラーモデルを異なる候補バリアントに繰り返し適用して、各候補バリアントが真のバリアントである可能性が高いかどうかを判断できる。
ステップ365において、バリアントコーラーモデルの出力に基づいて、細胞集団全体にわたる1つ以上のバリアントをコールする。様々な実施形態では、バリアントをコールすることは、候補バリアントをホモ接合バリアント、ヘテロ接合バリアント、または不確定バリアントの1つとしてコールすることを含む。
要するに、フロー図300及びフロー図350を通して識別された細胞集団のコールされたバリアントは、従来のバリアントコーラーパイプラインを使用する従来のコールされたバリアントを上回る改善を表す。したがって、コールされたバリアントは、様々な用途に有益である可能性があり、その例は、異常細胞及び/または疾患(例えば、がん)の特性評価を含む。
エラー修正モデル及びバリアント修正モデルの実施形態
特定の実施形態では、エラー修正モデル及びバリアント修正モデルは、機械学習済みモデルである。エラー修正モデル及びバリアント修正モデルのそれぞれは、トレーニングデータを使用してトレーニングされ得る。トレーニングに続いて、エラー修正モデル及びバリアント修正モデルを展開できる(例えば、図3A及び図3Bを参照して、上記に説明したプロセスに従って展開できる)。
様々な実施形態では、エラー修正モデル及びバリアント修正モデルの一方または両方は、回帰モデル(例えば、線形回帰、ロジスティック回帰、または多項式回帰)、デシジョンツリー、ランダムフォレスト、サポートベクターマシン、ナイーブベイズモデル、K平均法クラスター、またはニューラルネットワーク(例えば、フィードフォワードネットワーク、畳み込みニューラルネットワーク(CNN)、ディープニューラルネットワーク(DNN)、オートエンコーダーニューラルネットワーク、生成的敵対的ネットワーク、またはリカレントネットワーク(例えば、長短期記憶ネットワーク(LSTM)、双方向リカレントネットワーク、ディープ双方向リカレントネットワーク)のいずれか1つである。
様々な実施形態では、エラー修正モデル及びバリアント修正モデルの一方または両方は、ハイパーパラメータまたはモデルパラメータ等の1つ以上のパラメータを有する。ハイパーパラメータは、概して、トレーニングの前に設定される。ハイパーパラメータの例は、学習率、デシジョンツリーの深度または葉、ディープニューラルネットワークの隠れ層の数、K平均法クラスターのクラスター数、回帰モデルのペナルティ、及びコスト関数に関連付けられた正則化パラメータを含む。エラー修正モデル及びバリアント修正モデルの一方または両方のモデルパラメータは、概して、トレーニング中に調整される。モデルパラメータの例は、ニューラルネットワークの層のノードに関連付けられた重み、サポートベクターマシンのサポートベクター、及び回帰モデルの係数を含む。機械学習モデルのモデルパラメータは、トレーニングデータを使用してトレーニング(調整等)され、機械学習モデルの予測力が向上する。
いくつかの実施形態では、エラー修正モデル及びバリアント修正モデルの一方または両方は、モデルの1つ以上のパラメータが独立変数と従属変数との間の依存関係を定義するパラメトリックモデルである。様々な実施形態では、パラメトリックタイプモデルの様々なパラメータは損失関数を最小化するようにトレーニングされ、トレーニングは、バッチ勾配アルゴリズム、確率的勾配アルゴリズム等の勾配ベース数値最適化アルゴリズムによって行われる。いくつかの実施形態では、エラー修正モデル及びバリアント修正モデルの一方または両方は、モデル構造がトレーニングデータから判定され、パラメータの固定セットに厳密に基づいていないノンパラメトリックモデルである。
図4Aは、ある実施形態による、エラー修正モデル410の実施態様を示す。本実施形態では、エラー修正モデル410は関心対象の塩基を含むパイルアップを分析し、パイルアップは単一細胞に由来する配列リードから生成される。様々な実施形態では、エラー修正モデル410は、関心対象の塩基のために生成されたパイルアップに由来する単一細胞の特徴を分析する。単一細胞の特徴は、関心対象の塩基の周りのコンテクスト配列、関心対象の塩基の配列決定深度、関心対象の塩基のアレル頻度、及び関心対象の塩基の周りのウィンドウ内の塩基のアレル頻度を含む関心対象の塩基に関連する機能である。単一細胞の特徴に基づいて、エラー修正モデル410は、関心対象の塩基が別の塩基である尤度を表す塩基確率(例えば、アデニン、チミン、グアニン、及びシトシンの1つ、2つ、3つ、または4つの確率)の分布を出力する。
特定の実施形態では、エラー修正モデル410はニューラルネットワークである。いくつかの実施形態では、エラー修正モデル410は深層学習ニューラルネットワークである。エラー修正モデル410は、2、3、4、5、6、7、8、9、または10個の層で構造化され得る。エラー修正モデル410の層は1つ以上のノードから成る。層のノードは他の層の他のノードに接続でき、ノード間の接続はパラメータに関連付けられる。一方のノードの値は、特定のノードに関連付けられた活性化関数によってマッピングされた関連パラメータによって重み付けされた特定のノードに接続されたノードの値の組み合わせとして表され得る。
図4Bは、ある実施形態による、バリアントコーラーモデルの実施態様を示す。図4Bに示される実施形態では、バリアントコーラーモデル420は、細胞集団全体にわたって修正された配列リードに由来する細胞集団の特徴を分析する。バリアントコーラーモデル420は、バリアントの分類を出力する。いくつかの実施形態では、バリアントの分類は、真のバリアントまたは偽陽性バリアントのうちの1つである。いくつかの実施形態では、バリアントの分類は、ホモ接合バリアントまたはヘテロ接合バリアントの1つである。いくつかの実施形態では、バリアントの分類は、ホモ接合バリアント、ヘテロ接合バリアント、または不確定バリアントのうちの1つである。
いくつかの実施形態では、バリアントコーラーモデル420は、細胞集団の特徴とは対照的に、配列リードまたは配列リードのパイルアップを入力として受信する。そのような実施形態では、細胞集団の特徴は、バリアントコーラーモデル420の実施の前に、集約リードから抽出される必要はない。いくつかの実施形態では、集約リードをコンパイルでき(例えば、パイルアップでコンパイルでき)、集約リードのパイルアップをバリアントコーラーモデル420への入力として提供し、バリアント分類を予測できる。例えば、集約リードのパイルアップは、エラー修正後、参照塩基と比較してミスマッチである塩基に対してコンパイルできる。バリアントコーラーモデル420は、塩基に生成されたパイルアップを分析し、塩基のバリアント分類を予測する。
特定の実施形態では、バリアントコーラーモデル420はニューラルネットワークである。いくつかの実施形態では、バリアントコーラーモデル420は深層学習ニューラルネットワークである。バリアントコーラーモデル420は、2、3、4、5、6、7、8、9、または10個の層で構造化され得る。バリアントコーラーモデル420の層は1つ以上のノードから成る。層のノードは他の層の他のノードに接続でき、ノード間の接続はパラメータに関連付けられる。一方のノードの値は、特定のノードに関連付けられた活性化関数によってマッピングされた関連パラメータによって重み付けされた特定のノードに接続されたノードの値の組み合わせとして表され得る。
配列決定及びリードアライメントの方法
本明細書に開示される本発明の実施形態は、核酸の配列決定及び参照ゲノムへの配列リードの整列を含む。様々な実施形態では、核酸を配列決定するステップ及び配列リードを参照ゲノムに整列させるステップは、図1を参照して上記に説明したように、細胞分析ワークフローデバイス120のシーケンサー等のシーケンサーによって行われる。したがって、配列決定及び整列された配列リードは、塩基コーラーデバイス130によって分析でき、より具体的には、関心対象の塩基を識別するために塩基識別モジュール210(図2参照)によって分析できる。
配列リードは、合成による配列決定、ライゲーションによる配列決定、パイロシークエンシング法、可逆的ターミネーター化学作用を使用すること、ホスホ結合蛍光ヌクレオチドを使用すること、またはリアルタイム配列決定のいずれかを行うプラットフォームを含む、市販の次世代配列決定(NGS)プラットフォームによって実現できる。例として、増幅核酸は、Illumina MiSeqプラットフォームで配列決定され得る。
パイロシークエンシング法の場合、アダプターに対して相補的なオリゴヌクレオチドでコーティングした顆粒を使用して、1つのマトリクス分子を捕捉することによって、NGSフラグメントのライブラリーをクローンin-situ増幅する。同じタイプのマトリクスを含む各顆粒を、「油中水」型のマイクロバブルに配置し、エマルションPCRと呼ばれる方法を使用して、マトリクスをクローン増幅する。増幅後、エマルションは破壊され、顆粒は、配列決定反応中にフローセルとして作用する滴定ピコプレートの別個のウェルにスタックされる。4つのdNTP試薬のそれぞれをフローセルに順序立てて複数回投与することは、配列決定酵素、及びルシフェラーゼ等の発光レポーターの存在下で発生する。好適なdNTPが配列決定プライマーの3’末端に添加される場合において、結果として生じるATPは、ウェル内でのルミネセンスの発光を生み出し、これはCCDカメラを使用して記録される。400塩基以上のリード長を実現することが可能であり、配列の10の読み取り値を取得することが可能であり、結果として、最大5億個の塩基対(メガバイト)の配列が取得される。パイロシークエンシング法のさらなる詳細は、Voelkerding et al.,Clinical Chem.,55:641-658,2009、MacLean et al.,Nature Rev.Microbiol.,7:287-296、米国特許第6,210,891号、米国特許第6,258,568号に説明され、これらの文献のそれぞれは全体として本明細書によって参照により組み込まれている。
Solexa/Illuminaプラットフォームでは、配列決定データは短い読み取り値の形式で作成される。本方法では、NGSフラグメントのライブラリーのフラグメントが、オリゴヌクレオチドアンカー分子でコーティングされるフローセルの表面で捕捉される。アンカー分子はPCRプライマーとして使用されるが、マトリクスの長さ及び他の付近のアンカーオリゴヌクレオチドへの近接性が原因で、PCRによる伸長によって、隣接するアンカーオリゴヌクレオチドとのハイブリダイゼーション及びフローセルの表面上の架橋構造の形成により、分子の「ヴォールト」の形成がもたらされる。これらのDNAループは変性し、切断される。次に、直鎖が、可逆的に染色されたターミネーターを使用して配列決定される。配列に含まれるヌクレオチドは、包接後に蛍光を検出することによって決定され、各蛍光剤及び遮断薬は、次のdNTP添加サイクルの前に除去される。Illuminaのプラットフォームを使用する配列決定のさらなる詳細は、Voelkerding et al.,Clinical Chem.,55:641-658,2009、MacLean et al.,Nature Rev.Microbiol.,7:287-296、米国特許第6,833,246号、米国特許第7,115,400号、米国特許第6,969,488号に見られ、これらの文献のそれぞれは全体として本明細書によって参照により組み込まれている。
SOLiD技術を使用する核酸分子の配列決定は、エマルションPCRを使用するNGSフラグメントのライブラリーのクローン増幅を含む。その後、マトリクスを含む顆粒を、ガラスフローセルの誘導体化された表面上に固定し、アダプターオリゴヌクレオチドに対して相補的なプライマーでアニールする。しかしながら、3’伸長のために示したプライマーを使用する代わりに、相補的なプライマーを使用して、2つのプローブ特異的塩基、続いて、6個の縮退塩基、及び4個の蛍光標識のうちの1つを含む試験プローブ用のライゲーションのための5’リン酸基を取得する。SOLiDシステムにおいて、試験プローブは、各プローブの3’末端における2つの塩基と、5’末端における4つの蛍光染料のうちの1つとの16個の可能な組み合わせを有する。蛍光染料の色、ひいては、各プローブの同一性は、特定の色空間コードスキームに対応する。プローブのアライメントの多くのサイクル後、プローブのライゲーション及び蛍光シグナルの検出、変性、続いて、元のプライマーと比較して1塩基移動したプライマーを使用する第2の配列決定サイクルが行われる。このように、マトリクスの配列を計算により再構成できる。マトリクス塩基を2回確認することで、精度の増加をもたらす。SOLiD技術を使用する配列決定のさらなる詳細は、Voelkerding et al.,Clinical Chem.,55:641-658,2009、MacLean et al.,Nature Rev.Microbiol.,7:287-296、米国特許第5,912,148号、米国特許第6,130,073号に見られ、これらの文献のそれぞれは全体として参照により組み込まれている。
特定の実施形態では、Helicos BioSciences製のHeliScopeを使用する。配列決定は、ポリメラーゼの添加及び蛍光標識されたdNTP試薬の連続添加により実現される。切り替えにより、dNTPに対応する蛍光シグナルの概観がもたらされ、特定のシグナルが、各dNTP添加サイクルの前に、CCDカメラにより捕捉される。配列のリード長は、25~50ヌクレオチドで変化し、分析作業サイクル1回当たりで、全収率が10億個のヌクレオチド対を超える。HeliScopeを使用する配列決定を行うためのさらなる詳細は、Voelkerding et al.,Clinical Chem.,55:641-658,2009、MacLean et al.,Nature Rev.Microbiol.,7:287-296、米国特許第7,169,560号、米国特許第7,282,337号、米国特許第7,482,120号、米国特許第7,501,245号、米国特許第6,818,395号、米国特許第6,911,345号、米国特許第7,501,245号に見られ、これらの文献のそれぞれは全体として参照により組み込まれている。
いくつかの実施形態では、Rocheの配列決定システム454を使用する。配列決定454は2つのステップを含む。第1のステップでは、DNAは約300~800個の塩基対のフラグメントに切断され、これらのフラグメントは平滑末端を有する。次に、オリゴヌクレオチドアダプターはフラグメントの末端にライゲーションされる。アダプターは、フラグメントの増幅及び配列決定のためのプライマーとして機能する。フラグメントは、例えば、5’-ビオチンタグを含むアダプターを使用して、DNA捕捉ビーズ(例えば、ストレプトアビジンでコーティングされたビーズ)に付着できる。顆粒に付着されたフラグメントは、油-水エマルションのドロップレット内で、PCRにより増幅される。結果は、各ビーズにおける、クローン増幅したDNAフラグメントの複数のコピーである。第2の段階において、顆粒はウェルで捕捉される(数ピコリットルの体積)。パイロシークエンシング法を各DNAフラグメントで並行して行う。1つ以上のヌクレオチドを添加することにより、光シグナルの生成がもたらされ、これは、配列決定機器のCCDカメラに記録される。シグナル強度は、含まれるヌクレオチドの数に比例する。パイロシークエンシング法は、ヌクレオチドの添加の際に放出されるピロホスフェート(PPi)を使用する。PPiは、アデノシン5’ホスホ硫酸の存在下で、ATPスルフリラーゼを使用してATPに転換される。ルシフェラーゼはATPを使用して、ルシフェリンをオキシルシフェリンに転換し、この反応の結果、光が生成され、その光が検出及び分析される。配列決定454を行うためのさらなる詳細は、全体として本明細書によって参照により組み込まれているMargulies et al.(2005)Nature 437:376-380に見られる。
Ion Torrent技術は、DNA重合の間に放出される水素イオンの検出に基づくDNA配列決定法である。マイクロウェルは、配列決定されるNGSフラグメントのライブラリーのフラグメントを含む。マイクロウェル層の下に、超高感度イオンセンサISFETがある。全ての層は、エレクトロニクス産業で使用されるチップと同様に、半導体CMOSチップ内に含まれる。dNTPが成長する相補鎖に組み込まれるとき、水素イオンが放出され、超高感度イオンセンサを励起する。ホモポリマーリピートが鋳型の配列に存在する場合、複数のdNTP分子が1サイクルに含められる。これにより、水素原子の対応量が放出され、より大きな電気シグナルに比例することがもたらされる。この技術は、修飾ヌクレオチドまたは光学デバイスを使用しない他の配列決定技術とは異なる。Ion Torrent技術についてのさらなる詳細は、Science 327(5970):1190(2010)、米国特許出願公開第20090026082号、米国特許出願公開第20090127589号、米国特許出願公開第20100301398号、米国特許出願公開第20100197507号、米国特許出願公開第20100188073号、及び米国特許出願公開第20100137143号に見られ、これらの文献のそれぞれは全体として参照により組み込まれている。
様々な実施形態では、NGS法から取得された配列決定リードは、品質でフィルタリングされ、当技術分野で既知のいずれかのアルゴリズム(例えば、Python script barcodeCleanup.py)を使用するバーコード配列によりグループ化できる。いくつかの実施形態では、その塩基の約20%超が約99%未満の塩基コールの精度を示すQ20未満の品質スコア(Qスコア)を有する場合、所与の配列決定リードを廃棄し得る。いくつかの実施形態では、約5%、約10%、約15%、約20%、約25%、約30%超が、各々、約90%未満、約99%未満、約99.9%未満、約99.99%未満、約99.999%未満、約99.9999%未満等の塩基コールの精度を示すQ10、Q20、Q30、Q40、Q50、Q60等よりも小さいQスコアを有する場合、所与の配列決定リードを廃棄し得る。
いくつかの実施形態では、50個未満の読み取りを含むバーコードに関連付けられた全ての配列決定リードを破棄して、単一細胞を表す全てのバーコードグループが十分な数の高品質の読み取りを含むことを確実にし得る。いくつかの実施形態では、30未満、40未満、50未満、60未満、70未満、80未満、90未満、100未満等の読み取りを含むバーコードに関連付けられた全ての配列決定リードを廃棄して、単一細胞を表すバーコードグループの品質を保証し得る。
共通のバーコード配列を有する配列リード(例えば、配列リードが同じ細胞が起源であることを意味する)は、アライメント位置情報を決定するために、当技術分野で既知の方法を使用して参照ゲノムに対して整列され得る。アライメント位置情報は、所与の配列リードの開始ヌクレオチド塩基及び末端ヌクレオチド塩基に対応する参照ゲノムの領域の開始位置及び終了位置を示し得る。参照ゲノムの領域は、標的遺伝子または遺伝子のセグメントに関連付けられ得る。例示的なアライナーアルゴリズムは、BWA、Bowtie、Spliced Transcripts Alignment to a Reference(STAR)、Tophat、またはHISAT2を含む。配列リードを参照配列に整列するためのさらなる詳細は、全体として本明細書によって参照により組み込まれている米国出願第16/279,315号に説明されている。様々な実施形態では、SAM(配列アライメントマップ)フォーマットまたはBAM(バイナリアライメントマップ)フォーマットを有する出力ファイルを生成し、その後の分析のために出力され得る。
システム及び/またはコンピュータの実施形態
本明細書に説明される実施形態は、さらに、上記に説明したバリアントコーリング法を行うための例示的なシステム及びコンピュータの実施形態を参照する。次の説明は、図1を参照して上記に説明したように、細胞分析ワークフローデバイス120及び塩基コーラーデバイス130を参照する。
様々な実施形態では、細胞分析ワークフローデバイス120は、少なくとも、細胞に試薬を封入し、細胞溶解物に反応混合物を封入し、核酸増幅反応を行うように構成される、マイクロ流体デバイスを含む。例えば、マイクロ流体デバイスは、流体連通している1つ以上の流体チャネルを含み得る。したがって、第1のチャネルを通る水性流体と、第2のチャネルを通るキャリア流体とを組み合わせることにより、エマルションドロップレットの生成がもたらされる。様々な実施形態では、マイクロ流体デバイスの流体チャネルは、約数ミリメートル以下(例えば、約1ミリメートル以下)の少なくとも1つの断面寸法を有し得る。マイクロチャネルの設計及び寸法のさらなる詳細は、国際特許出願第PCT/US2016/016444号及び米国特許第14/420,646号に説明され、これらの文献のそれぞれは全体として本明細書によって参照により組み込まれている。マイクロ流体デバイスの例は、Tapestri(商標)Platformである。
様々な実施形態では、細胞分析ワークフローデバイス120は、また、(a)対象デバイスの1つ以上の部分及び/または対象デバイス内のドロップレットの温度を制御し、マイクロ流体デバイス(複数可)に動作可能に接続される、温度調節モジュール、(b)マイクロ流体デバイス(複数可)に動作可能に接続される、検出モジュール(すなわち、検出器、例えば、光学撮像器)、(c)マイクロ流体デバイス(複数可)に動作可能に接続される、インキュベーター(例えば、細胞インキュベーター)、ならびに(d)マイクロ流体デバイス(複数可)に動作可能に接続されるシーケンサーのうちの1つ以上を含み得る。1つ以上の温度及び/または圧力制御モジュールは、デバイスの1つ以上の流路のキャリア流体の温度及び/または圧力の制御を提供する。例として、温度調節モジュールは、核酸増幅を行うために温度を調節する1つ以上のサーマルサイクラーであり得る。1つ以上の検出モジュール(すなわち、検出器、例えば、光学撮像器)は、1つ以上のドロップレットの存在、またはその機能(その組成を含む)を検出するように構成される。いくつかの実施形態では、検出モジュールは、1つ以上の流路で、1つ以上のドロップレットの1つ以上の成分を認識するように構成される。シーケンサーは、次世代配列決定等の配列決定を行うように構成されるハードウェアデバイスである。シーケンサーの例は、Illuminaのシーケンサー(例えば、MiniSeq(商標)、MiSeq(商標)、NextSeq(商標)550シリーズ、またはNextSeq(商標)2000)、Rocheの配列決定システム454、及びThermo Fisher Scientificのシーケンサー(例えば、Ion GeneStudio S5システム、Ion Torrent Genexusシステム)を含む。
図5は、図1~図4を参照して説明されるシステム及び方法を実施するための例示的なコンピューティングデバイスを示す。様々な実施形態では、例示的なコンピューティングデバイス500は、エラー修正を行い、バリアントをコールするために、図1に説明される塩基コーラーデバイス130として機能する。コンピューティングデバイスの例は、パーソナルコンピュータ、デスクトップコンピュータラップトップ、サーバーコンピュータ、クラスター内の計算ノード、メッセージプロセッサ、ハンドヘルドデバイス、マルチプロセッサシステム、マイクロプロセッサベースのまたはプログラム可能な家電製品、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、携帯電話、PDA、タブレット、ポケベル、ルーター、スイッチ等を含み得る。
図5に示されるように、いくつかの実施形態では、コンピューティングデバイス500は、チップセット504に連結された少なくとも1つのプロセッサ502を含む。チップセット504は、メモリコントローラハブ520及び入力/出力(I/O)コントローラハブ522を含む。メモリ506及びグラフィックスアダプター512はメモリコントローラハブ520に連結され、ディスプレイ518はグラフィックスアダプター512に連結される。ストレージデバイス508、入力インタフェース514、及びネットワークアダプター516は、I/Oコントローラハブ522に連結される。コンピューティングデバイス500の他の実施形態は異なるアーキテクチャを有する。
ストレージデバイス508は、ハードドライブ、コンパクトディスク読取専用メモリ(CD-ROM)、DVD、またはソリッドステートメモリデバイス等の非一時的コンピュータ可読記憶媒体である。メモリ506は、プロセッサ502によって使用される命令及びデータを保持する。入力インタフェース514は、タッチスクリーンインタフェース、マウス、トラックボール、もしくは他のタイプの入力インタフェース、キーボード、またはいくつかのそれらの組み合わせであり、データをコンピューティングデバイス500に入力するために使用される。いくつかの実施形態では、コンピューティングデバイス500は、入力インタフェース514から、ユーザのジェスチャによって、入力(例えば、コマンド)を受信するように構成され得る。グラフィックスアダプター512は、イメージ及び他の情報をディスプレイ518に表示する。ネットワークアダプター516は、コンピューティングデバイス500を1つ以上のコンピュータネットワークに連結する。
コンピューティングデバイス500は、本明細書に説明される機能を提供するためのコンピュータプログラムモジュールを実行するように適応する。本明細書で使用される「モジュール」という用語は、指定された機能を提供するために使用されるコンピュータプログラム論理を指す。したがって、モジュールは、ハードウェア、ファームウェア、及び/またはソフトウェアに実装できる。一実施形態では、プログラムモジュールは、ストレージデバイス508に記憶され、メモリ506にロードされ、プロセッサ502によって実行される。
コンピューティングデバイス500のタイプは、本明細書に説明される実施形態毎に変わり得る。例えば、コンピューティングデバイス500は、グラフィックスアダプター512、入力インタフェース514、及びディスプレイ518等の上記に説明したコンポーネントのいくつかが不足する可能性がある。いくつかの実施形態では、コンピューティングデバイス500は、メモリ506に記憶された命令を実行するためのプロセッサ502を含み得る。
塩基エラー修正及びバリアントコーリングを行う方法は、ハードウェアもしくはソフトウェア、またはその両方の組み合わせで実施できる。一実施形態では、上記に説明したもの等の非一時的コンピュータ可読記憶媒体が提供され、当該媒体は、上記のデータを使用するための命令でプログラミングされた機械を使用するとき、本発明に開示される塩基エラー修正及びバリアントコーリング法を行うための命令を実行することが可能である機械可読データでエンコードされたデータストレージマテリアルを含む。上記に説明した方法の実施形態は、プロセッサ、データストレージシステム(揮発性メモリ及び不揮発性メモリ、ならびに/またはストレージエレメントを含む)、グラフィックスアダプター、入力インタフェース、ネットワークアダプター、少なくとも1つの入力デバイス、及び少なくとも1つの出力デバイスを含む、プログラム可能なコンピュータ上で実行するコンピュータプログラムに実装できる。ディスプレイはグラフィックスアダプターに連結される。プログラムコードを入力データに適用して、上記に説明した機能を実施し、出力情報を生成する。出力情報を、既知の様式で1つ以上の出力装置に適用する。コンピュータは、例えば、従来の設計のパーソナルコンピュータ、マイクロコンピュータ、またはワークステーションであり得る。
各プログラムは、ハイレベル手順またはオブジェクト指向のプログラミング言語で実装され、コンピュータシステムと通信できる。しかしながら、プログラムは、必要に応じて、アセンブリ言語または機械言語で実装できる。いずれの場合も、言語はコンパイラ言語またはインタプリタ言語であり得る。そのようなコンピュータプログラムのそれぞれは、ストレージ媒体またはストレージデバイスがコンピュータによって読み取られ、本明細書に説明される手順を行うとき、コンピュータを構成及び動作させるために、汎用または専用のプログラム可能なコンピュータによって読み取り可能なストレージ媒体またはストレージデバイス(例えば、ROMまたは磁気ディスク)に記憶されるのが好ましい。本システムは、コンピュータプログラムで構成されるコンピュータ可読ストレージ媒体として実装されるとみなすことができ、そのように構成されたストレージ媒体は、コンピュータを特定及び所定の方式で動作させ、本明細書に説明される機能を実施させる。
署名パターン及びそのデータベースは、様々な媒体で提供され、その使用を容易にできる。「媒体」は、本発明の署名パターン情報を含む製品を意味する。本発明のデータベースは、コンピュータ可読媒体(例えば、コンピュータによって読み取られ、直接アクセスできるいずれかの媒体)に記録できる。そのような媒体は、限定ではないが、フロッピーディスク、ハードディスクストレージ媒体、及び磁気テープ等の磁気記憶媒体、CD-ROM等の光学記憶媒体、RAM及びROM等の電気記憶媒体、ならびに磁気/光学記憶媒体等のこれらのカテゴリーのハイブリッドを含む。当業者は、現在知られているコンピュータ可読媒体のいずれかを使用して、本発明のデータベース情報の記録を含む製品を作成する方法を容易に理解できる。「記録された」は、当技術分野において既知のそのようないずれかの方法を使用して、コンピュータ可読媒体に情報を記憶するためのプロセスを意味する。記憶した情報にアクセスするために使用される手段に基づき、いずれかの従来のデータストレージ構造を選ぶことができる。記憶するために、様々なデータプロセッサプログラム及びフォーマット(例えば、ワープロテキストファイル、データベースフォーマット等)を使用できる。
実施例1:エラー修正モデルを適用する前の配列リードで観察された基本エラー
図6は、塩基エラーの大部分が1つの細胞だけに観察される、塩基エラーの分布の例を示す。図6の定量化されたエラーは、エラー修正モデルを適用しない配列リードに存在するエラーを指す。
データは細胞株サンプルから内部に生成され、Tapestri(商標)によって実行され、Tapestri(商標)標準パイプラインを使用して分析された。細胞毎にエラー(ミスマッチ)が取得され、細胞のエラーの頻度を計算して、そのプロットが生成された。具体的には、配列リードのエラーの大部分は1つの細胞だけに観察され、2つ以上の細胞で観察された配列リードのエラー数は限られている。これは、個々の細胞の配列リードに対して修正を行うことで、参照塩基に対するマッチ塩基またはミスマッチ塩基として間違って識別されるエラー(例えば、偽陽性及び/または偽陰性)の数を減らすことを可能にすることを示唆する。言い換えると、細胞に由来する配列リードの塩基がエラーであると判断された場合、同じ細胞に由来する他の配列リードの同じ塩基がエラーである可能性がより高くなる。したがって、個々の細胞からの配列リードの細胞特異的エラー修正を行うことは、従来の方法(例えば、バルク処理によって取得されたエラー修正リード)よりも正確及び/または高速である。
実施例2:エラー修正モデルを実施する方法の例
概して、図7~図10に関連して下記に説明されるエラー修正モデルを実施するための例示的な方法は、個々の細胞に由来する配列リードで塩基のエラー修正を行うことを意味する。
図7に示される遷移マトリクス等の遷移マトリクスはサンプル用に生成された。遷移マトリクスの確率は、サンプルの400万回の読み取りの既知の塩基の全部に対して定量化することによって生成され、読み取りは参照ゲノムに整列された。既知の参照塩基(例えば、アデニン、チミン、グアニン、またはシトシンの既知の参照塩基)について、400万回のプローブの全部に対して4つのヌクレオチド塩基のそれぞれの観察量を測定して、遷移マトリクスの相対的確率を生成した。
細胞の配列リード全体にわたってミスマッチ塩基が特定された。塩基毎に、多項確率が計算され、多項確率は、配列リード全体の位置における代替塩基(例えば、参照塩基とは異なる3ヌクレオチド塩基のいずれか)の割合を観察する尤度を反映する。具体的には、位置の多項確率は次のように計算された。
P(塩基1=X、塩基2=Y、塩基3=Z|N回の読み取り)
ここで、塩基1、塩基2、及び塩基3は参照塩基と一致しないヌクレオチド塩基を指す。ここで、Xはその位置における塩基1を有する観察された配列リードの数であり、Yはその位置における塩基2を有する観察された配列リードの数であり、Zはその位置における塩基3を有する観察された配列リードの数であり、Nはその位置における観察された配列リードの総数である。
塩基の多項確率を遷移マトリクスの遷移確率と比較した。遷移確率は、参照ヌクレオチド塩基から観察されたヌクレオチド塩基に遷移する尤度を反映する。多項確率が遷移マトリクスの遷移確率よりも大きい場合、塩基は関心対象の塩基として識別された。多項確率が遷移マトリクスの遷移確率よりも小さい場合、塩基は関心対象の塩基として識別されなかった。
パイルアップは、関心対象の塩基毎に作成された。図8A及び図8Bは、異なる位置にわたる6つの配列リードのパイルアップの例証である。図8A及び図8Bは、それぞれ、例示的な位置0~14(一番上の行)を示す。図8Aは、さらに、対応する位置のそれぞれにおける参照塩基(2行目)と、6つの整列された配列リードのそれぞれの塩基とを識別する。図8Bは、6つの配列リード全体にわたって定量化された各塩基の確率を示す。当業者は、ゲノム全体の追加の位置(例えば、数千または数百万の位置)、追加の参照塩基(例えば、数千または数百万の参照塩基)、及び配列リードの追加の塩基(例えば、数千または数百万の追加の配列リード)がパイルアップの例に含まれ得ることを容易に理解できる。
ここで、パイルアップの例は、参照塩基と比較してミスマッチである関心対象の塩基に生成される。具体的には、例のパイルアップは位置7に生成される。参照塩基は位置7のシトシン塩基を示すが、6つの配列リードのうち5つ(83%)にミスマッチのグアニン塩基が含まれている。
図9Aは、エラー修正モデルの入力及び出力の例を示す。この例では、図8Bに示されるパイルアップ等のパイルアップは、関心対象の塩基を修正するためのエラー修正モデルへの入力として提供される。ここでは、エラー修正モデルは深層学習ニューラルネットワーク(DNN)である。エラー修正モデルは、いくつかの異なるハイパーパラメータを使用して最適化され、各ハイパーパラメータの最適値を識別した。ハイパーパラメータは、限定ではないが、カーネル正則化係数、学習率、層数、活性化関数、オプティマイザーを含む。
エラー修正モデルは、関心対象の塩基の周りのコンテクスト配列、関心対象の塩基の配列決定深度、及び関心対象の塩基のアレル頻度を含むパイルアップの単一細胞の特徴を分析する。
エラー修正モデルは、4つのヌクレオチド塩基(アデニン、シトシン、グアニン、チミン)にわたる確率分布を出力する。ここで、各確率は、関心対象の塩基が特定の塩基である尤度を示す。図9Aに示される例では、エラー修正モデルは、関心対象の塩基がアデニンである尤度が20%、関心対象の塩基がシトシンである尤度が0%、関心対象の塩基がグアニンである尤度が70%、関心対象の塩基がチミンである尤度が10%であることを示す確率分布を出力する。
図9Bは、エラー修正モデルによって予測された確率を使用して関心対象の塩基を修正する例を示す。図9Bに示される最初の2列では、塩基が位置する染色体及び塩基の参照位置を含む塩基の場所が識別される。3列目では、関心対象の塩基が修正された修正塩基が識別され、ここでは、エラー修正モデルによって出力された確率に依存する。ここで、エラー修正モデルによって出力された確率は4列目に示される。
具体的には、1行目について、それが最高確率(例えば、0.6748)を有することを考えると、出力された確率は、関心対象の塩基がアデニンヌクレオチド塩基である可能性が最も高いことを示す。したがって、関心対象の塩基はアデニンに修正される。2行目について、それが最高確率(例えば、0.9127)を有することを考えると、出力された確率は、関心対象の塩基がシトシンヌクレオチド塩基である可能性が最も高いことを示す。3行目について、それが最高確率(例えば、0.83465)を有することを考えると、出力された確率は、関心対象の塩基がシトシンヌクレオチド塩基である可能性が最も高いことを示す。4行目について、それが最高確率(例えば、0.6193)を有することを考えると、出力された確率は、関心対象の塩基がチミンヌクレオチド塩基である可能性が最も高いことを示す。
図10は、エラー修正モデルを実施した結果として、4つの異なる細胞集団にわたる20~35%の塩基の修正を示す。4つの細胞株のそれぞれが単一細胞ワークフローデバイス(例えば、Tapestri(登録商標))によって処理され、単一細胞DNAを配列決定して、配列リードを生成した。細胞毎に、エラー修正モデルを細胞に由来する配列リードの対象のエラー修正塩基に適用した。
要するに、エラー修正モデルを単一細胞DNA配列リードに適用して、PCRエラー、配列決定エラー、配列決定アライメントエラー、または修正エラーのいずれかが原因で発生する可能性が高い誤った塩基の大部分を識別及び修正できる。これらの修正された配列リードにより、下記の実施例3で説明されるように、より正確なバリアントコールが可能になる。
実施例3:バリアントコーラーモデルを実施する方法
配列リードのエラー修正後、バリアントをフィルタリングして、最小アレル頻度及び変異した細胞数等の閾値を満たさなかったバリアントを除去した。残りのバリアント細胞集団の特徴のバリアント毎に、ヘテロ接合コールのパーセンテージ、ヘテロ接合コールのバリアントアレル頻度(VAF)の中央値、ヘテロ接合コールの遺伝子型品質の中央値、ヘテロ接合コールの読み取り深度の中央値、ホモ接合コールのパーセンテージ、ホモ接合コールのVAFの中央値、ホモ接合コールの遺伝子型品質の中央値、ホモ接合コールの読み取り深度の中央値、参照コールのパーセンテージ、ホモ接合コールの読み取り深度の変動係数(CV)、ヘテロ接合コールの読み取り深度のCV、ホモ接合コールの遺伝子型品質のCV、ヘテロ接合コールの遺伝子型品質のCV、ホモ接合コールのVAFのCV、ヘテロ接合コールのVAFのCV、ホモ接合コールのVAFの平均値と中央値との差、ヘテロ接合コールのVAFの平均値と中央値との差、及び単位複製配列GCのパーセンテージを計算した。
19個のサンプルから取得された細胞からの細胞集団の特徴を使用して、このシナリオではマルチクラスニューラルネットワーク分類器であるバリアントコーラーモデルをトレーニングした。トレーニングサンプルは下記の表1に開示される。これらのサンプルについて、各々のサンプルに存在する既知の真のバリアント(バルク配列決定法で確認済)に基づいて、既知のバリアントにクラス(異種バリアント、ホモ接合バリアント、または参照塩基)が与えられた。トレーニングサンプルは、最大0.1%の様々な希釈率の細胞混合物からの様々なサンプルと、Tapestri機器によって処理され、様々なシーケンサーのセットで配列決定された臨床サンプルとを含んでいた。トレーニングデータはクラスの不均衡があり、特定のクラスのコールが他のクラスと比較してはるかに少ないため、小さいクラスのアップサンプリングが行われた。モデルのハイパーパラメータは、既知の真の標識を有する検証データを使用して繰り返し調整された。いったんモデルが適切な精度を実現すると、トレーニングを停止し、次に、新しいサンプルの予測モードでモデルを使用して、それらのサンプルの上位のバリアントを識別した。
13個の試験サンプルを使用して、バリアントコーラーモデルのパフォーマンスを評価した。試験サンプルは下記の表2に開示される。図11は、13個のサンプルの全体にわたるバリアントコーラーモデルの実施後の真のバリアントの改善された陽性的中率を示す。2段階のエラー修正モデル及びバリアント予測モデルを使用すると、大幅に改善した陽性的中率(PPV)の中央値が実現した。具体的には、0.5%のLODにおけるPPVの2~3倍の改善が13個のサンプルの大部分で観察された。エラー修正モデル及び/またはバリアント予測モデルとは対照的に、ハードカットオフフィルタを使用する従来のGATKモデルと比較して、2~3倍の改善が観察された。
Figure 2022550841000002
Figure 2022550841000003
要するに、これらの結果は、エラー修正モデル及びバリアントコーラーモデルの適用により、バリアントコーリングの大幅な改善が実現することを示す。
関連出願の相互参照
本願は、2019年10月2日に出願された米国仮特許出願第62/909,670号の利益及び優先権を主張し、その開示全体は、あらゆる目的のために全体として本明細書によって参照により組み込まれている。
背景
多くの場合、配列決定技術により、PCRに起因するエラーと、0.5%~2%の範囲にわたる配列決定エラーと、が問題になる配列リードが生成されることがある。多くの場合、細胞集団のバリアントをコールすることを目的とするバリアントコーラーは、バリアントコーラーの精度に悪影響をもたらすこれらのエラーの結果として、偽陽性を識別することがある。偽陽性を軽減するための従来の戦略では、多くの場合、ハードカットオフを使用する。しかしながら、これらのハードカットオフを実装すると、かなりの数の真陽性がなくなり、多くの場合、その問題は、欠測データの問題と呼ばれることがある。したがって、真陽性を犠牲にすることなく、偽陽性を良好に識別できるバリアントコーラーの改善が必要である。
概要
2段階プロセスを通じて改善されたバリアントコーリング法の実施形態が本明細書に説明され、2段階プロセスは、1)細胞特異的プロセスを通じて配列リードの塩基のエラー修正と、2)エラー修正された配列リードを使用して細胞集団全体にわたるバリアントコーリングとを含む。塩基のエラーは、多くの場合、PCRエラー、配列決定エラー、配列決定アライメントエラー、または修正エラーのいずれかから発生することがある。ここでは、2段階プロセスにより誤った塩基の識別及び修正が可能になることによって、より正確なバリアントコールが可能になる。様々な実施形態では、塩基のエラー修正は、誤った塩基を修正するために使用される、第1のトレーニングされた機械学習モデル(以下、エラー修正モデルと呼ばれる)の実施を含む。したがって、エラー修正モデルは、個々の細胞からの配列リードの修正を可能にする。細胞特異的方式により塩基のエラー修正を行うことは、バルク配列決定に由来する配列リードを修正することと比較して有利である。例えば、塩基エラーは単一細胞からの配列リードで発生する可能性があるため、これらの塩基エラーは単一細胞に対して一緒に修正できる。様々な実施形態では、細胞集団全体にわたるバリアントコーリングは、第2のトレーニングされた機械学習モデル(以下、バリアントコーラーモデルと呼ばれる)の実施を含む。バリアントコーラーモデルは、修正された配列リードを分析し、細胞集団内に存在する真のバリアントである可能性がより高いバリアントをコールする。同時に、エラー修正モデル及びバリアントコーラーモデルの実施を含む2段階プロセスにより、真のバリアントをコールする際により高精度が実現する。これは、がん等の疾患に関係し得る真のバリアントを識別するのに役立つ可能性がある。
細胞集団の1つ以上のバリアントをコールするための方法が本明細書に開示され、本方法は、複数の配列リードを細胞集団の細胞から取得することと、細胞集団中の複数の細胞について、細胞から取得された配列リードを修正することであって、参照塩基とは異なる配列リードの関心対象の塩基を識別すること、関心対象の塩基の単一細胞の特徴を分析するためにエラー修正モデルを適用することであって、エラー修正モデルが、関心対象の塩基の確率を予測するためにトレーニングされる、適用すること、及び細胞に由来する配列リードの関心対象の塩基を修正すること、を含む、修正することと、細胞集団の細胞全体にわたって修正された配列リードを集約することによって細胞集団の特徴を生成することであって、修正された配列リードが、修正された塩基を含む、生成することと、細胞集団全体にわたって1つ以上のバリアントを識別するために、バリアントコーラーモデルを、集約された配列リードに由来する細胞集団の特徴に適用することと、を含む。
様々な実施形態では、単一細胞の特徴は、関心対象の塩基の周りのコンテクスト配列、関心対象の塩基の配列決定深度、関心対象の塩基のアレル頻度、及び関心対象の塩基の周りのウィンドウ内の塩基のアレル頻度を含む。様々な実施形態では、配列リードの関心対象の塩基を識別することは、参照塩基とミスマッチ塩基との間の遷移の尤度を含む遷移マトリクスを、ミスマッチ塩基について配列リード全体にわたってヌクレオチド塩基の割合を観察する確率に適用することを含む。様々な実施形態では、配列リードの関心対象の塩基を識別することは、ミスマッチ塩基について配列リード全体にわたってヌクレオチド塩基の割合を観察する確率を算出することと、算出された確率を遷移マトリクスからの遷移の尤度と比較することと、をさらに含む。様々な実施形態では、算出された確率が遷移の尤度よりも大きいことに応答して、ミスマッチ塩基を関心対象の塩基として識別する。様々な実施形態では、1つ以上のサンプル細胞集団に由来する配列リードを含むトレーニングデータを使用して、遷移マトリクスを生成する。様々な実施形態では、細胞集団の細胞からの複数の配列リードを使用して、遷移マトリクスを生成する。様々な実施形態では、細胞集団の1つ以上の細胞の配列リードが修正されるとき、遷移マトリクスの遷移の尤度は動的に更新される。
様々な実施形態では、エラー修正モデルはニューラルネットワークである。様々な実施形態では、エラー修正モデルは、関心対象の塩基の周りのモチーフ及び局所的配列コンテクストを学習する1つ以上の層を含む深層学習ニューラルネットワークである。様々な実施形態では、細胞結果に由来する複数の配列リードの1つ以上の配列リードを修正することは、参照塩基とは異なる関心対象の塩基の少なくとも25%を修正することを含む。
様々な実施形態では、細胞集団の特徴は、ヘテロ接合コールのパーセンテージ、ヘテロ接合コールのバリアントアレル頻度(VAF)の中央値、ヘテロ接合コールの遺伝子型品質の中央値、ヘテロ接合コールの読み取り深度の中央値、ホモ接合コールのパーセンテージ、ホモ接合コールのVAFの中央値、ホモ接合コールの遺伝子型品質の中央値、ホモ接合コールの読み取り深度の中央値、参照コールのパーセンテージ、ホモ接合コールの読み取り深度の変動係数(CV)、ヘテロ接合コールの読み取り深度のCV、ホモ接合コールの遺伝子型品質のCV、ヘテロ接合コールの遺伝子型品質のCV、ホモ接合コールのVAFのCV、ヘテロ接合コールのVAFのCV、ホモ接合コールのVAFの平均値と中央値との差、ヘテロ接合コールのVAFの平均値と中央値との差、及び単位複製配列GCのパーセンテージの1つ以上を含む。
様々な実施形態では、バリアントコーラーモデルは、関心対象のヘテロ接合バリアントまたは関心対象のホモ接合バリアントの少なくとも1つを予測する。様々な実施形態では、バリアントコーラーモデルは、不確定バリアントをさらに予測する。様々な実施形態では、バリアントコーラーモデルは、1つ以上の細胞株に由来する配列リードと、1つ以上の細胞株に存在する既知のヘテロ接合バリアントまたはホモ接合バリアントの指標とを含むトレーニングデータを使用してトレーニングされる。様々な実施形態では、エラー修正モデル及びバリアントコーラーモデルの適用は、従来のGTAKバリアントコーラーと比較して、0.5%の検出限界(LOD)において真のバリアント陽性的中率の少なくとも2倍の増加を実現する。様々な実施形態では、エラー修正モデル及びバリアントコーラーモデルの適用は、0.5%の検出限界(LOD)において少なくとも0.6の真のバリアント陽性的中率を実現する。様々な実施形態では、細胞に由来する複数の配列リードは、単一細胞ワークフロー分析によって決定される。様々な実施形態では、参照塩基は参照ゲノム配列から決定される。様々な実施形態では、参照塩基は、対照細胞から取得された1つ以上の配列リードから決定される。
さらに、細胞集団の1つ以上のバリアントをコールするための非一時的コンピュータ可読媒体が本明細書に開示され、非一時的コンピュータ可読媒体は命令を含み、命令は、プロセッサによって実行されるとき、プロセッサに、複数の配列リードを細胞集団の細胞から取得することと、細胞集団中の複数の細胞について、細胞から取得された配列リードを修正することであって、参照塩基とは異なる配列リードの関心対象の塩基を識別すること、関心対象の塩基の単一細胞の特徴を分析するためにエラー修正モデルを適用することであって、エラー修正モデルが、関心対象の塩基の確率を予測するためにトレーニングされる、適用すること、及び細胞に由来する配列リードの関心対象の塩基を修正すること、を含む、修正することと、細胞集団の細胞全体にわたって修正された配列リードを集約することによって細胞集団の特徴を生成することであって、修正された配列リードが、修正された塩基を含む、生成することと、細胞集団全体にわたって1つ以上のバリアントを識別するために、バリアントコーラーモデルを、集約された配列リードに由来する細胞集団の特徴に適用することと、を行わせる。
様々な実施形態では、単一細胞の特徴は、関心対象の塩基の周りのコンテクスト配列、関心対象の塩基の配列決定深度、関心対象の塩基のアレル頻度、及び関心対象の塩基の周りのウィンドウ内の塩基のアレル頻度を含む。様々な実施形態では、プロセッサに配列リードの関心対象の塩基を識別させる命令は、プロセッサによって実行されるとき、プロセッサに、参照塩基とミスマッチ塩基との間の遷移の尤度を含む遷移マトリクスを適用させる命令をさらに含む。
様々な実施形態では、プロセッサに配列リードの関心対象の塩基を識別させる命令は、プロセッサによって実行されるとき、プロセッサに、ミスマッチ塩基について配列リード全体にわたってヌクレオチド塩基の割合を観察する確率を算出することと、算出された確率を遷移マトリクスからの遷移の尤度と比較することと、を行わせる命令をさらに含む。様々な実施形態では、算出された確率が遷移の尤度よりも大きいことに応答して、ミスマッチ塩基を関心対象の塩基として識別する。様々な実施形態では、1つ以上のサンプル細胞集団に由来する配列リードを含むトレーニングデータを使用して、遷移マトリクスを生成する。様々な実施形態では、細胞集団の細胞からの複数の配列リードを使用して、遷移マトリクスを生成する。様々な実施形態では、細胞集団の1つ以上の細胞の配列リードが修正されるとき、遷移マトリクスの遷移の尤度は動的に更新される。
様々な実施形態では、エラー修正モデルはニューラルネットワークである。様々な実施形態では、エラー修正モデルは、関心対象の塩基の周りのモチーフ及び局所的配列コンテクストを学習する1つ以上の層を含む深層学習ニューラルネットワークである。様々な実施形態では、細胞結果に由来する複数の配列リードの1つ以上の配列リードを修正することは、参照塩基とは異なる関心対象の塩基の少なくとも25%を修正することを含む。様々な実施形態では、細胞集団の特徴は、ヘテロ接合コールのパーセンテージ、ヘテロ接合コールのバリアントアレル頻度(VAF)の中央値、ヘテロ接合コールの遺伝子型品質の中央値、ヘテロ接合コールの読み取り深度の中央値、ホモ接合コールのパーセンテージ、ホモ接合コールのVAFの中央値、ホモ接合コールの遺伝子型品質の中央値、ホモ接合コールの読み取り深度の中央値、参照コールのパーセンテージ、ホモ接合コールの読み取り深度の変動係数(CV)、ヘテロ接合コールの読み取り深度のCV、ホモ接合コールの遺伝子型品質のCV、ヘテロ接合コールの遺伝子型品質のCV、ホモ接合コールのVAFのCV、ヘテロ接合コールのVAFのCV、ホモ接合コールのVAFの平均値と中央値との差、ヘテロ接合コールのVAFの平均値と中央値との差、及び単位複製配列GCのパーセンテージの1つ以上を含む。
様々な実施形態では、バリアントコーラーモデルは、関心対象のヘテロ接合バリアントまたは関心対象のホモ接合バリアントの少なくとも1つを予測する。様々な実施形態では、バリアントコーラーモデルは、不確定バリアントをさらに予測する。様々な実施形態では、バリアントコーラーモデルは、1つ以上の細胞株に由来する配列リードと、1つ以上の細胞株に存在する既知のヘテロ接合バリアントまたはホモ接合バリアントの指標とを含むトレーニングデータを使用してトレーニングされる。様々な実施形態では、エラー修正モデル及びバリアントコーラーモデルの適用は、従来のGTAKバリアントコーラーと比較して、0.5%の検出限界(LOD)において真のバリアント陽性的中率の少なくとも2倍の増加を実現する。様々な実施形態では、エラー修正モデル及びバリアントコーラーモデルの適用は、0.5%の検出限界(LOD)において少なくとも0.6の真のバリアント陽性的中率を実現する。様々な実施形態では、細胞に由来する複数の配列リードは、単一細胞ワークフロー分析によって決定される。様々な実施形態では、参照塩基は参照ゲノム配列から決定される。様々な実施形態では、参照塩基は、対照細胞から取得された1つ以上の配列リードから決定される。
さらに、本明細書に開示されるのは、以下を備えるシステムである:細胞集団の細胞の複数の配列リードを生成するように構成される単一細胞分析ワークフローデバイス;単一細胞分析ワークフローデバイスに通信可能に連結された計算デバイスであって、複数の配列リードを細胞集団の細胞から取得することと、細胞集団中の複数の細胞について、細胞から取得された配列リードを修正することであって、参照塩基とは異なる配列リードの関心対象の塩基を識別すること、関心対象の塩基の単一細胞の特徴を分析するためにエラー修正モデルを適用することであって、エラー修正モデルが、関心対象の塩基の確率を予測するためにトレーニングされる、適用すること、及び細胞に由来する配列リードの関心対象の塩基を修正すること、を含む、修正することと、細胞集団の細胞全体にわたって修正された配列リードを集約することによって細胞集団の特徴を生成することであって、修正された配列リードが、修正された塩基を含む、生成することと、細胞集団全体にわたって1つ以上のバリアントを識別するために、バリアントコーラーモデルを、集約された配列リードに由来する細胞集団の特徴に適用することと、を行うように構成される、計算デバイス。様々な実施形態では、単一細胞の特徴は、関心対象の塩基の周りのコンテクスト配列、関心対象の塩基の配列決定深度、関心対象の塩基のアレル頻度、及び関心対象の塩基の周りのウィンドウ内の塩基のアレル頻度を含む。
様々な実施形態では、配列リードの関心対象の塩基を識別することは、参照塩基とミスマッチ塩基との間の遷移の尤度を含む遷移マトリクスを、ミスマッチ塩基について配列リード全体にわたってヌクレオチド塩基の割合を観察する確率に適用することを含む。様々な実施形態では、配列リードの関心対象の塩基を識別することは、ミスマッチ塩基について配列リード全体にわたってヌクレオチド塩基の割合を観察する確率を算出することと、算出された確率を遷移マトリクスからの遷移の尤度と比較することと、を含む。様々な実施形態では、算出された確率が遷移の尤度よりも大きいことに応答して、ミスマッチ塩基を関心対象の塩基として識別する。様々な実施形態では、1つ以上のサンプル細胞集団に由来する配列リードを含むトレーニングデータを使用して、遷移マトリクスを生成する。様々な実施形態では、細胞集団の細胞からの複数の配列リードを使用して、遷移マトリクスを生成する。様々な実施形態では、細胞集団の1つ以上の細胞の配列リードが修正されるとき、遷移マトリクスの遷移の尤度は動的に更新される。
様々な実施形態では、エラー修正モデルはニューラルネットワークである。様々な実施形態では、エラー修正モデルは、関心対象の塩基の周りのモチーフ及び局所的配列コンテクストを学習する1つ以上の層を含む深層学習ニューラルネットワークである。様々な実施形態では、細胞結果に由来する複数の配列リードの1つ以上の配列リードを修正することは、参照塩基とは異なる関心対象の塩基の少なくとも25%を修正することを含む。
様々な実施形態では、細胞集団の特徴は、ヘテロ接合コールのパーセンテージ、ヘテロ接合コールのバリアントアレル頻度(VAF)の中央値、ヘテロ接合コールの遺伝子型品質の中央値、ヘテロ接合コールの読み取り深度の中央値、ホモ接合コールのパーセンテージ、ホモ接合コールのVAFの中央値、ホモ接合コールの遺伝子型品質の中央値、ホモ接合コールの読み取り深度の中央値、参照コールのパーセンテージ、ホモ接合コールの読み取り深度の変動係数(CV)、ヘテロ接合コールの読み取り深度のCV、ホモ接合コールの遺伝子型品質のCV、ヘテロ接合コールの遺伝子型品質のCV、ホモ接合コールのVAFのCV、ヘテロ接合コールのVAFのCV、ホモ接合コールのVAFの平均値と中央値との差、ヘテロ接合コールのVAFの平均値と中央値との差、及び単位複製配列GCのパーセンテージの1つ以上を含む。
様々な実施形態では、バリアントコーラーモデルは、関心対象のヘテロ接合バリアントまたは関心対象のホモ接合バリアントの少なくとも1つを予測する。様々な実施形態では、バリアントコーラーモデルは、不確定バリアントをさらに予測する。様々な実施形態では、バリアントコーラーモデルは、1つ以上の細胞株に由来する配列リードと、1つ以上の細胞株に存在する既知のヘテロ接合バリアントまたはホモ接合バリアントの指標とを含むトレーニングデータを使用してトレーニングされる。
様々な実施形態では、エラー修正モデル及びバリアントコーラーモデルの適用は、従来のGTAKバリアントコーラーと比較して、0.5%の検出限界(LOD)において真のバリアント陽性的中率の少なくとも2倍の増加を実現する。様々な実施形態では、エラー修正モデル及びバリアントコーラーモデルの適用は、0.5%の検出限界(LOD)において少なくとも0.6の真のバリアント陽性的中率を実現する。様々な実施形態では、参照塩基は参照ゲノム配列から決定される。様々な実施形態では、参照塩基は、対照細胞から取得された1つ以上の配列リードから決定される。
[本発明1001]
細胞集団の1つ以上のバリアントをコールするための方法であって、
複数の配列リードを前記細胞集団の細胞から取得することと、
前記細胞集団中の複数の細胞について、前記細胞から取得された配列リードを修正することであって、
参照塩基とは異なる前記配列リードの関心対象の塩基を識別すること、
前記関心対象の塩基の単一細胞の特徴を分析するためにエラー修正モデルを適用することであって、前記エラー修正モデルが、前記関心対象の塩基の確率を予測するためにトレーニングされる、前記適用すること、及び
前記細胞に由来する前記配列リードの前記関心対象の塩基を修正すること
を含む、前記修正することと、
前記細胞集団の細胞全体にわたって修正された配列リードを集約することによって細胞集団の特徴を生成することであって、前記修正された配列リードが、修正された塩基を含む、前記生成することと、
前記細胞集団全体にわたって1つ以上のバリアントを識別するために、バリアントコーラーモデルを、前記集約された配列リードに由来する前記細胞集団の特徴に適用することと
を含む、前記方法。
[本発明1002]
前記単一細胞の特徴が、前記関心対象の塩基の周りのコンテクスト配列、前記関心対象の塩基の配列決定深度、前記関心対象の塩基のアレル頻度、及び前記関心対象の塩基の周りのウィンドウ内の塩基のアレル頻度を含む、本発明1001の方法。
[本発明1003]
前記配列リードの関心対象の塩基を識別することが、参照塩基とミスマッチ塩基との間の遷移の尤度を含む遷移マトリクスを、ミスマッチ塩基について前記配列リード全体にわたってヌクレオチド塩基の割合を観察する確率に適用することを含む、本発明1001または1002の方法。
[本発明1004]
前記配列リードの関心対象の塩基を識別することが、
前記ミスマッチ塩基について前記配列リード全体にわたってヌクレオチド塩基の割合を観察する前記確率を算出することと、
前記算出された確率を前記遷移マトリクスからの遷移の尤度と比較することと
をさらに含む、本発明1003の方法。
[本発明1005]
前記算出された確率が前記遷移の尤度よりも大きいことに応答して、前記ミスマッチ塩基を関心対象の塩基として識別する、本発明1004の方法。
[本発明1006]
1つ以上のサンプル細胞集団に由来する配列リードを含むトレーニングデータを使用して、前記遷移マトリクスが生成される、本発明1005の方法。
[本発明1007]
前記細胞集団の細胞からの前記複数の配列リードを使用して、前記遷移マトリクスが生成される、本発明1005の方法。
[本発明1008]
前記細胞集団の前記1つ以上の細胞の配列リードが修正されるとき、前記遷移マトリクスの前記遷移の尤度が動的に更新される、本発明1005の方法。
[本発明1009]
前記エラー修正モデルがニューラルネットワークである、本発明1001~1008のいずれかの方法。
[本発明1010]
前記エラー修正モデルが、関心対象の塩基の周りのモチーフ及び局所的配列コンテクストを学習する1つ以上の層を含む深層学習ニューラルネットワークである、本発明1001~1009のいずれかの方法。
[本発明1011]
前記細胞結果に由来する前記複数の配列リードの1つ以上の配列リードを修正することが、参照塩基とは異なる関心対象の塩基の少なくとも25%を修正することを含む、本発明1001~1010のいずれかの方法。
[本発明1012]
前記細胞集団の特徴が、ヘテロ接合コールのパーセンテージ、ヘテロ接合コールのバリアントアレル頻度(VAF)の中央値、ヘテロ接合コールの遺伝子型品質の中央値、ヘテロ接合コールの読み取り深度の中央値、ホモ接合コールのパーセンテージ、ホモ接合コールのVAFの中央値、ホモ接合コールの遺伝子型品質の中央値、ホモ接合コールの読み取り深度の中央値、参照コールのパーセンテージ、ホモ接合コールの読み取り深度の変動係数(CV)、ヘテロ接合コールの読み取り深度のCV、ホモ接合コールの遺伝子型品質のCV、ヘテロ接合コールの遺伝子型品質のCV、ホモ接合コールのVAFのCV、ヘテロ接合コールのVAFのCV、ホモ接合コールのVAFの平均値と中央値との差、ヘテロ接合コールのVAFの平均値と中央値との差、及び単位複製配列GCのパーセンテージの1つ以上を含む、本発明1001~1011のいずれかの方法。
[本発明1013]
前記バリアントコーラーモデルが、関心対象のヘテロ接合バリアントまたは関心対象のホモ接合バリアントの少なくとも1つを予測する、本発明1001~1012のいずれかの方法。
[本発明1014]
前記バリアントコーラーモデルが、不確定バリアントをさらに予測する、本発明1013の方法。
[本発明1015]
前記バリアントコーラーモデルが、1つ以上の細胞株に由来する配列リードと、前記1つ以上の細胞株に存在する既知のヘテロ接合バリアントまたはホモ接合バリアントの指標とを含むトレーニングデータを使用してトレーニングされる、本発明1001~1014のいずれかの方法。
[本発明1016]
前記エラー修正モデル及び前記バリアントコーラーモデルの前記適用が、従来のGTAKバリアントコーラーと比較して、0.5%の検出限界(LOD)において真のバリアント陽性的中率の少なくとも2倍の増加を実現する、本発明1001~1015のいずれかの方法。
[本発明1017]
前記エラー修正モデル及び前記バリアントコーラーモデルの前記適用が、0.5%の検出限界(LOD)において少なくとも0.6の真のバリアント陽性的中率を実現する、本発明1001~1015のいずれかの方法。
[本発明1018]
前記細胞に由来する前記複数の配列リードが単一細胞ワークフロー分析によって決定される、本発明1001~1017のいずれかの方法。
[本発明1019]
前記参照塩基が参照ゲノム配列から決定される、本発明1001~1018のいずれかの方法。
[本発明1020]
前記参照塩基が、対照細胞から取得された1つ以上の配列リードから決定される、本発明1001~1018のいずれかの方法。
[本発明1021]
細胞集団の1つ以上のバリアントをコールするための非一時的コンピュータ可読媒体であって、前記非一時的コンピュータ可読媒体が命令を含み、前記命令が、プロセッサによって実行されるとき、前記プロセッサに、
複数の配列リードを前記細胞集団の細胞から取得することと、
前記細胞集団中の複数の細胞について、前記細胞から取得された配列リードを修正することであって、
参照塩基とは異なる前記配列リードの関心対象の塩基を識別すること、
前記関心対象の塩基の単一細胞の特徴を分析するためにエラー修正モデルを適用することであって、前記エラー修正モデルが、前記関心対象の塩基の確率を予測するためにトレーニングされる、前記適用すること、及び
前記細胞に由来する前記配列リードの前記関心対象の塩基を修正すること
を含む、前記修正することと、
前記細胞集団の細胞全体にわたって修正された配列リードを集約することによって細胞集団の特徴を生成することであって、前記修正された配列リードが、修正された塩基を含む、前記生成することと、
前記細胞集団全体にわたって1つ以上のバリアントを識別するために、バリアントコーラーモデルを、前記集約された配列リードに由来する前記細胞集団の特徴に適用することと
を行わせる、前記非一時的コンピュータ可読媒体。
[本発明1022]
前記単一細胞の特徴が、前記関心対象の塩基の周りのコンテクスト配列、前記関心対象の塩基の配列決定深度、前記関心対象の塩基のアレル頻度、及び前記関心対象の塩基の周りのウィンドウ内の塩基のアレル頻度を含む、本発明1021の非一時的コンピュータ可読媒体。
[本発明1023]
前記プロセッサに前記配列リードの関心対象の塩基を識別させる前記命令が、前記プロセッサによって実行されるとき、前記プロセッサに、参照塩基とミスマッチ塩基との間の遷移の尤度を含む遷移マトリクスを適用させる命令をさらに含む、本発明1021または1022の非一時的コンピュータ可読媒体。
[本発明1024]
前記プロセッサに前記配列リードの関心対象の塩基を識別させる前記命令が、前記プロセッサによって実行されるとき、前記プロセッサに、
ミスマッチ塩基について前記配列リード全体にわたってヌクレオチド塩基の割合を観察する確率を算出することと、
前記算出された確率を前記遷移マトリクスからの遷移の尤度と比較することと
を行わせる命令をさらに含む、本発明1023の非一時的コンピュータ可読媒体。
[本発明1025]
前記算出された確率が前記遷移の尤度よりも大きいことに応答して、前記ミスマッチ塩基を関心対象の塩基として識別する、本発明1024の非一時的コンピュータ可読媒体。
[本発明1026]
1つ以上のサンプル細胞集団に由来する配列リードを含むトレーニングデータを使用して、前記遷移マトリクスが生成される、本発明1023~1025のいずれかの非一時的コンピュータ可読媒体。
[本発明1027]
前記細胞集団の細胞からの前記複数の配列リードを使用して、前記遷移マトリクスが生成される、本発明1023~1025のいずれかの非一時的コンピュータ可読媒体。
[本発明1028]
前記細胞集団の前記1つ以上の細胞の配列リードが修正されるとき、前記遷移マトリクスの前記遷移の尤度が動的に更新される、本発明1023~1025のいずれかの非一時的コンピュータ可読媒体。
[本発明1029]
前記エラー修正モデルがニューラルネットワークである、本発明1021~1028のいずれかの非一時的コンピュータ可読媒体。
[本発明1030]
前記エラー修正モデルが、関心対象の塩基の周りのモチーフ及び局所的配列コンテクストを学習する1つ以上の層を含む深層学習ニューラルネットワークである、本発明1021~1029のいずれかの非一時的コンピュータ可読媒体。
[本発明1031]
前記細胞結果に由来する前記複数の配列リードの1つ以上の配列リードを修正することが、参照塩基とは異なる関心対象の塩基の少なくとも25%を修正することを含む、本発明1021~1030のいずれかの非一時的コンピュータ可読媒体。
[本発明1032]
前記細胞集団の特徴が、ヘテロ接合コールのパーセンテージ、ヘテロ接合コールのバリアントアレル頻度(VAF)の中央値、ヘテロ接合コールの遺伝子型品質の中央値、ヘテロ接合コールの読み取り深度の中央値、ホモ接合コールのパーセンテージ、ホモ接合コールのVAFの中央値、ホモ接合コールの遺伝子型品質の中央値、ホモ接合コールの読み取り深度の中央値、参照コールのパーセンテージ、ホモ接合コールの読み取り深度の変動係数(CV)、ヘテロ接合コールの読み取り深度のCV、ホモ接合コールの遺伝子型品質のCV、ヘテロ接合コールの遺伝子型品質のCV、ホモ接合コールのVAFのCV、ヘテロ接合コールのVAFのCV、ホモ接合コールのVAFの平均値と中央値との差、ヘテロ接合コールのVAFの平均値と中央値との差、及び単位複製配列GCのパーセンテージの1つ以上を含む、本発明1021~1031のいずれかの非一時的コンピュータ可読媒体。
[本発明1033]
前記バリアントコーラーモデルが、関心対象のヘテロ接合バリアントまたは関心対象のホモ接合バリアントの少なくとも1つを予測する、本発明1021~1032のいずれかの非一時的コンピュータ可読媒体。
[本発明1034]
前記バリアントコーラーモデルが、不確定バリアントをさらに予測する、本発明1033の非一時的コンピュータ可読媒体。
[本発明1035]
前記バリアントコーラーモデルが、1つ以上の細胞株に由来する配列リードと、前記1つ以上の細胞株に存在する既知のヘテロ接合バリアントまたはホモ接合バリアントの指標とを含むトレーニングデータを使用してトレーニングされる、本発明1021~1034のいずれかの非一時的コンピュータ可読媒体。
[本発明1036]
前記エラー修正モデル及び前記バリアントコーラーモデルの前記適用が、従来のGTAKバリアントコーラーと比較して、0.5%の検出限界(LOD)において真のバリアント陽性的中率の少なくとも2倍の増加を実現する、本発明1021~1035のいずれかの非一時的コンピュータ可読媒体。
[本発明1037]
前記エラー修正モデル及び前記バリアントコーラーモデルの前記適用が、0.5%の検出限界(LOD)において少なくとも0.6の真のバリアント陽性的中率を実現する、本発明1021~1035のいずれかの非一時的コンピュータ可読媒体。
[本発明1038]
前記細胞に由来する前記複数の配列リードが単一細胞ワークフロー分析によって決定される、本発明1021~1037のいずれかの非一時的コンピュータ可読媒体。
[本発明1039]
前記参照塩基が参照ゲノム配列から決定される、本発明1021~1038のいずれかの非一時的コンピュータ可読媒体。
[本発明1040]
前記参照塩基が、対照細胞から取得された1つ以上の配列リードから決定される、本発明1021~1038のいずれかの非一時的コンピュータ可読媒体。
[本発明1041]
以下を備えるシステム:
細胞集団の細胞の複数の配列リードを生成するように構成される単一細胞分析ワークフローデバイス;
前記単一細胞分析ワークフローデバイスに通信可能に連結された計算デバイスであって、
複数の配列リードを前記細胞集団の細胞から取得することと、
前記細胞集団中の複数の細胞について、前記細胞から取得された配列リードを修正することであって、
参照塩基とは異なる前記配列リードの関心対象の塩基を識別すること、
前記関心対象の塩基の単一細胞の特徴を分析するためにエラー修正モデルを適用することであって、前記エラー修正モデルが、前記関心対象の塩基の確率を予測するためにトレーニングされる、前記適用すること、及び
前記細胞に由来する前記配列リードの前記関心対象の塩基を修正すること
を含む、前記修正することと、
前記細胞集団の細胞全体にわたって修正された配列リードを集約することによって細胞集団の特徴を生成することであって、前記修正された配列リードが、修正された塩基を含む、前記生成することと、
前記細胞集団全体にわたって1つ以上のバリアントを識別するために、バリアントコーラーモデルを、前記集約された配列リードに由来する前記細胞集団の特徴に適用することと
を行うように構成される、前記計算デバイス。
[本発明1042]
前記単一細胞の特徴が、前記関心対象の塩基の周りのコンテクスト配列、前記関心対象の塩基の配列決定深度、前記関心対象の塩基のアレル頻度、及び前記関心対象の塩基の周りのウィンドウ内の塩基のアレル頻度を含む、本発明1041のシステム。
[本発明1043]
前記配列リードの関心対象の塩基を識別することが、参照塩基とミスマッチ塩基との間の遷移の尤度を含む遷移マトリクスを、ミスマッチ塩基について前記配列リード全体にわたってヌクレオチド塩基の割合を観察する確率に適用することを含む、本発明1041または1042のシステム。
[本発明1044]
前記配列リードの関心対象の塩基を識別することが、
前記ミスマッチ塩基について前記配列リード全体にわたってヌクレオチド塩基の割合を観察する前記確率を算出することと、
前記算出された確率を前記遷移マトリクスからの遷移の尤度と比較することと
を含む、本発明1043のシステム。
[本発明1045]
前記算出された確率が前記遷移の尤度よりも大きいことに応答して、前記ミスマッチ塩基を関心対象の塩基として識別する、本発明1044のシステム。
[本発明1046]
1つ以上のサンプル細胞集団に由来する配列リードを含むトレーニングデータを使用して、前記遷移マトリクスが生成される、本発明1045のシステム。
[本発明1047]
前記細胞集団の細胞からの前記複数の配列リードを使用して、前記遷移マトリクスが生成される、本発明1045のシステム。
[本発明1048]
前記細胞集団の前記1つ以上の細胞の配列リードが修正されるとき、前記遷移マトリクスの前記遷移の尤度が動的に更新される、本発明1045のシステム。
[本発明1049]
前記エラー修正モデルがニューラルネットワークである、本発明1041~1048のいずれかのシステム。
[本発明1050]
前記エラー修正モデルが、関心対象の塩基の周りのモチーフ及び局所的配列コンテクストを学習する1つ以上の層を含む深層学習ニューラルネットワークである、本発明1041~1049のいずれかのシステム。
[本発明1051]
前記細胞結果に由来する前記複数の配列リードの1つ以上の配列リードを修正することが、参照塩基とは異なる関心対象の塩基の少なくとも25%を修正することを含む、本発明1041~1050のいずれかのシステム。
[本発明1052]
前記細胞集団の特徴が、ヘテロ接合コールのパーセンテージ、ヘテロ接合コールのバリアントアレル頻度(VAF)の中央値、ヘテロ接合コールの遺伝子型品質の中央値、ヘテロ接合コールの読み取り深度の中央値、ホモ接合コールのパーセンテージ、ホモ接合コールのVAFの中央値、ホモ接合コールの遺伝子型品質の中央値、ホモ接合コールの読み取り深度の中央値、参照コールのパーセンテージ、ホモ接合コールの読み取り深度の変動係数(CV)、ヘテロ接合コールの読み取り深度のCV、ホモ接合コールの遺伝子型品質のCV、ヘテロ接合コールの遺伝子型品質のCV、ホモ接合コールのVAFのCV、ヘテロ接合コールのVAFのCV、ホモ接合コールのVAFの平均値と中央値との差、ヘテロ接合コールのVAFの平均値と中央値との差、及び単位複製配列GCのパーセンテージの1つ以上を含む、本発明1041~1051のいずれかのシステム。
[本発明1053]
前記バリアントコーラーモデルが、関心対象のヘテロ接合バリアントまたは関心対象のホモ接合バリアントの少なくとも1つを予測する、本発明1041~1052のいずれかのシステム。
[本発明1054]
前記バリアントコーラーモデルが、不確定バリアントをさらに予測する、本発明1053のシステム。
[本発明1055]
前記バリアントコーラーモデルが、1つ以上の細胞株に由来する配列リードと、前記1つ以上の細胞株に存在する既知のヘテロ接合バリアントまたはホモ接合バリアントの指標とを含むトレーニングデータを使用してトレーニングされる、本発明1041~1054のいずれかのシステム。
[本発明1056]
前記エラー修正モデル及び前記バリアントコーラーモデルの前記適用が、従来のGTAKバリアントコーラーと比較して、0.5%の検出限界(LOD)において真のバリアント陽性的中率の少なくとも2倍の増加を実現する、本発明1041~1055のいずれかのシステム。
[本発明1057]
前記エラー修正モデル及び前記バリアントコーラーモデルの前記適用が、0.5%の検出限界(LOD)において少なくとも0.6の真のバリアント陽性的中率を実現する、本発明1041~1055のいずれかのシステム。
[本発明1058]
前記参照塩基が参照ゲノム配列から決定される、本発明1041~1057のいずれかのシステム。
[本発明1059]
前記参照塩基が、対照細胞から取得された1つ以上の配列リードから決定される、本発明1041~1057のいずれかのシステム。
本発明のこれらの及び他の特徴、態様、及び利点は、以下の説明及び添付の図面に関してより深く理解されるであろう。
ある実施形態による、細胞分析ワークフローデバイス及びバリアントコールを識別するための塩基コーラーデバイスを含む全体的なシステム環境を示す。 ある実施形態による、塩基コーラーデバイスの別個のモジュールのブロック図である。 ある実施形態による、単一細胞に由来する配列リードを修正するためのフロー図である。 ある実施形態による、修正された配列リードを使用して、細胞集団のバリアントをコールするためのフロー図を示す。 ある実施形態による、エラー修正モデルの実施態様を示す。 ある実施形態による、バリアントコーラーモデルの実施態様を示す。 図1~図4を参照して説明されるシステム及び方法を実施するための例示的なコンピューティングデバイスを示す。 塩基エラーの大部分が1つの細胞だけに観察される、塩基エラーの分布の例を示す。 遷移マトリクスの例証である。 図8A及び図8Bは、異なる位置にわたる6つの配列リードのパイルアップの例証である。図8Aは、出現順に(上から)それぞれ配列番号:1~3及び3~6を開示する。 図8A及び図8Bは、異なる位置にわたる6つの配列リードのパイルアップの例証である。 エラー修正モデルの入力及び出力の例を示す。 エラー修正モデルによって予測された確率を使用して関心対象の塩基を修正する例を示す。 エラー修正モデルを実施した結果として、4つの異なる細胞集団にわたる20~35%の塩基の修正を示す。 エラー修正モデル及びバリアントコーラーモデルの実施後の真のバリアントの改善された陽性的中率を示す。
詳細な説明
定義
特許請求の範囲及び明細書で使用される用語は、特に明記しない限り、下記に記載するように定義される。
「ミスマッチ塩基」及び「代替塩基」という語句は言い換え可能に使用され、同じ位置にある既知の参照塩基とは異なる位置にある塩基を指す。いくつかのシナリオでは、ミスマッチ塩基が誤って識別される(例えば、配列決定中に誤って識別される)。塩基の誤った識別は、PCRエラー、配列決定エラー、配列決定アライメントエラー、及び/または修正エラー等の様々な原因から発生する可能性がある。例を提供するために、参照位置の既知の塩基はアデニン(A)であり得る。ミスマッチ塩基または代替塩基は、同じ位置にあるアデニン(A)以外の塩基を指す(例えば、塩基はグアニン(G)、シトシン(C)、またはチミン(T)のいずれか1つである)。
「参照塩基」という語句は、既知のヌクレオチド塩基を有する既知の塩基を指す。一実施形態では、参照塩基は参照ゲノム配列から決定される。一実施形態では、参照塩基は、対照細胞から取得された1つ以上の配列リードから決定される。
「エラー修正モデル」という語句は、関心対象の塩基を修正できるように、関心対象の塩基を分析するために実施される予測モデルまたは機械学習済みモデルを指す。概して、エラー修正モデルは、細胞特異的方式で関心対象の塩基を分析するために実施される。一実施形態では、エラー修正モデルは関心対象の塩基に生成されたパイルアップを分析し、パイルアップは単一細胞から派生する配列リードの塩基を定量化する。そのような実施形態では、関心対象の塩基を含む単一細胞からの配列リードは、一緒に修正できる。
「関心対象の塩基」という語句は、参照塩基と比較してミスマッチである細胞に由来する配列リード全体の塩基を指す。様々な実施形態では、関心対象の塩基は、遷移マトリクスを適用することによる誤った塩基である可能性が高い。概して、関心対象の塩基に生成されたパイルアップは、関心対象の塩基が誤った塩基である可能性が高いかどうかを判断するために、エラー修正モデルによって分析される。
「単一細胞の特徴」という語句は、単一細胞の配列リードにおける関心対象の塩基に関連する特徴を指す。様々な実施形態では、単一細胞の特徴は、4つのヌクレオチド塩基(アデニン、グアニン、シトシン、及びチミン)に対応する確率分布を求めるためにエラー修正モデルによって分析され、確率分布は、関心対象の塩基が4つのヌクレオチド塩基のうちの1つである尤度を表す。単一細胞の特徴の例は、関心対象の塩基の周りのコンテクスト配列、関心対象の塩基の配列決定深度、関心対象の塩基のアレル頻度、及び関心対象の塩基の周りのウィンドウ内の塩基のアレル頻度を含む。
「バリアントコーラーモデル」という語句は、細胞集団のバリアントをコールするために実施される予測モデルまたは機械学習済みモデルを指す。バリアントコーラーモデルは、細胞集団全体にわたって修正された配列リードに由来する細胞集団の特徴を分析し、配列リードはエラー修正を受ける(例えば、エラー修正モデルを使用して修正される)。一実施形態では、バリアントコーラーモデルは、入力として細胞集団の特徴を受信し、候補バリアントの分類を予測する。一実施形態では、バリアントコーラーモデルは、以前に修正された配列リードから細胞集団の特徴を抽出し、抽出された細胞集団の特徴に基づいて候補バリアントの分類を予測する。
「細胞集団の特徴」という語句は、細胞集団全体にわたって修正された配列リードに由来する候補バリアントに関連する特徴を指す。細胞集団の特徴は、細胞集団の真のバリアントを予測するために、バリアントコーラーモデルによって分析される。細胞集団の特徴の例は、ヘテロ接合コールのパーセンテージ、ヘテロ接合コールのバリアントアレル頻度(VAF)の中央値、ヘテロ接合コールの遺伝子型品質の中央値、ヘテロ接合コールの読み取り深度の中央値、ホモ接合コールのパーセンテージ、ホモ接合コールのVAFの中央値、ホモ接合コールの遺伝子型品質の中央値、ホモ接合コールの読み取り深度の中央値、参照コールのパーセンテージ、ホモ接合コールの読み取り深度の変動係数(CV)、ヘテロ接合コールの読み取り深度のCV、ホモ接合コールの遺伝子型品質のCV、ヘテロ接合コールの遺伝子型品質のCV、ホモ接合コールのVAFのCV、ヘテロ接合コールのVAFのCV、ホモ接合コールのVAFの平均値と中央値との差、ヘテロ接合コールのVAFの平均値と中央値との差、及び単位複製配列GCのパーセンテージを含む。
「候補バリアント」という語句は、参照塩基と比較してミスマッチである細胞集団の配列リード全体の塩基を指す。概して、バリアントコーラーモデルは、候補バリアントがホモ接合バリアントまたはヘテロ接合バリアント等の真のバリアントであるかどうかを判断するために実施される。
「真のバリアント」という語句は、細胞集団の1つ以上の細胞内に存在する遺伝的バリアントを指す。
概要
本明細書に説明される実施形態は、塩基の細胞特異的エラー修正を行い、さらに、エラー修正された配列リードを使用してバリアントの識別を行う、改善されたバリアントコーラーを指す。様々な実施形態では、細胞特異的エラー修正は、エラー修正モデルを実施することを含み、バリアントの識別は、バリアントコーラーモデルを実施することを含む。要するに、本明細書に説明されるバリアントコーラー法は、エラー修正モデル及び/またはバリアントコーラーモデルとは対照的に、ハードカットオフを使用する従来のバリアントコーラー法(例えば、Genome Analysis Toolkit(GATK))と比較して、細胞内に存在する真のバリアントをコールする際により高精度が実現する。GATKで使用されるハードフィルタに関するさらなる詳細は、De Summa,S.,Malerba,G.,Pinto,R.et al.「GATK hard filtering:tunable parameters to improve variant calling for next generation sequencing targeted gene panel data」BMC Bioinformatics 18,119(2017)に見つけられ、当該文献は、参照により全体として組み込まれている。
図1を参照すると、ある実施形態による、細胞分析ワークフローデバイス120及びバリアントコーリングのための塩基コーラーデバイス130を含む全体的なシステム環境100を示す。細胞集団110が取得される。様々な実施形態では、細胞集団110は、被験者または患者から取得された試験サンプルから単離できる。様々な実施形態では、細胞集団110は、健常な被験者から採取した正常細胞を含む。様々な実施形態では、細胞集団110は、被験者から採取した異常細胞を含む。一実施形態では、細胞集団110は、以前にがんと診断された被験者から採取したがん細胞を含む。例えば、がん細胞は、がんと診断された被験者の血流中で得られる腫瘍細胞であり得る。別の例として、がん細胞は、腫瘍生検によって取得された細胞であり得る。
細胞分析ワークフローデバイス120は、細胞を処理して、配列決定するために核酸を生成するデバイスを指す。様々な実施形態では、細胞分析ワークフローデバイス120は、細胞を処理して、配列決定するために核酸を生成する1つ以上のデバイスを備えるシステムを指す。様々な実施形態では、細胞分析ワークフローデバイス120は核酸を単一細胞から生成するワークフローデバイスであり、それによって、配列リードの識別及び配列リードが起源である個々の細胞の後続の識別を可能にする。様々な実施形態では、細胞分析ワークフローデバイス120は、個々の細胞をエマルションにカプセル化し、エマルション中の細胞を溶解し、エマルションの細胞溶解物の細胞バーコーディングを行い、エマルションで核増幅反応を行うことによって単一細胞処理を行うことができる。したがって、増幅された核酸を収集し、配列決定できる。単一細胞ワークフロープロセスの例示的な実施形態のさらなる説明は、全体として本明細書によって参照により組み込まれている米国出願第14/420,646号に説明されている。
特定の実施形態では、細胞分析ワークフローデバイス120は、Tapestri(商標)プラットフォーム、inDrop(商標)システム、Nadia(商標)機器、またはChromium(商標)機器のいずれかであり得る。様々な実施形態では、細胞分析ワークフローデバイス120は、配列リードを生成するために核酸を配列決定するためのシーケンサーを含む。
塩基コーラーデバイス130は、細胞分析ワークフローデバイス120からの配列リードを受信し、配列リードを処理して、1つ以上のバリアント140をコールするように構成される。様々な実施形態では、塩基コーラーデバイス130は細胞分析ワークフローデバイス120に通信可能に連結されるため、細胞分析ワークフローデバイス120からの配列リードを直接受信する。塩基コーラーデバイス130は、配列リードの関心対象の塩基をエラー修正し、次に、細胞集団110内の可能性が高いバリアントをコールする。特定の実施形態では、塩基コーラーデバイス130は、細胞特異的ワークフロープロセスを通じて配列リードの関心対象の塩基を修正し、修正された配列リードを使用して細胞集団全体にわたってバリアントを後でコールする。要するに、細胞特異的エラー修正及び細胞集団バリアントコーリングのこの2段階プロセスは、細胞集団110全体にわたって、より正確なバリアントコール140を可能にする。
塩基コーラーデバイス
図2は、図1に説明された実施形態による、塩基コーラーデバイス130のブロック図である。図2に示されるように、塩基コーラーデバイス130は、塩基識別モジュール210、塩基修正モジュール220、細胞集団モジュール230、塩基コーラーモジュール240、及びトレーニングモジュール250を含む。いくつかの実施形態では、塩基コーラーデバイス130のモジュールは、図2に示される実施形態とは異なって配置できる。例えば、トレーニングモジュール250(点線で示される)は、塩基コーラーデバイス130以外のデバイスによって実装でき、トレーニングモジュール250に関して下記に説明される方法は、他のデバイスによって行うことができる。
概して、塩基識別モジュール210は、個々の細胞に由来する配列リードを分析し、参照塩基と比較してミスマッチである1つ以上の関心対象の塩基を識別する。塩基識別モジュール210は、細胞毎に関心対象の塩基を識別する。例えば、塩基識別モジュール210は、第1の細胞からの配列リードを分析し、第1の細胞からの配列リードの関心対象の塩基を決定する。塩基識別モジュール210は、さらに、第2の細胞からの配列リードを分析し、第2の細胞からの配列リードの関心対象の塩基を決定する等を行う。異なる細胞からの配列リードは、バーコード技術を使用して互いに区別でき、その例は、全体として本明細書によって参照により組み込まれているPCT/US2016/016444にさらに説明されている。さらに、細胞毎に、塩基識別モジュール210は、細胞の関心対象の塩基に対応する配列リードのパイルアップを生成し、関心対象の塩基のいずれかを修正するかどうかを決定するために、パイルアップを塩基修正モジュール220に提供する。
様々な実施形態では、塩基識別モジュール210は、参照ゲノムに整列された配列リードを取得する。例として、塩基識別モジュール210は、SAM(配列アライメントマップ)ファイルフォーマットまたはBAM(バイナリアライメントマップ)ファイルフォーマット等の可読ファイルフォーマットで配列リードを取得できる。
整列された配列リードが与えられると、塩基識別モジュール210は、細胞に由来する配列リード全体にわたって1つ以上の関心対象の塩基を識別する。様々な実施形態では、塩基識別モジュール210は、各ミスマッチ塩基を分析し、ミスマッチ塩基が関心対象の塩基であるかどうかを判定する。
様々な実施形態では、関心対象の塩基を識別するために、塩基識別モジュール210は、細胞からの位置における配列リードの少なくとも閾値数が、その位置における参照塩基とは異なる特定のヌクレオチド塩基を有するかどうかを判定する際にフィルタを適用する。様々な実施形態では、その位置における配列リードの閾値数を超えるものが参照塩基とは異なるヌクレオチド塩基を有する場合、塩基識別モジュール210は塩基を後続の修正の関心対象の塩基として識別する。
様々な実施形態では、特定の位置における配列リードの閾値数は固定値である。様々な実施形態では、配列リードの閾値数は、1000よりも大きい、2000よりも大きい、3000よりも大きい、4000よりも大きい、5000よりも大きい、6000よりも大きい、7000よりも大きい、8000よりも大きい、9000よりも大きい、10,000よりも大きい、20,000よりも大きい、30,000よりも大きい、40,000よりも大きい、50,000よりも大きい、75,000よりも大きい、100,000よりも大きい、150,000よりも大きい、200,000よりも大きい、250,000よりも大きい、または500,000の配列リードよりも大きい。様々な実施形態では、配列リードの閾値数は、細胞からの位置における配列リードの総数の5%よりも大きい、細胞からの位置における配列リードの総数の10%よりも大きい、細胞からの位置における配列リードの総数の20%よりも大きい、細胞からの位置における配列リードの総数の30%よりも大きい、細胞からの位置における配列リードの総数の40%よりも大きい、細胞からの位置における配列リードの総数の50%よりも大きい、細胞からの位置における配列リードの総数の60%よりも大きい、細胞からの位置における配列リードの総数の70%よりも大きい、細胞からの位置における配列リードの総数の75%よりも大きい、細胞からの位置における配列リードの総数の80%よりも大きい、細胞からの位置における配列リードの総数の85%よりも大きい、細胞からの位置における配列リードの総数の90%よりも大きい、または細胞からの位置における配列リードの総数の95%よりも大きい。
様々な実施形態では、塩基識別モジュール210は、遷移マトリクスを適用することによって、関心対象の塩基を識別する。そのような実施形態では、遷移マトリクスを適用することは、遷移マトリクスの確率を、配列リードのヌクレオチド塩基の割合を観察する尤度を反映する確率と比較することを含む。
最初に遷移マトリクスを参照すると、参照塩基のヌクレオチドと特定の位置における観察塩基のヌクレオチドとの間の遷移の頻度を表す確率が含まれる。概して、遷移マトリクスの遷移の頻度を表す確率により、塩基識別モジュール210は、エラー(PCRエラー、配列決定エラー等)が原因である可能性が高いミスマッチ塩基と、エラーが原因で発生しなかったミスマッチ塩基とを区別することが可能になる。
様々な実施形態では、遷移マトリクスは、所与の参照塩基(例えば、A、C、G、またはT)について、参照塩基が配列リードにおいて異なる塩基として観察される確率を含む。様々な実施形態では、遷移マトリクスは、12個の確率値(例えば、参照塩基からミスマッチ塩基への遷移を反映する3つの確率値)を含む。様々な実施形態では、遷移マトリクスは16個の確率値を含む。これは、配列リードで観察塩基が参照塩基と一致する各参照塩基の確率を含む。遷移マトリクスの例は、図7を参照して下記に説明される。
図7は、遷移マトリクスの例証である。ここで、遷移マトリクスは、参照塩基(例えば、y軸の「REF」)及び観察塩基(例えば、x軸の「観察された塩基」)の呼称を含む。遷移マトリクスの各細胞は、参照塩基のヌクレオチドが観察塩基のヌクレオチドとして観察される確率を表す尤度値を含む。例えば、遷移マトリクスの1行目は、既知のアデニン参照塩基「A」の場合、観察塩基が参照アデニン塩基と一致する確率が99%であることを示す(1行目)。しかしながら、いくつかのシナリオでは、参照アデニン塩基が配列リードで異なって観察される。例えば、既知のアデニン参照塩基「A」について、観察塩基が参照アデニン塩基とミスマッチである確率は、0.26%(1行目の2列目は観察されたチミン塩基を示す)、0.61%(1行目の3列目は観察されたグアニン塩基)、及び0.13%(1行目の4列目は観察されたシトシン塩基を示す)である。
いくつかの実施形態では、遷移マトリクスは、1つ以上の以前のサンプルから以前に生成されたものである。以前のサンプルは、細胞集団の細胞を含み得る、または細胞集団の混合物の細胞を含み得る。そのような実施形態では、遷移マトリクスは、異なるサンプル全体に適用できる参照として機能する。したがって、遷移マトリクスを使用して、異なるサンプルの関心対象の塩基を識別できる。様々な実施形態では、塩基識別モジュール210は、バリアントコーリングプロセスを受けるサンプル毎に遷移マトリクスを生成する。したがって、そのような実施形態では、塩基識別モジュール210は、関心対象の塩基を識別するとき、サンプル毎に異なる遷移マトリクスを適用する。これは、いくつかのシナリオでは、サンプルに依存してエラーが発生する可能性があるため、望ましくあり得る。
様々な実施形態では、塩基識別モジュール210は、少なくとも部分的に、塩基識別モジュール210が関心対象の塩基を識別するために分析しているのと同じ配列リードを使用して、遷移マトリクスを生成する。そのような実施形態では、関心対象の塩基が修正されるとき(例えば、下記に説明されるエラー修正モデルを使用して修正されるとき)、塩基識別モジュール210は、修正された塩基の新しいヌクレオチド塩基を反映するように遷移マトリクスの確率を動的に更新できる。塩基識別モジュール210が遷移マトリクスを生成する方法の例として、「A」の参照塩基を有する位置について、塩基識別モジュール210は、その位置における4つのヌクレオチド塩基(A、C、T、またはG)のいずれかを有する配列リードの割合を算出する。したがって、塩基識別モジュール210は、「A」の参照塩基を有する位置について、4つのヌクレオチド塩基にわたる確率分布を定量化する。塩基識別モジュール210は、「C」、「T」、及び「G」の参照ヌクレオチド塩基の遷移の確率を算出することができる。
様々な実施形態では、塩基識別モジュール210は、配列リード全体にわたる位置について、ヌクレオチド塩基の割合を観察する尤度を反映する確率を算出する。いくつかの実施形態では、確率は次のように表すことができる。
P(アデニン=W、シトシン=X、グアニン=Y、チミン=Z|N回の読み取り)
ここで、Wはその位置におけるアデニンヌクレオチド塩基を有する観察された配列リードの数であり、Xはその位置におけるシトシンヌクレオチド塩基を有する観察された配列リードの数であり、Yはその位置におけるチミンヌクレオチド塩基を有する観察された配列リードの数であり、Zはその位置におけるチミンヌクレオチド塩基を有する観察された配列リードの数であり、Nはその位置における観察された配列リードの総数である。
いくつかの実施形態では、確率は、配列リード全体にわたる位置について、ミスマッチヌクレオチド塩基の割合を観察する尤度を反映している。ここでは、確率は、以下のように示すことができる。
P(塩基1=X、塩基2=Y、塩基3=Z|N回の読み取り)
ここで、塩基1、塩基2、及び塩基3は参照塩基と一致しないヌクレオチド塩基を指す。ここで、Xはその位置における塩基1を有する観察された配列リードの数であり、Yはその位置における塩基2を有する観察された配列リードの数であり、Zはその位置における塩基3を有する観察された配列リードの数であり、Nはその位置における観察された配列リードの総数である。
塩基識別モジュール210は、その位置のヌクレオチド塩基の割合を観察する尤度を反映する確率を、遷移マトリクスの確率と比較する。様々な実施形態では、比較により、ヌクレオチド塩基の割合を観察する尤度を反映する確率が遷移マトリクスの確率よりも大きいことがもたらされる場合、塩基識別モジュール210は関心対象の塩基として塩基を識別する。したがって、関心対象の塩基は、修正を後で受けることができる。比較により、ヌクレオチド塩基の割合を観察する尤度を反映する確率が遷移マトリクスの確率よりも小さいことがもたらされる場合、塩基識別モジュール210は関心対象の塩基として塩基を識別しない。したがって、塩基は修正を受けず、ミスマッチ塩基のままになる。
関心対象の塩基を識別する全般的な例として、塩基識別モジュール210は、ある位置における配列リードの大部分が、グアニン(観察塩基)に対するアデニン(参照塩基)のミスマッチがあることを識別し得る。遷移マトリクスは、参照アデニン塩基から観察されたグアニン塩基への遷移の尤度を反映する確率を含む。この確率は0.01と仮定する。塩基識別モジュール210は、参照塩基以外のヌクレオチド塩基の割合を観察する確率(例えば、グアニン塩基、シトシン塩基、またはチミンヌクレオチド塩基を観察する確率)が0.05であると算出し得る。塩基識別モジュール210は、ヌクレオチド塩基の割合を観察する確率(0.05)を、遷移マトリクスの確率(0.01)と比較する。ここでは、ヌクレオチド塩基の割合を観察する確率(0.05)が遷移マトリクスの確率(0.01)よりも大きいと仮定して、塩基識別モジュール210は関心対象の塩基として塩基を識別する。
様々な実施形態では、関心対象の塩基を識別して、塩基識別モジュール210は、関心対象の塩基毎に配列リードのパイルアップを生成する。具体的には、塩基識別モジュール210は、関心対象の塩基のX位置の上流及びY位置の下流に位置する塩基を含む配列リードを含むパイルアップを生成する。様々な実施形態では、X及びYは同じ値である。他の実施形態では、X及びYは異なる値である。様々な実施形態では、Xは、関心対象の塩基の上流に、1個の位置、2個の位置、3個の位置、4個の位置、5個の位置、6個の位置、7個の位置、8個の位置、9個の位置、10個の位置、15個の位置、20個の位置、25個の位置、30個の位置、40個の位置、50個の位置、60個の位置、70個の位置、80個の位置、90個の位置、100個の位置、110個の位置、120個の位置、130個の位置、140個の位置、または150個の位置があり得る。様々な実施形態では、Yは、関心対象の塩基の下流に、1個の位置、2個の位置、3個の位置、4個の位置、5個の位置、6個の位置、7個の位置、8個の位置、9個の位置、10個の位置、15個の位置、20個の位置、25個の位置、30個の位置、40個の位置、50個の位置、60個の位置、70個の位置、80個の位置、90個の位置、100個の位置、110個の位置、120個の位置、130個の位置、140個の位置、または150個の位置があり得る。
様々な実施形態では、塩基識別モジュール210は、関心対象の塩基の位置の上流及び下流に位置する位置について、パイルアップが、4つのヌクレオチド塩基(例えば、アデニン、グアニン、シトシン、またはチミン)のうちの1つを有する配列リードの割合を示す確率を含むように、パイルアップを生成する。例えば、パイルアップは、パイルアップにおける位置毎に、マトリクスがその位置に対応するアデニン、グアニン、シトシン、またはチミンを有した配列リードの割合を識別する確率を含むように、マトリクスとして具体化され得る。
塩基修正モジュール220は、エラー修正モデルを適用して、関心対象の塩基の可能性が高いヌクレオチドを割り出す。したがって、塩基修正モジュール220は、細胞に由来する1つ以上の配列リード全体にわたって関心対象の塩基を修正できる。修正された配列リードは、真のバリアントをコールするために後で使用できる改善された配列リードを表す。概して、塩基修正モデル220は、細胞特異的プロセスを通じて配列リードを修正する。ここで、塩基修正モデル220は、第1の細胞の配列リードで関心対象の塩基を修正し得るが、第2の細胞の配列リードで同じ塩基を修正し得ない。エラー(例えば、PCRエラー、配列決定エラー、配列決定アライメントエラー、または修正エラー)が個々の細胞で発生する可能性があるため、塩基修正モデル220によって行われる方法は、これらのエラーに対処するために細胞毎に配列リードの修正を可能にする。
塩基修正モジュール220は、関心対象の塩基のために生成されたパイルアップを受信する。一実施形態では、塩基修正モジュール220は、エラー修正モデルへの入力として、関心対象の塩基のパイルアップを適用する。ここでは、エラー修正モデルは、関心対象の塩基の周りのコンテクスト配列、関心対象の塩基の配列決定深度、関心対象の塩基のアレル頻度、及び関心対象の塩基の周りのウィンドウ内の塩基のアレル頻度を含むパイルアップの単一細胞の特徴を抽出及び分析できる。様々な実施形態では、「ウィンドウ」は、関心対象の塩基の上流に位置するX塩基及び関心対象の塩基の下流に位置するY塩基を指す。様々な実施形態では、X及びYは、互いに独立して、2個の塩基、3個の塩基、4個の塩基、5個の塩基、6個の塩基、7個の塩基、8個の塩基、9個の塩基、10個の塩基、20個の塩基、30個の塩基、40個の塩基、50個の塩基、60個の塩基、70個の塩基、75個の塩基、80個の塩基、90個の塩基、100個の塩基、150個の塩基、200個の塩基、300個の塩基、400個の塩基、または500個の塩基であり得る。例として、エラー修正モデルは、パイルアップから単一細胞の特徴を抽出し、単一細胞の特徴を分析するニューラルネットワーク(例えば、深層学習ニューラルネットワーク)であり得る。いくつかの実施形態では、塩基修正モジュール220は、機能抽出プロセスを行い、単一細胞の特徴をパイルアップから抽出する。そのような実施形態では、単一細胞の特徴は、エラー修正モデルへの入力として提供できる。様々な実施形態では、エラー修正モデルは、4つのヌクレオチド塩基(アデニン、グアニン、シトシン、及びチミン)に対応する確率分布を出力し、確率分布は、関心対象の塩基が分析された単一細胞の特徴に基づく4つのヌクレオチド塩基のうちの1つである尤度を表す。
様々な実施形態では、塩基修正モデル220は、エラー修正モデルによって出力された確率分布に基づいて、関心対象の塩基を異なるヌクレオチド塩基に修正する。一実施形態では、塩基修正モデル220は、エラー修正モデルによって出力された分布の確率の中の最高確率があるヌクレオチド塩基に関心対象の塩基を修正する。ここで、修正されたヌクレオチド塩基は、細胞内に存在する可能性が高い塩基を表す。関心対象の塩基を異なるヌクレオチド塩基に修正するために、塩基修正モデル220は、正しいヌクレオチド塩基を反映するように関心対象の塩基を含む1つ以上の配列リードを修正する。要するに、塩基修正モデル220は、細胞の配列をより正確に反映する修正されたヌクレオチド塩基を有する修正された配列リードを再生成する。
様々な実施形態では、塩基修正モデル220は、関心対象の塩基を有する単一細胞に由来する全ての配列リードを修正し、その結果、修正後、修正された配列リードは、正しい塩基を含む。様々な実施形態では、塩基修正モデル220は、関心対象の塩基を有する単一細胞に由来する一部の配列リードを修正する。例えば、関心対象の塩基を有する配列リードの一部は正しい塩基を有し得るため、修正する必要はない。別の例として、関心対象の塩基を有するいくつかの配列リードは、信頼性の低い読み取りであり得、修正するのではなく破棄できる。様々な実施形態では、塩基修正モデル220は、BAMファイルフォーマットまたはSAMファイルフォーマット等の可読ファイルフォーマットで修正された配列リードを生成する。
細胞集団モジュール230は、細胞集団全体にわたって修正された配列リードから細胞集団の特徴を決定する。概して、細胞集団モジュール230は、細胞毎に組織化された修正された配列リードを分析し、細胞集団を説明する細胞集団の特徴を決定する。
細胞集団モジュール230は、細胞の配列リードがエラー修正された後に残る、細胞集団全体にわたって1つ以上の候補バリアントを識別する。様々な実施形態では、候補バリアントは、配列リードが修正された後に残る全てのバリアントを含む。様々な実施形態では、細胞集団モジュール230がフィルタを行うことにより、候補バリアントは、配列リードが修正された後に残る全てのバリアントのサブセットになる。例えば、細胞集団モジュール230は、塩基が1つ以上の基準を満たす場合、特定の位置で候補バリアントを識別する。様々な実施形態では、1つ以上の基準は、1)最小アレル頻度及び2)その位置においてミスマッチ塩基を有する最小数の細胞の一方または両方を含むハードカットオフとして機能する。
様々な実施形態では、細胞集団全体にわたって細胞集団の特徴を決定するために、細胞集団モジュール230は、細胞毎に修正された配列リードを集約し、次に、集約された配列リードを使用して細胞集団全体にわたって細胞集団の特徴を決定する。例えば、細胞毎に、細胞集団モジュール230は、各位置で特定のヌクレオチド塩基(例えば、A、C、T、またはG)を有する配列リードの割合を定量化できる。次に、細胞集団モジュール230は、配列リードの定量化された割合を分析することによって、細胞集団全体にわたって細胞集団の特徴を決定する。
様々な実施形態では、細胞集団モジュール230は、1つ以上の候補バリアントのそれぞれに対して細胞集団の特徴を決定する。特定の例として、細胞集団の特徴は、特定の候補バリアントに対するヘテロ接合コールのパーセンテージであり得る(例えば、特定の位置で、候補バリアントの第1のコピーが参照塩基と比較してミスマッチであり、候補バリアントの第2のコピーが参照塩基と一致する細胞のパーセンテージである)。したがって、細胞について、細胞集団モジュール230は、細胞の修正された配列リードを集約し、細胞の候補バリアントがヘテロ接合コールであるかどうかを判定する。細胞集団モジュール230は、細胞集団の細胞全体にわたってこのプロセスを繰り返して、候補バリアントに対応するヘテロ接合コールを有する細胞のパーセンテージを導出する。追加の候補バリアントについて、細胞集団モジュール230は、追加の候補バリアントのそれぞれのヘテロ接合コピーを有する細胞のパーセンテージを算出する。
細胞集団の特徴の例は、限定ではないが、ヘテロ接合コールのパーセンテージ、ヘテロ接合コールのバリアントアレル頻度(VAF)の中央値、ヘテロ接合コールの遺伝子型品質の中央値、ヘテロ接合コールの読み取り深度の中央値、ホモ接合コールのパーセンテージ、ホモ接合コールのVAFの中央値、ホモ接合コールの遺伝子型品質の中央値、ホモ接合コールの読み取り深度の中央値、参照コールのパーセンテージ、ホモ接合コールの読み取り深度の変動係数(CV)、ヘテロ接合コールの読み取り深度のCV、ホモ接合コールの遺伝子型品質のCV、ヘテロ接合コールの遺伝子型品質のCV、ホモ接合コールのVAFのCV、ヘテロ接合コールのVAFのCV、ホモ接合コールのVAFの平均値と中央値との差、ヘテロ接合コールのVAFの平均値と中央値との差、及び単位複製配列GCのパーセンテージを含む。
塩基コーラーモジュール240は、バリアントコーラーモデルを適用して、細胞集団の1つ以上の真のバリアントを予測する。様々な実施形態では、塩基コーラーモジュール240は、入力として、候補バリアントの細胞集団の特徴をバリアントコーラーモデルに提供する。バリアントコーラーモデルは、細胞集団の特徴を分析し、候補バリアントの予測を出力する。
様々な実施形態では、バリアントコーラーは、複数の可能な分類から候補バリアントの分類を出力する分類器である。いくつかの実施形態では、バリアントコーラーモデルは、候補バリアントの2つの分類のうちの1つを出力する分類器である。例として、バリアントコーラーモデルは、真のバリアントまたは偽陽性バリアントの分類を出力できる。別の例として、バリアントコーラーモデルは、ホモ接合バリアントまたはヘテロ接合バリアントの1つ等の真のバリアントのタイプに関する分類を出力できる。いくつかの実施形態では、バリアントコーラーモデルは、候補バリアントの3つ以上の可能な分類のうちの1つを出力する分類器である。例として、バリアントコーラーモデルは、ホモ接合バリアント、ヘテロ接合バリアント、または偽陽性バリアントの分類を出力できる。いくつかの実施形態では、バリアントコーラーモデルは、不確定バリアントの分類を出力する。不確定バリアントは信頼性の低いコーリングを表す可能性があり、このとき、不確定バリアントが真のバリアントであるかどうかについて確認するために追加の分析が必要になり得る。いくつかの実施形態では、バリアントコーラーモデルは、非バリアント(例えば、偽陽性バリアント)の分類を出力する。
トレーニングモジュール250は、概して、エラー修正モデル及びバリアントコーラーモデルの一方または両方を生成するための方法を実施する。様々な実施形態では、トレーニングモジュール250は、塩基コーラーデバイス130以外のデバイスまたはシステムによって実装される。例えば、トレーニングモジュール250は、サードパーティによって実装できる。そのようなシナリオでは、サードパーティがエラー修正モデル及びバリアントコーラーモデルの一方または両方を生成する。次に、サードパーティは、トレーニングされたエラー修正モデル及びトレーニングされたバリアントコーラーモデルの一方または両方を、塩基コーラーデバイス130に提供できる。
様々な実施形態では、トレーニングモジュール250は、エラー修正モデルをトレーニングする。トレーニングモジュール250は、線形回帰アルゴリズム、ロジスティック回帰アルゴリズム、デシジョンツリーアルゴリズム、サポートベクターマシン分類、ナイーブベイズ分類、K最近傍分類、ランダムフォレストアルゴリズム、深層学習アルゴリズム、勾配ブーストアルゴリズムのいずれか1つ等のエラー修正モデルをトレーニングする機械学習実施方法、多様体学習、主成分分析、因子分析、オートエンコーダー正規化、独立成分分析等の次元縮小法、またはそれらの組み合わせを使用できる。様々な実施形態では、トレーニングモジュール250は、教師あり学習アルゴリズム、教師なし学習アルゴリズム、半教師あり学習アルゴリズム(例えば、部分的教師)、転移学習、マルチタスク学習、またはそれらのいずれかの組み合わせを使用して、エラー修正モデルをトレーニングする。
トレーニングモジュール250は、エラー修正トレーニングサンプルを使用してエラー修正モデルをトレーニングする。様々な実施形態では、エラー修正トレーニングサンプルは、個々の細胞に由来するトレーニング配列リードを含む。そのようなトレーニングサンプルは、SAMまたはBAMファイルフォーマット等の一般的に使用されるファイルフォーマットで表現できる。様々な実施形態では、エラー修正トレーニングサンプルにおけるトレーニング配列リードは、参照塩基と比較してミスマッチである既知の関心対象の塩基を有する配列リードを含む。これらのトレーニング配列リードは、既知の関心対象の塩基の位置に遺伝的バリアントを有することが知られている個々の細胞に由来することができる。
様々な実施形態では、エラー修正トレーニングサンプルは、細胞内に存在する遺伝的バリアントの既知の塩基を示す参照グラウンドトゥルースで標識付けできる。様々な実施形態では、既知の塩基の標識は、整数(例えば、0、1、2、及び3)であり得る。ここで、各整数値は、既知の塩基の場合、ヌクレオチド塩基(例えば、A、C、T、またはGの1つ)を示す。様々な実施形態では、既知の塩基の標識は、ベクトル(例えば、[0,0,0,1]等の1×4マトリクス)として構造化できる。そのような例では、マトリクス内の各細胞は4つのヌクレオチド塩基のうちの1つに対応する。「0」の値は対応するヌクレオチド塩基が既知の塩基ではないことを示す一方、「1」の値は対応するヌクレオチド塩基が既知の塩基であることを示す。
様々な実施形態では、エラー修正トレーニングサンプルは、1)関心対象の塩基を有する細胞に由来する1つ以上のトレーニング配列リードと、2)既知の塩基を示す標識とを含む。様々な実施形態では、トレーニングモジュール250は、エラー修正トレーニングサンプルの1つ以上のトレーニング配列リードを使用して、様々なサイズのトレーニングパイルアップを作成する。したがって、エラー修正モデルは、トレーニングサンプルのトレーニング配列リードに由来するパイルアップを使用して繰り返しトレーニングできる。エラー修正モデルのパラメータがトレーニングの反復中に調整されることにより、エラー修正モデルが関心対象の塩基の確率分布を良好に予測できる。
様々な実施形態では、トレーニングモジュール250は、バリアントコーラーモデルをトレーニングする。トレーニングモジュール250は、線形回帰アルゴリズム、ロジスティック回帰アルゴリズム、デシジョンツリーアルゴリズム、サポートベクターマシン分類、ナイーブベイズ分類、K最近傍分類、ランダムフォレストアルゴリズム、深層学習アルゴリズム、勾配ブーストアルゴリズムのいずれか1つ等のバリアントコーラーモデルをトレーニングする機械学習実施方法、多様体学習、主成分分析、因子分析、オートエンコーダー正規化、独立成分分析等の次元縮小法、またはそれらの組み合わせを使用できる。様々な実施形態では、トレーニングモジュール250は、教師あり学習アルゴリズム、教師なし学習アルゴリズム、半教師あり学習アルゴリズム(例えば、部分的教師)、転移学習、マルチタスク学習、またはそれらのいずれかの組み合わせを使用して、バリアントコーラーモデルをトレーニングする。
トレーニングモジュール250は、バリアントコーラートレーニングサンプルを使用して、バリアントコーラーモデルをトレーニングする。様々な実施形態では、バリアントコーラートレーニングサンプルは、既知のバリアントまたは既知の参照塩基を含むトレーニング配列リードを含む。様々な実施形態では、バリアントコーラートレーニングサンプルは、トレーニング配列リードに由来する細胞集団の特徴を含む。
バリアントコーラートレーニングサンプルは、バリアントの分類を示す参照グラウンドトゥルースで標識付けできる。一実施形態では、参照グラウンドトゥルースは、真のバリアントと偽陽性バリアントとを区別する。一実施形態では、参照グランドトゥルースは、ホモ接合バリアント及び異種バリアント等の異なる真のバリアントを区別する。一実施形態では、参照グランドトゥルースは、ホモ接合バリアント、ヘテロ接合バリアント、及び参照塩基(例えば、非バリアント)を区別する。
様々な実施形態では、バリアントコーラートレーニングサンプルの標識は、バルク配列決定法等の他の配列決定法によって事前に決定及び/または確認できる。様々な実施形態では、バリアントコーラートレーニングサンプルの標識は、特定の細胞株に存在する既知の遺伝的バリアントに少なくとも部分的に基づいて事前に決定することができる。様々な実施形態では、標識は、バリアントが真のバリアントまたは偽陽性バリアントであるかを示すバイナリ値(例えば、0または1の値)であり得る。いくつかの実施形態では、標識は、バリアントコーラーモデルが予測するように設計されている分類の数に応じて、異なる整数値(例えば、0、1、2、3等)であり得る。例えば、ホモ接合バリアント、ヘテロ接合バリアント、及び参照塩基(例えば、非バリアント)を予測するバリアントコーラーモデルについて、標識は3つの整数値(例えば、0、1、及び2)であり得、各整数値は分類の1つに対応する。
様々な実施形態では、各バリアントコーラートレーニングサンプルは、1)既知の参照塩基または既知のバリアントを有する細胞集団のトレーニング配列リードと、2)トレーニング配列リードに対応する既知の参照塩基または既知のバリアントの存在を示す標識とを含む。したがって、バリアントコーラーモデルは、各バリアントコーラートレーニングサンプルを使用して繰り返しトレーニングできる。様々な実施形態では、バリアントコーラーモデルのパラメータがトレーニング反復中に調整されることにより、バリアントコーラーモデルが細胞集団の配列リードが参照塩基または真のバリアントを有するかどうかを良好に予測できる。
細胞集団のバリアントをコールするための方法
ここで、図3A及び図3Bに示されるフロー図300及びフロー図350を参照すると、1)細胞特異的プロセスを通じた配列リードの塩基のエラー修正と、2)エラー修正された配列リードを使用した細胞集団全体にわたるバリアントコーリングとを含む2段階プロセスが説明されている。
図3Aは、ある実施形態による、単一細胞に由来する配列リードを修正するためのフロー図300である。ステップ305において、配列リードは細胞から取得される。様々な実施形態では、一方の細胞からの配列リードは、別の細胞からの配列リード(例えば、以前にバーコード技術を使用して区別されたもの)と区別可能である。さらに、そのような配列リードは参照ゲノムに整列できる。
ステップ310において、細胞の配列リードは、配列リードにおける誤った塩基を修正することによって修正される。ステップ310は、ステップ315、320、及び325を含む細胞特異的プロセスである。様々な実施形態では、ステップ315、320、及び325は、細胞集団の1つ以上の細胞のそれぞれに対して並行して行われる。様々な実施形態では、ステップ315、320、及び325は、細胞集団の1つ以上の細胞のそれぞれに対して連続して行われる。要するに、ステップ315、320、及び325は、細胞集団の1つ以上の細胞のそれぞれに対して、修正された配列リードの生成をもたらす。
ステップ315は、細胞からの配列リードの関心対象の塩基を識別することを含み、関心対象の塩基は参照塩基とは異なる。様々な実施形態では、関心対象の塩基を識別することは、遷移マトリクスを適用して、塩基のミスマッチがエラーに起因する可能性が高いかどうかを判定することを含む。遷移マトリクスを適用することは、遷移マトリクスの確率を、配列リードのヌクレオチド塩基の割合を観察する尤度を反映する確率と比較することを含む。
ステップ320は、関心対象の塩基の確率を予測するためにエラー修正モデルを適用することを含む。様々な実施形態では、エラー修正モデルは、関心対象の塩基のために生成されたパイルアップに由来する単一細胞の特徴を分析し、確率分布を出力する。
ステップ325は、関心対象の塩基を修正することを含む。ここで、関心対象の塩基は、予測された確率に対応する別の塩基に修正される。関心対象の塩基を含む細胞からの1つ以上の配列リードは、別の塩基に修正できる。
図3Bは、ある実施形態による、修正された配列リードを使用して、細胞集団のバリアントをコールするためのフロー図350を示す。ここでは、355、360、及び365のステップが細胞集団レベルで行われるため、細胞集団全体にわたって真のバリアントをコールすることができる。
ステップ355は、細胞集団全体にわたって修正された配列リードから細胞集団の特徴を生成することを含む。様々な実施形態では、ステップ355は、修正された配列リードを使用して、細胞集団の候補バリアントの細胞集団の特徴を生成することを含む。ステップ360は、バリアントコーラーモデルを細胞集団の特徴に適用することを含む。様々な実施形態では、候補バリアントの細胞集団の特徴は、バリアントコーラーモデルへの入力として適用される。バリアントコーラーモデルを異なる候補バリアントに繰り返し適用して、各候補バリアントが真のバリアントである可能性が高いかどうかを判断できる。
ステップ365において、バリアントコーラーモデルの出力に基づいて、細胞集団全体にわたる1つ以上のバリアントをコールする。様々な実施形態では、バリアントをコールすることは、候補バリアントをホモ接合バリアント、ヘテロ接合バリアント、または不確定バリアントの1つとしてコールすることを含む。
要するに、フロー図300及びフロー図350を通して識別された細胞集団のコールされたバリアントは、従来のバリアントコーラーパイプラインを使用する従来のコールされたバリアントを上回る改善を表す。したがって、コールされたバリアントは、様々な用途に有益である可能性があり、その例は、異常細胞及び/または疾患(例えば、がん)の特性評価を含む。
エラー修正モデル及びバリアント修正モデルの実施形態
特定の実施形態では、エラー修正モデル及びバリアント修正モデルは、機械学習済みモデルである。エラー修正モデル及びバリアント修正モデルのそれぞれは、トレーニングデータを使用してトレーニングされ得る。トレーニングに続いて、エラー修正モデル及びバリアント修正モデルを展開できる(例えば、図3A及び図3Bを参照して、上記に説明したプロセスに従って展開できる)。
様々な実施形態では、エラー修正モデル及びバリアント修正モデルの一方または両方は、回帰モデル(例えば、線形回帰、ロジスティック回帰、または多項式回帰)、デシジョンツリー、ランダムフォレスト、サポートベクターマシン、ナイーブベイズモデル、K平均法クラスター、またはニューラルネットワーク(例えば、フィードフォワードネットワーク、畳み込みニューラルネットワーク(CNN)、ディープニューラルネットワーク(DNN)、オートエンコーダーニューラルネットワーク、生成的敵対的ネットワーク、またはリカレントネットワーク(例えば、長短期記憶ネットワーク(LSTM)、双方向リカレントネットワーク、ディープ双方向リカレントネットワーク)のいずれか1つである。
様々な実施形態では、エラー修正モデル及びバリアント修正モデルの一方または両方は、ハイパーパラメータまたはモデルパラメータ等の1つ以上のパラメータを有する。ハイパーパラメータは、概して、トレーニングの前に設定される。ハイパーパラメータの例は、学習率、デシジョンツリーの深度または葉、ディープニューラルネットワークの隠れ層の数、K平均法クラスターのクラスター数、回帰モデルのペナルティ、及びコスト関数に関連付けられた正則化パラメータを含む。エラー修正モデル及びバリアント修正モデルの一方または両方のモデルパラメータは、概して、トレーニング中に調整される。モデルパラメータの例は、ニューラルネットワークの層のノードに関連付けられた重み、サポートベクターマシンのサポートベクター、及び回帰モデルの係数を含む。機械学習モデルのモデルパラメータは、トレーニングデータを使用してトレーニング(調整等)され、機械学習モデルの予測力が向上する。
いくつかの実施形態では、エラー修正モデル及びバリアント修正モデルの一方または両方は、モデルの1つ以上のパラメータが独立変数と従属変数との間の依存関係を定義するパラメトリックモデルである。様々な実施形態では、パラメトリックタイプモデルの様々なパラメータは損失関数を最小化するようにトレーニングされ、トレーニングは、バッチ勾配アルゴリズム、確率的勾配アルゴリズム等の勾配ベース数値最適化アルゴリズムによって行われる。いくつかの実施形態では、エラー修正モデル及びバリアント修正モデルの一方または両方は、モデル構造がトレーニングデータから判定され、パラメータの固定セットに厳密に基づいていないノンパラメトリックモデルである。
図4Aは、ある実施形態による、エラー修正モデル410の実施態様を示す。本実施形態では、エラー修正モデル410は関心対象の塩基を含むパイルアップを分析し、パイルアップは単一細胞に由来する配列リードから生成される。様々な実施形態では、エラー修正モデル410は、関心対象の塩基のために生成されたパイルアップに由来する単一細胞の特徴を分析する。単一細胞の特徴は、関心対象の塩基の周りのコンテクスト配列、関心対象の塩基の配列決定深度、関心対象の塩基のアレル頻度、及び関心対象の塩基の周りのウィンドウ内の塩基のアレル頻度を含む関心対象の塩基に関連する機能である。単一細胞の特徴に基づいて、エラー修正モデル410は、関心対象の塩基が別の塩基である尤度を表す塩基確率(例えば、アデニン、チミン、グアニン、及びシトシンの1つ、2つ、3つ、または4つの確率)の分布を出力する。
特定の実施形態では、エラー修正モデル410はニューラルネットワークである。いくつかの実施形態では、エラー修正モデル410は深層学習ニューラルネットワークである。エラー修正モデル410は、2、3、4、5、6、7、8、9、または10個の層で構造化され得る。エラー修正モデル410の層は1つ以上のノードから成る。層のノードは他の層の他のノードに接続でき、ノード間の接続はパラメータに関連付けられる。一方のノードの値は、特定のノードに関連付けられた活性化関数によってマッピングされた関連パラメータによって重み付けされた特定のノードに接続されたノードの値の組み合わせとして表され得る。
図4Bは、ある実施形態による、バリアントコーラーモデルの実施態様を示す。図4Bに示される実施形態では、バリアントコーラーモデル420は、細胞集団全体にわたって修正された配列リードに由来する細胞集団の特徴を分析する。バリアントコーラーモデル420は、バリアントの分類を出力する。いくつかの実施形態では、バリアントの分類は、真のバリアントまたは偽陽性バリアントのうちの1つである。いくつかの実施形態では、バリアントの分類は、ホモ接合バリアントまたはヘテロ接合バリアントの1つである。いくつかの実施形態では、バリアントの分類は、ホモ接合バリアント、ヘテロ接合バリアント、または不確定バリアントのうちの1つである。
いくつかの実施形態では、バリアントコーラーモデル420は、細胞集団の特徴とは対照的に、配列リードまたは配列リードのパイルアップを入力として受信する。そのような実施形態では、細胞集団の特徴は、バリアントコーラーモデル420の実施の前に、集約リードから抽出される必要はない。いくつかの実施形態では、集約リードをコンパイルでき(例えば、パイルアップでコンパイルでき)、集約リードのパイルアップをバリアントコーラーモデル420への入力として提供し、バリアント分類を予測できる。例えば、集約リードのパイルアップは、エラー修正後、参照塩基と比較してミスマッチである塩基に対してコンパイルできる。バリアントコーラーモデル420は、塩基に生成されたパイルアップを分析し、塩基のバリアント分類を予測する。
特定の実施形態では、バリアントコーラーモデル420はニューラルネットワークである。いくつかの実施形態では、バリアントコーラーモデル420は深層学習ニューラルネットワークである。バリアントコーラーモデル420は、2、3、4、5、6、7、8、9、または10個の層で構造化され得る。バリアントコーラーモデル420の層は1つ以上のノードから成る。層のノードは他の層の他のノードに接続でき、ノード間の接続はパラメータに関連付けられる。一方のノードの値は、特定のノードに関連付けられた活性化関数によってマッピングされた関連パラメータによって重み付けされた特定のノードに接続されたノードの値の組み合わせとして表され得る。
配列決定及びリードアライメントの方法
本明細書に開示される本発明の実施形態は、核酸の配列決定及び参照ゲノムへの配列リードの整列を含む。様々な実施形態では、核酸を配列決定するステップ及び配列リードを参照ゲノムに整列させるステップは、図1を参照して上記に説明したように、細胞分析ワークフローデバイス120のシーケンサー等のシーケンサーによって行われる。したがって、配列決定及び整列された配列リードは、塩基コーラーデバイス130によって分析でき、より具体的には、関心対象の塩基を識別するために塩基識別モジュール210(図2参照)によって分析できる。
配列リードは、合成による配列決定、ライゲーションによる配列決定、パイロシークエンシング法、可逆的ターミネーター化学作用を使用すること、ホスホ結合蛍光ヌクレオチドを使用すること、またはリアルタイム配列決定のいずれかを行うプラットフォームを含む、市販の次世代配列決定(NGS)プラットフォームによって実現できる。例として、増幅核酸は、Illumina MiSeqプラットフォームで配列決定され得る。
パイロシークエンシング法の場合、アダプターに対して相補的なオリゴヌクレオチドでコーティングした顆粒を使用して、1つのマトリクス分子を捕捉することによって、NGSフラグメントのライブラリーをクローンin-situ増幅する。同じタイプのマトリクスを含む各顆粒を、「油中水」型のマイクロバブルに配置し、エマルションPCRと呼ばれる方法を使用して、マトリクスをクローン増幅する。増幅後、エマルションは破壊され、顆粒は、配列決定反応中にフローセルとして作用する滴定ピコプレートの別個のウェルにスタックされる。4つのdNTP試薬のそれぞれをフローセルに順序立てて複数回投与することは、配列決定酵素、及びルシフェラーゼ等の発光レポーターの存在下で発生する。好適なdNTPが配列決定プライマーの3’末端に添加される場合において、結果として生じるATPは、ウェル内でのルミネセンスの発光を生み出し、これはCCDカメラを使用して記録される。400塩基以上のリード長を実現することが可能であり、配列の10の読み取り値を取得することが可能であり、結果として、最大5億個の塩基対(メガバイト)の配列が取得される。パイロシークエンシング法のさらなる詳細は、Voelkerding et al.,Clinical Chem.,55:641-658,2009、MacLean et al.,Nature Rev.Microbiol.,7:287-296、米国特許第6,210,891号、米国特許第6,258,568号に説明され、これらの文献のそれぞれは全体として本明細書によって参照により組み込まれている。
Solexa/Illuminaプラットフォームでは、配列決定データは短い読み取り値の形式で作成される。本方法では、NGSフラグメントのライブラリーのフラグメントが、オリゴヌクレオチドアンカー分子でコーティングされるフローセルの表面で捕捉される。アンカー分子はPCRプライマーとして使用されるが、マトリクスの長さ及び他の付近のアンカーオリゴヌクレオチドへの近接性が原因で、PCRによる伸長によって、隣接するアンカーオリゴヌクレオチドとのハイブリダイゼーション及びフローセルの表面上の架橋構造の形成により、分子の「ヴォールト」の形成がもたらされる。これらのDNAループは変性し、切断される。次に、直鎖が、可逆的に染色されたターミネーターを使用して配列決定される。配列に含まれるヌクレオチドは、包接後に蛍光を検出することによって決定され、各蛍光剤及び遮断薬は、次のdNTP添加サイクルの前に除去される。Illuminaのプラットフォームを使用する配列決定のさらなる詳細は、Voelkerding et al.,Clinical Chem.,55:641-658,2009、MacLean et al.,Nature Rev.Microbiol.,7:287-296、米国特許第6,833,246号、米国特許第7,115,400号、米国特許第6,969,488号に見られ、これらの文献のそれぞれは全体として本明細書によって参照により組み込まれている。
SOLiD技術を使用する核酸分子の配列決定は、エマルションPCRを使用するNGSフラグメントのライブラリーのクローン増幅を含む。その後、マトリクスを含む顆粒を、ガラスフローセルの誘導体化された表面上に固定し、アダプターオリゴヌクレオチドに対して相補的なプライマーでアニールする。しかしながら、3’伸長のために示したプライマーを使用する代わりに、相補的なプライマーを使用して、2つのプローブ特異的塩基、続いて、6個の縮退塩基、及び4個の蛍光標識のうちの1つを含む試験プローブ用のライゲーションのための5’リン酸基を取得する。SOLiDシステムにおいて、試験プローブは、各プローブの3’末端における2つの塩基と、5’末端における4つの蛍光染料のうちの1つとの16個の可能な組み合わせを有する。蛍光染料の色、ひいては、各プローブの同一性は、特定の色空間コードスキームに対応する。プローブのアライメントの多くのサイクル後、プローブのライゲーション及び蛍光シグナルの検出、変性、続いて、元のプライマーと比較して1塩基移動したプライマーを使用する第2の配列決定サイクルが行われる。このように、マトリクスの配列を計算により再構成できる。マトリクス塩基を2回確認することで、精度の増加をもたらす。SOLiD技術を使用する配列決定のさらなる詳細は、Voelkerding et al.,Clinical Chem.,55:641-658,2009、MacLean et al.,Nature Rev.Microbiol.,7:287-296、米国特許第5,912,148号、米国特許第6,130,073号に見られ、これらの文献のそれぞれは全体として参照により組み込まれている。
特定の実施形態では、Helicos BioSciences製のHeliScopeを使用する。配列決定は、ポリメラーゼの添加及び蛍光標識されたdNTP試薬の連続添加により実現される。切り替えにより、dNTPに対応する蛍光シグナルの概観がもたらされ、特定のシグナルが、各dNTP添加サイクルの前に、CCDカメラにより捕捉される。配列のリード長は、25~50ヌクレオチドで変化し、分析作業サイクル1回当たりで、全収率が10億個のヌクレオチド対を超える。HeliScopeを使用する配列決定を行うためのさらなる詳細は、Voelkerding et al.,Clinical Chem.,55:641-658,2009、MacLean et al.,Nature Rev.Microbiol.,7:287-296、米国特許第7,169,560号、米国特許第7,282,337号、米国特許第7,482,120号、米国特許第7,501,245号、米国特許第6,818,395号、米国特許第6,911,345号、米国特許第7,501,245号に見られ、これらの文献のそれぞれは全体として参照により組み込まれている。
いくつかの実施形態では、Rocheの配列決定システム454を使用する。配列決定454は2つのステップを含む。第1のステップでは、DNAは約300~800個の塩基対のフラグメントに切断され、これらのフラグメントは平滑末端を有する。次に、オリゴヌクレオチドアダプターはフラグメントの末端にライゲーションされる。アダプターは、フラグメントの増幅及び配列決定のためのプライマーとして機能する。フラグメントは、例えば、5’-ビオチンタグを含むアダプターを使用して、DNA捕捉ビーズ(例えば、ストレプトアビジンでコーティングされたビーズ)に付着できる。顆粒に付着されたフラグメントは、油-水エマルションのドロップレット内で、PCRにより増幅される。結果は、各ビーズにおける、クローン増幅したDNAフラグメントの複数のコピーである。第2の段階において、顆粒はウェルで捕捉される(数ピコリットルの体積)。パイロシークエンシング法を各DNAフラグメントで並行して行う。1つ以上のヌクレオチドを添加することにより、光シグナルの生成がもたらされ、これは、配列決定機器のCCDカメラに記録される。シグナル強度は、含まれるヌクレオチドの数に比例する。パイロシークエンシング法は、ヌクレオチドの添加の際に放出されるピロホスフェート(PPi)を使用する。PPiは、アデノシン5’ホスホ硫酸の存在下で、ATPスルフリラーゼを使用してATPに転換される。ルシフェラーゼはATPを使用して、ルシフェリンをオキシルシフェリンに転換し、この反応の結果、光が生成され、その光が検出及び分析される。配列決定454を行うためのさらなる詳細は、全体として本明細書によって参照により組み込まれているMargulies et al.(2005)Nature 437:376-380に見られる。
Ion Torrent技術は、DNA重合の間に放出される水素イオンの検出に基づくDNA配列決定法である。マイクロウェルは、配列決定されるNGSフラグメントのライブラリーのフラグメントを含む。マイクロウェル層の下に、超高感度イオンセンサISFETがある。全ての層は、エレクトロニクス産業で使用されるチップと同様に、半導体CMOSチップ内に含まれる。dNTPが成長する相補鎖に組み込まれるとき、水素イオンが放出され、超高感度イオンセンサを励起する。ホモポリマーリピートが鋳型の配列に存在する場合、複数のdNTP分子が1サイクルに含められる。これにより、水素原子の対応量が放出され、より大きな電気シグナルに比例することがもたらされる。この技術は、修飾ヌクレオチドまたは光学デバイスを使用しない他の配列決定技術とは異なる。Ion Torrent技術についてのさらなる詳細は、Science 327(5970):1190(2010)、米国特許出願公開第20090026082号、米国特許出願公開第20090127589号、米国特許出願公開第20100301398号、米国特許出願公開第20100197507号、米国特許出願公開第20100188073号、及び米国特許出願公開第20100137143号に見られ、これらの文献のそれぞれは全体として参照により組み込まれている。
様々な実施形態では、NGS法から取得された配列決定リードは、品質でフィルタリングされ、当技術分野で既知のいずれかのアルゴリズム(例えば、Python script barcodeCleanup.py)を使用するバーコード配列によりグループ化できる。いくつかの実施形態では、その塩基の約20%超が約99%未満の塩基コールの精度を示すQ20未満の品質スコア(Qスコア)を有する場合、所与の配列決定リードを廃棄し得る。いくつかの実施形態では、約5%、約10%、約15%、約20%、約25%、約30%超が、各々、約90%未満、約99%未満、約99.9%未満、約99.99%未満、約99.999%未満、約99.9999%未満等の塩基コールの精度を示すQ10、Q20、Q30、Q40、Q50、Q60等よりも小さいQスコアを有する場合、所与の配列決定リードを廃棄し得る。
いくつかの実施形態では、50個未満の読み取りを含むバーコードに関連付けられた全ての配列決定リードを破棄して、単一細胞を表す全てのバーコードグループが十分な数の高品質の読み取りを含むことを確実にし得る。いくつかの実施形態では、30未満、40未満、50未満、60未満、70未満、80未満、90未満、100未満等の読み取りを含むバーコードに関連付けられた全ての配列決定リードを廃棄して、単一細胞を表すバーコードグループの品質を保証し得る。
共通のバーコード配列を有する配列リード(例えば、配列リードが同じ細胞が起源であることを意味する)は、アライメント位置情報を決定するために、当技術分野で既知の方法を使用して参照ゲノムに対して整列され得る。アライメント位置情報は、所与の配列リードの開始ヌクレオチド塩基及び末端ヌクレオチド塩基に対応する参照ゲノムの領域の開始位置及び終了位置を示し得る。参照ゲノムの領域は、標的遺伝子または遺伝子のセグメントに関連付けられ得る。例示的なアライナーアルゴリズムは、BWA、Bowtie、Spliced Transcripts Alignment to a Reference(STAR)、Tophat、またはHISAT2を含む。配列リードを参照配列に整列するためのさらなる詳細は、全体として本明細書によって参照により組み込まれている米国出願第16/279,315号に説明されている。様々な実施形態では、SAM(配列アライメントマップ)フォーマットまたはBAM(バイナリアライメントマップ)フォーマットを有する出力ファイルを生成し、その後の分析のために出力され得る。
システム及び/またはコンピュータの実施形態
本明細書に説明される実施形態は、さらに、上記に説明したバリアントコーリング法を行うための例示的なシステム及びコンピュータの実施形態を参照する。次の説明は、図1を参照して上記に説明したように、細胞分析ワークフローデバイス120及び塩基コーラーデバイス130を参照する。
様々な実施形態では、細胞分析ワークフローデバイス120は、少なくとも、細胞に試薬を封入し、細胞溶解物に反応混合物を封入し、核酸増幅反応を行うように構成される、マイクロ流体デバイスを含む。例えば、マイクロ流体デバイスは、流体連通している1つ以上の流体チャネルを含み得る。したがって、第1のチャネルを通る水性流体と、第2のチャネルを通るキャリア流体とを組み合わせることにより、エマルションドロップレットの生成がもたらされる。様々な実施形態では、マイクロ流体デバイスの流体チャネルは、約数ミリメートル以下(例えば、約1ミリメートル以下)の少なくとも1つの断面寸法を有し得る。マイクロチャネルの設計及び寸法のさらなる詳細は、国際特許出願第PCT/US2016/016444号及び米国特許第14/420,646号に説明され、これらの文献のそれぞれは全体として本明細書によって参照により組み込まれている。マイクロ流体デバイスの例は、Tapestri(商標)Platformである。
様々な実施形態では、細胞分析ワークフローデバイス120は、また、(a)対象デバイスの1つ以上の部分及び/または対象デバイス内のドロップレットの温度を制御し、マイクロ流体デバイス(複数可)に動作可能に接続される、温度調節モジュール、(b)マイクロ流体デバイス(複数可)に動作可能に接続される、検出モジュール(すなわち、検出器、例えば、光学撮像器)、(c)マイクロ流体デバイス(複数可)に動作可能に接続される、インキュベーター(例えば、細胞インキュベーター)、ならびに(d)マイクロ流体デバイス(複数可)に動作可能に接続されるシーケンサーのうちの1つ以上を含み得る。1つ以上の温度及び/または圧力制御モジュールは、デバイスの1つ以上の流路のキャリア流体の温度及び/または圧力の制御を提供する。例として、温度調節モジュールは、核酸増幅を行うために温度を調節する1つ以上のサーマルサイクラーであり得る。1つ以上の検出モジュール(すなわち、検出器、例えば、光学撮像器)は、1つ以上のドロップレットの存在、またはその機能(その組成を含む)を検出するように構成される。いくつかの実施形態では、検出モジュールは、1つ以上の流路で、1つ以上のドロップレットの1つ以上の成分を認識するように構成される。シーケンサーは、次世代配列決定等の配列決定を行うように構成されるハードウェアデバイスである。シーケンサーの例は、Illuminaのシーケンサー(例えば、MiniSeq(商標)、MiSeq(商標)、NextSeq(商標)550シリーズ、またはNextSeq(商標)2000)、Rocheの配列決定システム454、及びThermo Fisher Scientificのシーケンサー(例えば、Ion GeneStudio S5システム、Ion Torrent Genexusシステム)を含む。
図5は、図1~図4を参照して説明されるシステム及び方法を実施するための例示的なコンピューティングデバイスを示す。様々な実施形態では、例示的なコンピューティングデバイス500は、エラー修正を行い、バリアントをコールするために、図1に説明される塩基コーラーデバイス130として機能する。コンピューティングデバイスの例は、パーソナルコンピュータ、デスクトップコンピュータラップトップ、サーバーコンピュータ、クラスター内の計算ノード、メッセージプロセッサ、ハンドヘルドデバイス、マルチプロセッサシステム、マイクロプロセッサベースのまたはプログラム可能な家電製品、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、携帯電話、PDA、タブレット、ポケベル、ルーター、スイッチ等を含み得る。
図5に示されるように、いくつかの実施形態では、コンピューティングデバイス500は、チップセット504に連結された少なくとも1つのプロセッサ502を含む。チップセット504は、メモリコントローラハブ520及び入力/出力(I/O)コントローラハブ522を含む。メモリ506及びグラフィックスアダプター512はメモリコントローラハブ520に連結され、ディスプレイ518はグラフィックスアダプター512に連結される。ストレージデバイス508、入力インタフェース514、及びネットワークアダプター516は、I/Oコントローラハブ522に連結される。コンピューティングデバイス500の他の実施形態は異なるアーキテクチャを有する。
ストレージデバイス508は、ハードドライブ、コンパクトディスク読取専用メモリ(CD-ROM)、DVD、またはソリッドステートメモリデバイス等の非一時的コンピュータ可読記憶媒体である。メモリ506は、プロセッサ502によって使用される命令及びデータを保持する。入力インタフェース514は、タッチスクリーンインタフェース、マウス、トラックボール、もしくは他のタイプの入力インタフェース、キーボード、またはいくつかのそれらの組み合わせであり、データをコンピューティングデバイス500に入力するために使用される。いくつかの実施形態では、コンピューティングデバイス500は、入力インタフェース514から、ユーザのジェスチャによって、入力(例えば、コマンド)を受信するように構成され得る。グラフィックスアダプター512は、イメージ及び他の情報をディスプレイ518に表示する。ネットワークアダプター516は、コンピューティングデバイス500を1つ以上のコンピュータネットワークに連結する。
コンピューティングデバイス500は、本明細書に説明される機能を提供するためのコンピュータプログラムモジュールを実行するように適応する。本明細書で使用される「モジュール」という用語は、指定された機能を提供するために使用されるコンピュータプログラム論理を指す。したがって、モジュールは、ハードウェア、ファームウェア、及び/またはソフトウェアに実装できる。一実施形態では、プログラムモジュールは、ストレージデバイス508に記憶され、メモリ506にロードされ、プロセッサ502によって実行される。
コンピューティングデバイス500のタイプは、本明細書に説明される実施形態毎に変わり得る。例えば、コンピューティングデバイス500は、グラフィックスアダプター512、入力インタフェース514、及びディスプレイ518等の上記に説明したコンポーネントのいくつかが不足する可能性がある。いくつかの実施形態では、コンピューティングデバイス500は、メモリ506に記憶された命令を実行するためのプロセッサ502を含み得る。
塩基エラー修正及びバリアントコーリングを行う方法は、ハードウェアもしくはソフトウェア、またはその両方の組み合わせで実施できる。一実施形態では、上記に説明したもの等の非一時的コンピュータ可読記憶媒体が提供され、当該媒体は、上記のデータを使用するための命令でプログラミングされた機械を使用するとき、本発明に開示される塩基エラー修正及びバリアントコーリング法を行うための命令を実行することが可能である機械可読データでエンコードされたデータストレージマテリアルを含む。上記に説明した方法の実施形態は、プロセッサ、データストレージシステム(揮発性メモリ及び不揮発性メモリ、ならびに/またはストレージエレメントを含む)、グラフィックスアダプター、入力インタフェース、ネットワークアダプター、少なくとも1つの入力デバイス、及び少なくとも1つの出力デバイスを含む、プログラム可能なコンピュータ上で実行するコンピュータプログラムに実装できる。ディスプレイはグラフィックスアダプターに連結される。プログラムコードを入力データに適用して、上記に説明した機能を実施し、出力情報を生成する。出力情報を、既知の様式で1つ以上の出力装置に適用する。コンピュータは、例えば、従来の設計のパーソナルコンピュータ、マイクロコンピュータ、またはワークステーションであり得る。
各プログラムは、ハイレベル手順またはオブジェクト指向のプログラミング言語で実装され、コンピュータシステムと通信できる。しかしながら、プログラムは、必要に応じて、アセンブリ言語または機械言語で実装できる。いずれの場合も、言語はコンパイラ言語またはインタプリタ言語であり得る。そのようなコンピュータプログラムのそれぞれは、ストレージ媒体またはストレージデバイスがコンピュータによって読み取られ、本明細書に説明される手順を行うとき、コンピュータを構成及び動作させるために、汎用または専用のプログラム可能なコンピュータによって読み取り可能なストレージ媒体またはストレージデバイス(例えば、ROMまたは磁気ディスク)に記憶されるのが好ましい。本システムは、コンピュータプログラムで構成されるコンピュータ可読ストレージ媒体として実装されるとみなすことができ、そのように構成されたストレージ媒体は、コンピュータを特定及び所定の方式で動作させ、本明細書に説明される機能を実施させる。
署名パターン及びそのデータベースは、様々な媒体で提供され、その使用を容易にできる。「媒体」は、本発明の署名パターン情報を含む製品を意味する。本発明のデータベースは、コンピュータ可読媒体(例えば、コンピュータによって読み取られ、直接アクセスできるいずれかの媒体)に記録できる。そのような媒体は、限定ではないが、フロッピーディスク、ハードディスクストレージ媒体、及び磁気テープ等の磁気記憶媒体、CD-ROM等の光学記憶媒体、RAM及びROM等の電気記憶媒体、ならびに磁気/光学記憶媒体等のこれらのカテゴリーのハイブリッドを含む。当業者は、現在知られているコンピュータ可読媒体のいずれかを使用して、本発明のデータベース情報の記録を含む製品を作成する方法を容易に理解できる。「記録された」は、当技術分野において既知のそのようないずれかの方法を使用して、コンピュータ可読媒体に情報を記憶するためのプロセスを意味する。記憶した情報にアクセスするために使用される手段に基づき、いずれかの従来のデータストレージ構造を選ぶことができる。記憶するために、様々なデータプロセッサプログラム及びフォーマット(例えば、ワープロテキストファイル、データベースフォーマット等)を使用できる。
実施例1:エラー修正モデルを適用する前の配列リードで観察された基本エラー
図6は、塩基エラーの大部分が1つの細胞だけに観察される、塩基エラーの分布の例を示す。図6の定量化されたエラーは、エラー修正モデルを適用しない配列リードに存在するエラーを指す。
データは細胞株サンプルから内部に生成され、Tapestri(商標)によって実行され、Tapestri(商標)標準パイプラインを使用して分析された。細胞毎にエラー(ミスマッチ)が取得され、細胞のエラーの頻度を計算して、そのプロットが生成された。具体的には、配列リードのエラーの大部分は1つの細胞だけに観察され、2つ以上の細胞で観察された配列リードのエラー数は限られている。これは、個々の細胞の配列リードに対して修正を行うことで、参照塩基に対するマッチ塩基またはミスマッチ塩基として間違って識別されるエラー(例えば、偽陽性及び/または偽陰性)の数を減らすことを可能にすることを示唆する。言い換えると、細胞に由来する配列リードの塩基がエラーであると判断された場合、同じ細胞に由来する他の配列リードの同じ塩基がエラーである可能性がより高くなる。したがって、個々の細胞からの配列リードの細胞特異的エラー修正を行うことは、従来の方法(例えば、バルク処理によって取得されたエラー修正リード)よりも正確及び/または高速である。
実施例2:エラー修正モデルを実施する方法の例
概して、図7~図10に関連して下記に説明されるエラー修正モデルを実施するための例示的な方法は、個々の細胞に由来する配列リードで塩基のエラー修正を行うことを意味する。
図7に示される遷移マトリクス等の遷移マトリクスはサンプル用に生成された。遷移マトリクスの確率は、サンプルの400万回の読み取りの既知の塩基の全部に対して定量化することによって生成され、読み取りは参照ゲノムに整列された。既知の参照塩基(例えば、アデニン、チミン、グアニン、またはシトシンの既知の参照塩基)について、400万回のプローブの全部に対して4つのヌクレオチド塩基のそれぞれの観察量を測定して、遷移マトリクスの相対的確率を生成した。
細胞の配列リード全体にわたってミスマッチ塩基が特定された。塩基毎に、多項確率が計算され、多項確率は、配列リード全体の位置における代替塩基(例えば、参照塩基とは異なる3ヌクレオチド塩基のいずれか)の割合を観察する尤度を反映する。具体的には、位置の多項確率は次のように計算された。
P(塩基1=X、塩基2=Y、塩基3=Z|N回の読み取り)
ここで、塩基1、塩基2、及び塩基3は参照塩基と一致しないヌクレオチド塩基を指す。ここで、Xはその位置における塩基1を有する観察された配列リードの数であり、Yはその位置における塩基2を有する観察された配列リードの数であり、Zはその位置における塩基3を有する観察された配列リードの数であり、Nはその位置における観察された配列リードの総数である。
塩基の多項確率を遷移マトリクスの遷移確率と比較した。遷移確率は、参照ヌクレオチド塩基から観察されたヌクレオチド塩基に遷移する尤度を反映する。多項確率が遷移マトリクスの遷移確率よりも大きい場合、塩基は関心対象の塩基として識別された。多項確率が遷移マトリクスの遷移確率よりも小さい場合、塩基は関心対象の塩基として識別されなかった。
パイルアップは、関心対象の塩基毎に作成された。図8A及び図8Bは、異なる位置にわたる6つの配列リードのパイルアップの例証である。図8A及び図8Bは、それぞれ、例示的な位置0~14(一番上の行)を示す。図8Aは、さらに、対応する位置のそれぞれにおける参照塩基(2行目)と、6つの整列された配列リードのそれぞれの塩基とを識別する。図8Bは、6つの配列リード全体にわたって定量化された各塩基の確率を示す。当業者は、ゲノム全体の追加の位置(例えば、数千または数百万の位置)、追加の参照塩基(例えば、数千または数百万の参照塩基)、及び配列リードの追加の塩基(例えば、数千または数百万の追加の配列リード)がパイルアップの例に含まれ得ることを容易に理解できる。
ここで、パイルアップの例は、参照塩基と比較してミスマッチである関心対象の塩基に生成される。具体的には、例のパイルアップは位置7に生成される。参照塩基は位置7のシトシン塩基を示すが、6つの配列リードのうち5つ(83%)にミスマッチのグアニン塩基が含まれている。
図9Aは、エラー修正モデルの入力及び出力の例を示す。この例では、図8Bに示されるパイルアップ等のパイルアップは、関心対象の塩基を修正するためのエラー修正モデルへの入力として提供される。ここでは、エラー修正モデルは深層学習ニューラルネットワーク(DNN)である。エラー修正モデルは、いくつかの異なるハイパーパラメータを使用して最適化され、各ハイパーパラメータの最適値を識別した。ハイパーパラメータは、限定ではないが、カーネル正則化係数、学習率、層数、活性化関数、オプティマイザーを含む。
エラー修正モデルは、関心対象の塩基の周りのコンテクスト配列、関心対象の塩基の配列決定深度、及び関心対象の塩基のアレル頻度を含むパイルアップの単一細胞の特徴を分析する。
エラー修正モデルは、4つのヌクレオチド塩基(アデニン、シトシン、グアニン、チミン)にわたる確率分布を出力する。ここで、各確率は、関心対象の塩基が特定の塩基である尤度を示す。図9Aに示される例では、エラー修正モデルは、関心対象の塩基がアデニンである尤度が20%、関心対象の塩基がシトシンである尤度が0%、関心対象の塩基がグアニンである尤度が70%、関心対象の塩基がチミンである尤度が10%であることを示す確率分布を出力する。
図9Bは、エラー修正モデルによって予測された確率を使用して関心対象の塩基を修正する例を示す。図9Bに示される最初の2列では、塩基が位置する染色体及び塩基の参照位置を含む塩基の場所が識別される。3列目では、関心対象の塩基が修正された修正塩基が識別され、ここでは、エラー修正モデルによって出力された確率に依存する。ここで、エラー修正モデルによって出力された確率は4列目に示される。
具体的には、1行目について、それが最高確率(例えば、0.6748)を有することを考えると、出力された確率は、関心対象の塩基がアデニンヌクレオチド塩基である可能性が最も高いことを示す。したがって、関心対象の塩基はアデニンに修正される。2行目について、それが最高確率(例えば、0.9127)を有することを考えると、出力された確率は、関心対象の塩基がシトシンヌクレオチド塩基である可能性が最も高いことを示す。3行目について、それが最高確率(例えば、0.83465)を有することを考えると、出力された確率は、関心対象の塩基がシトシンヌクレオチド塩基である可能性が最も高いことを示す。4行目について、それが最高確率(例えば、0.6193)を有することを考えると、出力された確率は、関心対象の塩基がチミンヌクレオチド塩基である可能性が最も高いことを示す。
図10は、エラー修正モデルを実施した結果として、4つの異なる細胞集団にわたる20~35%の塩基の修正を示す。4つの細胞株のそれぞれが単一細胞ワークフローデバイス(例えば、Tapestri(登録商標))によって処理され、単一細胞DNAを配列決定して、配列リードを生成した。細胞毎に、エラー修正モデルを細胞に由来する配列リードの対象のエラー修正塩基に適用した。
要するに、エラー修正モデルを単一細胞DNA配列リードに適用して、PCRエラー、配列決定エラー、配列決定アライメントエラー、または修正エラーのいずれかが原因で発生する可能性が高い誤った塩基の大部分を識別及び修正できる。これらの修正された配列リードにより、下記の実施例3で説明されるように、より正確なバリアントコールが可能になる。
実施例3:バリアントコーラーモデルを実施する方法
配列リードのエラー修正後、バリアントをフィルタリングして、最小アレル頻度及び変異した細胞数等の閾値を満たさなかったバリアントを除去した。残りのバリアント細胞集団の特徴のバリアント毎に、ヘテロ接合コールのパーセンテージ、ヘテロ接合コールのバリアントアレル頻度(VAF)の中央値、ヘテロ接合コールの遺伝子型品質の中央値、ヘテロ接合コールの読み取り深度の中央値、ホモ接合コールのパーセンテージ、ホモ接合コールのVAFの中央値、ホモ接合コールの遺伝子型品質の中央値、ホモ接合コールの読み取り深度の中央値、参照コールのパーセンテージ、ホモ接合コールの読み取り深度の変動係数(CV)、ヘテロ接合コールの読み取り深度のCV、ホモ接合コールの遺伝子型品質のCV、ヘテロ接合コールの遺伝子型品質のCV、ホモ接合コールのVAFのCV、ヘテロ接合コールのVAFのCV、ホモ接合コールのVAFの平均値と中央値との差、ヘテロ接合コールのVAFの平均値と中央値との差、及び単位複製配列GCのパーセンテージを計算した。
19個のサンプルから取得された細胞からの細胞集団の特徴を使用して、このシナリオではマルチクラスニューラルネットワーク分類器であるバリアントコーラーモデルをトレーニングした。トレーニングサンプルは下記の表1に開示される。これらのサンプルについて、各々のサンプルに存在する既知の真のバリアント(バルク配列決定法で確認済)に基づいて、既知のバリアントにクラス(異種バリアント、ホモ接合バリアント、または参照塩基)が与えられた。トレーニングサンプルは、最大0.1%の様々な希釈率の細胞混合物からの様々なサンプルと、Tapestri機器によって処理され、様々なシーケンサーのセットで配列決定された臨床サンプルとを含んでいた。トレーニングデータはクラスの不均衡があり、特定のクラスのコールが他のクラスと比較してはるかに少ないため、小さいクラスのアップサンプリングが行われた。モデルのハイパーパラメータは、既知の真の標識を有する検証データを使用して繰り返し調整された。いったんモデルが適切な精度を実現すると、トレーニングを停止し、次に、新しいサンプルの予測モードでモデルを使用して、それらのサンプルの上位のバリアントを識別した。
13個の試験サンプルを使用して、バリアントコーラーモデルのパフォーマンスを評価した。試験サンプルは下記の表2に開示される。図11は、13個のサンプルの全体にわたるバリアントコーラーモデルの実施後の真のバリアントの改善された陽性的中率を示す。2段階のエラー修正モデル及びバリアント予測モデルを使用すると、大幅に改善した陽性的中率(PPV)の中央値が実現した。具体的には、0.5%のLODにおけるPPVの2~3倍の改善が13個のサンプルの大部分で観察された。エラー修正モデル及び/またはバリアント予測モデルとは対照的に、ハードカットオフフィルタを使用する従来のGATKモデルと比較して、2~3倍の改善が観察された。
Figure 2022550841000019
Figure 2022550841000020
要するに、これらの結果は、エラー修正モデル及びバリアントコーラーモデルの適用により、バリアントコーリングの大幅な改善が実現することを示す。

Claims (59)

  1. 細胞集団の1つ以上のバリアントをコールするための方法であって、
    複数の配列リードを前記細胞集団の細胞から取得することと、
    前記細胞集団中の複数の細胞について、前記細胞から取得された配列リードを修正することであって、
    参照塩基とは異なる前記配列リードの関心対象の塩基を識別すること、
    前記関心対象の塩基の単一細胞の特徴を分析するためにエラー修正モデルを適用することであって、前記エラー修正モデルが、前記関心対象の塩基の確率を予測するためにトレーニングされる、前記適用すること、及び
    前記細胞に由来する前記配列リードの前記関心対象の塩基を修正すること
    を含む、前記修正することと、
    前記細胞集団の細胞全体にわたって修正された配列リードを集約することによって細胞集団の特徴を生成することであって、前記修正された配列リードが、修正された塩基を含む、前記生成することと、
    前記細胞集団全体にわたって1つ以上のバリアントを識別するために、バリアントコーラーモデルを、前記集約された配列リードに由来する前記細胞集団の特徴に適用することと
    を含む、前記方法。
  2. 前記単一細胞の特徴が、前記関心対象の塩基の周りのコンテクスト配列、前記関心対象の塩基の配列決定深度、前記関心対象の塩基のアレル頻度、及び前記関心対象の塩基の周りのウィンドウ内の塩基のアレル頻度を含む、請求項1に記載の方法。
  3. 前記配列リードの関心対象の塩基を識別することが、参照塩基とミスマッチ塩基との間の遷移の尤度を含む遷移マトリクスを、ミスマッチ塩基について前記配列リード全体にわたってヌクレオチド塩基の割合を観察する確率に適用することを含む、請求項1または2に記載の方法。
  4. 前記配列リードの関心対象の塩基を識別することが、
    前記ミスマッチ塩基について前記配列リード全体にわたってヌクレオチド塩基の割合を観察する前記確率を算出することと、
    前記算出された確率を前記遷移マトリクスからの遷移の尤度と比較することと
    をさらに含む、請求項3に記載の方法。
  5. 前記算出された確率が前記遷移の尤度よりも大きいことに応答して、前記ミスマッチ塩基を関心対象の塩基として識別する、請求項4に記載の方法。
  6. 1つ以上のサンプル細胞集団に由来する配列リードを含むトレーニングデータを使用して、前記遷移マトリクスが生成される、請求項5に記載の方法。
  7. 前記細胞集団の細胞からの前記複数の配列リードを使用して、前記遷移マトリクスが生成される、請求項5に記載の方法。
  8. 前記細胞集団の前記1つ以上の細胞の配列リードが修正されるとき、前記遷移マトリクスの前記遷移の尤度が動的に更新される、請求項5に記載の方法。
  9. 前記エラー修正モデルがニューラルネットワークである、請求項1~8のいずれか1項に記載の方法。
  10. 前記エラー修正モデルが、関心対象の塩基の周りのモチーフ及び局所的配列コンテクストを学習する1つ以上の層を含む深層学習ニューラルネットワークである、請求項1~9のいずれか1項に記載の方法。
  11. 前記細胞結果に由来する前記複数の配列リードの1つ以上の配列リードを修正することが、参照塩基とは異なる関心対象の塩基の少なくとも25%を修正することを含む、請求項1~10のいずれか1項に記載の方法。
  12. 前記細胞集団の特徴が、ヘテロ接合コールのパーセンテージ、ヘテロ接合コールのバリアントアレル頻度(VAF)の中央値、ヘテロ接合コールの遺伝子型品質の中央値、ヘテロ接合コールの読み取り深度の中央値、ホモ接合コールのパーセンテージ、ホモ接合コールのVAFの中央値、ホモ接合コールの遺伝子型品質の中央値、ホモ接合コールの読み取り深度の中央値、参照コールのパーセンテージ、ホモ接合コールの読み取り深度の変動係数(CV)、ヘテロ接合コールの読み取り深度のCV、ホモ接合コールの遺伝子型品質のCV、ヘテロ接合コールの遺伝子型品質のCV、ホモ接合コールのVAFのCV、ヘテロ接合コールのVAFのCV、ホモ接合コールのVAFの平均値と中央値との差、ヘテロ接合コールのVAFの平均値と中央値との差、及び単位複製配列GCのパーセンテージの1つ以上を含む、請求項1~11のいずれか1項に記載の方法。
  13. 前記バリアントコーラーモデルが、関心対象のヘテロ接合バリアントまたは関心対象のホモ接合バリアントの少なくとも1つを予測する、請求項1~12のいずれか1項に記載の方法。
  14. 前記バリアントコーラーモデルが、不確定バリアントをさらに予測する、請求項13に記載の方法。
  15. 前記バリアントコーラーモデルが、1つ以上の細胞株に由来する配列リードと、前記1つ以上の細胞株に存在する既知のヘテロ接合バリアントまたはホモ接合バリアントの指標とを含むトレーニングデータを使用してトレーニングされる、請求項1~14のいずれか1項に記載の方法。
  16. 前記エラー修正モデル及び前記バリアントコーラーモデルの前記適用が、従来のGTAKバリアントコーラーと比較して、0.5%の検出限界(LOD)において真のバリアント陽性的中率の少なくとも2倍の増加を実現する、請求項1~15のいずれか1項に記載の方法。
  17. 前記エラー修正モデル及び前記バリアントコーラーモデルの前記適用が、0.5%の検出限界(LOD)において少なくとも0.6の真のバリアント陽性的中率を実現する、請求項1~15のいずれか1項に記載の方法。
  18. 前記細胞に由来する前記複数の配列リードが単一細胞ワークフロー分析によって決定される、請求項1~17のいずれか1項に記載の方法。
  19. 前記参照塩基が参照ゲノム配列から決定される、請求項1~18のいずれか1項に記載の方法。
  20. 前記参照塩基が、対照細胞から取得された1つ以上の配列リードから決定される、請求項1~18のいずれか1項に記載の方法。
  21. 細胞集団の1つ以上のバリアントをコールするための非一時的コンピュータ可読媒体であって、前記非一時的コンピュータ可読媒体が命令を含み、前記命令が、プロセッサによって実行されるとき、前記プロセッサに、
    複数の配列リードを前記細胞集団の細胞から取得することと、
    前記細胞集団中の複数の細胞について、前記細胞から取得された配列リードを修正することであって、
    参照塩基とは異なる前記配列リードの関心対象の塩基を識別すること、
    前記関心対象の塩基の単一細胞の特徴を分析するためにエラー修正モデルを適用することであって、前記エラー修正モデルが、前記関心対象の塩基の確率を予測するためにトレーニングされる、前記適用すること、及び
    前記細胞に由来する前記配列リードの前記関心対象の塩基を修正すること
    を含む、前記修正することと、
    前記細胞集団の細胞全体にわたって修正された配列リードを集約することによって細胞集団の特徴を生成することであって、前記修正された配列リードが、修正された塩基を含む、前記生成することと、
    前記細胞集団全体にわたって1つ以上のバリアントを識別するために、バリアントコーラーモデルを、前記集約された配列リードに由来する前記細胞集団の特徴に適用することと
    を行わせる、前記非一時的コンピュータ可読媒体。
  22. 前記単一細胞の特徴が、前記関心対象の塩基の周りのコンテクスト配列、前記関心対象の塩基の配列決定深度、前記関心対象の塩基のアレル頻度、及び前記関心対象の塩基の周りのウィンドウ内の塩基のアレル頻度を含む、請求項21に記載の非一時的コンピュータ可読媒体。
  23. 前記プロセッサに前記配列リードの関心対象の塩基を識別させる前記命令が、前記プロセッサによって実行されるとき、前記プロセッサに、参照塩基とミスマッチ塩基との間の遷移の尤度を含む遷移マトリクスを適用させる命令をさらに含む、請求項21または22に記載の非一時的コンピュータ可読媒体。
  24. 前記プロセッサに前記配列リードの関心対象の塩基を識別させる前記命令が、前記プロセッサによって実行されるとき、前記プロセッサに、
    ミスマッチ塩基について前記配列リード全体にわたってヌクレオチド塩基の割合を観察する確率を算出することと、
    前記算出された確率を前記遷移マトリクスからの遷移の尤度と比較することと
    を行わせる命令をさらに含む、請求項23に記載の非一時的コンピュータ可読媒体。
  25. 前記算出された確率が前記遷移の尤度よりも大きいことに応答して、前記ミスマッチ塩基を関心対象の塩基として識別する、請求項24に記載の非一時的コンピュータ可読媒体。
  26. 1つ以上のサンプル細胞集団に由来する配列リードを含むトレーニングデータを使用して、前記遷移マトリクスが生成される、請求項23~25のいずれか1項に記載の非一時的コンピュータ可読媒体。
  27. 前記細胞集団の細胞からの前記複数の配列リードを使用して、前記遷移マトリクスが生成される、請求項23~25のいずれか1項に記載の非一時的コンピュータ可読媒体。
  28. 前記細胞集団の前記1つ以上の細胞の配列リードが修正されるとき、前記遷移マトリクスの前記遷移の尤度が動的に更新される、請求項23~25のいずれか1項に記載の非一時的コンピュータ可読媒体。
  29. 前記エラー修正モデルがニューラルネットワークである、請求項21~28のいずれか1項に記載の非一時的コンピュータ可読媒体。
  30. 前記エラー修正モデルが、関心対象の塩基の周りのモチーフ及び局所的配列コンテクストを学習する1つ以上の層を含む深層学習ニューラルネットワークである、請求項21~29のいずれか1項に記載の非一時的コンピュータ可読媒体。
  31. 前記細胞結果に由来する前記複数の配列リードの1つ以上の配列リードを修正することが、参照塩基とは異なる関心対象の塩基の少なくとも25%を修正することを含む、請求項21~30のいずれか1項に記載の非一時的コンピュータ可読媒体。
  32. 前記細胞集団の特徴が、ヘテロ接合コールのパーセンテージ、ヘテロ接合コールのバリアントアレル頻度(VAF)の中央値、ヘテロ接合コールの遺伝子型品質の中央値、ヘテロ接合コールの読み取り深度の中央値、ホモ接合コールのパーセンテージ、ホモ接合コールのVAFの中央値、ホモ接合コールの遺伝子型品質の中央値、ホモ接合コールの読み取り深度の中央値、参照コールのパーセンテージ、ホモ接合コールの読み取り深度の変動係数(CV)、ヘテロ接合コールの読み取り深度のCV、ホモ接合コールの遺伝子型品質のCV、ヘテロ接合コールの遺伝子型品質のCV、ホモ接合コールのVAFのCV、ヘテロ接合コールのVAFのCV、ホモ接合コールのVAFの平均値と中央値との差、ヘテロ接合コールのVAFの平均値と中央値との差、及び単位複製配列GCのパーセンテージの1つ以上を含む、請求項21~31のいずれか1項に記載の非一時的コンピュータ可読媒体。
  33. 前記バリアントコーラーモデルが、関心対象のヘテロ接合バリアントまたは関心対象のホモ接合バリアントの少なくとも1つを予測する、請求項21~32のいずれか1項に記載の非一時的コンピュータ可読媒体。
  34. 前記バリアントコーラーモデルが、不確定バリアントをさらに予測する、請求項33に記載の非一時的コンピュータ可読媒体。
  35. 前記バリアントコーラーモデルが、1つ以上の細胞株に由来する配列リードと、前記1つ以上の細胞株に存在する既知のヘテロ接合バリアントまたはホモ接合バリアントの指標とを含むトレーニングデータを使用してトレーニングされる、請求項21~34のいずれか1項に記載の非一時的コンピュータ可読媒体。
  36. 前記エラー修正モデル及び前記バリアントコーラーモデルの前記適用が、従来のGTAKバリアントコーラーと比較して、0.5%の検出限界(LOD)において真のバリアント陽性的中率の少なくとも2倍の増加を実現する、請求項21~35のいずれか1項に記載の非一時的コンピュータ可読媒体。
  37. 前記エラー修正モデル及び前記バリアントコーラーモデルの前記適用が、0.5%の検出限界(LOD)において少なくとも0.6の真のバリアント陽性的中率を実現する、請求項21~35のいずれか1項に記載の非一時的コンピュータ可読媒体。
  38. 前記細胞に由来する前記複数の配列リードが単一細胞ワークフロー分析によって決定される、請求項21~37のいずれか1項に記載の非一時的コンピュータ可読媒体。
  39. 前記参照塩基が参照ゲノム配列から決定される、請求項21~38のいずれか1項に記載の非一時的コンピュータ可読媒体。
  40. 前記参照塩基が、対照細胞から取得された1つ以上の配列リードから決定される、請求項21~38のいずれか1項に記載の非一時的コンピュータ可読媒体。
  41. 以下を備えるシステム:
    細胞集団の細胞の複数の配列リードを生成するように構成される単一細胞分析ワークフローデバイス;
    前記単一細胞分析ワークフローデバイスに通信可能に連結された計算デバイスであって、
    複数の配列リードを前記細胞集団の細胞から取得することと、
    前記細胞集団中の複数の細胞について、前記細胞から取得された配列リードを修正することであって、
    参照塩基とは異なる前記配列リードの関心対象の塩基を識別すること、
    前記関心対象の塩基の単一細胞の特徴を分析するためにエラー修正モデルを適用することであって、前記エラー修正モデルが、前記関心対象の塩基の確率を予測するためにトレーニングされる、前記適用すること、及び
    前記細胞に由来する前記配列リードの前記関心対象の塩基を修正すること
    を含む、前記修正することと、
    前記細胞集団の細胞全体にわたって修正された配列リードを集約することによって細胞集団の特徴を生成することであって、前記修正された配列リードが、修正された塩基を含む、前記生成することと、
    前記細胞集団全体にわたって1つ以上のバリアントを識別するために、バリアントコーラーモデルを、前記集約された配列リードに由来する前記細胞集団の特徴に適用することと
    を行うように構成される、前記計算デバイス。
  42. 前記単一細胞の特徴が、前記関心対象の塩基の周りのコンテクスト配列、前記関心対象の塩基の配列決定深度、前記関心対象の塩基のアレル頻度、及び前記関心対象の塩基の周りのウィンドウ内の塩基のアレル頻度を含む、請求項41に記載のシステム。
  43. 前記配列リードの関心対象の塩基を識別することが、参照塩基とミスマッチ塩基との間の遷移の尤度を含む遷移マトリクスを、ミスマッチ塩基について前記配列リード全体にわたってヌクレオチド塩基の割合を観察する確率に適用することを含む、請求項41または42に記載のシステム。
  44. 前記配列リードの関心対象の塩基を識別することが、
    前記ミスマッチ塩基について前記配列リード全体にわたってヌクレオチド塩基の割合を観察する前記確率を算出することと、
    前記算出された確率を前記遷移マトリクスからの遷移の尤度と比較することと
    を含む、請求項43に記載のシステム。
  45. 前記算出された確率が前記遷移の尤度よりも大きいことに応答して、前記ミスマッチ塩基を関心対象の塩基として識別する、請求項44に記載のシステム。
  46. 1つ以上のサンプル細胞集団に由来する配列リードを含むトレーニングデータを使用して、前記遷移マトリクスが生成される、請求項45に記載のシステム。
  47. 前記細胞集団の細胞からの前記複数の配列リードを使用して、前記遷移マトリクスが生成される、請求項45に記載のシステム。
  48. 前記細胞集団の前記1つ以上の細胞の配列リードが修正されるとき、前記遷移マトリクスの前記遷移の尤度が動的に更新される、請求項45に記載のシステム。
  49. 前記エラー修正モデルがニューラルネットワークである、請求項41~48のいずれか1項に記載のシステム。
  50. 前記エラー修正モデルが、関心対象の塩基の周りのモチーフ及び局所的配列コンテクストを学習する1つ以上の層を含む深層学習ニューラルネットワークである、請求項41~49のいずれか1項に記載のシステム。
  51. 前記細胞結果に由来する前記複数の配列リードの1つ以上の配列リードを修正することが、参照塩基とは異なる関心対象の塩基の少なくとも25%を修正することを含む、請求項41~50のいずれか1項に記載のシステム。
  52. 前記細胞集団の特徴が、ヘテロ接合コールのパーセンテージ、ヘテロ接合コールのバリアントアレル頻度(VAF)の中央値、ヘテロ接合コールの遺伝子型品質の中央値、ヘテロ接合コールの読み取り深度の中央値、ホモ接合コールのパーセンテージ、ホモ接合コールのVAFの中央値、ホモ接合コールの遺伝子型品質の中央値、ホモ接合コールの読み取り深度の中央値、参照コールのパーセンテージ、ホモ接合コールの読み取り深度の変動係数(CV)、ヘテロ接合コールの読み取り深度のCV、ホモ接合コールの遺伝子型品質のCV、ヘテロ接合コールの遺伝子型品質のCV、ホモ接合コールのVAFのCV、ヘテロ接合コールのVAFのCV、ホモ接合コールのVAFの平均値と中央値との差、ヘテロ接合コールのVAFの平均値と中央値との差、及び単位複製配列GCのパーセンテージの1つ以上を含む、請求項41~51のいずれか1項に記載のシステム。
  53. 前記バリアントコーラーモデルが、関心対象のヘテロ接合バリアントまたは関心対象のホモ接合バリアントの少なくとも1つを予測する、請求項41~52のいずれか1項に記載のシステム。
  54. 前記バリアントコーラーモデルが、不確定バリアントをさらに予測する、請求項53に記載のシステム。
  55. 前記バリアントコーラーモデルが、1つ以上の細胞株に由来する配列リードと、前記1つ以上の細胞株に存在する既知のヘテロ接合バリアントまたはホモ接合バリアントの指標とを含むトレーニングデータを使用してトレーニングされる、請求項41~54のいずれか1項に記載のシステム。
  56. 前記エラー修正モデル及び前記バリアントコーラーモデルの前記適用が、従来のGTAKバリアントコーラーと比較して、0.5%の検出限界(LOD)において真のバリアント陽性的中率の少なくとも2倍の増加を実現する、請求項41~55のいずれか1項に記載のシステム。
  57. 前記エラー修正モデル及び前記バリアントコーラーモデルの前記適用が、0.5%の検出限界(LOD)において少なくとも0.6の真のバリアント陽性的中率を実現する、請求項41~55のいずれか1項に記載のシステム。
  58. 前記参照塩基が参照ゲノム配列から決定される、請求項41~57のいずれか1項に記載のシステム。
  59. 前記参照塩基が、対照細胞から取得された1つ以上の配列リードから決定される、請求項41~57のいずれか1項に記載のシステム。
JP2022520391A 2019-10-02 2020-10-02 単一細胞分析を使用して改善されたバリアントコーラー Pending JP2022550841A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962909670P 2019-10-02 2019-10-02
US62/909,670 2019-10-02
PCT/US2020/053971 WO2021067721A1 (en) 2019-10-02 2020-10-02 Improved variant caller using single-cell analysis

Publications (2)

Publication Number Publication Date
JP2022550841A true JP2022550841A (ja) 2022-12-05
JPWO2021067721A5 JPWO2021067721A5 (ja) 2023-10-02

Family

ID=75336484

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022520391A Pending JP2022550841A (ja) 2019-10-02 2020-10-02 単一細胞分析を使用して改善されたバリアントコーラー

Country Status (7)

Country Link
US (1) US20220351804A1 (ja)
EP (1) EP4042429A4 (ja)
JP (1) JP2022550841A (ja)
CN (1) CN114766056A (ja)
AU (1) AU2020358083A1 (ja)
CA (1) CA3153208A1 (ja)
WO (1) WO2021067721A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023196928A2 (en) * 2022-04-06 2023-10-12 Mission Bio, Inc. True variant identification via multianalyte and multisample correlation
WO2024091545A1 (en) * 2022-10-25 2024-05-02 Cornell University Nucleic acid error suppression
CN117523559B (zh) * 2024-01-08 2024-03-29 深圳赛陆医疗科技有限公司 碱基识别方法及装置、基因测序仪及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130110407A1 (en) * 2011-09-16 2013-05-02 Complete Genomics, Inc. Determining variants in genome of a heterogeneous sample
US20150073724A1 (en) * 2013-07-29 2015-03-12 Agilent Technologies, Inc Method for finding variants from targeted sequencing panels
US10354747B1 (en) * 2016-05-06 2019-07-16 Verily Life Sciences Llc Deep learning analysis pipeline for next generation sequencing
US11929145B2 (en) * 2017-01-20 2024-03-12 Sequenom, Inc Methods for non-invasive assessment of genetic alterations

Also Published As

Publication number Publication date
US20220351804A1 (en) 2022-11-03
EP4042429A1 (en) 2022-08-17
CA3153208A1 (en) 2021-04-08
WO2021067721A1 (en) 2021-04-08
AU2020358083A1 (en) 2022-05-26
CN114766056A (zh) 2022-07-19
EP4042429A4 (en) 2023-10-25

Similar Documents

Publication Publication Date Title
EP3735470B1 (en) Quality control templates for ensuring validity of sequencing-based assays
EP2633470B1 (en) Predictive model for use in sequencing-by-synthesis
JP2022550841A (ja) 単一細胞分析を使用して改善されたバリアントコーラー
CN111566225A (zh) 归一化肿瘤突变负荷
CA3080170A1 (en) Models for targeted sequencing
AU2016355983A1 (en) Methods for detecting copy-number variations in next-generation sequencing
WO2023196928A2 (en) True variant identification via multianalyte and multisample correlation
JP2023060046A (ja) 脱アミノ化に誘導される配列エラーの補正
WO2019071219A1 (en) SPECIFIC SITE NOISE MODEL FOR TARGETED SEQUENCING
US20210151126A1 (en) Methods for fingerprinting of biological samples
US11952622B2 (en) Analysis of DNA-containing samples and resolution of mixed contributor DNA samples
US11001880B2 (en) Development of SNP islands and application of SNP islands in genomic analysis
Lu et al. 3rd-ChimeraMiner: A pipeline for integrated analysis of whole genome amplification generated chimeric sequences using long-read sequencing
US20220068433A1 (en) Computational detection of copy number variation at a locus in the absence of direct measurement of the locus
US20240055073A1 (en) Sample contamination detection of contaminated fragments with cpg-snp contamination markers
US20230340571A1 (en) Machine-learning models for selecting oligonucleotide probes for array technologies
WO2022109330A1 (en) Cellular clustering analysis in sequencing datasets
Zhang et al. Improving the RNA velocity approach using long-read single cell sequencing
Dueck et al. Assessing the measurement transfer function of single-cell RNA sequencing
Antanaviciute Novel Algorithm Development for ‘NextGeneration’Sequencing Data Analysis
Ferro et al. Single-cell sequencing: a new frontier for personalized medicine

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220613

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20230706

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230920

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230920