JP2022550841A

JP2022550841A - 単一細胞分析を使用して改善されたバリアントコーラー

Info

Publication number: JP2022550841A
Application number: JP2022520391A
Authority: JP
Inventors: マニモジマニヴァナン; ドンミョンヒキム; ソンビートサフ; サウラブグラティ; シュワン
Original assignee: ミッションバイオインコーポレイテッド
Priority date: 2019-10-02
Filing date: 2020-10-02
Publication date: 2022-12-05
Also published as: US20220351804A1; EP4042429A1; CA3153208A1; WO2021067721A1; AU2020358083A1; CN114766056A; EP4042429A4

Abstract

２段階プロセスを含む改善されたバリアントコーリング法が本明細書に説明され、２段階プロセスは、１）細胞特異的プロセスを通じての配列リードの塩基のエラー修正と、２）エラー修正された配列リードを使用する細胞集団全体にわたるバリアントコーリングとを含む。概して、エラー修正の第１のステップは、第１の機械学習済みモデルを適用して、配列リードの塩基を識別及び修正することを含む。バリアントコーリングの第２のステップは、第２の機械学習済みモデルを適用して、塩基を分類することを含む。そのような改善されたバリアントコーリング法は、病的な生物学的プロセス等の生物学的プロセスに関係するバリアントを識別するのに役立つ可能性がある。【選択図】図１

Description

関連出願の相互参照
本願は、２０１９年１０月２日に出願された米国仮特許出願第６２／９０９，６７０号の利益及び優先権を主張し、その開示全体は、あらゆる目的のために全体として本明細書によって参照により組み込まれている。

背景
多くの場合、配列決定技術により、ＰＣＲに起因するエラーと、０．５％～２％の範囲にわたる配列決定エラーと、が問題になる配列リードが生成されることがある。多くの場合、細胞集団のバリアントをコールすることを目的とするバリアントコーラーは、バリアントコーラーの精度に悪影響をもたらすこれらのエラーの結果として、偽陽性を識別することがある。偽陽性を軽減するための従来の戦略では、多くの場合、ハードカットオフを使用する。しかしながら、これらのハードカットオフを実装すると、かなりの数の真陽性がなくなり、多くの場合、その問題は、欠測データの問題と呼ばれることがある。したがって、真陽性を犠牲にすることなく、偽陽性を良好に識別できるバリアントコーラーの改善が必要である。

概要
２段階プロセスを通じて改善されたバリアントコーリング法の実施形態が本明細書に説明され、２段階プロセスは、１）細胞特異的プロセスを通じて配列リードの塩基のエラー修正と、２）エラー修正された配列リードを使用して細胞集団全体にわたるバリアントコーリングとを含む。塩基のエラーは、多くの場合、ＰＣＲエラー、配列決定エラー、配列決定アライメントエラー、または修正エラーのいずれかから発生することがある。ここでは、２段階プロセスにより誤った塩基の識別及び修正が可能になることによって、より正確なバリアントコールが可能になる。様々な実施形態では、塩基のエラー修正は、誤った塩基を修正するために使用される、第１のトレーニングされた機械学習モデル（以下、エラー修正モデルと呼ばれる）の実施を含む。したがって、エラー修正モデルは、個々の細胞からの配列リードの修正を可能にする。細胞特異的方式により塩基のエラー修正を行うことは、バルク配列決定に由来する配列リードを修正することと比較して有利である。例えば、塩基エラーは単一細胞からの配列リードで発生する可能性があるため、これらの塩基エラーは単一細胞に対して一緒に修正できる。様々な実施形態では、細胞集団全体にわたるバリアントコーリングは、第２のトレーニングされた機械学習モデル（以下、バリアントコーラーモデルと呼ばれる）の実施を含む。バリアントコーラーモデルは、修正された配列リードを分析し、細胞集団内に存在する真のバリアントである可能性がより高いバリアントをコールする。同時に、エラー修正モデル及びバリアントコーラーモデルの実施を含む２段階プロセスにより、真のバリアントをコールする際により高精度が実現する。これは、がん等の疾患に関係し得る真のバリアントを識別するのに役立つ可能性がある。

細胞集団の１つ以上のバリアントをコールするための方法が本明細書に開示され、本方法は、複数の配列リードを細胞集団の細胞から取得することと、細胞集団中の複数の細胞について、細胞から取得された配列リードを修正することであって、参照塩基とは異なる配列リードの関心対象の塩基を識別すること、関心対象の塩基の単一細胞の特徴を分析するためにエラー修正モデルを適用することであって、エラー修正モデルが、関心対象の塩基の確率を予測するためにトレーニングされる、適用すること、及び細胞に由来する配列リードの関心対象の塩基を修正すること、を含む、修正することと、細胞集団の細胞全体にわたって修正された配列リードを集約することによって細胞集団の特徴を生成することであって、修正された配列リードが、修正された塩基を含む、生成することと、細胞集団全体にわたって１つ以上のバリアントを識別するために、バリアントコーラーモデルを、集約された配列リードに由来する細胞集団の特徴に適用することと、を含む。

様々な実施形態では、単一細胞の特徴は、関心対象の塩基の周りのコンテクスト配列、関心対象の塩基の配列決定深度、関心対象の塩基のアレル頻度、及び関心対象の塩基の周りのウィンドウ内の塩基のアレル頻度を含む。様々な実施形態では、配列リードの関心対象の塩基を識別することは、参照塩基とミスマッチ塩基との間の遷移の尤度を含む遷移マトリクスを、ミスマッチ塩基について配列リード全体にわたってヌクレオチド塩基の割合を観察する確率に適用することを含む。様々な実施形態では、配列リードの関心対象の塩基を識別することは、ミスマッチ塩基について配列リード全体にわたってヌクレオチド塩基の割合を観察する確率を算出することと、算出された確率を遷移マトリクスからの遷移の尤度と比較することと、をさらに含む。様々な実施形態では、算出された確率が遷移の尤度よりも大きいことに応答して、ミスマッチ塩基を関心対象の塩基として識別する。様々な実施形態では、１つ以上のサンプル細胞集団に由来する配列リードを含むトレーニングデータを使用して、遷移マトリクスを生成する。様々な実施形態では、細胞集団の細胞からの複数の配列リードを使用して、遷移マトリクスを生成する。様々な実施形態では、細胞集団の１つ以上の細胞の配列リードが修正されるとき、遷移マトリクスの遷移の尤度は動的に更新される。

様々な実施形態では、エラー修正モデルはニューラルネットワークである。様々な実施形態では、エラー修正モデルは、関心対象の塩基の周りのモチーフ及び局所的配列コンテクストを学習する１つ以上の層を含む深層学習ニューラルネットワークである。様々な実施形態では、細胞結果に由来する複数の配列リードの１つ以上の配列リードを修正することは、参照塩基とは異なる関心対象の塩基の少なくとも２５％を修正することを含む。

様々な実施形態では、細胞集団の特徴は、ヘテロ接合コールのパーセンテージ、ヘテロ接合コールのバリアントアレル頻度（ＶＡＦ）の中央値、ヘテロ接合コールの遺伝子型品質の中央値、ヘテロ接合コールの読み取り深度の中央値、ホモ接合コールのパーセンテージ、ホモ接合コールのＶＡＦの中央値、ホモ接合コールの遺伝子型品質の中央値、ホモ接合コールの読み取り深度の中央値、参照コールのパーセンテージ、ホモ接合コールの読み取り深度の変動係数（ＣＶ）、ヘテロ接合コールの読み取り深度のＣＶ、ホモ接合コールの遺伝子型品質のＣＶ、ヘテロ接合コールの遺伝子型品質のＣＶ、ホモ接合コールのＶＡＦのＣＶ、ヘテロ接合コールのＶＡＦのＣＶ、ホモ接合コールのＶＡＦの平均値と中央値との差、ヘテロ接合コールのＶＡＦの平均値と中央値との差、及び単位複製配列ＧＣのパーセンテージの１つ以上を含む。

様々な実施形態では、バリアントコーラーモデルは、関心対象のヘテロ接合バリアントまたは関心対象のホモ接合バリアントの少なくとも１つを予測する。様々な実施形態では、バリアントコーラーモデルは、不確定バリアントをさらに予測する。様々な実施形態では、バリアントコーラーモデルは、１つ以上の細胞株に由来する配列リードと、１つ以上の細胞株に存在する既知のヘテロ接合バリアントまたはホモ接合バリアントの指標とを含むトレーニングデータを使用してトレーニングされる。様々な実施形態では、エラー修正モデル及びバリアントコーラーモデルの適用は、従来のＧＴＡＫバリアントコーラーと比較して、０．５％の検出限界（ＬＯＤ）において真のバリアント陽性的中率の少なくとも２倍の増加を実現する。様々な実施形態では、エラー修正モデル及びバリアントコーラーモデルの適用は、０．５％の検出限界（ＬＯＤ）において少なくとも０．６の真のバリアント陽性的中率を実現する。様々な実施形態では、細胞に由来する複数の配列リードは、単一細胞ワークフロー分析によって決定される。様々な実施形態では、参照塩基は参照ゲノム配列から決定される。様々な実施形態では、参照塩基は、対照細胞から取得された１つ以上の配列リードから決定される。

さらに、細胞集団の１つ以上のバリアントをコールするための非一時的コンピュータ可読媒体が本明細書に開示され、非一時的コンピュータ可読媒体は命令を含み、命令は、プロセッサによって実行されるとき、プロセッサに、複数の配列リードを細胞集団の細胞から取得することと、細胞集団中の複数の細胞について、細胞から取得された配列リードを修正することであって、参照塩基とは異なる配列リードの関心対象の塩基を識別すること、関心対象の塩基の単一細胞の特徴を分析するためにエラー修正モデルを適用することであって、エラー修正モデルが、関心対象の塩基の確率を予測するためにトレーニングされる、適用すること、及び細胞に由来する配列リードの関心対象の塩基を修正すること、を含む、修正することと、細胞集団の細胞全体にわたって修正された配列リードを集約することによって細胞集団の特徴を生成することであって、修正された配列リードが、修正された塩基を含む、生成することと、細胞集団全体にわたって１つ以上のバリアントを識別するために、バリアントコーラーモデルを、集約された配列リードに由来する細胞集団の特徴に適用することと、を行わせる。

様々な実施形態では、単一細胞の特徴は、関心対象の塩基の周りのコンテクスト配列、関心対象の塩基の配列決定深度、関心対象の塩基のアレル頻度、及び関心対象の塩基の周りのウィンドウ内の塩基のアレル頻度を含む。様々な実施形態では、プロセッサに配列リードの関心対象の塩基を識別させる命令は、プロセッサによって実行されるとき、プロセッサに、参照塩基とミスマッチ塩基との間の遷移の尤度を含む遷移マトリクスを適用させる命令をさらに含む。

様々な実施形態では、プロセッサに配列リードの関心対象の塩基を識別させる命令は、プロセッサによって実行されるとき、プロセッサに、ミスマッチ塩基について配列リード全体にわたってヌクレオチド塩基の割合を観察する確率を算出することと、算出された確率を遷移マトリクスからの遷移の尤度と比較することと、を行わせる命令をさらに含む。様々な実施形態では、算出された確率が遷移の尤度よりも大きいことに応答して、ミスマッチ塩基を関心対象の塩基として識別する。様々な実施形態では、１つ以上のサンプル細胞集団に由来する配列リードを含むトレーニングデータを使用して、遷移マトリクスを生成する。様々な実施形態では、細胞集団の細胞からの複数の配列リードを使用して、遷移マトリクスを生成する。様々な実施形態では、細胞集団の１つ以上の細胞の配列リードが修正されるとき、遷移マトリクスの遷移の尤度は動的に更新される。

様々な実施形態では、エラー修正モデルはニューラルネットワークである。様々な実施形態では、エラー修正モデルは、関心対象の塩基の周りのモチーフ及び局所的配列コンテクストを学習する１つ以上の層を含む深層学習ニューラルネットワークである。様々な実施形態では、細胞結果に由来する複数の配列リードの１つ以上の配列リードを修正することは、参照塩基とは異なる関心対象の塩基の少なくとも２５％を修正することを含む。様々な実施形態では、細胞集団の特徴は、ヘテロ接合コールのパーセンテージ、ヘテロ接合コールのバリアントアレル頻度（ＶＡＦ）の中央値、ヘテロ接合コールの遺伝子型品質の中央値、ヘテロ接合コールの読み取り深度の中央値、ホモ接合コールのパーセンテージ、ホモ接合コールのＶＡＦの中央値、ホモ接合コールの遺伝子型品質の中央値、ホモ接合コールの読み取り深度の中央値、参照コールのパーセンテージ、ホモ接合コールの読み取り深度の変動係数（ＣＶ）、ヘテロ接合コールの読み取り深度のＣＶ、ホモ接合コールの遺伝子型品質のＣＶ、ヘテロ接合コールの遺伝子型品質のＣＶ、ホモ接合コールのＶＡＦのＣＶ、ヘテロ接合コールのＶＡＦのＣＶ、ホモ接合コールのＶＡＦの平均値と中央値との差、ヘテロ接合コールのＶＡＦの平均値と中央値との差、及び単位複製配列ＧＣのパーセンテージの１つ以上を含む。

さらに、本明細書に開示されるのは、以下を備えるシステムである：細胞集団の細胞の複数の配列リードを生成するように構成される単一細胞分析ワークフローデバイス；単一細胞分析ワークフローデバイスに通信可能に連結された計算デバイスであって、複数の配列リードを細胞集団の細胞から取得することと、細胞集団中の複数の細胞について、細胞から取得された配列リードを修正することであって、参照塩基とは異なる配列リードの関心対象の塩基を識別すること、関心対象の塩基の単一細胞の特徴を分析するためにエラー修正モデルを適用することであって、エラー修正モデルが、関心対象の塩基の確率を予測するためにトレーニングされる、適用すること、及び細胞に由来する配列リードの関心対象の塩基を修正すること、を含む、修正することと、細胞集団の細胞全体にわたって修正された配列リードを集約することによって細胞集団の特徴を生成することであって、修正された配列リードが、修正された塩基を含む、生成することと、細胞集団全体にわたって１つ以上のバリアントを識別するために、バリアントコーラーモデルを、集約された配列リードに由来する細胞集団の特徴に適用することと、を行うように構成される、計算デバイス。様々な実施形態では、単一細胞の特徴は、関心対象の塩基の周りのコンテクスト配列、関心対象の塩基の配列決定深度、関心対象の塩基のアレル頻度、及び関心対象の塩基の周りのウィンドウ内の塩基のアレル頻度を含む。

様々な実施形態では、配列リードの関心対象の塩基を識別することは、参照塩基とミスマッチ塩基との間の遷移の尤度を含む遷移マトリクスを、ミスマッチ塩基について配列リード全体にわたってヌクレオチド塩基の割合を観察する確率に適用することを含む。様々な実施形態では、配列リードの関心対象の塩基を識別することは、ミスマッチ塩基について配列リード全体にわたってヌクレオチド塩基の割合を観察する確率を算出することと、算出された確率を遷移マトリクスからの遷移の尤度と比較することと、を含む。様々な実施形態では、算出された確率が遷移の尤度よりも大きいことに応答して、ミスマッチ塩基を関心対象の塩基として識別する。様々な実施形態では、１つ以上のサンプル細胞集団に由来する配列リードを含むトレーニングデータを使用して、遷移マトリクスを生成する。様々な実施形態では、細胞集団の細胞からの複数の配列リードを使用して、遷移マトリクスを生成する。様々な実施形態では、細胞集団の１つ以上の細胞の配列リードが修正されるとき、遷移マトリクスの遷移の尤度は動的に更新される。

様々な実施形態では、バリアントコーラーモデルは、関心対象のヘテロ接合バリアントまたは関心対象のホモ接合バリアントの少なくとも１つを予測する。様々な実施形態では、バリアントコーラーモデルは、不確定バリアントをさらに予測する。様々な実施形態では、バリアントコーラーモデルは、１つ以上の細胞株に由来する配列リードと、１つ以上の細胞株に存在する既知のヘテロ接合バリアントまたはホモ接合バリアントの指標とを含むトレーニングデータを使用してトレーニングされる。

様々な実施形態では、エラー修正モデル及びバリアントコーラーモデルの適用は、従来のＧＴＡＫバリアントコーラーと比較して、０．５％の検出限界（ＬＯＤ）において真のバリアント陽性的中率の少なくとも２倍の増加を実現する。様々な実施形態では、エラー修正モデル及びバリアントコーラーモデルの適用は、０．５％の検出限界（ＬＯＤ）において少なくとも０．６の真のバリアント陽性的中率を実現する。様々な実施形態では、参照塩基は参照ゲノム配列から決定される。様々な実施形態では、参照塩基は、対照細胞から取得された１つ以上の配列リードから決定される。

本発明のこれらの及び他の特徴、態様、及び利点は、以下の説明及び添付の図面に関してより深く理解されるであろう。

ある実施形態による、細胞分析ワークフローデバイス及びバリアントコールを識別するための塩基コーラーデバイスを含む全体的なシステム環境を示す。ある実施形態による、塩基コーラーデバイスの別個のモジュールのブロック図である。ある実施形態による、単一細胞に由来する配列リードを修正するためのフロー図である。ある実施形態による、修正された配列リードを使用して、細胞集団のバリアントをコールするためのフロー図を示す。ある実施形態による、エラー修正モデルの実施態様を示す。ある実施形態による、バリアントコーラーモデルの実施態様を示す。図１～図４を参照して説明されるシステム及び方法を実施するための例示的なコンピューティングデバイスを示す。塩基エラーの大部分が１つの細胞だけに観察される、塩基エラーの分布の例を示す。遷移マトリクスの例証である。図８Ａ及び図８Ｂは、異なる位置にわたる６つの配列リードのパイルアップの例証である。図８Ａ及び図８Ｂは、異なる位置にわたる６つの配列リードのパイルアップの例証である。エラー修正モデルの入力及び出力の例を示す。エラー修正モデルによって予測された確率を使用して関心対象の塩基を修正する例を示す。エラー修正モデルを実施した結果として、４つの異なる細胞集団にわたる２０～３５％の塩基の修正を示す。エラー修正モデル及びバリアントコーラーモデルの実施後の真のバリアントの改善された陽性的中率を示す。

詳細な説明
定義
特許請求の範囲及び明細書で使用される用語は、特に明記しない限り、下記に記載するように定義される。

「ミスマッチ塩基」及び「代替塩基」という語句は言い換え可能に使用され、同じ位置にある既知の参照塩基とは異なる位置にある塩基を指す。いくつかのシナリオでは、ミスマッチ塩基が誤って識別される（例えば、配列決定中に誤って識別される）。塩基の誤った識別は、ＰＣＲエラー、配列決定エラー、配列決定アライメントエラー、及び／または修正エラー等の様々な原因から発生する可能性がある。例を提供するために、参照位置の既知の塩基はアデニン（Ａ）であり得る。ミスマッチ塩基または代替塩基は、同じ位置にあるアデニン（Ａ）以外の塩基を指す（例えば、塩基はグアニン（Ｇ）、シトシン（Ｃ）、またはチミン（Ｔ）のいずれか１つである）。

「参照塩基」という語句は、既知のヌクレオチド塩基を有する既知の塩基を指す。一実施形態では、参照塩基は参照ゲノム配列から決定される。一実施形態では、参照塩基は、対照細胞から取得された１つ以上の配列リードから決定される。

「エラー修正モデル」という語句は、関心対象の塩基を修正できるように、関心対象の塩基を分析するために実施される予測モデルまたは機械学習済みモデルを指す。概して、エラー修正モデルは、細胞特異的方式で関心対象の塩基を分析するために実施される。一実施形態では、エラー修正モデルは関心対象の塩基に生成されたパイルアップを分析し、パイルアップは単一細胞から派生する配列リードの塩基を定量化する。そのような実施形態では、関心対象の塩基を含む単一細胞からの配列リードは、一緒に修正できる。

「関心対象の塩基」という語句は、参照塩基と比較してミスマッチである細胞に由来する配列リード全体の塩基を指す。様々な実施形態では、関心対象の塩基は、遷移マトリクスを適用することによる誤った塩基である可能性が高い。概して、関心対象の塩基に生成されたパイルアップは、関心対象の塩基が誤った塩基である可能性が高いかどうかを判断するために、エラー修正モデルによって分析される。

「単一細胞の特徴」という語句は、単一細胞の配列リードにおける関心対象の塩基に関連する特徴を指す。様々な実施形態では、単一細胞の特徴は、４つのヌクレオチド塩基（アデニン、グアニン、シトシン、及びチミン）に対応する確率分布を求めるためにエラー修正モデルによって分析され、確率分布は、関心対象の塩基が４つのヌクレオチド塩基のうちの１つである尤度を表す。単一細胞の特徴の例は、関心対象の塩基の周りのコンテクスト配列、関心対象の塩基の配列決定深度、関心対象の塩基のアレル頻度、及び関心対象の塩基の周りのウィンドウ内の塩基のアレル頻度を含む。

「バリアントコーラーモデル」という語句は、細胞集団のバリアントをコールするために実施される予測モデルまたは機械学習済みモデルを指す。バリアントコーラーモデルは、細胞集団全体にわたって修正された配列リードに由来する細胞集団の特徴を分析し、配列リードはエラー修正を受ける（例えば、エラー修正モデルを使用して修正される）。一実施形態では、バリアントコーラーモデルは、入力として細胞集団の特徴を受信し、候補バリアントの分類を予測する。一実施形態では、バリアントコーラーモデルは、以前に修正された配列リードから細胞集団の特徴を抽出し、抽出された細胞集団の特徴に基づいて候補バリアントの分類を予測する。

「細胞集団の特徴」という語句は、細胞集団全体にわたって修正された配列リードに由来する候補バリアントに関連する特徴を指す。細胞集団の特徴は、細胞集団の真のバリアントを予測するために、バリアントコーラーモデルによって分析される。細胞集団の特徴の例は、ヘテロ接合コールのパーセンテージ、ヘテロ接合コールのバリアントアレル頻度（ＶＡＦ）の中央値、ヘテロ接合コールの遺伝子型品質の中央値、ヘテロ接合コールの読み取り深度の中央値、ホモ接合コールのパーセンテージ、ホモ接合コールのＶＡＦの中央値、ホモ接合コールの遺伝子型品質の中央値、ホモ接合コールの読み取り深度の中央値、参照コールのパーセンテージ、ホモ接合コールの読み取り深度の変動係数（ＣＶ）、ヘテロ接合コールの読み取り深度のＣＶ、ホモ接合コールの遺伝子型品質のＣＶ、ヘテロ接合コールの遺伝子型品質のＣＶ、ホモ接合コールのＶＡＦのＣＶ、ヘテロ接合コールのＶＡＦのＣＶ、ホモ接合コールのＶＡＦの平均値と中央値との差、ヘテロ接合コールのＶＡＦの平均値と中央値との差、及び単位複製配列ＧＣのパーセンテージを含む。

「候補バリアント」という語句は、参照塩基と比較してミスマッチである細胞集団の配列リード全体の塩基を指す。概して、バリアントコーラーモデルは、候補バリアントがホモ接合バリアントまたはヘテロ接合バリアント等の真のバリアントであるかどうかを判断するために実施される。

「真のバリアント」という語句は、細胞集団の１つ以上の細胞内に存在する遺伝的バリアントを指す。

概要
本明細書に説明される実施形態は、塩基の細胞特異的エラー修正を行い、さらに、エラー修正された配列リードを使用してバリアントの識別を行う、改善されたバリアントコーラーを指す。様々な実施形態では、細胞特異的エラー修正は、エラー修正モデルを実施することを含み、バリアントの識別は、バリアントコーラーモデルを実施することを含む。要するに、本明細書に説明されるバリアントコーラー法は、エラー修正モデル及び／またはバリアントコーラーモデルとは対照的に、ハードカットオフを使用する従来のバリアントコーラー法（例えば、ＧｅｎｏｍｅＡｎａｌｙｓｉｓＴｏｏｌｋｉｔ（ＧＡＴＫ））と比較して、細胞内に存在する真のバリアントをコールする際により高精度が実現する。ＧＡＴＫで使用されるハードフィルタに関するさらなる詳細は、ＤｅＳｕｍｍａ，Ｓ．，Ｍａｌｅｒｂａ，Ｇ．，Ｐｉｎｔｏ，Ｒ．ｅｔａｌ．「ＧＡＴＫｈａｒｄｆｉｌｔｅｒｉｎｇ：ｔｕｎａｂｌｅｐａｒａｍｅｔｅｒｓｔｏｉｍｐｒｏｖｅｖａｒｉａｎｔｃａｌｌｉｎｇｆｏｒｎｅｘｔｇｅｎｅｒａｔｉｏｎｓｅｑｕｅｎｃｉｎｇｔａｒｇｅｔｅｄｇｅｎｅｐａｎｅｌｄａｔａ」ＢＭＣＢｉｏｉｎｆｏｒｍａｔｉｃｓ１８，１１９（２０１７）に見つけられ、当該文献は、参照により全体として組み込まれている。

図１を参照すると、ある実施形態による、細胞分析ワークフローデバイス１２０及びバリアントコーリングのための塩基コーラーデバイス１３０を含む全体的なシステム環境１００を示す。細胞集団１１０が取得される。様々な実施形態では、細胞集団１１０は、被験者または患者から取得された試験サンプルから単離できる。様々な実施形態では、細胞集団１１０は、健常な被験者から採取した正常細胞を含む。様々な実施形態では、細胞集団１１０は、被験者から採取した異常細胞を含む。一実施形態では、細胞集団１１０は、以前にがんと診断された被験者から採取したがん細胞を含む。例えば、がん細胞は、がんと診断された被験者の血流中で得られる腫瘍細胞であり得る。別の例として、がん細胞は、腫瘍生検によって取得された細胞であり得る。

細胞分析ワークフローデバイス１２０は、細胞を処理して、配列決定するために核酸を生成するデバイスを指す。様々な実施形態では、細胞分析ワークフローデバイス１２０は、細胞を処理して、配列決定するために核酸を生成する１つ以上のデバイスを備えるシステムを指す。様々な実施形態では、細胞分析ワークフローデバイス１２０は核酸を単一細胞から生成するワークフローデバイスであり、それによって、配列リードの識別及び配列リードが起源である個々の細胞の後続の識別を可能にする。様々な実施形態では、細胞分析ワークフローデバイス１２０は、個々の細胞をエマルションにカプセル化し、エマルション中の細胞を溶解し、エマルションの細胞溶解物の細胞バーコーディングを行い、エマルションで核増幅反応を行うことによって単一細胞処理を行うことができる。したがって、増幅された核酸を収集し、配列決定できる。単一細胞ワークフロープロセスの例示的な実施形態のさらなる説明は、全体として本明細書によって参照により組み込まれている米国出願第１４／４２０，６４６号に説明されている。

特定の実施形態では、細胞分析ワークフローデバイス１２０は、Ｔａｐｅｓｔｒｉ（商標）プラットフォーム、ｉｎＤｒｏｐ（商標）システム、Ｎａｄｉａ（商標）機器、またはＣｈｒｏｍｉｕｍ（商標）機器のいずれかであり得る。様々な実施形態では、細胞分析ワークフローデバイス１２０は、配列リードを生成するために核酸を配列決定するためのシーケンサーを含む。

塩基コーラーデバイス１３０は、細胞分析ワークフローデバイス１２０からの配列リードを受信し、配列リードを処理して、１つ以上のバリアント１４０をコールするように構成される。様々な実施形態では、塩基コーラーデバイス１３０は細胞分析ワークフローデバイス１２０に通信可能に連結されるため、細胞分析ワークフローデバイス１２０からの配列リードを直接受信する。塩基コーラーデバイス１３０は、配列リードの関心対象の塩基をエラー修正し、次に、細胞集団１１０内の可能性が高いバリアントをコールする。特定の実施形態では、塩基コーラーデバイス１３０は、細胞特異的ワークフロープロセスを通じて配列リードの関心対象の塩基を修正し、修正された配列リードを使用して細胞集団全体にわたってバリアントを後でコールする。要するに、細胞特異的エラー修正及び細胞集団バリアントコーリングのこの２段階プロセスは、細胞集団１１０全体にわたって、より正確なバリアントコール１４０を可能にする。

塩基コーラーデバイス
図２は、図１に説明された実施形態による、塩基コーラーデバイス１３０のブロック図である。図２に示されるように、塩基コーラーデバイス１３０は、塩基識別モジュール２１０、塩基修正モジュール２２０、細胞集団モジュール２３０、塩基コーラーモジュール２４０、及びトレーニングモジュール２５０を含む。いくつかの実施形態では、塩基コーラーデバイス１３０のモジュールは、図２に示される実施形態とは異なって配置できる。例えば、トレーニングモジュール２５０（点線で示される）は、塩基コーラーデバイス１３０以外のデバイスによって実装でき、トレーニングモジュール２５０に関して下記に説明される方法は、他のデバイスによって行うことができる。

概して、塩基識別モジュール２１０は、個々の細胞に由来する配列リードを分析し、参照塩基と比較してミスマッチである１つ以上の関心対象の塩基を識別する。塩基識別モジュール２１０は、細胞毎に関心対象の塩基を識別する。例えば、塩基識別モジュール２１０は、第１の細胞からの配列リードを分析し、第１の細胞からの配列リードの関心対象の塩基を決定する。塩基識別モジュール２１０は、さらに、第２の細胞からの配列リードを分析し、第２の細胞からの配列リードの関心対象の塩基を決定する等を行う。異なる細胞からの配列リードは、バーコード技術を使用して互いに区別でき、その例は、全体として本明細書によって参照により組み込まれているＰＣＴ／ＵＳ２０１６／０１６４４４にさらに説明されている。さらに、細胞毎に、塩基識別モジュール２１０は、細胞の関心対象の塩基に対応する配列リードのパイルアップを生成し、関心対象の塩基のいずれかを修正するかどうかを決定するために、パイルアップを塩基修正モジュール２２０に提供する。

様々な実施形態では、塩基識別モジュール２１０は、参照ゲノムに整列された配列リードを取得する。例として、塩基識別モジュール２１０は、ＳＡＭ（配列アライメントマップ）ファイルフォーマットまたはＢＡＭ（バイナリアライメントマップ）ファイルフォーマット等の可読ファイルフォーマットで配列リードを取得できる。

整列された配列リードが与えられると、塩基識別モジュール２１０は、細胞に由来する配列リード全体にわたって１つ以上の関心対象の塩基を識別する。様々な実施形態では、塩基識別モジュール２１０は、各ミスマッチ塩基を分析し、ミスマッチ塩基が関心対象の塩基であるかどうかを判定する。

様々な実施形態では、関心対象の塩基を識別するために、塩基識別モジュール２１０は、細胞からの位置における配列リードの少なくとも閾値数が、その位置における参照塩基とは異なる特定のヌクレオチド塩基を有するかどうかを判定する際にフィルタを適用する。様々な実施形態では、その位置における配列リードの閾値数を超えるものが参照塩基とは異なるヌクレオチド塩基を有する場合、塩基識別モジュール２１０は塩基を後続の修正の関心対象の塩基として識別する。

様々な実施形態では、特定の位置における配列リードの閾値数は固定値である。様々な実施形態では、配列リードの閾値数は、１０００よりも大きい、２０００よりも大きい、３０００よりも大きい、４０００よりも大きい、５０００よりも大きい、６０００よりも大きい、７０００よりも大きい、８０００よりも大きい、９０００よりも大きい、１０，０００よりも大きい、２０，０００よりも大きい、３０，０００よりも大きい、４０，０００よりも大きい、５０，０００よりも大きい、７５，０００よりも大きい、１００，０００よりも大きい、１５０，０００よりも大きい、２００，０００よりも大きい、２５０，０００よりも大きい、または５００，０００の配列リードよりも大きい。様々な実施形態では、配列リードの閾値数は、細胞からの位置における配列リードの総数の５％よりも大きい、細胞からの位置における配列リードの総数の１０％よりも大きい、細胞からの位置における配列リードの総数の２０％よりも大きい、細胞からの位置における配列リードの総数の３０％よりも大きい、細胞からの位置における配列リードの総数の４０％よりも大きい、細胞からの位置における配列リードの総数の５０％よりも大きい、細胞からの位置における配列リードの総数の６０％よりも大きい、細胞からの位置における配列リードの総数の７０％よりも大きい、細胞からの位置における配列リードの総数の７５％よりも大きい、細胞からの位置における配列リードの総数の８０％よりも大きい、細胞からの位置における配列リードの総数の８５％よりも大きい、細胞からの位置における配列リードの総数の９０％よりも大きい、または細胞からの位置における配列リードの総数の９５％よりも大きい。

様々な実施形態では、塩基識別モジュール２１０は、遷移マトリクスを適用することによって、関心対象の塩基を識別する。そのような実施形態では、遷移マトリクスを適用することは、遷移マトリクスの確率を、配列リードのヌクレオチド塩基の割合を観察する尤度を反映する確率と比較することを含む。

最初に遷移マトリクスを参照すると、参照塩基のヌクレオチドと特定の位置における観察塩基のヌクレオチドとの間の遷移の頻度を表す確率が含まれる。概して、遷移マトリクスの遷移の頻度を表す確率により、塩基識別モジュール２１０は、エラー（ＰＣＲエラー、配列決定エラー等）が原因である可能性が高いミスマッチ塩基と、エラーが原因で発生しなかったミスマッチ塩基とを区別することが可能になる。

様々な実施形態では、遷移マトリクスは、所与の参照塩基（例えば、Ａ、Ｃ、Ｇ、またはＴ）について、参照塩基が配列リードにおいて異なる塩基として観察される確率を含む。様々な実施形態では、遷移マトリクスは、１２個の確率値（例えば、参照塩基からミスマッチ塩基への遷移を反映する３つの確率値）を含む。様々な実施形態では、遷移マトリクスは１６個の確率値を含む。これは、配列リードで観察塩基が参照塩基と一致する各参照塩基の確率を含む。遷移マトリクスの例は、図７を参照して下記に説明される。

図７は、遷移マトリクスの例証である。ここで、遷移マトリクスは、参照塩基（例えば、ｙ軸の「ＲＥＦ」）及び観察塩基（例えば、ｘ軸の「観察された塩基」）の呼称を含む。遷移マトリクスの各細胞は、参照塩基のヌクレオチドが観察塩基のヌクレオチドとして観察される確率を表す尤度値を含む。例えば、遷移マトリクスの１行目は、既知のアデニン参照塩基「Ａ」の場合、観察塩基が参照アデニン塩基と一致する確率が９９％であることを示す（１行目）。しかしながら、いくつかのシナリオでは、参照アデニン塩基が配列リードで異なって観察される。例えば、既知のアデニン参照塩基「Ａ」について、観察塩基が参照アデニン塩基とミスマッチである確率は、０．２６％（１行目の２列目は観察されたチミン塩基を示す）、０．６１％（１行目の３列目は観察されたグアニン塩基）、及び０．１３％（１行目の４列目は観察されたシトシン塩基を示す）である。

いくつかの実施形態では、遷移マトリクスは、１つ以上の以前のサンプルから以前に生成されたものである。以前のサンプルは、細胞集団の細胞を含み得る、または細胞集団の混合物の細胞を含み得る。そのような実施形態では、遷移マトリクスは、異なるサンプル全体に適用できる参照として機能する。したがって、遷移マトリクスを使用して、異なるサンプルの関心対象の塩基を識別できる。様々な実施形態では、塩基識別モジュール２１０は、バリアントコーリングプロセスを受けるサンプル毎に遷移マトリクスを生成する。したがって、そのような実施形態では、塩基識別モジュール２１０は、関心対象の塩基を識別するとき、サンプル毎に異なる遷移マトリクスを適用する。これは、いくつかのシナリオでは、サンプルに依存してエラーが発生する可能性があるため、望ましくあり得る。

様々な実施形態では、塩基識別モジュール２１０は、少なくとも部分的に、塩基識別モジュール２１０が関心対象の塩基を識別するために分析しているのと同じ配列リードを使用して、遷移マトリクスを生成する。そのような実施形態では、関心対象の塩基が修正されるとき（例えば、下記に説明されるエラー修正モデルを使用して修正されるとき）、塩基識別モジュール２１０は、修正された塩基の新しいヌクレオチド塩基を反映するように遷移マトリクスの確率を動的に更新できる。塩基識別モジュール２１０が遷移マトリクスを生成する方法の例として、「Ａ」の参照塩基を有する位置について、塩基識別モジュール２１０は、その位置における４つのヌクレオチド塩基（Ａ、Ｃ、Ｔ、またはＧ）のいずれかを有する配列リードの割合を算出する。したがって、塩基識別モジュール２１０は、「Ａ」の参照塩基を有する位置について、４つのヌクレオチド塩基にわたる確率分布を定量化する。塩基識別モジュール２１０は、「Ｃ」、「Ｔ」、及び「Ｇ」の参照ヌクレオチド塩基の遷移の確率を算出することができる。

様々な実施形態では、塩基識別モジュール２１０は、配列リード全体にわたる位置について、ヌクレオチド塩基の割合を観察する尤度を反映する確率を算出する。いくつかの実施形態では、確率は次のように表すことができる。
Ｐ（アデニン＝Ｗ、シトシン＝Ｘ、グアニン＝Ｙ、チミン＝Ｚ｜Ｎ回の読み取り）
ここで、Ｗはその位置におけるアデニンヌクレオチド塩基を有する観察された配列リードの数であり、Ｘはその位置におけるシトシンヌクレオチド塩基を有する観察された配列リードの数であり、Ｙはその位置におけるチミンヌクレオチド塩基を有する観察された配列リードの数であり、Ｚはその位置におけるチミンヌクレオチド塩基を有する観察された配列リードの数であり、Ｎはその位置における観察された配列リードの総数である。

いくつかの実施形態では、確率は、配列リード全体にわたる位置について、ミスマッチヌクレオチド塩基の割合を観察する尤度を反映している。ここでは、確率は、以下のように示すことができる。
Ｐ（塩基１＝Ｘ、塩基２＝Ｙ、塩基３＝Ｚ｜Ｎ回の読み取り）
ここで、塩基１、塩基２、及び塩基３は参照塩基と一致しないヌクレオチド塩基を指す。ここで、Ｘはその位置における塩基１を有する観察された配列リードの数であり、Ｙはその位置における塩基２を有する観察された配列リードの数であり、Ｚはその位置における塩基３を有する観察された配列リードの数であり、Ｎはその位置における観察された配列リードの総数である。

塩基識別モジュール２１０は、その位置のヌクレオチド塩基の割合を観察する尤度を反映する確率を、遷移マトリクスの確率と比較する。様々な実施形態では、比較により、ヌクレオチド塩基の割合を観察する尤度を反映する確率が遷移マトリクスの確率よりも大きいことがもたらされる場合、塩基識別モジュール２１０は関心対象の塩基として塩基を識別する。したがって、関心対象の塩基は、修正を後で受けることができる。比較により、ヌクレオチド塩基の割合を観察する尤度を反映する確率が遷移マトリクスの確率よりも小さいことがもたらされる場合、塩基識別モジュール２１０は関心対象の塩基として塩基を識別しない。したがって、塩基は修正を受けず、ミスマッチ塩基のままになる。

関心対象の塩基を識別する全般的な例として、塩基識別モジュール２１０は、ある位置における配列リードの大部分が、グアニン（観察塩基）に対するアデニン（参照塩基）のミスマッチがあることを識別し得る。遷移マトリクスは、参照アデニン塩基から観察されたグアニン塩基への遷移の尤度を反映する確率を含む。この確率は０．０１と仮定する。塩基識別モジュール２１０は、参照塩基以外のヌクレオチド塩基の割合を観察する確率（例えば、グアニン塩基、シトシン塩基、またはチミンヌクレオチド塩基を観察する確率）が０．０５であると算出し得る。塩基識別モジュール２１０は、ヌクレオチド塩基の割合を観察する確率（０．０５）を、遷移マトリクスの確率（０．０１）と比較する。ここでは、ヌクレオチド塩基の割合を観察する確率（０．０５）が遷移マトリクスの確率（０．０１）よりも大きいと仮定して、塩基識別モジュール２１０は関心対象の塩基として塩基を識別する。

様々な実施形態では、関心対象の塩基を識別して、塩基識別モジュール２１０は、関心対象の塩基毎に配列リードのパイルアップを生成する。具体的には、塩基識別モジュール２１０は、関心対象の塩基のＸ位置の上流及びＹ位置の下流に位置する塩基を含む配列リードを含むパイルアップを生成する。様々な実施形態では、Ｘ及びＹは同じ値である。他の実施形態では、Ｘ及びＹは異なる値である。様々な実施形態では、Ｘは、関心対象の塩基の上流に、１個の位置、２個の位置、３個の位置、４個の位置、５個の位置、６個の位置、７個の位置、８個の位置、９個の位置、１０個の位置、１５個の位置、２０個の位置、２５個の位置、３０個の位置、４０個の位置、５０個の位置、６０個の位置、７０個の位置、８０個の位置、９０個の位置、１００個の位置、１１０個の位置、１２０個の位置、１３０個の位置、１４０個の位置、または１５０個の位置があり得る。様々な実施形態では、Ｙは、関心対象の塩基の下流に、１個の位置、２個の位置、３個の位置、４個の位置、５個の位置、６個の位置、７個の位置、８個の位置、９個の位置、１０個の位置、１５個の位置、２０個の位置、２５個の位置、３０個の位置、４０個の位置、５０個の位置、６０個の位置、７０個の位置、８０個の位置、９０個の位置、１００個の位置、１１０個の位置、１２０個の位置、１３０個の位置、１４０個の位置、または１５０個の位置があり得る。

様々な実施形態では、塩基識別モジュール２１０は、関心対象の塩基の位置の上流及び下流に位置する位置について、パイルアップが、４つのヌクレオチド塩基（例えば、アデニン、グアニン、シトシン、またはチミン）のうちの１つを有する配列リードの割合を示す確率を含むように、パイルアップを生成する。例えば、パイルアップは、パイルアップにおける位置毎に、マトリクスがその位置に対応するアデニン、グアニン、シトシン、またはチミンを有した配列リードの割合を識別する確率を含むように、マトリクスとして具体化され得る。

塩基修正モジュール２２０は、エラー修正モデルを適用して、関心対象の塩基の可能性が高いヌクレオチドを割り出す。したがって、塩基修正モジュール２２０は、細胞に由来する１つ以上の配列リード全体にわたって関心対象の塩基を修正できる。修正された配列リードは、真のバリアントをコールするために後で使用できる改善された配列リードを表す。概して、塩基修正モデル２２０は、細胞特異的プロセスを通じて配列リードを修正する。ここで、塩基修正モデル２２０は、第１の細胞の配列リードで関心対象の塩基を修正し得るが、第２の細胞の配列リードで同じ塩基を修正し得ない。エラー（例えば、ＰＣＲエラー、配列決定エラー、配列決定アライメントエラー、または修正エラー）が個々の細胞で発生する可能性があるため、塩基修正モデル２２０によって行われる方法は、これらのエラーに対処するために細胞毎に配列リードの修正を可能にする。

塩基修正モジュール２２０は、関心対象の塩基のために生成されたパイルアップを受信する。一実施形態では、塩基修正モジュール２２０は、エラー修正モデルへの入力として、関心対象の塩基のパイルアップを適用する。ここでは、エラー修正モデルは、関心対象の塩基の周りのコンテクスト配列、関心対象の塩基の配列決定深度、関心対象の塩基のアレル頻度、及び関心対象の塩基の周りのウィンドウ内の塩基のアレル頻度を含むパイルアップの単一細胞の特徴を抽出及び分析できる。様々な実施形態では、「ウィンドウ」は、関心対象の塩基の上流に位置するＸ塩基及び関心対象の塩基の下流に位置するＹ塩基を指す。様々な実施形態では、Ｘ及びＹは、互いに独立して、２個の塩基、３個の塩基、４個の塩基、５個の塩基、６個の塩基、７個の塩基、８個の塩基、９個の塩基、１０個の塩基、２０個の塩基、３０個の塩基、４０個の塩基、５０個の塩基、６０個の塩基、７０個の塩基、７５個の塩基、８０個の塩基、９０個の塩基、１００個の塩基、１５０個の塩基、２００個の塩基、３００個の塩基、４００個の塩基、または５００個の塩基であり得る。例として、エラー修正モデルは、パイルアップから単一細胞の特徴を抽出し、単一細胞の特徴を分析するニューラルネットワーク（例えば、深層学習ニューラルネットワーク）であり得る。いくつかの実施形態では、塩基修正モジュール２２０は、機能抽出プロセスを行い、単一細胞の特徴をパイルアップから抽出する。そのような実施形態では、単一細胞の特徴は、エラー修正モデルへの入力として提供できる。様々な実施形態では、エラー修正モデルは、４つのヌクレオチド塩基（アデニン、グアニン、シトシン、及びチミン）に対応する確率分布を出力し、確率分布は、関心対象の塩基が分析された単一細胞の特徴に基づく４つのヌクレオチド塩基のうちの１つである尤度を表す。

様々な実施形態では、塩基修正モデル２２０は、エラー修正モデルによって出力された確率分布に基づいて、関心対象の塩基を異なるヌクレオチド塩基に修正する。一実施形態では、塩基修正モデル２２０は、エラー修正モデルによって出力された分布の確率の中の最高確率があるヌクレオチド塩基に関心対象の塩基を修正する。ここで、修正されたヌクレオチド塩基は、細胞内に存在する可能性が高い塩基を表す。関心対象の塩基を異なるヌクレオチド塩基に修正するために、塩基修正モデル２２０は、正しいヌクレオチド塩基を反映するように関心対象の塩基を含む１つ以上の配列リードを修正する。要するに、塩基修正モデル２２０は、細胞の配列をより正確に反映する修正されたヌクレオチド塩基を有する修正された配列リードを再生成する。

様々な実施形態では、塩基修正モデル２２０は、関心対象の塩基を有する単一細胞に由来する全ての配列リードを修正し、その結果、修正後、修正された配列リードは、正しい塩基を含む。様々な実施形態では、塩基修正モデル２２０は、関心対象の塩基を有する単一細胞に由来する一部の配列リードを修正する。例えば、関心対象の塩基を有する配列リードの一部は正しい塩基を有し得るため、修正する必要はない。別の例として、関心対象の塩基を有するいくつかの配列リードは、信頼性の低い読み取りであり得、修正するのではなく破棄できる。様々な実施形態では、塩基修正モデル２２０は、ＢＡＭファイルフォーマットまたはＳＡＭファイルフォーマット等の可読ファイルフォーマットで修正された配列リードを生成する。

細胞集団モジュール２３０は、細胞集団全体にわたって修正された配列リードから細胞集団の特徴を決定する。概して、細胞集団モジュール２３０は、細胞毎に組織化された修正された配列リードを分析し、細胞集団を説明する細胞集団の特徴を決定する。

細胞集団モジュール２３０は、細胞の配列リードがエラー修正された後に残る、細胞集団全体にわたって１つ以上の候補バリアントを識別する。様々な実施形態では、候補バリアントは、配列リードが修正された後に残る全てのバリアントを含む。様々な実施形態では、細胞集団モジュール２３０がフィルタを行うことにより、候補バリアントは、配列リードが修正された後に残る全てのバリアントのサブセットになる。例えば、細胞集団モジュール２３０は、塩基が１つ以上の基準を満たす場合、特定の位置で候補バリアントを識別する。様々な実施形態では、１つ以上の基準は、１）最小アレル頻度及び２）その位置においてミスマッチ塩基を有する最小数の細胞の一方または両方を含むハードカットオフとして機能する。

様々な実施形態では、細胞集団全体にわたって細胞集団の特徴を決定するために、細胞集団モジュール２３０は、細胞毎に修正された配列リードを集約し、次に、集約された配列リードを使用して細胞集団全体にわたって細胞集団の特徴を決定する。例えば、細胞毎に、細胞集団モジュール２３０は、各位置で特定のヌクレオチド塩基（例えば、Ａ、Ｃ、Ｔ、またはＧ）を有する配列リードの割合を定量化できる。次に、細胞集団モジュール２３０は、配列リードの定量化された割合を分析することによって、細胞集団全体にわたって細胞集団の特徴を決定する。

様々な実施形態では、細胞集団モジュール２３０は、１つ以上の候補バリアントのそれぞれに対して細胞集団の特徴を決定する。特定の例として、細胞集団の特徴は、特定の候補バリアントに対するヘテロ接合コールのパーセンテージであり得る（例えば、特定の位置で、候補バリアントの第１のコピーが参照塩基と比較してミスマッチであり、候補バリアントの第２のコピーが参照塩基と一致する細胞のパーセンテージである）。したがって、細胞について、細胞集団モジュール２３０は、細胞の修正された配列リードを集約し、細胞の候補バリアントがヘテロ接合コールであるかどうかを判定する。細胞集団モジュール２３０は、細胞集団の細胞全体にわたってこのプロセスを繰り返して、候補バリアントに対応するヘテロ接合コールを有する細胞のパーセンテージを導出する。追加の候補バリアントについて、細胞集団モジュール２３０は、追加の候補バリアントのそれぞれのヘテロ接合コピーを有する細胞のパーセンテージを算出する。

細胞集団の特徴の例は、限定ではないが、ヘテロ接合コールのパーセンテージ、ヘテロ接合コールのバリアントアレル頻度（ＶＡＦ）の中央値、ヘテロ接合コールの遺伝子型品質の中央値、ヘテロ接合コールの読み取り深度の中央値、ホモ接合コールのパーセンテージ、ホモ接合コールのＶＡＦの中央値、ホモ接合コールの遺伝子型品質の中央値、ホモ接合コールの読み取り深度の中央値、参照コールのパーセンテージ、ホモ接合コールの読み取り深度の変動係数（ＣＶ）、ヘテロ接合コールの読み取り深度のＣＶ、ホモ接合コールの遺伝子型品質のＣＶ、ヘテロ接合コールの遺伝子型品質のＣＶ、ホモ接合コールのＶＡＦのＣＶ、ヘテロ接合コールのＶＡＦのＣＶ、ホモ接合コールのＶＡＦの平均値と中央値との差、ヘテロ接合コールのＶＡＦの平均値と中央値との差、及び単位複製配列ＧＣのパーセンテージを含む。

塩基コーラーモジュール２４０は、バリアントコーラーモデルを適用して、細胞集団の１つ以上の真のバリアントを予測する。様々な実施形態では、塩基コーラーモジュール２４０は、入力として、候補バリアントの細胞集団の特徴をバリアントコーラーモデルに提供する。バリアントコーラーモデルは、細胞集団の特徴を分析し、候補バリアントの予測を出力する。

様々な実施形態では、バリアントコーラーは、複数の可能な分類から候補バリアントの分類を出力する分類器である。いくつかの実施形態では、バリアントコーラーモデルは、候補バリアントの２つの分類のうちの１つを出力する分類器である。例として、バリアントコーラーモデルは、真のバリアントまたは偽陽性バリアントの分類を出力できる。別の例として、バリアントコーラーモデルは、ホモ接合バリアントまたはヘテロ接合バリアントの１つ等の真のバリアントのタイプに関する分類を出力できる。いくつかの実施形態では、バリアントコーラーモデルは、候補バリアントの３つ以上の可能な分類のうちの１つを出力する分類器である。例として、バリアントコーラーモデルは、ホモ接合バリアント、ヘテロ接合バリアント、または偽陽性バリアントの分類を出力できる。いくつかの実施形態では、バリアントコーラーモデルは、不確定バリアントの分類を出力する。不確定バリアントは信頼性の低いコーリングを表す可能性があり、このとき、不確定バリアントが真のバリアントであるかどうかについて確認するために追加の分析が必要になり得る。いくつかの実施形態では、バリアントコーラーモデルは、非バリアント（例えば、偽陽性バリアント）の分類を出力する。

トレーニングモジュール２５０は、概して、エラー修正モデル及びバリアントコーラーモデルの一方または両方を生成するための方法を実施する。様々な実施形態では、トレーニングモジュール２５０は、塩基コーラーデバイス１３０以外のデバイスまたはシステムによって実装される。例えば、トレーニングモジュール２５０は、サードパーティによって実装できる。そのようなシナリオでは、サードパーティがエラー修正モデル及びバリアントコーラーモデルの一方または両方を生成する。次に、サードパーティは、トレーニングされたエラー修正モデル及びトレーニングされたバリアントコーラーモデルの一方または両方を、塩基コーラーデバイス１３０に提供できる。

様々な実施形態では、トレーニングモジュール２５０は、エラー修正モデルをトレーニングする。トレーニングモジュール２５０は、線形回帰アルゴリズム、ロジスティック回帰アルゴリズム、デシジョンツリーアルゴリズム、サポートベクターマシン分類、ナイーブベイズ分類、Ｋ最近傍分類、ランダムフォレストアルゴリズム、深層学習アルゴリズム、勾配ブーストアルゴリズムのいずれか１つ等のエラー修正モデルをトレーニングする機械学習実施方法、多様体学習、主成分分析、因子分析、オートエンコーダー正規化、独立成分分析等の次元縮小法、またはそれらの組み合わせを使用できる。様々な実施形態では、トレーニングモジュール２５０は、教師あり学習アルゴリズム、教師なし学習アルゴリズム、半教師あり学習アルゴリズム（例えば、部分的教師）、転移学習、マルチタスク学習、またはそれらのいずれかの組み合わせを使用して、エラー修正モデルをトレーニングする。

トレーニングモジュール２５０は、エラー修正トレーニングサンプルを使用してエラー修正モデルをトレーニングする。様々な実施形態では、エラー修正トレーニングサンプルは、個々の細胞に由来するトレーニング配列リードを含む。そのようなトレーニングサンプルは、ＳＡＭまたはＢＡＭファイルフォーマット等の一般的に使用されるファイルフォーマットで表現できる。様々な実施形態では、エラー修正トレーニングサンプルにおけるトレーニング配列リードは、参照塩基と比較してミスマッチである既知の関心対象の塩基を有する配列リードを含む。これらのトレーニング配列リードは、既知の関心対象の塩基の位置に遺伝的バリアントを有することが知られている個々の細胞に由来することができる。

様々な実施形態では、エラー修正トレーニングサンプルは、細胞内に存在する遺伝的バリアントの既知の塩基を示す参照グラウンドトゥルースで標識付けできる。様々な実施形態では、既知の塩基の標識は、整数（例えば、０、１、２、及び３）であり得る。ここで、各整数値は、既知の塩基の場合、ヌクレオチド塩基（例えば、Ａ、Ｃ、Ｔ、またはＧの１つ）を示す。様々な実施形態では、既知の塩基の標識は、ベクトル（例えば、［０，０，０，１］等の１×４マトリクス）として構造化できる。そのような例では、マトリクス内の各細胞は４つのヌクレオチド塩基のうちの１つに対応する。「０」の値は対応するヌクレオチド塩基が既知の塩基ではないことを示す一方、「１」の値は対応するヌクレオチド塩基が既知の塩基であることを示す。

様々な実施形態では、エラー修正トレーニングサンプルは、１）関心対象の塩基を有する細胞に由来する１つ以上のトレーニング配列リードと、２）既知の塩基を示す標識とを含む。様々な実施形態では、トレーニングモジュール２５０は、エラー修正トレーニングサンプルの１つ以上のトレーニング配列リードを使用して、様々なサイズのトレーニングパイルアップを作成する。したがって、エラー修正モデルは、トレーニングサンプルのトレーニング配列リードに由来するパイルアップを使用して繰り返しトレーニングできる。エラー修正モデルのパラメータがトレーニングの反復中に調整されることにより、エラー修正モデルが関心対象の塩基の確率分布を良好に予測できる。

様々な実施形態では、トレーニングモジュール２５０は、バリアントコーラーモデルをトレーニングする。トレーニングモジュール２５０は、線形回帰アルゴリズム、ロジスティック回帰アルゴリズム、デシジョンツリーアルゴリズム、サポートベクターマシン分類、ナイーブベイズ分類、Ｋ最近傍分類、ランダムフォレストアルゴリズム、深層学習アルゴリズム、勾配ブーストアルゴリズムのいずれか１つ等のバリアントコーラーモデルをトレーニングする機械学習実施方法、多様体学習、主成分分析、因子分析、オートエンコーダー正規化、独立成分分析等の次元縮小法、またはそれらの組み合わせを使用できる。様々な実施形態では、トレーニングモジュール２５０は、教師あり学習アルゴリズム、教師なし学習アルゴリズム、半教師あり学習アルゴリズム（例えば、部分的教師）、転移学習、マルチタスク学習、またはそれらのいずれかの組み合わせを使用して、バリアントコーラーモデルをトレーニングする。

トレーニングモジュール２５０は、バリアントコーラートレーニングサンプルを使用して、バリアントコーラーモデルをトレーニングする。様々な実施形態では、バリアントコーラートレーニングサンプルは、既知のバリアントまたは既知の参照塩基を含むトレーニング配列リードを含む。様々な実施形態では、バリアントコーラートレーニングサンプルは、トレーニング配列リードに由来する細胞集団の特徴を含む。

バリアントコーラートレーニングサンプルは、バリアントの分類を示す参照グラウンドトゥルースで標識付けできる。一実施形態では、参照グラウンドトゥルースは、真のバリアントと偽陽性バリアントとを区別する。一実施形態では、参照グランドトゥルースは、ホモ接合バリアント及び異種バリアント等の異なる真のバリアントを区別する。一実施形態では、参照グランドトゥルースは、ホモ接合バリアント、ヘテロ接合バリアント、及び参照塩基（例えば、非バリアント）を区別する。

様々な実施形態では、バリアントコーラートレーニングサンプルの標識は、バルク配列決定法等の他の配列決定法によって事前に決定及び／または確認できる。様々な実施形態では、バリアントコーラートレーニングサンプルの標識は、特定の細胞株に存在する既知の遺伝的バリアントに少なくとも部分的に基づいて事前に決定することができる。様々な実施形態では、標識は、バリアントが真のバリアントまたは偽陽性バリアントであるかを示すバイナリ値（例えば、０または１の値）であり得る。いくつかの実施形態では、標識は、バリアントコーラーモデルが予測するように設計されている分類の数に応じて、異なる整数値（例えば、０、１、２、３等）であり得る。例えば、ホモ接合バリアント、ヘテロ接合バリアント、及び参照塩基（例えば、非バリアント）を予測するバリアントコーラーモデルについて、標識は３つの整数値（例えば、０、１、及び２）であり得、各整数値は分類の１つに対応する。

様々な実施形態では、各バリアントコーラートレーニングサンプルは、１）既知の参照塩基または既知のバリアントを有する細胞集団のトレーニング配列リードと、２）トレーニング配列リードに対応する既知の参照塩基または既知のバリアントの存在を示す標識とを含む。したがって、バリアントコーラーモデルは、各バリアントコーラートレーニングサンプルを使用して繰り返しトレーニングできる。様々な実施形態では、バリアントコーラーモデルのパラメータがトレーニング反復中に調整されることにより、バリアントコーラーモデルが細胞集団の配列リードが参照塩基または真のバリアントを有するかどうかを良好に予測できる。

細胞集団のバリアントをコールするための方法
ここで、図３Ａ及び図３Ｂに示されるフロー図３００及びフロー図３５０を参照すると、１）細胞特異的プロセスを通じた配列リードの塩基のエラー修正と、２）エラー修正された配列リードを使用した細胞集団全体にわたるバリアントコーリングとを含む２段階プロセスが説明されている。

図３Ａは、ある実施形態による、単一細胞に由来する配列リードを修正するためのフロー図３００である。ステップ３０５において、配列リードは細胞から取得される。様々な実施形態では、一方の細胞からの配列リードは、別の細胞からの配列リード（例えば、以前にバーコード技術を使用して区別されたもの）と区別可能である。さらに、そのような配列リードは参照ゲノムに整列できる。

ステップ３１０において、細胞の配列リードは、配列リードにおける誤った塩基を修正することによって修正される。ステップ３１０は、ステップ３１５、３２０、及び３２５を含む細胞特異的プロセスである。様々な実施形態では、ステップ３１５、３２０、及び３２５は、細胞集団の１つ以上の細胞のそれぞれに対して並行して行われる。様々な実施形態では、ステップ３１５、３２０、及び３２５は、細胞集団の１つ以上の細胞のそれぞれに対して連続して行われる。要するに、ステップ３１５、３２０、及び３２５は、細胞集団の１つ以上の細胞のそれぞれに対して、修正された配列リードの生成をもたらす。

ステップ３１５は、細胞からの配列リードの関心対象の塩基を識別することを含み、関心対象の塩基は参照塩基とは異なる。様々な実施形態では、関心対象の塩基を識別することは、遷移マトリクスを適用して、塩基のミスマッチがエラーに起因する可能性が高いかどうかを判定することを含む。遷移マトリクスを適用することは、遷移マトリクスの確率を、配列リードのヌクレオチド塩基の割合を観察する尤度を反映する確率と比較することを含む。

ステップ３２０は、関心対象の塩基の確率を予測するためにエラー修正モデルを適用することを含む。様々な実施形態では、エラー修正モデルは、関心対象の塩基のために生成されたパイルアップに由来する単一細胞の特徴を分析し、確率分布を出力する。

ステップ３２５は、関心対象の塩基を修正することを含む。ここで、関心対象の塩基は、予測された確率に対応する別の塩基に修正される。関心対象の塩基を含む細胞からの１つ以上の配列リードは、別の塩基に修正できる。

図３Ｂは、ある実施形態による、修正された配列リードを使用して、細胞集団のバリアントをコールするためのフロー図３５０を示す。ここでは、３５５、３６０、及び３６５のステップが細胞集団レベルで行われるため、細胞集団全体にわたって真のバリアントをコールすることができる。

ステップ３５５は、細胞集団全体にわたって修正された配列リードから細胞集団の特徴を生成することを含む。様々な実施形態では、ステップ３５５は、修正された配列リードを使用して、細胞集団の候補バリアントの細胞集団の特徴を生成することを含む。ステップ３６０は、バリアントコーラーモデルを細胞集団の特徴に適用することを含む。様々な実施形態では、候補バリアントの細胞集団の特徴は、バリアントコーラーモデルへの入力として適用される。バリアントコーラーモデルを異なる候補バリアントに繰り返し適用して、各候補バリアントが真のバリアントである可能性が高いかどうかを判断できる。

ステップ３６５において、バリアントコーラーモデルの出力に基づいて、細胞集団全体にわたる１つ以上のバリアントをコールする。様々な実施形態では、バリアントをコールすることは、候補バリアントをホモ接合バリアント、ヘテロ接合バリアント、または不確定バリアントの１つとしてコールすることを含む。

要するに、フロー図３００及びフロー図３５０を通して識別された細胞集団のコールされたバリアントは、従来のバリアントコーラーパイプラインを使用する従来のコールされたバリアントを上回る改善を表す。したがって、コールされたバリアントは、様々な用途に有益である可能性があり、その例は、異常細胞及び／または疾患（例えば、がん）の特性評価を含む。

エラー修正モデル及びバリアント修正モデルの実施形態
特定の実施形態では、エラー修正モデル及びバリアント修正モデルは、機械学習済みモデルである。エラー修正モデル及びバリアント修正モデルのそれぞれは、トレーニングデータを使用してトレーニングされ得る。トレーニングに続いて、エラー修正モデル及びバリアント修正モデルを展開できる（例えば、図３Ａ及び図３Ｂを参照して、上記に説明したプロセスに従って展開できる）。

様々な実施形態では、エラー修正モデル及びバリアント修正モデルの一方または両方は、回帰モデル（例えば、線形回帰、ロジスティック回帰、または多項式回帰）、デシジョンツリー、ランダムフォレスト、サポートベクターマシン、ナイーブベイズモデル、Ｋ平均法クラスター、またはニューラルネットワーク（例えば、フィードフォワードネットワーク、畳み込みニューラルネットワーク（ＣＮＮ）、ディープニューラルネットワーク（ＤＮＮ）、オートエンコーダーニューラルネットワーク、生成的敵対的ネットワーク、またはリカレントネットワーク（例えば、長短期記憶ネットワーク（ＬＳＴＭ）、双方向リカレントネットワーク、ディープ双方向リカレントネットワーク）のいずれか１つである。

様々な実施形態では、エラー修正モデル及びバリアント修正モデルの一方または両方は、ハイパーパラメータまたはモデルパラメータ等の１つ以上のパラメータを有する。ハイパーパラメータは、概して、トレーニングの前に設定される。ハイパーパラメータの例は、学習率、デシジョンツリーの深度または葉、ディープニューラルネットワークの隠れ層の数、Ｋ平均法クラスターのクラスター数、回帰モデルのペナルティ、及びコスト関数に関連付けられた正則化パラメータを含む。エラー修正モデル及びバリアント修正モデルの一方または両方のモデルパラメータは、概して、トレーニング中に調整される。モデルパラメータの例は、ニューラルネットワークの層のノードに関連付けられた重み、サポートベクターマシンのサポートベクター、及び回帰モデルの係数を含む。機械学習モデルのモデルパラメータは、トレーニングデータを使用してトレーニング（調整等）され、機械学習モデルの予測力が向上する。

いくつかの実施形態では、エラー修正モデル及びバリアント修正モデルの一方または両方は、モデルの１つ以上のパラメータが独立変数と従属変数との間の依存関係を定義するパラメトリックモデルである。様々な実施形態では、パラメトリックタイプモデルの様々なパラメータは損失関数を最小化するようにトレーニングされ、トレーニングは、バッチ勾配アルゴリズム、確率的勾配アルゴリズム等の勾配ベース数値最適化アルゴリズムによって行われる。いくつかの実施形態では、エラー修正モデル及びバリアント修正モデルの一方または両方は、モデル構造がトレーニングデータから判定され、パラメータの固定セットに厳密に基づいていないノンパラメトリックモデルである。

図４Ａは、ある実施形態による、エラー修正モデル４１０の実施態様を示す。本実施形態では、エラー修正モデル４１０は関心対象の塩基を含むパイルアップを分析し、パイルアップは単一細胞に由来する配列リードから生成される。様々な実施形態では、エラー修正モデル４１０は、関心対象の塩基のために生成されたパイルアップに由来する単一細胞の特徴を分析する。単一細胞の特徴は、関心対象の塩基の周りのコンテクスト配列、関心対象の塩基の配列決定深度、関心対象の塩基のアレル頻度、及び関心対象の塩基の周りのウィンドウ内の塩基のアレル頻度を含む関心対象の塩基に関連する機能である。単一細胞の特徴に基づいて、エラー修正モデル４１０は、関心対象の塩基が別の塩基である尤度を表す塩基確率（例えば、アデニン、チミン、グアニン、及びシトシンの１つ、２つ、３つ、または４つの確率）の分布を出力する。

特定の実施形態では、エラー修正モデル４１０はニューラルネットワークである。いくつかの実施形態では、エラー修正モデル４１０は深層学習ニューラルネットワークである。エラー修正モデル４１０は、２、３、４、５、６、７、８、９、または１０個の層で構造化され得る。エラー修正モデル４１０の層は１つ以上のノードから成る。層のノードは他の層の他のノードに接続でき、ノード間の接続はパラメータに関連付けられる。一方のノードの値は、特定のノードに関連付けられた活性化関数によってマッピングされた関連パラメータによって重み付けされた特定のノードに接続されたノードの値の組み合わせとして表され得る。

図４Ｂは、ある実施形態による、バリアントコーラーモデルの実施態様を示す。図４Ｂに示される実施形態では、バリアントコーラーモデル４２０は、細胞集団全体にわたって修正された配列リードに由来する細胞集団の特徴を分析する。バリアントコーラーモデル４２０は、バリアントの分類を出力する。いくつかの実施形態では、バリアントの分類は、真のバリアントまたは偽陽性バリアントのうちの１つである。いくつかの実施形態では、バリアントの分類は、ホモ接合バリアントまたはヘテロ接合バリアントの１つである。いくつかの実施形態では、バリアントの分類は、ホモ接合バリアント、ヘテロ接合バリアント、または不確定バリアントのうちの１つである。

いくつかの実施形態では、バリアントコーラーモデル４２０は、細胞集団の特徴とは対照的に、配列リードまたは配列リードのパイルアップを入力として受信する。そのような実施形態では、細胞集団の特徴は、バリアントコーラーモデル４２０の実施の前に、集約リードから抽出される必要はない。いくつかの実施形態では、集約リードをコンパイルでき（例えば、パイルアップでコンパイルでき）、集約リードのパイルアップをバリアントコーラーモデル４２０への入力として提供し、バリアント分類を予測できる。例えば、集約リードのパイルアップは、エラー修正後、参照塩基と比較してミスマッチである塩基に対してコンパイルできる。バリアントコーラーモデル４２０は、塩基に生成されたパイルアップを分析し、塩基のバリアント分類を予測する。

特定の実施形態では、バリアントコーラーモデル４２０はニューラルネットワークである。いくつかの実施形態では、バリアントコーラーモデル４２０は深層学習ニューラルネットワークである。バリアントコーラーモデル４２０は、２、３、４、５、６、７、８、９、または１０個の層で構造化され得る。バリアントコーラーモデル４２０の層は１つ以上のノードから成る。層のノードは他の層の他のノードに接続でき、ノード間の接続はパラメータに関連付けられる。一方のノードの値は、特定のノードに関連付けられた活性化関数によってマッピングされた関連パラメータによって重み付けされた特定のノードに接続されたノードの値の組み合わせとして表され得る。

配列決定及びリードアライメントの方法
本明細書に開示される本発明の実施形態は、核酸の配列決定及び参照ゲノムへの配列リードの整列を含む。様々な実施形態では、核酸を配列決定するステップ及び配列リードを参照ゲノムに整列させるステップは、図１を参照して上記に説明したように、細胞分析ワークフローデバイス１２０のシーケンサー等のシーケンサーによって行われる。したがって、配列決定及び整列された配列リードは、塩基コーラーデバイス１３０によって分析でき、より具体的には、関心対象の塩基を識別するために塩基識別モジュール２１０（図２参照）によって分析できる。

配列リードは、合成による配列決定、ライゲーションによる配列決定、パイロシークエンシング法、可逆的ターミネーター化学作用を使用すること、ホスホ結合蛍光ヌクレオチドを使用すること、またはリアルタイム配列決定のいずれかを行うプラットフォームを含む、市販の次世代配列決定（ＮＧＳ）プラットフォームによって実現できる。例として、増幅核酸は、ＩｌｌｕｍｉｎａＭｉＳｅｑプラットフォームで配列決定され得る。

パイロシークエンシング法の場合、アダプターに対して相補的なオリゴヌクレオチドでコーティングした顆粒を使用して、１つのマトリクス分子を捕捉することによって、ＮＧＳフラグメントのライブラリーをクローンｉｎ－ｓｉｔｕ増幅する。同じタイプのマトリクスを含む各顆粒を、「油中水」型のマイクロバブルに配置し、エマルションＰＣＲと呼ばれる方法を使用して、マトリクスをクローン増幅する。増幅後、エマルションは破壊され、顆粒は、配列決定反応中にフローセルとして作用する滴定ピコプレートの別個のウェルにスタックされる。４つのｄＮＴＰ試薬のそれぞれをフローセルに順序立てて複数回投与することは、配列決定酵素、及びルシフェラーゼ等の発光レポーターの存在下で発生する。好適なｄＮＴＰが配列決定プライマーの３’末端に添加される場合において、結果として生じるＡＴＰは、ウェル内でのルミネセンスの発光を生み出し、これはＣＣＤカメラを使用して記録される。４００塩基以上のリード長を実現することが可能であり、配列の１０^６の読み取り値を取得することが可能であり、結果として、最大５億個の塩基対（メガバイト）の配列が取得される。パイロシークエンシング法のさらなる詳細は、Ｖｏｅｌｋｅｒｄｉｎｇｅｔａｌ．，ＣｌｉｎｉｃａｌＣｈｅｍ．，５５：６４１－６５８，２００９、ＭａｃＬｅａｎｅｔａｌ．，ＮａｔｕｒｅＲｅｖ．Ｍｉｃｒｏｂｉｏｌ．，７：２８７－２９６、米国特許第６，２１０，８９１号、米国特許第６，２５８，５６８号に説明され、これらの文献のそれぞれは全体として本明細書によって参照により組み込まれている。

Ｓｏｌｅｘａ／Ｉｌｌｕｍｉｎａプラットフォームでは、配列決定データは短い読み取り値の形式で作成される。本方法では、ＮＧＳフラグメントのライブラリーのフラグメントが、オリゴヌクレオチドアンカー分子でコーティングされるフローセルの表面で捕捉される。アンカー分子はＰＣＲプライマーとして使用されるが、マトリクスの長さ及び他の付近のアンカーオリゴヌクレオチドへの近接性が原因で、ＰＣＲによる伸長によって、隣接するアンカーオリゴヌクレオチドとのハイブリダイゼーション及びフローセルの表面上の架橋構造の形成により、分子の「ヴォールト」の形成がもたらされる。これらのＤＮＡループは変性し、切断される。次に、直鎖が、可逆的に染色されたターミネーターを使用して配列決定される。配列に含まれるヌクレオチドは、包接後に蛍光を検出することによって決定され、各蛍光剤及び遮断薬は、次のｄＮＴＰ添加サイクルの前に除去される。Ｉｌｌｕｍｉｎａのプラットフォームを使用する配列決定のさらなる詳細は、Ｖｏｅｌｋｅｒｄｉｎｇｅｔａｌ．，ＣｌｉｎｉｃａｌＣｈｅｍ．，５５：６４１－６５８，２００９、ＭａｃＬｅａｎｅｔａｌ．，ＮａｔｕｒｅＲｅｖ．Ｍｉｃｒｏｂｉｏｌ．，７：２８７－２９６、米国特許第６，８３３，２４６号、米国特許第７，１１５，４００号、米国特許第６，９６９，４８８号に見られ、これらの文献のそれぞれは全体として本明細書によって参照により組み込まれている。

ＳＯＬｉＤ技術を使用する核酸分子の配列決定は、エマルションＰＣＲを使用するＮＧＳフラグメントのライブラリーのクローン増幅を含む。その後、マトリクスを含む顆粒を、ガラスフローセルの誘導体化された表面上に固定し、アダプターオリゴヌクレオチドに対して相補的なプライマーでアニールする。しかしながら、３’伸長のために示したプライマーを使用する代わりに、相補的なプライマーを使用して、２つのプローブ特異的塩基、続いて、６個の縮退塩基、及び４個の蛍光標識のうちの１つを含む試験プローブ用のライゲーションのための５’リン酸基を取得する。ＳＯＬｉＤシステムにおいて、試験プローブは、各プローブの３’末端における２つの塩基と、５’末端における４つの蛍光染料のうちの１つとの１６個の可能な組み合わせを有する。蛍光染料の色、ひいては、各プローブの同一性は、特定の色空間コードスキームに対応する。プローブのアライメントの多くのサイクル後、プローブのライゲーション及び蛍光シグナルの検出、変性、続いて、元のプライマーと比較して１塩基移動したプライマーを使用する第２の配列決定サイクルが行われる。このように、マトリクスの配列を計算により再構成できる。マトリクス塩基を２回確認することで、精度の増加をもたらす。ＳＯＬｉＤ技術を使用する配列決定のさらなる詳細は、Ｖｏｅｌｋｅｒｄｉｎｇｅｔａｌ．，ＣｌｉｎｉｃａｌＣｈｅｍ．，５５：６４１－６５８，２００９、ＭａｃＬｅａｎｅｔａｌ．，ＮａｔｕｒｅＲｅｖ．Ｍｉｃｒｏｂｉｏｌ．，７：２８７－２９６、米国特許第５，９１２，１４８号、米国特許第６，１３０，０７３号に見られ、これらの文献のそれぞれは全体として参照により組み込まれている。

特定の実施形態では、ＨｅｌｉｃｏｓＢｉｏＳｃｉｅｎｃｅｓ製のＨｅｌｉＳｃｏｐｅを使用する。配列決定は、ポリメラーゼの添加及び蛍光標識されたｄＮＴＰ試薬の連続添加により実現される。切り替えにより、ｄＮＴＰに対応する蛍光シグナルの概観がもたらされ、特定のシグナルが、各ｄＮＴＰ添加サイクルの前に、ＣＣＤカメラにより捕捉される。配列のリード長は、２５～５０ヌクレオチドで変化し、分析作業サイクル１回当たりで、全収率が１０億個のヌクレオチド対を超える。ＨｅｌｉＳｃｏｐｅを使用する配列決定を行うためのさらなる詳細は、Ｖｏｅｌｋｅｒｄｉｎｇｅｔａｌ．，ＣｌｉｎｉｃａｌＣｈｅｍ．，５５：６４１－６５８，２００９、ＭａｃＬｅａｎｅｔａｌ．，ＮａｔｕｒｅＲｅｖ．Ｍｉｃｒｏｂｉｏｌ．，７：２８７－２９６、米国特許第７，１６９，５６０号、米国特許第７，２８２，３３７号、米国特許第７，４８２，１２０号、米国特許第７，５０１，２４５号、米国特許第６，８１８，３９５号、米国特許第６，９１１，３４５号、米国特許第７，５０１，２４５号に見られ、これらの文献のそれぞれは全体として参照により組み込まれている。

いくつかの実施形態では、Ｒｏｃｈｅの配列決定システム４５４を使用する。配列決定４５４は２つのステップを含む。第１のステップでは、ＤＮＡは約３００～８００個の塩基対のフラグメントに切断され、これらのフラグメントは平滑末端を有する。次に、オリゴヌクレオチドアダプターはフラグメントの末端にライゲーションされる。アダプターは、フラグメントの増幅及び配列決定のためのプライマーとして機能する。フラグメントは、例えば、５’－ビオチンタグを含むアダプターを使用して、ＤＮＡ捕捉ビーズ（例えば、ストレプトアビジンでコーティングされたビーズ）に付着できる。顆粒に付着されたフラグメントは、油－水エマルションのドロップレット内で、ＰＣＲにより増幅される。結果は、各ビーズにおける、クローン増幅したＤＮＡフラグメントの複数のコピーである。第２の段階において、顆粒はウェルで捕捉される（数ピコリットルの体積）。パイロシークエンシング法を各ＤＮＡフラグメントで並行して行う。１つ以上のヌクレオチドを添加することにより、光シグナルの生成がもたらされ、これは、配列決定機器のＣＣＤカメラに記録される。シグナル強度は、含まれるヌクレオチドの数に比例する。パイロシークエンシング法は、ヌクレオチドの添加の際に放出されるピロホスフェート（ＰＰｉ）を使用する。ＰＰｉは、アデノシン５’ホスホ硫酸の存在下で、ＡＴＰスルフリラーゼを使用してＡＴＰに転換される。ルシフェラーゼはＡＴＰを使用して、ルシフェリンをオキシルシフェリンに転換し、この反応の結果、光が生成され、その光が検出及び分析される。配列決定４５４を行うためのさらなる詳細は、全体として本明細書によって参照により組み込まれているＭａｒｇｕｌｉｅｓｅｔａｌ．（２００５）Ｎａｔｕｒｅ４３７：３７６－３８０に見られる。

ＩｏｎＴｏｒｒｅｎｔ技術は、ＤＮＡ重合の間に放出される水素イオンの検出に基づくＤＮＡ配列決定法である。マイクロウェルは、配列決定されるＮＧＳフラグメントのライブラリーのフラグメントを含む。マイクロウェル層の下に、超高感度イオンセンサＩＳＦＥＴがある。全ての層は、エレクトロニクス産業で使用されるチップと同様に、半導体ＣＭＯＳチップ内に含まれる。ｄＮＴＰが成長する相補鎖に組み込まれるとき、水素イオンが放出され、超高感度イオンセンサを励起する。ホモポリマーリピートが鋳型の配列に存在する場合、複数のｄＮＴＰ分子が１サイクルに含められる。これにより、水素原子の対応量が放出され、より大きな電気シグナルに比例することがもたらされる。この技術は、修飾ヌクレオチドまたは光学デバイスを使用しない他の配列決定技術とは異なる。ＩｏｎＴｏｒｒｅｎｔ技術についてのさらなる詳細は、Ｓｃｉｅｎｃｅ３２７（５９７０）：１１９０（２０１０）、米国特許出願公開第２００９００２６０８２号、米国特許出願公開第２００９０１２７５８９号、米国特許出願公開第２０１００３０１３９８号、米国特許出願公開第２０１００１９７５０７号、米国特許出願公開第２０１００１８８０７３号、及び米国特許出願公開第２０１００１３７１４３号に見られ、これらの文献のそれぞれは全体として参照により組み込まれている。

様々な実施形態では、ＮＧＳ法から取得された配列決定リードは、品質でフィルタリングされ、当技術分野で既知のいずれかのアルゴリズム（例えば、ＰｙｔｈｏｎｓｃｒｉｐｔｂａｒｃｏｄｅＣｌｅａｎｕｐ．ｐｙ）を使用するバーコード配列によりグループ化できる。いくつかの実施形態では、その塩基の約２０％超が約９９％未満の塩基コールの精度を示すＱ２０未満の品質スコア（Ｑスコア）を有する場合、所与の配列決定リードを廃棄し得る。いくつかの実施形態では、約５％、約１０％、約１５％、約２０％、約２５％、約３０％超が、各々、約９０％未満、約９９％未満、約９９．９％未満、約９９．９９％未満、約９９．９９９％未満、約９９．９９９９％未満等の塩基コールの精度を示すＱ１０、Ｑ２０、Ｑ３０、Ｑ４０、Ｑ５０、Ｑ６０等よりも小さいＱスコアを有する場合、所与の配列決定リードを廃棄し得る。

いくつかの実施形態では、５０個未満の読み取りを含むバーコードに関連付けられた全ての配列決定リードを破棄して、単一細胞を表す全てのバーコードグループが十分な数の高品質の読み取りを含むことを確実にし得る。いくつかの実施形態では、３０未満、４０未満、５０未満、６０未満、７０未満、８０未満、９０未満、１００未満等の読み取りを含むバーコードに関連付けられた全ての配列決定リードを廃棄して、単一細胞を表すバーコードグループの品質を保証し得る。

共通のバーコード配列を有する配列リード（例えば、配列リードが同じ細胞が起源であることを意味する）は、アライメント位置情報を決定するために、当技術分野で既知の方法を使用して参照ゲノムに対して整列され得る。アライメント位置情報は、所与の配列リードの開始ヌクレオチド塩基及び末端ヌクレオチド塩基に対応する参照ゲノムの領域の開始位置及び終了位置を示し得る。参照ゲノムの領域は、標的遺伝子または遺伝子のセグメントに関連付けられ得る。例示的なアライナーアルゴリズムは、ＢＷＡ、Ｂｏｗｔｉｅ、ＳｐｌｉｃｅｄＴｒａｎｓｃｒｉｐｔｓＡｌｉｇｎｍｅｎｔｔｏａＲｅｆｅｒｅｎｃｅ（ＳＴＡＲ）、Ｔｏｐｈａｔ、またはＨＩＳＡＴ２を含む。配列リードを参照配列に整列するためのさらなる詳細は、全体として本明細書によって参照により組み込まれている米国出願第１６／２７９，３１５号に説明されている。様々な実施形態では、ＳＡＭ（配列アライメントマップ）フォーマットまたはＢＡＭ（バイナリアライメントマップ）フォーマットを有する出力ファイルを生成し、その後の分析のために出力され得る。

システム及び／またはコンピュータの実施形態
本明細書に説明される実施形態は、さらに、上記に説明したバリアントコーリング法を行うための例示的なシステム及びコンピュータの実施形態を参照する。次の説明は、図１を参照して上記に説明したように、細胞分析ワークフローデバイス１２０及び塩基コーラーデバイス１３０を参照する。

様々な実施形態では、細胞分析ワークフローデバイス１２０は、少なくとも、細胞に試薬を封入し、細胞溶解物に反応混合物を封入し、核酸増幅反応を行うように構成される、マイクロ流体デバイスを含む。例えば、マイクロ流体デバイスは、流体連通している１つ以上の流体チャネルを含み得る。したがって、第１のチャネルを通る水性流体と、第２のチャネルを通るキャリア流体とを組み合わせることにより、エマルションドロップレットの生成がもたらされる。様々な実施形態では、マイクロ流体デバイスの流体チャネルは、約数ミリメートル以下（例えば、約１ミリメートル以下）の少なくとも１つの断面寸法を有し得る。マイクロチャネルの設計及び寸法のさらなる詳細は、国際特許出願第ＰＣＴ／ＵＳ２０１６／０１６４４４号及び米国特許第１４／４２０，６４６号に説明され、これらの文献のそれぞれは全体として本明細書によって参照により組み込まれている。マイクロ流体デバイスの例は、Ｔａｐｅｓｔｒｉ（商標）Ｐｌａｔｆｏｒｍである。

様々な実施形態では、細胞分析ワークフローデバイス１２０は、また、（ａ）対象デバイスの１つ以上の部分及び／または対象デバイス内のドロップレットの温度を制御し、マイクロ流体デバイス（複数可）に動作可能に接続される、温度調節モジュール、（ｂ）マイクロ流体デバイス（複数可）に動作可能に接続される、検出モジュール（すなわち、検出器、例えば、光学撮像器）、（ｃ）マイクロ流体デバイス（複数可）に動作可能に接続される、インキュベーター（例えば、細胞インキュベーター）、ならびに（ｄ）マイクロ流体デバイス（複数可）に動作可能に接続されるシーケンサーのうちの１つ以上を含み得る。１つ以上の温度及び／または圧力制御モジュールは、デバイスの１つ以上の流路のキャリア流体の温度及び／または圧力の制御を提供する。例として、温度調節モジュールは、核酸増幅を行うために温度を調節する１つ以上のサーマルサイクラーであり得る。１つ以上の検出モジュール（すなわち、検出器、例えば、光学撮像器）は、１つ以上のドロップレットの存在、またはその機能（その組成を含む）を検出するように構成される。いくつかの実施形態では、検出モジュールは、１つ以上の流路で、１つ以上のドロップレットの１つ以上の成分を認識するように構成される。シーケンサーは、次世代配列決定等の配列決定を行うように構成されるハードウェアデバイスである。シーケンサーの例は、Ｉｌｌｕｍｉｎａのシーケンサー（例えば、ＭｉｎｉＳｅｑ（商標）、ＭｉＳｅｑ（商標）、ＮｅｘｔＳｅｑ（商標）５５０シリーズ、またはＮｅｘｔＳｅｑ（商標）２０００）、Ｒｏｃｈｅの配列決定システム４５４、及びＴｈｅｒｍｏＦｉｓｈｅｒＳｃｉｅｎｔｉｆｉｃのシーケンサー（例えば、ＩｏｎＧｅｎｅＳｔｕｄｉｏＳ５システム、ＩｏｎＴｏｒｒｅｎｔＧｅｎｅｘｕｓシステム）を含む。

図５は、図１～図４を参照して説明されるシステム及び方法を実施するための例示的なコンピューティングデバイスを示す。様々な実施形態では、例示的なコンピューティングデバイス５００は、エラー修正を行い、バリアントをコールするために、図１に説明される塩基コーラーデバイス１３０として機能する。コンピューティングデバイスの例は、パーソナルコンピュータ、デスクトップコンピュータラップトップ、サーバーコンピュータ、クラスター内の計算ノード、メッセージプロセッサ、ハンドヘルドデバイス、マルチプロセッサシステム、マイクロプロセッサベースのまたはプログラム可能な家電製品、ネットワークＰＣ、ミニコンピュータ、メインフレームコンピュータ、携帯電話、ＰＤＡ、タブレット、ポケベル、ルーター、スイッチ等を含み得る。

図５に示されるように、いくつかの実施形態では、コンピューティングデバイス５００は、チップセット５０４に連結された少なくとも１つのプロセッサ５０２を含む。チップセット５０４は、メモリコントローラハブ５２０及び入力／出力（Ｉ／Ｏ）コントローラハブ５２２を含む。メモリ５０６及びグラフィックスアダプター５１２はメモリコントローラハブ５２０に連結され、ディスプレイ５１８はグラフィックスアダプター５１２に連結される。ストレージデバイス５０８、入力インタフェース５１４、及びネットワークアダプター５１６は、Ｉ／Ｏコントローラハブ５２２に連結される。コンピューティングデバイス５００の他の実施形態は異なるアーキテクチャを有する。

ストレージデバイス５０８は、ハードドライブ、コンパクトディスク読取専用メモリ（ＣＤ－ＲＯＭ）、ＤＶＤ、またはソリッドステートメモリデバイス等の非一時的コンピュータ可読記憶媒体である。メモリ５０６は、プロセッサ５０２によって使用される命令及びデータを保持する。入力インタフェース５１４は、タッチスクリーンインタフェース、マウス、トラックボール、もしくは他のタイプの入力インタフェース、キーボード、またはいくつかのそれらの組み合わせであり、データをコンピューティングデバイス５００に入力するために使用される。いくつかの実施形態では、コンピューティングデバイス５００は、入力インタフェース５１４から、ユーザのジェスチャによって、入力（例えば、コマンド）を受信するように構成され得る。グラフィックスアダプター５１２は、イメージ及び他の情報をディスプレイ５１８に表示する。ネットワークアダプター５１６は、コンピューティングデバイス５００を１つ以上のコンピュータネットワークに連結する。

コンピューティングデバイス５００は、本明細書に説明される機能を提供するためのコンピュータプログラムモジュールを実行するように適応する。本明細書で使用される「モジュール」という用語は、指定された機能を提供するために使用されるコンピュータプログラム論理を指す。したがって、モジュールは、ハードウェア、ファームウェア、及び／またはソフトウェアに実装できる。一実施形態では、プログラムモジュールは、ストレージデバイス５０８に記憶され、メモリ５０６にロードされ、プロセッサ５０２によって実行される。

コンピューティングデバイス５００のタイプは、本明細書に説明される実施形態毎に変わり得る。例えば、コンピューティングデバイス５００は、グラフィックスアダプター５１２、入力インタフェース５１４、及びディスプレイ５１８等の上記に説明したコンポーネントのいくつかが不足する可能性がある。いくつかの実施形態では、コンピューティングデバイス５００は、メモリ５０６に記憶された命令を実行するためのプロセッサ５０２を含み得る。

塩基エラー修正及びバリアントコーリングを行う方法は、ハードウェアもしくはソフトウェア、またはその両方の組み合わせで実施できる。一実施形態では、上記に説明したもの等の非一時的コンピュータ可読記憶媒体が提供され、当該媒体は、上記のデータを使用するための命令でプログラミングされた機械を使用するとき、本発明に開示される塩基エラー修正及びバリアントコーリング法を行うための命令を実行することが可能である機械可読データでエンコードされたデータストレージマテリアルを含む。上記に説明した方法の実施形態は、プロセッサ、データストレージシステム（揮発性メモリ及び不揮発性メモリ、ならびに／またはストレージエレメントを含む）、グラフィックスアダプター、入力インタフェース、ネットワークアダプター、少なくとも１つの入力デバイス、及び少なくとも１つの出力デバイスを含む、プログラム可能なコンピュータ上で実行するコンピュータプログラムに実装できる。ディスプレイはグラフィックスアダプターに連結される。プログラムコードを入力データに適用して、上記に説明した機能を実施し、出力情報を生成する。出力情報を、既知の様式で１つ以上の出力装置に適用する。コンピュータは、例えば、従来の設計のパーソナルコンピュータ、マイクロコンピュータ、またはワークステーションであり得る。

各プログラムは、ハイレベル手順またはオブジェクト指向のプログラミング言語で実装され、コンピュータシステムと通信できる。しかしながら、プログラムは、必要に応じて、アセンブリ言語または機械言語で実装できる。いずれの場合も、言語はコンパイラ言語またはインタプリタ言語であり得る。そのようなコンピュータプログラムのそれぞれは、ストレージ媒体またはストレージデバイスがコンピュータによって読み取られ、本明細書に説明される手順を行うとき、コンピュータを構成及び動作させるために、汎用または専用のプログラム可能なコンピュータによって読み取り可能なストレージ媒体またはストレージデバイス（例えば、ＲＯＭまたは磁気ディスク）に記憶されるのが好ましい。本システムは、コンピュータプログラムで構成されるコンピュータ可読ストレージ媒体として実装されるとみなすことができ、そのように構成されたストレージ媒体は、コンピュータを特定及び所定の方式で動作させ、本明細書に説明される機能を実施させる。

署名パターン及びそのデータベースは、様々な媒体で提供され、その使用を容易にできる。「媒体」は、本発明の署名パターン情報を含む製品を意味する。本発明のデータベースは、コンピュータ可読媒体（例えば、コンピュータによって読み取られ、直接アクセスできるいずれかの媒体）に記録できる。そのような媒体は、限定ではないが、フロッピーディスク、ハードディスクストレージ媒体、及び磁気テープ等の磁気記憶媒体、ＣＤ－ＲＯＭ等の光学記憶媒体、ＲＡＭ及びＲＯＭ等の電気記憶媒体、ならびに磁気／光学記憶媒体等のこれらのカテゴリーのハイブリッドを含む。当業者は、現在知られているコンピュータ可読媒体のいずれかを使用して、本発明のデータベース情報の記録を含む製品を作成する方法を容易に理解できる。「記録された」は、当技術分野において既知のそのようないずれかの方法を使用して、コンピュータ可読媒体に情報を記憶するためのプロセスを意味する。記憶した情報にアクセスするために使用される手段に基づき、いずれかの従来のデータストレージ構造を選ぶことができる。記憶するために、様々なデータプロセッサプログラム及びフォーマット（例えば、ワープロテキストファイル、データベースフォーマット等）を使用できる。

実施例１：エラー修正モデルを適用する前の配列リードで観察された基本エラー
図６は、塩基エラーの大部分が１つの細胞だけに観察される、塩基エラーの分布の例を示す。図６の定量化されたエラーは、エラー修正モデルを適用しない配列リードに存在するエラーを指す。

データは細胞株サンプルから内部に生成され、Ｔａｐｅｓｔｒｉ（商標）によって実行され、Ｔａｐｅｓｔｒｉ（商標）標準パイプラインを使用して分析された。細胞毎にエラー（ミスマッチ）が取得され、細胞のエラーの頻度を計算して、そのプロットが生成された。具体的には、配列リードのエラーの大部分は１つの細胞だけに観察され、２つ以上の細胞で観察された配列リードのエラー数は限られている。これは、個々の細胞の配列リードに対して修正を行うことで、参照塩基に対するマッチ塩基またはミスマッチ塩基として間違って識別されるエラー（例えば、偽陽性及び／または偽陰性）の数を減らすことを可能にすることを示唆する。言い換えると、細胞に由来する配列リードの塩基がエラーであると判断された場合、同じ細胞に由来する他の配列リードの同じ塩基がエラーである可能性がより高くなる。したがって、個々の細胞からの配列リードの細胞特異的エラー修正を行うことは、従来の方法（例えば、バルク処理によって取得されたエラー修正リード）よりも正確及び／または高速である。

実施例２：エラー修正モデルを実施する方法の例
概して、図７～図１０に関連して下記に説明されるエラー修正モデルを実施するための例示的な方法は、個々の細胞に由来する配列リードで塩基のエラー修正を行うことを意味する。

図７に示される遷移マトリクス等の遷移マトリクスはサンプル用に生成された。遷移マトリクスの確率は、サンプルの４００万回の読み取りの既知の塩基の全部に対して定量化することによって生成され、読み取りは参照ゲノムに整列された。既知の参照塩基（例えば、アデニン、チミン、グアニン、またはシトシンの既知の参照塩基）について、４００万回のプローブの全部に対して４つのヌクレオチド塩基のそれぞれの観察量を測定して、遷移マトリクスの相対的確率を生成した。

細胞の配列リード全体にわたってミスマッチ塩基が特定された。塩基毎に、多項確率が計算され、多項確率は、配列リード全体の位置における代替塩基（例えば、参照塩基とは異なる３ヌクレオチド塩基のいずれか）の割合を観察する尤度を反映する。具体的には、位置の多項確率は次のように計算された。
Ｐ（塩基１＝Ｘ、塩基２＝Ｙ、塩基３＝Ｚ｜Ｎ回の読み取り）
ここで、塩基１、塩基２、及び塩基３は参照塩基と一致しないヌクレオチド塩基を指す。ここで、Ｘはその位置における塩基１を有する観察された配列リードの数であり、Ｙはその位置における塩基２を有する観察された配列リードの数であり、Ｚはその位置における塩基３を有する観察された配列リードの数であり、Ｎはその位置における観察された配列リードの総数である。

塩基の多項確率を遷移マトリクスの遷移確率と比較した。遷移確率は、参照ヌクレオチド塩基から観察されたヌクレオチド塩基に遷移する尤度を反映する。多項確率が遷移マトリクスの遷移確率よりも大きい場合、塩基は関心対象の塩基として識別された。多項確率が遷移マトリクスの遷移確率よりも小さい場合、塩基は関心対象の塩基として識別されなかった。

パイルアップは、関心対象の塩基毎に作成された。図８Ａ及び図８Ｂは、異なる位置にわたる６つの配列リードのパイルアップの例証である。図８Ａ及び図８Ｂは、それぞれ、例示的な位置０～１４（一番上の行）を示す。図８Ａは、さらに、対応する位置のそれぞれにおける参照塩基（２行目）と、６つの整列された配列リードのそれぞれの塩基とを識別する。図８Ｂは、６つの配列リード全体にわたって定量化された各塩基の確率を示す。当業者は、ゲノム全体の追加の位置（例えば、数千または数百万の位置）、追加の参照塩基（例えば、数千または数百万の参照塩基）、及び配列リードの追加の塩基（例えば、数千または数百万の追加の配列リード）がパイルアップの例に含まれ得ることを容易に理解できる。

ここで、パイルアップの例は、参照塩基と比較してミスマッチである関心対象の塩基に生成される。具体的には、例のパイルアップは位置７に生成される。参照塩基は位置７のシトシン塩基を示すが、６つの配列リードのうち５つ（８３％）にミスマッチのグアニン塩基が含まれている。

図９Ａは、エラー修正モデルの入力及び出力の例を示す。この例では、図８Ｂに示されるパイルアップ等のパイルアップは、関心対象の塩基を修正するためのエラー修正モデルへの入力として提供される。ここでは、エラー修正モデルは深層学習ニューラルネットワーク（ＤＮＮ）である。エラー修正モデルは、いくつかの異なるハイパーパラメータを使用して最適化され、各ハイパーパラメータの最適値を識別した。ハイパーパラメータは、限定ではないが、カーネル正則化係数、学習率、層数、活性化関数、オプティマイザーを含む。

エラー修正モデルは、関心対象の塩基の周りのコンテクスト配列、関心対象の塩基の配列決定深度、及び関心対象の塩基のアレル頻度を含むパイルアップの単一細胞の特徴を分析する。

エラー修正モデルは、４つのヌクレオチド塩基（アデニン、シトシン、グアニン、チミン）にわたる確率分布を出力する。ここで、各確率は、関心対象の塩基が特定の塩基である尤度を示す。図９Ａに示される例では、エラー修正モデルは、関心対象の塩基がアデニンである尤度が２０％、関心対象の塩基がシトシンである尤度が０％、関心対象の塩基がグアニンである尤度が７０％、関心対象の塩基がチミンである尤度が１０％であることを示す確率分布を出力する。

図９Ｂは、エラー修正モデルによって予測された確率を使用して関心対象の塩基を修正する例を示す。図９Ｂに示される最初の２列では、塩基が位置する染色体及び塩基の参照位置を含む塩基の場所が識別される。３列目では、関心対象の塩基が修正された修正塩基が識別され、ここでは、エラー修正モデルによって出力された確率に依存する。ここで、エラー修正モデルによって出力された確率は４列目に示される。

具体的には、１行目について、それが最高確率（例えば、０．６７４８）を有することを考えると、出力された確率は、関心対象の塩基がアデニンヌクレオチド塩基である可能性が最も高いことを示す。したがって、関心対象の塩基はアデニンに修正される。２行目について、それが最高確率（例えば、０．９１２７）を有することを考えると、出力された確率は、関心対象の塩基がシトシンヌクレオチド塩基である可能性が最も高いことを示す。３行目について、それが最高確率（例えば、０．８３４６５）を有することを考えると、出力された確率は、関心対象の塩基がシトシンヌクレオチド塩基である可能性が最も高いことを示す。４行目について、それが最高確率（例えば、０．６１９３）を有することを考えると、出力された確率は、関心対象の塩基がチミンヌクレオチド塩基である可能性が最も高いことを示す。

図１０は、エラー修正モデルを実施した結果として、４つの異なる細胞集団にわたる２０～３５％の塩基の修正を示す。４つの細胞株のそれぞれが単一細胞ワークフローデバイス（例えば、Ｔａｐｅｓｔｒｉ（登録商標））によって処理され、単一細胞ＤＮＡを配列決定して、配列リードを生成した。細胞毎に、エラー修正モデルを細胞に由来する配列リードの対象のエラー修正塩基に適用した。

要するに、エラー修正モデルを単一細胞ＤＮＡ配列リードに適用して、ＰＣＲエラー、配列決定エラー、配列決定アライメントエラー、または修正エラーのいずれかが原因で発生する可能性が高い誤った塩基の大部分を識別及び修正できる。これらの修正された配列リードにより、下記の実施例３で説明されるように、より正確なバリアントコールが可能になる。

実施例３：バリアントコーラーモデルを実施する方法
配列リードのエラー修正後、バリアントをフィルタリングして、最小アレル頻度及び変異した細胞数等の閾値を満たさなかったバリアントを除去した。残りのバリアント細胞集団の特徴のバリアント毎に、ヘテロ接合コールのパーセンテージ、ヘテロ接合コールのバリアントアレル頻度（ＶＡＦ）の中央値、ヘテロ接合コールの遺伝子型品質の中央値、ヘテロ接合コールの読み取り深度の中央値、ホモ接合コールのパーセンテージ、ホモ接合コールのＶＡＦの中央値、ホモ接合コールの遺伝子型品質の中央値、ホモ接合コールの読み取り深度の中央値、参照コールのパーセンテージ、ホモ接合コールの読み取り深度の変動係数（ＣＶ）、ヘテロ接合コールの読み取り深度のＣＶ、ホモ接合コールの遺伝子型品質のＣＶ、ヘテロ接合コールの遺伝子型品質のＣＶ、ホモ接合コールのＶＡＦのＣＶ、ヘテロ接合コールのＶＡＦのＣＶ、ホモ接合コールのＶＡＦの平均値と中央値との差、ヘテロ接合コールのＶＡＦの平均値と中央値との差、及び単位複製配列ＧＣのパーセンテージを計算した。

１９個のサンプルから取得された細胞からの細胞集団の特徴を使用して、このシナリオではマルチクラスニューラルネットワーク分類器であるバリアントコーラーモデルをトレーニングした。トレーニングサンプルは下記の表１に開示される。これらのサンプルについて、各々のサンプルに存在する既知の真のバリアント（バルク配列決定法で確認済）に基づいて、既知のバリアントにクラス（異種バリアント、ホモ接合バリアント、または参照塩基）が与えられた。トレーニングサンプルは、最大０．１％の様々な希釈率の細胞混合物からの様々なサンプルと、Ｔａｐｅｓｔｒｉ機器によって処理され、様々なシーケンサーのセットで配列決定された臨床サンプルとを含んでいた。トレーニングデータはクラスの不均衡があり、特定のクラスのコールが他のクラスと比較してはるかに少ないため、小さいクラスのアップサンプリングが行われた。モデルのハイパーパラメータは、既知の真の標識を有する検証データを使用して繰り返し調整された。いったんモデルが適切な精度を実現すると、トレーニングを停止し、次に、新しいサンプルの予測モードでモデルを使用して、それらのサンプルの上位のバリアントを識別した。

１３個の試験サンプルを使用して、バリアントコーラーモデルのパフォーマンスを評価した。試験サンプルは下記の表２に開示される。図１１は、１３個のサンプルの全体にわたるバリアントコーラーモデルの実施後の真のバリアントの改善された陽性的中率を示す。２段階のエラー修正モデル及びバリアント予測モデルを使用すると、大幅に改善した陽性的中率（ＰＰＶ）の中央値が実現した。具体的には、０．５％のＬＯＤにおけるＰＰＶの２～３倍の改善が１３個のサンプルの大部分で観察された。エラー修正モデル及び／またはバリアント予測モデルとは対照的に、ハードカットオフフィルタを使用する従来のＧＡＴＫモデルと比較して、２～３倍の改善が観察された。

要するに、これらの結果は、エラー修正モデル及びバリアントコーラーモデルの適用により、バリアントコーリングの大幅な改善が実現することを示す。

［本発明１００１］
細胞集団の１つ以上のバリアントをコールするための方法であって、
複数の配列リードを前記細胞集団の細胞から取得することと、
前記細胞集団中の複数の細胞について、前記細胞から取得された配列リードを修正することであって、
参照塩基とは異なる前記配列リードの関心対象の塩基を識別すること、
前記関心対象の塩基の単一細胞の特徴を分析するためにエラー修正モデルを適用することであって、前記エラー修正モデルが、前記関心対象の塩基の確率を予測するためにトレーニングされる、前記適用すること、及び
前記細胞に由来する前記配列リードの前記関心対象の塩基を修正すること
を含む、前記修正することと、
前記細胞集団の細胞全体にわたって修正された配列リードを集約することによって細胞集団の特徴を生成することであって、前記修正された配列リードが、修正された塩基を含む、前記生成することと、
前記細胞集団全体にわたって１つ以上のバリアントを識別するために、バリアントコーラーモデルを、前記集約された配列リードに由来する前記細胞集団の特徴に適用することと
を含む、前記方法。
［本発明１００２］
前記単一細胞の特徴が、前記関心対象の塩基の周りのコンテクスト配列、前記関心対象の塩基の配列決定深度、前記関心対象の塩基のアレル頻度、及び前記関心対象の塩基の周りのウィンドウ内の塩基のアレル頻度を含む、本発明１００１の方法。
［本発明１００３］
前記配列リードの関心対象の塩基を識別することが、参照塩基とミスマッチ塩基との間の遷移の尤度を含む遷移マトリクスを、ミスマッチ塩基について前記配列リード全体にわたってヌクレオチド塩基の割合を観察する確率に適用することを含む、本発明１００１または１００２の方法。
［本発明１００４］
前記配列リードの関心対象の塩基を識別することが、
前記ミスマッチ塩基について前記配列リード全体にわたってヌクレオチド塩基の割合を観察する前記確率を算出することと、
前記算出された確率を前記遷移マトリクスからの遷移の尤度と比較することと
をさらに含む、本発明１００３の方法。
［本発明１００５］
前記算出された確率が前記遷移の尤度よりも大きいことに応答して、前記ミスマッチ塩基を関心対象の塩基として識別する、本発明１００４の方法。
［本発明１００６］
１つ以上のサンプル細胞集団に由来する配列リードを含むトレーニングデータを使用して、前記遷移マトリクスが生成される、本発明１００５の方法。
［本発明１００７］
前記細胞集団の細胞からの前記複数の配列リードを使用して、前記遷移マトリクスが生成される、本発明１００５の方法。
［本発明１００８］
前記細胞集団の前記１つ以上の細胞の配列リードが修正されるとき、前記遷移マトリクスの前記遷移の尤度が動的に更新される、本発明１００５の方法。
［本発明１００９］
前記エラー修正モデルがニューラルネットワークである、本発明１００１～１００８のいずれかの方法。
［本発明１０１０］
前記エラー修正モデルが、関心対象の塩基の周りのモチーフ及び局所的配列コンテクストを学習する１つ以上の層を含む深層学習ニューラルネットワークである、本発明１００１～１００９のいずれかの方法。
［本発明１０１１］
前記細胞結果に由来する前記複数の配列リードの１つ以上の配列リードを修正することが、参照塩基とは異なる関心対象の塩基の少なくとも２５％を修正することを含む、本発明１００１～１０１０のいずれかの方法。
［本発明１０１２］
前記細胞集団の特徴が、ヘテロ接合コールのパーセンテージ、ヘテロ接合コールのバリアントアレル頻度（ＶＡＦ）の中央値、ヘテロ接合コールの遺伝子型品質の中央値、ヘテロ接合コールの読み取り深度の中央値、ホモ接合コールのパーセンテージ、ホモ接合コールのＶＡＦの中央値、ホモ接合コールの遺伝子型品質の中央値、ホモ接合コールの読み取り深度の中央値、参照コールのパーセンテージ、ホモ接合コールの読み取り深度の変動係数（ＣＶ）、ヘテロ接合コールの読み取り深度のＣＶ、ホモ接合コールの遺伝子型品質のＣＶ、ヘテロ接合コールの遺伝子型品質のＣＶ、ホモ接合コールのＶＡＦのＣＶ、ヘテロ接合コールのＶＡＦのＣＶ、ホモ接合コールのＶＡＦの平均値と中央値との差、ヘテロ接合コールのＶＡＦの平均値と中央値との差、及び単位複製配列ＧＣのパーセンテージの１つ以上を含む、本発明１００１～１０１１のいずれかの方法。
［本発明１０１３］
前記バリアントコーラーモデルが、関心対象のヘテロ接合バリアントまたは関心対象のホモ接合バリアントの少なくとも１つを予測する、本発明１００１～１０１２のいずれかの方法。
［本発明１０１４］
前記バリアントコーラーモデルが、不確定バリアントをさらに予測する、本発明１０１３の方法。
［本発明１０１５］
前記バリアントコーラーモデルが、１つ以上の細胞株に由来する配列リードと、前記１つ以上の細胞株に存在する既知のヘテロ接合バリアントまたはホモ接合バリアントの指標とを含むトレーニングデータを使用してトレーニングされる、本発明１００１～１０１４のいずれかの方法。
［本発明１０１６］
前記エラー修正モデル及び前記バリアントコーラーモデルの前記適用が、従来のＧＴＡＫバリアントコーラーと比較して、０．５％の検出限界（ＬＯＤ）において真のバリアント陽性的中率の少なくとも２倍の増加を実現する、本発明１００１～１０１５のいずれかの方法。
［本発明１０１７］
前記エラー修正モデル及び前記バリアントコーラーモデルの前記適用が、０．５％の検出限界（ＬＯＤ）において少なくとも０．６の真のバリアント陽性的中率を実現する、本発明１００１～１０１５のいずれかの方法。
［本発明１０１８］
前記細胞に由来する前記複数の配列リードが単一細胞ワークフロー分析によって決定される、本発明１００１～１０１７のいずれかの方法。
［本発明１０１９］
前記参照塩基が参照ゲノム配列から決定される、本発明１００１～１０１８のいずれかの方法。
［本発明１０２０］
前記参照塩基が、対照細胞から取得された１つ以上の配列リードから決定される、本発明１００１～１０１８のいずれかの方法。
［本発明１０２１］
細胞集団の１つ以上のバリアントをコールするための非一時的コンピュータ可読媒体であって、前記非一時的コンピュータ可読媒体が命令を含み、前記命令が、プロセッサによって実行されるとき、前記プロセッサに、
複数の配列リードを前記細胞集団の細胞から取得することと、
前記細胞集団中の複数の細胞について、前記細胞から取得された配列リードを修正することであって、
参照塩基とは異なる前記配列リードの関心対象の塩基を識別すること、
前記関心対象の塩基の単一細胞の特徴を分析するためにエラー修正モデルを適用することであって、前記エラー修正モデルが、前記関心対象の塩基の確率を予測するためにトレーニングされる、前記適用すること、及び
前記細胞に由来する前記配列リードの前記関心対象の塩基を修正すること
を含む、前記修正することと、
前記細胞集団の細胞全体にわたって修正された配列リードを集約することによって細胞集団の特徴を生成することであって、前記修正された配列リードが、修正された塩基を含む、前記生成することと、
前記細胞集団全体にわたって１つ以上のバリアントを識別するために、バリアントコーラーモデルを、前記集約された配列リードに由来する前記細胞集団の特徴に適用することと
を行わせる、前記非一時的コンピュータ可読媒体。
［本発明１０２２］
前記単一細胞の特徴が、前記関心対象の塩基の周りのコンテクスト配列、前記関心対象の塩基の配列決定深度、前記関心対象の塩基のアレル頻度、及び前記関心対象の塩基の周りのウィンドウ内の塩基のアレル頻度を含む、本発明１０２１の非一時的コンピュータ可読媒体。
［本発明１０２３］
前記プロセッサに前記配列リードの関心対象の塩基を識別させる前記命令が、前記プロセッサによって実行されるとき、前記プロセッサに、参照塩基とミスマッチ塩基との間の遷移の尤度を含む遷移マトリクスを適用させる命令をさらに含む、本発明１０２１または１０２２の非一時的コンピュータ可読媒体。
［本発明１０２４］
前記プロセッサに前記配列リードの関心対象の塩基を識別させる前記命令が、前記プロセッサによって実行されるとき、前記プロセッサに、
ミスマッチ塩基について前記配列リード全体にわたってヌクレオチド塩基の割合を観察する確率を算出することと、
前記算出された確率を前記遷移マトリクスからの遷移の尤度と比較することと
を行わせる命令をさらに含む、本発明１０２３の非一時的コンピュータ可読媒体。
［本発明１０２５］
前記算出された確率が前記遷移の尤度よりも大きいことに応答して、前記ミスマッチ塩基を関心対象の塩基として識別する、本発明１０２４の非一時的コンピュータ可読媒体。
［本発明１０２６］
１つ以上のサンプル細胞集団に由来する配列リードを含むトレーニングデータを使用して、前記遷移マトリクスが生成される、本発明１０２３～１０２５のいずれかの非一時的コンピュータ可読媒体。
［本発明１０２７］
前記細胞集団の細胞からの前記複数の配列リードを使用して、前記遷移マトリクスが生成される、本発明１０２３～１０２５のいずれかの非一時的コンピュータ可読媒体。
［本発明１０２８］
前記細胞集団の前記１つ以上の細胞の配列リードが修正されるとき、前記遷移マトリクスの前記遷移の尤度が動的に更新される、本発明１０２３～１０２５のいずれかの非一時的コンピュータ可読媒体。
［本発明１０２９］
前記エラー修正モデルがニューラルネットワークである、本発明１０２１～１０２８のいずれかの非一時的コンピュータ可読媒体。
［本発明１０３０］
前記エラー修正モデルが、関心対象の塩基の周りのモチーフ及び局所的配列コンテクストを学習する１つ以上の層を含む深層学習ニューラルネットワークである、本発明１０２１～１０２９のいずれかの非一時的コンピュータ可読媒体。
［本発明１０３１］
前記細胞結果に由来する前記複数の配列リードの１つ以上の配列リードを修正することが、参照塩基とは異なる関心対象の塩基の少なくとも２５％を修正することを含む、本発明１０２１～１０３０のいずれかの非一時的コンピュータ可読媒体。
［本発明１０３２］
前記細胞集団の特徴が、ヘテロ接合コールのパーセンテージ、ヘテロ接合コールのバリアントアレル頻度（ＶＡＦ）の中央値、ヘテロ接合コールの遺伝子型品質の中央値、ヘテロ接合コールの読み取り深度の中央値、ホモ接合コールのパーセンテージ、ホモ接合コールのＶＡＦの中央値、ホモ接合コールの遺伝子型品質の中央値、ホモ接合コールの読み取り深度の中央値、参照コールのパーセンテージ、ホモ接合コールの読み取り深度の変動係数（ＣＶ）、ヘテロ接合コールの読み取り深度のＣＶ、ホモ接合コールの遺伝子型品質のＣＶ、ヘテロ接合コールの遺伝子型品質のＣＶ、ホモ接合コールのＶＡＦのＣＶ、ヘテロ接合コールのＶＡＦのＣＶ、ホモ接合コールのＶＡＦの平均値と中央値との差、ヘテロ接合コールのＶＡＦの平均値と中央値との差、及び単位複製配列ＧＣのパーセンテージの１つ以上を含む、本発明１０２１～１０３１のいずれかの非一時的コンピュータ可読媒体。
［本発明１０３３］
前記バリアントコーラーモデルが、関心対象のヘテロ接合バリアントまたは関心対象のホモ接合バリアントの少なくとも１つを予測する、本発明１０２１～１０３２のいずれかの非一時的コンピュータ可読媒体。
［本発明１０３４］
前記バリアントコーラーモデルが、不確定バリアントをさらに予測する、本発明１０３３の非一時的コンピュータ可読媒体。
［本発明１０３５］
前記バリアントコーラーモデルが、１つ以上の細胞株に由来する配列リードと、前記１つ以上の細胞株に存在する既知のヘテロ接合バリアントまたはホモ接合バリアントの指標とを含むトレーニングデータを使用してトレーニングされる、本発明１０２１～１０３４のいずれかの非一時的コンピュータ可読媒体。
［本発明１０３６］
前記エラー修正モデル及び前記バリアントコーラーモデルの前記適用が、従来のＧＴＡＫバリアントコーラーと比較して、０．５％の検出限界（ＬＯＤ）において真のバリアント陽性的中率の少なくとも２倍の増加を実現する、本発明１０２１～１０３５のいずれかの非一時的コンピュータ可読媒体。
［本発明１０３７］
前記エラー修正モデル及び前記バリアントコーラーモデルの前記適用が、０．５％の検出限界（ＬＯＤ）において少なくとも０．６の真のバリアント陽性的中率を実現する、本発明１０２１～１０３５のいずれかの非一時的コンピュータ可読媒体。
［本発明１０３８］
前記細胞に由来する前記複数の配列リードが単一細胞ワークフロー分析によって決定される、本発明１０２１～１０３７のいずれかの非一時的コンピュータ可読媒体。
［本発明１０３９］
前記参照塩基が参照ゲノム配列から決定される、本発明１０２１～１０３８のいずれかの非一時的コンピュータ可読媒体。
［本発明１０４０］
前記参照塩基が、対照細胞から取得された１つ以上の配列リードから決定される、本発明１０２１～１０３８のいずれかの非一時的コンピュータ可読媒体。
［本発明１０４１］
以下を備えるシステム：
細胞集団の細胞の複数の配列リードを生成するように構成される単一細胞分析ワークフローデバイス；
前記単一細胞分析ワークフローデバイスに通信可能に連結された計算デバイスであって、
複数の配列リードを前記細胞集団の細胞から取得することと、
前記細胞集団中の複数の細胞について、前記細胞から取得された配列リードを修正することであって、
参照塩基とは異なる前記配列リードの関心対象の塩基を識別すること、
前記関心対象の塩基の単一細胞の特徴を分析するためにエラー修正モデルを適用することであって、前記エラー修正モデルが、前記関心対象の塩基の確率を予測するためにトレーニングされる、前記適用すること、及び
前記細胞に由来する前記配列リードの前記関心対象の塩基を修正すること
を含む、前記修正することと、
前記細胞集団の細胞全体にわたって修正された配列リードを集約することによって細胞集団の特徴を生成することであって、前記修正された配列リードが、修正された塩基を含む、前記生成することと、
前記細胞集団全体にわたって１つ以上のバリアントを識別するために、バリアントコーラーモデルを、前記集約された配列リードに由来する前記細胞集団の特徴に適用することと
を行うように構成される、前記計算デバイス。
［本発明１０４２］
前記単一細胞の特徴が、前記関心対象の塩基の周りのコンテクスト配列、前記関心対象の塩基の配列決定深度、前記関心対象の塩基のアレル頻度、及び前記関心対象の塩基の周りのウィンドウ内の塩基のアレル頻度を含む、本発明１０４１のシステム。
［本発明１０４３］
前記配列リードの関心対象の塩基を識別することが、参照塩基とミスマッチ塩基との間の遷移の尤度を含む遷移マトリクスを、ミスマッチ塩基について前記配列リード全体にわたってヌクレオチド塩基の割合を観察する確率に適用することを含む、本発明１０４１または１０４２のシステム。
［本発明１０４４］
前記配列リードの関心対象の塩基を識別することが、
前記ミスマッチ塩基について前記配列リード全体にわたってヌクレオチド塩基の割合を観察する前記確率を算出することと、
前記算出された確率を前記遷移マトリクスからの遷移の尤度と比較することと
を含む、本発明１０４３のシステム。
［本発明１０４５］
前記算出された確率が前記遷移の尤度よりも大きいことに応答して、前記ミスマッチ塩基を関心対象の塩基として識別する、本発明１０４４のシステム。
［本発明１０４６］
１つ以上のサンプル細胞集団に由来する配列リードを含むトレーニングデータを使用して、前記遷移マトリクスが生成される、本発明１０４５のシステム。
［本発明１０４７］
前記細胞集団の細胞からの前記複数の配列リードを使用して、前記遷移マトリクスが生成される、本発明１０４５のシステム。
［本発明１０４８］
前記細胞集団の前記１つ以上の細胞の配列リードが修正されるとき、前記遷移マトリクスの前記遷移の尤度が動的に更新される、本発明１０４５のシステム。
［本発明１０４９］
前記エラー修正モデルがニューラルネットワークである、本発明１０４１～１０４８のいずれかのシステム。
［本発明１０５０］
前記エラー修正モデルが、関心対象の塩基の周りのモチーフ及び局所的配列コンテクストを学習する１つ以上の層を含む深層学習ニューラルネットワークである、本発明１０４１～１０４９のいずれかのシステム。
［本発明１０５１］
前記細胞結果に由来する前記複数の配列リードの１つ以上の配列リードを修正することが、参照塩基とは異なる関心対象の塩基の少なくとも２５％を修正することを含む、本発明１０４１～１０５０のいずれかのシステム。
［本発明１０５２］
前記細胞集団の特徴が、ヘテロ接合コールのパーセンテージ、ヘテロ接合コールのバリアントアレル頻度（ＶＡＦ）の中央値、ヘテロ接合コールの遺伝子型品質の中央値、ヘテロ接合コールの読み取り深度の中央値、ホモ接合コールのパーセンテージ、ホモ接合コールのＶＡＦの中央値、ホモ接合コールの遺伝子型品質の中央値、ホモ接合コールの読み取り深度の中央値、参照コールのパーセンテージ、ホモ接合コールの読み取り深度の変動係数（ＣＶ）、ヘテロ接合コールの読み取り深度のＣＶ、ホモ接合コールの遺伝子型品質のＣＶ、ヘテロ接合コールの遺伝子型品質のＣＶ、ホモ接合コールのＶＡＦのＣＶ、ヘテロ接合コールのＶＡＦのＣＶ、ホモ接合コールのＶＡＦの平均値と中央値との差、ヘテロ接合コールのＶＡＦの平均値と中央値との差、及び単位複製配列ＧＣのパーセンテージの１つ以上を含む、本発明１０４１～１０５１のいずれかのシステム。
［本発明１０５３］
前記バリアントコーラーモデルが、関心対象のヘテロ接合バリアントまたは関心対象のホモ接合バリアントの少なくとも１つを予測する、本発明１０４１～１０５２のいずれかのシステム。
［本発明１０５４］
前記バリアントコーラーモデルが、不確定バリアントをさらに予測する、本発明１０５３のシステム。
［本発明１０５５］
前記バリアントコーラーモデルが、１つ以上の細胞株に由来する配列リードと、前記１つ以上の細胞株に存在する既知のヘテロ接合バリアントまたはホモ接合バリアントの指標とを含むトレーニングデータを使用してトレーニングされる、本発明１０４１～１０５４のいずれかのシステム。
［本発明１０５６］
前記エラー修正モデル及び前記バリアントコーラーモデルの前記適用が、従来のＧＴＡＫバリアントコーラーと比較して、０．５％の検出限界（ＬＯＤ）において真のバリアント陽性的中率の少なくとも２倍の増加を実現する、本発明１０４１～１０５５のいずれかのシステム。
［本発明１０５７］
前記エラー修正モデル及び前記バリアントコーラーモデルの前記適用が、０．５％の検出限界（ＬＯＤ）において少なくとも０．６の真のバリアント陽性的中率を実現する、本発明１０４１～１０５５のいずれかのシステム。
［本発明１０５８］
前記参照塩基が参照ゲノム配列から決定される、本発明１０４１～１０５７のいずれかのシステム。
［本発明１０５９］
前記参照塩基が、対照細胞から取得された１つ以上の配列リードから決定される、本発明１０４１～１０５７のいずれかのシステム。
本発明のこれらの及び他の特徴、態様、及び利点は、以下の説明及び添付の図面に関してより深く理解されるであろう。

ある実施形態による、細胞分析ワークフローデバイス及びバリアントコールを識別するための塩基コーラーデバイスを含む全体的なシステム環境を示す。ある実施形態による、塩基コーラーデバイスの別個のモジュールのブロック図である。ある実施形態による、単一細胞に由来する配列リードを修正するためのフロー図である。ある実施形態による、修正された配列リードを使用して、細胞集団のバリアントをコールするためのフロー図を示す。ある実施形態による、エラー修正モデルの実施態様を示す。ある実施形態による、バリアントコーラーモデルの実施態様を示す。図１～図４を参照して説明されるシステム及び方法を実施するための例示的なコンピューティングデバイスを示す。塩基エラーの大部分が１つの細胞だけに観察される、塩基エラーの分布の例を示す。遷移マトリクスの例証である。図８Ａ及び図８Ｂは、異なる位置にわたる６つの配列リードのパイルアップの例証である。図８Ａは、出現順に（上から）それぞれ配列番号：１～３及び３～６を開示する。図８Ａ及び図８Ｂは、異なる位置にわたる６つの配列リードのパイルアップの例証である。エラー修正モデルの入力及び出力の例を示す。エラー修正モデルによって予測された確率を使用して関心対象の塩基を修正する例を示す。エラー修正モデルを実施した結果として、４つの異なる細胞集団にわたる２０～３５％の塩基の修正を示す。エラー修正モデル及びバリアントコーラーモデルの実施後の真のバリアントの改善された陽性的中率を示す。

Claims

細胞集団の１つ以上のバリアントをコールするための方法であって、
複数の配列リードを前記細胞集団の細胞から取得することと、
前記細胞集団中の複数の細胞について、前記細胞から取得された配列リードを修正することであって、
参照塩基とは異なる前記配列リードの関心対象の塩基を識別すること、
前記関心対象の塩基の単一細胞の特徴を分析するためにエラー修正モデルを適用することであって、前記エラー修正モデルが、前記関心対象の塩基の確率を予測するためにトレーニングされる、前記適用すること、及び
前記細胞に由来する前記配列リードの前記関心対象の塩基を修正すること
を含む、前記修正することと、
前記細胞集団の細胞全体にわたって修正された配列リードを集約することによって細胞集団の特徴を生成することであって、前記修正された配列リードが、修正された塩基を含む、前記生成することと、
前記細胞集団全体にわたって１つ以上のバリアントを識別するために、バリアントコーラーモデルを、前記集約された配列リードに由来する前記細胞集団の特徴に適用することと
を含む、前記方法。
前記単一細胞の特徴が、前記関心対象の塩基の周りのコンテクスト配列、前記関心対象の塩基の配列決定深度、前記関心対象の塩基のアレル頻度、及び前記関心対象の塩基の周りのウィンドウ内の塩基のアレル頻度を含む、請求項１に記載の方法。
前記配列リードの関心対象の塩基を識別することが、参照塩基とミスマッチ塩基との間の遷移の尤度を含む遷移マトリクスを、ミスマッチ塩基について前記配列リード全体にわたってヌクレオチド塩基の割合を観察する確率に適用することを含む、請求項１または２に記載の方法。
前記配列リードの関心対象の塩基を識別することが、
前記ミスマッチ塩基について前記配列リード全体にわたってヌクレオチド塩基の割合を観察する前記確率を算出することと、
前記算出された確率を前記遷移マトリクスからの遷移の尤度と比較することと
をさらに含む、請求項３に記載の方法。
前記算出された確率が前記遷移の尤度よりも大きいことに応答して、前記ミスマッチ塩基を関心対象の塩基として識別する、請求項４に記載の方法。
１つ以上のサンプル細胞集団に由来する配列リードを含むトレーニングデータを使用して、前記遷移マトリクスが生成される、請求項５に記載の方法。
前記細胞集団の細胞からの前記複数の配列リードを使用して、前記遷移マトリクスが生成される、請求項５に記載の方法。
前記細胞集団の前記１つ以上の細胞の配列リードが修正されるとき、前記遷移マトリクスの前記遷移の尤度が動的に更新される、請求項５に記載の方法。
前記エラー修正モデルがニューラルネットワークである、請求項１～８のいずれか１項に記載の方法。
前記エラー修正モデルが、関心対象の塩基の周りのモチーフ及び局所的配列コンテクストを学習する１つ以上の層を含む深層学習ニューラルネットワークである、請求項１～９のいずれか１項に記載の方法。
前記細胞結果に由来する前記複数の配列リードの１つ以上の配列リードを修正することが、参照塩基とは異なる関心対象の塩基の少なくとも２５％を修正することを含む、請求項１～１０のいずれか１項に記載の方法。
前記細胞集団の特徴が、ヘテロ接合コールのパーセンテージ、ヘテロ接合コールのバリアントアレル頻度（ＶＡＦ）の中央値、ヘテロ接合コールの遺伝子型品質の中央値、ヘテロ接合コールの読み取り深度の中央値、ホモ接合コールのパーセンテージ、ホモ接合コールのＶＡＦの中央値、ホモ接合コールの遺伝子型品質の中央値、ホモ接合コールの読み取り深度の中央値、参照コールのパーセンテージ、ホモ接合コールの読み取り深度の変動係数（ＣＶ）、ヘテロ接合コールの読み取り深度のＣＶ、ホモ接合コールの遺伝子型品質のＣＶ、ヘテロ接合コールの遺伝子型品質のＣＶ、ホモ接合コールのＶＡＦのＣＶ、ヘテロ接合コールのＶＡＦのＣＶ、ホモ接合コールのＶＡＦの平均値と中央値との差、ヘテロ接合コールのＶＡＦの平均値と中央値との差、及び単位複製配列ＧＣのパーセンテージの１つ以上を含む、請求項１～１１のいずれか１項に記載の方法。
前記バリアントコーラーモデルが、関心対象のヘテロ接合バリアントまたは関心対象のホモ接合バリアントの少なくとも１つを予測する、請求項１～１２のいずれか１項に記載の方法。
前記バリアントコーラーモデルが、不確定バリアントをさらに予測する、請求項１３に記載の方法。
前記バリアントコーラーモデルが、１つ以上の細胞株に由来する配列リードと、前記１つ以上の細胞株に存在する既知のヘテロ接合バリアントまたはホモ接合バリアントの指標とを含むトレーニングデータを使用してトレーニングされる、請求項１～１４のいずれか１項に記載の方法。
前記エラー修正モデル及び前記バリアントコーラーモデルの前記適用が、従来のＧＴＡＫバリアントコーラーと比較して、０．５％の検出限界（ＬＯＤ）において真のバリアント陽性的中率の少なくとも２倍の増加を実現する、請求項１～１５のいずれか１項に記載の方法。
前記エラー修正モデル及び前記バリアントコーラーモデルの前記適用が、０．５％の検出限界（ＬＯＤ）において少なくとも０．６の真のバリアント陽性的中率を実現する、請求項１～１５のいずれか１項に記載の方法。
前記細胞に由来する前記複数の配列リードが単一細胞ワークフロー分析によって決定される、請求項１～１７のいずれか１項に記載の方法。
前記参照塩基が参照ゲノム配列から決定される、請求項１～１８のいずれか１項に記載の方法。
前記参照塩基が、対照細胞から取得された１つ以上の配列リードから決定される、請求項１～１８のいずれか１項に記載の方法。
細胞集団の１つ以上のバリアントをコールするための非一時的コンピュータ可読媒体であって、前記非一時的コンピュータ可読媒体が命令を含み、前記命令が、プロセッサによって実行されるとき、前記プロセッサに、
複数の配列リードを前記細胞集団の細胞から取得することと、
前記細胞集団中の複数の細胞について、前記細胞から取得された配列リードを修正することであって、
参照塩基とは異なる前記配列リードの関心対象の塩基を識別すること、
前記関心対象の塩基の単一細胞の特徴を分析するためにエラー修正モデルを適用することであって、前記エラー修正モデルが、前記関心対象の塩基の確率を予測するためにトレーニングされる、前記適用すること、及び
前記細胞に由来する前記配列リードの前記関心対象の塩基を修正すること
を含む、前記修正することと、
前記細胞集団の細胞全体にわたって修正された配列リードを集約することによって細胞集団の特徴を生成することであって、前記修正された配列リードが、修正された塩基を含む、前記生成することと、
前記細胞集団全体にわたって１つ以上のバリアントを識別するために、バリアントコーラーモデルを、前記集約された配列リードに由来する前記細胞集団の特徴に適用することと
を行わせる、前記非一時的コンピュータ可読媒体。
前記単一細胞の特徴が、前記関心対象の塩基の周りのコンテクスト配列、前記関心対象の塩基の配列決定深度、前記関心対象の塩基のアレル頻度、及び前記関心対象の塩基の周りのウィンドウ内の塩基のアレル頻度を含む、請求項２１に記載の非一時的コンピュータ可読媒体。
前記プロセッサに前記配列リードの関心対象の塩基を識別させる前記命令が、前記プロセッサによって実行されるとき、前記プロセッサに、参照塩基とミスマッチ塩基との間の遷移の尤度を含む遷移マトリクスを適用させる命令をさらに含む、請求項２１または２２に記載の非一時的コンピュータ可読媒体。
前記プロセッサに前記配列リードの関心対象の塩基を識別させる前記命令が、前記プロセッサによって実行されるとき、前記プロセッサに、
ミスマッチ塩基について前記配列リード全体にわたってヌクレオチド塩基の割合を観察する確率を算出することと、
前記算出された確率を前記遷移マトリクスからの遷移の尤度と比較することと
を行わせる命令をさらに含む、請求項２３に記載の非一時的コンピュータ可読媒体。
前記算出された確率が前記遷移の尤度よりも大きいことに応答して、前記ミスマッチ塩基を関心対象の塩基として識別する、請求項２４に記載の非一時的コンピュータ可読媒体。
１つ以上のサンプル細胞集団に由来する配列リードを含むトレーニングデータを使用して、前記遷移マトリクスが生成される、請求項２３～２５のいずれか１項に記載の非一時的コンピュータ可読媒体。
前記細胞集団の細胞からの前記複数の配列リードを使用して、前記遷移マトリクスが生成される、請求項２３～２５のいずれか１項に記載の非一時的コンピュータ可読媒体。
前記細胞集団の前記１つ以上の細胞の配列リードが修正されるとき、前記遷移マトリクスの前記遷移の尤度が動的に更新される、請求項２３～２５のいずれか１項に記載の非一時的コンピュータ可読媒体。
前記エラー修正モデルがニューラルネットワークである、請求項２１～２８のいずれか１項に記載の非一時的コンピュータ可読媒体。
前記エラー修正モデルが、関心対象の塩基の周りのモチーフ及び局所的配列コンテクストを学習する１つ以上の層を含む深層学習ニューラルネットワークである、請求項２１～２９のいずれか１項に記載の非一時的コンピュータ可読媒体。
前記細胞結果に由来する前記複数の配列リードの１つ以上の配列リードを修正することが、参照塩基とは異なる関心対象の塩基の少なくとも２５％を修正することを含む、請求項２１～３０のいずれか１項に記載の非一時的コンピュータ可読媒体。
前記細胞集団の特徴が、ヘテロ接合コールのパーセンテージ、ヘテロ接合コールのバリアントアレル頻度（ＶＡＦ）の中央値、ヘテロ接合コールの遺伝子型品質の中央値、ヘテロ接合コールの読み取り深度の中央値、ホモ接合コールのパーセンテージ、ホモ接合コールのＶＡＦの中央値、ホモ接合コールの遺伝子型品質の中央値、ホモ接合コールの読み取り深度の中央値、参照コールのパーセンテージ、ホモ接合コールの読み取り深度の変動係数（ＣＶ）、ヘテロ接合コールの読み取り深度のＣＶ、ホモ接合コールの遺伝子型品質のＣＶ、ヘテロ接合コールの遺伝子型品質のＣＶ、ホモ接合コールのＶＡＦのＣＶ、ヘテロ接合コールのＶＡＦのＣＶ、ホモ接合コールのＶＡＦの平均値と中央値との差、ヘテロ接合コールのＶＡＦの平均値と中央値との差、及び単位複製配列ＧＣのパーセンテージの１つ以上を含む、請求項２１～３１のいずれか１項に記載の非一時的コンピュータ可読媒体。
前記バリアントコーラーモデルが、関心対象のヘテロ接合バリアントまたは関心対象のホモ接合バリアントの少なくとも１つを予測する、請求項２１～３２のいずれか１項に記載の非一時的コンピュータ可読媒体。
前記バリアントコーラーモデルが、不確定バリアントをさらに予測する、請求項３３に記載の非一時的コンピュータ可読媒体。
前記バリアントコーラーモデルが、１つ以上の細胞株に由来する配列リードと、前記１つ以上の細胞株に存在する既知のヘテロ接合バリアントまたはホモ接合バリアントの指標とを含むトレーニングデータを使用してトレーニングされる、請求項２１～３４のいずれか１項に記載の非一時的コンピュータ可読媒体。
前記エラー修正モデル及び前記バリアントコーラーモデルの前記適用が、従来のＧＴＡＫバリアントコーラーと比較して、０．５％の検出限界（ＬＯＤ）において真のバリアント陽性的中率の少なくとも２倍の増加を実現する、請求項２１～３５のいずれか１項に記載の非一時的コンピュータ可読媒体。
前記エラー修正モデル及び前記バリアントコーラーモデルの前記適用が、０．５％の検出限界（ＬＯＤ）において少なくとも０．６の真のバリアント陽性的中率を実現する、請求項２１～３５のいずれか１項に記載の非一時的コンピュータ可読媒体。
前記細胞に由来する前記複数の配列リードが単一細胞ワークフロー分析によって決定される、請求項２１～３７のいずれか１項に記載の非一時的コンピュータ可読媒体。
前記参照塩基が参照ゲノム配列から決定される、請求項２１～３８のいずれか１項に記載の非一時的コンピュータ可読媒体。
前記参照塩基が、対照細胞から取得された１つ以上の配列リードから決定される、請求項２１～３８のいずれか１項に記載の非一時的コンピュータ可読媒体。
以下を備えるシステム：
細胞集団の細胞の複数の配列リードを生成するように構成される単一細胞分析ワークフローデバイス；
前記単一細胞分析ワークフローデバイスに通信可能に連結された計算デバイスであって、
複数の配列リードを前記細胞集団の細胞から取得することと、
前記細胞集団中の複数の細胞について、前記細胞から取得された配列リードを修正することであって、
参照塩基とは異なる前記配列リードの関心対象の塩基を識別すること、
前記関心対象の塩基の単一細胞の特徴を分析するためにエラー修正モデルを適用することであって、前記エラー修正モデルが、前記関心対象の塩基の確率を予測するためにトレーニングされる、前記適用すること、及び
前記細胞に由来する前記配列リードの前記関心対象の塩基を修正すること
を含む、前記修正することと、
前記細胞集団の細胞全体にわたって修正された配列リードを集約することによって細胞集団の特徴を生成することであって、前記修正された配列リードが、修正された塩基を含む、前記生成することと、
前記細胞集団全体にわたって１つ以上のバリアントを識別するために、バリアントコーラーモデルを、前記集約された配列リードに由来する前記細胞集団の特徴に適用することと
を行うように構成される、前記計算デバイス。
前記単一細胞の特徴が、前記関心対象の塩基の周りのコンテクスト配列、前記関心対象の塩基の配列決定深度、前記関心対象の塩基のアレル頻度、及び前記関心対象の塩基の周りのウィンドウ内の塩基のアレル頻度を含む、請求項４１に記載のシステム。
前記配列リードの関心対象の塩基を識別することが、参照塩基とミスマッチ塩基との間の遷移の尤度を含む遷移マトリクスを、ミスマッチ塩基について前記配列リード全体にわたってヌクレオチド塩基の割合を観察する確率に適用することを含む、請求項４１または４２に記載のシステム。
前記配列リードの関心対象の塩基を識別することが、
前記ミスマッチ塩基について前記配列リード全体にわたってヌクレオチド塩基の割合を観察する前記確率を算出することと、
前記算出された確率を前記遷移マトリクスからの遷移の尤度と比較することと
を含む、請求項４３に記載のシステム。
前記算出された確率が前記遷移の尤度よりも大きいことに応答して、前記ミスマッチ塩基を関心対象の塩基として識別する、請求項４４に記載のシステム。
１つ以上のサンプル細胞集団に由来する配列リードを含むトレーニングデータを使用して、前記遷移マトリクスが生成される、請求項４５に記載のシステム。
前記細胞集団の細胞からの前記複数の配列リードを使用して、前記遷移マトリクスが生成される、請求項４５に記載のシステム。
前記細胞集団の前記１つ以上の細胞の配列リードが修正されるとき、前記遷移マトリクスの前記遷移の尤度が動的に更新される、請求項４５に記載のシステム。
前記エラー修正モデルがニューラルネットワークである、請求項４１～４８のいずれか１項に記載のシステム。
前記エラー修正モデルが、関心対象の塩基の周りのモチーフ及び局所的配列コンテクストを学習する１つ以上の層を含む深層学習ニューラルネットワークである、請求項４１～４９のいずれか１項に記載のシステム。
前記細胞結果に由来する前記複数の配列リードの１つ以上の配列リードを修正することが、参照塩基とは異なる関心対象の塩基の少なくとも２５％を修正することを含む、請求項４１～５０のいずれか１項に記載のシステム。
前記細胞集団の特徴が、ヘテロ接合コールのパーセンテージ、ヘテロ接合コールのバリアントアレル頻度（ＶＡＦ）の中央値、ヘテロ接合コールの遺伝子型品質の中央値、ヘテロ接合コールの読み取り深度の中央値、ホモ接合コールのパーセンテージ、ホモ接合コールのＶＡＦの中央値、ホモ接合コールの遺伝子型品質の中央値、ホモ接合コールの読み取り深度の中央値、参照コールのパーセンテージ、ホモ接合コールの読み取り深度の変動係数（ＣＶ）、ヘテロ接合コールの読み取り深度のＣＶ、ホモ接合コールの遺伝子型品質のＣＶ、ヘテロ接合コールの遺伝子型品質のＣＶ、ホモ接合コールのＶＡＦのＣＶ、ヘテロ接合コールのＶＡＦのＣＶ、ホモ接合コールのＶＡＦの平均値と中央値との差、ヘテロ接合コールのＶＡＦの平均値と中央値との差、及び単位複製配列ＧＣのパーセンテージの１つ以上を含む、請求項４１～５１のいずれか１項に記載のシステム。
前記バリアントコーラーモデルが、関心対象のヘテロ接合バリアントまたは関心対象のホモ接合バリアントの少なくとも１つを予測する、請求項４１～５２のいずれか１項に記載のシステム。
前記バリアントコーラーモデルが、不確定バリアントをさらに予測する、請求項５３に記載のシステム。
前記バリアントコーラーモデルが、１つ以上の細胞株に由来する配列リードと、前記１つ以上の細胞株に存在する既知のヘテロ接合バリアントまたはホモ接合バリアントの指標とを含むトレーニングデータを使用してトレーニングされる、請求項４１～５４のいずれか１項に記載のシステム。
前記エラー修正モデル及び前記バリアントコーラーモデルの前記適用が、従来のＧＴＡＫバリアントコーラーと比較して、０．５％の検出限界（ＬＯＤ）において真のバリアント陽性的中率の少なくとも２倍の増加を実現する、請求項４１～５５のいずれか１項に記載のシステム。
前記エラー修正モデル及び前記バリアントコーラーモデルの前記適用が、０．５％の検出限界（ＬＯＤ）において少なくとも０．６の真のバリアント陽性的中率を実現する、請求項４１～５５のいずれか１項に記載のシステム。
前記参照塩基が参照ゲノム配列から決定される、請求項４１～５７のいずれか１項に記載のシステム。
前記参照塩基が、対照細胞から取得された１つ以上の配列リードから決定される、請求項４１～５７のいずれか１項に記載のシステム。