本開示の態様は、バリアントコーラーにとって問題となる誤差を考慮するための、コンピュータプログラムを含む方法、システム、および装置を対象とする。
従来のバリアントコーラーが使用する内部確率の計算は、通常、誤差が相関していないという仮定に基づいているため、相関誤差事象により、従来のバリアントコーラーは遺伝子型判定の誤差を生成する。バリアントコーリングでは、(1)マッピング誤差、および(2)配列固有の誤差という高度に相関する誤差を生成する傾向がある2つの現象がある。マッピング誤差は、読み取り値が、読み取り値の真の起源以外の参照ゲノムの特定の場所にマッピングされたときに発生する。特定の塩基配列が高い確率で配列決定誤差を生成する傾向があるため、この仕様では配列決定誤差または系統誤差と呼ばれる配列固有の誤差が発生する。どちらのタイプの誤差も、従来のバリアントコーラーで、信頼性の高い偽陽性およびその他の遺伝子型判定の誤差につながる可能性がある。
一部のバリアントコーラーは、読み取り値およびバリアントをフィルタリングするためのその場限りのルールでこれらの問題を軽減しようとするが、そのようなルールは、より複雑なアルゴリズムを用いて可能である性能限界には近づかない。他のバリアントコーラーは、機械学習を使用してこのような誤差を認識および抑制するが、機械学習には、アウトプットを説明することができないため、トレーニングデータで表されなかったシナリオに対処するのが難しい「不安定な」または「曖昧な」など、他の欠点を有する。本開示は、両方のタイプの誤差に対処するための新しい方法を説明する。詳細には、本開示は、これらのタイプの誤差の相関する性質を考慮するために、その場限りのルールまたは機械学習の収集に依存するのではなく、特定の誤差が確率計算への読み取り値のパイルアップで相関するという起こりうる事実に対処する。
本開示の目的について、「相関誤差事象」は、2つ以上のマッピング誤差または2つ以上の配列決定誤差を指す誤差のカテゴリである。本明細書で説明されるプロセスは、1つ以上のマッピング誤差または1つ以上の配列決定誤差などの単一タイプの相関誤差事象を考慮するために適用され得る。あるいは、本明細書で説明されるプロセスは、1つ以上のマッピング誤差および1つ以上の配列決定誤差などの複数のタイプの相関誤差を考慮するために適用されてもよい。
相関誤差事象軽減システム
図1は、バリアントコーリングの相関誤差軽減のためのシステム100の一例のコンテキスト図である。システム100には、核酸配列決定装置110および二次分析ユニット120を含む。
核酸配列決定装置110は、生体サンプル105の一次分析を実施して、配列決定装置によって検出された生の物理信号を、関連する品質スコアを有する順序付けられた一連のヌクレオチド塩基コールに変換するように構成される。一次分析は、採用されている配列決定技術の性質に固有のものである。いくつかの実装形態では、例えば、ヌクレオチドは、蛍光、電荷、電流、放射光、またはそれらの任意の組み合わせの変化を検知することで検出することができる。いくつかの実施形態では、生体サンプルは、DNA、RNA、PNA、LNA、核酸のキメラまたはハイブリッド型を含む。
核酸サンプルは、例えば、唾液、血液、または他の体液を含浸させた口腔スワブ、紙、布地、または他の基質に由来する溶解物を含む精製サンプルまたは未加工のDNAサンプルであってもよい。いくつかの実装形態では、核酸サンプルには、ゲノムDNAなど、DNAの少量または断片化された部分が含まれる場合がある。いくつかの実装形態では、標的配列は、血液、血漿、精液、尿および血清を含むがこれらに限定されない1つ以上の体液中に存在する可能性がある。いくつかの実装形態では、標的配列は、微生物、植物、または昆虫学的なDNAなどの人間以外のDNAから取得された核酸を含むことができる。
一次分析は、生体サンプル105を受け取ること、および各々が品質スコアを有する1つ以上の塩基コールと呼ばれる出力データ112を生成することを含むことができ、これらは複数の「読み取り値」に組み立てられ、受け取った生体サンプル105から調製された配列断片中のヌクレオチドの順序付けられたセットを各々表す。いくつかの実装形態では、生体サンプル105は、DNAサンプルを含むことができ、配列決定装置110は、一次分析を実施して、DNAサンプルからのヌクレオチドまたは塩基の順序付けられた配列を含む複数の読み取り値を出力することができる。このような実装形態では、配列決定されたヌクレオチドの順序には、グアニン(G)、シトシン(C)、アデニン(A)、およびチミン(T)のうちの1つ以上を任意の組み合わせで含める。他の実装形態では、生体サンプル105には、RNAサンプルを含めることができる。このような実装形態では、配列決定されたヌクレオチドの順序には、G、C、A、およびウラシル(U)のうちの1つ以上を任意の組み合わせで含める。したがって、図1の例は、入力DNAサンプルに基づいて出力読み取り値を生成するDNA配列決定装置110を説明しているが、他の実装形態は、RNAサンプルに基づいて出力読み取り値を生成する配列決定装置110を含んでもよい。使用される配列決定方法に応じて、生体サンプル105の1つ以上の断片から配列決定された、連続した塩基対の順序付けられた配列を含む読み取り値は、約30塩基対~10,000塩基対以上の長さで変化し得る。例えば、いくつかの実装形態では、配列決定された断片の読み取り値長は、約150塩基対~500塩基対の間、約150塩基対、約250塩基対、または約300塩基対であってもよい。読み取り値は、生体サンプル105から調製された断片からの単一の読み取り値または対端の読み取り値であってもよい。
いくつかの実装形態では、核酸配列決定装置110は、超並列配列決定技術を使用して超高スループット、スケーラビリティ、および速度を達成する様式で、所与のサンプル105の配列読み取り値112を生成するように構成された次世代配列決定装置(NGS)を含む。様々な実施例では、NGSは、全ゲノムの迅速な配列決定、深く配列決定された標的領域に拡大する機能、RNA配列決定(RNA-Seq)の利用による新規RNAバリアントおよびスプライス部位の発見、または遺伝子発現分析のためのmRNAの定量化、ゲノムワイドなDNAメチル化およびDNA-タンパク質相互作用など、エピジェネティック因子の分析、まれな体細胞バリアントおよび腫瘍サブクローンを研究するための癌サンプルの配列決定、および人間または環境における微生物多様性の研究を可能にする。
核酸配列決定装置110は、配列読み取り値112を生成し、生成された配列読み取り値112を二次分析ユニット120に提供するように構成されている。二次分析ユニット120には、1つ以上のメモリデバイス122、フィールドプログラマブルゲートアレイ124およびバリアントコーリングユニット130などの1つ以上のコンピュータを含めることができる。1つ以上のコンピュータには、1つ以上の動作を実施するように構成された1つ以上のデバイスを含めることができる。1つ以上のコンピュータには、ハードウェアのみ、ソフトウェアのみ、またはそれらの任意の組み合わせを含めることができる。
いくつかの実装形態では、二次分析ユニット120は、核酸配列決定装置110と統合されてもよい。このような実装形態では、例えば、二次分析ユニット120の1つ以上の構成要素の各々は、周辺構成要素相互接続(PCI)拡張カードなどの拡張カードに収容され、核酸配列決定装置110にインストールされ得る。他の構成要素では、例えば、二次分析ユニット120の1つ以上の構成要素の各々は、核酸配列決定装置110とは異なり、イーサネット(登録商標)ケーブル、USBケーブル、USB-Cケーブルなどを使用して、核酸配列決定装置110に直接接続される別のコンピュータの一部となり得る。さらに他の実装形態では、例えば、二次分析ユニット120の構成要素の各々は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、セルラーネットワーク、インターネット、またはそれらの組み合わせなどの1つ以上の有線または無線ネットワークを使用して、核酸配列決定装置110によって遠隔にアクセス可能なクラウドベースのサーバに統合される。さらに他の実装形態では、例えば、二次分析ユニット120の1つ以上の構成要素は、核酸配列決定装置110に統合され、二次分析ユニット120の1つ以上の構成要素は、クラウドベースのサーバなどの別のコンピュータに統合される。このような実装形態では、例えば、マッピングおよび整列ユニット126を実装するために使用されるFPGA124は、核酸配列決定装置110およびメモリ122に統合され、バリアントコーリングユニット130は、クラウドベースのサーバなどの別のコンピュータに統合される。
核酸配列決定装置110、二次分析ユニット120、および1つ以上のクラウドベースのサーバなどの1つ以上の他のコンピュータを含む、図1を参照して説明したこれらの構成要素の各々は、直接接続での通信が有効になっていない場合、あるいは、またはさらに、LAN、WAN、セルラーネットワーク、インターネット、またはその組み合わせのうちの1つ以上を含む、1つ以上の有線または無線ネットワークを介して通信できるようにすることが可能である。同様に、二次分析ユニット120の構成要素の各々は、1つ以上の1つ以上のバス、1つ以上の直接接続、または本明細書に記載のそれぞれの構成要素間の相互作用を達成するための1つ以上のネットワークを使用して、互いに、または二次分析ユニット120の外部の構成要素と通信するように構成されてもよい。
二次分析ユニット120は、読み取り値112を受信し、読み取り値112をメモリ122の第1の部分122aに記憶するように構成されている。フィールドプログラマブルゲートアレイ(FPGA)124は、ゲノムデータ分析パイプラインの1つ以上のモジュールを実装するように動的に構成可能である。例えば、FPGA124は、マッピングおよび整列ユニット126、一対の隠れマルコフモデル(P-HMM)ユニット128、またはその両方を実装するように動的に構成することができる。いくつかの実装形態では、マッピングおよび整列ユニット126は、単一の機能モジュールである。他の実装形態では、マッピングおよび整列ユニット126は、専用マッピングユニット126aおよび専用整列ユニット126bを含む2つの別個の機能モジュールに分離される。いくつかの実装形態では、FPGA124は、特定の時間に、マッピングおよび整列ユニット126ならびにP-HMMユニット128の両方を実装するように構成されている。
しかしながら、他の実装形態では、FPGA124は、特定のゲノム分析モジュール、または本明細書に記載の他のコンピュータのいずれかをいつでも実装するためにオンデマンドで動的に再構成され得る。例えば、FPGA124は、最初にマッピングおよび整列ユニット126を含むように構成することができ、次いで、メモリ122から取得された読み取り値に対してFPGA124によってマッピングおよび整列動作が実施されると、その後、FPGA124は、P-HMMユニット128として動的に再構成することができる。FPGA124は、特定のゲノム分析ワークフローによって指示されるように、オンデマンドで、1つのゲノム分析モジュールから別のゲノム分析モジュール、または他のコンピュータに動的に再構成することができる。本開示の目的のために、ユニットおよびモジュールという用語は、1つ以上の特定の動作を実施するように構成された1つ以上のハードウェア構成要素、1つ以上のソフトウェア構成要素、またはそれらの任意の組み合わせを意味するように交換可能に使用される。
FPGAユニット124を参照すると、それぞれのマッピングおよび整列ユニット126ならびにP-HMMユニット128の機能的動作の実装は、プログラマブルロジックゲートを動的に構成または再構成するために、超高速集積回路(VHSIC)ハードウェア記述言語(VHDL)などのハードウェア記述プログラミング言語を使用してプログラマブルデジタルロジックゲートをプログラミングすることによりハードウェアで達成することができる。あるいは、FPGA124を使用してマッピングおよび整列ユニット126ならびにP-HMMユニット128を実装することができるが、本開示はそのように限定される必要はない。例えば、他の実装形態では、マッピングおよび整列ユニット126ならびにP-HMMユニット128のうちの1つ以上はまた、ソフトウェアを使用して、DNA配列決定装置にローカルに、またはDNA配列決定装置から遠隔に、1つ以上のコンピュータ上で実装されてもよい。さらに他の実装形態では、FPGA124はまた、バリアントコーリングユニット130の機能を実施して、このような確率結果がバリアントコーリングユニット130によって生成されたVCFファイル170に含まれるべきかどうかを判定するために、変更された確率結果の分析を実施するように構成されてもよい。
しかしながら、本開示は、マッピングおよび整列ユニット126、P-HMMモジュール128、または本明細書に記載のバリアントコーリングユニット130などの二次分析ユニット120の他のコンピュータのうちの1つ以上を実装するために、動的に再構成可能なFPGA124の使用に限定されない。代わりに、他のタイプのプログラマブルまたは非プログラマブル集積回路を使用することができる。例えば、1つ以上の特定用途向け集積回路(ASIC)をプログラムして、本明細書に記載のそれぞれのゲノム分析モジュールまたは他のコンピュータのうちの1つ以上の機能を実施することができる。ASICは、ASICのデジタルロジックゲートが、VHDLなどのハードウェア記述言語を使用してプログラム可能であるという点で、本明細書に記載のFPGAと同様の1つ以上のプログラマブルロジック回路を含む集積回路を含む。しかしながら、ASICは1回しかプログラムできず、一度プログラムすると動的に再構成することはできないという点で、ASICはFPGAとは異なる。さらに、本開示の態様は、FPGAまたはASICを使用して、二次分析ユニット120のゲノム分析モジュールまたは他のコンピュータを実装することに限定されない。代わりに、二次分析ユニット120のゲノム分析モジュールまたは他のコンピュータのいずれも、ソフトウェア命令の実行を通じて二次分析ユニット120のゲノム分析モジュールまたは他のコンピュータを実装する1つ以上の中央処理装置(CPU)、グラフィカル処理ユニット(GPU)、またはそれらの任意の組み合わせを使用して実装することができる。
いくつかの実装形態では、マッピングおよび整列ユニット126は、メモリ122の第1の部分122aに記憶された、生成された読み取り値112をメモリ122の別の部分122bに記憶された参照ゲノムにマッピングおよび整列するように構成されているFPGA124を使用して実装することができる。しかしながら、本開示は、メモリ122に読み取り値を記憶すること、メモリ122からの読み取り値にアクセスすること、メモリ122に参照ゲノムを記憶すること、またはメモリ122内の参照ゲノムにアクセスすることに限定されない。代わりに、いくつかの実装形態では、生成された読み取り値112、参照ゲノム、またはその両方は、1つ以上のネットワークを介してアクセス可能なクラウドベースのサーバ内のメモリデバイスに記憶することができる。
メモリ122の第3の部分122cでメモリ122に記憶するために、マッピングおよび整列された読み取り値をマッピングおよび整列ユニット126によって出力することができる。いくつかの実装形態では、第3の部分122cに記憶されていると呼ばれる、FPGA124からのマッピングおよび整列された読み取り値を含むメモリ122への書き込みは、核酸配列決定装置110によって出力され、第1の部分122aに記憶された、元の生成された読み取り値112を上書きする様式で実際にメモリ122に記憶してもよい。したがって、メモリ122の第1の部分122a、第2の部分122b、および第3の部分122cにそれぞれ記憶されているものとして複数の段階の情報が示されているが、本開示により開示されるプロセスの実行中の任意の特定の時点で、メモリ122のこれらのそれぞれの部分のうちの1つに記憶されているとして本開示により説明されるすべてのデータがメモリ122に存在するという本開示の要件はない、しかしながら、この明細書で説明されているすべてのデータが同時にメモリ122に記憶されたときには存在する場合がある。
いくつかの実装形態では、メモリ122は、単一のメモリデバイスまたは複数のメモリデバイスを含んでもよい。追加のメモリデバイスを使用すると、高速メモリの錯覚を生成するために使用されるメモリ階層の複数のレベルを使用してアクセスされる1つ以上のディスク記憶デバイスへの読み取り値または書き込み要求とは対照的に、フラッシュメモリなどの高速メモリデバイスへの書き込みおよび読み取り値を可能にすることで、データアクセスの遅延を低減し、スループットを向上させることができる。
同様に、いくつかの実装形態では、FPGA124、ASIC、CPU、GPU、またはそれらの組み合わせなどの集積回路を使用して、二次分析ユニット120の各ゲノム分析モジュールまたは他のコンピュータを実装することには、単一のFPGA124、単一のASIC、単一のCPU、単一のGPU、またはそれらの任意の組み合わせを含めることができる。あるいは、またはさらに、FPGA124、ASIC、CPU、GPU、またはそれらの組み合わせなどの集積回路を使用して二次分析ユニット120の各ゲノム分析モジュールまたは他のコンピュータを実装することには、複数のFPGA124、複数のASIC、複数のCPU、または複数のGPU、あるいはそれらの任意の組み合わせを含めることができる。 二次分析ユニット120のゲノム分析ユニットまたは他のコンピュータを実装するために複数のFPGAなどの追加の集積回路を使用すると、マッピング、整列、P-HMMの確率計算、およびバリアントコーリングなどの二次分析動作を実施するのにかかる時間を短縮することができる。いくつかの実装形態では、FPGAを使用してこれらの二次分析動作を実装すると、これらの二次分析動作を完了するのにかかる時間を24時間以上から30分以下に低減することができる。いくつかの実装形態では、複数のFPGAを使用してこれらの二次分析動作を実施すると、結果的にわずか5分でこれらの二次分析動作を完了することができる。
マッピングおよび整列ユニット126の出力には、参照ゲノムにマッピングおよび整列された読み取り値のパイルアップを含める。パイルアップには、DNAサンプルから参照ゲノムまたは参照ゲノムの一部への整列された読み取り値の塩基コールを要約するためのテキストベースの形式を含める場合がある。この出力は、FPGA124、P-HMMユニット128、およびバリアントコーリングユニット130のうちの1つ以上によってアクセスおよび分析することができるコンピュータ可読バイナリ形式で、メモリ122の1つ以上の部分122b、122cに記憶することができる。あるいは、マッピングおよび整列ユニット126の出力は、1つ以上のネットワークを使用してアクセスされる遠隔クラウドサーバなどの1つ以上の遠隔コンピュータのコンピュータ可読バイナリ形式を使用してメモリに記憶することができる。FPGA124のマッピングおよび整列ユニット126の出力の人に優しい描写は、ユーザデバイスのグラフィカルユーザインターフェース上に描写することができる。そのようなグラフィカルユーザインターフェースの例は、インターフェース140を参照して示されている。
インターフェース140は、二次分析ユニット120のメモリ122にアクセスすることができる、ユーザデバイスのユーザインターフェース上に表示するために提供することができる。例えば、いくつかの実装形態では、二次分析ユニット120は、取り付けられた表示デバイスを有する。あるいは、またはさらに、スマートフォンまたはタブレットなどの表示装置を有する他のデバイスは、二次分析ユニット120と同じネットワークに接続し、メモリ122にアクセスし、その後、インターフェース140のパイルアップ141などのパイルアップを表示することができる。そのような実装形態では、バリアントコーリングユニット130は、(i)取得した読み取り値112を、メモリに記憶された参照ゲノムにマッピングおよび整列したFPGA124の出力にアクセスし、(ii)表示デバイス上でレンダリングされたときに、FPGA124によって参照ゲノムにマッピングおよび整列され、メモリ122に記憶された読み取り値を表すデータを、インターフェース140を使用する人が読むことができる人に優しい様式でユーザデバイス上に表示するために出力するレンダリングデータを生成することができる。
インターフェース140は、FPGA124の出力が、マッピングおよび整列された読み取り値のパイルアップ141を含むことを示す。この例では、インターフェース140は、それぞれ14個の水平線で14個の読み取り値をそれぞれ表す。これらの読み取り値は、読み取り値が生成されたDNA鎖に基づいてグループ化される。例えば、図1の例におけるマッピングおよび整列された読み取り値のパイルアップ141には、読み取り値の5’1端から読み取り値の3’1端に向かって左方向の第1の方向に延びる
後方向に整列された読み取り値の第1の組、および読み取り値の5’2端から読み取り値の3’2端に向かって右方向の第2の方向に延びる前方向に整列され読み取り値の第2の組を含める。したがって、FPGA124からの14個のマッピングおよび整列された読み取り値出力のインターフェース140のこの例では、底部の7個の読み取り値は、マッピングおよび整列された読み取り値の第1の組を表し、上部の7個の読み取り値は、マッピングおよび整列された読み取り値の第2の組を表す。インターフェース140には示されていない2つの中央読み取り値のそれぞれの5’または3’端は、ウィンドウ140の外側で発生する。本開示の概念を説明するために使用されるこの例は、14個のみの読み取り値のパイルアップを図示しているが、本開示はそれに限定されない。また、パイルアップ141は、パイルアップの底部に後方向に整列した読み取り値を表示し、パイルアップの上部に前方向に整列した読み取り値を表示するが、他の代替案が存在し得る。例えば、図7~図10の実施例を参照して示されるように、前方向に整列された読み取り値は、パイルアップ141の底部に提示され、後方向に整列された読み取り値は、パイルアップの上部に提示することができる。
配列読み取り値の特性を記述する情報を表示することができるインターフェース140の例が提供されているが、本開示の任意の実装は、配列決定装置読み取り値の特性を記述する情報を表示装置上に出力する、あるいはバリアントコーリングユニット130、または本明細書に記載の他の構成要素は、インターフェース140からの情報にアクセスするという要件はない。その代わりに、インターフェース140は、配列読み取り値の特性を構成する情報のタイプの例を説明するために提供されているに過ぎない。
本開示は、FPGA124を使用して、特定のゲノム配列分析ワークフローに必要な数十の読み取り値、数百の読み取り値、数千の読み取り値、またはそれ以上を含むマッピングおよび整列された読み取り値のパイルアップを生成することができる。例として、核酸サンプルの高スループット次世代配列決定は、結果的に参照ゲノム配列の1つ以上の領域、またはその一部にマッピングおよび整列する必要がある数十万の短い読み取り値をもたらすことができる。このような大量の読み取り値量のマッピングおよび整列により、結果的に多数の重なり合ったまたは重複する短い配列核酸読み取り値が生じる可能性がある。いくつかの実装形態では、例えば、重なり合ったまたは重複の短い配列読み取り値の数は、参照ゲノム配列の1つ以上のそれぞれの参照場所の1x、5x、10x、30x、100x、またはそれ以上の範囲を含むことができる。「30xの範囲」とは、例えば、参照ゲノム配列の1つ以上の参照場所に対する30以上の重なり合った読み取り値のパイルアップを含む、短い読み取り値のマッピングおよび整列を指す。別の例として、「5xの範囲」とは、例えば、参照ゲノム配列の1つ以上の参照場所に対する5以上の重なり合った読み取り値のパイルアップを含む、短い読み取り値のマッピングおよび整列を指す。
相関誤差を軽減するための方法
したがって、多数の読み取り値を参照ゲノム配列、またはその一部に正確かつ効率的にマッピングおよび整列させるために、新しい読み取り値の処理方法を設計する必要がある。例えば、ヒトゲノムの配列決定から生じるデータは、潜在的なバリアントのために短い読み取り値をさらに分析して、それらの生物学的、診断的、および/または治療的関連性を判断する前に、通常、完全な参照ゲノム内の位置にマッピングおよび整列する必要がある数億の短い読み取り値をもたらすことができる。
重なり合った読み取り値のパイルアップにより、参照ゲノム配列の特定の参照場所での異なる読み取り値の各々の比較が可能になる。特定の参照場所の複数の重なり合った読み取り値の分析により、参照ゲノムの特定の場所にマッピングおよび整列された読み取り値内に真の変動、バリアント、または偏差があるかどうか、またはパイルアップ内の問題の位置で読み取られたいずれか1つに誤差がある場合に応じて、正確な判断を下すことができる。例えば、参照ゲノム配列の位置「X」で特定のヌクレオチドを検出した30個の読み取り値のうちの1個または2個の読み取り値のみ、および28個または29個の他の読み取り値の各々が、別のヌクレオチドが位置「X」に存在するという判定を支持する場合、その後、2つの範囲外の読み取り値は、位置「X」の誤差として除外することができる。
重なり合った読み取り値のパイルアップの分析により、重なり合った読み取り値の類似性または相違を評価しない方法と比較して、読み取り値のより正確な分析が可能になり、被験者のゲノムが参照ゲノム、例えば、モデルゲノムとどのように異なるかを判定することができる。例えば、重なり合った読み取り値のパイルアップを分析すると、化学的誤差、機械的誤差、読み取り値誤差などの誤差をより正確に識別し、そのような誤差を真のバリアントと区別することができる。より具体的には、被験者が参照ゲノムの位置「X」に真のバリアントを有する場合、パイルアップ内の読み取り値の大部分は、例えば、真のバリアントを含む読み取り値の大部分によって真のバリアントが存在することを支持する必要がある。次いで、本明細書に記載されるものなどの統計モデルを実装して、参照ゲノムからのそのすべての真のバリアントを有する被験者の真の遺伝子配列を判定することができる。
したがって、様々な例では、核酸サンプルの読み取り値が生成され、それらの配列順序が整列され、生成された読み取り値が参照ゲノムまたはその一部にマッピングされると、被験者のゲノムの真の遺伝子配列を判定することができる。真のサンプルゲノムが決定されると、真のサンプルゲノムと参照ゲノムまたはその一部との比較に基づいて、1つ以上の真の変動を判定することができる。真のサンプルゲノムと参照ゲノムまたはその一部との間の1つ以上の変動が決定されると、サンプルゲノムと参照ゲノムとの間のすべての真のバリアントまたは偏差のリストが決定され、呼び出される。そのような変動は、様々な理由による可能性があり、生物学的、診断的、および/または治療的関連性を有する可能性がある。
インターフェース140によって図示されている例示的なパイルアップは、FPGA124のマッピングおよび整列ユニット126の出力が、パイルアップの読み取り値の各々に対する塩基品質スコア143およびマッピング信頼スコア144を含むことを示している。塩基品質スコア143は、位置「0」142などの対象の特定の位置における読み取り値に対して呼び出された塩基が正確であるという信頼レベルを示す値を含む。図1の例では、塩基品質スコアは、位置「0」142における読み取り値に対する塩基コールが正確であるという高いレベルの信頼性を示す高い塩基品質スコア「41」、および位置「0」142における読み取り値に対する塩基コールが正確であるという低いレベルの信頼性を示す低い塩基品質スコア「2」によって定義された値の範囲によって表される。いくつかの実装形態では、塩基品質スコアは、二次分析ユニット120によって受信された核酸配列決定装置110の出力であり、塩基コール誤差のフレッドスケール確率Qphred-baseを使用して判定することができ、Qphred-base=-10*log10(Pe-base)である。この例では、Pe-baseは、特定の読み取り値の塩基コーリング誤差の確率である。いくつかの実装形態では、低い塩基品質スコアは、配列決定誤差を示す要因になる場合がある。
マッピング信頼スコア144は、取得された読み取り値112が、位置「0」(参照番号142で示される)などの特定の対象の位置でマッピングおよび整列ユニット126によって参照ゲノム145に正確にマッピングされたという信頼レベルを示す。図1の例では、マッピング信頼スコアは、読み取り値が、位置「0」142で参照ゲノム145に正確にマッピングされたという高いレベルの信頼性を示す高いマッピング信頼スコア「250」、および読み取り値が、位置「0」142で参照ゲノム145に正確にマッピングされたという低いレベルの信頼性を示す低いマッピング信頼スコア「0」によって定義された値の範囲によって表される。いくつかの実装形態では、マッピング信頼スコアは、マッピングおよび整列ユニット126の出力であり、マッピング誤差のフレッドスケールQphred-mappingを使用して判定することができ、Qphred-mapping=-10*log10(Pe-mapping)である。この例では、Pe-mappingは、特定の読み取り値のマッピング誤差の確率である。マッピング信頼スコア144の値は、Smith-Waterman整列器などの整列アルゴリズムからの最高整列スコアと整列器の2番目に良いスコアとの間の差に比例する可能性がある。いくつかの実装形態では、二次整列の数を考慮して、この方法の調整を行うことができる。いくつかの実装形態では、低いマッピングスコアは、マッピング誤差を示す要因になる場合がある。
インターフェース140はまた、FPGAの出力が、位置「0」142で呼び出された塩基ヌクレオチドを含むことも示している。図1の例では、パイルアップ141の上位12個の読み取り値は、参照ゲノムと位置「0」142で同じ塩基コールを有すると判定された。140の例示的なインターフェースは、位置「0」142の上位12個の読み取り値の各々について、ヌクレオチドを表す文字A、C、G、またはTを描写しないことにより、この判定を表す。したがって、インターフェース140に描写された情報のレビューに基づいて、上位12個の読み取り値は、位置「0」142で「A」(アデニン)の塩基コールを有すると判定することができる。インターフェース140はまた、G(グアニン)の代替対立遺伝子が、パイルアップの最後の2個の読み取り値に対する塩基コールとして判定されたことも示している。G(グアニン)は、位置「0」の参照ゲノムのヌクレオチド塩基とは異なるため、対立遺伝子である。
FPGAの出力はまた、インターフェース140に示されるパイルアップ141の分析から判定することができる追加情報も含む。最初に、各読み取り値の読み取り配向とも呼ばれる、各読み取り値の鎖方向を記述する情報を判定することができる。例えば、インターフェース140は、代替対立遺伝子の各々が同じ鎖方向または同じ読み取り配向で発生することを示している。この例では、そのような情報は、後方向に整列された方向の第1の組の読み取り値で代替対立遺伝子(例えば「G」)が発生するという事実によって証明される。別の例として、鎖を記述する情報はまた、それぞれの3’および5’端を参照して決定することができる、パイルアップの各読み取り値の鎖方向も含むことができる。第2に、各読み取り値内の代替対立遺伝子の場所を記述する情報も決定することができる。例えば、読み取り値の終わりの5’から位置「0」142における各読み取り値の代替対立遺伝子間の近接性を判定することができる。この例では、各代替対立遺伝子が反対側の3’端に近いため、決定された代替対立遺伝子「G」は、それぞれの読み取り値の5’端から遠く離れて発生する。代替対立遺伝子が5’端からさらに発生するほど、代替対立遺伝子は配列決定誤差に関連している可能性が高くなる。第3に、位置「0」142における各読み取り値の塩基品質を判定することができる。例として、代替対立遺伝子「G」を有する読み取り値の塩基品質は、それぞれ6および2である。第4に、参照位置「0」における各読み取り値について、各読み取り値のマッピング信頼スコアを判定することができる。例として、位置「0」142に代替対立遺伝子「G」を有する読み取り値は、45および3のマッピング信頼スコアをそれぞれ有する。この例の目的のためにインターフェース140に示される情報は、単に本開示の特徴を説明するための例である。しかしながら、そのようなインターフェースの実世界の例は、図6~図9を参照して示される。
インターフェース140によって表示された各タイプの情報は、1つ以上のDNA読み取り値の特性と呼ぶことができる。特性には、塩基品質スコア143またはマッピング信頼スコア144などの読み取り値固有の特性を含める。読み取り値固有の特性の追加の例は、以下のインターフェース140を参照して説明する。
インターフェース140によって表示された情報もメモリ122に記憶される。例として、インターフェース140を生成するために使用されるインターフェースは、マッピングおよび整列された読み取り値のパイルアップ141を示す情報、参照ゲノム145(またはその一部)を示す情報、各読み取り値143の塩基品質スコアを示す情報、各読み取り値のマッピング信頼スコア144を示す情報、参照位置(例えば、位置「0」142)における各読み取り値の塩基コールを示す情報、各読み取り値に代替対立遺伝子が含まれているかどうかを示す情報、代替対立遺伝子を有する読み取り値の識別を示す情報、代替対立遺伝子を含む読み取り値の5’端を参照する、各代替対立遺伝子の場所を示す情報、各読み取り値の方向(または配向)を示す情報(例えば、前方向に整列または後方向に整列)、代替対立遺伝子を有する各読み取り値の方向(または配向)を示す情報(例えば、前方向に整列または後方向に整列)、および代替対立遺伝子が、前方向に整列された方向に第1の組の読み取り値で発生するか、または後方向に整列された方向に第2の組の読み取り値で発生するかを判定したことを示す情報などのDNA読み取り値の特性を記述する情報を使用して、インターフェース140を生成する。これらの特性の各々を記述する、示す、または別の方法で表す情報は、メモリ122の、例えば位置122b、122cに記憶することができる。例として、これらの特性は、機械可読のバイナリ形式でメモリ122に記憶されてもよい。
バリアントコーリングユニット130は、メモリ122から、マッピングおよび整列された読み取り値の特性を記述し、インターフェース140に示される情報を取得することができる。入力のいくつかについて、バリアントコーリングユニット130は、メモリ122からのマッピングおよび整列された読み取り値の特性を記述する情報を使用して、バリアントコーリングユニット130の1つ以上の確率モデル131への入力を生成することができる。バリアントコーリングユニット130は、生成された入力を1つ以上の確率モデル131への入力として提供することができる。いくつかの実装形態では、バリアントコーリングユニット130は、P-HMMユニット128が、バリアントコーリングユニット130によって使用された1つ以上の確率モデル131への入力のために1つ以上の確率を生成することを要求することもできる。例として、バリアントコーリングユニット130は、P-HMMユニット128が、参照位置「0」142などの参照位置で特定の候補対立遺伝子Gm,φが与えられた場合に、各読み取り値に対して、読み取り値riを観察する確率を判定するように要求することができる。このような実装形態では、例えば、バリアントコーリングユニット130は、P-HMMユニット128によって返された確率値を読み取り対立遺伝子として使用することができる。次に、バリアントコーリングユニット130は、(i)メモリ112および/または遠隔メモリから取得された特性を記述する情報および(ii)インターフェース140によって記述されたパイルアップの1つ以上の特性を記述するP-HMMユニット128により計算された情報確率、またはそれらの任意の組み合わせを含むマッピングおよび整列された読み取り値の特性を記述する情報を提供することができる。いくつかの実装形態では、バリアントコーリングユニット130は、読み取り対立遺伝子スコアの代替形態を表す、二次分析ユニット120の別のコンピュータからの計算結果を計算または受け取ることができる。読み取り対立遺伝子スコアのこれらの異なる形式については、以下でさらに詳しく説明する。
メモリ122は、インターフェース140によって記述された読み取り値の1つ以上の特性を記述する、支持する、またはその両方の情報を記憶することに留意されたい。場合によっては、インターフェース140を参照して記述された情報のタイプは、メモリ122に実際に記憶されている情報から導出する必要がある場合がある。例えば、いくつかの実装形態では、メモリ122は、インターフェース140の「G」などの候補代替対立遺伝子の場所、およびインターフェース140の「G」などの候補代替対立遺伝子を含める読み取り値の5’端の位置を記憶してもよい。次に、メモリ122に記憶されたその情報に基づいて、バリアントコーリングユニット130、または二次分析ユニット120の他の構成要素は、候補代替対立遺伝子「G」の読み取り値の5’端からの距離を判定することができる。そのような場合、そのような情報はメモリ122に記憶されている情報から導出することができるため、メモリ122は、5’端からの候補代替対立遺伝子「G」の距離を記憶する必要はない。配列読み取り値の特性を記述する他のタイプの情報は、特性を記述する実際に記憶されている情報から同様に導出することができる。
本明細書に記載の確率モデル131は、本明細書に記載のようにバリアントコーリングユニット130によって使用され、真である様々な候補遺伝子型の確率スコアを判定する。本開示によって提示される改善は、従来型確率モデルが、現在の確率モデルが2つ以上のマッピング誤差および/または2つ以上の配列決定誤差などの相関誤差事象の発生を考慮することができない手段で、バリアントコーラーの精度を改善する。これらの新しい確率モデル131は、マッピング誤差確率モデル132および配列決定誤差確率モデル134を含む。これらの確率モデルは、ルールベースの意思決定あるいは所定のトレーニングデータセットの特徴によって制限されないため、技術的な利点がある。
マッピング誤差確率モデル
マッピング誤差確率モデル132は、マッピング誤差、例えば、類似の、および場合によってはほぼ同一の塩基配列を含む第1の領域および第2の領域などの参照ゲノムの複数の領域のときに発生する誤差を考慮するように設計されている。そのような場合、マッピングおよび整列ユニットは、それぞれの領域の塩基配列の類似性により、一組の読み取り値を第2の領域ではなく第1の領域に誤ってマッピングする場合がある。マッピング誤差の可能性は、第1の領域内の1つ以上の場所に自然に発生するバリアントがあるときに深刻にする可能性があり、配列が第2の領域と同一になる場合がある。そのような誤差を考慮するために、マッピング誤差モデルは、確率モデルへの入力として、マッピングおよび整列された読み取り値の特性を記述するメモリ122から、P-HMMユニット128から、またはそれらの組み合わせからバリアントコーリングユニット130によって取得された一組の情報を受け取る。
マッピング誤差が発生した確率を判定するために、マッピング誤差確率モデル132は、(i)参照位置「0」142などの参照位置における各候補対立遺伝子について、メモリ122に記憶されたパイルアップの各読み取り値の読み取り対立遺伝子スコア、および(ii)メモリ122に記憶されたパイルアップの各読み取り値のマッピング品質スコアを含む、バリアントコーリングユニット130によって取得された入力を受け取る。いくつかの実装形態では、読み取り対立遺伝子スコアには、対立遺伝子Gm,φを含むDNA分子が与えられた場合に、配列決定プロセスが読み取り値riを生成する確率を表す値P(ri|Gm,φ)を含めることができる。この値P(ri|Gm,φ)を計算または推定するには、様々な手段がある。
ゲノム分析ツールキット(GATK)またはDragen(登録商標)プラットフォームなどのハプロタイプベースのコーラーを使用した実装では、ド・ブラン・グラフを使用して、ハプロタイプHkを含むリストを生成することができ、ハプロタイプは、参照位置「0」142などの参照位置を超えて一方向または両方向に延びる塩基の配列を表す。次に、P-HMMユニット128などの隠れマルコフモデル(HMM)を使用して、ハプロタイプHkを含むDNA分子が与えられた場合に、配列決定プロセスが読み取り値riを生成する確率を表す読み取り値ハプロタイプスコアP(ri|Hk)を計算することができる。
HMM計算では、マッパー/整列器によって返される整列が正しいと仮定するのではなく、整列の起こり得る不確実性を考慮して、複数の可能な整列の確率を合計することができる。次に、いくつかのの実装形態では、読み取り対立遺伝子スコアには、対立遺伝子を含むハプロタイプよりも最高のスコアを割り当てることができる。
HMMユニットを使用してそのような確率を計算するためにバリアントコーリングユニット130を使用する詳細な説明は、そのすべてが参照によって本明細書に組み込まれる、米国特許公開第2016/0306922により詳細に記載されている。
ハプロタイプベースのコーラー以外のバリアントコーラーは、計算の複雑さを軽減するために、より単純な推定値を使用することができる。例えば、バリアントコーラーは、マッパー/整列器からの整列が正しいと仮定し、それに従ってスコアを推定することができる。SNPを検出するために、そのようなバリアントコーラーは、次の通り、参照位置「0」142などの参照位置に整列された塩基コールbiおよび塩基品質qiに基づいて、メモリ122に記憶されたパイルアップの各読み取り値に対する読み取り対立遺伝子スコアを推定することができる。
インデルの場合、このようなバリアントコーラーは、インデルの長さ、インデルが挿入または削除であるかどうか、および周囲の配列関係(例えば、短いタンデム反復の期間および長さ)に基づいてスコアを割り当てることができる。
SNP検出に関連する列方向の実装、またはSNPおよびインデル検出に関連するより一般的な実装を使用するかに関係なく、マッピング誤差確率モデル132の出力には、位置「0」142などの参照位置で1つ以上のマッピング誤差が発生した可能性を示すスコアを含む1つ以上の確率を含める。いくつかの実装形態では、マッピング誤差確率モデル132は、(i)参照位置142における読み取り値が、代替に一致する外来対立遺伝子とのホモ接合型参照の発生を示す可能性、および(ii)参照位置142における読み取り値が、参照対立遺伝子(165)に一致する外来対立遺伝子とのホモ接合型代替の発生を示す可能性を含む2つの異なる仮説に対して、2つの確率スコアを出力するように構成されている。
配列決定誤差確率モデル
配列決定誤差確率モデル134は、ヌクレオチドの特定の組み合わせが、配列決定アルゴリズムを混乱させて誤った配列を生成する可能性があるために発生する可能性がある配列決定誤差を考慮する確率モデルである。上記のマッピング誤差モデル132と同様に、いくつかの実装形態では、使用されるバリアントコーリングユニットの複雑さに基づいて、配列決定誤差確率モデル134に提供することができる入力に変動がある場合がある。より複雑なハプロタイプバリアントコーラーは、上記の方程式(1)を使用して計算される読み取り対立遺伝子スコアを使用することができる一方で、ハプロタイプバリアントコーラー以外の他のバリアントコーラーは、方程式(2)を使用して計算される読み取り対立遺伝子を使用することができる。いくつかの実装形態では、使用される読み取り対立遺伝子スコアのタイプは、バリアントコーリングユニット130を使用してSNPのみを検出するのか、またはSNPおよびインデルを検出するのかに基づいて判定することができる。
使用される読み取り対立遺伝子スコアのタイプに関係なく、配列決定誤差確率モデル134は、バリアントコーリングユニット130からの入力として、マッピングおよび整列された読み取り値の特性を記述するバリアントコーリングユニット130によって検索された一組の情報を受け取る。配列決定誤差が発生した確率を判定するために、配列決定誤差確率モデル134は、(i)メモリ122に記憶されたパイルアップの各読み取り値の読み取り配向、(ii)読み取り値の5’端を参照する、各読み取り値内の位置「0」142などの参照位置における各塩基の位置、(iii)参照位置「0」142などの参照位置における各候補対立遺伝子について、メモリ122に記憶されたパイルアップの各読み取り値の読み取り対立遺伝子スコア、および(iv)位置「0」などの参照位置における塩基の各読み取り値の塩基品質スコアを含むバリアントコーリングユニット130によって生成またはそうでなければ取得された入力を受け取る。
配列決定誤差確率モデルの他の変動は、他の入力を受け取るように構成することができる。例えば、いくつかの実装形態では、位置「0」142などの参照位置における塩基の各読み取り値の塩基品質スコアは、入力として必要ではない。参照位置「0」142における塩基の各読み取り値の塩基品質スコアが、読み取り対立遺伝子スコアが方程式(2)を使用して決定されるシナリオの一例である。そのような場合、参照位置「0」142などの参照位置における塩基の各読み取り値の塩基品質スコアは、方程式(2)を使用して決定された読み取り対立遺伝子スコアから導出することができる。しかしながら、位置「0」142などの参照位置における塩基の各読み取り値の塩基品質スコアは、代わりに別の受信された入力から導出することができるため、専用入力として必要とされない他の実装があり得る。
さらに他の実装形態では、別の第4の入力が配列決定誤差確率モデルに提供され得る。例えば、配列決定誤差確率モデルは、図1のインターフェース140の位置「0」における候補代替対立遺伝子「G」などの候補代替対立遺伝子を含む読み取り値の同じ方向(または読み取り配向)で、位置「0」142などの参照場所に先行する参照ゲノム145の複数のホモポリマーを記述する入力を受け取るように構成され得る。例えば、3つの参照対立遺伝子「G」は、候補代替対立遺伝子「G」と同じである参照場所142の前に、参照ゲノム145に生じることに留意されたい。この数のホモポリマーは、別の入力として配列決定誤差確率モデルに入力することができる。ホモポリマーの数を記述するこの入力を追加して、モデルの精度を改善することができる。
配列決定誤差確率モデル134の出力には、位置「0」142などの参照位置で1つ以上の配列決定誤差が発生した可能性を示すスコアを含む1つ以上の確率を含める。いくつかの実装形態では、配列決定誤差確率モデル134は、(i)参照位置142における読み取り値が、代替対立遺伝子(166)に一致する配列決定誤差とのホモ接合型参照の発生を示す可能性、および(ii)参照位置142における読み取り値が、参照対立遺伝子(167)に一致する配列決定誤差とのホモ接合型代替の発生を示す可能性を含む2つの異なる仮説に対して、2つの確率スコアを出力するように構成されている。
バリアントコーリングユニット130は、従来型確率モデルおよびその1つ以上を使用して、複数の仮説の各々に対して一組の変更された確率結果150を生成する。複数の仮説は、1つ以上の確率モデル131、使用される特定の1つ以上の確率モデル131、またはそれらの組み合わせに提供される入力に基づいて決定することができる。生成された組の変更された確率結果150は、それぞれの仮説が真である可能性を示す複数の仮説の各々に対する確率値を含むことができる。
例として、いくつかの実装形態では、バリアントコーリングユニット130が、マッピング誤差モデル132の入力のみを生成するか、そうでなければ提供する場合、次に、確率結果150の変更された組は、1つ以上のマッピング誤差が参照場所142で発生する可能性をそれぞれ考慮する、仮説161、162、163の従来型確率、および仮説164、165の非従来型確率を含み、各々については、以下でより詳しく説明する。別の例として、バリアントコーリングユニット130が、配列決定誤差モデル134の入力のみを生成するか、そうでなければ提供する場合、次に、確率結果150の変更された組は、1つ以上の配列決定誤差が参照場所142で発生する可能性をそれぞれ考慮する、仮説161、162、163の従来型確率、および仮説166、167の非従来型確率を含み、各々については、以下でより詳しく説明する。しかしながら、バリアントコーリングユニット130が、マッピング誤差モデル132および配列決定誤差モデル134の両方の入力を生成するか、そうでなければ提供する場合、次に、バリアントコーリングユニット130によって生成された、確率結果の組150の変更された組は、従来型確率161、162、163、および非従来型確率164、164、166、167を含み、各々については、以下でより詳しく説明する。変更された確率結果の組150は、コンピュータ可読バイナリ形式で生成され、かつ提供されてもよい。変更された確率結果の組150は、変更された確率結果150が、変更された確率計算を使用して、1つ以上のマッピング誤差、1つ以上の配列決定誤差、または両方の組み合わせの発生を考慮するために、バリアントコーリングユニット130によって使用することができる1つ以上の追加の仮説164、165、166、167に対する追加の確率スコアも含むことができるという点で、典型的にはバリアントコーリングユニット129によって実施される従来型確率計算の結果を改善する。
変更された確率結果150の組の人間が読み取れる変形形態は、バリアントコーリングユニット130によって生成された確率結果150の組にアクセスするユーザデバイスの表示装置上のグラフィカルユーザインターフェースを使用して示すことができる。そのようなグラフィカルユーザインターフェースの例は、インターフェース160を参照して図1の例に示されている。いくつかの実装形態では、表示装置には、例えば、二次分析ユニット120に連結されている表示デバイスを含めることができる。確率150の変更された組の確率の各々は、インターフェース160における確率の表示を参照して以下で説明される。しかしながら、これらの確率は、バリアントコーリングユニット130によって機械可読形式で取得および分析されてもよい。
バリアントコーラー130によって計算された従来型確率には、従来型確率モデルを使用して判定された確率の組を含めることができる。これらの従来型確率モデルは、(i)参照位置142における読み取り値がホモ接合型参照161の発生を示す可能性、(ii)参照位置142における読み取り値がヘテロ接合型代替162の発生を示す可能性、および(iii)参照位置142における読み取り値がホモ接合型代替の発生を示す可能性を含む3つの仮説の各々に対する確率スコアを判定するように構成されている。ホモ接合型参照は、参照位置142の両方の対立遺伝子が同じときに発生する。そのような場合、参照位置142における代替対立遺伝子は発生しない。ヘテロ接合型代替は、参照位置142における対立遺伝子の1つが代替対立遺伝子であり、参照位置142における他の対立遺伝子が参照対立遺伝子であるときに発生する。ホモ接合型代替は、参照位置142における両方の対立遺伝子が代替対立遺伝子であるときに発生する。これら3つの仮説を生成する従来型確率計算では、パイルアップ内のすべての読み取り値が正しくマッピングされ、読み取り値全体で配列決定誤差が無相関であると想定している。
しかしながら、マッピング誤差は通常発生し、マッピング誤差および配列決定誤差は、読み取り値間で高度に相関する傾向がある。これらの誤差の発生を考慮するために、本開示は、1つ以上の変更された確率モデル131を使用して、4つ以上の追加の非従来型仮説に対する確率スコアを含む、確率結果150の変更された組を生成するように構成されたバリアントコーリングユニット130を採用する。単一の代替対立遺伝子(例えば、参照対立遺伝子および第1の代替対立遺伝子)などのいくつかの実装形態では、確率結果150の変更された組には、本書に記載の4つの追加の非従来型仮説164、165、166、167に対する確率スコアを含めることができる。しかしながら、単一の代替対立遺伝子(例えば、参照対立遺伝子、第1の代替対立遺伝子、および第2の代替対立遺伝子)以上がある他の実装では、次いで確率結果150の変更された組には、本明細書に記載の4つ以上の非従来型仮説を含めることができる。このようなシナリオでは、第1の対立遺伝子、第2の対立遺伝子、および参照対立遺伝子のそれぞれの組み合わせは、本明細書に記載の4つの非従来型仮説164、165、166、167に対応する非従来型仮説の組に対する、生成された確率スコアを有する。確率結果150の変更された組は、バリアントコーリングユニット130が、1つ以上の相関誤差事象がパイルアップ141の参照場所142などの参照場所で発生した可能性を考慮することができることによって、1つ以上の確率モデル131によって出力された確率スコアのそれらを利用しない従来のバリアントコーラーと比較したときに、バリアントコーリングユニット130に改善を提供する。
確率結果150の変更された組には、1つ以上のマッピング誤差の潜在的な発生を考慮する、異なる仮説に対するそれぞれの非従来型確率スコアを含める。これらの追加の確率には、(i)参照位置142における読み取り値が、代替(164)に一致する外来対立遺伝子とのホモ接合型参照の発生を示す可能性、および(ii)参照位置142における読み取り値が、参照対立遺伝子(165)に一致する外来対立遺伝子とのホモ接合型代替の発生を示す可能性を含める。外来対立遺伝子には、マッピング誤差の結果であった参照位置142における参照ゲノム145の塩基ヌクレオチドにマッピングされた対立遺伝子を含めることができる。外来対立遺伝子は、参照ゲノム145の1つ以上の第2の領域と実質的に類似、または同一のヌクレオチド塩基の配列を有する、参照ゲノムの第1の領域に誤ってマッピングされる場合がある。
確率結果150の変更された組には、1つ以上の配列決定誤差の潜在的な発生を考慮するそれぞれの非従来型確率を含める。これらの追加の確率には、(i)参照位置142における読み取り値が、代替対立遺伝子(166)に一致する配列決定誤差とのホモ接合型参照の発生を示す可能性、および(ii)参照位置142における読み取り値が、参照対立遺伝子(167)に一致する配列決定誤差とのホモ接合型代替の発生を示す可能性を含める。
変更された確率結果150の組は、集合的に、参照位置142における塩基ヌクレオチドの真のバリアントが存在する確率を表す。さらに、確率161、162、163、164、165、166、167を含める変更された確率結果150の組のそれぞれの確率は、各仮説によって表される特定の遺伝子型が存在する特定の確率スコアを提供する。ここで、特定の遺伝子型には、ホモ接合型参照、ヘテロ接合型代替、ホモ接合型代替、代替に一致する外来対立遺伝子とのホモ接合型参照、参照対立遺伝子に一致する外来対立遺伝子とのホモ接合型代替、代替対立遺伝子に一致する配列決定誤差とのホモ接合型参照、または参照対立遺伝子に一致する配列決定誤差とのホモ接合型代替を含めることができる。
変更された確率結果150の組は、バリアントコーリングユニット130によって使用されて、1つ以上のサンプル読み取り値の候補代替対立遺伝子が、対象の参照位置における参照対立遺伝子の真のバリアントであるかどうかを判定することができる。図1の例を参照すると、バリアントコーリングユニット130は、変更された確率結果150の組を使用して、インターフェース140に示される候補代替対立遺伝子「G」が参照位置における参照対立遺伝子「A」の真のバリアントであるかどうかを判定することができる。例えば、バリアントコーリングユニット130は、変更された確率結果150の組を処理し、参照場所における真のバリアントを識別するデータがバリアントコーリングユニット130によって生成されたバリアントコールフォーマット(VCF)ファイル170に含まれるべきかどうかを136で判定する。
バリアントコーリングユニット130は、インターフェース140に示される候補代替対立遺伝子「G」を有する読み取り値を記述するデータなどのサンプルの1つ以上の読み取り値の候補代替対立遺伝子が、変更された確率結果150に基づいて集団スコアを判定し、1つ以上の所定の閾値を使用して集団スコアを評価することによって、真のバリアントを表すべきかどうかを判定することができる。集団スコアは、真のバリアントが存在する可能性を示すことができる。いくつかの実装形態では、方程式(14)を使用して集団スコアを判定することができる。しかしながら、集団スコアを判定する他の方法は、本開示の範囲内に含まれる。コンピュータが136で、集団スコアが所定の閾値を満たしていると判定した場合、次いで、コンピュータは真のバリアントが第1の位置に存在することを示す情報をVCFファイルに追加することができる。VCFファイルに追加された情報には、例えば、候補対立遺伝子の位置、代替対立遺伝子の識別子、代替対立遺伝子の遺伝子型、および集団スコアを示すデータを含めることができる。あるいは、コンピュータが136で、集団スコアが所定の閾値を満たしていないと判定した場合、次いで、コンピュータは出力データを破棄し、出力データが参照位置における偽陽性の発生を示すと判定することができる。
図1に示される例では、バリアントコーリングユニット130は136で、変更された確率150の組の確率に基づく集団スコアが、所定の閾値を満たさず、真のバリアントとしてVCFファイル170に候補代替対立遺伝子「G」を識別する情報を含めないと判定することができる。これは、集団スコアは、変更された確率140の組に基づいて、候補代替対立遺伝子「G」が、それぞれの読み取り値の5’端から離れた場所で低塩基品質の前方向に整列された位置の単一鎖でのみ発生するため、1つ以上の配列決定誤差が存在する高い可能性を示すためである。したがって、バリアントコーリングユニット130は、変更された確率150の組の評価に基づいて、候補代替対立遺伝子「G」が参照位置142における真のバリアントではなく、代わりに偽陽性であり、その参照場所142における真のバリアントは存在しないと判定することができる。
インターフェース160に示される確率は単なる例であり、本開示の一例を示す目的で提供されている。160に示される確率は、この明細書によって記載された実際の確率モデルに入れられている、図1に記載された実際の情報の結果ではない。
図2は、バリアントコーリングの相関誤差事象軽減のためのプロセス200の例のフローチャートである。プロセス200は、図1のバリアントコーリングユニットなどのコンピュータによって実施されるものとして以下に説明される。いくつかの実装形態では、バリアントコーリングユニットは、1つ以上のFPGA、ASIC、CPU、GPU、またはそれらの組み合わせなどのハードウェアを使用して、ソフトウェアまたはそれらの組み合わせを使用して実装することができる。
コンピュータは、1つ以上のメモリデバイスに記憶された、整列された配列読み取り値のパイルアップにアクセスする(ステップ210)ことにより、プロセス200の実施を開始することができる。整列された配列読み取り値は、FGPAデバイスの構成可能なロジックゲートを使用して実装されたマッピングおよび整列ユニットを使用して生成された可能性がある。いくつかの実装形態では、アクセスされた読み取り値は、1つ以上のメモリデバイスに記憶され、前方向に整列された配列読み取り値の第1の組および後方向に配列された配列読み取り値の第2の組を含むことができる。配列読み取り値のそれぞれの組は、特定の読み取り配向または読み取り方向に対応している。
コンピュータは、配列読み取り値のパイルアップの第1の位置におけるパイルアップのそれぞれの読み取り値の1つ以上の特性を記述する情報を取得する(ステップ220)ことによって、プロセス200の実施を継続することができる。1つ以上の特性には、1つ以上の相関誤差事象の発生確率を考慮するために使用することができる、第1の位置におけるパイルアップ内の読み取り値の属性を含めることができる。
コンピュータは、第1の位置におけるパイルアップの読み取り値の1つ以上の特性を記述する確率モデルへの1つ以上の入力を提供する(ステップ230)ことによって、プロセス200の実施を継続することができる。第1の位置でパイルアップの読み取り値に関連付けられた1つ以上の特性には、(i)1つ以上のメモリデバイスから取得した1つ以上の特性を記述する情報、(ii)1つ以上のメモリデバイスから取得した1つ以上の特性を記述する情報の1つ以上のモデルの処理に基づいて、P-HMMモデルなどの1つ以上のモデルによって生成された情報、またはそれらの組み合わせを含めることができる。いくつかの実装形態では、確率モデルは、1つ以上の入力に基づいて選択された1つ以上の仮説の各仮説に対して、仮説が真であることを示す仮説の各々のスコアを判定するように構成されている。
コンピュータは、1つ以上の入力に基づく1つ以上の仮説の各仮説に対する出力情報を取得することによって、プロセス200の実施を継続することができる。各仮説の出力情報は、(i)パイルアップのそれぞれの読み取り値の1つ以上の特性を記述する確率モデルへの1つ以上の入力の確率モデルの処理に基づいて、確率モデルによって生成され得、かつ(ii)仮説が真である確率を示すことができる(ステップ240)。いくつかの実装形態では、コンピュータは、1つ以上の仮説の各々、または1つ以上の仮説のサブセットに対してそのような出力情報を取得することができる。特定の仮説が出力情報に含まれるかどうかは、確率モデルに提供される入力に基づいて判定することができる。
いくつかの実装形態では、1つ以上の仮説には、上記のような確率モデルへの1つ以上の入力に基づいて、(i)参照位置における読み取り値がホモ接合型参照の発生を示す可能性、(ii)参照位置における読み取り値がヘテロ接合型代替の発生を示す可能性、(iii)参照位置における読み取り値がホモ接合型代替の発生を示す可能性、(iv)参照位置における読み取り値が、代替に一致する外来対立遺伝子とのホモ接合型参照の発生を示す可能性、(v)参照位置における読み取り値が、参照対立遺伝子に一致する外来対立遺伝子とのホモ接合型代替の発生を示す可能性、(vi)参照位置における読み取り値が、代替対立遺伝子に一致する配列決定誤差とのホモ接合型参照の発生を示す可能性、および(vii)参照位置における読み取り値が、参照対立遺伝子に一致する配列決定誤差とのホモ接合型代替の発生を示す可能性、またはそれらの任意の組み合わせを含めることができる。
コンピュータは、複数の仮説の各々に対する、確率モデルによって生成された、取得された出力データに基づいて、真のバリアントが第1の位置に存在する可能性を判定する(ステップ250)ことによって、プロセス200の実施を継続することができる。いくつかの実装形態では、この判定は、例えば、1つ以上の所定の閾値に対する1つ以上の仮説の各々に対する、判定された確率スコアの個々の、または集団的な評価に基づいて行うことができる。
例えば、コンピュータは、複数の仮説の各々に対する、確率モデルによって生成された出力データに基づいている集団スコアを判定することができる。集団スコアは、真のバリアントが存在する可能性を示すことができる。いくつかの実装形態では、方程式(14)を使用して集団スコアを判定することができる。しかしながら、集団スコアを判定する他の方法は、本開示の範囲内に含まれる。コンピュータが、集団スコアが所定の閾値を満たしていると判定した場合、次いで、コンピュータは真のバリアントが第1の位置に存在することを示す情報をVCFファイルに追加することができる。あるいは、コンピュータが、集団スコアが所定の閾値を満たしていないと判定した場合、次いで、コンピュータは出力データを破棄し、出力データが参照位置における偽陽性の発生を示すと判定することができる。
図3は、バリアントコーリングのマッピング誤差軽減のプロセス300の一例のフローチャートである。プロセス300は、図1のバリアントコーリングユニットなどのコンピュータによって実施されるものとして以下に説明される。いくつかの実装形態では、バリアントコーリングユニットは、1つ以上のFPGA、ASIC、CPU、GPU、またはそれらの組み合わせなどのハードウェアを使用して、ソフトウェアまたはそれらの組み合わせを使用して実装することができる。
コンピュータは、1つ以上のメモリデバイスに記憶された、整列された配列読み取り値のパイルアップにアクセスする(ステップ310)ことによって、プロセス300の実施を開始することができる。整列された配列読み取り値は、FGPAデバイスの構成可能なロジックゲートを使用して実装されたマッピングおよび整列ユニットを使用して生成された可能性がある。いくつかの実装形態では、アクセスされた読み取り値は、1つ以上のメモリデバイスに記憶され、前方向に整列された配列読み取り値の第1の組および後方向に配列された配列読み取り値の第2の組を含むことができる。配列読み取り値のそれぞれの組は、特定の読み取り配向または読み取り方向に対応している。
コンピュータは、(i)1つ以上のメモリに記憶された、整列された配列読み取り値のパイルアップの読み取り値の各々に対するマッピング信頼スコアおよび(ii)参照位置における各候補対立遺伝子の1つ以上のメモリに記憶された、整列された配列読み取り値のパイルアップの読み取り値の各々の読み取り対立遺伝子スコアを記述する情報を取得する(320)ことによって、プロセス300の実施を継続することができる。
いくつかの実装形態では、マッピング信頼スコアは、マッピングおよび整列ユニット126の出力を含むことができ、マッピング誤差のフレッドスケールQphred-mappingを使用して判定することができ、Qphred-mapping=-10*log10(Pe-mapping)である。この例では、Pe-mappingは、特定の読み取り値のマッピング誤差の確率である。マッピング信頼スコア144の値は、Smith-Waterman整列器などの整列アルゴリズムからの最高整列スコアと整列器の2番目に良いスコアとの間の差に比例する可能性がある。
読み取り対立遺伝子スコアは、複数の異なる手段で判定することができる。例えば、より複雑なハプロタイプバリアントコーラーは、上記の方程式(1)を使用して計算される読み取り対立遺伝子スコアを使用することができる。あるいは、ハプロタイプバリアントコーラー以外の他のバリアントコーラーは、上記の方程式(2)を使用して計算された読み取り対立遺伝子スコアを使用することができる。いくつかの実装形態では、使用される読み取り対立遺伝子スコアのタイプは、バリアントコーリングユニット130を使用してSNPのみを検出するのか、またはSNPおよびインデルを検出するのかに基づいて判定することができる。例えば、バリアントコーリングユニットを使用してSNPおよびインデルを検出するいくつかの実装形態では、次に上記の方程式(1)を使用して計算された読み取り対立遺伝子スコアを使用することができる。別の例として、バリアントコーリングユニットを使用してSNPのみを検出する他の実装形態では、次に方程式(2)を使用して計算された読み取り対立遺伝子スコアを使用することができる。
コンピュータは、(i)1つ以上のメモリに記憶された、整列された配列読み取り値のパイルアップの読み取り値の各々に対するマッピング信頼スコアおよび(ii)参照位置における各候補対立遺伝子の1つ以上のメモリに記憶された、整列された配列読み取り値のパイルアップの読み取り値の各々の読み取り対立遺伝子スコアを記述する、取得された情報を記述する確率モデルへの1つ以上の入力を提供する(ステップ330)ことによって、プロセス300の実施を継続することができる。
コンピュータは、320で取得された1つ以上の入力に基づく1つ以上の仮説の各仮説に対する出力情報を取得する(340)ことによって、プロセス300の実施を継続することができる。プロセス300の例では、取得された入力には、(i)読み取り値の各々に対するマッピング信頼スコアおよび(ii)参照位置における各候補対立遺伝子の読み取り値の各々に対する読み取り対立遺伝子スコアを含む、マッピング誤差確率モデルの入力を含める。したがって、マッピング誤差確率モデルのこれらの入力の受け取りに基づいて、コンピュータは、1つ以上のマッピング誤差の発生を考慮する1つ以上の仮説に対する出力情報を生成する。このような仮説には、(i)参照位置における読み取り値が、代替に一致する外来対立遺伝子とのホモ接合型参照の発生を示す可能性および(ii)参照位置における読み取り値が、参照対立遺伝子に一致する外来対立遺伝子とのホモ接合型代替の発生を示す可能性を含める。
出力情報には、これらの仮説の各々に対する、(i)1つ以上のメモリに記憶された、整列された配列読み取り値のパイルアップの読み取り値の各々に対するマッピング信頼スコアおよび(ii)参照位置における各候補対立遺伝子の1つ以上のメモリに記憶された、整列された配列読み取り値のパイルアップの読み取り値の各々に対する読み取り対立遺伝子スコアを(i)記述する確率モデルへの入力の確率モデルの処理に基づいた、マッピング誤差確率モデルによって生成された情報を含める。さらに、取得された出力情報には、1つ以上のマッピング誤差の発生を考慮する特定の仮説の各々に対する、仮説が真である可能性を示すスコアを含める。
コンピュータは、複数の仮説の各々に対する、確率モデルによって生成された、取得された出力データに基づいて、真のバリアントが第1の位置に存在する可能性を判定する(ステップ350)ことによって、プロセス300の実施を継続することができる。いくつかの実装形態では、この判定は、例えば、1つ以上の所定の閾値に対する1つ以上の仮説の各々に対する、判定された確率スコアの個々の、または集団的な評価に基づいて行うことができる。
例えば、コンピュータは、複数の仮説の各々に対する、確率モデルによって生成された出力データに基づいている集団スコアを判定することができる。集団スコアは、真のバリアントが存在する可能性を示すことができる。いくつかの実装形態では、方程式(14)を使用して集団スコアを判定することができる。しかしながら、集団スコアを判定する他の方法は、本開示の範囲内に含まれる。コンピュータが、集団スコアが所定の閾値を満たしていると判定した場合、次いで、コンピュータは真のバリアントが第1の位置に存在することを示す情報をVCFファイルに追加することができる。あるいは、コンピュータが、集団スコアが所定の閾値を満たしていないと判定した場合、次いで、コンピュータは出力データを破棄し、出力データが参照位置における偽陽性の発生を示すと判定することができる。
上記のプロセス300は、マッピング誤差の可能性を考慮するために使用することができる確率モデルを使用する方法を説明する。1つ以上のマッピング誤差の可能性を考慮するために使用することができる確率モデルの例は、以下でより詳しく説明する。
一実装形態では、確率モデルは、メモリデバイスに記憶された配列読み取り値のパイルアップが、結果的に1つ以上のマッピング誤差の発生をもたらす複数の誤ってマッピングされた読み取り値を含む実現性を組み込むために変更される。確率モデルは、次のシナリオに適用することができる。(1)各読み取り値riには、正しくマッピングされたというフレッドスケールの信頼性を示すマッピング品質μiが伴う。したがってR={ri,μi:i=1...NR}、(2)二次配列(すなわち、読み取り値がうまく整列するゲノム内の他の遺伝子座)は不明である、および/または表にするには多すぎる場合があり、(3)入力として、各読み取り値riおよび候補対立遺伝子Gm,φの塩基品質P(ri|Gm,φ)が与えられる。
一実装形態では、本開示は、候補遺伝子型のリストを拡張候補遺伝子型で補完する従来のバリアントコーリング確率モデルを変更し、メモリデバイスに記憶された配列読み取り値のパイルアップが局所対立遺伝子と外来対立遺伝子の混合物を含むという仮説を表す。
1つの外来対立遺伝子を有するニ倍性ゲノムの場合、本開示の手法は、外来対立遺伝子Fmである拡張候補遺伝子型G'm=[Gm,1 Gm,2 Fm]を定義する。局所対立遺伝子Gm,1およびGm,2は、対立遺伝子頻度(1-β)/2を有し、一方、外来対立遺伝子Fmは、対立遺伝子頻度βを有し、βは不明であると各々想定されている。
各拡張候補遺伝子型Gmに対して、モデルは、
を計算し、U(t)は、Heavyside Unit関数であり、
P0(Fm)は、対象の遺伝子座で発生する遺伝子型[ρ Fm]の事前確率であり、ρは、対象の遺伝子座における参照対立遺伝子である。値
は、結合確率P(G'm,R)の推定値である。
1つ以上のマッピング誤差の発生の可能性を判定するための確率モデルは、誤ってマッピングされた読み取り値のマッピング品質μiと、読み取り値iを誤ってマッピングさせるバリアント(またはバリアントのクラスター)の事前確率との間の関係に基づいている。1つ以上のマッピング誤差の発生の可能性を判定する確率モデルでは、数量pFは、十分な数のバリアントが別の場所で発生して、読み取り値をマッピング品質μ=-10log10(pF/P0(Fm))で誤ってマッピングさせる事前確率を表す。上記の項1は、マッピング品質インジケータμiがこの閾値を超えない場合にのみゼロ以外になり、pFが減少するにつれて増加する。一般に、遠隔地で発生したバリアントの数は不明であり、pFを掃引して
を最大化する値を見出し、これにより、外来読み取り値がここで終了する可能性のある、遠隔バリアントの数に関するすべての仮説をテストする。
いくつかの実装形態では、1つ以上のマッピング誤差の発生の可能性を判定するための確率モデルの複雑さが最適化される。(方程式3)に示すようにβおよびpFの両方が独立して掃引され、結果が連続した値の範囲で評価されるため、
の評価は計算の複雑さが高いように見える場合があることに留意されたい。解像度によっては、計算の複雑さが非常に高くなる場合がある。しかしながら、pFは、μiの値に対応する値の離散集合でのみ掃引される必要があり、式中
通常、これは少数である。具体的には、項βを掃引する必要はまったくなく、その代わり、最適な値は項1が項2を超える読み取り値の割合として推定することができ、この推定値は、たいてい結果にほとんど影響を与えない。最終的に、この動作の計算コストは、通常、システムの他の部分と比較して重要ではない(例えば、隠れマルコフモデル(HMM)の計算)。
いくつかの実装形態では、マッピング信頼スコアを調整する必要がある場合がある。いくつかの実装形態では、マッピングおよび整列ユニットによって報告されたマッピング信頼スコアは、読み取り値が正しくマッピングされたというフレッドスケールの信頼性の推定値を表す場合があるが、実際には、この推定値は不正確な場合がある。そのため、マッパーによっては、マッピング信頼スコアを調整して、誤ったマッピングの真の可能性により良好に一致させることが有益な場合がある。いくつかの実装形態では、MAPQスコアなどの第1のマッピング信頼スコアを表すマッピングおよび整列ユニットの出力値は、図4に示される関数400を使用してマッピング信頼スコアμiに変換することができる。
いくつかの実装形態では、項βは、範囲[0,0.5]に制限される場合がある。値β=0.5は、代替参照場所に対するすべての読み取り値が、対象の参照場所にマッピングされるシナリオに対応する。βのより高い可能な値を意味する、複数の外来読み取り値元が存在する可能性が考えられるが、βを0.5に制限することにより、そうでなければ抑制されるいくつかの真陽性を回復して全体の精度を改善することができる。
いくつかの実装形態では、候補の数をGm,1=Gm,2=Gmの場合のみに低減することができる。この場合、方程式(3)は、次のように簡略化される。
いくつかの実装形態では、上記の式は、遺伝子型判定の事象と重なり合う読み取り値、つまり、ある対立遺伝子を別の対立遺伝子よりも優先する読み取り値のみを含む入力を想定する場合がある。しかしながら、いくつかの実装形態では、どの読み取り値がその事象と重なり合うのかについて曖昧な点がある場合がある。このようなシナリオでは、次の式により、計算に重なり合っていない読み取り値を含めることに関連する複雑さを回避する。
いくつかの実装形態では、1つ以上のマッピング誤差の発生が存在する可能性を判定するための確率モデルの別の変形形態である。そのような実装形態では、各読み取り値の鎖方向の知識を記述するデータは、確率モデルによって考慮されてもよい。一般に、誤ってマッピングされた読み取り値は、単一鎖方向に限定されることが多く、これは、そのような読み取り値が外来のものであるという仮説を支持する有用な情報になり得る。この潜在的な誤差を考慮するために、1つ以上のマッピング誤差の発生が終了する可能性を判定するための確率モデルのインジケータは、仮にθiが読み取り値iの鎖方向を示すとすると、値0および1は前方向および後方向の鎖方向をそれぞれ示す。1つ以上のマッピング誤差の発生が存在する可能性を判定するために鎖認識のある変更された確率マッピングモデルを使用すると、3つの仮説を評価することができる。これらの3つの仮説には、外来読み取り値が前方向の鎖でのみ、後方向の鎖でのみ、または両方向の鎖で発生することを含める。解決策には、
を最大化する仮説を含める。方程式(5)から開始すると、この変形形態は次のようになる。
式中Λ0={i:θi=0}, Λ1={i:θi=1}, Λ2={i:θi=0又は1}。
図5は、バリアントコーリングの配列決定誤差軽減のプロセスの一例のフローチャートである。プロセス500は、図1のバリアントコーリングユニットなどのコンピュータによって実施されるものとして以下に説明される。いくつかの実装形態では、バリアントコーリングユニットは、1つ以上のFPGA、ASIC、CPU、GPU、またはそれらの組み合わせなどのハードウェアを使用して、ソフトウェアまたはそれらの組み合わせを使用して実装することができる。
コンピュータは、1つ以上のメモリデバイスに記憶された、整列された配列読み取り値のパイルアップにアクセスすることにより、プロセス500の実施を開始することができる(ステップ510)。整列された配列読み取り値は、FGPAデバイスの構成可能なロジックゲートを使用して実装されたマッピングおよび整列ユニットを使用して生成された可能性がある。いくつかの実装形態では、アクセスされた読み取り値は、1つ以上のメモリデバイスに記憶され、前方向に整列された配列読み取り値の第1の組および後方向に配列された配列読み取り値の第2の組を含むことができる。配列読み取り値のそれぞれの組は、特定の読み取り配向または読み取り方向に対応している。
コンピュータは、(i)1つ以上のメモリに記憶された、整列された配列読み取り値のパイルアップの読み取り値の各々に対する読み取り配向、(ii)1つ以上のメモリに記憶された、整列された配列読み取り値のパイルアップの読み取り値の各々に対する、読み取り値の5’端を参照する参照場所における各塩基の位置、(iii)参照位置における各候補対立遺伝子の1つ以上のメモリに記憶されている、整列された配列読み取り値のパイルアップの読み取り値の各々に対する読み取り対立遺伝子スコア、および(iv)位置「0」などの参照位置における塩基の各読み取り値の塩基品質スコアを記述する情報を取得する(520)ことによって、プロセス500の実施を継続することができる。
読み取り対立遺伝子スコアは、複数の異なる手段で判定することができる。例えば、より複雑なハプロタイプバリアントコーラーは、上記の方程式(1)を使用して計算される読み取り対立遺伝子スコアを使用することができる。あるいは、ハプロタイプバリアントコーラー以外の他のバリアントコーラーは、上記の方程式(2)を使用して計算された読み取り対立遺伝子スコアを使用することができる。いくつかの実装形態では、使用される読み取り対立遺伝子スコアのタイプは、バリアントコーリングユニット130を使用してSNPのみを検出するのか、またはSNPおよびインデルを検出するのかに基づいて判定することができる。例えば、バリアントコーリングユニットを使用してSNPおよびインデルを検出するいくつかの実装形態では、次に上記の方程式(1)を使用して計算された読み取り対立遺伝子スコアを使用することができる。別の例として、バリアントコーリングユニットを使用してSNPのみを検出する他の実装形態では、次に方程式(2)を使用して計算された読み取り対立遺伝子スコアを使用することができる。
コンピュータは、(i)1つ以上のメモリに記憶された、整列された配列読み取り値のパイルアップの読み取り値の各々に対する読み取り配向、(ii)1つ以上のメモリに記憶された、整列された配列読み取り値のパイルアップの読み取り値の各々に対する、読み取り値の5’端を参照する参照場所における各塩基の位置、(iii)参照位置における各候補対立遺伝子の1つ以上のメモリに記憶されている、整列された配列読み取り値のパイルアップの読み取り値の各々に対する読み取り対立遺伝子スコア、および(iv)位置「0」などの参照位置における塩基の各読み取り値の塩基品質スコアを記述する、取得された情報を記述する確率モデルへの1つ以上の入力を提供する(ステップ530)ことによって、プロセス500の実施を継続することができる。
コンピュータは、520で取得された1つ以上の入力に基づく1つ以上の仮説の各仮説に対する出力情報を取得する(540)ことによって、プロセス500の実施を継続することができる。プロセス500の例では、取得された入力には、(i)1つ以上のメモリに記憶された、整列された配列読み取り値のパイルアップの読み取り値の各々に対する読み取り配向、(ii)1つ以上のメモリに記憶された、整列された配列読み取り値のパイルアップの読み取り値の各々に対する、読み取り値の5’端を参照する参照場所における各塩基の位置、(iii)参照位置における各候補対立遺伝子の1つ以上のメモリに記憶されている、整列された配列読み取り値のパイルアップの読み取り値の各々に対する読み取り対立遺伝子スコア、および(iv)位置「0」などの参照位置における塩基の各読み取り値の塩基品質スコアを含む、配列決定誤差確率モデルに対する入力を含める。したがって、配列決定誤差確率モデルのこれらの入力の受け取りに基づいて、コンピュータは、1つ以上の配列決定誤差の発生を考慮する1つ以上の仮説に対する出力情報を生成する。このような仮説には、(i)参照位置における読み取り値が、代替対立遺伝子に一致する配列決定誤差とのホモ接合型参照の発生を示す可能性および(ii)参照位置における読み取り値が、参照対立遺伝子に一致する配列決定誤差とのホモ接合型代替の発生を示す可能性を含める。
取得された出力情報には、これらの仮説の各々に対する、(i)1つ以上のメモリに記憶された、整列された配列読み取り値のパイルアップの読み取り値の各々に対する読み取り配向、(ii)1つ以上のメモリに記憶された、整列された配列読み取り値のパイルアップの読み取り値の各々に対する、読み取り値の5’端を参照する参照場所における各塩基の位置、(iii)参照位置における各候補対立遺伝子の1つ以上のメモリに記憶されている、整列された配列読み取り値のパイルアップの読み取り値の各々に対する読み取り対立遺伝子スコア、および(iv)位置「0」などの参照位置における塩基の各読み取り値の塩基品質スコアを(i)記述する確率モデルへの確率モデルの処理に基づいた、配列決定誤差確率モデルによって生成された情報を含める。さらに、取得された出力情報には、1つ以上の配列決定誤差の発生を考慮する特定の仮説の各々に対する、仮説が真である可能性を示すスコアを含める。
コンピュータは、複数の仮説の各々に対する、確率モデルによって生成された、取得された出力データに基づいて、真のバリアントが第1の位置に存在する可能性を判定する(ステップ550)ことによって、プロセス500の実施を継続することができる。いくつかの実装形態では、この判定は、例えば、1つ以上の所定の閾値に対する1つ以上の仮説の各々に対する、判定された確率スコアの個々の、または集団的な評価に基づいて行うことができる。
例えば、コンピュータは、複数の仮説の各々に対する、確率モデルによって生成された出力データに基づいている集団スコアを判定することができる。集団スコアは、真のバリアントが存在する可能性を示すことができる。いくつかの実装形態では、方程式(14)を使用して集団スコアを判定することができる。しかしながら、集団スコアを判定する他の方法は、本開示の範囲内に含まれる。コンピュータが、集団スコアが所定の閾値を満たしていると判定した場合、次いで、コンピュータは真のバリアントが第1の位置に存在することを示す情報をVCFファイルに追加することができる。あるいは、コンピュータが、集団スコアが所定の閾値を満たしていないと判定した場合、次いで、コンピュータは出力データを破棄し、出力データが参照位置における偽陽性の発生を示すと判定することができる。
上記のプロセス500は、配列決定誤差の可能性を考慮するために使用することができる確率モデルを使用する方法を説明する。系統誤差とも呼ばれる1つ以上の配列決定誤差の可能性を考慮するために使用することができる確率モデルの例は、以下でより詳しく説明する。
一実装形態では、確率モデルは、特定の塩基確率が高い確率で塩基コール誤差を生成する傾向があり、この確率が確率P(ri|Gm,φ)を計算するために使用される塩基品質によって表されない、という観察を考慮するために変更される。
配列決定誤差の発生の可能性を判定する確率モデルは、次のシナリオに適用することができる。
(1)誤差は、片方の鎖方向が破損している一方で、他方の鎖には誤差がないことが一般的であるため、鎖方向ごとに独立して発生すると思われる。
(2)誤差は、読み取り値の5’端からさらに発生する可能性が高く、誤差率は、5’端から一定の距離で急激に低下することがよくある。したがって、所与の鎖方向の読み取り値が5’端からの距離が小さい順序にリスト化されているときに、すべての誤差はリストの先頭のサブセット内に含まれている。
(3)誤差には、誤差を含む読み取り値のサブセット全体の平均塩基品質の低下が伴うことが多いが、すべての誤った読み取り値の塩基品質が低いわけではなく、多くの場合、平均塩基品質はこれらの誤差事象に関連する真の誤差率を反映するほど低くはない。
(4)誤差は、誤差に一致するホモポリマーが先行することが多い、例えば、T==>G誤差は、Gの配列が先行することが多い。
したがって、本開示は、上記の4つの特性を考慮する、配列決定誤差の発生の可能性を判定するための確率モデルを提供する。
一実装形態では、上記の4つの特性を考慮する配列決定誤差の発生の可能性を判定するための確率モデルは、次の項定義から開始することで実現することができる。
仮にθが鎖方向θ=0,1を示すとする。
仮に読み取り値rθ,iを、鎖方向、および対象の遺伝子座から5’端までの距離によって順序付けられるとすると、i=1は5’端から最も遠く、誤差事象の影響を受ける可能性が最も高くなる。
仮にqθ,iを、読み取り値rθ,iの対象の遺伝子座と整列された塩基のフレッドスケール塩基品質を示すとする。
仮に
を、鎖方向θに対する順序付けられた読み取り値i=1...nθのサブセットの平均塩基品質とすると、
である。
仮に拡張候補遺伝子型G'm=[Gm,1 Gm,2 Em,0 Em,1]を定義すると、Em,θは鎖方向θの誤差対立遺伝子である。
仮にLE,θを鎖方向θの誤差の直前の塩基Em,θに一致するホモポリマーの長さとする。
拡張候補遺伝子型G'mごとに、以下を計算する。
ここで、
は、サブセットの平均塩基品質と誤差に一致するホモポリマーの長さの関数として、読み取り値のサブセットに影響を及ぼす誤差事象の事前確率を示す。
数量
は、以下の仮定の下での結合確率P(G'm,R)の推定値を表す。(1)誤差事象は、第1から始まり、5’端からの距離が減少するように順序付けられたとき、連続した読み取り値のサブセットに影響を与え、そのサブセットの外部の読み取り値には影響を与えず、(2)誤差事象は、各鎖に対して独立して発生し、(3)このような誤差事象の事前確率は、誤差事象の影響を受ける読み取り値のサブセット全体の平均塩基品質と、鎖方向Em,θの誤差の直前の塩基θに一致するホモポリマーの長さの関数である。
いくつかの実装形態では、候補の数を低減して、Gm,1=Gm,2=Gmの場合の評価ケースのみをテストすることができる。この場合、式は、次のように簡略化される。
いくつかの実装形態では、αθの値をαθ=0.5に固定することができる。したがって、次のように(7)を書き換えることができる。
いくつかの実装形態では、(6)の事前確率関数
は、広範囲の形状を有する可能性がある一般的な関数として表される。理論的には、この関数は実際のデータでトレーニングすることができる。しかしながら、実際のデータでこの関数をトレーニングする使用に制限がある場合、配列決定誤差を判定するための現在の確率モデルのいくつかの実装では
を使用することができる。
いくつかの実装形態では、上記の方程式は、各鎖方向に対する異なる誤差対立遺伝子の実現性に適応させることができる。しかしながら、いくつかの実装形態では、1つ以上の配列決定誤差の可能性を判定するための確率モデルは、Em,0=Em,1の場合にのみ仮説を考慮することができる。そのような実装形態では、下付きのθを削除してから、誤差対立遺伝子をEmとして表すことができる。
図6は、バリアントコーリングの相関誤差軽減のプロセス600の一例の別のフローチャートである。プロセス600は、図1のバリアントコーリングユニットなどのコンピュータによって実施されるものとして以下に説明される。いくつかの実装形態では、バリアントコーリングユニットは、1つ以上のFPGA、ASIC、CPU、GPU、またはそれらの組み合わせなどのハードウェアを使用して、ソフトウェアまたはそれらの組み合わせを使用して実装することができる。
コンピュータは、1つ以上のメモリデバイスに記憶された、整列された配列読み取り値のパイルアップにアクセスする(ステップ610)ことにより、プロセス600の実施を開始することができる。整列された配列読み取り値は、FGPAデバイスの構成可能なロジックゲートを使用して実装されたマッピングおよび整列ユニットを使用して生成された可能性がある。いくつかの実装形態では、アクセスされた読み取り値は、1つ以上のメモリデバイスに記憶され、前方向に整列された配列読み取り値の第1の組および後方向に配列された配列読み取り値の第2の組を含むことができる。配列読み取り値のそれぞれの組は、特定の読み取り配向または読み取り方向に対応している。
コンピュータは、(i)1つ以上のメモリに記憶された、整列された配列読み取り値のパイルアップの読み取り値の各々に対する読み取り配向、(ii)1つ以上のメモリに記憶された、整列された配列読み取り値のパイルアップの読み取り値の各々に対する、読み取り値の5’端を参照する参照場所における各塩基の位置、(iii)読み取り値の各々に対するマッピング信頼スコア、(iv)参照位置における各候補対立遺伝子の1つ以上のメモリに記憶されている、整列された配列読み取り値のパイルアップの読み取り値の各々に対する読み取り対立遺伝子スコア、および(v)位置「0」などの参照位置における塩基の各読み取り値の塩基品質スコアを記述する情報を取得する(620)ことによって、プロセス600の実施を継続することができる。
いくつかの実装形態では、マッピング信頼スコアは、マッピングおよび整列ユニット126の出力を含むことができ、マッピング誤差のフレッドスケールQphred-mappingを使用して判定することができ、Qphred-mapping=-10*log10(Pe-mapping)である。この例では、Pe-mappingは、特定の読み取り値のマッピング誤差の確率である。マッピング信頼スコア144の値は、Smith-Waterman整列器などの整列アルゴリズムからの最高整列スコアと整列器の2番目に良いスコアとの間の差に比例する可能性がある。
読み取り対立遺伝子スコアは、複数の異なる手段で判定することができる。例えば、より複雑なハプロタイプバリアントコーラーは、上記の方程式(1)を使用して計算される読み取り対立遺伝子スコアを使用することができる。あるいは、ハプロタイプバリアントコーラー以外の他のバリアントコーラーは、上記の方程式(2)を使用して計算された読み取り対立遺伝子スコアを使用することができる。いくつかの実装形態では、使用される読み取り対立遺伝子スコアのタイプは、バリアントコーリングユニット130を使用してSNPのみを検出するのか、またはSNPおよびインデルを検出するのかに基づいて判定することができる。例えば、バリアントコーリングユニットを使用してSNPおよびインデルを検出するいくつかの実装形態では、次に上記の方程式(1)を使用して計算された読み取り対立遺伝子スコアを使用することができる。別の例として、バリアントコーリングユニットを使用してSNPのみを検出する他の実装形態では、次に方程式(2)を使用して計算された読み取り対立遺伝子スコアを使用することができる。
コンピュータは、(i)1つ以上のメモリに記憶された、整列された配列読み取り値のパイルアップの読み取り値の各々に対する読み取り配向、(ii)1つ以上のメモリに記憶された、整列された配列読み取り値のパイルアップの読み取り値の各々に対する、読み取り値の5’端を参照する参照場所における各塩基の位置、(iii)読み取り値の各々に対するマッピング信頼スコア、(iv)参照位置における各候補対立遺伝子の1つ以上のメモリ(ステップ630)に記憶されている、整列された配列読み取り値のパイルアップの読み取り値の各々に対する読み取り対立遺伝子スコア、および(v)位置「0」などの参照位置における塩基の各読み取り値の塩基品質スコアを記述する、取得された情報を記述する確率モデルへの1つ以上の入力を提供する(630)ことによって、プロセス600の実施を継続することができる。
コンピュータは、620で取得された1つ以上の入力に基づく1つ以上の仮説の各仮説に対する出力情報を取得する(640)ことによって、プロセス600の実施を継続することができる。プロセス600の例では、取得された入力には、(i)1つ以上のメモリに記憶された、整列された配列読み取り値のパイルアップの読み取り値の各々に対する読み取り配向、(ii)1つ以上のメモリに記憶された、整列された配列読み取り値のパイルアップの読み取り値の各々に対する、読み取り値の5’端を参照する参照場所における各塩基の位置、(iii)読み取り値の各々に対するマッピング信頼スコア、(iv)参照位置における各候補対立遺伝子の1つ以上のメモリに記憶されている、整列された配列読み取り値のパイルアップの読み取り値の各々に対する読み取り対立遺伝子スコア、および(v)位置「0」などの参照位置における塩基の各読み取り値の塩基品質スコアを含む、マッピング誤差確率モデルおよび配列決定誤差確率モデルに対する入力を含める。したがって、マッピング誤差確率モデルおよび配列決定誤差確率モデルのこれらの入力の受け取りに基づいて、コンピュータは、1つ以上のマッピング誤差および1つ以上の配列決定誤差の発生を考慮する1つ以上の仮説に対する出力情報を生成する。そのような仮説には、(i)参照位置における読み取り値が、代替に一致する外来対立遺伝子とのホモ接合型参照の発生を示す可能性、(ii)参照位置における読み取り値が、参照対立遺伝子に一致する外来対立遺伝子とのホモ接合型代替の発生を示す可能性、(iii)参照位置における読み取り値が、代替対立遺伝子に一致する配列決定誤差とのホモ接合型参照の発生を示す可能性、および(iv)参照位置における読み取り値が、参照対立遺伝子に一致する配列決定誤差とのホモ接合型代替の発生を示す可能性を含める。
取得された出力情報には、これらの仮説の各々に対する、(i)1つ以上のメモリに記憶された、整列された配列読み取り値のパイルアップの読み取り値の各々に対する読み取り配向、(ii)1つ以上のメモリに記憶された、整列された配列読み取り値のパイルアップの読み取り値の各々に対する、読み取り値の5’端を参照する参照場所における各塩基の位置、(iii)読み取り値の各々に対するマッピング信頼スコア、(iv)参照位置における各候補対立遺伝子の1つ以上のメモリに記憶されている、整列された配列読み取り値のパイルアップの読み取り値の各々に対する読み取り対立遺伝子スコア、および(v)位置「0」などの参照位置における塩基の各読み取り値の塩基品質スコアを記述する、確率モデルへのそれぞれの確率モデルの処理に基づいた、マッピング誤差確率モデルおよび配列決定誤差確率モデルによって生成された情報を含める(620)。さらに、取得された出力情報には、1つ以上のマッピング誤差または1つ以上の配列決定誤差の発生を考慮する特定の仮説の各々に対する、仮説が真である可能性を示すスコアを含める。
コンピュータは、複数の仮説の各々に対する、確率モデルによって生成された、取得された出力データに基づいて、真のバリアントが第1の位置に存在する可能性を判定する(ステップ650)ことによって、プロセス600の実施を継続することができる。いくつかの実装形態では、この判定は、例えば、1つ以上の所定の閾値に対する1つ以上の仮説の各々に対する、判定された確率スコアの個々の、または集団的な評価に基づいて行うことができる。
例えば、コンピュータは、複数の仮説の各々に対する、確率モデルによって生成された出力データに基づいている集団スコアを判定することができる。集団スコアは、真のバリアントが存在する可能性を示すことができる。いくつかの実装形態では、方程式(14)を使用して集団スコアを判定することができる。しかしながら、集団スコアを判定する他の方法は、本開示の範囲内に含まれる。コンピュータが、集団スコアが所定の閾値を満たしていると判定した場合、次いで、コンピュータは真のバリアントが第1の位置に存在することを示す情報をVCFファイルに追加することができる。あるいは、コンピュータが、集団スコアが所定の閾値を満たしていないと判定した場合、次いで、コンピュータは出力データを破棄し、出力データが参照位置における偽陽性の発生を示すと判定することができる。
図2、図3、および図5のフローチャートを参照して説明されるプロセスは、一般に、バリアントコーリングの相関誤差事象軽減のためのプロセスを説明する。これらのそれぞれのプロセスは、図2を参照した相関誤差事象軽減のための包括的なプロセス、図3を参照したマッピング誤差軽減のためのプロセス、および図5を参照した配列決定誤差軽減のためのプロセスを説明する。しかしながら、1つ以上のマッピング誤差および1つ以上の配列決定誤差を考慮するための十分な入力がコンピュータによって取得されたとき、本開示は、マッピング誤差および配列決定誤差のための別個のばらばらの確率計算がそれぞれ行われることを必要としない。代わりに、いくつかの実装形態では、プロセス600などのプロセスで完全な確率モデルを使用して、マッピング誤差および配列決定誤差を考慮することができる。マッピング誤差および配列決定誤差を考慮するための複合確率モデルについて以下に説明するが、複合確率モデルを使用する必要はない。代わりに、他の実装形態を参照して説明したように、別個のばらばらの確率モデルが信頼される場合がある。
以下の説明では、最大で1つの外来対立遺伝子および1つの系統誤差対立遺伝子を有するニ倍性ゲノムの場合の完全な確率計算を導出する。しかしながら、これは以下の説明を考慮して、より多くの対立遺伝子に直接拡張することができる。拡張候補遺伝子型は、G'm=[Gm,1 Gm,2 Fm Em]として定義することができる。以下の式では、表記0は参照対立遺伝子を示し、1は第1の代替対立遺伝子を示し、2は第2の代替対立遺伝子などを示す。FmまたはEmのダッシュ記号は、外来対立遺伝子または系統誤差対立遺伝子がないことを示す。
候補G'mに外来対立遺伝子または誤差対立遺伝子が含まれていないとき、次の式が生成される。
G'mに外来対立遺伝子が含まれるとき、方程式(4)または上記の変形可能のうちの1つを使用することができる。G'mに誤差対立遺伝子が含まれるとき、方程式(10)またはその変形可能のうちの1つを使用することができる。一般に、これらの両方のタイプの誤差の影響を同時に受けるパイルアップを見出すことは非常にまれなので、外来対立遺伝子および誤差対立遺伝子の両方のケースをテストする必要はない。
単一ALT対立遺伝子(REF=0、ALT=1)の一般的なケースに対する候補リストの一例として、次の拡張候補遺伝子型をテストすることができる。
各(拡張されていない)候補Gmに対して、結合確率P(Gm,R)は、Gmに一致する候補の最大値であり、
であり、事後確率は単純に
であり、式中
である。
以下の図9A~図12Bを参照して説明する例は、様々なパイルアップについて、図3、図5、および図6を参照して説明した計算の例を示している。
図7は、バリアントコーリングの相関誤差軽減のプロセス700の一例の別のフローチャートである。プロセス700は、図1のバリアントコーリングユニットなどのコンピュータによって実施されるものとして以下に説明される。いくつかの実装形態では、バリアントコーリングユニットは、1つ以上のFPGA、ASIC、CPU、GPU、またはそれらの組み合わせなどのハードウェアを使用して、ソフトウェアまたはそれらの組み合わせを使用して実装することができる。
1つ以上の確率モデルを格納するコンピュータは、整列された配列読み取り値のパイルアップから読み取り値の1つ以上の特性を記述する情報を含む入力データを受信する(710)ことによって、プロセス700の実施を開始することができる。いくつかの実装形態では、1つ以上の特性には、(i)整列された配列読み取り値のパイルアップの読み取り値の各々に対する読み取り配向を記述する情報、(ii)整列された配列読み取り値のパイルアップの読み取り値の各々に対する読み取り値の5’端を参照する、参照場所における各塩基の位置を記述する情報、(iii)整列された配列読み取り値のパイルアップの読み取り値の各々に対するマッピング品質スコア、(iv)参照位置における各候補対立遺伝子の整列された配列読み取り値のパイルアップの読み取り値の各々に対する読み取り対立遺伝子スコア、および(v)位置「0」などの参照位置における塩基の各読み取り値の塩基品質スコアを含めることができる。いくつかの実装形態では、これらの入力のすべてまたはサブセットは、本明細書の他の確率モデルの参照と同様に、確率モデルへの入力として提供することができる。いくつかの実装形態では、コンピュータによって格納された1つ以上の確率モデルには、マッピング誤差確率モデルおよび配列決定誤差確率モデルを含めることができる。
いくつかの実装形態では、マッピング信頼スコアは、マッピングおよび整列ユニット126の出力を含むことができ、マッピング誤差のフレッドスケールQphred-mappingを使用して判定することができ、Qphred-mapping=-10*log10(Pe-mapping)である。この例では、Pe-mappingは、特定の読み取り値のマッピング誤差の確率である。マッピング信頼スコア144の値は、Smith-Waterman整列器などの整列アルゴリズムからの最高整列スコアと整列器の2番目に良いスコアとの間の差に比例する可能性がある。
読み取り対立遺伝子スコアは、複数の異なる手段で判定することができる。例えば、より複雑なハプロタイプバリアントコーラーは、上記の方程式(1)を使用して計算される読み取り対立遺伝子スコアを使用することができる。あるいは、ハプロタイプバリアントコーラー以外の他のバリアントコーラーは、上記の方程式(2)を使用して計算された読み取り対立遺伝子スコアを使用することができる。いくつかの実装形態では、使用される読み取り対立遺伝子スコアのタイプは、バリアントコーリングユニット130を使用してSNPのみを検出するのか、またはSNPおよびインデルを検出するのかに基づいて判定することができる。例えば、バリアントコーリングユニットを使用してSNPおよびインデルを検出するいくつかの実装形態では、次に上記の方程式(1)を使用して計算された読み取り対立遺伝子スコアを使用することができる。別の例として、バリアントコーリングユニットを使用してSNPのみを検出する他の実装形態では、次に方程式(2)を使用して計算された読み取り対立遺伝子スコアを使用することができる。
コンピュータは、受信した入力に基づいて1つ以上の仮説のうちの一組を判定する(720)ことによって、プロセス700の実施を継続することができる。例えば、1つ以上の入力に、1つ以上のマッピング誤差を考慮する、確率モデルに関連する読み取り値の特性を記述する情報が含まれている場合、その後、コンピュータは、1つ以上のマッピング誤差を考慮する1つ以上の仮説のうちの一組を判定することができる。このような仮説には、例えば、(i)参照位置における読み取り値が、代替に一致する外来対立遺伝子とのホモ接合型参照の発生を示す可能性および(ii)参照位置における読み取り値が、参照対立遺伝子に一致する外来対立遺伝子とのホモ接合型代替の発生を示す可能性を含めることができる。
あるいは、またはさらに、例えば、1つ以上の入力に、1つ以上の配列決定誤差を考慮する、確率モデルに関連する読み取り値の特性を記述する情報が含まれている場合、その後、コンピュータは、1つ以上の配列決定誤差を考慮する1つ以上の仮説のうちの一組を判定することができる。このような仮説には、(i)参照位置における読み取り値が、代替対立遺伝子に一致する配列決定誤差とのホモ接合型参照の発生を示す可能性および(ii)参照位置における読み取り値が、参照対立遺伝子に一致する配列決定誤差とのホモ接合型代替の発生を示す可能性を含めることができる。
いくつかの実装形態では、1つ以上の受信された入力は、マッピング誤差および配列決定誤差の両方を考慮する一組の仮説をコンピュータに判定させる場合がある。そのような判定は、例えば、1つ以上の受信された入力に、1つ以上のマッピング誤差および1つ以上の配列決定誤差の両方を考慮する、確率モデルに関連する読み取り値の特性を記述する情報が含まれるときにコンピュータによって行われてもよい。1つ以上のマッピング誤差および1つ以上の配列決定誤差の両方を考慮する仮説の組には、例えば、(i)参照位置における読み取り値が、代替に一致する外来対立遺伝子とのホモ接合型参照の発生を示す可能性、(ii)参照位置における読み取り値が、参照対立遺伝子に一致する外来対立遺伝子とのホモ接合型代替の発生を示す可能性、(iii)参照位置における読み取り値が、代替対立遺伝子に一致する配列決定誤差とのホモ接合型参照の発生を示す可能性、および(iv)参照位置における読み取り値が、参照対立遺伝子に一致する配列決定誤差とのホモ接合型代替の発生を示す可能性を含めることができる。
コンピュータは、段階720で判定されたそれぞれの仮説が真である確率を示す、730で1つ以上の仮説の各々に対する各仮説のスコアを判定することによって、プロセス700の実施を継続することができる。各仮説のスコアをコンピュータによって判定することには、例えば、1つ以上の確率モデルを使用して、1つ以上の仮説の各仮説に対する確率スコアを判定することを含めることができる。各マッピング誤差関連の仮説に対するスコアを判定するために使用することができる確率モデルの一例は、上記の方程式(3)を参照して説明されている。しかしながら、各マッピング誤差の仮説に対するスコアを計算するために、他の確率モデルの他の変形形態も上記で説明されている。各配列誤差関連の仮説に対するスコアを判定するために使用することができる確率モデルの一例は、方程式(9)を参照して説明されている。しかしながら、各配列決定誤差の仮説に対するスコアを計算するために、他の確率モデルの他の変形形態も上記で説明されている。
コンピュータは、段階720で判定された1つ以上の仮説の各々に対するスコアを含む、確率モデルによって生成された出力データを提供する(740)ことによって、プロセス700の実施を継続することができる。いくつかの実装形態では、提供された出力データは、出力データに基づいて、真のバリアントが存在する可能性を判定するように構成された第2のコンピュータに提供することができる。いくつかの実装形態では、第2のコンピュータは、段階710で入力を提供したコンピュータであってもよい。いくつかの実装形態では、第2のコンピュータは、コンピュータがその一部である、二次分析ユニットの別のゲノム分析モデル、または他のコンピュータモジュールであってもよい。いくつかの実装形態では、第2のコンピュータは、1つ以上のネットワークを使用してコンピュータと通信することができる、マッパーおよび整列モジュールを備えているがバリアントコールモジュールを備えていない、二次分析ユニットを有する遠隔コンピュータであってもよい。
しかしながら、他の実装形態では、コンピュータが第2のコンピュータに入力を提供する必要はない。代わりに、740で提供される、1つ以上の仮説の各々に対する一組のスコアを含む出力情報は、図1を参照して説明されるように、参照位置における候補対立遺伝子が真のバリアントか、または偽陽性であるかを判定するために、バリアントコーラーなどのコンピュータで使用することができる。
システム構成要素
図8は、バリアントコーリングの相関誤差軽減のためのシステムを実装するために使用することができるシステム構成要素のブロック図である。
コンピューティングデバイス800は、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータなど、様々な形態のデジタルコンピュータを表すことを意図している。コンピューティングデバイス850は、携帯情報端末、携帯電話、スマートフォン、および他の同様のコンピューティングデバイスなど、様々な形態のモバイルデバイスを表すことを意図している。加えて、コンピューティングデバイス800または850には、ユニバーサルシリアルバス(USB)フラッシュドライブを含めることができる。USBフラッシュドライブには、オペレーティングシステムおよび他のアプリケーションを保存することができる。USBフラッシュドライブには、別のコンピューティングデバイスのUSBポートに挿入することができる無線送信機またはUSBコネクタなどの入力/出力構成要素を含めることができる。ここに示されている構成要素、それらの接続および関係性、ならびにそれらの機能は、例示のみを目的としており、この文書で説明および/または請求されている本発明の実装を制限するものではない。
コンピューティングデバイス800には、プロセッサ802、メモリ804、記憶デバイス808、メモリ804および高速拡張ポート810に接続する高速インターフェース808、および低速バス814および記憶デバイス808に接続する低速インターフェース812を含める。構成要素802、804、808、808、810、および812の各々は、様々なバスを使用して相互接続され、共通のマザーボード上にまたは必要に応じて他の様式で取り付けることができる。プロセッサ802は、高速インターフェース808に連結された表示装置816などの外部入力/出力デバイスにGUIのグラフィカル情報を表示するために、メモリ804または記憶デバイス808に記憶された命令を含む、コンピューティングデバイス800内で実行するための命令を処理することができる。他の実装形態では、必要に応じて、複数のメモリおよび複数のタイプのメモリとともに、複数のプロセッサおよび/または複数のバスを使用することができる。また、複数のコンピューティングデバイス800は、各デバイスが、例えば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして必要な動作の一部を提供する状態で接続することができる。
メモリ804は、コンピューティングデバイス800内の情報を記憶する。一実装形態では、メモリ804は揮発性メモリユニット(複数可)である。別の実装形態では、メモリ804は非揮発性メモリユニット(複数可)である。メモリ804はまた、磁気または光ディスクなどの別の形態のコンピュータ可読媒体であってもよい。
記憶デバイス808は、コンピューティングデバイス800に大容量記憶装置を提供することができる。一実装形態では、記憶デバイス808は、フロッピーディスクデバイス、ハードディスクデバイス、光ディスクデバイス、テープデバイス、フラッシュメモリ、または他の同様のソリッドステートメモリデバイスなどのコンピュータ可読媒体、またはストレージエリアネットワークまたは他の構成のデバイスを含むデバイスのアレイであるか、またはそれらを含むことができる。コンピュータプログラム製品は、情報担体で明白に具体化することができる。コンピュータプログラム製品はまた、実行されたときに、上記のような1つ以上の方法を実施する命令も含むことができる。情報担体は、メモリ804、記憶デバイス808、またはプロセッサ802上のメモリなどのコンピュータまたは機械可読媒体である。
の帯域幅集約型の動作を管理し、一方低速コントローラ812は、低帯域幅集約型の動作を管理する。このような機能の割り当ては例示に過ぎない。一実装形態では、高速コントローラ808は、メモリ804、表示装置816に、例えば、グラフィックプロセッサまたはアクセラレータを介して、および様々な拡張カード(図示せず)を受け入れることができる高速拡張ポート810に連結されている。この実装形態では、低速コントローラ812は、記憶デバイス808および低速拡張ポート814に連結されている。様々な通信ポート、例えば、USB、Bluetooth(登録商標)、イーサネット(登録商標)、無線イーサネット(登録商標)を含むことができる低速拡張ポートは、キーボード、ポインティングデバイス、マイク/スピーカーセット、スキャナなどの1つ以上の入力/出力デバイス、またはスイッチまたはルータなどのネットワークデバイスに、例えばネットワークアダプタを経由して接続することができる。コンピューティングデバイス800は、図に示されるように、複数の異なる形態で実装することができる。例えば、それは標準的なサーバ820として、またはそのようなサーバのグループで複数回実装することができる。また、ラックサーバシステム824の一部として実装することもできる。さらに、ラップトップコンピュータ822などのパーソナルコンピュータで実装することができる。あるいは、コンピューティングデバイス800からの構成要素は、デバイス850などのモバイルデバイス(図示せず)の他の構成要素と組み合わせることができる。そのようなデバイスの各々は、コンピューティングデバイス800、850のうちの1つ以上を含むことができ、システム全体は、互いに通信する複数のコンピューティングデバイス800、850で構成することができる。
コンピューティングデバイス800は、図に示されるように、複数の異なる形態で実装することができる。例えば、それは標準的なサーバ820として、またはそのようなサーバのグループで複数回実装することができる。また、ラックサーバシステム824の一部として実装することもできる。さらに、ラップトップコンピュータ822などのパーソナルコンピュータで実装することができる。あるいは、コンピューティングデバイス800からの構成要素は、デバイス850などのモバイルデバイス(図示せず)の他の構成要素と組み合わせることができる。そのようなデバイスの各々は、コンピューティングデバイス800、850のうちの1つ以上を含むことができ、システム全体は、互いに通信する複数のコンピューティングデバイス800、850で構成することができる。
コンピューティングデバイス850には、他の構成要素の中で、プロセッサ852、メモリ864、ならびに表示装置854、通信インターフェース866、およびトランシーバ868などの入力/出力デバイスを含める。デバイス850はまた、追加の記憶装置を提供するために、マイクロドライブまたは他のデバイスなどの記憶デバイスを備えることもできる。構成要素850、852、864、854、866、および868の各々は、様々なバスを使用して相互接続され、構成要素のいくつかは、共通のマザーボード上にまたは必要に応じて他の様式で取り付けることができる。
プロセッサ852は、メモリ864に記憶された命令を含む、コンピューティングデバイス850内で命令を実行することができる。プロセッサは、別個の複数のアナログおよびデジタルプロセッサを含むチップのチップセットとして実装することができる。さらに、プロセッサは、複数のアーキテクチャのいずれかを使用して実装することができる。例えば、プロセッサ810は、CISC(複合命令セットコンピュータ)プロセッサ、RISC(縮小命令セットコンピュータ)プロセッサ、またはMISC(最小命令セットコンピュータ)プロセッサであり得る。プロセッサは、例えば、ユーザインターフェースの制御、デバイス850によって起動されるアプリケーション、およびデバイス850による無線通信など、デバイス850の他の構成要素の調整を提供することができる。
プロセッサ852は、表示装置854に連結された制御インターフェース858および表示インターフェース856を通じてユーザと通信することができる。表示装置854は、例えば、TFT(薄膜トランジスタ液晶)表示装置またはOLED(有機発光ダイオード)表示装置、または他の適切な表示技術とすることができる。表示インターフェース856は、グラフィカルおよび他の情報をユーザに提示するために表示装置854を駆動するための適切な回路を有することができる。制御インターフェース858は、ユーザからコマンドを受け取り、それらをプロセッサ852への提出用に変換することができる。さらに、外部インターフェース862は、他のデバイスとのデバイス850の近距離通信を可能にするために、プロセッサ852との通信で提供することができる。外部インターフェース862は、例えば、いくつかの実装では有線通信に、または他の実装では無線通信に提供することができ、複数のインターフェースも使用することができる。
メモリ864は、コンピューティングデバイス850内の情報を記憶する。メモリ864は、コンピュータ可読媒体、揮発性メモリユニット(複数可)、または不揮発性メモリユニット(複数可)のうちの1つ以上として実装することができる。また、拡張メモリ874も提供することができ、例えば、SIMM(シングルインラインメモリモジュール)カードインターフェースを含むことができる拡張インターフェース872を通じてデバイス850に接続することができる。そのような拡張メモリ874は、デバイス850の追加の記憶スペースを提供することができ、またはデバイス850のアプリケーションまたは他の情報を記憶することもできる。具体的には、拡張メモリ874は、上記のプロセスを遂行または補足する命令を含むことができ、安全な情報を含むこともできる。したがって、例えば、拡張メモリ874は、デバイス850のセキュリティモジュールとして提供することができ、デバイス850の安全な使用を可能にする命令でプログラムすることができる。さらに、ハッキング不可能な様式でSIMMカード上の識別情報を配設するなどの追加情報とともに、SIMMカードを介して安全なアプリケーションを提供することができる。
メモリには、以下で説明するように、例えば、フラッシュメモリおよび/またはNVRAMメモリを含めることができる。一実装形態では、コンピュータプログラム製品は、情報担体に明確に具体化される。コンピュータプログラム製品は、実行されたときに、上記のような1つ以上の方法を実施する命令を含む。情報担体は、メモリ864、拡張メモリ874、または例えば、トランシーバ868または外部インターフェース862を経由して受信することができる、プロセッサ852上のメモリなどのコンピュータまたは機械可読媒体である。
デバイス850は、必要に応じてデジタル信号処理回路を含むことができる、通信インターフェース866を通じて無線で通信することができる。通信インターフェース866は、とりわけ、GSM(登録商標)音声通話、SMS、EMS、またはMMSメッセージング、CDMA、TDMA、PDC、WCDMA(登録商標)、CDMA2000、またはGPRSなどの様々なモードまたはプロトコルの下での通信を提供することができる。そのような通信は、例えば、無線周波数トランシーバ868を通じて発生し得る。さらに、Bluetooth(登録商標)、Wi-Fi、または他のそのようなトランシーバ(図示せず)を使用するなど、短距離通信が発生し得る。加えて、GPS(全地球測位システム)受信機モジュール870は、追加のナビゲーションおよび場所関連の無線データをデバイス850に提供することができ、デバイス850で起動されるアプリケーションによって必要に応じて使用することができる。
デバイス850はまた、音声コーデック860を使用して音声で通信することもでき、ユーザから音声情報を受け取り、それを使用可能なデジタル情報に変換することができる。同様に、音声コーデック860は、例えばデバイス850のハンドセット内のスピーカを通じてなど、ユーザに対して可聴音を生成することができる。そのような音には、音声通話からの音を含めることができ、録音された音、例えば、音声メッセージ、音楽ファイルなどを含めることができ、デバイス850で動作するアプリケーションによって生成された音も含めることができる。
コンピューティングデバイス850は、図に示されるように、複数の異なる形態で実装することができる。例えば、携帯電話880として実装することができる。また、スマートフォン882、携帯情報端末、または他の同様のモバイルデバイスの一部として実装することもできる。
本明細書に記載のシステムおよび方法の様々な実装形態は、デジタル電子回路、集積回路、特別に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそのような実装の組み合わせで実現することができる。これらの様々な実装形態には、少なくとも1つのプログラマブルプロセッサを含む、プログラマブルシステム上で実行可能および/または解釈可能な1つ以上のコンピュータプログラムでの実装を含めることができ、これらは、記憶装置システム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイス間で、データおよび命令を受信および送信するために連結されている、特別な目的でも汎用目的でもあり得る。
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても既知である)には、プログラマブルプロセッサの機械命令を含めており、高レベルの手続き型および/またはオブジェクト指向プログラミング言語、および/またはアセンブリ/機械言語で実装することができる。本明細書で使用されるように「機械可読媒体」「コンピュータ可読媒体」という用語は、機械命令を機械可読信号として受信する機械可読媒体を含むプログラマブルプロセッサに機械命令および/またはデータを提供するために使用される、あらゆるコンピュータプログラム製品、装置、および/またはデバイス、例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD)を指す。「機械可読信号」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するために使用される任意の信号を指す。
ユーザとの対話を提供するために、本明細書に記載のシステムおよび技術は、ユーザに情報を表示するための表示デバイス、例えば、CRT(陰極線管)またはLCD(液晶表示装置)モニタ、およびユーザがコンピュータに入力を提供することができる、キーボードおよびポインティングデバイス、例えば、マウスまたはトラックボールを有するコンピュータで実装することができる。他の種類のデバイスを使用して、ユーザとの対話を提供することもできる、例えば、ユーザに提供されるフィードバックは、あらゆる形態の感覚フィードバック、例えば視覚フィードバック、聴覚フィードバック、または触覚フィードバックなどであり得、ユーザからの入力は、音響、音声、または触覚の入力を含むあらゆる形態で受信することができる。
本明細書に記載のシステムおよび技術は、バックエンド構成要素、例えば、データサーバを含む、または、ミドルウェア構成要素、例えば、アプリケーションサーバを含む、あるいは、ユーザが、本明細書に記載のシステムおよび技術の実装と対話することができるグラフィカルユーザインターフェースまたはウェブブラウザを有するフロントエンド構成要素、例えば、クライアントコンピュータ、若しくは、そのようなバックエンド、ミドルウェア、またはフロントエンド構成要素の任意の組み合わせを含む、コンピューティングシステムに実装することができる。システムの構成要素は、デジタルデータ通信の任意の形態または媒体、例えば、通信ネットワークによって相互接続することができる。通信ネットワークの例には、ローカルエリアネットワーク(「LAN」)、ワイドエリアネットワーク(「WAN」)、およびインターネットを含める。
コンピューティングシステムには、クライアントおよびサーバを含めることができる。一般に、クライアントおよびサーバは互いに遠隔であり、通常は通信ネットワークを通じて相互作用する。クライアントとサーバとの関係は、それぞれのコンピュータで起動され、互いにクライアントとサーバの関係を有するコンピュータプログラムによって生じる。
複数の実施形態が説明されてきた。それにもかかわらず、本発明の精神および範囲から逸脱することなく、様々な変更を行うことができることを理解されたい。さらに、図に描写されているロジックフローは、望ましい結果を得るために、示されている特定の順序、または順番を必要としない。さらに、説明したフローから他のステップを提供する、またはステップを除外する、説明したシステムから他の構成要素を追加する、または削除することができる。したがって、他の実施形態は以下の特許請求の範囲内にある。
[実施例]
本開示の主題は、以下の実施例を参照してさらに説明され、これらの実施例は、本開示の範囲を決して限定しない。
このセクションで提供される実施例は、実際のパイルアップで本明細書に記載の確率モデルを使用した計算を示す実際の例を示している。各パイルアッププロットには、読み取り値ごとのMAPQマッピング信頼スコア、位置「0」などの参照位置における塩基品質、および鎖ごとの平均塩基品質(青=前方向、赤=後方向)を含める。
実施例1-典型的な真陽性バリアント
図9Aは、結果が真陽性の結果の一例を示す、配列決定読み取り値のパイルアップで実施された、バリアントコーリングの相関誤差軽減のためのプロセスの実行からの実験結果の要約の一例である。
より詳細には、図9Aは、典型的な真陽性の例を示す、整列された配列読み取り値のパイルアップ941の画像940を表示する。真陽性は、参照場所942における真のバリアントを有する読み取り値のパイルアップ941の一例である。この例では、読み取り値の特性は、読み取り値のパイルアップ941が、マッピングおよび整列されている参照ゲノムの参照値「T」とは異なる、参照位置942における候補代替対立遺伝子「C」があることを示していることが分かる。
この例では、また図9Aのパイルアップ941の画像940を参照して、「C」の代替対立遺伝子頻度は、第1の前方向の読み取り方向(または配向)と第2の後方向の読み取り方向(または配向)との間でバランスが取れており、MAPQマッピング信頼スコアは、参照場所における読み取り値の各々について高く、マッピング信頼スコア944のほとんどが最大「250」であり、両方の鎖方向(または配向)の平均塩基品質は高く、塩基品質スコア943のほとんどは「35」以上であることが分かる。その結果、確率スコアの結果列980および正規化された確率スコアの結果列980に示されるように、候補[10|-|-]962の確率スコアは高い。したがって、真の代替「C」を識別する、またはそうでなければ関連付けられる情報をVCFファイルに含めることができる。
変更された確率結果の完全なセット960が図9Bに示されている。候補[10|-|-]962は、仮説162に対応し、参照位置142における読み取り値がヘテロ接合型代替対立遺伝子の発生を示す可能性を含む。確率スコアの結果列980および正規化された確率スコアの結果列990は、他の従来型仮説961、962、963および非従来型仮説964、965、966、967の各々に対する、確率スコアの結果および正規化されたスコアの結果をそれぞれ示している。明確にするために、従来型仮説961は、上記従来型仮説161に対応し、従来型仮説962は、上記従来型仮説162に対応し、従来型仮説963は、上記従来型仮説163に対応する。さらに、非従来型仮説964は、上記非従来型仮説164に対応し、非従来型仮説965は、上記非従来型仮説165に対応し、非従来型仮説966は、上記非従来型仮説166に対応し、非従来型仮説967は、上記非従来型仮説167に対応する。
実施例2-マッピング誤差の低い可能性
図10Aは、結果がマッピング誤差の発生の可能性が低いことを示す、配列決定読み取り値のパイルアップで実施された、バリアントコーリングの相関誤差軽減のためのプロセスの実行からの実験結果の概要の一例である。
より詳細には、図10Aは、例えば、可能な外来読み取り値、または可能なマッピング誤差を示す、整列された配列読み取り値のパイルアップ1041の画像1040を表示する。この実施例では、パイルアップは、代替対立遺伝子頻度が低く、代替対立遺伝子を有する読み取り値に対するMAPQマッピング信頼スコア1044がやや低い。これらの要因の両方は、本開示によって提供されているマッピング誤差確率モデルにより活用されるであろう。したがって、結果として、これが真のバリアントを表す可能性は低くなる。それぞれの仮説に対する確率スコアのレビューは、「C」対立遺伝子が外来読み取り値であるという高い信頼を持って結論を引き出すことはできず、ヘテロ接合型コールで高い信頼を持って判定を下すこともできないことを示す。したがって、出力情報は、候補代替対立遺伝子を識別するあらゆる情報をVCFファイルに追加することなく破棄される可能性がある。
変更された確率結果の完全なセット1060が図10Bに示されている。確率スコアの結果列1080および正規化された確率スコアの結果列1090は、他の従来型仮説1061、1062、1063および非従来型仮説1064、1065、1066、1067の各々に対する、確率スコアの結果および正規化されたスコアの結果をそれぞれ示している。明確にするために、従来型仮説1061は、上記従来型仮説161に対応し、従来型仮説1062は、上記従来型仮説162に対応し、従来型仮説1063は、上記従来型仮説163に対応する。さらに、非従来型仮説1064は、上記非従来型仮説164に対応し、非従来型仮説1065は、上記非従来型仮説165に対応し、非従来型仮説1066は、上記非従来型仮説166に対応し、非従来型仮説1067は、上記非従来型仮説167に対応する。
実施例3-配列決定誤差による可能性の低い真のバリアント
図11Aは、結果が、候補代替対立遺伝子が配列決定誤差により真のバリアントである可能性が低いという高い可能性を示す、配列決定読み取り値のパイルアップで実施されたバリアントコーリングの相関誤差軽減のためのプロセスの実行からの実験結果の概要の一例である。
より詳細には、図11Aは、系統誤差、または配列決定誤差を示す、整列された配列読み取り値のパイルアップ1141の画像1140を表示する。
この実施例では、「G」代替対立遺伝子のすべては、前方向に整列された方向に単一の読み取り配向で発生する。さらに、「G」代替対立遺伝子はすべて、読み取り値の5’端から最も遠い前方向に配向された読み取り値のサブセットで発生する。「G」代替対立遺伝子を有する読み取り値のサブセットは、塩基品質スコア1143から明らかであるように、非常に低い塩基品質を有する。さらに、「G」代替対立遺伝子は、現在の参照位置1145における塩基対立遺伝子を提示する参照ゲノムの2つの塩基対立遺伝子に一致する。配列決定誤差確率モデルは、読み取り値の前述の特性を考慮に入れ、確率スコアは、7つの仮説1161、1162、1163、1164、1165、1166、1167の各々について出力され、確率スコア結果1180および正規化された確率スコアの結果列1190に示され、高い信頼で、「G」代替対立遺伝子が真のバリアントを支持する可能性は低いことを支持する。したがって、出力情報は、候補代替対立遺伝子を識別するあらゆる情報をVCFファイルに追加することなく破棄される可能性がある。
変更された確率結果の完全なセット1160が、図11Bに示されている。確率スコアの結果列1180および正規化された確率スコアの結果列1190は、他の従来型仮説1161、1162、1163および非従来型仮説1164、1165、1166、1167の各々に対する、確率スコアの結果および正規化されたスコアの結果をそれぞれ示している。明確にするために、従来型仮説1161は、上記従来型仮説161に対応し、従来型仮説1162は、上記従来型仮説162に対応し、従来型仮説1163は、上記従来型仮説163に対応する。さらに、非従来型仮説1164は、上記非従来型仮説164に対応し、非従来型仮説1165は、上記非従来型仮説165に対応し、非従来型仮説1166は、上記非従来型仮説166に対応し、非従来型仮説1167は、上記非従来型仮説167に対応する。
実施例4-両方の読み取り配向での配列決定誤差による可能性の低い真のバリアント
図12Aは、結果が、候補代替対立遺伝子が両方の読み取り配向の配列決定誤差により真のバリアントである可能性が低いという高い可能性を示す、配列決定読み取り値のパイルアップで実施されたバリアントコーリングの相関誤差軽減のためのプロセスの実行からの実験結果の概要の一例である。
より詳細には、図12Aは、両方の読み取り配向で、系統誤差、または配列決定誤差を示す、整列された配列読み取り値のパイルアップ1241の画像1240を表示する。
この実施例では、塩基品質スコア1243から明らであるように、塩基品質が極端に低下している。前方向に配列された読み取り値では、「G」代替対立遺伝子は、対象の遺伝子座が5’端から遠くにある読み取り値のサブセットに限定される。さらに、「G」代替対立遺伝子は、参照位置1242における参照対立遺伝子に先行する参照ゲノムの先行する3つの参照対立遺伝子に一致する。配列決定誤差確率モデルは、読み取り値の前述の特性を考慮に入れ、確率スコアは、7つの仮説1261、1262、1263、1264、1265、1266、1267の各々について出力され、確率スコア結果1280および正規化された確率スコアの結果列1290に示され、高い信頼で、「G」代替対立遺伝子が真のバリアントを支持する可能性は低いことを支持する。したがって、出力情報は、候補代替対立遺伝子を識別するあらゆる情報をVCFファイルに追加することなく破棄される可能性がある。
変更された確率結果の完全なセット1260が、図12Bに示されている。確率スコアの結果列1280および正規化された確率スコアの結果列1290は、他の従来型仮説1161、1262、1263、および非従来型仮説1264、1265、1266、1267の各々に対する、確率スコアの結果および正規化されたスコアの結果をそれぞれ示している。明確にするために、従来型仮説1261は、上記従来型仮説161に対応し、従来型仮説1262は、上記従来型仮説162に対応し、従来型仮説1263は、上記従来型仮説163に対応する。さらに、非従来型仮説1264は、上記非従来型仮説164に対応し、非従来型仮説1265は、上記非従来型仮説165に対応し、非従来型仮説1266は、上記非従来型仮説166に対応し、非従来型仮説1267は、上記非従来型仮説167に対応する。
他の実施形態
本発明を図面およびその詳細な説明と併せて説明したが、前述の説明は、添付の特許請求の範囲によって定義される本発明の範囲を例示することを目的とし、限定するものではないことを理解されたい。他の態様、利点、および変更は、添付の特許請求の範囲内にある。