JP7293139B2

JP7293139B2 - バリアントコーリングの相関誤差事象軽減のためのシステムおよび方法

Info

Publication number: JP7293139B2
Application number: JP2019568304A
Authority: JP
Inventors: エリック・ジョン・オジャード
Original assignee: イルミナインコーポレイテッド
Priority date: 2018-02-16
Filing date: 2019-02-19
Publication date: 2023-06-19
Anticipated expiration: 2039-02-19
Also published as: AU2019221869A1; CA3064796A1; IL270721A; KR20200121225A; US20190259468A1; CN111226282A; WO2019161419A1; EP3753021A1; JP2021514075A; JP2023118724A

Description

関連出願の相互参照
本出願は、そのすべての開示内容が参照によって本明細書に組み込まれる、２０１８年２月１６日出願された米国特許仮出願第６２／７１０，３４８号、名称「Ｍｅｔｈｏｄｓ，Ｄｅｖｉｃｅｓ，ａｎｄＳｙｓｔｅｍｓｆｏｒＰｅｒｆｏｒｍｉｎｇＦｏｒｅｉｇｎＲｅａｄＤｅｔｅｃｔｉｏｎａｎｄＢｕｒｓｔＥｒｒｏｒＤｅｔｅｃｔｉｏｎ」の利点を主張するものである。
配列表
本明細書には、Sequence_Listing.txt という名前の ASCII テキストファイルとして電子的に提出された配列表が含まれる。2022年3月10日に作成されたASCIIテキストファイルは、877バイトのサイズである。ASCII テキストファイルの資料は、参照によりその全体が本明細書に組み込まれる。

核酸配列決定装置は、デオキシリボ核酸（ＤＮＡ）またはリボ核酸（ＲＮＡ）などの核酸の配列決定プロセスを自動化するように構成された機器である。核酸配列は、遺伝子配列内のヌクレオチドの順序を判定するプロセスである。

核酸配列決定装置は、核酸サンプルを受け取り、核酸サンプル中のヌクレオチドの順序を表す１つ以上の「読み取り値」と呼ばれる出力データを生成するように構成されている。ＤＮＡサンプル中のヌクレオチドは、グアニン（Ｇ）、シトシン（Ｃ）、アデニン（Ａ）、およびチミン（Ｔ）のうちの１つ以上を任意の組み合わせで含めることができる。ＲＮＡサンプル中のヌクレオチドは、Ｇ、Ｃ、Ａ、およびウラシル（Ｕ）のうちの１つ以上を任意の組み合わせで含めることができる。

ＤＮＡ配列決定装置によって生成されたＤＮＡ読み取り値は、参照ゲノムの既知のＤＮＡ配列に対してマッピングおよび整列することができる。参照ゲノムにマッピングおよび整列されると、マッピングおよび整列された読み取り値の配列を参照ゲノムの観点から分析して、マッピングおよび整列された読み取り値の配列と参照ゲノムとの間に存在する電位変動を特定することができる。

本開示の態様は、マッピングおよび整列された配列の読み取り値のパイルアップで識別された代替（以下「ａｌｔ」）の対立遺伝子が、真のバリアントであるかどうかを判定するために使用される、バリアントコーラーにとって問題となる相関誤差事象を考慮するための、コンピュータプログラムを含む方法、システム、および装置を対象とする。

本開示の１つの革新的な態様によれば、相関誤差事象の指標を考慮することにより、バリアントコールの精度を改善するための方法が開示される。いくつかの実装形態では、本方法は、１つ以上のコンピュータによって、かつ１つ以上のメモリデバイスから、参照ゲノムの第１の領域に整列した複数の配列読み取り値のパイルアップにアクセスすることと、１つ以上のコンピュータによって、参照ゲノムの第１の位置に対応する、パイルアップの複数の読み取り値の各々の１つ以上の特性を記述する情報を取得することと、１つ以上のコンピュータによって、かつ取得された情報に基づいて、パイルアップの複数の読み取り値の１つ以上の特性を記述する確率モデルへの１つ以上の入力を提供することであって、確率モデルは、１つ以上の入力に基づいて選択された１つ以上の仮説の各仮説について、仮説が真であるかどうかを示すスコアを判定するように構成されている、提供することと、１つ以上のコンピュータによって、１つ以上の仮説の各々に対する出力情報を取得することであって、１つ以上の仮説の各々に対する出力情報は、（ｉ）パイルアップのそれぞれの読み取り値の１つ以上の特性を記述する確率モデルへの１つ以上の入力の確率モデルの処理に基づいた確率モデルによって生成され、（ｉｉ）仮説が真であるかどうかを示すスコアを示す、取得することと、１つ以上のコンピュータによって、かつ複数の仮説の各々に対する確率モデルによって生成された、取得された出力情報に基づいて、真のバリアントが第１の位置に存在する可能性を判定することと、を含む、方法の作用を含むことができる。

他の変形形態には、コンピュータ可読記憶デバイスに符号化された命令によって定義された方法の作用を実施するための、対応するシステム、装置、およびコンピュータプログラムを含める。

これらの変形形態および他の変形形態には、任意で次の機能のうちの１つ以上を含めることができる。例えば、いくつかの実装形態では、１つ以上のコンピュータによって、かつ複数の仮説の各々に対する確率モデルによって生成された、取得された出力情報に基づいて、真のバリアントが第１の位置に存在する可能性には、１つ以上のコンピュータによって、複数の仮説の各々に対する確率モデルによって生成された出力情報に基づいて、集団スコアを判定することであって、集団スコアは、真のバリアントが存在する可能性を示す、判定することと、１つ以上のコンピュータによって、集団スコアによって生成されたスコアが所定の閾値を満たすかどうかを判定することと、１つ以上のコンピュータによって、集団スコアが所定の閾値を満たすことを判定することに基づいて、真のバリアントが第１の位置に存在することを示す情報をＶＣＦファイルに追加することと、を含めることができる。

いくつかの実装形態では、真のバリアントが第１の位置に存在することを示す情報には、（ｉ）第１の位置、（ｉｉ）第１の位置における候補代替対立遺伝子、（ｉｉｉ）集団スコアを識別する情報を含めることができる。

いくつかの実装形態では、それぞれの読み取り値のうちの１つ以上の特性を記述する情報には、（ｉ）第１の位置におけるパイルアップの各配列読み取り値のマッピング品質スコア、および（ｉｉ）第１の位置における各候補対立遺伝子について第１の位置におけるパイルアップの各配列読み取り値の読み取り対立遺伝子スコアを記述する情報を含めることができる。

いくつかの実装形態では、第１の位置におけるパイルアップの各読み取り値の読み取り対立遺伝子スコアは、特定の候補対立遺伝子Ｇ_ｍ,φが与えられた場合に読み取り値ｒ_ｉを観察する確率を示す、第１の位置における読み取り値の各々について、Ｐ－ＨＭＭモデルによって生成された出力に基づいている。

いくつかの実装形態では、出力情報には、第１の位置における配列読み取り値が、代替に一致する外来対立遺伝子とのホモ接合型参照の発生を示す可能性を含む、１つ以上の仮説のうちの第１の仮説に関する第１の出力情報、および第１の位置における配列読み取り値が、参照対立遺伝子に一致する外来対立遺伝子とのホモ接合型代替の発生を示す可能性を含む、１つ以上の仮説のうちの第２の仮説に関する第２の出力情報を含めることができる。

いくつかの実装形態では、それぞれの配列読み取り値の１つ以上の特性を記述する情報には、（ｉ）第１の位置におけるパイルアップの各配列読み取り値の読み取り配向、（ｉｉ）配列読み取り値の５’端を参照する、第１の位置におけるパイルアップの各配列読み取り値内の第１の位置における各塩基の位置、（ｉｉｉ）参照位置における各候補対立遺伝子の複数の配列読み取り値の各配列読み取り値の読み取り対立遺伝子スコア、および（ｉｖ）第１の位置における塩基の各読み取り値の塩基品質スコアを記述する情報を含めることができる。

いくつかの実装形態では、第１の位置におけるパイルアップの各配列読み取り値の読み取り対立遺伝子スコアは、特定の候補対立遺伝子Ｇ_ｍ,φが与えられた場合に配列読み取り値ｒ_ｉを観察する確率を示す、第１の位置における配列読み取り値の各々について、Ｐ－ＨＭＭモデルによって生成された出力に基づいている。

いくつかの実装形態では、それぞれの配列読み取り値の１つ以上の特性を記述する情報には、（ｉ）第１の位置におけるパイルアップの各配列読み取り値の読み取り配向、（ｉｉ）配列読み取り値の５’端を参照する、第１の位置におけるパイルアップの各配列読み取り値内の第１の位置における各塩基の位置、および（ｉｉｉ）参照位置における各候補対立遺伝子の複数の配列読み取り値の各配列読み取り値の読み取り対立遺伝子スコアを記述する情報を含めることができる。

いくつかの実装形態では、出力情報には、第１の位置における配列読み取り値が、代替対立遺伝子に一致する配列決定誤差とのホモ接合型参照の発生を示す可能性を含み得る、１つ以上の仮説のうちの第１の仮説に関する第１の出力情報、および第１の位置における配列読み取り値が、参照対立遺伝子に一致する配列決定誤差とのホモ接合型代替の発生を示す可能性を含む、１つ以上の仮説のうちの第２の仮説に関する第２の出力情報を含めることができる。

いくつかの実装形態では、それぞれの配列読み取り値の１つ以上の特性を記述する情報には、（ｉ）第１の位置におけるパイルアップの各配列読み取り値の読み取り配向、（ｉｉ）配列読み取り値の５’端を参照する、各配列読み取り値内の位置「０」１４２などの第１の位置における各塩基の位置、（ｉｉｉ）第１の位置におけるパイルアップの各配列読み取り値のマッピング品質スコア、（ｉｖ）参照位置における各候補対立遺伝子の複数の読み取り値の各配列読み取り値の読み取り対立遺伝子スコア、および（ｖ）第１の位置において整列された塩基の各読み取り値の塩基品質スコアを記述する情報を含めることができる。

いくつかの実装形態では、第１の位置におけるパイルアップの各配列読み取り値の読み取り対立遺伝子スコアは、特定の候補対立遺伝子Ｇ_ｍ,φが与えられた場合に読み取り値ｒ_ｉを観察する確率を示す、第１の位置における配列読み取り値の各々について、Ｐ－ＨＭＭモデルによって生成された出力に基づいている。

いくつかの実装形態では、出力情報には、第１の位置における配列読み取り値が、代替に一致する外来対立遺伝子とのホモ接合型参照の発生を示す第１の可能性、第１の位置における配列読み取り値が、参照対立遺伝子に一致する外来対立遺伝子とのホモ接合型代替の発生を示す第２の可能性、第１の位置における配列読み取り値が、代替対立遺伝子に一致する配列決定誤差とのホモ接合型参照の発生を示す可能性を含む、１つ以上の仮説のうちの第１の仮説の第３の出力情報、および第１の位置における配列読み取り値が、配列が第１の位置で読み取る可能性を含む１つ以上の仮説の第２の仮説の第４の出力情報は、参照対立遺伝子に一致する配列決定誤差とのホモ接合型代替の発生を示す可能性を含む、１つ以上の仮説のうちの第２の仮説の第４の出力情報を含めることができる。

いくつかの実装形態では、１つ以上のメモリデバイスは、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）デバイスから、整列された配列読み取り値のパイルアップを受信し、ＦＰＧＡには、読み取り値マッピングおよび整列を実施するためのマッピングおよび整列ユニットとして構成されている、１つ以上の構成可能なデジタルロジックゲートを含める。

いくつかの実装形態では、コンピュータは、１つ以上の有線または無線ネットワークを使用して、１つ以上のメモリデバイスにアクセスするように構成されており、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）デバイスおよび１つ以上のメモリデバイスは、配列決定装置の回路基板に連結されている拡張カードに収容され、配列決定装置は、入力サンプルに基づいて配列読み取り値を生成し、生成された配列読み取り値を１つ以上のメモリデバイスに記憶するように構成されており、ＦＰＧＡのマッピングおよび整列ユニットは、１つ以上のメモリデバイスにアクセスして、生成された配列読み取り値を取得するように構成されている。

いくつかの実装形態では、コンピュータおよび配列決定装置は、１つ以上の有線または無線ネットワークを使用して、１つ以上のメモリデバイスにアクセスするように各々構成されており、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）デバイスおよび１つ以上のメモリデバイスは、コンピュータおよび配列決定装置から遠隔に位置しているサーバの回路基板に連結されている拡張カードに収容され、配列決定装置は、入力サンプルに基づいて配列読み取り値を生成し、生成された配列読み取り値を１つのメモリデバイスに記憶するために、生成された配列読み取り値を１つ以上の有線または無線ネットワークを使用してサーバに提供するように構成されており、ＦＰＧＡのマッピングおよび整列ユニットは、１つ以上のメモリデバイスにアクセスして、生成された配列読み取り値を取得するように構成されている。

本開示のこれらのおよび他の態様は、添付の図面を参照して以下の詳細な説明でより詳細に記載される。

バリアントコーリングの相関誤差軽減のためのシステムの一例のコンテキスト図である。バリアントコーリングの相関誤差軽減のためのプロセスの一例のフローチャートである。バリアントコーリングのマッピング誤差軽減のプロセスの一例のフローチャートである。第１のマッピング信頼スコアを表すマッピングおよび整列ユニットからの出力値の一例を第２のマッピング信頼スコア（μ）に変換するための関数の一例の折れ線グラフである。バリアントコーリングの配列決定誤差軽減のプロセスの一例のフローチャートである。バリアントコーリングの相関誤差軽減のためのプロセスの一例の別のフローチャートである。バリアントコーリングの相関誤差軽減のためのプロセスの一例の別のフローチャートである。バリアントコーリングの相関誤差軽減のためのシステムを実装するために使用することができるシステム構成要素のブロック図である。結果が真陽性の結果の一例を示す、配列決定読み取り値のパイルアップで実施された、バリアントコーリングの相関誤差軽減のためのプロセスの実行からの実験結果の要約の一例である（SEQ ID NO: 1）。図９Ａのパイルアップの確率結果の変更セットの一例である。結果がマッピング誤差の発生の可能性が低いことを示す、配列決定読み取り値のパイルアップで実施された、バリアントコーリングの相関誤差軽減のためのプロセスの実行からの実験結果の概要の一例である（SEQ ID NO: 2）。図１０Ａのパイルアップの確率結果の変更セットの一例である。結果が、候補代替対立遺伝子が配列決定誤差により真のバリアントである可能性が低いという高い可能性を示す、配列決定読み取り値のパイルアップで実施されたバリアントコーリングの相関誤差軽減のためのプロセスの実行からの実験結果の概要の一例である（SEQ ID NO: 3）。図１１Ａのパイルアップの確率結果の変更セットの一例である。結果が、候補代替対立遺伝子が両方の読み取り配向の配列決定誤差により真のバリアントである可能性が低いという高い可能性を示す、配列決定読み取り値のパイルアップで実施されたバリアントコーリングの相関誤差軽減のためのプロセスの実行からの実験結果の概要の一例である（SEQ ID NO: 4）。図１２のパイルアップの確率結果の変更セットの一例である。

本開示の態様は、バリアントコーラーにとって問題となる誤差を考慮するための、コンピュータプログラムを含む方法、システム、および装置を対象とする。

従来のバリアントコーラーが使用する内部確率の計算は、通常、誤差が相関していないという仮定に基づいているため、相関誤差事象により、従来のバリアントコーラーは遺伝子型判定の誤差を生成する。バリアントコーリングでは、（１）マッピング誤差、および（２）配列固有の誤差という高度に相関する誤差を生成する傾向がある２つの現象がある。マッピング誤差は、読み取り値が、読み取り値の真の起源以外の参照ゲノムの特定の場所にマッピングされたときに発生する。特定の塩基配列が高い確率で配列決定誤差を生成する傾向があるため、この仕様では配列決定誤差または系統誤差と呼ばれる配列固有の誤差が発生する。どちらのタイプの誤差も、従来のバリアントコーラーで、信頼性の高い偽陽性およびその他の遺伝子型判定の誤差につながる可能性がある。

一部のバリアントコーラーは、読み取り値およびバリアントをフィルタリングするためのその場限りのルールでこれらの問題を軽減しようとするが、そのようなルールは、より複雑なアルゴリズムを用いて可能である性能限界には近づかない。他のバリアントコーラーは、機械学習を使用してこのような誤差を認識および抑制するが、機械学習には、アウトプットを説明することができないため、トレーニングデータで表されなかったシナリオに対処するのが難しい「不安定な」または「曖昧な」など、他の欠点を有する。本開示は、両方のタイプの誤差に対処するための新しい方法を説明する。詳細には、本開示は、これらのタイプの誤差の相関する性質を考慮するために、その場限りのルールまたは機械学習の収集に依存するのではなく、特定の誤差が確率計算への読み取り値のパイルアップで相関するという起こりうる事実に対処する。

本開示の目的について、「相関誤差事象」は、２つ以上のマッピング誤差または２つ以上の配列決定誤差を指す誤差のカテゴリである。本明細書で説明されるプロセスは、１つ以上のマッピング誤差または１つ以上の配列決定誤差などの単一タイプの相関誤差事象を考慮するために適用され得る。あるいは、本明細書で説明されるプロセスは、１つ以上のマッピング誤差および１つ以上の配列決定誤差などの複数のタイプの相関誤差を考慮するために適用されてもよい。

相関誤差事象軽減システム

図１は、バリアントコーリングの相関誤差軽減のためのシステム１００の一例のコンテキスト図である。システム１００には、核酸配列決定装置１１０および二次分析ユニット１２０を含む。

核酸配列決定装置１１０は、生体サンプル１０５の一次分析を実施して、配列決定装置によって検出された生の物理信号を、関連する品質スコアを有する順序付けられた一連のヌクレオチド塩基コールに変換するように構成される。一次分析は、採用されている配列決定技術の性質に固有のものである。いくつかの実装形態では、例えば、ヌクレオチドは、蛍光、電荷、電流、放射光、またはそれらの任意の組み合わせの変化を検知することで検出することができる。いくつかの実施形態では、生体サンプルは、ＤＮＡ、ＲＮＡ、ＰＮＡ、ＬＮＡ、核酸のキメラまたはハイブリッド型を含む。

核酸サンプルは、例えば、唾液、血液、または他の体液を含浸させた口腔スワブ、紙、布地、または他の基質に由来する溶解物を含む精製サンプルまたは未加工のＤＮＡサンプルであってもよい。いくつかの実装形態では、核酸サンプルには、ゲノムＤＮＡなど、ＤＮＡの少量または断片化された部分が含まれる場合がある。いくつかの実装形態では、標的配列は、血液、血漿、精液、尿および血清を含むがこれらに限定されない１つ以上の体液中に存在する可能性がある。いくつかの実装形態では、標的配列は、微生物、植物、または昆虫学的なＤＮＡなどの人間以外のＤＮＡから取得された核酸を含むことができる。

一次分析は、生体サンプル１０５を受け取ること、および各々が品質スコアを有する１つ以上の塩基コールと呼ばれる出力データ１１２を生成することを含むことができ、これらは複数の「読み取り値」に組み立てられ、受け取った生体サンプル１０５から調製された配列断片中のヌクレオチドの順序付けられたセットを各々表す。いくつかの実装形態では、生体サンプル１０５は、ＤＮＡサンプルを含むことができ、配列決定装置１１０は、一次分析を実施して、ＤＮＡサンプルからのヌクレオチドまたは塩基の順序付けられた配列を含む複数の読み取り値を出力することができる。このような実装形態では、配列決定されたヌクレオチドの順序には、グアニン（Ｇ）、シトシン（Ｃ）、アデニン（Ａ）、およびチミン（Ｔ）のうちの１つ以上を任意の組み合わせで含める。他の実装形態では、生体サンプル１０５には、ＲＮＡサンプルを含めることができる。このような実装形態では、配列決定されたヌクレオチドの順序には、Ｇ、Ｃ、Ａ、およびウラシル（Ｕ）のうちの１つ以上を任意の組み合わせで含める。したがって、図１の例は、入力ＤＮＡサンプルに基づいて出力読み取り値を生成するＤＮＡ配列決定装置１１０を説明しているが、他の実装形態は、ＲＮＡサンプルに基づいて出力読み取り値を生成する配列決定装置１１０を含んでもよい。使用される配列決定方法に応じて、生体サンプル１０５の１つ以上の断片から配列決定された、連続した塩基対の順序付けられた配列を含む読み取り値は、約３０塩基対～１０，０００塩基対以上の長さで変化し得る。例えば、いくつかの実装形態では、配列決定された断片の読み取り値長は、約１５０塩基対～５００塩基対の間、約１５０塩基対、約２５０塩基対、または約３００塩基対であってもよい。読み取り値は、生体サンプル１０５から調製された断片からの単一の読み取り値または対端の読み取り値であってもよい。

いくつかの実装形態では、核酸配列決定装置１１０は、超並列配列決定技術を使用して超高スループット、スケーラビリティ、および速度を達成する様式で、所与のサンプル１０５の配列読み取り値１１２を生成するように構成された次世代配列決定装置（ＮＧＳ）を含む。様々な実施例では、ＮＧＳは、全ゲノムの迅速な配列決定、深く配列決定された標的領域に拡大する機能、ＲＮＡ配列決定（ＲＮＡ－Ｓｅｑ）の利用による新規ＲＮＡバリアントおよびスプライス部位の発見、または遺伝子発現分析のためのｍＲＮＡの定量化、ゲノムワイドなＤＮＡメチル化およびＤＮＡ－タンパク質相互作用など、エピジェネティック因子の分析、まれな体細胞バリアントおよび腫瘍サブクローンを研究するための癌サンプルの配列決定、および人間または環境における微生物多様性の研究を可能にする。

核酸配列決定装置１１０は、配列読み取り値１１２を生成し、生成された配列読み取り値１１２を二次分析ユニット１２０に提供するように構成されている。二次分析ユニット１２０には、１つ以上のメモリデバイス１２２、フィールドプログラマブルゲートアレイ１２４およびバリアントコーリングユニット１３０などの１つ以上のコンピュータを含めることができる。１つ以上のコンピュータには、１つ以上の動作を実施するように構成された１つ以上のデバイスを含めることができる。１つ以上のコンピュータには、ハードウェアのみ、ソフトウェアのみ、またはそれらの任意の組み合わせを含めることができる。

いくつかの実装形態では、二次分析ユニット１２０は、核酸配列決定装置１１０と統合されてもよい。このような実装形態では、例えば、二次分析ユニット１２０の１つ以上の構成要素の各々は、周辺構成要素相互接続（ＰＣＩ）拡張カードなどの拡張カードに収容され、核酸配列決定装置１１０にインストールされ得る。他の構成要素では、例えば、二次分析ユニット１２０の１つ以上の構成要素の各々は、核酸配列決定装置１１０とは異なり、イーサネット（登録商標）ケーブル、ＵＳＢケーブル、ＵＳＢ－Ｃケーブルなどを使用して、核酸配列決定装置１１０に直接接続される別のコンピュータの一部となり得る。さらに他の実装形態では、例えば、二次分析ユニット１２０の構成要素の各々は、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、セルラーネットワーク、インターネット、またはそれらの組み合わせなどの１つ以上の有線または無線ネットワークを使用して、核酸配列決定装置１１０によって遠隔にアクセス可能なクラウドベースのサーバに統合される。さらに他の実装形態では、例えば、二次分析ユニット１２０の１つ以上の構成要素は、核酸配列決定装置１１０に統合され、二次分析ユニット１２０の１つ以上の構成要素は、クラウドベースのサーバなどの別のコンピュータに統合される。このような実装形態では、例えば、マッピングおよび整列ユニット１２６を実装するために使用されるＦＰＧＡ１２４は、核酸配列決定装置１１０およびメモリ１２２に統合され、バリアントコーリングユニット１３０は、クラウドベースのサーバなどの別のコンピュータに統合される。

核酸配列決定装置１１０、二次分析ユニット１２０、および１つ以上のクラウドベースのサーバなどの１つ以上の他のコンピュータを含む、図１を参照して説明したこれらの構成要素の各々は、直接接続での通信が有効になっていない場合、あるいは、またはさらに、ＬＡＮ、ＷＡＮ、セルラーネットワーク、インターネット、またはその組み合わせのうちの１つ以上を含む、１つ以上の有線または無線ネットワークを介して通信できるようにすることが可能である。同様に、二次分析ユニット１２０の構成要素の各々は、１つ以上の１つ以上のバス、１つ以上の直接接続、または本明細書に記載のそれぞれの構成要素間の相互作用を達成するための１つ以上のネットワークを使用して、互いに、または二次分析ユニット１２０の外部の構成要素と通信するように構成されてもよい。

二次分析ユニット１２０は、読み取り値１１２を受信し、読み取り値１１２をメモリ１２２の第１の部分１２２ａに記憶するように構成されている。フィールドプログラマブルゲートアレイ（ＦＰＧＡ）１２４は、ゲノムデータ分析パイプラインの１つ以上のモジュールを実装するように動的に構成可能である。例えば、ＦＰＧＡ１２４は、マッピングおよび整列ユニット１２６、一対の隠れマルコフモデル（Ｐ－ＨＭＭ）ユニット１２８、またはその両方を実装するように動的に構成することができる。いくつかの実装形態では、マッピングおよび整列ユニット１２６は、単一の機能モジュールである。他の実装形態では、マッピングおよび整列ユニット１２６は、専用マッピングユニット１２６ａおよび専用整列ユニット１２６ｂを含む２つの別個の機能モジュールに分離される。いくつかの実装形態では、ＦＰＧＡ１２４は、特定の時間に、マッピングおよび整列ユニット１２６ならびにＰ－ＨＭＭユニット１２８の両方を実装するように構成されている。

しかしながら、他の実装形態では、ＦＰＧＡ１２４は、特定のゲノム分析モジュール、または本明細書に記載の他のコンピュータのいずれかをいつでも実装するためにオンデマンドで動的に再構成され得る。例えば、ＦＰＧＡ１２４は、最初にマッピングおよび整列ユニット１２６を含むように構成することができ、次いで、メモリ１２２から取得された読み取り値に対してＦＰＧＡ１２４によってマッピングおよび整列動作が実施されると、その後、ＦＰＧＡ１２４は、Ｐ－ＨＭＭユニット１２８として動的に再構成することができる。ＦＰＧＡ１２４は、特定のゲノム分析ワークフローによって指示されるように、オンデマンドで、１つのゲノム分析モジュールから別のゲノム分析モジュール、または他のコンピュータに動的に再構成することができる。本開示の目的のために、ユニットおよびモジュールという用語は、１つ以上の特定の動作を実施するように構成された１つ以上のハードウェア構成要素、１つ以上のソフトウェア構成要素、またはそれらの任意の組み合わせを意味するように交換可能に使用される。

ＦＰＧＡユニット１２４を参照すると、それぞれのマッピングおよび整列ユニット１２６ならびにＰ－ＨＭＭユニット１２８の機能的動作の実装は、プログラマブルロジックゲートを動的に構成または再構成するために、超高速集積回路（ＶＨＳＩＣ）ハードウェア記述言語（ＶＨＤＬ）などのハードウェア記述プログラミング言語を使用してプログラマブルデジタルロジックゲートをプログラミングすることによりハードウェアで達成することができる。あるいは、ＦＰＧＡ１２４を使用してマッピングおよび整列ユニット１２６ならびにＰ－ＨＭＭユニット１２８を実装することができるが、本開示はそのように限定される必要はない。例えば、他の実装形態では、マッピングおよび整列ユニット１２６ならびにＰ－ＨＭＭユニット１２８のうちの１つ以上はまた、ソフトウェアを使用して、ＤＮＡ配列決定装置にローカルに、またはＤＮＡ配列決定装置から遠隔に、１つ以上のコンピュータ上で実装されてもよい。さらに他の実装形態では、ＦＰＧＡ１２４はまた、バリアントコーリングユニット１３０の機能を実施して、このような確率結果がバリアントコーリングユニット１３０によって生成されたＶＣＦファイル１７０に含まれるべきかどうかを判定するために、変更された確率結果の分析を実施するように構成されてもよい。

しかしながら、本開示は、マッピングおよび整列ユニット１２６、Ｐ－ＨＭＭモジュール１２８、または本明細書に記載のバリアントコーリングユニット１３０などの二次分析ユニット１２０の他のコンピュータのうちの１つ以上を実装するために、動的に再構成可能なＦＰＧＡ１２４の使用に限定されない。代わりに、他のタイプのプログラマブルまたは非プログラマブル集積回路を使用することができる。例えば、１つ以上の特定用途向け集積回路（ＡＳＩＣ）をプログラムして、本明細書に記載のそれぞれのゲノム分析モジュールまたは他のコンピュータのうちの１つ以上の機能を実施することができる。ＡＳＩＣは、ＡＳＩＣのデジタルロジックゲートが、ＶＨＤＬなどのハードウェア記述言語を使用してプログラム可能であるという点で、本明細書に記載のＦＰＧＡと同様の１つ以上のプログラマブルロジック回路を含む集積回路を含む。しかしながら、ＡＳＩＣは１回しかプログラムできず、一度プログラムすると動的に再構成することはできないという点で、ＡＳＩＣはＦＰＧＡとは異なる。さらに、本開示の態様は、ＦＰＧＡまたはＡＳＩＣを使用して、二次分析ユニット１２０のゲノム分析モジュールまたは他のコンピュータを実装することに限定されない。代わりに、二次分析ユニット１２０のゲノム分析モジュールまたは他のコンピュータのいずれも、ソフトウェア命令の実行を通じて二次分析ユニット１２０のゲノム分析モジュールまたは他のコンピュータを実装する１つ以上の中央処理装置（ＣＰＵ）、グラフィカル処理ユニット（ＧＰＵ）、またはそれらの任意の組み合わせを使用して実装することができる。

いくつかの実装形態では、マッピングおよび整列ユニット１２６は、メモリ１２２の第１の部分１２２ａに記憶された、生成された読み取り値１１２をメモリ１２２の別の部分１２２ｂに記憶された参照ゲノムにマッピングおよび整列するように構成されているＦＰＧＡ１２４を使用して実装することができる。しかしながら、本開示は、メモリ１２２に読み取り値を記憶すること、メモリ１２２からの読み取り値にアクセスすること、メモリ１２２に参照ゲノムを記憶すること、またはメモリ１２２内の参照ゲノムにアクセスすることに限定されない。代わりに、いくつかの実装形態では、生成された読み取り値１１２、参照ゲノム、またはその両方は、１つ以上のネットワークを介してアクセス可能なクラウドベースのサーバ内のメモリデバイスに記憶することができる。

メモリ１２２の第３の部分１２２ｃでメモリ１２２に記憶するために、マッピングおよび整列された読み取り値をマッピングおよび整列ユニット１２６によって出力することができる。いくつかの実装形態では、第３の部分１２２ｃに記憶されていると呼ばれる、ＦＰＧＡ１２４からのマッピングおよび整列された読み取り値を含むメモリ１２２への書き込みは、核酸配列決定装置１１０によって出力され、第１の部分１２２ａに記憶された、元の生成された読み取り値１１２を上書きする様式で実際にメモリ１２２に記憶してもよい。したがって、メモリ１２２の第１の部分１２２ａ、第２の部分１２２ｂ、および第３の部分１２２ｃにそれぞれ記憶されているものとして複数の段階の情報が示されているが、本開示により開示されるプロセスの実行中の任意の特定の時点で、メモリ１２２のこれらのそれぞれの部分のうちの１つに記憶されているとして本開示により説明されるすべてのデータがメモリ１２２に存在するという本開示の要件はない、しかしながら、この明細書で説明されているすべてのデータが同時にメモリ１２２に記憶されたときには存在する場合がある。

いくつかの実装形態では、メモリ１２２は、単一のメモリデバイスまたは複数のメモリデバイスを含んでもよい。追加のメモリデバイスを使用すると、高速メモリの錯覚を生成するために使用されるメモリ階層の複数のレベルを使用してアクセスされる１つ以上のディスク記憶デバイスへの読み取り値または書き込み要求とは対照的に、フラッシュメモリなどの高速メモリデバイスへの書き込みおよび読み取り値を可能にすることで、データアクセスの遅延を低減し、スループットを向上させることができる。

同様に、いくつかの実装形態では、ＦＰＧＡ１２４、ＡＳＩＣ、ＣＰＵ、ＧＰＵ、またはそれらの組み合わせなどの集積回路を使用して、二次分析ユニット１２０の各ゲノム分析モジュールまたは他のコンピュータを実装することには、単一のＦＰＧＡ１２４、単一のＡＳＩＣ、単一のＣＰＵ、単一のＧＰＵ、またはそれらの任意の組み合わせを含めることができる。あるいは、またはさらに、ＦＰＧＡ１２４、ＡＳＩＣ、ＣＰＵ、ＧＰＵ、またはそれらの組み合わせなどの集積回路を使用して二次分析ユニット１２０の各ゲノム分析モジュールまたは他のコンピュータを実装することには、複数のＦＰＧＡ１２４、複数のＡＳＩＣ、複数のＣＰＵ、または複数のＧＰＵ、あるいはそれらの任意の組み合わせを含めることができる。二次分析ユニット１２０のゲノム分析ユニットまたは他のコンピュータを実装するために複数のＦＰＧＡなどの追加の集積回路を使用すると、マッピング、整列、Ｐ－ＨＭＭの確率計算、およびバリアントコーリングなどの二次分析動作を実施するのにかかる時間を短縮することができる。いくつかの実装形態では、ＦＰＧＡを使用してこれらの二次分析動作を実装すると、これらの二次分析動作を完了するのにかかる時間を２４時間以上から３０分以下に低減することができる。いくつかの実装形態では、複数のＦＰＧＡを使用してこれらの二次分析動作を実施すると、結果的にわずか５分でこれらの二次分析動作を完了することができる。

マッピングおよび整列ユニット１２６の出力には、参照ゲノムにマッピングおよび整列された読み取り値のパイルアップを含める。パイルアップには、ＤＮＡサンプルから参照ゲノムまたは参照ゲノムの一部への整列された読み取り値の塩基コールを要約するためのテキストベースの形式を含める場合がある。この出力は、ＦＰＧＡ１２４、Ｐ－ＨＭＭユニット１２８、およびバリアントコーリングユニット１３０のうちの１つ以上によってアクセスおよび分析することができるコンピュータ可読バイナリ形式で、メモリ１２２の１つ以上の部分１２２ｂ、１２２ｃに記憶することができる。あるいは、マッピングおよび整列ユニット１２６の出力は、１つ以上のネットワークを使用してアクセスされる遠隔クラウドサーバなどの１つ以上の遠隔コンピュータのコンピュータ可読バイナリ形式を使用してメモリに記憶することができる。ＦＰＧＡ１２４のマッピングおよび整列ユニット１２６の出力の人に優しい描写は、ユーザデバイスのグラフィカルユーザインターフェース上に描写することができる。そのようなグラフィカルユーザインターフェースの例は、インターフェース１４０を参照して示されている。

インターフェース１４０は、二次分析ユニット１２０のメモリ１２２にアクセスすることができる、ユーザデバイスのユーザインターフェース上に表示するために提供することができる。例えば、いくつかの実装形態では、二次分析ユニット１２０は、取り付けられた表示デバイスを有する。あるいは、またはさらに、スマートフォンまたはタブレットなどの表示装置を有する他のデバイスは、二次分析ユニット１２０と同じネットワークに接続し、メモリ１２２にアクセスし、その後、インターフェース１４０のパイルアップ１４１などのパイルアップを表示することができる。そのような実装形態では、バリアントコーリングユニット１３０は、（ｉ）取得した読み取り値１１２を、メモリに記憶された参照ゲノムにマッピングおよび整列したＦＰＧＡ１２４の出力にアクセスし、（ｉｉ）表示デバイス上でレンダリングされたときに、ＦＰＧＡ１２４によって参照ゲノムにマッピングおよび整列され、メモリ１２２に記憶された読み取り値を表すデータを、インターフェース１４０を使用する人が読むことができる人に優しい様式でユーザデバイス上に表示するために出力するレンダリングデータを生成することができる。

インターフェース１４０は、ＦＰＧＡ１２４の出力が、マッピングおよび整列された読み取り値のパイルアップ１４１を含むことを示す。この例では、インターフェース１４０は、それぞれ１４個の水平線で１４個の読み取り値をそれぞれ表す。これらの読み取り値は、読み取り値が生成されたＤＮＡ鎖に基づいてグループ化される。例えば、図１の例におけるマッピングおよび整列された読み取り値のパイルアップ１４１には、読み取り値の５’１端から読み取り値の３’１端に向かって左方向の第１の方向に延びる
後方向に整列された読み取り値の第１の組、および読み取り値の５’２端から読み取り値の３’２端に向かって右方向の第２の方向に延びる前方向に整列され読み取り値の第２の組を含める。したがって、ＦＰＧＡ１２４からの１４個のマッピングおよび整列された読み取り値出力のインターフェース１４０のこの例では、底部の７個の読み取り値は、マッピングおよび整列された読み取り値の第１の組を表し、上部の７個の読み取り値は、マッピングおよび整列された読み取り値の第２の組を表す。インターフェース１４０には示されていない２つの中央読み取り値のそれぞれの５’または３’端は、ウィンドウ１４０の外側で発生する。本開示の概念を説明するために使用されるこの例は、１４個のみの読み取り値のパイルアップを図示しているが、本開示はそれに限定されない。また、パイルアップ１４１は、パイルアップの底部に後方向に整列した読み取り値を表示し、パイルアップの上部に前方向に整列した読み取り値を表示するが、他の代替案が存在し得る。例えば、図７～図１０の実施例を参照して示されるように、前方向に整列された読み取り値は、パイルアップ１４１の底部に提示され、後方向に整列された読み取り値は、パイルアップの上部に提示することができる。

配列読み取り値の特性を記述する情報を表示することができるインターフェース１４０の例が提供されているが、本開示の任意の実装は、配列決定装置読み取り値の特性を記述する情報を表示装置上に出力する、あるいはバリアントコーリングユニット１３０、または本明細書に記載の他の構成要素は、インターフェース１４０からの情報にアクセスするという要件はない。その代わりに、インターフェース１４０は、配列読み取り値の特性を構成する情報のタイプの例を説明するために提供されているに過ぎない。

本開示は、ＦＰＧＡ１２４を使用して、特定のゲノム配列分析ワークフローに必要な数十の読み取り値、数百の読み取り値、数千の読み取り値、またはそれ以上を含むマッピングおよび整列された読み取り値のパイルアップを生成することができる。例として、核酸サンプルの高スループット次世代配列決定は、結果的に参照ゲノム配列の１つ以上の領域、またはその一部にマッピングおよび整列する必要がある数十万の短い読み取り値をもたらすことができる。このような大量の読み取り値量のマッピングおよび整列により、結果的に多数の重なり合ったまたは重複する短い配列核酸読み取り値が生じる可能性がある。いくつかの実装形態では、例えば、重なり合ったまたは重複の短い配列読み取り値の数は、参照ゲノム配列の１つ以上のそれぞれの参照場所の１ｘ、５ｘ、１０ｘ、３０ｘ、１００ｘ、またはそれ以上の範囲を含むことができる。「３０ｘの範囲」とは、例えば、参照ゲノム配列の１つ以上の参照場所に対する３０以上の重なり合った読み取り値のパイルアップを含む、短い読み取り値のマッピングおよび整列を指す。別の例として、「５ｘの範囲」とは、例えば、参照ゲノム配列の１つ以上の参照場所に対する５以上の重なり合った読み取り値のパイルアップを含む、短い読み取り値のマッピングおよび整列を指す。

相関誤差を軽減するための方法

したがって、多数の読み取り値を参照ゲノム配列、またはその一部に正確かつ効率的にマッピングおよび整列させるために、新しい読み取り値の処理方法を設計する必要がある。例えば、ヒトゲノムの配列決定から生じるデータは、潜在的なバリアントのために短い読み取り値をさらに分析して、それらの生物学的、診断的、および／または治療的関連性を判断する前に、通常、完全な参照ゲノム内の位置にマッピングおよび整列する必要がある数億の短い読み取り値をもたらすことができる。

重なり合った読み取り値のパイルアップにより、参照ゲノム配列の特定の参照場所での異なる読み取り値の各々の比較が可能になる。特定の参照場所の複数の重なり合った読み取り値の分析により、参照ゲノムの特定の場所にマッピングおよび整列された読み取り値内に真の変動、バリアント、または偏差があるかどうか、またはパイルアップ内の問題の位置で読み取られたいずれか１つに誤差がある場合に応じて、正確な判断を下すことができる。例えば、参照ゲノム配列の位置「Ｘ」で特定のヌクレオチドを検出した３０個の読み取り値のうちの１個または２個の読み取り値のみ、および２８個または２９個の他の読み取り値の各々が、別のヌクレオチドが位置「Ｘ」に存在するという判定を支持する場合、その後、２つの範囲外の読み取り値は、位置「Ｘ」の誤差として除外することができる。

重なり合った読み取り値のパイルアップの分析により、重なり合った読み取り値の類似性または相違を評価しない方法と比較して、読み取り値のより正確な分析が可能になり、被験者のゲノムが参照ゲノム、例えば、モデルゲノムとどのように異なるかを判定することができる。例えば、重なり合った読み取り値のパイルアップを分析すると、化学的誤差、機械的誤差、読み取り値誤差などの誤差をより正確に識別し、そのような誤差を真のバリアントと区別することができる。より具体的には、被験者が参照ゲノムの位置「Ｘ」に真のバリアントを有する場合、パイルアップ内の読み取り値の大部分は、例えば、真のバリアントを含む読み取り値の大部分によって真のバリアントが存在することを支持する必要がある。次いで、本明細書に記載されるものなどの統計モデルを実装して、参照ゲノムからのそのすべての真のバリアントを有する被験者の真の遺伝子配列を判定することができる。

したがって、様々な例では、核酸サンプルの読み取り値が生成され、それらの配列順序が整列され、生成された読み取り値が参照ゲノムまたはその一部にマッピングされると、被験者のゲノムの真の遺伝子配列を判定することができる。真のサンプルゲノムが決定されると、真のサンプルゲノムと参照ゲノムまたはその一部との比較に基づいて、１つ以上の真の変動を判定することができる。真のサンプルゲノムと参照ゲノムまたはその一部との間の１つ以上の変動が決定されると、サンプルゲノムと参照ゲノムとの間のすべての真のバリアントまたは偏差のリストが決定され、呼び出される。そのような変動は、様々な理由による可能性があり、生物学的、診断的、および／または治療的関連性を有する可能性がある。

インターフェース１４０によって図示されている例示的なパイルアップは、ＦＰＧＡ１２４のマッピングおよび整列ユニット１２６の出力が、パイルアップの読み取り値の各々に対する塩基品質スコア１４３およびマッピング信頼スコア１４４を含むことを示している。塩基品質スコア１４３は、位置「０」１４２などの対象の特定の位置における読み取り値に対して呼び出された塩基が正確であるという信頼レベルを示す値を含む。図１の例では、塩基品質スコアは、位置「０」１４２における読み取り値に対する塩基コールが正確であるという高いレベルの信頼性を示す高い塩基品質スコア「４１」、および位置「０」１４２における読み取り値に対する塩基コールが正確であるという低いレベルの信頼性を示す低い塩基品質スコア「２」によって定義された値の範囲によって表される。いくつかの実装形態では、塩基品質スコアは、二次分析ユニット１２０によって受信された核酸配列決定装置１１０の出力であり、塩基コール誤差のフレッドスケール確率Ｑ_{ｐｈｒｅｄ－ｂａｓｅ}を使用して判定することができ、Ｑ_{ｐｈｒｅｄ－ｂａｓｅ}＝－１０＊ｌｏｇ１０（Ｐ_{ｅ－ｂａｓｅ}）である。この例では、Ｐ_{ｅ－ｂａｓｅ}は、特定の読み取り値の塩基コーリング誤差の確率である。いくつかの実装形態では、低い塩基品質スコアは、配列決定誤差を示す要因になる場合がある。

マッピング信頼スコア１４４は、取得された読み取り値１１２が、位置「０」（参照番号１４２で示される）などの特定の対象の位置でマッピングおよび整列ユニット１２６によって参照ゲノム１４５に正確にマッピングされたという信頼レベルを示す。図１の例では、マッピング信頼スコアは、読み取り値が、位置「０」１４２で参照ゲノム１４５に正確にマッピングされたという高いレベルの信頼性を示す高いマッピング信頼スコア「２５０」、および読み取り値が、位置「０」１４２で参照ゲノム１４５に正確にマッピングされたという低いレベルの信頼性を示す低いマッピング信頼スコア「０」によって定義された値の範囲によって表される。いくつかの実装形態では、マッピング信頼スコアは、マッピングおよび整列ユニット１２６の出力であり、マッピング誤差のフレッドスケールＱ_{ｐｈｒｅｄ－ｍａｐｐｉｎｇ}を使用して判定することができ、Ｑ_{ｐｈｒｅｄ－ｍａｐｐｉｎｇ}＝－１０＊ｌｏｇ１０（Ｐ_{ｅ－ｍａｐｐｉｎｇ}）である。この例では、Ｐ_{ｅ－ｍａｐｐｉｎｇ}は、特定の読み取り値のマッピング誤差の確率である。マッピング信頼スコア１４４の値は、Ｓｍｉｔｈ－Ｗａｔｅｒｍａｎ整列器などの整列アルゴリズムからの最高整列スコアと整列器の２番目に良いスコアとの間の差に比例する可能性がある。いくつかの実装形態では、二次整列の数を考慮して、この方法の調整を行うことができる。いくつかの実装形態では、低いマッピングスコアは、マッピング誤差を示す要因になる場合がある。

インターフェース１４０はまた、ＦＰＧＡの出力が、位置「０」１４２で呼び出された塩基ヌクレオチドを含むことも示している。図１の例では、パイルアップ１４１の上位１２個の読み取り値は、参照ゲノムと位置「０」１４２で同じ塩基コールを有すると判定された。１４０の例示的なインターフェースは、位置「０」１４２の上位１２個の読み取り値の各々について、ヌクレオチドを表す文字Ａ、Ｃ、Ｇ、またはＴを描写しないことにより、この判定を表す。したがって、インターフェース１４０に描写された情報のレビューに基づいて、上位１２個の読み取り値は、位置「０」１４２で「Ａ」（アデニン）の塩基コールを有すると判定することができる。インターフェース１４０はまた、Ｇ（グアニン）の代替対立遺伝子が、パイルアップの最後の２個の読み取り値に対する塩基コールとして判定されたことも示している。Ｇ（グアニン）は、位置「０」の参照ゲノムのヌクレオチド塩基とは異なるため、対立遺伝子である。

ＦＰＧＡの出力はまた、インターフェース１４０に示されるパイルアップ１４１の分析から判定することができる追加情報も含む。最初に、各読み取り値の読み取り配向とも呼ばれる、各読み取り値の鎖方向を記述する情報を判定することができる。例えば、インターフェース１４０は、代替対立遺伝子の各々が同じ鎖方向または同じ読み取り配向で発生することを示している。この例では、そのような情報は、後方向に整列された方向の第１の組の読み取り値で代替対立遺伝子（例えば「Ｇ」）が発生するという事実によって証明される。別の例として、鎖を記述する情報はまた、それぞれの３’および５’端を参照して決定することができる、パイルアップの各読み取り値の鎖方向も含むことができる。第２に、各読み取り値内の代替対立遺伝子の場所を記述する情報も決定することができる。例えば、読み取り値の終わりの５’から位置「０」１４２における各読み取り値の代替対立遺伝子間の近接性を判定することができる。この例では、各代替対立遺伝子が反対側の３’端に近いため、決定された代替対立遺伝子「Ｇ」は、それぞれの読み取り値の５’端から遠く離れて発生する。代替対立遺伝子が５’端からさらに発生するほど、代替対立遺伝子は配列決定誤差に関連している可能性が高くなる。第３に、位置「０」１４２における各読み取り値の塩基品質を判定することができる。例として、代替対立遺伝子「Ｇ」を有する読み取り値の塩基品質は、それぞれ６および２である。第４に、参照位置「０」における各読み取り値について、各読み取り値のマッピング信頼スコアを判定することができる。例として、位置「０」１４２に代替対立遺伝子「Ｇ」を有する読み取り値は、４５および３のマッピング信頼スコアをそれぞれ有する。この例の目的のためにインターフェース１４０に示される情報は、単に本開示の特徴を説明するための例である。しかしながら、そのようなインターフェースの実世界の例は、図６～図９を参照して示される。

インターフェース１４０によって表示された各タイプの情報は、１つ以上のＤＮＡ読み取り値の特性と呼ぶことができる。特性には、塩基品質スコア１４３またはマッピング信頼スコア１４４などの読み取り値固有の特性を含める。読み取り値固有の特性の追加の例は、以下のインターフェース１４０を参照して説明する。

インターフェース１４０によって表示された情報もメモリ１２２に記憶される。例として、インターフェース１４０を生成するために使用されるインターフェースは、マッピングおよび整列された読み取り値のパイルアップ１４１を示す情報、参照ゲノム１４５（またはその一部）を示す情報、各読み取り値１４３の塩基品質スコアを示す情報、各読み取り値のマッピング信頼スコア１４４を示す情報、参照位置（例えば、位置「０」１４２）における各読み取り値の塩基コールを示す情報、各読み取り値に代替対立遺伝子が含まれているかどうかを示す情報、代替対立遺伝子を有する読み取り値の識別を示す情報、代替対立遺伝子を含む読み取り値の５’端を参照する、各代替対立遺伝子の場所を示す情報、各読み取り値の方向（または配向）を示す情報（例えば、前方向に整列または後方向に整列）、代替対立遺伝子を有する各読み取り値の方向（または配向）を示す情報（例えば、前方向に整列または後方向に整列）、および代替対立遺伝子が、前方向に整列された方向に第１の組の読み取り値で発生するか、または後方向に整列された方向に第２の組の読み取り値で発生するかを判定したことを示す情報などのＤＮＡ読み取り値の特性を記述する情報を使用して、インターフェース１４０を生成する。これらの特性の各々を記述する、示す、または別の方法で表す情報は、メモリ１２２の、例えば位置１２２ｂ、１２２ｃに記憶することができる。例として、これらの特性は、機械可読のバイナリ形式でメモリ１２２に記憶されてもよい。

バリアントコーリングユニット１３０は、メモリ１２２から、マッピングおよび整列された読み取り値の特性を記述し、インターフェース１４０に示される情報を取得することができる。入力のいくつかについて、バリアントコーリングユニット１３０は、メモリ１２２からのマッピングおよび整列された読み取り値の特性を記述する情報を使用して、バリアントコーリングユニット１３０の１つ以上の確率モデル１３１への入力を生成することができる。バリアントコーリングユニット１３０は、生成された入力を１つ以上の確率モデル１３１への入力として提供することができる。いくつかの実装形態では、バリアントコーリングユニット１３０は、Ｐ－ＨＭＭユニット１２８が、バリアントコーリングユニット１３０によって使用された１つ以上の確率モデル１３１への入力のために１つ以上の確率を生成することを要求することもできる。例として、バリアントコーリングユニット１３０は、Ｐ－ＨＭＭユニット１２８が、参照位置「０」１４２などの参照位置で特定の候補対立遺伝子Ｇ_ｍ,φが与えられた場合に、各読み取り値に対して、読み取り値ｒｉを観察する確率を判定するように要求することができる。このような実装形態では、例えば、バリアントコーリングユニット１３０は、Ｐ－ＨＭＭユニット１２８によって返された確率値を読み取り対立遺伝子として使用することができる。次に、バリアントコーリングユニット１３０は、（ｉ）メモリ１１２および／または遠隔メモリから取得された特性を記述する情報および（ｉｉ）インターフェース１４０によって記述されたパイルアップの１つ以上の特性を記述するＰ－ＨＭＭユニット１２８により計算された情報確率、またはそれらの任意の組み合わせを含むマッピングおよび整列された読み取り値の特性を記述する情報を提供することができる。いくつかの実装形態では、バリアントコーリングユニット１３０は、読み取り対立遺伝子スコアの代替形態を表す、二次分析ユニット１２０の別のコンピュータからの計算結果を計算または受け取ることができる。読み取り対立遺伝子スコアのこれらの異なる形式については、以下でさらに詳しく説明する。

メモリ１２２は、インターフェース１４０によって記述された読み取り値の１つ以上の特性を記述する、支持する、またはその両方の情報を記憶することに留意されたい。場合によっては、インターフェース１４０を参照して記述された情報のタイプは、メモリ１２２に実際に記憶されている情報から導出する必要がある場合がある。例えば、いくつかの実装形態では、メモリ１２２は、インターフェース１４０の「Ｇ」などの候補代替対立遺伝子の場所、およびインターフェース１４０の「Ｇ」などの候補代替対立遺伝子を含める読み取り値の５’端の位置を記憶してもよい。次に、メモリ１２２に記憶されたその情報に基づいて、バリアントコーリングユニット１３０、または二次分析ユニット１２０の他の構成要素は、候補代替対立遺伝子「Ｇ」の読み取り値の５’端からの距離を判定することができる。そのような場合、そのような情報はメモリ１２２に記憶されている情報から導出することができるため、メモリ１２２は、５’端からの候補代替対立遺伝子「Ｇ」の距離を記憶する必要はない。配列読み取り値の特性を記述する他のタイプの情報は、特性を記述する実際に記憶されている情報から同様に導出することができる。

本明細書に記載の確率モデル１３１は、本明細書に記載のようにバリアントコーリングユニット１３０によって使用され、真である様々な候補遺伝子型の確率スコアを判定する。本開示によって提示される改善は、従来型確率モデルが、現在の確率モデルが２つ以上のマッピング誤差および／または２つ以上の配列決定誤差などの相関誤差事象の発生を考慮することができない手段で、バリアントコーラーの精度を改善する。これらの新しい確率モデル１３１は、マッピング誤差確率モデル１３２および配列決定誤差確率モデル１３４を含む。これらの確率モデルは、ルールベースの意思決定あるいは所定のトレーニングデータセットの特徴によって制限されないため、技術的な利点がある。

マッピング誤差確率モデル

マッピング誤差確率モデル１３２は、マッピング誤差、例えば、類似の、および場合によってはほぼ同一の塩基配列を含む第１の領域および第２の領域などの参照ゲノムの複数の領域のときに発生する誤差を考慮するように設計されている。そのような場合、マッピングおよび整列ユニットは、それぞれの領域の塩基配列の類似性により、一組の読み取り値を第２の領域ではなく第１の領域に誤ってマッピングする場合がある。マッピング誤差の可能性は、第１の領域内の１つ以上の場所に自然に発生するバリアントがあるときに深刻にする可能性があり、配列が第２の領域と同一になる場合がある。そのような誤差を考慮するために、マッピング誤差モデルは、確率モデルへの入力として、マッピングおよび整列された読み取り値の特性を記述するメモリ１２２から、Ｐ－ＨＭＭユニット１２８から、またはそれらの組み合わせからバリアントコーリングユニット１３０によって取得された一組の情報を受け取る。

マッピング誤差が発生した確率を判定するために、マッピング誤差確率モデル１３２は、（ｉ）参照位置「０」１４２などの参照位置における各候補対立遺伝子について、メモリ１２２に記憶されたパイルアップの各読み取り値の読み取り対立遺伝子スコア、および（ｉｉ）メモリ１２２に記憶されたパイルアップの各読み取り値のマッピング品質スコアを含む、バリアントコーリングユニット１３０によって取得された入力を受け取る。いくつかの実装形態では、読み取り対立遺伝子スコアには、対立遺伝子Ｇ_ｍ,φを含むＤＮＡ分子が与えられた場合に、配列決定プロセスが読み取り値ｒ_iを生成する確率を表す値Ｐ（ｒ_i｜Ｇ_ｍ,φ）を含めることができる。この値Ｐ（ｒ_i｜Ｇ_ｍ,φ）を計算または推定するには、様々な手段がある。

ゲノム分析ツールキット（ＧＡＴＫ）またはＤｒａｇｅｎ（登録商標）プラットフォームなどのハプロタイプベースのコーラーを使用した実装では、ド・ブラン・グラフを使用して、ハプロタイプＨ_ｋを含むリストを生成することができ、ハプロタイプは、参照位置「０」１４２などの参照位置を超えて一方向または両方向に延びる塩基の配列を表す。次に、Ｐ－ＨＭＭユニット１２８などの隠れマルコフモデル（ＨＭＭ）を使用して、ハプロタイプＨ_ｋを含むＤＮＡ分子が与えられた場合に、配列決定プロセスが読み取り値ｒ_iを生成する確率を表す読み取り値ハプロタイプスコアＰ（ｒ_i｜Ｈ_ｋ）を計算することができる。

ＨＭＭ計算では、マッパー／整列器によって返される整列が正しいと仮定するのではなく、整列の起こり得る不確実性を考慮して、複数の可能な整列の確率を合計することができる。次に、いくつかのの実装形態では、読み取り対立遺伝子スコアには、対立遺伝子を含むハプロタイプよりも最高のスコアを割り当てることができる。

ＨＭＭユニットを使用してそのような確率を計算するためにバリアントコーリングユニット１３０を使用する詳細な説明は、そのすべてが参照によって本明細書に組み込まれる、米国特許公開第２０１６／０３０６９２２により詳細に記載されている。

ハプロタイプベースのコーラー以外のバリアントコーラーは、計算の複雑さを軽減するために、より単純な推定値を使用することができる。例えば、バリアントコーラーは、マッパー／整列器からの整列が正しいと仮定し、それに従ってスコアを推定することができる。ＳＮＰを検出するために、そのようなバリアントコーラーは、次の通り、参照位置「０」１４２などの参照位置に整列された塩基コールｂ_iおよび塩基品質ｑ_iに基づいて、メモリ１２２に記憶されたパイルアップの各読み取り値に対する読み取り対立遺伝子スコアを推定することができる。

インデルの場合、このようなバリアントコーラーは、インデルの長さ、インデルが挿入または削除であるかどうか、および周囲の配列関係（例えば、短いタンデム反復の期間および長さ）に基づいてスコアを割り当てることができる。

ＳＮＰ検出に関連する列方向の実装、またはＳＮＰおよびインデル検出に関連するより一般的な実装を使用するかに関係なく、マッピング誤差確率モデル１３２の出力には、位置「０」１４２などの参照位置で１つ以上のマッピング誤差が発生した可能性を示すスコアを含む１つ以上の確率を含める。いくつかの実装形態では、マッピング誤差確率モデル１３２は、（ｉ）参照位置１４２における読み取り値が、代替に一致する外来対立遺伝子とのホモ接合型参照の発生を示す可能性、および（ｉｉ）参照位置１４２における読み取り値が、参照対立遺伝子（１６５）に一致する外来対立遺伝子とのホモ接合型代替の発生を示す可能性を含む２つの異なる仮説に対して、２つの確率スコアを出力するように構成されている。

配列決定誤差確率モデル

配列決定誤差確率モデル１３４は、ヌクレオチドの特定の組み合わせが、配列決定アルゴリズムを混乱させて誤った配列を生成する可能性があるために発生する可能性がある配列決定誤差を考慮する確率モデルである。上記のマッピング誤差モデル１３２と同様に、いくつかの実装形態では、使用されるバリアントコーリングユニットの複雑さに基づいて、配列決定誤差確率モデル１３４に提供することができる入力に変動がある場合がある。より複雑なハプロタイプバリアントコーラーは、上記の方程式（１）を使用して計算される読み取り対立遺伝子スコアを使用することができる一方で、ハプロタイプバリアントコーラー以外の他のバリアントコーラーは、方程式（２）を使用して計算される読み取り対立遺伝子を使用することができる。いくつかの実装形態では、使用される読み取り対立遺伝子スコアのタイプは、バリアントコーリングユニット１３０を使用してＳＮＰのみを検出するのか、またはＳＮＰおよびインデルを検出するのかに基づいて判定することができる。

使用される読み取り対立遺伝子スコアのタイプに関係なく、配列決定誤差確率モデル１３４は、バリアントコーリングユニット１３０からの入力として、マッピングおよび整列された読み取り値の特性を記述するバリアントコーリングユニット１３０によって検索された一組の情報を受け取る。配列決定誤差が発生した確率を判定するために、配列決定誤差確率モデル１３４は、（ｉ）メモリ１２２に記憶されたパイルアップの各読み取り値の読み取り配向、（ｉｉ）読み取り値の５’端を参照する、各読み取り値内の位置「０」１４２などの参照位置における各塩基の位置、（ｉｉｉ）参照位置「０」１４２などの参照位置における各候補対立遺伝子について、メモリ１２２に記憶されたパイルアップの各読み取り値の読み取り対立遺伝子スコア、および（ｉｖ）位置「０」などの参照位置における塩基の各読み取り値の塩基品質スコアを含むバリアントコーリングユニット１３０によって生成またはそうでなければ取得された入力を受け取る。

配列決定誤差確率モデルの他の変動は、他の入力を受け取るように構成することができる。例えば、いくつかの実装形態では、位置「０」１４２などの参照位置における塩基の各読み取り値の塩基品質スコアは、入力として必要ではない。参照位置「０」１４２における塩基の各読み取り値の塩基品質スコアが、読み取り対立遺伝子スコアが方程式（２）を使用して決定されるシナリオの一例である。そのような場合、参照位置「０」１４２などの参照位置における塩基の各読み取り値の塩基品質スコアは、方程式（２）を使用して決定された読み取り対立遺伝子スコアから導出することができる。しかしながら、位置「０」１４２などの参照位置における塩基の各読み取り値の塩基品質スコアは、代わりに別の受信された入力から導出することができるため、専用入力として必要とされない他の実装があり得る。

さらに他の実装形態では、別の第４の入力が配列決定誤差確率モデルに提供され得る。例えば、配列決定誤差確率モデルは、図１のインターフェース１４０の位置「０」における候補代替対立遺伝子「Ｇ」などの候補代替対立遺伝子を含む読み取り値の同じ方向（または読み取り配向）で、位置「０」１４２などの参照場所に先行する参照ゲノム１４５の複数のホモポリマーを記述する入力を受け取るように構成され得る。例えば、３つの参照対立遺伝子「Ｇ」は、候補代替対立遺伝子「Ｇ」と同じである参照場所１４２の前に、参照ゲノム１４５に生じることに留意されたい。この数のホモポリマーは、別の入力として配列決定誤差確率モデルに入力することができる。ホモポリマーの数を記述するこの入力を追加して、モデルの精度を改善することができる。

配列決定誤差確率モデル１３４の出力には、位置「０」１４２などの参照位置で１つ以上の配列決定誤差が発生した可能性を示すスコアを含む１つ以上の確率を含める。いくつかの実装形態では、配列決定誤差確率モデル１３４は、（ｉ）参照位置１４２における読み取り値が、代替対立遺伝子（１６６）に一致する配列決定誤差とのホモ接合型参照の発生を示す可能性、および（ｉｉ）参照位置１４２における読み取り値が、参照対立遺伝子（１６７）に一致する配列決定誤差とのホモ接合型代替の発生を示す可能性を含む２つの異なる仮説に対して、２つの確率スコアを出力するように構成されている。

バリアントコーリングユニット１３０は、従来型確率モデルおよびその１つ以上を使用して、複数の仮説の各々に対して一組の変更された確率結果１５０を生成する。複数の仮説は、１つ以上の確率モデル１３１、使用される特定の１つ以上の確率モデル１３１、またはそれらの組み合わせに提供される入力に基づいて決定することができる。生成された組の変更された確率結果１５０は、それぞれの仮説が真である可能性を示す複数の仮説の各々に対する確率値を含むことができる。

例として、いくつかの実装形態では、バリアントコーリングユニット１３０が、マッピング誤差モデル１３２の入力のみを生成するか、そうでなければ提供する場合、次に、確率結果１５０の変更された組は、１つ以上のマッピング誤差が参照場所１４２で発生する可能性をそれぞれ考慮する、仮説１６１、１６２、１６３の従来型確率、および仮説１６４、１６５の非従来型確率を含み、各々については、以下でより詳しく説明する。別の例として、バリアントコーリングユニット１３０が、配列決定誤差モデル１３４の入力のみを生成するか、そうでなければ提供する場合、次に、確率結果１５０の変更された組は、１つ以上の配列決定誤差が参照場所１４２で発生する可能性をそれぞれ考慮する、仮説１６１、１６２、１６３の従来型確率、および仮説１６６、１６７の非従来型確率を含み、各々については、以下でより詳しく説明する。しかしながら、バリアントコーリングユニット１３０が、マッピング誤差モデル１３２および配列決定誤差モデル１３４の両方の入力を生成するか、そうでなければ提供する場合、次に、バリアントコーリングユニット１３０によって生成された、確率結果の組１５０の変更された組は、従来型確率１６１、１６２、１６３、および非従来型確率１６４、１６４、１６６、１６７を含み、各々については、以下でより詳しく説明する。変更された確率結果の組１５０は、コンピュータ可読バイナリ形式で生成され、かつ提供されてもよい。変更された確率結果の組１５０は、変更された確率結果１５０が、変更された確率計算を使用して、１つ以上のマッピング誤差、１つ以上の配列決定誤差、または両方の組み合わせの発生を考慮するために、バリアントコーリングユニット１３０によって使用することができる１つ以上の追加の仮説１６４、１６５、１６６、１６７に対する追加の確率スコアも含むことができるという点で、典型的にはバリアントコーリングユニット１２９によって実施される従来型確率計算の結果を改善する。

変更された確率結果１５０の組の人間が読み取れる変形形態は、バリアントコーリングユニット１３０によって生成された確率結果１５０の組にアクセスするユーザデバイスの表示装置上のグラフィカルユーザインターフェースを使用して示すことができる。そのようなグラフィカルユーザインターフェースの例は、インターフェース１６０を参照して図１の例に示されている。いくつかの実装形態では、表示装置には、例えば、二次分析ユニット１２０に連結されている表示デバイスを含めることができる。確率１５０の変更された組の確率の各々は、インターフェース１６０における確率の表示を参照して以下で説明される。しかしながら、これらの確率は、バリアントコーリングユニット１３０によって機械可読形式で取得および分析されてもよい。

バリアントコーラー１３０によって計算された従来型確率には、従来型確率モデルを使用して判定された確率の組を含めることができる。これらの従来型確率モデルは、（ｉ）参照位置１４２における読み取り値がホモ接合型参照１６１の発生を示す可能性、（ｉｉ）参照位置１４２における読み取り値がヘテロ接合型代替１６２の発生を示す可能性、および（ｉｉｉ）参照位置１４２における読み取り値がホモ接合型代替の発生を示す可能性を含む３つの仮説の各々に対する確率スコアを判定するように構成されている。ホモ接合型参照は、参照位置１４２の両方の対立遺伝子が同じときに発生する。そのような場合、参照位置１４２における代替対立遺伝子は発生しない。ヘテロ接合型代替は、参照位置１４２における対立遺伝子の１つが代替対立遺伝子であり、参照位置１４２における他の対立遺伝子が参照対立遺伝子であるときに発生する。ホモ接合型代替は、参照位置１４２における両方の対立遺伝子が代替対立遺伝子であるときに発生する。これら３つの仮説を生成する従来型確率計算では、パイルアップ内のすべての読み取り値が正しくマッピングされ、読み取り値全体で配列決定誤差が無相関であると想定している。

しかしながら、マッピング誤差は通常発生し、マッピング誤差および配列決定誤差は、読み取り値間で高度に相関する傾向がある。これらの誤差の発生を考慮するために、本開示は、１つ以上の変更された確率モデル１３１を使用して、４つ以上の追加の非従来型仮説に対する確率スコアを含む、確率結果１５０の変更された組を生成するように構成されたバリアントコーリングユニット１３０を採用する。単一の代替対立遺伝子（例えば、参照対立遺伝子および第１の代替対立遺伝子）などのいくつかの実装形態では、確率結果１５０の変更された組には、本書に記載の４つの追加の非従来型仮説１６４、１６５、１６６、１６７に対する確率スコアを含めることができる。しかしながら、単一の代替対立遺伝子（例えば、参照対立遺伝子、第１の代替対立遺伝子、および第２の代替対立遺伝子）以上がある他の実装では、次いで確率結果１５０の変更された組には、本明細書に記載の４つ以上の非従来型仮説を含めることができる。このようなシナリオでは、第１の対立遺伝子、第２の対立遺伝子、および参照対立遺伝子のそれぞれの組み合わせは、本明細書に記載の４つの非従来型仮説１６４、１６５、１６６、１６７に対応する非従来型仮説の組に対する、生成された確率スコアを有する。確率結果１５０の変更された組は、バリアントコーリングユニット１３０が、１つ以上の相関誤差事象がパイルアップ１４１の参照場所１４２などの参照場所で発生した可能性を考慮することができることによって、１つ以上の確率モデル１３１によって出力された確率スコアのそれらを利用しない従来のバリアントコーラーと比較したときに、バリアントコーリングユニット１３０に改善を提供する。

確率結果１５０の変更された組には、１つ以上のマッピング誤差の潜在的な発生を考慮する、異なる仮説に対するそれぞれの非従来型確率スコアを含める。これらの追加の確率には、（ｉ）参照位置１４２における読み取り値が、代替（１６４）に一致する外来対立遺伝子とのホモ接合型参照の発生を示す可能性、および（ｉｉ）参照位置１４２における読み取り値が、参照対立遺伝子（１６５）に一致する外来対立遺伝子とのホモ接合型代替の発生を示す可能性を含める。外来対立遺伝子には、マッピング誤差の結果であった参照位置１４２における参照ゲノム１４５の塩基ヌクレオチドにマッピングされた対立遺伝子を含めることができる。外来対立遺伝子は、参照ゲノム１４５の１つ以上の第２の領域と実質的に類似、または同一のヌクレオチド塩基の配列を有する、参照ゲノムの第１の領域に誤ってマッピングされる場合がある。

確率結果１５０の変更された組には、１つ以上の配列決定誤差の潜在的な発生を考慮するそれぞれの非従来型確率を含める。これらの追加の確率には、（ｉ）参照位置１４２における読み取り値が、代替対立遺伝子（１６６）に一致する配列決定誤差とのホモ接合型参照の発生を示す可能性、および（ｉｉ）参照位置１４２における読み取り値が、参照対立遺伝子（１６７）に一致する配列決定誤差とのホモ接合型代替の発生を示す可能性を含める。

変更された確率結果１５０の組は、集合的に、参照位置１４２における塩基ヌクレオチドの真のバリアントが存在する確率を表す。さらに、確率１６１、１６２、１６３、１６４、１６５、１６６、１６７を含める変更された確率結果１５０の組のそれぞれの確率は、各仮説によって表される特定の遺伝子型が存在する特定の確率スコアを提供する。ここで、特定の遺伝子型には、ホモ接合型参照、ヘテロ接合型代替、ホモ接合型代替、代替に一致する外来対立遺伝子とのホモ接合型参照、参照対立遺伝子に一致する外来対立遺伝子とのホモ接合型代替、代替対立遺伝子に一致する配列決定誤差とのホモ接合型参照、または参照対立遺伝子に一致する配列決定誤差とのホモ接合型代替を含めることができる。

変更された確率結果１５０の組は、バリアントコーリングユニット１３０によって使用されて、１つ以上のサンプル読み取り値の候補代替対立遺伝子が、対象の参照位置における参照対立遺伝子の真のバリアントであるかどうかを判定することができる。図１の例を参照すると、バリアントコーリングユニット１３０は、変更された確率結果１５０の組を使用して、インターフェース１４０に示される候補代替対立遺伝子「Ｇ」が参照位置における参照対立遺伝子「Ａ」の真のバリアントであるかどうかを判定することができる。例えば、バリアントコーリングユニット１３０は、変更された確率結果１５０の組を処理し、参照場所における真のバリアントを識別するデータがバリアントコーリングユニット１３０によって生成されたバリアントコールフォーマット（ＶＣＦ）ファイル１７０に含まれるべきかどうかを１３６で判定する。

バリアントコーリングユニット１３０は、インターフェース１４０に示される候補代替対立遺伝子「Ｇ」を有する読み取り値を記述するデータなどのサンプルの１つ以上の読み取り値の候補代替対立遺伝子が、変更された確率結果１５０に基づいて集団スコアを判定し、１つ以上の所定の閾値を使用して集団スコアを評価することによって、真のバリアントを表すべきかどうかを判定することができる。集団スコアは、真のバリアントが存在する可能性を示すことができる。いくつかの実装形態では、方程式（１４）を使用して集団スコアを判定することができる。しかしながら、集団スコアを判定する他の方法は、本開示の範囲内に含まれる。コンピュータが１３６で、集団スコアが所定の閾値を満たしていると判定した場合、次いで、コンピュータは真のバリアントが第１の位置に存在することを示す情報をＶＣＦファイルに追加することができる。ＶＣＦファイルに追加された情報には、例えば、候補対立遺伝子の位置、代替対立遺伝子の識別子、代替対立遺伝子の遺伝子型、および集団スコアを示すデータを含めることができる。あるいは、コンピュータが１３６で、集団スコアが所定の閾値を満たしていないと判定した場合、次いで、コンピュータは出力データを破棄し、出力データが参照位置における偽陽性の発生を示すと判定することができる。

図１に示される例では、バリアントコーリングユニット１３０は１３６で、変更された確率１５０の組の確率に基づく集団スコアが、所定の閾値を満たさず、真のバリアントとしてＶＣＦファイル１７０に候補代替対立遺伝子「Ｇ」を識別する情報を含めないと判定することができる。これは、集団スコアは、変更された確率１４０の組に基づいて、候補代替対立遺伝子「Ｇ」が、それぞれの読み取り値の５’端から離れた場所で低塩基品質の前方向に整列された位置の単一鎖でのみ発生するため、１つ以上の配列決定誤差が存在する高い可能性を示すためである。したがって、バリアントコーリングユニット１３０は、変更された確率１５０の組の評価に基づいて、候補代替対立遺伝子「Ｇ」が参照位置１４２における真のバリアントではなく、代わりに偽陽性であり、その参照場所１４２における真のバリアントは存在しないと判定することができる。

インターフェース１６０に示される確率は単なる例であり、本開示の一例を示す目的で提供されている。１６０に示される確率は、この明細書によって記載された実際の確率モデルに入れられている、図１に記載された実際の情報の結果ではない。

図２は、バリアントコーリングの相関誤差事象軽減のためのプロセス２００の例のフローチャートである。プロセス２００は、図１のバリアントコーリングユニットなどのコンピュータによって実施されるものとして以下に説明される。いくつかの実装形態では、バリアントコーリングユニットは、１つ以上のＦＰＧＡ、ＡＳＩＣ、ＣＰＵ、ＧＰＵ、またはそれらの組み合わせなどのハードウェアを使用して、ソフトウェアまたはそれらの組み合わせを使用して実装することができる。

コンピュータは、１つ以上のメモリデバイスに記憶された、整列された配列読み取り値のパイルアップにアクセスする（ステップ２１０）ことにより、プロセス２００の実施を開始することができる。整列された配列読み取り値は、ＦＧＰＡデバイスの構成可能なロジックゲートを使用して実装されたマッピングおよび整列ユニットを使用して生成された可能性がある。いくつかの実装形態では、アクセスされた読み取り値は、１つ以上のメモリデバイスに記憶され、前方向に整列された配列読み取り値の第１の組および後方向に配列された配列読み取り値の第２の組を含むことができる。配列読み取り値のそれぞれの組は、特定の読み取り配向または読み取り方向に対応している。

コンピュータは、配列読み取り値のパイルアップの第１の位置におけるパイルアップのそれぞれの読み取り値の１つ以上の特性を記述する情報を取得する（ステップ２２０）ことによって、プロセス２００の実施を継続することができる。１つ以上の特性には、１つ以上の相関誤差事象の発生確率を考慮するために使用することができる、第１の位置におけるパイルアップ内の読み取り値の属性を含めることができる。

コンピュータは、第１の位置におけるパイルアップの読み取り値の１つ以上の特性を記述する確率モデルへの１つ以上の入力を提供する（ステップ２３０）ことによって、プロセス２００の実施を継続することができる。第１の位置でパイルアップの読み取り値に関連付けられた１つ以上の特性には、（ｉ）１つ以上のメモリデバイスから取得した１つ以上の特性を記述する情報、（ｉｉ）１つ以上のメモリデバイスから取得した１つ以上の特性を記述する情報の１つ以上のモデルの処理に基づいて、Ｐ－ＨＭＭモデルなどの１つ以上のモデルによって生成された情報、またはそれらの組み合わせを含めることができる。いくつかの実装形態では、確率モデルは、１つ以上の入力に基づいて選択された１つ以上の仮説の各仮説に対して、仮説が真であることを示す仮説の各々のスコアを判定するように構成されている。

コンピュータは、１つ以上の入力に基づく１つ以上の仮説の各仮説に対する出力情報を取得することによって、プロセス２００の実施を継続することができる。各仮説の出力情報は、（ｉ）パイルアップのそれぞれの読み取り値の１つ以上の特性を記述する確率モデルへの１つ以上の入力の確率モデルの処理に基づいて、確率モデルによって生成され得、かつ（ｉｉ）仮説が真である確率を示すことができる（ステップ２４０）。いくつかの実装形態では、コンピュータは、１つ以上の仮説の各々、または１つ以上の仮説のサブセットに対してそのような出力情報を取得することができる。特定の仮説が出力情報に含まれるかどうかは、確率モデルに提供される入力に基づいて判定することができる。

いくつかの実装形態では、１つ以上の仮説には、上記のような確率モデルへの１つ以上の入力に基づいて、（ｉ）参照位置における読み取り値がホモ接合型参照の発生を示す可能性、（ｉｉ）参照位置における読み取り値がヘテロ接合型代替の発生を示す可能性、（ｉｉｉ）参照位置における読み取り値がホモ接合型代替の発生を示す可能性、（ｉｖ）参照位置における読み取り値が、代替に一致する外来対立遺伝子とのホモ接合型参照の発生を示す可能性、（ｖ）参照位置における読み取り値が、参照対立遺伝子に一致する外来対立遺伝子とのホモ接合型代替の発生を示す可能性、（ｖｉ）参照位置における読み取り値が、代替対立遺伝子に一致する配列決定誤差とのホモ接合型参照の発生を示す可能性、および（ｖｉｉ）参照位置における読み取り値が、参照対立遺伝子に一致する配列決定誤差とのホモ接合型代替の発生を示す可能性、またはそれらの任意の組み合わせを含めることができる。

コンピュータは、複数の仮説の各々に対する、確率モデルによって生成された、取得された出力データに基づいて、真のバリアントが第１の位置に存在する可能性を判定する（ステップ２５０）ことによって、プロセス２００の実施を継続することができる。いくつかの実装形態では、この判定は、例えば、１つ以上の所定の閾値に対する１つ以上の仮説の各々に対する、判定された確率スコアの個々の、または集団的な評価に基づいて行うことができる。

例えば、コンピュータは、複数の仮説の各々に対する、確率モデルによって生成された出力データに基づいている集団スコアを判定することができる。集団スコアは、真のバリアントが存在する可能性を示すことができる。いくつかの実装形態では、方程式（１４）を使用して集団スコアを判定することができる。しかしながら、集団スコアを判定する他の方法は、本開示の範囲内に含まれる。コンピュータが、集団スコアが所定の閾値を満たしていると判定した場合、次いで、コンピュータは真のバリアントが第１の位置に存在することを示す情報をＶＣＦファイルに追加することができる。あるいは、コンピュータが、集団スコアが所定の閾値を満たしていないと判定した場合、次いで、コンピュータは出力データを破棄し、出力データが参照位置における偽陽性の発生を示すと判定することができる。

図３は、バリアントコーリングのマッピング誤差軽減のプロセス３００の一例のフローチャートである。プロセス３００は、図１のバリアントコーリングユニットなどのコンピュータによって実施されるものとして以下に説明される。いくつかの実装形態では、バリアントコーリングユニットは、１つ以上のＦＰＧＡ、ＡＳＩＣ、ＣＰＵ、ＧＰＵ、またはそれらの組み合わせなどのハードウェアを使用して、ソフトウェアまたはそれらの組み合わせを使用して実装することができる。

コンピュータは、１つ以上のメモリデバイスに記憶された、整列された配列読み取り値のパイルアップにアクセスする（ステップ３１０）ことによって、プロセス３００の実施を開始することができる。整列された配列読み取り値は、ＦＧＰＡデバイスの構成可能なロジックゲートを使用して実装されたマッピングおよび整列ユニットを使用して生成された可能性がある。いくつかの実装形態では、アクセスされた読み取り値は、１つ以上のメモリデバイスに記憶され、前方向に整列された配列読み取り値の第１の組および後方向に配列された配列読み取り値の第２の組を含むことができる。配列読み取り値のそれぞれの組は、特定の読み取り配向または読み取り方向に対応している。

コンピュータは、（ｉ）１つ以上のメモリに記憶された、整列された配列読み取り値のパイルアップの読み取り値の各々に対するマッピング信頼スコアおよび（ｉｉ）参照位置における各候補対立遺伝子の１つ以上のメモリに記憶された、整列された配列読み取り値のパイルアップの読み取り値の各々の読み取り対立遺伝子スコアを記述する情報を取得する（３２０）ことによって、プロセス３００の実施を継続することができる。

いくつかの実装形態では、マッピング信頼スコアは、マッピングおよび整列ユニット１２６の出力を含むことができ、マッピング誤差のフレッドスケールＱ_{ｐｈｒｅｄ－ｍａｐｐｉｎｇ}を使用して判定することができ、Ｑ_{ｐｈｒｅｄ－ｍａｐｐｉｎｇ}＝－１０＊ｌｏｇ１０（Ｐ_{ｅ－ｍａｐｐｉｎｇ}）である。この例では、Ｐ_{ｅ－ｍａｐｐｉｎｇ}は、特定の読み取り値のマッピング誤差の確率である。マッピング信頼スコア１４４の値は、Ｓｍｉｔｈ－Ｗａｔｅｒｍａｎ整列器などの整列アルゴリズムからの最高整列スコアと整列器の２番目に良いスコアとの間の差に比例する可能性がある。

読み取り対立遺伝子スコアは、複数の異なる手段で判定することができる。例えば、より複雑なハプロタイプバリアントコーラーは、上記の方程式（１）を使用して計算される読み取り対立遺伝子スコアを使用することができる。あるいは、ハプロタイプバリアントコーラー以外の他のバリアントコーラーは、上記の方程式（２）を使用して計算された読み取り対立遺伝子スコアを使用することができる。いくつかの実装形態では、使用される読み取り対立遺伝子スコアのタイプは、バリアントコーリングユニット１３０を使用してＳＮＰのみを検出するのか、またはＳＮＰおよびインデルを検出するのかに基づいて判定することができる。例えば、バリアントコーリングユニットを使用してＳＮＰおよびインデルを検出するいくつかの実装形態では、次に上記の方程式（１）を使用して計算された読み取り対立遺伝子スコアを使用することができる。別の例として、バリアントコーリングユニットを使用してＳＮＰのみを検出する他の実装形態では、次に方程式（２）を使用して計算された読み取り対立遺伝子スコアを使用することができる。

コンピュータは、（ｉ）１つ以上のメモリに記憶された、整列された配列読み取り値のパイルアップの読み取り値の各々に対するマッピング信頼スコアおよび（ｉｉ）参照位置における各候補対立遺伝子の１つ以上のメモリに記憶された、整列された配列読み取り値のパイルアップの読み取り値の各々の読み取り対立遺伝子スコアを記述する、取得された情報を記述する確率モデルへの１つ以上の入力を提供する（ステップ３３０）ことによって、プロセス３００の実施を継続することができる。

コンピュータは、３２０で取得された１つ以上の入力に基づく１つ以上の仮説の各仮説に対する出力情報を取得する（３４０）ことによって、プロセス３００の実施を継続することができる。プロセス３００の例では、取得された入力には、（ｉ）読み取り値の各々に対するマッピング信頼スコアおよび（ｉｉ）参照位置における各候補対立遺伝子の読み取り値の各々に対する読み取り対立遺伝子スコアを含む、マッピング誤差確率モデルの入力を含める。したがって、マッピング誤差確率モデルのこれらの入力の受け取りに基づいて、コンピュータは、１つ以上のマッピング誤差の発生を考慮する１つ以上の仮説に対する出力情報を生成する。このような仮説には、（ｉ）参照位置における読み取り値が、代替に一致する外来対立遺伝子とのホモ接合型参照の発生を示す可能性および（ｉｉ）参照位置における読み取り値が、参照対立遺伝子に一致する外来対立遺伝子とのホモ接合型代替の発生を示す可能性を含める。

出力情報には、これらの仮説の各々に対する、（ｉ）１つ以上のメモリに記憶された、整列された配列読み取り値のパイルアップの読み取り値の各々に対するマッピング信頼スコアおよび（ｉｉ）参照位置における各候補対立遺伝子の１つ以上のメモリに記憶された、整列された配列読み取り値のパイルアップの読み取り値の各々に対する読み取り対立遺伝子スコアを（ｉ）記述する確率モデルへの入力の確率モデルの処理に基づいた、マッピング誤差確率モデルによって生成された情報を含める。さらに、取得された出力情報には、１つ以上のマッピング誤差の発生を考慮する特定の仮説の各々に対する、仮説が真である可能性を示すスコアを含める。

コンピュータは、複数の仮説の各々に対する、確率モデルによって生成された、取得された出力データに基づいて、真のバリアントが第１の位置に存在する可能性を判定する（ステップ３５０）ことによって、プロセス３００の実施を継続することができる。いくつかの実装形態では、この判定は、例えば、１つ以上の所定の閾値に対する１つ以上の仮説の各々に対する、判定された確率スコアの個々の、または集団的な評価に基づいて行うことができる。

上記のプロセス３００は、マッピング誤差の可能性を考慮するために使用することができる確率モデルを使用する方法を説明する。１つ以上のマッピング誤差の可能性を考慮するために使用することができる確率モデルの例は、以下でより詳しく説明する。

一実装形態では、確率モデルは、メモリデバイスに記憶された配列読み取り値のパイルアップが、結果的に１つ以上のマッピング誤差の発生をもたらす複数の誤ってマッピングされた読み取り値を含む実現性を組み込むために変更される。確率モデルは、次のシナリオに適用することができる。（１）各読み取り値ｒ_iには、正しくマッピングされたというフレッドスケールの信頼性を示すマッピング品質μ_iが伴う。したがってＲ＝｛ｒ_i,μ_i：ｉ＝１...Ｎ_R｝、（２）二次配列（すなわち、読み取り値がうまく整列するゲノム内の他の遺伝子座）は不明である、および／または表にするには多すぎる場合があり、（３）入力として、各読み取り値ｒ_iおよび候補対立遺伝子Ｇ_ｍ,φの塩基品質Ｐ（ｒ_i｜Ｇ_ｍ,φ）が与えられる。

一実装形態では、本開示は、候補遺伝子型のリストを拡張候補遺伝子型で補完する従来のバリアントコーリング確率モデルを変更し、メモリデバイスに記憶された配列読み取り値のパイルアップが局所対立遺伝子と外来対立遺伝子の混合物を含むという仮説を表す。

１つの外来対立遺伝子を有するニ倍性ゲノムの場合、本開示の手法は、外来対立遺伝子Ｆ_ｍである拡張候補遺伝子型Ｇ'_ｍ＝［Ｇ_ｍ,１Ｇ_ｍ,２Ｆ_ｍ］を定義する。局所対立遺伝子Ｇ_ｍ,１およびＧ_ｍ,２は、対立遺伝子頻度（１－β）／２を有し、一方、外来対立遺伝子Ｆ_ｍは、対立遺伝子頻度βを有し、βは不明であると各々想定されている。

各拡張候補遺伝子型Ｇ_ｍに対して、モデルは、

を計算し、Ｕ（ｔ）は、ＨｅａｖｙｓｉｄｅＵｎｉｔ関数であり、

Ｐ_０(Ｆ_ｍ)は、対象の遺伝子座で発生する遺伝子型［ρ Ｆ_ｍ］の事前確率であり、ρは、対象の遺伝子座における参照対立遺伝子である。値

は、結合確率Ｐ(Ｇ'_ｍ,Ｒ)の推定値である。

１つ以上のマッピング誤差の発生の可能性を判定するための確率モデルは、誤ってマッピングされた読み取り値のマッピング品質μ_iと、読み取り値ｉを誤ってマッピングさせるバリアント（またはバリアントのクラスター）の事前確率との間の関係に基づいている。１つ以上のマッピング誤差の発生の可能性を判定する確率モデルでは、数量ｐ_Fは、十分な数のバリアントが別の場所で発生して、読み取り値をマッピング品質μ＝－１０ｌｏｇ_１０(ｐ_F／Ｐ_０(Ｆ_ｍ))で誤ってマッピングさせる事前確率を表す。上記の項１は、マッピング品質インジケータμ_iがこの閾値を超えない場合にのみゼロ以外になり、ｐ_Fが減少するにつれて増加する。一般に、遠隔地で発生したバリアントの数は不明であり、ｐ_Fを掃引して

を最大化する値を見出し、これにより、外来読み取り値がここで終了する可能性のある、遠隔バリアントの数に関するすべての仮説をテストする。

いくつかの実装形態では、１つ以上のマッピング誤差の発生の可能性を判定するための確率モデルの複雑さが最適化される。（方程式３）に示すようにβおよびｐ_Fの両方が独立して掃引され、結果が連続した値の範囲で評価されるため、

の評価は計算の複雑さが高いように見える場合があることに留意されたい。解像度によっては、計算の複雑さが非常に高くなる場合がある。しかしながら、ｐ_Fは、μ_iの値に対応する値の離散集合でのみ掃引される必要があり、式中

通常、これは少数である。具体的には、項βを掃引する必要はまったくなく、その代わり、最適な値は項１が項２を超える読み取り値の割合として推定することができ、この推定値は、たいてい結果にほとんど影響を与えない。最終的に、この動作の計算コストは、通常、システムの他の部分と比較して重要ではない（例えば、隠れマルコフモデル（ＨＭＭ）の計算）。

いくつかの実装形態では、マッピング信頼スコアを調整する必要がある場合がある。いくつかの実装形態では、マッピングおよび整列ユニットによって報告されたマッピング信頼スコアは、読み取り値が正しくマッピングされたというフレッドスケールの信頼性の推定値を表す場合があるが、実際には、この推定値は不正確な場合がある。そのため、マッパーによっては、マッピング信頼スコアを調整して、誤ったマッピングの真の可能性により良好に一致させることが有益な場合がある。いくつかの実装形態では、ＭＡＰＱスコアなどの第１のマッピング信頼スコアを表すマッピングおよび整列ユニットの出力値は、図４に示される関数４００を使用してマッピング信頼スコアμ_iに変換することができる。

いくつかの実装形態では、項βは、範囲［０，０．５］に制限される場合がある。値β＝０．５は、代替参照場所に対するすべての読み取り値が、対象の参照場所にマッピングされるシナリオに対応する。βのより高い可能な値を意味する、複数の外来読み取り値元が存在する可能性が考えられるが、βを０．５に制限することにより、そうでなければ抑制されるいくつかの真陽性を回復して全体の精度を改善することができる。

いくつかの実装形態では、候補の数をＧ_ｍ,１＝Ｇ_ｍ,２＝Ｇ_ｍの場合のみに低減することができる。この場合、方程式（３）は、次のように簡略化される。

いくつかの実装形態では、上記の式は、遺伝子型判定の事象と重なり合う読み取り値、つまり、ある対立遺伝子を別の対立遺伝子よりも優先する読み取り値のみを含む入力を想定する場合がある。しかしながら、いくつかの実装形態では、どの読み取り値がその事象と重なり合うのかについて曖昧な点がある場合がある。このようなシナリオでは、次の式により、計算に重なり合っていない読み取り値を含めることに関連する複雑さを回避する。

いくつかの実装形態では、１つ以上のマッピング誤差の発生が存在する可能性を判定するための確率モデルの別の変形形態である。そのような実装形態では、各読み取り値の鎖方向の知識を記述するデータは、確率モデルによって考慮されてもよい。一般に、誤ってマッピングされた読み取り値は、単一鎖方向に限定されることが多く、これは、そのような読み取り値が外来のものであるという仮説を支持する有用な情報になり得る。この潜在的な誤差を考慮するために、１つ以上のマッピング誤差の発生が終了する可能性を判定するための確率モデルのインジケータは、仮にθ_iが読み取り値ｉの鎖方向を示すとすると、値０および１は前方向および後方向の鎖方向をそれぞれ示す。１つ以上のマッピング誤差の発生が存在する可能性を判定するために鎖認識のある変更された確率マッピングモデルを使用すると、３つの仮説を評価することができる。これらの３つの仮説には、外来読み取り値が前方向の鎖でのみ、後方向の鎖でのみ、または両方向の鎖で発生することを含める。解決策には、

を最大化する仮説を含める。方程式（５）から開始すると、この変形形態は次のようになる。

式中Λ_０＝｛i:θ_ｉ＝０｝, Λ_１＝｛i:θ_ｉ＝１｝, Λ_２＝｛i:θ_ｉ＝０又は１｝。

図５は、バリアントコーリングの配列決定誤差軽減のプロセスの一例のフローチャートである。プロセス５００は、図１のバリアントコーリングユニットなどのコンピュータによって実施されるものとして以下に説明される。いくつかの実装形態では、バリアントコーリングユニットは、１つ以上のＦＰＧＡ、ＡＳＩＣ、ＣＰＵ、ＧＰＵ、またはそれらの組み合わせなどのハードウェアを使用して、ソフトウェアまたはそれらの組み合わせを使用して実装することができる。

コンピュータは、１つ以上のメモリデバイスに記憶された、整列された配列読み取り値のパイルアップにアクセスすることにより、プロセス５００の実施を開始することができる（ステップ５１０）。整列された配列読み取り値は、ＦＧＰＡデバイスの構成可能なロジックゲートを使用して実装されたマッピングおよび整列ユニットを使用して生成された可能性がある。いくつかの実装形態では、アクセスされた読み取り値は、１つ以上のメモリデバイスに記憶され、前方向に整列された配列読み取り値の第１の組および後方向に配列された配列読み取り値の第２の組を含むことができる。配列読み取り値のそれぞれの組は、特定の読み取り配向または読み取り方向に対応している。

コンピュータは、（ｉ）１つ以上のメモリに記憶された、整列された配列読み取り値のパイルアップの読み取り値の各々に対する読み取り配向、（ｉｉ）１つ以上のメモリに記憶された、整列された配列読み取り値のパイルアップの読み取り値の各々に対する、読み取り値の５’端を参照する参照場所における各塩基の位置、（ｉｉｉ）参照位置における各候補対立遺伝子の１つ以上のメモリに記憶されている、整列された配列読み取り値のパイルアップの読み取り値の各々に対する読み取り対立遺伝子スコア、および（ｉｖ）位置「０」などの参照位置における塩基の各読み取り値の塩基品質スコアを記述する情報を取得する（５２０）ことによって、プロセス５００の実施を継続することができる。

コンピュータは、（ｉ）１つ以上のメモリに記憶された、整列された配列読み取り値のパイルアップの読み取り値の各々に対する読み取り配向、（ｉｉ）１つ以上のメモリに記憶された、整列された配列読み取り値のパイルアップの読み取り値の各々に対する、読み取り値の５’端を参照する参照場所における各塩基の位置、（ｉｉｉ）参照位置における各候補対立遺伝子の１つ以上のメモリに記憶されている、整列された配列読み取り値のパイルアップの読み取り値の各々に対する読み取り対立遺伝子スコア、および（ｉｖ）位置「０」などの参照位置における塩基の各読み取り値の塩基品質スコアを記述する、取得された情報を記述する確率モデルへの１つ以上の入力を提供する（ステップ５３０）ことによって、プロセス５００の実施を継続することができる。

コンピュータは、５２０で取得された１つ以上の入力に基づく１つ以上の仮説の各仮説に対する出力情報を取得する（５４０）ことによって、プロセス５００の実施を継続することができる。プロセス５００の例では、取得された入力には、（ｉ）１つ以上のメモリに記憶された、整列された配列読み取り値のパイルアップの読み取り値の各々に対する読み取り配向、（ｉｉ）１つ以上のメモリに記憶された、整列された配列読み取り値のパイルアップの読み取り値の各々に対する、読み取り値の５’端を参照する参照場所における各塩基の位置、（ｉｉｉ）参照位置における各候補対立遺伝子の１つ以上のメモリに記憶されている、整列された配列読み取り値のパイルアップの読み取り値の各々に対する読み取り対立遺伝子スコア、および（ｉｖ）位置「０」などの参照位置における塩基の各読み取り値の塩基品質スコアを含む、配列決定誤差確率モデルに対する入力を含める。したがって、配列決定誤差確率モデルのこれらの入力の受け取りに基づいて、コンピュータは、１つ以上の配列決定誤差の発生を考慮する１つ以上の仮説に対する出力情報を生成する。このような仮説には、（ｉ）参照位置における読み取り値が、代替対立遺伝子に一致する配列決定誤差とのホモ接合型参照の発生を示す可能性および（ｉｉ）参照位置における読み取り値が、参照対立遺伝子に一致する配列決定誤差とのホモ接合型代替の発生を示す可能性を含める。

取得された出力情報には、これらの仮説の各々に対する、（ｉ）１つ以上のメモリに記憶された、整列された配列読み取り値のパイルアップの読み取り値の各々に対する読み取り配向、（ｉｉ）１つ以上のメモリに記憶された、整列された配列読み取り値のパイルアップの読み取り値の各々に対する、読み取り値の５’端を参照する参照場所における各塩基の位置、（ｉｉｉ）参照位置における各候補対立遺伝子の１つ以上のメモリに記憶されている、整列された配列読み取り値のパイルアップの読み取り値の各々に対する読み取り対立遺伝子スコア、および（ｉｖ）位置「０」などの参照位置における塩基の各読み取り値の塩基品質スコアを（ｉ）記述する確率モデルへの確率モデルの処理に基づいた、配列決定誤差確率モデルによって生成された情報を含める。さらに、取得された出力情報には、１つ以上の配列決定誤差の発生を考慮する特定の仮説の各々に対する、仮説が真である可能性を示すスコアを含める。

コンピュータは、複数の仮説の各々に対する、確率モデルによって生成された、取得された出力データに基づいて、真のバリアントが第１の位置に存在する可能性を判定する（ステップ５５０）ことによって、プロセス５００の実施を継続することができる。いくつかの実装形態では、この判定は、例えば、１つ以上の所定の閾値に対する１つ以上の仮説の各々に対する、判定された確率スコアの個々の、または集団的な評価に基づいて行うことができる。

上記のプロセス５００は、配列決定誤差の可能性を考慮するために使用することができる確率モデルを使用する方法を説明する。系統誤差とも呼ばれる１つ以上の配列決定誤差の可能性を考慮するために使用することができる確率モデルの例は、以下でより詳しく説明する。

一実装形態では、確率モデルは、特定の塩基確率が高い確率で塩基コール誤差を生成する傾向があり、この確率が確率Ｐ（ｒ_i｜Ｇ_ｍ,φ）を計算するために使用される塩基品質によって表されない、という観察を考慮するために変更される。

配列決定誤差の発生の可能性を判定する確率モデルは、次のシナリオに適用することができる。

（１）誤差は、片方の鎖方向が破損している一方で、他方の鎖には誤差がないことが一般的であるため、鎖方向ごとに独立して発生すると思われる。

（２）誤差は、読み取り値の５’端からさらに発生する可能性が高く、誤差率は、５’端から一定の距離で急激に低下することがよくある。したがって、所与の鎖方向の読み取り値が５’端からの距離が小さい順序にリスト化されているときに、すべての誤差はリストの先頭のサブセット内に含まれている。

（３）誤差には、誤差を含む読み取り値のサブセット全体の平均塩基品質の低下が伴うことが多いが、すべての誤った読み取り値の塩基品質が低いわけではなく、多くの場合、平均塩基品質はこれらの誤差事象に関連する真の誤差率を反映するほど低くはない。

（４）誤差は、誤差に一致するホモポリマーが先行することが多い、例えば、Ｔ==>Ｇ誤差は、Ｇの配列が先行することが多い。

したがって、本開示は、上記の４つの特性を考慮する、配列決定誤差の発生の可能性を判定するための確率モデルを提供する。

一実装形態では、上記の４つの特性を考慮する配列決定誤差の発生の可能性を判定するための確率モデルは、次の項定義から開始することで実現することができる。

仮にθが鎖方向θ＝０，１を示すとする。

仮に読み取り値ｒ_θ,iを、鎖方向、および対象の遺伝子座から５’端までの距離によって順序付けられるとすると、ｉ＝１は５’端から最も遠く、誤差事象の影響を受ける可能性が最も高くなる。

仮にｑ_θ,iを、読み取り値ｒ_θ,iの対象の遺伝子座と整列された塩基のフレッドスケール塩基品質を示すとする。

仮に

を、鎖方向θに対する順序付けられた読み取り値ｉ＝１...ｎ_θのサブセットの平均塩基品質とすると、

である。

仮に拡張候補遺伝子型Ｇ'_ｍ＝［Ｇ_ｍ,１Ｇ_ｍ,２Ｅ_ｍ,０Ｅ_ｍ,１］を定義すると、Ｅ_ｍ,θは鎖方向θの誤差対立遺伝子である。

仮にＬ_Ｅ,θを鎖方向θの誤差の直前の塩基Ｅ_ｍ,θに一致するホモポリマーの長さとする。

拡張候補遺伝子型Ｇ'_ｍごとに、以下を計算する。

ここで、

は、サブセットの平均塩基品質と誤差に一致するホモポリマーの長さの関数として、読み取り値のサブセットに影響を及ぼす誤差事象の事前確率を示す。

数量

は、以下の仮定の下での結合確率Ｐ(Ｇ'_ｍ,Ｒ)の推定値を表す。（１）誤差事象は、第１から始まり、５’端からの距離が減少するように順序付けられたとき、連続した読み取り値のサブセットに影響を与え、そのサブセットの外部の読み取り値には影響を与えず、（２）誤差事象は、各鎖に対して独立して発生し、（３）このような誤差事象の事前確率は、誤差事象の影響を受ける読み取り値のサブセット全体の平均塩基品質と、鎖方向Ｅ_ｍ,θの誤差の直前の塩基θに一致するホモポリマーの長さの関数である。

いくつかの実装形態では、候補の数を低減して、Ｇ_ｍ,１＝Ｇ_ｍ,２＝Ｇ_ｍの場合の評価ケースのみをテストすることができる。この場合、式は、次のように簡略化される。

いくつかの実装形態では、α_θの値をα_θ＝０．５に固定することができる。したがって、次のように（７）を書き換えることができる。

いくつかの実装形態では、（６）の事前確率関数

は、広範囲の形状を有する可能性がある一般的な関数として表される。理論的には、この関数は実際のデータでトレーニングすることができる。しかしながら、実際のデータでこの関数をトレーニングする使用に制限がある場合、配列決定誤差を判定するための現在の確率モデルのいくつかの実装では

を使用することができる。

いくつかの実装形態では、上記の方程式は、各鎖方向に対する異なる誤差対立遺伝子の実現性に適応させることができる。しかしながら、いくつかの実装形態では、１つ以上の配列決定誤差の可能性を判定するための確率モデルは、Ｅ_ｍ,０＝Ｅ_ｍ,１の場合にのみ仮説を考慮することができる。そのような実装形態では、下付きのθを削除してから、誤差対立遺伝子をＥ_ｍとして表すことができる。

図６は、バリアントコーリングの相関誤差軽減のプロセス６００の一例の別のフローチャートである。プロセス６００は、図１のバリアントコーリングユニットなどのコンピュータによって実施されるものとして以下に説明される。いくつかの実装形態では、バリアントコーリングユニットは、１つ以上のＦＰＧＡ、ＡＳＩＣ、ＣＰＵ、ＧＰＵ、またはそれらの組み合わせなどのハードウェアを使用して、ソフトウェアまたはそれらの組み合わせを使用して実装することができる。

コンピュータは、１つ以上のメモリデバイスに記憶された、整列された配列読み取り値のパイルアップにアクセスする（ステップ６１０）ことにより、プロセス６００の実施を開始することができる。整列された配列読み取り値は、ＦＧＰＡデバイスの構成可能なロジックゲートを使用して実装されたマッピングおよび整列ユニットを使用して生成された可能性がある。いくつかの実装形態では、アクセスされた読み取り値は、１つ以上のメモリデバイスに記憶され、前方向に整列された配列読み取り値の第１の組および後方向に配列された配列読み取り値の第２の組を含むことができる。配列読み取り値のそれぞれの組は、特定の読み取り配向または読み取り方向に対応している。

コンピュータは、（ｉ）１つ以上のメモリに記憶された、整列された配列読み取り値のパイルアップの読み取り値の各々に対する読み取り配向、（ｉｉ）１つ以上のメモリに記憶された、整列された配列読み取り値のパイルアップの読み取り値の各々に対する、読み取り値の５’端を参照する参照場所における各塩基の位置、（ｉｉｉ）読み取り値の各々に対するマッピング信頼スコア、（ｉｖ）参照位置における各候補対立遺伝子の１つ以上のメモリに記憶されている、整列された配列読み取り値のパイルアップの読み取り値の各々に対する読み取り対立遺伝子スコア、および（ｖ）位置「０」などの参照位置における塩基の各読み取り値の塩基品質スコアを記述する情報を取得する（６２０）ことによって、プロセス６００の実施を継続することができる。

コンピュータは、（ｉ）１つ以上のメモリに記憶された、整列された配列読み取り値のパイルアップの読み取り値の各々に対する読み取り配向、（ｉｉ）１つ以上のメモリに記憶された、整列された配列読み取り値のパイルアップの読み取り値の各々に対する、読み取り値の５’端を参照する参照場所における各塩基の位置、（ｉｉｉ）読み取り値の各々に対するマッピング信頼スコア、（ｉｖ）参照位置における各候補対立遺伝子の１つ以上のメモリ（ステップ６３０）に記憶されている、整列された配列読み取り値のパイルアップの読み取り値の各々に対する読み取り対立遺伝子スコア、および（ｖ）位置「０」などの参照位置における塩基の各読み取り値の塩基品質スコアを記述する、取得された情報を記述する確率モデルへの１つ以上の入力を提供する（６３０）ことによって、プロセス６００の実施を継続することができる。

コンピュータは、６２０で取得された１つ以上の入力に基づく１つ以上の仮説の各仮説に対する出力情報を取得する（６４０）ことによって、プロセス６００の実施を継続することができる。プロセス６００の例では、取得された入力には、（ｉ）１つ以上のメモリに記憶された、整列された配列読み取り値のパイルアップの読み取り値の各々に対する読み取り配向、（ｉｉ）１つ以上のメモリに記憶された、整列された配列読み取り値のパイルアップの読み取り値の各々に対する、読み取り値の５’端を参照する参照場所における各塩基の位置、（ｉｉｉ）読み取り値の各々に対するマッピング信頼スコア、（ｉｖ）参照位置における各候補対立遺伝子の１つ以上のメモリに記憶されている、整列された配列読み取り値のパイルアップの読み取り値の各々に対する読み取り対立遺伝子スコア、および（ｖ）位置「０」などの参照位置における塩基の各読み取り値の塩基品質スコアを含む、マッピング誤差確率モデルおよび配列決定誤差確率モデルに対する入力を含める。したがって、マッピング誤差確率モデルおよび配列決定誤差確率モデルのこれらの入力の受け取りに基づいて、コンピュータは、１つ以上のマッピング誤差および１つ以上の配列決定誤差の発生を考慮する１つ以上の仮説に対する出力情報を生成する。そのような仮説には、（ｉ）参照位置における読み取り値が、代替に一致する外来対立遺伝子とのホモ接合型参照の発生を示す可能性、（ｉｉ）参照位置における読み取り値が、参照対立遺伝子に一致する外来対立遺伝子とのホモ接合型代替の発生を示す可能性、（ｉｉｉ）参照位置における読み取り値が、代替対立遺伝子に一致する配列決定誤差とのホモ接合型参照の発生を示す可能性、および（ｉｖ）参照位置における読み取り値が、参照対立遺伝子に一致する配列決定誤差とのホモ接合型代替の発生を示す可能性を含める。

取得された出力情報には、これらの仮説の各々に対する、（ｉ）１つ以上のメモリに記憶された、整列された配列読み取り値のパイルアップの読み取り値の各々に対する読み取り配向、（ｉｉ）１つ以上のメモリに記憶された、整列された配列読み取り値のパイルアップの読み取り値の各々に対する、読み取り値の５’端を参照する参照場所における各塩基の位置、（ｉｉｉ）読み取り値の各々に対するマッピング信頼スコア、（ｉｖ）参照位置における各候補対立遺伝子の１つ以上のメモリに記憶されている、整列された配列読み取り値のパイルアップの読み取り値の各々に対する読み取り対立遺伝子スコア、および（ｖ）位置「０」などの参照位置における塩基の各読み取り値の塩基品質スコアを記述する、確率モデルへのそれぞれの確率モデルの処理に基づいた、マッピング誤差確率モデルおよび配列決定誤差確率モデルによって生成された情報を含める（６２０）。さらに、取得された出力情報には、１つ以上のマッピング誤差または１つ以上の配列決定誤差の発生を考慮する特定の仮説の各々に対する、仮説が真である可能性を示すスコアを含める。

コンピュータは、複数の仮説の各々に対する、確率モデルによって生成された、取得された出力データに基づいて、真のバリアントが第１の位置に存在する可能性を判定する（ステップ６５０）ことによって、プロセス６００の実施を継続することができる。いくつかの実装形態では、この判定は、例えば、１つ以上の所定の閾値に対する１つ以上の仮説の各々に対する、判定された確率スコアの個々の、または集団的な評価に基づいて行うことができる。

図２、図３、および図５のフローチャートを参照して説明されるプロセスは、一般に、バリアントコーリングの相関誤差事象軽減のためのプロセスを説明する。これらのそれぞれのプロセスは、図２を参照した相関誤差事象軽減のための包括的なプロセス、図３を参照したマッピング誤差軽減のためのプロセス、および図５を参照した配列決定誤差軽減のためのプロセスを説明する。しかしながら、１つ以上のマッピング誤差および１つ以上の配列決定誤差を考慮するための十分な入力がコンピュータによって取得されたとき、本開示は、マッピング誤差および配列決定誤差のための別個のばらばらの確率計算がそれぞれ行われることを必要としない。代わりに、いくつかの実装形態では、プロセス６００などのプロセスで完全な確率モデルを使用して、マッピング誤差および配列決定誤差を考慮することができる。マッピング誤差および配列決定誤差を考慮するための複合確率モデルについて以下に説明するが、複合確率モデルを使用する必要はない。代わりに、他の実装形態を参照して説明したように、別個のばらばらの確率モデルが信頼される場合がある。

以下の説明では、最大で１つの外来対立遺伝子および１つの系統誤差対立遺伝子を有するニ倍性ゲノムの場合の完全な確率計算を導出する。しかしながら、これは以下の説明を考慮して、より多くの対立遺伝子に直接拡張することができる。拡張候補遺伝子型は、Ｇ'_ｍ＝［Ｇ_ｍ,１Ｇ_ｍ,２Ｆ_ｍＥ_ｍ］として定義することができる。以下の式では、表記０は参照対立遺伝子を示し、１は第１の代替対立遺伝子を示し、２は第２の代替対立遺伝子などを示す。Ｆ_ｍまたはＥ_ｍのダッシュ記号は、外来対立遺伝子または系統誤差対立遺伝子がないことを示す。

候補Ｇ'_ｍに外来対立遺伝子または誤差対立遺伝子が含まれていないとき、次の式が生成される。

Ｇ'_ｍに外来対立遺伝子が含まれるとき、方程式（４）または上記の変形可能のうちの１つを使用することができる。Ｇ'_ｍに誤差対立遺伝子が含まれるとき、方程式（１０）またはその変形可能のうちの１つを使用することができる。一般に、これらの両方のタイプの誤差の影響を同時に受けるパイルアップを見出すことは非常にまれなので、外来対立遺伝子および誤差対立遺伝子の両方のケースをテストする必要はない。

単一ＡＬＴ対立遺伝子（ＲＥＦ＝０、ＡＬＴ＝１）の一般的なケースに対する候補リストの一例として、次の拡張候補遺伝子型をテストすることができる。

各（拡張されていない）候補Ｇ_ｍに対して、結合確率Ｐ(Ｇ_ｍ,Ｒ)は、Ｇ_ｍに一致する候補の最大値であり、

であり、事後確率は単純に

であり、式中

である。

以下の図９Ａ～図１２Ｂを参照して説明する例は、様々なパイルアップについて、図３、図５、および図６を参照して説明した計算の例を示している。

図７は、バリアントコーリングの相関誤差軽減のプロセス７００の一例の別のフローチャートである。プロセス７００は、図１のバリアントコーリングユニットなどのコンピュータによって実施されるものとして以下に説明される。いくつかの実装形態では、バリアントコーリングユニットは、１つ以上のＦＰＧＡ、ＡＳＩＣ、ＣＰＵ、ＧＰＵ、またはそれらの組み合わせなどのハードウェアを使用して、ソフトウェアまたはそれらの組み合わせを使用して実装することができる。

１つ以上の確率モデルを格納するコンピュータは、整列された配列読み取り値のパイルアップから読み取り値の１つ以上の特性を記述する情報を含む入力データを受信する（７１０）ことによって、プロセス７００の実施を開始することができる。いくつかの実装形態では、１つ以上の特性には、（ｉ）整列された配列読み取り値のパイルアップの読み取り値の各々に対する読み取り配向を記述する情報、（ｉｉ）整列された配列読み取り値のパイルアップの読み取り値の各々に対する読み取り値の５’端を参照する、参照場所における各塩基の位置を記述する情報、（ｉｉｉ）整列された配列読み取り値のパイルアップの読み取り値の各々に対するマッピング品質スコア、（ｉｖ）参照位置における各候補対立遺伝子の整列された配列読み取り値のパイルアップの読み取り値の各々に対する読み取り対立遺伝子スコア、および（ｖ）位置「０」などの参照位置における塩基の各読み取り値の塩基品質スコアを含めることができる。いくつかの実装形態では、これらの入力のすべてまたはサブセットは、本明細書の他の確率モデルの参照と同様に、確率モデルへの入力として提供することができる。いくつかの実装形態では、コンピュータによって格納された１つ以上の確率モデルには、マッピング誤差確率モデルおよび配列決定誤差確率モデルを含めることができる。

コンピュータは、受信した入力に基づいて１つ以上の仮説のうちの一組を判定する（７２０）ことによって、プロセス７００の実施を継続することができる。例えば、１つ以上の入力に、１つ以上のマッピング誤差を考慮する、確率モデルに関連する読み取り値の特性を記述する情報が含まれている場合、その後、コンピュータは、１つ以上のマッピング誤差を考慮する１つ以上の仮説のうちの一組を判定することができる。このような仮説には、例えば、（ｉ）参照位置における読み取り値が、代替に一致する外来対立遺伝子とのホモ接合型参照の発生を示す可能性および（ｉｉ）参照位置における読み取り値が、参照対立遺伝子に一致する外来対立遺伝子とのホモ接合型代替の発生を示す可能性を含めることができる。

あるいは、またはさらに、例えば、１つ以上の入力に、１つ以上の配列決定誤差を考慮する、確率モデルに関連する読み取り値の特性を記述する情報が含まれている場合、その後、コンピュータは、１つ以上の配列決定誤差を考慮する１つ以上の仮説のうちの一組を判定することができる。このような仮説には、（ｉ）参照位置における読み取り値が、代替対立遺伝子に一致する配列決定誤差とのホモ接合型参照の発生を示す可能性および（ｉｉ）参照位置における読み取り値が、参照対立遺伝子に一致する配列決定誤差とのホモ接合型代替の発生を示す可能性を含めることができる。

いくつかの実装形態では、１つ以上の受信された入力は、マッピング誤差および配列決定誤差の両方を考慮する一組の仮説をコンピュータに判定させる場合がある。そのような判定は、例えば、１つ以上の受信された入力に、１つ以上のマッピング誤差および１つ以上の配列決定誤差の両方を考慮する、確率モデルに関連する読み取り値の特性を記述する情報が含まれるときにコンピュータによって行われてもよい。１つ以上のマッピング誤差および１つ以上の配列決定誤差の両方を考慮する仮説の組には、例えば、（ｉ）参照位置における読み取り値が、代替に一致する外来対立遺伝子とのホモ接合型参照の発生を示す可能性、（ｉｉ）参照位置における読み取り値が、参照対立遺伝子に一致する外来対立遺伝子とのホモ接合型代替の発生を示す可能性、（ｉｉｉ）参照位置における読み取り値が、代替対立遺伝子に一致する配列決定誤差とのホモ接合型参照の発生を示す可能性、および（ｉｖ）参照位置における読み取り値が、参照対立遺伝子に一致する配列決定誤差とのホモ接合型代替の発生を示す可能性を含めることができる。

コンピュータは、段階７２０で判定されたそれぞれの仮説が真である確率を示す、７３０で１つ以上の仮説の各々に対する各仮説のスコアを判定することによって、プロセス７００の実施を継続することができる。各仮説のスコアをコンピュータによって判定することには、例えば、１つ以上の確率モデルを使用して、１つ以上の仮説の各仮説に対する確率スコアを判定することを含めることができる。各マッピング誤差関連の仮説に対するスコアを判定するために使用することができる確率モデルの一例は、上記の方程式（３）を参照して説明されている。しかしながら、各マッピング誤差の仮説に対するスコアを計算するために、他の確率モデルの他の変形形態も上記で説明されている。各配列誤差関連の仮説に対するスコアを判定するために使用することができる確率モデルの一例は、方程式（９）を参照して説明されている。しかしながら、各配列決定誤差の仮説に対するスコアを計算するために、他の確率モデルの他の変形形態も上記で説明されている。

コンピュータは、段階７２０で判定された１つ以上の仮説の各々に対するスコアを含む、確率モデルによって生成された出力データを提供する（７４０）ことによって、プロセス７００の実施を継続することができる。いくつかの実装形態では、提供された出力データは、出力データに基づいて、真のバリアントが存在する可能性を判定するように構成された第２のコンピュータに提供することができる。いくつかの実装形態では、第２のコンピュータは、段階７１０で入力を提供したコンピュータであってもよい。いくつかの実装形態では、第２のコンピュータは、コンピュータがその一部である、二次分析ユニットの別のゲノム分析モデル、または他のコンピュータモジュールであってもよい。いくつかの実装形態では、第２のコンピュータは、１つ以上のネットワークを使用してコンピュータと通信することができる、マッパーおよび整列モジュールを備えているがバリアントコールモジュールを備えていない、二次分析ユニットを有する遠隔コンピュータであってもよい。

しかしながら、他の実装形態では、コンピュータが第２のコンピュータに入力を提供する必要はない。代わりに、７４０で提供される、１つ以上の仮説の各々に対する一組のスコアを含む出力情報は、図１を参照して説明されるように、参照位置における候補対立遺伝子が真のバリアントか、または偽陽性であるかを判定するために、バリアントコーラーなどのコンピュータで使用することができる。

システム構成要素

図８は、バリアントコーリングの相関誤差軽減のためのシステムを実装するために使用することができるシステム構成要素のブロック図である。

コンピューティングデバイス８００は、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータなど、様々な形態のデジタルコンピュータを表すことを意図している。コンピューティングデバイス８５０は、携帯情報端末、携帯電話、スマートフォン、および他の同様のコンピューティングデバイスなど、様々な形態のモバイルデバイスを表すことを意図している。加えて、コンピューティングデバイス８００または８５０には、ユニバーサルシリアルバス（ＵＳＢ）フラッシュドライブを含めることができる。ＵＳＢフラッシュドライブには、オペレーティングシステムおよび他のアプリケーションを保存することができる。ＵＳＢフラッシュドライブには、別のコンピューティングデバイスのＵＳＢポートに挿入することができる無線送信機またはＵＳＢコネクタなどの入力／出力構成要素を含めることができる。ここに示されている構成要素、それらの接続および関係性、ならびにそれらの機能は、例示のみを目的としており、この文書で説明および／または請求されている本発明の実装を制限するものではない。

コンピューティングデバイス８００には、プロセッサ８０２、メモリ８０４、記憶デバイス８０８、メモリ８０４および高速拡張ポート８１０に接続する高速インターフェース８０８、および低速バス８１４および記憶デバイス８０８に接続する低速インターフェース８１２を含める。構成要素８０２、８０４、８０８、８０８、８１０、および８１２の各々は、様々なバスを使用して相互接続され、共通のマザーボード上にまたは必要に応じて他の様式で取り付けることができる。プロセッサ８０２は、高速インターフェース８０８に連結された表示装置８１６などの外部入力／出力デバイスにＧＵＩのグラフィカル情報を表示するために、メモリ８０４または記憶デバイス８０８に記憶された命令を含む、コンピューティングデバイス８００内で実行するための命令を処理することができる。他の実装形態では、必要に応じて、複数のメモリおよび複数のタイプのメモリとともに、複数のプロセッサおよび／または複数のバスを使用することができる。また、複数のコンピューティングデバイス８００は、各デバイスが、例えば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして必要な動作の一部を提供する状態で接続することができる。

メモリ８０４は、コンピューティングデバイス８００内の情報を記憶する。一実装形態では、メモリ８０４は揮発性メモリユニット（複数可）である。別の実装形態では、メモリ８０４は非揮発性メモリユニット（複数可）である。メモリ８０４はまた、磁気または光ディスクなどの別の形態のコンピュータ可読媒体であってもよい。

記憶デバイス８０８は、コンピューティングデバイス８００に大容量記憶装置を提供することができる。一実装形態では、記憶デバイス８０８は、フロッピーディスクデバイス、ハードディスクデバイス、光ディスクデバイス、テープデバイス、フラッシュメモリ、または他の同様のソリッドステートメモリデバイスなどのコンピュータ可読媒体、またはストレージエリアネットワークまたは他の構成のデバイスを含むデバイスのアレイであるか、またはそれらを含むことができる。コンピュータプログラム製品は、情報担体で明白に具体化することができる。コンピュータプログラム製品はまた、実行されたときに、上記のような１つ以上の方法を実施する命令も含むことができる。情報担体は、メモリ８０４、記憶デバイス８０８、またはプロセッサ８０２上のメモリなどのコンピュータまたは機械可読媒体である。

の帯域幅集約型の動作を管理し、一方低速コントローラ８１２は、低帯域幅集約型の動作を管理する。このような機能の割り当ては例示に過ぎない。一実装形態では、高速コントローラ８０８は、メモリ８０４、表示装置８１６に、例えば、グラフィックプロセッサまたはアクセラレータを介して、および様々な拡張カード（図示せず）を受け入れることができる高速拡張ポート８１０に連結されている。この実装形態では、低速コントローラ８１２は、記憶デバイス８０８および低速拡張ポート８１４に連結されている。様々な通信ポート、例えば、ＵＳＢ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、イーサネット（登録商標）、無線イーサネット（登録商標）を含むことができる低速拡張ポートは、キーボード、ポインティングデバイス、マイク／スピーカーセット、スキャナなどの１つ以上の入力／出力デバイス、またはスイッチまたはルータなどのネットワークデバイスに、例えばネットワークアダプタを経由して接続することができる。コンピューティングデバイス８００は、図に示されるように、複数の異なる形態で実装することができる。例えば、それは標準的なサーバ８２０として、またはそのようなサーバのグループで複数回実装することができる。また、ラックサーバシステム８２４の一部として実装することもできる。さらに、ラップトップコンピュータ８２２などのパーソナルコンピュータで実装することができる。あるいは、コンピューティングデバイス８００からの構成要素は、デバイス８５０などのモバイルデバイス（図示せず）の他の構成要素と組み合わせることができる。そのようなデバイスの各々は、コンピューティングデバイス８００、８５０のうちの１つ以上を含むことができ、システム全体は、互いに通信する複数のコンピューティングデバイス８００、８５０で構成することができる。

コンピューティングデバイス８００は、図に示されるように、複数の異なる形態で実装することができる。例えば、それは標準的なサーバ８２０として、またはそのようなサーバのグループで複数回実装することができる。また、ラックサーバシステム８２４の一部として実装することもできる。さらに、ラップトップコンピュータ８２２などのパーソナルコンピュータで実装することができる。あるいは、コンピューティングデバイス８００からの構成要素は、デバイス８５０などのモバイルデバイス（図示せず）の他の構成要素と組み合わせることができる。そのようなデバイスの各々は、コンピューティングデバイス８００、８５０のうちの１つ以上を含むことができ、システム全体は、互いに通信する複数のコンピューティングデバイス８００、８５０で構成することができる。

コンピューティングデバイス８５０には、他の構成要素の中で、プロセッサ８５２、メモリ８６４、ならびに表示装置８５４、通信インターフェース８６６、およびトランシーバ８６８などの入力／出力デバイスを含める。デバイス８５０はまた、追加の記憶装置を提供するために、マイクロドライブまたは他のデバイスなどの記憶デバイスを備えることもできる。構成要素８５０、８５２、８６４、８５４、８６６、および８６８の各々は、様々なバスを使用して相互接続され、構成要素のいくつかは、共通のマザーボード上にまたは必要に応じて他の様式で取り付けることができる。

プロセッサ８５２は、メモリ８６４に記憶された命令を含む、コンピューティングデバイス８５０内で命令を実行することができる。プロセッサは、別個の複数のアナログおよびデジタルプロセッサを含むチップのチップセットとして実装することができる。さらに、プロセッサは、複数のアーキテクチャのいずれかを使用して実装することができる。例えば、プロセッサ８１０は、ＣＩＳＣ（複合命令セットコンピュータ）プロセッサ、ＲＩＳＣ（縮小命令セットコンピュータ）プロセッサ、またはＭＩＳＣ（最小命令セットコンピュータ）プロセッサであり得る。プロセッサは、例えば、ユーザインターフェースの制御、デバイス８５０によって起動されるアプリケーション、およびデバイス８５０による無線通信など、デバイス８５０の他の構成要素の調整を提供することができる。

プロセッサ８５２は、表示装置８５４に連結された制御インターフェース８５８および表示インターフェース８５６を通じてユーザと通信することができる。表示装置８５４は、例えば、ＴＦＴ（薄膜トランジスタ液晶）表示装置またはＯＬＥＤ（有機発光ダイオード）表示装置、または他の適切な表示技術とすることができる。表示インターフェース８５６は、グラフィカルおよび他の情報をユーザに提示するために表示装置８５４を駆動するための適切な回路を有することができる。制御インターフェース８５８は、ユーザからコマンドを受け取り、それらをプロセッサ８５２への提出用に変換することができる。さらに、外部インターフェース８６２は、他のデバイスとのデバイス８５０の近距離通信を可能にするために、プロセッサ８５２との通信で提供することができる。外部インターフェース８６２は、例えば、いくつかの実装では有線通信に、または他の実装では無線通信に提供することができ、複数のインターフェースも使用することができる。

メモリ８６４は、コンピューティングデバイス８５０内の情報を記憶する。メモリ８６４は、コンピュータ可読媒体、揮発性メモリユニット（複数可）、または不揮発性メモリユニット（複数可）のうちの１つ以上として実装することができる。また、拡張メモリ８７４も提供することができ、例えば、ＳＩＭＭ（シングルインラインメモリモジュール）カードインターフェースを含むことができる拡張インターフェース８７２を通じてデバイス８５０に接続することができる。そのような拡張メモリ８７４は、デバイス８５０の追加の記憶スペースを提供することができ、またはデバイス８５０のアプリケーションまたは他の情報を記憶することもできる。具体的には、拡張メモリ８７４は、上記のプロセスを遂行または補足する命令を含むことができ、安全な情報を含むこともできる。したがって、例えば、拡張メモリ８７４は、デバイス８５０のセキュリティモジュールとして提供することができ、デバイス８５０の安全な使用を可能にする命令でプログラムすることができる。さらに、ハッキング不可能な様式でＳＩＭＭカード上の識別情報を配設するなどの追加情報とともに、ＳＩＭＭカードを介して安全なアプリケーションを提供することができる。

メモリには、以下で説明するように、例えば、フラッシュメモリおよび／またはＮＶＲＡＭメモリを含めることができる。一実装形態では、コンピュータプログラム製品は、情報担体に明確に具体化される。コンピュータプログラム製品は、実行されたときに、上記のような１つ以上の方法を実施する命令を含む。情報担体は、メモリ８６４、拡張メモリ８７４、または例えば、トランシーバ８６８または外部インターフェース８６２を経由して受信することができる、プロセッサ８５２上のメモリなどのコンピュータまたは機械可読媒体である。

デバイス８５０は、必要に応じてデジタル信号処理回路を含むことができる、通信インターフェース８６６を通じて無線で通信することができる。通信インターフェース８６６は、とりわけ、ＧＳＭ（登録商標）音声通話、ＳＭＳ、ＥＭＳ、またはＭＭＳメッセージング、ＣＤＭＡ、ＴＤＭＡ、ＰＤＣ、ＷＣＤＭＡ（登録商標）、ＣＤＭＡ２０００、またはＧＰＲＳなどの様々なモードまたはプロトコルの下での通信を提供することができる。そのような通信は、例えば、無線周波数トランシーバ８６８を通じて発生し得る。さらに、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｗｉ－Ｆｉ、または他のそのようなトランシーバ（図示せず）を使用するなど、短距離通信が発生し得る。加えて、ＧＰＳ（全地球測位システム）受信機モジュール８７０は、追加のナビゲーションおよび場所関連の無線データをデバイス８５０に提供することができ、デバイス８５０で起動されるアプリケーションによって必要に応じて使用することができる。

デバイス８５０はまた、音声コーデック８６０を使用して音声で通信することもでき、ユーザから音声情報を受け取り、それを使用可能なデジタル情報に変換することができる。同様に、音声コーデック８６０は、例えばデバイス８５０のハンドセット内のスピーカを通じてなど、ユーザに対して可聴音を生成することができる。そのような音には、音声通話からの音を含めることができ、録音された音、例えば、音声メッセージ、音楽ファイルなどを含めることができ、デバイス８５０で動作するアプリケーションによって生成された音も含めることができる。

コンピューティングデバイス８５０は、図に示されるように、複数の異なる形態で実装することができる。例えば、携帯電話８８０として実装することができる。また、スマートフォン８８２、携帯情報端末、または他の同様のモバイルデバイスの一部として実装することもできる。

本明細書に記載のシステムおよび方法の様々な実装形態は、デジタル電子回路、集積回路、特別に設計されたＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそのような実装の組み合わせで実現することができる。これらの様々な実装形態には、少なくとも１つのプログラマブルプロセッサを含む、プログラマブルシステム上で実行可能および／または解釈可能な１つ以上のコンピュータプログラムでの実装を含めることができ、これらは、記憶装置システム、少なくとも１つの入力デバイス、および少なくとも１つの出力デバイス間で、データおよび命令を受信および送信するために連結されている、特別な目的でも汎用目的でもあり得る。

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても既知である）には、プログラマブルプロセッサの機械命令を含めており、高レベルの手続き型および／またはオブジェクト指向プログラミング言語、および／またはアセンブリ／機械言語で実装することができる。本明細書で使用されるように「機械可読媒体」「コンピュータ可読媒体」という用語は、機械命令を機械可読信号として受信する機械可読媒体を含むプログラマブルプロセッサに機械命令および／またはデータを提供するために使用される、あらゆるコンピュータプログラム製品、装置、および／またはデバイス、例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ）を指す。「機械可読信号」という用語は、機械命令および／またはデータをプログラマブルプロセッサに提供するために使用される任意の信号を指す。

ユーザとの対話を提供するために、本明細書に記載のシステムおよび技術は、ユーザに情報を表示するための表示デバイス、例えば、ＣＲＴ（陰極線管）またはＬＣＤ（液晶表示装置）モニタ、およびユーザがコンピュータに入力を提供することができる、キーボードおよびポインティングデバイス、例えば、マウスまたはトラックボールを有するコンピュータで実装することができる。他の種類のデバイスを使用して、ユーザとの対話を提供することもできる、例えば、ユーザに提供されるフィードバックは、あらゆる形態の感覚フィードバック、例えば視覚フィードバック、聴覚フィードバック、または触覚フィードバックなどであり得、ユーザからの入力は、音響、音声、または触覚の入力を含むあらゆる形態で受信することができる。

本明細書に記載のシステムおよび技術は、バックエンド構成要素、例えば、データサーバを含む、または、ミドルウェア構成要素、例えば、アプリケーションサーバを含む、あるいは、ユーザが、本明細書に記載のシステムおよび技術の実装と対話することができるグラフィカルユーザインターフェースまたはウェブブラウザを有するフロントエンド構成要素、例えば、クライアントコンピュータ、若しくは、そのようなバックエンド、ミドルウェア、またはフロントエンド構成要素の任意の組み合わせを含む、コンピューティングシステムに実装することができる。システムの構成要素は、デジタルデータ通信の任意の形態または媒体、例えば、通信ネットワークによって相互接続することができる。通信ネットワークの例には、ローカルエリアネットワーク（「ＬＡＮ」）、ワイドエリアネットワーク（「ＷＡＮ」）、およびインターネットを含める。

コンピューティングシステムには、クライアントおよびサーバを含めることができる。一般に、クライアントおよびサーバは互いに遠隔であり、通常は通信ネットワークを通じて相互作用する。クライアントとサーバとの関係は、それぞれのコンピュータで起動され、互いにクライアントとサーバの関係を有するコンピュータプログラムによって生じる。

複数の実施形態が説明されてきた。それにもかかわらず、本発明の精神および範囲から逸脱することなく、様々な変更を行うことができることを理解されたい。さらに、図に描写されているロジックフローは、望ましい結果を得るために、示されている特定の順序、または順番を必要としない。さらに、説明したフローから他のステップを提供する、またはステップを除外する、説明したシステムから他の構成要素を追加する、または削除することができる。したがって、他の実施形態は以下の特許請求の範囲内にある。

［実施例］

本開示の主題は、以下の実施例を参照してさらに説明され、これらの実施例は、本開示の範囲を決して限定しない。

このセクションで提供される実施例は、実際のパイルアップで本明細書に記載の確率モデルを使用した計算を示す実際の例を示している。各パイルアッププロットには、読み取り値ごとのＭＡＰＱマッピング信頼スコア、位置「０」などの参照位置における塩基品質、および鎖ごとの平均塩基品質（青＝前方向、赤＝後方向）を含める。

実施例１－典型的な真陽性バリアント

図９Ａは、結果が真陽性の結果の一例を示す、配列決定読み取り値のパイルアップで実施された、バリアントコーリングの相関誤差軽減のためのプロセスの実行からの実験結果の要約の一例である。

より詳細には、図９Ａは、典型的な真陽性の例を示す、整列された配列読み取り値のパイルアップ９４１の画像９４０を表示する。真陽性は、参照場所９４２における真のバリアントを有する読み取り値のパイルアップ９４１の一例である。この例では、読み取り値の特性は、読み取り値のパイルアップ９４１が、マッピングおよび整列されている参照ゲノムの参照値「Ｔ」とは異なる、参照位置９４２における候補代替対立遺伝子「Ｃ」があることを示していることが分かる。

この例では、また図９Ａのパイルアップ９４１の画像９４０を参照して、「Ｃ」の代替対立遺伝子頻度は、第１の前方向の読み取り方向（または配向）と第２の後方向の読み取り方向（または配向）との間でバランスが取れており、ＭＡＰＱマッピング信頼スコアは、参照場所における読み取り値の各々について高く、マッピング信頼スコア９４４のほとんどが最大「２５０」であり、両方の鎖方向（または配向）の平均塩基品質は高く、塩基品質スコア９４３のほとんどは「３５」以上であることが分かる。その結果、確率スコアの結果列９８０および正規化された確率スコアの結果列９８０に示されるように、候補［１０｜－｜－］９６２の確率スコアは高い。したがって、真の代替「Ｃ」を識別する、またはそうでなければ関連付けられる情報をＶＣＦファイルに含めることができる。

変更された確率結果の完全なセット９６０が図９Ｂに示されている。候補［１０｜－｜－］９６２は、仮説１６２に対応し、参照位置１４２における読み取り値がヘテロ接合型代替対立遺伝子の発生を示す可能性を含む。確率スコアの結果列９８０および正規化された確率スコアの結果列９９０は、他の従来型仮説９６１、９６２、９６３および非従来型仮説９６４、９６５、９６６、９６７の各々に対する、確率スコアの結果および正規化されたスコアの結果をそれぞれ示している。明確にするために、従来型仮説９６１は、上記従来型仮説１６１に対応し、従来型仮説９６２は、上記従来型仮説１６２に対応し、従来型仮説９６３は、上記従来型仮説１６３に対応する。さらに、非従来型仮説９６４は、上記非従来型仮説１６４に対応し、非従来型仮説９６５は、上記非従来型仮説１６５に対応し、非従来型仮説９６６は、上記非従来型仮説１６６に対応し、非従来型仮説９６７は、上記非従来型仮説１６７に対応する。

実施例２－マッピング誤差の低い可能性

図１０Ａは、結果がマッピング誤差の発生の可能性が低いことを示す、配列決定読み取り値のパイルアップで実施された、バリアントコーリングの相関誤差軽減のためのプロセスの実行からの実験結果の概要の一例である。

より詳細には、図１０Ａは、例えば、可能な外来読み取り値、または可能なマッピング誤差を示す、整列された配列読み取り値のパイルアップ１０４１の画像１０４０を表示する。この実施例では、パイルアップは、代替対立遺伝子頻度が低く、代替対立遺伝子を有する読み取り値に対するＭＡＰＱマッピング信頼スコア１０４４がやや低い。これらの要因の両方は、本開示によって提供されているマッピング誤差確率モデルにより活用されるであろう。したがって、結果として、これが真のバリアントを表す可能性は低くなる。それぞれの仮説に対する確率スコアのレビューは、「Ｃ」対立遺伝子が外来読み取り値であるという高い信頼を持って結論を引き出すことはできず、ヘテロ接合型コールで高い信頼を持って判定を下すこともできないことを示す。したがって、出力情報は、候補代替対立遺伝子を識別するあらゆる情報をＶＣＦファイルに追加することなく破棄される可能性がある。

変更された確率結果の完全なセット１０６０が図１０Ｂに示されている。確率スコアの結果列１０８０および正規化された確率スコアの結果列１０９０は、他の従来型仮説１０６１、１０６２、１０６３および非従来型仮説１０６４、１０６５、１０６６、１０６７の各々に対する、確率スコアの結果および正規化されたスコアの結果をそれぞれ示している。明確にするために、従来型仮説１０６１は、上記従来型仮説１６１に対応し、従来型仮説１０６２は、上記従来型仮説１６２に対応し、従来型仮説１０６３は、上記従来型仮説１６３に対応する。さらに、非従来型仮説１０６４は、上記非従来型仮説１６４に対応し、非従来型仮説１０６５は、上記非従来型仮説１６５に対応し、非従来型仮説１０６６は、上記非従来型仮説１６６に対応し、非従来型仮説１０６７は、上記非従来型仮説１６７に対応する。

実施例３－配列決定誤差による可能性の低い真のバリアント

図１１Ａは、結果が、候補代替対立遺伝子が配列決定誤差により真のバリアントである可能性が低いという高い可能性を示す、配列決定読み取り値のパイルアップで実施されたバリアントコーリングの相関誤差軽減のためのプロセスの実行からの実験結果の概要の一例である。

より詳細には、図１１Ａは、系統誤差、または配列決定誤差を示す、整列された配列読み取り値のパイルアップ１１４１の画像１１４０を表示する。

この実施例では、「Ｇ」代替対立遺伝子のすべては、前方向に整列された方向に単一の読み取り配向で発生する。さらに、「Ｇ」代替対立遺伝子はすべて、読み取り値の５’端から最も遠い前方向に配向された読み取り値のサブセットで発生する。「Ｇ」代替対立遺伝子を有する読み取り値のサブセットは、塩基品質スコア１１４３から明らかであるように、非常に低い塩基品質を有する。さらに、「Ｇ」代替対立遺伝子は、現在の参照位置１１４５における塩基対立遺伝子を提示する参照ゲノムの２つの塩基対立遺伝子に一致する。配列決定誤差確率モデルは、読み取り値の前述の特性を考慮に入れ、確率スコアは、７つの仮説１１６１、１１６２、１１６３、１１６４、１１６５、１１６６、１１６７の各々について出力され、確率スコア結果１１８０および正規化された確率スコアの結果列１１９０に示され、高い信頼で、「Ｇ」代替対立遺伝子が真のバリアントを支持する可能性は低いことを支持する。したがって、出力情報は、候補代替対立遺伝子を識別するあらゆる情報をＶＣＦファイルに追加することなく破棄される可能性がある。

変更された確率結果の完全なセット１１６０が、図１１Ｂに示されている。確率スコアの結果列１１８０および正規化された確率スコアの結果列１１９０は、他の従来型仮説１１６１、１１６２、１１６３および非従来型仮説１１６４、１１６５、１１６６、１１６７の各々に対する、確率スコアの結果および正規化されたスコアの結果をそれぞれ示している。明確にするために、従来型仮説１１６１は、上記従来型仮説１６１に対応し、従来型仮説１１６２は、上記従来型仮説１６２に対応し、従来型仮説１１６３は、上記従来型仮説１６３に対応する。さらに、非従来型仮説１１６４は、上記非従来型仮説１６４に対応し、非従来型仮説１１６５は、上記非従来型仮説１６５に対応し、非従来型仮説１１６６は、上記非従来型仮説１６６に対応し、非従来型仮説１１６７は、上記非従来型仮説１６７に対応する。

実施例４－両方の読み取り配向での配列決定誤差による可能性の低い真のバリアント

図１２Ａは、結果が、候補代替対立遺伝子が両方の読み取り配向の配列決定誤差により真のバリアントである可能性が低いという高い可能性を示す、配列決定読み取り値のパイルアップで実施されたバリアントコーリングの相関誤差軽減のためのプロセスの実行からの実験結果の概要の一例である。

より詳細には、図１２Ａは、両方の読み取り配向で、系統誤差、または配列決定誤差を示す、整列された配列読み取り値のパイルアップ１２４１の画像１２４０を表示する。

この実施例では、塩基品質スコア１２４３から明らであるように、塩基品質が極端に低下している。前方向に配列された読み取り値では、「Ｇ」代替対立遺伝子は、対象の遺伝子座が５’端から遠くにある読み取り値のサブセットに限定される。さらに、「Ｇ」代替対立遺伝子は、参照位置１２４２における参照対立遺伝子に先行する参照ゲノムの先行する３つの参照対立遺伝子に一致する。配列決定誤差確率モデルは、読み取り値の前述の特性を考慮に入れ、確率スコアは、７つの仮説１２６１、１２６２、１２６３、１２６４、１２６５、１２６６、１２６７の各々について出力され、確率スコア結果１２８０および正規化された確率スコアの結果列１２９０に示され、高い信頼で、「Ｇ」代替対立遺伝子が真のバリアントを支持する可能性は低いことを支持する。したがって、出力情報は、候補代替対立遺伝子を識別するあらゆる情報をＶＣＦファイルに追加することなく破棄される可能性がある。

変更された確率結果の完全なセット１２６０が、図１２Ｂに示されている。確率スコアの結果列１２８０および正規化された確率スコアの結果列１２９０は、他の従来型仮説１１６１、１２６２、１２６３、および非従来型仮説１２６４、１２６５、１２６６、１２６７の各々に対する、確率スコアの結果および正規化されたスコアの結果をそれぞれ示している。明確にするために、従来型仮説１２６１は、上記従来型仮説１６１に対応し、従来型仮説１２６２は、上記従来型仮説１６２に対応し、従来型仮説１２６３は、上記従来型仮説１６３に対応する。さらに、非従来型仮説１２６４は、上記非従来型仮説１６４に対応し、非従来型仮説１２６５は、上記非従来型仮説１６５に対応し、非従来型仮説１２６６は、上記非従来型仮説１６６に対応し、非従来型仮説１２６７は、上記非従来型仮説１６７に対応する。

他の実施形態

本発明を図面およびその詳細な説明と併せて説明したが、前述の説明は、添付の特許請求の範囲によって定義される本発明の範囲を例示することを目的とし、限定するものではないことを理解されたい。他の態様、利点、および変更は、添付の特許請求の範囲内にある。

１００バリアントコーリングの相関誤差軽減のためのシステム
１０５生体サンプル
１１０核酸配列決定装置
１１２読み取り値
１２０二次分析ユニット
１２２メモリ
１２４フィールドプログラマブルゲートアレイ（ＦＰＧＡ）
１２６マッピングおよび整列ユニット
１２８一対の隠れマルコフモデル（Ｐ－ＨＭＭ）ユニット
１３０バリアントコーリングユニット
１３１確率モデル
１３２マッピング誤差確率モデル
１３４配列決定誤差確率モデル
１４０インターフェース
１４１パイルアップ
１４２参照位置
１４３塩基品質スコア
１４４マッピング信頼スコア
１４５参照ゲノム
１５０確率結果
１６０インターフェース
１７０ファイル
２００プロセス
２１０ステップ
２２０ステップ
２３０ステップ
２４０ステップ
２５０ステップ
３００プロセス
３１０ステップ
３３０ステップ
３５０ステップ
５００プロセス
５１０ステップ
５３０ステップ
５５０ステップ
６００プロセス
６１０ステップ
６３０ステップ
６５０ステップ
７００プロセス
８００コンピューティングデバイス
８０２プロセッサ
８０４メモリ
８０８構成要素
８１０構成要素
８１２低速コントローラ
８２２ラップトップコンピュータ
８２４ラックサーバシステム
８５０コンピューティングデバイス
８５２プロセッサ
８５４表示装置
８５６表示インターフェース
８５８制御インターフェース
８６０音声コーデック
８６２外部インターフェース
８６４メモリ
８６６通信インターフェース
８６８トランシーバ
８７０（全地球測位システム）受信機モジュール
８７４拡張メモリ
８８０携帯電話
８８２スマートフォン
９４０画像
９４１読み取り値のパイルアップ
９４２参照位置
９４３塩基品質スコア
９４４マッピング信頼スコア
９６１従来型仮説
９６２従来型仮説
９６３従来型仮説
９６４非従来型仮説
９６５非従来型仮説
９６６非従来型仮説
９６７非従来型仮説
９８０確率スコアの結果列
１０４０画像
１０４１整列された配列読み取り値のパイルアップ
１０４４マッピング信頼スコア
１０６１従来型仮説
１０６２従来型仮説
１０６３従来型仮説
１０６４非従来型仮説
１０６５非従来型仮説
１０６６非従来型仮説
１０６７非従来型仮説
１０８０確率スコアの結果列
１１４０画像
１１４１整列された配列読み取り値のパイルアップ
１１４３塩基品質スコア
１１４５現在の参照位置
１１６０変更された確率結果の完全なセット
１１６１従来型仮説
１１６２従来型仮説
１１６３従来型仮説
１１６４非従来型仮説
１１６５非従来型仮説
１１６６非従来型仮説
１１６７非従来型仮説
１１８０確率スコアの結果列
１２４０画像
１２４１整列された配列読み取り値のパイルアップ
１２４２参照位置
１２４３塩基品質スコア
１２６０変更された確率結果の完全なセット
１２６１従来型仮説
１２６２従来型仮説
１２６３従来型仮説
１２６４非従来型仮説
１２６５非従来型仮説
１２６６非従来型仮説
１２６７非従来型仮説
１２８０確率スコア結果

Claims

相関誤差事象の指標を考慮することによって、バリアントコールの精度を改善するための方法であって、
１つ以上のコンピュータによって、かつ１つ以上のメモリデバイスから、参照ゲノムの第１の領域に整列された複数の配列読み取り値のパイルアップにアクセスするステップと、
前記１つ以上のコンピュータによって、前記参照ゲノムの第１の位置に対応する、前記パイルアップの前記複数の読み取り値の各々の特性を記述する情報を取得するステップであって、前記それぞれの読み取り値の前記特性を記述する前記情報が、
（i）前記第１の位置における前記パイルアップの各配列読み取り値のマッピング品質スコア、
（ii）前記第１の位置における各候補対立遺伝子について前記第１の位置における前記パイルアップの各配列読み取り値の読み取り対立遺伝子スコア、

（iii）前記第１の位置における前記パイルアップの各配列読み取り値の読み取り配向、
（iv）前記配列読み取り値の５’端を参照する、前記第１の位置における前記パイルアップの各配列読み取り値内の前記第１の位置における各塩基の位置、
（v）参照位置における各候補対立遺伝子の前記複数の配列読み取り値の各配列読み取り値の読み取り対立遺伝子スコア、および
（vi）前記第１の位置における前記塩基の各読み取り値の塩基品質スコア、
を記述する情報を含む、取得するステップと、
前記１つ以上のコンピュータによって、かつ前記取得された情報に基づいて、前記パイルアップの前記複数の読み取り値の前記特性を記述する確率モデルへの１つ以上の入力を提供するステップであって、前記確率モデルが、前記１つ以上の入力に基づいて選択された１つ以上の仮説の各仮説に対して、前記仮説が真であるかどうかを示すスコアを判定するように構成されている、提供するステップと、
前記１つ以上のコンピュータによって、前記１つ以上の仮説の各々に対する出力情報を取得するステップであって、前記１つ以上の仮説の各々に対する前記出力情報が、（i）前記パイルアップのそれぞれの読み取り値の前記特性を記述する前記確率モデルへの前記１つ以上の入力の前記確率モデルの処理に基づいて、前記確率モデルによって生成され、（ii）前記仮説が真であるかどうかを示すスコアを示し、前記出力情報が、
前記第１の位置における前記配列読み取り値が、代替対立遺伝子に一致する外来対立遺伝子とのホモ接合型参照の発生を示す可能性を含む、前記１つ以上の仮説のうちの第１の仮説に関する第１の出力情報、
前記第１の位置における前記配列読み取り値が、参照対立遺伝子に一致する外来対立遺伝子とのホモ接合型代替の発生を示す可能性を含む、前記１つ以上の仮説のうちの第２の仮説に関する第２の出力情報、
前記第１の位置における前記配列読み取り値が、前記代替対立遺伝子に一致する配列決定誤差とのホモ接合型参照の発生を示す可能性を含む、前記１つ以上の仮説のうちの第３の仮説に関する第３の出力情報、および
前記第１の位置における前記配列読み取り値が、前記参照対立遺伝子に一致する配列決定誤差とのホモ接合型代替の発生を示す可能性を含む、前記１つ以上の仮説のうちの第４の仮説に関する第４の出力情報、
を含む、取得するステップと、
前記１つ以上のコンピュータによって、かつ前記複数の仮説の各々に対する前記確率モデルによって生成された、前記取得された出力情報に基づいて、真のバリアントが前記第１の位置に存在する可能性を判定するステップと、
を含む、方法。
前記１つ以上のコンピュータによって、かつ前記複数の仮説の各々に対する前記確率モデルによって生成された、前記取得された出力情報に基づいて、真のバリアントが前記第１の位置に存在する可能性を判定するステップが、
前記１つ以上のコンピュータによって、前記複数の仮説の各々に対する前記確率モデルによって生成された前記出力情報に基づいて、集団スコアを判定するステップであって、前記集団スコアが、前記真のバリアントが存在する可能性を示す、判定するステップと、
前記１つ以上のコンピュータによって、前記集団スコアによって生成された前記スコアが所定の閾値を満たすかどうかを判定するステップと、
前記１つ以上のコンピュータによって、前記集団スコアが前記所定の閾値を満たすという判定に基づいて、真のバリアントが前記第１の位置に存在することを示す情報をバリアントコールフォーマット（ＶＣＦ）ファイルに追加するステップと、
を含み、
任意選択で、
真のバリアントが前記第１の位置に存在することを示す前記情報が、（ｉ）前記第１の位置、（ｉｉ）前記第１の位置における候補代替対立遺伝子、（ｉｉｉ）前記集団スコアを識別する情報を含む、請求項１に記載の方法。
前記第１の位置における前記パイルアップの各配列読み取り値の前記読み取り対立遺伝子スコアが、特定の候補対立遺伝子Ｇ_ｍ,φが与えられた場合に配列読み取り値ｒ_ｉを観察する確率を示す、前記第１の位置における前記配列読み取り値の各々について、一対の隠れマルコフモデル（Ｐ－ＨＭＭ）モデルによって生成された出力に基づいている、請求項１に記載の方法。
前記１つ以上のメモリデバイスが、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）デバイスから、整列された配列読み取り値の前記パイルアップを受信し、前記ＦＰＧＡが、読み取り値マッピングおよび整列を実施するためのマッピングおよび整列ユニットとして構成されている、１つ以上の構成可能なデジタルロジックゲートを含む、請求項１に記載の方法。
前記コンピュータが、１つ以上の有線または無線ネットワークを使用して、前記１つ以上のメモリデバイスにアクセスするように構成されており、
フィールドプログラマブルゲートアレイ（ＦＰＧＡ）デバイスおよび前記１つ以上のメモリデバイスが、配列決定装置の回路基板に連結されている拡張カードに収容されており、
前記配列決定装置が、入力サンプルに基づいて配列読み取り値を生成し、前記生成された配列読み取り値を前記１つ以上のメモリデバイスに記憶するように構成されており、
前記ＦＰＧＡの前記マッピングおよび整列ユニットが、前記１つ以上のメモリデバイスにアクセスして、前記生成された配列読み取り値を取得するように構成されている、
または、
前記コンピュータおよび前記配列決定装置が、１つ以上の有線または無線ネットワークを使用して、前記１つ以上のメモリデバイスにアクセスするように各々構成されており、
前記フィールドプログラマブルゲートアレイ（ＦＰＧＡ）デバイスおよび前記１つ以上のメモリデバイスが、前記コンピュータおよび前記配列決定装置から遠隔に位置しているサーバの回路基板に連結されている拡張カードに収容されており、
前記配列決定装置が、入力サンプルに基づいて配列読み取り値を生成し、前記生成された配列読み取り値を前記１つ以上のメモリデバイスに記憶するために、前記生成された配列読み取り値を前記１つ以上の有線または無線ネットワークを使用して前記サーバに提供するように構成されており、
前記ＦＰＧＡの前記マッピングおよび整列ユニットが、前記１つ以上のメモリデバイスにアクセスして、前記生成された配列読み取り値を取得するように構成されている、請求項４に記載の方法。
システムであって、
１つ以上のコンピュータと、命令を記憶する１つ以上の記憶デバイスであって、前記命令は、前記１つ以上のコンピュータによって実行されたときに、前記１つ以上のコンピュータに、
１つ以上のコンピュータによって、かつ１つ以上のメモリデバイスから、参照ゲノムの第１の領域に整列された複数の配列読み取り値のパイルアップにアクセスするステップと、
前記１つ以上のコンピュータによって、前記参照ゲノムの第１の位置に対応する、前記パイルアップの前記複数の読み取り値の各々の特性を記述する情報を取得するステップであって、前記それぞれの読み取り値の前記１つ以上の特性を記述する前記情報が、
（i）前記第１の位置における前記パイルアップの各配列読み取り値のマッピング品質スコア、
（ii）前記第１の位置における各候補対立遺伝子について前記第１の位置における前記パイルアップの各配列読み取り値の読み取り対立遺伝子スコア、
（iii）前記第１の位置における前記パイルアップの各配列読み取り値の読み取り配向、
（iv）前記配列読み取り値の５’端を参照する、前記第１の位置における前記パイルアップの各配列読み取り値内の前記第１の位置における各塩基の位置、
（v）参照位置における各候補対立遺伝子の前記複数の配列読み取り値の各配列読み取り値の読み取り対立遺伝子スコア、および
（vi）前記第１の位置における前記塩基の各読み取り値の塩基品質スコア、
を記述する情報を含む、取得するステップと、
前記１つ以上のコンピュータによって、かつ前記取得された情報に基づいて、前記パイルアップの前記複数の読み取り値の前記特性を記述する確率モデルへの１つ以上の入力を提供するステップであって、前記確率モデルが、前記１つ以上の入力に基づいて選択された１つ以上の仮説の各仮説に対して、前記仮説が真であるかどうかを示すスコアを判定するように構成されている、提供するステップと、
前記１つ以上のコンピュータによって、前記１つ以上の仮説の各々に対する出力情報を取得するステップであって、前記１つ以上の仮説の各々に対する前記出力情報が、（ｉ）前記パイルアップのそれぞれの前記読み取り値の前記特性を記述する前記確率モデルへの前記１つ以上の入力の前記確率モデルの処理に基づいて、前記確率モデルによって生成され、（ｉｉ）前記仮説が真であるかどうかを示すスコアを示し、前記出力情報が、
前記第１の位置における前記配列読み取り値が、代替対立遺伝子に一致する外来対立遺伝子とのホモ接合型参照の発生を示す可能性を含む、前記１つ以上の仮説のうちの第１の仮説に関する第１の出力情報、
前記第１の位置における前記配列読み取り値が、参照対立遺伝子に一致する外来対立遺伝子とのホモ接合型代替の発生を示す可能性を含む、前記１つ以上の仮説のうちの第２の仮説に関する第２の出力情報、
前記第１の位置における前記配列読み取り値が、前記代替対立遺伝子に一致する配列決定誤差とのホモ接合型参照の発生を示す可能性を含む、前記１つ以上の仮説のうちの第３の仮説に関する第３の出力情報、および
前記第１の位置における前記配列読み取り値が、前記参照対立遺伝子に一致する配列決定誤差とのホモ接合型代替の発生を示す可能性を含む、前記１つ以上の仮説のうちの第４の仮説に関する第４の出力情報、
を含む、取得するステップと、
前記１つ以上のコンピュータによって、かつ前記複数の仮説の各々について前記確率モデルによって生成された、前記取得された出力情報に基づいて、真のバリアントが前記第１の位置に存在する可能性を判定するステップと、
を含む動作を実行させるように動作可能である、１つ以上の記憶デバイスと、
を備える、システム。
前記１つ以上のコンピュータによって、かつ前記複数の仮説の各々に対する前記確率モデルによって生成された、前記取得された出力情報に基づいて、真のバリアントが前記第１の位置に存在する可能性を判定するステップが、
前記１つ以上のコンピュータによって、前記複数の仮説の各々に対する前記確率モデルによって生成された出力情報に基づいて、集団スコアを判定するステップであって、前記集団スコアが、前記真のバリアントが存在する可能性を示す、判定するステップと、
前記１つ以上のコンピュータによって、前記集団スコアによって生成された前記スコアが所定の閾値を満たすかどうかを判定するステップと、
前記１つ以上のコンピュータによって、前記集団スコアが前記所定の閾値を満たすという判定に基づいて、真のバリアントが前記第１の位置に存在することを示す情報をバリアントコールフォーマット（ＶＣＦ）ファイルに追加するステップと、
を含み、
任意選択で、
真のバリアントが前記第１の位置に存在することを示す前記情報が、（ｉ）前記第１の位置、（ｉｉ）前記第１の位置における候補代替対立遺伝子、（ｉｉｉ）前記集団スコアを識別する情報を含む、請求項６に記載のシステム。
前記第１の位置における前記パイルアップの各配列読み取り値の前記読み取り対立遺伝子スコアが、特定の候補対立遺伝子Ｇ_ｍ,φが与えられた場合に配列読み取り値ｒ_ｉを観察する確率を示す、前記第１の位置における前記配列読み取り値の各々について、一対の隠れマルコフモデル（Ｐ－ＨＭＭ）モデルによって生成された出力に基づいている、請求項６に記載のシステム。
前記１つ以上のメモリデバイスが、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）デバイスから、整列された配列読み取り値の前記パイルアップを受信し、ＦＰＧＡが、読み取り値マッピングおよび整列を実施するためのマッピングおよび整列ユニットとして構成されている、１つ以上の構成可能なデジタルロジックゲートを含む、請求項６に記載のシステム。
前記コンピュータが、１つ以上の有線または無線ネットワークを使用して、前記１つ以上のメモリデバイスにアクセスするように構成されており、
フィールドプログラマブルゲートアレイ（ＦＰＧＡ）デバイスおよび前記１つ以上のメモリデバイスが、配列決定装置の回路基板に連結されている拡張カードに収容されており、
前記配列決定装置が、入力サンプルに基づいて配列読み取り値を生成し、前記生成された配列読み取り値を前記１つ以上のメモリデバイスに記憶するように構成されており、
前記ＦＰＧＡの前記マッピングおよび整列ユニットが、前記１つ以上のメモリデバイスにアクセスして、前記生成された配列読み取り値を取得するように構成されている、
または、
前記コンピュータおよび前記配列決定装置が、１つ以上の有線または無線ネットワークを使用して、前記１つ以上のメモリデバイスにアクセスするように各々構成されており、
前記フィールドプログラマブルゲートアレイ（ＦＰＧＡ）デバイスおよび前記１つ以上のメモリデバイスが、前記コンピュータおよび前記配列決定装置から遠隔に位置しているサーバの回路基板に連結されている拡張カードに収容されており、
前記配列決定装置が、入力サンプルに基づいて配列読み取り値を生成し、前記生成された配列読み取り値を前記１つ以上のメモリデバイスに記憶するために、前記生成された配列読み取り値を前記１つ以上の有線または無線ネットワークを使用して前記サーバに提供するように構成されており、
前記ＦＰＧＡの前記マッピングおよび整列ユニットが、前記１つ以上のメモリデバイスにアクセスして、前記生成された配列読み取り値を取得するように構成されている、請求項９に記載のシステム。
１つ以上のコンピュータによって実行可能な命令を含むソフトウェアを格納する非一時的なコンピュータ可読媒体であって、そのような実行の際に、前記１つ以上のコンピュータに、
前記１つ以上のコンピュータによって、かつ１つ以上のメモリデバイスから、参照ゲノムの第１の領域に整列された複数の配列読み取り値のパイルアップにアクセスするステップと、
前記１つ以上のコンピュータによって、前記参照ゲノムの第１の位置に対応する、前記パイルアップの前記複数の読み取り値の各々の特性を記述する情報を取得するステップであって、前記それぞれの読み取り値の前記１つ以上の特性を記述する前記情報が、
（i）前記第１の位置における前記パイルアップの各配列読み取り値のマッピング品質スコア、
（ii）前記第１の位置における各候補対立遺伝子について前記第１の位置における前記パイルアップの各配列読み取り値の読み取り対立遺伝子スコア、
（iii）前記第１の位置における前記パイルアップの各配列読み取り値の読み取り配向、
（iv）前記配列読み取り値の５’端を参照する、前記第１の位置における前記パイルアップの各配列読み取り値内の前記第１の位置における各塩基の位置、
（v）参照位置における各候補対立遺伝子の前記複数の配列読み取り値の各配列読み取り値の読み取り対立遺伝子スコア、および
（vi）前記第１の位置における前記塩基の各読み取り値の塩基品質スコア、
を記述する情報を含む、取得するステップと、
前記１つ以上のコンピュータによって、かつ前記取得された情報に基づいて、前記パイルアップの前記複数の読み取り値の前記特性を記述する確率モデルへの１つ以上の入力を提供するステップであって、前記確率モデルが、前記１つ以上の入力に基づいて選択された１つ以上の仮説の各仮説に対して、前記仮説が真であるかどうかを示すスコアを判定するように構成されている、提供するステップと、
前記１つ以上のコンピュータによって、前記１つ以上の仮説の各々に対する出力情報を取得するステップであって、前記１つ以上の仮説の各々に対する前記出力情報が、（ｉ）前記パイルアップの前記それぞれの読み取り値の前記特性を記述する前記確率モデルへの前記１つ以上の入力の前記確率モデルの処理に基づいて、前記確率モデルによって生成され、（ｉｉ）前記仮説が真であるかどうかを示すスコアを示し、前記出力情報が、
前記第１の位置における前記配列読み取り値が、代替対立遺伝子に一致する外来対立遺伝子とのホモ接合型参照の発生を示す可能性を含む、前記１つ以上の仮説のうちの第１の仮説に関する第１の出力情報、
前記第１の位置における前記配列読み取り値が、参照対立遺伝子に一致する外来対立遺伝子とのホモ接合型代替の発生を示す可能性を含む、前記１つ以上の仮説のうちの第２の仮説に関する第２の出力情報、
前記第１の位置における前記配列読み取り値が、前記代替対立遺伝子に一致する配列決定誤差とのホモ接合型参照の発生を示す可能性を含む、前記１つ以上の仮説のうちの第３の仮説に関する第３の出力情報、および
前記第１の位置における前記配列読み取り値が、前記参照対立遺伝子に一致する配列決定誤差とのホモ接合型代替の発生を示す可能性を含む、前記１つ以上の仮説のうちの第４の仮説に関する第４の出力情報、
を含む、取得するステップと、
前記１つ以上のコンピュータによって、かつ前記複数の仮説の各々について前記確率モデルによって生成された、前記取得された出力情報に基づいて、真のバリアントが前記第１の位置に存在する可能性を判定するステップと、
を含む動作を実行させる、非一時的なコンピュータ可読媒体。
前記１つ以上のコンピュータによって、かつ前記複数の仮説の各々に対する前記確率モデルによって生成された、前記取得された出力情報に基づいて、真のバリアントが前記第１の位置に存在する可能性を判定するステップが、
前記１つ以上のコンピュータによって、前記複数の仮説の各々に対する前記確率モデルによって生成された出力情報に基づいて、集団スコアを判定するステップであって、前記集団スコアが、前記真のバリアントが存在する可能性を示す、判定するステップと、
前記１つ以上のコンピュータによって、前記集団スコアによって生成された前記スコアが所定の閾値を満たすかどうかを判定するステップと、
前記１つ以上のコンピュータによって、前記集団スコアが前記所定の閾値を満たすという判定に基づいて、真のバリアントが前記第１の位置に存在することを示す情報をバリアントコールフォーマット（ＶＣＦ）ファイルに追加するステップと、
を含み、
任意選択で、
真のバリアントが前記第１の位置に存在することを示す前記情報が、（ｉ）前記第１の位置、（ｉｉ）前記第１の位置における候補代替対立遺伝子、（ｉｉｉ）前記集団スコアを識別する情報を含む、請求項１１に記載のコンピュータ可読媒体。
前記第１の位置における前記パイルアップの各配列読み取り値の前記読み取り対立遺伝子スコアが、特定の候補対立遺伝子Ｇ_ｍ,φが与えられた場合に配列読み取り値ｒ_ｉを観察する確率を示す、前記第１の位置における前記配列読み取り値の各々について、一対の隠れマルコフモデル（Ｐ－ＨＭＭ）モデルによって生成された出力に基づいている、請求項１１に記載のコンピュータ可読媒体。
前記１つ以上のメモリデバイスが、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）デバイスから、整列された配列読み取り値の前記パイルアップを受信し、ＦＰＧＡが、読み取り値マッピングおよび整列を実施するためのマッピングおよび整列ユニットとして構成されている、１つ以上の構成可能なデジタルロジックゲートを含む、請求項１１に記載のコンピュータ可読媒体。
前記コンピュータが、１つ以上の有線または無線ネットワークを使用して、前記１つ以上のメモリデバイスにアクセスするように構成されており、
フィールドプログラマブルゲートアレイ（ＦＰＧＡ）デバイスおよび前記１つ以上のメモリデバイスが、配列決定装置の回路基板に連結されている拡張カードに収容されており、
前記配列決定装置が、入力サンプルに基づいて配列読み取り値を生成し、前記生成された配列読み取り値を前記１つ以上のメモリデバイスに記憶するように構成されており、
前記ＦＰＧＡの前記マッピングおよび整列ユニットが、前記１つ以上のメモリデバイスにアクセスして、前記生成された配列読み取り値を取得するように構成されている、
または、
前記コンピュータおよび前記配列決定装置が、１つ以上の有線または無線ネットワークを使用して、前記１つ以上のメモリデバイスにアクセスするように各々構成されており、
前記フィールドプログラマブルゲートアレイ（ＦＰＧＡ）デバイスおよび前記１つ以上のメモリデバイスが、前記コンピュータおよび前記配列決定装置から遠隔に位置しているサーバの回路基板に連結されている拡張カードに収容されており、
前記配列決定装置が、入力サンプルに基づいて配列読み取り値を生成し、前記生成された配列読み取り値を前記１つ以上のメモリデバイスに記憶するために、前記生成された配列読み取り値を前記１つ以上の有線または無線ネットワークを使用して前記サーバに提供するように構成されており、
前記ＦＰＧＡの前記マッピングおよび整列ユニットが、前記１つ以上のメモリデバイスにアクセスして、前記生成された配列読み取り値を取得するように構成されている、請求項１４に記載のコンピュータ可読媒体。