JP6762932B2

JP6762932B2 - シーケンシングリードのｄｅｎｏｖｏアセンブリーの方法、システム、およびプロセス

Info

Publication number: JP6762932B2
Application number: JP2017518960A
Authority: JP
Inventors: コンヴィカ，カレル; ジェイコブズ，ケヴィン
Original assignee: Invitae Corp
Current assignee: Invitae Corp
Priority date: 2014-10-10
Filing date: 2015-10-09
Publication date: 2020-09-30
Anticipated expiration: 2035-10-09
Also published as: EP3204522A2; BR112017007282A2; EP3204522A4; CA2963868A1; IL251277A0; WO2016055971A3; IL251277B; WO2016055971A2; CN106795568A; JP2018500625A; US20190244678A1

Description

関連出願の相互参照

本特許出願は、発明者としてＫａｒｅｌＫｏｎｖｉｃｋａおよびＫｅｖｉｎＪａｃｏｂｓの名義により「ＭＥＴＨＯＤＳ，ＳＹＳＴＥＭＳＡＮＤＰＲＯＣＥＳＳＥＳＯＦＤＥＮＯＶＯＡＳＳＥＭＢＬＹＯＦＳＥＱＵＥＮＣＩＮＧＲＥＡＤＳ」という名称で２０１４年１０月１０日に出願されかつ代理人整理番号０５５９１１−０４３２２２９により指定された仮特許出願第６２／０６２６３６号に基づく利益を主張する。以上の特許出願の全内容は、本文、表、および図面をすべて含めて参照により本明細書に組み込まれる。

本技術は、部分的には、核酸の操作、分析、および高スループットシーケンシングの方法およびプロセスに関する。

生物（たとえば、動物、植物、微生物、ウイルス）の遺伝情報は、デオキシリボ核酸（ＤＮＡ）またはリボ核酸（ＲＮＡ）にコードされている。遺伝情報は、核酸の一次構造を表す一連のヌクレオチドまたは修飾ヌクレオチドである。生物の核酸含有物（たとえば、ＤＮＡ）は、ゲノムと呼ばれることが多い。ヒトにおいて、完全ゲノムは、典型的には、２４個の染色体上に位置する約３０，０００個の遺伝子を含有する。ほとんどの遺伝子は、転写および翻訳を介する発現の後に生細胞内で１つ以上の生化学的機能を発揮する特定のタンパク質をコードする。

多くの医学的病態は、ゲノム内での１つ以上の遺伝的変異により引き起こされる。いくつかの遺伝的変異は、たとえば、糖尿病、動脈硬化症、肥満、種々の自己免疫性疾患、癌（たとえば、結腸直腸癌、乳癌、卵巣癌、肺癌）などのいくつかの疾患のいずれかの素因を個体に与えうるかまたはそれらを引き起こしうる。かかる遺伝病は、ゲノム内での１つ以上のヌクレオチドの付加、置換、挿入、または欠失から生じうる。

遺伝的変異は、核酸の分析により同定可能である。ゲノムの核酸は、たとえば、大規模並列シーケンシングを含む方法をはじめとして、種々の方法により分析可能である。大規模並列シーケンシング技術は、多くの場合、何千、何百万、さらには何十億もの小さいシーケンシングリードを生成する。ゲノム配列を決定するために、各リードは、多くの場合、参照ゲノムにマッピングされ、リードのコレクションは、個体のゲノムまたはその一部の配列表現としてアセンブルされる。リードのマッピングおよびアセンブリーのプロセスは、１台以上のコンピューター（たとえば、ハードウェアマイクロプロセッサー（すなわちマイクロプロセッサー）およびメモリー）により行われ、人の手を経て生成された命令セット（たとえば、ソフトウェア命令および／またはアルゴリズム）により駆動される。かかるマッピングおよびアセンブリーのプロセスは、被験体のゲノムで遺伝的変異に遭遇すると失敗することが多い。既存のソフトウェアおよびプログラムは、リードを誤ってマッピングしてリードのマッピングに失敗し、遺伝的変異を含むゲノムの領域を適正にアセンブルすることができない。本明細書の方法、システム、およびプロセスは、現在の核酸分析技術に大幅な進歩および改善を提供する。

いくつかの態様では、実行可能プログラムを記憶した非一時的コンピューター可読記憶媒体を含む核酸ライブラリーの分析方法が本明細書に提供される。このプログラムは、（ａ）複数のリードメイトペアを含むペアエンドシーケンスリードセットを取得するステップであって、各ペアが２つのリードメイトを含み、各ペアの２つのリードメイトの少なくとも１つが、所定の対象のゲノム領域を含む参照ゲノムの少なくとも１つの部分にマッピングされ、かつペアエンドシーケンスリードのいくつかが参照ゲノムの少なくとも１つの部分にマッピングされない、ステップと、（ｂ）シーケンスリードセットのパイルアップ関係を決定するステップと、（ｃ）（ｂ）で決定されたパイルアップ関係に従って１つ以上のコンティグを構築するステップであって、１つ以上のスターターリードの３’位置または５’位置に少なくとも１つのヌクレオチドを繰り返し付加するステップを含み、その位置（たとえば前進位置）がマジョリティーコンセンサスヌクレオチドを含む、ステップと、（ｄ）２つ以上のコンティグをブリッジする１つ以上のリードメイトペアに従って１つ以上のスーパーコンティグをアセンブルするステップと、（ｅ）１つ以上のスーパーコンティグに従って遺伝子型尤度比を生成するステップと、（ｆ）（ｅ）で生成した遺伝子型尤度比に従って遺伝子変異の存在または不在を決定するステップと、をマイクロプロセッサーに命令するように構成される。

いくつかの態様では、パイルアップ関係は、セットの２つ以上のリード間の複数のオーバーラップを含み、複数のオーバーラップのそれぞれは、（ｉ）セットの第１のリードがセットの第２のリードとの第１のオーバーラップを含み、（ｉｉ）第１のオーバーラップが所定のアライメントスコア閾値よりも大きいアライメントスコアを含み、（ｉｉｉ）第２のリードが第１のリードの３’末端または５’末端を越えて１つ以上のヌクレオチドを伸長し、かつ（ｉｖ）第１のオーバーラップが（ｉ）、（ｉｉ）、および（ｉｉｉ）を満たすすべての可能な第１のオーバーラップのうち最も高いアライメントスコアを含むように選択される。いくつかの態様では、パイルアップ関係は、セットの第３のリードとの第２のオーバーラップを含む第２のリードを含み、（ｉ）第２のリードは第１のオーバーラップを含み、（ｉｉ）第２のオーバーラップは所定のアライメントスコア閾値よりも大きいアライメントスコアを含み、（ｉｉｉ）第３のリードは第２のリードの３’末端または５’末端を越えて１つ以上のヌクレオチドを伸長し、かつ第２のリードおよび第３のリードは同一の３’方向または５’方向に第１のリードを伸長し、しかも（ｉｖ）第２のオーバーラップは（ｉ）、（ｉｉ）、および（ｉｉｉ）を満たすすべての可能な第２のオーバーラップのうち最も高いアライメントスコアを含む。

いくつかの態様では、マジョリティーコンセンサスヌクレオチドは、パイルアップ関係で決定された複数のオーバーラップに従って決定される。ある特定の実施形態では、コンティグを構築するステップは、１つ以上の中間コンティグのそれぞれの３’位置または５’位置に少なくとも１つのヌクレオチドを繰り返し付加するステップを含む。いくつかの実施形態では、位置（たとえば前進位置）が２つの異なるマジョリティーコンセンサスヌクレオチドを含む場合、コンティグを構築するステップは、中間コンティグのコピーを生成することにより２つの同一の中間コンティグを提供するステップと、異なるヌクレオチドが２つの同一の中間コンティグのそれぞれに付加されるように２つの異なるマジョリティーコンセンサスヌクレオチドの１つを２つの同一の中間コンティグのそれぞれに付加するステップと、を含む。いくつかの実施形態では、位置（たとえば前進位置）が３つの異なるマジョリティーコンセンサスヌクレオチドを含む場合、コンティグを構築するステップは、中間コンティグの２つのコピーを生成することにより３つの同一の中間コンティグを提供するステップと、異なるヌクレオチドが３つの同一の中間コンティグのそれぞれに付加されるように３つの異なるマジョリティーコンセンサスヌクレオチドの１つを３つの同一の中間コンティグのそれぞれに付加するステップと、を含む。いくつかの実施形態では、位置（たとえば前進位置）が４つの異なるマジョリティーコンセンサスヌクレオチドを含む場合、コンティグを構築するステップは、中間コンティグの３つのコピーを生成することにより４つの同一の中間コンティグを提供ステップと、異なるヌクレオチドが４つの同一の中間コンティグのそれぞれに付加されるように４つの異なるマジョリティーコンセンサスヌクレオチドの１つを４つの同一の中間コンティグのそれぞれに付加するステップと、を含む。

いくつかの態様では、サンプルは１名以上のヒト被験体から取得される。

ある特定の実施形態は、以下の説明、実施例、特許請求の範囲、および図面にさらに記載される。

図面は、技術の実施形態を例示するものであり限定するものではない。例示を明確にかつ容易にするために、図面は原寸通り作成されておらず、いくつかの場合には、種々の態様は特定の実施形態の理解を容易にするために誇張または拡大して示されることもある。

システムフローチャートの実施形態（たとえばＫｒａｇｌｅ）を示している。伸長リードのデフォルト最小カウント（１に設定）を用いたオーバーラップおよびリード−リード接続フィルタリング例の実施形態を示している。リード（赤色）は、それを右側に伸長するリードＡ〜Ｇ（緑色）を有する。これらの伸長リードのいくつかは、それらを右側に伸長するリード（青色）も有する。赤色リードは、それを右側に伸長するリードへの３つの接続を保持するであろう。最も高いスコアを有することからリードＡを保持するであろうが、リードＡはそれを右側に伸長するリードをなんら有していないので、赤色リードはリードＢおよびＣも保持するであろう。これらの２つのリードは同一のスコア（１２００）を有し、かつそれらを右側に伸長するリードを有する。追加のリード接続は必要でなく、赤色リードは、３つの接続間にそれ自体右側に伸長可能な少なくとも１つのリードを有する（リードＢおよびＣは両方とも他のリードにより右側に伸長可能である）。オーバーラップの実施形態を示している。リードＡは、リードＢ（多型塩基Ａを有するハプロタイプ上）およびリードＣ（多型塩基Ｃを有するハプロタイプ上）の両方への接続を保持しなければならない。リードＡを右側に伸長する最良スコアのリードであることからリードＢへの接続を保持するであろう（リードＢ自体がそれを右側に伸長するリードを有する場合、リードＡ自体は追加の接続を必要としない）。しかしながら、リードＡはリードＣを左側に伸長する最良スコアのリードであるので、リードＡとリードＣとの間の接続はリードＣにより強いられる。それゆえ、リードＡは、それを両方とも右側に伸長する２つの接続を有するであろうが、それぞれ異なるハプロタイプに対するものである。「全リクルート」エッジおよびコンセンサス配列の伸長を示すコンティグアセンブリーの実施形態を示している。一塩基伸長「全リクルート」インターバル内にあるリードはすべて、現在の繰返しでリクルートされるであろう。２つ以上のマジョリティーコンセンサスヌクレオチドが前進位置に存在するコンティグアセンブリーの実施形態を示している。図５は、コンティグのスプリット（コピー）の表現を示している。Ａ／Ｃ多型位置は、遭遇すると現在のコンティグを２つにスプリットさせる。塩基Ａ（青色）を有する５つのリードのうち３つのリード（またはそれらのメイト）は前のスプリット位置を横切る。塩基Ｃ（緑色）を有する３つのリードペアのうち２つは前のスプリット位置を横切る。ハプロタイプ調整カウントが０となる塩基はないので、２つの新しいコンティグが現在のコンティグから生成されるであろう。赤色リードに加えて、一方のコンティグは、塩基Ａ（青色リード）を有するリードペアを選び、他方のコンティグは、塩基Ｃ（緑色リード）を有するリードペアを選ぶであろう。多型塩基Ｃを有するリードがハプロタイプ調整カウント０を有する（たとえば、塩基Ｃを有するリードペアが前のスプリット位置を横切らない）ことからコンティグスプリッティングをサポートしない多型リードパイルアップを示している。したがって、塩基Ｃを有するリードペアはコンティグから排除され、新しいコンティグを生成しないであろう。スーパーコンティグアセンブリーの実施形態を示している。ａ）の赤色コンティグは第１のＡ／Ｃ多型位置に遭遇し、新しいコンティグ（青色）をスプリットオフする。赤色コンティグは他のＧ／Ｔ多型位置に遭遇し、他のコンティグ（緑色）をスプリットオフする。青色コンティグを構築する場合、それは赤色コンティグのＧ／Ｔスプリットと同一のＧ／Ｔ多型位置に遭遇する（同一のリード組成およびリード中位置）。したがって、このスプリットはマーキングされるだけであり、青色コンティグの残りの部分は構築されない。しかしながら、コンティグ統合段階で、青色コンティグは、マッチングスプリットを有していた赤色コンティグの２つの可能な末端部が追加されてｂ）で４つのコンティグの最初の２つをもたらす。どのようにコンティグが接続されてスーパーコンティグを形成するかの実施形態を示している。コンティグ接続の以下のグラフは、５つのスーパーコンティグもたらす（スタートノードからエンドノードまでのグラフを通る５つの経路）。偽挿入の周りの仮説配列へのリードペアアライメントを示している。偽挿入は、メイトが近接フランクにクロスオーバーしないリード（青色）で構成される。かかる偽挿入は、通常、真リピートに由来するリードとこの領域の外側の配列に由来するリード中のリピート配列との間でいくつかの偽アライメントを達成する可能性のある繰返し領域で起こる。パイルアップ関係を形成するステップと、コンティグをアセンブルするステップと、スーパーコンティグをアセンブルするステップと、遺伝子型確率を生成するステップと、を含む実施形態の概要を示している。パイルアップ関係（たとえば、リード−リードアライメント）を生成するプロセスの例を記述している。オーバーラップをフィルタリングする実施形態を示している。リードアライメントグラフサイクルの実施形態を示している。コンティグおよび／またはスーパーコンティグをアセンブルする実施形態を示している。コンティグアセンブリーの実施形態を記述している。コンティグアセンブリーの他の実施形態を示している。コンティグアセンブリープロセス時にコンティグをスプリット（たとえばコピー）するステップを含む実施形態を記述している。コンティグアセンブリーを最終決定する実施形態を記述している。スーパーコンティグをアセンブルする実施形態を示している。二倍体仮説の例を示している。挿入ペナルティー部分を含む遺伝子型尤度モデルの例を示している。個別対立遺伝子表現の誘導の例を示している。Ｋｒａｇｌｅ法の一部の実施形態を示している。Ｋｒａｇｌｅを適用することにより得られた結果の例を示している。ＣＦＴＲコーラーの例を示している。困難なアセンブリータスクの例を示している。ＢＲＣＡ１遺伝子のエキソン１９で確認されたヘテロ接合欠失に対してアセンブルされた２つのハプロタイプのマッピングの例を示している。この図は、欠失を含有するハプロタイプ２の３’側のマッピングを表している。ハプロタイプ２の５’側のマッピングおよびＢＲＣＡ１遺伝子のエキソン１９で実験的に確認された欠失のアセンブリーの例を示している。

次世代シーケンシング（ＮＧＳ）は、伝統的シーケンシング法よりも高速かつ安価な方法によりゲノムワイドスケールで核酸のシーケンシングを可能にする。本明細書の方法およびプロセスは、遺伝的変異の位置決定ならびに／または関連する疾患および障害の同定に使用可能な先端的シーケンシング技術の改善を提供する。いくつかの実施形態では、大規模並列シーケンシング法により得られることが多いシーケンスリードの操作および分析を部分的に含む方法が本明細書に提供される。

伝統的なアセンブラーおよびアライナーは、遺伝的変異（たとえば、ショートタンデムリピート（ＳＴＲ）、多型、挿入など）を含有するゲノム配列を適正にアセンブルできないことが多い。ＳＴＲなどの遺伝的変異をコールすることは、ほとんどのアライナーおよびマッパーにとって難しい問題である。既存のアルゴリズムおよびソフトウェアパッケージは、かかるゲノム変異を含むゲノム領域でリードを適正にマッピングしアライメントすることができない。これに関連して試験し失敗したアセンブラーの例としては、Ｌｏｂｓｔｒ、Ｒｅｐｅａｔｓｅｑ、および一般的ｄｅ−ｎｏｖｏアセンブラー、たとえば、ＧＡＴＫハプロタイプコーラー、ＡＭＯＳｄｅ−ｎｏｖｏアセンブラー、Ｍｉｒａｄｅ−ｎｏｖｏアセンブラー、ＦＥＲＭＩ、ＳＧＡなどが挙げられる。遺伝的変異を含むゲノム領域を適正にかつルーチンでアセンブル可能であるおよび／またはシーケンシングリードセットから遺伝的変異を正確に同定可能である新しい改善されたシステムおよび方法（たとえば、マイクロプロセッサーに依存する方法）の必要性が高い。かかる方法、システム、およびプロセスが本明細書に記載され特許請求される。

被験体
被験体は、限定されるものではないが、ヒト、非ヒト動物、植物、細菌、菌類、ウイルス、または原生生物を含めて、任意の生きているまたは生きていない生物でありうる。被験体は任意の年齢でありうる（たとえば、胚、胎児、乳児、子供、成人）。被験体は任意の性別でありうる（たとえば、男性、女性、またはそれらの組合せ）。被験体は妊娠していてもよい。被験体は患者でありうる（たとえば、ヒト患者）。

サンプル
本明細書には、サンプルを分析するための方法および組成物が提供される。サンプル（たとえば、核酸を含むサンプル）は好適な被験体から取得しうる。サンプルは被験体またはその一部から直接的に単離または取得しうる。いくつかの実施形態では、サンプルは個人または医療専門家から間接的に取得される。サンプルは、被験体またはその一部から単離または取得される任意の検体でありうる。サンプルは、複数の被験体から単離または取得される任意の検体でありうる。検体の例としては、限定されるものではないが、被験体に由来する流体または組織、たとえば、限定されるものではないが、血液または血液産物（たとえば、血清、血漿、血小板、バフィーコートなど）、臍帯血、絨毛膜絨毛、羊水、脳脊髄液、脊髄液、洗浄液（たとえば、肺、胃、腹膜、腺管、耳、関節鏡検査）、生検サンプル、羊膜外腔穿刺サンプル、細胞（血液細胞、リンパ球、胎盤細胞、幹細胞、骨髄由来細胞、胚細胞、もしくは胎児細胞）またはその一部（たとえば、ミトコンドリア、核、抽出物など）、尿、糞便、痰、唾液、鼻粘液、前立腺液、洗浄液、精液、リンパ液、胆汁、涙液、汗、母乳、胸液など、またはそれらの組合せが挙げられる。核酸が抽出される流体サンプルまたは組織サンプルは無細胞でありうる（たとえば、細胞フリー）。組織の例としては、限定されるものではないが、器官組織（たとえば、肝臓、腎臓、肺、胸腺、副腎、皮膚、膀胱、生殖器官、腸、結腸、脾臓、脳など、またはそれらの一部）、上皮組織、毛髪、毛嚢、導管、管路、骨、眼、鼻、口、咽頭、耳、爪など、それらの一部、またはそれらの組合せが挙げられる。サンプルは、正常、健常、疾患（たとえば感染）、および／または癌性の細胞または組織を含みうる（たとえば癌細胞）。被験体から取得されるサンプルは、複数の生物の細胞または細胞物質（たとえば核酸）を含みうる（たとえば、ウイルス核酸、胎児核酸、細菌核酸、寄生生物核酸）。

いくつかの実施形態では、サンプルは核酸またはその断片を含む。サンプルは１つ以上の被験体から取得した核酸を含む。いくつかの実施形態では、サンプルは単一の被験体から取得した核酸を含む。いくつかの実施形態では、サンプルは核酸の混合物を含む。核酸の混合物は、異なるヌクレオチド配列、異なる断片長さ、異なる起源（たとえば、ゲノム起源、細胞起源もしくは組織起源、被験体起源など、またはそれらの組合せ）、あるいはそれらの組合せを有する２つ以上の核酸種を含みうる。サンプルは合成核酸を含みうる。

核酸
「核酸」という用語は、ＤＮＡ（たとえば、相補的ＤＮＡ（ｃＤＮＡ）、ゲノムＤＮＡ（ｇＤＮＡ）など）、ＲＮＡ（たとえば、メッセージＲＮＡ（ｍＲＮＡ）、低分子阻害ＲＮＡ（ｓｉＲＮＡ）、リボソームＲＮＡ（ｒＲＮＡ）、ｔＲＮＡ、マイクロＲＮＡ）、ならびに／またはＤＮＡアナログもしくはＲＮＡアナログ（たとえば、塩基アナログ、糖アナログ、および／もしくは非天然骨格などを含有する）、ＲＮＡ／ＤＮＡハイブリッド、さらにはポリアミド核酸（ＰＮＡ）などの任意の組成の１つ以上の核酸（たとえば、核酸のセットまたはサブセット）を意味する。これらの核酸はすべて、一本鎖または二本鎖の形態でありうるとともに、とくに限定されない限り、天然に存在するヌクレオチドと同じように機能しうる天然のヌクレオチドの公知のアナログを包含しうる。とくに限定されない限り、この用語は、デオキシリボヌクレオチド、リボヌクレオチド、および天然のヌクレオチドの公知のアナログを含む核酸を包含する。核酸は、その等価体、誘導体、または変異体として、ヌクレオチドアナログ、一本鎖（「センス」または「アンチセンス」、「プラス」鎖または「マイナス」鎖、「フォワード」リーディングフレームまたは「リバース」リーディングフレーム）ポリヌクレオチド、および二本鎖ポリヌクレオチドから合成されたＲＮＡまたはＤＮＡの好適なアナログを含みうる。核酸は一本鎖または二本鎖でありうる。核酸は、２以上、３以上、４以上、または５以上の任意の長さの隣接ヌクレオチドでありうる。核酸は、配列（たとえば核酸配列、たとえば配列）として当技術分野で公知の特定の５’→３’の順のヌクレオチドを含みうる。

核酸は、天然に存在しうるおよび／または人の手を経て合成、コピー、もしくは改変されうる。たとえば、核酸はアンプリコンでありうる。核酸は、核酸ライブラリー、たとえば、ｇＤＮＡ、ｃＤＮＡ、ＲＮＡのライブラリーなどに由来しうる。核酸は、合成（たとえば化学合成）可能であるかまたは生成可能である（たとえばｉｎｖｉｔｒｏでのポリメラーゼ伸長により、たとえば増幅により、たとえばＰＣＲにより）。核酸は、プラスミド、ファージ、ウイルス、自律複製配列（ＡＲＳ）、動原体、人工染色体、染色体、あるいは複製しうるかまたはｉｎｖｉｔｒｏでもしくは宿主細胞で複製されうる他の核酸、細胞、ある特定の実施形態では細胞の細胞核または細胞質でありうるか、あるいはそれらに由来しうる。核酸（たとえば、核酸のライブラリー）は、１個のサンプルまたは２個以上のサンプルに由来する（たとえば、１個以上、２個以上、３個以上、４個以上、５個以上、６個以上、７個以上、８個以上、９個以上、１０個以上、１１個以上、１２個以上、１３個以上、１４個以上、１５個以上、１６個以上、１７個以上、１８個以上、１９個以上、または２０個以上のサンプルに由来する）核酸を含みうる。本明細書に記載のプロセスまたは方法に提供される核酸は、１〜１０００個、１〜５００個、１〜２００個、１〜１００個、１〜５０個、１〜２０個、または１〜１０個のサンプルに由来する核酸を含みうる。

「遺伝子」という用語は、ポリペプチド鎖の産生に関与するＤＮＡセグメントを意味し、遺伝子産物の転写／翻訳および転写／翻訳のレギュレーションに関与するコード領域の前および後の領域（リーダーおよびトレーラー）さらには個別コードセグメント（エキソン）間の介在配列（イントロン）を含みうる。遺伝子は、必ずしもペプチドを産生しうるとは限らないか、または遺伝子配列の遺伝的変異（たとえば、遺伝子のコード部分および非コード部分の突然変異）に起因してトランケートタンパク質もしくは非機能的タンパク質を産生しうる。遺伝子は、機能的か非機能的かにかかわらず、多くの場合、参照ゲノムの遺伝子に対する相同性により同定可能である。

オリゴヌクレオチドは比較的短い核酸である。オリゴヌクレオチドは、約２〜１５０、２〜１００、２〜５０、または２〜約３５の核酸長でありうる。いくつかの実施形態では、オリゴヌクレオチドは一本鎖である。ある特定の実施形態では、オリゴヌクレオチドはプライマーである。プライマーは、多くの場合、選択された相補的核酸にハイブリダイズするように構成され、かつハイブリダイズ後にポリメラーゼにより伸長されるように構成される。

核酸の単離および精製
核酸は、当技術分野で公知の好適な方法を用いて１つ以上の被験体、１つ以上のサンプル、または１つ以上の供給源から誘導、単離、抽出、精製、または部分精製しうる。核酸の単離、抽出、および／または精製のために任意の好適な方法を使用可能である。

本明細書で用いられる「単離」という用語は、その元の環境（たとえば、天然に存在する場合は天然環境または外因的に発現される場合は宿主細胞）から取り出された核酸、それゆえヒトが介入して（たとえば「人の手を経て」）その元の環境から改変された核酸を意味する。本明細書で用いられる「単離された核酸」という用語は、被験体（たとえばヒト被験体）から取り出された核酸を意味しうる。単離された核酸は、サンプル源に存在する非核酸分子の量よりも少ない非核酸分子（たとえば、タンパク質、脂質、低分子化合物、炭水化物、汚染物質、粒子、凝集体、塩、界面活性剤など）を有するように提供可能である。単離された核酸を含む組成物は、非核酸分子が約５０％〜９９％超除去されうる。単離された核酸を含む組成物は、非核酸分子が約９０％、９１％、９２％、９３％、９４％、９５％、９６％、９７％、９８％、９９％、または９９％超除去されうる。本明細書で用いられる「精製」という用語は、核酸を精製手順に付す前に存在していた非核酸分子の量よりも少ない非核酸分子を含有するという条件を満たす核酸を意味しうる。精製された核酸を含む組成物は、他の非核酸分子が少なくとも約６０％、７０％、８０％、８１％、８２％、８３％、８４％、８５％、８６％、８７％、８８％、８９％、９０％、９１％、９２％、９３％、９４％、９５％、９６％、９７％、９８％、９９％、または９９％超除去されうる。精製された核酸を含む組成物は、他の核酸が少なくとも約６０％、７０％、８０％、８１％、８２％、８３％、８４％、８５％、８６％、８７％、８８％、８９％、９０％、９１％、９２％、９３％、９４％、９５％、９６％、９７％、９８％、９９％、または９９％超除去されうる。精製された核酸を含む組成物は、精製方法の適用前にサンプル中に存在していた全核酸の少なくとも８０％、８１％、８２％、８３％、８４％、８５％、８６％、８７％、８８％、８９％、９０％、９１％、９２％、９３％、９４％、９５％、９６％、９７％、９８％、９９％、または９９％超を含みうる。

核酸シーケンシング
ある特定の実施形態では、核酸（たとえば、アンプリコン、ライブラリーの核酸、キャプチャーされた核酸）は、核酸シーケンシングを含むプロセスにより分析される。いくつかの実施形態では、核酸はシーケンシングされうる。いくつかの実施形態では、完全または実質的に完全な配列が得られ、ときには部分配列が得られる。

好適な核酸シーケンシング法を使用可能であり、その例としては、限定されるものではないが、マキサム・ギルバート法、チェーンターミネーション法、ライゲーションによるシーケンシング、合成によるシーケンシング、質量分析によるシーケンシング、顕微鏡観察に基づく技術など、またはそれらの組合せが挙げられる。いくつかの実施形態では、第１世代技術、たとえば、マイクロ流体サンガーシーケンシングを含めて自動サンガーシーケンシング法をはじめとするサンガーシーケンシング法などを本明細書に提供される方法で使用可能である。いくつかの実施形態では、核酸イメージング技術（たとえば、透過型電子顕微鏡法（ＴＥＭ）および原子間力顕微鏡法（ＡＦＭ））の使用を含むシーケンシング技術を使用可能である。いくつかの実施形態では、高スループットシーケンシング法が使用される。高スループットシーケンシング法は、一般に、大規模並列方式でときにはフローセル内でシーケンシングされるクローン増幅ＤＮＡテンプレートまたは単一ＤＮＡ分子を含む。大規模並列方式でＤＮＡをシーケンシング可能な次世代（たとえば第２世代および第３世代）シーケンシング技術を本明細書に記載の方法で使用可能であり、本明細書ではまとめて「大規模並列シーケンシング」（ＭＰＳ）と呼ぶ。本明細書に記載の方法を実施するのに好適な任意のＭＰＳ法または次世代シーケンシング法、システム、または技術プラットフォームを用いてシーケンシングリードを取得可能であり、その例としては、限定されるものではないが、Ｉｌｌｕｍｉｎａ／Ｓｏｌｅｘ／ＨｉＳｅｑ（たとえば、Ｉｌｌｕｍｉｎａゲノムアナライザー、ゲノムアナライザーＩＩ、ＨＩＳＥＱ２０００、ＨＩＳＥＱ２５００）、ＳＯＬｉＤ、Ｒｏｃｈｅ／４５４、ＰＡＣＢＩＯ、ＳＭＲＴ、ＨｅｌｉｃｏｓＴｒｕｅ単分子シーケンシング、ＩｏｎＴｏｒｒｅｎｔおよびＩｏｎ半導体に基づくシーケンシング、ＷｉｌｄＦｉｒｅ５５００、５５００ｘｌＷ、および／または５５００ｘｌＷ遺伝子アナライザーに基づく技術（たとえば、ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓにより開発され販売されている）、ポロニーシーケンシング、パイロシーケンシング、大規模並列シグネチャーシーケンシング、ＲＮＡポリメラーゼ（ＲＮＡＰ）シーケンシング、ＩＢＳ法、ＬａｓｅｒＧｅｎシステムおよび方法、化学増感電界効果トランジスター（ＣＨＥＭＦＥＴ）アレイ、電子顕微鏡法に基づくシーケンシング、ナノボールシーケンシング、ライゲーションによるシーケンシング、合成によるシーケンシング、ハイブリダイゼーションによるシーケンシングなど、またはそれらの変法が挙げられる。核酸イメージング技術（たとえば、透過型電子顕微鏡法（ＴＥＭ）および原子間力顕微鏡法（ＡＦＭ））の開発の利用を含むそのほかのシーケンシング技術もまた、本明細書で企図される。いくつかの実施形態では、高スループットシーケンシング法が使用される。高スループットシーケンシング法は、一般に、大規模並列方式でときにはフローセル内でシーケンシングされるクローン増幅ＤＮＡテンプレートまたは単一ＤＮＡ分子を含む。いくつかの実施形態では、ＭＰＳシーケンシング法は、特定の対象の染色体、遺伝子、または領域からシーケンスリードが生成される標的法を利用する。対象の特定の染色体、遺伝子、または領域は、本明細書では標的ゲノム領域とも呼ばれる。ある特定の実施形態では、サンプル中のほとんどまたはすべての核酸断片がランダムにシーケンシング、増幅、および／またはキャプチャーされる非標的法が使用される。

シーケンスリード
核酸をシーケンシング法に付すと、多くの場合、シーケンスリードが提供される。本明細書で用いられる場合、「リード」（たとえば、「リード」、「シーケンスリード」）とは、本明細書に記載のまたは当技術分野で公知の任意のシーケンシングプロセスにより生成された短いヌクレオチド配列のことである。リードは、核酸断片の一方の末端から生成可能であり（「シングルエンドリード」）、ときには核酸断片の両方の末端から生成される（たとえば、ペアエンドリード、ペアエンドシーケンスリード、ダブルエンドリード）。ペアエンドリードは、多くの場合、１つ以上のリードペア（たとえば、２つのリード、リードメイトペア）を含み、各リードペアは、シーケンシングされた核酸断片の各末端から取得したものである。リードメイトペアの各リードは、本明細書ではリードメイトと呼ばれることもある。ペアエンドシーケンシング法（たとえば、１つ以上の核酸ライブラリーがシーケンシングされる場合）は、多くの場合、複数のリードメイトペアおよび複数のリードメイトをもたらす。

シーケンスリードの長さは、多くの場合、特定のシーケンシング技術に関連する。たとえば、高スループット法および／または次世代シーケンスは、塩基対（ｂｐ）のサイズが何十〜何百の間でさまざまでありうるシーケンスリードを提供する。いくつかの実施形態では、シーケンスリードは、約１５ｂｐ〜約９００ｂｐの長さの平均長、メジアン長、または絶対長である。ある特定の実施形態では、シーケンスリードは、約１０００ｂｐ以上の平均長、メジアン長、または絶対長である。

シングルエンドリードは任意の好適な長さでありうる。いくつかの実施形態では、シングルエンドリードの公称長、平均長、または絶対長は、ときには、約１０ヌクレオチド〜約１０００隣接ヌクレオチド、約１０ヌクレオチド〜約５００隣接ヌクレオチド、約１０ヌクレオチド〜約２５０隣接ヌクレオチド、約１０ヌクレオチド〜約２００隣接ヌクレオチド、約１０ヌクレオチド〜約１５０隣接ヌクレオチド、約１５隣接ヌクレオチド〜約１００隣接ヌクレオチド、約２０隣接ヌクレオチド〜約７５隣接ヌクレオチド、または約３０隣接ヌクレオチド、または約５０隣接ヌクレオチドである。ある特定の実施形態では、シングルエンドリードの公称長、平均長、または絶対長は、約５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、３１、３２、３３、３４、３５、３６、３７、３８、３９、４０、４１、４２、４３、４４、４５、４６、４７、４８、４９、もしくは５０ヌクレオチドまたはそれ以上の長さである。

ペアエンドリード（たとえばリードメイト）は、任意の好適な長さでありうる。ある特定の実施形態では、核酸断片の両方の末端は、各リード（たとえば、断片テンプレートの両方の末端のリード）を参照ゲノムにマッピングするのに十分な好適なリード長でシーケンシングされる。ある特定の実施形態では、ペアエンドリードの公称長、平均長、または絶対長は、約１０隣接ヌクレオチド〜約５００隣接ヌクレオチド、約１０隣接ヌクレオチド〜約４００隣接ヌクレオチド、約１０隣接ヌクレオチド〜約３００隣接ヌクレオチド、約５０隣接ヌクレオチド〜約２００隣接ヌクレオチド、約１００隣接ヌクレオチド〜約２００隣接ヌクレオチド、または約１００隣接ヌクレオチド〜約１５０隣接ヌクレオチドである。ある特定の実施形態では、ペアエンドリードの公称長、平均長、または絶対長は、約１２５、１２６、１２７、１２８、１２９、１３０、１３１、１３２、１３３、１３４、１３５、１３６、１３７、１３８、１３９、１４０、１４１、１４２、１４３、１４４、１４５、１４６、１４７、１４８、１４９、１５０、１５１、１５２、１５３、１５４、１５５、１５６、１５７、１５８、１５９、１６０、１６１、１６２、１６３、１６４、１６５、１６６、１６７、１６８、１６９、１７０ヌクレオチドまたはそれ以上である。

リードは、一般に、物質核酸中のヌクレオチド配列の表現である。たとえば、配列のＡＴＧＣ描写を含有するリードでは、物質核酸内で「Ａ」はアデニンヌクレオチドを表し、「Ｔ」はチミンヌクレオチドを表し、「Ｇ」はグアニンヌクレオチドを表し、かつ「Ｃ」はシトシンヌクレオチドを表す。比較的短いリードの混合物は、本明細書に記載のプロセスにより被験体に存在するゲノム核酸の表現に変換可能である。たとえば、比較的短いリードの混合物は、コピー数変異（たとえばコピー数変異）、遺伝的変異、または異数性の表現に変換可能である。複数の被験体に由来する核酸の混合物のリードは、複数の被験体のそれぞれに対してゲノムまたはその一部の表現に変換可能である。ある特定の実施形態では、被験体に由来するサンプルの核酸配列リードを「取得するステップ」および／または１名以上の参照者に由来する生物学的検体の核酸配列リードを「取得するステップ」は、核酸を直接シーケンシングして配列情報を取得するステップを含みうる。いくつかの実施形態では、「取得ステップ」は、他の方法で核酸から直接取得した配列情報を受け取るステップを含みうる。

リードのマッピング
シーケンスリードはマッピング可能である。いくつかの実施形態では、好適なマッピング方法、プロセス、またはアルゴリズムを使用可能である。ある特定の実施形態では、修正マッピング方法およびプロセスが本明細書で使用される。マッピングプロセスのある特定の態様を以下に記載する。

ヌクレオチド配列リード（たとえば、物理的ゲノム位置が未知である断片の配列情報）のマッピングは、いくつかの方法で実施可能であり、多くの場合、取得したシーケンスリードまたはその一部と参照ゲノム中のマッチング配列とのアライメントを含む。かかるアライメントでは、シーケンスリードは、一般に、参照配列にアライメントされ、アライメントするリードは、「マッピングされた」、「マッピングされたシーケンスリード」、または「マッピングされたリード」として表される。

本明細書で用いられる場合、「アライメント」という用語は、マッチ（たとえば１００％の同一性）または部分マッチとして同定可能な２つ以上の核酸配列を意味する。アライメントは、手動でまたはコンピューター（たとえば、ソフトウェア、プログラム、コンピュータープログラムコンポーネント、またはアルゴリズム）により実施可能であり、その例としては、限定されるものではないが、Ｉｌｌｕｍｉｎａゲノム解析パイプラインの一部として頒布されるヌクレオチドデータコンピュータープログラムの効率的局所アライメント（ＥＬＡＮＤ）が挙げられる。シーケンスリードのアライメントは１００％の配列マッチでありうる。いくつかの場合には、アライメントは、１００％未満の配列マッチ（たとえば、非完全マッチ、部分マッチ、部分アライメント）である。いくつかの実施形態では、アライメントは、９９％、９８％、９７％、９６％、９５％、９４％、９３％、９２％、９１％、９０％、８９％、８８％、８７％、８６％、８５％、８４％、８３％、８２％、８１％、８０％、７９％、７８％、７７％、７６％、または７５％のマッチである。いくつかの実施形態では、アライメントはミスマッチを含む。いくつかの実施形態では、アライメントは、１、２、３、４、５個、またはそれ以上のミスマッチを含む。いずれかの鎖を用いて２つ以上の配列をアライメント可能である。ある特定の実施形態では、核酸配列は他の核酸配列の逆相補体にアライメントされる。

種々の計算方法を用いてシーケンスリードを参照ゲノムにマッピングおよび／またはアライメントすることが可能である。マッピングコンポーネントによりまたはマッピングコンポーネント（たとえば、好適なマッピングおよび／またはアライメントプログラム）を含むマシンもしくはコンピューターによりシーケンスリードをマッピングすることが可能であり、マッピングコンポーネントは、一般に、リードを参照ゲノムまたはそのセグメントにマッピングする。シーケンスリードおよび／またはペアエンドリードは、多くの場合、好適なマッピングおよび／またはアライメントプログラムを用いて参照ゲノムにマッピングされ、その例としては、限定されるものではないが、ＢＷＡ（ＬｉＨ．ａｎｄＤｕｒｂｉｎＲ．（２００９）Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ２５，１７５４−６０）、Ｎｏｖｏａｌｉｇｎ［Ｎｏｖｏｃｒａｆｔ（２０１０）］、Ｂｏｗｔｉｅ（ＬａｎｇｍｅａｄＢ，ｅｔａｌ．，（２００９）ＧｅｎｏｍｅＢｉｏｌ．１０：Ｒ２５）、ＳＯＡＰ２（ＬｉＲ，ｅｔａｌ．，（２００９）Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ２５，１９６６−６７）、ＢＦＡＳＴ（ＨｏｍｅｒＮ，ｅｔａｌ．，（２００９）ＰＬｏＳＯＮＥ４，ｅ７７６７）、ＧＡＳＳＳＴ（Ｒｉｚｋ，Ｇ．ａｎｄＬａｖｅｎｉｅｒ，Ｄ．（２０１０）Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ２６，２５３４−２５４０）、およびＭＰｓｃａｎ（ＲｉｖａｌｓＥ．，ｅｔａｌ．（２００９）ＬｅｃｔｕｒｅＮｏｔｅｓｉｎＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ５７２４，２４６−２６０）などが挙げられる。シーケンスリードおよび／またはペアエンドリードは、好適なショートリードアライメントプログラムを用いてマッピングおよび／またはアライメントすることが可能である。ショートリードアライメントプログラムの例は、限定されるものではないが、ＢａｒｒａＣＵＤＡ、ＢＦＡＳＴ、ＢＬＡＳＴＮ、ＢＬＡＳＴ、ＢＬＡＴ、ＢＬＩＴＺ、Ｂｏｗｔｉｅ（たとえば、ＢＯＷＴＩＥ１、ＢＯＷＴＩＥ２）、ＢＷＡ、ＣＡＳＨＸ、ＣＵＤＡ−ＥＣ、ＣＵＳＨＡＷ、ＣＵＳＨＡＷ２、ｄｒＦＡＳＴ、ＦＡＳＴＡ、ＥＬＡＮＤ、ＥＲＮＥ、ＧＮＵＭＡＰ、ＧＥＭ、ＧｅｎｓｅａｒｃｈＮＧＳ、ＧＭＡＰ、ＧｅｎｅｉｏｕｓＡｓｓｅｍｂｌｅｒ、ｉＳＡＡＣ、ＬＡＳＴ、ＭＡＱ、ｍｒＦＡＳＴ、ｍｒｓＦＡＳＴ、ＭＯＳＡＩＫ、ＭＰｓｃａｎ、Ｎｏｖｏａｌｉｇｎ、ＮｏｖｏａｌｉｇｎＣＳ、Ｎｏｖｏｃｒａｆｔ、ＮｅｘｔＧＥＮｅ、Ｏｍｉｘｏｎ、ＰＡＬＭａｐｐｅｒ、Ｐａｒｔｅｋ、ＰＡＳＳ、ＰｅｒＭ、ＰＲＯＢＥＭＡＴＣＨ、ＱＰａｌｍａ、ＲａｚｅｒＳ、ＲＥＡＬ、ｃＲＥＡＬ、ＲＭＡＰ、ｒＮＡ、ＲＴＧ、Ｓｅｇｅｍｅｈｌ、ＳｅｑＭａｐ、Ｓｈｒｅｃ、ＳＨＲｉＭＰ、ＳＬＩＤＥＲ、ＳＯＡＰ、ＳＯＡＰ２、ＳＯＡＰ３、ＳＯＣＳ、ＳＳＡＨＡ、ＳＳＡＨＡ２、Ｓｔａｍｐｙ、ＳＴｏＲＭ、Ｓｕｂｒｅａｄ、Ｓｕｂｊｕｎｃ、Ｔａｉｐａｎ、ＵＧＥＮＥ、ＶｅｌｏｃｉＭａｐｐｅｒ、ＴｉｍｅＬｏｇｉｃ、ＸｐｒｅｓｓＡｌｉｇｎ、ＺＯＯＭなど、それらの修正版、またはそれらの組合せである。マッピングコンポーネントは、当技術分野で公知のまたは本明細書に記載の好適な方法によりシーケンシングリードをマッピングすることが可能である。いくつかの実施形態では、マッピングコンポーネントまたはマッピングコンポーネントを含むマシンもしくはコンピューターは、マッピングされたシーケンスリードを提供するのに必要である。マッピングコンポーネントは、多くの場合、好適なマッピングおよび／またはアライメントのプログラムまたはアルゴリズムを含む。

いくつかの実施形態では、１つ以上のシーケンスリードおよび／またはシーケンスリードに関連する情報は、好適なコンピューター可読形式で非一時的コンピューター可読記憶媒体に記憶されるおよび／またはそれからアクセスされる。非一時的コンピューター可読記憶媒体の記憶された情報は、ファイルまたはデータファイルと呼ばれることもある。リード（たとえば、個別リード、ペアエンドリード、リードメイト、リードメイトペア）、選択されたリード、リードのセットもしくはサブセット、および／または１つ以上のリードに関連する情報は、多くの場合、ファイルまたはデータファイルに記憶される。ファイルは形式を含むことが多い。たとえば、シーケンスリードは、１つ以上のシーケンスリードに関する情報を含む形式で記憶されることが多く、かかる情報の例としては、限定されるものではないが、完全核酸配列または部分核酸配列、マッピング性、マッピング性スコア、マッピングされた位置、他のマッピングされたもしくはマッピングされていないリードからの相対位置または距離（たとえば、リードメイト間の推定距離）、参照ゲノムまたは他のリードに対する（たとえば、リードメイトに対する）向き、リードメイトの推定位置または精密位置、Ｇ／Ｃ含有率など、またはそれらの組合せが挙げられる。「コンピューター可読形式」は、本明細書では一般に形式と呼ばれることもある。いくつかの実施形態では、シーケンスリードは、好適なバイナリー形式、テキスト形式など、またはそれらの組合せで記憶および／またはアクセスされる。バイナリー形式はＢＡＭ形式であることもある。テキスト形式は配列アライメント／マップ（ＳＡＭ）形式である。バイナリー形式および／またはテキスト形式の例としては、限定されるものではないが、ＢＡＭ、ソートＢＡＭ、ＳＡＭ、ＳＲＦ、ＦＡＳＴＡ、ＦＡＳＴＱ、Ｇｚｉｐなど、またはそれらの組合せが挙げられる。

いくつかの実施形態では、本明細書のプログラムは、１つ以上のファイル（たとえばソートｂａｍファイル）を取得または検索すべくマイクロプロセッサーに命令するように構成される。いくつかの実施形態では、本明細書のプログラムは、１つ以上のＦＡＳＴＱファイル（たとえば、第１のリードおよび第２のリードのためのＦＡＳＴＱファイル）ならびに／または１つ以上の参照ファイル（たとえば、ＦＡＳＴＡもしくはＦＡＳＴＱファイル）を取得または検索すべくマイクロプロセッサーに命令するように構成される。いくつかの実施形態では、本明細書のプログラムは、１つ以上のコンピュータープログラムコンポーネント（たとえば、アダプタートリマーコンポーネント、ＢＷＡ−ＭＥＭアライナー、インサートサイズ分布コンポーネント、サムツール、など）にまたはそれらからコンピュータープログラムコンポーネントおよび／または転送データおよび／または情報（たとえばファイル）をコールするようにマイクロプロセッサーに命令する。いくつかの実施形態では、プログラムは、他の処理ステップへの入力のために新しいファイルおよび形式を生成するコンピュータープログラムコンポーネントをコールするようにプロセッサーに命令する（実施例１および図１を参照されたい）。いくつかの実施形態では、第１の形式のシーケンスリードは、第１の形式よりも少ない記憶スペースを必要とする第２の形式に圧縮される。本明細書で用いられる「圧縮」という用語は、コンピューター可読データファイルのサイズが削減されるデータ圧縮、ソースコーディング、および／またはビットレート削減のプロセスを意味する。圧縮コンポーネントの例としては、限定されるものではないが、ＧＺＩＰ、ＢＧＺＦなど、またはそれらの修正版が挙げられる。

いくつかの実施形態では、リードは、参照ゲノムに一義的にまたは非一義的にマッピングされうる。参照ゲノム中の単一の配列にアライメントされた場合、リードは「一義的にマッピングされた」とみなされる。参照ゲノム中の２つ以上の配列にアライメントされた場合、リードは「非一義的にマッピングされた」とみなされる。いくつかの実施形態では、非一義的にマッピングされたリードはさらなる分析（たとえば定量）から除外される。ある特定の実施形態では、ある特定の小さいミスマッチ度（０〜１）は、参照ゲノムとマッピング対象の個別のサンプル由来のリードと間に存在する可能性のある単一ヌクレオチド多型を補償すべく許容されうる。いくつかの実施形態では、参照配列にマッピングされたリードに対してミスマッチ度が許容されない。

本明細書で用いられる場合、「参照ゲノム」という用語は、被験体から同定された配列の参照に使用しうる任意の生物またはウイルスの任意の特定の公知のシーケンシングされたまたは特徴付けられたゲノム（一部であるか全部であるかを問わず）を意味しうる。参照ゲノムは、参照ゲノムのセグメント（たとえば、染色体またはその一部、たとえば、参照ゲノムの１つ以上の部分）を意味することもある。ヒトゲノム、ヒトゲノムアセンブリー、および／または任意の他の生物に由来するゲノムは、参照ゲノムとして使用可能である。１つ以上のヒトゲノム、ヒトゲノムアセンブリー、さらには他の生物のゲノムは、ｗｗｗ．ｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖの国立バイオテクノロジー情報センター（ＮａｔｉｏｎａｌＣｅｎｔｅｒｆｏｒＢｉｏｔｅｃｈｎｏｌｏｇｙＩｎｆｏｒｍａｔｉｏｎ）に見いだしうる。「ゲノム」とは、核酸配列で発現される生物またはウイルスの完全遺伝情報を意味する。本明細書で用いられる場合、参照配列または参照ゲノムは、多くの場合、１つまたは複数の個体に由来するアセンブルまたは部分アセンブルされたゲノム配列である。いくつかの実施形態では、参照ゲノムは、１名以上のヒト個体に由来するアセンブルまたは部分アセンブルされたゲノム配列である。いくつかの実施形態では、参照ゲノムは、染色体に帰属される配列を含む。本明細書で用いられる「参照配列」という用語は、１つ以上の参照サンプルの１つ以上のポリヌクレオチド配列を意味する。いくつかの実施形態では、参照配列は、参照サンプルから取得したシーケンスリードを含む。いくつかの実施形態では、参照配列は、シーケンスリード、リードのアセンブリー、および／またはコンセンサスＤＮＡ配列（たとえば配列コンティグ）を含む。いくつかの実施形態では、参照サンプルは、遺伝的変異（たとえば、当該の遺伝的変異）を実質的に含まない参照被験体から取得される。いくつかの実施形態では、参照サンプルは、公知の遺伝的変異を含む参照被験体から取得される。本明細書で用いられる「参照」という用語は、参照ゲノム、参照配列、参照サンプル、および／または参照被験体を意味しうる。いくつかの実施形態では、シーケンスリードは、たとえば、ＧｅｎＢａｎｋ、ｄｂＥＳＴ、ｄｂＳＴＳ、ＥＭＢＬ（欧州分子生物学研究所（ＥｕｒｏｐｅａｎＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙＬａｂｏｒａｔｏｒｙ））、およびＤＤＢＪ（日本のＤＮＡデータバンク）を含めて、当技術分野で公知の核酸データベースに見いだしうるおよび／または核酸データベースの配列にアライメントしうる。ＢＬＡＳＴまたは類似のツールは、同定された配列を配列データベースで検索するために使用可能である。

ある特定の実施形態では、マッピング性はゲノム領域（たとえば、一部、ゲノム部分）で評価される。マッピング性とは、たとえば、０、１、２個またはそれ以上のミスマッチを含めて、典型的には指定数までのミスマッチで、ヌクレオチド配列リードを参照ゲノムの一部に一義的にアライメントする能力のことである。いくつかの実施形態では、マッピング性はスコアまたは値として提供され、スコアまたは値は好適なマッピングアルゴリズムまたはコンピューターマッピングソフトウェアにより生成される。一義的ヌクレオチド配列のストレッチを含むゲノム領域にアライメントされた高品質シーケンスリードは、高いマッピング性値を有することが多い。

ペアエンドリードは、参照ゲノムに従って同一のポリヌクレオチド断片の対向末端にマッピングされることもある。いくつかの実施形態では、リードメイトペアの１つのリードだけが参照ゲノムにマッピングされる。いくつかの実施形態では、リードメイトペアのリードメイトは独立してマッピングされている。いくつかの実施形態では、リードメイトペアの両方のリードメイトの情報（たとえば、向き、推定インサートサイズ、リード間の推定距離）は、マッピングプロセス時に因子として組み込まれる。参照ゲノムは、多くの場合、リードメイトペア間に位置する核酸の配列を決定および／または推測するために使用される。２つのペアエンドリード間に位置する核酸は、多くの場合、本明細書ではインサートと呼ばれる。いくつかの実施形態では、インサートサイズは、リードメイトペアの両方のリードメイトを参照配列にマッピングすることにより決定または推定される。いくつかの実施形態では、インサートサイズ（たとえば長さ）は分布に従って推定または決定される。ある特定の実施形態では、利用可能インサートを含むインサートサイズの確率は、インサートサイズ分布により決定される。いくつかの実施形態では、インサートサイズは好適な分布および／または好適な分布関数により決定される。いくつかの実施形態では、インサートサイズまたは推定インサートサイズは、分布関数を含むことが多いインサートサイズ分布コンポーネントにより決定される。分布関数の例としては、限定されるものではないが、確率関数、確率分布関数、確率密度関数（ＰＤＦ）、カーネル密度関数（カーネル密度推定）、累積分布関数、確率質量関数、離散確率分布、絶対連続単変量分布など、任意の好適な分布、またはそれらの組合せが挙げられる。インサートサイズは、平均、規格化、および／または加重インサート長から生成される。インサートサイズ分布は、シーケンシングされた核酸ライブラリーの断片から誘導される推定および／または既知の核酸断片長に従って推定される。いくつかの実施形態では、好適な記憶媒体は、記憶された推定インサート長、インサート長分布などを含む。ある特定の実施形態では、シーケンスリードは、インサートサイズ分布、推定インサート長、リードメイト間の推定距離など、またはそれらの組合せを含む。

リードリクルートメント
いくつかの実施形態では、本明細書の方法、プロセス、またはシステムは、リードリクルートメントプロセスを含む。リードリクルートメントプロセスは、多くの場合、リードリクルートメントコンポーネントにより行われる。ある特定の実施形態では、リードリクルートメントプロセスは、本明細書に記載のシーケンスリードを取得および／または選択するステップを含む。いくつかの実施形態では、リードリクルートメントプロセスは、複数のリードからリードサブセットを取得および／または選択する方法を含む。

いくつかの実施形態では、リードメイトペアの一方のリードメイト（たとえば、ペアエンドシーケンシング法から取得される）は参照ゲノムにマッピングされ、かつリードメイトペアの他方のリードメイトは、参照ゲノムに誤ってマッピングされるか、参照ゲノムにマッピングできないか、または低いマッピング性スコアを含む。かかるリードメイトペアは、不一致リードメイトペアと呼ばれることもある。いくつかの実施形態では、不一致リードメイトペアは、対象の参照ゲノムの領域（たとえば、対象のゲノム領域）にマッピングされる一方のリードメイトを含み、かつ他方のリードメイトは対象の参照ゲノムの一部にマッピングできない。いくつかの実施形態では、不一致リードメイトペアは、対象の参照ゲノムの一部（たとえば、対象のゲノム領域の一部）にマッピングされる第１のリードメイトと、参照ゲノムの予想外の位置にマッピングされる第２のリードメイトと、を含む。参照ゲノムの予想外の位置の例としては、限定されるものではないが、（ｉ）第１のリードがマッピングされた染色体とは異なる染色体、（ｉｉ）第１のリードメイトから所定の距離（その例としては、限定されるものではないが、推定インサートサイズから予測される距離が挙げられる）を超えて分離された、すなわち、３００ｂｐ超、５００ｂｐ超、１０００ｂｐ超、５０００ｂｐ超、または１０，０００ｂｐ超の距離だけ分離されたゲノム位置、（ｉｉｉ）第１のリードと一致しない向き（たとえば、反対の向き）など、それらの組合せが挙げられる。いくつかの実施形態では、不一致リードメイトペアは、参照ゲノムの第１のセグメントにマッピングされる第１のリードメイトまたはその一部と、マッピングできないおよび／または低いマッピング性（たとえば、低いマッピング性スコア）を含む第２のリードメイトと、を含む。いくつかの実施形態では、不一致リードメイトペアは、参照ゲノムの第１のセグメントまたはその一部にマッピングされる第１のリードメイトと、第２のリードメイトと、を含み、第２のリードメイトまたはその一部のマッピング性は決定されない。不一致リードメイトペアは、好適な不一致リード同定コンポーネントによりまたは不一致リード同定コンポーネントを含むマシンにより同定可能であり、不一致リード同定コンポーネントは、一般に、不一致リードメイトペアを同定する。不一致リード同定コンポーネントの例としては、限定されるものではないが、ＳＶＤｅｔｅｃｔ、Ｌｕｍｐｙ、ＢｒｅａｋＤａｎｃｅｒ、ＢｒｅａｋＤａｎｃｅｒＭａｘ、ＣＲＥＳＴ、ＤＥＬＬＹなど、またはそれらの組合せが挙げられる。いくつかの実施形態では、不一致リードメイトペアはアルゴリズムやコンポーネントにより同定されない。ある特定の実施形態では、不一致リードペアは、ペアエンドリードメイトを同定するアルゴリズムにより同定され、リードメイトペアの一方のリードメイトは、参照ゲノムにマッピングされ、かつリードメイトペアの他方のリードメイトは、参照ゲノムに誤ってマッピングされるか、参照ゲノムにマッピングできないか、または低いマッピング性スコアを含む。

いくつかの実施形態では、リードリクルートメントプロセスは、対象のゲノム領域の参照ゲノムにマッピングされるすべてのペアエンドリードを（たとえば、複数のリードから）選択および／または取得する。いくつかの実施形態では、各リードメイトペアの少なくとも１つが対象のゲノム領域の参照ゲノムに完全にまたは部分的にマッピングされるペアエンドリードはすべて、本明細書の分析のために取得および／または使用される。いくつかの実施形態では、各リードメイトペアの少なくとも一方または両方が対象のゲノム領域の参照ゲノムに完全にまたは部分的にマッピングされるペアエンドリードはすべて、本明細書の分析のために取得および／または使用される。いくつかの実施形態では、各不一致リードメイトペアのリードの少なくとも１つが対象のゲノム領域の参照ゲノムにマッピングされる不一致リードメイトペアはすべて、本明細書の分析のために取得および／または使用される。

いくつかの実施形態では、本明細書の方法またはシステムは、複数のリードメイトペアを含むペアエンドシーケンスリードセットを取得するステップを含む。いくつかの実施形態では、本明細書の方法またはシステムは、複数のリードメイトペアからなるペアエンドシーケンスリードセットを取得するステップを含む。ある特定の実施形態では、リードメイトペアのシーケンシングリードの各ペアは、ペアエンドシーケンシング法から取得される。ある特定の実施形態では、リードメイトペアのシーケンシングリードの各ペアは、２つのリードメイトからなる。リードメイトは、多くの場合、シーケンシングリードである。いくつかの実施形態では、本明細書の方法またはシステムは、複数のリードメイトペアを含むペアエンドシーケンスリードセットを取得するステップを含み、各ペアのリードメイトの少なくとも１つまたはその一部は、所定の対象のゲノム領域を含む参照ゲノムの少なくとも一部にマッピングされ、かつペアエンドシーケンスリードのいくつかは、所定の対象のゲノム領域を含む参照ゲノムの少なくとも１つの部分にマッピングされない。

いくつかの実施形態では、本明細書の方法およびシステムは、ペアエンドシーケンスリードから取得したリードメイトペアの両方のリードメイトをリクルートすることにより、拡張ＳＴＲ、配列接合、および大きな複雑な変異を含む領域でリードマッピング問題を回避する。この場合、リードメイトペアの第１のリードは、リードメイトペアの第２のリードのマッピング性にかかわらず、対象のゲノム領域にマッピングされる。ある特定の実施形態では、本明細書の方法およびシステムは、マッピングされたリードメイトの位置、リードメイトペアの両方のリードメイトの向き、および／またはリードメイト間の推定距離（たとえば、推定インサートサイズ）を利用して、遺伝的変異を含みうる被験体から取得したゲノム核酸の領域をアセンブルする。

ある特定の実施形態では、本明細書の方法およびシステムは、リードがマッピングされる対象の１つのゲノム領域を使用する。ある特定の実施形態では、本明細書の方法およびシステムは、スプリットリードシグナルまたは不一致メイトシグナルを用いて同定されたものでありうる対象の２つのゲノム領域を用いて、転座および／または接合を含む遺伝的変異にまたはその近傍に位置するリードをリクルートおよび／または検索する。いくつかの実施形態では、対象のゲノム領域は事前に選択される（たとえば、リードを取得する前、リードをリクルートする前、リードを分析、マッピング、および／またはアセンブルする前）。対象のゲノム領域はゲノムの任意の好適な部分でありうる。対象のゲノム領域は、１つ以上の染色体、遺伝子、エキソン、イントロン、非翻訳領域（たとえば、調節領域、プロモーター／エンハンサー領域）、メチル化領域、非メチル化領域、またはそれらの一部を含むかまたはそれからなる。いくつかの実施形態では、対象のゲノム領域は、遺伝的変異を有する疑いのある領域または既知の遺伝的変異（たとえば、他の被験体またはサブ集団ですでに同定されている遺伝的変異）を含有する可能性のある領域を含む。いくつかの実施形態では、対象のゲノム領域は遺伝的変異を含む。いくつかの実施形態では、対象のゲノム領域は遺伝的変異を含まない。

シーケンスリード（たとえばリードメイト）は、多くの場合、既知の向きを含む。たとえば、記憶媒体は、多くの場合、リードメイトの既知の向きを含有するファイルを含む。いくつかの実施形態では、リードメイトの向きおよび／または推定インサートサイズは、パイルアップ、コンティグ、および／またはスーパーコンティグ内にあるマッピングされた、マッピングされない、不十分にマッピングされた、または一致しないリードメイトの位置を決定するために使用される。

いくつかの実施形態では、シーケンスリードはトリミングされる。ある特定の実施形態では、トリミングとは、シーケンスリードから合成核酸および／または異種核酸または核酸の一部を同定および／または除去するステップを意味する。ただし、合成核酸および／または異種核酸は、ライブラリーの構築および／またはシーケンシング法で使用したものである。異種核酸は、多くの場合、被験体ゲノムに対して異種または外来である。トリミングされることが多い合成核酸および／または異種核酸の例としては、限定されるものではないが、アダプター、プラスミド、ベクター、プライマー結合部位、インデックスタグ（たとえば、核酸バーコード配列）、核酸キャプチャー配列など、またはそれらの組合せが挙げられる。いくつかの実施形態では、トリミングは、合成および／または異種のシーケンシングリードの部分を欠失および／または無視するようにプロセッサーに命令するステップを含む。合成核酸、異種核酸、および／またはトリミングされる核酸は、多くの場合、本明細書の方法またはプロセスに含まれない。いくつかの実施形態では、シーケンスリードは、ペアエンドシーケンスリードセットの取得前または取得時にトリミングされる。いくつかの実施形態では、シーケンスリードは、パイルアップ関係の決定、フィルタリング、１つ以上のコンティグの構築、１つ以上のスーパーコンティグのアセンブリー、および／または遺伝子型尤度比の生成の実施前または実施時にトリミングされる。ある特定の実施形態では、トリミングはトリミングコンポーネントにより実施される。

パイルアップ関係
いくつかの実施形態では、本明細書の方法またはプロセスは、シーケンスリードのセットまたはサブセットでパイルアップ関係を決定するステップを含む。いくつかの実施形態では、パイルアップ関係は、対象の参照ゲノムの領域にリードのいくつかをマッピングする場合にセットの複数のリード間に１つ以上のオーバーラップ（たとえば、複数のオーバーラップ）を含む。いくつかの実施形態では、パイルアップ関係はタイリンググラフの構築を含む。いくつかの実施形態では、パイルアップ関係はペアエンドシーケンスリードセットのすべてのリードを含む。いくつかの実施形態では、パイルアップ関係はペアエンドシーケンスリードセットの選択されたリードを含む。いくつかの実施形態では、オーバーラップは２つ以上のリードのアライメントを含む。ある特定の実施形態では、オーバーラップはアライメントスコアを含む。ある特定の実施形態では、オーバーラップはｋ−ｍｅｒハッシングストラテジーに従って決定される。

いくつかの実施形態では、パイルアップ関係は複数のオーバーラップを含む。ある特定の実施形態では、パイルアップ関係は、選択および／または記憶された（たとえば、メモリーに記憶された）１つ以上のオーバーラップを含む。パイルアップ関係を決定するステップは、複数のリード間のすべての可能なオーバーラップを決定および／または評価するステップを含むこともある。ある特定の実施形態では、すべての可能なオーバーラップのうちいくつかのオーバーラップのみが選択および／または記憶される。ある特定の実施形態では、選択されたすべてのオーバーラップが記憶され、パイルアップ関係に使用される。

パイルアップ関係に使用されるオーバーラップは、多くの場合、１つ以上の基準を満たす。たとえば、いくつかの実施形態では、第１の基準は、アライメント閾値スコアを上回る第１のリードと第２のリードとの間のオーバーラップを含む。いくつかの実施形態では、セットの第１のリードがセットの第２のリードとのオーバーラップを含み、かつオーバーラップが所定のアライメントスコア閾値またはカットオフよりも大きいアライメントスコアを含む場合、オーバーラップは選択および／または記憶される。いくつかの実施形態では、セットの第１のリードがセットの１、２、３個またはそれ以上の他のリードとのオーバーラップを含み、かつオーバーラップが所定のアライメントスコア閾値よりも大きいアライメントスコアを含む場合、オーバーラップは選択および／または記憶される。いくつかの実施形態では、セットの第１のリードがセットの１、２、３個またはそれ以上の他のリードとのオーバーラップを含み、オーバーラップのそれぞれが所定のアライメントスコア閾値よりも大きいアライメントスコアを含み、かつオーバーラップのそれぞれが同一のアライメントスコアを含む場合、オーバーラップは選択および／または記憶される。アライメントスコアは任意の好適な方法またはアルゴリズムにより決定可能であり、その例としては、限定されるものではないが、ＳｍｉｔｈおよびＷａｔｅｒｍａｎの方法（ＳｍｉｔｈＴＦ，ＷａｔｅｒｍａｎＭＳ．，１９８１）Ｊ．Ｔｈｅｏｒ．Ｂｉｏｌ．９１（２）：３７９−８０、およびＳｍｉｔｈＴＦ，ＷａｔｅｒｍａｎＭＳ．，（１９８１）Ｊ．Ｍｏｌ．Ｂｉｏｌ．１４７（１）：１９５−７）ならびにＮｅｅｄｌｅｍａｎの方法（Ｎｅｅｄｌｅｍａｎ，Ｓ．Ｂ．ａｎｄＷｕｎｓｃｈ，Ｃ．Ｄ．（１９７０）Ｊ．Ｍｏｌ．Ｂｉｏｌ．４８（３）：４４３−５３）が挙げられる。たとえば、いくつかの実施形態では、スミス・ウォーターマンのアルゴリズムは、マッチスコアが１０でありかつミスマッチペナルティーが−５００である場合、５００のアライメントスコアカットオフで使用される。ある特定の実施形態では、挿入および欠失（ｉｎ／ｄｅｌ）はリード−リードアライメント時に禁止および／または除外される。いくつかの実施形態では、挿入または欠失を開始または伸長するペナルティーはすべてのまたはほとんどのｉｎ／ｄｅｌを除外するのに十分な程度に高く設定される。いくつかの実施形態では、ギャップは許容されない。ある特定の実施形態では、いくつかのｉｎ／ｄｅｌはリード−リードアライメント時に許容可能または組込み可能である。

いくつかの実施形態では、第２の基準は、すべての可能なオーバーラップのうち最も高いアライメントスコアであるオーバーラップを必要とする。いくつかの実施形態では、選択および／または記憶されるオーバーラップは、リードセットの第１のリードと任意の他のリードとの間のすべての可能なオーバーラップ（たとえば、すべての可能なアライメント）のうち最も高いアライメントスコアを含む。ときには、選択および／または記憶されるオーバーラップは、第１のリードと複数の他のリードとの間で決定された複数のオーバーラップ（たとえば、複数のアライメント）のうち最も高いアライメントスコアを含む。

いくつかの実施形態では、オーバーラップは、リードの３’末端または５’末端を越えて１つ以上のヌクレオチドを伸長する。いくつかの実施形態では、第３の基準は、第１のリードの５’または３’末端を越えて第１のリードを伸長するオーバーラップを必要とする。ある特定の実施形態では、第１のリードは、５’方向または３’方向のいずれかにかつ第１のリードの末端を越えて第１のリードを伸長するオーバーラップを含む。第１のリードを伸長する第１のリードと第２のリードとの間のオーバーラップは、多くの場合、第１のリードの３’末端または５’末端を越えて伸長する第２のリードの１つ以上のヌクレオチドを含む。ときには、オーバーラップは、第１のリードと第２のリードとがオーバーラップしかつオーバーラップが第１のリードの３’末端または５’末端を越えて第１のリードを伸長する場合に選択または記憶される。いくつかの実施形態では、オーバーラップは、リードの３’末端または５’末端を越えて少なくとも１、２、３、４、５、６、７、８、９、１０、１５、２０、５０、１００ヌクレオチド、または少なくとも１５０ヌクレオチド伸長する。ある特定の実施形態では、第１のリードは、３’方向に第１のリードを伸長する第２のリードとの第１のオーバーラップを含み、かつ第１のリードは、５’方向に第１のリードを伸長する第３のリードとの第２のオーバーラップを含む。ある特定の実施形態では、パイルアップ関係は、第１のリードと第２のリードとの間のオーバーラップと、第１のリードと第３のリードとの間のオーバーラップと、を含み、これらのオーバーラップは、３’方向および５’方向に第１のリードを伸長する。

いくつかの実施形態では、パイルアップ関係は、第１のリード、第２のリード、およびたとえば第３のリードに追加の選択されたオーバーラップを含む。たとえば、第２のリードが第２のリードを伸長する第３のリードとのオーバーラップを含む場合、第１のリードは、多くの場合、選択および／または記憶される第２のリードとの第１のオーバーラップを含む。以上の例では、オーバーラップは、同一の３’方向または５’方向に第１のリードおよび第２のリードを伸長するであろう。さらに、第３のリードは、第１のリードとオーバーラップしてもよいししなくてもよい。いくつかの実施形態では、第１のリードは、５’方向および／または３’方向に第１のリードを伸長する複数のリードとの複数のオーバーラップを含み、各オーバーラップは基準の１つ以上を満たす。いくつかの実施形態では、第１のリードは、第１のリードの５’末端を越えて伸長する少なくとも２つのオーバーラップと、第１のリードの３’末端を越えて伸長する少なくとも２つのオーバーラップと、を含む。

いくつかの実施形態では、パイルアップ関係は、複数のリードに複数の選択および／または記憶されるオーバーラップを含み、各オーバーラップは、複数のオーバーラップから選択されうる。いくつかの実施形態では、パイルアップ関係は、リードセットに複数の選択および／または記憶されるオーバーラップを含み、各オーバーラップは、次のことを満たす。すなわち、（ｉ）アライメントスコアが所定のアライメントスコア閾値よりも高い場合、オーバーラップは、第１のリードと第２のリードとの間のアライメントを含まなければならず、（ｉｉ）第１のリードと第２のリードとの間のオーバーラップは、第１のリードの３’末端または５’末端を越えて第１のリードを伸長しなければならず、かつ（ｉｉｉ）第１のリードと第２のリードとの間のオーバーラップは、リードセットの第１のリードと任意の他のリードとの間で（ｉ）および（ｉｉ）を満たすすべての可能なオーバーラップのうち最も高いアライメントスコアを含む。ある特定の実施形態では、以上の（ｉ）、（ｉｉ）、および（ｉｉｉ）に加えて、第２のリードは、（ｉｖ）所定のアライメントスコア閾値よりも高く、（ｖ）同一の３’方向または５’方向にかつ第２のリードの末端を越えては第１のリードおよび第２のリードを伸長し、しかも（ｖｉ）第２のリードと以上の（ｉｖ）および（ｖ）を満たす任意の他のリードとの間の最も高いアライメントスコアである、オーバーラップを含む。ある特定の実施形態では、方法またはプロセスは、各オーバーラップが以上の（ｉ）、（ｉｉ）、および（ｉｉｉ）を満たすセットの複数のリードのオーバーラップを選択および／または記憶するステップを含むパイルアップ関係を決定するステップを含む。いくつかの実施形態では、セットの各リードは、５’方向および／または３’方向にリードを伸長する１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、もしくは１５またはそれ以上のオーバーラップを含む。パイル関係は、多くの場合、それぞれ複数のオーバーラップを含む複数のリードを含む。

いくつかの実施形態では、オーバーラップはスコアまたはインデックスを含む。たとえば、ある特定の実施形態では、リードセットのすべての可能なオーバーラップが決定され、かつときには各オーバーラップがスコアまたは値に関連付けられる。オーバーラップに関連付けられるスコアまたは値（たとえば、ポイント値）は、ときには、以上の条件（ｉ）、（ｉｉ）、（ｉｉｉ）、（ｉｖ）、および／または（ｖ）の１つ以上により決定される合計値または平均値である。いくつかの実施形態では、オーバーラップはアライメントスコアに関連付けられる。ある特定の実施形態では、オーバーラップはフィルタリングされる。フィルタリングされるオーバーラップは、多くの場合、パイルアップ関係から除去または欠失される。欠失またはフィルタリングされるオーバーラップは、多くの場合、コンティグまたはスーパーコンティグのｄｅｎｏｖｏアセンブリーで考慮されない。いくつかの実施形態では、オーバーラップは、スコアまたは所定のカットオフスコアに従ってフィルタリングされる。いくつかの実施形態では、オーバーラップは、所定のアライメントスコア閾値に従ってフィルタリングされる。いくつかの実施形態では、（ｉ）、（ｉｉ）、（ｉｉｉ）、（ｉｖ）、および（ｖ）の一部または全部の要件を満たさないオーバーラップはフィルタリングされる。フィルタリングアルゴリズムは公知であり、任意の好適なフィルターはパイル関係のオーバーラップをフィルタリングするように修正可能である。いくつかの実施形態では、フィルターは、セット中のすべてのリードにわたり繰り返して選択および／または記憶される各リードのオーバーラップのリストを（たとえば、（ｉ）、（ｉｉ）、（ｉｉｉ）、（ｉｖ）、および／または（ｖ）に従って）維持するプルーニングアルゴリズムを含む。ある特定の実施形態では、プログラムは、リードセットの複数のオーバーラップをフィルタリングするようにマイクロプロセッサーに命令する。

ある特定の実施形態では、パイルアップ関係の決定は、エラー補正を含むプロセスを含まない。いくつかの実施形態では、パイルアップ関係は、挿入または欠失を含むオーバーラップを含まない。いくつかの実施形態では、パイルアップ関係は、１つ以上のミスマッチを含むオーバーラップを含む。

コンティグ
いくつかの実施形態では、１つ以上のコンティグは、リードセットでアセンブルおよび／または構築される。いくつかの実施形態では、１つ以上のコンティグは、リードセットで選択および／または記憶される複数のオーバーラップに従って構築される。ある特定の実施形態では、１つ以上のコンティグは、リードセットの複数のオーバーラップを含むパイルアップ関係に従って構築される。ある特定の実施形態では、コンティグは、１つ以上のスターターリードから構築される。ある特定の実施形態では、１つ以上のコンティグは、１、２、３、４、５、６、７、８、９、もしくは１０またはそれ以上のスターターリードから構築される。スターターリードはセットの任意の好適なリードでありうる。ときには、スターターリードは、リードセットの最も５’側のリードおよび／または最も３’側のリードを含む。最も５’側のリードは、多くの場合、セットのシーケンスリードの一部または全部がマッピングされる対象のゲノム領域の最も５’側の領域にマッピングされるリードである。同様に、最も３’側のリードは、多くの場合、セットのシーケンスリードの一部または全部がマッピングされる対象のゲノム領域の最も３’側の領域にマッピングされるリードである。ある特定の実施形態では、コンティグは、セットの最も３’側のリードでも最も５’側のリードでもないスターターリードからアセンブルされる。

いくつかの実施形態では、コンティグは、スターターリードからアセンブルされ、かつプロセスは、スターターリードの３’位置または５’位置に少なくとも１つのヌクレオチドを繰り返し付加するステップを含む。スターターリードの３’位置または５’位置は、スターターリードの任意の好適なヌクレオチドの３’位置または５’位置でありうる。いくつかの実施形態では、スターターリードの３’位置または５’位置は、スターターリードの末端（たとえば、３’末端または５’末端）の３’位置または５’位置である。いくつかの実施形態では、スターターリードの３’位置または５’位置は、スターターリードのメジアンヌクレオチドまたは中間ヌクレオチドの３’位置または５’位置である。多くの場合、スターターリードの３’位置または５’位置に少なくとも１つヌクレオチドを繰り返し付加するプロセスは、スターターリード内の好適な位置（たとえば、好適な位置に位置するヌクレオチド）を最初に選択するステップと、選択された位置でパイルアップ関係に従ってマジョリティーコンセンサスヌクレオチドを決定するステップ（たとえば、マジョリティーコンセンサスヌクレオチドの決定については以下を参照されたい）と、パイルアップ関係に従って決定されたマジョリティーコンセンサスヌクレオチドの３’位置および／または５’位置に１つ以上のヌクレオチドを繰り返し付加することによりコンティグのアセンブリーを開始するステップと、を含む。ある特定の実施形態では、スターターリードは、コンティグアセンブリープロセスを開始する第１のリードであり、かつリクルートリードのパイルアップ関係は、スターターリードの各ヌクレオチド位置のマジョリティーコンセンサスヌクレオチドを決定する。たとえば、ある特定の実施形態では、スターターリードは、コンティグまたは中間コンティグのアセンブリーに使用されるのと類似のプロセスにより再アセンブルされる。

いくつかの実施形態では、コンティグはスターターリードからアセンブルされ、かつプロセスは中間コンティグの３’位置または５’位置に少なくとも１つのヌクレオチドを繰り返し付加するステップを含む。いくつかの実施形態では、中間コンティグは、スターターリード（たとえば、スターターリードの少なくともいくつかのヌクレオチド）と、スターターリードの３’側および／または５’側に付加された１つ以上のヌクレオチドと、を含む。いくつかの実施形態では、中間コンティグは、スターターリードのヌクレオチドの一部または全部を含む。スターターリードまたは中間コンティグの３’位置または５’位置は、多くの場合、スターターリードまたは中間コンティグのｉｎｓｉｌｉｃｏアセンブルされた核酸配列の３’末端または５’末端に直接隣接したかつそれを越えたヌクレオチド位置である。いくつかの実施形態では、スターターリードまたは中間コンティグの３’末端または５’末端に直接隣接したかつそれを越えて位置する、マジョリティーコンセンサスヌクレオチドがまだ付加されていない（たとえば、ｉｎｓｉｌｉｃｏコンティグアセンブリープロセス時にまだ付加されていない）ヌクレオチド位置は、本明細書では前進位置と呼ばれる（たとえば、図４を参照されたい）。いくつかの実施形態では、スターターリードの３’位置または５’位置は、スターターリードの３’位置または５’位置（たとえば、スターターリード内のヌクレオチドの３’位置または５’位置）がマジョリティーコンセンサスヌクレオチドにより満たされていない場合、前進位置と呼ばれる。ある特定の実施形態では、中間コンティグは、スターターリードと、スターターリードの３’位置または５’位置に付加された１つ以上のヌクレオチドと、を含む。ヌクレオチドは、多くの場合、マジョリティーコンセンサスヌクレオチドを含む位置（たとえば、前進位置）であるスターターリードまたは中間コンティグの３’位置または５’位置に付加される。

いくつかの実施形態では、マジョリティーコンセンサスヌクレオチドは、パイルアップ関係に従って決定された複数のオーバーラップまたはアライメントに従って決定される。ときには、選択および／または記憶されたオーバーラップに従って、１つ以上の核酸リードがスターターリード、中間コンティグ、またはそれらの一部にアライメントされる。ある特定の実施形態では、選択および／または記憶されたオーバーラップ（たとえば、オーバーラッピングリード）は、リードまたはオーバーラップの一部または全部が、前進位置でオーバーラップまたはアライメントされるヌクレオチドを含む場合、スターターリードまたは中間コンティグを含むアライメントにリクルートされる。ある特定の実施形態では、マジョリティーコンセンサスヌクレオチドは、前進位置でオーバーラップまたはアライメントされるヌクレオチドに従って決定される。いくつかの実施形態では、マジョリティーコンセンサスヌクレオチドは、オーバーラッピングリードの少なくとも３、少なくとも４、少なくとも５、少なくとも６、少なくとも７、少なくとも８、少なくとも９、少なくとも１０、少なくとも１５、少なくとも２０、少なくとも３０、少なくとも５０、少なくとも１００、または少なくとも２００個が前進位置に同一のヌクレオチド（たとえば、Ａ、Ｔ、Ｇ、Ｃ、またはＵ）を含む場合に前進位置に位置するまたはアライメントされるヌクレオチド（たとえば、Ａ、Ｔ、Ｃ、Ｇ、またはＵ）である。いくつかの実施形態では、マジョリティーコンセンサスヌクレオチドは、オーバーラッピングリードの少なくとも５％、少なくとも６％、少なくとも７％、少なくとも８％、少なくとも９％、少なくとも１０％、少なくとも１５％、少なくとも２０％、少なくとも２５％、少なくとも３０％、または少なくとも５０％が前進位置に同一のヌクレオチド（たとえば、Ａ、Ｔ、Ｇ、Ｃ、またはＵ）を含む場合に前進位置に位置するまたはアライメントされるヌクレオチド（たとえば、Ａ、Ｔ、Ｃ、ＧまたはＵ）である。

コンティグアセンブリーのいくつかの実施形態では、前進位置は単一のマジョリティーコンセンサスヌクレオチドを含み、マジョリティーコンセンサスヌクレオチドはスターターリードまたは中間コンティグの３’位置または５’位置に付加され、かつｉｎｓｉｌｉｃｏプロセスはその次の前進位置で繰り返えされる。いくつかの実施形態では、たとえば、２つ以上のマジョリティーコンセンサスヌクレオチドが前進位置（たとえば多型塩基位置）に存在する場合、前進位置は多型塩基位置を含む。２つのマジョリティーコンセンサスヌクレオチドが多型塩基位置で同定される場合、多くの場合、中間コンティグのコピーが作成されて２つの同一の中間コンティグコピーをもたらす。この状況では、同定された２つのマジョリティーコンセンサスヌクレオチドの一方は２つのコピーの一方の前進位置に付加され、かつ同定された他方のマジョリティーコンセンサスヌクレオチドは他方のコピーの前進位置に付加される。このプロセスは、スプリッティングまたはコンティグのスプリッティングと呼ばれることもある。いくつかの実施形態では、本明細書のシステム、方法、プロセス、またはアルゴリズムは、１つ以上のコンティグをスプリットする方法を含む。いくつかの実施形態では、コンピュータープログラムコンポーネント（すなわちコンポーネント）は、１つ以上のコンティグをスプリットするようにマイクロプロセッサーに命令を提供する。

３つのマジョリティーコンセンサスヌクレオチドが前進位置（たとえば多型塩基位置）で同定されるある特定の実施形態では、中間コンティグの２つのコピーが生成されて３つの同一のコンティグをもたらし、３つの各マジョリティーコンセンサスヌクレオチドの１つが３つの同一のコンティグの前進位置に付加される。そのような状況下では、異なるヌクレオチドが３つの同一のコンティグのそれぞれに付加される。言い換えれば、コンティグは３つのコンティグにスプリットされる。同様に、４つのマジョリティーコンセンサスヌクレオチドが前進位置（たとえば多型塩基位置）で同定される場合、多くの場合、中間コンティグの３つのコピーが生成されて４つの同一のコンティグをもたらし、４つの各マジョリティーコンセンサスヌクレオチドの１つが４つの同一のコンティグのそれぞれの前進位置に付加される。言い換えれば、コンティグは４つのコンティグにスプリットされる。ある特定の実施形態では、中間コンティグはスプリットされたコンティグ（たとえば、コンティグをスプリットすることによりもたらされるコンティグ）を含む。ある特定の実施形態では、コンティグをアセンブルするプロセス時、コンティグまたは中間コンティグは複数回スプリットされる。たとえば、コンティグまたは中間コンティグのアセンブル時、第１の多型塩基位置および第２の多型塩基位置に遭遇することがあり、その場合、第１の多型位置はコンティグ第１のスプリッティングをもたらし、第２の多型塩基位置はコンティグの第２のスプリッティングをもたらしうる。たとえば、中間コンティグは、１回以上、５回以上、または５０回以上にスプリットされうる。いくつかの実施形態では、中間コンティグは、１〜５００回、１〜１００回、１〜５０回、１〜２５回、または１〜１０回スプリットされる。いくつかの実施形態では、中間コンティグはスプリットされない。ある特定の実施形態では、第１のスプリットから生じた中間コンティグ（たとえば、第１の多型塩基位置で遭遇した前のスプリットにより生じた中間コンティグ）のアセンブル時に第２の多型塩基位置に遭遇する。この状況では、中間コンティグは再度スプリットされることもあれば、コンティグはスプリットされないこともある。ある位置（たとえば第１の多型位置）でコンティグがすでにスプリットされている場合、スプリッティングプロセスは、リードペアまたはリードペアセットが第１の多型位置および現在遭遇している第２の多型塩基位置（たとえば、２つ以上のマジョリティーコンセンサスヌクレオチドがアライメントされる前進位置）の両方にオーバーラップされるかを決定する。いくつかの実施形態では、かかるオーバーラッピングリードペアセットが存在し、かつリードペアセットが（ｉ）第１の多型位置に付加された第１の多型塩基と、（ｉｉ）第２の多型塩基位置の単一のマジョリティーコンセンサスヌクレオチド（たとえば同一のヌクレオチド）と、を含む場合、第２の多型塩基位置のマジョリティーコンセンサスヌクレオチドは前進位置で中間コンティグ鎖に付加され、コンティグはスプリットされない。さらに、（ｉ）および（ｉｉ）の両方の条件を満たした以上のリードセットは、いずれの他のコンティグをスプリットするためにも使用されず、他のコンティグをアセンブルするために使用されない。いくつかの実施形態では、かかるオーバーラッピングリードペアセットが存在し、かつリードペアセットが（ｉ）第１の多型位置に付加された第１の多型塩基と、（ｉｉｉ）第２の多型塩基位置の２つ以上のマジョリティーコンセンサスヌクレオチドと、を含む場合、中間コンティグは再度スプリットされる。ある特定の実施形態では、条件（ｉ）を満たさないが第２の多型位置でマジョリティーコンセンサスヌクレオチドを提供するオーバーラッピングリードペアセットは、以上の例では中間コンティグをスプリットするために使用されず、かかるリードペアは、以上の例では中間コンティグのアセンブルから除外される。この設計の背後にある理論的根拠は、その多型塩基を含むハプロタイプが他のコンティグのアセンブリーにすでに含まれている場合に多型塩基でのスプリッティングを防止することである。以上の例では、条件（ｉ）が満たされ、かつ第１の多型塩基位置でオーバーラップされるリードセットが第２の多型塩基位置で２つ以上のマジョリティーコンセンサスヌクレオチドを含む場合、コンティグはいくつかの実施形態ではそれに応じてスプリットされるであろう。同様に、いくつかの実施形態では、条件（ｉ）が満たされない場合、コンティグはスプリットされるであろう。スプリッティングのさらなる詳細については、実施例１に記載されている。

いくつかの実施形態では、コンティグですでに採用されたスプリットをデュプリケートすることによりグラフサイクルを検出する。ある特定の実施形態では、繰返しスプリットが検出された場合、コンティグを「不良」と標識して、「不良」コンティグのアセンブリーを終了する。ある特定の実施形態では、「不良」と標識されたコンティグはスーパーコンティグの構築に使用しない。

いくつかの実施形態では、リードセットのリードはコンティグを構築するために１回だけ使用される。ある特定の実施形態では、コンティグの前進位置に組み込まれるマジョリティーコンセンサスヌクレオチドを含むリードは、追加のヌクレオチドを他のコンティグに付加するためには使用しない。いくつかの実施形態では、コンティグが２つ以上のマジョリティーコンセンサスヌクレオチドの存在に起因してコピーされる場合、リードはコンティグコピーの１つの構築を継続するためにのみ使用されるであろう。いくつかの実施形態では、リードは識別可能なコンティグで再使用することが可能である。

いくつかの実施形態では、すでに遭遇してなんらかの他のコンティグでスプリットオンされた多型位置に遭遇した場合、このコンティグではコンティグスプリッティングを実施せずにこのコンティグでは「デュプリケート」スプリットとして参照する。かかる実施形態では、デュプリケートスプリットは、同一のコンセンサス塩基セットと、リード内の同一位置にそれらをサポートする同一のリードセットと、を含有する。かかる実施形態では、すべてのコンティグをアセンブルしたら、デュプリケートスプリットを有するコンティグからのコンセンサス配列のすべての可能な末端部と、そのコンティグからスプリットオフされた他のコンティグと、を「デュプリケートスプリット」位置の後に付加することにより、これらのスキップしたスプリットを再導入する。ある特定の実施形態では、同じようにパイルアップされた同一のリードセットにコンティグ構築プロセス時に遭遇したら、その後はこれらのリードは同一のリードセットをリクルートするであろうから、その位置の後のコンセンサス配列は同一になると推定される。いくつかの実施形態では、この「デュプリケート」スプリットの検出はアセンブルされたコンティグを変化させずに、コンティグアセンブリーの計算プロセスを単にスピードアップするにすぎないはずである。

いくつかの実施形態では、スプリットオフコンティグは、コンティグを伸長する新しいリードをなんらリクルートできないが、このスプリット位置から生じる他のコンティグのいくつかは、新しいリードをリクルートできる。かかるコンティグは「終端」として標識される。これらのコンティグは、多くの場合、真多型からではなく系統的シーケンシングエラーにより生じるコンセンサス塩基に基づく結果である。いくつかの実施形態では、これらの「終端」コンティグは廃棄される。

いくつかの実施形態では、所定量未満のリードからまたは所定量未満のリードを含有するパイルアップ関係からアセンブルされたコンティグは、廃棄または除去される。いくつかの実施形態では、所定量のリードは、約２００個以下のリード、１００個以下のリード、５０個以下のリード、２５個以下のリード、または１０個以下のリードである。ある特定の実施形態では、所定量未満のリードからアセンブルされたコンティグは、フィルターにより廃棄、欠失、および／または除去される。いくつかの実施形態では、廃棄、欠失、および／または除去されたコンティグは、スーパーコンティグのアセンブリーに使用されない。

スーパーコンティグ
たとえば、前のステップでアセンブルされたコンティグは、対象の全ゲノム領域に延在しうるか、またはカバレッジが低下する位置もしくは高いリードエラー率（たとえば通常系統誤差）により高スコアオーバーラップが阻止される位置で終了しうる。ある特定の実施形態では、対象の全ゲノム領域に延在するコンティグはスーパーコンティグであり、追加のアセンブリーを必要としない。スーパーコンティグは、多くの場合、対象の全ゲノム領域に延在する。対象の全ゲノム領域に延在しないコンティグは、スーパーコンティグにアセンブルしうる。いくつかの実施形態では、１つ以上のスーパーコンティグが２つ以上のコンティグからアセンブルされる。ある特定の実施形態では、コンティグを一体的にリンクしてスーパーコンティグを形成するためにするために、リードメイト（たとえばリードメイトペアのもの）が使用される。たとえば、いくつかの実施形態では、ペアの第１のリードメイトが第１のコンティグとのオーバーラップを提供し、かつペアの第２のリードメイトが他のコンティグとのオーバーラップを提供する場合、２つの近接コンティグ間のカバレッジギャップは、リードメイトペアのリードメイトによりブリッジしうる。２つの近接コンティグをブリッジまたは連結するペアのリードメイトは、コンティグ間の推定距離、コンティグの順序および向きに関する情報を提供しうる。たとえば、リードメイト間の推定インサート長は、２つのブリッジされたコンティグ間の推定距離を提供しうる。ときには、２つのコンティグをブリッジするリードメイトの向きは、２つの互いにブリッジされたコンティグの相対向きおよび順序を提供する。いくつかの実施形態では、第１のコンティグは、複数のリードメイトペアにより第２のコンティグに連結される。いくつかの実施形態では、第１のコンティグは、少なくとも３個、少なくとも４個、少なくとも５個、少なくとも６個、少なくとも７個、少なくとも８個、少なくとも９個、少なくとも１０個、少なくとも１５個、少なくとも２０個、少なくとも３０個、または少なくとも５０個のリードメイトペアにより第２のコンティグに連結される。

ある特定の実施形態では、２つのコンティグが１つ以上のリードメイトにより追加のリードにリンクされると、オーバーラップ（たとえば、パイルアップ関係に従って決定されるもの）および／またはコンティグは、ブリッジされた近接コンティグ間の介在配列をアセンブルするようにリクルートおよび／またはアライメントされる。

ある特定の実施形態では、スーパーコンティグの構築は、コンティグを頂点としておよび同定されたリンク（たとえば、２つのコンティグをリンクするリードメイト）を有向エッジとして有するグラフを構築するステップを含む。いくつかの実施形態では、２つの近接コンティグが最小限の数のリードメイトペアによりブリッジされた場合、有向エッジが記録される。ただし、最小限の数のリードメイトペアは、少なくとも３個、少なくとも４個、少なくとも５個、少なくとも６個、少なくとも７個、少なくとも８個、少なくとも９個、少なくとも１０個、少なくとも１５個、少なくとも２０個、少なくとも３０個、または少なくとも５０個のリードメイトペアである。いくつかの実施形態では、２つの近接コンティグをブリッジするのに必要な最小限の数のリードメイトペアは、少なくとも５％、少なくとも６％、少なくとも７％、少なくとも８％、少なくとも９％、少なくとも１０％、少なくとも１５％、少なくとも２０％、少なくとも２５％、少なくとも３０％、または少なくとも５０％の平均コンティグカバレッジである。平均コンティグカバレッジとは、コンティグまたは中間コンティグの各ヌクレオチド位置に延在するリードの平均数を意味する。たとえば、コンティグ中の各ヌクレオチド位置にオーバーラップするリードの数は、多くの場合、位置カバレッジとして計算され、コンティグ中のすべての位置にわたる位置カバレッジの平均は、平均コンティグカバレッジである。いくつかの実施形態では、２つのコンティグをブリッジするリードメイトペアは同一の向きを共有する。ある特定の実施形態では、循環を回避しつつ入次数０を有するすべての頂点から出発して出次数０を有する頂点で終了するようにグラフを介してすべての経路を通ることにより、さらに２つのコンティグをブリッジすることによりスーパーコンティグを形成する（たとえば、図８を参照されたい）。ある特定の実施形態では、いずれの他のコンティグにも接続されないコンティグ（たとえば、入次数０および出次数０の両方を有する）は、ちょうど１つのコンティグを有するスーパーコンティグを生成する。

ハプロタイピング
いくつかの実施形態では、以上に記載のプロセスによりアセンブルされるスーパーコンティグは、すべての可能な配列配置を表すので、すべての可能なハプロタイプ配列（すなわちハプロタイプ）を表す。いくつかの実施形態では、ハプロタイプは、所定の倍数性に従ってコーラーにより直接組み合わせることにより、すべての可能な遺伝子型（たとえば、遺伝子型仮説、遺伝子型尤度、または遺伝子型尤度比）を生成する。いくつかの実施形態では、ハプロタイプはすべて、コーラーにより処理される前にハプロタイピングプロセスに付される。いくつかの実施形態では、ハプロタイピングプロセスは、各ハプロタイプに関連するオブジェクト（たとえば、ハプロタイプオブジェクト）を開始する。ハプロタイプオブジェクトは、マッピングウェイト、同定された偽接合、および／または同定された偽挿入を含みうる。たとえば、ある特定の実施形態では、ハプロタイピングプロセスは、一部または全部のリードをハプロタイプ配列（たとえば、スーパーコンティグ）に再マッピングするステップを含む。ある特定の実施形態では、この再マッピングは、実施例Ｉの「コーラー」の節に記載のマッピングウェイトの前計算を含む。マッピングウェイトは、各ハプロタイプに関連付けられる。ある特定の実施形態では、ハプロタイパープロセスはまた、ハプロタイプ配列中の偽接合および偽挿入の同定を実施する（以下を参照されたい）。ハプロタイパープロセスは、多くの場合、遺伝子型配列仮説と組み合わせる前に、ハプロタイピングプロセスの出力に基づいて、ハプロタイプをフィルタリングする機会をコーラーコンポーネントに与えるコーラーの機能と切り離して実施される（たとえば、ハプロタイプオブジェクト、たとえば、マッピングウェイト、偽接合および／または偽挿入の同定）。いくつかの実施形態では、同定された偽接合および偽挿入は、リードによりそれらのサポートを決定する必要情報と共に各ハプロタイプオブジェクトに列挙される。次いで、コーラーコンポーネントは、偽挿入などのハプロタイプオブジェクトの属性に基づいてカットオフを用いてハプロタイプをフィルタリングおよび／または除去することが可能である。任意の好適なカットオフを使用することが可能である。

偽接合の同定
ある特定の実施形態では、ハプロタイパープロセスは、偽接合の同定方法を含む。いくつかの実施形態では、偽接合は、偽陽性アライメントに起因して生成される。いくつかの実施形態では、偽接合は、いくらかの配列類似性に起因してコンティグアセンブリー時にリクルート（たとえば取得）されて組み込まれた、ゲノムの異なる部分（たとえば、対象のゲノム領域外のゲノムの部分）に由来するシーケンスリードで構成される。かかる配列類似性は、ときには、いくつかのリードをある特定の配列に連結させうるが、接合はまばらにカバーされるであろう。ハプロタイパープロセスは、接合位置をまたぐリードペアの数が予想よりもかなり少ないハプロタイプ配列中の位置を同定しうる。いくつかの実施形態では、ハプロタイパープロセスは、ある距離だけ離れたリードメイトの期待数（たとえば、インサートサイズ分布から推定される）を計算して観測されたカウントと比較することにより可能な偽接合を見いだす。低い観測数／期待数比の位置は、偽接合の可能性があるとしてマーク付けしうる。いくつかの実施形態では、統計的当てはめ（たとえば、χ^２検定）の好適な推定値を用いて観測数−期待数差の有意性を決定しうる。いくつかの実施形態では、偽接合は、インサートサイズ分布の平均の周りのセンターバンドまたは非センターバンドを用いて偽接合を検定することにより同定される。インサートサイズ分布平均の周りのバンドの−２０％および＋８０％のインターバル（たとえば、Ｉｌｌｕｍｉｎａリードペアライブラリーの現在のサイズは５０）は、ときには、期待カウントを計算するために使用され、観測カウントを検索するために使用される。いくつかの実施形態では、ハプロタイパープロセスは、フォワードリードおよびリバースリード（逆方向）に対して観測カウントおよび期待カウントを個別に計算してから比の局所最小値を見いだす。ハプロタイパープロセスは、ときには、特定の比カットオフを超える局所最小値をすべて報告する。ある特定の実施形態では、順方向および逆方向の両方で検索を行って接合のアルゴリズム的確認を与えうる。

偽挿入の同定
いくつかの実施形態では、ハプロタイパープロセスは偽挿入検出プロセスを含む。いくつかの実施形態では、偽挿入は、ｉｎｓｉｌｉｃｏアセンブルされたスーパーコンティグ内への外来核酸配列または誤配置核酸配列の望ましくない挿入または偽挿入である。いくつかの実施形態では、偽挿入検出プロセスは、ハプロタイプ中の偽挿入の存在または不在を決定する。いくつかの実施形態では、偽挿入検出プロセスは、偽挿入がハプロタイプ中に存在するかまたは不在である尤度または確率を決定する。いくつかの実施形態では、偽挿入検出プロセスは、可能性のある偽挿入をマーク付け、ウェイト付け、またはスコア付けして、それらのオブジェクトをハプロタイプに関連付ける。いくつかの実施形態では、偽挿入は、偽接合（たとえば、以上に記載される）と組み合わせて同定可能である。しかしながら、偽挿入の同定では、専用の偽挿入検出プロセスは、多くの場合、偽接合アルゴリズムよりも高感度かつ特異的である。

いくつかの実施形態では、偽挿入検出プロセスは、１）リードメイト間の距離が推定インサート長よりも長い場合（たとえば、インサートサイズ分布コンポーネントにより決定される）、ハプロタイプにマッピングされるリードメイトペアを同定することによりリードメイト間の仮説偽インサートを規定し、かつ２）仮説インサートが仮説インサート内に完全に含有されるリードメイトペアのみで占有されるかを決定する。仮説インサート領域を占有するリードメイトは、特定の領域のｉｎｓｉｌｉｃｏアセンブリーに寄与したリードである。任意の好適な方法を用いてリードメイトが仮説インサート内に完全に含有されるかを決定可能である。たとえば、仮説挿入にフランキングするリードメイトの中央または末端を用いて、仮説インサートの開始および終了を規定可能である。ある特定の実施形態では、仮説挿入にフランキングするリードメイトにオーバーラップするリードのコレクションの中央または末端を用いて（たとえば、パイルアップ関係に従って）、仮説挿入領域を規定可能である。ときには、方法の組合せが使用される。たとえば、偽挿入プロセスは、リードメイトの中央間距離が推定インサート長よりも長い場合（たとえば、インサートサイズ分布コンポーネントにより決定される）、ハプロタイプにマッピングされるリードメイトペアを最初に同定することにより、フランキングリードメイトの中央位置に従って仮説インサートの開始および終了を規定しうる。仮説インサートが仮説インサート内に完全に含有されるリードメイトペアのみで占有されることがアルゴリズムにより決定された場合、いくつかの実施形態では、インサートを含むリードメイトのエッジまたは末端に従って仮説インサートエッジをアルゴリズムにより再規定しる。

いくつかの実施形態では、偽挿入プロセスは、仮説インサート内の各塩基位置に対してインサート純度の尺度を再計算する。主にインサートリード（提案された偽挿入領域内に完全に含有されるリードペア）で構成されかつ挿入境界を横切るリードによりまたは挿入境界を横切るかもしくはその外側にあるメイトを有するリードにより汚染されていない位置がインサート内に存在する場合、かかる挿入は偽挿入とみなされる。仮説インサート内の塩基位置に対してインサート純度を計算するために、ならびに／または偽挿入領域の長さおよび／またはエッジを規定、再規定、および／または確認するために、任意の好適なプロセスを使用可能である。たとえば、いくつかの実施形態では、各塩基位置は、オーバーラップに基づいてかつパイルアップ関係に基づいてコンティグアセンブリープロセスにより再計算される。その際、仮説インサート内に完全に含有されるリードメイトペアは、アセンブリープロセスから除外される。かかる方法を用いる場合、偽挿入領域を規定し報告するために、マジョリティーコンセンサスヌクレオチドにより占有できない塩基位置が使用される。偽挿入領域を規定、再規定、および／または確認するために、任意の類似のプロセスを使用可能である。

いくつかの実施形態では、ハプロタイパープロセスは、偽挿入を含有すると決定されたハプロタイプをマーク付け、ウェイト付け、ペナルティー付け、またはスコア付けする。いくつかの実施形態では、ハプロタイパープロセス、偽挿入を含有しないと決定されたハプロタイプをマーク付け、ウェイト付け、またはスコア付けする。いくつかの実施形態では、コーラーは、ハプロタイプが遺伝子型仮説に含まれるかを決定するようにハプロタイパープロセスがハプロタイプを割り当てるオブジェクトを使用する。

コーラーおよびハプロタイプ尤度比
いくつかの実施形態では、コーラープロセスは、遺伝子型をアセンブルし遺伝子型尤度比を決定する。コーラーコンポーネントは、多くの場合、コーラープロセスを実施する。コーラー（たとえばコーラーコンポーネント）は、スーパーコンティグアセンブリーコンポーネントからおよび／またはハプロタイパー（たとえばハプロタイプコンポーネント）からハプロタイプを受け入れることが可能である。ある特定の実施形態では、コーラープロセスは、ハプロタイプを組み合わせて所与の倍数性のすべての可能な遺伝子型を生成する。いくつかの実施形態では、所与の倍数性のすべての可能な遺伝子型は、コーラーコンポーネント（たとえば「コーラー」）によりアセンブルされる。いくつかの実施形態では、所与の倍数性で決定された各可能な遺伝子型は遺伝子型仮説と呼ばれる。ハプロタイプは、一倍体、二倍体、三倍体の被験体、または任意の倍数性の被験体に対してすべての可能な配置で組合せ可能である。たとえば、二倍体配列仮説では、同一のハプロタイプの２つのコピーからなるホモ接合配置を含めて任意の２つのハプロタイプのすべての可能な組合せをコーラーによりアセンブル可能であり、それぞれ遺伝子型仮説と呼ばれる。

かかる二倍体遺伝子型では、ハプロタイプ寄与は各ハプロタイプにつき０．５である。いくつかの実施形態では、ハプロタイプは任意の比で組合せ可能であり、これにより遺伝子型へのハプロタイプ寄与率がもたらされる。かかる遺伝子型比率は、正常組織汚染および／または腫瘍不均一性を反映する可能性があるモザイク遺伝子型個体サンプルまたは腫瘍サンプルに使用可能である。いくつかの実施形態では、コーラーによりアセンブルされた遺伝子型はすべて、個別に遺伝子型仮説である。それゆえ、いくつかの実施形態では、本明細書の方法および／またはプロセスは、１つ以上のハプロタイプに従って遺伝子型尤度比を生成する。いくつかの実施形態では、本明細書の方法および／またはプロセスは、１つ以上のハプロタイプに基づく遺伝子型尤度比および遺伝子型へのそれらの寄与率を生成する。いくつかの実施形態では、本明細書の方法および／またはプロセスは、１つ以上の遺伝子型仮説に基づく遺伝子型尤度比を生成する。それゆえ、いくつかの実施形態では、コーラープロセスは、１つ以上のハプロタイプに基づく遺伝子型尤度比を生成する。いくつかの実施形態では、コーラープロセスは、１つ以上の遺伝子型仮説（たとえば、１つの選択された遺伝子型仮説）に基づく遺伝子型尤度比を生成する。いくつかの実施形態では、コーラープロセスは、ホモ接合参照ゲノム配置を含む遺伝子型仮説に基づく遺伝子型尤度比を生成する。

ある特定の実施形態では、コーラーによりハプロタイパーから取得したハプロタイプは、たとえば、偽接合、偽挿入の存在または不在に従っておよび／またはマッピングウェイトにより、コーラープロセスによりフィルタリング（たとえば除外）される。フィルタリングされたハプロタイプは、多くの場合、遺伝子型をアセンブルしたり遺伝子型尤度比を決定したりするためにコーラーにより使用されない。ある特定の実施形態では、ハプロタイプは、コーラープロセスによりフィルタリングされない。

いくつかの実施形態では、対象のゲノム領域でアセンブルされた遺伝子型の数は、その領域で所与の倍数性のすべての可能なハプロタイプ配列配置を表す。対象のゲノム領域で任意の好適な数の遺伝子型をアセンブル可能である。ときには複数の遺伝子型がアセンブルされる。ときには１以上の遺伝子型はアセンブルされる。ある特定の実施形態では、対象のゲノム領域で１〜１００，０００，０００個、１〜１，０００，０００個、１〜１００，０００個、１〜１０，０００個、１〜１０００個、１〜５００個、１〜２００個、１〜５０個、または１〜２０個の遺伝子型がアセンブルされる。いくつかの実施形態では、対象のゲノム領域で少なくとも５個、少なくとも１０個、少なくとも２０個、少なくとも３０個、少なくとも５０個、少なくとも１００個、少なくとも５００個、または少なくとも１０００個の遺伝子型がアセンブルされる。

いくつかの実施形態では、コーラープロセスは、１つ以上の遺伝子型尤度比に従って対象のゲノム領域（たとえば被験体の）で遺伝子型を決定する。いくつかの実施形態では、コーラープロセスは、１つ以上の遺伝子型尤度比に従って複数の可能な遺伝子型仮説のうち最も確からしい遺伝子型および／または最も可能性の高い遺伝子型を決定する。いくつかの実施形態では、コーラープロセスは、ヘルスケア専門家またはアウトカムコンポーネントに遺伝子型仮説のリストを提供可能であり、リストには、各遺伝子型仮説に関連する確率、尤度、統計学的信頼度の尺度、エラーの尺度、ランク付けなど、またはそれらの組合せが含まれる。いくつかの実施形態では、コーラープロセスは、１つ以上の遺伝子型仮説に従って遺伝子型尤度比を決定する。いくつかの実施形態では、コーラープロセスは、１つ以上の遺伝子型仮説に従って１つ以上の遺伝子型尤度比を決定する。

いくつかの実施形態では、遺伝子型尤度比は、式１に従って決定されている。

式中、Ｇは所定の倍数性の遺伝子型配列であり、Ｇ_０は参照配列であり、｛Ｒ｝はリードメイトペアＲのセットであり、Ｎ_ＡＧは遺伝子型配列Ｇ中の対立遺伝子_ＡＧの数であり、Ｎ_ＡＧ０は参照配列Ｇ_０中の対立遺伝子_ＡＧ０の数であり、Ｆ_ＡＧは遺伝子型配列Ｇ中の対立遺伝子_ＡＧの分率であり、Ｆ_ＡＧ０は参照配列Ｇ_０中の対立遺伝子_ＡＧ０の分率であり、Ｗはリードペアマッピングウェイトであり、かつαはマッピング確率定数である。いくつかの実施形態では、遺伝子型尤度比は、式１の導出または式１の変形により決定される。式１の項およびそれらの導出は、実施例１にさらに記載される。

いくつかの実施形態では、被験体の倍数性は公知であるか、あらかじめ決められているか、または仮定される。いくつかの実施形態では、本明細書の方法またはプロセスは、被験体の倍数性を決定しない。いくつかの実施形態では、本明細書の方法またはプロセスは被験体の推定倍数性を決定可能であり、推定倍数性は確率に関連付けられる。いくつかの実施形態では、本明細書の方法またはプロセスは被験体の推定倍数性を決定可能であり、推定倍数性が最大尤度に関連付けられる。いくつかの実施形態では、倍数性は二倍体である。いくつかの実施形態では、遺伝子型確率は二倍体のヒト被験体で決定される。たとえば、二倍体のゲノムでは、対立遺伝子Ｆ_ＡＧおよびＦ_ＡＧ０の分率はそれぞれ、０．５の値に等しい。

いくつかの実施形態では、式１のα値はリードペア（たとえば、リードペアのマッピングまたはマッピング性）に依存する。たとえば、リードペアがコンティグアセンブリー領域外または対象のゲノム領域外に第２のマッピングを有する場合、α値はより大きい（たとえば、値がＷに匹敵する）。いくつかの実施形態では、リードペアのマッピング性が不十分である場合、αはＷ値に対応しうる。いくつかの実施形態では、第２のマッピングを有していない（たとえば、良好なマッピング性である）リードに対するαのデフォルト値は、約１ｅ−５以下、約１ｅ−１０以下、１ｅ−２０以下、約１ｅ−２５以下、約１ｅ−３０以下、約１ｅ−４０以下、約１ｅ−５０以下、約１ｅ−６０以下、または約１ｅ−７０以下でありうる。いくつかの実施形態では、第２のマッピングを有していない（たとえば、良好なマッピング性である）リードに対するαのデフォルト値は、約１ｅ−５０以下である。αおよびＷに関するさらなる詳細は実施例１に提供される。

いくつかの実施形態では、遺伝子型尤度比を生成するステップは、取得またはリクルートされた一部または全部のリードを再アライメントおよび／またはマッピングするステップを含む。いくつかの実施形態では、リードは、コーラーコンポーネント（たとえば「コーラー」）により参照（たとえば参照ハプロタイプまたは参照遺伝子型仮説）に再アライメントおよび／またはマッピングされる。いくつかの実施形態では、リードは、ハプロタイプコンポーネントにより参照（たとえば参照ハプロタイプまたは参照遺伝子型仮説）に再アライメントおよび／またはマッピングされる。いくつかの実施形態では、遺伝子型尤度比を生成するステップは、すべてリードを参照ゲノムに再アライメントおよび／またはマッピングするステップを含む。いくつかの実施形態では、遺伝子型尤度比を生成するステップは、すべてリードを１つ以上のハプロタイプに再アライメントおよび／またはマッピングするステップを含む。いくつかの実施形態では、遺伝子型尤度比を生成するステップは、すべてリードを１つ以上のハプロタイプに再アライメントおよび／またはマッピングするステップを含む。いくつかの実施形態では、遺伝子型尤度比を生成するステップは、すべてリードを参照と称される１つ以上のハプロタイプ（たとえば遺伝子型仮説）に再アライメントおよび／またはマッピングするステップを含む。いずれの好適なハプロタイプまたは遺伝子型仮説も参照でありうる。

いくつかの実施形態では、複数の遺伝子型尤度比は式１に従って決定される。いくつかの実施形態では、遺伝子型尤度比は複数の遺伝子型仮説（たとえば可能な遺伝子型）で決定される。いくつかの実施形態では、遺伝子型尤度比は、対象のゲノム領域の全長にわたり延在する１つ以上のハプロタイプまたはハプロタイプペアに従って複数の遺伝子型仮説（たとえば可能な遺伝子型）で決定される。ある特定の実施形態では、各遺伝子型仮説は、確率（たとえば、それらの合計により規格化された遺伝子型尤度比）に関連付けられる。

いくつかの実施形態では、被験体における遺伝子変異の存在または不在は、遺伝子型尤度比に従って決定される。ある特定の実施形態では、対象のゲノム領域のすべての可能な遺伝子型のうち最も高い確率（たとえば、最も高い遺伝子型尤度比）を含む遺伝子型仮説は、所与の対象のゲノム領域で最も確からしい遺伝子型である。いくつかの実施形態では、最も確からしい遺伝子型は、対象のゲノム領域の１つ以上のハプロタイプの核酸配列を表す。いくつかの実施形態では、遺伝的変異の存在または不在は最確遺伝子型に従って決定されている。

いくつかの実施形態では、最も高い尤度比を有する遺伝子型仮説は、コールするかまたはアウトカムを決定するために使用される。いくつかの実施形態では、最も高い尤度比を有する遺伝子型仮説は、被験体における遺伝子変異の存在または不在を決定するために使用される。いくつかの実施形態では、最も高い尤度比は、所定のカットオフに従って決定される。ある特定の実施形態では、２つ以上の尤度比は最も高い尤度比であると決定され、かつ他のパラメーターまたはデータは、アウトカムまたは遺伝子型を決定するために使用される。いくつかの実施形態では、最も高い尤度比値は、約８００〜１０，０００の対数尤度比を含む。いくつかの実施形態では、最も高い尤度比は、約１０００の対数尤度比を含む。

いくつかの実施形態では、上位２つの遺伝子型仮説間の尤度比は、遺伝的変異の存在下または不在下での信頼度を推定するために使用可能である。いくつかの実施形態では、遺伝子型仮説の完全セットは、遺伝的変異の存在および不在に関して評価可能であり、変異を有するおよび変異を有していない仮説のセットは、サンプル中の変異の存在下で信頼度を決定するために使用可能である。

システム、マシン、記憶媒体、およびインターフェース
本明細書に記載されるある特定のプロセスおよび方法は、多くの場合、コンピューター、マイクロプロセッサー、ソフトウェア、コンピュータープログラムコンポーネントまたは他のマシンなしでは実施できない。本明細書に記載の方法は、典型的には、コンピューターインプリメント方法であり、方法の１つ以上の一部は、ときには、１つ以上のハードウェアプロセッサー（たとえばマイクロプロセッサー）、コンピューター、またはマイクロプロセッサーにより制御されるマシンにより実施される。本文書に記載の方法に関する実施形態は、一般に、本明細書に記載のシステム、マシン、およびコンピュータープログラム製品の命令により実行されるものと同一のプロセスまたは関連するプロセスに適用可能である。本文書に記載の方法に関する実施形態は、一般に、実行可能プログラムを記憶した非一時的コンピューター可読記憶媒体により実行されるものと同一のプロセスまたは関連するプロセスに適用可能であり、このプログラムは、方法またはその一部を実行するようにマイクロプロセッサーに命令する。本明細書で用いられる「非一時的(non-transitory)」という記述語は、明示的に限定するものであり、一時的伝搬シグナル（たとえば、伝送シグナル、電子伝送、波（たとえば搬送波））を除外する。本明細書で用いられる「非一時的コンピューター可読媒体」という用語は、一時的伝搬シグナルを除くすべてのコンピューター可読媒体を含む。いくつかの実施形態では、本明細書に記載のプロセスおよび方法は、自動化された方法により実施される。いくつかの実施形態では、本明細書に記載の１つ以上のステップおよび方法は、マイクロプロセッサーおよび／もしくはコンピューターにより実施されるならびに／またはメモリーと組み合わせて実施される。いくつかの実施形態では、自動化された方法は、ソフトウェア、コンピュータープログラムコンポーネント、マイクロプロセッサー、周辺機器、および／または同様のものを含むマシンで具現化され、本方法は、（ｉ）複数のリードメイトペアを含むペアエンドシーケンスリードセットを取得するステップであって、各ペアが２つのリードメイトを含み、各ペアの２つのリードメイトの少なくとも１つが、所定の対象のゲノム領域を含む参照ゲノムの少なくとも１つの部分にマッピングされ、かつペアエンドシーケンスリードのいくつかが参照ゲノムの少なくとも１つの部分にマッピングされない、ステップ、（ｉｉ）シーケンスリードセットのパイルアップ関係を決定するステップ、（ｉｉｉ）パイルアップ関係に従って１つ以上のコンティグを構築するステップ、（ｉｖ）１つ以上のスーパーコンティグをアセンブルするステップ、（ｖ）遺伝子型尤度比を生成するステップ、（ｖｉ）遺伝子変異の存在または不在を決定するステップ、または（ｖｉｉ）それらの組合せを実施するステップ、を含む。

マシン、ソフトウェア、およびインターフェースは、本明細書に記載の方法を実施するために使用しうる。マシン、ソフトウェア、およびインターフェースを用いて、ユーザーは、入力したり、要求したり、質問したり、または特定の情報、プログラム、もしくはプロセスを使用するオプション（たとえば、リードを取得したり、リードをリクルートしたり、リードをマッピングしたり、パイルアップ関係を生成したり、コンティグを構築したり、ハプロタイプをアセンブルしたり、遺伝子型尤度比を生成したり、遺伝子変異の存在または不在を決定したり、またはそれらを組み合わせたりする）を決定したりしうるとともに、こうしたオプションは、たとえば、統計解析アルゴリズム、統計的有意性アルゴリズム、統計学的誤差アルゴリズム、統計的確率アルゴリズム、繰返しステップ、検証アルゴリズム、およびグラフ表現を実現することを含みうる。いくつかの実施形態では、データファイルは、入力情報としてユーザーが入力しうるし、ユーザーは、好適なハードウェア媒体（たとえば、フラッシュドライブ）により１つ以上のデータファイルをダウンロードしうるし、および／またはユーザーは、一方のシステムから他方のシステムにデータセットを送信して後続の処理および／またはアウトカムの提供を行ったりしうる（たとえば、シーケンスリードデータをシーケンサーからコンピュータシステムに送信してシーケンスリードマッピングを行ったり、マッピングされた配列データをコンピュータシステムに送信して１つ以上の遺伝子型尤度比の処理および生成を行ったりしうる）。

システムは典型的には１つ以上のマシンを含む。各マシンは、１つ以上のメモリー、１つ以上のマイクロプロセッサー、および命令を含む。システムが２つ以上のマシンを含む場合、マシンの一部または全部は同一の場所に位置しうる、マシンの一部または全部は異なる場所に位置しうる、マシンはすべて１つの場所に位置しうる、および／またはマシンはすべて異なる場所に位置しうる。システムが２つ以上のマシンを含む場合、マシンの一部または全部はユーザーと同一の場所に位置しうる、マシンの一部または全部はユーザーと異なる場所に位置しうる、マシンはすべてユーザーと同一の場所に位置しうる、および／またはマシンはすべてユーザーと異なる１つ以上の場所に位置しうる。

システムは、ときには、コンピューター装置、またはシーケンシング装置、またはコンピューター装置およびシーケンシングする装置（すなわち、シーケンシングマシンおよび／またはコンピューターマシン）を含む。装置は、本明細書で参照される場合、マシンのこともある。シーケンシング装置は、一般に、物質核酸を受け取って核酸のヌクレオチド塩基に対応するシグナルを生成するように構成される。シーケンシング装置は、多くの場合、核酸を含むサンプルが「ロード」され、シーケンシング装置にロードされたサンプルの核酸は、一般に、核酸シーケンシングプロセスに付される。本明細書で用いられる「シーケンス装置にロードする」という用語は、シーケンシング装置の一部（たとえばフローセル）と核酸サンプルとを接触させることを意味し、シーケンシング装置の一部は、核酸シーケンシングプロセスを行うべくサンプルを受け取るように構成される。いくつかの実施形態では、シーケンシング装置は、サンプル核酸の変異体がロードされる。変異体は、ときには、サンプル核酸を修飾して核酸のシーケンシングに好適な形態にするプロセスにより産生される（たとえば、ライゲーションにより、たとえば、アダプターをサンプル核酸の末端にライゲーションにより付加することにより、増幅、制限消化などにより、またはそれらの組合せにより）。シーケンシング装置は、多くの場合、部分的には、ロードされた核酸のヌクレオチド塩基に対応するシグナル（たとえば、電子シグナル、検出器シグナル、データファイル、画像など、またはそれらの組合せ）を生成するのに好適なＤＮＡシーケンシング法を実施するように構成される。

ＤＮＡ配列のそれぞれの塩基に対応する１つ以上のシグナルは、多くの場合、好適なプロセスによりベースコール（たとえば、特定のヌクレオチド塩基、たとえば、グアニン、シトシン、チミン、ウラシル、アデニンなど）に処理および／または変換される。ロードされた核酸に由来する一群のベースコールは、多くの場合、１つ以上のシーケンスリードに処理および／またはアセンブルされる。複数のサンプル核酸が一度にシーケンシングされる実施形態では（すなわちマルチプレクシング）、好適なデマルチプレクシングプロセスは、特定のリードを由来源のサンプル核酸に関連付けるために利用可能である。シーケンスリードは、好適なプロセスにより参照ゲノムにアライメント可能であり、参照ゲノムの一部にアライメントされたリードおよび参照ゲノムにアライメントされない可能性のあるリードメイト（たとえば、低いマッピング性スコアを有するリードメイトまたはマッピングできないリードメイト）は、本明細書に記載されるように記憶および処理が可能である。

シーケンシング装置は、ときには、システム中の１つ以上のコンピューター装置に関連付けられるおよび／またはそれらを含む。１つ以上のコンピューター装置は、ときには、次のプロセス、すなわち、リードの取得、リードのリクルート、リードのフィルタリング、シーケンスリードセットのパイルアップ関係の決定、１つ以上のコンティグ（たとえば、コンティグおよび／または中間コンティグ）の構築、１つ以上のスーパーコンティグのアセンブリー、コンティグのフィルタリング、ハプロタイプのフィルタリング、ハプロタイパーの１つ以上の機能の実施、コーラーの１つ以上の機能の実施、１つ以上の遺伝子のアセンブリー、１つ以上の遺伝子型仮説の生成、１つ以上の遺伝子型尤度比の生成、遺伝子変異の存在または不在の決定など、またはそれらの組合せ、の１つ以上を実施するように構成される。１つ以上のコンピューター装置は、ときには、次の追加の処理、すなわち、シーケンシング装置シグナルからのベースコールの生成、リードの生成、リードのトリミング、リードのデマルチプレククシング、参照ゲノムへのリードのアライメントまたはマッピングなどの１つ以上を実施するように構成される。

いくつかの実施形態では、方法またはプロセスは、複数のコンピューター装置により実施され、システムにより実施された全プロセスのサブセットは、システム内の特定のコンピューター装置に割り付けうるかまたはそれらに分割しうる。プロセスの全数のサブセットは、任意の好適な組合せにより２つ以上のコンピューター装置またはそのグループに分割可能である。マルチコンピューター装置システムは、ときには、シーケンシング装置の近くの１つ以上の好適なサーバーを含み、ときには、シーケンシング装置の近くでない１つ以上の好適なサーバー（たとえば、ウェブサーバー、オンラインサーバー、アプリケーションサーバー、リモートファイルサーバー、クラウドサーバー（たとえば、クラウド環境、クラウドコンピューティング））を含む。

異なるシステム構成の装置はさまざまなタイプの出力データを生成可能である。たとえば、シーケンシング装置はベースシグナルを出力可能であり、ベースシグナル出力データは、ベースシグナルデータをベースコールに変換するコンピューター装置に導入可能である。いくつかの実施形態では、ベースコールは１つのコンピューター装置からの出力データであり、シーケンスリードを生成させるために他のコンピューター装置に転送される。ある特定の実施形態では、ベースコールは特定の装置からの出力データではなく、その代わりに、シーケンシング装置ベースシグナルを受け取ってシーケンスリードを生成する同一の装置で利用される。いくつかの実施形態では、１つの装置はシーケンシング装置ベースシグナルを受け取り、ベースコールを生成し、リードをシーケンシングし、シーケンスリードをデマルチプレックスし、サンプルのデマルチプレックスされたシーケンスリードを出力し、これを他の装置またはそのグループに転送して、シーケンスリードを参照ゲノムにアライメント可能である。１つの装置からの出力データは、任意の好適な形で第２の装置に転送可能である。たとえば、１つの装置からの出力データは、ときには、物理的記憶デバイス上に置かれ、記憶デバイスは、出力データが転送される第２の装置に輸送され接続される。出力データは、ときには、データベースとして１つの装置により記憶され、第２の装置は、同一のデータベースから出力データにアクセスする。

いくつかの実施形態では、ユーザーは装置（たとえば、コンピューター装置（シーケンシング装置））と対話する。ユーザーは、たとえば、クエリーをソフトウェアに置きうるとともに、次いで、インターネットアクセスを介してデータセットを獲得しうる。また、ある特定の実施形態では、プログラマブルマイクロプロセッサーは、所与のパラメーターに基づいて好適なデータセットを獲得するように促しうる。プログラマブルマイクロプロセッサーはまた、所与のパラメーターに基づいてマイクロプロセッサーにより選択された１つ以上のデータセットオプションを選択するようにユーザーを促しうる。プログラマブルマイクロプロセッサーは、インターネットを介して見いだされた情報、他の内部または外部の情報などに基づいてマイクロプロセッサーにより選択された１つ以上のデータセットオプションを選択するようにユーザーを促しうる。オプションは、１つ以上のデータ特徴選択、１つ以上の統計的アルゴリズム、１つ以上の統計解析アルゴリズム、１つ以上の統計的有意性アルゴリズム、繰返しステップ、１つ以上の検証アルゴリズム、１つ以上の方法グラフ表現、マシン、装置（複数の装置、本明細書では複数形でａｐｐａｒａｔｕｓ（装置）としても参照される）、コンピュータープログラム、または実行可能プログラムを記憶した非一時的コンピューター可読記憶媒体を選択すべく選びうる。

本明細書に扱われるシステムは、デバイス、周辺機器、インターフェース、記憶媒体、センサー、および典型的なコンピュータシステムの一部、たとえば、ネットワークサーバー、ラップトップシステム、デスクトップシステム、ハンドヘルドシステム、パーソナルディジタルアシスタント、携帯電話、コンピューターキオスクなどを含みうる。コンピュータシステムは、ユーザーがシステムにデータを入力するために、１つ以上の入力手段、たとえば、キーボード、タッチスクリーン、マウス、音声認識手段、または他の手段を含みうる。システムは、１つ以上の出力装置、たとえば、限定されるものではないが、ディスプレイ（たとえば、ＣＲＴ、ＬＥＤ、またはＬＣＤ）、スピーカー、ＦＡＸマシン、プリンター（たとえば、レーザー、インクジェット、インパクト、白黒またはカラープリンター）、情報（たとえば、アウトカムおよび／またはレポート）のビジュアル、オーディオ、および／またはハードコピー出力を提供するのに有用な任意の他の好適な出力装置をさらに含みうる。

コンピュータシステムは、多くの場合、ユーザー入力コンポーネントを含む。ユーザー入力コンポーネントは、被験体および／または他のユーザーによる情報の入力および／または選択を容易にする。ユーザー入力コンポーネントは、多くの場合、ユーザーインターフェースおよび／または他のインターフェースデバイスを介して情報の入力および／または選択を容易にする。たとえば、ユーザー入力コンポーネントは、ユーザーインターフェースにより１つ以上の図のグラフ図をユーザーに表示できるようにしうるとともに、ユーザーによる情報の入力および／または選択を容易にする。いくつかの実施形態では、ユーザー入力コンポーネントは、１名以上のユーザーに関連付けられた１つ以上のユーザーインターフェースによる情報の入力および／または選択を容易にするように構成される。いくつかの実施形態では、ユーザー入力コンポーネントは、ウェブサイト、モバイルアプリ、テキストメッセージおよび／または電子メールが送信されるボット、および／または他の方法による情報の入力および／または選択を容易にするように構成される。いくつかの実施形態では、入力および／または選択された情報は、核酸配列、ユーザー、サンプル、およびマイクロプロセッサーに追加の命令を提供するオプションパラメーターに関連する情報を含む。いくつかの実施形態では、ユーザー入力コンポーネントは、特定の問題に答えるようにおよび／または他の情報を提供するように被験体またはユーザーおよび／または他のユーザーを促すように構成される。いくつかの実施形態では、ユーザー入力コンポーネントは、時刻、継続時間、および／または他の時間関連情報と、他の入力情報、選択情報、記憶情報、抽出情報、および／または処理情報と、を関連付けるように構成される。

システムでは、入出力手段は、プログラム命令を実行するためのマイクロプロセッサーならびにプログラムコードおよびデータを記憶するためのメモリーを含みうる中央処理ユニットに接続しうる。いくつかの実施形態では、プロセスは、地理的に１ヶ所に位置する単一のユーザーシステムとして実行しうる。ある特定の実施形態では、プロセスは、マルチユーザーシステムとして実行しうる。マルチユーザーで実行する場合、ネットワークにより複数の中央処理ユニットを接続しうる。ネットワークは、建物の一部の単一部門を含めて局所的でありうるか、建物全体でありうるか、複数の建物にまたがりうるか、地域にまたがりうるか、全国にまたがりうるか、または世界的でありうる。ネットワークは、個人的なものでありうるか、プロバイダーが所有し制御するものでありうるか、またはユーザーがウェブページにアクセスして情報の入出力を行うインターネットベースのサービスとして実現されるものでありうる。したがって、ある特定の実施形態では、システムは、ユーザーに対してローカルでありうるかまたはリモートでありうる１つ以上のマシンを含む。ユーザーは、１つの場所または複数の場所にある２つ以上のマシンをアクセスしうるとともに、逐次的および／または並列的にデータをマッピングおよび／または処理しうる。それゆえ、複数のマシンを用いて、たとえば、ローカルネットワーク、リモートネットワーク、および／または「クラウド」コンピューティングプラットフォームを用いて、データをマッピングおよび／または処理すべく、好適な構成および制御を利用しうる。

システムは、いくつかの実施形態では、通信インターフェースを含みうる。通信インターフェースは、コンピュータシステムと１つ以上の外部デバイスとの間でソフトウェアおよびデータの転送を可能にする。通信インターフェースの例としては、限定されるものではないが、モデム、ネットワークインターフェイス（イーサネット(登録商標）／ＷｉＦｉ）、通信ポート（たとえば、ＵＳＢポート、ＨＤＭＩ(登録商標）ポート）、Ｂｌｕｅｔｏｏｔｈ(登録商標）、ＰＣＭＣＩＡスロット、および／またはカードなどが挙げられる。限定されるものではないが、マニュアル入力デバイスおよび／または直接データ入力デバイス（ＤＤＥ）をはじめとする好適な通信インターフェース、デバイス、および／または方法により、データを入力しうる。マニュアルデバイスの例としては、限定されるものではないが、キーボード、コンセプトキーボード、タッチセンサースクリーン、ライトペン、マウス、トラックボール、ジョイスティック、グラフィックスタブレット、スキャナー、ディジタルカメラ、ビデオディジタイザー、および音声認識デバイスが挙げられる。ＤＤＥの例としては、限定されるものではないが、バーコードリーダー、磁気ストリップコード、スマートカード、磁気インク文字認識、光学式文字認識、光学マーク認識、およびターンアラウンドドキュメントが挙げられる。

ある特定の実施形態では、シミュレートデータはｉｎｓｉｌｉｃｏプロセスにより生成され、シミュレートデータは入力デバイスを介して入力可能なデータとして機能する。「ｉｎｓｉｌｉｃｏ」という用語は、データ（たとえば、コンティグ、中間コンティグ、スーパーコンティグなど）、および／またはコンピューター、１つ以上のコンピュータープログラムコンポーネント、もしくはそれらの組合せを用いて実施されるデータの操作もしくは変換を意味する。ある特定の実施形態では、本明細書の方法およびプロセスはｉｎｓｉｌｉｃｏで実施される。ｉｎｓｉｌｉｃｏプロセスは、限定されるものではないが、リードのマッピング、リードのアライメント、リードのオーバーラッピング、パイルアップ関係の生成、繰返しプロセス（たとえば、繰返しアセンブリー、またはコンティグ、中間コンティグおよび／またはスーパーコンティグまたはそれらの一部の構築）、ハプロタイプのアセンブリー、遺伝子型および／または遺伝子型仮説のアセンブリーが挙げられる。

システム、本明細書に記載のプロセスを行うのに有用なソフトウェアを含みうるとともに、ソフトウェアは、かかるプロセスを実施するための１つ以上のコンピュータープログラムコンポーネントを含みうる。「ソフトウェア」という用語は、コンピューターにより実行された時にコンピューター操作を実施するプログラム命令（たとえば実行可能プログラム）を含むコンピューター可読記憶媒体を意味する。１つ以上のマイクロプロセッサーにより実行可能な命令は、ときには、実行時に本明細書に記載の方法を１つ以上のマイクロプロセッサーに実行させる実行可能コードとして提供される。

本明細書に記載のコンピュータープログラムコンポーネント（すなわちコンポーネント）は、ソフトウェアとして、および／またはプロセッサーもしくはマイクロプロセッサーにより実行もしくは実施が可能なソフトウェアに具現化された命令（たとえば、プロセス、ルーチン、サブルーチン）として存在可能である。たとえば、コンピュータープログラムコンポーネントは、特定のプロセスまたはタスクを実施するプログラムの一部でありうる。「コンピュータープログラムコンポーネント」および「コンポーネント」という用語は、本明細書では同義的に用いられ、より大きなマシンまたはソフトウェアシステムで使用可能な内蔵型機能ユニットを意味する。コンポーネントは、１つ以上のマイクロプロセッサーによりコンピュータープログラムコンポーネントの機能を発揮するための命令セットを含みうる。コンピュータープログラムコンポーネントの命令は、好適なプログラミング言語、好適なソフトウェア、および／または好適な言語（たとえば、当技術分野で公知のコンピュータープログラミング言語）で書かれたコード、および／またはオペレーティングシステム（その例としては、限定されるものではないが、ＵＮＩＸ(登録商標）、Ｌｉｎｕｘ(登録商標）、ｏｒａｃｌｅ、ｗｉｎｄｏｗｓ、Ｕｂｕｎｔｕ、ＡｃｔｉｏｎＳｃｒｉｐｔ、Ｃ、Ｃ＋＋、Ｃ＃、Ｈａｓｋｅｌｌ、Ｊａｖａ(登録商標）、ＪａｖａＳｃｒｉｐｔ(登録商標）、Ｏｂｊｅｃｔｉｖｅ−Ｃ、Ｐｅｒｌ、Ｐｙｔｈｏｎ、Ｒｕｂｙ、Ｓｍａｌｌｔａｌｋ、ＳＱＬ、ＶｉｓｕａｌＢａｓｉｃ、ＣＯＢＯＬ、Ｆｏｒｔｒａｎ、ＵＭＬ、ＨＴＭＬ（たとえば、ＰＨＰ）、ＰＧＰ、Ｇ、Ｒ、Ｓなど、またはそれらの組合せが挙げられる）の使用により計算環境で実行可能である。

いくつかの実施形態では、コンピュータープログラムコンポーネントは、１つ以上のデータファイルを含み、しかも他のコンピュータープログラムコンポーネントにデータファイルを転送可能であり、および／または他のコンピュータープログラムコンポーネントからのデータファイルを受信可能である。いくつかの実施形態では、コンポーネントは、たとえば、データおよび／または情報を、有形印刷物、ユーザーへの説明書、アウトカム、ディスプレイ、遺伝子型など、またはそれらの組合せに変換する。たとえば、本明細書に記載の１つ以上のコンポーネントおよび／またはマイクロプロセッサー（たとえば、装置またはマシン）は、被験体ゲノムのランダムで無秩序な核酸断片を表すシーケンシングリードを取得し、そうしたリードを被験体の身体の特定の部分（たとえば、被験体のゲノムの一部（たとえば、対象のゲノム領域の遺伝子型））の正確な表現（たとえば、ディスプレイ）に変換する。プロセスは、パズルの何百万ものピースを絵に変換するプロセスまたはＸ線データのビットを被験体身体（たとえば、骨、器官、および他の生体組織の表示）の一部の表示に変換するプロセスと比較可能である。

本明細書に記載の方法では１つ以上のコンポーネントを利用することが可能であり、その例としては、限定されるものではないが、配列コンポーネント、リクルートコンポーネント、パイルアップ関係コンポーネント、スーパーコンティガーコンポーネント、コンティグアセンブリーコンポーネント、スーパーコンティグアセンブリーコンポーネント、インサートサイズ分布コンポーネント、アダプタートリマーコンポーネント、リード−リードアライナー、ハプロタイプコンポーネント、コーラー、アウトカムコンポーネントなど、またはそれらの組合せが挙げられる。コンポーネントは、ときには、マイクロプロセッサーにより制御される。ある特定の実施形態では、コンポーネントまたは１つ以上のコンポーネントを含むマシンは、他のコンポーネント、マシン、インターフェース、周辺機器、またはマシンのオペレーター（ユーザー）との間で、データおよび／または情報の収集、アセンブル、受取り、取得、アクセス、回収、提供および／または転送を行う。いくつかの実施形態では、データおよび／または情報（たとえばシーケンスリード）は、次のもの、すなわち、１つ以上のフローセル、カメラ、検出器（たとえば、光検出器、光電池、電気検出器（たとえば、振幅変調検出器、周波数および位相変調検出器、フェーズロックループ検出器）、カウンター、センサー（たとえば、圧力、温度、体積、流量、重量のセンサー）、流体取扱いデバイス、データ入力デバイス（たとえば、キーボード、マウス、スキャナー、音声認識ソフトウェアおよびマイクロフォン、スタイラスなど）、プリンター、ディスプレイ（たとえば、ＬＥＤ、ＬＣＴ、またはＣＲＴ）など、またはそれらの組合せ、の１つ以上を含むマシンによりコンポーネントに提供される。たとえば、ときには、マシンまたは装置のオペレーターは、定数、閾値、式、または所定の値をコンポーネントに提供する。コンピュータープログラムコンポーネントは、多くの場合、マイクロプロセッサー、記憶媒体、および／またはメモリーとの間でデータおよび／または情報の転送を行うように構成される。コンポーネントは、多くの場合、他の好適なコンポーネントまたはマシンとの間でデータおよび／または情報の転送あるいはデータおよび／または情報の受信を行うように構成される。コンポーネントは、データおよび／または情報の操作および／または変換を行うことが可能である。コンポーネントにより導出または変換されたデータおよび／または情報は、他の好適なマシンおよび／またはコンポーネントに転送可能である。コンピュータープログラムコンポーネントを含むマシンは、少なくとも１つのマイクロプロセッサーを含みうる。コンポーネントを含むマシンは、マイクロプロセッサー（たとえば、１つ以上のマイクロプロセッサー）を含みうるとともに、マイクロプロセッサーは、コンポーネントの１つ以上の命令（たとえば、プロセス、ルーチンは、および／またはサブルーチン）を実施および／または実行することが可能である。いくつかの実施形態では、コンポーネントは、１つ以上の外部マイクロプロセッサー（たとえば、内部または外部のネットワーク、サーバー、記憶デバイス、および／または記憶ネットワーク（たとえば、クラウド））で動作する。

データおよび／または情報は好適な形態でありうる。たとえば、データおよび／または情報はディジタルまたはアナログでありうる。ある特定の実施形態では、データおよび／または情報は、ときには、パケット、バイト、キャラクター、またはビットでありうる。いくつかの実施形態では、データおよび／または情報は、任意の収集された、アセンブルされた、または使用可能なデータまたは情報でありうる。データおよび／または情報の例としては、限定されるものではないが、好適な媒体、写真、ビデオ、音（たとえば、周波数、オーディブル、または非オーディブル）、数値、定数、データファイル、値、オブジェクト、時間、機能、命令、マップ、参照、配列、リード、マッピングされたリード、レベル、範囲、閾値、シグナル、表示、表現、またはそれらの変換が挙げられる。コンピュータープログラムコンポーネントは、データおよび／または情報の容認または受信、データおよび／または情報の第２の形態への変換、マシン、周辺機器、デバイス、マイクロプロセッサー、記憶デバイス、インターフェース、または他のコンピュータープログラムコンポーネントへの第２の形態の情報の提供または転送を行うことが可能である。マイクロプロセッサーは、ある特定の実施形態では、コンポーネント中の命令を実施可能である。いくつかの実施形態では、１つ以上のマイクロプロセッサーは、コンピュータープログラムコンポーネントまたはコンピュータープログラムコンポーネントのグループで命令を実施するために必要である。コンピュータープログラムコンポーネントは、他のコンピュータープログラムコンポーネント、マシン、またはソースにデータおよび／または情報を提供可能でありできる、かつ他のコンピュータープログラムコンポーネント、マシン、またはソースからデータおよび／または情報を受信可能である。

コンピュータープログラム製品は、ときには非一時的コンピューター可読媒体上で具現化され、ときには非一時的コンピューター可読媒体上で実体的に具現化される。ある特定の実施形態では、コンピューター可読記憶媒体は、実行可能プログラムを記憶して含む。コンピュータープログラムコンポーネントは、ときには、非一時的コンピューター可読媒体（たとえば、ディスク、ドライブ）またはメモリー（たとえば、ランダムアクセスメモリー）に記憶される。コンピュータープログラムコンポーネントの命令を実行可能なコンピュータープログラムコンポーネントおよびマイクロプロセッサーは、１つのマシンまたは異なるマシンに位置しうる。コンピュータープログラムコンポーネントの命令を実行可能なコンピュータープログラムコンポーネントおよび／またはマイクロプロセッサーは、ユーザーと同一の場所に位置しうるか（たとえば、ローカルネットワーク）またはユーザーと異なる場所に位置しうる（たとえば、リモートネットワーク、クラウドシステム）。２つ以上のコンピュータープログラムコンポーネントを組み合わせて方法が実施される実施形態では、コンピュータープログラムコンポーネントは同一のマシンに位置しうるし、１つ以上のコンピュータープログラムコンポーネントは同一の物理的場所で異なるマシンに位置しうるし、１つ以上のコンピュータープログラムコンポーネントは異なる物理的場所で異なるマシンに位置しうる。

ある特定の実施形態では、マシン、装置、またはコンピューターは、１つ以上のコンピューターコンポーネントパーツ（周辺機器および／またはインターフェース）を含む。周辺機器および／またはコンピューターコンポーネントパーツは、ときには、コンピュータープログラムコンポーネント、インターフェース、ディスプレイ、周辺機器、および／または他のコンピューターコンポーネントパーツとの間でデータおよび／または情報の転送を行いうる。ある特定の実施形態では、マシンは、データおよび／または情報を提供する周辺機器および／またはコンピューターコンポーネントパーツと対話する。ある特定の実施形態では、周辺機器およびコンピューターコンポーネントパーツは、機能を発揮したりまたはコンピュータープログラムコンポーネントと直接対話したりする際にマシンを支援する。周辺機器および／またはコンピューターコンポーネントパーツの例としては、限定されるものではないが、好適なコンピューター周辺機器、Ｉ／Ｏまたは記憶の方法またはデバイス、たとえば、限定されるものではないが、スキャナー、プリンター、ディスプレイ（たとえば、モニター、ＬＥＤ、ＬＣＴ、またはＣＲＴ）、カメラ、マイクロフォン、パッド（たとえば、ｉｐａｄ、タブレット）、タッチスクリーン、スマートフォン、移動電話、ＵＳＢＩ／Ｏデバイス、電子記憶装置（ＵＳＢ大容量記憶装置）、光学可読記憶媒体（たとえば、光ディスクなど）、磁気可読記憶媒体（たとえば、磁気テープ、磁気ハードドライブ、フロッピードライブなど）、電荷ベース記憶媒体（たとえば、ＥＰＲＯＭ、ＲＡＭなど）、ソリッドステート記憶媒体（たとえば、フラッシュドライブなど）、および／または他の電子可読記憶媒体、キーボード、コンピューターマウス、ディジタルペン、モデム、ハードドライブ、ジャンプドライブ、フラッシュドライブ、マイクロプロセッサー、サーバー、ＣＤ、ＤＶＤ、グラフィックスカード、専用Ｉ／Ｏデバイス（たとえば、シーケンサー、フォトセル、光電子増倍管、オプティカルリーダー、センサーなど）、ネットワークインターフェイスコントローラー、リードオンリーメモリー（ＲＯＭ）、ランダムアクセスメモリー（ＲＡＭ）、ワイヤレストランスファーデバイス（Ｂｌｕｅｔｏｏｔｈ(登録商標）デバイス、ＷｉＦｉデバイスなど）、ワールドワイドウェブ（ｗｗｗ）、インターネット、コンピューター、および／または他のコンピュータープログラムコンポーネントが挙げられる。

コンピュータープログラムコンポーネントおよびコンピューターインプリメンテーション
いくつかの実施形態では、システムは、シーケンスリードを生成するように構成されたシーケンスコンポーネントを含む。シーケンスコンポーネントは、核酸シーケンサー（たとえば、核酸ライブラリーのためのシーケンスリードを生成するように設計され構成されたマシンまたは装置）ならびに／またはシーケンスリードを生成、アセンブル、マッピング、およびトリミングするように構成されたソフトウェアおよび命令を含みうる。シーケンスコンポーネントは、多くの場合、データファイルの形式（たとえば、ｂａｍファイル、ｆａｓｔａファイルなど）でシーケンスリードを提供する。シーケンスコンポーネントは、任意の好適なファイル形式でのシーケンスリードを提供可能である。

いくつかの実施形態では、システムはリクルートコンポーネントを含む。いくつかの実施形態では、リクルートコンポーネントは、シーケンスリード（たとえば、ペアエンドシーケンスリード）を取得するように好適な供給源および／または入力手段からデータファイルの形式で構成される。たとえば、リクルートコンポーネントは、リードを生成するように構成された装置（たとえば、核酸シーケンシング用に構成された装置）から、および／またはリードをアセンブルおよび／またはマッピングするように構成されたコンピューターから、リードを取得または受け取ることが可能である。いくつかの実施形態では、リクルートコンポーネントは、シーケンスコンポーネントからリードを取得および／またはリクルートする。いくつかの実施形態では、リクルートコンポーネントは、好適な非一時的または一時的記憶媒体からリードを取得する。たとえば、人は、任意の好適な手段により（たとえば、ジャンプドライブ、ディスク、電子メール、インターネットなどを介して）、データファイルをリクルートコンポーネントに提供することにより、シーケンスリードをリクルートコンポーネントに提供可能である。ある特定の実施形態では、リクルートコンポーネントは、参照にマッピングされるリード、および／または参照にマッピングされない、一致しない、もしくは不十分にマッピングされるリード（たとえば、低いマッピング性を有するリード）を取得および／またはリクルートする。いくつかの実施形態では、リクルートコンポーネントは、マッピングされるか、マッピングされないか、一致しないか、または不十分にマッピングされるかにかかわらず、マッピングされるペアエンドシーケンスリードのリードメイトおよびその対応するリードメイトを取得する。ある特定の実施形態では、リクルートコンポーネントは、各ペアの２つのリードメイトの少なくとも１つが、所定の対象のゲノム領域を含む参照ゲノムの少なくとも一部にマッピングされ、かつペアエンドシーケンスリードのいくつかが参照ゲノムの少なくとも一部にマッピングされない場合、各ペアが２つのリードメイトを含んで複数のリードメイトペアを含むペアエンドシーケンスリードセットを取得する。いくつかの実施形態では、リクルートコンポーネントは、リードに関連付けられる情報（たとえば、リード長、リードメイトペアの向き、およびリードメイトペアの推定インサート長）を取得および／または記憶する。いくつかの実施形態では、リクルートコンポーネントは、選択されたリード（たとえば、リクルートされたリード、取得したリード、選択されたリードセット）を他のコンピュータープログラムコンポーネントに転送するように構成される。たとえば、いくつかの実施形態では、選択されたリードをリクルートコンポーネントは、フィルターコンポーネント、トリミングコンポーネント、マッピングコンポーネント、またはパイルアップ関係コンポーネント、コンティグアセンブリーコンポーネント、スーパーコンティグアセンブリーコンポーネント、および／またはコーラーコンポーネントに転送する。

いくつかの実施形態では、システムまたは記憶媒体は、インサートサイズ分布コンポーネントを含む。いくつかの実施形態では、インサートサイズ分布コンポーネントは、リクルートコンポーネント、スーパーコンティガー、スーパーコンティグアセンブリーコンポーネント、ハプロタイプコンポーネント、または遺伝子型尤度比コンポーネントとの間でデータおよび／または情報の転送および／または受信を行いうる。いくつかの実施形態では、インサートサイズ分布コンポーネントは、多くの場合、インサートサイズ分布、推定インサートサイズ、推定インサート長、および／またはリードペアまたはペアエンドリードサブセットのインサートサイズの推定尤度を決定するように構成される。いくつかの実施形態では、インサートサイズ分布コンポーネントは、推定インサート断片長、計算インサート断片長、または測定インサート断片長の分布を生成し、ペアエンドリードサブセットの推定インサートサイズを決定する。ときには、インサートサイズ分布コンポーネントは、データファイル中に推定インサートサイズおよび／またはインサートサイズの推定尤度を導入またはインデックス付けする。いくつかの実施形態では、インサートサイズの推定尤度はリードメイトペアに関連付けられ、これを用いて所与のリードメイトペアがコンティグまたはスーパーコンティグにマッピングまたはアライメントする可能性を決定する。いくつかの実施形態では、インサートサイズ分布コンポーネントは、推定インサート長に従って、他のリードメイトペア、参照配列、コンティグ、またはスーパーコンティグへのリードメイトペアのマッピングまたはアライメントに関連する尤度または確率を決定する。

いくつかの実施形態では、インサートサイズ分布コンポーネントは、スーパーコンティグまたは遺伝子型仮説に尤度（たとえば、インサートサイズ尤度）、尤度スコア、またはペナルティーを帰属する。いくつかの実施形態では、インサートサイズ分布コンポーネントは、提案されたインサートサイズに尤度、尤度スコア、またはペナルティーを帰属する。たとえば、いくつかの実施形態では、ハプロタイパーは、リードペアをスーパーコンティグまたは遺伝子型仮説のハプロタイプに再アライメントする。ある特定の実施形態では、ハプロタイパーによりインサートサイズ分布コンポーネントをリクルートして、再アライメントされたリードペア間の距離（その距離はスーパーコンティグまたはハプロタイプにより規定される）がリードペアの推定インサートサイズまたはインサートサイズ分布と一致するかを決定する。いくつかの実施形態では、インサートサイズ分布コンポーネントは、（ｉ）再アライメントされたリードペア間の距離（この距離は、リードペアがアライメントされるスーパーコンティグまたはハプロタイプにより規定される）と、（ｉｉ）リードペアで決定されたインサートサイズ分布または推定インサートサイズと、を比較して、いくつかの実施形態では、リードペアがアライメントされたスーパーコンティグまたは遺伝子型仮説に関連付けられる尤度、尤度スコア、または確率を戻す。たとえば、リードメイトペアのリードメイトが仮説配列（たとえば、スーパーコンティグ、遺伝子型仮説のハプロタイプ）にマッピングされ、かつ推定インサートサイズよりも互いに離れた距離でマッピングされるいくつかの実施形態では、かかる長いインサートサイズの尤度は低いであろう。この低い尤度を用いてその仮説の尤度比にペナルティーを課す。いくつかの実施形態では、インサート分布コンポーネントは、スーパーコンティグまたは遺伝子型仮説に再アライメントされる複数のリードペアに従って尤度、尤度スコア、または確率を決定する。いくつかの実施形態では、インサート分布コンポーネントは、スーパーコンティグまたは遺伝子型仮説に再アライメントされる複数のリードペアに従って尤度、尤度スコア、または確率を決定し、尤度、尤度スコア、または確率をリードが再アライメントされたスーパーコンティグまたは遺伝子型仮説に関連付ける。ある特定の実施形態では、尤度または尤度スコアは、スーパーコンティグ、ハプロタイプ、または遺伝子型仮説に関連付けられるペナルティーまたはペナルティースコアを含む。ある特定の実施形態では、データおよび／または情報（たとえば、インサートサイズ分布、推定インサートサイズ、尤度、インサートサイズ尤度、尤度スコア、ペナルティー、または確率）は、各リードペア対各ハプロタイプに対してマッピングウェイトを決定するためにまたはるあらかじめ計算するために、ハプロタイプコンポーネントに転送されるおよび／またはそれにより処理される。いくつかの実施形態では、マッピングウェイトは、部分的には、インサートサイズ分布コンポーネントにより決定された１つ以上のインサートサイズ尤度またはペナルティーに従って決定される。いくつかの実施形態では、マッピングウェイトは、インサートサイズ分布コンポーネントから導出されるインサートサイズ尤度を含む。

いくつかの実施形態では、マジョリティーコンセンサスヌクレオチドは、パイルアップ関係に従って決定される（たとえば、パイルアップ関係コンポーネントにより決定される）複数のオーバーラップまたはアライメントに従って決定される。ある特定の実施形態では、リードのオーバーラップおよび／またはアライメントは、マッピングされたリードメイト間の推定または黙示インサート長に従ってそれらの対応するリードメイトのオーバーラップおよび／またはアライメントに関してチェックされる。かかる機能は、多くの場合、インサートサイズ分布コンポーネントにより実施される。たとえば、リードメイトペアの２つのリードメイトがコンティグの一部にアライメントされ、２つのリードメイト末端間の距離がある特定のインサートサイズを示唆する場合、そのアライメントは、実験室ＤＮＡ断片化プロトコルにより生成されるかかるインサートサイズの頻度に対応するインサートサイズ尤度を受け取るであろう。いくつかの実施形態では、リードメイトペアの２つのリードメイトがコンティグの一部にオーバーラップまたはアライメントされ、かつ２つのリードメイトの末端間の距離がそれらのインサート長を示唆し、ＤＮＡ断片化プロセスを仮定してかなりの頻度である場合、かかるリードペアアライメントは比較的高い尤度に帰属される。一方、低い尤度は、ＤＮＡ断片化プロトコルを仮定してあまりにも短いかあまりにも長いインサートサイズを示唆するリードペアアライメントに帰属されるであろう。コンティグのアセンブリー時またはスーパーコンティグのアセンブリー時、オーバーラップペナルティーおよびアライメントペナルティーを評価することもある。いくつかの実施形態では、ペナルティーを含むオーバーラップおよび／またはアライメントは含まれていないか、またはコンティグ、中間コンティグ、もしくはスーパーコンティグのアセンブリーに使用されない。リードメイトペアの２つのリードメイトを含むアライメントおよびオーバーラップは、多くの場合、インサートサイズ分布コンポーネントによりチェックされる。ある特定の実施形態では、インサートサイズ分布コンポーネントは、リードメイト末端の位置により決定されるインサート長に従って、コンティグ、中間コンティグ、スーパーコンティグ、およびハプロタイプへのリードメイトペアのオーバーラップおよびアライメントを評価する。ある特定の実施形態では、インサートサイズ分布コンポーネントは、リードメイトペアのある特定のオーバーラップおよびアライメントにウェイトおよび／またはペナルティーまたは尤度を帰属する（たとえば、コンティグ、中間コンティグ、スーパーコンティグ、およびハプロタイプへのリードメイトのアライメント）。いくつかの実施形態では、インサートサイズ分布コンポーネント、リードメイトペア（たとえば、両方のリードメイト）がｉｎｓｉｌｉｃｏ生成配列（たとえば、コンティグ、スーパーコンティグ、ハプロタイプ、またはハプロタイプ仮説）により生成される尤度を決定し、この場合、尤度は、配列へのアライメントにより示唆されるリードペアのインサート長に従って決定される。いくつかの実施形態では、インサート分布コンポーネントは、尤度をｉｎｓｉｌｉｃｏ生成配列（たとえば、コンティグ、スーパーコンティグ、ハプロタイプ、またはハプロタイプ仮説）への各リードペアのアライメントに関連付け、この場合、尤度は、インサートサイズに従って決定され、かつ尤度は、式３および６に示される確率Ｐ（Ｉ_Ｍ）として含まれ、式中、Ｉ_ＭはリードペアのマッピングＭにより示唆されるインサートサイズである。いくつかの実施形態では、確率Ｐ（Ｉ_Ｍ）は経験的インサートサイズ分布から取得可能である。インサートサイズ分布コンポーネントは、多くの場合、データおよび／または情報をパイルアップ関係コンポーネント、コンティグアセンブリーコンポーネント、スーパーコンティグアセンブリーコンポーネント、コーラー、および／またはコーラーコンポーネントに送信する。

いくつかの実施形態では、システムは、パイルアップ関係コンポーネント（すなわち、関係コンポーネント）を含む。いくつかの実施形態では、パイルアップ関係コンポーネントは１つ以上のパイルアップ関係を決定する。いくつかの実施形態では、パイルアップ関係コンポーネントは、リードおよび／またはリードメイトへのアライメントを実施し、オーバーラップを生成し、かつ関係（たとえば、パイルアップ関係）を決定または帰属するように構成される。いくつかの実施形態では、パイルアップ関係コンポーネントは、リードセットに対して１つ以上のパイルアップ関係を生成するように構成される。パイルアップ関係コンポーネントは、多くの場合、リクルートコンポーネントからリードを取得しおよび／または受け取り、受け取ったリードに従って１つ以上のパイルアップ関係を生成する。ある特定の実施形態では、パイルアップ関係コンポーネントは、リードのセットまたはサブセットへのすべての可能なオーバーラップを生成する。ある特定の実施形態では、パイルアップ関係コンポーネントは、好適なｋ−ｍｅｒハッシングストラテジーに従ってリードのセットまたはサブセットのオーバーラップを生成する。ある特定の実施形態では、パイルアップ関係コンポーネントは、オーバーラップをフィルタリング、除去、および／またはプルーニングする。ある特定の実施形態では、パイルアップ関係コンポーネントは、オーバーラップを選択および／または記憶する。いくつかの実施形態では、パイルアップ関係コンポーネントは、パイルアップグラフおよび／またはタイリングを生成する。パイルアップ関係コンポーネントは、多くの場合、リードセットで選択されたオーバーラップおよび／またはリード−リードアライメントをコンティグアセンブリーコンポーネントに転送する。

いくつかの実施形態では、システムはコンティグアセンブリーコンポーネントを含む。ある特定の実施形態では、コンティグアセンブリーコンポーネントは、リクルートコンポーネントまたはパイルアップ関係コンポーネントからデータおよび／または情報（たとえば、データファイル）を受け取る。コンティグアセンブリーコンポーネントは、多くの場合、パイルアップ関係に従ってヌクレオチドをスターターリードまたは中間コンティグに繰り返し付加することにより（たとえば、ｉｎｓｉｌｉｃｏで）コンティグをアセンブルするように構成される。コンティグアセンブリーコンポーネントは、多くの場合、スターターリード、コンティグ、または中間コンティグの一部へのリード、リードメイト、および／またはリードメイトペアのオーバーラップおよび／またはアライメントを決定する。いくつかの実施形態では、コンティグアセンブリーコンポーネントは、多くの場合、パイルアップ関係に従ってリード、リードメイト、および／またはリードメイトペアのオーバーラップおよび／またはアライメントを決定する。いくつかの実施形態では、コンティグアセンブリーコンポーネントは、多くの場合、リードのある特定のオーバーラップおよび／またはアライメントに対して決定されたペナルティーおよび／またはウェイトに従ってリード、リードメイト、および／またはリードメイトペアのオーバーラップおよび／またはアライメントを決定する。ペナルティー、ウェイト、および／またはそれらの不在は、多くの場合、インサートサイズ分布コンポーネントにより決定され、コンティグアセンブリーコンポーネントに送られ、コンティグのアセンブル時にその情報を用いてある特定のリードのオーバーラップまたはアライメントを含めるかまたは排除する。コンティグアセンブリーコンポーネントにより生成されたコンティグ（たとえば、コンティグおよび中間コンティグ）は、多くの場合、スーパーコンティグアセンブリーコンポーネントに送られる。

いくつかの実施形態では、システムはスーパーコンティグアセンブリーコンポーネントを含む。ある特定の実施形態では、スーパーコンティグアセンブリーコンポーネントは、コンティグアセンブリーコンポーネント、関係コンポーネント、インサートサイズ分布コンポーネント、および／またはリクルートコンポーネントからデータおよび／または情報（たとえばデータファイル）を受け取る。スーパーコンティグアセンブリーコンポーネントは、多くの場合、コンティグを１つ以上のリードメイトペアでブリッジすることによりスーパーコンティグを構築またはアセンブルするように構成される。スーパーコンティグアセンブリーコンポーネントは、多くの場合、１つ以上のコンティグまたは中間コンティグの一部へのリード、リードメイト、および／またはリードメイトペアのオーバーラップおよび／またはアライメントを決定する。いくつかの実施形態では、スーパーコンティグアセンブリーコンポーネントは、多くの場合、２つ以上のコンティグを接続するリード、リードメイト、および／またはリードメイトペアのオーバーラップおよび／またはアライメントを決定する。いくつかの実施形態では、スーパーコンティグアセンブリーコンポーネントは、多くの場合、リードおよびリードメイトペアのある特定のオーバーラップおよび／またはアライメントに対して決定されたペナルティーおよび／またはウェイトに従って、リード、リードメイト、および／またはリードメイトペアのオーバーラップおよび／またはアライメントを決定する。ペナルティー、ウェイト、および／またはそれらの不在は、多くの場合、インサートサイズ分布コンポーネントにより決定され、スーパーコンティグアセンブリーコンポーネントに送られ、スーパーコンティグのアセンブル時にその情報を用いてある特定のリードのオーバーラップまたはアライメントを含めるかまたは排除する。いくつかの実施形態では、スーパーコンティグアセンブリーコンポーネントにより生成されたスーパーコンティグは、コーラーまたはコーラーコンポーネントに送られる。いくつかの実施形態では、スーパーコンティグアセンブリーコンポーネントにより生成されたスーパーコンティグは、ハプロタイプコンポーネントに送られる。

いくつかの実施形態では、システムは、１つ以上のハプロタイパープロセスを行うハプロタイパー（たとえばハプロタイプコンポーネント）を含む。１つ以上のハプロタイパープロセスは、多くの場合、ハプロタイプコンポーネントにより実施される。ハプロタイプコンポーネントは、スーパーコンティガーコンポーネント、スーパーコンティグアセンブリーコンポーネント、パイルアップ関係コンポーネント、インサートサイズ分布コンポーネント、またはリクルートコンポーネントの１つ以上との間でデータおよび／または情報の受取りおよび／または交換を行う。ハプロタイプコンポーネントは、オブジェクト、データ、および／または情報コーラーまたはアウトカムコンポーネントに送ることが可能である。いくつかの実施形態では、システムはハプロタイプコンポーネントを含まない。

いくつかの実施形態では、システムはコーラー（たとえばコーラーコンポーネント）を含む。ある特定の実施形態では、コーラーコンポーネントは、スーパーコンティグアセンブリーコンポーネント、ハプロタイプコンポーネント、関係コンポーネント、インサートサイズ分布コンポーネントおよび／またはリクルートコンポーネントからデータおよび／または情報（たとえばデータファイル）を受け取る。ある特定の実施形態では、コーラーは、所与の倍数性のすべての可能な遺伝子型をアセンブルする。いくつかの実施形態では、コーラーは、式６および／または式１の機能を発揮する。いくつかの実施形態では、コーラーは、各リードペアおよび各対立遺伝子（スーパーコンティグ）に対してリードペアウェイトを前計算し、コーラーコンポーネントにより実施可能な仮説尤度計算時にその値を再コールする。いくつかの実施形態では、すべてのリードに対してリードウェイトの計算を容易にするために、コーラーは、すべてのリードをすべてのスーパーコンティグに再アライメントする。いくつかの実施形態では、コーラーは、すべてのリードを参照ゲノムにマッピングするか、または、参照としてハプロタイプ（たとえば配列仮説）の１つを取り出す。ある特定の実施形態では、決定された第１の仮説は参照となり、第１の仮説に対してすべての尤度が計算される。

いくつかの実施形態では、コーラーコンポーネントは、倍数性（たとえば、入力倍数性、デフォルト倍数性）に従って１つ以上のスーパーコンティグから１つ以上の遺伝子型配列を生成する。コーラーは、任意の好適な倍数性に従って遺伝子型配列（たとえば、遺伝子型可能性、遺伝子型仮説）をアセンブル可能である。遺伝子型配列は、いくつかの実施形態では、倍数性が二倍体である場合、スーパーコンティグペアでありうる。遺伝子型配列は、倍数性が一倍体である場合、単一のスーパーコンティグでありうる。遺伝子型配列は、倍数性が三倍体である場合、３つのスーパーコンティグからなりうる。いくつかの実施形態では、コーラーは、所与の倍数性のすべての可能な遺伝子型仮説を表現することにより複数の遺伝子型配列をアセンブルする。遺伝子型配列（たとえば遺伝子型仮説）は、多くの場合、コーラーからアウトカムコンポーネントに送られる。

ある特定の実施形態では、コーラーは、スーパーコンティグアセンブリーコンポーネント、パイルアップ関係コンポーネント、インサートサイズ分布コンポーネント、および／またはリクルートコンポーネントからデータおよび／または情報（たとえばデータファイル）を受け取る。いくつかの実施形態では、コーラーは、１つ以上のスーパーコンティグに対して１つ以上の遺伝子型配列尤度比を生成する。いくつかの実施形態では、コーラーコンポーネントは複数の遺伝子型尤度比を生成し、各尤度比はハプロタイプ（たとえば遺伝子型仮説）のアセンブリーのために生成される。コーラーコンポーネントにより生成される遺伝子型配列尤度比は、多くの場合、アウトカムコンポーネントに送られる。

いくつかの実施形態では、システムはアウトカムコンポーネントを含む。アウトカムコンポーネント、多くの場合、コーラーコンポーネントからデータおよび／または情報（たとえば遺伝子型確率）を受け取る。いくつかの実施形態では、アウトカムコンポーネントは、多くの場合、コーラーコンポーネントから１つ以上の遺伝子型尤度比を取得する。多くの場合、アウトカムはアウトカムコンポーネントにより提供される。アウトカムは、ときには、アウトカムコンポーネントからヘルスケア専門家（たとえば、検査技師または管理者、医師または補助者）に提供される。アウトカムコンポーネントは、好適な統計ソフトパッケージを含みうる。ある特定の実施形態では、アウトカムコンポーネントは、プロット、表、チャート、またはグラフを生成する。いくつかの実施形態では、アウトカムコンポーネントは、標準的スコア（たとえばＺスコア）を生成および／または比較する。遺伝的変異および／または関連する医学的病態（たとえばアウトカム）の存在または不在は、多くの場合、アウトカムコンポーネントにより決定および／または提供される。被験体における遺伝的変異の存在または不在は、いくつかの実施形態では、アウトカムコンポーネントを含むマシンにより同定される。アウトカムコンポーネントは、特定の遺伝的変異（たとえば、ＳＴＲ、転座、多型、挿入）を決定することに特化可能である。たとえば、ＳＴＲを同定するアウトカムコンポーネントは、転座を同定するアウトカムコンポーネントとは異なりうるおよび／または識別しうる。いくつかの実施形態では、アウトカムコンポーネントまたはアウトカムコンポーネントを含むマシンは遺伝子型配列を、参照配列にアライメントすることにより遺伝的変異または遺伝的変異の決定因子であるアウトカムを同定することが必要とされる。ある特定の実施形態では、アウトカムはアウトカムコンポーネントからディスプレイコンポーネントに送られ、そこでアウトカムはディスプレイコンポーネント（たとえば、好適なディスプレイたとえばＬＥＤなど）により提供される。いくつかの実施形態では、アウトカムコンポーネントは、ディスプレイに遺伝子型表現（たとえば、遺伝子型配列、遺伝子型画像）を提供する。

遺伝的変異および医学的病態
いくつかの実施形態では、本明細書に記載のシステム、プロセスまたは方法は、被験体における遺伝的変異の存在または不在を決定する。いくつかの実施形態では、被験体における遺伝子変異の存在または不在は、遺伝子型尤度比および／またはアウトカムコンポーネントにより決定される。遺伝的変異は、一般に、ある特定の個体に存在する特定の遺伝子表現型である。いくつかの実施形態では、遺伝的変異は、染色体異常（たとえば、染色体の１つ以上の部分の損失または獲得）である。遺伝的変異の例としては、限定されるものではないが、１つ以上の欠失、重複、挿入、マイクロ挿入、付加、転座、突然変異、多型（たとえば、単一ヌクレオチド多型、多重ヌクレオチド多型）、融合、反復（たとえば、ショートタンデムリピート（すなわちＳＴＲ））など、およびそれらの組合せが挙げられる。挿入、反復、欠失、重複、突然変異、または多型は、任意の長さであり、いくつかの実施形態では、約１塩基または塩基対（ｂｐ）〜約２５０メガ塩基（Ｍｂ）の長さである。いくつかの実施形態では、挿入、反復、ＳＴＲ、欠失、重複、突然変異、または多型は、約１ヌクレオチド（ｎｔ）〜約５０，０００ｎｔの長さである（たとえば、約１〜約１０，０００のヌクレオチド、約１〜約１０，０００ヌクレオチド、約１〜約１０，０００ヌクレオチド、約１〜約１，０００ヌクレオチド、約１〜約５００、ヌクレオチド、約１〜約４００ヌクレオチド、約１〜約３００ヌクレオチド、約１〜約２００ヌクレオチド、約１〜約１００ヌクレオチド、または約１〜約５０のヌクレオチド）。いくつかの実施形態では、本明細書に記載のプロセス、システム、または方法により決定される遺伝的変異は、約２〜約５００ヌクレオチド、約２〜約４００ヌクレオチド、約２〜約３００ヌクレオチド、約２〜約２００ヌクレオチド、約２〜約１００ヌクレオチド、約２〜約５０ヌクレオチド、１０〜約５００のヌクレオチド、約１０〜約４００ヌクレオチド、約１０〜約３００のヌクレオチド、約１０〜約２００ヌクレオチド、約１０〜約１００ヌクレオチド、約１０〜約５０ヌクレオチド、約２０〜約５００ヌクレオチド、約２０〜約４００ヌクレオチド、約２０〜約３００ヌクレオチド、約２０〜約２００ヌクレオチド、約２０〜約１００ヌクレオチド、または約２０〜約５０のヌクレオチドの長さからなる。

遺伝的変異は遺伝子内に含まれうる。遺伝的変異を含む遺伝子は、遺伝子中またはその近傍に遺伝的変異を含みうるとともに、遺伝的変異は、遺伝子のイントロン、エキソン、非翻訳領域、またはそれらの組合せに存在しうる。いずれかの遺伝子は、本明細書に記載の方法またはプロセスにより決定される遺伝的変異を含みうる。たとえば、遺伝的変異は、ＡＲ、ＡＴＸＮ１、ＡＴＸＮＮＸ２、ＡＴＸＮ３、ＡＴＸＮ７、ＡＴＸＮ８、ＡＴＸＮ１０、ＤＭＰＫ、ＦＸＮ、ＪＰＨ３、ＣＡＣＮＡ１Ａ、ＰＰＰ２Ｒ２Ｂ、ＴＢＰ、ＡＴＮ１、ＡＲＸ、ＰＨＯＸ２Ｂ、ＰＡＢＰＮ１、ＡＴＴ、ＣＦＴＲ、およびＢＲＡＣＡ１の遺伝子で構成されうる。

ある特定の実施形態では、存在または不在が被験体で同定される遺伝的変異は、ときには、医学的病態に関連している。医学的病態の例としては、限定されるものではないが、知的障害（たとえばダウン症候群）、異常細胞増殖（たとえば癌）、非ホジキンリンパ腫、骨髄異形成症候群、ウィリアムズ症候群、ランガー・ギーディオン症候群、アルフィ症候群、レソール症候群、ヤコブセン症候群、網膜芽細胞腫、スミス・マゲニス、エドワーズ症候群、乳頭状腎細胞癌、ディジョージ症候群、アンゲルマン症候群、ネコ眼症候群、家族性腺腫性ポリポーシス、ミラー・ディーカー症候群、微生物核酸の存在（たとえば、ウイルス、細菌、菌類、酵母）、および子癇前症に関連したものが挙げられる。

以下に示される実施例は、ある特定の実施形態を例示したものであり、技術を限定するものではない。

実施例１：Ｋｒａｇｌｅ：ショートタンデムリピート配列および他の複合体遺伝子座のためのローカルｄｅ−ｎｏｖｏアセンブラーおよび遺伝子型コーラー
Ｋｒａｇｌｅは、ローカルｄｅ−ｎｏｖｏ配列アセンブリーおよびジェノタイピングパッケージとして設計された。Ｋｒａｇｌｅは、ペアエンドリードから任意の倍数性配列をアセンブルするように設計された。Ｋｒａｇｌｅは、リード長まで伸長するリピート配列を取り扱うために専用に設計されたものであるが、配列の逆位、転座、重複、または欠失から生じる配列接合をコールすることも可能である。Ｋｒａｇｌｅは、一連の遺伝的病態に関与するＡＲ、ＡＴＸＮ１、ＡＴＮＸ２、ＡＴＸＮ３、ＡＴＸＮ７、ＤＭＰＫ、ＦＸＮ、およびＨＴＴ遺伝子のショートタンデムリピート（ＳＴＲ）の二倍体遺伝子型をコールするためにうまく適用された。Ｋｒａｇｌｅは、ヒトＢＲＡＣＡ１遺伝子における大きな欠失から生じる仮説接合を確認するためにも、さらにはヒトＣＦＴＲ遺伝子におけるホモ多量体および近接ジヌクレオチドリピートが関与する複合変異をコールするためにも、使用された。

Ｋｒａｇｌｅの機能は、４つの主コンポーネント、すなわち、リードリクルートコンポーネント（すなわち、リクルーター、リクルートコンポーネント）、スーパーコンティガー、ハプロタイプクリエーター（ハプロタイパー）、および遺伝子型仮説コーラー（コーラー）に分けられる（図１）。スーパーコンティガーは、３つの追加のコンポーネント、すなわち、パイルアップ関係コンポーネント、コンティグアセンブリーコンポーネント、およびスーパーコンティグアセンブリーコンポーネントを含む。最初の２つ主コンポーネント（リクルーターコンポーネントおよびスーパーコンティガー）は、ペアエンドリードを十分に利用してリード長程度の長さの非中断リピート含有物（リピートが中断を含有する場合はさらに長いこともある）を含みうる低複雑性配列をアセンブルするように設計されている。ハプロタイパーは、スーパーコンティグ配列からハプロタイプを構築し、それらにすべてのリードを再マッピングし、アセンブルされた配列中の不規則性を同定しようと試みる。遺伝子型確率コンポーネントは、スーパーコンティグアセンブリーコンポーネントからハプロタイプ配列（たとえばスーパーコンティグ）をアセンブルし、遺伝子型確率を生成し、信頼度値を割り当てる。コーラーは、アセンブルされたハプロタイプ配列からの二倍体遺伝子型をコールし、尤度比に基づいて代替遺伝子型仮説に信頼度を割り当てる。リードエラー補正アルゴリズムがリピート（たとえばＳＴＲ）の存在または不在の決定を妨害することが判明したので、この実施例のＫｒａｇｌｅ実施形態は、なんらリードエラー補正を利用しない。

いくつかの実施形態では、Ｋｒａｇｌｅへの入力は参照ソートｂａｍファイルおよびインサートサイズ分布ファイルである。代替的に、Ｋｒａｇｌｅは、２つのｆａｓｔｑファイル（リード１およびリード２用）および参照ｆａｓｔａファイルを受け取ってアダプタートリマーコンポーネント、ＢＷＡ−ＭＥＭアライナー、インサートサイズ分布コンポーネント、およびサムツール（参照種類およびインデックスｂａｍファイル）をコールし、前処理ステップで必要な入力を生成する（図１参照）。

リクルートコンポーネント
参照配列と有意に異なるサンプルのゲノム領域から取得されるシーケンスリードは、標準的なリードアライナーに著しい難題を課す。たとえば、ゲノムの変化部分から生じたリードは、間違ったゲノム位置にマッピングされるかまたはマッピングされずに残留することが多かった。しかしながら、そのような場合には、リードメイトペアのリードメイトは、不変の（またはほとんど変化のない）フランキング領域の配列を含有することが多いので、適正にマッピング可能である。拡張ＳＴＲ、配列接合、および大きな複合変異の領域におけるリードマッピング問題を回避するために、リクルートコンポーネントは、リードペアからマッピングされたリードメイトの位置を用いて、Ｋｒａｇｌｅがアセンブルしようとする領域（たとえば、特定の対象のゲノム領域）の情報を与えうるリードを同定する。

いくつかの実施形態では、Ｋｒａｇｌｅは、参照ソートｂａｍファイルを用いて１つまたは複数の対象の領域中に迅速にインデックス付けするように構成される。接合の場合、Ｋｒａｇｌｅは、スプリットリードシグナルまたは不一致メイトシグナルを用いて同定されうる２つのゲノム領域を用いて、情報を与えるリードを検索する。次いで、リクルートコンポーネントは、対象の領域への一次アライメントでマッピングされたメイトの少なくとも１つを有したリードを集める。

スーパーコンティガー
スーパーコンティガーは３つのコンポーネント、すなわち、パイルアップ関係コンポーネント（たとえばリード−リードアライナー）、コンティグアセンブリーコンポーネント、およびスーパーコンティグアセンブリーコンポーネントで構成される。３つのコンポーネントは、リクルートコンポーネントから取得したリクルートリードペアセットから始めて、ハプロタイプ配列セット（スーパーコンティグ）を生成する。スーパーコンティグは、対象となるアセンブルされたゲノム領域のハプロタイプ配列（たとえば、中断されている可能性のあるハプロタイプ配列）を生成するように適正な向きで一体的にリンクされかつ順序付けられる１つ以上のコンティグで構成される。

２つの一般的なパラダイム、すなわち、ｄｅＢｒｕｉｎグラフに基づくもの（ＩｄｕｒｙＲＭ，ｅｔａｌ．、ＰｅｖｚｎｅｒＰＡ，ｅｔａｌ．）およびオーバーラップグラフに依拠するＯｖｅｒｌａｐ−Ｌａｙｏｕｔ−Ｃｏｎｓｅｎｓｕｓ（ＭｙｅｒｓＥＷ，ｅｔａｌ．，（２００５））をコンティグアセンブリーに使用した。Ｋｒａｇｌｅはリードタイリングストラテジーを使用した。これは、Ｃｅｌｅｒａアセンブラー（ＭｙｅｒｓＥＷ，ｅｔａｌ．，（２０００））の「ｕｎｉｔｉｇ」構築プロセスに類似しているが異なるものであり、また、Ｏｖｅｒｌａｐ−Ｌａｙｏｕｔ−Ｃｏｎｓｅｎｓｕｓストラテジーに趣旨は類似しているが異なるものである。この実施例では、コンティグアセンブリーを始める前にリード間のすべての可能なオーバーラップを同定する。

パイルアップ関係コンポーネント
パイルアップ関係コンポーネントは、かかる可能なリード−リードオーバーラップを同定する機能を発揮するように構成され、作成されたグラフ中のある重複を除外することも可能である。他のリードの配列に完全に含まれた各リードを除外するオーバーラップグラフ（ＭｙｅｒｓＥＷ，ｅｔａｌ．，（２００５））とは対照的に、パイルアップ関係コンポーネントにより生成されたリードタイリンググラフは、頂点としてすべてのリードを含有し、かつエッジはリード−リードオーバーラップを表す。ローカルｄｅ−ｎｏｖｏアセンブリーのみを行ってマッピングされたメイトによりリードペアをリクルートする利点は、各リードの向き（鎖）が既知でありリードタイリンググラフが各リードに対する２つの鎖可能性を表現する必要がないことである。代替リード向きが探索されないので、これによりリードタイリンググラフおよびアセンブリータスクが単純化される。

リードタイリンググラフの構築は２ステップで実施される。第１のステップは、スコア閾値に合格するすべてのリード−リードオーバーラップを同定する。第２のステップは、コンティグの完全タイリングを構築するのに必要な最小オーバーラップセットのみを保持するようにタイリンググラフのエッジをプルーニングする。

リード−リードオーバーラップの同定を加速するためにｋ−ｍｅｒハッシングストラテジーを使用する。各リードをすべての可能なｋ−ｍｅｒのセットに分解し（たとえば、デフォルトｋ−ｍｅｒサイズは５０である）、ｋ−ｍｅｒのマッチングセットに関してすべてのリード−リードペアを迅速にスクリーニングする。マッチングが見いだされた場合、アライメントスコアが所定のスコアカットオフに合格し、かつ対応するｋ−ｍｅｒ位置がリード−リードアライメントに挿入や欠失（ｉｎ／ｄｅｌ）をなんら示唆しないならば、リードタイリンググラフ中の２つのリード間の推測オーバーラップを記憶する。アライメントスコアは、アライメントソフトウェア（Ｓｍｉｔｈｅｔａｌ．，（１９８１）、＊Ｓｍｉｔｈｅｔａｌ．，（１９８１）、Ｎｅｅｄｌｅｍａｎｅｔａｌ．，（１９７０））で慣用されるマッチおよびミスマッチのスコアの合計として計算される。完全なリード−リードアライメントは、対応するｋ−ｍｅｒ位置がアライメントに挿入または欠失を示唆する場合のみ計算される。しかしながら、挿入および欠失の開始または伸長のペナルティーはそれらを禁止するのに十分な程度に高く設定されるので、得られるリード−リードアライメントは常にｉｎ／ｄｅｌフリーである。この場合も、得られたグローバルアライメントスコアがカットオフに合格すれば、オーバーラップはリードタイリンググラフに記憶される。

ｉｎ／ｄｅｌシーケンシングエラーを有するリードは、通常、リード−リードオーバーラップアライメントでｉｎ／ｄｅｌを許容しない結果としてアセンブリーから除外される。かかるエラーはかなり稀であり、リードカバレッジを有意に低減しない。しかしながら、ｉｎ／ｄｅｌフリーのオーバーラップはコンティグアセンブリーを単純化し有意に加速する。なぜなら、かかるハプロタイプに由来するリードはすべて、変異を含んでおり、したがって、それらのオーバーラップは適正にアライメントされるので、真ｉｎ／ｄｅｌ変異体（参照配列と比較して）はリード間で適正にアライメントされることに留意されたい。

完全なリードタイリンググラフが作成されたら、不要で誤りの可能性の高いオーバーラップを除外するためにプルーニングされる。プルーニング後、最良スコアのオーバーラップおよびグラフの接続性を維持するのに必要なオーバーラップだけは、各リードに対して保持される（たとえば、記憶される）。グラフの接続性を維持するために、各リードは、３’および５’側のそれぞれに伸長する最小限の数（デフォルト１）の最良スコアのオーバーラップを保持するが、これらの接続リードは、同一側に伸長する最小限の数のオーバーラップを有しなければならない。たとえば、デフォルトの最小限の接続数１の場合、リードの接続は、３’側にリードを伸長する他のリードとの少なくとも１つのオーバーラップを有するならば３’側で満たされたとみなされ、伸長リード自体は、同様に３’側に伸長する他のリードとの少なくとも１つのオーバーラップを有する（たとえば、図２を参照されたい）。その場合、暗に、リードは、プロセスの開始時にかかる接続を有するならば、グラフでその接続性を維持し、３’側および５’側からオーバーラップエッジにより到達可能である。したがって、カバレッジギャップのない連続リードパイルアップによりサポートされた配列はいずれも、リード接続を介して非中断経路を維持する。

プルーニングアルゴリズムは、すべてのリードにわたり繰り返され、保持される各リードに対するオーバーラップのリストを維持する。各繰返し時、プロセスは、リードが各側に所要の最小限の数の接続をすでに満たしている場合（たとえば、片側でリードに接続され、そのリードもまた、同一側に接続を有する場合）を除いて、各リードに対して、リードを３’側および５’側に伸長する最良スコアのオーバーラップ（同一のスコアのものが２つ以上存在するならば複数）を取り出す。各リードが各側に必要な最小限の数の接続を有する場合、プルーニングの繰返しは終了する。リードは、オーバーラップがなければ所要の数の接続を満たす必要はない。かかるリードは、コンティグの末端のリードである可能性が高いか、またはあまりにも多くのシーケンシングエラーがあって他のリードとのオーバーラップをなんら有していないリードである。繰返しの終了後、次いで、アルゴリズムは、保持すべきエッジのリストに存在しないオーバーラップエッジをすべて欠失させる。オーバーラッピングリードのいずれかがその接続に必要であるとみなされるならばオーバーラップエッジが保持されることに留意すべきである。たとえば、それぞれ反対のハプロタイプに多型をまたぐ２つのリードがあり、かつ多型位置のすぐ外側にあるリードが、多型リードの両方とのオーバーラップを有する場合、外側にあるリードは、その接続を満たすために多型リードの１つのみとのオーバーラップを保持しうるが、他の多型リードは、それ自体の接続性を維持するためにそのリードとの接続を必要とするので、多型の外側にあるリードは、両方のオーバーラップを保持する（図３）。これにより、２つ以上のハプロタイプに共通する配列ストレッチからのリードは、ハプロタイプ特異的リードのすべてから到達されることが保障される。

コンティグアセンブリーコンポーネント
コンティグアセンブリーコンポーネントは、リードタイリンググラフを用いてオーバーラッピングリードを集め、グラフを介してオーバーラッピングリードの経路を伸長する。各コンティグアセンブリーは単一リードから出発する。コンティグアセンブリーは、最初に、アセンブラーがコールしようとした領域（たとえば、対象のゲノム領域）の３’側および５’側から取り出されたリードから始まる２つのコンティグをアセンブルする。各コンティグは各リードを１回のみ使用するが、異なるコンティグはリードを共有可能である。コンティグ構築プロセスは、多型位置に遭遇したら既存のコンティグをスプリットすることにより新しいコンティグを生成する。２つの初期コンティグおよびそれらのスプリットオフコンティグを終了したら、コンティグアセンブラーは、コンティグのいずれでも使用されなかったリードのセットを検査する。未使用リード間にカットオフよりも大きいリードの接続クラスターが見いだされる場合（すでにアセンブルされたコンティグの平均カバレッジ深さに対するパーセントとして計算される − デフォルト１０％）、クラスター中のリードの１つから新しいコンティグの構築を始める。カットオフよりも大きい未使用リードクラスターが存在しなくなるまで、新しいコンティグが始められる。

コンティグビルダーは、コンティグで使用されるすべてのリードを追跡し、それらを２つのグループ、すなわち、オーバーラッピングリードをすでにリクルートしたリード（リードタイリンググラフ中のオーバーラップを用いて）と、まだリクルートしていないリードと、にスプリットする。ビルダーはまた、３’および５’の「全リクルート」境界（すなわちエッジ）を維持する。「全リクルート」境界は、まだリクルートされていない第１のリードの先端の直前の３’側および等価的に５’側に設定される。したがって、これらの境界は、新たにリクルートされたリードによりそのリード組成が変化しない成長中のコンティグでインターバル（たとえば前進位置）を設定する。それゆえ、「全リクルート」インターバルの内側のリードパイルアップからコンセンサス配列を計算すれば安全である。

以下の３つのステップを繰り返すことよりコンティグの構築を進行させた。

（１）まだリクルートされていないリードを用いて新しいリードをリクルートし、現在の「全リクルート」３’または５’境界の１塩基外側の位置にオーバーラップする（図４参照）。リクルートリードは、「全リクルート」エッジから離れてリクルートリードの内側または外側のいずれかにリードを伸長しなければならない。

（２）「全リクルート」境界を再計算する。境界の対応側のリードのいずれかが、コンティグ内に配置したときに同一の位置から始まるリードをリクルートした場合、３’境界は変化しないこともある。同様に、５’境界は変化しないこともある。しかしながら、新たに配置されたリードがより大きなギャップを残す場合、２つの「全リクルート」境界のいずれかは、２つ以上の塩基だけシフト可能である。

（３）「全リクルート」インターバルの内側のリードパイルアップを用いて新しい「全リクルート」インターバル境界までのコンセンサス配列を計算する。

まだリクルートされていないリードが存在しない場合、コンティグ構築の繰返しは終了する。そのことが起こるのは、コンティグ構築が、リクルートリードによりカバーされた領域の末端に達し（またはカバレッジのギャップを達し）、エッジ上のリードがいずれの側にもコンティグを伸長するオーバーラッピングリードが存在しないときである。

コンセンサス配列の計算が多型位置、すなわち、リードパイルアップが２つ以上の異なる塩基の有意なカウントを含有する位置に遭遇した場合、現在のコンティグは、２つ（またはそれ以上）にスプリットされて２つ（またはそれ以上）の可能なハプロタイプを表す。しかしながら、塩基のカウントは、その位置でまたは少なくとも５個のリードでカバレッジの１０％を超える場合にのみ有意であるとみなされる。したがって、リードのランダムベースコールエラーは、おそらく、コンティグスプリッティングをトリガーしないであろう。この時点で、多型リードはまた、ハプロタイプコンプライアンスに関してチェックされる。コンティグが先行していくつかの位置ですでにスプリットされている場合、スプリッティングプロセスは、リードまたはそのメイトが、すでにスプリットされた位置にオーバーラップするかをチェックし、オーバーラップするリードのカウントを集める（図５参照）。１つの多型塩基（またはそのメイト）は有意なカウント（デフォルトでは少なくとも５）でその位置にオーバーラップするが、いくつかの他の多型塩基リードおよびそのメイトはその位置を横切らない場合（カウント０）、その多型塩基は、他のコンティグをスプリットするのに使用されず、これらの多型リードおよびそれらのメイトは、コンティグから除去されるであろう（図６参照）。この設計決定の背後にある理論的根拠は、ハプロタイプが他のコンティグですでに分離されている多型位置でのスプリットを防止することである。多型位置が、すでにコンティグを２つ（またはそれ以上）にスプリットする前の多型位置から十分に離れており、かつリードオーバーラップが、すでにスプリットオフされたハプロタイプからいくつかのリードのリクルートを再度可能にする場合、その位置は、そのハプロタイプのみに属するリードを含有するようにすでに「純化」されているので、これらのリードは、前のスプリット位置とのオーバーラップ（それ自体またはそれらのメイト）を有していないであろう。したがって、これらのリード（およびそれらのメイト）はこのコンティグから単に欠失されるであろうが、前のスプリット位置ではすでにスプリットオフされていたコンティグで使用される可能性が最も高いであろう。

コンティグスプリッティングのプロセスは、各コンティグがそれらの割り当てられた塩基を有するリードを取り込む場合、多型位置にまたがるリードを除いて、両方のコンティグでリードメンバーシップをレプリケートするステップを含む。多型リードおよびそのメイトは、そのそれぞれのコンティグに一体的に割り当てられる。メイト再割当ては「全リクルート」インターバルのいくつかのセクションでリードカバレッジを潜在的に排除する可能性があるので（これは稀である）、スプリットコンティグのそれぞれでコンセンサス配列を再コールして、カバレッジの完全な消失を有する領域にＮを割り当てる必要がある。

新しいコンティグをスプリットオフしそれらを構築するのは計算上高価であるので、我々は、いくつかのチェックを利用して幾何学的コンティグ増殖を低減した。

１．他のコンティグですでに同一のスプリットに遭遇しているのであればスプリットは新しいコンティグを生成しない（リード中の同一の位置で同一の多型リードセットを有するようにスプリットする）。これらのスプリット位置は、「クロージングハプロタイプバブル」に対応し、それらの対応する「デュプリケート」を有するこれらの「未採用」スプリットは省かれる。これらの「未採用」経路は、「未採用」スプリット後にすべての可能なコンティグ配列末端部をコンティグに連結することにより後の段階で付加される。これらの末端部は、「デュプリケート」スプリットコンティグおよびこの位置の後でスプリットオフされたすべてのコンティグから採用される（図７参照）。この基準では、「デュプリケート」スプリットに遭遇する前の潜在的に異なるリードメンバーシップは、リード再使用上の制約に起因して異なる末端部をもたらさないであろうと仮定している。そこでは、コンティグで同一のリードパイルアップに遭遇すると、可能な末端部は同一になると仮定している。

２．スプリットオフ多型リードがスプリットオフコンティグを伸長するように新しいリードをなんらリクルートできない場合、コンティグを「消滅」と標識し、スーパーコンティグ構築に使用しない。これらスプリットは、系統的ベースコールエラーを有するリードセットにコンティグが遭遇したときに起こることを、我々は観測した。これらは、とくに、ＳＴＲ領域などの難しい領域にかなり共通したことでありうる。

３．グラフサイクルが、コンティグですでに採用されたスプリットをデュプリケートすることにより検出される場合（非常に稀）、コンティグを「不良」と標識し、終了する。これらのコンティグは、スーパーコンティグの構築にも使用しない。

以上に記載のようにアセンブルされたコンティグは、デュプリケートに関してフィルタリングされている。これらは、一方は３’側から、他方は５’側から、２つのリードから始まる同一の領域をアセンブルするデュプリケート努力の結果でありうる。しかしながら、２つの開始点は、欲張ったリードリクルートメントプロセスの欠点に対してより良好なロバスト性をコンティグアセンブラーに与える（この場合、リードは、リードタイリンググラフでオーバーラップを有するコンティグ中の第１のリードによりリクルートされる）。２方向からグラフを通る経路を探索するといくつかの状況下ではいくらか異なってアセンブルされた配列をもたらすこともある。

スーパーコンティグアセンブリーコンポーネント
前のステップでアセンブルされたコンティグは、Ｋｒａｇｌｅがコールしようとする全領域にまたがることもあれば、カバレッジが落下する位置または高いリードエラー率（通常系統誤差）により高スコアリード−リードオーバーラップが抑制される位置で終了することもある。かかる場合には、リードペアを用いてコンティグを一体的にリンクすることによりスーパーコンティグを形成することが可能である。リードペアのリード間ギャップが２つの近接コンティグ中に位置し、コンティグ間のカバレッジギャップにまたがるのを許容する場合、かかるリードペアは、コンティグリンクおよびその向きを通知しうる。

スーパーコンティグ構築は、コンティグを頂点としておよび同定されたリンクを有向エッジとして有するグラフの作成を必要とする。有向エッジは、コンティグペアが同一の向きを有する少なくとも最小限の数のリードペアを共有する場合に記録される（最小限の数は、デフォルトでは平均コンティグカバレッジの１０％または少なくとも５リードペアに設定された）。次いで、コンティグは、循環を回避しつつ入次数０を有するすべての頂点から出発して出次数０を有する頂点で終了するようにグラフを介してすべての経路を通ることによりスーパーコンティグにブリッジされる（図８参照）。いずれの他のコンティグにも接続されないコンティグ（入次数および出次数が両方とも０）は、ちょうど１つのコンティグでスーパーコンティグを生成する。

ハプロタイパー
コンティグおよびスーパーコンティグの構築はすべての可能な配列配置を生成するので、スーパーコンティグは可能なハプロタイプ配列を表現し、これらを組み合わせればコーラーで適正な倍数性（すなわち二倍体）の配列仮説が生成されよう。ハプロタイパーはハプロタイプオブジェクトを開始し、すべてのリードからすべてのハプロタイプ配列への再マッピングを実施する。この再マッピングは、「コーラー」の節に記載のマッピングウェイトの前計算も含む。ハプロタイパーはまた、ハプロタイプ配列中の偽接合および偽挿入の同定を実施する。ハプロタイパーをコーラーから分離する主な理由は、配列仮説に組み合わせる前に、偽接合および偽挿入の同定のアウトカムに基づいて、コーリングプログラムにハプロタイプのフィルタリング機会を与えうることである。同定された偽接合および偽挿入は、リードによりそれらのサポートを決定する必要情報と共に各ハプロタイプオブジェクトに列挙される。コーリングプログラムは、サポート情報に基づくカットオフを使用してハプロタイプフィルタリングのそれ自体のストリンジェンシーを適用することが可能である。

偽接合の同定：
アルゴリズムは、いくらかの配列類似性に起因してアセンブリープロセスで連結されたゲノムの異なる部分に属する配列の間の接合を同定すること目的をとする。配列類似性は、いくつかのリードをある特定の配列に連結させうるが、接合はまばらにカバーされるであろう。したがって、これらの接合は、接合位置にまたがるリードペアの数が予想よりもかなり低い配列中の点として同定可能である。アルゴリズムは、ある距離だけ離れたメイトの期待数を計算してそれを観測カウントと比較することにより可能な偽接合（インサートサイズ分布の範囲）を見いだす。次いで、低い観測数／期待数比の位置を偽接合の可能性があるとしてマーク付けする。χ２検定を用いて観測数−期待数差の有意性を決定することが可能であるが、かかるｐ値は、インサートサイズ分布中の正規変動を有する位置に対するカバレッジの増加に伴って次第に感度が高くなるであろう。

アルゴリズムは、インサートサイズ分布の平均の周りの非センターバンドを用いて偽接合に関する検定を行いうる。インサートサイズ分布平均の周りのバンドの−２０％および＋８０％のインターバル（Ｉｌｌｕｍｉｎａリードペアライブラリーの現在のサイズは５０）は、期待カウントを計算するために使用され、観測カウントを検索するために使用される。アルゴリズムは、フォワードリードおよびリバースリード（逆方向）に対して観測カウントおよび期待カウントを個別に処理してから比の局所最小値を見いだす。アルゴリズムは、特定の比カットオフを超える局所最小値をすべて報告する。順方向および逆方向の両方で検索を行って接合のアルゴリズム的確認を与えうる。

しかしながら、アルゴリズムは、いくつかの状況で偽陽性を与える可能性があるので、偽挿入のハプロタイプのフィルタリングは、注意して行われなければならない。アルゴリズムは、対立遺伝子の両方でリード長に圧縮された大きなホモ接合リピートでは偽陽性を生じるであろう。かかる場合には、圧縮リピート配列にまたがるリードはなんら存在しないであろうが、期待カウントは依然として大きいであろう。アルゴリズムは、かなり間違いやすい位置に誤ったフラグを立てる可能性もある（Ｉｌｌｕｍｉｎａシーケンシングプロセスにおける系統誤差および相関誤差）。かなり間違いやすい配列位置は、マッピングされたリードでは低いカバレッジを有するであろうから（誤りが多すぎるリードはマッピングされない）、期待カウントと観測カウントとの間で矛盾を生じる可能性がある。

偽挿入の同定：
偽挿入検出アルゴリズムは、接合位でなんらかの配列類似性を用いてフランクで親配列に連結された外来（または誤配置）配列の挿入を検出することを目的とする。かかる挿入は、偽接合（以上に記載）の組合せを用いて潜在的に同定可能であるが、以下に記載の専用アルゴリズムは、偽接合アルゴリズムよりもかなり高感度かつ特異的である。

偽挿入は、リードペアが予想外に１片の配列を飛び越え、挿入配列がその範囲内でのみマッピングされその範囲外ではマッピングされないリードペアを有する状況で、リードメイトペア位置を検査することにより同定可能である（図９参照）。アルゴリズムは順方向および逆方向の両方で検索する。オーバーラップしないメイトペアがインサートサイズ分布の平均よりも大きい距離だけ離れている領域を最初に見いだす。リードの中間のメジアンは、仮説インサートの開始および終了をマーク付けする。次いで、アルゴリズムは、仮説インサート内に完全に含有されるリードペアの位置を決定しようとする。かかるリードペアが見いだされた場合、アルゴリズムはこれらのリードの最も左側および最も右側の塩基としてインサートエッジを純化する。次いで、このインターバル内の各位置で、アルゴリズムは、完全に含有されているわけではないリードペアにより完全に含有されたリードペアの汚染を計算する。いずれの位置でも外側のリードペアによる汚染がカットオフ未満に低下する場合、この領域は可能な偽挿入として報告される。

コーラー
ハプロタイパーにより生成されたハプロタイプは、偽接合および偽挿入に関してフィルタリング可能であり、次いで、それらを組み合わせて一倍体、二倍体、一般的には任意の倍数性の配列仮説を生成可能である。二倍体配列仮説では、コーラーは、同一のハプロタイプの２つのコピーからなるホモ接合配置を含めて、すべての可能なハプロタイプペアを探索した。したがって、二倍体仮説評価プロセスは、ハプロタイプの数の二乗で計算の複雑さをスケールインした。したがって、アドホックなハプロタイプおよび仮説フィルタリングを回避するために、仮説尤度評価は計算効率が良くなければならない。Ｃａｒｎｅｖａｌｉ（Ｃａｒｎｅｖａｌｉｅｔａｌ．２０１２）により記載された統計的フレームワークを検討したが、ある特定の態様ではうまく行かなかった。たとえば、Ｃａｒｎｅｖａｌｉのフレームワークは、いずれの対立遺伝子比にも対処できなかった（モザイクゲノムおよび癌ゲノムの場合）。式２の統計的フレームワークは、任意の対立遺伝子比（モザイクと癌のゲノム用の）に対処するように拡張修正された。この新しいフレームワーク（たとえば、式１を参照されたい）は、各ハプロタイプに対して尤度計算の多くのコンポーネントの前計算を可能にしたので、ハプロタイプを組み合わせて二倍体仮説にしたりその尤度を計算したりするのにかなり少ない計算量を要するにすぎなかった。

式中、Ｇは任意の倍数性のゲノム配列を表し、かつＧ_０は参照ゲノム配列または任意の他の固定配列仮説を表す。｛Ｒ｝はリードペアセットを表し、かつリードペアの数はＮ_Ｒであった。Ｎ_ＧおよびＮ_Ｇ０は、それぞれ、ゲノムＧおよびＧ０の塩基数を表す。Ｍは、リードペアの２つのリードのマッピング位置を意味し、リードペアＲのすべての可能なマッピング位置のセットは｛Ｍ｝により表した。

Ｐ（Ｒ｜Ｇ，Ｍ）は、マッピング位置がゲノム内にあり（Ｃａｒｎｅｖａｌｉｅｔａｌ．２０１２）かつインサートサイズの確率がリードペアの２つのリードのマッピングＭにより示唆されると仮定して、マッチ塩基確率とミスマッチ塩基確率との積として計算可能である。マッチおよびミスマッチの確率は、シーケンシングプラットフォームにより割り当てられたベースコールエラー率から推定可能である。

式中、Ｉ_Ｍは、リードペアのマッピングＭにより示唆されるインサートサイズであり、かつ確率Ｐ（Ｉ_Ｍ）は、経験的インサートサイズ分布から取得可能である。積Π_ｉは、リードペアのすべての位置ｉにわたりとられ、かつＰ（ｂ_ｉ｜Ｇ［Ｍ（ｉ）］）は、マッピング位置ｉにおけるゲノムＧ中のマッピング参照塩基がリードペア中のマッピング塩基ｂ_ｉを生成した確率である。これらはシーケンサーにより提供される推定ベースコールエラー確率を用いて計算可能である。

この式中、δは、その２つの引数が同一のときは１でありそうでなければ０であると定義されるクロネッカー記号であり、かつε_ｉは、リードペア中の位置ｉにおけるベースコールのエラー確率である。Ｇ［Ｍ（ｉ）］は、リードペア中の塩基ｂ_ｉがマッピングＭを用いてマッピングされるゲノムＧ中の塩基である。

可能なマッピングの全セットにわたるリード確率の合計Ｐ（Ｒ｜Ｇ、Ｍ）は、たとえ小さいゲノムであっても計算が困難な可能性がある。２つのリードのすべての可能な位置の組合せはあまりにも多いので列挙できない。しかしながら、合計への有意な寄与を与えるゲノムへのマッピングはごくわずかにすぎない。したがって、すべての可能なマッピングにわたる合計は、マッピングウェイトＷ（Ｒ，Ｇ）と呼ばれる、「良好」なマッピングにわたる合計と、小さい項αに分離可能である、合計への残りの小さい寄与と、にスプリット可能である。

ローカルｄｅ−ｎｏｖｏシーケンシングでは、αを用いてアセンブル領域外のマッピングウェイトの合計確率をキャプチャー可能である。いくつかのリード、とくに低複雑性配列を含有するリードは、参照ゲノムへのいくつかのマッピングを有する可能性があるので、対象の領域へのそれらの配置は不確実であり、より大きいαを伴うはずである。このことから尤度比へのそれらの寄与は効果的に低減される。

それゆえ、以上の式２は、以下の式１への拡張修正が可能であり、さまざまな比を有する対立遺伝子に対処する。

式中、Ｇは所定の倍数性の遺伝子型配列であり、Ｇ_０は参照配列であり、｛Ｒ｝はリードメイトペアＲのセットであり、Ｎ_ＡＧは遺伝子型配列_Ｇ中の対立遺伝子Ａ_Ｇの数であり、Ｎ_ＡＧ０は参照配列Ｇ_０中の対立遺伝子Ａ_Ｇ０の数であり、Ｆ_ＡＧは遺伝子型配列Ｇ中の対立遺伝子_ＡＧの分率であり、Ｆ_ＡＧ０は参照配列Ｇ_０中の対立遺伝子Ａ_Ｇ０の分率であり、Ｗはリードペアマッピングウェイトであり、かつαはマッピング確率定数である。いくつかの実施形態では、遺伝子型尤度比は、式１の導出または式１の変形により決定される。二倍体ゲノムでは、２つの対立遺伝子分率はそれぞれ０．５であろう。

以上の式を用いて、Ｗ（Ｒ，Ａ_Ｇ）は以下の式６として表すことが可能である。

上述したように、αは、アセンブルされる領域中のマッピング位置Ｍ_ｇｏｏｄのセットの外側の可能なマッピングのマッピングウェイトの合計をキャプチャーする。すべてのマッピングプログラムは、誤りのアライメントのｐｈｒｅｄ変換確率であるマッピング品質値（ｍａｐＱ）を提供する（ｍａｐＱ＝−１０＊ｌｏｇ_１０（Ｐ_{ｗｒｏｎｇＡｌｉｇｎｍｅｎｔ}））。この確率は、すべての可能な代替マッピング位置でのマッピングウェイトの合計ではないので、ｍａｐＱからマッピングウェイトの合計（Ｗ_ｍａｐＱ）への変換を近似するスケーリングを開発した。スケーリングは、高いｍａｐＱ値（すなわちＢＷＡで６０）に対してはＷ_ｍａｐＱ寄与を無視してよいほど小さいとし、かつｍａｐＱ＝０に対しては寄与１（大きな値）を有するとすることを目指した。したがって、式５中のαは、さらに以下のように拡張可能である。

式中、α_Ｒは、非常に高いｍａｐＱ値（Ｗ_ｍａｐＱが無視しうるようになるとき）で外側の位置への残留マッピングウェイトをキャプチャーする非常に小さい定数である。

Ｗ_ｍａｐＱは以下の式を用いて取得される。

Ｗ_ｍａｐＱ値はリードペアに対して計算されるので、以上の式中のｍａｐＱ値はリードペアの２つのリードの最大値である。したがって、リードペアのリードの１つがアセンブリー領域で信頼性のある一義的なマッピングを有する場合、第２のリードもまたアセンブリー領域に一義的に属すると仮定する。

ｍａｐＱ変換の操作範囲が３０〜６０のｍａｐＱ値であることは、以上の式から明らかである。３０未満の値では（低品質リード）、Ｗ_ｍａｐＱ値は良好なマッピングのマッピングウェイトに匹敵するようになる。これは、式１で全確率比へのリードペアの寄与を効果的に減少する。一方、ｍａｐＱ値が６０に近づくと（高品質マッピング）、Ｗ_ｍａｐＱはα_Ｒよりも小さくなるので、無視しうるしα≒α_Ｒとなる。

以上の式６〜１０は、各リードペアおよび各対立遺伝子（スーパーコンティグ）に対するリードペアウェイトの前計算を可能にし、仮説尤度計算時に値を再コールすることが可能である。この前計算は、尤度比の計算を有意に加速するので、何千ものスーパーコンティグから構成されるすべての二倍体仮説の評価をリアルタイムで可能にした。いくつかの実施形態では、すべてのリードに対してリードウェイトの計算を容易にするために、コーラーは、すべてのリードをすべてのスーパーコンティグに再アライメントする。

尤度比計算は、すべてのリードを参照ゲノムにマッピングするかまたは参照として配列仮説の１つを取り出すようにコーラーに要求する。デフォルトでは、第１の仮説は参照となり、次いで、第１の仮説に対してすべての尤度が計算される。任意の２つの仮説の対数尤度比を減算するとそれらの相対尤度比が得られる。これにより上位仮説の尤度比を任意の他の仮説に対して計算すると信頼度測度が得られる。

本明細書で参照される各特許、特許出願、出版物、および文書の全体は、本出願をもって参照により組み込まれる。以上の特許、特許出願、出版物、および文書の引用は、上記のいずれかが関連先行技術であることを承認でもなければ、これらの出版物または文書の内容または日付けに関してなんら承認を与えるものでもない。

本技術の基本態様から逸脱することなく以上に変更を加えうる。１つ以上の具体的な実施形態により実質的に詳細に本技術を説明してきたが、本出願に具体的に開示された実施形態に変更を加えうること、しかもこうした変更および改善が技術の範囲および趣旨に包含されることは、当業者であれば分かるであろう。

本明細書で例示的に説明した技術は、本明細書に具体的に開示されていない要素がなんら存在しなくても好適に実施しうる。したがって、たとえば、本明細書のいずれの場合も、「ｃｏｍｐｒｉｓｉｎｇ（〜を含む）」、「ｃｏｎｓｉｓｔｉｎｇｅｓｓｅｎｔｉａｌｌｙｏｆ（〜から本質的になる）」、および「ｃｏｎｓｉｓｔｉｎｇｏｆ（〜からなる）」という用語はいずれも、他の２つの用語のいずれかと置き換えうる。利用された用語および表現は、限定の用語としてではなく説明の用語として用いられており、かかる用語および表現の使用は、表示および説明された特徴の均等物またはその一部をなんら除外するものではなく、特許請求された技術の範囲内で種々の変更を加えることが可能である。「ａ」または「ａｎ」という用語は、要素のいずれか１つが記載されているかまたは要素の２つ以上が記載されているかが文脈上明らかでない限り、それが修飾する要素の１つまたは複数を意味しうる（たとえば、「試薬（ａｒｅａｇｅｎｔ）」は１種以上の試薬を意味しうる）。本明細書で用いられる「約」という用語は、基となるパラメーターの１０％以内（すなわち、±１０％）の値を意味し、一連の値の始めでの「約」という用語の使用は、値のそれぞれを修飾する（すなわち、「約１、２、および３」は、約１、約２、および約３を意味する）。たとえば、「約１００グラム」の重量は、９０グラム〜１１０グラムの重量を含みうる。さらに、値のリストが本明細書に記載されている場合（たとえば、約５０％、６０％、７０％、８０％８５％、または８６％）、リストは、それらのすべての中間値および小数値（たとえば、５４％、８５．４％）を含む。それゆえ、本技術が代表的な実施形態により具体的に開示されたとしても、本明細書に開示された概念の任意選択的な特徴、変更、および変形を当業者であれば利用しうるし、かかる変更および変形は本技術の範囲内にあるとみなされることを理解すべきである。

本技術のある特定の実施形態は、以下の特許請求の範囲に示される。

参照文献：
Ｃａｒｎｅｖａｌｉ，Ｐ．，ｅｔａｌ．２０１２．ＣｏｍｐｕｔａｔｉｏｎａｌＴｅｃｈｎｉｑｕｅｓｆｏｒＨｕｍａｎＧｅｎｏｍｅＲｅｓｅｑｕｅｎｃｉｎｇＵｓｉｎｇＭａｔｅｄＧａｐｐｅｄＲｅａｄｓ．Ｊ．Ｃｏｍｐｕｔ．Ｂｉｏｌ．１９，２７９−２９２。

ＩｄｕｒｙＲＭ，ＷａｔｅｒｍａｎＭＳ（１９９５）Ｊ．Ｃｏｍｐｕｔ．Ｂｉｏｌ．２（２）：２９１−３０６。

ＰｅｖｚｎｅｒＰＡ，ＴａｎｇＨ，ＷａｔｅｒｍａｎＭＳ（２００１）Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．ＵＳＡ．９８（１７）：９７４８−５３）。

ＭｙｅｒｓＥＷ（２００５）Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ２１：Ｓｕｐｐｌ２：ｉｉ７９−８５）。

ＭｙｅｒｓＥＷ，ｅｔａｌ．，（２０００）Ｓｃｉｅｎｃｅ２８７（５４６１）：２１９６−２０４）。

ＳｍｉｔｈＴＦ，ＷａｔｅｒｍａｎＭＳ１９８１）Ｊ．Ｔｈｅｏｒ．Ｂｉｏｌ．９１（２）：３７９−８０。

^＊ＳｍｉｔｈＴＦ，ＷａｔｅｒｍａｎＭＳ（１９８１）Ｊ．Ｍｏｌ．Ｂｉｏｌ．１４７（１）：１９５−７。

ＮｅｅｄｌｅｍａｎＳＢ，ＷｕｎｓｃｈＣＤ（１９７０）Ｊ．Ｍｏｌ．Ｂｉｏｌ．４８（３）：４４３−５３）。

Claims

被験体で遺伝子変異の存在または不在を決定するコンピューターインプリメント方法であって、
（ａ）複数のリードメイトペアを含むペアエンドシーケンスリードセットを取得するステップであって、各ペアが２つのリードメイトを含み、各ペアの２つのリードメイトの少なくともの１つが、所定の対象のゲノム領域を含む参照ゲノムの少なくとも一部にマッピングされ、前記ペアエンドシーケンスリードのいくつかが、前記参照ゲノムの前記少なくとも一部にマッピングされない、ステップと、
（ｂ）前記シーケンスリードセットでパイルアップ関係を決定するステップであって、前記パイルアップ関係が前記セットの２つ以上のリード間の複数のオーバーラップを含み、前記複数のオーバーラップのそれぞれを、（i）前記セットの第１のリードが前記セットの第２のリードとの第１のオーバーラップを含み、（ii）前記第１のオーバーラップが所定のアライメントスコア閾値よりも大きいアライメントスコアを含み、（iii）前記第２のリードが前記第１のリードの３’末端または５’末端を越えて１つ以上のヌクレオチドを伸長し、かつ（iv）前記第１のオーバーラップが（i）、（ii）、および（iii）を満たす第１のリードと第２のリードとの間のすべての可能なオーバーラップのうち最も高いアライメントスコアを含むように選択する、ステップと、
（ｃ）（ｂ）で決定されたパイルアップ関係に従って１つ以上のコンティグを構築するステップであって、１つのスターターリードの３’前進位置または５’前進位置に１つヌクレオチドを繰り返し付加するステップを含み、前記付加されたヌクレオチドが、（ｂ）で決定されたオーバーラッピングリードの３０％以上または５個以上前進位置に存在するマジョリティーコンセンサスヌクレオチドである、ステップと、
（ｄ）（ｃ）で構築した１つ以上のコンティグおよび／または（ｃ）で構築したコンティグの２つ以上をブリッジする１つ以上のリードメイトペアから所定の対象のゲノム領域の全長にまたがる１つ以上のスーパーコンティグをアセンブルするステップであって、これにより前記被験体の可能なハプロタイプを各々表す１つ以上のスーパーコンティグを提供する、ステップと、
（ｅ）すべての予想ハプロタイプから１つ以上の予想遺伝子型を決定し、および各予想遺伝子型について遺伝子型尤度比を生成するステップと、
（ｆ）（ｅ）で生成した最も高い遺伝子型尤度比を有する遺伝子型に従って前記被験体で遺伝子変異の存在または不在を決定するステップと、
を含む、方法。
（ｃ）において前記１つ以上のコンティグを構築するステップが、前記前進位置が２つの異なるマジョリティーコンセンサスヌクレオチドを含むときはコンティグの１つのコピーを生成することにより２つの同一の中間コンティグを提供するステップと、異なるヌクレオチドが前記２つの同一の中間コンティグのそれぞれに付加されるように前記２つの異なるマジョリティーコンセンサスヌクレオチドの１つを前記２つの同一の中間コンティグのそれぞれに付加するステップと、を含む；または
前記前進位置が３つの異なるマジョリティーコンセンサスヌクレオチドを含むときはコンティグの２つのコピーを生成することにより３つの同一の中間コンティグを提供するステップと、異なるヌクレオチドが前記３つの同一の中間コンティグのそれぞれに付加されるように前記３つの異なるマジョリティーコンセンサスヌクレオチドの１つを前記３つの同一の中間コンティグのそれぞれに付加するステップと、を含む請求項１に記載の方法。
（ｅ）の前記遺伝子型尤度比を生成するステップが、前記１つ以上のスーパーコンティグに前記シーケンスリードを再アライメントすることにより１つ以上のマッピングウェイトを提供するステップ、および遺伝子型仮説尤度比を前記１つ以上のマッピングウェイトに従って生成するステップを含む、請求項１または２に記載の方法。
前記パイルアップ関係に従ってタイリンググラフを生成するステップを含む、請求項１〜３のいずれか一項に記載の方法。
前記複数のオーバーラップのそれぞれがｋ−ｍｅｒハッシングストラテジーに従って決定される、請求項１〜４のいずれか一項に記載の方法。
前記スターターリードが所定の対象のゲノム領域の最も５’側に位置するリードを含むか、または
前記スターターリードが所定の対象のゲノム領域の最も３’側に位置するリードを含む、請求項１〜５のいずれか一項に記載の方法。
前記第１のコンティグが複数のリードメイトペアに従って第２のコンティグに連結される、請求項１〜６のいずれか一項に記載の方法。
前記遺伝的変異が、ショートタンデムリピートまたは１つ以上の単一ヌクレオチド多型を含む、請求項１〜７のいずれか一項に記載の方法。
前記遺伝的変異が、ＡＲ、ＡＴＸＮ１、ＡＴＸＮ２、ＡＴＸＮ７、ＡＴＸＮ８、ＡＴＸＮ１０、ＤＭＰＫ、ＦＸＮ、ＪＰＨ３、ＣＡＣＮＡ１Ａ、ＰＰＰ２Ｒ２Ｂ、ＴＢＰ、ＡＴＮ１、ＡＲＸ、ＰＨＯＸ２Ｂ、ＰＡＢＰＮ１、ＡＴＴ、ＣＦＴＲ、およびＢＲＡＣＡ１から選択される遺伝子内に含まれる、請求項１〜８のいずれか一項に記載の方法。
前記シーケンスリードが二倍体ヒト被験体から得られる、請求項１〜９のいずれか一項に記載の方法。
実行可能プログラムを記憶した非一時的コンピューター可読記憶媒体であって、プログラムが請求項１〜１０のいずれか一項に記載の方法の実行をマイクロプロセッサーに命令するように構成される、前記記憶媒体。