JP7366129B2

JP7366129B2 - ゲノムデータを次世代シーケンシングする際のバリアント検出方法

Info

Publication number: JP7366129B2
Application number: JP2021518999A
Authority: JP
Inventors: チェンユ、シュ; リン、ソン
Original assignee: Sophia Genetics SA
Current assignee: Sophia Genetics SA
Priority date: 2018-06-14
Filing date: 2019-06-14
Publication date: 2023-10-20
Anticipated expiration: 2039-06-14
Also published as: ES2923142T3; US20210125689A1; BR112020025478B1; WO2019238963A1; EP3807885A1; JP2021528099A; CA3103176A1; AU2019287364B2; BR112020025478A2; AU2019287364A1; EP3807885B1; KR20210021354A

Description

本明細書に記載される方法は一般にゲノム解析に関し、より具体的には次世代シーケンシングアプリケーションに関する。

次世代シーケンシング
ハイスループット次世代シーケンシング（ＮＧＳ）技術または超並列シーケンシング（ＭＰＳ）技術により、過去１０年間でＤＮＡシーケンシングのコストが大幅に削減された。ＮＧＳは生物学に幅広く応用されており、研究の方法や診断方法論を劇的に変えた。例えば、ＲＮＡ発現プロファイリングまたはＤＮＡシーケンシングは、定量ＰＣＲやサンガーシーケンシングなどの従来の方法では少数の遺伝子でしか実行することができない。マイクロアレイを使用しても、遺伝子発現のプロファイリングまたは全ゲノムレベルでの変異の特定は、ゲノムサイズが比較的小さい生物種に対してしか実施することはできない。ＮＧＳ技術により、ＲＮＡプロファイリングまたは全ゲノムシーケンシングは、生物学研究において日常的な慣行となっている。一方、ＮＧＳのスループットが高いため、より多くの領域をシーケンシングするだけでなく、より多くのサンプルをシーケンシングするための多重化された方法が開発されている。従来のサンガーシーケンシング技術と比較して、ＮＧＳは、異なる遺伝子のはるかに多くのサンプルの変異を並行して検出することを可能にする。従来のシーケンシング方法よりも優れているため、ＮＧＳシーケンサは現在、日常的な診断においてサンガーに取って代わりつつある。特に、個体（生殖細胞系列）または癌性組織（体細胞）のゲノム変異を、遺伝子疾患の診断から精密医療の実践における薬物の薬理ゲノミクスの微調整に至るまで、多くの医療用途で日常的に分析することができる。ＮＧＳは、複数のフラグメント化されたＤＮＡ配列リード、通常は短いリード（３００ヌクレオチド塩基ペア未満）の処理で構成されている。結果として得られたリードを次に、いくつかのバイオインフォマティクス法を使用して、参照ゲノムと比較し、単一ヌクレオチド置換に対応する一塩基多型（ＳＮＰ）や、その参照と比較したＤＮＡ配列のヌクレオチドにおける短い挿入および欠失（ＩＮＤＥＬ）などの小さなバリアントを識別できる。

ターゲットエンリッチメント
一部の病理では、特定の形態の遺伝性乳がんおよび卵巣がんのＢＲＣＡ１およびＢＲＣＡ２遺伝子、または嚢胞性線維症のＣＦＴＲ遺伝子など、特定の遺伝子バリアントが病気に関連している。ゲノム解析では、個々のサンプルから全ゲノム（ＷＧＳ）をシーケンシングするのではなく、領域固有のＤＮＡプライマーまたはプローブのセットをターゲットにして、例えばＰＣＲ（ポリメラーゼ連鎖反応）を使用して、ＤＮＡ鎖に沿った遺伝子に対応するサブ領域に特化した生物学的ＤＮＡサンプルを濃縮または増幅することにより、病気に関連するゲノム領域に焦点を当てることができる。現在、例えばＭｕｌｔｉｐｌｉｃｏｍＭＡＳＴＲ（商標）やＩｌｌｕｍｉｎａＴｒｕＳｅｑ（登録商標）Ａｍｐｌｉｃｏｎアッセイキットなど、すぐに使用できる生物学的キットとして、これらの原則に沿って多くの次世代シーケンシングアッセイが開発されており、医学研究や臨床診療における、例えば、ＩｌｌｕｍｉｎａＭｉＳｅｑ（登録商標）シーケンサなど、次世代シーケンサによるＤＮＡベースの診断が容易になっている。

ターゲットエンリッチメントは、プローブベースのハイブリダイゼーション（アレイ上または溶液中）または高度に多重化されたＰＣＲベースのターゲットエクソンエンリッチメントを利用して、ＤＮＡの小さなサンプルから達成され得るため、遺伝子カバレッジ／リード深度と、増幅特異性（所望されるターゲット領域へのさらなるアラインメントによって測定される、正しい領域の増幅）が最大化される。市販のターゲットエンリッチメントシステムの例には、ＡｇｉｌｅｎｔＳｕｒｅＳｅｌｅｃｔ（商標）ターゲットエンリッチメントシステム、ＲｏｃｈｅＮｉｍｂｌｅＧｅｎＳｅｑＣａｐＥＺ、ＩｌｌｕｍｉｎａＮｅｘｔｅｒａＲａｐｉｄＣａｐｔｕｒｅ、ＡｇｉｌｅｎｔＨａｌｏｐｌｅｘ（商標）およびＭｕｌｔｉｐｌｉｃｏｍＭＡＳＴＲ（商標）などが挙げられる。

超並列処理ＮＧＳシーケンサを最大限に活用するために、ターゲットＮＧＳ実験では多数のサンプルが多重化され、例えば、４８以上のターゲットエンリッチメントサンプルのプールを同時にＩｌｌｕｍｉｎａＭｉＳｅｑシーケンサに入力できる。次に、ＮＧＳシーケンサからの生のシーケンシングデータを分析して、例えば参照ゲノムへのアラインメントによって、固有のサブシーケンスを識別してよい。その結果、増幅により、患者サンプル内の所与のアンプリコンに対して１，０００を超えるリードが生成されてよい。

次世代シーケンシングワークフローの自動化
次世代シーケンシング（ＮＧＳ）は、特に、シーケンシングリードアラインメント、バリアント呼び出し、およびバリアント注釈などのバイオインフォマティクス法を通じて、参照ゲノムと比較して、一塩基多型（ＳＮＰ）、挿入または欠失（ＩＮＤＥＬ）などのＤＮＡ配列の小さな変化を検出し報告することを可能にする。ＮＧＳワークフローとは、エンドツーエンドのゲノム解析アプリケーションへのそのような方法の構成および組み合わせを指す。ゲノム研究の実践では、ＮＧＳワークフローは、例えば、ＵＮＩＸオペレーティングシステム上の専用スクリプト、Ｇａｌａｘｙプロジェクトなどのグラフィカルパイプライン表現を含む専用プラットフォーム、および／またはそれらの組み合わせを使用して、手動で設定され、最適化される場合が多い。臨床診療が発展するにつれて、ＮＧＳワークフローはもはやケースバイケースで実験的に設定されるのではなく、サードパーティプロバイダによるＳａａＳ（サービスとしてのソフトウェア）、ＰａａＳ（サービスとしてのプラットフォーム）、またはＩａａＳ（サービスとしてのインフラストラクチャ）提供品に統合される。その状況では、ＮＧＳワークフローのさらなる自動化は、これらのサービスの臨床診療への日常的な統合を促進するための鍵である。

次世代シーケンシングワークフローの最適化
次世代シーケンシング法は、ＳＮＰおよびＩＮＤＥＬの検出において、従来のサンガーシーケンシングよりも効率的であることが示されているが、それらの特異性（所与のゲノムバリアントの真陽性の検出率）および感度（所与のゲノムバリアントの真陰性の排除率）は、臨床診療ではなお一層改善される可能性がある。ＮＧＳゲノム解析の特異性と感度は、以下のいくつかの要因の影響を受ける可能性がある：
シーケンシング技術によって導入されたバイアス、
例えば、次に理由による、
フラグメントの長さに対するリードの長さ、
リードの数が少なすぎる（リード深度）、
シーケンシング中に導入されたエラーまたは低品質の塩基、
特にパイロシーケンシング（Ｒｏｃｈｅ４５４プラットフォームのように）または半導体シーケンシング（ＩｏｎＴｏｒｒｅｎｔプラットフォームのように、例えば米国特許出願２００９／００２６０８２号のＲｏｔｈｂｅｒｇによって説明されているような）では、ホモポリマーストレッチをカウントする際の固有の問題であり、これにより生じる挿入および欠失エラー、
ＤＮＡ濃縮技術によって導入されたバイアス、例えば
プライマーまたはプローブの非特異的結合、例えば、アッセイを低温で長時間保存しすぎたり、サンプル中のＤＮＡの量が少なすぎたりするために起こるもの、
不完全なＰＣＲ増幅およびサイクリングによって引き起こされる配列エラーの取り込み、例えば、温度変化が原因であるもの、
プローブまたはプライマーの次善の設計によるものである。例えば、変異はプローブまたはプライマーの領域内にある場合がある。

濃縮方法の制限。例えば、長い欠失が増幅された領域にまたがる場合がある；
データセットの相互汚染、
バーコード、アダプタ、および様々な事前定義されたシーケンスタグによるフラグメントのタグ付けによる、データセットの相互汚染、リード損失、およびリード品質の低下、
長い挿入ペアエンド読み取り値におけるキメラリード、
サンプル自体によって導入されたバイアス、例えば、次の理由によるもの、
特に腫瘍サンプルシーケンシングに基づく癌診断における身体的特徴、
生物学的サンプルのタイプ、例えば血液、尿、唾液、および関連するサンプル準備の問題、例えば、ＤＮＡの分解、外来ＤＮＡの汚染、または少なすぎるＤＮＡ入力を生じさせる問題、
特定の領域のゲノムデータ構造によって固有に導入されたバイアス、例えば、次の理由によるもの、
対象領域でのＧＣ含量の高い比率、
ホモポリマーおよび／またはヘテロポリマーの存在、つまり特定の領域での１つ以上のヌクレオチドの部分的なゲノムシーケンスの反復であり、初期アラインメントに曖昧さが生じ、特にＲｏｃｈｅ４５４およびＩｏｎＴｏｒｒｅｎｔシーケンサテクノロジーに固有のシーケンスエラーを発生させるもの、
相同領域と低複雑度領域の存在、
ＤＮＡフラグメントがリード長と比較して十分に長くない場合、特にヒトゲノムの高反復ゲノム領域において、機能的遺伝子と混同される可能性のある非機能的偽遺伝子の存在。

これにより、ルーチンのゲノム解析アプリケーションでのＮＧＳの効率的な導入が制限され、これは、特異性と感度の観点から臨床上の期待に応えるために、アプリケーションごとに、高度な専門家が異なるゲノムデータ分析ワークフローを手動で編成し、様々なパラメーターセットで構成する必要があるためである。ゲノムデータ処理ワークフローの自動化は、ワークフローが一方では上流のＮＧＳ生物学的プロセスによって導入された特定のデータバイアスを考慮し、他方では現在のアプリケーションに固有のゲノムデータ構造を考慮する必要があるため、特に困難である。ゲノム検査の初期の展開では、限られた数の検査と設定が専用のプラットフォームによって処理され、高度なスキルを持つ専門スタッフが手動で設定、構成および保守することができた。単一の多目的ゲノム解析プラットフォームによって日常業務で実行する必要のある検査がますます増えているため、このようなアプローチはコストがかかり、十分に拡張することができない。

ＮＧＳ分析の自動化に関しては、特に実験室でパイロシーケンシング（Ｒｏｃｈｅ４５４プラットフォームのように）、または半導体シーケンシング（ＩｏｎＴｏｒｒｅｎｔプラットフォームのように）を採用している場合、参照ヒトゲノムのホモポリマー領域および／またはヘテロポリマー領域のインデルバリアントを特徴付ける際の固有の難しさに特別な注意を払う必要がある。いくつかのホモポリマーまたはヘテロポリマーバリアントの誤った特性評価は、例えばＳｉｎｇｈ等による、「ＣｌｉｎｉｃａｌｖａｌｉｄａｔｉｏｎｏｆａＮｅｘｔ－ＧｅｎｅｒａｔｉｏｎＳｅｑｕｅｎｃｉｎｇＳｃｒｅｅｎｆｏｒＭｕｔａｔｉｏｎａｌＨｏｔｓｐｏｔｓｉｎ４６Ｃａｎｃｅｒ－ＲｅｌａｔｅｄＧｅｎｅｓ」，ＴｈｅＪｏｕｒｎａｌｏｆＭｏｌｅｃｕｌａｒＤｉａｇｎｏｓｔｉｃｓ、Ｖｏｌ．１５、Ｎｏ．５、２０１３年９月によって強調されているように、例えば癌関連遺伝子のいくつかの遺伝的変異に基づいて、多様な診断アプリケーションで特定の形質および疾患の偽陽性検出をもたらす可能性がある。この制限を克服するために、Ｓｉｎｇｈ等は、シーケンシングプロセスによってバイアスがかけられている可能性が最も高いため、配列されたサンプルの２０％を超える母集団頻度を持つバリアントを除外することを提案した。現在のＮＧＳの実践では、出願人のゲノムアナライザプラットフォームＳｏｐｈｉａＤＤＭ（登録商標）は、ＬｏｎｄｏｎＳｏｕｔｈＷｅｓｔＲＧＣＳｔＧｅｏｒｇｅ’ｓによる（ｈｔｔｐｓ：／／ｕｋｇｔｎ．ｎｈｓ．ｕｋ／ｕｐｌｏａｄｓ／ｔｘ＿ｕｋｇｔｎ／Ｐｒｉｍａｒｙ＿Ｌｙｍｐｈｏｅｄｅｍａ＿１５＿ＧＰ＿ＧＤ＿Ｓｅｐｔ＿２０１７．ｐｄｆ－承認日２０１８年１月）または「Ｐｅｒｆｏｒｍａｎｃｅｃｈａｒａｃｔｅｒｉｓｔｉｃｓ－ＢＲＣＡＭＡＳＴＲＤｘｗｉｔｈｄｒＭＩＤＤｘｆｏｒＩｌｌｕｍｉｎａＮＧＳＳｙｓｔｅｍｓ」２０１７年７月－ｈｔｔｐｓ：／／ｗｗｗ．ａｇｉｌｅｎｔ．ｃｏｍ／ｃｓ／ｌｉｂｒａｒｙ／ｄａｔａｓｈｅｅｔｓ／ｐｕｂｌｉｃ／Ｐｅｒｆｏｒｍａｎｃｅ％２０ｃｈａｒａｃｔｅｒｉｓｔｉｃｓ％２０ＢＲＣＡ％２０ＭＡＳＴＲ％２０Ｄｘ％２０５９９１－８４２４ＥＮＥ．ｐｄｆによる、例えば１５遺伝子のパネルによる原発性リンパ浮腫の遺伝子検査の評価の提案に記載されているように、１０ｂｐを超えるホモポリマー領域にあるＩＮＤＥＬを無視するように構成されてよい。

ドイツ、キッペンハイムのＪＳＩＭｅｄｉｃａｌＳｙｓｔｅｍｓＧｍｂＨのＳｅｑｕｅｎｃｅＰｉｌｏｔＳｅｑＮｅｘｔモジュールなどの他のバイオインフォマティクスソリューションは、Ｎｕｎｚｉａｔｏ等によって、「ＦａｓｔＤｅｔｅｃｔｉｏｎｏｆａＢＲＣＡ２ＬａｒｇｅＧｅｎｏｍｉｃＤｕｐｌｉｃａｔｉｏｎｂｙＮｅｘｔＧｅｎｅｒａｔｉｏｎＳｅｑｕｅｎｃｉｎｇａｓａＳｉｎｇｌｅＰｒｏｃｅｄｕｒｅ」、ＩｎｔｌＪＭｏｌＳｃｉｖ．１８（１１）、２０１７年１１月で説明されているように、バリアント頻度がリードの２０％を超える場合にのみ、少なくとも６ｂｐのホモポリマーのバリアントを呼び出すように構成されてもよい。したがって、ＮＧＳ遺伝子パネル検査の現在の慣行は、ＮＧＳプラットフォームがそれらにバイアスをかけることが知られている場合、ヒトゲノムのホモポリマーまたはヘテロポリマー領域でのバリアント検出を無視するか、注意深くパラメーター化することで成り立っている。ただし、これらのアプローチは、偽陰性の特性評価をもたらす可能性がある。

「ＩｍｐｒｏｖｅｄｅｆｆｉｃｉｅｎｃｙａｎｄｒｅｌｉａｂｉｌｉｔｙｏｆＮＧＳａｍｐｌｉｃｏｎｓｅｑｕｅｎｃｉｎｇｄａｔａａｎａｌｙｓｉｓｆｏｒｇｅｎｅｔｉｃｄｉａｇｎｏｓｔｉｃｐｒｏｃｅｄｕｒｅｓｕｓｉｎｇＡＧＳＡｓｏｆｔｗａｒｅ」、ＢｉｏｍｅｄＲｅｓｅａｒｃｈＩｎｔｅｒｎａｔｉｏｎａｌ、Ｖｏｌ．２０１６、ＡｒｔＩＤ５６２３０８９において、Ｐｏｕｌｅｔ等は、家族性乳がんおよび卵巣がんのリスクに関連するＢＲＣＡ遺伝子バリアントを検出するためのＣＯＲＡＬ、ＨＥＣＴＯＲ、ＡｍｐｌｉｃｏｎＮｏｉｓｅなどの様々なソフトウェア分析ワークフローの制限を特定しており、
ＳＦＦファイルを解析し、対象のサンプルの各リードのフローグラム値を収集し、そしてエンドユーザがさらに検査することができるヒストグラム画像を導き出すことに基づいた改善方法（著者がＡＧＳＡソフトウェアとして実装）を提案している。ヘテロ接合挿入または欠失の場合、リード値の分布は２つの母集団に分割され、一部のリード（１つの対立遺伝子から）はｎ個の同一の塩基を有し、他のリード（他の対立遺伝子から）はｎ＋１（挿入）またはｎ－１（欠失）の同一の塩基を有することを示している。逆に、バイアスアーティファクトの配列決定の場合、ヒストグラムのｎとｎ＋１（またはｎ－１）のピークの間に単一の母集団が観察される。ホモ接合性変異の場合、単一の母集団はｎ＋１（またはｎ－１）を中心とし、すべてのリードがホモポリマー内の同じ数の塩基を有し、この数が野生型とは異なることを示している。

Ｐｏｕｌｅｔ等はまた、ヒストグラム値の単峰性または二峰性の分布も統計的に評価できることを示唆しているが、これを達成する方法は開示していない。さらに、彼らのアプローチでは、シーケンサから直接フローファイルを分析する必要があり、これにより、ネットワーク化されたコンピューティング環境において、特に、ゲノム解析ソリューションが実験装置から独立して展開される場合、例えばＳｏｐｈｉａＤＤＭ（ＤａｔａＤｒｉｖｅｎＭｅｄｉｃｉｎｅ）ＳＡＡＳ（ＳｏｆｔｗａｒｅＡｓＡＳｅｒｖｉｃｅ）プラットフォームのような場合、自動ゲノムアナライザワークフロープラットフォームの設計および展開が複雑になる。

Ｐｏｕｌｅｔ等の提案と同様に、ホモポリマー領域での挿入と欠失をより適切に検出し、対応するヘテロ接合性を検出する統計的方法も、Ｕｔｉｒａｍｅｔｕｒ等による米国特許出願第２０１４／００５２３８１号に記載されている。彼らは、ＮＧＳゲノムアナライザのワークフローでは、リードアラインメントが必ずしも正しいとは限らないことを観察したが、ホモ接合性領域は単峰性の分布を持つ傾向があるのに対し、ヘテロ接合領域は単峰性の分布を持つ傾向があるため、ベイジアンピーク検出アプローチおよび最適モデルを使用することにより、ホモポリマー領域の測定値とモデル予測値に基づいて、塩基呼び出し残差の分布からヘテロ接合性を決定できる可能性がある。

最適モデルから、ホモ接合性（単峰性分布）の場合は両方の対立遺伝子のホモポリマー長の値を、ヘテロ接合性（二峰性分布）の場合は各対立遺伝子に１つずつ、２つの異なるホモポリマー長の値を導出することも可能である。関連する流動空間密度が明らかにピーク値を示すため、この方法は短いホモポリマー領域の長さの識別を容易にする可能性があるが、より長いホモポリマーとヘテロポリマーを分類することは非常に困難であることが観察された。

米国特許出願2009/002608号米国特許出願第2014/005238号

「Clinical validation of a Next-Generation Sequencing Screen for Mutational Hotspots in 46 Cancer-Related Genes」,The Journal of Molecular Diagnostics、Vol.15、No.5, Sept 2013 「Fast Detection of a BRCA2 Large Genomic Duplication by Next Generation Sequencing as a Single Procedure」、Intl J Mol Sci v.18（11）、Nov 2017 「Improved efficiency and reliability of NGS amplicon sequencing data analysis for genetic diagnostic procedures using AGSA software」、Biomed Research International、Vol.2016、Art ID 5623089

したがって、ホモポリマーおよび／またはヘテロポリマー反復パターンバリアントの困難な特性評価を伴うゲノムデータコンテキストにおいて、従来の方法に対して、研究と臨床実践を改善するためにバリアント呼び出し結果の特異性と感度を最適化しつつ、同じゲノムデータ処理プラットフォームが、異なる次世代シーケンシング実験室設定から生成され得る、多様なゲノムデータに作用できるように、データ駆動型医療アプリケーションのゲノムデータ処理バリアント呼び出しワークフローを自動化するためのより優れたソリューションが必要である。

プロセッサを用いて、患者サンプルのゲノムシーケンスにおける少なくとも２つのヌクレオチドパターンの反復としてのバリアントを検出および報告するための方法が提案されており、この方法は以下の、
（ａ）参照反復パターンＰ_ｒｅｆ＝Ｎ＊ｌを、ヒトゲノム参照シーケンスのゲノム領域におけるｌ（ｌ＞＝２）ゲノムパターンＮの反復として識別することと、
（ｂ）次世代シーケンサを使用して、ｎ個の濃縮されたゲノム患者サンプルのプールから参照反復パターンゲノム領域をカバーする次世代シーケンシングデータリードのｎ個の患者セットＳ＝｛Ｓ_１、Ｓ_２、．．．、Ｓ_ｉ、…、Ｓ_ｎ｝を取得することであって、各セットＳ_ｉは患者サンプルに関連付けられており、濃縮されたゲノム患者サンプルの数ｎは少なくとも４であることと、
（ｃ）患者サンプルのセットＳ内の各患者サンプルｉについて、次世代シーケンシングリードのセットＳ_ｉ内の反復パターンの長さの分布Ｐ_ｉを測定することと、
（ｄ）患者サンプルｉとｊの可能なペアについて、ｊ＞ｉであり、信頼水準Ｌ_ｉｊで、サンプルｊに対するサンプルｉの２つの対立遺伝子バリアントの最適モデル
を推定することと、
（ｅ）患者サンプルｉ、ｊ＞ｉ、ｋ＞ｊの可能なトリプレットごとに、そのそれぞれの最適モデル
、
、
を比較し、一致する最適モデルを増加させた信頼水準で最適バリアントモデルのグループにグループ化し、そして最適バリアントモデルの安定したグループが形成されるまで比較を繰り返すことと、
（ｆ）野生型バリアントを保有する可能性が最も高いグループを識別することと、
（ｇ）野生型バリアントを保有するグループ内の各サンプルについて、サンプルバリアントを野生型参照反復パターンＰ_ｒｅｆ＝Ｎ＊ｌとして報告することと、
（ｈ）野生型バリアントを保有するグループからの各サンプルについて、識別された野生型グループの最適バリアントモデルの関数として、このサンプルを含むグループの最適バリアントモデルのバイアスを解除し、バイアスのないバリアントとしてサンプルバリアントを報告することとを含む。

先行技術の次世代シーケンシングシステムを表す図である。次世代シーケンシングゲノム解析ワークフローのフローチャートである。変異のないサンプル（上の表）と、対立遺伝子１にヘテロ接合欠失があるサンプル（下の表）のそれぞれについて、実験誤差のないヒトゲノム参照（０を中心とする）に対する反復パターンバリアントの予想される相対的な長さの確率分布を示す図である。変異を持たないサンプル（上の表）と、対立遺伝子１のヘテロ接合欠失があるサンプル（下の表）のそれぞれについて、それぞれ実験誤差を受けて測定され得る、ヒトゲノム参照（０を中心とする）に対する反復パターンバリアントの測定された相対的な長さの確率分布を示す図である。変異はないが実験誤差のバイアスの影響を受ける対照データの相対的な長さの確率分布から導出され得る、様々な欠失と挿入のシナリオの反復パターンの相対的な長さのすべての可能な予想される確率分布のグラフ表示の図である。最も近い予想される確率分布シナリオに一致する、患者データの測定された確率分布のグラフ表示を示す図である。サンプル１と２のペアについての反復パターンの長さの測定された確率分布の例、ならびに参照として想定された他のサンプルに対する各サンプルの反復パターンの長さの予想される確率分布を示す図である。サンプル１および２のペアについての反復パターンの長さの測定された確率分布の別の例、ならびに参照として想定された他のサンプルに対する各サンプルの反復パターンの長さの予想される確率分布を示す図である。サンプル１と２のペアについての反復パターンの長さの測定された確率分布の別の例、ならびに参照として想定された他のサンプルに対する各サンプルの反復パターンの長さの予想確率分布を示す図である。本開示による洗練されたバリアント呼び出し方法の可能な全体的なフローチャートであり、これにより、感度および特異性が向上した反復パターンバリアントを正確に特定することが可能になる図である。参照として想定された８つのサンプルをそれぞれ互いに一致させる例示的な表を示しており、ここで、サンプルＳ１、Ｓ２、およびＳ３は、変異（０／０）を保有しないものとして互いに一致する。参照として想定された８つのサンプルをそれぞれ互いに一致させる別の例示的な表を示しており、ここで、サンプルＳ２、Ｓ７、およびＳ８は部分的にのみ互いに一致し、Ｓ２とＳ７およびＳ７とＳ８は変異はないが（０／０）、Ｓ２とＳ８はヘテロ接合性変異（－１／０）を保有している。参照として想定される８つのサンプルをそれぞれ互いに一致させる別の例示的な表を示しており、ここで、サンプルＳ１、Ｓ２およびＳ６は互いに一致せず、Ｓ２とＳ６との間に関連する一致（ＮＡ／ＮＡ）は見出されない。提案されたマッチング方法を繰り返した後、参照として想定される８つのサンプルをそれぞれ互いに一致させる別の例示的な表を示す図である。参照として想定される８つのサンプルをそれぞれ互いに一致させる例示的な表におけるサンプルの可能なグループ化を示す図である。サンプルのプール内の野生型ヒトゲノム参照に対応するサンプルのグループを識別するための提案された方法の論理フローチャートである。変異した患者サンプルと野生型サンプルの混合物を含む実験プールからのＣＨＥＫ２遺伝子での例示的な反復ホモポリマーパターンのＮＧＳデータカバレッジを示す図である。パターン長の対応する測定分布を示す図である。変異した患者サンプルと野生型サンプルの混合物を含む実験プールからのＲＡＤ５４Ｌ遺伝子上の例示的な反復ホモポリマーパターンのＮＧＳデータカバレッジを示す図である。パターン長の対応する測定された分布を示す図である。変異した患者サンプルと野生型サンプルの混合物を含む実験プールからのＡＴＭ遺伝子での例示的な反復ホモポリマーパターンのＮＧＳデータカバレッジの図である。パターン長の対応する測定された分布を示す図である。異なる変異を有する患者サンプルの混合物を含む実験プールからのＡＴＭ遺伝子での例示的な反復ヘテロポリマーパターンのＮＧＳデータカバレッジの図である。パターン長の対応する測定された分布を示す図である。

次世代シーケンシング解析システム
図１は、ＤＮＡ濃縮アッセイ１００、次世代シーケンサ１１０、およびゲノムデータアナライザ１２０を含む例示的なゲノム解析システムを示す。

ＮＧＳ実験室では、ＤＮＡサンプルのプールがＤＮＡ濃縮アッセイ１００によって処理され、次世代シーケンサ１１０に入力されるＤＮＡフラグメントとして、プールされたアンプリコン（アンプリコンベースの濃縮の場合）またはフラグメント（プローブベースの濃縮の場合）のライブラリを生成し、アンプリコン／フラグメントの各セットは異なるサンプルに対応している。アンプリコン／フラグメントの数は、アプリケーションによって異なる。一部のゲノム解析実験では、サンプルゲノムからターゲットとなる７５の異なる領域を濃縮するために、ターゲットエンリッチメントは１５０のプライマーを必要とする場合があり、各サンプルに対して７５のアンプリコンのセットが生成される結果となる。サンプルの数はまた、次世代シーケンシングシーケンサ１１０の並列処理能力に適合させることができ、例えば、プールされたアンプリコンのライブラリの形態の４８サンプルは、ＩｌｌｕｍｉｎａＭｉＳｅｑシーケンサによって並列に配列決定されてよい。Ｒｏｃｈｅ４５４（商標）ＧＳＪｕｎｉｏｒまたはＧＳＦＬＸ、ＩｌｌｕｍｉｎａＭｉＳｅｑ（登録商標）、ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓＩｏｎＰＧＭ（商標）シーケンサなどの他のＮＧＳシーケンサ技術が使用されてもよい。

次世代シーケンサ１１０は、入力サンプルを分析し、生のＮＧＳシーケンシングデータを表すコンピュータ可読ファイル形式でシーケンスリードを生成する。ＮＧＳ技術に応じて、１つまたは複数のファイルが、ＮＧＳシーケンサ１１０によって出力されてよい。いくつかの実施形態では、例えばＩｌｌｕｍｉｎａシーケンサを使用して、ＦＡＳＴＱファイル形式は、順方向および逆方向のリードのために２つの異なるファイルで使用されてよい、または単一の結合ファイルとして使用されてもよい。このテキストファイルは通常、「＠」の開始文字でマークされたシーケンスヘッダーで始まり、その後に「Ａ」、「Ｔ」、「Ｃ」、「Ｇ」ヌクレオチド文字の文字列として表される１行のシーケンス情報が続き、その後に「＋」の開始文字でマークされた品質ヘッダーが続き、１行の品質メトリック、読み取られた各ヌクレオチドに一致する１つの品質スコアが続く。シーケンス情報文字列内の各ヌクレオチドの品質メトリックの形式は、シーケンサによって異なる場合がある。一部のレガシーシーケンサは、生のシーケンシングデータをＳＦＦ（ＳｔａｎｄａｒｄＦｌｏｗｇｒａｍＦｏｒｍａｔ）バイナリファイル形式で出力し、これは、有益なヘッダーとリードデータで構成される。他の実施形態も可能であり、例えば、いくつかの従来のＲｏｃｈｅシーケンサは、単一の患者分析のために複数のＦＡＳＴＱファイルを出力し、他のシーケンサ、例えば、ＩｏｎＴｏｒｒｅｎｔＰＧＭシーケンサは、．ｂａｓｅｃａｌｌｅｒ．ｂａｍファイル拡張子から認識され得るように、圧縮されたマッピングされていないＢＡＭファイル形式に移行した。通信システムの当業者に知られているように、実験室は、結果として得られた生のＮＧＳシーケンシングデータファイルを実験室バイオバンクに保存するためにコンピューティングインフラストラクチャを稼働させる。実験室コンピューティングインフラストラクチャは、認証資格情報を用いて、通信ネットワークを介してゲノムデータアナライザ１２０に接続し、生のＮＧＳシーケンシングファイルを含むゲノム解析要求をゲノムデータアナライザ１２０に送信する。

ゲノムデータアナライザ１２０コンピュータシステム（本明細書では「システム」でもある）１２０は、シーケンシングデータの受信および／または結合および／またはシーケンシングデータへの注釈付けなどの、異なるゲノムデータ解析法を実施するようにプログラムされる、または他の方法でそのように構成される。

ゲノムデータアナライザ１２０は、中央処理装置（ＣＰＵ、本明細書では「プロセッサ」または「コンピュータプロセッサ」）、ＲＡＭなどのメモリおよびハードディスクなどの記憶装置、ならびに例えばインターネットやローカルネットワークなどの通信ネットワークを介して他のコンピュータシステムと通信するための通信インターフェイスを含むコンピュータシステムであってよい、またはそのようなコンピュータシステムの一部であってもよい。ゲノムデータアナライザコンピューティングシステム、環境、および／または構成の例には、これらに限定されないが、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、シッククライアント、ハンドヘルドまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能な家電製品、ネットワークＰＣ、ミニコンピュータシステム、メインフレームコンピュータシステムなどが含まれる。いくつかの実施形態では、コンピュータシステムは、１つまたは複数のコンピュータサーバを含んでよく、これらは、他の多数の汎用または特殊目的のコンピューティングシステムで動作可能であり、例えば、ゲノムデータファームにおけるクラウドコンピューティングなどの分散コンピューティングを可能にし得る。いくつかの実施形態では、ゲノムデータアナライザ１２０は、超並列システムに統合されてもよい。いくつかの実施形態では、ゲノムデータアナライザ１２０は、次世代シーケンシングシステムに直接統合されてもよい。

ゲノムデータアナライザ１２０コンピュータシステムは、コンピュータシステムによって実行されるプログラムモジュールなどのコンピュータシステム実行可能命令の一般的な状況に適合させることができる。一般に、プログラムモジュールには、特定のタスクを実行したり、特定の抽象データ型を実装したりするルーチン、プログラム、オブジェクト、コンポーネント、ロジック、データ構造などが含まれてよい。コンピュータプログラミングの当業者によく知られているように、プログラムモジュールは、ネイティブオペレーティングシステムおよび／またはファイルシステム機能、スタンドアロンアプリケーション、ブラウザまたはアプリケーションのプラグイン、アプレットなど、Ｐｙｔｈｏｎ、Ｂｉｏｐｙｔｈｏｎ、Ｃ／Ｃ＋＋、またはその他のプログラミング言語でプログラミングできる商用またはオープンソースのライブラリおよび／またはライブラリツール、ＰｅｒｌまたはＢｉｏｐｅｒｌスクリプトなどのカスタムスクリプトを使用してよい。

命令は、通信ネットワークを介してリンクされたリモート処理デバイスによってタスクが実行される分散型クラウドコンピューティング環境で実行されてよい。分散型クラウドコンピューティング環境では、プログラムモジュールは、メモリストレージデバイスを含むローカルおよびリモート両方のコンピュータシステムストレージ媒体に配置されてよい。

図１に示されるように、ゲノムデータアナライザ１２０は、生のＮＧＳシーケンシングデータを参照ゲノムと比較する配列アラインメントモジュール１２１を含んでよい。配列アラインメントモジュール１２１は、異なるアラインメントアルゴリズムを実行するように構成されてよい。多数のゲノムデータシーケンシングリードの高速処理用に最適化されたＢｏｗｔｉｅ２またはＢＷＡなどの標準的な生データアライメントアルゴリズムが使用されてよいが、他の実施形態も可能である。アラインメントの結果は、バイオインフォマティクスの当業者に知られているように、ＢＡＭまたはＳＡＭ形式の１つまたは複数のファイルとして表すことができるが、ストレージの最適化および／またはゲノムデータプライバシー施行に関するゲノムデータアナライザ１２０の要件に応じて、圧縮形式や、順序保持暗号化用に最適化された形式など他の形式が使用されてもよい。

得られたアラインメントデータは、ＳＮＰおよびＩＮＤＥＬ多型情報などのバリアント情報を検索するために、バリアント呼び出しモジュール１２２によってさらにフィルタリングされ分析されてよい。バリアント呼び出しモジュール１２２は、異なるバリアント呼び出しアルゴリズムを実行するように構成されてよい。次に、結果として検出されたバリアント情報は、ゲノムデータアナライザモジュール１２０によって、例えば視覚化ツールを用いてエンドユーザによるさらなる処理のためのゲノムバリアントレポートとして、および／またはさらなるバリアント注釈処理モジュール（図示せず）によって出力されてよい。

ゲノムデータアナライザ１２０は、プロセッサを用いて、入力シーケンシングデータおよび対応する遺伝的状況、サンプルタイプまたは実験室プロセス特性などのＤＮＡ濃縮状況、ターゲットエンリッチメントターゲットキットまたはキャプチャプローブアッセイ特性などのＤＮＡ濃縮技術、および／またはＮＧＳシーケンシング技術を一意に決定する特性のセットを自動的に検出するように適合されてよい。次世代シーケンシングの当業者に明らかであるように、これらの実験的特性は、配列アラインメントおよび／またはバリアント呼び出し結果に特定のバイアスを引き起こす可能性がある。

したがって、提案されたゲノムデータアナライザシステム１２０は、異なる遺伝子の異なるサンプルに対して異なるシーケンサ技術および異なるＤＮＡ濃縮技術を独立して作用させる、異なる研究室からの次世代シーケンシングゲノム解析要求に役立つことができる。提案されたゲノムデータアナライザシステム１２０は、実験室から受信した入力データおよび要求から特性のセットを自動的に検出し、そして、それぞれの異なる生物学的ワークフローによって引き起こされる可能性のあるデータのバイアスを最小限に抑えるために時間を消費し、コストがかかる手動の設定を必要とせずに、配列アラインメントモジュール１２１およびバリアント呼び出しモジュール１２２の構成をそれに応じて適合させることができる。

当業者には明らかであるように、同じゲノムアナライザ１２０で機能している複数の調達実験室のために数十または数百の異なる臨床検査室の設定が存在する場合があり、この数および多様性は、ＮＧＳベースの個別化された医療の臨床診療が発展するにつれて、追加の技術およびアッセイの展開とともにさらに増大する可能性が高い。

検出されたゲノム実験特性に応じて、ゲノムデータアナライザ１２０は、追加のデータ処理ステップを作動するように、および／またはゲノム実験特性によって引き起こされるデータバイアスが最小限に抑えられるように構成パラメーターの異なるセットを使用するように配列アラインメントモジュール１２１を構成してよい。

検出された入力特性に応じて、ゲノムデータアナライザは、追加のデータ処理ステップを作動するように、および／またはゲノム実験特性によって引き起こされるデータバイアスが最小限に抑えられるように構成パラメーターの異なるセットを使用するように、バリアント呼び出しモジュール１２２をさらに構成することができる。

配列アラインメントモジュール１２１による初期の配列アラインメントの結果に応じて、ゲノムデータアナライザ１２０は、アラインメントデータを分析するときに明らかになる次世代シーケンシングデータアラインメントバイアスを識別するようにさらに適合されてよい。したがって、ゲノムデータアナライザは、生のＮＧＳシーケンシングデータのリアライメントの追加のステップを実行するように配列アライメントモジュール１２１を構成することができる。このリアライメントは、初期のアライメント結果から決定され得る、追加のパラメーターによって制約される可能性がある。可能な実施形態では、リアラインメントは、特にゲノムシーケンスのサブ領域に適用される。結果として生じるリアライメントデータは、バリアント呼び出しモジュール１２２によってさらにフィルタリングおよび分析されて、バリアント検出のための感度および特異性が向上した状態で、より関連性の高いゲノムバリアントレポートを出力することができる。

バリアント呼び出しモジュール１２２によるバリアント呼び出しの結果に応じて、ゲノムデータアナライザ１２０は、アラインメントデータ上でバリアントを呼び出すときに明らかになるバリアント呼び出しバイアスを識別するようにさらに適合されてよい。ゲノムデータアナライザは、アラインメントデータのすべてまたは一部に対してバリアントを再度呼び出す追加のステップを実行するように、バリアント呼び出しモジュール１２２をそれに応じて構成することができる。この洗練されたバリアント呼び出しステップは、以前のアラインメントおよび／またはリアラインメントおよび／またはバリアント呼び出し結果から決定され得る追加のパラメーターによって制約される場合がある。可能な実施形態では、バリアントは特に、整列されたゲノムデータのサブセットに対して呼び出される。結果として得られる洗練されたバリアント呼び出しデータは、バリアント呼び出しモジュール１２２による標準のバリアント呼び出し結果とさらに組み合わされて、バリアント検出の感度および特異性が向上した状態で、より関連性の高いゲノムバリアントレポートを出力することができる。可能な実施形態では、バリアント呼び出しモジュール１２２によって、バイアスされている可能性があると識別されたいくつかのバリアント呼び出し結果はゲノムバリアントレポートから除外されてもよく、その結果、バリアント検出の感度および特異性が向上した状態で、より関連性の高いゲノムバリアントレポートが、ゲノムデータアナライザ１２０によって生成される。

図２はそれに応じて、ゲノムデータアナライザ１２０の可能なゲノム解析ワークフローを示しており、これは、
－次世代シーケンシング分析要求を受信すること２００と、
－次世代シーケンシング分析要求に関連付けられた特性の第１のセットを識別し２１１、特性の第１セットは少なくとも、ターゲット濃縮技術識別子、シーケンシング技術識別子、およびゲノムコンテキスト識別子を含むことと、
－特性の第１のセットの少なくとも１つの特性に従って入力シーケンシングデータを整列させるようにデータアライメントモジュール１２１を構成すること２３１と、
－構成されたデータアラインメントモジュール１２１を用いて、入力シーケンシングデータをゲノムシーケンスに整列させ２３２、アラインメントデータを生のアラインメントデータファイルに報告することと、
－生のアラインメントデータファイルからアラインメントデータに関連付けられた特性の第２のセットを識別し２１２、特性の第２のセットは、少なくともデータアラインメントパターン識別子を含むことと、
－特性の第１のセットの少なくとも１つの特性および特性の第２のセットの少なくとも１つの特性に従って、入力シーケンシングデータの少なくとも１つのサブセットを洗練するようにデータアラインメントモジュール１２１を構成すること２３３と、
－構成されたデータアラインメントモジュール１２１を用いて、入力シーケンシングデータのサブセットを洗練して２３４、洗練されたアラインメントデータファイルを生成することと、
－洗練されたアラインメントデータファイルからのリアラインメントデータに関連付けられた特性の第３のセットを識別し２１３、特性の第３のセットは、少なくともゲノムコンテキスト識別子を含むことと、
－特性の第１のセットの少なくとも１つの特性、特性の第２のセットの少なくとも１つの特性、および特性の第３のセットの少なくとも１つの特性に従って、洗練されたアラインメントデータに関連付けられたバリアントを検出するようにバリアント呼び出しモジュール１２２を構成すること２４１と、
－洗練されたアラインメントデータにおいて、構成されたバリアント呼び出しモジュール１２２を用いて、ゲノムバリアントの第１のセットを検出すること２４２と、
－検出されたゲノムバリアントに関連付けられた特性の第４のセットを識別し２１４、特性の第４のセットは、少なくともバリアント呼び出し洗練識別子を含むことと、
－特性の第１のセットの少なくとも１つの特性、特性の第２のセットの少なくとも１つの特性、特性の第３のセットの少なくとも１つの特性、および特性の第４のセットの少なくとも１つの特性に従って、洗練されたアラインメントデータに関連付けられたバリアントを検出するようにバリアント呼び出しモジュール１２２を構成すること２４３と、
－洗練されたアラインメントデータおよび検出されたゲノムバリアントにおいて、構成されたバリアント呼び出しモジュール１２２を用いて、洗練されたゲノムバリアントを検出して２４４、ゲノムバリアントの洗練されたセットを生成することと、
－洗練されたゲノムバリアントのセットを報告すること２５０と
を含む。

したがって、汎用の多目的ゲノムデータアナライザ１２０は、
各臨床分析の生物学的設定と診断状況の各組み合わせに適合するために、専用の手動の構成または包括的なメタデータ文書化を必要とせずに、複数の調達研究所によって運営される多様な臨床設定から受け取った生の次世代シーケンシングデータからの複数の異なるゲノムバリアントの分析および報告を容易にする。

洗練されたバリアント呼び出し方法－例示的なワークフロー
より正確な反復パターン（ホモポリマーおよび／またはヘテロポリマー）バリアント識別のための提案された洗練されたバリアント呼び出し方法２４４の例示的な実施形態を、ここでより詳細に説明する。図２の完全に自動化されたゲノムデータ分析ワークフローは、少なくとも１つの次世代シーケンシング実験室から供給されたゲノムデータで作用する。

一例として、実験室は、ＩｏｎＴｏｒｒｅｎｔシーケンサおよびＩｎｔｅｇｒａｔｅｄＤＮＡＴｅｃｈｎｏｌｏｇｉｅｓのｘＧｅｎＬｏｃｋｄｏｗｎＰｒｏｂｅｓを操作して、乳がん、卵巣がん、胃腸の遺伝性がんに関連する可能性のある最大２７個の遺伝子のゲノムバリアントを識別することができる。ヒトゲノミクスの当業者に明らかなように、それらのゲノムバリアントのいくつかは、例えば（非網羅的リスト）２２番染色体の２９１３０８１４位にあるＣＨＥＫ２ゲノム領域の１３Ａヌクレオチドの反復、１番染色体の４６７３９９７５位にあるＲＡＤ５４Ｌゲノム領域の１４Ｔヌクレオチドの反復、または１１番染色体の１０８１９５９７７位にあるＡＴＭゲノム領域の１９Ｔヌクレオチドの反復などの野生型ヒト参照染色体のかなり長いホモポリマー領域に対応する。

別の例として、実験室は、この特定のアンプリコンベースのキットでカバーされるＣＦＴＲ遺伝子のゲノムバリアントを識別するためのターゲット濃縮技術として「ＭｕｌｔｉｐｌｉｃｏｍＣＦＴＲＭＡＳＴＲ（商標）Ｄｘアッセイ」を備えたＩｌｌｕｍｉｎａＭｉＳｅｑ（登録商標）シーケンサを操作する場合がある。ＴＧジヌクレオチド（ヘテロポリマー）の反復の数は、通常、ヒト７番染色体のＣＦＴＲ遺伝子では１１であるが、９（２つの欠失）から１４（３つの挿入）の反復まで様々である。後者のバリアントは、ＣＦＴＲ遺伝子のエクソン９のスプライシングに影響を及ぼし、ＣＦＴＲ遺伝子がまたポリチミジントラクト上に５Ｔホモポリマーのみの短縮バリアントを保持している場合、嚢胞性線維症に関連しており、これは、典型的には７Ｔヌクレオチド反復のものであり、５から９Ｔヌクレオチドの反復まで変化する可能性がある。さらに、１２または１３のＴＧヘテロポリマーの反復は、あまり一般的ではない嚢胞性線維症の病状にも関連するが、１１のＴＧジヌクレオチドの反復は疾患との関連性が低い（Ｈｅｆｆｅｒｏｎ等、「ＡｖａｒｉａｂｌｅｄｉｎｕｃｌｅｏｔｉｄｅｒｅｐｅａｔｉｎｔｈｅＣＦＴＲｇｅｎｅｃｏｎｔｒｉｂｕｔｅｓｔｏｐｈｅｎｏｔｙｐｅｄｉｖｅｒｓｉｔｙｂｙｆｏｒｍｉｎｇＲＮＡｓｅｃｏｎｄａｒｙｓｔｒｕｃｔｕｒｅｓｔｈａｔａｌｔｅｒｓｐｌｉｃｉｎｇ」、ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ１０１：３５０４－３５０９、２００４－ｈｔｔｐ：／／ｗｗｗ．ｐｎａｓ．ｏｒｇ／ｃｏｎｔｅｎｔ／１０１／１０／３５０４．ｌｏｎｇ）。

第１の特性、すなわち、ターゲット濃縮技術識別子、シーケンシング技術識別子、および／またはゲノムコンテキスト識別子の少なくとも１つの関数として、ゲノムデータアナライザ１２０は、第１の生のデータアライメントを実行する２３２ようにデータアラインメントモジュール１２１を構成する２３１。データアラインメントモジュール１２１はまた、リードからアッセイ特異的アダプタを除去するなどの前処理ステップを実行してもよい２３２。

データアラインメントモジュール１２１は、バイオインフォマティクスの当業者に知られている生データアラインメントアルゴリズムを用いて、前処理された生のシーケンシングデータを参照ゲノムシーケンスにアラインメントして２３２、データアラインメントファイルを生成する。多数のゲノムデータシーケンシングリードの高速処理用に最適化されたＢｏｗｔｉｅ２またはＢＷＡなどの標準アルゴリズムが使用されてよいが、他の実施形態も可能である。結果として得られるデータアラインメントファイルは、ＢＡＭまたはＳＡＭ形式の１つまたは複数のファイルとして表されてもよいが、他の実施形態も可能であり、特に、データアラインメントモジュール１２１は、ゲノム解析ワークフロー処理に沿ったストレージの最適化および／またはゲノムデータプライバシー施行に関するゲノムデータアナライザ１２０の要件に応じて、例えば、順序保存暗号化、同形暗号化、対称暗号化および／または非対称暗号化スキームおよび／またはそれらの組み合わせによって、アラインメントの圧縮および／または暗号化などの後処理ステップを実行することもできる２３２。

次に、ゲノムデータアナライザ１２０は、データアラインメント２３２の結果から、アラインメントおよび／またはバリアント呼び出しアルゴリズムの洗練を必要とする特定のデータアラインメントパターンなどの特性の第２のセットを自動的に導出することができる２１２。ゲノムデータアナライザは、例えば、プライマーのミスプライミングが原因である可能性があるため、特にリードの開始時および／または終了時にアラインメントの不一致の存在を検出する場合がある（「ソフトクリッピング」）。アンプリコンベースの技術におけるこの頻繁なバイアスは、実際に次のいずれかを引き起こす可能性があり、
偽陽性、参照ゲノムにミスアライメントされるのに十分なリードにミスプライミングアーティファクトが存在し、これにより、ＤＮＡサンプルのＳＮＰとして誤ったバリアント呼び出し２４２解釈が発生する場合、
偽陰性、アラインメントモジュール１２１が特定のリードでのミスプライミングアーティファクトと、他のリードでの正しいアンプリコンデータを区別できず、対応する領域がデータアラインメントモジュール１２１によってソフトクリップされ、これにより、バリアント呼び出し２４２が正しいアンプリコンデータで病理学的関連性の可能性のある変異を見逃すことになる場合である。

ソフトクリップパターンは、データアラインメントモジュール１２１の生のアラインメントアルゴリズム２３２によって適切にアラインメントできなかったリードの５’または３’境界でのシーケンシングデータに対応する。ソフトクリップされたアライメントは、アライメントデータファイルのＣＩＧＡＲ文字列で明確にマークされているため、データアライメント２３２の後で、対応するパターンを簡単に識別することができる。次世代シーケンシングの当業者に知られているように、ソフトクリッピング情報はその後、潜在的な臨床的関連性の構造的バリアントをさらに検出するために、特定のアルゴリズムを用いてゲノム解析ワークフローに再マッピングされてよい。

したがって、ゲノムデータアナライザ１２０は、データアラインメント２３２の結果から、ソフトクリッピング領域を有するリードを自動的に識別し２１２、アライメントアルゴリズムで、特に、特定のＤＮＡ濃縮技術に対応するプライマーアンカー情報を考慮することによって、これらのリードに対してさらなるデータリアライメントを操作する２３４ようにデータアライメントモジュール１２１を構成してよい２３３。バイオインフォマティクスの当業者には明らかであるように、たとえ計算効率が低くても、Ｂｏｗｔｉｅ２またはＢＷＡよりも堅牢なアルゴリズムが、とりわけこれらの領域で使用されてもよい。実際、ＮＧＳデータ全体のサブセットのみをこのようにリアラインさせる必要があり、提案されたワークフローは完全に自動化されるため、ゲノムデータアナライザ１２０の全体的な計算効率性能は大きな影響を受けることがなく、その一方で、データリアライメント洗練の自動化により、ゲノムデータアナライザ１２０の特異性および感度を、従来技術の研究の実施の手動の試行錯誤の設定で得られるものに匹敵するように高めることが可能である。このようなアルゴリズムの例は、例えばＳｕｚｕｋｉ等による「ＣｌｉｐＣｒｏｐ：ａｔｏｏｌｆｏｒｄｅｔｅｃｔｉｎｇｓｔｒｕｃｔｕｒａｌｖａｒｉａｔｉｏｎｓｗｉｔｈｓｉｎｇｌｅ－ｂａｓｅｒｅｓｏｌｕｔｉｏｎｕｓｉｎｇｓｏｆｔ－ｃｌｉｐｐｉｎｇｉｎｆｏｒｍａｔｉｏｎ」、ＢＭＣＢｉｏｉｎｆｏｒｍａｔｉｃｓ２０１１１２（Ｓｕｐｐｌ１４）：Ｓ７、およびＳｃｈｒｏｄｅｒ等による「Ｓｏｃｒａｔｅｓ：ｉｄｅｎｔｉｆｉｃａｔｉｏｎｏｆｇｅｎｏｍｉｃｒｅａｒｒａｎｇｅｍｅｎｔｓｉｎｔｕｍｏｕｒｇｅｎｏｍｅｓｂｙｒｅ－ａｌｉｇｎｉｎｇｓｏｆｔｃｌｉｐｐｅｄｒｅａｄｓ」、Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ（２０１４）に記載されているが、他の実施形態も可能である。特に、最も効率的なリアライメントアルゴリズムは、提案されたゲノムデータアナライザ１２０によって、ゲノムコンテキストおよび生のアライメントデータソフトクリップパターンの両方の関数として自動的に構成されてよい２３３。

ゲノムコンテキスト識別子に応じて、ゲノムデータアナライザ１２０はまた、アラインメントデータから、ホモポリマー領域、ヘテロポリマー領域、またはより一般的には特定の反復パターンを有する任意の領域など、アラインメントが特に困難ないくつかの領域の存在を識別してもよい。対応する次世代シーケンシングリードの適切なアラインメントは、これらの複数の反復によってアラインメントの曖昧さが生じるため、特に困難である。したがって、ゲノムデータアナライザ１２０は、生データアラインメント２３２の結果から、それらの曖昧な領域と重複するリードの洗練を必要とする特定のゲノムコンテキストを自動的に識別してよい２１２。ゲノムデータアナライザ１２０はこれに従って、例えば、ＰＣＲエラー率を考慮し、リードを互いに比較することなどによって、他の可能なアラインメントソリューションを特定するために、それらのリードに対してさらなるデータリアラインメント２３４を操作するようにデータアラインメントモジュール１２１を構成してよい２３３。

次に、ゲノムデータアナライザ１２０は、ターゲット濃縮技術識別子を使用して、最初に識別されたゲノムコンテキスト識別子（例えば、ＣＨＥＫ２、ＡＴＭ、ＢＲＣＡ２、ＣＦＴＲ…）および生アライメント結果（例えばデータ中の特定のホモポリマー反復パターンの存在）から識別された特定のゲノムコンテキストの洗練に従って、異なるバリアント呼び出しアルゴリズムを実行するようにバリアント呼び出しモジュール１２２を構成してよい２４１。バリアント呼び出しモジュール１２２は、洗練されたアラインメントデータに対してバリアントを呼び出して２４２、第１のＶＣＦファイルを生成する。場合によっては、結果として生じるバリアントは、ゲノムデータアナライザ１２０によって報告されるほど十分に正確ではない場合がある。

次に、反復パターントラクトをより最適に識別するのに適した、洗練されたバリアント呼び出し方法２４４の可能な実施形態を、より詳細に説明する。バイオインフォマティクスの当業者に知られているように、ゲノムデータアナライザ１２０は、サンプルが、同じ配列決定実行でプールされた多様な患者に対応する生のＮＧＳシーケンシングデータを実験室から受け取ることができる。ホモポリマーまたはヘテロポリマーのヌクレオチドの反復が存在する場合、ＤＮＡ配列決定実験の精度が低くなるため、サンプルに実際に変異がない場合でも、誤った挿入や欠失が検出される可能性がある。最先端の実験室での実践では、ホモポリマーの最大３０％が欠落し、よってこれらの領域のシーケンシングエラーによる欠失として分析される場合があり、これは有意な統計的バイアスを導入し、これによりゲノム解析の精度を低下させる。一部の実験室では、患者データに加えて野生型サンプルの対照データを配列決定することもあり、これらはすべて同じ実験プロセス（ＤＮＡキャプチャ１００およびＮＧシーケンサ１１０）で生成されるため、対照データ参照を使用してデータのバイアスをなくし、そして、例えば、同時係属中の欧州特許出願ＷＯ／２０１８／１０４４６６号に記載されているように、特徴付けが特に困難である反復ゲノムコンテキストにおいてさえ、バリアント呼び出しを容易にすることができる。ただし、実験室の設定によっては、対照データが利用できない場合がある。このような設定では、潜在的に測定にバイアスをかける根本的なシーケンシングエラーについての何の手がかりもなしに、例えばＣＨＥＫ２遺伝子でのＡホモポリマートラクト、ＲＡＤ５４Ｌ遺伝子でのＴホモポリマートラクト、ＡＴＭ遺伝子でのＴホモポリマートラクト、ＣＦＴＲ遺伝子でのＴＧヘテロポリマートラクトなど、反復配列パターンの長さを適切に推定することが難しいため、正確なバリアント呼び出しは困難である。実際、反復パターンの測定された長さは、実験バイアスと実際のゲノムバリアントの両方に依存する可能性のある反復パターンの長さの離散確率分布（「分布長」）に従っている。ゲノム解析ワークフローの感度と特異性を高めるために、測定データにおける実験バイアスの寄与を可能な限り減らすことが望ましい。これは、サンプル測定値の１つがヒトゲノム参照に対応する（つまり、いかなるバリアントも保有していない）という仮定の下で、サンプル測定値をクロス分析することによって達成されてよい。次に、推定された参照サンプル測定値を参照データとして使用して、バリアントモデルを予測することができ、これに対して、洗練されたバリアント呼び出し方法２４４は次に、互いのサンプルの測定値を一致させ、これによりこれらのサンプルのより正確なバリアント識別を可能にする。

例えば、係属中の欧州特許出願ＥＰ１６２０２６９１．８に記載されているように、長さの分布は、十分なカバレッジを有するゲノムシーケンスデータリードのセットにおける反復パターンの絶対的な長さの離散確率分布として測定されてよい。別の可能な実施形態では、分布長は、理論上のヒトゲノム参照パターンに対して（これはまた変異なしで最も一般的に見られる野生型サンプルに対応する）、十分なカバレッジを有するゲノムシーケンスデータリードのセットにおける反復パターンの相対的な長さ（欠失または挿入を示す）の離散正規化確率分布として測定されてもよい。本開示を通して、相対的な長さは、提案された方法の理解を容易にするために考慮されるが、当業者に明らかであるように、提案された方法は、相対的な長さ測定の単純なシフトとして絶対的な長さ測定にも適用される。

ゲノムの状況に応じて、反復パターンは、単一ヌクレオチドの反復として、ホモポリマーであってもよい。ＣＨＥＫ２ゲノム解析アプリケーションでは、ホモポリマーはポリＡパターンである場合があり、このパターンの絶対的な長さは通常１１～１５の反復の範囲で測定されるか、相対的な長さは－２（２つの欠失）から＋２（２つの挿入）の範囲内で測定されてもよく、０は、変異のない１３Ａヌクレオチドの野生型反復パターンを表している。ＲＡＤ５４Ｌゲノム解析アプリケーションでは、ホモポリマーはポリＴパターンである場合があり、このパターンの絶対的な長さは通常９～１３の範囲で測定されるか、相対的な長さは－２（２つの欠失）から＋２（２つの挿入）の範囲内で測定されてもよく、０は、変異のない１１Ｔヌクレオチドの野生型反復パターンを表している。ＡＴＭゲノム解析アプリケーションでは、ホモポリマーはポリＴパターンである場合があり、このパターンの絶対的な長さは通常１７～２１の範囲で測定されるか、相対的な長さは－２（２つの欠失）から＋２（２つの挿入）の範囲内で測定されてもよく、０は、変異のない１９Ｔヌクレオチドの野生型反復パターンを表している。

ゲノムの状況に応じて、反復パターンは、ペアまたはトリプレットまたはそれ以上のヌクレオチドの反復として、ヘテロポリマーであってもよい。ＣＦＴＲの例では、反復パターンはＴＧヘテロポリマー反復である場合があり、このパターンの絶対的な長さの範囲は１１であり得る。ＣＦＴＲゲノム解析アプリケーションでは、ヘテロポリマーはジヌクレオチドＴＧパターンであってよく、このパターンの絶対的な長さは通常、９から１４の範囲で測定されるか、相対的長は－２（２つの欠失）から＋３（３つの挿入）の範囲内で測定されてもよく、０は変異のない１１ＴＧジヌクレオチドの野生型反復パターンを表している。

それぞれ、ＣＨＥＫ２、ＲＡＤ５４ＬまたはＡＴＭ、およびＣＦＴＲゲノム解析の例示的な用途において、洗練されたバリアント呼び出し方法２４４は、対応するゲノムバリアントをより最適に特徴付けるために、ポリＡホモポリマートラクト、ポリＴホモポリマートラクト、またはポリＴＧヘテロポリマートラクトの長さをそれぞれ評価してよい。パターン反復の長さを正確に推定するために、バリアント呼び出し方法２４４は、実験エラーによって引き起こされるバイアスを最小限に抑える必要がある。これは、入力データの様々な仮説について、考えられる各反復配列パターンで様々な挿入および欠失シナリオの予想される分布の長さを推定し、かつ最適な一致（「最適なバリアントモデル」）を選択することによって実現されてよい。

バイオインフォマティクスの当業者に明らかであるように、この方法は、次世代シーケンシングリードが十分に大きな統計的カバレッジを有する場合、反復パターン長の推定の精度を大幅に改善するであろう。生物学の当業者には、人間の操作者が、野生型参照および／または患者のＤＮＡサンプル中の反復パターントラクトの実際の長さを識別するための簡単な方法がなく、したがって次世代シーケンサで配列決定された患者のＤＮＡサンプルデータの実際の分析を容易にするために、１つまたは複数のコンピュータプロセッサを使用して信号処理自動化方法を採用することに大きな利点があることも明らかである。

バイアスがサンプルのプール内のすべてのサンプルに等しく適用されるという仮定の下で、それは特に野生型サンプルにも適用される。したがって、野生型サンプルに対応すると想定される、プール内の別のサンプルに対して、サンプルデータにバリアントモデルを最適化することを提案する。同時係属中の欧州特許出願ＥＰ１６２０２６９１．８の方法では、野生型サンプルが対照データサンプルである。対照データサンプルがプールに存在しない場合、以下でさらに詳細に開示されるように、他のサンプルに対して各サンプルをクロス分析することによって、異なる仮説が実行され検証されてもよい。

バリアントモデルのサンプル間の最適なフィッティング
ヒトゲノム参照の反復パターントラクトに対する患者サンプルの反復パターントラクトの長さの理論的分布は、変異および実験エラーバイアスのない対照データサンプルについて、および単一の塩基性モチーフ欠失変異のシナリオ、例えば、ホモポリマーゲノム領域ＣＨＥＫ２（参照ホモポリマーパターン長ＲＥＦ＝１３）またはＡＴＭ（参照ホモポリマーパターン長ＲＥＦ＝１９）における単一対立遺伝子の１つのヌクレオチドの欠失、あるいはヘテロポリマーゲノム領域ＣＦＴＲ（参照ヘテロポリマーパターン長ＲＥＦ＝１１）における単一の対立遺伝子の１つのジヌクレオチド（２つのヌクレオチド）の欠失などのシナリオについて、それぞれ図３に示されている。このヘテロ接合欠失は、参照に対する一方の対立遺伝子での－１反復パターン長の差、およびもう一方の対立遺伝子での０反復パターン長の差として表される。これは、各対立遺伝子が分布長測定の５０％に寄与する理想的な理論的ケースに対応しており、したがって、それぞれ（ＲＥＦ－１）反復パターンの長さとＲＥＦ反復の長さがリアライメントデータから測定されると予想され、反復パターントラクトの長さの正規化された離散確率分布でそれぞれ０．５の等しい確率を有する。

ヒトゲノム参照における反復パターントラクトに対する患者サンプルにおける同じ反復パターントラクトの長さの例示的な測定された分布がそれぞれ、変異を伴わないが実験誤差バイアスの影響を受ける実験データセットについて図４に示されており、これにより（図４の上の表）２つの欠失（対照カバレッジデータの１０％）または１つの欠失（対照カバレッジデータの２０％）の誤ったより短い長さの測定、および１つの挿入（対照カバレッジデータの１０％）の誤ったより長い長さの測定が生じ、その結果、カバレッジデータの６０％しか反復する領域の実際の長さに対応せず、例えば、ヒトゲノム参照のＣＨＥＫ２遺伝子に変異がない標準的なホモ接合１３－ＡパターンのＲＥＦ＝１３Ａヌクレオチドの実際の長さ、またはヒトゲノム参照ののＡＴＭ遺伝子に変異がない標準的なホモ接合性１９－ＴパターンのＲＥＦ＝１９Ｔヌクレオチドの実際の長さに応する。患者データのパターン長の測定された離散確率分布はそれに従ってバイアスされることになり、この実験によって誘発されたバイアスをこれにより、感度と特異性を向上させるための考えられる各変異バリアントシナリオのパターン長の予想される離散確率分布を推定する際に考慮に入れることができる。一例として、図４の下の表は、ヒトゲノム参照に対する単一の塩基性モチーフ欠失のシナリオ、例えば、ＣＨＥＫ２遺伝子ポリＡホモポリマートラクトあるいはＡＴＭまたはＲＡＤ５４Ｌ遺伝子ポリＴホモポリマートラクトの単一の対立遺伝子の１つのヌクレオチドの欠失のシナリオについての（ヘテロ接合欠失－パターン長＝一方の対立遺伝子のＲＥＦ－１、およびもう一方の対立遺伝子のパターン長＝ＲＥＦ）、パターン長推定の結果として予想される離散確率分布を示している。変異した対立遺伝子１では、ヌクレオチドの塩基性モチーフの実際の欠失のために、パターン長の確率分布全体が左にシフトされる可能性がある。両方の対立遺伝子が全体の測定データに等しく寄与するため、野生型データからの実験誤差バイアスを考慮しながら、それらの寄与を単純に合計して平均し、この単一欠失変異シナリオのパターン長の予想される確率分布を提供することができ、この例の図では、単一欠失変異患者データの５％が３つの欠失を保持している、１５％が２つの欠失を保持している、４０％が１つの欠失を保持している（正しい結果）、３５％が変異なし、および５％が塩基モチーフの単一の挿入を保持している、例えば、ＲＡＤ５４ＬまたはＡＴＭ遺伝子のポリＴホモポリマートラクトのＴヌクレオチド、またはＣＦＴＲ遺伝子のポリーＴＧヘテロポリマートラクトのＴＧジヌクレオチドなどとして測定されることを予測することができる。

図５ａ）は、実験バイアスにより、変異のない（０／０シナリオ）野生型データでも次の誤った確率分布測定、すなわち、変異なしの４０％の測定、単一欠失の３０％の測定（０を中心とする参照と比較した－１の長さ）、単一挿入の３０％の測定（０を中心とする参照と比較した＋１の長さ）が発生する場合の、ホモ接合性二重欠失（左上－０を中心とする参照と比較した－２の長さ）からホモ接合型二重挿入（右下－０を中心とする参照と比較して＋２の長さ）に及ぶ多様なゲノムバリアントシナリオモデルについてのゲノム参照反復パターン長に対する反復パターン長の例示的な予想される離散確率分布を示す。

したがって、統計学の当業者に明らかなように、バリアント呼び出しモジュール１２２はこれにより、例えば図５ａ）によって示されるように、各シナリオの長さの予想される正規化された離散確率分布で、例えば図５ｂ）によって示されるように、患者データの長さの測定された正規化離散確率分布を比較するために、例えば統計的距離測定などの異なる方法を適用することができる。次に、バリアント呼び出しモジュール１２２は、最小の推定距離をもたらすバリアントシナリオ（最適モデル）として最も近い比較シナリオを選択することができる。

相対的な長さ（ヒトゲノム参照における野生型反復長ｌに対する挿入または欠失の数）または絶対的な長さのいずれかを使用して分布を表すことができ、一方は、他方と比較した参照座標の単純なシフトである。最初の対立遺伝子のヌクレオチドパターンのＲ_１反復と、２番目の対立遺伝子のＲ_２反復のバリアントシナリオはこれにより、絶対座標でバリアントシナリオ［Ｒ_１｜Ｒ_２］として、または相対座標では［Ｖ_１｜Ｖ_２］＝［Ｒ_１－ｌ｜Ｒ_２－ｌ］として表されてよく、ここで、ｌはヒトゲノム参照の反復の数である。

したがって、可能な実施形態では、患者データ内の長さの測定された離散確率分布と、最初の対立遺伝子のヌクレオチドパターンのＲ_１反復と２番目の対立遺伝子のＲ_２の反復のバリアントシナリオ［Ｒ_１｜Ｒ_２］の長さの予想される離散確率分布との間の統計的距離は、それぞれの正規化された離散確率分布を表すベクトル間のユークリッド距離として計算されてよい。あるいは、可能な実施形態では、ヒトゲノム参照に対する患者データ内の長さの測定された離散確率分布と、最初の対立遺伝子のヌクレオチドパターンのＲ_１反復と２番目の対立遺伝子のＲ_２の反復のバリアントシナリオ［Ｖ_１｜Ｖ_２］＝［Ｒ_１－ｌ｜Ｒ_２－ｌ］の長さの予想される離散確率分布との間の統計的距離は、
それぞれの確率分布を表すベクトル間のユークリッド距離として計算されてもよい。

統計分析の当業者に明らかであるように、様々な方法を適用して、最適モデルを決定することができる。可能な実施形態では、測定された統計分布と予想される統計分布との間の平均二乗誤差の最小化が使用されてもよい。より一般的には、ユークリッド距離や１－ノルム距離などのｎ－ノルム距離を最小化することが可能である。バイオインフォマティクスの当業者には明らかであるように、他の統計的適合方法を使用して、例えば、Ｕｔｉｒａｍｅｔｕｒ等による米国特許出願第２０１４／００５２３８１号に記載されている方法のいくつかなど、最適モデルを決定することができる。

図５の例示的な例（相対的な長さ座標を使用する）では、［０／１］バリアントシナリオが、ヒトゲノム参照に対する反復パターンゲノムバリアントの最適モデルとして、それに応じて選択されることになる（ヘテロ接合単一挿入、例えばＣＨＥＫ２［１３Ａ／１４Ａ］の例では、一方の対立遺伝子に１３－Ａ、もう一方の対立遺伝子に１４－Ａがある）。

上記の提案された方法は、実験対照データカバレッジが、野生型の実験測定バイアスを表すように利用可能である場合、つまり、対照データサンプルが実験室プールに含まれている場合、患者サンプルデータにおける反復パターン（例えば、ＣホモポリマーまたはＴＧヘテロポリマー塩基性モチーフの反復）の長さのバイアスされないそれぞれの確率分布を確実に推定することを可能にする。ただし、すべてのゲノム解析設定がそのような対照の野生型データを提供するわけではない。したがって、実際のサンプル（複数可）が患者プール内の野生型（「参照」）データを表す可能性がある様々な仮説をさらに検討する必要がある。これは、場合によっては反復パターンの変異を誤認している測定バイアスで、それらのうちの１つが野生型サンプルに対応するかどうかを判断するという試みにおいて（野生型サンプルバリアントは、最初にバイアスされた観測に関係なく、洗練されたバリアント呼び出し２４４の後に［０｜０］と呼ばれる必要がある）、患者１と患者２それぞれの２つのサンプルを互いに比較する最も単純なケースにおいて、このような仮説の例をプロットした図６、図７、および図８の例証でよりよく理解されるであろう。

図６では、サンプル１の相対的反復パターン長の測定された分布は、０（変異なし）を中心とする単峰性であるが、サンプル２の相対反復パターン長の測定された分布は、それぞれ－２（２つの欠失）および＋１（１つの挿入）を有する二峰性である。サンプル１の測定された分布が実験バイアスのある野生型の測定に対応するという仮説では、サンプル２の測定された分布と、サンプル１に対するサンプル２の１つの対立遺伝子の２つの欠失と、１つの対立遺伝子の１つの挿入のバリアントモデル［－２｜１］の予測された分布との間の最小の可能な距離ｄ＝０として、完全な一致を見い出すことができる。サンプル２の測定された分布が実験バイアスのある野生型の測定に対応するという仮説では、サンプル１の測定された分布と、サンプル２に対するサンプル１の１つの対立遺伝子の１つの欠失と、１つの対立遺伝子の２つの欠失のバリアントモデル［－１｜２］の予測された分布との間に一致を見つけることはできない（ｄ＝０．９５）。この例では、バリアント呼び出し方法２４４により、ゲノムデータアナライザ１２０は、反復パターン長が、野生型（例えば、ＣＨＥＫ２での１３Ａヌクレオチド、ＲＡＤ５４Ｌでの１１Ｔヌクレオチド、ＡＴＭでの１９ＴまたはＣＦＴＲ１３Ａでの１１ＴＧ）に対応する、両方の対立遺伝子での患者１のヒト参照ゲノムと同じであることを十分に確信して識別することが可能になり、一方で、患者２に関して、反復パターン長は、１つの対立遺伝子で２ヌクレオチド短くなり（例えばＣＨＥＫ２での１１Ａヌクレオチド、ＲＡＤ５４Ｌでの９Ｔヌクレオチド、ＡＴＭでの１７Ｔ、またはＣＦＴＲでの９ＴＧ）、また他方の対立遺伝子でのヒト参照ゲノムと比較して１ヌクレオチドだけ長くなる（例えばＣＨＥＫ２での１４Ａヌクレオチド、ＲＡＤ５４Ｌでの１２Ｔヌクレオチド、ＡＴＭでの２０Ｔ、または１２ＴＧでのＣＦＴＲ）。

図７において、サンプル１の相対的反復パターン長の測定された分布は、０（変異なし）を中心とする単峰性であり、一方、サンプル２の相対的反復パターン長の測定された分布は、１（１つのホモ接合性欠失）を中心とする単峰性である。サンプル１の測定された分布が実験的バイアスのない野生型の測定に対応するという仮説（０を中心としているため）では、サンプル２の測定された分布と、サンプル１に対するサンプル２の単一ヌクレオチドホモ接合性欠失のバリアントモデル［－１｜－１］の予測分布との間の可能な最小距離ｄ＝０として、完全な一致を見い出すことができる。サンプル２の測定された分布が、ホモ接合性欠失の実験的バイアスを伴う野生型測定に対応するという仮説では（－１を中心としているため）、サンプル１の測定された分布と、サンプル２に対するサンプル１の単一ヌクレオチドホモ接合性挿入のバリアントモデル［＋１｜＋１］の予測分布との間の可能な最小距離ｄ＝０としても完全な一致を見い出すことができる。この例では、サンプル１またはサンプル２が野生型に対応するかどうかを区別することが可能であり、ゲノムデータアナライザ１２０がサンプル１とサンプル２に対して確信を持って実際のバリアントを識別することを可能にするために、他のサンプルとのさらなるクロス分析がバリアント呼び出し方法２４４にとって必要となる。

図８では、サンプル１の相対的反復パターン長の測定された分布は、－１（１つの欠失）と＋２（２つの挿入）にそれぞれ２つのピークがある二峰性であるのに対して、サンプル２の相対的な反復パターン長の測定された分布は、－１（１つの欠失）と＋１（１つの挿入）との間を中心とする単峰性である。サンプル１の測定された分布が、実験的バイアスのある野生型の測定に対応するという仮説では、サンプル２の測定された分布と、サンプル１に対するサンプル２の単一ヌクレオチドヘテロ接合欠失のバリアントモデル［－１｜０］の予測された分布との間の距離ｄ＝０．４６７で最適な一致を見い出すことができる。サンプル２の測定された分布が、実験的バイアスのある野生型測定に対応するという仮説では、サンプル１の測定された分布と、サンプル２に対するサンプル１の１つの対立遺伝子での１つのヌクレオチドの欠失と２番目の対立遺伝子での２つのヌクレオチドの挿入のバリアントモデル［－１｜＋２］の予測された分布との間の可能な最小距離ｄ＝０．３６３で最適な一致を見い出すことができるこの例では、どのサンプルが野生型に対応するかに関係なく、バリアント呼び出し方法２４４では、ゲノムデータアナライザ１２０が患者１と患者２の反復パターン長を十分な信頼性で識別できないことが分かる。ただし、さらに詳細に説明するように、より多くの患者サンプルをクロス分析することで、なおもそれを識別できる場合がある。

マルチサンプルクロス分析
図９のワークフローによって示されるように、本明細書で提案される一般的なアプローチは、サンプルのプール内の各サンプルを、作業仮説として可能性のある野生型（ＷＴ）参照サンプルとして連続して考察することで成り立っている。この方法は、前のセクションで説明したように、サンプルの各ペアの信頼水準を使用して最適モデルを計算することから始めることができる。図６、図７および図８の例によって以前に示されたように、サンプルの各ペアの分析は、特定のレベルの信頼性を備えた最適モデルを提供し得る。サンプル間の最適モデルが最初に特定されると、さらなるサンプルのクロス分析が可能な各トリプレットで進行して、それらに最適に一致する最適モデルならびに対応する信頼水準を特定してよい。各作業仮説の全体的な信頼水準は、反復パターンの長さの測定された分布と、それらが各クロス分析の反復において洗練されたときに一致する最適なバリアントモデルとの間の距離の関数として繰り返し計算されてよい。上記の仮定の下で複数のサンプルをクロス分析するように様々なアルゴリズムを設計することで、それらは限られた回数繰り返した後に収束するようになる。次に、野生型に対応するサンプルを識別する（洗練されたバリアント呼び出し方法２４４によって、変異なしのホモ接合性として識別される必要がある）ことで、プール測定での実験的バイアスの可能性（これにより、反復パターンゲノム領域の測定データに非洗練バリアント呼び出しを適用する場合の変異の誤った検出が生じることになり得る）を考慮に入れることが可能になる。

サンプルのプールには、野生型パターンを保有するサンプルがいくつか存在する場合がある。したがって、サンプルをクロス分析した後、それらをグループ化してみると有利である。次に、特定のヒューリスティックを適用して、野生型に対応する可能性が最も高いグループを特定することができ、例えば、
ほとんどの実験的バイアスは両方の対立遺伝子に無差別に適用されるため、ホモ接合型バリアントを含むサンプルは、ヘテロ接合型バリアントを含むサンプルよりも野生型サンプルである可能性が高くなる。

複数の欠失バリアントを持つサンプルは野生型サンプルである可能性があるが（次世代シーケンサがヌクレオチドをスキップすることが原因であり得る）、この仮説に従って洗練されたバリアント呼び出し２４４の後、他のすべてのサンプルにはまだ既知の可能な範囲のバリアントが含まれているはずである（例えばＣＦＴＲの場合、ヒトゲノム参照と比較してＴＧパターンの欠失は２つ以下である）。言い換えると、この作業上の仮定は、他のサンプルに、もっともらしいバリアントモデルをそれらに最適に適合させるのに十分な観測されたパターン長がある場合にのみ考慮することができる。

クロスサンプル統計分析に基づいてサンプルのプール内の、野生型に対応するサンプルのグループを特定することにより、洗練されたバリアント呼び出し方法２４４は、これにより、プール内の各サンプルの反復パターンバリアントを、最も高い信頼水準での野生型バイアスの作業仮説から導出されるバリアントとしてより正確に特徴付けることができる。したがって、提案されたゲノムデータアナライザ１２０は、複数の患者サンプルの反復パターンバリアントをより正確に検出し２４４、より正確に報告する２５０ことになる。

可能な実施形態において、反復パターンバリアントを、患者サンプルのゲノムシーケンスの少なくとも２つのヌクレオチド（ホモポリマーの場合）または少なくとも２つのヌクレオチド群（ヘテロポリマーの場合：ジヌクレオチド、ヌクレオチドのトリプレットなど）の反復パターンとして識別するための洗練されたバリアント呼び出し方法２４４は、これにより、
（ａ）参照反復パターンＰ_ｒｅｆ＝Ｎ＊ｌを、ヒトゲノム参照シーケンスのゲノム領域におけるｌ（ｌ＞＝２）ゲノムパターンＮの反復として識別することと、
（ｂ）次世代シーケンサを使用して、ｎ個の濃縮されたゲノム患者サンプルのプールから、参照反復パターンゲノム領域をカバーする次世代シーケンシングデータリードのｎ個の患者セットＳ＝｛Ｓ_１、Ｓ_２、．．．、Ｓ_ｉ、…、Ｓ_ｎ｝を取得し、各セットＳ_ｉは患者サンプルに関連付けられており、濃縮されたゲノム患者サンプルの数ｎは少なくとも４であることと、
（ｃ）患者サンプルのセットＳ内の各患者サンプルｉについて、次世代シーケンシングリードのセットＳ_ｉ内の反復パターンの長さの分布Ｐ_ｉを測定することと、
（ｄ）患者サンプルｉとｊの可能なペアについて、ｊ＞ｉであり、
（ｄ１）サンプルｊについて、サンプルｉが、各対立遺伝子について野生型ヒトゲノム参照ホモポリマーパターンＰ_ｒｅｆ＝Ｎ＊ｌを保有するという仮定の下で、信頼水準Ｌ_ｊ｜ｉでのサンプルｊの２つの対立遺伝子バリアントの最適モデル
、ならびにサンプルｊの測定された分布Ｐ_ｊと最適なバリアントモデル
の予測された単峰性または二峰性分布との間の最小距離Ｄ_ｊ｜ｉを推定することと、
（ｄ２）サンプルｉについて、サンプルｊが各対立遺伝子について野生型ヒトゲノム参照ホモポリマーパターンＰ_ｒｅｆ＝Ｎ＊ｌを保有するという仮定の下で、信頼水準Ｌ_ｊ｜ｉでのサンプルｉの２つの対立遺伝子バリアントの最適モデル
、ならびにサンプルｉの測定された分布Ｐ_ｉと最適バリアントモデル
の予測された単峰性または二峰性分布との間の最小距離Ｄ_ｉ｜ｊを推定することと、
（ｄ３）Ｄ_ｉ｜ｊ≧Ｄ_ｊ｜ｉの場合、サンプルのペア（ｉ、ｊ）について、２つの対立遺伝子バリアントの最適なバリアントモデルとして最適モデル
を選択し、サンプルｉをペア（ｉ、ｊ）の参照サンプルとして、この最適な一致の信頼水準値として信頼水準Ｌ_ｉｊ＝Ｌ_ｊ｜ｉを選択することと、
（ｄ４）それ以外のＤ_ｉ｜ｊ＜Ｄ_ｊ｜ｉである場合、サンプルのペア（ｉ、ｊ）について、２つの対立遺伝子バリアントの最適バリアントモデルとしてモデル
を選択し、サンプルｊをペア（ｉ、ｊ）の参照サンプルとして、この最適な一致についての信頼水準値として信頼水準Ｌ_ｉｊ＝Ｌ_ｉ｜ｊを選択することと、
（ｅ）患者サンプルｉ、ｊ＞ｉ、ｋ＞ｊの可能なトリプレットごとに、それぞれの最適モデル
、
、
を比較することであって、
（ｅ１）患者サンプルのトリプレットの３つの最適モデルがすべて互いに一致する場合、信頼水準Ｌ_ｉｊ、Ｌ_ｊｋ、Ｌ_ｉｋを増加させ、
（ｅ２）それ以外の場合、３つの最適モデルが互いに一致せず、サブセットの中で最も信頼水準が低い最適モデルを、サブセットの他の２つのサンプルから計算された最適モデルに置き換え、患者サンプルのトリプレットのすべての最適モデルの信頼水準Ｌ_ｉｊ、Ｌ_ｊｋ、Ｌ_ｉｋを低下させることと、
（ｆ）結果が変化しなくなるまでステップ（ｅ）を繰り返すことと、
（ｇ）同一の最適なバリアントモデルのグループを一致させ、野生型バリアントを保有する可能性が最も高いグループを識別することと、
（ｈ）野生型バリアントを保有するグループからの各サンプルについて、識別された野生型グループの最適なバリアントモデルの関数として、このサンプルを含むグループの最適なバリアントモデルのバイアスを解除し、サンプルについてバイアスのないバリアントを報告することとを含む。

統計学の当業者に明らかなように、信頼水準は、最初に推定され、異なる数学的方法によってさらに洗練されてよい。可能な実施形態では、患者サンプルｉおよびｊ、ｊ＞ｉの任意のペアについて、推定の信頼水準Ｌ_ｉｊ
は、最初に
のように計算され、
ここで、Ｄ_ｊ｜ｉは最小距離であり、Ｄ_ｊ｜ｉはステップｄ１）で計算された２番目に小さい距離であり、Ｄ_ｉ｜ｊは最小距離であり、Ｄ_ｉ｜ｊ’はステップｄ２）で計算された２番目に小さい距離である。Ｌ_ｉｊ信頼水準値はこれにより、［０，１］の範囲の浮動値であり、値１はｉまたはｊのいずれかの最大信頼水準を参照として定量化しており、値０は、例えば参照としてｉとｊを区別することが不可能な場合の最小信頼水準を定量化している。

可能な実施形態では、一致する最適モデルのトリプレットサブセットｉ、ｊ、ｋの各ペアの信頼水準は、ステップｅ１）において、以下のようにそれぞれ増加されてよい。

Ｌ_ｉｊ’＝１－（１－Ｌ_ｉｊ）（１－Ｌ_ｊｋ＊Ｌ_ｉｋ）
Ｌ_ｊｋ’＝１－（１－Ｌ_ｊｋ）（１－Ｌ_ｉｊ＊Ｌ_ｉｋ）
Ｌ_ｉｋ’＝１－（１－Ｌ_ｉｋ）（１－Ｌ_ｉｊ＊Ｌ_ｊｋ）
可能な実施形態では、最小の初期信頼水準がＬ_ｉｋである一致しない最適モデルのトリプレットサブセットｉ、ｊ、ｋの各ペアの信頼水準は、ステップｅ２）でそれぞれ以下のように低下されてよく、
Ｌ_ｉｊ’＝Ｌ_ｉｊ－（１－Ｌ_ｊｋ）＊Ｌ_ｉｋ
Ｌ_ｊｋ’＝Ｌ_ｊｋ－（１－Ｌ_ｉｊ）＊Ｌ_ｉｋ
Ｌ_ｉｋ’＝ｍａｘ（０、Ｌ_ｉｊ＊Ｌ_ｊｋ－Ｌ_ｉｋ）
また、サブセットの中で信頼水準が最も低いペアｊ、ｋの最適モデルは、
のように、トリプレット内のサンプル間推移性を仮定することにより、サブセットｊの他の２つのサンプルから計算された最適モデルに置き換えることができる。

特に、異なるタイプのヘテロ接合性変異を比較できない場合、
の結果は、クロス分析から除外される場合があり（［ＮＡ｜ＮＡ］）：
１．
（サンプルｉまたはサンプルｋのいずれかでヘテロ接合性変異を示す）およびＤ_ｉ｜ｋ＞Ｄ_ｋ｜ｉ（サンプルｋがホモ接合性であることを示す）および
（サンプルｊまたはサンプルｋのいずれかでヘテロ接合性変異を示す）およびＤ_ｊ｜ｋ＞Ｄ_ｋ｜ｊ（サンプルｋがホモ接合性であることを示す）および
または
（サンプルｉとサンプルｋにおいて同じタイプのヘテロ接合性変異がないことを示す）、
２．
は［ＮＡ｜ＮＡ］に等しい、または
は［ＮＡ｜ＮＡ］に等しい。

別の特定のケースでは、
は［ＮＡ｜ＮＡ］に等しい場合、この結果はサンプルｉまたはサンプルｊのシーケンシングノイズが原因である可能性があるため、トリプレットの他の２つのサンプルから上記と同じ式で結果を再測定することができる。
に対応する信頼水準は、それ以外の場合は次のように推定されてよい。

Ｌ_ｉｊ．ｋ＝Ｌ_ｉｋ＊Ｌ_ｋｊ
ｉとｊのペアごとに、
およびＬ_ｉｊ．ｋ値の最大でｎ－２の結果が、こうしてトリプレットから導出されてよく、ここで、ｎは患者サンプルの数である。また、
およびＬ_ｉｊ．０＝Ｌ_ｉｊ、から始まり、各ペアｉおよびｊについて、ｋ＝０からｎ、ｋ≠ｉ、ｋ≠ｊで、
およびＬ_ｉｊ．ｋの最大でｎ－１の結果が存在する。

上記のステップａ）からｆ）により、サンプルのプールからのデータをクロス分析することにより、最も可能性の高い最適なバリアントモデルを識別することが可能になる。次に、図１０から図１３に示されるように、上記で提案されたクロスサンプル比較方法の例示的な適用について説明する。

図１０では、サンプルｉ＝１とサンプルｊ＝２は、信頼水準Ｌ_１２＝０．４６で、相互に変異がない最適なバリアントモデル、
に関連付けられており、サンプルｉ＝１とサンプルｊ＝３は、信頼水準Ｌ_１３＝０．６０で、相互に変異がない最適なバリアントモデル
に関連付けられており、サンプルｉ＝２とサンプルｊ＝３は、信頼水準Ｌ_２３＝０．３２で、相互に変異がない最適なバリアントモデル
に関連付けられている。患者サンプルのトリプレット（１，２，３）の最適モデルは互いに一致するため、対応する信頼水準Ｌ_１２、Ｌ_１３、Ｌ_２３は、Ｌ_１２’＝０．５６４、Ｌ_２３’＝０．５１８、およびＬ_１３’＝０．６５９としてそれぞれ増加する可能性がある。

図１１では、サンプルｉ＝２とサンプルｊ＝７は、信頼水準Ｌ_２７＝０．１８で、相互に変異がない最適なバリアントモデル
に関連付けられており、サンプルｉ＝２とサンプルｊ＝８は、信頼水準Ｌ_２８＝０．１０で、サンプル８に対するサンプル２の１つのヘテロ接合欠失の最適なバリアントモデル
に関連付けられており、サンプルｉ＝７とサンプルｊ＝８は、信頼水準Ｌ_７８＝０．６８で、相互に変異がない最適なバリアントモデル
に関連付けられている。クロスサンプル２と７および７と８および２と８のサブセットの最適モデルは互いに一致せず、信頼水準Ｌ_２８＝０．１０はトリプレットの最低値であるため、サンプル２とサンプル８の最適モデル
は、一致するサブセットの
のもので置き換えることができ、対応する信頼水準Ｌ_２７、Ｌ_２８、Ｌ_７８はそれに応じて、それぞれＬ_２７’＝０．１４８、Ｌ_７８’＝０．５９８、Ｌ_２８’＝０．０２２として低下される。

図１２では、サンプルｉ＝１とサンプルｊ＝２は、信頼水準Ｌ_１２＝０．４６で、相互に変異がない最適なバリアントモデルに関連付けられており
、サンプルｉ＝１とサンプルｊ＝６は、信頼水準Ｌ_１６＝０．６７で、相互に変異がない最適なバリアントモデル
に関連付けられており、ただし、サンプルｉ＝２とサンプルｊ＝６は、前のステップで信頼性が低い（ＮＡ）ものとして分類されている。サンプル２とサンプル６の最適モデル
は、一致するサブセットのもの
、信頼水準Ｌ_２６．１＝０．３０８に置き換えることができる。サンプル２とサンプル６の間の［ＮＡ｜ＮＡ］はトリプレットに対するいかなる情報にも寄与しないため、信頼水準Ｌ_１２とＬ_１６は変更されないままである。

図１３は、最も可能性の高い最適なバリアントモデルと、提案された方法を４回繰り返した後に収束した値に対応する修正された信頼水準の例示的な表を表す。繰り返しの回数は、入力データの品質とプール内のサンプル数によって異なる場合があり得るが、一般には、方法がプール内の一貫した結果に収束するには、数回の繰り返しで十分である。

より一般的には、ステップ（ｆ）からの最適モデルは、サンプルＧ_ｒ（１≦ｒ≦ｑ）の各グループ内で、すべての結果が互いに一致するような
値に基づいてサンプルのｑ個の異なるグループ（１≦ｑ≦ｎ－１）にグループ化されてよい。したがって、結果が［ＮＡ｜ＮＡ］のサンプルは、このステップでは考慮されない。このグループの全体的な信頼水準はその後、次のように計算されてよい。Ｌ_{ｉｊ．Ｇｒ}＝１－Π_ｋεＧｒ（１－Ｌ_ｉｊ．ｋ）
例えば、グループ１にクロス分析の信頼水準がそれぞれ０．５、０．４、０．３の３つのサンプルが含まれている場合、このときＬ_{ｉｊ．Ｇ１}＝１－（１－０．５）（１－０．４）（１－０．３）＝０．７９である。

ステップｅ）から複数のグループ（ｑ＞１）が存在する場合、信頼水準Ｌ_{ｉｊ．Ｇｈ}が最も高いグループＧ_ｈを選択し、ステップｆ）のｐ回目の繰り返しの前に、
の繰り返しｐでの新しい値として、このグループの値
を設定することができる。

次に、ペアｉとｊの新しい信頼水準は、次のように増加または低下されて計算されてよい。

Ｌ_{ｉｊ．ｎｅｗ}＝ｍａｘ（０、１－（１－_{Ｌｉｊ．Ｇｈ}）＊Π_{１≦ｒ≦ｑ、ｒ≠ｈ}（１－Ｌ_{ｉｊ．Ｇｒ}）^－１
例えば、信頼水準０．９、０．８、０．７に対応して３つのグループＧ_１、Ｇ_２、Ｇ_３がある場合、グループＧ_１の信頼水準は０．９が最も高いため、
の新しい結果として
を設定する。そして、新しい信頼水準は次のようになってよい、
Ｌ_ｉｊ．ｐ＝ｍａｘ（０，１－（１－０．９）（１－０．８）^－１（１－０．７）^－１）＝ｍａｘ（０、－０．６７）＝０。

繰り返しステップｆ）による上記のすべてのステップによってすべてのクロスサンプル最適モデル
および対応する一致レベルＬ_ｉｊは、すべてのサンプルペアｉおよびｊの新しい結果に更新されてよい。次に、任意のペアｉとｊに複数のグループ（ｑ＞１）がある場合（つまり、結果に矛盾があることを意味する）、繰り返し全体を反復すべきであるが、すべてのｉとｊのペアが１つのグループのみを生成する場合（つまり、すべての結果は互いに一致し、安定した値に達することを意味する）、繰り返しはステップｆ）で停止されてよい。

野生型に対応するサンプルの最も可能性の高いグループの選択
すべてのサンプルのデータのバイアスを解除するには、識別された最適なバリアントモデルのグループのどのサブセットが野生型参照に対応するかを特定する必要があり、これらのサブセットには変異はないが、次世代シーケンシングワークフロープロセスによって単独でバイアスされている可能性がある。図１３の例では、すべての収束モデルが［０｜０］として互いに一致している、つまり、相互に変異がないため、すべてのサンプルが同じ野生型参照であることを容易に導き出すことができる（報告するバリアント変異は識別されてい）。ただし、図１４の例では、クロス分析を繰り返した後の最適なバリアントモデルは、サンプルの２つのグループ、つまりグループ１＝｛Ｓ１、Ｓ３、Ｓ４、Ｓ５、Ｓ６、Ｓ７、Ｓ８｝と、グループ３＝｛Ｓ２｝において一致させることができる。後者の場合、どのグループが野生型を持っている可能性が最も高いかを特定する必要がある。

可能な実施形態では、患者サンプルのゲノムシーケンスにおける反復パターンバリアントを検出および特徴付けるための洗練されたバリアント呼び出し方法２４４およびゲノムデータアナライザ１２０は、サンプルのプールのクロス分析から、最大数のサンプルｉ、ｊ、…が関連付けられているホモ接合性の最適なバリアントモデルグループ［Ｖ_Ｇ｜Ｖ_Ｇ］を野生型として選択することによって、患者サンプルのプール内で野生型参照に対応する１つまたは複数のサンプルのサブセットを識別することを含んでよい。

より一般的には、患者サンプルのゲノムシーケンスにおける少なくとも２つのヌクレオチドの反復パターンとしてホモポリマーバリアントを検出および報告する２５０ための洗練されたバリアント呼び出し方法２４４およびゲノムデータアナライザ１２０は、追加の仮説が満たされている、ホモ接合性の最適なバリアントモデル［Ｖ_Ｇ｜Ｖ_Ｇ］を野生型として選択することにより、患者サンプルのプール内で野生型参照に対応する１つまたは複数のサンプルのサブセットを識別することを含んでよい。

例えば、グループＧが野生型参照に関連付けられており、Ｖ_Ｇ＝－１である場合、洗練されたバリアント呼び出し方法２４４およびゲノムデータアナライザ１２０は、例えば、シーケンシングエラーのために最初はより短く測定された可能性がある、次世代シーケンシングリードでグループＧ［－１｜－１］についての実際に測定されたホモポリマー長の最適モデルに関係なく、ヒトゲノム参照（相対的な長さ［０｜０］）に対応するものとしてグループＧのサンプル中の反復パターンバリアントを識別してよい。

図１４の例では、１つのグループ（グループ１）のみが、ホモ接合性の最適なバリアントモデルに関連付けられている。したがって、このグループは、ここでは観測バイアスなしで、野生型に一致するものとして識別されることになる（［０｜０］最適なバリアントモデル）。他のグループ２では、単一のサンプル２は、洗練されたバリアント呼び出し方法２４４によって特徴付けられ、ゲノムデータアナライザ１２０によって、ヒトゲノム参照に対するヘテロ接合性挿入を保有するものとして報告される２５０（バイアスのない野生型バリアントモデル［０｜０］に対する［０｜１］最適バリアントモデル）。

可能な実施形態では、そのホモ接合状態および／またはそれらのサイズに従って分類した後、３つ以上の野生型グループ候補が存在する場合、結果が可能な限り統計的にロバストであることを保証するために、さらなる仮説が検討されてもよい。例えば、サンプルのプールで識別されたすべてのバリアントは生物学的に可能である必要がある。したがって、可能な実施形態では、患者サンプルのゲノムシーケンス中の少なくとも２つのヌクレオチドの反復パターンとしてホモポリマーバリアントを検出するための洗練されたバリアント呼び出し方法２４４およびゲノムデータアナライザ１２０は、したがって、患者サンプルのプール内で野生型参照に対応する１つまたは複数のサンプルのサブセットを識別することをさらに含んでよく、これは、
（ｇ１）１つまたは複数のサンプルペアのグループＧについて識別された可能な各最適なバリアントモデル
について、バリアントがホモ接合性であるかどうかを識別し
、そうでなければ、サンプルのプールについての野生型参照として、最適なバリアントモデル
を排除することと、
（ｇ２）ホモ接合性の最適なバリアントモデル
の各グループＧについて、最適なバリアントモデル
のグループＧ’の互いについて、
ホモ接合性の最適なバリアントモデル
が野生型であるという仮説の下で、
が可能なバリアントであるかどうかを検証する、
例えば、
および／または
の場合、
の最適バリアントモデルでの反復パターンの長さが、もっともらしい欠失バリアントとして検出されるには十分長いことを検証する、または、
および／または
である場合、
の最適バリアントモデルでの反復パターンの長さが、もっともらしい挿入バリアントとして検出されるには十分短いことを検証する、それ以外の場合は、最適なバリアントモデル
を野生型参照として排除することと、
（ｇ３）ホモ接合性の最適なバリアントモデル
の残りの各グループについて、各グループにおける平均ホモポリマー長
と標準偏差ＳＤに基づいてエラー率を推定し、
が最も近い整数
に十分に近い場合（事前定義されたしきい値しきい値＿ｈの範囲、例えば０～０．１の範囲内）、つまりａｂｓ（
）＜しきい値＿ｈであり、かつＳＤが事前定義されたしきい値しきい値＿ｓｄ（例えば、０から０．１の範囲で選択された）を下回るのに十分小さい場合、つまり、ＳＤ＜しきい値＿ｓｄの場合、ホモ接合性の最適なバリアントモデル
を、エラー率の低い野生型参照として選択し、このグループＧに関連するすべてのサンプルｉ、ｊ、…をヒトゲノム参照反復パターンを保有するものとして報告し、それ以外の場合は、サンプル数が最も多いホモ接合性の最適バリアントモデル
のグループを野生型として選択することとによって行われる。

図１５は、提案されたバリアント呼び出し洗練方法２４４によって、プロセッサを用いて適用され得るような、上記の野生型グループ選択論理の単純化された可能なワークフローを示している。

提案されたゲノムデータアナライザ１２０は、数千の調達実験室の機能を果たすことが可能であり、複数の濃縮技術で処理され、多様な次世代シーケンシング（ＮＧＳ）プラットフォームで配列決定された数十万の臨床サンプルからのデータを処理する。提案されたゲノムデータ分析方法と組み合わせたこの豊富なデータセットを利用することにより、バイオインフォマティクスの専門家による手動のアルゴリズムの構成および微調整に匹敵する提案された自動ワークフローの感度および特異性で、堅牢で正確なバリアント呼び出し結果に到達することができる。さらに、提案された完全自動のゲノムデータアナライザ１２０システムはこれにより、調達実験室によるその特定のＮＧＳゲノム解析ワークフローの個別の設定や微調整を必要とせずに展開、テスト、検証できるため、ヨーロッパおよび世界中の何千人もの患者の個別化された精密医療へのアクセスを加速することになる。

実験データ
提案されたゲノムデータアナライザ１２０は、ソフィア・ジェネティクスデータ駆動型医療（ＤＤＭ）ゲノム解析ソフトウェアプラットフォームに適合されて、従来のＮＧＳワークフローに対して、ヒト遺伝子中のホモポリマーバリアントの改善された検出２４４および報告２５０ための補足的方法として提案された方法を実施する。

図１６）は、変異した患者サンプルと野生型サンプルの混合物を含む実験プールからのＣＨＥＫ２遺伝子上の例示的な反復ホモポリマーパターンのＮＧＳデータカバレッジを示し、図１７）は、パターン長の対応する測定分布を示している。シーケンシングワークフローでは１つの欠失のバイアスが導入されるため、野生型のＣＨＥＫ２反復パターン長は１３回ではなく１２回の反復を中心とする。実験プールには、１０回の反復を中心としたサンプルも含まれる。提案された方法のおかげで、バイアスが修正され、ゲノムデータアナライザは野生型バリアント（変異なし）ならびに修正されたバリアント（１１回の反復、つまり野生型と比較してパターンの２つの欠失）を正しく報告する。

図１８）は、変異した患者サンプルと野生型サンプルの混合物を含む実験プールからのＲＡＤ５４Ｌ遺伝子上の例示的な反復ホモポリマーパターンのＮＧＳデータカバレッジを示し、図１９）は、パターン長の対応する測定分布を示している。シーケンシングワークフローでは、２つの欠失のバイアスが導入されるため、野生型のＲＡＤ５４Ｌ反復パターン長は１４回ではなく１２回の反復を中心とする。実験プールには、１１回の反復を中心としたサンプルも含まれる。提案された方法のおかげで、バイアスが修正され、ゲノムデータアナライザは野生型バリアント（変異なし）ならびに修正されたバリアント（１２回の反復、つまり野生型と比較してパターンの１つの欠失）を正しく報告する。

図２０）は、変異した患者サンプルと野生型サンプルの混合物を含む実験プールからのＡＴＭ遺伝子上の例示的な反復ホモポリマーパターンのＮＧＳデータカバレッジの図を示し、図２１）は、パターン長の対応する測定分布を示している。シーケンシングワークフローでは、１つの欠失のバイアスが導入されるため、野生型のＡＴＭ反復パターン長は１９回ではなく１５回の反復を中心とする。実験プールには、１３回の反復を中心としたサンプルも含まれる。提案された方法のおかげで、バイアスが修正され、ゲノムデータアナライザは野生型バリアント（変異なし）ならびに修正されたバリアント（１７回の反復、つまり野生型と比較してパターンの２つの欠失）を正しく報告する。

図２２）は、異なる変異を有する患者サンプルの混合物を含む実験プールからのＣＦＴＲ遺伝子上の例示的な反復ヘテロポリマーパターンのＮＧＳデータカバレッジの図を示し、図２３）は、パターン長の対応する測定された分布を示している。野生型のＣＦＴＲＴＧ反復パターン長は、ヒトゲノムの参照長と同じ１１回の反復を中心としているが、シーケンシングワークフローは、シーケンスの約３０％に１つの欠失のバイアスを導入しており、これは、ヘテロ接合性欠失と同様である。実験プールには、各対立遺伝子が１０～１２回の反復を中心とするサンプルのすべての組み合わせも含まれる。提案された方法のおかげで、バイアスが修正され、ゲノムデータアナライザは野生型バリアント（変異なし）ならびにバリアントのすべての組み合わせを正しく報告する。

したがって、提案されたバイオインフォマティクス法を用いて変異パネルに基づくＮＧＳアッセイを最適化することにより、ゲノム解析にとって大幅に低いコストで、サンガーシーケンシングの標準的な方法に匹敵する改善された感度と特異性を提供することが可能である。提案された方法はまた、次世代シーケンシングプラットフォームによって導入される実験的バイアスに関係なく、これらの変異を検出する際の従来技術のＮＧＳワークフローの性能も改善する。現在の用途には、様々な遺伝性疾患および癌などの体細胞疾患の診断、新生児および保因者のスクリーニングが含まれる。

他の実施形態および用途
様々な実施形態が上で説明されてきたが、それらは例示として提示されたものであり、限定ではないことを理解されたい。関連技術の当業者には、精神および範囲から逸脱することなく、形態および詳細の様々な変更を行うことができることが明らかであろう。実際、上記の説明を読んだ後、関連技術の当業者には、代替の実施形態をどのように実施するかが明らかになるであろう。

特に、ゲノミクスおよび個別化医療の当業者に明らかであるように、提案された方法は、本開示全体を通して特定の例に記載されるような短いヌクレオチド反復（ホモポリマーまたはヘテロポリマー）遺伝子構築物の特性に限定されない。ＣＨＥＫ２、ＲＡＤ５４Ｌ、ＡＴＭ、ＢＲＣＡ、およびＣＦＴＲ遺伝子の分析の例が本明細書に記載されているが、医療ゲノミクスの実践の他の分野では、特定の遺伝子領域のゲノム解析を特定の病状に関連付ける研究はいまだ進行中である。したがって、これらの例示的な遺伝子以外のゲノム領域が反復パターンによって特徴付けられ、将来の医学研究活動によって異なる診断に関連付けられるのであれば、提案された洗練されたバリアント呼び出し方法２４４は、したがってそのような領域においてバリアント検出を改善するために適用されてもよい。これは、例えば、ゲノム編集された動物モデルの最近の開発が複数の変異の研究を加速している神経疾患の分野の場合である可能性があるが、例えばハンチントンおよび運動失調症におけるＣＡＧポリグルタミン（ｐｏｌｙＱ）反復バリアントなど、特定のヘテロポリマー反復トと特定の疾患との間には既に既知の関連がある。

デジタルデータ通信の当業者に明らかであるように、本明細書に記載の方法は、データファイルまたはデータストリームなどの様々なデータ構造に無差別に適用されてよい。したがって、「データ」、「データ構造」、「データフィールド」、「ファイル」、または「ストリーム」という用語は、本明細書全体を通して無差別に使用されてよい。

当業者には明らかであるように、本明細書に記載の方法は、確率表現および統計的測定などの様々な統計的方法に無差別に適用されてよい。したがって、「分布」、「可能性」、「確率」という用語は、本明細書全体を通して無差別に使用されてよい。

上記の詳細な説明は多くの特定の詳細を含むが、これらは実施形態の範囲を限定するものとして解釈されるべきではなく、単にいくつかの実施形態の一部の例示を提供するものとして解釈されるべきである。

様々な実施形態が上で説明されてきたが、それらは例示として提示されたものであり、限定ではないことを理解されたい。関連技術の当業者には、精神および範囲から逸脱することなく、形態および詳細の様々な変更を行うことができることが明らかであろう。実際、上記の説明を読んだ後、関連技術の当業者には、代替の実施形態をどのように実施するかが明らかになるであろう。

さらに、機能性および利点を強調する図は、例示のみを目的として提示されていることを理解されたい。開示された方法は、示されている以外の方法で利用され得るように、十分に順応性があり、そのように構成することが可能である。

「少なくとも１つ」という用語は、明細書、特許請求の範囲、および図面でしばしば使用され得るが、「１つの（ａ）」、「１つの（ａｎ）」、「その（ｔｈｅ）」、「前記（ｓａｉｄ）」などの用語もまた、明細書、特許請求の範囲、および図面において「少なくとも１つ」または「その少なくとも１つ」を表す。

この明細書全体を通して、複数の例は、単一の例として記述された構成要素、操作、または構造を実装してよい。１つまたは複数の方法の個々の操作は、別個の操作として図示され説明されているが、１つまたは複数の個々の操作は同時に実行されてもよく、例示される順序で操作を実行する必要はない。例示的な構成において別個の構成要素として提示される構造および機能は、組み合わされた構造または構成要素として実施されてもよい。同様に、単一の構成要素として提示される構造および機能は、別個の構成要素として実装されてもよい。これらの、および他の変形形態、修正形態、追加、および改良は、本明細書の主題の範囲内にある。

特定の実施形態は、論理またはいくつかのコンポーネント、モジュール、ユニット、またはメカニズムを含むものとして本明細書に記載されている。モジュールまたはユニットは、ソフトウェアモジュール（例えば、機械可読媒体または送信信号で具体化されたコード）またはハードウェアモジュールのいずれかを構成してよい。「ハードウェアモジュール」は、特定の操作を実行できる有形のユニットであり、特定の物理的な方法で構成または配置されてよい。様々な例示的な実施形態では、１つまたは複数のコンピュータシステム（例えば、スタンドアロンコンピュータシステム、クライアントコンピュータシステム、またはサーバコンピュータシステム）あるいはコンピュータシステムの１つまたは複数のハードウェアモジュール（例えば、プロセッサまたはプロセッサのグループ）は、本明細書に記載される特定の操作を実行するように動作するハードウェアモジュールとして、ソフトウェア（例えば、アプリケーションまたはアプリケーション部分）によって構成されてよい。

いくつかの実施形態では、ハードウェアモジュールは、機械的に、電子的に、またはそれらの任意の適切な組み合わせで実装されてよい。例えば、ハードウェアモジュールには、特定の操作を実行するように永続的に構成された専用の回路またはロジックが含まれてもよい。例えば、ハードウェアモジュールは、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）やＡＳＩＣなどの専用プロセッサである場合がある。ハードウェアモジュールはまた、特定の操作を実行するためにソフトウェアによって一時的に構成されるプログラマブルロジックまたは回路を含む場合もある。例えば、ハードウェアモジュールは、汎用プロセッサまたは他のプログラム可能なプロセッサ内に含まれるソフトウェアを含んでもよい。ハードウェアモジュールを機械的に、専用の恒久的に構成された回路に、または一時的に構成された回路（例えば、ソフトウェアによって構成された）に実装する決定は、コストおよび時間の考慮によって決められてよいことが理解されよう。

本明細書に記載の例示的な方法の様々な動作は、関連する動作を実行するように一時的に（例えば、ソフトウェアによって）または恒久的に構成された１つまたは複数のプロセッサによって、少なくとも部分的に実行されてよい。一時的または恒久的に構成されているかどうかにかかわらず、そのようなプロセッサは、本明細書に記載の１つまたは複数の操作または機能を実行するように動作するプロセッサ実装モジュールを構成してよい。本明細書で使用される場合、「プロセッサ実装モジュール」は、１つまたは複数のプロセッサを使用して実装されたハードウェアモジュールを指す。

同様に、本明細書に記載の方法は、少なくとも部分的にプロセッサで実装されてよく、プロセッサはハードウェアの一例である。例えば、方法の動作の少なくともいくつかは、１つまたは複数のプロセッサまたはプロセッサ実装モジュールによって実行されてよい。

本明細書で論じられる主題のいくつかの部分は、機械メモリ（例えば、コンピュータメモリ）内にビットまたはバイナリデジタル信号として格納されたデータに対する操作のアルゴリズムまたは記号表現に関して提示されてよい。そのようなアルゴリズムまたは記号表現は、データ処理技術の当業者が彼らの仕事の実体を当業者に伝えるために使用する技術の例である。本明細書で使用される場合、「アルゴリズム」は、所望の結果につながる、首尾一貫した一連の操作または同様の処理である。この文脈において、アルゴリズムと操作には、物理量の物理操作が含まれる。

本発明の主題の概要は、特定の例示的な実施形態を参照して説明されてきたが、本発明の実施形態のより広い精神および範囲から逸脱することなく、これらの実施形態に対して様々な修正および変更を行うことができる。例えば、様々な実施形態またはその特徴は、当業者によって組み合わされる、適合される、または任意選択にされてもよい。本発明の主題のそのような実施形態は、単に便宜のために、そして本出願の範囲を、複数のものが実際に開示されている場合、任意の単一の発明または発明の概念に自発的に限定することを意図することなく、「発明」という用語によって、個別にまたは集合的に本明細書において言及されてよい。

本明細書に示される実施形態は、当業者が、開示された教示を実践することを可能にするのに十分詳細に説明されると考えられている。本開示の範囲から逸脱することなく、構造的および論理的置換および変更を行うことができるように、他の実施形態が使用され、そこから導き出すことができる。したがって、詳細な説明は限定的な意味で解釈されるべきではなく、様々な実施形態の範囲は、そのような請求項が権利を与えられる等価物の全範囲とともに、添付の特許請求の範囲によってのみ定義される。

さらに、本明細書で単一の例として説明されるリソース、操作、または構造のために、複数の例が提供されてもよい。さらに、様々なリソース、操作、モジュール、エンジン、およびデータストア間の境界はやや恣意的であり、特定の操作は特定の例示的な構成の文脈で示されている。機能の他の割り当てが想定され、本発明の様々な実施形態の範囲内に含まれてよい。一般に、例示的な構成において別個のリソースとして提示される構造および機能は、組み合わされた構造またはリソースとして実装されてもよい。同様に、単一のリソースとして提示される構造および機能は、個別のリソースとして実装されてもよい。これらおよび他の変形形態、修正形態、追加、および改良は、添付の特許請求の範囲によって表される本発明の実施形態の範囲内にある。したがって、明細書および図面は、限定的な意味ではなく例示的な意味で見なされるべきである。

最後に、「～のための手段」または「～のステップ」という表現言語を含む請求項のみが米国特許法第１１２条のパラグラフ６に基づいて解釈されることが出願人の意図である。「手段」または「ステップ」という句を明示的に含まない請求項は、米国特許法第１１２条のパラグラフ６に基づいて解釈されるべきではない。

Claims

プロセッサを用いて、患者サンプルのゲノムシーケンスにおける少なくとも２つのヌクレオチドパターンの反復としてのバリアントを検出および報告するための方法であって、
（ａ）参照反復パターンＰ_ｒｅｆ＝Ｎ＊ｌを、ヒトゲノム参照シーケンスのゲノム領域におけるｌ（ｌ＞＝２）ゲノムパターンＮの前記反復として識別することと、
（ｂ）次世代シーケンサを使用して、ｎ個の濃縮されたゲノム患者サンプルのプールから参照反復パターンゲノム領域をカバーする次世代シーケンシングデータリードのｎ個の患者セットＳ＝｛Ｓ_１、Ｓ_２、．．．、Ｓ_ｉ、．．．、Ｓ_ｎ｝を取得することであって、各セットＳ_ｉは患者サンプルに関連付けられており、濃縮されたゲノム患者サンプルの数ｎは少なくとも４であることと、
（ｃ）患者サンプルの前記セットＳ内の各患者サンプルｉについて、次世代シーケンシングリードのセットＳ_ｉ内の反復パターンの長さの分布Ｐ_ｉを測定することと、
（ｄ）患者サンプルｉとｊの可能なペアについて、ｊ＞ｉであり、信頼水準Ｌ_ｉｊで、サンプルｊに対するサンプルｉの２つの対立遺伝子バリアントの最適モデル
、すなわち、サンプルｊに対するサンプルｉの２つの対立遺伝子バリアントの相対的反復パターン長を推定することと、
（ｅ）患者サンプルｉ、ｊ＞ｉ、ｋ＞ｊの可能なトリプレットごとに、そのそれぞれの最適モデル
、
、
を比較し、一致する最適モデルを増加させた信頼水準で最適バリアントモデルのグループにグループ化し、そして最適バリアントモデルの安定したグループが形成されるまで前記比較を繰り返すことと、
（ｆ）野生型バリアントを保有する可能性が最も高いグループを識別することと、
（ｇ）前記野生型バリアントを保有する前記グループ内の各サンプルについて、サンプルバリアントを野生型参照反復パターンＰ_ｒｅｆ＝Ｎ＊ｌとして報告することと、
（ｈ）前記野生型バリアントを保有する前記グループからの各サンプルについて、前記識別された野生型グループの前記最適バリアントモデルの関数として、このサンプルを含む前記グループの前記最適バリアントモデルのバイアスを解除し、バイアスのない最適モデルバリアントとして前記サンプルバリアントを報告することと、
を含む方法。
サンプルｊに対するサンプルｉの前記２つの対立遺伝子バリアントの最適モデル
を推定することは、
（ｄ１）サンプルｊについて、サンプルｉが、各対立遺伝子について野生型ヒトゲノム参照ホモポリマーパターンＰ_ｒｅｆ＝Ｎ＊ｌを保有するという仮定の下で、信頼水準Ｌ_ｊ｜ｉでのサンプルｊの前記２つの対立遺伝子バリアントの最適モデル
、ならびにサンプルｊの前記測定された分布Ｐ_ｊと前記最適バリアントモデル
の予測された単峰性または二峰性分布との間の最小距離Ｄ_ｊ｜ｉを推定することと、
（ｄ２）サンプルｉについて、サンプルｊが各対立遺伝子について前記野生型ヒトゲノム参照ホモポリマーパターンＰ_ｒｅｆ＝Ｎ＊ｌを保有するという仮定の下で、信頼水準Ｌ_ｊ｜ｉでのサンプルｉの前記２つの対立遺伝子バリアントの最適モデル
、ならびにサンプルｉの前記測定された分布Ｐ_ｉと前記最適バリアントモデル
の前記予測された単峰性または二峰性分布との間の最小距離Ｄ_ｉ｜ｊを推定することと、
（ｄ３）Ｄ_ｉ｜ｊ≧Ｄ_ｊ｜ｉの場合、サンプルの前記ペア（ｉ、ｊ）について、前記２つの対立遺伝子バリアントの前記最適バリアントモデルとして最適モデル
を選択し、サンプルｉをペア（ｉ、ｊ）の参照サンプルとして、この最適な一致の信頼水準値として前記信頼水準Ｌ_ｉｊ＝Ｌ_ｊ｜ｉを選択することと、
（ｄ４）それ以外のＤ_ｉ｜ｊ＜Ｄ_ｊ｜ｉである場合、サンプルの前記ペア（ｉ、ｊ）について、前記２つの対立遺伝子バリアントの前記最適バリアントモデルとしてモデル
を選択し、サンプルｊを前記ペア（ｉ、ｊ）の参照サンプルとして、この最適な一致についての前記信頼水準値として前記信頼水準Ｌ_ｉｊ＝Ｌ_ｉ｜ｊを選択することと、
を含む請求項１に記載の方法。
前記サンプルｉが、各対立遺伝子の前記野生型ヒトゲノム参照ホモポリマーパターンＰ_ｒｅｆ＝Ｎ＊ｌを保有しているという仮定の下の、サンプルｊの前記２つの対立遺伝子バリアントの二次最適バリアントモデル
、ならびにサンプルｊの前記測定された分布Ｐ_ｊと前記二次最適バリアントモデル
の前記予測された単峰性または二峰性分布との間の二番目に短い距離Ｄ_ｉ｜ｊ’を推定することと、
サンプルｊが、各対立遺伝子の前記野生型ヒトゲノム参照ホモポリマーパターンＰ_ｒｅｆ＝Ｎ＊ｌを保有しているという仮定の下の、サンプルｉの前記２つの対立遺伝子バリアントの二次最適バリアントモデル
、ならびにサンプルｉの前記測定された分布Ｐ_ｉと前記二次最適バリアントモデル
の前記予測された単峰性または二峰性分布との間の二番目に短い距離Ｄ_ｉ｜ｊ’を推定することと、
推定
の前記信頼水準Ｌ _ｉｊを
として計算することと、
をさらに含む請求項２に記載の方法。
サンプルの各グループＧ_ｒ（１≦ｒ≦ｑ）内ですべての最適モデルが互いに一致するように、
の値に基づいて、
ｑ個の異なるサンプルのグループ（１≦ｑ≦ｎ－１）に一緒にグループ化することと、
このグループの全体の信頼水準をＬ_{ｉｊ．Ｇｒ}＝１－Π_ｋεＧｒ（１－Ｌ_ｉｊ．ｋ）として計算することと、
をさらに含む請求項１、２、または３の方法。
異なるタイプのヘテロ接合性変異に対応する前記最適モデル
が、一致する最適モデルの前記グループ化から除外される、請求項４に記載の方法。
信頼水準Ｌ_{ｉｊ．Ｇｈ}が最も高いグループＧ _ｈを選択することと、
このグループにおけるすべてのサンプルの最適モデル
を設定することと、
ペアｉ、ｊの新たな信頼水準をＬ_{ｉｊ．ｎｅｗ}＝ｍａｘ（０、１－（１－Ｌ_{ｉｊ．Ｇｈ}）＊Π_{１≦ｒ≦ｑ、ｒ≠ｈ}（１－Ｌ_{ｉｊ．Ｇｒ}）^－１として計算することと、
を含む請求項４または５に記載の方法。
前記最適モデルが安定するまでサンプルのグループを一緒にグループ化することをさらに含む、請求項４から６のいずれかに記載の方法。
患者サンプルｉ、ｊ＞ｉ、ｋ＞ｊの可能な各トリプレットごとに、それぞれの最適モデル
、
、
を比較し、そして、患者サンプルの前記トリプレットの３つの最適モデルすべてが互いに一致する場合、その信頼水準Ｌ_ｉｊ、Ｌ_ｊｋ、Ｌ_ｉｋを増加させ、それ以外の場合、前記３つの最適モデルは互いに一致せず、前記サブセットの中で最も信頼水準が低い前記最適モデルを、前記サブセットの他の２つのサンプルから計算された最適モデルに置き換え、患者サンプルの前記トリプレットのすべての前記最適モデルの前記信頼水準Ｌ_ｉｊ、Ｌ_ｊｋ、Ｌ_ｉｋを低下させ、前記最適モデルが変化しなくなるまで、考えられるすべてのトリプレットの前記比較を繰り返すことを含む、請求項１から７のいずれかに記載の方法。
一致する最適モデルのトリプレットサブセットｉ、ｊ、ｋの各ペアの前記信頼水準が、Ｌ_ｉｊ’＝１－（１－Ｌ_ｉｊ）（１－Ｌ_ｊｋ＊Ｌ_ｉｋ）、Ｌ_ｊｋ’＝１－（１－Ｌ_ｊｋ）（１－Ｌ_ｉｊ＊Ｌ_ｉｋ）およびＬ_ｉｋ’＝１－（１－Ｌ_ｉｋ）（１－Ｌ_ｉｊ＊Ｌ_ｊｋ）として増加される、請求項８に記載の方法。
最も低い初期信頼水準Ｌ_ｉｋが、前記トリプレット内のペアｊ、ｋについてＬ_ｉｋであり、一致しない最適モデルのトリプレットサブセットｉ、ｊ、ｋの各ペアの前記信頼水準は、Ｌ_ｉｊ’＝Ｌｉｊ－（１－Ｌ_ｊｋ）＊Ｌ_ｉｋ、Ｌｊ_ｋ’＝Ｌ_ｊｋ－（１－Ｌ_ｉｊ）＊Ｌ_ｉｋおよびＬｉｋ’＝ｍａｘ（０、Ｌｉｊ＊Ｌ_ｊｋ－Ｌ_ｉｋ）のように低下され、そして、前記サブセットからの最も低い信頼水準でのペアｊ、ｋの前記最適モデルは、
によって置き換えられる、請求項８または９に記載の方法。
患者サンプルの前記プール内の野生型参照に対応する１つまたは複数のサンプルの前記サブセットを識別することは、サンプルの前記プールのクロス分析から、最大数のサンプルｉ、ｊ、…が関連付けられているホモ接合性の最適バリアントモデルグループ［Ｖ_Ｇ｜Ｖ_Ｇ］を野生型として選択することで構成される、請求項１０に記載の方法。
患者サンプルの前記プール内の野生型参照に対応する１つまたは複数のサンプルの前記サブセットを識別することは、ホモ接合性の最適バリアントモデル
の各グループＧについて、前記ホモ接合性の最適バリアントモデル
が野生型であるという仮説の下で、
が、最適バリアントモデル
のグループＧの互いに可能なバリアントであるかどうかを検証し、またそうでない場合は、グループＧを野生型パターンを保有するものとして除外することを含む、請求項１０または１１に記載の方法。
および／または
である場合、前記
の最適バリアントモデルでの前記反復パターンの前記長さは、もっともらしい欠失バリアントとして検出されるのに十分に長いことを検証することを含む、請求項１２に記載の方法。
および／または
である場合、前記
の最適バリアントモデルでの前記反復パターンの前記長さは、もっともらしい挿入バリアントとして検出されるのに十分に短いことを検証することを含む、請求項１２または１３に記載の方法。
ホモ接合性の最適バリアントモデル
のもっともらしい各グループについての平均ホモポリマー長
と標準偏差ＳＤに基づいてエラー率を推定し、
が、最も近い整数
に対する事前定義されたしきい値しきい値＿ｈの範囲内である場合、つまりａｂｓ（
）＜しきい値＿ｈである場合、かつＳＤが事前定義されたしきい値しきい値＿ｓｄを下回るのに十分小さい場合、つまり、ＳＤ＜しきい値＿ｓｄの場合、前記ホモ接合性の最適バリアントモデル
を、エラー率の最も低い野生型参照として選択することをさらに含む、請求項１０、１２、１３または１４に記載の方法。
しきい値＿ｈは、０から０．１の範囲で選択される、請求項１５に記載の方法。
しきい値＿ｓｄは、０から０．１の範囲で選択される、請求項１５または１６に記載の方法。