JP7052955B2

JP7052955B2 - 配列決定データリード再整列の方法、コンピュータシステム及びコンピュータプログラム製品

Info

Publication number: JP7052955B2
Application number: JP2019524960A
Authority: JP
Inventors: グウェンベリー，; ハン－ユーチャン，; ジェシカゴードン，; シァオチェン，; ステファンタナー，
Original assignee: イルミナインコーポレイテッド
Priority date: 2016-11-16
Filing date: 2017-11-15
Publication date: 2022-04-12
Anticipated expiration: 2037-11-15
Also published as: EP4300501A3; BR112019009830A2; EP3542293B1; CN110168647A; KR20190082854A; WO2018093804A1; SG10202104266VA; AU2023266266A1; AU2017361069B2; US20190287647A1; CA3043875A1; JP2020506447A; AU2017361069A1; EP3542293A1; KR102425673B1; CN117457074A; EP4300501A2; CN110168647B

Description

背景

[01]次世代配列決定データ解析の現在継続する課題は、挿入及び欠失（「インデル」）の正確な呼び出しである。この困難の理由としては、より低い発生率、ゲノム内における正しい部位へのマッピングの難しさ、及び一意のマッピングを妨げるゲノム内の繰り返し領域の存在が挙げられる。別の理由は、現在のアライナは、配列決定（sequencing、シーケンシング）リードの最後における変異を正しく識別することが不可能なこと、又はそれが不正確なことである。これは、変異呼び出しを配置するべき両側コンテキストの欠如のために生じる。

概要

[02]コンピュータ実施方法、コンピュータシステム、及びコンピュータプログラム製品の提供を通じて従来技術の欠点が克服され、さらなる利点が提供される。

[03]一実施形態によれば、配列決定データリード再整列のためのコンピュータ実施方法は、配列アライメントデータセットから、リファレンス配列に対するリード配列の初期アライメントを得るステップであって、初期アライメントが、整列されたリードを含む、ステップと、初期アライメントに対して再整列処理を遂行するステップであって、再整列処理がリード配列をリファレンス配列に対して再整列（realign、リアライン）し、１つ又は複数の候補リアライメントを生成し、再整列処理が、１つ又は複数の候補インデルを識別することであって、１つ又は複数の候補インデルが、整列されたリード内の０個以上のインデル、及び配列アライメントデータセットによって指示されるとおりの整列されたリードの近位において整列された０個以上のインデルを含む、識別すること、整列されたリードから、初期アライメントによって指示されるあらゆるインデルを除去することに少なくとも基づいて、平坦化された整列されたリードを作成すること、並びに１つ又は複数の候補リアライメントの候補リアライメントごとに、１つ又は複数の候補インデルのうちのそれぞれの少なくとも１つの候補インデルを、平坦化された整列されたリードに導入することに基づいて、リファレンス配列に対するリード配列の１つ又は複数の候補リアライメントを決定すること、を含む、ステップと、１つ又は複数の選択基準に基づいて、初期アライメント、又は１つ又は複数の候補リアライメントのうちの選択された候補リアライメントを提供するステップと、を含む。

[04]１つ又は複数の候補インデルは複数の候補インデルを含むことができ、１つ又は複数の候補リアライメントを決定することは、複数の候補インデルを平坦化された整列されたリードに反復的に導入することを開始することを含むことができ、反復的導入の各反復は、候補リアライメントのためのそれぞれの少なくとも１つの候補インデルを平坦化された整列されたリードに導入することによって、１つ又は複数の候補リアライメントの候補リアライメントを提供する。

[05]反復的導入は、複数の候補インデルのうちの１つ又は複数の候補インデルの順列を平坦化された整列されたリードに導入し、複数の順列のうちの順列ごとに、１つ又は複数の候補アライメントの異なる候補リアライメントを得ることができる。

[06]再整列処理は、１つ又は複数の候補リアライメントのうちの提供された候補リアライメントを検査し、導入されたそれぞれの１つ又は複数の候補インデルを有する提供された候補リアライメントの及び整列されたリードが、提供された候補リアライメントの整列されたリードとリファレンス配列との間で一致しない塩基を有することなく、リファレンス配列と整列（align、アライン）するかどうかを判定すること、提供された候補リアライメントの整列されたリードが、一致しない塩基を有することなく、リファレンス配列と整列すると判定したことに基づいて、反復的導入を停止すること、並びに提供された候補リアライメントを、選択された候補リアライメントとして選択することであって、提供することが、リファレンス配列と整列する提供された候補リアライメントの整列されたリードに基づいて、選択された候補リアライメントを出力する、選択すること、をさらに含むことができる。

[07]再整列処理は、複数のインデルを反復的導入のために優先順位付けすることをさらに含むことができ、反復的導入は、複数のインデルを、優先順位付けに基づく優先順位に従って導入する。

[08]優先順位付けは、リファレンスインデルデータセットによって既存の既知のインデルであると指示されたインデルを、リファレンスインデルデータセットによって既存の既知のインデルであると指示されないインデルよりも優先することができる。加えて、又は代替的に、優先順位付けは、より長い長さのインデルをより短い長さのインデルよりも優先することができる。加えて、又は代替的に、優先順位付けは、配列アライメントデータセットのより多数の整列されたリードにおいて指示されるインデルを、配列アライメントデータセットのより少数の整列されたリードにおいて指示されるインデルよりも優先することができる。加えて、又は代替的に、優先順位付けは、リファレンス配列に対するインデルの部位に対応する配列アライメントデータセットのより大きい比率の整列されたリードにおいて指示されるインデルを、配列アライメントデータセットのより小さい比率の整列されたリードにおいて指示されるインデルよりも優先することができる。加えて、又は代替的に、優先順位付けは、配列アライメントデータセットの同数の整列されたリードにおいて指示される異なるインデルの間で、配列アライメントデータセットによって指示されるリファレンスゲノム配列に対する部位が、別のインデルのために指示される、リファレンスゲノム配列に対する部位より上流にあるインデルを優先することができる。

[09]選択基準は、一致しない塩基の数、インデルの数、配列アライメントデータセットによって指示されるリファレンスゲノム配列に対するインデルの部位、及びソフトクリップされた塩基の数のうちの１つ又は複数に少なくとも一部基づき得る。

[010]選択基準は、インデルを有せず、一致しない単一の塩基のみを有するアライメントを、１つ又は複数のインデルを有するアライメントよりも提供のために優先すること、一致しないより少数の塩基を有するアライメントを、一致しないより多数の塩基を有するアライメントよりも提供のために優先すること、一致しない同数の塩基を有する異なるアライメントの間で、指定された種類のより少数のソフトクリップを有するアライメントを、指定された種類のより多数のソフトクリップを有するアライメントよりも提供のために優先すること、並びに一致しない同数の塩基を有する異なるアライメントの間で、より少数のインデルを有するアライメントを、より多数のインデルを有するアライメントよりも提供のために優先すること、のうちの１つ又は複数とすることができる。

[011]再整列処理は、１つ又は複数の選択基準のうちの第１の基準に基づいて１つ又は複数の候補リアライメントのうちの最良の候補リアライメントを選択することをさらに含むことができ、選択された候補リアライメントは、選択された最良の候補リアライメントであり、出力することは、１つ又は複数の選択基準のうちの第２の基準に基づいて初期アライメントと最良のリアライメント候補との間で選択する。

[012]コンピュータ実施方法の一実施形態は、得られた初期アライメントが再整列に適格であるかどうかを判定するステップをさらに含むことができ、判定は、初期アライメントの整列されたリードとリファレンス配列との間で一致しない１つ又は複数の塩基が存在するかどうかを識別すること、整列されたリードがソフトクリップを含むかどうかを識別すること、初期アライメントが二次アライメントではないかどうかを識別すること、及び配列アライメントデータセットのリファレンスゲノム配列の塩基の領域内において、整列されたリードの周りに候補インデルが存在するかどうかを識別すること、のうちの１つ又は複数に少なくとも一部基づく。

[013]コンピュータ実施方法の一実施形態は、得られた初期アライメントが再整列に適格であるかどうかを判定し、再整列処理と、得られた初期アライメントが再整列に適格であると判定したことに基づいて、初期アライメント又は選択された候補リアライメントを提供することとを遂行するステップと、配列アライメントデータセットの１つ又は複数の追加の初期アライメントのうちの追加の初期アライメントごとに、得ること、及び得られた追加の初期アライメントが再整列に適格であるかどうかを判定することを繰り返すステップと、１つ又は複数の追加の初期アライメントのうちの追加の初期アライメントごとに処理を遂行するステップであって、処理を遂行するステップが、（ｉ）再整列処理を遂行せず、追加の初期アライメントをそのまま提供すること、又は（ｉｉ）再整列処理と、追加の初期アライメント若しくは選択された候補リアライメントを提供することとを遂行することを含む、ステップと、をさらに含むことができる。

[014]さらに、メモリと少なくとも１つのプロセッサとを備える、配列決定データリード再整列のためのコンピュータシステムを、本明細書に記載されている諸態様に係る方法を遂行するためのプログラム命令を実行するように構成することができる。

[015]なおさらに、実行のためのプログラム命令を記憶する有形記憶媒体を含む、配列決定データリード再整列のためのコンピュータプログラム製品は、本明細書に記載されている諸態様に係る方法を遂行することができる。

[016]さらなる特徴及び利点が、本明細書に記載されているコンセプトを通じて実現される。数多くの本発明の態様及び特徴が本明細書において開示され、矛盾のない限り、各々の開示された態様又は特徴は、特定の用途によって所望されるとおり、例えば、画像障害物を検出することを容易にするために、任意の他の開示された態様又は特徴と組み合わせることができる。

[017]本明細書に記載される諸態様は、本明細書の最後の請求項において例として具体的に指摘され、明確にクレームされる。本発明の上述の、及び他の目的、特徴、及び利点は、添付の図面と併せて以下の詳細な説明から明らかである。

[18]図１Ａは、リードの最後の方で変化する塩基を説明するために、両側コンテキストをどのように用いることができるのかを示す図である。 [18]図１Ｂは、リードの最後の方で変化する塩基を説明するために、両側コンテキストをどのように用いることができるのかを示す図である。 [18]図１Ｃは、リードの最後の方で変化する塩基を説明するために、両側コンテキストをどのように用いることができるのかを示す図である。 [18]図１Ｄは、リードの最後の方で変化する塩基を説明するために、両側コンテキストをどのように用いることができるのかを示す図である。

[19]図２は、本明細書に記載されている諸態様に係る、処理のためのリードの承認（ｃｌｅａｒｉｎｇ）を示す図である。

[20]図３は、本明細書に記載されている諸態様に係る、初期アライメントを処理するための例示的な方法を示す図である。

[21]図４Ａは、本明細書に記載されている諸態様に係る、ソフトクリップ、挿入、及び欠失を包含するリードのための例示的な位置マップを示す図である。 [21]図４Ｂは、本明細書に記載されている諸態様に係る、ソフトクリップ、挿入、及び欠失を包含するリードのための例示的な位置マップを示す図である。

[22]図５Ａは、本明細書に記載されている諸態様に係る、整列されたリードの平坦化を示す図である。 [22]図５Ｂは、本明細書に記載されている諸態様に係る、整列されたリードの平坦化を示す図である。 [22]図５Ｃは、本明細書に記載されている諸態様に係る、整列されたリードの平坦化を示す図である。

[23]図６Ａは、本明細書に記載されている諸態様に係る、平坦化された整列されたリードへの候補インデル（単数又は複数）の導入を示す図である。 [23]図６Ｂは、本明細書に記載されている諸態様に係る、平坦化された整列されたリードへの候補インデル（単数又は複数）の導入を示す図である。 [23]図６Ｃは、本明細書に記載されている諸態様に係る、平坦化された整列されたリードへの候補インデル（単数又は複数）の導入を示す図である。 [23]図６Ｄは、本明細書に記載されている諸態様に係る、平坦化された整列されたリードへの候補インデル（単数又は複数）の導入を示す図である。

[24]図７は、本明細書に記載されている諸態様に係る、リード再整列処理の一例を示す図である。

[25]図８は、本明細書に記載されている諸態様に係る、最良の候補リアライメントを選択するための例示的なプロセスを示す図である。

[26]図９は、本明細書に記載されている諸態様に係る、例示的な、標的に対する再整列の処理を示す図である。

[27]図１０Ａは、本明細書に記載されている諸態様に係る、左側及び右側固定再整列の結果のための例示的なプロセスを示す図である。 [27]図１０Ｂは、本明細書に記載されている諸態様に係る、左側及び右側固定再整列の結果のための例示的なプロセスを示す図である。

[28]図１１は、本明細書に記載されている諸態様に係る、インデルを追加し、結果として生じるリアライメントを得るための例示的なプロセスを示す図である。

[29]図１２は、本明細書に記載されている諸態様に係るシミュレーション解析において用いた変異長の分布を示す図である。

[30]図１３は、本明細書に記載されている諸態様に係る真性変異評価の可能な結果を示す図である。

[31]図１４は、再整列されていない、ＧＡＴＫにより再整列された、又は本明細書において開示されるとおりの再整列方法の諸態様に従って再整列された既存物（ｐｒｉｏｒ）を用いてアイザック（ｉＳＡＡＣ）によって生成されたシミュレーションＢＡＭについての真陽性率及び偽陽性率を示す図である。

[32]図１５は、再整列されていない、ＧＡＴＫにより再整列された、又は本明細書において開示されるとおりの再整列方法の諸態様に従って再整列された既存物を用いてアイザックによって生成されたシミュレーションＢＡＭについての真陽性率及び偽陽性率を示す図である。

[33]図１６は、再整列されていない、ＧＡＴＫにより再整列された、又は本明細書において開示されるとおりの再整列方法の諸態様に従って再整列されたサンプルについての、全体的な、サンプルごとの体細胞突然変異数を示す図である。

[34]図１７は、再整列されていない、ＧＡＴＫにより再整列された、又は本明細書において開示されるとおりの再整列方法の諸態様に従って再整列されたサンプルについての、突然変異型によって分類された、サンプルごとの体細胞突然変異数を示す図である。

[35]図１８は、ＧＡＴＫ、及び本明細書に記載されている諸態様に係る再整列方法の諸態様についての、１００万個のアライメント当たりの再整列時間を示す図である。

[36]図１９は、本明細書に記載されている諸態様に係る、配列整列処理のための例示的なプロセスを示す図である。

[37]図２０は、本明細書に記載されている諸態様に係る、配列決定データリード再整列処理のための例示的なプロセスを示す図である。

[38]図２１は、本明細書に記載されている諸態様に係る、初期アライメントが配列決定データリード再整列処理を受ける適格性を判定するための例示的なプロセスを示す図である。

[39]図２２は、本明細書に記載されている諸態様を組み込み、及び／又は用いるためのコンピュータシステム及び関連デバイスの一例を示す図である。

[40]図２３は、本明細書に記載されている諸態様と併せて用いられ得る配列決定デバイスの一例を示す図である。

[41]図２４は、本明細書に記載されている諸態様に係るクラウドコンピューティング環境の一実施形態を示す図である。

詳細な説明

[042]次世代配列決定技術（ｎｅｘｔｇｅｎｅｒａｔｉｏｎｓｅｑｕｅｎｃｉｎｇｔｅｃｈｎｏｌｏｇｙ、ＮＧＳ）の発達は遺伝子配列決定を変容させ、生物体のゲノムなどからの、遺伝子配列の大量の複製を生成し、これらの配列を整列し、複製された遺伝子配列のヌクレオチドの配列の推定再現を作成することを可能にした。整列された複製内のヌクレオチド塩基対の配列を識別することによって、元の配列内のヌクレオチドの配列が決定され得る。このような技術の１つの使用は、疾病の識別、理解、予防、処置、又は治療のためのものである。例えば、ＮＧＳは、個人のゲノム配列を識別し、その人が、特定の疾病に対する罹病性の根底にある、又は罹病性を与えると考えられるヌクレオチド配列を有しているかどうかを識別したり、又はそうなり得るこうした配列を識別したり、或いはこのような個人の疾患を治療するために所与の薬物治療又は他の治療が有益であり得るかどうかを判定したりするために用いられ得る。

[043]ヌクレオチドの配列をその複製の整列から導出するために処理しなければならない大量の配列情報は、多くの場合、膨大である。例えば、人間のゲノムにはおよそ３０億個の塩基対が存在する。このような大きなヌクレオチド配列を決定する能力は、高度のコンピュータ処理技術を必要とする。例えば、高スループット処理を介して、遺伝子配列の大規模なセット（例えば、全リファレンスゲノム内の何十億個ものヌクレオチド、染色体若しくは染色体群内の数千万若しくは数億個のヌクレオチド、或いは染色体又は他のゲノム配列の長い部分）のいくらか重複及び／又は隣接した部分の多くの複製を合成し、その後、それらを互いに整列し、複製された配列を再現し、そのヌクレオチドの配列を識別することは、通例、コンピュータによる大量のデータの処理を必要とする。

[044]多くの場合、誤りが生じ得、その作成されたアライメントにおけるゲノム配列の不正確な表現をもたらす。ＮＧＳ技術の重要な構成要素は、このような誤りを識別して補正する能力を含む。大きな遺伝子配列が配列決定される場合には、潜在的な誤りの数もまた、結果的に大きくなり得る。したがって、このような潜在的な誤りがどこに存在するのかを識別し、それらが誤りであるのか否か、及びそれらが誤りである場合には、多くの場合、正しい可能性のある複数の配列の間で選択することを要して、正しい配列はどうあるべきかを決定するためのコンピュータ技術が望まれる。このような潜在的な誤りが遺伝子配列の巨大な全長にわたって多数存在する可能性があるため、このような誤りの識別及び修正を、ＮＧＳにおいて利用されるコンピュータ処理の構成要素として自動的に処理することが非常に望ましい。

[045]例えば、母集団のほとんどが有する染色体内のヌクレオチドの配列は既知であり得る。次に、個人の配列が決定され、このような既知の配列と比較され得る。個人の配列と既知の配列との相違が、医学的に、系統学的に、又は他の様態で重要になり得る。しかし、誤りが存在するが、未識別である、又は個人の配列と既知の配列との相違が誤って検出されない場合など、ＮＧＳによって個人のために決定された、整列された配列内の誤り又は潜在的な誤りの存在のせいで、個人の遺伝子配列と既知の配列との相違の識別は複雑になる。本開示は、配列アライメントを生成するために用いられるＮＧＳ及び関連する情報学処理において生じ得る特定の種類の誤りの自動識別及び補正を改善するためのコンピュータ技術を含む。利点は、処理時間の短縮、並びに誤りの識別及び補正の向上を含み、以て、ＮＧＳツール及び関連技術の有用性を改善する。

[046]具体的には、本明細書に記載されている諸態様は、リファレンスゲノムに対する、インデルを包含する配列決定データリードの不適切なアライメントによって生じる、偽陽性（多くの場合、単一のヌクレオチド変異）及び偽陰性（多くの場合、インデル）の変異呼び出しの問題に対処する。本明細書に記載されているプロセスは、全て短い実行時間内で、真のインデルの既存の表現を重んじ、低頻度の「ノイズ（ｎｏｉｓｙ）」変異を拒否する方法でリードを再整列し得る。概して、１つ又は複数のリード、又はリード配列は、ＮＧＳによって配列決定される遺伝子配列内の位置に対応し得る。配列決定される配列の全ての位置に全体としてまたがる多くのリードを生成し、それらを、配列決定される配列の一方の端部に対応する位置から他方へ順に整列し、以て表現されるヌクレオチドの順序を識別することにより、完全な配列が決定され得る。配列決定される遺伝子配列内の位置に対応する各リード又はリード群が、その位置に対応すると識別されると、それらは、整列された、又は整列されたリードであると考えられてもよい。しかし、整列されたリードによって指示されるインデルを確実に正確に識別することの困難のため、アライメント内のインデルの存在を識別する、又は呼び出す際に、誤りが生じ得る。

[047]両側コンテキストの不足は、インデルの正確な呼び出しの問題を提示する。インデルを呼び出す際に、両側コンテキストは、変化がどこで開始し、終了するのかを指示する助けとなり得る。図１Ａ～図１Ｄは、リードの最後の方で変化する塩基を説明するために、両側コンテキストをどのように用いることができるのかを示す。図１Ａは、整列されたリードを生じさせる、リファレンス配列１０４（本明細書において「リファレンス」とも呼ばれる）に対するリード配列１０２（本明細書において「リード」とも呼ばれる）の初期アライメント１００を示す。実際には、「リード」及び「リファレンス」は、実は、リード配列及びリファレンス配列とも呼ばれ得るヌクレオチドのより長い配列の一部分であり得る。リファレンス配列１０４の上方に、ヌクレオチド塩基位置１～１２が記されている。本例では７つのヌクレオチドの長さである、整列されたリード１０２は、リード１０２の最初の５つの塩基についてはリファレンス１０４の一部分と一致する。すなわち、塩基位置２～６内の配列Ｔ－Ｃ－Ｇ－Ｔ－Ａは、整列されたリード１０２とリファレンス１０４との間で一致する。配列は塩基位置７から異なり、リード配列内では位置７及び８において配列Ｃ－Ｇが観測される。図１Ｂ～図１Ｃは、異なる両側コンテキスト内の変異を示すことによってこの変化を説明するための３つの代替的な方法を示す。図１Ｂでは、下流の配列（例えば、本例では、別の整列されたリード１０３ｂ）によって提供されるさらなるコンテキストが、位置７及び８において変化する塩基Ｃ－Ｇを点突然変異として識別する。図１Ｃでは、１０３ｃによって提供されるさらなるコンテキストが、変化が、位置７及び８における２塩基長である欠失によって説明されることを指示する。図１Ｄでは、１０３ｄによって提供されるさらなるコンテキストが、変化が、位置６及び７の間における２塩基長である挿入によって説明されることを指示する。１０２のように整列された所与のリード配列のための両側コンテキストの相違は、前記リード配列の異なるリードアライメント（例えば、１０２’、１０２’’、又は１０２’’’）を生じさせ得る。

[048]配列解析の一部として集められた配列決定データは配列アライメントデータセット内に記憶される。配列アライメントデータを記憶するための共通ファイル形式は、ＳＡＭ（．ｓａｍ）及びＢＡＭ（．ｂａｍ）ファイルフォーマットである。配列アライメントソフトウェア（「アライナ」）は、リファレンスゲノムに対するリード配列（単数又は複数）のアライメントを指示し、これらの整列されたリード内にインデル（単数又は複数）が存在し得る証拠を指示する、配列アライメントデータセットファイル、例えば、ＢＡＭファイルを出力する。アライナは、通例、「間隙」（インデル）を開くことに対して、不一致を付与する場合よりも高いペナルティを有することになり、これはリードの端部において特に顕著になる。その結果、たとえ、他のリードの証拠が、インデルが存在し得ることを指示していても、多くの配列変化が誤って不一致と呼ばれ得るか、又はソフトクリップされ得る。

[049]本明細書に記載されている諸態様は配列アライメントデータセットファイルを再処理し、ソース／オリジナル／入力配列アライメントデータセット内で指示されるとおりの近傍において整列されたリードからの情報を取り入れて周囲のコンテキストを形成する。このアプローチは、入力配列アライメントデータセット内で指示されるとおりの初期アライメントからの既存のインデル観測記録を収集し、不完全に整列されたリードを、不一致が最小化されるよう、観測されたインデルの周りにおいて再整列しようと試みることによって、既存のインデル観測記録を処理する。例によっては、インデルを包含すると最初に全く指示されていないリードが、リファレンスに対するインデルを実際に指示するように再整列される。特定のリードがいくらかのインデルを包含する証拠が、最初は、配列アライメントデータセット内にほとんど存在しない場合がある。しかし、本明細書に記載されている諸態様は、インデルの存在がリアライメントによってより適切に指示されるべきである時に、リードを「救う」ことができる。具体例として、入力配列アライメントデータセット内で指示されるリファレンスゲノム配列の領域に対して整列された１つのリードのみがインデルを反映しているが、本明細書に記載されているように初期アライメントを処理した後には、例えば、本明細書に記載されているプロセスによって出力された出力配列アライメントデータセットの、いくつかのリードが、インデルが存在することを裏付けるという場合があり得る。

[050]上述のように偽陰性を低減することに加えて、本明細書に記載されているアプローチは、入力配列アライメントデータセットの１つ又は複数のリード内で最初に指示されるいくつかの不一致又はいくつかのインデルを排除することによって、偽陽性を低減することもできる。

[051]本明細書に記載されているプロセスは局所インデル再整列アルゴリズムを提供する。これは、入力配列アライメントデータセットファイル内で観測され、及び／又は「既存物」ＶａｒｉａｎｔＣａｌｌＦｏｒｍａｔ（．ＶＣＦ）ファイルなどの、リファレンスインデルデータセット内で指示されるものなどの、インデルの周りで入力リードを再整列することによって不一致を最小化する助けとなることができる。ＶＣＦ既存物はアルゴリズムへの入力として提供され、ソース配列アライメントデータセットファイル内の仮定されるインデルを指示し得る。

[052]高レベルにおいて、コンピュータシステムが入力配列アライメントデータセットを入力として受け取り、入力データセットを通読し、既存のインデル観測記録を収集し、観測されたインデルの周りで各初期アライメントリードを再整列するよう試みることによって配列アライメントデータセットからの１つ又は複数の初期アライメントを処理するためのアルゴリズムを実行し得る。アルゴリズムは、新たな、「再整列された」ソートされたインデックス付きの配列アライメントデータセットを、例えば、出力ＢＡＭ又は他の配列アライメントデータセットファイルとして提供し得る。リファレンスに対するリードのリアライメントが、リファレンスに対するリードの初期アライメントよりも良好である場合には、リアライメントが初期アライメントの代わりに出力され得る。さもなければ、初期アライメントが入力配列アライメントデータセットからそのまま出力され得る。出力配列アライメントデータセットは、元の配列アライメントデータセットと独立した別のファイルであってもよく、又はアルゴリズムが元の配列アライメントデータセットを直接変更／上書きし得る、入力配列アライメントデータセットの変更されたバージョンであってもよい。

[053]特定の例では、アルゴリズムは、既存のインデル観測記録を収集し、それらを、特定の初期アライメントのための再整列処理において使用するための候補インデルのセットに追加しながら、入力配列アライメントデータセットを通覧する。観測されたインデルが候補と考えられるかどうかは、インデルの観測された対立遺伝子頻度などの、任意の所望のパラメータに依存することができる。例によっては、ユーザが構成可能な閾値対立遺伝子頻度が、アルゴリズムへのパラメータ又は他の入力として、例えば、コマンドラインパラメータとして、又はソフトウェア設定においてオプションとして指定されるパラメータとして提供される。少なくとも、閾値によって指示される頻度と同じ頻度で出現する、観測されたインデルが候補インデルと考えられてもよい。頻度は、リファレンス配列内の所与の位置に対して整列された、前記位置における所与のインデルの存在を指示するリードの総数を含み得る。頻度は、リファレンス配列内の所与の位置に対して整列されたリードの総数のうちの、前記位置における所与のインデルの存在を指示する比率を含み得る。構成可能な閾値は１と低く設定されてもよく、これは、リファレンス配列の所与の位置に対して整列された１つのリードのみにインデルが出現すれば、そのインデルが候補と考えられる十分な証拠となることを指示する。又は、構成可能な閾値は、リファレンス配列内の所与の位置に対して整列されたリードの総数うち、インデルの存在を指示するリードがいくつあれば、そのインデルが候補と考えられる十分な証拠となるかの、０～１の所定の比率であってもよい。実際には、ノイズ及び他の考慮事項が、頻度をより高いものに設定するように要求する。加えて、任意選択的な既存物ＶＣＦリファレンスインデルデータセットにおいて提供される任意のインデルが候補インデルとして考慮されてもよい。

[054]コンピュータシステムは、配列アライメントデータセットを通読する際、概して、マッピングされるリファレンスゲノム配列の最初から最後へと進み得る。個々のアライメントに関連する候補インデルが、そのアライメントの元の位置の前又は後に（すなわち、リファレンスゲノム配列に対して上流又は下流に）生じる場合がある。来たるべき処理予定のリードが、候補インデルに対するさらなる裏付けを提供する場合がある。このため、アルゴリズムは、メモリ内で出会った初期アライメントを、リファレンスゲノム配列のさらに先の部位に対するリードのアライメントを読み取らずにそれらの初期アライメントをすぐに処理するのではなく、初期アライメントが処理のために承認されたと考えられるまで保持してもよい。承認されたアライメントは、配列アライメントデータセット内で指示されるとおりの位置が、アライメントの端部位置を過ぎた、構成可能な窓サイズの窓の上流端部より上流にあるものである。これは、所与のリードのための候補インデルの、そのリードの前及び後の領域からの収集を可能にする。ゲノム窓サイズは、アルゴリズムが、それが、アライメントに潜在的に関連すると考えられる情報を収集したと満足するまでに読み取られていなければならない初期アライメントを過ぎた塩基の数に相関する。窓サイズは、例えば、コマンドラインパラメータとして構成可能であってもよい。より大きな窓サイズは、より大きな、及びより遠くのインデルが考慮されることを可能にするが、窓サイズが大きく設定されすぎた場合には、リソースに対する要求がより大きくなるため、コンピュータシステムの性能が悪影響を受ける場合がある。特定の例では、２５０～１０００個の塩基の窓サイズが一般的使用のために十分になり得る。

[055]図２は、本明細書に記載されている諸態様に係る、処理のためのリードの承認を示す。ゲノムブロック又は窓サイズは２０６によって指示される。リード２０２は、リファレンスゲノム配列（図示せず）に対する対応する部位に（本例では）水平方向に個々に整列されている。インデル２０８ａ～２０８ｄは、様々なリード内において指示されるインデルである。２１０は、リードの最初のグループ－図２における一番上の８つのリード２０２－が処理のために承認されたことになる点を示す。これは、そのグループの最後のリード（２０２ａ）の端部から１つの窓サイズの所である。整列処理を構成可能な窓にわたって遅延させることは、例えば、リード２０２ｂの初期アライメントを処理する際に、インデル２０８ｂ（初期アライメントの一部である）及び上流のインデル２０８ａが考慮されることになるだけでなく、下流のインデル２０８ｃ及び２０８ｄも考慮されることになることを確実にする。なぜなら、インデル２０８ｃ及び２０８ｄは、最初の８つのリードのアライメントが処理のために承認されたことになる点２１０より上流にある窓２０６内に位置するからである。

[056]処理のために承認された初期アライメントは処理を受けることができる。この処理の例示的な方法が図３を参照して説明され、図解される。図３の方法は、１つ又は複数のコンピュータシステムによって遂行され得るプロセスである。プロセスは、アライメントが、出力配列アライメントデータセット、本例ではＢＡＭファイルに含まれるために適格であるかどうかを最初に判定する（３０２）。この点について、処理を遂行するソフトウェアは、処理が、ＰＣＲ重複アライメントなどの、特定のアライメントを飛ばし、除去することを有効にする構成設定を有してもよく、その結果、設定が有効にされた場合には、これらは無視される。初期アライメントが包含に不適格である場合には、初期アライメントの処理は、アライメントを出力せずに終了する。さもなければ、処理は、初期アライメントが再整列処理に適格であるかどうかを判定することによって継続する（３０４）。適格性は任意の所望の因子に基づいて判定され得る。例として、（ｉ）初期アライメントが完璧に整列されているかどうか、例えば、アライメントの整列されたリードと、そのリードが整列されたリファレンス配列との間で一致しない１つ又は複数の塩基が存在するかどうか、（ｉｉ）整列されたリードがソフトクリップを含むかどうか、（ｉｉｉ）初期アライメントが二次アライメントであるか否か、並びに／或いは（ｉｖ）配列アライメントデータセット内で指示されるリファレンスゲノム配列の塩基の領域内において、整列されたリードの周りに候補インデルが存在するかどうかが判定され得る。１つの特定の例では、アライメントが完璧に整列されているか、ソフトクリップが存在しないか、アライメントが二次アライメントであるか、又は領域内に候補インデルが存在しない場合には、次に、アライメントは、再整列処理に適格でないと判定され（３０４－いいえ）、プロセスは、例えば、アライメントを出力配列アライメントデータセットへの直接出力のためにバッファすることによって、アライメントをそのまま出力する（３０６）。

[057]その代わりに、３０４において、アライメントが再整列処理に適格であると判定された場合には（３０４－はい）、例えば、アライメントが完璧に整列されていない、ソフトクリップ（単数又は複数）が存在する、アライメントが二次アライメントでない、及び／又は領域内に候補インデルが存在する場合には、プロセスは、初期アライメントを再整列するための再整列処理を試みることによって継続する（３０８）。このような再整列が以下においてリード再整列手順の一部として、より詳細に説明される。この再整列手順は、「最良の」リアライメントと考えられるものをもたらす。再整列処理の後に、最良のリアライメントが元の初期アライメントと少なくとも同じほど良好であるかどうかを判定する（３１０）。良好でない場合には、次に、初期アライメントをそのまま出力する（３０６）。さもなければ、最良のリアライメントを出力する（３１２）。それゆえ、初期アライメントが処理されるいずれの場合においても、リファレンスに対する所与のリードのアライメントは出力され得る。アライメントは、初期アライメント（３０６）又は再整列されたアライメント（３１２）のいずれかである。

[058]アライメントが再整列のために考慮される時までには（３０８）、観測され、アライメントのそのリード配列に影響を与え得るであろう全ての候補インデル（元のアライメント自身からの任意のもの、周囲のインデル、及び任意の「既存物」を含む）が収集され、リファレンスに対するリードの候補リアライメントを提供するべく導入するための候補である候補インデルのセットを形成している。各候補インデル（及び例によっては、２つ以上のこのような候補インデルの組み合わせ）を、整列されたリードの平坦化されたバージョンに導入する反復プロセスを開始する。例によっては、インデル（単数又は複数）は、平坦化された整列されたリードの左側から（すなわち、上流、又は５プライム方向から）、及び右側から（すなわち、下流、又は３プライム方向から）導入される。各反復は、リアライメントがどれほど良好であるかを判定するために評価される、結果として生じる「候補リアライメント」をもたらす。評価は、クオリティの任意の所望のインジケータ（単数又は複数）、例えば、例として、リアライメントの整列されたリードとリファレンスとの間で一致しない塩基の数、インデルの数、インデルの部位、及び／又はソフトクリップされた塩基の数を考慮し得る。

[059]本明細書に記載されている１つのコンセプトは、リード内の塩基ごとの染色体座標のアレイである、位置マップである。位置マップは、配列アライメントデータセット内の配列を表現するために用いられるデータ構造である。図４Ａは、ソフトクリップ及び欠失を包含する整列されたリードのための例示的な位置マップを示し、図４Ｂは、本明細書に記載されている諸態様に係る、挿入を包含する整列されたリードのための例示的な位置マップを示す。まず図４Ａを参照すると、整列されたリード４０２ａがリファレンス４０４と整列されて示されており、対応するＣＩＧＡＲ操作４１２ａがリードの下に示されている。ＣＩＧＡＲ操作４１２ａの下に位置マップ４１４ａがある。位置マップは概して、リファレンスゲノムに対応せず、位置マップにおいて「－１」の位置を与えられる、ソフトクリップ又は挿入された塩基を除いて、リファレンス４０４の上に示された塩基位置を写し、欠失した塩基（位置７及び８に示される）はリードになく、それゆえ、欠失した塩基はそれら自身の位置を有しない。その代わりに、欠失は、２つの連続したリード塩基間の位置の飛び越しによって明白であり、例えば、位置マップ４１４ａに示されるとおりの６から９への飛び越しは２塩基対（ｂａｓｅｐａｉｒ、ｂｐ）欠失を指示する。それゆえ、図４Ａは、ソフトクリップ及び２ｂｐ欠失を有する、ｃｈｒＮ：２（１Ｓ５Ｍ２Ｄ２Ｍ）を反映するリードのための例示的な位置マップを示す。図４Ａに指示されるソフトクリップはＮ型ソフトクリップである。初期アライナは、リードのソフトクリップされた部分を有し、その部分に「Ｎ」を付与し、その塩基が何であるのかを知らせることができないことを指示する「Ｎ」は特定の種類のソフトクリップであり、他の種類のソフトクリップは、識別された塩基を有し得るが、依然として、ソフトクリップと考えられる。

[060]図４Ｂは、（位置６及び７の間の）２ｂｐ挿入を有するｃｈｒＮ：２（５Ｍ２Ｉ２Ｍ）を反映するリードのための別の例示的な位置マップ４１４ｂを示す。挿入はリファレンス４０４内に示されており、整列されたリード４０２ｂ、ＣＩＧＡＲ操作４１２ｂ、及び位置マップ４１４ｂ内に反映されている。

[061]リード再整列は、位置マップの操作、及びリファレンスゲノムに対するヌクレオチド位置の対のその後の比較を含み得る。再整列される各々の整列されたリードは、まず、「白紙スレート」を作成するために、その既存のインデル及び非Ｎ型ソフトクリップを剥奪されてもよい。これは、リードがインデルを含まないことを前提として実効的に開始するリードをもたらす。インデルを含まないリードは、本明細書において、「平坦化された（ｆｌａｔｔｅｎｅｄ）」リード配列、又は平坦化された整列されたリード－初期アライメントにおけるリードの平坦化されたバージョン－と呼ばれる。次に、候補インデルが、平坦化された整列されたリードに反復的に導入され、リファレンスとの合致について評価される。この導入は、位置マップを操作することによって達成され得る。次に、結果として得られたヌクレオチド位置の対がリファレンスゲノムと比較され得る。

[062]図５Ａ～図５Ｃは、本明細書に記載されている諸態様に係る、整列されたリードの平坦化を示す。図５Ａは、リファレンス５０４に対して指示されているとおりに整列され、対応するＣＩＧＡＲ操作５１２ａを示す、初期の整列されたリード５０２ａを示す。位置マップ５１４ａは、位置１におけるＮ型ソフトクリップ、並びに位置７及び８における２ｂｐ欠失を指示する。図５Ｂは、左側に固定された、つまり、塩基を左（すなわち、上流、又は５プライム方向）に移動するよう平坦化された、平坦化された整列されたリード５０２ｂを示す。ＣＩＧＡＲ操作５１２ｂ及び対応する位置マップ５１４ｂは、指示されるように更新された。図５Ｃは、右側に固定された、つまり、塩基を右に移動するよう平坦化された、平坦化された整列されたリード５０２ｃを示す。ＣＩＧＡＲ操作５１２ｃ及び対応する位置マップ５１４ｃは、図５Ｃにおいて指示されるように更新された。

[063]図６Ａ～図６Ｄは、平坦化された整列されたリードへの候補インデル（単数又は複数）の導入又は「注入」を示す。候補インデルは、処理されるリードのゲノム上の近傍において発見されたもの、及び、使用される場合には、リファレンスインデルデータセットによって指示される任意の「既存物」であり得る。図６Ａ～図６Ｄの例では、近位候補インデルは、ｃｈｒＮ：６ＡＴＣ＞Ａ、ｃｈｒＮ：６Ａ＞ＡＣＧ、及びｃｈｒＮ：１０ＧＡ＞Ｇを含む。

[064]図６Ａは、平坦化され、左側に固定された再整列された、リファレンス６０４と整列されたリード６０２ａを有する候補リアライメントを示す。インデルが存在せず、その結果、候補リアライメントの再整列されたリード６０２ａとリファレンス配列６０４との間で４つの塩基が一致しない－位置７～１０を参照されたい。

[065]図６Ｂは、位置７及び８に導入されたｃｈｒＮ：６ＡＴＣ＞Ａ欠失インデルを有する再整列されたリード６０２ｂを有する別の候補リアライメントを示す。リードの最後の４つの塩基、Ｃ－Ｇ－Ｔ－Ｃは、その欠失を導入するために、位置２つ分先に移動されている。その結果、候補リアライメントのリード配列６０２ｂとリファレンス配列６０４との間で２つの塩基が一致しない－位置１１及び１２を参照されたい。

[066]図６Ｃは、位置６及び７の間に追加されたｃｈｒＮ：６Ａ＞ＡＣＧ挿入インデルを有する再整列されたリード６０２ｃを有するさらに別の候補リアライメントを示す。その結果、候補リアライメントのリード配列６０２ｃとリファレンス配列６０４との間で一致しない塩基が存在しない。以下においてさらに説明されるように、このような候補リアライメントが決定されると、平坦化された整列されたリードへのインデルの反復的導入は中断し、その候補リアライメントを、完璧なアライメントと考えられるであろう、リファレンスに完全に一致する候補のために返し得る。

[067]図６Ｄは、位置７及び８において追加されたｃｈｒＮ：６ＡＴＣ＞Ａ欠失インデル、並びに位置１１において追加されたｃｈｒＮ：１０ＧＡ＞Ｇ欠失インデルを有する再整列されたリード６０２ｄを有する候補リアライメントを示す。本例は、平坦化された整列されたリードへの２つのインデルの注入を示す。その結果、この場合もまた、候補リアライメントのリード配列６０２ｄとリファレンス配列６０４との間で一致しない塩基が存在しない。図６Ｄは、図６Ｂと同じアライメントであるが、追加されたインデルを有する。

[068]所望のリアライメントを見出す際の１つの目標は、不一致を最小化することを優先し、次に、インデルの数を最小化し、最良のリアライメントに到達することであり得る。単一のインデルを有し、不一致を有しないリアライメントが最良であると考えられてもよく、その場合には、そのアライメントのための再整列処理は終わり、リアライメントを返し得る。次に、これを初期アライメントと比較し、どちらが、出力するべきより良好なアライメントであるかを判定し得る。代替的に、再整列処理の間に「完璧なアライメント」に出会わなかった場合には、考慮されている組み合わせからの「最良の」候補リアライメントを元のアライメントと比較し、より良好なものを、以下において説明されるように、出力のために選択し得る。

[069]「最良の」候補アライメントを決定する際には、順位又は優先順位における規則が用いられ、適用されてもよい。例によっては、現在の最良の候補リアライメントが記憶され、次に決定されたリアライメント候補と比較される。両者が規則（単数又は複数）に従って比較され、そのリアライメント候補がより良好である場合には、それが新たな最良の候補リアライメントとして優先順位付けされ、古い候補リアライメントに取って代わる。このような規則及び優先順位付けの一例は以下のとおりである。
（ｉ）リードのアライメントが、リファレンスに対して一致しない単一の塩基のみを有し、インデルを有せず、それに対して、リードの他方のアライメントが１つ又は複数のインデルを有する場合には、単一の不一致を有し、インデルを有しないアライメントの方を選ぶ。インデルを有せず、一致しない単一の塩基のみを有するアライメントを、１つ又は複数のインデルを有する候補アライメントよりも優先する、
（ｉｉ）インデルの数にかかわらず、一致しない塩基（すなわち、アライメントの整列されたリードとリファレンスとの間の不一致）の数を最小化する。一致しないより少数の塩基を有するアライメントを、一致しないより多数の塩基を有するアライメントよりも優先する、
（ｉｉｉ）リファレンスに対して一致しない同数の塩基を所与として、より少数の非Ｎソフトクリップを有するアライメントの方を選ぶ。一致しない同数の塩基を有するアライメントの間で、指定された種類（例えば、Ｎ）のより少数のソフトクリップを有するアライメントを、指定された種類のより多数のソフトクリップを有するアライメントよりも優先する、並びに
（ｉｖ）リファレンスに対して一致しないものの同数塩基を所与として、より少数のインデルを有するアライメントの方を選ぶ。一致しない同数の塩基を有する異なるアライメントの間で、より少数のインデルを有するアライメントを、より多数のインデルを有するアライメントよりも優先する。

[070]入力配列アライメントデータセットは、コンピュータシステムによって、データアライメントを１つずつ読み込むように処理されてもよい。これらの初期アライメントはメモリに読み込まれ、各初期アライメントは、上述されたとおりのスライド窓に基づいて処理のために最終的に承認される。この処理が、承認された初期アライメントが再整列処理に適格であると判定した場合には、次に、処理のために承認された初期アライメントごとに、図７を参照して説明され、図解されるとおりのリード再整列処理が遂行される。図７の処理は１つ又は複数のコンピュータシステムによって遂行され得る。

[071]プロセスは、この初めに整列されたリードのための全ての近位候補インデル、すなわち、領域内で観測されたインデルを得ることによって開始する（７０２）。近位インデルは、このリードアライメントに関連すると考えられる領域又は窓内にあるものであり得、それゆえ、配列アライメントデータセット内で指示されるいくつかの異なるアライメントのうちの任意のものにおいて見られる任意のインデルであり得る。インデルのこのセットは、任意選択的に、「既存物」としてリファレンスインデルデータセット内で指示されるインデル（単数又は複数）、又は既知の／存在を仮定されたインデルとともに、候補インデルのセットを形成する。

[072]次に、プロセスは、初期アライメントに関連するこれらの候補インデルをランク付けする（７０４）。このランク付け又は優先順位付けは任意の所望の規則（単数又は複数）に基づき得る。規則の例は以下のとおりであり、以下の順序で適用される。
（ｉ）「既知」／既存物を優先（使用する場合）－優先順位付けは、リファレンスインデルデータセットによって既存の既知のインデルであると指示されるインデルを、リファレンスインデルデータセットによって既存の既知のインデルであると指示されないインデルよりも、たとえ、「既存物」として指示されないそのインデルが配列アライメントデータセット内では重く指示される場合でも、優先することができる、
（ｉｉ）より大きい／より長いインデルを優先－優先順位付けは、より長い長さのインデルをより短い長さのインデルよりも優先することができる。より長いインデルを、より小さいものよりも、たとえ、配列アライメントデータセット内により高頻度で出現し得るものであっても、高くランク付けし得る、
（ｉｉｉ）より高頻度、例えば、所与の位置におけるインデルの存在を指示するより多数のリード内に存在するインデルを優先－優先順位付けは、配列アライメントデータセットの、より大きな総数のリード配列、又はより大きな比率のリード配列内で指示されるインデルを、リファレンス配列内の所与の位置に対応する配列アライメントデータセットの、それぞれ、より少数又はより小さな比率の整列されたリード内で指示されるインデルよりも優先することができる、
（ｉｖ）同じ頻度である場合には、最も左のインデルを優先－優先順位付けは、配列アライメントデータセットの同数の整列されたリードにおいて指示される異なるインデルの間で、配列アライメントデータセットによって指示されるリファレンスゲノム配列に対する部位が、別のインデルのために指示される、リファレンスゲノム配列内の部位より上流にあるインデルを優先することができる。一例として、処理がリード２０２ｂの再整列を試みる際に、インデル２０８ａは実際にインデル２０８ｂよりも高くランク付けされ得る。

[073]ランク付けは、どのインデルが、他のインデルと比べて、それらの存在の確率に関してより重く重み付けされるのかについての指示である。２つの可能な候補インデルが、一致しない同じ数（０個以上）の塩基を有する２つの異なる候補リアライメントをもたらすことができた場合には、優先順位付けは、どちらのインデルがより重く信頼されるべきであるかを指示する。上述の例示的な優先順位規則は、既知の、より長い、より高い頻度で生じるインデルに向かって進む。優先順位付けは、存在する、より真である可能性が高いインデルを反映する。

[074]図７のプロセスは、図８を参照してより詳細に説明される、「最良の」リアライメントを得ることによって継続する（７０６）。最良のリアライメントは、候補インデル（単数又は複数）を通覧し、それらを、元のアライメントの整列されたリードの平坦化されたバージョンに反復的に導入し、候補リアライメント（単数又は複数）を生成した結果である。ランク付けされた候補インデルを通した反復は、１つのインデル、２つのインデルなど、及びｎ個を含むそれ以下の数のインデルの順列を有するリードを再整列する。実施形態によっては、ｎは３である。各反復は候補リアライメントを生成する。これらのリアライメントのうちの「最良のもの」が、選択基準を用いて選択され得る。１つの目標は、注入されたインデル（単数又は複数）を有する変更されたリードとリファレンスとの間でできるだけ少数の不一致を達成することであり得る。

[075]図７のプロセスを続けると、最良の候補リアライメントを得た後に、プロセスは、再整列されたリードがリファレンスに完璧に整列されているかどうか（７０８）、すなわち、導入された１つ又は複数のインデルを有する、候補リアライメントの整列されたリードが、リアライメントの整列されたリードとリファレンスとの間で一致しない塩基を有することなく、リファレンス配列と整列しているかどうかを判定する。図６Ｃに、これの一例が示されている。位置６及び７の間にＣ－Ｇ挿入インデルを有することで、整列されたリード６０２ｃはリファレンス６０４と完璧に整列している。選択された最良のリアライメントが完璧なリアライメントを呈する場合には（７０８－Ｙ）、次に、プロセスは、入力配列アライメントデータセットからの元のアライメントの代わりに、その選択された最良のリアライメント７１０を出力する。

[076]さもなければ、最良の候補リアライメントの再整列されたリードとリファレンスとの間で一致しない塩基が存在する場合には（７０８－Ｎ）、プロセスは、最良の候補リアライメントを元のアライメントと比較することによって進む（７１２）。最終的に、目標は、両者のうちのより良好なアライメントを出力することである。それゆえ、比較に基づいて、プロセスは、７０６によってもたらされた最良の候補リアライメントが元のアライメントよりも良好かどうかを判定する（７１４）。より良好である場合には、プロセスはこの最良のリアライメントを出力する（７１０）。特定の例では、最良の候補リアライメントが元のアライメントよりも良好であるか、又はそれと同じほど良好である場合には、適切な場合には、マッピングクオリティが調整され、（例えば、元のクオリティが２０以下であり、リアライメントが不一致を有しない場合には、４０に設定される）、プロセスは、このマッピングクオリティ調整の後に、最良の候補リアライメントを出力配列アライメントデータセットに出力する。質問７１４に戻り、最良の候補リアライメントが元のアライメントよりも良好でないか、又は同じほど良好でない場合には（７１４－Ｎ）、次に、プロセスは元のアライメントを出力する（７１６）。

[077]元のアライメント及び最良の候補リアライメントのうちのより良好なものを選択するための選択基準は、７０６からのリアライメント候補のうちの最良のものを決定するために適用された選択基準と同じであるか、又は異なり得る。特定の例では、最良の候補リアライメント、並びに／或いは最良の候補リアライメント及び元のアライメントのうちのより良好なものを選択するための選択基準は、アライメントの整列されたリードとリファレンス配列との間で一致しない塩基の数、アライメントによって指示されるインデルの数、配列アライメントデータセット内で指示されるリファレンスゲノム配列内における、インデル（単数又は複数）に対応する部位（単数又は複数）、並びに／或いはアライメントによって指示されるソフトクリップされた塩基の数に基づき得る。上記における「アライメント」は、（元のアライメントの場合のように）アライメント及び（候補リアライメントの場合のように）リアライメントの両方を包含する。なぜなら、どちらの場合も、リファレンス配列に対する対応するリードのアライメントを提示するからである。

[078]一例として、選択基準は、インデルを有せず、（リードとアライメントのリファレンスとの間で）一致しない単一の塩基のみを有するアライメントを、１つ又は複数のインデルを有するアライメントよりも優先すること、一致しないより少数の塩基を有するアライメントを、一致しないより多数の塩基を有するアライメントよりも優先すること、一致しない同数の塩基を有するアライメントの間で、Ｎなどの、指定された種類のより少数のソフトクリップを有するアライメントを、指定された種類のより多数のソフトクリップを有するアライメントよりも優先すること、並びに／或いは一致しない同数の塩基を有する異なるアライメントの間で、より少数のインデルを有するアライメントを、より多数のインデルを有するアライメントよりも優先すること、のうちの１つ又は複数を行うことができる。

[079]図８は、本明細書に記載されている諸態様に係る、最良の候補リアライメントを選択するための例示的なプロセスを示す。図８の処理は１つ又は複数のコンピュータシステムによって遂行され得る。高レベルにおいて、プロセスは、再整列処理を受けている初期アライメントの整列されたリードの変更された、例えば、平坦化されたバージョンに、１つ又は複数のインデルの順列を導入する。各導入は候補リアライメントを生成する。プロセスは、まず、各インデルを、平坦化された整列されたリードに個々に導入して、候補リアライメント（単数又は複数）を提供し、次に、２つのインデルの各組み合わせをリードに導入して、追加の候補リアライメントを提供する。これを、何らかの構成可能な閾値が満たされるまで、３つ、４つなどのインデルについて繰り返すことができる。例によっては、この閾値は、リードへの３つのインデルの順列の導入後に満たされる。再整列処理においてインデルが導入される優先順位は、上述されたとおりのそれらのインデルのランク付けに従う。また、例によっては、処理は、完璧なアライメントが決定された時はすぐに中断する（抜ける／停止する）ように構成されている。

[080]具体例として、優先順位に従ってランク付けされたｎ個の候補インデル｛Ｉ１，Ｉ２，Ｉ３，・・・，Ｉｎ｝が存在し、反復は、１つ、次に、２つ、次に、３つのインデルの組み合わせを通して進むと仮定する。平坦化された整列されたリードへのインデルの反復的導入は以下の順序で進むことになり、各反復は候補リアライメントをもたらす。
－［１つのインデルの反復：］Ｉ１、次に、Ｉ２、次に、Ｉ３、・・・、次に、Ｉｎを導入する。次に、
－［２つのインデルの反復：］Ｉ１＋Ｉ２、次に、Ｉ１＋Ｉ３、・・・、次に、Ｉ１＋Ｉｎ、次に、Ｉ２＋Ｉ３、次に、Ｉ２＋Ｉ４、・・・、次に、Ｉ２＋Ｉｎ、・・・、次に、Ｉｎ－１＋Ｉｎを導入する。次に、
－［３つのインデルの反復：］Ｉ１＋Ｉ２＋Ｉ３、・・・、次に、Ｉｎ－２＋Ｉｎ－１＋Ｉｎを導入する。

[081]インデルの導入は、インデル（単数又は複数）を、平坦化された整列されたリードに注入し、変更されたリードアライメントがどれほどリファレンスゲノムとぴったりと合うかを検査する。この検査は、生成された変更された位置マップによって支援され得る。

[082]上述のように、反復の間の任意の時点において、リファレンスと完璧に整列する候補リアライメントがもたらされた場合には、処理は中断し、その候補を、提供のために最良の候補リアライメントとして選択することができる（図７、＃７０６）。

[083]図８を参照すると、プロセスは、最良のリアライメントを創始することによって開始する。一例では、これは、最初は、プレースホルダーとして、ヌルであるか、又は元のアライメントにデフォルト設定されるが、図８の処理が継続するのに従い、主題の元のアライメントを処理する際に出会った現在の最良のリアライメントと置換されることになる。プロセスは、試すべきさらなるインデル順列が存在するかどうかを判定することによって開始するループに入る（８０４）。存在する場合には、プロセスは、試すべき次の順列を得る／識別する（８０６）。次に、試すべき次の順列が複数のインデルを含むときには、任意選択的な判定８０８を行う。一部のインデルは共存し得ず、この場合には、それらを、平坦化された整列されたリードに導入し、候補リアライメントを提供することは意味をなさない。単一のインデルのみが導入されるときには、判定８０８は最初の反復の間に行われなくてもよい。最終的に、再整列処理が２つ以上のインデルの順列に到達した場合には、次に、判定８０８が各反復において行われ得る。８０８において、平坦化されたリードへの導入の候補になっているインデルが共存することができないと判定した場合には、プロセスは、８０４へ戻ることによって次の反復へ進み、試すべきさらなるインデル順列が存在するかどうかを判定する。さもなければ、又は目下の反復において考慮されるインデルが１つしか存在しないため、決定８０８が遂行されない場合には、プロセスは、「標的に対する再整列」プロセスを遂行し、結果を得ることによって進む（８１０）。このプロセスは、図９を参照してさらに詳細に説明される。

[084]８１０から得られた結果が候補リアライメントとなる。次に、図８のプロセスは、結果が現在の最良のリアライメントよりも良好であるかどうかを判定する（８１２）。より良好である場合には、その結果が新たな現在の最良のリアライメントになる（８１４）。一例では、結果は、以前に記憶された最良のリアライメントに取って代わり、以前に記憶された最良のリアライメントは放棄される。結果が、この処理においてすでに得られたいずれの候補リアライメントよりも良好であると判定されたので、プロセスは、結果－新たな最良のリアライメント－が完璧なアライメントであるかどうか、すなわち、リアライメントの整列されたリードとリファレンスとの間で塩基の不一致が存在しないかどうかを判定することによって進む（８１６）。完璧なアライメントである場合には、プロセスは終了し、その最良のリアライメントが、選択された最良のリアライメントとして用いられる。例によっては、これを最良アライメントとして出力配列アライメントデータセットに出力する（図７、７１０）。

[085]８１６において、新たな最良のリアライメントが完璧なアライメントでないと判定した場合、又は８１２において、得られた結果が現在の最良のリアライメントよりも良好でなかったと判定した場合には、プロセスは８０４へ戻り、試すべき追加のインデル順列が存在するかどうかを判定する。存在しない場合には、次に、プロセスは現在の最良のリアライメントを返す（８１８）。このプロセスは、試すべきさらなるインデル順列が存在しなくなるまで（８０４－いいえ）、又は完璧なアライメントが、決定された候補リアライメントによってもたらされるまで（８１６－はい）、反復を継続することが分かる。

[086]図９は、本明細書に記載されている諸態様に係る例示的な「標的に対する再整列」（図８の８１０）の処理を示す。図９の処理は１つ又は複数のコンピュータシステムによって遂行され得る。プロセスは、図１０Ａを参照して説明される、左側固定の結果を得（９０２）、図１０Ｂを参照して説明される、右側固定の結果を得（９０４）、両者のうちのより良好なものを返す（９０６）。両者の間の選択のための選択基準は、上述された選択基準などの、所望される任意の選択基準であり得る。変更された例では、左側及び右側固定処理の双方からの候補リアライメントを得る代わりに、左側固定の結果によってもたらされたリアライメントを、図８（８１２～８１６）を通して処理し、左側固定の結果が完璧なアライメントをもたらさなかったと判定された場合にのみ（８１６－いいえ）、図１０Ｂの右側固定の結果の処理を遂行する。

[087]図１０Ａ～図１０Ｂは、本明細書に記載されている諸態様に係る、左側及び右側固定再整列の結果のための例示的なプロセスを示す。図１０Ａ及び図１０Ｂの処理は１つ又は複数のコンピュータシステムによって遂行され得る。左側又は右側からの固定は、リードのどちらの側がその識別された塩基に関してより正確であると仮定されるかの反映である。リードの一方の端部が他方よりも信頼される場合には、リードはその端部から固定され、インデル（単数又は複数）の注入はその端部から進む。左側固定のリアライメントでは、左側が右側よりも信頼される。左側固定の結果の処理、図１０Ａのために、プロセスは、リード位置を、任意の接頭ソフトクリップ（例によっては、Ｎソフトクリップを除く）の長さだけ左に移動させることによって、調整された開始位置を得る（１００２）。リードが、（ｉ）挿入、或いは（ｉｉ）ソフトクリップ及び挿入で開始する場合には、リード位置をその挿入の長さだけ左に移動する。固定は最も外側の一致しないヌクレオチドに対応する。次に、プロセスは、平坦化されたリード、配列、及び位置マップを作成する（１００４）。図５Ｂに、一例が示されている。次に、現在の順列の組み合わせにおける１つ又は複数のインデルの各々について、ランク順に、プロセスはインデルを追加し、結果として生じるリアライメントを得る（１００６）。図６Ｃは、平坦化された左側に固定されたリードに１つのインデルが導入される一例を示し、図６Ｄは、平坦化されたリードに２つのインデルが導入される一例を示す。

[088]右側固定の結果の処理、図１０Ｂのために、プロセスは、位置マップ内の最大位置を見つけ、リードの端部に存在する挿入された／ソフトクリップされた塩基の数を加算することによって、調整された端部位置を得る（１００８）。リードの調整された開始位置は、その最大位置・マイナス・Ｎ型ソフトクリップを含まないリードの長さになる。次に、プロセスは、平坦化された整列されたリード、配列、及び位置マップを作成する（１０１０）。図５Ｃに、一例が示されている。次に、現在の順列の組み合わせにおける１つ又は複数のインデルの各々のために、右方（又は５プライム端部の方の上流）から左方（又は３プライム端部の方の下方）の順に、プロセスはインデルを追加し、結果として生じるリアライメントを得る（１０１２）。例えば、導入されるべき３つのインデルが存在する場合には、プロセスはそれらを右から左へ導入し、まず、３つのうちの最も上流のインデル、次に、残りの２つのうちの最も上流のもの、次に、３番目のものを追加する。

[089]図１１を参照して、「インデルを追加し、結果を得る」処理（図１０Ａの１００６、図１０Ｂの１０１２）を説明する。図１１の処理は１つ又は複数のコンピュータシステムによって遂行され得る。これは、追加されるべきインデルごとに遂行される。追加されるべき複数のインデルが存在する場合には、インデルの追加の結果得られたリアライメントが、次のインデルの追加（結果として生じたリアライメントに対する各々の連続したインデル上への積層）によって変更されるものである。図１０Ａ又は図１０Ｂの処理から最終的に生成され、図８の８１０によって返される候補リアライメントは、図１１を遂行し、組み合わせのためのインデル（単数又は複数）の各々を追加することからもたらされる最終リアライメントである。

[090]図１１のプロセスは、何らかの出発リアライメント候補を仮定する。この出発リアライメント候補は、最初は、導入されたインデルを有しない平坦化されたリードであろうが、インデルが追加されるたびに、更新された、結果として生じたリアライメントと置き換えられる。プロセスは、位置マップが、インデルが導入されることを可能にするかどうかを判定することによって開始する（１１０２）。可能にしない場合、例えば、導入されるべきインデルの参照位置が位置マップからはずれているか、又は位置マップ内の最後の位置である場合などには、インデルの追加は失敗し、プロセスはヌルを返すか（１１１４）、又は何らかの他の所望の結果を返し、次に、終了する。

[091]位置マップが、インデルが導入されることを可能にする場合には、プロセスは、（インデルが挿入された）新たな位置マップが有効であるかどうかを判定する（１１０４）。有効でない場合には、次に、インデルの追加は失敗し、プロセスはヌルを返すか（１１１４）、又は何らかの他の所望の結果を返し、次に、終了する。さもなければ、プロセスは、候補インデルが挿入であるかどうかを判定することによって進む（１１０６）。挿入である場合には、リード配列の塩基が推定挿入と一致するかどうかを判定する（１１０８）。推定挿入の位置におけるリード配列内の塩基が、推定挿入内で指定されるものと同じ塩基である場合には、リード配列の塩基は推定挿入と一致し得る。説明のための例として、以下のリード配列ＡＴＣＴＧＡが位置１０に固定され（すなわち、５プライムＡがｃｈｒＮ：１０にある）、推定挿入がｃｈｒＮ：１２Ｃ＞ＣＴＧである場合には、ｃｈｒＮ：１２におけるＣの後のリード配列内の次の２つの塩基がＴＧであるため、それは一致と考えられるであろう。対照的に、推定挿入が、別の説明のための例として、ｃｈｒＮ：１２Ｃ＞ＣＡＡである場合には、ｃｈｒＮ：１２におけるＣの後のリード配列内の次の２つの塩基がＡＡでないため、それは一致にならないであろう。リード配列の塩基が推定挿入と一致しない場合には、次に、インデルの追加は失敗し、プロセスはヌルを返すか（１１１４）、又は何らかの他の所望の結果を返し、次に、終了する。

[092]その代わりに、１１０８において、リード配列の塩基が推定挿入と一致すると判定した場合（１１０８－はい）、又は１１０６において、インデルが挿入でない、例えば、インデルが欠失であると判定した場合には、次に、プロセスは、調整された位置マップに基づいて、新たなＣＩＧＡＲ位置文字列及び開始位置を決定することによって進む（１１１０）。次に、プロセスは、インデルが追加された、結果として生じたリアライメントを返し（１１１２）、終了する。

[093]以下において、例示的なＧｅｔＢｅｓｔＡｌｉｇｎｍｅｎｔルーチン（図８に対応する）、及び例示的なサブルーチンＲｅａｌｉｇｎＴｏＴａｒｇｅｔｓ（図９に対応する）のための擬似コードを提供する。

[094]ＧｅｔＢｅｓｔＡｌｉｇｎｍｅｎｔは、平坦化されたリードに導入するために、ランク付けされた候補インデルのリストに対して遂行されるルーチンを指す。このプロセス内において、ＲｅａｌｉｇｎＴｏＴａｒｇｅｔｓが、各候補インデルに対して、単独、及び他の候補インデル（単数又は複数）との組み合わせの両方で遂行される。どの時点であっても、単一のインデルの導入が、不一致を有しないリードを生じさせた場合には、プロセスは抜けることができ、そのリアライメントが最良のリアライメント候補と考えられる。さもなければ、プロセスは、１～ｎ個のインデルの全ての査定された組み合わせから、上述された規則／選択基準によって評価されたとおりの、「最良の」リアライメントを返す。ここで、ｎは、導入するべきインデルの最大数である。

[095]ＧｅｔＢｅｓｔＡｌｉｇｎｍｅｎｔルーチン擬似コード：
ＢｅｓｔＲｅｓｕｌｔＳｏＦａｒを空に初期化する；
候補インデルＡごとに、ランク付けの順に：
／／１つのインデルに対する整列を試す：
ＲｅａｌｉｇｎＴｏＴａｒｇｅｔｓルーチンを遂行し、結果ＲｅｓｕｌｔＡを得る；
ＲｅｓｕｌｔＡがＢｅｓｔＲｅｓｕｌｔＳｏＦａｒよりも良好である場合には、ＲｅｓｕｌｔＡがＢｅｓｔＲｅｓｕｌｔＳｏＦａｒになる；
ＢｅｓｔＲｅｓｕｌｔＳｏＦａｒが１つのインデル及び０個の不一致を有する場合には、中断し、それを最良のリアライメントとして保持する。
／／２つのインデルに対する整列を試す：
追加の候補インデルＢごとに：
インデルＡ及びＢが共存することができない場合には、この対を飛ばす；
ＲｅａｌｉｇｎＴｏＴａｒｇｅｔｓルーチンを遂行し、結果ＲｅｓｕｌｔＡＢを得る；
ＲｅｓｕｌｔＡＢがＢｅｓｔＲｅｓｕｌｔＳｏＦａｒよりも良好である場合には、ＲｅｓｕｌｔＡＢがＢｅｓｔＲｅｓｕｌｔＳｏＦａｒになる
／／３つのインデルに対する整列を試す：
３つの組み合わせを試すように構成される場合には、追加の候補インデルＣごとに：
インデルＡ、Ｂ、及びＣが共存することができない場合には、この三つ組を飛ばす；
ＢｅｓｔＲｅｓｕｌｔＳｏＦａｒが＞０個の不一致を有する場合には：
ＲｅａｌｉｇｎＴｏＴａｒｇｅｔｓルーチンを遂行し、結果ＲｅｓｕｌｔＡＢＣを得る；
ＲｅｓｕｌｔＡＢＣがＢｅｓｔＲｅｓｕｌｔＳｏＦａｒよりも良好である場合には、ＲｅｓｕｌｔＡＢＣがＢｅｓｔＲｅｓｕｌｔＳｏＦａｒになる；
ＢｅｓｔＲｅｓｕｌｔＳｏＦａｒを返す；

[096]ＲｅａｌｉｇｎＴｏＴａｒｇｅｔｓルーチン擬似コード：
例えば、組み合わせて査定されるべき１～３つの候補インデルのリストである、ＣｏｍｂｉｎａｔｉｏｎＩｎｄｅｌｓを所与として：
／／左側固定を用いて結果を得る：
調整された位置を得る：リード位置を接頭ソフトクリップ（Ｎソフトクリップを除く）の長さだけ左に移動させる。リードが、挿入、又はソフトクリップ＋挿入で開始する場合には、リード位置をその挿入の長さだけ左に移動させる；
ＣＩＧＡＲを有する平坦化されたリード、配列、及び全ての一致を仮定した位置マップ（末端のＮを除外）を作成する。結果として生じるリードは、リード（末端のＮを除外）内の全ての塩基のために「Ｍ」のＣＩＧＡＲ文字列を有するであろう；
ＲｅｓｕｌｔＬｅｆｔＡｎｃｈｏｒｅｄを初期化する；
ＣｏｍｂｉｎａｔｉｏｎＩｎｄｅｌｓ内のインデルＸごとに、位置の昇順で：
ＡｄｄＩｎｄｅｌＡｎｄＧｅｔＲｅｓｕｌｔルーチンを遂行し（図１１）、ＲｅｓｕｌｔＡｌｉｇｎｍｅｎｔを変更する（連続したインデル上に積層する）；
／／右側固定を用いて結果を得る：
調整された位置を得る：位置マップ内の最大位置を見つけ、それに、リードの端部に存在する挿入又はソフトクリップされた塩基の数を加算する。リードの調整された開始位置は、その最大位置・マイナス・リード長になる；
ＣＩＧＡＲを有する平坦化されたリード、配列、及び全ての一致を仮定した位置マップ（末端のＮを除外）を作成する。結果として生じるリードは、リード（末端のＮを除外）内の全ての塩基のために「Ｍ」のＣＩＧＡＲ文字列を有するであろう；
ＲｅｓｕｌｔＲｉｇｈｔＡｎｃｈｏｒｅｄを初期化する
ＣｏｍｂｉｎａｔｉｏｎＩｎｄｅｌｓ内のインデルＸごとに、位置の降順で：
ＡｄｄＩｎｄｅｌＡｎｄＧｅｔＲｅｓｕｌｔルーチンを遂行し、ＲｅｓｕｌｔＡｌｉｇｎｍｅｎｔを変更する（連続したインデル上に積層する）；
ＲｅｓｕｌｔＬｅｆｔＡｎｃｈｏｒｅｄ及びＲｅｓｕｌｔＲｉｇｈｔＡｎｃｈｏｒｅｄのうちのより良好なものを返す。引き分けの場合には、ＲｅｓｕｌｔＬｅｆｔＡｎｃｈｏｒｅｄを返す。

[097]本明細書に記載されている諸態様は、初期アライナから出力される配列決定データアライメントを調整して改善するために用いることができる。アライナは、本明細書に記載されている諸態様を遂行するように構成されたソフトウェアへの入力として提供される、初期配列アライメントデータセットを出力し得る。ソフトウェアは、初期アライメントのうちの１つ又は複数のリアライメントを有する配列アライメントデータセットを出力する。

[098]以下に述べることは、本明細書に記載されている諸態様（以下において、「リアライナ（Ｒｅａｌｉｇｎｅｒ）」と呼ばれる）に係るインデル再整列と、ＥｌｉａｎｄＥｄｙｔｈｅＬ．ＢｒｏａｄＩｎｓｔｉｔｕｔｅｏｆＭＩＴａｎｄＨａｒｖａｒｄ（「ＢｒｏａｄＩｎｓｔｉｔｕｔｅ」），Ｃａｍｂｒｉｄｇｅ，Ｍａｓｓａｃｈｕｓｅｔｔｓ，ＵＳＡによって提供されているＧＡＴＫインデルリアライナのインデル再整列との比較を示す。

[099]「リアライナ」の特徴は、観測された突然変異の周りでリードを正確に再整列し、既存の方法よりも短い時間でそれを行うその能力に存する。これを実証するために、「リアライナ」を、生物情報学界において最もよく知られていると思われる局所インデルリアライナ、ＧＡＴＫＩｎｄｅｌリアライナ（例えばＤｅＰｒｉｓｔｏ，Ｍ．，Ｂａｎｋｓ，Ｅ．，Ｐｏｐｌｉｎ，Ｒ．，Ｇａｒｉｍｅｌｌａ，Ｋ．，Ｍａｇｕｉｒｅ，Ｊ．，＆Ｈａｒｔｌ，Ｃ．ｅｔａｌ．Ａｆｒａｍｅｗｏｒｋｆｏｒｖａｒｉａｔｉｏｎｄｉｓｃｏｖｅｒｙａｎｄｇｅｎｏｔｙｐｉｎｇｕｓｉｎｇｎｅｘｔ－ｇｅｎｅｒａｔｉｏｎＤＮＡｓｅｑｕｅｎｃｉｎｇｄａｔａ．ＮａｔｕｒｅＧｅｎｅｔｉｃｓ，４３（５），４９１－４９８，（２０１１）を参照）と比較し、「リアライナ」がより短い時間量内に少なくとも同程度にうまく機能したかどうかを判定した。

[0100]シミュレートされた変異データに対する感度及び特定性：

[0101]方法

[0102]感度を評価するために、以下の実験を遂行した。

[0103]１．長さ４～２５ｂｐの２００個の挿入及び２００個の欠失の個体変異のＦＡＳＴＱファイルをシミュレートする（合計で４００個のシミュレーションＦＡＳＴＱ）。

[0104]２．Ｉｌｌｕｍｉｎａ，Ｉｎｃ．，ＳａｎＤｉｅｇｏ，Ｃａｌｉｆｏｒｎｉａ，Ｕ．Ｓ．Ａ．によって提供されているアイザックアライナを用いて、シミュレートしたＦＡＳＴＱファイルを整列する。「既存物」を用いる、及び用いない、２つの条件を査定した。既存物のリストをアイザックに供給することは、その位置における一連の不一致を呼び出すことよりも、リスト内のインデルが支持されることを可能にする。

[0105]３．「リアライナ」、ＧＡＴＫ、及び整列無しの各々を用いて、上述の条件（既存物を用いる、既存物を用いない）の各々を再整列する。

[0106]４．Ｉｌｌｕｍｉｎａ，Ｉｎｃ．によって提供されているパイシーズ（Ｐｉｓｃｅｓ）変異コーラーを用いて変異を呼び出す。

[0107]５．呼び出した変異の感度及び特定性を評価する。

[0108]解析において用いたサンプル：

[0109]～２０００個の中程度の長さ（４～２５ｂｐ）のインデルのプールから２００個の挿入及び２００個の欠失をランダムに選択した。図１２は、本明細書に記載されている諸態様に係るシミュレーション解析において用いた変異長の分布を示す。

[0110]呼び出された変異の評価

[0111]各シミュレーションサンプルは、呼び出された変異をちょうど１つ有することが期待される。結果の感度及び特定性を評価するために、全ての呼び出された変異をＶＣＦから抽出する（０個～多数の変異がもたらされ、そのうちの０～１個が、期待される変異と一致することになる）。得られた変異を、期待される「真性」変異と比較し、その結果、本明細書に記載されている諸態様に係る真性変異評価の可能な結果を示す、図１３に列挙される結果のうちの１つを得る。

[0112]結果

[0113]初期アイザックアライメントにおいて既存物を用いることで、全ての条件のための感度が増大した。再整列を用いない場合には、４８．５％の変異が、偽陽性を有することなくうまく呼び出された。ＧＡＴＫ再整列を用いた場合には、その部分は４８．８％に上昇したが、その一方で、「リアライナ」は７５．３％を達成した。全ての場合において、変異が正しく呼び出され、合格した場合には、他の合格変異は存在しなかった。例によっては、既存物を用いて使用した「リアライナ」は、ＧＡＴＫ再整列よりも少ない偽陰性及び少ない偽陽性を生成し得る。

[0114]図１４は、再整列されていない、ＧＡＴＫにより再整列された、又は本明細書において開示されるとおりの再整列方法の諸態様に従って再整列された、既存物を用いてアイザックによって生成されたシミュレーションＢＡＭについての真陽性率及び偽陽性率を示す。図１５は、再整列されていない、ＧＡＴＫにより再整列された、又は本明細書において開示されるとおりの再整列方法の諸態様に従って再整列された、既存物を用いてアイザックによって生成されたシミュレーションＢＡＭについての真陽性率及び偽陽性率を示す。これらの結果は、必ずしも、左側に整列された表現とは限らない、インデルの特定の所望の表現に基づくことに留意されたい。インデルのＧＡＴＫの表現は、必ず、最も左側に整列されたものであることになり、それに対して、「リアライナ」は、それが入力ＢＡＭ内で見るインデルの元の表現に対する忠実度を維持する。

[0115]ＦＦＰＥ正常サンプルに対する特定性：

[0116]方法

[0117]現実的なサンプルに対する特定性を評価するために、正常（無病）サンプルを用いた。リアライナを十分に検証するために、多数の低頻度の「ノイズ」変異を生じさせる低いＤＮＡクオリティを通例有する、ＦＦＰＥサンプルを用いた。特に、「リアライナ」のために、これらの低頻度の変異の各々は、偽の変異を導入する機会を与える。

[0118]これらは正常な非癌サンプルであるため、我々は、全ての真の変異は２倍体の頻度におけるものであると仮定する（異型接合に対しては～５０％、及び同型接合変異に対しては～１００％）。それゆえ、「体細胞」範囲（＜２０％ＶＡＦ）内のものはいずれも偽陽性と考えることができる。さらに、得られた体細胞突然変異数が低いほど、他の全てのことが同じなら、再整列方法は正確であると考えることができる。

[0119]以下の実験を遂行した。

[0120]１．癌における体細胞突然変異のカタログ（ＣａｔａｌｏｇｏｆＳｏｍａｔｉｃＭｕｔａｔｉｏｎｓｉｎＣａｎｃｅｒ、ＣＯＳＭＩＣ）オンラインデータベースからの目標変異を包含する既存物ＶＣＦを用いてアイザック変異コーラーを実行する。

[0121]２．「リアライナ」又はＧＡＴＫを用いてＢＡＭファイルを再整列する。

[0122]３．パイシーズ変異コーラーを用いて変異を呼び出す。

[0123]４．体細胞突然変異率を査定する。

[0124]２０個のＦＦＰＥ正常サンプルに対して解析を行った。ＦＦＰＥ正常サンプルは、ＩｌｌｕｍｉｎａＩｎｃ．によって提供されているＴｒｕＳｉｇｈｔＴｕｍｏｒ１７０アッセイを用いて準備し、配列決定し、ＴｒｕＳｉｇｈｔＴｕｍｏｒ１７０インフォマティクスパイプラインを通じて、整列ステップまで処理した。

[0125]結果

[0126]「リアライナ」は、全般的に、再整列されていない結果、又はＧＡＴＫにより再整列された結果のどちらよりも低い体細胞突然変異率（非癌サンプルにおける偽陽性率の代理）を示した（２０個の場合のうち３つにおいてのみ、「リアライナ」はＧＡＴＫよりも高いＦＰ（偽陽性）率を有したが、３つは全て極めて接近していた）。「リアライナ」は、再整列されていない場合、又はＧＡＴＫにより再整列された場合のどちらよりも積極的な欠失呼び出しを有するように見受けられた（図１６参照）。概して、インデル再整列は偽陽性を大幅に低減し、これは特に「リアライナ」に言えた。

[0127]図１６は、再整列されていない、ＧＡＴＫにより再整列された、又は本明細書において開示されるとおりの再整列方法の諸態様に従って再整列されたサンプルについての、全体的な、サンプルごとの体細胞突然変異数（非癌サンプルにおける偽陽性数の代理）を示す。図１７は、再整列されていない、ＧＡＴＫにより再整列された、又は本明細書において開示されるとおりの再整列方法の諸態様に従って再整列されたサンプルについての、突然変異型によって分類された、サンプルごとの体細胞突然変異数（非癌サンプルにおける偽陽性数の代理）を示す。

[0128]実行時間の評価

[0129]方法

[0130]ＦＦＰＥ正常評価のために用いた同じ２０個のサンプルを、入力ＢＡＭから、再整列された出力ＢＡＭに至るまでに要した計算時間について査定した。入力ＢＡＭファイルはおよそ６０００万個のリードを各々包含した。

[0131]結果

[0132]全ての場合において、「リアライナ」は中サイズのＢＡＭに対してＧＡＴＫよりも大幅に高速であった。図１８は、ＧＡＴＫ、及び本明細書に記載されている諸態様に係る再整列方法の諸態様についての、１００万個のアライメント当たりの再整列時間を示す。１００万個のアライメント当たりの再整列時間は、試験コンピュータシステム（単数又は複数）上において、ＧＡＴＫの場合、１００万個のアライメント当たり約１．５～５分に及び、「リアライナ」の場合、一貫して１０秒未満であった。

[0133]「リアライナ」は、既存のインデルの表現に対する忠実度を維持する高速で正確なインデル再整列アルゴリズムである。「リアライナ」は、インデルの周りにおいて再整列するべき入力配列アライメントデータセット内の既存の信号の存在を頼りにする。上述の例では、「リアライナ」は、既存物を考慮してアイザックによって生成されたＢＡＭファイルに対して使用された時に、特に好結果を出す。なぜなら、これは、入力ＢＡＭが、インデルを有する少なくとも１つのリードを包含することになる可能性を最大にするためである。

[0134]局所再整列のために期待されるゴールドスタンダードは、コンセンサス生成、及びコンセンサスの局所再整列を用いるパイルアップアプローチを含むであろう。しかし、コンセンサスベースの解決策は、時間及び計算要件の観点からコストがかかることが示されている。対照的に、「リアライナ」は各リードを個々に扱い、近位の観測されたインデルのコンテキストを、はるかにより単純な、候補ベースのアプローチのために用いる。

[0135]したがって、配列整列処理のためのプロセスが本明細書において説明される。図１９は、本明細書に記載されている諸態様に係る、配列整列処理のための例示的なプロセスを示す。図１９の処理は１つ又は複数のコンピュータシステムによって遂行され得る。特定の例では、コンピュータシステム上で実行するソフトウェアが入力配列アライメントデータセットファイルを開き、その内容を読み込む。内容は、一例として、リファレンス配列（単数又は複数）に対するリード配列のアライメントのバイナリ表現を含む。プロセスは、処理すべき次の初期アライメントが存在するかどうかを判定することによって開始する（１９０２）。存在しない場合には、プロセスは終了する。処理するべき次の初期アライメントが存在する場合には、プロセスは、配列アライメントデータセットから、リファレンス配列に対するリード配列の初期アライメントを得ること（メモリにすでに読み込まれていない場合）によって継続する（１９０４）。次に、この初期アライメントに対する処理を遂行する。最初に、処理は、得られた初期アライメントが再整列に適格であるかどうかを判定する（１９０６）。適格でない場合には、プロセスは、再整列処理を遂行することなく、初期アライメントをそのまま提供する（１９０８）。さもなければ、初期アライメントが再整列に適格である場合には、次に、プロセスは、初期アライメントに対する再整列処理を遂行することによって継続する（１９１０）。再整列処理はリード配列をリファレンス配列に対して再整列する。例示的な再整列処理が、以下において図２０を参照して図解され、説明される。そのプロセスの一部として、１つ又は複数の候補リアライメントを生成する。次に、図１９のプロセスは、１つ又は複数の選択基準に基づいて、初期アライメント、又は１つ又は複数の候補リアライメントのうちの選択された候補リアライメントを提供する（１９１２）。

[0136]選択基準は、一致しない塩基の数、インデルの数、配列アライメントデータセットによって指示されるリファレンスゲノム配列に対するインデルの部位、及び／又はソフトクリップされた塩基の数のうちの１つ又は複数に少なくとも一部基づくことができる。例によっては、選択基準は、インデルを有せず、一致しない単一の塩基のみを有するアライメントを、１つ又は複数のインデルを有するアライメントよりも提供のために優先し、一致しないより少数の塩基を有するアライメントを、一致しないより多数の塩基を有するアライメントよりも提供のために優先し、一致しない同数の塩基を有する異なるアライメントの間で、指定された種類のより少数のソフトクリップを有するアライメントを、指定された種類のより多数のソフトクリップを有するアライメントよりも提供のために優先し、並びに／或いは一致しない同数の塩基を有する異なるアライメントの間で、より少数のインデルを有するアライメントを、より多数のインデルを有するアライメントよりも提供のために優先する。

[0137]図１９を再び参照すると、適切なアライメントを提供した後に（１９０８、１９１２）、プロセスは、１９０２へ戻ることによって繰り返す。これは、処理のために承認された数個のものなどの、数個のものの追加の初期アライメントごとに繰り返すことができる。それゆえ、プロセスは、１つ又は複数の追加の初期アライメントの追加の初期アライメントごとに処理を遂行することによって繰り返す。すなわち、プロセスは、配列アライメントデータセットの１つ又は複数の追加の初期アライメントのうちの追加の初期アライメントごとに、得ること、及び得られた追加の初期アライメントが再整列に適格であるかどうかを判定することを繰り返す。

[0138]図２０は、本明細書に記載されている諸態様に係る、再整列処理のための例示的なプロセスを示す。図２０の処理は１つ又は複数のコンピュータシステムによって遂行され得る。プロセスは、１つ又は複数の候補インデルを識別することによって開始する（２００２）。１つ又は複数の候補インデルは、整列されたリード内の任意のもの、及び潜在的に、整列されたリードの付近若しくは近位において整列された他のインデルであることができる。初期リードアライメント内で指示されるものが０個以上、及び整列された配列の付近のものが０個以上存在してもよく、それゆえ、候補インデルは、整列されたリード内の０個以上のインデル、及び配列アライメントデータセットによって指示されるとおりの整列されたリードの近位において整列された０個以上のインデルを含むことができる。加えて、及び任意選択的に、リファレンスインデルデータセットが１つ又は複数のインデルを候補インデルのセットに導入のために供給し得る。

[0139]次に、図２０のプロセスは候補インデルを優先順位付けする（２００４）。優先順位付けは、任意の所望のアプローチを用いて候補インデルを優先順位付け又はランク付けする。例えば、優先順位付けは、リファレンスインデルデータセットによって既存の既知のインデルであると指示されたインデルを、リファレンスインデルデータセットによって既存の既知のインデルであると指示されないインデルよりも優先する。加えて、又は代替的に、優先順位付けは、より長い長さのインデルをより短い長さのインデルよりも優先する。加えて、又は代替的に、優先順位付けは、配列アライメントデータセットのより多数の整列されたリードにおいて指示されるインデルを、配列アライメントデータセットのより少数の整列されたリードにおいて指示されるインデルよりも優先する。加えて、又は代替的に、優先順位付けは、配列アライメントデータセットの同数の整列されたリードにおいて指示される異なるインデルの間で、配列アライメントデータセットによって指示されるリファレンスゲノム配列に対する部位が、別のインデルのために指示される、リファレンスゲノム配列内の部位より上流にあるインデルを優先する。

[0140]図２０のプロセスは、リード配列から、初期アライメントによって指示される任意のインデルを除去することに少なくとも基づいて、平坦化された整列されたリードを作成し（２００６）、次に、リファレンス配列に対するリード配列の１つ又は複数の候補リアライメントを決定すること（２００８）によって継続する。候補リアライメント（単数又は複数）を決定することは、１つ又は複数の候補リアライメントの候補リアライメントごとに、１つ又は複数の候補インデルのうちのそれぞれの少なくとも１つの候補インデルを平坦化された整列されたリードに導入することに基づいて行われる。１つ又は複数の候補インデルは複数の候補インデルを含むことができ、１つ又は複数の候補リアライメントを決定することは、複数の候補インデルを平坦化された整列されたリードに反復的に導入することを開始することを含むことができ、反復的導入の各反復は、候補リアライメントのためのそれぞれの少なくとも１つの候補インデルを平坦化された整列されたリードに導入することによって、１つ又は複数の候補リアライメントの候補リアライメントを提供する。反復的導入は、複数のインデルを、優先順位付けに基づく優先順位に従って導入することができる。

[0141]反復的導入は、複数の候補インデルのうちの１つ又は複数の候補インデルの順列を、平坦化されたリードに導入し、複数の順列のうちの順列ごとに、１つ又は複数の候補アライメントの異なる候補リアライメントを得る。

[0142]再整列処理（図２０）は、選択基準に基づいて１つ又は複数の候補リアライメントのうちの最良の候補リアライメントを最終的に選択する（２０１０）。この選択のためには、初期アライメントと最良の候補リアライメントとの間で選択するために図１９において用いられる基準とは異なる基準が用いられてもよい。それゆえ、最良の候補リアライメントの選択は、１つ又は複数の選択基準のうちの第１の基準に基づくことができ、ここで、選択された候補リアライメントは、選択された最良の候補リアライメントであり、出力すること（図１９、１９１２）は、１つ又は複数の選択基準のうちの第２の基準に基づいて初期アライメントと最良のリアライメント候補との間で選択する。

[0143]最良の候補リアライメントのこの選択は、提供された候補リアライメントを検査し、導入されたそれぞれの１つ又は複数の候補インデルを有する提供された候補リアライメントの整列されたリードが、提供された候補リアライメントの整列されたリードとリファレンス配列との間で一致しない塩基を有することなく、リファレンス配列と整列するかどうかを判定することを含み得る。提供された候補リアライメントの整列されたリードが、一致しない塩基を有することなく、リファレンス配列と整列すると判定したことに基づいて、候補インデル（単数又は複数）を平坦化された整列されたリードに反復的に導入することは停止することができ、一致しない塩基を有しない提供された候補リアライメントは、選択された候補リアライメントとして提供され得る（２０１０）。これらの場合において、提供すること（図１９、１９１２）は、リファレンス配列と整列する提供された候補リアライメントの整列されたリードに基づいて、選択された候補リアライメントを出力することができる。

[0144]図２１は、本明細書に記載されている諸態様に係る、初期アライメントが再整列処理を受ける適格性を決定するための例示的なプロセスを示す。この適格性の決定は図１９（１９０６）において遂行される。図２１の処理は１つ又は複数のコンピュータシステムによって遂行され得る。プロセスは、初期アライメントの整列されたリードとリファレンス配列との間で一致しないいくらかの（例えば、１つ又は複数の）塩基が存在するかどうか、又は整列されたリードがソフトクリップを含むかどうかを判定することによって開始する（２１０２）。どちらでもない場合には、次に、プロセスは、アライメントが再整列に不適格であると判定する（２１０８）。さもなければ、一致しない塩基（単数又は複数）及び／又はソフトクリップ（単数又は複数）が存在し、プロセスは、アライメントが二次アライメントであるかどうかを判定することによって継続する（２１０４）。アライメントが二次アライメントであるか否かは、一例では、配列アライメントデータセット内で指示されてもよい。アライメントが二次アライメントであると識別した場合には、プロセスは、アライメントが再整列に不適格であると判定する（２１０８）。さもなければ、プロセスは、初期アライメントが二次アライメントでないと識別し、配列アライメントデータセットのリファレンスゲノム配列の塩基の領域内において、整列されたリードの周りにいくらかの候補インデル（単数又は複数）が存在するかどうかを判定することを継続する（２１０６）。それゆえ、１つも存在しない場合には、プロセスは、アライメントが再整列に不適格であると判定する（２１０８）。さもなければ、プロセスは、初期アライメントが再整列処理に適格であると判定し（２１１０）、プロセスは終了する。

[0145]図２１の例は、アライメントが再整列処理に適格であるかどうかを判定するための一部の可能な基準のみを提示している。同じ、又は他の基準が、単独で、又は１つ又は複数の他の基準と組み合わせて用いられてもよい。

[0146]本明細書に記載されているプロセスは、１つ又は複数のコンピュータシステムによって、単独で、又は一括して遂行されてもよい。図２２は、本明細書に記載されている諸態様を組み込み、及び／又は用いるためのこのようなコンピュータシステム及び関連デバイスの一例を示す。コンピュータシステムは、本明細書において、データ処理デバイス／システム又はコンピューティングデバイス／システム／ノード、或いは単にコンピュータと呼ばれる場合もある。図２２に示されるコンピュータシステム２２００は、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、シッククライアント、ハンドヘルド若しくはラップトップデバイス、モバイルデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能家庭用電化製品、ネットワークＰＣ、ミニコンピュータシステム、メインフレームコンピュータシステム、及び／又は上述のシステム若しくはデバイスのうちの任意のものを含む分散クラウドコンピューティング環境、並びに同様のもののうちの１つ又は複数として実装され得る。

[0147]システム２２００は、１つ又は複数のプロセッサ又は処理ユニット２２５０、並びに揮発性メモリ２２５４（例えば、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＡＭ）及び不揮発性メモリ２０５６を含むメモリ２２５２を含む。メモリ２２５２は、取り外し可能／非取り外し可能な、揮発性／不揮発性コンピュータシステム記憶媒体をさらに含み得る。さらに、メモリ２２５２は、ハードドライブなどの、非取り外し可能な不揮発性磁気媒体からの読み取り及びそれへの書き込みのための１つ又は複数の読み取り装置、取り外し可能な不揮発性磁気ディスクからの読み取り及びそれへの書き込みのための磁気ディスクドライブ、並びに／或いはＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭなどの取り外し可能な不揮発性光ディスクからの読み取り又はそれへの書き込みのための光ディスクドライブを含み得る。システム２２００はまた、種々のコンピュータ可読有形記憶媒体も含み得る。このような媒体は、揮発性及び不揮発性媒体、並びに取り外し可能及び非取り外し可能媒体などの、任意の利用可能な媒体であり得る。

[0148]メモリ２２５２は、実行されると、本明細書に記載されている機能を実施する実行可能命令として実装されるプログラムモジュールのセット（例えば、少なくとも１つ）を有する少なくとも１つのプログラム製品を含み得る。実行可能命令２２５８は、オペレーティングシステム、１つ又は複数のアプリケーションプログラム、他のプログラムモジュール、及びプログラムデータ、或いは他の種類のソフトウェアを含み得る。概して、プログラムモジュールは、特定のタスクを遂行するか、又は特定の抽象データ型を実装する、ルーチン、プログラム、オブジェクト、コンポーネント、論理、データ構造などを含み得る。プログラムモジュールは、限定するものではないが、配列決定データリード再整列を含む、本明細書に記載されている機能、プロセス、方法、及び同様のものを実施し得る。

[0149]コンピュータシステム２２００の構成要素は、メモリバス又はメモリコントローラ、周辺バス、アクセラレイティッドグラフィックスポート、並びに種々のバスアーキテクチャのうちの任意のものを用いるプロセッサ又はローカルバスを含む、いくつかの種類のバス構造のうちの任意のもののうちの１つ又は複数として実装され得る内部バス２２６０によって結合され得る。

[0150]コンピュータシステム２２００はまた、キーボード、ポインティングデバイス、ディスプレイ２２６２等などの１つ又は複数の外部デバイス、並びに／或いはコンピュータシステム２２００が、クラウドコンピューティング環境においてホストされるサーバ又は他のシステムなどの、１つ又は複数の他のコンピュータシステムと通信することを可能にする任意のデバイス（例えば、ネットワークカード、モデム等）と通信し得る。このような通信は、好適なネットワークアダプタを介して、ローカルエリアネットワーク（ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ、ＬＡＮ）、汎用ワイドエリアネットワーク（ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ、ＷＡＮ）、及び／又は公衆ネットワーク（例えば、インターネット）などの１つ又は複数のネットワークにインターフェース接続するネットワークインターフェースを含み得る、Ｉ／Ｏインターフェース２２６４を介して行うことができる。

[0151]次に、コンピュータシステムを用いた配列決定のさらなる諸態様が説明される。図２３は、例えば、図２４を参照して説明されるクラウドコンピューティング環境と併せて用いられ得る配列決定デバイス２３００の概略図である。配列デバイス２３００は、合成による配列決定方法又は連結による配列決定技法を組み込むものなどの、任意の配列決定技法に従って実装され得る。一部の実施形態は、標的核酸鎖、又は標的核酸からエキソヌクレアーゼにより除去されたヌクレオチドがナノポアを通過する、ナノポア配列決定を利用することができる。標的核酸又はヌクレオチドがナノポアを通過する際に、ポアの電気伝導度の変動を測定することによって塩基の各種類を識別することができる。さらに他の実施形態は、伸長産物へのヌクレオチドの取り込み時に放出される陽子の検出を含む。例えば、放出された陽子の検出に基づく配列決定は、電気的検出器及び関連技法を用いることができる。特定の諸実施形態は、ＤＮＡポリメラーゼ活性のリアルタイム監視を含む方法を利用することができる。ヌクレオチドの取り込みは、フルオロフォア含有ポリメラーゼとｙ－リン酸塩標識ヌクレオチドとの間の蛍光共鳴エネルギー移動（ｆｌｕｏｒｅｓｃｅｎｃｅｒｅｓｏｎａｎｃｅｅｎｅｒｇｙｔｒａｎｓｆｅｒ、ＦＲＥＴ）相互作用を通じて、又はゼロモード導波路を用いて検出することができる。他の好適な代替的な技法としては、例えば、蛍光ｉｎｓｉｔｕ配列決定（ｆｌｕｏｒｅｓｃｅｎｔｉｎｓｉｔｕｓｅｑｕｅｎｃｉｎｇ、ＦＩＳＳＥＱ）、及び大規模並列サイン配列決定（ＭａｓｓｉｖｅｌｙＰａｒａｌｌｅｌＳｉｇｎａｔｕｒｅＳｅｑｕｅｎｃｉｎｇ、ＭＰＳＳ）が挙げられる。特定の諸実施形態では、配列決定デバイス１６は、ＩｌｌｕｍｉｎａＩｎｃ．からのＨｉＳｅｑ、ＭｉＳｅｑ、又はＨｉＳｃａｎＳＱであってもよい。

[0152]図示の実施形態では、配列決定デバイス２３００は、別個のサンプル処理デバイス２３１８及び関連コンピュータシステム２３２０を含む。しかし、上述のように、これらは単一のデバイスとして実装されてもよい。さらに、関連コンピュータ２３２０は、サンプル処理デバイス２３１８にローカルであるか、又は（例えば、クラウド若しくは他のより遠隔の提供物として）サンプル処理デバイス２３１８とネットワーク化されていてもよい。実施形態によっては、コンピュータ２３２０は、配列決定デバイス２３００から遠隔にあるクラウドコンピューティングデバイスであってもよい。すなわち、コンピュータ２３２０は、クラウドコンピューティング環境を通じて配列決定デバイス２３００と通信する能力を有し得る。図示の実施形態では、生体サンプルは、配列データを生成するために撮像されるサンプルスライド２３７０としてサンプル処理デバイス２３１８内に装填されてもよい。例えば、生体サンプルと相互作用する試薬が、撮像モジュール２３７２によって発生された励起ビームに応じて特定の波長において蛍光を発し、以て、撮像のための放射線を返す。例えば、蛍光構成要素は、構成要素の相補的分子に、又はポリメラーゼを用いてオリゴヌクレオチドに取り込まれた蛍光タグ付きヌクレオチドにハイブリダイズする蛍光タグ付き核酸によって生成され得る。当業者によって理解されるように、サンプルの染料が励起される波長、及び染料が蛍光を発する波長は、特定の染料の吸収及び放出スペクトルに依存することになる。このように返された放射線は、誘導光学系を通して逆に伝搬し得る。この逆行ビームは、概して、撮像モジュール２３７２の検出光学系に向けて誘導され得る。

[0153]撮像モジュール検出光学系は、任意の好適な技術に基づくことができ、例えば、デバイス内の部位に衝突する光子に基づいて、ピクセル化された画像データを生成する電荷結合素子（ｃｈａｒｇｅｄｃｏｕｐｌｅｄｄｅｖｉｃｅ、ＣＣＤ）センサであり得る。しかし、限定するものではないが、時間遅延積分（ｔｉｍｅｄｅｌａｙｉｎｔｅｇｒａｔｉｏｎ、ＴＤＩ）動作のために構成された検出器アレイ、相捕型金属酸化膜半導体（ｃｏｍｐｌｅｍｅｎｔａｒｙｍｅｔａｌｏｘｉｄｅｓｅｍｉｃｏｎｄｕｃｔｏｒ、ＣＭＯＳ）検出器、アバランシェフォトダイオード（ａｖａｌａｎｃｈｅｐｈｏｔｏｄｉｏｄｅ、ＡＰＤ）検出器、ガイガーモード光子計数器、又は任意の他の好適な検出器を含む、種々の他の検出器のうちの任意のものが同様に用いられ得ることが理解されるであろう。ＴＤＩモード検出はライン走査と結合され得る。他の有用な検出器が、例えば、本明細書において、様々な核酸配列決定方法論の文脈において以前に提供された参照文献に記載されている。

[0154]撮像モジュール２３７２は、例えば、プロセッサ２３７４を介して、プロセッサの制御を受けることができ、サンプル受け取りデバイス２３１８はまた、Ｉ／Ｏ制御装置２３７６、内部バス２３７８、不揮発性メモリ２３８０、ＲＡＭ２３８２、及びメモリが実行可能命令を記憶する能力を有するようにするための任意の他のメモリ構造、並びに図２２に関して説明されたものと同様であり得る他の好適なハードウェア構成要素を含み得る。さらに、関連コンピュータ２３２０はまた、プロセッサ２３８４、Ｉ／Ｏ制御装置２３３８６、通信モジュール２３８７、並びにＲＡＭ２３８８及び不揮発性メモリ２３９０を含むメモリアーキテクチャを含み得、これにより、メモリアーキテクチャは、実行可能命令２３９２を記憶する能力を有する。ハードウェア構成要素は、ディスプレイ２３９６にもリンクし得る、内部バス２３９４によってリンクされ得る。配列決定デバイスがオールインワンデバイスとして実装される諸実施形態では、特定の余分なハードウェア要素は除かれてもよい。

[0155]次に図２４を参照すると、生体データのためのクラウドコンピューティング環境２４１０が概略的に示されている。本明細書で使用するとき、用語「クラウド」又は「クラウドコンピューティング環境」は、インターネットに通例基づくことになる、様々な発展中の機構、インフラストラクチャ、ネットワーク、及び同様のものを指し得る。用語は、クライアントクラウド、アプリケーションクラウド、プラットフォームクラウド、インフラストラクチャクラウド、サーバクラウドなどを含む、任意の種類のクラウドを指し得る。当業者によって理解されるように、このような機構は、概して、配列決定デバイスの所有者又はユーザによる利用を可能にし、サービスとしてのソフトウェア（ｓｏｆｔｗａｒｅａｓａｓｅｒｖｉｃｅ）（ＳａａＳ）を提供し、サービスとしてのコンピューティングプラットフォーム（ｃｏｍｐｕｔｉｎｇｐｌａｔｆｏｒｍａｓａｓｅｒｖｉｃｅ）（ＰａａＳ）の様々な態様を提供し、様々なサービスとしてのネットワークインフラストラクチャ（ｎｅｔｗｏｒｋｉｎｆｒａｓｔｒｕｃｔｕｒｅｓａｓａｓｅｒｖｉｃｅ）（ＩａａＳ）を提供する、などすることになる。さらに、この用語には、パブリッククラウド、コミュニティクラウド、ハイブリッドクラウド、及びプライベートクラウドを含む、これらの製品及びサービスのための様々な種類及び事業構成が含まれるべきである。これらのうちの任意のもの又は全てはサードパーティエンティティによってサービスされ得る。しかし、特定の諸実施形態では、プライベートクラウド又はハイブリッドクラウドは、許可されたユーザの間での配列データ及びサービスの共有を可能にし得る。

[0156]クラウド設備２４１２は複数のコンピュータシステム／ノード２４１４を含む。ノード２４１４のコンピューティングリソースは、複数の消費者に供するためにプールされてもよく、消費者要求に従って、異なる物理リソース及び仮想リソースが動的に割り当てられ、再割り当てされる。リソースの例としては、記憶、処理、メモリ、ネットワーク帯域幅、及び仮想マシンが挙げられる。ノード２４１４は、リソースを分配するために互いに通信することができ、このような通信、及びリソースの分配の管理は、１つ又は複数のノード２４１４内に常駐するクラウド管理モジュールによって制御され得る。ノード２４１４は、任意の好適な機構及びプロトコルを介して通信し得る。さらに、ノード２４１４は、１つ又は複数のプロバイダに関連付けられたサーバを含み得る。例えば、特定のプログラム又はソフトウェアプラットフォームは、プログラムの所有者によって提供されるノード２４１４のセットを介してアクセスされてもよく、その一方で、他のノード２４１４はデータ保管会社によって提供される。特定のノード２４１４はまた、より高い負荷時に用いられるオーバフローノードであってもよい。

[0157]一実施形態では、クラウド管理モジュールが負荷管理及びクラウドリソースの責任を負う。負荷管理は、ユーザアクセスレベル及び／又はクラウドコンピューティング環境内の総負荷（ピーク時対平均負荷時）を含む、種々の因子の考慮を通じて実施され得る。プロジェクトタイプも考慮され得る。一実施形態では、公衆衛生緊急事態が他の種類のプロジェクトよりも優先され得る。さらに、ユーザは、クラウド使用が特定の閾値を下回るまで保持される特定の実行を、優先度のより低いものとして提供することによって、コストを管理し得る。

[0158]クラウド設備２４１２は、生体データを生成するための様々なユーザ（例えば、ユーザコンピュータシステム）と通信するように構成されている。このようなデータは、配列決定デバイス２４１６を介して生成された配列データを含み得る。配列決定デバイス２４１６は、特定の諸実施形態では、生体サンプルを受け入れ、配列データを生成するためのモジュールを含む配列決定デバイス２４１８、並びに配列データを解析するか、又はクラウド設備２４１２へ通信するための実行可能命令を含む関連コンピュータ２４２０を含み得る。特定の諸実施形態では、配列決定デバイス２４１６はまた、オールインワンデバイスとして実装され得ることを理解されたい。配列決定デバイス２４１６は、好適な通信リンク２４２４を介してクラウド設備２４１２と通信するように構成されている。クラウド設備２４１２との通信は、ローカルエリアネットワーク（ＬＡＮ）、汎用ワイドエリアネットワーク（ＷＡＮ）、及び／又は通信リンク２４２４を介した公衆ネットワーク（例えば、インターネット）を介した通信を含み得る。特に、通信リンク２４２４は、配列データ２４２６、及び、特定の諸実施形態では、認証情報２４２８をクラウドコンピューティング環境２４１２へ送信する。認証情報は、配列決定デバイス２４１６がクラウド設備２４１２のクライアントであることを確認し得る。

[0159]上述のように、クラウド設備２４１２は複数のユーザ又はクライアントに、関連デバイス、例えば、デバイス２４１６ａ、２４１６ｂ、及び２４１６ｃを供し得る。さらに、クラウド設備２４１２はまた、二次ユーザ２４３０又はサードパーティソフトウェア保有者などの、他の種類のクライアントによってアクセスされ得る。したがって、クラウド設備２４１２は、特定のクライアントのアクセスレベルに依存して、異なる種類のサービスを提供し得る。配列決定クライアントは保管及びデータ解析サービスへのアクセスを有し得、その一方で、二次ユーザ２４３０は共有又は公開配列へのアクセスのみを有し得る。サードパーティソフトウェア保有者は、適切なアクセス特権を決定するために、配列決定クライアントとネゴシエートし得る。例えば、オープンソースソフトウェアは、無料で、又は限定ライセンスに基づいて提供されてもよく、その一方で、他の種類のソフトウェアは様々な料金又は加入基盤に従って提供されてもよい。

[0160]さらに、一次ユーザ（又は二次ユーザ）はまた、コンピュータ２４２０に関して説明されたものと同様の構成要素を含むモバイルデバイス又は他のコンピュータシステムなどの、任意の適切なアクセスデバイスを通じてクラウド設備２４１２と対話し得る。すなわち、配列データがクラウド設備２４１２へ通信されると、配列データとのさらなる対話及びそれへのアクセスは必ずしも配列デバイス２４１６に結合されなくてもよい。このような実施形態は、生体サンプル及び／又は配列データの所有者が、例えば、中核研究施設に対して、配列決定を請け負った実施形態において有益であり得る。このような実施形態では、一次ユーザは所有者であってもよく、その一方で、配列決定デバイス２４１６に関連付けられた中核研究施設は、せいぜい、配列データがクラウド設備２４１２へ通信された後の二次ユーザである。特定の諸実施形態では、配列データは、クラウド設備２４１２、又は特定の機関若しくはＩＰアドレスを有する団体内のパスワードで保護されたクライアントアカウントなどのセキュリティパラメータを通じてアクセスされてもよい。配列データは、１つ又は複数のファイルをクラウド設備２４１２からダウンロードすることによって、又は配列データがテキスト、画像、及び／又はハイパーリンクとして示されるグラフィカルユーザディスプレイを提供するウェブベースのインターフェース又はソフトウェアプログラムにログインすることによって、アクセスされてもよい。このような実施形態では、配列データは、通信リンク又はネットワークを介して伝送されるデータパケットの形態で一次又は二次ユーザへ提供されてもよい。

[0161]クラウド設備２４１２は、グラフィカルユーザインターフェースをユーザに提供し、配列データ、研究者のコミュニティ又はグループ、データ解析プログラム、利用可能なサードパーティソフトウェア、並びに負荷バランシング及び機器設定のためのユーザ選択へのアクセスを容易にするユーザ対話ソフトウェアを（例えば、ウェブベースのインターフェース又はアプリケーションプラットフォームを介して）実行し得る。例えば、特定の諸実施形態では、配列決定デバイス２４１６上での配列決定実行のための設定がクラウド設備２４１２を介して設定され得る。したがって、クラウド設備２４１２及び個々の配列決定デバイス２４１６は双方向通信の能力を有し得る。このような実施形態は、遠隔の配列決定実行のパラメータを制御するために特に有用であり得る。

[0162]配列決定実行及び様々な解析の結果は、例として、ＦＡＳＴＱファイル、バイナリアライメントファイル（ｂａｍ）、＊．ｂｃｌ、＊．ｖｃｆ、及び／又は＊．ｃｓｖファイルの形式をとるファイルに記憶することができる。出力ファイルは、配列データ閲覧、変更、アノテーション、操作、整列、及び再整列ソフトウェアと互換性のあるフォーマットのものであり得る。したがって、本明細書において提供されるアクセス可能な配列アライメントデータセットは、生データ、部分的に処理された、若しくは処理されたデータ、及び／又は特定のソフトウェアプログラムと互換性のあるデータファイルの形式のものであり得る。これに関連して、例として、配列決定デバイスのコンピュータシステム、若しくは配列決定デバイスと通信するコンピュータシステム、又はクラウド設備のコンピュータシステムなどの、コンピュータシステムは、ｂａｍ又は他の配列決定アライメントデータセットを得、例えば、そのデータを読み取り、本明細書に記載されている諸態様の実施への操作を遂行することによってファイルを処理することができる。コンピュータシステムは、次に、配列決定アライメントデータを有するファイル、例えば、別のｂａｍファイルを出力することができる。さらに、出力ファイルは他のデータ共有プラットフォーム又はサードパーティソフトウェアと互換性を有し得る。

[0163]様々な実施形態が上述されたが、これらは例に過ぎない。例えば、１つ又は複数の実施形態を組み込み、使用するために、他のアーキテクチャのコンピューティング環境を用いることができる。

[0164]本明細書において用いられる用語法は、特定の実施形態を説明することのみを目的とするものであり、限定を意図されてはいない。本明細書において使用される時、単数形「ａ」、「ａｎ」及び「ｔｈｅ」は、文脈がそうではないことを明確に示さない限り、複数形も含むことが意図される。さらに、用語「備える（ｃｏｍｐｒｉｓｅｓ）」及び／又は「備える（ｃｏｍｐｒｉｓｉｎｇ）」は、本明細書で使用される場合、記述される特徴、整数、ステップ、動作、要素、及び／又は構成要素の存在を指定するが、１つ又は複数の他の特徴、整数、ステップ、動作、要素、構成要素、及び／又はそれらの群の存在若しくは追加を排除するものではないことを理解されたい。

[0165]添付の請求項における全てのミーンズ又はステップ・プラス・ファンクション要素の対応する構造、物、行為、及び同等物は、存在する場合には、具体的にクレームされているとおりに、他のクレームされている要素と組み合わせて機能を遂行するための任意の構造、物、又は行為を含むことが意図される。１つ又は複数の実施形態の説明は例示及び説明を目的として提示されたが、網羅的であること、又は開示されている形態に限定されることを意図されてはいない。多くの変更及び変形が当業者には明らかであろう。実施形態は、様々な態様及び実際の適用を最もうまく説明し、他の当業者が、様々な実施形態を、企図される特定の使用に適した様々な変更とともに理解することを可能にするために選定され、説明された。
［発明の項目］
［項目１］
配列決定データリード再整列のためのコンピュータ実施方法であって、
配列アライメントデータセットから、リファレンス配列に対するリード配列の初期アライメントを得るステップであって、前記初期アライメントが、整列されたリードを含む、ステップと、
前記初期アライメントに対して再整列処理を遂行するステップであって、前記再整列処理が前記リード配列を前記リファレンス配列に対して再整列し、１つ又は複数の候補リアライメントを生成し、前記再整列処理が、
１つ又は複数の候補インデルを識別することであって、前記１つ又は複数の候補インデルが、前記整列されたリード内の０個以上のインデル、及び前記配列アライメントデータセットによって指示されるとおりの前記整列されたリードの近位において整列された０個以上のインデルを含む、識別すること、
前記整列されたリードから、前記初期アライメントによって指示されるあらゆるインデルを除去することに少なくとも基づいて、平坦化された整列されたリードを作成すること、並びに
前記１つ又は複数の候補リアライメントの候補リアライメントごとに、前記１つ又は複数の候補インデルのうちのそれぞれの少なくとも１つの候補インデルを前記平坦化された整列されたリードに導入することに基づいて、前記リファレンス配列に対する前記リード配列の前記１つ又は複数の候補リアライメントを決定すること、
を含む、ステップと、
１つ又は複数の選択基準に基づいて、前記初期アライメント、又は前記１つ又は複数の候補リアライメントのうちの選択された候補リアライメントを提供するステップと、
を含む、コンピュータ実施方法。
［項目２］
前記１つ又は複数の候補インデルが複数の候補インデルを含み、前記１つ又は複数の候補リアライメントを前記決定することが、前記複数の候補インデルを前記平坦化された整列されたリードに反復的に導入することを開始することを含み、前記反復的に導入することの各反復が、前記候補リアライメントのための前記それぞれの少なくとも１つの候補インデルを前記平坦化された整列されたリードに導入することによって、前記１つ又は複数の候補リアライメントの候補リアライメントを提供する、項目１に記載のコンピュータ実施方法。
［項目３］
前記反復的に導入することが、前記複数の候補インデルのうちの１つ又は複数の候補インデルの順列を前記平坦化された整列されたリードに導入し、前記複数の順列のうちの順列ごとに、前記１つ又は複数の候補アライメントの異なる候補リアライメントを得る、項目２に記載のコンピュータ実施方法。
［項目４］
前記再整列処理が、
前記１つ又は複数の候補リアライメントのうちの提供された候補リアライメントを検査し、前記導入されたそれぞれの１つ又は複数の候補インデルを有する前記提供された候補リアライメントの整列されたリードが、前記提供された候補リアライメントの前記整列されたリードと前記リファレンス配列との間で一致しない塩基を有することなく、前記リファレンス配列と整列するかどうかを判定すること、
前記提供された候補リアライメントの前記整列されたリードが、一致しない塩基を有することなく、前記リファレンス配列と整列すると判定したことに基づいて、前記反復的に導入することを停止すること、並びに
前記提供された候補リアライメントを、前記選択された候補リアライメントとして選択することであって、前記提供することが、前記リファレンス配列と整列する前記提供された候補リアライメントの前記整列されたリードに基づいて、前記選択された候補リアライメントを出力する、選択すること、
をさらに含む、項目３に記載のコンピュータ実施方法。
［項目５］
前記再整列処理が、前記複数のインデルを前記反復的に導入することのために優先順位付けすることをさらに含み、前記反復的に導入することが、前記複数のインデルを、前記優先順位付けすることに基づく優先順位に従って導入する、項目２に記載のコンピュータ実施方法。
［項目６］
前記優先順位付けすることが、リファレンスインデルデータセットによって既存の既知のインデルであると指示されたインデルを、前記リファレンスインデルデータセットによって、既存の既知のインデルであると指示されないインデルよりも優先する、項目５に記載のコンピュータ実施方法。
［項目７］
前記優先順位付けすることが、より長い長さのインデルをより短い長さのインデルよりも優先する、項目５に記載のコンピュータ実施方法。
［項目８］
前記優先順位付けすることが、前記配列アライメントデータセットのより多数の整列されたリードにおいて指示されるインデルを、前記配列アライメントデータセットのより少数の整列されたリードにおいて指示されるインデルよりも優先するか、又は前記優先順位付けすることが、前記リファレンス配列に対するインデルの部位に対応する前記配列アライメントデータセットのより大きい比率の整列されたリードにおいて指示される前記インデルを、前記配列アライメントデータセットのより小さい比率の整列されたリードにおいて指示されるインデルよりも優先する、項目５に記載のコンピュータ実施方法。
［項目９］
前記優先順位付けすることが、前記配列アライメントデータセットの同数の整列されたリードにおいて指示される異なるインデルの間で、前記配列アライメントデータセットによって指示されるリファレンスゲノム配列に対する部位が、別のインデルのために指示される前記リファレンスゲノム配列に対する部位より上流にあるインデルを優先する、項目５に記載のコンピュータ実施方法。
［項目１０］
前記選択基準が、一致しない塩基の数、インデルの数、前記配列アライメントデータセットによって指示されるリファレンスゲノム配列に対するインデルの部位、及びソフトクリップされた塩基の数のうちの１つ又は複数に少なくとも一部基づく、項目１に記載のコンピュータ実施方法。
［項目１１］
前記選択基準が、
インデルを有せず、一致しない単一の塩基のみを有するアライメントを、１つ又は複数のインデルを有するアライメントよりも前記提供のために優先すること、
一致しないより少数の塩基を有するアライメントを、一致しないより多数の塩基を有するアライメントよりも前記提供のために優先すること、
一致しない同数の塩基を有する異なるアライメントの間で、指定された種類のより少数のソフトクリップを有するアライメントを、前記指定された種類のより多数のソフトクリップを有するアライメントよりも前記提供のために優先すること、並びに
一致しない同数の塩基を有する異なるアライメントの間で、より少数のインデルを有するアライメントを、より多数のインデルを有するアライメントよりも前記提供のために優先すること、
のうちの１つ又は複数である、項目１、２、３、４、５及び１０のいずれか一項に記載のコンピュータ実施方法。
［項目１２］
前記再整列処理が、前記１つ又は複数の選択基準のうちの第１の基準に基づいて前記１つ又は複数の候補リアライメントのうちの最良の候補リアライメントを選択することをさらに含み、前記選択された候補リアライメントが、前記選択された最良の候補リアライメントであり、前記出力することが、前記１つ又は複数の選択基準のうちの第２の基準に基づいて前記初期アライメントと前記最良のリアライメント候補との間で選択する、項目１、２、３、４、５及び１０のいずれか一項に記載のコンピュータ実施方法。
［項目１３］
前記得られた初期アライメントが再整列に適格であるかどうかを判定するステップをさらに含み、該判定するステップが、
前記初期アライメントの前記整列されたリードと前記リファレンス配列との間で一致しない１つ又は複数の塩基が存在するかどうかを識別すること、
前記整列されたリードがソフトクリップを含むかどうかを識別すること、
前記初期アライメントが二次アライメントではないかどうかを識別すること、及び
前記配列アライメントデータセットのリファレンスゲノム配列の塩基の領域内において、前記整列されたリードの周りに候補インデルが存在するかどうかを識別すること、
のうちの１つ又は複数に少なくとも一部基づく、項目１、２、３、４、５及び１０のいずれか一項に記載のコンピュータ実施方法。
［項目１４］
前記得られた初期アライメントが再整列に適格であるかどうかを判定し、前記再整列処理と、前記得られた初期アライメントが再整列に適格であると判定したことに基づいて、前記初期アライメント又は選択された候補リアライメントを前記提供することとを遂行するステップと、
前記配列アライメントデータセットの１つ又は複数の追加の初期アライメントのうちの追加の初期アライメントごとに、前記得ること、及び前記得られた追加の初期アライメントが再整列に適格であるかどうかを前記判定することを繰り返すステップと、
前記１つ又は複数の追加の初期アライメントのうちの追加の初期アライメントごとに処理を遂行するステップであって、処理を遂行する前記ステップが、
（ｉ）前記再整列処理を遂行せず、前記追加の初期アライメントをそのまま提供すること、又は
（ｉｉ）前記再整列処理と、前記追加の初期アライメント若しくは選択された候補リアライメントを前記提供することとを遂行することを含む、ステップと、
をさらに含む、項目１、２、３、４、５及び１０のいずれか一項に記載のコンピュータ実施方法。
［項目１５］
配列決定データリード再整列のためのコンピュータシステムであって、メモリと少なくとも１つのプロセッサとを備え、方法を遂行するためのプログラム命令を実行するように構成されており、前記方法が、
配列アライメントデータセットから、リファレンス配列に対するリード配列の初期アライメントを得ることであって、前記初期アライメントが、整列されたリードを含む、得ることと、
前記初期アライメントに対して再整列処理を遂行することであって、前記再整列処理が前記リード配列を前記リファレンス配列に対して再整列し、１つ又は複数の候補リアライメントを生成し、前記再整列処理が、
１つ又は複数の候補インデルを識別することであって、前記１つ又は複数の候補インデルが、前記整列されたリード内の０個以上のインデル、及び前記配列アライメントデータセットによって指示されるとおりの前記整列されたリードの近位において整列された０個以上のインデルを含む、識別すること、
前記整列されたリードから、前記初期アライメントによって指示されるあらゆるインデルを除去することに少なくとも基づいて、平坦化された整列されたリードを作成すること、並びに
前記１つ又は複数の候補リアライメントの候補リアライメントごとに、前記１つ又は複数の候補インデルのうちのそれぞれの少なくとも１つの候補インデルを前記平坦化された整列されたリードに導入することに基づいて、前記リファレンス配列に対する前記リード配列の前記１つ又は複数の候補リアライメントを決定すること、
を含む、遂行することと、
１つ又は複数の選択基準に基づいて、前記初期アライメント、又は前記１つ又は複数の候補リアライメントのうちの選択された候補リアライメントを提供することと、
を含む、コンピュータシステム。
［項目１６］
前記１つ又は複数の候補インデルが複数の候補インデルを含み、前記１つ又は複数の候補リアライメントを前記決定することが、前記複数の候補インデルを前記平坦化された整列されたリードに反復的に導入することを開始することを含み、前記反復的に導入することの各反復が、前記候補リアライメントのための前記それぞれの少なくとも１つの候補インデルを前記平坦化された整列されたリードに導入することによって、前記１つ又は複数の候補リアライメントの候補リアライメントを提供し、前記反復的に導入することが、前記複数の候補インデルのうちの１つ又は複数の候補インデルの順列を前記平坦化された整列されたリードに導入し、前記複数の順列のうちの順列ごとに、前記１つ又は複数の候補アライメントの異なる候補リアライメントを得る、項目１５に記載のコンピュータシステム。
［項目１７］
前記再整列処理が、
前記１つ又は複数の候補リアライメントのうちの提供された候補リアライメントを検査し、前記導入されたそれぞれの１つ又は複数の候補インデルを有する前記提供された候補リアライメントの整列されたリードが、前記提供された候補リアライメントの前記整列されたリードと前記リファレンス配列との間で一致しない塩基を有することなく、前記リファレンス配列と整列するかどうかを判定すること、
前記提供された候補リアライメントの前記整列されたリードが、一致しない塩基を有することなく、前記リファレンス配列と整列すると判定したことに基づいて、前記反復的に導入することを停止すること、並びに
前記提供された候補リアライメントを、前記選択された候補リアライメントとして選択することであって、前記提供することが、前記リファレンス配列と整列する前記提供された候補リアライメントの前記整列されたリードに基づいて、前記選択された候補リアライメントを出力する、選択すること、
をさらに含む、項目１６に記載のコンピュータシステム。
［項目１８］
前記再整列処理が、前記複数のインデルを前記反復的に導入することのために優先順位付けすることをさらに含み、前記反復的に導入することが、前記複数のインデルを、前記優先順位付けすることに基づく優先順位に従って導入する、項目１６又は１７に記載のコンピュータシステム。
［項目１９］
配列決定データリード再整列のためのコンピュータプログラム製品であって、
方法を遂行するための実行用のプログラム命令を記憶する有形記憶媒体を含み、前記方法が、
配列アライメントデータセットから、リファレンス配列に対するリード配列の初期アライメントを得ることであって、前記初期アライメントが、整列されたリードを含む、得ることと、
前記初期アライメントに対して再整列処理を遂行することであって、前記再整列処理が前記リード配列を前記リファレンス配列に対して再整列し、１つ又は複数の候補リアライメントを生成し、前記再整列処理が、
１つ又は複数の候補インデルを識別することであって、前記１つ又は複数の候補インデルが、前記整列されたリード内の０個以上のインデル、及び前記配列アライメントデータセットによって指示されるとおりの前記整列されたリードの近位において整列された０個以上のインデルを含む、識別すること、
前記整列されたリードから、前記初期アライメントによって指示されるあらゆるインデルを除去することに少なくとも基づいて、平坦化された整列されたリードを作成すること、並びに
前記１つ又は複数の候補リアライメントの候補リアライメントごとに、前記１つ又は複数の候補インデルのうちのそれぞれの少なくとも１つの候補インデルを前記平坦化された整列されたリードに導入することに基づいて、前記リファレンス配列に対する前記リード配列の前記１つ又は複数の候補リアライメントを決定すること、
を含む、遂行することと、
１つ又は複数の選択基準に基づいて、前記初期アライメント、又は前記１つ又は複数の候補リアライメントのうちの選択された候補リアライメントを提供することと、
を含む、コンピュータプログラム製品。
［項目２０］
前記１つ又は複数の候補インデルが複数の候補インデルを含み、前記１つ又は複数の候補リアライメントを前記決定することが、前記複数の候補インデルを前記平坦化された整列されたリードに反復的に導入することを開始することを含み、前記反復的に導入することの各反復が、前記候補リアライメントのための前記それぞれの少なくとも１つの候補インデルを前記平坦化された整列されたリードに導入することによって、前記１つ又は複数の候補リアライメントの候補リアライメントを提供し、前記反復的に導入することが、前記複数の候補インデルのうちの１つ又は複数の候補インデルの順列を前記平坦化された整列されたリードに導入し、前記複数の順列のうちの順列ごとに、前記１つ又は複数の候補アライメントの異なる候補リアライメントを得る、項目１９に記載のコンピュータプログラム製品。
［項目２１］
前記再整列処理が、
前記１つ又は複数の候補リアライメントのうちの提供された候補リアライメントを検査し、前記導入されたそれぞれの１つ又は複数の候補インデルを有する前記提供された候補リアライメントの整列されたリードが、前記提供された候補リアライメントの前記整列されたリードと前記リファレンス配列との間で一致しない塩基を有することなく、前記リファレンス配列と整列するかどうかを判定すること、
前記提供された候補リアライメントの前記整列されたリードが、一致しない塩基を有することなく、前記リファレンス配列と整列すると判定したことに基づいて、前記反復的に導入することを停止すること、並びに
前記提供された候補リアライメントを、前記選択された候補リアライメントとして選択することであって、前記提供することが、前記リファレンス配列と整列する前記提供された候補リアライメントの前記整列されたリードに基づいて、前記選択された候補リアライメントを出力する、選択すること、
をさらに含む、項目２０に記載のコンピュータプログラム製品。
［項目２２］
前記再整列処理が、前記複数のインデルを前記反復的に導入することのために優先順位付けすることをさらに含み、前記反復的に導入することが、前記複数のインデルを、前記優先順位付けすることに基づく優先順位に従って導入する、請求項２０又は２１に記載のコンピュータプログラム製品。

Claims

配列決定データリード再整列のためのコンピュータ実施方法であって、
配列アライメントデータセットから、リファレンス配列に対するリード配列の初期アライメントを得るステップであって、前記初期アライメントが、整列されたリードを含む、ステップと、
前記初期アライメントに対して再整列処理を遂行するステップであって、前記再整列処理が前記リード配列を前記リファレンス配列に対して再整列し、１つ又は複数の候補リアライメントを生成し、前記再整列処理が、
１つ又は複数の候補インデルを識別することであって、前記１つ又は複数の候補インデルが、前記整列されたリード内の０個以上のインデル、及び前記配列アライメントデータセットによって指示されるとおりの前記整列されたリードの近位において整列された０個以上のインデルを含む、識別すること、
前記整列されたリードから、前記初期アライメントによって指示されるあらゆるインデルを除去することに少なくとも基づいて、平坦化された整列されたリードを作成すること、並びに
前記１つ又は複数の候補リアライメントの候補リアライメントごとに、前記１つ又は複数の候補インデルのうちのそれぞれの少なくとも１つの候補インデルを前記平坦化された整列されたリードに導入することに基づいて、前記リファレンス配列に対する前記リード配列の前記１つ又は複数の候補リアライメントを決定すること、
を含む、ステップと、
１つ又は複数の選択基準に基づいて、前記初期アライメント、又は前記１つ又は複数の候補リアライメントのうちの選択された候補リアライメントを提供するステップと、
を含む、コンピュータ実施方法。
前記１つ又は複数の候補インデルが複数の候補インデルを含み、前記１つ又は複数の候補リアライメントを前記決定することが、前記複数の候補インデルを前記平坦化された整列されたリードに反復的に導入することを開始することを含み、前記反復的に導入することの各反復が、前記候補リアライメントのための前記それぞれの少なくとも１つの候補インデルを前記平坦化された整列されたリードに導入することによって、前記１つ又は複数の候補リアライメントの候補リアライメントを提供する、請求項１に記載のコンピュータ実施方法。
前記反復的に導入することが、前記複数の候補インデルのうちの１つ又は複数の候補インデルの複数の順列を前記平坦化された整列されたリードに導入し、前記複数の順列のうちの順列ごとに、前記１つ又は複数の候補アライメントの異なる候補リアライメントを得る、請求項２に記載のコンピュータ実施方法。
前記再整列処理が、
前記１つ又は複数の候補リアライメントのうちの提供された候補リアライメントを検査し、前記導入されたそれぞれの１つ又は複数の候補インデルを有する前記提供された候補リアライメントの整列されたリードが、前記提供された候補リアライメントの前記整列されたリードと前記リファレンス配列との間で一致しない塩基を有することなく、前記リファレンス配列と整列するかどうかを判定すること、
前記提供された候補リアライメントの前記整列されたリードが、一致しない塩基を有することなく、前記リファレンス配列と整列すると判定したことに基づいて、前記反復的に導入することを停止すること、並びに
前記提供された候補リアライメントを、前記選択された候補リアライメントとして選択することであって、前記提供することが、前記リファレンス配列と整列する前記提供された候補リアライメントの前記整列されたリードに基づいて、前記選択された候補リアライメントを出力する、選択すること、
をさらに含む、請求項３に記載のコンピュータ実施方法。
前記再整列処理が、前記複数の候補インデルを前記反復的に導入することのために優先順位付けすることをさらに含み、前記反復的に導入することが、前記複数の候補インデルを、前記優先順位付けすることに基づく優先順位に従って導入する、請求項２に記載のコンピュータ実施方法。
前記優先順位付けすることが、リファレンスインデルデータセットによって既存の既知の候補インデルであると指示された候補インデルを、前記リファレンスインデルデータセットによって、既存の既知の候補インデルであると指示されない候補インデルよりも優先する、請求項５に記載のコンピュータ実施方法。
前記優先順位付けすることが、より長い長さの候補インデルをより短い長さの候補インデルよりも優先する、請求項５に記載のコンピュータ実施方法。
前記優先順位付けすることが、前記配列アライメントデータセットのより多数の整列されたリードにおいて指示される候補インデルを、前記配列アライメントデータセットのより少数の整列されたリードにおいて指示される候補インデルよりも優先するか、又は前記優先順位付けすることが、前記リファレンス配列に対する候補インデルの部位に対応する前記配列アライメントデータセットのより大きい比率の整列されたリードにおいて指示される前記候補インデルを、前記配列アライメントデータセットのより小さい比率の整列されたリードにおいて指示される候補インデルよりも優先する、請求項５に記載のコンピュータ実施方法。
前記優先順位付けすることが、前記配列アライメントデータセットの同数の整列されたリードにおいて指示される異なる候補インデルの間で、前記配列アライメントデータセットによって指示されるリファレンスゲノム配列に対する部位が、別の候補インデルのために指示される前記リファレンスゲノム配列に対する部位より上流にある候補インデルを優先する、請求項５に記載のコンピュータ実施方法。
前記選択基準が、一致しない塩基の数、インデルの数、前記配列アライメントデータセットによって指示されるリファレンスゲノム配列に対するインデルの部位、及びソフトクリップされた塩基の数のうちの１つ又は複数に少なくとも一部基づく、請求項１に記載のコンピュータ実施方法。
前記選択基準が、
インデルを有せず、一致しない単一の塩基のみを有するアライメントを、１つ又は複数のインデルを有するアライメントよりも前記提供のために優先すること、
一致しないより少数の塩基を有するアライメントを、一致しないより多数の塩基を有するアライメントよりも前記提供のために優先すること、
一致しない同数の塩基を有する異なるアライメントの間で、指定された種類のより少数のソフトクリップを有するアライメントを、前記指定された種類のより多数のソフトクリップを有するアライメントよりも前記提供のために優先すること、並びに
一致しない同数の塩基を有する異なるアライメントの間で、より少数のインデルを有するアライメントを、より多数のインデルを有するアライメントよりも前記提供のために優先すること、
のうちの１つ又は複数である、請求項１、２、３、４、５及び１０のいずれか一項に記載のコンピュータ実施方法。
前記再整列処理が、前記１つ又は複数の選択基準のうちの第１の基準に基づいて前記１つ又は複数の候補リアライメントのうちの最良の候補リアライメントを選択することをさらに含み、前記選択された候補リアライメントが、前記選択された最良の候補リアライメントであり、前記出力することが、前記１つ又は複数の選択基準のうちの第２の基準に基づいて前記初期アライメントと前記最良のリアライメント候補との間で選択する、請求項１、２、３、４、５及び１０のいずれか一項に記載のコンピュータ実施方法。
前記得られた初期アライメントが再整列に適格であるかどうかを判定するステップをさらに含み、該判定するステップが、
前記初期アライメントの前記整列されたリードと前記リファレンス配列との間で一致しない１つ又は複数の塩基が存在するかどうかを識別すること、
前記整列されたリードがソフトクリップを含むかどうかを識別すること、
前記初期アライメントが二次アライメントではないかどうかを識別すること、及び
前記配列アライメントデータセットのリファレンスゲノム配列の塩基の領域内において、前記整列されたリードの周りに候補インデルが存在するかどうかを識別すること、
のうちの１つ又は複数に少なくとも一部基づく、請求項１、２、３、４、５及び１０のいずれか一項に記載のコンピュータ実施方法。
前記得られた初期アライメントが再整列に適格であるかどうかを判定し、前記再整列処理と、前記得られた初期アライメントが再整列に適格であると判定したことに基づいて、前記初期アライメント又は選択された候補リアライメントを前記提供することとを遂行するステップと、
前記配列アライメントデータセットの１つ又は複数の追加の初期アライメントのうちの追加の初期アライメントごとに、追加の初期アライメントを得ること、及び前記得られた追加の初期アライメントが再整列に適格であるかどうかを判定することを繰り返すステップと、
前記１つ又は複数の追加の初期アライメントのうちの追加の初期アライメントごとに処理を遂行するステップであって、処理を遂行する前記ステップが、
（ｉ）前記再整列処理を遂行せず、前記追加の初期アライメントをそのまま提供すること、又は
（ｉｉ）前記再整列処理と、前記追加の初期アライメント若しくは選択された候補リアライメントを前記提供することとを遂行することを含む、ステップと、
をさらに含む、請求項１、２、３、４、５及び１０のいずれか一項に記載のコンピュータ実施方法。
配列決定データリード再整列のためのコンピュータシステムであって、メモリと少なくとも１つのプロセッサとを備え、方法を遂行するためのプログラム命令を実行するように構成されており、前記方法が、
配列アライメントデータセットから、リファレンス配列に対するリード配列の初期アライメントを得ることであって、前記初期アライメントが、整列されたリードを含む、得ることと、
前記初期アライメントに対して再整列処理を遂行することであって、前記再整列処理が前記リード配列を前記リファレンス配列に対して再整列し、１つ又は複数の候補リアライメントを生成し、前記再整列処理が、
１つ又は複数の候補インデルを識別することであって、前記１つ又は複数の候補インデルが、前記整列されたリード内の０個以上のインデル、及び前記配列アライメントデータセットによって指示されるとおりの前記整列されたリードの近位において整列された０個以上のインデルを含む、識別すること、
前記整列されたリードから、前記初期アライメントによって指示されるあらゆるインデルを除去することに少なくとも基づいて、平坦化された整列されたリードを作成すること、並びに
前記１つ又は複数の候補リアライメントの候補リアライメントごとに、前記１つ又は複数の候補インデルのうちのそれぞれの少なくとも１つの候補インデルを前記平坦化された整列されたリードに導入することに基づいて、前記リファレンス配列に対する前記リード配列の前記１つ又は複数の候補リアライメントを決定すること、
を含む、遂行することと、
１つ又は複数の選択基準に基づいて、前記初期アライメント、又は前記１つ又は複数の候補リアライメントのうちの選択された候補リアライメントを提供することと、
を含む、コンピュータシステム。
前記１つ又は複数の候補インデルが複数の候補インデルを含み、前記１つ又は複数の候補リアライメントを前記決定することが、前記複数の候補インデルを前記平坦化された整列されたリードに反復的に導入することを開始することを含み、前記反復的に導入することの各反復が、前記候補リアライメントのための前記それぞれの少なくとも１つの候補インデルを前記平坦化された整列されたリードに導入することによって、前記１つ又は複数の候補リアライメントの候補リアライメントを提供し、前記反復的に導入することが、前記複数の候補インデルのうちの１つ又は複数の候補インデルの複数の順列を前記平坦化された整列されたリードに導入し、前記複数の順列のうちの順列ごとに、前記１つ又は複数の候補アライメントの異なる候補リアライメントを得る、請求項１５に記載のコンピュータシステム。
前記再整列処理が、
前記１つ又は複数の候補リアライメントのうちの提供された候補リアライメントを検査し、前記導入されたそれぞれの１つ又は複数の候補インデルを有する前記提供された候補リアライメントの整列されたリードが、前記提供された候補リアライメントの前記整列されたリードと前記リファレンス配列との間で一致しない塩基を有することなく、前記リファレンス配列と整列するかどうかを判定すること、
前記提供された候補リアライメントの前記整列されたリードが、一致しない塩基を有することなく、前記リファレンス配列と整列すると判定したことに基づいて、前記反復的に導入することを停止すること、並びに
前記提供された候補リアライメントを、前記選択された候補リアライメントとして選択することであって、前記提供することが、前記リファレンス配列と整列する前記提供された候補リアライメントの前記整列されたリードに基づいて、前記選択された候補リアライメントを出力する、選択すること、
をさらに含む、請求項１６に記載のコンピュータシステム。
前記再整列処理が、前記複数の候補インデルを前記反復的に導入することのために優先順位付けすることをさらに含み、前記反復的に導入することが、前記複数の候補インデルを、前記優先順位付けすることに基づく優先順位に従って導入する、請求項１６又は１７に記載のコンピュータシステム。
配列決定データリード再整列のためのコンピュータプログラム製品であって、
方法を遂行するための実行用のプログラム命令を記憶する有形記憶媒体を含み、前記方法が、
配列アライメントデータセットから、リファレンス配列に対するリード配列の初期アライメントを得ることであって、前記初期アライメントが、整列されたリードを含む、得ることと、
前記初期アライメントに対して再整列処理を遂行することであって、前記再整列処理が前記リード配列を前記リファレンス配列に対して再整列し、１つ又は複数の候補リアライメントを生成し、前記再整列処理が、
１つ又は複数の候補インデルを識別することであって、前記１つ又は複数の候補インデルが、前記整列されたリード内の０個以上のインデル、及び前記配列アライメントデータセットによって指示されるとおりの前記整列されたリードの近位において整列された０個以上のインデルを含む、識別すること、
前記整列されたリードから、前記初期アライメントによって指示されるあらゆるインデルを除去することに少なくとも基づいて、平坦化された整列されたリードを作成すること、並びに
前記１つ又は複数の候補リアライメントの候補リアライメントごとに、前記１つ又は複数の候補インデルのうちのそれぞれの少なくとも１つの候補インデルを前記平坦化された整列されたリードに導入することに基づいて、前記リファレンス配列に対する前記リード配列の前記１つ又は複数の候補リアライメントを決定すること、
を含む、遂行することと、
１つ又は複数の選択基準に基づいて、前記初期アライメント、又は前記１つ又は複数の候補リアライメントのうちの選択された候補リアライメントを提供することと、
を含む、コンピュータプログラム製品。
前記１つ又は複数の候補インデルが複数の候補インデルを含み、前記１つ又は複数の候補リアライメントを前記決定することが、前記複数の候補インデルを前記平坦化された整列されたリードに反復的に導入することを開始することを含み、前記反復的に導入することの各反復が、前記候補リアライメントのための前記それぞれの少なくとも１つの候補インデルを前記平坦化された整列されたリードに導入することによって、前記１つ又は複数の候補リアライメントの候補リアライメントを提供し、前記反復的に導入することが、前記複数の候補インデルのうちの１つ又は複数の候補インデルの複数の順列を前記平坦化された整列されたリードに導入し、前記複数の順列のうちの順列ごとに、前記１つ又は複数の候補アライメントの異なる候補リアライメントを得る、請求項１９に記載のコンピュータプログラム製品。
前記再整列処理が、
前記１つ又は複数の候補リアライメントのうちの提供された候補リアライメントを検査し、前記導入されたそれぞれの１つ又は複数の候補インデルを有する前記提供された候補リアライメントの整列されたリードが、前記提供された候補リアライメントの前記整列されたリードと前記リファレンス配列との間で一致しない塩基を有することなく、前記リファレンス配列と整列するかどうかを判定すること、
前記提供された候補リアライメントの前記整列されたリードが、一致しない塩基を有することなく、前記リファレンス配列と整列すると判定したことに基づいて、前記反復的に導入することを停止すること、並びに
前記提供された候補リアライメントを、前記選択された候補リアライメントとして選択することであって、前記提供することが、前記リファレンス配列と整列する前記提供された候補リアライメントの前記整列されたリードに基づいて、前記選択された候補リアライメントを出力する、選択すること、
をさらに含む、請求項２０に記載のコンピュータプログラム製品。
前記再整列処理が、前記複数の候補インデルを前記反復的に導入することのために優先順位付けすることをさらに含み、前記反復的に導入することが、前記複数の候補インデルを、前記優先順位付けすることに基づく優先順位に従って導入する、請求項２０又は２１に記載のコンピュータプログラム製品。