JP7052955B2 - 配列決定データリード再整列の方法、コンピュータシステム及びコンピュータプログラム製品 - Google Patents

配列決定データリード再整列の方法、コンピュータシステム及びコンピュータプログラム製品 Download PDF

Info

Publication number
JP7052955B2
JP7052955B2 JP2019524960A JP2019524960A JP7052955B2 JP 7052955 B2 JP7052955 B2 JP 7052955B2 JP 2019524960 A JP2019524960 A JP 2019524960A JP 2019524960 A JP2019524960 A JP 2019524960A JP 7052955 B2 JP7052955 B2 JP 7052955B2
Authority
JP
Japan
Prior art keywords
candidate
realignment
indels
sequence
alignment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019524960A
Other languages
English (en)
Other versions
JP2020506447A (ja
Inventor
グウェン ベリー,
ハン-ユー チャン,
ジェシカ ゴードン,
シァオ チェン,
ステファン タナー,
Original Assignee
イルミナ インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by イルミナ インコーポレイテッド filed Critical イルミナ インコーポレイテッド
Publication of JP2020506447A publication Critical patent/JP2020506447A/ja
Application granted granted Critical
Publication of JP7052955B2 publication Critical patent/JP7052955B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Eye Examination Apparatus (AREA)

Description

背景
[01]次世代配列決定データ解析の現在継続する課題は、挿入及び欠失(「インデル」)の正確な呼び出しである。この困難の理由としては、より低い発生率、ゲノム内における正しい部位へのマッピングの難しさ、及び一意のマッピングを妨げるゲノム内の繰り返し領域の存在が挙げられる。別の理由は、現在のアライナは、配列決定(sequencing、シーケンシング)リードの最後における変異を正しく識別することが不可能なこと、又はそれが不正確なことである。これは、変異呼び出しを配置するべき両側コンテキストの欠如のために生じる。
概要
[02]コンピュータ実施方法、コンピュータシステム、及びコンピュータプログラム製品の提供を通じて従来技術の欠点が克服され、さらなる利点が提供される。
[03]一実施形態によれば、配列決定データリード再整列のためのコンピュータ実施方法は、配列アライメントデータセットから、リファレンス配列に対するリード配列の初期アライメントを得るステップであって、初期アライメントが、整列されたリードを含む、ステップと、初期アライメントに対して再整列処理を遂行するステップであって、再整列処理がリード配列をリファレンス配列に対して再整列(realign、リアライン)し、1つ又は複数の候補リアライメントを生成し、再整列処理が、1つ又は複数の候補インデルを識別することであって、1つ又は複数の候補インデルが、整列されたリード内の0個以上のインデル、及び配列アライメントデータセットによって指示されるとおりの整列されたリードの近位において整列された0個以上のインデルを含む、識別すること、整列されたリードから、初期アライメントによって指示されるあらゆるインデルを除去することに少なくとも基づいて、平坦化された整列されたリードを作成すること、並びに1つ又は複数の候補リアライメントの候補リアライメントごとに、1つ又は複数の候補インデルのうちのそれぞれの少なくとも1つの候補インデルを、平坦化された整列されたリードに導入することに基づいて、リファレンス配列に対するリード配列の1つ又は複数の候補リアライメントを決定すること、を含む、ステップと、1つ又は複数の選択基準に基づいて、初期アライメント、又は1つ又は複数の候補リアライメントのうちの選択された候補リアライメントを提供するステップと、を含む。
[04]1つ又は複数の候補インデルは複数の候補インデルを含むことができ、1つ又は複数の候補リアライメントを決定することは、複数の候補インデルを平坦化された整列されたリードに反復的に導入することを開始することを含むことができ、反復的導入の各反復は、候補リアライメントのためのそれぞれの少なくとも1つの候補インデルを平坦化された整列されたリードに導入することによって、1つ又は複数の候補リアライメントの候補リアライメントを提供する。
[05]反復的導入は、複数の候補インデルのうちの1つ又は複数の候補インデルの順列を平坦化された整列されたリードに導入し、複数の順列のうちの順列ごとに、1つ又は複数の候補アライメントの異なる候補リアライメントを得ることができる。
[06]再整列処理は、1つ又は複数の候補リアライメントのうちの提供された候補リアライメントを検査し、導入されたそれぞれの1つ又は複数の候補インデルを有する提供された候補リアライメントの及び整列されたリードが、提供された候補リアライメントの整列されたリードとリファレンス配列との間で一致しない塩基を有することなく、リファレンス配列と整列(align、アライン)するかどうかを判定すること、提供された候補リアライメントの整列されたリードが、一致しない塩基を有することなく、リファレンス配列と整列すると判定したことに基づいて、反復的導入を停止すること、並びに提供された候補リアライメントを、選択された候補リアライメントとして選択することであって、提供することが、リファレンス配列と整列する提供された候補リアライメントの整列されたリードに基づいて、選択された候補リアライメントを出力する、選択すること、をさらに含むことができる。
[07]再整列処理は、複数のインデルを反復的導入のために優先順位付けすることをさらに含むことができ、反復的導入は、複数のインデルを、優先順位付けに基づく優先順位に従って導入する。
[08]優先順位付けは、リファレンスインデルデータセットによって既存の既知のインデルであると指示されたインデルを、リファレンスインデルデータセットによって既存の既知のインデルであると指示されないインデルよりも優先することができる。加えて、又は代替的に、優先順位付けは、より長い長さのインデルをより短い長さのインデルよりも優先することができる。加えて、又は代替的に、優先順位付けは、配列アライメントデータセットのより多数の整列されたリードにおいて指示されるインデルを、配列アライメントデータセットのより少数の整列されたリードにおいて指示されるインデルよりも優先することができる。加えて、又は代替的に、優先順位付けは、リファレンス配列に対するインデルの部位に対応する配列アライメントデータセットのより大きい比率の整列されたリードにおいて指示されるインデルを、配列アライメントデータセットのより小さい比率の整列されたリードにおいて指示されるインデルよりも優先することができる。加えて、又は代替的に、優先順位付けは、配列アライメントデータセットの同数の整列されたリードにおいて指示される異なるインデルの間で、配列アライメントデータセットによって指示されるリファレンスゲノム配列に対する部位が、別のインデルのために指示される、リファレンスゲノム配列に対する部位より上流にあるインデルを優先することができる。
[09]選択基準は、一致しない塩基の数、インデルの数、配列アライメントデータセットによって指示されるリファレンスゲノム配列に対するインデルの部位、及びソフトクリップされた塩基の数のうちの1つ又は複数に少なくとも一部基づき得る。
[010]選択基準は、インデルを有せず、一致しない単一の塩基のみを有するアライメントを、1つ又は複数のインデルを有するアライメントよりも提供のために優先すること、一致しないより少数の塩基を有するアライメントを、一致しないより多数の塩基を有するアライメントよりも提供のために優先すること、一致しない同数の塩基を有する異なるアライメントの間で、指定された種類のより少数のソフトクリップを有するアライメントを、指定された種類のより多数のソフトクリップを有するアライメントよりも提供のために優先すること、並びに一致しない同数の塩基を有する異なるアライメントの間で、より少数のインデルを有するアライメントを、より多数のインデルを有するアライメントよりも提供のために優先すること、のうちの1つ又は複数とすることができる。
[011]再整列処理は、1つ又は複数の選択基準のうちの第1の基準に基づいて1つ又は複数の候補リアライメントのうちの最良の候補リアライメントを選択することをさらに含むことができ、選択された候補リアライメントは、選択された最良の候補リアライメントであり、出力することは、1つ又は複数の選択基準のうちの第2の基準に基づいて初期アライメントと最良のリアライメント候補との間で選択する。
[012]コンピュータ実施方法の一実施形態は、得られた初期アライメントが再整列に適格であるかどうかを判定するステップをさらに含むことができ、判定は、初期アライメントの整列されたリードとリファレンス配列との間で一致しない1つ又は複数の塩基が存在するかどうかを識別すること、整列されたリードがソフトクリップを含むかどうかを識別すること、初期アライメントが二次アライメントではないかどうかを識別すること、及び配列アライメントデータセットのリファレンスゲノム配列の塩基の領域内において、整列されたリードの周りに候補インデルが存在するかどうかを識別すること、のうちの1つ又は複数に少なくとも一部基づく。
[013]コンピュータ実施方法の一実施形態は、得られた初期アライメントが再整列に適格であるかどうかを判定し、再整列処理と、得られた初期アライメントが再整列に適格であると判定したことに基づいて、初期アライメント又は選択された候補リアライメントを提供することとを遂行するステップと、配列アライメントデータセットの1つ又は複数の追加の初期アライメントのうちの追加の初期アライメントごとに、得ること、及び得られた追加の初期アライメントが再整列に適格であるかどうかを判定することを繰り返すステップと、1つ又は複数の追加の初期アライメントのうちの追加の初期アライメントごとに処理を遂行するステップであって、処理を遂行するステップが、(i)再整列処理を遂行せず、追加の初期アライメントをそのまま提供すること、又は(ii)再整列処理と、追加の初期アライメント若しくは選択された候補リアライメントを提供することとを遂行することを含む、ステップと、をさらに含むことができる。
[014]さらに、メモリと少なくとも1つのプロセッサとを備える、配列決定データリード再整列のためのコンピュータシステムを、本明細書に記載されている諸態様に係る方法を遂行するためのプログラム命令を実行するように構成することができる。
[015]なおさらに、実行のためのプログラム命令を記憶する有形記憶媒体を含む、配列決定データリード再整列のためのコンピュータプログラム製品は、本明細書に記載されている諸態様に係る方法を遂行することができる。
[016]さらなる特徴及び利点が、本明細書に記載されているコンセプトを通じて実現される。数多くの本発明の態様及び特徴が本明細書において開示され、矛盾のない限り、各々の開示された態様又は特徴は、特定の用途によって所望されるとおり、例えば、画像障害物を検出することを容易にするために、任意の他の開示された態様又は特徴と組み合わせることができる。
[017]本明細書に記載される諸態様は、本明細書の最後の請求項において例として具体的に指摘され、明確にクレームされる。本発明の上述の、及び他の目的、特徴、及び利点は、添付の図面と併せて以下の詳細な説明から明らかである。
[18]図1Aは、リードの最後の方で変化する塩基を説明するために、両側コンテキストをどのように用いることができるのかを示す図である。 [18]図1Bは、リードの最後の方で変化する塩基を説明するために、両側コンテキストをどのように用いることができるのかを示す図である。 [18]図1Cは、リードの最後の方で変化する塩基を説明するために、両側コンテキストをどのように用いることができるのかを示す図である。 [18]図1Dは、リードの最後の方で変化する塩基を説明するために、両側コンテキストをどのように用いることができるのかを示す図である。
[19]図2は、本明細書に記載されている諸態様に係る、処理のためのリードの承認(clearing)を示す図である。
[20]図3は、本明細書に記載されている諸態様に係る、初期アライメントを処理するための例示的な方法を示す図である。
[21]図4Aは、本明細書に記載されている諸態様に係る、ソフトクリップ、挿入、及び欠失を包含するリードのための例示的な位置マップを示す図である。 [21]図4Bは、本明細書に記載されている諸態様に係る、ソフトクリップ、挿入、及び欠失を包含するリードのための例示的な位置マップを示す図である。
[22]図5Aは、本明細書に記載されている諸態様に係る、整列されたリードの平坦化を示す図である。 [22]図5Bは、本明細書に記載されている諸態様に係る、整列されたリードの平坦化を示す図である。 [22]図5Cは、本明細書に記載されている諸態様に係る、整列されたリードの平坦化を示す図である。
[23]図6Aは、本明細書に記載されている諸態様に係る、平坦化された整列されたリードへの候補インデル(単数又は複数)の導入を示す図である。 [23]図6Bは、本明細書に記載されている諸態様に係る、平坦化された整列されたリードへの候補インデル(単数又は複数)の導入を示す図である。 [23]図6Cは、本明細書に記載されている諸態様に係る、平坦化された整列されたリードへの候補インデル(単数又は複数)の導入を示す図である。 [23]図6Dは、本明細書に記載されている諸態様に係る、平坦化された整列されたリードへの候補インデル(単数又は複数)の導入を示す図である。
[24]図7は、本明細書に記載されている諸態様に係る、リード再整列処理の一例を示す図である。
[25]図8は、本明細書に記載されている諸態様に係る、最良の候補リアライメントを選択するための例示的なプロセスを示す図である。
[26]図9は、本明細書に記載されている諸態様に係る、例示的な、標的に対する再整列の処理を示す図である。
[27]図10Aは、本明細書に記載されている諸態様に係る、左側及び右側固定再整列の結果のための例示的なプロセスを示す図である。 [27]図10Bは、本明細書に記載されている諸態様に係る、左側及び右側固定再整列の結果のための例示的なプロセスを示す図である。
[28]図11は、本明細書に記載されている諸態様に係る、インデルを追加し、結果として生じるリアライメントを得るための例示的なプロセスを示す図である。
[29]図12は、本明細書に記載されている諸態様に係るシミュレーション解析において用いた変異長の分布を示す図である。
[30]図13は、本明細書に記載されている諸態様に係る真性変異評価の可能な結果を示す図である。
[31]図14は、再整列されていない、GATKにより再整列された、又は本明細書において開示されるとおりの再整列方法の諸態様に従って再整列された既存物(prior)を用いてアイザック(iSAAC)によって生成されたシミュレーションBAMについての真陽性率及び偽陽性率を示す図である。
[32]図15は、再整列されていない、GATKにより再整列された、又は本明細書において開示されるとおりの再整列方法の諸態様に従って再整列された既存物を用いてアイザックによって生成されたシミュレーションBAMについての真陽性率及び偽陽性率を示す図である。
[33]図16は、再整列されていない、GATKにより再整列された、又は本明細書において開示されるとおりの再整列方法の諸態様に従って再整列されたサンプルについての、全体的な、サンプルごとの体細胞突然変異数を示す図である。
[34]図17は、再整列されていない、GATKにより再整列された、又は本明細書において開示されるとおりの再整列方法の諸態様に従って再整列されたサンプルについての、突然変異型によって分類された、サンプルごとの体細胞突然変異数を示す図である。
[35]図18は、GATK、及び本明細書に記載されている諸態様に係る再整列方法の諸態様についての、100万個のアライメント当たりの再整列時間を示す図である。
[36]図19は、本明細書に記載されている諸態様に係る、配列整列処理のための例示的なプロセスを示す図である。
[37]図20は、本明細書に記載されている諸態様に係る、配列決定データリード再整列処理のための例示的なプロセスを示す図である。
[38]図21は、本明細書に記載されている諸態様に係る、初期アライメントが配列決定データリード再整列処理を受ける適格性を判定するための例示的なプロセスを示す図である。
[39]図22は、本明細書に記載されている諸態様を組み込み、及び/又は用いるためのコンピュータシステム及び関連デバイスの一例を示す図である。
[40]図23は、本明細書に記載されている諸態様と併せて用いられ得る配列決定デバイスの一例を示す図である。
[41]図24は、本明細書に記載されている諸態様に係るクラウドコンピューティング環境の一実施形態を示す図である。
詳細な説明
[042]次世代配列決定技術(next generation sequencing technology、NGS)の発達は遺伝子配列決定を変容させ、生物体のゲノムなどからの、遺伝子配列の大量の複製を生成し、これらの配列を整列し、複製された遺伝子配列のヌクレオチドの配列の推定再現を作成することを可能にした。整列された複製内のヌクレオチド塩基対の配列を識別することによって、元の配列内のヌクレオチドの配列が決定され得る。このような技術の1つの使用は、疾病の識別、理解、予防、処置、又は治療のためのものである。例えば、NGSは、個人のゲノム配列を識別し、その人が、特定の疾病に対する罹病性の根底にある、又は罹病性を与えると考えられるヌクレオチド配列を有しているかどうかを識別したり、又はそうなり得るこうした配列を識別したり、或いはこのような個人の疾患を治療するために所与の薬物治療又は他の治療が有益であり得るかどうかを判定したりするために用いられ得る。
[043]ヌクレオチドの配列をその複製の整列から導出するために処理しなければならない大量の配列情報は、多くの場合、膨大である。例えば、人間のゲノムにはおよそ30億個の塩基対が存在する。このような大きなヌクレオチド配列を決定する能力は、高度のコンピュータ処理技術を必要とする。例えば、高スループット処理を介して、遺伝子配列の大規模なセット(例えば、全リファレンスゲノム内の何十億個ものヌクレオチド、染色体若しくは染色体群内の数千万若しくは数億個のヌクレオチド、或いは染色体又は他のゲノム配列の長い部分)のいくらか重複及び/又は隣接した部分の多くの複製を合成し、その後、それらを互いに整列し、複製された配列を再現し、そのヌクレオチドの配列を識別することは、通例、コンピュータによる大量のデータの処理を必要とする。
[044]多くの場合、誤りが生じ得、その作成されたアライメントにおけるゲノム配列の不正確な表現をもたらす。NGS技術の重要な構成要素は、このような誤りを識別して補正する能力を含む。大きな遺伝子配列が配列決定される場合には、潜在的な誤りの数もまた、結果的に大きくなり得る。したがって、このような潜在的な誤りがどこに存在するのかを識別し、それらが誤りであるのか否か、及びそれらが誤りである場合には、多くの場合、正しい可能性のある複数の配列の間で選択することを要して、正しい配列はどうあるべきかを決定するためのコンピュータ技術が望まれる。このような潜在的な誤りが遺伝子配列の巨大な全長にわたって多数存在する可能性があるため、このような誤りの識別及び修正を、NGSにおいて利用されるコンピュータ処理の構成要素として自動的に処理することが非常に望ましい。
[045]例えば、母集団のほとんどが有する染色体内のヌクレオチドの配列は既知であり得る。次に、個人の配列が決定され、このような既知の配列と比較され得る。個人の配列と既知の配列との相違が、医学的に、系統学的に、又は他の様態で重要になり得る。しかし、誤りが存在するが、未識別である、又は個人の配列と既知の配列との相違が誤って検出されない場合など、NGSによって個人のために決定された、整列された配列内の誤り又は潜在的な誤りの存在のせいで、個人の遺伝子配列と既知の配列との相違の識別は複雑になる。本開示は、配列アライメントを生成するために用いられるNGS及び関連する情報学処理において生じ得る特定の種類の誤りの自動識別及び補正を改善するためのコンピュータ技術を含む。利点は、処理時間の短縮、並びに誤りの識別及び補正の向上を含み、以て、NGSツール及び関連技術の有用性を改善する。
[046]具体的には、本明細書に記載されている諸態様は、リファレンスゲノムに対する、インデルを包含する配列決定データリードの不適切なアライメントによって生じる、偽陽性(多くの場合、単一のヌクレオチド変異)及び偽陰性(多くの場合、インデル)の変異呼び出しの問題に対処する。本明細書に記載されているプロセスは、全て短い実行時間内で、真のインデルの既存の表現を重んじ、低頻度の「ノイズ(noisy)」変異を拒否する方法でリードを再整列し得る。概して、1つ又は複数のリード、又はリード配列は、NGSによって配列決定される遺伝子配列内の位置に対応し得る。配列決定される配列の全ての位置に全体としてまたがる多くのリードを生成し、それらを、配列決定される配列の一方の端部に対応する位置から他方へ順に整列し、以て表現されるヌクレオチドの順序を識別することにより、完全な配列が決定され得る。配列決定される遺伝子配列内の位置に対応する各リード又はリード群が、その位置に対応すると識別されると、それらは、整列された、又は整列されたリードであると考えられてもよい。しかし、整列されたリードによって指示されるインデルを確実に正確に識別することの困難のため、アライメント内のインデルの存在を識別する、又は呼び出す際に、誤りが生じ得る。
[047]両側コンテキストの不足は、インデルの正確な呼び出しの問題を提示する。インデルを呼び出す際に、両側コンテキストは、変化がどこで開始し、終了するのかを指示する助けとなり得る。図1A~図1Dは、リードの最後の方で変化する塩基を説明するために、両側コンテキストをどのように用いることができるのかを示す。図1Aは、整列されたリードを生じさせる、リファレンス配列104(本明細書において「リファレンス」とも呼ばれる)に対するリード配列102(本明細書において「リード」とも呼ばれる)の初期アライメント100を示す。実際には、「リード」及び「リファレンス」は、実は、リード配列及びリファレンス配列とも呼ばれ得るヌクレオチドのより長い配列の一部分であり得る。リファレンス配列104の上方に、ヌクレオチド塩基位置1~12が記されている。本例では7つのヌクレオチドの長さである、整列されたリード102は、リード102の最初の5つの塩基についてはリファレンス104の一部分と一致する。すなわち、塩基位置2~6内の配列T-C-G-T-Aは、整列されたリード102とリファレンス104との間で一致する。配列は塩基位置7から異なり、リード配列内では位置7及び8において配列C-Gが観測される。図1B~図1Cは、異なる両側コンテキスト内の変異を示すことによってこの変化を説明するための3つの代替的な方法を示す。図1Bでは、下流の配列(例えば、本例では、別の整列されたリード103b)によって提供されるさらなるコンテキストが、位置7及び8において変化する塩基C-Gを点突然変異として識別する。図1Cでは、103cによって提供されるさらなるコンテキストが、変化が、位置7及び8における2塩基長である欠失によって説明されることを指示する。図1Dでは、103dによって提供されるさらなるコンテキストが、変化が、位置6及び7の間における2塩基長である挿入によって説明されることを指示する。102のように整列された所与のリード配列のための両側コンテキストの相違は、前記リード配列の異なるリードアライメント(例えば、102’、102’’、又は102’’’)を生じさせ得る。
[048]配列解析の一部として集められた配列決定データは配列アライメントデータセット内に記憶される。配列アライメントデータを記憶するための共通ファイル形式は、SAM(.sam)及びBAM(.bam)ファイルフォーマットである。配列アライメントソフトウェア(「アライナ」)は、リファレンスゲノムに対するリード配列(単数又は複数)のアライメントを指示し、これらの整列されたリード内にインデル(単数又は複数)が存在し得る証拠を指示する、配列アライメントデータセットファイル、例えば、BAMファイルを出力する。アライナは、通例、「間隙」(インデル)を開くことに対して、不一致を付与する場合よりも高いペナルティを有することになり、これはリードの端部において特に顕著になる。その結果、たとえ、他のリードの証拠が、インデルが存在し得ることを指示していても、多くの配列変化が誤って不一致と呼ばれ得るか、又はソフトクリップされ得る。
[049]本明細書に記載されている諸態様は配列アライメントデータセットファイルを再処理し、ソース/オリジナル/入力配列アライメントデータセット内で指示されるとおりの近傍において整列されたリードからの情報を取り入れて周囲のコンテキストを形成する。このアプローチは、入力配列アライメントデータセット内で指示されるとおりの初期アライメントからの既存のインデル観測記録を収集し、不完全に整列されたリードを、不一致が最小化されるよう、観測されたインデルの周りにおいて再整列しようと試みることによって、既存のインデル観測記録を処理する。例によっては、インデルを包含すると最初に全く指示されていないリードが、リファレンスに対するインデルを実際に指示するように再整列される。特定のリードがいくらかのインデルを包含する証拠が、最初は、配列アライメントデータセット内にほとんど存在しない場合がある。しかし、本明細書に記載されている諸態様は、インデルの存在がリアライメントによってより適切に指示されるべきである時に、リードを「救う」ことができる。具体例として、入力配列アライメントデータセット内で指示されるリファレンスゲノム配列の領域に対して整列された1つのリードのみがインデルを反映しているが、本明細書に記載されているように初期アライメントを処理した後には、例えば、本明細書に記載されているプロセスによって出力された出力配列アライメントデータセットの、いくつかのリードが、インデルが存在することを裏付けるという場合があり得る。
[050]上述のように偽陰性を低減することに加えて、本明細書に記載されているアプローチは、入力配列アライメントデータセットの1つ又は複数のリード内で最初に指示されるいくつかの不一致又はいくつかのインデルを排除することによって、偽陽性を低減することもできる。
[051]本明細書に記載されているプロセスは局所インデル再整列アルゴリズムを提供する。これは、入力配列アライメントデータセットファイル内で観測され、及び/又は「既存物」Variant Call Format(.VCF)ファイルなどの、リファレンスインデルデータセット内で指示されるものなどの、インデルの周りで入力リードを再整列することによって不一致を最小化する助けとなることができる。VCF既存物はアルゴリズムへの入力として提供され、ソース配列アライメントデータセットファイル内の仮定されるインデルを指示し得る。
[052]高レベルにおいて、コンピュータシステムが入力配列アライメントデータセットを入力として受け取り、入力データセットを通読し、既存のインデル観測記録を収集し、観測されたインデルの周りで各初期アライメントリードを再整列するよう試みることによって配列アライメントデータセットからの1つ又は複数の初期アライメントを処理するためのアルゴリズムを実行し得る。アルゴリズムは、新たな、「再整列された」ソートされたインデックス付きの配列アライメントデータセットを、例えば、出力BAM又は他の配列アライメントデータセットファイルとして提供し得る。リファレンスに対するリードのリアライメントが、リファレンスに対するリードの初期アライメントよりも良好である場合には、リアライメントが初期アライメントの代わりに出力され得る。さもなければ、初期アライメントが入力配列アライメントデータセットからそのまま出力され得る。出力配列アライメントデータセットは、元の配列アライメントデータセットと独立した別のファイルであってもよく、又はアルゴリズムが元の配列アライメントデータセットを直接変更/上書きし得る、入力配列アライメントデータセットの変更されたバージョンであってもよい。
[053]特定の例では、アルゴリズムは、既存のインデル観測記録を収集し、それらを、特定の初期アライメントのための再整列処理において使用するための候補インデルのセットに追加しながら、入力配列アライメントデータセットを通覧する。観測されたインデルが候補と考えられるかどうかは、インデルの観測された対立遺伝子頻度などの、任意の所望のパラメータに依存することができる。例によっては、ユーザが構成可能な閾値対立遺伝子頻度が、アルゴリズムへのパラメータ又は他の入力として、例えば、コマンドラインパラメータとして、又はソフトウェア設定においてオプションとして指定されるパラメータとして提供される。少なくとも、閾値によって指示される頻度と同じ頻度で出現する、観測されたインデルが候補インデルと考えられてもよい。頻度は、リファレンス配列内の所与の位置に対して整列された、前記位置における所与のインデルの存在を指示するリードの総数を含み得る。頻度は、リファレンス配列内の所与の位置に対して整列されたリードの総数のうちの、前記位置における所与のインデルの存在を指示する比率を含み得る。構成可能な閾値は1と低く設定されてもよく、これは、リファレンス配列の所与の位置に対して整列された1つのリードのみにインデルが出現すれば、そのインデルが候補と考えられる十分な証拠となることを指示する。又は、構成可能な閾値は、リファレンス配列内の所与の位置に対して整列されたリードの総数うち、インデルの存在を指示するリードがいくつあれば、そのインデルが候補と考えられる十分な証拠となるかの、0~1の所定の比率であってもよい。実際には、ノイズ及び他の考慮事項が、頻度をより高いものに設定するように要求する。加えて、任意選択的な既存物VCFリファレンスインデルデータセットにおいて提供される任意のインデルが候補インデルとして考慮されてもよい。
[054]コンピュータシステムは、配列アライメントデータセットを通読する際、概して、マッピングされるリファレンスゲノム配列の最初から最後へと進み得る。個々のアライメントに関連する候補インデルが、そのアライメントの元の位置の前又は後に(すなわち、リファレンスゲノム配列に対して上流又は下流に)生じる場合がある。来たるべき処理予定のリードが、候補インデルに対するさらなる裏付けを提供する場合がある。このため、アルゴリズムは、メモリ内で出会った初期アライメントを、リファレンスゲノム配列のさらに先の部位に対するリードのアライメントを読み取らずにそれらの初期アライメントをすぐに処理するのではなく、初期アライメントが処理のために承認されたと考えられるまで保持してもよい。承認されたアライメントは、配列アライメントデータセット内で指示されるとおりの位置が、アライメントの端部位置を過ぎた、構成可能な窓サイズの窓の上流端部より上流にあるものである。これは、所与のリードのための候補インデルの、そのリードの前及び後の領域からの収集を可能にする。ゲノム窓サイズは、アルゴリズムが、それが、アライメントに潜在的に関連すると考えられる情報を収集したと満足するまでに読み取られていなければならない初期アライメントを過ぎた塩基の数に相関する。窓サイズは、例えば、コマンドラインパラメータとして構成可能であってもよい。より大きな窓サイズは、より大きな、及びより遠くのインデルが考慮されることを可能にするが、窓サイズが大きく設定されすぎた場合には、リソースに対する要求がより大きくなるため、コンピュータシステムの性能が悪影響を受ける場合がある。特定の例では、250~1000個の塩基の窓サイズが一般的使用のために十分になり得る。
[055]図2は、本明細書に記載されている諸態様に係る、処理のためのリードの承認を示す。ゲノムブロック又は窓サイズは206によって指示される。リード202は、リファレンスゲノム配列(図示せず)に対する対応する部位に(本例では)水平方向に個々に整列されている。インデル208a~208dは、様々なリード内において指示されるインデルである。210は、リードの最初のグループ - 図2における一番上の8つのリード202 - が処理のために承認されたことになる点を示す。これは、そのグループの最後のリード(202a)の端部から1つの窓サイズの所である。整列処理を構成可能な窓にわたって遅延させることは、例えば、リード202bの初期アライメントを処理する際に、インデル208b(初期アライメントの一部である)及び上流のインデル208aが考慮されることになるだけでなく、下流のインデル208c及び208dも考慮されることになることを確実にする。なぜなら、インデル208c及び208dは、最初の8つのリードのアライメントが処理のために承認されたことになる点210より上流にある窓206内に位置するからである。
[056]処理のために承認された初期アライメントは処理を受けることができる。この処理の例示的な方法が図3を参照して説明され、図解される。図3の方法は、1つ又は複数のコンピュータシステムによって遂行され得るプロセスである。プロセスは、アライメントが、出力配列アライメントデータセット、本例ではBAMファイルに含まれるために適格であるかどうかを最初に判定する(302)。この点について、処理を遂行するソフトウェアは、処理が、PCR重複アライメントなどの、特定のアライメントを飛ばし、除去することを有効にする構成設定を有してもよく、その結果、設定が有効にされた場合には、これらは無視される。初期アライメントが包含に不適格である場合には、初期アライメントの処理は、アライメントを出力せずに終了する。さもなければ、処理は、初期アライメントが再整列処理に適格であるかどうかを判定することによって継続する(304)。適格性は任意の所望の因子に基づいて判定され得る。例として、(i)初期アライメントが完璧に整列されているかどうか、例えば、アライメントの整列されたリードと、そのリードが整列されたリファレンス配列との間で一致しない1つ又は複数の塩基が存在するかどうか、(ii)整列されたリードがソフトクリップを含むかどうか、(iii)初期アライメントが二次アライメントであるか否か、並びに/或いは(iv)配列アライメントデータセット内で指示されるリファレンスゲノム配列の塩基の領域内において、整列されたリードの周りに候補インデルが存在するかどうかが判定され得る。1つの特定の例では、アライメントが完璧に整列されているか、ソフトクリップが存在しないか、アライメントが二次アライメントであるか、又は領域内に候補インデルが存在しない場合には、次に、アライメントは、再整列処理に適格でないと判定され(304 - いいえ)、プロセスは、例えば、アライメントを出力配列アライメントデータセットへの直接出力のためにバッファすることによって、アライメントをそのまま出力する(306)。
[057]その代わりに、304において、アライメントが再整列処理に適格であると判定された場合には(304 - はい)、例えば、アライメントが完璧に整列されていない、ソフトクリップ(単数又は複数)が存在する、アライメントが二次アライメントでない、及び/又は領域内に候補インデルが存在する場合には、プロセスは、初期アライメントを再整列するための再整列処理を試みることによって継続する(308)。このような再整列が以下においてリード再整列手順の一部として、より詳細に説明される。この再整列手順は、「最良の」リアライメントと考えられるものをもたらす。再整列処理の後に、最良のリアライメントが元の初期アライメントと少なくとも同じほど良好であるかどうかを判定する(310)。良好でない場合には、次に、初期アライメントをそのまま出力する(306)。さもなければ、最良のリアライメントを出力する(312)。それゆえ、初期アライメントが処理されるいずれの場合においても、リファレンスに対する所与のリードのアライメントは出力され得る。アライメントは、初期アライメント(306)又は再整列されたアライメント(312)のいずれかである。
[058]アライメントが再整列のために考慮される時までには(308)、観測され、アライメントのそのリード配列に影響を与え得るであろう全ての候補インデル(元のアライメント自身からの任意のもの、周囲のインデル、及び任意の「既存物」を含む)が収集され、リファレンスに対するリードの候補リアライメントを提供するべく導入するための候補である候補インデルのセットを形成している。各候補インデル(及び例によっては、2つ以上のこのような候補インデルの組み合わせ)を、整列されたリードの平坦化されたバージョンに導入する反復プロセスを開始する。例によっては、インデル(単数又は複数)は、平坦化された整列されたリードの左側から(すなわち、上流、又は5プライム方向から)、及び右側から(すなわち、下流、又は3プライム方向から)導入される。各反復は、リアライメントがどれほど良好であるかを判定するために評価される、結果として生じる「候補リアライメント」をもたらす。評価は、クオリティの任意の所望のインジケータ(単数又は複数)、例えば、例として、リアライメントの整列されたリードとリファレンスとの間で一致しない塩基の数、インデルの数、インデルの部位、及び/又はソフトクリップされた塩基の数を考慮し得る。
[059]本明細書に記載されている1つのコンセプトは、リード内の塩基ごとの染色体座標のアレイである、位置マップである。位置マップは、配列アライメントデータセット内の配列を表現するために用いられるデータ構造である。図4Aは、ソフトクリップ及び欠失を包含する整列されたリードのための例示的な位置マップを示し、図4Bは、本明細書に記載されている諸態様に係る、挿入を包含する整列されたリードのための例示的な位置マップを示す。まず図4Aを参照すると、整列されたリード402aがリファレンス404と整列されて示されており、対応するCIGAR操作412aがリードの下に示されている。CIGAR操作412aの下に位置マップ414aがある。位置マップは概して、リファレンスゲノムに対応せず、位置マップにおいて「-1」の位置を与えられる、ソフトクリップ又は挿入された塩基を除いて、リファレンス404の上に示された塩基位置を写し、欠失した塩基(位置7及び8に示される)はリードになく、それゆえ、欠失した塩基はそれら自身の位置を有しない。その代わりに、欠失は、2つの連続したリード塩基間の位置の飛び越しによって明白であり、例えば、位置マップ414aに示されるとおりの6から9への飛び越しは2塩基対(base pair、bp)欠失を指示する。それゆえ、図4Aは、ソフトクリップ及び2bp欠失を有する、chrN:2(1S5M2D2M)を反映するリードのための例示的な位置マップを示す。図4Aに指示されるソフトクリップはN型ソフトクリップである。初期アライナは、リードのソフトクリップされた部分を有し、その部分に「N」を付与し、その塩基が何であるのかを知らせることができないことを指示する「N」は特定の種類のソフトクリップであり、他の種類のソフトクリップは、識別された塩基を有し得るが、依然として、ソフトクリップと考えられる。
[060]図4Bは、(位置6及び7の間の)2bp挿入を有するchrN:2(5M2I2M)を反映するリードのための別の例示的な位置マップ414bを示す。挿入はリファレンス404内に示されており、整列されたリード402b、CIGAR操作412b、及び位置マップ414b内に反映されている。
[061]リード再整列は、位置マップの操作、及びリファレンスゲノムに対するヌクレオチド位置の対のその後の比較を含み得る。再整列される各々の整列されたリードは、まず、「白紙スレート」を作成するために、その既存のインデル及び非N型ソフトクリップを剥奪されてもよい。これは、リードがインデルを含まないことを前提として実効的に開始するリードをもたらす。インデルを含まないリードは、本明細書において、「平坦化された(flattened)」リード配列、又は平坦化された整列されたリード - 初期アライメントにおけるリードの平坦化されたバージョン - と呼ばれる。次に、候補インデルが、平坦化された整列されたリードに反復的に導入され、リファレンスとの合致について評価される。この導入は、位置マップを操作することによって達成され得る。次に、結果として得られたヌクレオチド位置の対がリファレンスゲノムと比較され得る。
[062]図5A~図5Cは、本明細書に記載されている諸態様に係る、整列されたリードの平坦化を示す。図5Aは、リファレンス504に対して指示されているとおりに整列され、対応するCIGAR操作512aを示す、初期の整列されたリード502aを示す。位置マップ514aは、位置1におけるN型ソフトクリップ、並びに位置7及び8における2bp欠失を指示する。図5Bは、左側に固定された、つまり、塩基を左(すなわち、上流、又は5プライム方向)に移動するよう平坦化された、平坦化された整列されたリード502bを示す。CIGAR操作512b及び対応する位置マップ514bは、指示されるように更新された。図5Cは、右側に固定された、つまり、塩基を右に移動するよう平坦化された、平坦化された整列されたリード502cを示す。CIGAR操作512c及び対応する位置マップ514cは、図5Cにおいて指示されるように更新された。
[063]図6A~図6Dは、平坦化された整列されたリードへの候補インデル(単数又は複数)の導入又は「注入」を示す。候補インデルは、処理されるリードのゲノム上の近傍において発見されたもの、及び、使用される場合には、リファレンスインデルデータセットによって指示される任意の「既存物」であり得る。図6A~図6Dの例では、近位候補インデルは、chrN:6 ATC>A、chrN:6 A>ACG、及びchrN:10 GA>Gを含む。
[064]図6Aは、平坦化され、左側に固定された再整列された、リファレンス604と整列されたリード602aを有する候補リアライメントを示す。インデルが存在せず、その結果、候補リアライメントの再整列されたリード602aとリファレンス配列604との間で4つの塩基が一致しない - 位置7~10を参照されたい。
[065]図6Bは、位置7及び8に導入されたchrN:6 ATC>A欠失インデルを有する再整列されたリード602bを有する別の候補リアライメントを示す。リードの最後の4つの塩基、C-G-T-Cは、その欠失を導入するために、位置2つ分先に移動されている。その結果、候補リアライメントのリード配列602bとリファレンス配列604との間で2つの塩基が一致しない - 位置11及び12を参照されたい。
[066]図6Cは、位置6及び7の間に追加されたchrN:6 A>ACG挿入インデルを有する再整列されたリード602cを有するさらに別の候補リアライメントを示す。その結果、候補リアライメントのリード配列602cとリファレンス配列604との間で一致しない塩基が存在しない。以下においてさらに説明されるように、このような候補リアライメントが決定されると、平坦化された整列されたリードへのインデルの反復的導入は中断し、その候補リアライメントを、完璧なアライメントと考えられるであろう、リファレンスに完全に一致する候補のために返し得る。
[067]図6Dは、位置7及び8において追加されたchrN:6 ATC>A欠失インデル、並びに位置11において追加されたchrN:10 GA>G欠失インデルを有する再整列されたリード602dを有する候補リアライメントを示す。本例は、平坦化された整列されたリードへの2つのインデルの注入を示す。その結果、この場合もまた、候補リアライメントのリード配列602dとリファレンス配列604との間で一致しない塩基が存在しない。図6Dは、図6Bと同じアライメントであるが、追加されたインデルを有する。
[068]所望のリアライメントを見出す際の1つの目標は、不一致を最小化することを優先し、次に、インデルの数を最小化し、最良のリアライメントに到達することであり得る。単一のインデルを有し、不一致を有しないリアライメントが最良であると考えられてもよく、その場合には、そのアライメントのための再整列処理は終わり、リアライメントを返し得る。次に、これを初期アライメントと比較し、どちらが、出力するべきより良好なアライメントであるかを判定し得る。代替的に、再整列処理の間に「完璧なアライメント」に出会わなかった場合には、考慮されている組み合わせからの「最良の」候補リアライメントを元のアライメントと比較し、より良好なものを、以下において説明されるように、出力のために選択し得る。
[069]「最良の」候補アライメントを決定する際には、順位又は優先順位における規則が用いられ、適用されてもよい。例によっては、現在の最良の候補リアライメントが記憶され、次に決定されたリアライメント候補と比較される。両者が規則(単数又は複数)に従って比較され、そのリアライメント候補がより良好である場合には、それが新たな最良の候補リアライメントとして優先順位付けされ、古い候補リアライメントに取って代わる。このような規則及び優先順位付けの一例は以下のとおりである。
(i)リードのアライメントが、リファレンスに対して一致しない単一の塩基のみを有し、インデルを有せず、それに対して、リードの他方のアライメントが1つ又は複数のインデルを有する場合には、単一の不一致を有し、インデルを有しないアライメントの方を選ぶ。インデルを有せず、一致しない単一の塩基のみを有するアライメントを、1つ又は複数のインデルを有する候補アライメントよりも優先する、
(ii)インデルの数にかかわらず、一致しない塩基(すなわち、アライメントの整列されたリードとリファレンスとの間の不一致)の数を最小化する。一致しないより少数の塩基を有するアライメントを、一致しないより多数の塩基を有するアライメントよりも優先する、
(iii)リファレンスに対して一致しない同数の塩基を所与として、より少数の非Nソフトクリップを有するアライメントの方を選ぶ。一致しない同数の塩基を有するアライメントの間で、指定された種類(例えば、N)のより少数のソフトクリップを有するアライメントを、指定された種類のより多数のソフトクリップを有するアライメントよりも優先する、並びに
(iv)リファレンスに対して一致しないものの同数塩基を所与として、より少数のインデルを有するアライメントの方を選ぶ。一致しない同数の塩基を有する異なるアライメントの間で、より少数のインデルを有するアライメントを、より多数のインデルを有するアライメントよりも優先する。
[070]入力配列アライメントデータセットは、コンピュータシステムによって、データアライメントを1つずつ読み込むように処理されてもよい。これらの初期アライメントはメモリに読み込まれ、各初期アライメントは、上述されたとおりのスライド窓に基づいて処理のために最終的に承認される。この処理が、承認された初期アライメントが再整列処理に適格であると判定した場合には、次に、処理のために承認された初期アライメントごとに、図7を参照して説明され、図解されるとおりのリード再整列処理が遂行される。図7の処理は1つ又は複数のコンピュータシステムによって遂行され得る。
[071]プロセスは、この初めに整列されたリードのための全ての近位候補インデル、すなわち、領域内で観測されたインデルを得ることによって開始する(702)。近位インデルは、このリードアライメントに関連すると考えられる領域又は窓内にあるものであり得、それゆえ、配列アライメントデータセット内で指示されるいくつかの異なるアライメントのうちの任意のものにおいて見られる任意のインデルであり得る。インデルのこのセットは、任意選択的に、「既存物」としてリファレンスインデルデータセット内で指示されるインデル(単数又は複数)、又は既知の/存在を仮定されたインデルとともに、候補インデルのセットを形成する。
[072]次に、プロセスは、初期アライメントに関連するこれらの候補インデルをランク付けする(704)。このランク付け又は優先順位付けは任意の所望の規則(単数又は複数)に基づき得る。規則の例は以下のとおりであり、以下の順序で適用される。
(i)「既知」/既存物を優先(使用する場合) - 優先順位付けは、リファレンスインデルデータセットによって既存の既知のインデルであると指示されるインデルを、リファレンスインデルデータセットによって既存の既知のインデルであると指示されないインデルよりも、たとえ、「既存物」として指示されないそのインデルが配列アライメントデータセット内では重く指示される場合でも、優先することができる、
(ii)より大きい/より長いインデルを優先 - 優先順位付けは、より長い長さのインデルをより短い長さのインデルよりも優先することができる。より長いインデルを、より小さいものよりも、たとえ、配列アライメントデータセット内により高頻度で出現し得るものであっても、高くランク付けし得る、
(iii)より高頻度、例えば、所与の位置におけるインデルの存在を指示するより多数のリード内に存在するインデルを優先 - 優先順位付けは、配列アライメントデータセットの、より大きな総数のリード配列、又はより大きな比率のリード配列内で指示されるインデルを、リファレンス配列内の所与の位置に対応する配列アライメントデータセットの、それぞれ、より少数又はより小さな比率の整列されたリード内で指示されるインデルよりも優先することができる、
(iv)同じ頻度である場合には、最も左のインデルを優先 - 優先順位付けは、配列アライメントデータセットの同数の整列されたリードにおいて指示される異なるインデルの間で、配列アライメントデータセットによって指示されるリファレンスゲノム配列に対する部位が、別のインデルのために指示される、リファレンスゲノム配列内の部位より上流にあるインデルを優先することができる。一例として、処理がリード202bの再整列を試みる際に、インデル208aは実際にインデル208bよりも高くランク付けされ得る。
[073]ランク付けは、どのインデルが、他のインデルと比べて、それらの存在の確率に関してより重く重み付けされるのかについての指示である。2つの可能な候補インデルが、一致しない同じ数(0個以上)の塩基を有する2つの異なる候補リアライメントをもたらすことができた場合には、優先順位付けは、どちらのインデルがより重く信頼されるべきであるかを指示する。上述の例示的な優先順位規則は、既知の、より長い、より高い頻度で生じるインデルに向かって進む。優先順位付けは、存在する、より真である可能性が高いインデルを反映する。
[074]図7のプロセスは、図8を参照してより詳細に説明される、「最良の」リアライメントを得ることによって継続する(706)。最良のリアライメントは、候補インデル(単数又は複数)を通覧し、それらを、元のアライメントの整列されたリードの平坦化されたバージョンに反復的に導入し、候補リアライメント(単数又は複数)を生成した結果である。ランク付けされた候補インデルを通した反復は、1つのインデル、2つのインデルなど、及びn個を含むそれ以下の数のインデルの順列を有するリードを再整列する。実施形態によっては、nは3である。各反復は候補リアライメントを生成する。これらのリアライメントのうちの「最良のもの」が、選択基準を用いて選択され得る。1つの目標は、注入されたインデル(単数又は複数)を有する変更されたリードとリファレンスとの間でできるだけ少数の不一致を達成することであり得る。
[075]図7のプロセスを続けると、最良の候補リアライメントを得た後に、プロセスは、再整列されたリードがリファレンスに完璧に整列されているかどうか(708)、すなわち、導入された1つ又は複数のインデルを有する、候補リアライメントの整列されたリードが、リアライメントの整列されたリードとリファレンスとの間で一致しない塩基を有することなく、リファレンス配列と整列しているかどうかを判定する。図6Cに、これの一例が示されている。位置6及び7の間にC-G挿入インデルを有することで、整列されたリード602cはリファレンス604と完璧に整列している。選択された最良のリアライメントが完璧なリアライメントを呈する場合には(708 - Y)、次に、プロセスは、入力配列アライメントデータセットからの元のアライメントの代わりに、その選択された最良のリアライメント710を出力する。
[076]さもなければ、最良の候補リアライメントの再整列されたリードとリファレンスとの間で一致しない塩基が存在する場合には(708 - N)、プロセスは、最良の候補リアライメントを元のアライメントと比較することによって進む(712)。最終的に、目標は、両者のうちのより良好なアライメントを出力することである。それゆえ、比較に基づいて、プロセスは、706によってもたらされた最良の候補リアライメントが元のアライメントよりも良好かどうかを判定する(714)。より良好である場合には、プロセスはこの最良のリアライメントを出力する(710)。特定の例では、最良の候補リアライメントが元のアライメントよりも良好であるか、又はそれと同じほど良好である場合には、適切な場合には、マッピングクオリティが調整され、(例えば、元のクオリティが20以下であり、リアライメントが不一致を有しない場合には、40に設定される)、プロセスは、このマッピングクオリティ調整の後に、最良の候補リアライメントを出力配列アライメントデータセットに出力する。質問714に戻り、最良の候補リアライメントが元のアライメントよりも良好でないか、又は同じほど良好でない場合には(714 - N)、次に、プロセスは元のアライメントを出力する(716)。
[077]元のアライメント及び最良の候補リアライメントのうちのより良好なものを選択するための選択基準は、706からのリアライメント候補のうちの最良のものを決定するために適用された選択基準と同じであるか、又は異なり得る。特定の例では、最良の候補リアライメント、並びに/或いは最良の候補リアライメント及び元のアライメントのうちのより良好なものを選択するための選択基準は、アライメントの整列されたリードとリファレンス配列との間で一致しない塩基の数、アライメントによって指示されるインデルの数、配列アライメントデータセット内で指示されるリファレンスゲノム配列内における、インデル(単数又は複数)に対応する部位(単数又は複数)、並びに/或いはアライメントによって指示されるソフトクリップされた塩基の数に基づき得る。上記における「アライメント」は、(元のアライメントの場合のように)アライメント及び(候補リアライメントの場合のように)リアライメントの両方を包含する。なぜなら、どちらの場合も、リファレンス配列に対する対応するリードのアライメントを提示するからである。
[078]一例として、選択基準は、インデルを有せず、(リードとアライメントのリファレンスとの間で)一致しない単一の塩基のみを有するアライメントを、1つ又は複数のインデルを有するアライメントよりも優先すること、一致しないより少数の塩基を有するアライメントを、一致しないより多数の塩基を有するアライメントよりも優先すること、一致しない同数の塩基を有するアライメントの間で、Nなどの、指定された種類のより少数のソフトクリップを有するアライメントを、指定された種類のより多数のソフトクリップを有するアライメントよりも優先すること、並びに/或いは一致しない同数の塩基を有する異なるアライメントの間で、より少数のインデルを有するアライメントを、より多数のインデルを有するアライメントよりも優先すること、のうちの1つ又は複数を行うことができる。
[079]図8は、本明細書に記載されている諸態様に係る、最良の候補リアライメントを選択するための例示的なプロセスを示す。図8の処理は1つ又は複数のコンピュータシステムによって遂行され得る。高レベルにおいて、プロセスは、再整列処理を受けている初期アライメントの整列されたリードの変更された、例えば、平坦化されたバージョンに、1つ又は複数のインデルの順列を導入する。各導入は候補リアライメントを生成する。プロセスは、まず、各インデルを、平坦化された整列されたリードに個々に導入して、候補リアライメント(単数又は複数)を提供し、次に、2つのインデルの各組み合わせをリードに導入して、追加の候補リアライメントを提供する。これを、何らかの構成可能な閾値が満たされるまで、3つ、4つなどのインデルについて繰り返すことができる。例によっては、この閾値は、リードへの3つのインデルの順列の導入後に満たされる。再整列処理においてインデルが導入される優先順位は、上述されたとおりのそれらのインデルのランク付けに従う。また、例によっては、処理は、完璧なアライメントが決定された時はすぐに中断する(抜ける/停止する)ように構成されている。
[080]具体例として、優先順位に従ってランク付けされたn個の候補インデル{I1,I2,I3,・・・,In}が存在し、反復は、1つ、次に、2つ、次に、3つのインデルの組み合わせを通して進むと仮定する。平坦化された整列されたリードへのインデルの反復的導入は以下の順序で進むことになり、各反復は候補リアライメントをもたらす。
- [1つのインデルの反復:]I1、次に、I2、次に、I3、・・・、次に、Inを導入する。次に、
- [2つのインデルの反復:]I1 + I2、次に、I1 + I3、・・・、次に、I1 + In、次に、I2 + I3、次に、I2 + I4、・・・、次に、I2 + In、・・・、次に、In-1 + Inを導入する。次に、
- [3つのインデルの反復:]I1 + I2 + I3、・・・、次に、In-2 + In-1 + Inを導入する。
[081]インデルの導入は、インデル(単数又は複数)を、平坦化された整列されたリードに注入し、変更されたリードアライメントがどれほどリファレンスゲノムとぴったりと合うかを検査する。この検査は、生成された変更された位置マップによって支援され得る。
[082]上述のように、反復の間の任意の時点において、リファレンスと完璧に整列する候補リアライメントがもたらされた場合には、処理は中断し、その候補を、提供のために最良の候補リアライメントとして選択することができる(図7、#706)。
[083]図8を参照すると、プロセスは、最良のリアライメントを創始することによって開始する。一例では、これは、最初は、プレースホルダーとして、ヌルであるか、又は元のアライメントにデフォルト設定されるが、図8の処理が継続するのに従い、主題の元のアライメントを処理する際に出会った現在の最良のリアライメントと置換されることになる。プロセスは、試すべきさらなるインデル順列が存在するかどうかを判定することによって開始するループに入る(804)。存在する場合には、プロセスは、試すべき次の順列を得る/識別する(806)。次に、試すべき次の順列が複数のインデルを含むときには、任意選択的な判定808を行う。一部のインデルは共存し得ず、この場合には、それらを、平坦化された整列されたリードに導入し、候補リアライメントを提供することは意味をなさない。単一のインデルのみが導入されるときには、判定808は最初の反復の間に行われなくてもよい。最終的に、再整列処理が2つ以上のインデルの順列に到達した場合には、次に、判定808が各反復において行われ得る。808において、平坦化されたリードへの導入の候補になっているインデルが共存することができないと判定した場合には、プロセスは、804へ戻ることによって次の反復へ進み、試すべきさらなるインデル順列が存在するかどうかを判定する。さもなければ、又は目下の反復において考慮されるインデルが1つしか存在しないため、決定808が遂行されない場合には、プロセスは、「標的に対する再整列」プロセスを遂行し、結果を得ることによって進む(810)。このプロセスは、図9を参照してさらに詳細に説明される。
[084]810から得られた結果が候補リアライメントとなる。次に、図8のプロセスは、結果が現在の最良のリアライメントよりも良好であるかどうかを判定する(812)。より良好である場合には、その結果が新たな現在の最良のリアライメントになる(814)。一例では、結果は、以前に記憶された最良のリアライメントに取って代わり、以前に記憶された最良のリアライメントは放棄される。結果が、この処理においてすでに得られたいずれの候補リアライメントよりも良好であると判定されたので、プロセスは、結果 - 新たな最良のリアライメント - が完璧なアライメントであるかどうか、すなわち、リアライメントの整列されたリードとリファレンスとの間で塩基の不一致が存在しないかどうかを判定することによって進む(816)。完璧なアライメントである場合には、プロセスは終了し、その最良のリアライメントが、選択された最良のリアライメントとして用いられる。例によっては、これを最良アライメントとして出力配列アライメントデータセットに出力する(図7、710)。
[085]816において、新たな最良のリアライメントが完璧なアライメントでないと判定した場合、又は812において、得られた結果が現在の最良のリアライメントよりも良好でなかったと判定した場合には、プロセスは804へ戻り、試すべき追加のインデル順列が存在するかどうかを判定する。存在しない場合には、次に、プロセスは現在の最良のリアライメントを返す(818)。このプロセスは、試すべきさらなるインデル順列が存在しなくなるまで(804 - いいえ)、又は完璧なアライメントが、決定された候補リアライメントによってもたらされるまで(816 - はい)、反復を継続することが分かる。
[086]図9は、本明細書に記載されている諸態様に係る例示的な「標的に対する再整列」(図8の810)の処理を示す。図9の処理は1つ又は複数のコンピュータシステムによって遂行され得る。プロセスは、図10Aを参照して説明される、左側固定の結果を得(902)、図10Bを参照して説明される、右側固定の結果を得(904)、両者のうちのより良好なものを返す(906)。両者の間の選択のための選択基準は、上述された選択基準などの、所望される任意の選択基準であり得る。変更された例では、左側及び右側固定処理の双方からの候補リアライメントを得る代わりに、左側固定の結果によってもたらされたリアライメントを、図8(812~816)を通して処理し、左側固定の結果が完璧なアライメントをもたらさなかったと判定された場合にのみ(816 - いいえ)、図10Bの右側固定の結果の処理を遂行する。
[087]図10A~図10Bは、本明細書に記載されている諸態様に係る、左側及び右側固定再整列の結果のための例示的なプロセスを示す。図10A及び図10Bの処理は1つ又は複数のコンピュータシステムによって遂行され得る。左側又は右側からの固定は、リードのどちらの側がその識別された塩基に関してより正確であると仮定されるかの反映である。リードの一方の端部が他方よりも信頼される場合には、リードはその端部から固定され、インデル(単数又は複数)の注入はその端部から進む。左側固定のリアライメントでは、左側が右側よりも信頼される。左側固定の結果の処理、図10Aのために、プロセスは、リード位置を、任意の接頭ソフトクリップ(例によっては、Nソフトクリップを除く)の長さだけ左に移動させることによって、調整された開始位置を得る(1002)。リードが、(i)挿入、或いは(ii)ソフトクリップ及び挿入で開始する場合には、リード位置をその挿入の長さだけ左に移動する。固定は最も外側の一致しないヌクレオチドに対応する。次に、プロセスは、平坦化されたリード、配列、及び位置マップを作成する(1004)。図5Bに、一例が示されている。次に、現在の順列の組み合わせにおける1つ又は複数のインデルの各々について、ランク順に、プロセスはインデルを追加し、結果として生じるリアライメントを得る(1006)。図6Cは、平坦化された左側に固定されたリードに1つのインデルが導入される一例を示し、図6Dは、平坦化されたリードに2つのインデルが導入される一例を示す。
[088]右側固定の結果の処理、図10Bのために、プロセスは、位置マップ内の最大位置を見つけ、リードの端部に存在する挿入された/ソフトクリップされた塩基の数を加算することによって、調整された端部位置を得る(1008)。リードの調整された開始位置は、その最大位置・マイナス・N型ソフトクリップを含まないリードの長さになる。次に、プロセスは、平坦化された整列されたリード、配列、及び位置マップを作成する(1010)。図5Cに、一例が示されている。次に、現在の順列の組み合わせにおける1つ又は複数のインデルの各々のために、右方(又は5プライム端部の方の上流)から左方(又は3プライム端部の方の下方)の順に、プロセスはインデルを追加し、結果として生じるリアライメントを得る(1012)。例えば、導入されるべき3つのインデルが存在する場合には、プロセスはそれらを右から左へ導入し、まず、3つのうちの最も上流のインデル、次に、残りの2つのうちの最も上流のもの、次に、3番目のものを追加する。
[089]図11を参照して、「インデルを追加し、結果を得る」処理(図10Aの1006、図10Bの1012)を説明する。図11の処理は1つ又は複数のコンピュータシステムによって遂行され得る。これは、追加されるべきインデルごとに遂行される。追加されるべき複数のインデルが存在する場合には、インデルの追加の結果得られたリアライメントが、次のインデルの追加(結果として生じたリアライメントに対する各々の連続したインデル上への積層)によって変更されるものである。図10A又は図10Bの処理から最終的に生成され、図8の810によって返される候補リアライメントは、図11を遂行し、組み合わせのためのインデル(単数又は複数)の各々を追加することからもたらされる最終リアライメントである。
[090]図11のプロセスは、何らかの出発リアライメント候補を仮定する。この出発リアライメント候補は、最初は、導入されたインデルを有しない平坦化されたリードであろうが、インデルが追加されるたびに、更新された、結果として生じたリアライメントと置き換えられる。プロセスは、位置マップが、インデルが導入されることを可能にするかどうかを判定することによって開始する(1102)。可能にしない場合、例えば、導入されるべきインデルの参照位置が位置マップからはずれているか、又は位置マップ内の最後の位置である場合などには、インデルの追加は失敗し、プロセスはヌルを返すか(1114)、又は何らかの他の所望の結果を返し、次に、終了する。
[091]位置マップが、インデルが導入されることを可能にする場合には、プロセスは、(インデルが挿入された)新たな位置マップが有効であるかどうかを判定する(1104)。有効でない場合には、次に、インデルの追加は失敗し、プロセスはヌルを返すか(1114)、又は何らかの他の所望の結果を返し、次に、終了する。さもなければ、プロセスは、候補インデルが挿入であるかどうかを判定することによって進む(1106)。挿入である場合には、リード配列の塩基が推定挿入と一致するかどうかを判定する(1108)。推定挿入の位置におけるリード配列内の塩基が、推定挿入内で指定されるものと同じ塩基である場合には、リード配列の塩基は推定挿入と一致し得る。説明のための例として、以下のリード配列ATCTGAが位置10に固定され(すなわち、5プライムAがchrN:10にある)、推定挿入がchrN:12 C>CTGである場合には、chrN:12におけるCの後のリード配列内の次の2つの塩基がTGであるため、それは一致と考えられるであろう。対照的に、推定挿入が、別の説明のための例として、chrN:12 C>CAAである場合には、chrN:12におけるCの後のリード配列内の次の2つの塩基がAAでないため、それは一致にならないであろう。リード配列の塩基が推定挿入と一致しない場合には、次に、インデルの追加は失敗し、プロセスはヌルを返すか(1114)、又は何らかの他の所望の結果を返し、次に、終了する。
[092]その代わりに、1108において、リード配列の塩基が推定挿入と一致すると判定した場合(1108 - はい)、又は1106において、インデルが挿入でない、例えば、インデルが欠失であると判定した場合には、次に、プロセスは、調整された位置マップに基づいて、新たなCIGAR位置文字列及び開始位置を決定することによって進む(1110)。次に、プロセスは、インデルが追加された、結果として生じたリアライメントを返し(1112)、終了する。
[093]以下において、例示的なGetBestAlignmentルーチン(図8に対応する)、及び例示的なサブルーチンRealignToTargets(図9に対応する)のための擬似コードを提供する。
[094]GetBestAlignmentは、平坦化されたリードに導入するために、ランク付けされた候補インデルのリストに対して遂行されるルーチンを指す。このプロセス内において、RealignToTargetsが、各候補インデルに対して、単独、及び他の候補インデル(単数又は複数)との組み合わせの両方で遂行される。どの時点であっても、単一のインデルの導入が、不一致を有しないリードを生じさせた場合には、プロセスは抜けることができ、そのリアライメントが最良のリアライメント候補と考えられる。さもなければ、プロセスは、1~n個のインデルの全ての査定された組み合わせから、上述された規則/選択基準によって評価されたとおりの、「最良の」リアライメントを返す。ここで、nは、導入するべきインデルの最大数である。
[095]GetBestAlignmentルーチン擬似コード:
BestResultSoFarを空に初期化する;
候補インデルAごとに、ランク付けの順に:
//1つのインデルに対する整列を試す:
RealignToTargetsルーチンを遂行し、結果ResultAを得る;
ResultAがBestResultSoFarよりも良好である場合には、ResultAがBestResultSoFarになる;
BestResultSoFarが1つのインデル及び0個の不一致を有する場合には、中断し、それを最良のリアライメントとして保持する。
//2つのインデルに対する整列を試す:
追加の候補インデルBごとに:
インデルA及びBが共存することができない場合には、この対を飛ばす;
RealignToTargetsルーチンを遂行し、結果ResultABを得る;
ResultABがBestResultSoFarよりも良好である場合には、ResultABがBestResultSoFarになる
//3つのインデルに対する整列を試す:
3つの組み合わせを試すように構成される場合には、追加の候補インデルCごとに:
インデルA、B、及びCが共存することができない場合には、この三つ組を飛ばす;
BestResultSoFarが>0個の不一致を有する場合には:
RealignToTargetsルーチンを遂行し、結果ResultABCを得る;
ResultABCがBestResultSoFarよりも良好である場合には、ResultABCがBestResultSoFarになる;
BestResultSoFarを返す;
[096]RealignToTargetsルーチン擬似コード:
例えば、組み合わせて査定されるべき1~3つの候補インデルのリストである、CombinationIndelsを所与として:
//左側固定を用いて結果を得る:
調整された位置を得る:リード位置を接頭ソフトクリップ(Nソフトクリップを除く)の長さだけ左に移動させる。リードが、挿入、又はソフトクリップ+挿入で開始する場合には、リード位置をその挿入の長さだけ左に移動させる;
CIGARを有する平坦化されたリード、配列、及び全ての一致を仮定した位置マップ(末端のNを除外)を作成する。結果として生じるリードは、リード(末端のNを除外)内の全ての塩基のために「M」のCIGAR文字列を有するであろう;
ResultLeftAnchoredを初期化する;
CombinationIndels内のインデルXごとに、位置の昇順で:
AddIndelAndGetResultルーチンを遂行し(図11)、ResultAlignmentを変更する(連続したインデル上に積層する);
//右側固定を用いて結果を得る:
調整された位置を得る:位置マップ内の最大位置を見つけ、それに、リードの端部に存在する挿入又はソフトクリップされた塩基の数を加算する。リードの調整された開始位置は、その最大位置・マイナス・リード長になる;
CIGARを有する平坦化されたリード、配列、及び全ての一致を仮定した位置マップ(末端のNを除外)を作成する。結果として生じるリードは、リード(末端のNを除外)内の全ての塩基のために「M」のCIGAR文字列を有するであろう;
ResultRightAnchoredを初期化する
CombinationIndels内のインデルXごとに、位置の降順で:
AddIndelAndGetResultルーチンを遂行し、ResultAlignmentを変更する(連続したインデル上に積層する);
ResultLeftAnchored及びResultRightAnchoredのうちのより良好なものを返す。引き分けの場合には、ResultLeftAnchoredを返す。
[097]本明細書に記載されている諸態様は、初期アライナから出力される配列決定データアライメントを調整して改善するために用いることができる。アライナは、本明細書に記載されている諸態様を遂行するように構成されたソフトウェアへの入力として提供される、初期配列アライメントデータセットを出力し得る。ソフトウェアは、初期アライメントのうちの1つ又は複数のリアライメントを有する配列アライメントデータセットを出力する。
[098]以下に述べることは、本明細書に記載されている諸態様(以下において、「リアライナ(Realigner)」と呼ばれる)に係るインデル再整列と、Eli and Edythe L.Broad Institute of MIT and Harvard(「Broad Institute」),Cambridge,Massachusetts,USAによって提供されているGATKインデルリアライナのインデル再整列との比較を示す。
[099]「リアライナ」の特徴は、観測された突然変異の周りでリードを正確に再整列し、既存の方法よりも短い時間でそれを行うその能力に存する。これを実証するために、「リアライナ」を、生物情報学界において最もよく知られていると思われる局所インデルリアライナ、GATK Indelリアライナ(例えばDePristo,M.,Banks,E.,Poplin,R.,Garimella,K.,Maguire,J.,&Hartl,C.et al. A framework for variation discovery and genotyping using next-generation DNA sequencing data. Nature Genetics,43(5),491-498,(2011)を参照)と比較し、「リアライナ」がより短い時間量内に少なくとも同程度にうまく機能したかどうかを判定した。
[0100]シミュレートされた変異データに対する感度及び特定性:
[0101]方法
[0102]感度を評価するために、以下の実験を遂行した。
[0103]1.長さ4~25bpの200個の挿入及び200個の欠失の個体変異のFASTQファイルをシミュレートする(合計で400個のシミュレーションFASTQ)。
[0104]2.Illumina,Inc.,San Diego,California,U.S.A.によって提供されているアイザックアライナを用いて、シミュレートしたFASTQファイルを整列する。「既存物」を用いる、及び用いない、2つの条件を査定した。既存物のリストをアイザックに供給することは、その位置における一連の不一致を呼び出すことよりも、リスト内のインデルが支持されることを可能にする。
[0105]3.「リアライナ」、GATK、及び整列無しの各々を用いて、上述の条件(既存物を用いる、既存物を用いない)の各々を再整列する。
[0106]4.Illumina,Inc.によって提供されているパイシーズ(Pisces)変異コーラーを用いて変異を呼び出す。
[0107]5.呼び出した変異の感度及び特定性を評価する。
[0108]解析において用いたサンプル:
[0109]~2000個の中程度の長さ(4~25bp)のインデルのプールから200個の挿入及び200個の欠失をランダムに選択した。図12は、本明細書に記載されている諸態様に係るシミュレーション解析において用いた変異長の分布を示す。
[0110]呼び出された変異の評価
[0111]各シミュレーションサンプルは、呼び出された変異をちょうど1つ有することが期待される。結果の感度及び特定性を評価するために、全ての呼び出された変異をVCFから抽出する(0個~多数の変異がもたらされ、そのうちの0~1個が、期待される変異と一致することになる)。得られた変異を、期待される「真性」変異と比較し、その結果、本明細書に記載されている諸態様に係る真性変異評価の可能な結果を示す、図13に列挙される結果のうちの1つを得る。
[0112]結果
[0113]初期アイザックアライメントにおいて既存物を用いることで、全ての条件のための感度が増大した。再整列を用いない場合には、48.5%の変異が、偽陽性を有することなくうまく呼び出された。GATK再整列を用いた場合には、その部分は48.8%に上昇したが、その一方で、「リアライナ」は75.3%を達成した。全ての場合において、変異が正しく呼び出され、合格した場合には、他の合格変異は存在しなかった。例によっては、既存物を用いて使用した「リアライナ」は、GATK再整列よりも少ない偽陰性及び少ない偽陽性を生成し得る。
[0114]図14は、再整列されていない、GATKにより再整列された、又は本明細書において開示されるとおりの再整列方法の諸態様に従って再整列された、既存物を用いてアイザックによって生成されたシミュレーションBAMについての真陽性率及び偽陽性率を示す。図15は、再整列されていない、GATKにより再整列された、又は本明細書において開示されるとおりの再整列方法の諸態様に従って再整列された、既存物を用いてアイザックによって生成されたシミュレーションBAMについての真陽性率及び偽陽性率を示す。これらの結果は、必ずしも、左側に整列された表現とは限らない、インデルの特定の所望の表現に基づくことに留意されたい。インデルのGATKの表現は、必ず、最も左側に整列されたものであることになり、それに対して、「リアライナ」は、それが入力BAM内で見るインデルの元の表現に対する忠実度を維持する。
[0115]FFPE正常サンプルに対する特定性:
[0116]方法
[0117]現実的なサンプルに対する特定性を評価するために、正常(無病)サンプルを用いた。リアライナを十分に検証するために、多数の低頻度の「ノイズ」変異を生じさせる低いDNAクオリティを通例有する、FFPEサンプルを用いた。特に、「リアライナ」のために、これらの低頻度の変異の各々は、偽の変異を導入する機会を与える。
[0118]これらは正常な非癌サンプルであるため、我々は、全ての真の変異は2倍体の頻度におけるものであると仮定する(異型接合に対しては~50%、及び同型接合変異に対しては~100%)。それゆえ、「体細胞」範囲(<20% VAF)内のものはいずれも偽陽性と考えることができる。さらに、得られた体細胞突然変異数が低いほど、他の全てのことが同じなら、再整列方法は正確であると考えることができる。
[0119]以下の実験を遂行した。
[0120]1.癌における体細胞突然変異のカタログ(Catalog of Somatic Mutations in Cancer、COSMIC)オンラインデータベースからの目標変異を包含する既存物VCFを用いてアイザック変異コーラーを実行する。
[0121]2.「リアライナ」又はGATKを用いてBAMファイルを再整列する。
[0122]3.パイシーズ変異コーラーを用いて変異を呼び出す。
[0123]4.体細胞突然変異率を査定する。
[0124]20個のFFPE正常サンプルに対して解析を行った。FFPE正常サンプルは、Illumina Inc.によって提供されているTruSight Tumor 170アッセイを用いて準備し、配列決定し、TruSight Tumor 170インフォマティクスパイプラインを通じて、整列ステップまで処理した。
[0125]結果
[0126]「リアライナ」は、全般的に、再整列されていない結果、又はGATKにより再整列された結果のどちらよりも低い体細胞突然変異率(非癌サンプルにおける偽陽性率の代理)を示した(20個の場合のうち3つにおいてのみ、「リアライナ」はGATKよりも高いFP(偽陽性)率を有したが、3つは全て極めて接近していた)。「リアライナ」は、再整列されていない場合、又はGATKにより再整列された場合のどちらよりも積極的な欠失呼び出しを有するように見受けられた(図16参照)。概して、インデル再整列は偽陽性を大幅に低減し、これは特に「リアライナ」に言えた。
[0127]図16は、再整列されていない、GATKにより再整列された、又は本明細書において開示されるとおりの再整列方法の諸態様に従って再整列されたサンプルについての、全体的な、サンプルごとの体細胞突然変異数(非癌サンプルにおける偽陽性数の代理)を示す。図17は、再整列されていない、GATKにより再整列された、又は本明細書において開示されるとおりの再整列方法の諸態様に従って再整列されたサンプルについての、突然変異型によって分類された、サンプルごとの体細胞突然変異数(非癌サンプルにおける偽陽性数の代理)を示す。
[0128]実行時間の評価
[0129]方法
[0130]FFPE正常評価のために用いた同じ20個のサンプルを、入力BAMから、再整列された出力BAMに至るまでに要した計算時間について査定した。入力BAMファイルはおよそ6000万個のリードを各々包含した。
[0131]結果
[0132]全ての場合において、「リアライナ」は中サイズのBAMに対してGATKよりも大幅に高速であった。図18は、GATK、及び本明細書に記載されている諸態様に係る再整列方法の諸態様についての、100万個のアライメント当たりの再整列時間を示す。100万個のアライメント当たりの再整列時間は、試験コンピュータシステム(単数又は複数)上において、GATKの場合、100万個のアライメント当たり約1.5~5分に及び、「リアライナ」の場合、一貫して10秒未満であった。
[0133]「リアライナ」は、既存のインデルの表現に対する忠実度を維持する高速で正確なインデル再整列アルゴリズムである。「リアライナ」は、インデルの周りにおいて再整列するべき入力配列アライメントデータセット内の既存の信号の存在を頼りにする。上述の例では、「リアライナ」は、既存物を考慮してアイザックによって生成されたBAMファイルに対して使用された時に、特に好結果を出す。なぜなら、これは、入力BAMが、インデルを有する少なくとも1つのリードを包含することになる可能性を最大にするためである。
[0134]局所再整列のために期待されるゴールドスタンダードは、コンセンサス生成、及びコンセンサスの局所再整列を用いるパイルアップアプローチを含むであろう。しかし、コンセンサスベースの解決策は、時間及び計算要件の観点からコストがかかることが示されている。対照的に、「リアライナ」は各リードを個々に扱い、近位の観測されたインデルのコンテキストを、はるかにより単純な、候補ベースのアプローチのために用いる。
[0135]したがって、配列整列処理のためのプロセスが本明細書において説明される。図19は、本明細書に記載されている諸態様に係る、配列整列処理のための例示的なプロセスを示す。図19の処理は1つ又は複数のコンピュータシステムによって遂行され得る。特定の例では、コンピュータシステム上で実行するソフトウェアが入力配列アライメントデータセットファイルを開き、その内容を読み込む。内容は、一例として、リファレンス配列(単数又は複数)に対するリード配列のアライメントのバイナリ表現を含む。プロセスは、処理すべき次の初期アライメントが存在するかどうかを判定することによって開始する(1902)。存在しない場合には、プロセスは終了する。処理するべき次の初期アライメントが存在する場合には、プロセスは、配列アライメントデータセットから、リファレンス配列に対するリード配列の初期アライメントを得ること(メモリにすでに読み込まれていない場合)によって継続する(1904)。次に、この初期アライメントに対する処理を遂行する。最初に、処理は、得られた初期アライメントが再整列に適格であるかどうかを判定する(1906)。適格でない場合には、プロセスは、再整列処理を遂行することなく、初期アライメントをそのまま提供する(1908)。さもなければ、初期アライメントが再整列に適格である場合には、次に、プロセスは、初期アライメントに対する再整列処理を遂行することによって継続する(1910)。再整列処理はリード配列をリファレンス配列に対して再整列する。例示的な再整列処理が、以下において図20を参照して図解され、説明される。そのプロセスの一部として、1つ又は複数の候補リアライメントを生成する。次に、図19のプロセスは、1つ又は複数の選択基準に基づいて、初期アライメント、又は1つ又は複数の候補リアライメントのうちの選択された候補リアライメントを提供する(1912)。
[0136]選択基準は、一致しない塩基の数、インデルの数、配列アライメントデータセットによって指示されるリファレンスゲノム配列に対するインデルの部位、及び/又はソフトクリップされた塩基の数のうちの1つ又は複数に少なくとも一部基づくことができる。例によっては、選択基準は、インデルを有せず、一致しない単一の塩基のみを有するアライメントを、1つ又は複数のインデルを有するアライメントよりも提供のために優先し、一致しないより少数の塩基を有するアライメントを、一致しないより多数の塩基を有するアライメントよりも提供のために優先し、一致しない同数の塩基を有する異なるアライメントの間で、指定された種類のより少数のソフトクリップを有するアライメントを、指定された種類のより多数のソフトクリップを有するアライメントよりも提供のために優先し、並びに/或いは一致しない同数の塩基を有する異なるアライメントの間で、より少数のインデルを有するアライメントを、より多数のインデルを有するアライメントよりも提供のために優先する。
[0137]図19を再び参照すると、適切なアライメントを提供した後に(1908、1912)、プロセスは、1902へ戻ることによって繰り返す。これは、処理のために承認された数個のものなどの、数個のものの追加の初期アライメントごとに繰り返すことができる。それゆえ、プロセスは、1つ又は複数の追加の初期アライメントの追加の初期アライメントごとに処理を遂行することによって繰り返す。すなわち、プロセスは、配列アライメントデータセットの1つ又は複数の追加の初期アライメントのうちの追加の初期アライメントごとに、得ること、及び得られた追加の初期アライメントが再整列に適格であるかどうかを判定することを繰り返す。
[0138]図20は、本明細書に記載されている諸態様に係る、再整列処理のための例示的なプロセスを示す。図20の処理は1つ又は複数のコンピュータシステムによって遂行され得る。プロセスは、1つ又は複数の候補インデルを識別することによって開始する(2002)。1つ又は複数の候補インデルは、整列されたリード内の任意のもの、及び潜在的に、整列されたリードの付近若しくは近位において整列された他のインデルであることができる。初期リードアライメント内で指示されるものが0個以上、及び整列された配列の付近のものが0個以上存在してもよく、それゆえ、候補インデルは、整列されたリード内の0個以上のインデル、及び配列アライメントデータセットによって指示されるとおりの整列されたリードの近位において整列された0個以上のインデルを含むことができる。加えて、及び任意選択的に、リファレンスインデルデータセットが1つ又は複数のインデルを候補インデルのセットに導入のために供給し得る。
[0139]次に、図20のプロセスは候補インデルを優先順位付けする(2004)。優先順位付けは、任意の所望のアプローチを用いて候補インデルを優先順位付け又はランク付けする。例えば、優先順位付けは、リファレンスインデルデータセットによって既存の既知のインデルであると指示されたインデルを、リファレンスインデルデータセットによって既存の既知のインデルであると指示されないインデルよりも優先する。加えて、又は代替的に、優先順位付けは、より長い長さのインデルをより短い長さのインデルよりも優先する。加えて、又は代替的に、優先順位付けは、配列アライメントデータセットのより多数の整列されたリードにおいて指示されるインデルを、配列アライメントデータセットのより少数の整列されたリードにおいて指示されるインデルよりも優先する。加えて、又は代替的に、優先順位付けは、配列アライメントデータセットの同数の整列されたリードにおいて指示される異なるインデルの間で、配列アライメントデータセットによって指示されるリファレンスゲノム配列に対する部位が、別のインデルのために指示される、リファレンスゲノム配列内の部位より上流にあるインデルを優先する。
[0140]図20のプロセスは、リード配列から、初期アライメントによって指示される任意のインデルを除去することに少なくとも基づいて、平坦化された整列されたリードを作成し(2006)、次に、リファレンス配列に対するリード配列の1つ又は複数の候補リアライメントを決定すること(2008)によって継続する。候補リアライメント(単数又は複数)を決定することは、1つ又は複数の候補リアライメントの候補リアライメントごとに、1つ又は複数の候補インデルのうちのそれぞれの少なくとも1つの候補インデルを平坦化された整列されたリードに導入することに基づいて行われる。1つ又は複数の候補インデルは複数の候補インデルを含むことができ、1つ又は複数の候補リアライメントを決定することは、複数の候補インデルを平坦化された整列されたリードに反復的に導入することを開始することを含むことができ、反復的導入の各反復は、候補リアライメントのためのそれぞれの少なくとも1つの候補インデルを平坦化された整列されたリードに導入することによって、1つ又は複数の候補リアライメントの候補リアライメントを提供する。反復的導入は、複数のインデルを、優先順位付けに基づく優先順位に従って導入することができる。
[0141]反復的導入は、複数の候補インデルのうちの1つ又は複数の候補インデルの順列を、平坦化されたリードに導入し、複数の順列のうちの順列ごとに、1つ又は複数の候補アライメントの異なる候補リアライメントを得る。
[0142]再整列処理(図20)は、選択基準に基づいて1つ又は複数の候補リアライメントのうちの最良の候補リアライメントを最終的に選択する(2010)。この選択のためには、初期アライメントと最良の候補リアライメントとの間で選択するために図19において用いられる基準とは異なる基準が用いられてもよい。それゆえ、最良の候補リアライメントの選択は、1つ又は複数の選択基準のうちの第1の基準に基づくことができ、ここで、選択された候補リアライメントは、選択された最良の候補リアライメントであり、出力すること(図19、1912)は、1つ又は複数の選択基準のうちの第2の基準に基づいて初期アライメントと最良のリアライメント候補との間で選択する。
[0143]最良の候補リアライメントのこの選択は、提供された候補リアライメントを検査し、導入されたそれぞれの1つ又は複数の候補インデルを有する提供された候補リアライメントの整列されたリードが、提供された候補リアライメントの整列されたリードとリファレンス配列との間で一致しない塩基を有することなく、リファレンス配列と整列するかどうかを判定することを含み得る。提供された候補リアライメントの整列されたリードが、一致しない塩基を有することなく、リファレンス配列と整列すると判定したことに基づいて、候補インデル(単数又は複数)を平坦化された整列されたリードに反復的に導入することは停止することができ、一致しない塩基を有しない提供された候補リアライメントは、選択された候補リアライメントとして提供され得る(2010)。これらの場合において、提供すること(図19、1912)は、リファレンス配列と整列する提供された候補リアライメントの整列されたリードに基づいて、選択された候補リアライメントを出力することができる。
[0144]図21は、本明細書に記載されている諸態様に係る、初期アライメントが再整列処理を受ける適格性を決定するための例示的なプロセスを示す。この適格性の決定は図19(1906)において遂行される。図21の処理は1つ又は複数のコンピュータシステムによって遂行され得る。プロセスは、初期アライメントの整列されたリードとリファレンス配列との間で一致しないいくらかの(例えば、1つ又は複数の)塩基が存在するかどうか、又は整列されたリードがソフトクリップを含むかどうかを判定することによって開始する(2102)。どちらでもない場合には、次に、プロセスは、アライメントが再整列に不適格であると判定する(2108)。さもなければ、一致しない塩基(単数又は複数)及び/又はソフトクリップ(単数又は複数)が存在し、プロセスは、アライメントが二次アライメントであるかどうかを判定することによって継続する(2104)。アライメントが二次アライメントであるか否かは、一例では、配列アライメントデータセット内で指示されてもよい。アライメントが二次アライメントであると識別した場合には、プロセスは、アライメントが再整列に不適格であると判定する(2108)。さもなければ、プロセスは、初期アライメントが二次アライメントでないと識別し、配列アライメントデータセットのリファレンスゲノム配列の塩基の領域内において、整列されたリードの周りにいくらかの候補インデル(単数又は複数)が存在するかどうかを判定することを継続する(2106)。それゆえ、1つも存在しない場合には、プロセスは、アライメントが再整列に不適格であると判定する(2108)。さもなければ、プロセスは、初期アライメントが再整列処理に適格であると判定し(2110)、プロセスは終了する。
[0145]図21の例は、アライメントが再整列処理に適格であるかどうかを判定するための一部の可能な基準のみを提示している。同じ、又は他の基準が、単独で、又は1つ又は複数の他の基準と組み合わせて用いられてもよい。
[0146]本明細書に記載されているプロセスは、1つ又は複数のコンピュータシステムによって、単独で、又は一括して遂行されてもよい。図22は、本明細書に記載されている諸態様を組み込み、及び/又は用いるためのこのようなコンピュータシステム及び関連デバイスの一例を示す。コンピュータシステムは、本明細書において、データ処理デバイス/システム又はコンピューティングデバイス/システム/ノード、或いは単にコンピュータと呼ばれる場合もある。図22に示されるコンピュータシステム2200は、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、シッククライアント、ハンドヘルド若しくはラップトップデバイス、モバイルデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能家庭用電化製品、ネットワークPC、ミニコンピュータシステム、メインフレームコンピュータシステム、及び/又は上述のシステム若しくはデバイスのうちの任意のものを含む分散クラウドコンピューティング環境、並びに同様のもののうちの1つ又は複数として実装され得る。
[0147]システム2200は、1つ又は複数のプロセッサ又は処理ユニット2250、並びに揮発性メモリ2254(例えば、ランダムアクセスメモリ(Random Access Memory)、RAM)及び不揮発性メモリ2056を含むメモリ2252を含む。メモリ2252は、取り外し可能/非取り外し可能な、揮発性/不揮発性コンピュータシステム記憶媒体をさらに含み得る。さらに、メモリ2252は、ハードドライブなどの、非取り外し可能な不揮発性磁気媒体からの読み取り及びそれへの書き込みのための1つ又は複数の読み取り装置、取り外し可能な不揮発性磁気ディスクからの読み取り及びそれへの書き込みのための磁気ディスクドライブ、並びに/或いはCD-ROM、DVD-ROMなどの取り外し可能な不揮発性光ディスクからの読み取り又はそれへの書き込みのための光ディスクドライブを含み得る。システム2200はまた、種々のコンピュータ可読有形記憶媒体も含み得る。このような媒体は、揮発性及び不揮発性媒体、並びに取り外し可能及び非取り外し可能媒体などの、任意の利用可能な媒体であり得る。
[0148]メモリ2252は、実行されると、本明細書に記載されている機能を実施する実行可能命令として実装されるプログラムモジュールのセット(例えば、少なくとも1つ)を有する少なくとも1つのプログラム製品を含み得る。実行可能命令2258は、オペレーティングシステム、1つ又は複数のアプリケーションプログラム、他のプログラムモジュール、及びプログラムデータ、或いは他の種類のソフトウェアを含み得る。概して、プログラムモジュールは、特定のタスクを遂行するか、又は特定の抽象データ型を実装する、ルーチン、プログラム、オブジェクト、コンポーネント、論理、データ構造などを含み得る。プログラムモジュールは、限定するものではないが、配列決定データリード再整列を含む、本明細書に記載されている機能、プロセス、方法、及び同様のものを実施し得る。
[0149]コンピュータシステム2200の構成要素は、メモリバス又はメモリコントローラ、周辺バス、アクセラレイティッドグラフィックスポート、並びに種々のバスアーキテクチャのうちの任意のものを用いるプロセッサ又はローカルバスを含む、いくつかの種類のバス構造のうちの任意のもののうちの1つ又は複数として実装され得る内部バス2260によって結合され得る。
[0150]コンピュータシステム2200はまた、キーボード、ポインティングデバイス、ディスプレイ2262等などの1つ又は複数の外部デバイス、並びに/或いはコンピュータシステム2200が、クラウドコンピューティング環境においてホストされるサーバ又は他のシステムなどの、1つ又は複数の他のコンピュータシステムと通信することを可能にする任意のデバイス(例えば、ネットワークカード、モデム等)と通信し得る。このような通信は、好適なネットワークアダプタを介して、ローカルエリアネットワーク(local area network、LAN)、汎用ワイドエリアネットワーク(wide area network、WAN)、及び/又は公衆ネットワーク(例えば、インターネット)などの1つ又は複数のネットワークにインターフェース接続するネットワークインターフェースを含み得る、I/Oインターフェース2264を介して行うことができる。
[0151]次に、コンピュータシステムを用いた配列決定のさらなる諸態様が説明される。図23は、例えば、図24を参照して説明されるクラウドコンピューティング環境と併せて用いられ得る配列決定デバイス2300の概略図である。配列デバイス2300は、合成による配列決定方法又は連結による配列決定技法を組み込むものなどの、任意の配列決定技法に従って実装され得る。一部の実施形態は、標的核酸鎖、又は標的核酸からエキソヌクレアーゼにより除去されたヌクレオチドがナノポアを通過する、ナノポア配列決定を利用することができる。標的核酸又はヌクレオチドがナノポアを通過する際に、ポアの電気伝導度の変動を測定することによって塩基の各種類を識別することができる。さらに他の実施形態は、伸長産物へのヌクレオチドの取り込み時に放出される陽子の検出を含む。例えば、放出された陽子の検出に基づく配列決定は、電気的検出器及び関連技法を用いることができる。特定の諸実施形態は、DNAポリメラーゼ活性のリアルタイム監視を含む方法を利用することができる。ヌクレオチドの取り込みは、フルオロフォア含有ポリメラーゼとy-リン酸塩標識ヌクレオチドとの間の蛍光共鳴エネルギー移動(fluorescence resonance energy transfer、FRET)相互作用を通じて、又はゼロモード導波路を用いて検出することができる。他の好適な代替的な技法としては、例えば、蛍光in situ配列決定(fluorescent in situ sequencing、FISSEQ)、及び大規模並列サイン配列決定(Massively Parallel Signature Sequencing、MPSS)が挙げられる。特定の諸実施形態では、配列決定デバイス16は、Illumina Inc.からのHiSeq、MiSeq、又はHiScanSQであってもよい。
[0152]図示の実施形態では、配列決定デバイス2300は、別個のサンプル処理デバイス2318及び関連コンピュータシステム2320を含む。しかし、上述のように、これらは単一のデバイスとして実装されてもよい。さらに、関連コンピュータ2320は、サンプル処理デバイス2318にローカルであるか、又は(例えば、クラウド若しくは他のより遠隔の提供物として)サンプル処理デバイス2318とネットワーク化されていてもよい。実施形態によっては、コンピュータ2320は、配列決定デバイス2300から遠隔にあるクラウドコンピューティングデバイスであってもよい。すなわち、コンピュータ2320は、クラウドコンピューティング環境を通じて配列決定デバイス2300と通信する能力を有し得る。図示の実施形態では、生体サンプルは、配列データを生成するために撮像されるサンプルスライド2370としてサンプル処理デバイス2318内に装填されてもよい。例えば、生体サンプルと相互作用する試薬が、撮像モジュール2372によって発生された励起ビームに応じて特定の波長において蛍光を発し、以て、撮像のための放射線を返す。例えば、蛍光構成要素は、構成要素の相補的分子に、又はポリメラーゼを用いてオリゴヌクレオチドに取り込まれた蛍光タグ付きヌクレオチドにハイブリダイズする蛍光タグ付き核酸によって生成され得る。当業者によって理解されるように、サンプルの染料が励起される波長、及び染料が蛍光を発する波長は、特定の染料の吸収及び放出スペクトルに依存することになる。このように返された放射線は、誘導光学系を通して逆に伝搬し得る。この逆行ビームは、概して、撮像モジュール2372の検出光学系に向けて誘導され得る。
[0153]撮像モジュール検出光学系は、任意の好適な技術に基づくことができ、例えば、デバイス内の部位に衝突する光子に基づいて、ピクセル化された画像データを生成する電荷結合素子(charged coupled device、CCD)センサであり得る。しかし、限定するものではないが、時間遅延積分(time delay integration、TDI)動作のために構成された検出器アレイ、相捕型金属酸化膜半導体(complementary metal oxide semiconductor、CMOS)検出器、アバランシェフォトダイオード(avalanche photodiode、APD)検出器、ガイガーモード光子計数器、又は任意の他の好適な検出器を含む、種々の他の検出器のうちの任意のものが同様に用いられ得ることが理解されるであろう。TDIモード検出はライン走査と結合され得る。他の有用な検出器が、例えば、本明細書において、様々な核酸配列決定方法論の文脈において以前に提供された参照文献に記載されている。
[0154]撮像モジュール2372は、例えば、プロセッサ2374を介して、プロセッサの制御を受けることができ、サンプル受け取りデバイス2318はまた、I/O制御装置2376、内部バス2378、不揮発性メモリ2380、RAM2382、及びメモリが実行可能命令を記憶する能力を有するようにするための任意の他のメモリ構造、並びに図22に関して説明されたものと同様であり得る他の好適なハードウェア構成要素を含み得る。さらに、関連コンピュータ2320はまた、プロセッサ2384、I/O制御装置23386、通信モジュール2387、並びにRAM2388及び不揮発性メモリ2390を含むメモリアーキテクチャを含み得、これにより、メモリアーキテクチャは、実行可能命令2392を記憶する能力を有する。ハードウェア構成要素は、ディスプレイ2396にもリンクし得る、内部バス2394によってリンクされ得る。配列決定デバイスがオールインワンデバイスとして実装される諸実施形態では、特定の余分なハードウェア要素は除かれてもよい。
[0155]次に図24を参照すると、生体データのためのクラウドコンピューティング環境2410が概略的に示されている。本明細書で使用するとき、用語「クラウド」又は「クラウドコンピューティング環境」は、インターネットに通例基づくことになる、様々な発展中の機構、インフラストラクチャ、ネットワーク、及び同様のものを指し得る。用語は、クライアントクラウド、アプリケーションクラウド、プラットフォームクラウド、インフラストラクチャクラウド、サーバクラウドなどを含む、任意の種類のクラウドを指し得る。当業者によって理解されるように、このような機構は、概して、配列決定デバイスの所有者又はユーザによる利用を可能にし、サービスとしてのソフトウェア(software as a service)(SaaS)を提供し、サービスとしてのコンピューティングプラットフォーム(computing platform as a service)(PaaS)の様々な態様を提供し、様々なサービスとしてのネットワークインフラストラクチャ(network infrastructures as a service)(IaaS)を提供する、などすることになる。さらに、この用語には、パブリッククラウド、コミュニティクラウド、ハイブリッドクラウド、及びプライベートクラウドを含む、これらの製品及びサービスのための様々な種類及び事業構成が含まれるべきである。これらのうちの任意のもの又は全てはサードパーティエンティティによってサービスされ得る。しかし、特定の諸実施形態では、プライベートクラウド又はハイブリッドクラウドは、許可されたユーザの間での配列データ及びサービスの共有を可能にし得る。
[0156]クラウド設備2412は複数のコンピュータシステム/ノード2414を含む。ノード2414のコンピューティングリソースは、複数の消費者に供するためにプールされてもよく、消費者要求に従って、異なる物理リソース及び仮想リソースが動的に割り当てられ、再割り当てされる。リソースの例としては、記憶、処理、メモリ、ネットワーク帯域幅、及び仮想マシンが挙げられる。ノード2414は、リソースを分配するために互いに通信することができ、このような通信、及びリソースの分配の管理は、1つ又は複数のノード2414内に常駐するクラウド管理モジュールによって制御され得る。ノード2414は、任意の好適な機構及びプロトコルを介して通信し得る。さらに、ノード2414は、1つ又は複数のプロバイダに関連付けられたサーバを含み得る。例えば、特定のプログラム又はソフトウェアプラットフォームは、プログラムの所有者によって提供されるノード2414のセットを介してアクセスされてもよく、その一方で、他のノード2414はデータ保管会社によって提供される。特定のノード2414はまた、より高い負荷時に用いられるオーバフローノードであってもよい。
[0157]一実施形態では、クラウド管理モジュールが負荷管理及びクラウドリソースの責任を負う。負荷管理は、ユーザアクセスレベル及び/又はクラウドコンピューティング環境内の総負荷(ピーク時対平均負荷時)を含む、種々の因子の考慮を通じて実施され得る。プロジェクトタイプも考慮され得る。一実施形態では、公衆衛生緊急事態が他の種類のプロジェクトよりも優先され得る。さらに、ユーザは、クラウド使用が特定の閾値を下回るまで保持される特定の実行を、優先度のより低いものとして提供することによって、コストを管理し得る。
[0158]クラウド設備2412は、生体データを生成するための様々なユーザ(例えば、ユーザコンピュータシステム)と通信するように構成されている。このようなデータは、配列決定デバイス2416を介して生成された配列データを含み得る。配列決定デバイス2416は、特定の諸実施形態では、生体サンプルを受け入れ、配列データを生成するためのモジュールを含む配列決定デバイス2418、並びに配列データを解析するか、又はクラウド設備2412へ通信するための実行可能命令を含む関連コンピュータ2420を含み得る。特定の諸実施形態では、配列決定デバイス2416はまた、オールインワンデバイスとして実装され得ることを理解されたい。配列決定デバイス2416は、好適な通信リンク2424を介してクラウド設備2412と通信するように構成されている。クラウド設備2412との通信は、ローカルエリアネットワーク(LAN)、汎用ワイドエリアネットワーク(WAN)、及び/又は通信リンク2424を介した公衆ネットワーク(例えば、インターネット)を介した通信を含み得る。特に、通信リンク2424は、配列データ2426、及び、特定の諸実施形態では、認証情報2428をクラウドコンピューティング環境2412へ送信する。認証情報は、配列決定デバイス2416がクラウド設備2412のクライアントであることを確認し得る。
[0159]上述のように、クラウド設備2412は複数のユーザ又はクライアントに、関連デバイス、例えば、デバイス2416a、2416b、及び2416cを供し得る。さらに、クラウド設備2412はまた、二次ユーザ2430又はサードパーティソフトウェア保有者などの、他の種類のクライアントによってアクセスされ得る。したがって、クラウド設備2412は、特定のクライアントのアクセスレベルに依存して、異なる種類のサービスを提供し得る。配列決定クライアントは保管及びデータ解析サービスへのアクセスを有し得、その一方で、二次ユーザ2430は共有又は公開配列へのアクセスのみを有し得る。サードパーティソフトウェア保有者は、適切なアクセス特権を決定するために、配列決定クライアントとネゴシエートし得る。例えば、オープンソースソフトウェアは、無料で、又は限定ライセンスに基づいて提供されてもよく、その一方で、他の種類のソフトウェアは様々な料金又は加入基盤に従って提供されてもよい。
[0160]さらに、一次ユーザ(又は二次ユーザ)はまた、コンピュータ2420に関して説明されたものと同様の構成要素を含むモバイルデバイス又は他のコンピュータシステムなどの、任意の適切なアクセスデバイスを通じてクラウド設備2412と対話し得る。すなわち、配列データがクラウド設備2412へ通信されると、配列データとのさらなる対話及びそれへのアクセスは必ずしも配列デバイス2416に結合されなくてもよい。このような実施形態は、生体サンプル及び/又は配列データの所有者が、例えば、中核研究施設に対して、配列決定を請け負った実施形態において有益であり得る。このような実施形態では、一次ユーザは所有者であってもよく、その一方で、配列決定デバイス2416に関連付けられた中核研究施設は、せいぜい、配列データがクラウド設備2412へ通信された後の二次ユーザである。特定の諸実施形態では、配列データは、クラウド設備2412、又は特定の機関若しくはIPアドレスを有する団体内のパスワードで保護されたクライアントアカウントなどのセキュリティパラメータを通じてアクセスされてもよい。配列データは、1つ又は複数のファイルをクラウド設備2412からダウンロードすることによって、又は配列データがテキスト、画像、及び/又はハイパーリンクとして示されるグラフィカルユーザディスプレイを提供するウェブベースのインターフェース又はソフトウェアプログラムにログインすることによって、アクセスされてもよい。このような実施形態では、配列データは、通信リンク又はネットワークを介して伝送されるデータパケットの形態で一次又は二次ユーザへ提供されてもよい。
[0161]クラウド設備2412は、グラフィカルユーザインターフェースをユーザに提供し、配列データ、研究者のコミュニティ又はグループ、データ解析プログラム、利用可能なサードパーティソフトウェア、並びに負荷バランシング及び機器設定のためのユーザ選択へのアクセスを容易にするユーザ対話ソフトウェアを(例えば、ウェブベースのインターフェース又はアプリケーションプラットフォームを介して)実行し得る。例えば、特定の諸実施形態では、配列決定デバイス2416上での配列決定実行のための設定がクラウド設備2412を介して設定され得る。したがって、クラウド設備2412及び個々の配列決定デバイス2416は双方向通信の能力を有し得る。このような実施形態は、遠隔の配列決定実行のパラメータを制御するために特に有用であり得る。
[0162]配列決定実行及び様々な解析の結果は、例として、FASTQファイル、バイナリアライメントファイル(bam)、*.bcl、*.vcf、及び/又は*.csvファイルの形式をとるファイルに記憶することができる。出力ファイルは、配列データ閲覧、変更、アノテーション、操作、整列、及び再整列ソフトウェアと互換性のあるフォーマットのものであり得る。したがって、本明細書において提供されるアクセス可能な配列アライメントデータセットは、生データ、部分的に処理された、若しくは処理されたデータ、及び/又は特定のソフトウェアプログラムと互換性のあるデータファイルの形式のものであり得る。これに関連して、例として、配列決定デバイスのコンピュータシステム、若しくは配列決定デバイスと通信するコンピュータシステム、又はクラウド設備のコンピュータシステムなどの、コンピュータシステムは、bam又は他の配列決定アライメントデータセットを得、例えば、そのデータを読み取り、本明細書に記載されている諸態様の実施への操作を遂行することによってファイルを処理することができる。コンピュータシステムは、次に、配列決定アライメントデータを有するファイル、例えば、別のbamファイルを出力することができる。さらに、出力ファイルは他のデータ共有プラットフォーム又はサードパーティソフトウェアと互換性を有し得る。
[0163]様々な実施形態が上述されたが、これらは例に過ぎない。例えば、1つ又は複数の実施形態を組み込み、使用するために、他のアーキテクチャのコンピューティング環境を用いることができる。
[0164]本明細書において用いられる用語法は、特定の実施形態を説明することのみを目的とするものであり、限定を意図されてはいない。本明細書において使用される時、単数形「a」、「an」及び「the」は、文脈がそうではないことを明確に示さない限り、複数形も含むことが意図される。さらに、用語「備える(comprises)」及び/又は「備える(comprising)」は、本明細書で使用される場合、記述される特徴、整数、ステップ、動作、要素、及び/又は構成要素の存在を指定するが、1つ又は複数の他の特徴、整数、ステップ、動作、要素、構成要素、及び/又はそれらの群の存在若しくは追加を排除するものではないことを理解されたい。
[0165]添付の請求項における全てのミーンズ又はステップ・プラス・ファンクション要素の対応する構造、物、行為、及び同等物は、存在する場合には、具体的にクレームされているとおりに、他のクレームされている要素と組み合わせて機能を遂行するための任意の構造、物、又は行為を含むことが意図される。1つ又は複数の実施形態の説明は例示及び説明を目的として提示されたが、網羅的であること、又は開示されている形態に限定されることを意図されてはいない。多くの変更及び変形が当業者には明らかであろう。実施形態は、様々な態様及び実際の適用を最もうまく説明し、他の当業者が、様々な実施形態を、企図される特定の使用に適した様々な変更とともに理解することを可能にするために選定され、説明された。
[発明の項目]
[項目1]
配列決定データリード再整列のためのコンピュータ実施方法であって、
配列アライメントデータセットから、リファレンス配列に対するリード配列の初期アライメントを得るステップであって、前記初期アライメントが、整列されたリードを含む、ステップと、
前記初期アライメントに対して再整列処理を遂行するステップであって、前記再整列処理が前記リード配列を前記リファレンス配列に対して再整列し、1つ又は複数の候補リアライメントを生成し、前記再整列処理が、
1つ又は複数の候補インデルを識別することであって、前記1つ又は複数の候補インデルが、前記整列されたリード内の0個以上のインデル、及び前記配列アライメントデータセットによって指示されるとおりの前記整列されたリードの近位において整列された0個以上のインデルを含む、識別すること、
前記整列されたリードから、前記初期アライメントによって指示されるあらゆるインデルを除去することに少なくとも基づいて、平坦化された整列されたリードを作成すること、並びに
前記1つ又は複数の候補リアライメントの候補リアライメントごとに、前記1つ又は複数の候補インデルのうちのそれぞれの少なくとも1つの候補インデルを前記平坦化された整列されたリードに導入することに基づいて、前記リファレンス配列に対する前記リード配列の前記1つ又は複数の候補リアライメントを決定すること、
を含む、ステップと、
1つ又は複数の選択基準に基づいて、前記初期アライメント、又は前記1つ又は複数の候補リアライメントのうちの選択された候補リアライメントを提供するステップと、
を含む、コンピュータ実施方法。
[項目2]
前記1つ又は複数の候補インデルが複数の候補インデルを含み、前記1つ又は複数の候補リアライメントを前記決定することが、前記複数の候補インデルを前記平坦化された整列されたリードに反復的に導入することを開始することを含み、前記反復的に導入することの各反復が、前記候補リアライメントのための前記それぞれの少なくとも1つの候補インデルを前記平坦化された整列されたリードに導入することによって、前記1つ又は複数の候補リアライメントの候補リアライメントを提供する、項目1に記載のコンピュータ実施方法。
[項目3]
前記反復的に導入することが、前記複数の候補インデルのうちの1つ又は複数の候補インデルの順列を前記平坦化された整列されたリードに導入し、前記複数の順列のうちの順列ごとに、前記1つ又は複数の候補アライメントの異なる候補リアライメントを得る、項目2に記載のコンピュータ実施方法。
[項目4]
前記再整列処理が、
前記1つ又は複数の候補リアライメントのうちの提供された候補リアライメントを検査し、前記導入されたそれぞれの1つ又は複数の候補インデルを有する前記提供された候補リアライメントの整列されたリードが、前記提供された候補リアライメントの前記整列されたリードと前記リファレンス配列との間で一致しない塩基を有することなく、前記リファレンス配列と整列するかどうかを判定すること、
前記提供された候補リアライメントの前記整列されたリードが、一致しない塩基を有することなく、前記リファレンス配列と整列すると判定したことに基づいて、前記反復的に導入することを停止すること、並びに
前記提供された候補リアライメントを、前記選択された候補リアライメントとして選択することであって、前記提供することが、前記リファレンス配列と整列する前記提供された候補リアライメントの前記整列されたリードに基づいて、前記選択された候補リアライメントを出力する、選択すること、
をさらに含む、項目3に記載のコンピュータ実施方法。
[項目5]
前記再整列処理が、前記複数のインデルを前記反復的に導入することのために優先順位付けすることをさらに含み、前記反復的に導入することが、前記複数のインデルを、前記優先順位付けすることに基づく優先順位に従って導入する、項目2に記載のコンピュータ実施方法。
[項目6]
前記優先順位付けすることが、リファレンスインデルデータセットによって既存の既知のインデルであると指示されたインデルを、前記リファレンスインデルデータセットによって、既存の既知のインデルであると指示されないインデルよりも優先する、項目5に記載のコンピュータ実施方法。
[項目7]
前記優先順位付けすることが、より長い長さのインデルをより短い長さのインデルよりも優先する、項目5に記載のコンピュータ実施方法。
[項目8]
前記優先順位付けすることが、前記配列アライメントデータセットのより多数の整列されたリードにおいて指示されるインデルを、前記配列アライメントデータセットのより少数の整列されたリードにおいて指示されるインデルよりも優先するか、又は前記優先順位付けすることが、前記リファレンス配列に対するインデルの部位に対応する前記配列アライメントデータセットのより大きい比率の整列されたリードにおいて指示される前記インデルを、前記配列アライメントデータセットのより小さい比率の整列されたリードにおいて指示されるインデルよりも優先する、項目5に記載のコンピュータ実施方法。
[項目9]
前記優先順位付けすることが、前記配列アライメントデータセットの同数の整列されたリードにおいて指示される異なるインデルの間で、前記配列アライメントデータセットによって指示されるリファレンスゲノム配列に対する部位が、別のインデルのために指示される前記リファレンスゲノム配列に対する部位より上流にあるインデルを優先する、項目5に記載のコンピュータ実施方法。
[項目10]
前記選択基準が、一致しない塩基の数、インデルの数、前記配列アライメントデータセットによって指示されるリファレンスゲノム配列に対するインデルの部位、及びソフトクリップされた塩基の数のうちの1つ又は複数に少なくとも一部基づく、項目1に記載のコンピュータ実施方法。
[項目11]
前記選択基準が、
インデルを有せず、一致しない単一の塩基のみを有するアライメントを、1つ又は複数のインデルを有するアライメントよりも前記提供のために優先すること、
一致しないより少数の塩基を有するアライメントを、一致しないより多数の塩基を有するアライメントよりも前記提供のために優先すること、
一致しない同数の塩基を有する異なるアライメントの間で、指定された種類のより少数のソフトクリップを有するアライメントを、前記指定された種類のより多数のソフトクリップを有するアライメントよりも前記提供のために優先すること、並びに
一致しない同数の塩基を有する異なるアライメントの間で、より少数のインデルを有するアライメントを、より多数のインデルを有するアライメントよりも前記提供のために優先すること、
のうちの1つ又は複数である、項目1、2、3、4、5及び10のいずれか一項に記載のコンピュータ実施方法。
[項目12]
前記再整列処理が、前記1つ又は複数の選択基準のうちの第1の基準に基づいて前記1つ又は複数の候補リアライメントのうちの最良の候補リアライメントを選択することをさらに含み、前記選択された候補リアライメントが、前記選択された最良の候補リアライメントであり、前記出力することが、前記1つ又は複数の選択基準のうちの第2の基準に基づいて前記初期アライメントと前記最良のリアライメント候補との間で選択する、項目1、2、3、4、5及び10のいずれか一項に記載のコンピュータ実施方法。
[項目13]
前記得られた初期アライメントが再整列に適格であるかどうかを判定するステップをさらに含み、該判定するステップが、
前記初期アライメントの前記整列されたリードと前記リファレンス配列との間で一致しない1つ又は複数の塩基が存在するかどうかを識別すること、
前記整列されたリードがソフトクリップを含むかどうかを識別すること、
前記初期アライメントが二次アライメントではないかどうかを識別すること、及び
前記配列アライメントデータセットのリファレンスゲノム配列の塩基の領域内において、前記整列されたリードの周りに候補インデルが存在するかどうかを識別すること、
のうちの1つ又は複数に少なくとも一部基づく、項目1、2、3、4、5及び10のいずれか一項に記載のコンピュータ実施方法。
[項目14]
前記得られた初期アライメントが再整列に適格であるかどうかを判定し、前記再整列処理と、前記得られた初期アライメントが再整列に適格であると判定したことに基づいて、前記初期アライメント又は選択された候補リアライメントを前記提供することとを遂行するステップと、
前記配列アライメントデータセットの1つ又は複数の追加の初期アライメントのうちの追加の初期アライメントごとに、前記得ること、及び前記得られた追加の初期アライメントが再整列に適格であるかどうかを前記判定することを繰り返すステップと、
前記1つ又は複数の追加の初期アライメントのうちの追加の初期アライメントごとに処理を遂行するステップであって、処理を遂行する前記ステップが、
(i)前記再整列処理を遂行せず、前記追加の初期アライメントをそのまま提供すること、又は
(ii)前記再整列処理と、前記追加の初期アライメント若しくは選択された候補リアライメントを前記提供することとを遂行することを含む、ステップと、
をさらに含む、項目1、2、3、4、5及び10のいずれか一項に記載のコンピュータ実施方法。
[項目15]
配列決定データリード再整列のためのコンピュータシステムであって、メモリと少なくとも1つのプロセッサとを備え、方法を遂行するためのプログラム命令を実行するように構成されており、前記方法が、
配列アライメントデータセットから、リファレンス配列に対するリード配列の初期アライメントを得ることであって、前記初期アライメントが、整列されたリードを含む、得ることと、
前記初期アライメントに対して再整列処理を遂行することであって、前記再整列処理が前記リード配列を前記リファレンス配列に対して再整列し、1つ又は複数の候補リアライメントを生成し、前記再整列処理が、
1つ又は複数の候補インデルを識別することであって、前記1つ又は複数の候補インデルが、前記整列されたリード内の0個以上のインデル、及び前記配列アライメントデータセットによって指示されるとおりの前記整列されたリードの近位において整列された0個以上のインデルを含む、識別すること、
前記整列されたリードから、前記初期アライメントによって指示されるあらゆるインデルを除去することに少なくとも基づいて、平坦化された整列されたリードを作成すること、並びに
前記1つ又は複数の候補リアライメントの候補リアライメントごとに、前記1つ又は複数の候補インデルのうちのそれぞれの少なくとも1つの候補インデルを前記平坦化された整列されたリードに導入することに基づいて、前記リファレンス配列に対する前記リード配列の前記1つ又は複数の候補リアライメントを決定すること、
を含む、遂行することと、
1つ又は複数の選択基準に基づいて、前記初期アライメント、又は前記1つ又は複数の候補リアライメントのうちの選択された候補リアライメントを提供することと、
を含む、コンピュータシステム。
[項目16]
前記1つ又は複数の候補インデルが複数の候補インデルを含み、前記1つ又は複数の候補リアライメントを前記決定することが、前記複数の候補インデルを前記平坦化された整列されたリードに反復的に導入することを開始することを含み、前記反復的に導入することの各反復が、前記候補リアライメントのための前記それぞれの少なくとも1つの候補インデルを前記平坦化された整列されたリードに導入することによって、前記1つ又は複数の候補リアライメントの候補リアライメントを提供し、前記反復的に導入することが、前記複数の候補インデルのうちの1つ又は複数の候補インデルの順列を前記平坦化された整列されたリードに導入し、前記複数の順列のうちの順列ごとに、前記1つ又は複数の候補アライメントの異なる候補リアライメントを得る、項目15に記載のコンピュータシステム。
[項目17]
前記再整列処理が、
前記1つ又は複数の候補リアライメントのうちの提供された候補リアライメントを検査し、前記導入されたそれぞれの1つ又は複数の候補インデルを有する前記提供された候補リアライメントの整列されたリードが、前記提供された候補リアライメントの前記整列されたリードと前記リファレンス配列との間で一致しない塩基を有することなく、前記リファレンス配列と整列するかどうかを判定すること、
前記提供された候補リアライメントの前記整列されたリードが、一致しない塩基を有することなく、前記リファレンス配列と整列すると判定したことに基づいて、前記反復的に導入することを停止すること、並びに
前記提供された候補リアライメントを、前記選択された候補リアライメントとして選択することであって、前記提供することが、前記リファレンス配列と整列する前記提供された候補リアライメントの前記整列されたリードに基づいて、前記選択された候補リアライメントを出力する、選択すること、
をさらに含む、項目16に記載のコンピュータシステム。
[項目18]
前記再整列処理が、前記複数のインデルを前記反復的に導入することのために優先順位付けすることをさらに含み、前記反復的に導入することが、前記複数のインデルを、前記優先順位付けすることに基づく優先順位に従って導入する、項目16又は17に記載のコンピュータシステム。
[項目19]
配列決定データリード再整列のためのコンピュータプログラム製品であって、
方法を遂行するための実行用のプログラム命令を記憶する有形記憶媒体を含み、前記方法が、
配列アライメントデータセットから、リファレンス配列に対するリード配列の初期アライメントを得ることであって、前記初期アライメントが、整列されたリードを含む、得ることと、
前記初期アライメントに対して再整列処理を遂行することであって、前記再整列処理が前記リード配列を前記リファレンス配列に対して再整列し、1つ又は複数の候補リアライメントを生成し、前記再整列処理が、
1つ又は複数の候補インデルを識別することであって、前記1つ又は複数の候補インデルが、前記整列されたリード内の0個以上のインデル、及び前記配列アライメントデータセットによって指示されるとおりの前記整列されたリードの近位において整列された0個以上のインデルを含む、識別すること、
前記整列されたリードから、前記初期アライメントによって指示されるあらゆるインデルを除去することに少なくとも基づいて、平坦化された整列されたリードを作成すること、並びに
前記1つ又は複数の候補リアライメントの候補リアライメントごとに、前記1つ又は複数の候補インデルのうちのそれぞれの少なくとも1つの候補インデルを前記平坦化された整列されたリードに導入することに基づいて、前記リファレンス配列に対する前記リード配列の前記1つ又は複数の候補リアライメントを決定すること、
を含む、遂行することと、
1つ又は複数の選択基準に基づいて、前記初期アライメント、又は前記1つ又は複数の候補リアライメントのうちの選択された候補リアライメントを提供することと、
を含む、コンピュータプログラム製品。
[項目20]
前記1つ又は複数の候補インデルが複数の候補インデルを含み、前記1つ又は複数の候補リアライメントを前記決定することが、前記複数の候補インデルを前記平坦化された整列されたリードに反復的に導入することを開始することを含み、前記反復的に導入することの各反復が、前記候補リアライメントのための前記それぞれの少なくとも1つの候補インデルを前記平坦化された整列されたリードに導入することによって、前記1つ又は複数の候補リアライメントの候補リアライメントを提供し、前記反復的に導入することが、前記複数の候補インデルのうちの1つ又は複数の候補インデルの順列を前記平坦化された整列されたリードに導入し、前記複数の順列のうちの順列ごとに、前記1つ又は複数の候補アライメントの異なる候補リアライメントを得る、項目19に記載のコンピュータプログラム製品。
[項目21]
前記再整列処理が、
前記1つ又は複数の候補リアライメントのうちの提供された候補リアライメントを検査し、前記導入されたそれぞれの1つ又は複数の候補インデルを有する前記提供された候補リアライメントの整列されたリードが、前記提供された候補リアライメントの前記整列されたリードと前記リファレンス配列との間で一致しない塩基を有することなく、前記リファレンス配列と整列するかどうかを判定すること、
前記提供された候補リアライメントの前記整列されたリードが、一致しない塩基を有することなく、前記リファレンス配列と整列すると判定したことに基づいて、前記反復的に導入することを停止すること、並びに
前記提供された候補リアライメントを、前記選択された候補リアライメントとして選択することであって、前記提供することが、前記リファレンス配列と整列する前記提供された候補リアライメントの前記整列されたリードに基づいて、前記選択された候補リアライメントを出力する、選択すること、
をさらに含む、項目20に記載のコンピュータプログラム製品。
[項目22]
前記再整列処理が、前記複数のインデルを前記反復的に導入することのために優先順位付けすることをさらに含み、前記反復的に導入することが、前記複数のインデルを、前記優先順位付けすることに基づく優先順位に従って導入する、請求項20又は21に記載のコンピュータプログラム製品。

Claims (22)

  1. 配列決定データリード再整列のためのコンピュータ実施方法であって、
    配列アライメントデータセットから、リファレンス配列に対するリード配列の初期アライメントを得るステップであって、前記初期アライメントが、整列されたリードを含む、ステップと、
    前記初期アライメントに対して再整列処理を遂行するステップであって、前記再整列処理が前記リード配列を前記リファレンス配列に対して再整列し、1つ又は複数の候補リアライメントを生成し、前記再整列処理が、
    1つ又は複数の候補インデルを識別することであって、前記1つ又は複数の候補インデルが、前記整列されたリード内の0個以上のインデル、及び前記配列アライメントデータセットによって指示されるとおりの前記整列されたリードの近位において整列された0個以上のインデルを含む、識別すること、
    前記整列されたリードから、前記初期アライメントによって指示されるあらゆるインデルを除去することに少なくとも基づいて、平坦化された整列されたリードを作成すること、並びに
    前記1つ又は複数の候補リアライメントの候補リアライメントごとに、前記1つ又は複数の候補インデルのうちのそれぞれの少なくとも1つの候補インデルを前記平坦化された整列されたリードに導入することに基づいて、前記リファレンス配列に対する前記リード配列の前記1つ又は複数の候補リアライメントを決定すること、
    を含む、ステップと、
    1つ又は複数の選択基準に基づいて、前記初期アライメント、又は前記1つ又は複数の候補リアライメントのうちの選択された候補リアライメントを提供するステップと、
    を含む、コンピュータ実施方法。
  2. 前記1つ又は複数の候補インデルが複数の候補インデルを含み、前記1つ又は複数の候補リアライメントを前記決定することが、前記複数の候補インデルを前記平坦化された整列されたリードに反復的に導入することを開始することを含み、前記反復的に導入することの各反復が、前記候補リアライメントのための前記それぞれの少なくとも1つの候補インデルを前記平坦化された整列されたリードに導入することによって、前記1つ又は複数の候補リアライメントの候補リアライメントを提供する、請求項1に記載のコンピュータ実施方法。
  3. 前記反復的に導入することが、前記複数の候補インデルのうちの1つ又は複数の候補インデルの複数の順列を前記平坦化された整列されたリードに導入し、前記複数の順列のうちの順列ごとに、前記1つ又は複数の候補アライメントの異なる候補リアライメントを得る、請求項2に記載のコンピュータ実施方法。
  4. 前記再整列処理が、
    前記1つ又は複数の候補リアライメントのうちの提供された候補リアライメントを検査し、前記導入されたそれぞれの1つ又は複数の候補インデルを有する前記提供された候補リアライメントの整列されたリードが、前記提供された候補リアライメントの前記整列されたリードと前記リファレンス配列との間で一致しない塩基を有することなく、前記リファレンス配列と整列するかどうかを判定すること、
    前記提供された候補リアライメントの前記整列されたリードが、一致しない塩基を有することなく、前記リファレンス配列と整列すると判定したことに基づいて、前記反復的に導入することを停止すること、並びに
    前記提供された候補リアライメントを、前記選択された候補リアライメントとして選択することであって、前記提供することが、前記リファレンス配列と整列する前記提供された候補リアライメントの前記整列されたリードに基づいて、前記選択された候補リアライメントを出力する、選択すること、
    をさらに含む、請求項3に記載のコンピュータ実施方法。
  5. 前記再整列処理が、前記複数の候補インデルを前記反復的に導入することのために優先順位付けすることをさらに含み、前記反復的に導入することが、前記複数の候補インデルを、前記優先順位付けすることに基づく優先順位に従って導入する、請求項2に記載のコンピュータ実施方法。
  6. 前記優先順位付けすることが、リファレンスインデルデータセットによって既存の既知の候補インデルであると指示された候補インデルを、前記リファレンスインデルデータセットによって、既存の既知の候補インデルであると指示されない候補インデルよりも優先する、請求項5に記載のコンピュータ実施方法。
  7. 前記優先順位付けすることが、より長い長さの候補インデルをより短い長さの候補インデルよりも優先する、請求項5に記載のコンピュータ実施方法。
  8. 前記優先順位付けすることが、前記配列アライメントデータセットのより多数の整列されたリードにおいて指示される候補インデルを、前記配列アライメントデータセットのより少数の整列されたリードにおいて指示される候補インデルよりも優先するか、又は前記優先順位付けすることが、前記リファレンス配列に対する候補インデルの部位に対応する前記配列アライメントデータセットのより大きい比率の整列されたリードにおいて指示される前記候補インデルを、前記配列アライメントデータセットのより小さい比率の整列されたリードにおいて指示される候補インデルよりも優先する、請求項5に記載のコンピュータ実施方法。
  9. 前記優先順位付けすることが、前記配列アライメントデータセットの同数の整列されたリードにおいて指示される異なる候補インデルの間で、前記配列アライメントデータセットによって指示されるリファレンスゲノム配列に対する部位が、別の候補インデルのために指示される前記リファレンスゲノム配列に対する部位より上流にある候補インデルを優先する、請求項5に記載のコンピュータ実施方法。
  10. 前記選択基準が、一致しない塩基の数、インデルの数、前記配列アライメントデータセットによって指示されるリファレンスゲノム配列に対するインデルの部位、及びソフトクリップされた塩基の数のうちの1つ又は複数に少なくとも一部基づく、請求項1に記載のコンピュータ実施方法。
  11. 前記選択基準が、
    インデルを有せず、一致しない単一の塩基のみを有するアライメントを、1つ又は複数のインデルを有するアライメントよりも前記提供のために優先すること、
    一致しないより少数の塩基を有するアライメントを、一致しないより多数の塩基を有するアライメントよりも前記提供のために優先すること、
    一致しない同数の塩基を有する異なるアライメントの間で、指定された種類のより少数のソフトクリップを有するアライメントを、前記指定された種類のより多数のソフトクリップを有するアライメントよりも前記提供のために優先すること、並びに
    一致しない同数の塩基を有する異なるアライメントの間で、より少数のインデルを有するアライメントを、より多数のインデルを有するアライメントよりも前記提供のために優先すること、
    のうちの1つ又は複数である、請求項1、2、3、4、5及び10のいずれか一項に記載のコンピュータ実施方法。
  12. 前記再整列処理が、前記1つ又は複数の選択基準のうちの第1の基準に基づいて前記1つ又は複数の候補リアライメントのうちの最良の候補リアライメントを選択することをさらに含み、前記選択された候補リアライメントが、前記選択された最良の候補リアライメントであり、前記出力することが、前記1つ又は複数の選択基準のうちの第2の基準に基づいて前記初期アライメントと前記最良のリアライメント候補との間で選択する、請求項1、2、3、4、5及び10のいずれか一項に記載のコンピュータ実施方法。
  13. 前記得られた初期アライメントが再整列に適格であるかどうかを判定するステップをさらに含み、該判定するステップが、
    前記初期アライメントの前記整列されたリードと前記リファレンス配列との間で一致しない1つ又は複数の塩基が存在するかどうかを識別すること、
    前記整列されたリードがソフトクリップを含むかどうかを識別すること、
    前記初期アライメントが二次アライメントではないかどうかを識別すること、及び
    前記配列アライメントデータセットのリファレンスゲノム配列の塩基の領域内において、前記整列されたリードの周りに候補インデルが存在するかどうかを識別すること、
    のうちの1つ又は複数に少なくとも一部基づく、請求項1、2、3、4、5及び10のいずれか一項に記載のコンピュータ実施方法。
  14. 前記得られた初期アライメントが再整列に適格であるかどうかを判定し、前記再整列処理と、前記得られた初期アライメントが再整列に適格であると判定したことに基づいて、前記初期アライメント又は選択された候補リアライメントを前記提供することとを遂行するステップと、
    前記配列アライメントデータセットの1つ又は複数の追加の初期アライメントのうちの追加の初期アライメントごとに、追加の初期アライメントを得ること、及び前記得られた追加の初期アライメントが再整列に適格であるかどうかを判定することを繰り返すステップと、
    前記1つ又は複数の追加の初期アライメントのうちの追加の初期アライメントごとに処理を遂行するステップであって、処理を遂行する前記ステップが、
    (i)前記再整列処理を遂行せず、前記追加の初期アライメントをそのまま提供すること、又は
    (ii)前記再整列処理と、前記追加の初期アライメント若しくは選択された候補リアライメントを前記提供することとを遂行することを含む、ステップと、
    をさらに含む、請求項1、2、3、4、5及び10のいずれか一項に記載のコンピュータ実施方法。
  15. 配列決定データリード再整列のためのコンピュータシステムであって、メモリと少なくとも1つのプロセッサとを備え、方法を遂行するためのプログラム命令を実行するように構成されており、前記方法が、
    配列アライメントデータセットから、リファレンス配列に対するリード配列の初期アライメントを得ることであって、前記初期アライメントが、整列されたリードを含む、得ることと、
    前記初期アライメントに対して再整列処理を遂行することであって、前記再整列処理が前記リード配列を前記リファレンス配列に対して再整列し、1つ又は複数の候補リアライメントを生成し、前記再整列処理が、
    1つ又は複数の候補インデルを識別することであって、前記1つ又は複数の候補インデルが、前記整列されたリード内の0個以上のインデル、及び前記配列アライメントデータセットによって指示されるとおりの前記整列されたリードの近位において整列された0個以上のインデルを含む、識別すること、
    前記整列されたリードから、前記初期アライメントによって指示されるあらゆるインデルを除去することに少なくとも基づいて、平坦化された整列されたリードを作成すること、並びに
    前記1つ又は複数の候補リアライメントの候補リアライメントごとに、前記1つ又は複数の候補インデルのうちのそれぞれの少なくとも1つの候補インデルを前記平坦化された整列されたリードに導入することに基づいて、前記リファレンス配列に対する前記リード配列の前記1つ又は複数の候補リアライメントを決定すること、
    を含む、遂行することと、
    1つ又は複数の選択基準に基づいて、前記初期アライメント、又は前記1つ又は複数の候補リアライメントのうちの選択された候補リアライメントを提供することと、
    を含む、コンピュータシステム。
  16. 前記1つ又は複数の候補インデルが複数の候補インデルを含み、前記1つ又は複数の候補リアライメントを前記決定することが、前記複数の候補インデルを前記平坦化された整列されたリードに反復的に導入することを開始することを含み、前記反復的に導入することの各反復が、前記候補リアライメントのための前記それぞれの少なくとも1つの候補インデルを前記平坦化された整列されたリードに導入することによって、前記1つ又は複数の候補リアライメントの候補リアライメントを提供し、前記反復的に導入することが、前記複数の候補インデルのうちの1つ又は複数の候補インデルの複数の順列を前記平坦化された整列されたリードに導入し、前記複数の順列のうちの順列ごとに、前記1つ又は複数の候補アライメントの異なる候補リアライメントを得る、請求項15に記載のコンピュータシステム。
  17. 前記再整列処理が、
    前記1つ又は複数の候補リアライメントのうちの提供された候補リアライメントを検査し、前記導入されたそれぞれの1つ又は複数の候補インデルを有する前記提供された候補リアライメントの整列されたリードが、前記提供された候補リアライメントの前記整列されたリードと前記リファレンス配列との間で一致しない塩基を有することなく、前記リファレンス配列と整列するかどうかを判定すること、
    前記提供された候補リアライメントの前記整列されたリードが、一致しない塩基を有することなく、前記リファレンス配列と整列すると判定したことに基づいて、前記反復的に導入することを停止すること、並びに
    前記提供された候補リアライメントを、前記選択された候補リアライメントとして選択することであって、前記提供することが、前記リファレンス配列と整列する前記提供された候補リアライメントの前記整列されたリードに基づいて、前記選択された候補リアライメントを出力する、選択すること、
    をさらに含む、請求項16に記載のコンピュータシステム。
  18. 前記再整列処理が、前記複数の候補インデルを前記反復的に導入することのために優先順位付けすることをさらに含み、前記反復的に導入することが、前記複数の候補インデルを、前記優先順位付けすることに基づく優先順位に従って導入する、請求項16又は17に記載のコンピュータシステム。
  19. 配列決定データリード再整列のためのコンピュータプログラム製品であって、
    方法を遂行するための実行用のプログラム命令を記憶する有形記憶媒体を含み、前記方法が、
    配列アライメントデータセットから、リファレンス配列に対するリード配列の初期アライメントを得ることであって、前記初期アライメントが、整列されたリードを含む、得ることと、
    前記初期アライメントに対して再整列処理を遂行することであって、前記再整列処理が前記リード配列を前記リファレンス配列に対して再整列し、1つ又は複数の候補リアライメントを生成し、前記再整列処理が、
    1つ又は複数の候補インデルを識別することであって、前記1つ又は複数の候補インデルが、前記整列されたリード内の0個以上のインデル、及び前記配列アライメントデータセットによって指示されるとおりの前記整列されたリードの近位において整列された0個以上のインデルを含む、識別すること、
    前記整列されたリードから、前記初期アライメントによって指示されるあらゆるインデルを除去することに少なくとも基づいて、平坦化された整列されたリードを作成すること、並びに
    前記1つ又は複数の候補リアライメントの候補リアライメントごとに、前記1つ又は複数の候補インデルのうちのそれぞれの少なくとも1つの候補インデルを前記平坦化された整列されたリードに導入することに基づいて、前記リファレンス配列に対する前記リード配列の前記1つ又は複数の候補リアライメントを決定すること、
    を含む、遂行することと、
    1つ又は複数の選択基準に基づいて、前記初期アライメント、又は前記1つ又は複数の候補リアライメントのうちの選択された候補リアライメントを提供することと、
    を含む、コンピュータプログラム製品。
  20. 前記1つ又は複数の候補インデルが複数の候補インデルを含み、前記1つ又は複数の候補リアライメントを前記決定することが、前記複数の候補インデルを前記平坦化された整列されたリードに反復的に導入することを開始することを含み、前記反復的に導入することの各反復が、前記候補リアライメントのための前記それぞれの少なくとも1つの候補インデルを前記平坦化された整列されたリードに導入することによって、前記1つ又は複数の候補リアライメントの候補リアライメントを提供し、前記反復的に導入することが、前記複数の候補インデルのうちの1つ又は複数の候補インデルの複数の順列を前記平坦化された整列されたリードに導入し、前記複数の順列のうちの順列ごとに、前記1つ又は複数の候補アライメントの異なる候補リアライメントを得る、請求項19に記載のコンピュータプログラム製品。
  21. 前記再整列処理が、
    前記1つ又は複数の候補リアライメントのうちの提供された候補リアライメントを検査し、前記導入されたそれぞれの1つ又は複数の候補インデルを有する前記提供された候補リアライメントの整列されたリードが、前記提供された候補リアライメントの前記整列されたリードと前記リファレンス配列との間で一致しない塩基を有することなく、前記リファレンス配列と整列するかどうかを判定すること、
    前記提供された候補リアライメントの前記整列されたリードが、一致しない塩基を有することなく、前記リファレンス配列と整列すると判定したことに基づいて、前記反復的に導入することを停止すること、並びに
    前記提供された候補リアライメントを、前記選択された候補リアライメントとして選択することであって、前記提供することが、前記リファレンス配列と整列する前記提供された候補リアライメントの前記整列されたリードに基づいて、前記選択された候補リアライメントを出力する、選択すること、
    をさらに含む、請求項20に記載のコンピュータプログラム製品。
  22. 前記再整列処理が、前記複数の候補インデルを前記反復的に導入することのために優先順位付けすることをさらに含み、前記反復的に導入することが、前記複数の候補インデルを、前記優先順位付けすることに基づく優先順位に従って導入する、請求項20又は21に記載のコンピュータプログラム製品。
JP2019524960A 2016-11-16 2017-11-15 配列決定データリード再整列の方法、コンピュータシステム及びコンピュータプログラム製品 Active JP7052955B2 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201662422841P 2016-11-16 2016-11-16
US62/422,841 2016-11-16
US201762447103P 2017-01-17 2017-01-17
US62/447,103 2017-01-17
US201762480330P 2017-03-31 2017-03-31
US62/480,330 2017-03-31
PCT/US2017/061661 WO2018093804A1 (en) 2016-11-16 2017-11-15 Methods of sequencing data read realignment

Publications (2)

Publication Number Publication Date
JP2020506447A JP2020506447A (ja) 2020-02-27
JP7052955B2 true JP7052955B2 (ja) 2022-04-12

Family

ID=60543712

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019524960A Active JP7052955B2 (ja) 2016-11-16 2017-11-15 配列決定データリード再整列の方法、コンピュータシステム及びコンピュータプログラム製品

Country Status (10)

Country Link
US (1) US20190287647A1 (ja)
EP (2) EP4300501A3 (ja)
JP (1) JP7052955B2 (ja)
KR (1) KR102425673B1 (ja)
CN (2) CN110168647B (ja)
AU (2) AU2017361069B2 (ja)
BR (1) BR112019009830A2 (ja)
CA (1) CA3043875A1 (ja)
SG (1) SG10202104266VA (ja)
WO (1) WO2018093804A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109754845B (zh) * 2018-12-29 2020-02-28 浙江安诺优达生物科技有限公司 模拟目标疾病仿真测序文库的方法及其应用
CN109935275B (zh) * 2018-12-29 2021-09-07 北京安诺优达医学检验实验室有限公司 序列变异校验方法和装置、生产变异序列的方法和装置及电子设备
CN112825267B (zh) * 2019-11-21 2024-05-14 深圳华大基因科技服务有限公司 确定小核酸序列集合的方法及其应用
EP4070320A1 (en) * 2019-12-05 2022-10-12 Illumina, Inc. Rapid detection of gene fusions
CN112530522B (zh) * 2020-12-15 2022-10-28 中国科学院深圳先进技术研究院 序列纠错方法、装置、设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012235723A (ja) 2011-05-11 2012-12-06 National Cancer Center 大規模塩基配列解析方法、プログラム及び装置
JP2014507133A (ja) 2010-12-30 2014-03-27 ファウンデーション メディシン インコーポレイテッド 腫瘍試料の多重遺伝子分析の最適化
US20150324519A1 (en) 2014-05-12 2015-11-12 Roche Molecular System, Inc. Rare variant calls in ultra-deep sequencing
US20150337388A1 (en) 2012-12-17 2015-11-26 Virginia Tech Intellectual Properties, Inc. Methods and compositions for identifying global microsatellite instability and for characterizing informative microsatellite loci

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011139797A2 (en) * 2010-04-27 2011-11-10 Spiral Genetics Inc. Method and system for analysis and error correction of biological sequences and inference of relationship for multiple samples
US20120203792A1 (en) * 2011-02-01 2012-08-09 Life Technologies Corporation Systems and methods for mapping sequence reads
WO2014041380A1 (en) * 2012-09-11 2014-03-20 Kps Zrt. Method and computer program product for detecting mutation in a nucleotide sequence
US9916416B2 (en) * 2012-10-18 2018-03-13 Virginia Tech Intellectual Properties, Inc. System and method for genotyping using informed error profiles
KR101480897B1 (ko) * 2012-10-29 2015-01-12 삼성에스디에스 주식회사 염기 서열 정렬 시스템 및 방법
KR101482010B1 (ko) * 2013-01-23 2015-01-14 숭실대학교산학협력단 전체 유전체 서열분석을 위한 초고속 범용 검색장치 및 방법
CN103146823A (zh) * 2013-02-27 2013-06-12 西北农林科技大学 一种设计碱基替换或插入缺失的snp分子标记的方法
US10191929B2 (en) * 2013-05-29 2019-01-29 Noblis, Inc. Systems and methods for SNP analysis and genome sequencing
US9898575B2 (en) * 2013-08-21 2018-02-20 Seven Bridges Genomics Inc. Methods and systems for aligning sequences
CN104834833B (zh) * 2014-02-12 2017-12-05 深圳华大基因科技有限公司 单核苷酸多态性的检测方法及装置
CN105989246B (zh) * 2015-01-28 2018-10-26 深圳华大智造科技有限公司 一种基于基因组组装的变异检测方法和装置
CN104794371B (zh) * 2015-04-29 2018-02-09 深圳华大生命科学研究院 检测逆转座子插入多态性的方法和装置
CN105631242B (zh) * 2015-12-25 2018-09-11 中国农业大学 一种利用全基因组测序数据鉴定转基因事件的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014507133A (ja) 2010-12-30 2014-03-27 ファウンデーション メディシン インコーポレイテッド 腫瘍試料の多重遺伝子分析の最適化
JP2012235723A (ja) 2011-05-11 2012-12-06 National Cancer Center 大規模塩基配列解析方法、プログラム及び装置
US20150337388A1 (en) 2012-12-17 2015-11-26 Virginia Tech Intellectual Properties, Inc. Methods and compositions for identifying global microsatellite instability and for characterizing informative microsatellite loci
US20150324519A1 (en) 2014-05-12 2015-11-12 Roche Molecular System, Inc. Rare variant calls in ultra-deep sequencing

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Xiaoyu Chen et al.,Manta: rapid detection of structural variants and indels for germline and cancer sequencing applications [online],2016年04月,URL<https://pubmed.ncbi.nlm.nih.gov/26647377/>,[検索日:2021年12月6日]
イルミナHiSeq2000によるがんのゲノムシークエンス解析[online],理化学研究所 ゲノム医科学研究センター,2012年08月21日,URL<https://jp.illumina.com/content/dam/illumina-marketing/apac/japan/documents/pdf/2012_illumina_hiseq2000-cancer.pdf>,[検索日:2021年12月6日]
藤 博幸,はじめてのバイオインフォマティクス,第4版,株式会社 講談社,2013年03月10日,pp.31-33,42-48

Also Published As

Publication number Publication date
EP4300501A3 (en) 2024-03-27
BR112019009830A2 (pt) 2019-08-13
EP3542293B1 (en) 2023-12-27
CN110168647A (zh) 2019-08-23
KR20190082854A (ko) 2019-07-10
WO2018093804A1 (en) 2018-05-24
SG10202104266VA (en) 2021-05-28
AU2023266266A1 (en) 2023-12-07
AU2017361069B2 (en) 2023-09-21
US20190287647A1 (en) 2019-09-19
CA3043875A1 (en) 2018-05-24
JP2020506447A (ja) 2020-02-27
AU2017361069A1 (en) 2019-06-06
EP3542293A1 (en) 2019-09-25
KR102425673B1 (ko) 2022-07-26
CN117457074A (zh) 2024-01-26
EP4300501A2 (en) 2024-01-03
CN110168647B (zh) 2023-10-31

Similar Documents

Publication Publication Date Title
JP7052955B2 (ja) 配列決定データリード再整列の方法、コンピュータシステム及びコンピュータプログラム製品
Rochette et al. Stacks 2: Analytical methods for paired‐end sequencing improve RADseq‐based population genomics
US11837328B2 (en) Methods and systems for detecting sequence variants
Patin et al. The impact of agricultural emergence on the genetic history of African rainforest hunter-gatherers and agriculturalists
Wong et al. Interplay of cis and trans mechanisms driving transcription factor binding and gene expression evolution
Brandvain et al. Speciation and introgression between Mimulus nasutus and Mimulus guttatus
Modi et al. Complete mitochondrial sequences from Mesolithic Sardinia
Xiao et al. FastClone is a probabilistic tool for deconvoluting tumor heterogeneity in bulk-sequencing samples
Haas et al. Introducing “best single template” models as reference baseline for the Continuous Automated Model Evaluation (CAMEO)
Rustagi et al. Extremely low-coverage whole genome sequencing in South Asians captures population genomics information
JP2018503164A (ja) 平行プロセシングシステムおよび生物配列データの高度にスケーラブルな解析の方法
Poplin et al. Creating a universal SNP and small indel variant caller with deep neural networks
Parrish et al. Assembly of non-unique insertion content using next-generation sequencing
Agier et al. The evolution of the temporal program of genome replication
Kivisild et al. Patterns of genetic connectedness between modern and medieval Estonian genomes reveal the origins of a major ancestry component of the Finnish population
Finke et al. Ancestral haplotype reconstruction in endogamous populations using identity-by-descent
Marsh et al. Inferring biological kinship in ancient datasets: comparing the response of ancient DNA-specific software packages to low coverage data
Borges et al. Methodological differences can affect sequencing depth with a possible impact on the accuracy of genetic diagnosis
Lin et al. MapCaller–An integrated and efficient tool for short-read mapping and variant calling using high-throughput sequenced data
Whelan et al. Cloudbreak: accurate and scalable genomic structural variation detection in the cloud with MapReduce
Wang et al. Computational Prediction of Functional Effects for Cancer Related Genetic Sequence Variants
Karaoglanoglu et al. Characterization of segmental duplications and large inversions using Linked-Reads
Sun et al. HBS‐Tools for Hairpin Bisulfite Sequencing Data Processing and Analysis
Miller et al. trioPhaser: using Mendelian inheritance logic to improve genomic phasing of trios
Sharma et al. Genomic and proteomic: Their tools and application

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190912

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201029

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220301

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220317

R150 Certificate of patent or registration of utility model

Ref document number: 7052955

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150