JP6240210B2

JP6240210B2 - 標的シーケンシングリードの正確かつ迅速なマッピング

Info

Publication number: JP6240210B2
Application number: JP2015544446A
Authority: JP
Inventors: シャオインチェン; イエンリー; リウウェイ−ミン; シャオジュイ（マックス）マー; トルオンシム−ジャスミン
Original assignee: F Hoffmann La Roche AG
Current assignee: F Hoffmann La Roche AG
Priority date: 2012-11-29
Filing date: 2013-11-27
Publication date: 2017-11-29
Anticipated expiration: 2033-11-27
Also published as: US10127351B2; JP2015536661A; CN104937598A; US9218450B2; ES2869292T3; WO2014083023A1; US20160092630A1; CA2891731C; US20140149049A1; CN104937598B; EP2926288B1; EP2926288A1; CA2891731A1

Description

本開示は、一般に、ゲノムシーケンシングを用いた生物試料の解析に関し、特に、ターゲットシーケンシング工程より得られたシーケンシングリードの正確かつ迅速なマッピングに関する。

医師は、特定の患者のゲノムについて１つまたは複数の特定（標的）領域（例えば、領域当たり１００〜５００塩基）を解析したい場合がある。例えば、患者の遺伝子の特定の部分についての変異を検査することがある。特定領域のみが解析対象であるため、試料中で標的領域由来のゲノムセグメント（例えば、ＤＮＡ断片）の割合を増加させるための技術が開発されてきた。このような技術として、標的領域の増幅および濃縮が挙げられる。

増幅では、標的領域に対応する配列を有するゲノムセグメントを増幅するために、標的領域にハイブリダイズするプライマーを使用する。望ましいのは、試料に標的領域のゲノムセグメントが多く含まれるようになり、このゲノムセグメントをシーケンシングすると、多くの割合のリードが標的領域に対応するという結果である。こうすると、シーケンシングに関する多くの労力が、ゲノムの非標的領域由来のゲノムセグメントのシーケンシングすることで無駄にならなくなる。濃縮では、標的領域に対応するゲノムセグメントを捕捉して標的領域に対応するリードの割合を増加させるために、標的領域にハイブリダイズするプローブを使用し得る。

しかし、増幅および濃縮の両方で、該ゲノム以外の部分に由来するゲノムセグメントも未だリードされて（読み込まれて）いる。その結果、現在の技術では、参照ゲノムに対する変異について標的領域を解析する場合は特に、精度を確保するためにリードをゲノム全体に対しアライン（マッッピング）する。つまり、シーケンスリードが得られると、その配列を参照ゲノムと比較し、そのリードに最も良くマッチするゲノム位置を見つける。リードをアラインした後、標的領域にアラインしたリードを解析する。ゲノム全体に対するこのようなアライメントは、計算コストが高くつく。

計算上より効率的で改善された方法、システム、および装置を提供することが望まれる。

実施形態により、ターゲットシーケンシングより得られたシーケンシングリードの正確かつ迅速なマッピングを提供できる。例えば、標的領域を選択したら、該標的領域に十分に類似するゲノムの代替領域が同定できる。シーケンシングリードが、代替領域よりも標的領域に類似する場合、そのリードは該標的領域にアラインするとして決定できる。次に該標的領域にアラインするリードを解析して変異が標的領域内に存在するか否かを決定できる。従って、シーケンシングリードをゲノム全体ではなく標的領域と対応する代替領域に対し比較することにより計算効率が向上する。

一実施形態によれば、本方法は、生物の試料ゲノムの標的領域におけるバリアントを検出するものである。複数のシーケンスリードを受け取る。生物から得られた試料中のゲノムセグメントをシーケンシングすることによりシーケンスリードが得られる。ここで、該シーケンシングは該標的領域由来のゲノムセグメントを標的とすることを含む。参照ゲノムの標的領域由来のバリエーションの第１数をそれぞれ有する１つまたは複数の代替領域を同定する。上記各第１数は、１よりも大きく、第１閾値数よりも小さい。コンピュータシステムにより、該複数のシーケンスリードについて該参照ゲノムの標的領域に対するアラインメントを実行し、バリエーションの第２閾値数よりも小さい数で、参照ゲノムの標的領域にアラインするシーケンスリードのセットを同定する。第３閾値数よりも小さいバリエーションの第２数を有する１つの代替領域とアラインするシーケンスリードを該セットから除外してもよい。該セットの残りのシーケンスリードを解析して、試料ゲノムの標的領域におけるバリアントを決定する。

別の実施形態は、本明細書に記載の方法に関連するシステム、装置、およびコンピュータ可読媒体に関する。

以下の詳細な説明および添付の図面を参照することにより本発明の性質および利点がより良く理解できるだろう。

定義
本明細書で使用する「生物試料」は、その試料が得られた生物のゲノム由来の核酸分子を含む。また、例えば、試料には、染色体中にコードされたゲノムを含有する細胞も含み得る。「ゲノムセグメント」は、生物のゲノム由来の分子であり、全部または一部の配列がシーケンシングされた核酸分子である。このセグメントは、ゲノムを大きく断片化する、例えば、細胞に音波処理を施すことなどにより作成できる。ゲノムセグメントをシーケンシングして「シーケンシングリード」（「配列リード」又は単に「リード」とも呼ぶ）を作成できる。シーケンシングリードは、ゲノムセグメント全体または該セグメントの一部のみであってもよい。

「標的領域」とは、断片がプライマーおよび増幅プロセスにより増殖された、またはプローブを用いて濃縮されたゲノムの領域のことである。「代替領域」とは、標的領域に類似する領域のことであり、例えば、バリエーションが特定数よりも少ないもののことであるが、配列の全塩基における割合として特定してもよい。「参照ゲノム」（単に「参照」とも呼ぶ）とは、シーケンスリードをアラインする任意の既知配列のことである。参照ゲノムは、生物のゲノムの全部または一部のみに対応するものであってもよい。参照ゲノムは、複数の生物のゲノムを含み得る。例えば、シーケンスリードを、該生物試料中に存在するウイルスといったウイルスのデータベースと比較することもできる。

バリエーション（ｖａｒｉａｔｉｏｎ）は、バリアント（ｖａｒｉａｎｔ）または変異（ｍｕｔａｔｉｏｎ）とも呼ばれ、二つの配列間の差異を指す。例えば、シーケンスリードと参照ゲノムの標的領域間の差異をカウントし、変異を同定してもよい（例えば、シーケンスリードが変異を十分に示す場合）。バリエーションは、例えば、１塩基から１つまたは複数の別の塩基への置換、１つまたは複数の塩基の挿入、あるいは１つまたは複数の塩基の欠失であり得る。バリエーションは、一方または両方の染色体に発生することがある。実施形態を用いて、シーケンスリードが変異を表しているのか、あるいは実はゲノムの類似する部分由来のゲノムセグメントであるかを決定してもよい。

図１は、生物の試料ゲノムの標的領域におけるバリアントを検出する方法１００を示すフローチャートである。

図２Ａは、ゲノムの標的領域に対する参照配列（配列番号１）を示す。

図２Ｂは、本発明の実施形態に係るＭＣＦによりフィルタリングして除外されたシーケンスリード（配列番号２）を示す。

図３は、本発明の実施形態に係る、標的配列（すなわち標的領域）３２０（配列番号４）に対するシーケンスリード３１０（配列番号３）の比較を示す。

図４は、本発明の実施形態に係る、標的配列（すなわち標的領域）４２０（配列番号４）に対するシーケンスリード４１０（配列番号３）の比較を示す。

図５は、本発明の実施形態に係る、標的配列（すなわち標的領域）５２０（配列番号４）に対するシーケンスリード５１０（配列番号３）の比較を示す。

図６は、本発明の実施形態に係る、生物の試料ゲノムの標的領域におけるバリアントを検出する方法を示すフローチャートである。

図７は、本発明の実施形態に係る、標的領域に対応する代替領域を同定する方法７００のフローチャートである。

図８は、本発明の実施形態に係る、システムおよび方法と共に使用可能なコンピュータシステム８００の例を示すブロック図である。

図９−１〜図９−４は、本発明の実施形態に係る、複数の試料および複数のランにおいて現れる複合変異を示す表である。図９−１〜図９−４は、本発明の実施形態に係る、複数の試料および複数のランにおいて現れる複合変異を示す表である。図９−１〜図９−４は、本発明の実施形態に係る、複数の試料および複数のランにおいて現れる複合変異を示す表である。図９−１〜図９−４は、本発明の実施形態に係る、複数の試料および複数のランにおいて現れる複合変異を示す表である。

ターゲットシーケンシングを用いてゲノムの特定の領域を効率的に解析できる。例えば、標的領域に対応するセグメントをクローニングする（例えば、ポリメラーゼ連鎖反応（ＰＣＲ）などの増幅プロセスにおいてプライマーを用いる）ことによって、および／または標的領域に対応するセグメントを優先的に捕捉するプローブを用いることによって、生物試料のゲノムセグメントの割合を増加できる。標的領域内で可能性のある変異を調べるために、標的が増加した試料（生物試料の一例）内のゲノムセグメントを、シーケンシングおよび解析できる。

標的領域のみに関心がある場合、シーケンスリードを標的領域にのみアラインさせることができる。これにより、リードを参照ゲノム全体に対しアラインさせるよりも計算量が減少するだろう。しかし、このようなプロセスがエラーを引き起こす可能性がある。例えば、増幅または濃縮工程の後に高スループット次世代シーケンシングを用いるバリアントの検出において、アンプリコン／濃縮ライブラリー（標的が増加した試料）が偽陽性リード、すなわち意図する標的領域に対応しないゲノムセグメントに対応するリードを含んでしまう可能性がある。これらのリードにより、誤った変異の報告、製品開発において誤解を招くような情報の提供、または間違った診断につながり得る。偽陽性は、プライマーの適切な設計や忠実度が高い酵素の開発等の様々な方法によって減少させることができる。しかし、偽陽性は未だ残存する。

ある実施形態では、効率的な方法で偽陽性リードを除外する手段を提供できる。一例として、標的と大きく異なるリードについては、変異数フィルタ（ＭＣＦ）を用いて同定および除外する。別の例では、標的領域と類似する代替領域に対応する偽陽性リードを同定する。

一実施形態では、ゲノムの代替（非標的）領域を特異的に同定する。代替領域と標的領域との間のバリエーションを特に記録する。シーケンスリードが、同定された代替領域に特徴的な特定数のバリエーション以外で標的領域にマッチする場合、そのシーケンスリードを標的領域の解析から除外できる。このように、シーケンスリードは、標的領域にアラインさせるのみでよくなり、偽陽性が除外される。

代替領域を、事前に同定してデータベースに保存してもよい。標的領域を選択したら、代替領域を読み込むことができる。同定された領域を決定する実行において、複合変異（例えば、標的領域に対する複数のバリエーション）の報告を使用して、複数のランおよび／または複数の試料に表示されるバリアントの組み合わせを見つけることができる。複合変異の配列が共通する（すなわち、十分な回数で検出される）場合、複合変異の配列を参照ゲノムにアラインさせてそれが代替領域に対応するかどうかを同定できる。したがって、特定のバリアントの組み合わせ（すなわち、標的領域に対する代替により特定されたバリアントの組み合わせ）に対応するリードを、標的領域の変異解析から除外できる。

いくつかの実施形態では、複数の標的領域を同時に解析できる。このような実施形態において、シーケンシングリードは、標的領域および対応する代替領域のすべてと比較できる。しかし、複数の領域であっても、参照ゲノム全体と比較すれば小さいので、アライメントは効率的なままである。例えば、癌に関連する１２個の遺伝子について最大６０個のアンプリコンを用いる癌遺伝子パネルプロジェクトのデータにおいて実施形態が正常に用いられる。

Ｉ．標的シーケンシング
シーケンシングランにより、何百万ものリードが生成され得る。全部のリードを全ゲノムについてマッッピングすることは、計算時間およびメモリリソースの面で非常に大変である。標的が増加したラン（例えば、増幅または濃縮）では、主な関心は、標的領域に対しマッッピングするリードである（例えば、遺伝子の特定の領域または全遺伝子）。しかし、コンピュータシステムがこれらの標的領域のみにおいて参照に対してマッッピングをすると、ゲノムの他の部分に対しより良好にマッピングされる可能性があるいくつかのリードを考慮に入れていないので、標的領域をカバーするリードを多く見積もっている可能性がある。しかし、全ゲノムに対しマッピングするのは、高価である。従って、ある実施形態では、正確な結果を提供しつつゲノムの特定の部分のみにマッピングすることができる。

図１は、生物の試料ゲノムの標的領域におけるバリアントを検出する方法１００を示すフローチャートである。他の方法と同様に、ある実施形態では、記載の工程の全部または一部を含み得て、そしていくつかの工程は、コンピュータシステムを用いて行い得る。方法１００の結果は、医師が生物の診断を決定する際に使用してもよい。

ブロック１１０において、生物試料を受けとる。生物試料はＤＮＡを含み、ＤＮＡは、染色体のゲノムセグメントまたは染色体そのものの形態であってもよい。例えば、ゲノムの特定の領域における変異について検査対象の患者から取得可能な細胞もある。細胞は、癌について検査する腫瘍の生検から得てもよい。

試料のＤＮＡは、例えば、より小さなゲノムセグメントを得るために、超音波処理または他の適切な方法によって断片化できる。例えば、２００〜５００塩基長のゲノムセグメントを得ることができる。特定のシーケンシング手順では、この程度の長さのゲノムセグメントが好ましい。しかし、ある実施形態では、任意の長さのゲノムセグメントを使用できる。

ゲノムセグメントは、バーコードまたは多重識別子（ＭＩＤ）でマークできる。例えば、１０塩基の配列を、ゲノムセグメントの末端に加えることができる（例えば、リガーゼを用いて）。このように、種々の試料由来のセグメントを、ＩＤを多重に用いた同じシーケンシングにおいて並行してシーケンシングできる。ＩＤをシーケンスリードの一部として読み込み、同じＩＤを持つリードを同じ試料に帰属させ、グループとして解析してもよい。異なる試料は、異なる人物由来でも、同じ人物（例えば、異なる生検）由来であってよく、そして異なる実験条件を使用してもよい。

ブロック１２０において、試料における標的領域由来のゲノムセグメントの割合を増加させる。種々の実施形態では、割合は、ゲノムの１つまたは複数の標的領域由来のＤＮＡについて試料を増幅および／または濃縮することによって増加できる。得られた試料は、標的が増加した試料と呼ばれ得る。一般的に、標的領域は、例えば、任意の癌関連変異が存在するかどうかをチェックするためといった診断上の関係性を有する。

例として、標的領域は、例えば、約数百塩基、例えば、１５０〜２５０塩基、１５０〜４００塩基、または２００〜６００塩基であり得る。試料特異的ＩＤを加えるのは、異なるタイミングで行ってもよい。例えば、増幅／濃縮し、そして試料を混合した後にＩＤを加えてもよい。このように、異なる試料が、異なる標的領域について増幅または濃縮され得る。一実施態様では、約６０個の標的領域が使用される。

一実施形態では、フォワードおよびリバースプライマーを使用して、標的領域を増幅できる。これらのフォワードおよびリバースプライマーは、例えば、約１５〜３０塩基など、様々な長さのものであってよい。理想的には、プライマーは、ゲノムの一部のみを増幅する。しかし、これは、約１５塩基の長さだと常に可能ではない。３０塩基でさえ、特異的な増幅が常にできるわけではない。より長いプライマーを使用してもよいが、より長いプライマーだと効率的にハイブリダイズしないことがある。

別の実施形態では、プローブを使用して、標的領域に対応するゲノムセグメントを捕捉できる。例えば、標的領域にハイブリダイズするように設計されたプローブを、表面上に載置できる。そして、ゲノムセグメントを表面上に載置し、標的領域のセグメントが優先的にハイブリダイズするようにする。例えば、プローブを有するマイクロアレイを構築でき、そのマイクロアレイ上でセグメントを洗浄する。プローブの特異性について、増幅用のプライマーと同じ問題を有することがある。いくつかのプローブは、３００塩基長の標的領域に対して７０塩基の長さであり得る。プローブがゲノムセグメントの一端を捕捉できるように、セグメントは、例えば、最大２５０塩基のゲノムセグメントに対し３００塩基〜約５５０塩基の領域であることもある。別の実施形態では、増幅および濃縮を両方行ってもよい。

プライマーが十分に特異的ではなくゲノムの他のいくつかの領域も濃縮プローブとハイブリダイズする可能性がある場合、標的領域由来のセグメントの割合を増加させるべきなのに、かかるゲノムの他の地域も増幅されることがある。プライマー設計における特異性が不完全なため、実験の生化学により他の領域も増幅される可能性がある。

ブロック１３０において、試料中のゲノムセグメントからシーケンスリードを決定する。シーケンシングプロセスにおいて、増幅工程で作成したのと同じセグメントのクローンの配列を別々に決定（その後カウント）してもよい。いくつかの実施態様では、試料あたり約３，０００個のリードが得られる。リードの数は、試料のサイズ、標的を増加させる手段の一部としてどのくらい増幅が行われたか、そしてシーケンシングプロセスの範囲（すなわち、装置がどの程度のシーケンシング用に設定されているのか、例えば、ビーズをいくつ使用したか）に依存し得る。従って、試料中のすべてのセグメントがシーケンシングされてないことがある。一実施形態では、リードは約１５０〜２５０塩基長である。当業者は、シーケンシングを行うのに利用可能な様々な技術を理解するであろう。

シーケンシングプロセスは、様々な技術により行うことができる。一実施形態では、シーケンシングの一部として、断片を増幅してもよい。標的が増加した試料を作成するために増幅を用いる場合、この増幅は第２の増幅工程となる。第２の増幅により、第２の増幅を行わない場合よりも強い信号（例えば、特定の塩基：Ａ、Ｃ、Ｇ、またはＴに対応する蛍光シグナル）をもたらし得る。そして、アンプリコンが異なっていても、シーケンスリードがにはならない。

シーケンシングプロセスの一例において、（例えば、増幅が溶液内で起こる）工程１２０から得た各増幅断片をビーズに結合させることができる。結合した断片をビーズ上で増幅することができ、各ビーズから１つのシーケンスリードを得ることができる。表面を使用する実施形態では、断片を表面に結合させた後、表面上に単一のクラスタを作成するように増幅することができる。各クラスタについて単一のシーケンスリードを得ることができる。シーケンスリードは、ゲノムセグメントの全長、一端の一部、または両端の一部であり得る。

シーケンシングリードは、実際のセグメントに対応する塩基、試料固有ＩＤに対応する塩基、およびシーケンシングの一部として使用できる特定のタグ（例えば、２５塩基長）を含み得る。特定のタグは、ユニバーサルプライマーを受けとるための断片の末端に連結されたアダプタの一部を含み得て、このアダプタの一部をシーケンシングにおいて読み込むことができる。

一態様では、シーケンシングは、濃縮された試料における任意のゲノムセグメントで実施することができる（そのセグメントが標的ではない場合であっても）。これらのゲノムセグメントのいくつかは、元々試料中にあり、非標的セグメントに対応するものであってもよい。シーケンシングされている非標的セグメントの中には、ゲノムの意図しない部分の増幅または捕捉に起因し得るものもある。

ブロック１４０において、複数のシーケンスリードを参照ゲノムの標的領域に対しアラインさせる。アラインさせることにより、このプロセスでシーケンスリードを標的領域と比較してシーケンスリードと標的領域との間のバリエーションの数を決定できる。完全にマッチするとバリエーションが全く示されないはずである。取得したシーケンスリードの一部又は全部をアライメントプロセスで使用してもよい。例えば、リードの長さが短すぎるまたは長すぎる場合、アライメントの前に除外してもよい。

シーケンスリードと標的領域との間のバリエーションの数を最小にするようにアライメントを行うことができる。シーケンスリードが標的領域より小さくても大きくてもよいことに留意されたい。シーケンスリードの方が大きい場合、バリエーションの数は、標的領域内のみでカウントし得る。

実施形態では、リードは、標的領域のみにアラインされるので、計算量を抑えることができる。アライメントは、１つ以上の標的領域のみに特異的であればよいので、全ゲノムを検索する必要がなくアライメントを迅速にできる。また、標的領域に対応するセグメントの割合が増加するので、実質的な数のリードが標的領域に良好にマッチする（例えば、バリエーションの数が比較的少ない）はずである。

一実施形態では、複数の標的領域を用いる場合、シーケンスリードを全ての標的領域と比較することができ、最良のアライメントをもたらす標的領域を同定できる。例えば、異なる標的領域は、一の遺伝子と異なる遺伝子または異なるエキソンであり得る。このように、最良のアライメントを有するエキソンを同定することができるだろう。

バーコードまたはＩＤを使用する場合は、アライメントの前に除外することができる。１つのグループ内の特定の試料に対し全リードを整理するためにＩＤを使用してもよい。このように、他の試料由来の変異は、現在の試料の解析に影響することがない。このグループ化は、逆多重化と呼ばれる。各試料は、異なる参照ゲノムまたは当該参照ゲノムの異なる部分にアラインさせることができる。異なる試料は、異なる標的領域を有しうるので、ＩＤを使用して参照ゲノムのどの標的領域を比較してアライメントに用いるかを決定できる。

工程１５０において、バリエーションの閾値数よりも大きい数で標的領域とは異なるシーケンスリードを標的領域の解析から除外する。バリエーションの数がこの閾値より大きい場合リードが違いすぎるので、このゲノムセグメントは標的領域由来ではないシーケンスリードに対応することを示す。しかし、いくつかのバリエーションについての幾分の余地があるだろうから、後で解析をして変異の同定を行い見逃さないようにしてもよい。

閾値の例として、５〜１０塩基がある。一実施形態では、閾値は、標的領域のサイズに依存する。例えば、標的領域が２００塩基である場合、バリエーションの数は２０個、つまり１０％が上限であり得る。標的領域が１５０塩基である場合、閾値は１５塩基であり得る。

各標的領域について、閾値より少ない（そして潜在的に同等な）リードを、例えば、グループとして、同定できる。このリードのグループを、標的領域に関連させてさらに解析し得る。いくつかの実施形態では、あるリードが複数の標的領域について閾値の基準を満たす場合、双方のグループに追加できる。このようなリードは、最終的に複数の標的領域に対する変異としてカウントされないように追跡できる。

ブロック１６０において、残りのシーケンスリードが標的領域由来であるか、または前に同定したゲノムの代替領域由来であるかを決定する。例えば、リードと標的領域との間のバリエーションの数、及びリードと代替領域との間のバリエーションの数を使用してどちらがより良好にマッチするかを決定してもよい。直接リードを代替領域にアラインさせることによって、あるいは標的領域と代替領域との間の既知のバリエーションを用いることによって、リードと代替領域との間のバリエーションの数を決定できる。いずれの場合でも、代替領域がすでに同定されているので、余分な作業の量は、全ゲノムをアライメントする場合に比べて比較的少ない。

代替領域は、例えば、バリエーションの数が閾値の範囲内である標的領域と類似する領域として同定できる。このような閾値は、ブロック１５０で使用される閾値より少ないことがあり得る。代替領域を同定するための技術の例を、以下、より詳細に説明する。

残りのシーケンスリードが標的領域由来であるかまたはゲノムの代替領域由来であるのかを決定することに加えて、普遍的な変異に関する既知のデータベースと比較することにより、変異が普遍的な変異であるか否かを決定することもできる。これらの変異は、同じ標的領域についてのものであり得る。このような普遍的な変異は、使用される参照ゲノムとは異なるヒトの特定集団または亜集団について起こることもある。また、代替領域は、異なるゲノム由来、例えば、生物試料内に偶然存在していただけであるだろうウイルスのゲノムデータベース由来であることもある。

ブロック１７０において、標的領域における変異を同定するために標的領域由来のシーケンスリードを使用する。この工程の一部として、各バリエーションの頻度を決定できる。例えば、標的領域内の特定の位置について、通常のＡの代わりにＧが現れる変異の回数をカウントできる。Ｇ変異が見られる回数の割合は、その位置にアラインした全リードから決定できる。一実施形態では、特定の変異の割合は、実際の変異と考えられる閾値（存在フィルタ）よりも大きい必要があり得る。一緒に起こるバリエーションを同定でき、そして同じ変異の一部として分類してもよい。

医師は、同定された変異を見て、癌の素因を診断するか、または腫瘍が癌性であると同定するために使用することができる。例えば、変異は、癌に関連するものとして同定されている様々な領域についての変異に類似したものであってもよい。既知の変異が除外された後に同定された変異は、新しい変異であろう。腫瘍が癌性であることが分かった場合、これらの新しい変異は、癌に関連しているとすることができる。

変異数フィルタ（ＭＣＦ）
シーケンスリードを特定の標的領域にアラインする際、標的領域と大きく異なるリードもある。これは、いくつかの標的領域が同時に解析されているため、浮遊ゲノムセグメントが濃縮中にプローブによって捕捉されているため、クローニングされていないゲノムセグメントをシーケンシングしてしまったため、またはその他の理由のため、と考えられる。上述のように、１つのフィルタは、変異数フィルタ（ＭＣＦ）である。このフィルタは、標的と大きく異なるシーケンスリードを除外する。

リードが標的と大きく異なる場合、多くのバリアントがあるということを示す。ＭＣＦフィルタはこのような状況で使用することができる。バリエーションの総数に関する閾値を用いてもよいし、または特定の種類のバリエーションの数に関する閾値を用いてもよい。両方の種類の閾値を一緒に使用してもよい。

いくつかの実施形態では、認識されたプライマーと共に、全てのリードについて以下のパラメータを用いてこのフィルタを使用できる：置換数＞６、またはホモポリマーインデルの数＞５、または他の単純変異の数＞５、または単純変異の総数＞１０。他の実施形態では、以下のパラメータを用いる：置換数＞１２、ホモポリマーインデルの数＞１０、または他の単純変異の数＞１２、または単純変異の総数＞２。

図２Ａは、ゲノムの標的領域に対する参照配列２００を示す。小文字は、遺伝子特異的プライマーを示し、大文字は、対象のゲノム標的領域を示す。図示の例では、フォワードプライマーは１５塩基、リバースプライマーは１５塩基を有する。具体的に、この配列は、ＣＤＫＮ２Ａ＿Ｅｘｏｎ＿ｌ由来である。

図２Ｂは、本発明の実施形態に係るＭＣＦによってフィルタリングして除外されたシーケンスリード２５０を示す。１の実験では、シーケンスリード２５０と同じパターンを有する３２５個のフォワードリードおよび２５２個のリバースリードがあった。記号「／」は、フォワードプライマー内のマッチ塩基を示し、記号「＼」は、リバースプライマー内のマッチ塩基を示し、点は、標的内のマッチ塩基を示し、小文字は、挿入塩基を示し、大文字は、置換塩基を示す。

ここに見られるように、プライマーが完全にマッチしていても、多くのバリエーションがある。多くの変異があるため、これらのリードは、ＭＣＦによってフィルタリングにより除外され、変異集計に使用されない。一実施態様では、変異集計（ｍｕｔａｔｉｏｎｔａｌｌｙ）とは、標的領域に対応すると決定されたシーケンスリード内に現れる標的領域の各位置にある変異の数のことである。集計は、同じシーケンスリード上に発生する傾向がある変異を含み得る。

調査の結果、シーケンスリード２５０が、第２０染色体上のカドヘリン４プレプロタンパク質とほぼ完全にアラインすることが判明した（ＣＤＫＮ２Ａ遺伝子は第９染色体上にあることに留意）。よって、これらの誤ったリードは、ゲノムの異なる領域、すなわち、標的領域以外の領域の意図しない増幅によるものであり得る。（プライマー領域における）クエリ配列の５’末端における１つの追加塩基およびクエリ配列の３’末端における４つの追加塩基を除いてアライメントはほぼ完璧である。本研究により、ＭＣＦが標的と大きく異なるゲノムセグメントを除外できることが示唆される。また、標的領域のみを増幅できる忠実度が高い酵素の開発が重要であることも示唆される。

ＩＩＩ．代替領域
増幅に用いたプライマーがあまり特異的ではないことがあり得て、ゲノムの他の領域の一部または全部が標的領域に類似しているとき（例えば、他の領域は５箇所で異なる場合）、当該他の領域が増幅されることがあり得る。したがって、シーケンシングの前の標的化手順において、図２Ａおよび２Ｂに示すようなゲノムの意図しない部分が増幅されることがある。同様に、標的を捕捉するための濃縮プローブがあまり特異的ではないこともあり得る。

このような類似配列は、標的領域の変異リードとして同定されることがあっても、実際には単にゲノムの別の部分由来の野生型配列である。よって、ゲノムの別部分由来のこれらの配列が偽陽性の結果になり得る（すなわち、誤って変異として同定され得る）。得られた非標的シーケンスリードは標的領域とは非常に異なるので、変異数フィルター（ＭＣＦ）が使用できる。しかし、その違いがあまり大きくない場合があり、増幅および／または捕捉されたゲノムの他の部分由来のリードが存在したままであることがある。これらのリードは、標的、例えば、３〜７個のバリエーションのみを持つものと非常に類似することもある。これらのリードは、標的領域と類似するが、標的ではないので、標的遺伝子の変異の集計から除外すべきである。

図３は、本発明の実施形態に係る、標的配列（すなわち標的領域）３２０（配列番号４）に対するシーケンスリード３１０（配列番号３）の比較を示す。シーケンスリード３１０を５つの列の各上部に示し、標的配列３２０を５つの列の各下部に示す。シーケンスリード３１０の位置をラベル３１１で示す。０ベースのアンプリコン座標系を使用して１番上の行は第１〜６０位を示し、上から２番目の行は第６１〜１２０位を示し、３番目の行は第１２１〜１８０位を示し、４番目の行は第１８１〜２３９位を示し、５番目の行は第２４０〜２４８位を示す。第１〜２４位はフォワードプライマーに対応し、末端２６位はリバースプライマーに対応し、これらの間に標的領域がある。

ＢＬＡＳＴ（ＢａｓｉｃＬｏｃａｌＡｌｉｇｎｍｅｎｔＳｅａｒｃｈＴｏｏｌ）では、シーケンスリード３１０は第２２染色体上の偽遺伝子と完全にマッチし、標的配列３２０は第３染色体上のＰＩＫ３ＣＡ＿Ｅｘｏｎ＿１０に対応していた。ＢＬＡＳＴを用いた標的配列３２０に対するシーケンスリード３１０のアライメントを図３の比較に示す。シーケンスリード３１０および標的配列３２０で対応する位置の間の垂直線はそれぞれマッチを示し、垂直線が無い場合はミスマッチを示す。シーケンスリード３１０は、標的領域３２０の代替領域の例である。

アライメントにより３つのバリアントが存在すること、つまり、１つのバリアント３３１がプライマー領域の第６位にあり（Ｃ→Ｔの置換）そして残り２つのバリアント３３２および３３３が標的領域にあることが示される。バリアント３３２は第１７４位にあり、Ａ→Ｃの置換を示す。バリアント３３３は、第１９８〜１９９位における２つの置換、つまりＧＴ→Ｃの置換（ここで、Ｔは削除される）から成る。別の実施形態では、バリアント３３３は、２つの異なるバリエーションとしてカウントされる。プライマー領域の第６位にあるバリアント３３１により、プライマーにミスマッチがある場合でもバイブリダイズし得ること、プライマーが生化学的に変化してゲノムの異なる部分にハイブリダイズし得ることが示される。比較的長い配列内で２つのバリエーションのみしかないということは、真陽性は２つ以上のバリエーションを有し得るので、ＭＣＦは全ての偽陽性を除外しておらず、ＭＣＦのカットオフに依存し得ることが示される。

これらの２つのバリアント３３２および３３３（変異の組み合わせの一例）の存在は、第３染色体上のＰＩＫ３ＣＡ＿Ｅｘｏｎ＿１０の変異として分類すべきではなく、実際は第２２染色体上の偽遺伝子に相当するのであろう。従って、コンピュータシステムが、シーケンスリード内に偽遺伝子とマッチする２つのバリアント３３２および３３を発見した場合、これらのシーケンスリードを最終集計にカウントするべきではない。本明細書に詳述するように、これと同じアプローチを、標的領域３２０と類似する他の代替領域および別の標的領域に適用することができる。

図４は、本発明の実施形態に係る、標的配列（すなわち標的領域）４２０に対するシーケンスリード４１０の比較の別の例を示す。標的配列４２０を３つの列の各上部に示し、シーケンスリード４１０におけるバリアントを３つの列の各下部に示す。標的配列４２０とシーケンスリード４１０間のマッチを点「．」で示し、バリエーションを異なる塩基で示す。

シーケンスリード４１０はＣＤＫＮ２Ｂに相当し、標的配列４２０はＣＤＫＮ２Ａ＿Ｅｘｏｎ＿２．１に相当する。図に見られるように、ＣＤＫＮ２ＢとＣＤＫＮ２Ａ＿Ｅｘｏｎ＿２．１は類似している。３つのバリアント４３１、４３２、および４３９がプライマー領域にある。バリアント４３１および４３２はフォワードプライマー内にあり、バリアント４３９はリバースプライマー内にある。

標的領域には６つの変異（バリアント）がある。バリアント４３３は第５４位にあり、ＡからＣの置換を示す。バリアント４３４は第９９位にあり、Ｃ→Ａの置換を示す。バリアント４３５は第１０５位にあり、Ｃ→Ｔの置換を示す。バリアント４３６は第１２３位にあり、Ｃ→Ｇの置換を示す。バリアント４３７は第１２９位にあり、Ｃ→Ｔの置換を示す。バリアント４３８は第１２３位にあり、Ｃ→Ｔの置換を示す。バリアントの組み合わせを使用して、ＣＤＫＮ２ＢのリードをＣＤＫＮ２Ａ＿Ｅｘｏｎ＿２．１の変異集計から除外できる。ＣＤＫＮ２Ｂの変異の確率を考えると、一実施形態では、シーケンスリードがバリアントの数（この例では、バリアントは４つ以上）の半分超を有する場合、このシーケンスリードをＣＤＫＮ２Ａ＿Ｅｘｏｎ＿２．１の集計から除外できる。

図５は、本発明の実施形態に係る、標的配列（すなわち標的領域）５２０に対するシーケンスリード５１０の比較の別の例を示す。標的配列５２０を３つの列の各上部に示し、シーケンスリード５１０におけるバリアントを３つの列の各下部に示す。標的配列５２０とシーケンスリード５１０間のマッチを点「．」で示し、バリエーションを異なる塩基で示す。

標的配列５２０はＰＴＥＮ＿Ｅｘｏｎ＿５．１．２に相当し、シーケンスリード４１０は類似するゲノムセグメント（すなわち、代替領域）に相当する。１つのバリアント５３１はプライマー領域にあり、３つのバリアント５３２〜５３４は標的領域内にある。バリアント５３２はＧ→Ａの置換を示す。バリアント５３３はＡ→Ｔの置換を示す。バリアント５３４はＧ→Ａの置換を示す。標的領域におけるバリアントの組み合わせを使用して、これらのリードをＰＴＥＮ＿Ｅｘｏｎ＿５．１．２．の変異集計から除外できる。代替領域を同定するために、種々の方法、例えば、本明細書に記載の実施形態を使用できる。

ＩＶ．標的および代替領域の間の区別
上記に示すように、ゲノム（例えば、ヒトゲノム）の一部がゲノムの他の部分と類似することがある。その結果、ターゲットシーケンシングプロセス（例えば、ユニバーサルアダプターを使用したシーケンシング後に続く増幅または濃縮）から得られたシーケンスリードが標的領域に類似していても、実際にはゲノムの他の部分由来であることがある。例えば、一対の増幅プライマーが、ゲノムのある１つの箇所より多くの箇所を増幅することがある。プライマーをうまく設計すると、このような意図しない増幅を低減し、または避けることが可能なこともあるが、必ず可能というわけではない。

ゲノムセグメントが実際は非標的領域由来であることを同定するために、アルゴリズムにより、シーケンスリードを全ゲノムにアラインさせベストマッチを見つけることはできる。しかし、全ゲノムに配列をアラインさせるのは、計算時間の点で非常に高くつく。特に、全ヒトゲノムに対し大量のリードをマッピングすることは、計算する時間および資源の点で大変である。

いくつかの実施形態では、代替領域に関する情報をほとんど又は全く有さない場合にマッピングプロセスを促進するために以下のことができる：（１）対象の参照遺伝子に類似する代替シーケンスセグメントを同定する、（２）リードを対象の参照遺伝子に対しマッピングする、（３）リードを代替セグメントに対しマッピングする、そして（４）（１）および（３）から最良のマッピングを見つける。リードは、いくつかの検査領域にアラインさせてもよい。この場合、アラインメントの品質（例えば、ミスマッチの数）によりベストマッチを決定できる。

ある実施形態では、計算速度を向上させ、コンピュータのメモリ要件を削減できる。また、ある実施形態では、さらに高速な計算を行うために、並列計算を利用することができる。実施形態は、シーケンシングに限定されない。例えば、シークエンシングを用いてＰＣＲおよび濃縮の結果を解析できるので、実施形態は、ＰＣＲ検査および濃縮ベースの検査における偽陽性の原因として可能性があるものを同定するために用いることができる。

図６は、本発明の実施形態に係る、生物の試料ゲノムの標的領域におけるバリアントを検出する方法を示すフローチャートである。方法６００は、癌に関連し得るバリアントを検出するために用いるプロセスの一部として使用することができる。代替領域は、前に実行したプロセスで同定済みであってもよく、あるいはバリアントを検出するために使用される同じプロセスの一部として（例えば、同じシーケンシングの結果を使用して）同定してもよい。

ブロック６１０において、複数のシーケンスリードを受け取る。シーケンスリードは、生物（例えば、ヒトまたは動物）から得られた試料中の複数のゲノムセグメントをシーケンシングすることから得られる。シーケンシングは標的領域由来のゲノムセグメントを標的化することを含む。例えば、増幅または濃縮工程を行って、試料中の１つまたは複数の標的領域由来のゲノムセグメントの割合を増加させることができる。そうすると、シークエンシングを行う際に、（例えば、ユニバーサルアダプターを使用して）標的領域由来のゲノムセグメントをシーケンシングする確率が増大する。一実施形態では、試料当たり約３，０００個のシーケンスリードを受け取る。他の実施形態では、それより多いまたは少ない数を受け取ることもある。

ブロック６２０において、参照ゲノムの標的領域由来のバリエーションの第１数をそれぞれ有する１つまたは複数の代替領域を同定する。それぞれの各第１数は、１より大きく、第１閾値数よりも小さい。例えば、第１領域が、参照ゲノムの標的領域と異なる５つのバリエーション有することがある。第１閾値数が５超である場合、当該第１領域が第１代替領域として同定できる。

複数の代替領域が存在する場合、異なる代替領域は、標的領域に対するバリエーションの数が異なっていてもよく、したがって、それぞれの各第１数が異なっていてもよい。第１閾値数の例としては、実数（すなわち、整数のみではない）を含む、６〜１０の間の値である。代替領域は、既知の変異や他のゲノム由来の領域を含み得る。例えば、代替領域は、ウイルスゲノムまたは他の埋め込み配列に対応し得る。

一実施形態では、代替領域は、以前に標的領域に対応するものとして同定した代替領域を保存するデータベースにアクセスすることによって同定できる。例えば、標的領域は、対応する識別子を有してもよく、その識別子を、標的領域に対応する１つまたは複数の代替領域を相互参照するのに使用できる。よって、ユーザがソフトウェアに特定の標的領域を入力すると、ソフトウェアが、現在のシーケンシングランの結果を解析するのに使用するための代替領域をメモリから取り出すことができる。別の実施形態では、代替領域は、現在のシーケンシングランからのデータを使用して同定できる。

ブロック６３０において、バリエーションの第２閾値数より小さい数で参照ゲノムの標的領域へアラインするシーケンスリードのセットを同定する。例えば、ＢＬＡＳＴの使用といった適切なプロセスにより、複数のシーケンスリードが、参照ゲノムの標的領域にアラインすることがある。バリエーションの数は、塩基が異なる位置の数としてカウントできる。別の実施形態では、隣接位置に差異が存在する場合、１つのバリエーションとして扱うことができる（１つの連続体を１つの位置特異的な数とする）。

第２閾値数は任意の値であり得る。一実施形態では、第２閾値数は、第１の閾値数の半分に１を加えたものである。例えば、第１閾値数が１０である場合、第２の閾値数は６として選択し得る。そのような選択の理由を、以下に説明する。第２閾値数は第１閾値数と同じかそれ以上の場合もあるが、本明細書に記載の理由のために、値がより小さいほうがより効率的な結果を提供できるからである。

１つの試料を、同時に複数の標的領域について検査できる。したがって、アライメントを、標的領域それぞれに対して行うことができる。しかし、標的がメモリから既に同定されて得られていれば、検査対象である標的領域に対するアライメントしか行う必要がない。したがって、試料を第１標的領域および第２標的領域について検査する場合、シーケンスリードは第１標的領域および第２標的領域のみに対しアラインしてもよい。

ブロック６４０において、第３閾値数よりも小さいバリエーション数である第２数で代替領域の１つとアラインするシーケンスリードを、セットから除外することができる。一実施形態では、第３閾値数は対応するバリエーションの第１数の半分で、セットから除外する。例えば、第１代替領域は、標的領域に対し６つのバリエーションを有するとする。この場合、対応するバリエーションの第１数は６である。第１シーケンスリードが、第１代替領域に対し２つのバリエーション（そしておそらく標的領域と異なるバリエーションが４つ）を有する場合、当該第１シーケンスリードを除外する。第１シーケンスリードが第１の代替領域により類似する場合、標的領域の変異ではなく、代替領域の変異の結果であると推定できる。代替領域に対しより良好にアラインするそのような配列のすべては、典型的には除外するが、特定の基準によりかかるシーケンスリードの一部を維持するような例外を設けてもよい。

別の実施形態では、より厳しいまたはより厳しくない第３閾値数、すなわち、対応するバリエーションの第１数の半分よりも小さいまたは大きい数を使用することができる。例えば、第３閾値数は、１と等しい（バリエーション無）ことがあり得る。しかし、異なる患者から代替領域が決定されメモリから取得された場合、現在の試料内の代替領域に対し変異となってしまうようなリードもセット内に生じてしまう。このような問題に対処するために、シーケンスリードは、シーケンスリードが代替領域にアラインするレベルを示すようにマークすることができる。例えば、代替閾値と異なる１または２つのバリエーションを有するシーケンスリードを保持するものの、代替領域と類似しているものとしてマークできる。代替領域のバリエーションの第１数が十分に大きい（例えば、１０）場合、シーケンスリードの差異レベルについての他の基準値も、より大きな数（例えば、３または４）であり得る。

代替領域に対するシーケンスリードのアラインメントは、標的領域に対するアラインメントと同一または類似のプロセスを使用して行うことができる。例えば、ＢＬＡＳＴが使用できる。別の実施形態では、代替領域に対するシーケンスリードのアライメントは、標的領域と代替領域と間のバリエーションおよび標的領域に対するアライメントの知識を用いて達成することができる。例えば、標的領域と代替領域との間に５つの特定のバリエーション（例えば、特定の位置における塩基の違い）があることが分かっている場合、標的領域に対するシーケンスリードのアラインメントが５つの特異的なバリエーションのうち４つを示すので、代替領域に対するアライメントは５番目の特異的なバリエーションを有することになる。これにより、標的領域と代替領域との間のバリエーションの知識を用いない生のアライメント手順を直接使用するよりアライメントが迅速になる。

ブロック６５０において、セットの残りのシーケンスリードを解析して試料ゲノムの標的領域におけるバリアントを決定する。例えば、残りの配列のバリエーションをカウントできる。一実施形態では、特定の位置における各バリエーションがカウントされる。バリエーションが（例えば、ある絶対数と比較、またはセットにおける全リードの割合と比較して）十分な回数で起こる場合、そのバリエーションを変異として分類できる。実施形態のカバー効率および感度を、全ゲノムをマッピングしてベストマッチを同定する計算集約的な技術と比較して評価できる。

Ｖ．代替領域の同定
標的領域に対するバリエーションの第１閾値数よりも小さい数の１つまたは複数の代替領域の同定は、種々の方法で行うことができる。１つの方法は、データベース全体を検索して類似の配列を見つけることである。しかし、このアプローチは、時間がかかり、類似する配列が実験ではどのように増幅されるのかについての情報を欠くこともある。

他のアプローチとして、同じシーケンスリードに生じる複合変異（例えば、変異の組み合わせ）を利用することがある。２つ以上の単純変異の組み合わせによる共同的な頻度を示す報告を作成できる。十分な量（例えば、少なくとも１％）で生じる変異の組み合わせだと、その変異が本当に代替領域の存在を示すことになる。このような代替ゲノムセグメントは、標的領域に共通する変異由来のものであることもある。例えば、異なる集団間（例えば、ヨーロッパ系対アジア系）で共通の変異が起こり得るが、ここで１つの集団のセグメントを異なる集団のセグメントの代替として考えることもできる。

一実施態様では、変異集計に大きな影響を与える代替ゲノムセグメントとなる単純変異の組み合わせについて、特定の条件を用いることができる。条件の例は以下の通りである。第１に、組み合わせ変異は、複数の試料およびトレーニングデータセットの複数回のランに現れなくてはならない。第２に、試料内の組み合わせ変異の頻度は無視できるものであってはならない（例えば、１％超）。第３に、対応する配列は、標的と異なるゲノムセグメントとほぼ完全に一致しいなくてはならない（例えば、１つまたは２つのミスマッチのみ）。

図７は、本発明の実施形態に係る、標的領域に対応する代替領域を同定する方法７００のフローチャートである。方法７００は、１つまたは複数の検査試料に対する初期プロセスとして実行でき、特定の標的領域に対応するものとして同定された代替領域（単数または複数）を、保存したりまたはソフトウェアとしてエンドユーザ（例えば、ラボ）に提供できる。このように、エンドユーザが代替領域を同定する必要がない。よって、ユーザがソフトウェア内の特定の標的領域を入力した後、このソフトウェアにより、現前に同定されたこれらの代替領域をメモリから取得して在のシーケンシングランの結果の解析に使用できる。

ブロック７１０において、複数のシーケンシングリードを得る。本明細書に記載するように、シーケンシングプロセスは、１つまたは複数の標的領域を標的とすることを含む。一実施形態では、方法７００は、変異を同定するために使用する検査シーケンスランの前に実施される初期シーケンシングランから得られるシーケンシング結果を用いて行うことができる。この初期シーケンシングランでは、変異について検査する対象の試料と異なる調査用試料を用いることができる。調査用試料は、同じ生物または異なる生物由来であり得る。この初期シーケンシングランで、同様の量のリード（例えば、２，０００〜３，０００個）を得ることができる。このような初期シーケンシングランを使用して、他の患者のために今後検査を実行するのに使用し得る代替領域を同定し得る。別の実施形態では、変異を同定するのに使用したシーケンスリードと同じリードの少なくとも一部を用いて、代替領域を同定できる。したがって、同一のシーケンシングランを用いてもよい。

ブロック７２０において、同じ複数の位置で参照ゲノムの標的領域と異なるシーケンスリードの数をカウントする。標的領域に対し同一のバリエーションを有するシーケンスリードは同一の代替領域に関するものであり得るので、同じ代替グループに割り当てることができる。バリエーションが同じなので、これらのリードは、ゲノム内の代替領域であることを示唆し得る。例えば、１００個のシーケンスリードが、全く同じ６つのバリエーションについて標的領域と異なる場合がある。これらの１００個のシーケンスリードを同定し、１００のカウントを保存および追跡できる。

これらのシーケンスリードは、連続する領域、例えば、標的領域と比較される領域内で互いに同一であり得る。しかし、いくつかの実施形態では、シーケンスリードは、かかる連続する領域内で同一である必要はない。例えば、シーケンスリードは、ある中間の領域で異なっていてもよい。代替配列におけるこのような差異は、絶対値または割合として設定されている特定数より小さいことが必要なことがある。例えば、代替グループのシーケンスリードは、これらのバリエーションの少なくともＸ％（例えば、７０％、８０％、または９０％）が共通していなくてはならない場合がある。代替グループにおけるこのような差異は、二つのゲノムセグメントが同じ代替領域由来であるが異なる染色体由来であるヘテロ接合変異によるものであることもある。

一実施形態では、シーケンスリードは、代替グループのシーケンスリード間で差異があっても許容されている場合、クラスタ化することができる。座標は、各位置での基準値にすることができる。クラスタの重心を同定することができ（例えば、最も共通する配列）。そして塩基の特定の数で異なる配列を含めることもできる。

一実施形態では、代替グループの共通するバリエーションの数は、指定された値を上限とすることができる。例えば、バリエーションの閾値数（例えば、方法６００から得た第１の閾値）よりも多く標的領域とは異なるリードを、代替グループへ追加するか否かの考慮から除外できる。この閾値は、ＭＣＦ手順に使用したものと同じであり得る。このようなリードは通常のランで除外されるので、リードをカウントしない代替領域を決定するのはあまり意味がないかもしれない。

一実施形態では、代替グループに追加するためのシーケンスリードを検討するための閾値は、ＭＣＦの閾値より大きいことがあり得る。例えば、いくつかのシーケンスリードはＭＣＦより小さいが代替領域により類似しているので（例えば、代替領域についてのＭＣＦが１０で、第１の閾値が１４であり、代替領域により類似するシーケンスリードが８）、このような代替領域（すなわち、ＭＣＦより多くのバリエーション）が有用なことがある。したがって、この閾値は、ＭＣＦの値の２倍であることもある。別の実施形態では、代替グループに追加するためのシーケンスリードを検討するための閾値は、代替領域におけるバリエーションの数についての最終的な閾値要件よりも大きいことがある。例えば、代替領域のシーケンスリードが互いに同一でなくてもよい場合、許容される共通バリエーションの数に関する閾値より大きい数を有するシーケンスリードもある。

ブロック７３０において、指定量（カットオフ値）よりも大きいカウント数のシーケンスリード（例えば、代替グループ）を決定する。また、この指定量は、フィルタが沢山あるようなものと考えることができる。例えば、指定量は、絶対数（例えば、２００または３００）、あるいはリードの合計の割合（例えば、１％）であり得る。一態様では、変異の組み合わせがゲノムの実際の部分由来である場合、このような小さいカウントは起こらないと仮定する。

一緒に起こると判断されたバリエーションについての複数の代替グループが出力される。この方法だと、ほんの少数のリードが変異を有する場合、バリエーションは人工的なもので、ゲノムの実際の部分とは関係ないものである可能性がある。また、このようなリードは、多くのフィルタに通すと残らないであろうから、あまり利点がないこともある。

ブロック７４０において、標的領域についての既知の変異に対応している代替グループを除外できる。この工程は、他の方法の別工程であってもよく、任意である。データベースにより、発生するのがわかっている変異、または医学的に意味のある変異を検索し得るが、病気に関係が無い変異であることもある。後者の場合、このような既知の変異が、ある集団において有意な割合で発生する可能性がある。参照は試料と同じ集団から選択することができるし、あるいは単純に既知変異がその集団の特有の既知変異を含んでいてもよい。シーケンシングデータが実際の検査試料についてのものである場合、このように既知変異に対応しているときに試料の変異を呼び出すことになり得る。

ブロック７５０において、残りの代替グループのシーケンスリード（すなわち、数が指定量より大きいリード）を参照ゲノムにアラインできる。代替グループのリード間でのバリエーションの任意の位置を、独立してアラインさせることができる（例えば、ＳＮＰの各対立遺伝子に対し２回アラインさせる）。例えば、２つのサブクラスタを、複数の類似する配列（例えば、ＳＮＰその他の多型により異なる）を有する１つのクラスタとして同定してもよく、両方のサブクラスタをアラインさせてもよい。

ブロック７６０において、そのグループのリードの第１領域に対するアライメントが標的領域に対するアライメントよりバリエーション数が少ない場合、その第１領域を代替領域として同定できる。したがって、このアライメントにより、最も良くマッチする領域を提供できる。標的領域により良くマッチする（または、潜在的に同じである）別の領域がある場合、その領域を代替領域として同定し得る。その場合、これらの代替領域がメモリに格納されて、該標的領域を将来のランで用いるときに使用できるようにアクセスし得る。例えば、ユーザがコンピュータへ標的領域を入力でき、コンピュータが代替領域を同定するためにデータベースを検索できる。

一実施形態では、代替領域が見つからない（すなわち、より良くマッチする別の領域がない）場合、これら複数のバリエーションが標的領域の複数の変異であるとして同定できる。かかる変異は、既知の変異に関するデータベースに格納され、上記の方法で使用することができる。

一例として、シーケンシングランから得たリードのアライメントにより、第２２３７〜２２４８位でのＥＧＦＲエキソン１９における新しい変異が示された。この変異は、ＡＡＴＴＡＡＧＡＧＡＡＧ→ＣＣＣの置換（配列番号９および１０）であった。第２２５０位（Ａ→Ｇ）における置換が同様の頻度で現れることが発見されたので、この変異は組み合わせ変異であり共同的に発生したことが示唆される。この変異が同じリードで発生することが確認された。よって、この変異は、２つの単純変異の組み合わせである第２２３７〜２２５０位におけるＡＡＴＴＡＡＧＡＧＡＡＧＣＡ→ＣＣＣＣＧへの置換（配列番号１１および１２）であるはずだ。複合変異を報告することは、２つ以上の単純変異が同様の頻度であることを単に同定するよりも優れている、というのはそれらが同じリード内に現れず、共同的に発生する頻度が低いこともあるからである。また、組み合わせのサブセットが高い共同的頻度であらわれ、全体の組み合わせの頻度が不均一になることもあり得る。

従って、複合変異に関する報告を用いる実施形態では、標的に対し２つ以上の単純なバリアントを有する代替ゲノムセグメントを効率的に見つけることができる。代替ゲノムセグメントが、標的に対し０または１のバリアントを含有することもある。一実施形態では、プライマーの設計において、異なるゲノム位置由来で同一のセグメントを除外するための努力がされてきた。差異が１つしかない単純なバリアントである場合、単純なバリアントに関する報告を上述の実施形態と共に用いて、標的とは１つのみが異なる単純なバリアントを有する偽陽性リードを同定し除外できる。

図９の表は、複数の試料および複数のラン中に現れる複合変異（単純変異の組み合わせ）を示す。複合変異は、図３〜５の実施例に対応する。データベース検索により、代替ヒトゲノムセグメントに対応するように正規化した。前述のように、この検索はウイルスなどの他の生物に拡張できる。

濃縮では、標的領域と類似する代替シーケンスセグメントの同定を次のように進めることができる。いくつかの実施形態では、異なる目的に応じて、対象の標的遺伝子は、スプライシング部位に隣接する標的エキソンを含み得るか、あるいはプロモーター、５’−ＵＴＲ、３’−ＵＴＲ、イントロン、エキソンを含み得る。標的配列を重複する小さなセグメントに分割することができ、例えば、１つのセグメントが１５０塩基長で、２つの重複セグメントが７５塩基の重複を有することもある。これらのセグメントをリードとして扱い、類似度の高い代替セグメントを見つけるために全ゲノムにマッピングしてもよい。これらの代替セグメントは、１つまたは複数のファイルに含めてもよい。新たなマークをつけることもでき、新たな参照配列の座標を元のゲノム座標に関連付ける、例えば、標的領域に対する代替領域を同定する工程の一部として関連付けることもできる。

ＶＩ．コンピュータシステム
本明細書に記載のコンピュータシステムは、任意の適切な数のサブシステムを用いることができる。コンピュータ装置８００内におけるかかるサブシステムの例を、図８に示す。いくつかの実施形態では、コンピュータシステムは、単一のコンピュータ装置を含み、ここで、サブシステムがコンピュータ装置の構成要素となる。別の実施形態では、コンピュータシステムは複数のコンピュータ装置を含み得て、それぞれのサブシステムは内部構成要素を有する。

図８に示すサブシステムは、システムバス８７５を介して相互に接続されている。プリンタ８７４、キーボード８７８、記憶装置８７９、およびディスプレイアダプタ８８２に接続されたモニタ８７６等の追加サブシステム等を示す。周辺機器及びＩ／Ｏコントローラ８７１につながっている入力／出力（Ｉ／Ｏ）装置は、例えば、シリアルポート８７７等、当技術分野で公知の任意の数の手段でコンピュータシステムに接続することができる。例えば、シリアルポート８７７または外部インタフェース８８１（例えば、イーサネット（登録商標）、Ｗｉ−Ｆｉなど）を使用して、コンピュータシステム８００をインターネットなどのワイドエリアネットワーク、マウス入力装置、またはスキャナに接続できる。システムバス８７５を介する相互接続により、中央プロセッサ８７３と各サブシステムとを通信させ、システムメモリ８７２または記憶装置８７９（例えば、固定ディスク）からの命令の実行を制御すること、ならびにサブシステム間で情報の交換をすることが可能になる。システムメモリ８７２及び／又は記憶装置８７９により、コンピュータ可読媒体を具現化できる。本明細書に記載の任意の値を、一つの構成要素から別の構成要素に出力することもでき、ユーザに出力することもできる。

コンピュータシステムは、例えば、外部インタフェース８８１によってまたは内部インタフェースによって互いに接続されている複数の同じ構成要素またはサブシステムを含んでもよい。いくつかの実施形態では、コンピュータシステム、サブシステム、または装置は、ネットワークを介して通信できる。かかる例では、一つのコンピュータをクライアント、そして別のコンピュータをサーバと考え、それぞれを同じコンピュータシステムの一部とすることができる。クライアントとサーバは、それぞれの複数のシステム、サブシステム、または構成要素を含み得る。

なお、本発明の任意の実施形態は、ハードウェア（例えば、アプリケーションに特異的な集積回路またはフィールドプログラマブルゲートアレイ）および／またはコンピュータソフトウェアを用いた制御ロジックの形態で、一般にプログラム可能なプロセッサと共に、モジュール式または集積的に実施可能であることが理解されるべきである。本明細書では、ユーザとしてのプロセッサとして、同一の集積チップ上のマルチコアプロセッサ、または単一の回路基板上もしくはネットワーク化された複数の処理ユニットが挙げられる。本明細書で提供される開示および教示に基づき、当業者は、ハードウェアやハードウェアとソフトウェアとの組み合わせを用いて本発明の実施形態を実施する他の手段および／または方法を知り理解するであろう。

本出願に記載されているソフトウェアの構成要素または機能のいずれかを、例えば、従来技術またはオブジェクト指向技術などを用いて、例えば、Ｊａｖａ（登録商標）、Ｃ＋＋、またはＰｅｒｌといった任意の適切なコンピュータ言語を使用するプロセッサにより実行されるソフトウェアコードとして実現してもよい。ソフトウェアコードを、一連の命令又はコマンドとして保存および／または送信用のコンピュータ可読媒体に保存でき、適切な媒体としては、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、ハードドライブまたはフロッピー（登録商標）ディスクといった磁気媒体、コンパクトディスク（ＣＤ）またはＤＶＤ（デジタル多用途ディスク）といった光媒体、フラッシュメモリ等が挙げられる。コンピュータ可読媒体は、かかる保存または伝送装置の任意の組み合わせであってもよい。

このようなプログラムを、インターネットを含む種々のプロトコルに従った有線、光、および／または無線ネットワークを介した送信用に合わせたキャリア信号を用いてコード化し送信してもよい。このように、本発明の実施形態に係るコンピュータ可読媒体は、プログラムを用いてコード化されたデータ信号を使用して作成できる。プログラムコードを用いてコード化されたコンピュータ可読媒体を互換性のあるデバイスと共にパッケージングしてもよいし、または他のデバイスと別個に（例えば、インターネットダウンロードを介して）設けてもよい。かかる任意のコンピュータ可読媒体を、単一のコンピュータプログラム製品（例えば、ハードドライブ、ＣＤ、またはコンピュータシステム全体）上または内部に設けてもよいし、システムまたはネットワーク内の異なるコンピュータプログラム製品内に設けてもよい。本明細書における任意の結果をユーザに提供するためのモニタ、プリンタ、または他の適切なディスプレイを、コンピュータシステムに含めてもよい。

本明細書に記載の任意の方法は、各工程を実行するように構成できる１つまたは複数のプロセッサを含むコンピュータシステムを用いて全体的にまたは部分的に実行できる。したがって、ある実施形態では、本明細書に記載の任意の方法の工程を実行するように構成されたコンピュータシステムに関するものであってもよいし、これを各工程または各工程群を実行する別の構成要素と共に用いてもよい。工程に番号を付して示しているが、本明細書に係る方法における工程は、同時に行ってもよいしあるいは異なる順序で行ってもよい。さらに、これらの工程の一部を、他の方法の別工程の一部と共に用いてもよい。また、工程の全部または一部が任意であってよい。加えて、これらの方法の工程のいずれかを、これらの工程を実行するためのモジュール、回路、または他の手段で行ってもよい。

特定の実施形態の具体的な詳細事項は、本発明の実施形態の精神および範囲から逸脱することなく、任意の適切な方法で組み合わせることができる。しかしながら、本発明の他の実施形態は、個々の態様に関する具体的な実施形態、またはこれらの個々の態様の具体的な実施形態の組み合わせに関するものであってもよい。

本発明の例示的な実施形態についての上記の説明は、例示および説明の目的のために示すものである。本発明を網羅する、あるいは説明した記載そのものに限定するという意図ではなく、多くの改変および変形が上記の教示に照らして可能である。ある実施形態では、当業者が実施形態を種々改変して考えられる特定の用途に適する形で本発明を利用できるように、本発明の原理及びその実際の応用を最も良く説明するために選択され記載されている。

「ａ」、「ａｎ」または「ｔｈｅ」は、特に反対の指示が無い限り、「１つまたは複数」を意味する意図である。

Claims

生物の試料ゲノムの標的領域におけるバリアントを検出する方法であって、
複数のシーケンスリードを受け取る、ここで、該シーケンスリードは該生物から得られた試料におけるゲノムセグメントをシーケンシングすることにより得られ、該シーケンシングは該標的領域由来のゲノムセグメントを増幅および／または濃縮することを含む；
参照ゲノムの標的領域由来のバリエーションの第１数をそれぞれ有する参照ゲノムの１つまたは複数の代替領域を同定する、ここで、各第１数は、１よりも大きく、第１閾値数よりも小さい；
コンピュータシステムにより、該複数のシーケンスリードについて該参照ゲノムの標的領域に対するアラインメントを実行し、バリエーションの第２閾値数よりも小さい数で参照ゲノムの標的領域にアラインするシーケンスリードのセットを同定する；
第３閾値数よりも小さいバリエーションの第２数を有する１つまたは複数の代替領域とアラインする少なくとも１つのシーケンスリードを該セットから除外する；そして
該セットの残りのシーケンスリードを解析して、試料ゲノムの標的領域におけるバリアントを決定する；
ことを含む方法。
前記標的領域由来のゲノムセグメントは、該標的領域を増幅するように設計された１対のプライマーを用いて増幅される、請求項１に記載の方法。
前記標的領域由来のゲノムセグメントは、該標的領域由来のゲノムセグメントを選択するための表面に結合したプローブを用いて濃縮される、請求項１に記載の方法。
前記第３閾値数は、代替領域について対応するバリエーションの第１数の半分である、請求項１に記載の方法。
前記第３閾値数は１である、請求項１に記載の方法。
前記代替領域を同定することは、
複数の同じ位置において前記参照ゲノムの標的領域とそれぞれ異なるシーケンスリードの数をカウントする、ここで該標的領域に対し同じバリエーションを有するシーケンスリードが代替グループを形成する；
その数がカットオフ値を超える場合、該代替グループ由来の第１シーケンスリードについて該参照ゲノムに対するアライメントを実行する；そして
第１シーケンスリードについて参照ゲノムの第１領域に対するアライメントが標的領域に対するアライメントよりバリエーション数が少ない場合、該第１領域を代替領域として同定する；
ことを含む、請求項１に記載の方法。
前記代替グループのシーケンスリード同士は、連続する領域内で互いに同一である、請求項６に記載の方法。
前記第１領域を代替領域として同定するために用いるシーケンスリードは、異なる試料のシーケンシングから得たものである、請求項６に記載の方法。
前記第１シーケンスリードを、前記標的領域についての既知の変異に関するデータベースと比較する；そして
該第１シーケンスリードが、該標的領域についての既知の変異に対応する場合、該代替グループを代替領域に対応するものとして除外する；
ことを更に含む、請求項６に記載の方法。
代替領域は、前記参照ゲノム以外の配列を含む配列のデータベースから得たものである、請求項１に記載の方法。
前記セットの残りのシーケンスリードを解析して、試料ゲノムの標的領域におけるバリアントを決定することは、
標的領域内の各位置において、参照ゲノムと異なるシーケンスリードにおけるバリエーションの数をカウントすることを含む、請求項１に記載の方法。
前記方法を、１つまたは複数の他の標的領域について繰り返すことを更に含む、請求項１に記載の方法。
前記シーケンシングは、２つ以上の試料をシーケンシングするランで実行し、ここで前記ゲノムセグメントは、複数の試料のうちの１つの試料と対応するＩＤを含み、少なくとも２つの試料は異なる標的領域を有する、請求項１２に記載の方法。
前記代替領域の１つまたは複数は異なるゲノム由来である、請求項１に記載の方法。
前記１つまたは複数の代替領域と前記少なくとも１つのシーケンスリードとのアラインは、
代替領域と標的領域との間の第１バリエーションを同定する；
シーケンスリードを標的領域に対しアラインさせて、シーケンスリードと標的領域との間の第２バリエーションを同定する；そして
第１バリエーションを第２バリエーションに対し比較する；
ことによりなされる、請求項１に記載の方法。
生物の試料ゲノムの標的領域におけるバリアントを検出するためにコンピュータシステム制御を実行するときに複数の命令を保存する非一時的コンピュータ可読媒体を含むコンピュータ製品であって、
該命令は、
複数のシーケンスリードを受け取る、ここで、該シーケンスリードは該生物から得られた試料におけるゲノムセグメントをシーケンシングすることにより得られ、該シーケンシングは該標的領域由来のゲノムセグメントを増幅および／または濃縮することを含む；
参照ゲノムの標的領域由来のバリエーションの第１数をそれぞれ有する１つまたは複数の代替領域を同定する、ここで、各第１数は、１よりも大きく、第１閾値数よりも小さい；
該複数のシーケンスリードについて該参照ゲノムの標的領域に対するアラインメントを実行し、バリエーションの第２閾値数よりも小さい数で、参照ゲノムの標的領域にアラインするシーケンスリードのセットを同定する；
第３閾値数よりも小さいバリエーションの第２数を有する１つまたは複数の代替領域とアラインする少なくとも１つのシーケンスリードを該セットから除外する；そして
該セットの残りのシーケンスリードを解析して、試料ゲノムの標的領域におけるバリアントを決定する；
ことを含む、コンピュータ製品。
前記代替領域を同定することは、
複数の同じ位置において前記参照ゲノムの標的領域とそれぞれ異なるシーケンスリードの数をカウントする、ここで該標的領域に対し同じバリエーションを有するこれらのシーケンスリードが代替グループを形成する；
その数がカットオフ値を超える場合、該代替グループの第１シーケンスリードについて該参照ゲノムに対するアライメントを実行する；そして
第１シーケンスリードについて参照ゲノムの第１領域に対するアライメントが標的領域に対するアライメントよりバリエーション数が少ない場合、該第１領域を代替領域として同定する；
ことを含む、請求項１６に記載のコンピュータ製品。
生物の試料ゲノムの標的領域におけるバリアントを検出するためのシステムであって、
複数のシーケンスリードを受け取る、ここで、該シーケンスリードは該生物から得られた試料におけるゲノムセグメントをシーケンシングすることにより得られ、該シーケンシングは該標的領域由来のゲノムセグメントを増幅および／または濃縮することを含む；
参照ゲノムの標的領域由来のバリエーションの第１数をそれぞれ有する１つまたは複数の代替領域を同定する、ここで、各第１数は、１よりも大きく、第１閾値数よりも小さい；
該複数のシーケンスリードについて該参照ゲノムの標的領域に対するアラインメントを実行し、バリエーションの第２閾値数よりも小さい数で、参照ゲノムの標的領域にアラインするシーケンスリードのセットを同定する；
第３閾値数よりも小さいバリエーションの第２数を有する１つまたは複数の代替領域とアラインする少なくとも１つのシーケンスリードを該セットから除外する；そして
該セットの残りのシーケンスリードを解析して、試料ゲノムの標的領域におけるバリアントを決定する；
ように構成された１つまたは複数のプロセッサを含む、システム。
標的領域に関連する１つまたは複数の代替領域を保存するデータベースを更に含む、請求項１８に記載のシステムであって、
ここで、該１つまたは複数の代替領域を同定することは、該データベースから１つまたは複数の代替領域を取得することを含む、システム。