今日、癌治療技法は、1つの薬品をすべてに適合させる手法から他へ移りつつある。包括的な診断手法は、DNAバリアントを検出する方法に対して課題を提起する。DNA検出方法の非限定的な例は、サンガーシーケンシング、免疫組織化学(IHC:immunohistochemistry)、蛍光in-situハイブリダイゼーション(FISH:fluorescence in situ hybridization)、および定量PCR(qPCR:quantitative PCR)を含む。いくつかの検出方法は、一度に1つまたは少数の遺伝子変化に対してDNAを解析する。しかしながら、癌進行を推進させることが知られているDNA改変の数が増え続けるので、1つのシーケンシング動作中に、ますます多くの遺伝子変化に対してDNAを解析するために、新たな方法が提案されている。
次世代シーケンシング(NGS:next-generation sequencing)は、1つのサンプルを使用して複数の遺伝子の中のバリアントを評価するための能力を提供する。そのために、NextSeq(商標)およびHiSeq(商標)プラットフォーム上でのシーケンシングに対して、複数の癌遺伝子(たとえば、100個を超える癌遺伝子)を標的とするハイブリッドキャプチャベースのNGS検定(アッセイ)を提供するシステムが提案されている。NGS検定は、単一ヌクレオチドバリアント(SNV:single nucleotide variant)、短い挿入および欠失(インデル)、複数ヌクレオチドバリアント(MNV:multiple nucleotide variant)、遺伝子増幅(CNV)の同定のための、DNAワークフローを含む。NGS検定はまた、スプライスバリアントおよび遺伝子融合の同定のための、RNAワークフローを含む。サンプル核酸配列が、配列に沿った1つまたは複数の塩基対位置において参照配列とは異なると決定されると、バリアントが同定される。異なる遺伝子からのDNA改変とRNA改変の両方が、単一のサンプルをシーケンシングする間の共通の時点において評価され得る。
迅速なターンアラウンドタイムでバリアントコールを配送する生命情報科学解析技法が開発されつつある。技法は、とりわけ、アライナーおよびバリアントコーラー(variant caller)を含む。アライメントプロセスは、リード長が短いショットガンシーケンシングからの課題を克服するために、長いインデルをアライメントすることができる。さらに、NGS検定は様々なサンプル調製技法を利用し、その一例はホルマリン固定パラフィン包埋(FFPE:formalin-fixed, paraffin-embedded)である。対象のDNAが、量が少なくかつ/または劣化していることがあるとき、FFPEサンプルは、DNAバリアントを検出することに対して別の困難をもたらす。
しかしながら、提案されている現在のシーケンシング技法は、バリアントコーリングに関して偽陽性に遭遇する。たとえば、技法は、特定のロケーション(塩基対)におけるサンプル配列の中にバリアントが存在することを誤って決定することがあり、かつ/またはバリアントのタイプを誤って同定することがある(一般に、偽陽性と呼ばれる)。FFPEアーティファクト、シーケンシングエラー、またはPCRエラーなどに起因するシステム的エラーが、偽陽性を引き起こすことがある。
簡単かつコスト効果的に単一のサンプルの中で、必要以上に多数の偽陽性を宣言することなく、複数のタイプのDNAバリアントを同時に取り調べることができるシーケンシング方法およびシステムの必要が残されている。
[定義]
限定はしないが、特許、特許出願、記事、書籍、論文、およびウェブページを含む、本出願において引用されるすべての文献および類似の資料は、そのような文献および類似の資料のフォーマットに関わらず、それらの全体が参照により明確に組み込まれる。限定はしないが、定義される用語、用語使用、説明する技法などを含む、組み込まれた文献および類似の資料のうちの1つまたは複数が本出願とは異なるかまたは本出願と矛盾する場合、本出願が支配する。
本明細書で使用するとき、以下の用語は示された意味を有する。
「染色体」という用語は、DNAおよびタンパク質成分(特にヒストン)を備えるクロマチンストランドから導出される、生きている細胞の、遺伝的形質を担持する遺伝子キャリアを指す。国際的に認識されている従来の個別ヒトゲノム染色体番号方式が、本明細書で採用される。
「部位」という用語は、参照ゲノム上の固有の位置(たとえば、染色体ID、染色体位置および配向)を指す。いくつかの実施形態では、部位は、残基、配列タグ、または配列上でのセグメントの位置であってよい。「座」という用語は、参照染色体上での核酸配列または多形現象の特定のロケーションを指すために使用され得る。
本明細書において「サンプル」という用語は、シーケンシングおよび/または段階的に実行されるべき少なくとも1つの核酸配列を含む核酸または核酸の混合物を含む、通常は生体液、細胞、組織、器官、または生体から導出されるサンプルを指す。そのようなサンプルは、限定はしないが、痰/口腔液、羊水、血液、血液分画物、微小針生検サンプル(たとえば、外科的生検、微小針生検など)、尿、腹膜液、胸膜液、組織外植体、器官培養、および任意の他の組織もしくは細胞調製、またはそれらのもしくはそれらから分離された分画物もしくは誘導体を含む。サンプルは、しばしば、人間被験者(たとえば、患者)から採取されるが、サンプルは、限定はしないが、イヌ、ネコ、ウマ、ヤギ、ヒツジ、ウシ、ブタなどを含む、染色体を有するいかなる生体からも採取され得る。サンプルは、生物学的ソースから取得された時に直接、またはサンプルの性質を修正するための前処理に続いて、使用され得る。たとえば、そのような前処理は、血液から血漿を調製すること、粘液を希釈することなどを含んでよい。前処理の方法はまた、限定はしないが、ろ過、析出、希釈、蒸留、調合、遠心分離、凝固、凍結乾燥、濃縮、増幅、核酸断片化、干渉成分の不活性化、試薬の添加、溶解などを伴ってよい。
「配列」という用語は、互いに結合されたヌクレオチドのストランドを含むか、またはそれを表す。ヌクレオチドは、DNAまたはRNAに基づいてよい。1個の配列が複数の部分配列を含んでよいことを理解されたい。たとえば、(たとえば、PCRアンプリコンの)単一の配列は、350個のヌクレオチドを有し得る。サンプルリードは、これらの350個のヌクレオチド内の複数の部分配列を含み得る。たとえば、サンプルリードは、たとえば、20〜50個のヌクレオチドを有する、第1および第2のフランキング部分配列を含み得る。第1および第2のフランキング部分配列は、対応する部分配列(たとえば、40〜100個のヌクレオチド)を有する反復セグメントの両側に位置し得る。フランキング部分配列の各々は、プライマー部分配列(たとえば、10〜30個のヌクレオチド)を含み得る(または、その部分を含み得る)。読取りを簡単にするために、「部分配列」という用語は「配列」と呼ばれるが、2つの配列が必ずしも共通のストランド上で互いに別個であるとは限らないことが理解される。本明細書で説明する様々な配列を区別するために、配列は異なるラベル(たとえば、標的配列、プライマー配列、フランキング配列、参照配列など)が与えられることがある。「対立遺伝子」などの他の用語は、同様の対象物間で区別するための異なるラベルが与えられることがある。
「ペアードエンドシーケンシング(paired-end sequencing)」という用語は、標的断片の両端をシーケンシングするシーケンシング方法を指す。ペアードエンドシーケンシングは、ゲノム再構成および反復セグメント、ならびに遺伝子融合および新規の転写の検出を容易にし得る。ペアードエンドシーケンシングのための方法論が、PCT公開第07010252号、PCT出願第PCTGB2007/003798号、および米国特許出願公開第2009/0088327号に記載されており、その各々は参照により本明細書に組み込まれる。一例では、一連の動作は以下のように実行され得る。(a)核酸のクラスタを生成し、(b)核酸を直鎖化し、(c)第1のシーケンシングプライマーを混成させ、上記のようにスキャンおよびデブロッキングする拡張の反復サイクルを実行し、(d)相補型コピーを合成することによってフローセル(flow cell)表面上で標的核酸を「反転」させ、(e)再合成されたストランドを直鎖化し、(f)第2のシーケンシングプライマーを混成させ、上記のようにスキャンおよびデブロッキングする拡張の反復サイクルを実行する。反転動作は、ブリッジ増幅の単一サイクルにわたって上記のように試薬を送達して実行され得る。
「参照ゲノム」または「参照配列」という用語は、被験者からの同定される配列を参照するために使用され得る任意の生体の、部分的であろうとまたは全体的であろうと任意の特定の既知のゲノム配列を指す。たとえば、人間被験者ならびに多くの他の生体に対して使用される参照ゲノムは、ncbi.nlm.nih.govにおける国立バイオテクノロジー情報センターにおいて見つかる。「ゲノム」とは、核酸配列で表現された生体またはウイルスの完全な遺伝情報を指す。ゲノムは、DNAの遺伝子とノンコーディング配列の両方を含む。参照配列は、それにアライメントされているリードよりも大きくてよい。たとえば、参照配列は、少なくとも約100倍大きいことがあり、または少なくとも約1000倍大きいことがあり、または少なくとも約10,000倍大きいことがあり、または少なくとも約105倍大きいことがあり、または少なくとも約106倍大きいことがあり、または少なくとも約107倍大きいことがある。一例では、参照ゲノム配列は、完全な長さのヒトゲノムの配列である。別の例では、参照ゲノム配列は、染色体13などの特定のヒト染色体に限定される。いくつかの実施形態では、参照染色体は、ヒトゲノムバージョンhg19からの染色体配列である。そのような配列は染色体参照配列と呼ばれることがあるが、参照ゲノムという用語はそのような配列をカバーするものとする。参照配列の他の例は、他の種のゲノム、ならびに任意の種の染色体、(ストランドなどの)部分染色体領域などを含む。様々な実施形態では、参照ゲノムは、複数の個体から導出される共通配列または他の組合せである。しかしながら、いくつかの適用例では、参照配列は特定の個体から採取されてよい。
「リード」という用語は、ヌクレオチドサンプルまたはリファレンスの断片を記述する配列データの集合を指す。「リード」という用語は、サンプルリードおよび/または参照リードを指すことがある。通常、必ずしもそうとは限らないが、リードは、サンプルまたはリファレンスの中の連続する塩基対の短い配列を表す。リードは、サンプル断片または参照断片の(ATCGでの)塩基対配列によって記号的に表されてよい。リードは、メモリデバイスの中に記憶されてよく、リードが参照配列に整合するのかまたは他の基準を満たすのかを決定するために、適宜に処理されてよい。リードは、シーケンシング装置から直接、またはサンプルに関する記憶された配列情報から間接的に、取得され得る。場合によっては、リードは、もっと長い配列または領域を同定するために使用され得る、たとえば、染色体またはゲノム領域すなわち遺伝子にアライメントされ詳細に割り当てられ得る、十分な長さ(たとえば、少なくとも約25bp)のDNA配列である。
次世代シーケンシング方法は、たとえば、合成技術によるシーケンシング(Illumina)、パイロシーケンシング(454)、イオン半導体技術(Ion Torrentシーケンシング)、単一分子リアルタイムシーケンシング(Pacific Biosciences)、および連結反応によるシーケンシング(SOLiDシーケンシング)を含む。シーケンシング方法に応じて、各リードの長さは約30bpから10,000bpを超えるまで変わることがある。たとえば、SOLiDシーケンサを使用するIlluminaシーケンシング方法は、約50bpの核酸リードを生成する。別の例の場合、Ion Torrentシーケンシングは400bpまでの核酸リードを生成し、454パイロシーケンシングは約700bpの核酸リードを生成する。また別の例の場合、単一分子リアルタイムシーケンシング方法は、10,000bp〜15,000bpのリードを生成し得る。したがって、いくつかの実施形態では、核酸配列リードは、30〜100bp、50〜200bp、または50〜400bpという長さを有する。
「サンプルリード」、「サンプル配列」、または「サンプル断片」という用語は、サンプルからの対象のゲノム配列に対する配列データを指す。たとえば、サンプルリードは、順方向および逆方向のプライマー配列を有するPCRアンプリコンからの配列データを備える。配列データは、任意の選択配列方法から取得され得る。サンプルリードは、たとえば、シーケンシングバイシンセシス(SBS:sequencing-by-synthesis)反応、シーケンシングバイライゲーション(sequencing-by-ligation)反応、または反復要素の長さおよび/もしくは識別情報を決定することがそれに対して望まれる任意の他の好適なシーケンシング方法からのものであり得る。サンプルリードは、複数のサンプルリードから導出される共通(たとえば、平均化または重み付き)配列であり得る。いくつかの実施形態では、参照配列を提供することは、PCRアンプリコンのプライマー配列に基づいて対象の座を同定することを備える。
「未加工断片」という用語は、サンプルリード内またはサンプル断片内の指定位置または対象の二次的な位置に少なくとも部分的に重複する、対象のゲノム配列の一部分に対する配列データを指す。未加工断片の非限定的な例は、二重スティッチ型断片、一重スティッチ型断片、二重非スティッチ型断片、および一重非スティッチ型断片を含む。「未加工」という用語は、未加工断片が、サンプルリードの中の可能なバリアントに対応するとともにそれを認証または確証するサポートバリアントを呈示するかどうかに関わらず、サンプルリードの中の配列データへのいくつかの関係を有する配列データを未加工断片が含むことを示すために使用される。「未加工断片」という用語は、断片が、サンプルリードの中のバリアントコールを有効化するサポートバリアントを必ずしも含むことを示すとは限らない。たとえば、サンプルリードがバリアントコールアプリケーションによって、最初のバリアントを呈示すると決定されると、バリアントコールアプリケーションは、1つまたは複数の未加工断片が、本来ならサンプルリードの中の所与のバリアントを発生させると予想され得る対応するタイプの「サポート」バリアントを欠いていると決定し得る。
「アライメントされる」、「アライメント」、または「アライメントすること」という用語は、リードまたはタグを参照配列と比較し、それによって、参照配列がリード配列を含むかどうかを決定するプロセスを指す。参照配列がリードを含む場合、リードは、参照配列に、またはいくつかの実施形態では参照配列の中の特定のロケーションに、マッピングされ得る。場合によっては、アライメントは、単に、リードが特定の参照配列のメンバーであるか否か(すなわち、参照配列の中にリードが存在するのかまたは存在しないのか)を見分ける。たとえば、ヒト染色体13用の参照配列へのリードのアライメントは、リードが染色体13用の参照配列の中に存在するかどうかを見分ける。この情報を提供するツールは、セットメンバーシップテスター(set membership tester)と呼ばれることがある。場合によっては、アライメントは、追加として、リードまたはタグがそこにマッピングする、参照配列の中でのロケーションを示す。たとえば、参照配列がヒトゲノム配列全体である場合、アライメントは、染色体13上にリードが存在することを示してよく、リードが染色体13の特定のストランドおよび/または部位の上にあることをさらに示してよい。
「インデル」という用語は、生体のDNAの中での塩基の挿入および/または欠失を指す。マイクロインデルとは、1〜50個のヌクレオチドという正味の変化をもたらすインデルを表す。ゲノムのコーディング領域では、インデルの長さが3の倍数でない限り、そのことはフレームシフト突然変異を生み出す。インデルは、点突然変異とは対照的であり得る。インデルは配列からのヌクレオチドを挿入しかつ欠失させるが、点突然変異は、DNAの中の全体的な個数を変化させることなくヌクレオチドのうちの1つを置き換える置換という形態である。インデルはまた、隣接するヌクレオチドにおける置換として定義され得るタンデムベース突然変異(TBM:Tandem Base Mutation)と対照的であり得る(主に、隣接する2つのヌクレオチドにおける置換であるが、隣接する3つのヌクレオチドにおける置換が観測されている)。
「バリアント」という用語は、核酸リファレンスとは異なる核酸配列を指す。典型的な核酸配列バリアントは、限定はしないが、単一ヌクレオチド多形現象(SNP:single nucleotide polymorphism)、短い欠失および挿入多形現象(インデル)、コピー数異常(CNV:copy number variation)、マイクロサテライトマーカーまたはショートタンデム反復、ならびに構造的変形を含む。体細胞バリアントコーリングとは、DNAサンプルの中に低頻度で存在するバリアントを同定するための取組みである。体細胞バリアントコーリングは、癌治療のコンテキストにおいて関係がある。癌は、DNAの中での突然変異の蓄積によって引き起こされる。腫瘍からのDNAサンプルは、一般に異質性であり、いくつかの正常細胞、癌進行の初期段階におけるいくつかの細胞(突然変異がより少ない)、およびいくつかの末期段階細胞(突然変異がより多い)を含む。この異質性のために、(たとえば、FFPEサンプルからの)腫瘍をシーケンシングするとき、体細胞突然変異は、しばしば、低頻度で出現する。たとえば、SNVは、所与の塩基をカバーするリードのうちの10%の中だけで見られることがある。
「バリアント頻度」という用語は、分数またはパーセンテージとして表現される、集団の中の特定の座における対立遺伝子(遺伝子のバリアント)の相対頻度を表す。たとえば、分数またはパーセンテージは、その対立遺伝子を運ぶ集団の中のすべての染色体の割合であってよい。例として、サンプルバリアント頻度は、対象のゲノム配列に対して個体から取得されるリードおよび/またはサンプルの数に対応する「集団」と比較した、対象のゲノム配列に沿った特定の座/位置における対立遺伝子/バリアントの相対頻度を表す。別の例として、ベースラインバリアント頻度は、1つまたは複数のベースラインゲノム配列に沿った特定の座/位置における対立遺伝子/バリアントの相対頻度を表し、ここで、「集団」は、1つまたは複数のベースラインゲノム配列に対して正常個体の集団から取得された個数のリードおよび/またはサンプルに対応する。
「位置」、「指定位置」、および「座」という用語は、ヌクレオチドの配列内での1つまたは複数のヌクレオチドのロケーションまたは座標を指す。「位置」、「指定位置」、および「座」という用語はまた、ヌクレオチドの配列の中での1つまたは複数の塩基対のロケーションまたは座標を指す。
「ハプロタイプ」という用語は、互いに継承される、染色体上の隣接する部位における対立遺伝子の組合せを指す。ハプロタイプは、もし発生していれば、座の所与のセットの間で発生している組み換えイベントの数に応じて、1つの座、いくつかの座、または染色体全体であってよい。
本明細書において「しきい値」という用語は、サンプル、核酸、またはそれらの部分(たとえば、リード)を特徴づけるためのカットオフとして使用される数値または非数値を指す。しきい値は、経験的解析に基づいて変えられてよい。しきい値は、そのような示唆された値を生じさせるソースが分類されるべきであるかどうかを特定の方式で決定するために、測定または計算された値と比較され得る。しきい値は、経験的または解析的に同定され得る。しきい値の選択は、ユーザが分類を行わなければならないと望む信頼性のレベルに依存する。しきい値は、特定の目的のために(たとえば、感度と選択度とのバランスをとるように)選ばれてよい。本明細書で使用する「しきい値」という用語は、解析の過程がそこにおいて変更され得る点、および/またはアクションがそこにおいてトリガされ得る点を示す。しきい値は、あらかじめ決定された数であることを必要とされない。代わりに、しきい値は、たとえば、複数のファクタに基づく関数であってよい。しきい値は、環境に適応的であってよい。その上、しきい値は、上限、下限、または限度の間の範囲を示してよい。
いくつかの実施形態では、シーケンシングデータに基づくメトリックまたはスコアは、しきい値と比較され得る。本明細書で使用する「メトリック」または「スコア」という用語は、シーケンシングデータから決定された値もしくは結果を含んでよく、またはシーケンシングデータから決定された値もしくは結果に基づく関数を含んでよい。しきい値のように、メトリックまたはスコアは環境に適応的であってよい。たとえば、メトリックまたはスコアは正規化された値であってよい。スコアまたはメトリックの一例として、1つまたは複数の実施形態は、データを解析するとき、カウントスコアを使用し得る。カウントスコアは、サンプルリードの個数に基づいてよい。サンプルリードは、サンプルリードが少なくとも1つの共通の特性または品質を有するような、1つまたは複数のフィルタ処理段階を受けていてよい。たとえば、カウントスコアを決定するために使用されるサンプルリードの各々は、参照配列にアライメントされていてよく、または可能な対立遺伝子として割り当てられてよい。共通の特性を有するサンプルリードの個数は、リードカウントを決定するためにカウントされ得る。カウントスコアはリードカウントに基づいてよい。いくつかの実施形態では、カウントスコアはリードカウントに等しい値であってよい。他の実施形態では、カウントスコアはリードカウントおよび他の情報に基づいてよい。たとえば、カウントスコアは、遺伝子座の特定の対立遺伝子に対するリードカウント、およびその遺伝子座に対するリードの総数に基づいてよい。いくつかの実施形態では、カウントスコアは、遺伝子座に対するリードカウントおよび以前に取得されたデータに基づいてよい。いくつかの実施形態では、カウントスコアは、所定の値の間で正規化されたスコアであってよい。カウントスコアはまた、サンプルの他の座からのリードカウントの関数、または対象のサンプルと並行して実行された他のサンプルからのリードカウントの関数であってよい。たとえば、カウントスコアは、特定の対立遺伝子のリードカウントと、サンプルの中の他の座のリードカウントおよび/または他のサンプルからのリードカウントとの関数であってよい。一例として、他の座からのリードカウントおよび/または他のサンプルからのリードカウントは、特定の対立遺伝子に対するカウントスコアを正規化するために使用され得る。
「カバレッジ」または「断片カバレッジ」という用語は、配列の同じ断片に対するいくつかのサンプルリードのカウントまたは他の尺度を指す。リードカウントは、対応する断片をカバーするリードの数のカウントを表してよい。代替として、カバレッジは、履歴知識、サンプルの知識、座の知識などに基づく指定された係数でリードカウントを乗算することによって決定されてよい。
様々な実施形態の詳細な説明は、添付の図面とともに読むと、よりよく理解される。図が様々な実施形態の機能ブロックの図を示す限りにおいて、機能ブロックは必ずしもハードウェア回路構成間の分割を示すとは限らない。したがって、たとえば、機能ブロックのうちの1つまたは複数(たとえば、モジュール、プロセッサ、またはメモリ)は、単一のハードウェア(たとえば、汎用信号プロセッサ、またはランダムアクセスメモリのブロック、ハードディスクなど)または複数のハードウェアの中に実装されてよい。同様に、プログラムは、スタンドアロンプログラムであってよく、オペレーティングシステムの中にサブルーチンとして組み込まれてよく、インストールされたソフトウェアパッケージの中の関数などであってよい。様々な実施形態が、図面に示す構成および手段に限定されないことを理解されたい。
本明細書に記載する実施形態は、核酸配列を解析して配列変形を同定することに適用可能であってよい。実施形態は、遺伝子の位置/座の可能なバリアント/対立遺伝子を解析し、遺伝子座の遺伝子型を決定し、すなわち、言い換えれば、座に対する遺伝子型コールを提供するために使用され得る。例として、核酸配列は、その完全な主題が参照によりそれらの全体が本明細書に明確に組み込まれる、米国特許出願公開第2016/0085910号および米国特許出願公開第2013/0296175号に記載されている方法およびシステムに従って解析され得る。
本明細書で説明する方法は、様々なシステムおよびデバイスの1つまたは複数のプロセッサが、本明細書で説明するように、メモリの中に記憶されたプログラム命令を実行することによって実施され得る。別段に指定されない限り、本明細書での方法における動作の順序は変更されてよい。加えて、本明細書で説明する方法における動作のうちの1つまたは複数は完全に削除されてよく、追加の動作が増補されてよい。
シーケンシングプロセス
図1Aは、一実施形態による方法100を示す。方法100は、102において、DNAなどの核酸を含むかまたは含むことが疑われるサンプルを受け取ることを含む。サンプルは、動物(たとえば、ヒト)、植物、バクテリア、または菌類などの、既知または未知のソースからのものであってよい。サンプルは、ソースから直接採取され得る。たとえば、血液または唾液が個体から直接採取されてよい。代替として、サンプルはソースから直接取得されなくてもよい。104において、1つまたは複数のプロセッサは、シーケンシングのためにサンプルを調製するようにシステムに指示する。調製104は、異物を除去すること、および/またはいくつかの材料(たとえば、DNA)を分離することを含んでよい。生体サンプルは、特定のアッセイ用の機能を含むように調製され得る。たとえば、生体サンプルは、シーケンシングバイシンセシス(SBS)用に調製されてよい。いくつかの実施形態では、調製することは、ゲノムのいくつかの領域の増幅を含んでよい。たとえば、104において調製することは、STRおよび/またはSNPを含むことが知られている所定の遺伝子座を増幅することを含んでよい。遺伝子座は、所定のプライマー配列を使用して増幅され得る。
106において、1つまたは複数のプロセッサは、サンプルをシーケンシングするようにシステムに指示する。シーケンシングは、様々な知られているシーケンシングプロトコルを通じて実行され得る。特定の実施形態では、シーケンシングはSBSを含む。SBSでは、光学基板の表面(たとえば、フローセルの中のチャネルを少なくとも部分的に画定する表面)の上に存在する、増幅されるDNAの複数のクラスタ(場合によっては、数百万個のクラスタ)をシーケンシングするために、蛍光標識された複数のヌクレオチドが使用される。フローセルはシーケンシング用の核酸サンプルを含み得、ここで、フローセルは適切なフローセルホルダー内に配置される。
核酸は、未知の標的配列に隣接する既知のプライマー配列を備えるように調製され得る。最初のSBSシーケンシングサイクルを開始するために、異なるように標識された1つまたは複数のヌクレオチド、およびDNAポリメラーゼなどが、流体フローサブシステム(図示せず)によってフローセルの中に/を通って流され得る。単一のタイプのヌクレオチドが一度に添加され得るか、またはシーケンシングプロシージャの中で使用されるヌクレオチドが可逆的な終端特性を有するように特別に設計され得るかのいずれかであり、したがって、シーケンシング反応の各サイクルが、いくつかのタイプの標識されたヌクレオチド(たとえば、A、C、T、G)の存在下で同時に行われることを可能にする。ヌクレオチドは、フルオロフォアなどの検出可能な標識部分を含むことができる。4個のヌクレオチドが一緒に混合される場合、ポリメラーゼは組み込むべき正しい塩基を選択することができ、各配列は単一の塩基によって拡張される。組み込まれないヌクレオチドは、フローセルを通して洗浄溶液を流すことによって洗い落とされ得る。1つまたは複数のレーザーが、核酸を刺激し得るとともに蛍光を誘導し得る。核酸から放出される蛍光は組み込まれた塩基のフルオロフォアに基づき、異なるフルオロフォアは異なる波長の放出光を放出し得る。拡張および検出されたDNA鎖から可逆的ターミネータ基を除去するために、デブロッキング試薬がフローセルに添加され得る。デブロッキング試薬は、次いで、フローセルを通して洗浄溶液を流すことによって洗い落とされ得る。フローセルは、その時、上記のような標識されたヌクレオチドの導入から始まる、シーケンシングのさらなるサイクルのための準備ができている。流体動作および検出動作は、シーケンシング実行を完了するために複数回反復され得る。例示的なシーケンシング方法は、たとえば、Bentleyら、Nature 456:53〜59(2008)、国際公開第04/018497号、米国特許第7,057,026号、国際公開第91/06678号、国際公開第07/123744号、米国特許第7,329,492号、米国特許第7,211,414号、米国特許第7,315,019号、米国特許第7,405,281号、および米国特許出願公開第2008/0108082号に記載されており、その各々は参照により本明細書に組み込まれる。
いくつかの実施形態では、核酸は表面に付着され得、シーケンシングの前またはシーケンシング中に増幅され得る。たとえば、増幅は、表面上に核酸クラスタを形成するためのブリッジ増幅を使用して実行され得る。有用なブリッジ増幅方法は、たとえば、米国特許第5,641,658号、米国特許出願公開第2002/0055100号、米国特許第7,115,400号、米国特許出願公開第2004/0096853号、米国特許出願公開第2004/0002090号、米国特許出願公開第2007/0128624号、および米国特許出願公開第2008/0009420号に記載されており、その各々は参照によりその全体が本明細書に組み込まれる。表面上で核酸を増幅するための別の有用な方法は、たとえば、その各々が参照により本明細書に組み込まれる、Lizardiら、Nat.Genet.19:225〜232(1998)、および米国特許出願公開第2007/0099208A1号に記載されるような、ローリングサイクル増幅(RCA:rolling circle amplification)である。
1つの例示的なSBSプロトコルは、たとえば、その各々が参照により本明細書に組み込まれる、国際公開第04/018497号、米国特許出願公開第2007/0166705A1号、および米国特許第7,057,026号に記載されるような、除去可能な3'ブロックを有する修飾ヌクレオチドを活用する。たとえば、SBS試薬の反復サイクルは、たとえば、ブリッジ増幅プロトコルの結果として、標的核酸が付着したフローセルに送達され得る。核酸クラスタは、直鎖化溶液を使用して一本鎖形態に変換され得る。直鎖化溶液は、たとえば、各クラスタの一本鎖を切断することが可能な制限エンドヌクレアーゼを含むことができる。とりわけ、化学的切断(たとえば、過ヨウ素酸塩を用いたジオール結合の切断)、熱もしくはアルカリへの曝露による、エンドヌクレアーゼを用いた切断による非塩基部位の切断(たとえば、NEB、Ipswich、マサチューセッツ州、米国、部品番号M5505Sによって供給されるような「USER」)、場合によってはデオキシリボヌクレオチドからなる増幅産物の中に組み込まれたリボヌクレオチドの切断、光化学的切断、またはペプチドリンカの切断を含む、切断の他の方法が、制限酵素または切断酵素の代替として使用され得る。直鎖化動作の後、シーケンシングされるべき標的核酸へのシーケンシングプライマーのハイブリダイゼーションのための条件下で、シーケンシングプライマーがフローセルに送達され得る。
フローセルは、次いで、単一ヌクレオチド添加によって各標的核酸に混成させられるプライマーを拡張させるための条件下で、除去可能な3'ブロックおよび蛍光標識を有する修飾ヌクレオチドを有するSBS拡張試薬と接触され得る。シーケンシングされているテンプレートの領域とは相補的な成長しつつあるポリヌクレオチ鎖の中に修飾ヌクレオチドが組み込まれていると、さらなる配列拡張を指示するのに利用可能な自由な3'-OH基がなく、したがって、ポリメラーゼがさらなるヌクレオチドを添加できないので、単一のヌクレオチドのみが各プライマーに添加される。SBS拡張試薬は、放射を用いた刺激の下でサンプルを保護する成分を含むスキャン試薬を用いて除去および置換され得る。スキャン試薬用の例示的な成分は、米国特許出願公開第2008/0280773A1号および米国特許出願第13/018,255号に記載されており、その各々は参照により本明細書に組み込まれる。拡張された核酸は、次いで、スキャン試薬の存在下で蛍光的に検出され得る。蛍光が検出されると、3'ブロックは、使用されるブロッキング基に適切なデブロック試薬を使用して除去され得る。それぞれのブロッキング基にとって有用である例示的なデブロック試薬は、国際公開第04/018497号、米国特許出願公開第2007/0166705A1号、および米国特許第7,057,026号に記載されており、その各々は参照により本明細書に組み込まれる。デブロック試薬は、今やさらなるヌクレオチドの添加のための能力がある3'OH基を有する拡張されたプライマーに混成させられた標的核酸を残して、洗い落とされ得る。したがって、動作のうちの1つまたは複数の間で随意の洗浄を伴う、拡張試薬、スキャン試薬、およびデブロック試薬を添加するサイクルが、所望の配列が取得されるまで反復され得る。修飾ヌクレオチドの各々が、特定の塩基に対応することが知られている異なる標識に付着しているとき、上記のサイクルは、サイクルごとに単一の拡張試薬送達動作を使用して実行され得る。異なる標識は、各組み込み動作中に添加されたヌクレオチドの間の識別を容易にする。代替として、各サイクルは、拡張試薬送達の別個の動作と、それに続くスキャン試薬送達および検出の別個の動作とを含むことができ、その場合、ヌクレオチドうちの2つ以上は、同じ標識を有すること
ができ、送達の既知の順序に基づいて区別され得る。
106におけるシーケンシング動作は、特定のSBSプロトコルに関して上記で例示されているが、様々な他の分子解析のいずれかをシーケンシングするための他のプロトコルが、必要に応じて実行され得ることが理解されよう。
108において、システムの1つまたは複数のプロセッサは、110における後続の解析用のシーケンシングデータを受信する。シーケンシングデータは、.BAMSファイルなどの様々な方式でフォーマットされてよい。シーケンシングデータは、たとえば、いくつかのサンプルリードを含んでよい。シーケンシングデータは、ヌクレオチドの対応するサンプル配列を有する複数のサンプルリードを含んでよい。1つのサンプルリードしか説明しないが、シーケンシングデータが、たとえば、数百個、数千個、数十万個、または数百万個のサンプルリードを含んでよいことを理解されたい。異なるサンプルリードは、異なる個数のヌクレオチドを有してよい。たとえば、サンプルリードは、10個のヌクレオチドから約500個以上のヌクレオチドまでの間にわたり得る。サンプルリードは、ソースのゲノム全体にわたり得る。一例として、サンプルリードは、疑わしいSTRまたは疑わしいSNPを有するそれらの遺伝子座などの、所定の遺伝子座に向かって導かれる。
各サンプルリードは、サンプル配列、サンプル断片、または標的配列と呼ばれることがある、ヌクレオチドの配列を含み得る。サンプル配列は、たとえば、プライマー配列、フランキング配列、および標的配列を含み得る。サンプル配列内のヌクレオチドの個数は、30個、40個、50個、60個、70個、80個、90個、100個、またはもっと多くを含み得る。いくつかの実施形態では、1つまたは複数のサンプルリード(または、サンプル配列)は、少なくとも150個のヌクレオチド、200個のヌクレオチド、300個のヌクレオチド、400個のヌクレオチド、500個のヌクレオチド、またはもっと多くを含む。いくつかの実施形態では、サンプルリードは、1000個よりも多くのヌクレオチド、2000個のヌクレオチド、またはもっと多くを含み得る。サンプルリード(または、サンプル配列)は、一端または両端においてプライマー配列を含み得る。
110において、1つまたは複数のプロセッサは、シーケンシングデータを解析して、可能なバリアントコール、およびサンプルバリアントコールのサンプルバリアント頻度を取得する。110における動作は、バリアントコールアプリケーションまたはバリアントコーラーと呼ばれることもある。本明細書における実施形態に従って代替のバリアントコーラーが利用されてよく、異なるバリアントコーラーは、対象であるサンプルの特徴などに基づく、実行されているシーケンシング動作のタイプに基づいて使用され得る。バリアントコールアプリケーションの非限定的な一例は、Illumina Inc.(サンディエゴ、カリフォルニア州)によるPisces(商標)アプリケーションである。追加または代替として、110における動作は、その完全な主題が参照によりその全体が本明細書に明確に組み込まれる、Sandersらによる記事「Strelka: accurate somatic small-variant calling from sequenced tumor-normal sample pairs」、Bioformatics、2012年7月15日、第28巻、第14号、1811〜1817頁に記載されているバリアントコールアプリケーションを利用し得る。
少なくともいくつかの実施形態によれば、110におけるバリアントコールアプリケーションは、低頻度バリアントに対するコール、生殖系列コーリングなどを提供する。非限定的な例として、110におけるバリアントコールアプリケーションは、腫瘍のみのサンプル、ならびに/または腫瘍および正常が対になったサンプルに対して実行し得る。110におけるバリアントコールアプリケーションは、単一ヌクレオチド変形(SNV)、複数ヌクレオチド変形(MNV)、インデルなどを求めて探索し得る。バリアントコールアプリケーションは、シーケンシングエラーまたはサンプル調製エラーに起因する不整合に対してフィルタ処理しながらバリアントを同定する。バリアントごとに、バリアントコーラーは、参照配列、バリアントの位置、および可能なバリアント配列(たとえば、AからCへのSNV、またはAGからAへの欠失)を同定する。バリアントコールアプリケーションは、サンプル配列(または、サンプル断片)、参照配列/断片、およびバリアントが存在するという表示としてのバリアントコールを同定する。図1Bに関して以下で説明するように、110におけるバリアントコールアプリケーションは、未加工断片を同定し得、未加工断片の名称、可能なバリアントコールを検証(verify)する未加工断片の数のカウント、サポートバリアントがそこにおいて発生した未加工断片内の位置、および他の関連する情報を出力し得る。未加工断片の非限定的な例は、二重スティッチ型断片、一重スティッチ型断片、二重非スティッチ型断片、および一重非スティッチ型断片を含む。
バリアントコールアプリケーションは、.VCFまたは.GVCFファイルなどの様々なフォーマットでコールを出力し得る。単に例として、バリアントコールアプリケーションは、(たとえば、MiSeq(登録商標)シーケンサ機器上に実装されたとき)MiSeqReporterパイプラインの中に含まれ得る。随意に、アプリケーションは、様々なワークフローとともに実施され得る。110における解析は、指定された方式でサンプルリードを解析して所望の情報を取得する、単一のプロトコルまたはプロトコルの組合せを含み得る。
111において、1つまたは複数のプロセッサは、可能なバリアントコールに関して有効化動作を実行する。有効化動作は、図1C〜図5Bに関して以下でより詳細に説明される。有効化動作は、以下で説明するように、品質スコア、および/または段階的検定の階層に基づいてよい。有効化動作がその可能なバリアントコールを認証(authenticate)または検証(verify)すると、有効化動作は、(110におけるバリアントコールアプリケーションからの)バリアントコール情報を112におけるサンプル報告生成器に渡す。代替として、有効化動作が、可能なバリアントコールを無効化(invalidate)するかまたは不適格(disqualify)とすると、有効化動作は、対応する表示(たとえば、否定的なインジケータ、コール無しインジケータ、無効コールインジケータ)を112におけるサンプル報告生成器に渡す。111における有効化動作はまた、バリアントコールが正しいかまたは無効コール名称が正しいという信頼性の程度に関係する信頼性スコアを渡してもよい。
112において、1つまたは複数のプロセッサは、サンプル報告を生成および記憶する。サンプル報告は、たとえば、サンプルに対する複数の遺伝子座に関する情報を含み得る。たとえば、遺伝子座の所定のセットの遺伝子座ごとに、サンプル報告は、遺伝子型コールを提供すること、遺伝子型コールが行われ得ないことを示すこと、遺伝子型コールの確実性における信頼性スコアを提供すること、または1つもしくは複数の遺伝子座に関するアッセイを伴う潜在的な問題を示すことのうちの、少なくとも1つを行ってよい。サンプル報告はまた、サンプルを提供した個体の性別を示してよく、かつ/またはサンプルが複数のソースを含むことを示してよい。本明細書で使用する「サンプル報告」は、遺伝子座もしくは遺伝子座の所定のセットのデジタルデータ(たとえば、データファイル)、および/または遺伝子座もしくは遺伝子座のセットの印刷された報告を含んでよい。したがって、112において生成または提供することは、データファイルを作成することおよび/もしくはサンプル報告を印刷すること、またはサンプル報告を表示することを含んでよい。
サンプル報告は、バリアントコールが決定されたが有効化されなかったことを示してよい。バリアントコールが無効と決定されるとき、サンプル報告は、バリアントコールを有効化しないための決定にとっての基準に関する追加情報を示してよい。たとえば、報告における追加情報は、未加工断片、および未加工断片がバリアントコールをサポートするかまたは否定した先の範囲(たとえば、カウント)の記述を含んでよい。追加または代替として、報告における追加情報は、本明細書で説明する実施形態に従って取得された品質スコアを含んでよい。
バリアントコールアプリケーション
図1Bは、本明細書における一実施形態による、シーケンシングデータを解析して可能なバリアントコールを同定するための方法114のためのフローチャートを示す。例として、図1Bの動作は、図1Aにおける110の間に実行され得る。図1Bの動作が、以前に実行されたシーケンシング動作に対する記憶されたデータにおいて動作してよいことが理解される。追加または代替として、図1Bの動作は、シーケンシング動作が実行されている間にリアルタイムで実行されてもよい。118において、サンプルリードの各々が、対応する遺伝子座に割り当てられる。サンプルリードは、サンプルリードのヌクレオチドの配列、すなわち、言い換えれば、サンプルリード内でのヌクレオチドの順序(たとえば、A、C、G、T)に基づいて、対応する遺伝子座に割り当てられ得る。この解析に基づいて、サンプルリードは、特定の遺伝子座の可能なバリアント/対立遺伝子を含むものとして指定され得る。サンプルリードは、遺伝子座の可能なバリアント/対立遺伝子を含むものとして指定されている他のサンプルリードとともに収集され得る(または、集約されてよく、もしくはある区間に入れられてよい)。118における割当て動作は、サンプルリードが特定の遺伝子の位置/座に関連付けられている可能性があるものとして同定される、コーリング動作と呼ばれることもある。サンプルリードは、他のサンプルリードからサンプルリードを区別するヌクレオチドの1つまたは複数の同定配列(たとえば、プライマー配列)の位置を特定するために解析され得る。より詳細には、同定配列は、特定の遺伝子座に関連付けられているものとして他のサンプルリードからサンプルリードを同定し得る。
118における割当て動作は、同定配列の一連のn個のヌクレオチドを解析して、同定配列の一連のn個のヌクレオチドが選択配列のうちの1つまたは複数と事実上整合するかどうかを決定することを含んでよい。特定の実施形態では、118における割当て動作は、サンプル配列の最初のn個のヌクレオチドを解析して、サンプル配列の最初のn個のヌクレオチドが選択配列のうちの1つまたは複数と事実上整合するかどうかを決定することを含んでよい。数値nは、プロトコルの中にプログラムされてよくまたはユーザによって入力されてもよい、様々な値を有してよい。たとえば、数値nは、データベース内の最も短い選択配列のヌクレオチドの個数として定義されてよい。数値nは、あらかじめ決定された数値であってよい。あらかじめ決定された数値とは、たとえば、10個、11個、12個、13個、14個、15個、16個、17個、18個、19個、20個、21個、22個、23個、24個、25個、26個、27個、28個、29個、または30個のヌクレオチドであってよい。しかしながら、他の実施形態では、もっと少数またはもっと多数のヌクレオチドが使用されてよい。数値nはまた、システムのユーザなどの個人によって選択されてもよい。数値nは、1つまたは複数の条件に基づいてよい。たとえば、数値nは、データベース内の最も短いプライマー配列のヌクレオチドの個数、または指定された数値のうちの、いずれか小さいほうの数値として定義されてよい。いくつかの実施形態では、15などの、nに対する最小値が使用されてよく、その結果、15個のヌクレオチドよりも小さいいかなるプライマー配列も除外として指定され得る。
場合によっては、同定配列の一連のn個のヌクレオチドは、選択配列のヌクレオチドに精密には整合しないことがある。とはいえ、同定配列が選択配列とほぼ同一である場合、同定配列は選択配列に事実上整合し得る。たとえば、同定配列の一連のn個のヌクレオチド(たとえば、最初のn個のヌクレオチド)が、せいぜい指定された数の不整合(たとえば、3)および/または指定された数のシフト(たとえば、2)を伴って選択配列に整合する場合、サンプルリードが遺伝子座に対してコールされてよい。各不整合または各シフトがサンプルリードとプライマー配列との間の差分としてカウントし得るような規則が確立されてよい。差分の数が指定された数よりも少ない場合、サンプルリードは、対応する遺伝子座に対してコールされてよい(すなわち、対応する遺伝子座に割り当てられてよい)。いくつかの実施形態では、サンプルリードの同定配列と遺伝子座に関連付けられた選択配列との間の差分の数に基づく整合スコアが決定され得る。整合スコアが、指定された整合しきい値をパスする場合、選択配列に対応する遺伝子座が、サンプルリードにとっての可能な座として指定され得る。いくつかの実施形態では、サンプルリードが遺伝子座に対してコールされるかどうかを決定するために、後続の解析が実行されてよい。
サンプルリードがデータベースの中の選択配列のうちの1つに事実上整合する(すなわち、厳密に整合するか、または上記で説明したようにほぼ整合する)場合、サンプルリードは、選択配列に相関する遺伝子座に割り当てられるかまたは指定される。このことは、座コーリングまたは暫定的座コーリングと呼ばれることがあり、サンプルリードが、選択配列に相関する遺伝子座に対してコールされる。しかしながら、上記で説明したように、サンプルリードは2つ以上の遺伝子座に対してコールされてよい。そのような実施形態では、可能な遺伝子座のうちの1つのみに対してサンプルリードをコールするかまたは割り当てるために、さらなる解析が実行されてよい。いくつかの実施形態では、参照配列のデータベースと比較されるサンプルリードは、ペアードエンドシーケンシングからの第1のリードである。ペアードエンドシーケンシングを実行するとき、サンプルリードに相関する第2のリード(未加工断片を表す)が取得される。118において割り当てた後、割り当てられたリードを用いて実行される後続の解析は、割り当てられたリードに対してコールされている遺伝子座のタイプに基づいてよい。
120において、サンプルリードは、可能なバリアントコールを同定するために解析される。とりわけ、解析の結果は、可能なバリアントコール、サンプルバリアント頻度、参照配列、およびバリアントがそこにおいて発生した対象のゲノム配列内での位置を同定する。たとえば、遺伝子座がSNPを含むことで知られている場合、遺伝子座に対してコールされている割り当てられたリードは、割り当てられたリードのSNPを同定するために、120において解析を受けてよい。遺伝子座が多形性反復DNA要素を含むことで知られている場合、割り当てられたリードは、サンプルリード内の多形性反復DNA要素を同定または特徴づけるために、120において解析されてよい。いくつかの実施形態では、割り当てられたリードがSTR座およびSNP座と事実上整合する場合、警告またはフラグがサンプルリードに割り当てられてよい。サンプルリードは、STR座とSNP座の両方として指定され得る。120において解析することは、割り当てられたリードの配列および/または長さを決定するために、割り当てられたリードをアライメントプロトコルに従ってアライメントすることを含んでよい。アライメントプロトコルは、参照によりその全体が本明細書に組み込まれる、2013年3月15日に出願された国際出願第PCT/US2013/030867号(国際公開第2014/142831号)に記載されている方法を含み得る。
122において、1つまたは複数のプロセッサは、未加工断片を解析して、未加工断片内の対応する位置においてサポートバリアントが存在するかどうかを決定する。様々なタイプの未加工断片が同定され得る。たとえば、バリアントコーラーは、元のバリアントコールを有効化するバリアントを呈示する未加工断片のタイプを同定し得る。たとえば、未加工断片のタイプは、二重スティッチ型断片、一重スティッチ型断片、二重非スティッチ型断片、または一重非スティッチ型断片を表し得る。随意に、上記の例の代わりに、または上記の例に加えて、他の未加工断片が同定され得る。各タイプの未加工断片を同定するとともに、バリアントコーラーはまた、サポートバリアントがそこにおいて発生した未加工断片内の位置、ならびにサポートバリアントを呈示した未加工断片の数のカウントを同定する。たとえば、バリアントコーラーは、未加工断片の10個のリードが、特定の位置Xにおいてサポートバリアントを有する二重スティッチ型断片を表すものと同定されたという表示を出力し得る。バリアントコーラーはまた、未加工断片の5個のリードが、特定の位置Yにおいてサポートバリアントを有する一重非スティッチ型断片を表すものと同定されたという表示を出力し得る。バリアントコーラーはまた、参照配列に対応しており、したがって、対象のゲノム配列における可能なバリアントコールを有効化する根拠を本来なら提供することになるサポートバリアントを含まなかった、いくつかの未加工断片を出力し得る。
122において、サポートバリアントを含む未加工断片ならびにサポートバリアントがそこにおいて発生した位置のカウントが保持される。追加または代替として、(サンプルリードまたはサンプル断片の中の可能なバリアントコールの位置に対する)対象の位置においてサポートバリアントを含まなかった未加工断片のカウントが保持されてもよい。追加または代替として、参照配列に対応し可能なバリアントコールを認証または確証しない未加工断片のカウントが保持されてもよい。可能なバリアントコールをサポートする未加工断片のカウントおよびタイプ、未加工断片の中でのサポート変異の位置、可能なバリアントコールをサポートしない未加工断片のカウントなどを含む、122において決定された情報が、バリアントコール有効化アプリケーションに出力される。
可能なバリアントコールが同定されると、図1Bのプロセスは、可能なバリアントコール、バリアント配列、バリアント位置、およびそれらに関連付けられた参照配列の表示を出力する。エラーがコールプロセスに誤ったバリアントを同定させることがあるので、バリアントコールは「可能な」バリアントを表すものと指定される。本明細書における実施形態によれば、可能なバリアントコールは、誤ったバリアントすなわち偽陽性を低減および排除するために解析される。追加または代替として、図1Bのプロセスは、サンプルリードに関連付けられた1つまたは複数の未加工断片を解析し、未加工断片に関連付けられた対応するバリアントコールを出力する。
バリアントコール有効化アプリケーション
図1Cは、本明細書における実施形態による、バリアントコールを有効化するためのコンピュータ実装方法を示す。130において、1つまたは複数のプロセッサは、指定位置、すなわち、対象のゲノム配列内での可能なバリアントコールの位置における、可能なバリアントコールの表示を含むデータを、バリアントコールアプリケーション(図1B)から受信する。130において、1つまたは複数のプロセッサはまた、可能なバリアントコールをサポートする未加工断片のカウントおよびタイプ、未加工断片の中でのサポートバリアントの位置、可能なバリアントコールをサポートしない未加工断片のカウント、ならびに他の関連する情報を受信する。130における動作が、以前に実行された配列用の記憶されたデータにアクセスするための1つまたは複数の動作に対応し得ることが理解される。追加または代替として、130における動作は、シーケンシング動作が実行されている間にリアルタイムで実行されてもよい。
随意に、130において、1つまたは複数のプロセッサは、どの可能なバリアントコールが行われたのかに関して、参照配列の表示を受信し得る。参照配列は、1つまたは複数のベースラインゲノム配列内のヌクレオチドの配列に対応する。
132において、1つまたは複数のプロセッサは、1つまたは複数のベースラインゲノム配列内の指定位置における1つまたは複数のベースラインバリアント頻度を(たとえば、図1Dのプロセスに従って)取得する。一例として、ベースラインバリアント頻度は、2つ以上のタイプの対立遺伝子に関連付けられた複数のベースラインゲノム配列から導出される。随意に、ベースラインバリアント頻度は、1つのタイプの対立遺伝子に関連し得るが、複数の個体からのサンプルから導出されてよい。ベースラインバリアント頻度は、図1Cの他の動作と同時に決定され得る。代替として、ベースラインバリアント頻度は、対象のサンプルに対するシーケンシング動作の実施、または図1Cの有効化プロセスの前に、あらかじめ決定されてよい。ベースラインバリアント頻度は、様々な参照ベースラインゲノム配列に沿った様々な位置に関して(たとえば、ライブラリまたはデータベースの中に)記憶され得る。たとえば、ライブラリまたはデータベースは、複数のベースラインゲノム配列に対して保持され得る。ライブラリまたはデータベース(たとえば、図7における784)はまた、ベースラインゲノム配列に沿った各位置に関連付けられたベースラインバリアント頻度を保持し得る。ベースラインゲノム配列が、異なるタイプのシーケンシング方法、調製方法、シーケンシング機器などに関して、異なるタイプのベースラインバリアント頻度を呈示し得ることを認識されたい。したがって、ライブラリまたはデータベースは、ベースラインゲノム配列に沿った任意の所与の位置に対してベースラインバリアント頻度のセットを保持してよい。132における動作は、ライブラリまたはデータベースを管理するネットワークサーバまたはリモートコンピュータ(たとえば、780)へ要求を送ることを含んでよい。要求は、対象のベースラインゲノム配列、それに沿った指定位置、ならびに追加情報(たとえば、シーケンシング動作のタイプ、使用されている機器のタイプ、またはライブラリ調製プロトコル)を指定し得る。
ベースラインバリアント頻度は、ベースラインゲノム配列に沿った1つまたは複数の位置における変形を記述する、対象の様々な特性を同定するための様々な方式で決定され得る。例として、ベースラインバリアント頻度は、ベースラインゲノム配列に沿った対応する位置における背景雑音の程度(または、範囲)を示す。背景雑音の程度/範囲は、たとえば、シーケンシング動作のタイプ、機器のタイプ、ライブラリ調製プロセスなどに応じて、変わることがある。
134において、1つまたは複数のプロセッサは、対象のゲノム配列に対する指定位置におけるサンプルバリアント頻度を取得する。たとえば、プロセッサは、バリアントコールアプリケーションからサンプルバリアント頻度を取得し、ここで、サンプルバリアント頻度は、サンプルの集団にわたる対象のゲノム配列の中の特定の位置/座における対立遺伝子(遺伝子のバリアント)の相対頻度を表す。たとえば、サンプルバリアント頻度は、解析された個体の中からの、対象のすべてのサンプル(たとえば、染色体)の分数またはパーセンテージとして表現され得る。
136において、1つまたは複数のプロセッサは、品質スコアを取得するために指定位置におけるベースラインバリアント頻度およびサンプルバリアント頻度を解析する。例として、解析は、サンプルバリアント頻度とベースラインバリアント頻度の分布との間の関係を取得することを含んでよく、品質スコアはその関係に基づいて決定される。たとえば、複数のベースラインバリアント頻度が、ベースラインゲノム配列の集団に対して記憶され得る。複数のベースラインバリアント頻度は、分布に編成される。プロセッサは、ベースラインバリアント頻度の分布に対して、サンプルバリアント頻度にインデックスを付けてよい。一例として、関係は、ウィルコクソン順位和検定などのノンパラメトリック検定に基づいてよい。ウィルコクソン順位和検定は、サンプルバリアント頻度とベースラインバリアント頻度の分布との間の関係を表すp値を生み出す。p値は、サンプルバリアントコールが雑音に起因するのか、または背景雑音に起因しないのかという、信頼性の程度の数値表示を表す。
プロセッサは、数値p値を(たとえば、Qスコアと呼ばれる)品質スコアに変換する。たとえば、品質スコアは単にp値に等しくてよい。代替として、品質スコアは、所定の数理的演算子をp値に適用(たとえば、p値を正規化、p値を整数に変換)することによって形成されてもよい。随意に、p値は、品質スコアを形成するために他の情報/ファクタと組み合わせられてよい。たとえば、p値は、取得されたサンプルおよび/またはサンプルリードの個数に基づいて修正されてよい。随意に、ベースラインバリアント頻度とサンプルバリアント頻度との間の関係を決定するために代替検定が適用されてよく、ここで、そのような代替検定は、サンプルバリアントコールの信頼性の程度の表示を与える。たとえば、信頼性の程度は、サンプルバリアントコールが背景雑音に起因するのか、または背景雑音に起因しないのかを示し得る。代替として、信頼性の程度は、サンプルバリアントコールが、FFPEアーティファクト、シーケンシングエラー、またはPCRエラーなどに起因する、誤ったバリアントを引き起こす様々なタイプのシステム的エラーを含むことを示してもよい。
138において、1つまたは複数のプロセッサは、品質スコアに基づいて対象のゲノム配列に対して可能なバリアントコールを有効化する。例として、有効化動作は、品質スコアをしきい値と比較することと、品質スコアがしきい値を超えるとき、可能なバリアントコールが有効なバリアントコールであると宣言することとをさらに備えてよい。しきい値は、可能な誤ったバリアントをフィルタで除去するためのQスコアカットオフを表す。有効なバリアントコールは、コールが正確であるという「高い」信頼性がそれに対して存在するバリアントコールを表し得る。低い信頼性に対して、高い信頼性を何が表すのかという尺度は、実装形態の特定の現実および状況に基づいて変わることがある相対的な条件を表すことと認識される。一例として、しきい値は経験的解析に基づいて変わることがある。
図1Dは、本明細書における実施形態による、ベースラインバリアント頻度を取得するためのプロセスを示す。図1Dのプロセスは、様々なシステムおよびデバイスの1つまたは複数のプロセッサによって実行され得る。図1Dの動作の順序が一例を表しており、動作が代替の順序で実行されてもよいことが理解される。さらに、図1Dの動作のうちの1つまたは複数は完全に削除されてよい。図1Dの動作は、図2に関して説明される。
図1Dの方法は、NGSベースのアッセイによってシーケンシングされる様々な組織からの多様なDNA品質を有するFFPE正常サンプルに対して、複数のパネルから座固有の背景エラー分布をコンパイルするために周期的に反復され得る。図1Dの方法は、PCR、DNA品質、プローブプルダウン効率、または配列GCコンテンツによって引き起こされるリードカバレッジにおけるシステム的バイアスを正規化して、検定サンプルの中のバリアントの正確な数を明らかにするために、FFPE正常サンプルの複数のパネルからの同じシーケンシングデータを利用し得る。
図2Aは、ベースライン集団内の異なる個体に対する例示的なパネル202〜206を示す。本例では、ベースライン集団は正常/健全な個体を表すが、ベースライン集団が、特定のタイプの癌などの、対象の特定の突然変異を呈示する個体を表し得ることを認識されたい。パネル202〜206の垂直軸は、解析された1000個の塩基ごとに見つかった偽陽性すなわち誤ったバリアントコールの数を表す。各パネル202〜206が、多数の参照リード、たとえば、1000個、5000個、10,000個などの累積に対応することが理解される。水平軸は、ベースラインゲノム配列内の染色体の全部または一部分を示す。図2の例では、ベースラインゲノム配列に沿って19個の染色体が図示されるが、ベースラインゲノム配列がもっと多数またはもっと少数の染色体に対して保持され得ることが理解される。一連の縦棒が水平軸に沿って指定され、各棒は、対応する染色体に沿った対応する位置または部位における誤ったバリアントの数に対応する量だけ上の方へ延びる。縦棒は、関連する染色体内の対応する位置または座標の近似的なロケーションにおいて水平軸に沿って配置される。たとえば、第10の染色体が1000個の塩基ごとにほぼ25個の誤ったバリアントに遭遇したことを示すように、縦棒221が第10の染色体に関して提示され、ここで、染色体内の位置または座標は、染色体の中心のわずかに下の方にある。別の例として、第1の染色体が第1の染色体の中心のわずかに上の方の位置または座標において、1000個の塩基ごとにほぼ7個の誤ったバリアントに遭遇したことを示すように、縦棒223が第1の染色体に関して提示される。
図2Bは、図2Aのパネル202〜206のうちの1つの小部分に対する拡大を表す塩基対パネルを示す。例として、図2Bは、パネル202(図2A)の染色体16の中の塩基対1〜9に対する参照リードに対応し得る。塩基対パネル208は、解析された1000個の塩基ごとに見つかった誤ったバリアントコールの数を表す垂直軸を含む。図2Aに関して上記で説明したように、塩基対パネル208は、多数の参照リード、たとえば、1000個、5000個、10,000個などの累積に対応する。水平軸は、ベースラインゲノム配列内の単一の染色体に関連付けられた塩基対の短い配列を示す。図2Bの例では、ベースラインゲノム配列に沿って9個の塩基対が図示されるが、ベースラインゲノム配列が、現在および他の染色体に対するもっと多くの塩基対に対して保持されることが理解される。一連の縦棒が水平軸に沿って指定され、各棒は、対応する染色体に沿った対応する塩基対位置または部位における誤ったバリアントの数に対応する量だけ上の方へ延びる。縦棒は、関連する染色体内の対応する塩基対のロケーションにおいて水平軸に沿って配置される。たとえば、塩基対#2が1000個の塩基ごとにほぼ10個の誤ったバリアントに遭遇したことを示すように、縦棒が塩基対#2において提示される。別の例として、塩基対#5が1000個の塩基ごとにほぼ25個の誤ったバリアントに遭遇したことを示すように、縦棒が塩基対#5に関して提示される。
図1Dに戻ると、150において、1つまたは複数のプロセッサは、1つまたは複数のベースラインゲノム配列に対する複数の参照リードに対する配列データを受信する。図2Aに関して、パネル202〜206の各々が1000個の参照リードの累積を表すことが想定される場合、システムは約3000個の参照リードを取得することになる。151において、1つまたは複数のプロセッサは、複数の参照リードの中から参照リードのセットを選択する。図2Aに関して、WGDNA04(パネル202)として指定された個体に対する染色体16の中の塩基対1〜9に対応する参照リードのセットが選択され得る。図2Bは、染色体16の中の塩基対1〜9に対する一例を示す。152において、システムの1つまたは複数のプロセッサは、参照リードの現在のセットの中の現在位置を選択する。たとえば、現在位置は、パネル208に沿った位置#2を中心としてよい。154において、システムの1つまたは複数のプロセッサは、参照リードのセットの中の現在位置を塩基対ウィンドウの上に重ねる。
図2Bでは、塩基対ウィンドウの一例を示すように括弧210が提示される。塩基対ウィンドウの長さは、たとえば、1つの塩基対から任意の所望の個数の複数の塩基対にわたって変わってよい。図2Bの例では、塩基対ウィンドウは3つの塩基対に対応するように指定されているが、他の長さが利用されてもよい。したがって、図1Dの動作を通じた現在の反復において、塩基対ウィンドウ210は位置#1〜#3を包含する。2つ以上の塩基対をカバーする塩基対ウィンドウを利用することは、ノイズのある位置が互いに発生し得る状況を考慮に入れる。たとえば、ライブラリ調製または他の要因が、ヌクレオチド配列の中の1つの位置において雑音を発生させるとき、同じ要因が、その1つの位置に隣接する1つまたは複数の位置において雑音を発生させることがある。塩基対ウィンドウの長さは、雑音が複数の塩基対位置にわたってそこまで広がると予想される範囲に、部分的に基づいて規定され得る。
156において、1つまたは複数のプロセッサは、塩基対ウィンドウ内での参照リードの位置ごとに候補バリアント頻度を同定する。上記の例を続けると、候補バリアント頻度は、塩基対ウィンドウ210内での位置#1〜#3の各々に対して同定されることになる(たとえば、#1において約2個の誤ったバリアント、位置#2において約10個の誤ったバリアント、および位置#3において約0個の誤ったバリアント)。
158において、1つまたは複数のプロセッサは、ベースラインゲノム配列内の現在位置に対するベースラインバリアント頻度(結果バリアント頻度とも呼ばれる)を表すように、候補バリアント頻度のうちの1つを選択する。たとえば、現在位置は、塩基対ウィンドウ210の中心に対応し得る。代替として、現在位置は、塩基対ウィンドウ210の前縁部または後縁部に対応してもよい。ベースライン/結果バリアント頻度に対する選択は、様々な基準に基づいてよい。たとえば、プロセッサは、塩基対ウィンドウ内の最も大きい候補バリアント頻度を選択し得る。代替として、プロセッサは、平均化、重み付き和などを通じるなど、候補バリアント頻度の数理的な組合せを形成して、ベースライン/結果バリアント頻度を形成してもよい。ベースライン/結果バリアント頻度は、現在の塩基対位置に関して記憶される。たとえば、ベースライン/結果バリアント頻度は、ベースラインゲノム配列データベース(図7における784)の中に記憶され得る。図2Bを参照すると、塩基対ウィンドウ210は、(ウィンドウ内の最も大きいバリアント頻度に対応する)10というベースラインバリアント頻度が割り当てられ得る。
162において、システムの1つまたは複数のプロセッサは、現在位置に関してベースラインバリアント頻度を記憶する。ベースラインバリアント頻度は、異なる方式で現在位置に対して記録され得る。塩基対#1および塩基対#3(両方ともウィンドウ210内)に対するバリアント頻度は、未変更のままにされてよい。図2Bに関して、10というベースラインバリアント頻度値が、#2に位置する塩基対に関して記録され得る。代替として、ベースラインバリアント頻度は、塩基対ウィンドウ内の先端の位置#1または後端の位置#3に割り当てられてもよく、隣接する位置はヌル値が割り当てられるか、または未変更のままにされる。随意に、ベースラインバリアント頻度は、塩基対ウィンドウ内の各位置に割り当てられてよい。
随意に、ベースラインバリアント頻度は、既定のレベルに設定されてよく、ここで、異なる既定のレベルは、異なる候補バリアント頻度に関して利用される。たとえば、候補バリアント頻度が比較的大きい(たとえば、約30%を超える)とき、ベースラインバリアント頻度は、0またはより低い別の既定のレベルに設定され得る。例として、候補バリアント頻度が、細菌のようなバリアントを背景雑音としてカウントすることを回避するためのしきい値を超えるとき、ベースラインバリアント頻度は0または既定のレベルに設定されてよい。
164において、1つまたは複数のプロセッサは、塩基対ウィンドウを参照リードの現在のセットに沿った別の位置にシフトさせるべきかどうかを決定する。塩基対ウィンドウをシフトさせる決定は、参照リードの追加部分が依然として解析されるべきであるかどうかに基づいてよい。164における決定が塩基対ウィンドウをシフトさせるべきであるとき、フローは166に移動する。そうでない場合、フローは168に続く。
166において、システムの1つまたは複数のプロセッサは、塩基対ウィンドウを参照リードのセットに沿った次の位置にシフトさせ、フローは154に戻る。その後、154および156における動作が反復される。例として、166におけるシフトは、単一の塩基対だけ、または複数の塩基対だけ、塩基対ウィンドウをシフトさせ得る。たとえば、図2Bを参照すると、シフトは単一の塩基対に対応し得る。したがって、塩基対ウィンドウは、括弧210において指定された位置から括弧212において指定された(塩基対位置#2〜#4をカバーする)位置にシフトされる。164〜166における動作を通じた後続の反復中、塩基対ウィンドウは、212において指定された位置から214において指定された(塩基対位置#3〜#5をカバーする)位置にシフトされ得る。
本例では、塩基対ウィンドウは、連続した重複する位置にシフトされる。塩基対ウィンドウが4つ以上の塩基対を含むとき、166におけるシフトは、同様に1塩基対よりも大きくてよい。たとえば、塩基対ウィンドウが5塩基対の長さであり、かつ現在位置がウィンドウ(位置#1〜#5)に対応する場合、166において、塩基対ウィンドウの連続する位置が重複しているが、連続する塩基対ウィンドウの間で複数の塩基対だけ前方に進むように、塩基対ウィンドウは、前方に2つの位置だけシフトされて位置#3〜#7に重複してよい。
代替として、塩基対ウィンドウは、参照リードに沿った連続する重複しない位置にシフトされてもよい。たとえば、塩基対ウィンドウが3塩基対の長さであり、かつ現在位置が参照リードのセットの中の位置#1、#2、および#3に対応する場合、166において、塩基対ウィンドウの連続する位置が重複していないように、塩基対ウィンドウは、前方に3つの位置だけシフトされて位置#4、#5、および#6に重複してよい。
次に、154〜162における動作が次の位置に対して反復される。フローが164から168に進むと、システムの1つまたは複数のプロセッサは、参照リードの追加のセットが複数の参照リードから解析されるべきであるかどうかを決定する。追加の参照リードが解析されるべきであるとき、フローは170に戻る。そうでない場合、図1Dのプロセスは終了し、フローは図1Cに戻る。170において、1つまたは複数のプロセッサは、解析されるべき参照リードの次のセットを選択する。その後、フローは152に戻り、152〜166における動作が、次いで、反復される。
図3は、正常ベースラインゲノム配列を利用する背景補正の原理に関するグラフ図を示す。水平軸は、ヌクレオチド配列に沿ったいくつかの指定位置におけるサンプルの中の変形の頻度に対応する、バリアント対立遺伝子頻度(VAF:variant allele frequency)を表す。各円302は、サンプルに関連付けられたバリアントを表し、バリアント302のクラスタ304は、サンプルのクラスタに対するゲノム配列に沿った位置に対応する。クラスタ306は、ベースライン集団にわたって比較的大量の雑音を呈示する(雑音の多い座とも呼ばれる)。円306はまた、異なるサンプルに関連付けられたバリアントを表し、クラスタ308は、サンプルのクラスタに対するゲノム配列に沿った位置に対応する。クラスタ308は、ベースライン集団にわたって比較的少量の雑音しか呈示しない(クリーンな座とも呼ばれる)。
図1Dの方法は、対象のゲノム配列に沿った対象の位置におけるバリアント頻度を収集することによって、正常サンプルの集団に対する背景雑音用のプロファイルを策定する。背景集団は、対立遺伝子頻度がクラスタ308の中などの0の近くのエリアの中で比較的緊密に/密接に分散される「クリーンな座」を呈示する。したがって、対象のサンプルゲノム配列に対する対立遺伝子頻度が(たとえば、腫瘍サンプル番号1において)小さいときでも、(個体が検定されて)腫瘍バリアントコールが雑音から容易に区別され得る。代替として、背景集団は、クラスタ304の中などの対象のゲノム配列に沿った対象の様々な点において対立遺伝子頻度がもっと広く分散される/広げられる「雑音の多い座」を呈示することがある。したがって、(たとえば、腫瘍サンプル1のような)小さいバリアント頻度を呈示する(対象のサンプルに対する)腫瘍バリアントコールを背景雑音から区別することは、もっと困難であり得る。とはいえ、対象の位置がクリーンな背景特性を呈示するのか、または雑音の多い背景特性を呈示するのかに関わらず、(たとえば、腫瘍サンプル2のような)頻度が大きいバリアントコールがやはり確信してコールされ得る。本明細書における実施形態は、正常サンプルの背景雑音レベルを利用して、腫瘍サンプルに関するコーリング厳密性を調整する。
次に、本明細書における実施形態の態様が、上記のプロセスからの情報および未加工断片からの情報を利用してバリアントコーリング感度および特異性を改善することに関して説明される。
図4は、バリアントコールをフィルタ処理するために本明細書における実施形態に従って実施される階層ベース決定ツリーを示す。402において、1つまたは複数のプロセッサは、到来コールが、観測されているバリアント(対立遺伝子)を示すかどうかを決定する。バリアントが観測されないとき、このことは、コールがいかなるバリアントも有しない参照配列に対応すると同定されたことを表し得る。到来コールが参照配列に対応すると示されるとき、フローは404に分岐する。そうではなく、到来コールがバリアント/対立遺伝子を含むと示されるとき、フローは406に分岐する。
404において、1つまたは複数のプロセッサは、現在のバリアント/対立遺伝子に対して所定の量のカバレッジが取得されているかどうかを決定する。カバレッジは、収集されているいくつかのリードが、現在の位置/座を含む対象のゲノム配列の断片をカバーするという表示に基づいて決定され得る。カバレッジは様々な方式で規定され得る。たとえば、カバレッジは、現在の位置/座に対するリードを取得するために解析された分子の数に基づいて規定されてよい。追加または代替として、カバレッジは、現在の位置/座に対してリードがそこから取得されているサンプルの数に基づいて規定されてもよい。404において、カバレッジしきい値が規定される(たとえば、10X、100Xなど)。現在の座を含むリードの数がカバレッジしきい値を超えるとき、フローは408に進み、ここで、「否定的パス」が宣言される。「否定的パス」とは、プロセスが元の形態で到来コールを有効化する(たとえば、否定的なコールを検証(verify)する)ことを示す。たとえば、到来コールが、特定の参照配列に対応するサンプル配列を同定すると、408において、プロセスは修正を伴わずにコールをパスする。
そうではなく、カバレッジがカバレッジしきい値に等しくなくまたはそれを超えないことをプロセッサが決定すると、フローは410に進み、ここで、「コールなし」条件が指定される。現在の座のカバレッジが、「バリアントコールなし」が正確であるという十分な信頼性を呈示するには小さすぎるとき、コールなし条件が指定される。したがって、到来コールは「コールなし」に変更されて、任意の参照配列へのサンプル配列のいかなる相関の表示も提供しないなどする。いくつかのカバレッジカットオフを下回る参照コールは、低深度においてバリアントを運ぶリードに起因してバリアントがないと宣言することを回避するように、フィルタ処理される。
406において、1つまたは複数のプロセッサは、現在のバリアントが以前のバリアントに対応するかどうかを決定する。たとえば、現在のバリアントは、集団にわたって呈示される共通のバリアントに関する情報を記憶する(図7における以前のデータベース782の中の)バリアントの集合と比較されてよい。たとえば、知られているデータベース(たとえば、1000Gフェーズ3およびCosmicデータベース)からの情報が、集団の中で発生することが知られているバリアントコールの信頼性を高めるために使用されてよい。現在のバリアントが以前のバリアントデータベースの中の以前のバリアントと類似であるとき、フローは分岐412に沿って移動し、ここで、一連の階層ベースの段階的検定が実行される。406において、以前のバリアントがデータベースから同定されないとき、フローは分岐414に沿って移動し、ここで、異なる一連の階層ベースの段階的検定が実行される。段階的検定のうちの1つまたは複数が、分岐412および414の各々に沿って実行され得る。さらに、図4に示す特定の構成以外の代替の順序および代替の組合せで様々な検定が実行されてよい。図4における検定の各々は、バリアントが発生しているのかまたは発生していないのかという、対応する程度/レベルの二次的サポート根拠を提供し、検定は、異なる程度の信頼性を二次的サポート根拠として呈示する。
分岐414に続いて、416において、1つまたは複数のプロセッサは、現在のバリアントに対するバリアント品質スコアが品質スコアしきい値を超えるかどうかを決定する。バリアント品質スコアは、図1Cおよび図1Dに関して説明したような本明細書における実施形態に従って決定される。本明細書で説明するように、バリアント品質スコアは、サンプルバリアント頻度と複数のベースラインバリアント頻度との間の関係を表す。バリアント品質スコアが品質スコアしきい値よりも小さいとき、フローは418に移動し、ここで、現在のバリアントは、誤ったバリアントとして指定されるなどの無効化される(たとえば、低い品質スコアに起因してコールが「否定的」を表すと宣言する)。バリアント品質スコアが品質スコアしきい値以上であるとき、フローは420に移動する。
420において、1つまたは複数のプロセッサは、バリアントコールをサポートする(たとえば、二重スティッチ型または非スティッチ型の)二重断片のカウントを取得および検討する。カウントは、サンプルリードの中の可能なバリアントに対応するサポートバリアントを取得するためにバリアントコールアプリケーションによって同定された、二重未加工断片の数を示す。シーケンシング中、DNAの両方のストランドが解析され、各ストランドからの断片に対してリードが取得される。例として、第1のストランドの重複している断片に対して少なくとも第1および第2のリードが取得されてよく、第2のストランドの断片に対して第3および第4のリードが取得される。リードのうちの何個が現在の位置/座におけるバリアントを示すのかを決定するために、1個〜4個のリードのセットが検討される。
サンプルリードの中にバリアントが存在するとき、第1および第2のストランドの各々の中の現在の座に対するリードのすべてが、関連する、すなわち「サポートしている」バリアントを呈示するはずであると予想されることになる。たとえば、サンプルリードが、第1のストランドに対応し、かつ可能なバリアントに対してコールされる(たとえば、座が「A」を呈示する)とき、(未加工断片に対応する)第2のストランドの中の対応する座は、「T」であると予想されることになる。第2のストランド(未加工断片)の中の対応する座が、「T」であるバリアントを含むとき、未加工断片の現在のリードは、サポートバリアントを有するとカウントされることになる。整合するサポートバリアントが二本鎖DNA内のストランドの各々(サンプル断片リードおよび未加工断片リード)の中に発生する場合、このことは、サンプルリードの中の指定位置においてバリアントが発生しているという良好なインジケータと見なされてよい。
(バリアントコールアプリケーションによる)シーケンシング解析が、サポートバリアントを呈示する未加工断片リードの大きいカウントを生み出すとき(ブロック420において「DS≧しきい値」によって示されるように)、フローは422に移動する。422において、到来コールは有効化されるか、すなわち、バリアントとしてパスされるか、または肯定的バリアントコールとして指定される。シーケンシング解析が、サポートバリアントを呈示する未加工断片リードの小さいカウントを生み出すとき、この状況は、可能なバリアントコールの中でエラーが発生したこと、およびバリアントコール有効化アプリケーションが、到来コールがバリアントコールを表すという低いレベルの信頼性を示すことの表示として解釈される。したがって、フローは424に移動し、ここで、到来バリアントコールが無効化され、すなわち、「否定的パス」として指定される。
416および420におけるバリアント検定は、そこからの結果において(他のタイプの検定における信頼性に対して)高レベルの信頼性を呈示する検定を表す。416および420における検定の順序を反転させることと同様に、追加または代替の検定が適用されてよいことを認識されたい。
406に戻ると、次の階層ベース決定ツリーが分岐412に関して説明される。フローが分岐412に沿って移動すると、426において、1つまたは複数のプロセッサは、到来バリアントコールに割り当てられたバリアント品質スコアを検討する。バリアント品質スコアが所定の品質スコアしきい値よりも低いとき、フローは428に移動し、ここで、到来バリアントコールは、誤ったバリアントと宣言される。たとえば、到来バリアントコールは、(低品質に起因して)拒否された継代であるか、または「否定的」として指定される。バリアント品質スコアが所定の品質スコアしきい値以上であるとき、フローは430に移動する。426において利用される品質スコアしきい値は、416において利用される品質スコアしきい値と同じであってよく、またはそれとは異なってもよい。
430において、1つまたは複数のプロセッサは、1つまたは複数のタイプの未加工断片に対するカウントに関連付けられた重み付きスコア(WS:weighted score)を決定する。たとえば、バリアントコールアプリケーションは、二重スティッチ型断片、一重スティッチ型断片、二重非スティッチ型断片、および一重非スティッチ型断片などの、複数の異なる未加工断片タイプに対するカウントを出力し得る。カウントは、サポートバリアントを含んでいた、対応するタイプからの未加工断片のリードの数を示す。430において、プロセッサは、カウントに重みを適用するとともに結果を合計して、異なるタイプの未加工断片を組み合わせる重み付きスコアを取得する。重み付き和は、重み付きスコア(WS)しきい値と比較される。重み付きスコアの合計がWSしきい値を超えるとき、フローは432に進む。そうでない場合、フローは434に移動し、ここで、到来バリアントコールは確証されず、無効と宣言され、「否定的パス」として示される。
432において、1つまたは複数のプロセッサは、到来バリアントコールを有効化した未加工断片の合計カウントを実行する。たとえば、プロセッサは、サポートバリアントを含んでいた、対応するタイプからの未加工断片のリードの数を示すカウントを合計してよい。合計カウントは、合計カウント(SC:sum count)しきい値と比較される。合計カウントがSCしきい値を下回るとき、フローは436に移動する。そうでない場合、フローは438に移動し、ここで、到来バリアントコールは有効化され、すなわち、「肯定的パス」と宣言される。
436において、1つまたは複数のプロセッサは、サポートバリアントを含む二重スティッチ型断片のカウントを検討して(420におけるプロセスと類似)、二重スティッチ型断片が到来バリアントコールを認証/確証するかどうかを決定する。二重スティッチ型断片に関連付けられたバリアント決定は、二重スティッチ型(DS:duplex stitched)しきい値と比較される。DSサポートバリアントのカウントがしきい値を下回るとき、フローは440に移動し、到来バリアントコールが無効化され、すなわち「否定的パス」と宣言される。二重スティッチ型未加工断片のカウントがDSしきい値に等しいかまたはそれを超えるとき、436において、フローは442に移動し、ここで、到来バリアントコールが有効化され、すなわち「肯定的パス」を表すと宣言される。
上記の階層ベース決定ツリーが、バリアント関連ファクタが解析され得る方式の一例を表すことを認識されたい。たとえば、いくつかの事例では、バリアント関連ファクタは、決定ツリー内の異なる順序で考察されるように再構成され得る。図4に関して、未加工断片に関する情報(たとえば、二重スティッチ型未加工断片、未加工断片に対する重み付きスコア、バリアント未加工断片カウントなど)に基づいて様々な決定が行われる。加えて、バリアント品質スコアは別のフィルタ基準として使用される。階層ベース決定ツリーは、ctDNAデータなどとともに、バリアントコーリング感度および特異性を改善するために上記の情報を使用する。階層ベース決定ツリーは、バリアントコーラーによって最初にコールされたバリアントをフィルタ処理するために使用される。図4の実施形態では、到来バリアントコールが以前のバリアントに整合するとともに品質スコアが品質スコアしきい値を超えるという条件で、重み付き断片サポートは、バリアントコールの信頼性を導出する助けとなるために使用される。スコアは、バリアントごとに、二重/一重およびスティッチ型/非スティッチ型の断片を含む異なる未加工断片タイプに、異なる重みを与える。重みは、既知の結果を伴うデータからトレーニングされ得る。バリアントコールをパスすることは、正常ベースラインとの比較から計算された十分に高いバリアントQスコア(前のセクションを参照)、ならびに十分な重み付きスコアを有しなければならない。しかしながら、重み付き断片サポートが、決定ツリーの中の異なる点において実行され得るか、または完全に削除され得ることを認識されたい。
図4の実施形態では、階層ベース決定ツリーは、到来バリアントコールを有効化する前に適用される、サポート断片検定の少なくとも3つの段階を含む。たとえば、422において到来バリアントコールを有効化する前に、3つの段階において、すなわち、406、416、420において、未加工断片検定は肯定的な結果を与える。438において到来バリアントコールを有効化する前に、4つの段階において、すなわち、406、426、430、および432において、未加工断片検定は肯定的な結果を与える。442において到来バリアントコールを有効化する前に、5つの段階において、すなわち、406、426、430、432、および436において、未加工断片検定は肯定的な結果を与える。未加工断片に適用される検定の段階の数は、任意の特定の検定を用いて与えられる信頼性の程度に基づいて変わってよい。
図5Aは、バリアントコールをフィルタ処理するために本明細書における代替実施形態に従って実施される階層ベース決定ツリーを示す。図5Aは一般化されたプロセスであり、その1つの実装形態が図4に提示される。550において、1つまたは複数のプロセッサは、対象のゲノム配列に対する可能なバリアントコールの表示を受信する。552において、1つまたは複数のプロセッサは、サンプル断片および対象のゲノム配列に沿ったヌクレオチドの未加工断片に対するリードを含むシーケンシングデータを受信する。リードは、対象のゲノム配列に沿った指定位置におけるヌクレオチドの配列に対応するサンプル断片に対するサンプルリードを含む。
554において、1つまたは複数のプロセッサは、品質スコアを取得するために、ベースラインゲノム配列に対する指定位置におけるベースラインバリアント頻度に対して、対象のゲノム配列に対する指定位置におけるサンプルバリアント頻度を解析する。次に、1つまたは複数のプロセッサは、未加工断片に関する複数の検定のうちの1つまたは複数を実行する。図5Aの例では、3つの決定が、556、558、および560において図示される。随意に、556、558、および560における決定は、(分岐564において示すように)反復されてよい。追加または代替として、556、558、および560における決定は、異なる情報に関して2回以上反復されてよく、いかなる順序で実行されてもよく、可能なバリアントコールを有効化することに関して異なる重みが与えられてよい。随意に、556、558、および560における決定のうちの1つまたは複数は、完全に削除されてよい。
556において、1つまたは複数のプロセッサは、未加工断片が、可能なバリアントコールを確証するかどうかを決定する。たとえば、未加工断片は、二重スティッチ型断片、一重スティッチ型断片、二重非スティッチ型断片、または一重非スティッチ型断片のうちの少なくとも1つに対応し得る。一例として、決定は、二重スティッチ型断片の数のカウントを、サポートバリアントを含んでいた未加工断片として同定することを含んでよい。プロセッサは、サポートバリアントを含んでいた二重スティッチ型断片のカウントがDSしきい値を超え、それによって、可能なバリアントコールを確証するかどうかを決定する。随意に、556において、プロセッサは、図4の中の420、430、432、および436における動作に関して、上記で説明したように二重の重み付きスコアおよび合計カウントの決定を実行し得る。
558において、1つまたは複数のプロセッサは、サンプルリードが、サンプル断片に対する所定の量のカバレッジを提供するかどうかを決定する。サンプルリードが所定の量のカバレッジを下回るとき、可能なバリアントコールはコールなしと宣言され得る。
560において、1つまたは複数のプロセッサは、可能なバリアントコールが、既定の集団にわたって呈示された、以前のバリアントコールに整合するかどうかを決定する。以前のバリアントとの相関は、他の検定の中で利用される1つまたは複数のしきい値を調整するための情報として利用され得る。たとえば、可能なバリアントコールと以前のバリアントコールとの間に整合が決定されると、決定動作は、第1のしきい値を利用して動作556または動作558のうちの少なくとも一方を実行する。追加として、可能なバリアントコールと以前のバリアントコールとの間に整合が存在しないとき、決定動作は、第2のしきい値を利用して動作556または動作558のうちの少なくとも一方を実行する。
562において、1つまたは複数のプロセッサは、品質スコアおよび決定動作に基づいて可能なバリアントコールを有効化する。たとえば、品質スコアが品質スコアしきい値を超え、かつ556〜560における決定のうちの少なくとも1つが、可能なバリアントコールをサポートするとき、可能なバリアントコールが有効化され得る。追加または代替として、556〜560における決定は、重み付き和を通じるなどして組み合わせられてよく、ここで、各決定の重みは同じかまたは異なってよい。556〜560における決定の重み付き和がしきい値と比較されてよく、重み付き和がしきい値を超えるときのみ、可能なバリアントコールが有効化されてよい。随意に、556〜560における決定に与えられる重要度および/または重みは、品質スコアのレベルに基づいて変わってよい。たとえば、可能なバリアントコールを有効化するために極めて高い品質スコアが決定されると、556〜560における決定のうちの1つしか可能なバリアントコールをサポートする必要がないことが決定されてよい。代替として、中レベル品質スコアが決定されると、可能なバリアントコールを有効化する前に、556〜560における決定のうちの2つ以上が、可能なバリアントコールをサポートする必要があり得る。別の例として、556〜560における決定に適用されるしきい値は、品質スコアのレベルに基づいて変わってよい。
図5Bは、本明細書における実施形態による、重み付きスコアを利用すること(たとえば、図4の中の430および/または図5Aの中の556における動作)に関して実行されるプロセスを示す。570において、1つまたは複数のプロセッサは、可能なバリアントコールに関係するサポートバリアントを含む未加工断片のカウントを同定する。572において、1つまたは複数のプロセッサは、サポートバリアントコールを示す未加工断片に対する重み付き断片スコアを取得する。たとえば、二重スティッチ型未加工断片に関連付けられたカウントは、第1の重み付け係数で乗算されてよく、一重スティッチ型未加工断片に関連付けられたカウントは、第2の重み付け係数で乗算されてよく、二重非スティッチ型断片に関連付けられたカウントは、第3の重み付け係数で乗算されてよく、一重非スティッチ型断片に関連付けられたカウントは、第4の重み付け係数で乗算されてよい。第1〜第4の重み付け係数は、次いで、重み付き断片スコアを取得するためのいくつかの他の方式で合計または合成されてよい。追加または代替として、重み付け断片スコアは、サポートバリアントを含まなかった未加工断片の数に基づいて修正されてもよい。たとえば、多数のサポート断片が参照配列に対応するとき、(参照配列に整合する)未加工断片のカウントは、重み付き断片スコアを減らすための係数として利用され得る。574において、1つまたは複数のプロセッサは、重み付き断片スコアを未加工断片しきい値と比較して、可能なバリアントコールを確証すべきかどうかを決定する。
コンピュータ実装態様
当業者によって理解されるように、本明細書で説明する方法および情報は、知られているコンピュータ可読媒体上のコンピュータ実行可能命令として全部または一部が実施され得る。たとえば、本明細書で説明する方法は、ハードウェアで実施され得る。代替として、方法は、たとえば、1つまたは複数のメモリまたは他のコンピュータ可読媒体の中に記憶され、1つまたは複数のプロセッサ上で実施される、ソフトウェアで実施されてもよい。知られているように、プロセッサは、コンピュータシステムの1つもしくは複数のコントローラ、計算ユニット、および/もしくは他のユニットに関連し得、または必要に応じてファームウェアの中に埋め込まれ得る。ソフトウェアで実装される場合、やはり知られているように、RAM、ROM、フラシュメモリ、磁気ディスク、レーザーディスク(登録商標)、または他の記憶媒体の中などの任意のコンピュータ可読メモリの中に、ルーチンが記憶され得る。同様に、このソフトウェアは、たとえば、電話回線、インターネット、ワイヤレス接続などの通信チャネルを介すること、またはコンピュータ可読ディスク、フラッシュドライブなどの可搬型媒体を介することを含む、任意の知られている配送方法を介して、コンピューティングデバイスに配送され得る。
より一般的には、また当業者によって理解されるように、上記で説明した様々なステップは、ハードウェア、ファームウェア、ソフトウェア、またはハードウェア、ファームウェア、および/もしくはソフトウェアの任意の組合せで実装され得る、様々なブロック、動作、ツール、モジュール、および技法として実施され得る。ハードウェアで実装されるとき、ブロック、動作、技法などの一部または全部は、たとえば、カスタム集積回路(IC)、特定用途向け集積回路(ASIC)、フィールドプログラマブル論理アレイ(FPGA)、プログラマブル論理アレイ(PLA)などの中に実装され得る。
ソフトウェアで実装されるとき、ソフトウェアは、磁気ディスク、光ディスク、または他の記憶媒体の上に、コンピュータ、プロセッサのRAMまたはROMまたはフラッシュメモリ、ハードディスクドライブ、光ディスクドライブ、テープドライブなどの中などの、任意の知られているコンピュータ可読媒体の中に記憶され得る。同様に、ソフトウェアは、たとえば、コンピュータ可読ディスクまたは他の可搬型コンピュータ記憶メカニズム上を含む、任意の知られている配送方法を介して、ユーザまたはコンピューティングシステムに配送され得る。
図6は、本明細書における一実施形態に従って形成されるコンピューティングシステム環境600のブロック図を示す。コンピューティングシステム環境600は、好適なコンピューティング環境の一例にすぎず、本明細書における使用または機能性の範囲に関していかなる限定を示唆するものでもない。コンピューティング環境600は、例示的な動作環境600に示す構成要素のうちのいずれか1つまたはその組合せに関係する任意の依存関係または要件を有するものとして解釈されるべきでない。方法およびシステムは、数多くの他の汎用または専用のコンピューティングシステム環境または構成を用いて動作可能である。特許請求の範囲の方法またはシステムを伴う使用に適し得るコンピューティングシステム、環境、および/または構成の例は、限定はしないが、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースシステム、セットトップボックス、プログラマブルコンシューマエレクトロニクス、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、上記のシステムまたはデバイスのいずれかを含む分散型コンピューティング環境などを含む。
方法およびシステムの動作は、プログラムモジュールなどのコンピュータ実行可能命令がコンピュータによって実行されているという、一般的なコンテキストで説明されてよい。概して、プログラムモジュールは、特定のタスクを実行するかまたは特定の抽象データ型を実装する、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。方法および装置はまた、通信ネットワークを通じてリンクされているリモート処理デバイスによってタスクが実行される分散型コンピューティング環境の中で実践され得る。統合型コンピューティング環境および分散型コンピューティング環境の両方において、プログラムモジュールは、メモリ記憶デバイスを含むローカルコンピュータ記憶媒体とリモートコンピュータ記憶媒体の両方に位置してよい。
図6を参照すると、コンピュータ610の構成要素は、限定はしないが、処理ユニット620、システムメモリ630、およびシステムメモリを含む様々なシステム構成要素を処理ユニット620に結合するシステムバス621を含み得る。システムバス621は、様々なバスアーキテクチャのいずれかを使用する、メモリバスまたはメモリコントローラ、周辺バス、およびローカルバスを含む、いくつかのタイプのバス構造のいずれかであってよい。限定ではなく例として、そのようなアーキテクチャは、業界標準アーキテクチャ(USA)バス、マイクロチャネルアーキテクチャ(MCA)バス、拡張ISA(EISA)バス、ビデオエレクトロニクス規格協会(VESA)ローカルバス、およびメザニンバスとも呼ばれる周辺構成要素相互接続(PCI)バスを含む。
コンピュータ610は、通常、様々なコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ610によってアクセスされ得る任意の利用可能な媒体であり得、揮発性と不揮発性の両方の媒体、リムーバブルと非リムーバブルの両方の媒体を含む。限定ではなく例として、コンピュータ可読媒体は、コンピュータ記憶媒体および通信媒体を備え得る。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータなどの情報の記憶のための任意の方法または技術で実装された、揮発性と不揮発性の両方、リムーバブルと非リムーバブルの両方の媒体を含む。コンピュータ記憶媒体は、限定はしないが、RAM、ROM、EEPROM、フラッシュメモリ、もしくは他のメモリ技術、CD-ROM、デジタル多用途ディスク(DVD)、もしくは他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ、もしくは他の磁気記憶デバイス、または所望の情報を記憶するために使用され得るとともにコンピュータ610によってアクセスされ得る任意の他の媒体を含む。通信媒体は、通常、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータを、搬送波または他の転送メカニズムなどの被変調データ信号の中で具現化し、任意の情報配送媒体を含む。「被変調データ信号」という用語は、その特性のうちの1つまたは複数が信号の中に情報を符号化するような方式で設定または変更された信号を意味する。限定ではなく例として、通信媒体は、有線ネットワークまたは直接有線接続などの有線媒体、ならびに音響、RF、赤外線、および他のワイヤレス媒体などのワイヤレス媒体を含む。上記のうちのいずれかの組合せも、コンピュータ可読媒体の範囲内に含まれるべきである。
システムメモリ630は、読取り専用メモリ(ROM)631およびランダムアクセスメモリ(RAM)632などの、揮発性メモリおよび/または不揮発性メモリの形態のコンピュータ記憶媒体を含む。スタートアップ中などにコンピュータ610内の要素間で情報を転送する助けとなる基本ルーチンを含む基本入出力システム633(BIOS)は、通常、ROM631の中に記憶される。RAM632は、通常、処理ユニット620によってそれに直接アクセス可能かつ/またはその上で現在動作中である、データおよび/またはプログラムモジュールを含む。限定ではなく例として、図6は、オペレーティングシステム634、アプリケーションプログラム635、他のプログラムモジュール636、およびプログラムデータ637を示す。
コンピュータ610はまた、他のリムーバブル/非リムーバブル、揮発性/不揮発性のコンピュータ記憶媒体を含み得る。単に例として、図6は、非リムーバブル不揮発性磁気媒体から読み取りまたはそこに書き込むハードディスクドライブ640、リムーバブル不揮発性磁気ディスク652から読み取りまたはそこに書き込む磁気ディスクドライブ651、およびCD ROMまたは他の光媒体などのリムーバブル不揮発性光ディスク656から読み取りまたはそこに書き込む光ディスクドライブ655を示す。例示的な動作環境の中で使用され得る他のリムーバブル/非リムーバブル、揮発性/不揮発性のコンピュータ記憶媒体は、限定はしないが、磁気テープカセット、フラッシュメモリカード、デジタル多用途ディスク、デジタルビデオテープ、ソリッドステートRAM、ソリッドステートROMなどを含む。ハードディスクドライブ641は、通常、インターフェース640などの非リムーバブルメモリインターフェースを通じてシステムバス621に接続され、磁気ディスクドライブ651および光ディスクドライブ655は、通常、インターフェース650などのリムーバブルメモリインターフェースによってシステムバス621に接続される。
上記で説明し図6に示したドライブおよび関連するコンピュータ記憶媒体は、コンピュータ610用のコンピュータ可読命令、データ構造、プログラムモジュール、および他のデータの記憶を行う。図6において、たとえば、ハードディスクドライブ641は、オペレーティングシステム644、アプリケーションプログラム645、他のプログラムモジュール646、およびプログラムデータ647を記憶するものとして図示される。これらの構成要素が、オペレーティングシステム634、アプリケーションプログラム635、他のプログラムモジュール636、およびプログラムデータ637と同じかまたはそれとは異なるかのいずれかであり得ることに留意されたい。オペレーティングシステム644、アプリケーションプログラム645、他のプログラムモジュール646、およびプログラムデータ647は、最低でもそれらが異なるコピーであることを示すためにここでは異なる番号が与えられる。ユーザは、キーボード662、および通常はマウス、トラックボール、またはタッチパッドと呼ばれるポインティングデバイス661などの、入力デバイスを通じて、コンピュータの中にコマンドおよび情報を入力し得る。他の入力デバイス(図示せず)は、マイクロフォン、ジョイスティック、ゲームパッド、サテライトディッシュ(satellite dish)、スキャナなどを含み得る。これらおよび他の入力デバイスは、しばしば、システムバスに結合されているユーザ入力インターフェース660を通じて処理ユニット620に接続されるが、パラレルポート、ゲームポート、またはユニバーサルシリアルバス(USB)などの他のインターフェースおよびバス構造によって接続されてよい。モニタ691または他のタイプのディスプレイデバイスも、ビデオインターフェース690などのインターフェースを介してシステムバス621に接続される。モニタに加えて、コンピュータはまた、出力周辺インターフェース695を通じて接続され得る、スピーカー697およびプリンタ696などの他の周辺出力デバイスを含み得る。
コンピュータ610は、リモートコンピュータ680などの1つまたは複数のリモートコンピュータへの論理接続を使用して、ネットワーク化環境の中で動作し得る。リモートコンピュータ680は、パーソナルコンピュータ、サーバ、ルータ、ネットワークPC、ピアデバイス、または他の共通ネットワークノードであってよく、通常、コンピュータ610に対して上記で説明した要素の多くまたはすべてを含むが、メモリ記憶デバイス681のみが図6に示されている。図6に示す論理接続は、ローカルエリアネットワーク(LAN)671およびワイドエリアネットワーク(WAN)673を含むが、同様に他のネットワークを含んでもよい。そのようなネットワーキング環境は、オフィス、企業規模のコンピュータネットワーク、イントラネット、およびインターネットでは珍しくない。
LANネットワーキング環境の中で使用されるとき、コンピュータ610は、ネットワークインターフェースまたはアダプタ670を通じてLAN671に接続される。WANネットワーキング環境の中で使用されるとき、コンピュータ610は、通常、モデム672、またはインターネットなどのWAN673を介した通信を確立するための他の手段を含む。モデム672は、内部または外部にあってよく、ユーザ入力インターフェース660または他の適切なメカニズムを介してシステムバス621に接続され得る。ネットワーク化環境の中で、コンピュータ610に関して示されるプログラムモジュールまたはその部分は、リモートメモリ記憶デバイスの中に記憶され得る。限定ではなく例として、図6は、メモリデバイス681上に常駐するようなリモートアプリケーションプログラム685を示す。図示のネットワーク接続が例であり、コンピュータ間で通信リンクを確立する他の手段が使用され得ることが諒解されよう。
リスク評価システムおよび方法、ならびに他の要素が、好ましくはソフトウェアで実装されるものとして説明されているが、それらはハードウェア、ファームウェアなどで実装されてよく、任意の他のプロセッサによって実施されてよい。したがって、本明細書で説明する要素は、限定はしないが、図6のコンピュータ610を含む、必要に応じて特定用途向け集積回路(ASIC)または他のハードワイヤードデバイスなどの標準的な多目的CPUの中または特別に設計されたハードウェアもしくはファームウェアの上に実装され得る。ソフトウェアで実装されるとき、ソフトウェアルーチンは、磁気ディスク、レーザーディスク(登録商標)、または他の記憶媒体の上、コンピュータまたはプロセッサのRAMまたはROMの中、任意のデータベースの中などの、任意のコンピュータ可読メモリの中に記憶され得る。同様に、このソフトウェアは、たとえば、コンピュータ可読ディスクもしく他の可搬型コンピュータ記憶メカニズムの上、または電話回線、インターネット、ワイヤレス通信などの通信チャネルを介することを含む、任意の既知または所望の配送方法を介して、ユーザまたは診断システムに配送され得る(そのことは、可搬型記憶媒体を介してそのようなソフトウェアを提供することと同じかまたは互換性があるものとして見なされる)。したがって、本発明の趣旨および範囲から逸脱することなく、本明細書で説明および図示する技法および構造において、多くの修正および変形が加えられてよい。したがって、本明細書で説明する方法および装置が例示的なものにすぎず、本発明の範囲において限定的でないことを理解されたい。
図7は、本明細書における一実施形態に従って形成される代替システムのブロック図を示す。破線の輪郭で示す構成要素は、技術的にはコンピュータ710の一部ではなく、図7の例示的な実施形態を示すために使用される。コンピュータ710の構成要素は、限定はしないが、プロセッサ720、システムメモリ730、ノースブリッジチップとも呼ばれるメモリ/グラフィックスインターフェース721、およびサウスブリッジチップとも呼ばれるI/Oインターフェース722を含み得る。システムメモリ730およびグラフィックスプロセッサ790は、メモリ/グラフィックスインターフェース721に結合され得る。モニタ791または他のグラフィックス出力デバイスが、グラフィックスプロセッサ790に結合され得る。
一連のシステムバスは、プロセッサ720、メモリ/グラフィックスインターフェース721、およびI/Oインターフェース722の間の高速システムバス723、メモリ/グラフィックスインターフェース721とシステムメモリ730との間のフロントサイドバス724、ならびにメモリ/グラフィックスインターフェース721とグラフィックスプロセッサ790との間のアドバンストグラフィックス処理(AGP)バス725を含む、様々なシステム構成要素を結合し得る。システムバス723は、限定ではなく例として、業界標準アーキテクチャ(USA)バス、マイクロチャネルアーキテクチャ(MCA)バス、および拡張ISA(EISA)バスを含むようなアーキテクチャを含む、いくつかのタイプのバス構造のいずれかであってよい。システムアーキテクチャが進化するにつれて、他のバスアーキテクチャおよびチップセットが使用され得るが、しばしば、概してこのパターンに従う。たとえば、IntelおよびAMDなどの企業は、それぞれ、Intel Hubアーキテクチャ(IHA:Intel Hub Architecture)およびHypertransport(商標)アーキテクチャをサポートする。
コンピュータ710は、通常、様々なコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ710によってアクセスされ得る任意の利用可能な媒体であり得、揮発性と不揮発性の両方の媒体、リムーバブルと非リムーバブルの両方の媒体を含む。限定ではなく例として、コンピュータ可読媒体は、コンピュータ記憶媒体を備え得る。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータなどの情報の記憶のための任意の方法または技術で実装された、揮発性と不揮発性の両方、リムーバブルと非リムーバブルの両方の媒体を含む。コンピュータ記憶媒体は、限定はしないが、RAM、ROM、EEPROM、フラッシュメモリ、もしくは他のメモリ技術、CD-ROM、デジタル多用途ディスク(DVD)、もしくは他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ、もしくは他の磁気記憶デバイス、または所望の情報を記憶するために使用され得るとともにコンピュータ710によってアクセスされ得る任意の他の物理媒体を含む。
システムメモリ730は、読取り専用メモリ(ROM)731およびランダムアクセスメモリ(RAM)732などの、揮発性メモリおよび/または不揮発性メモリの形態のコンピュータ記憶媒体を含む。システムROM731は、識別情報および製造情報などの永続的なシステムデータ743を含み得る。いくつかの実施形態では、基本入出力システム(BIOS)も、システムROM731の中に記憶され得る。RAM732は、通常、プロセッサ720によってそれに直接アクセス可能かつ/またはその上で現在動作中である、データおよび/またはプログラムモジュールを含む。限定ではなく例として、図7は、オペレーティングシステム734、アプリケーションプログラム735、他のプログラムモジュール736、およびプログラムデータ737を示す。
I/Oインターフェース722は、システムバス723を、様々な内部および外部のデバイスをコンピュータ710に結合するいくつかの他のバス726、727、および728と結合し得る。シリアル周辺インターフェース(SPI)バス726は、スタートアップ中などにコンピュータ710内の要素間で情報を転送する助けとなる基本ルーチンを含む基本入出力システム(BIOS)メモリ733に接続し得る。
スーパー入出力チップ760は、例として、フロッピー(登録商標)ディスク752、キーボード/マウス762、およびプリンタ796などの、いくつかの「レガシー」周辺装置に接続するために使用され得る。スーパーI/Oチップ760は、いくつかの実施形態では、低ピンカウント(LPC)バスなどのバス727を用いてI/Oインターフェース722に接続され得る。スーパーI/Oチップ760の様々な実施形態は、商業市場において広く入手可能である。一実施形態では、バス728は、周辺構成要素相互接続(PCI)バスまたはその変形であってよく、より高速の周辺装置をI/Oインターフェース722に接続するために使用され得る。PCIバスは、メザニンバスと呼ばれることもある。PCIバスの変形は、周辺構成要素相互接続エクスプレス(PCI-E)バスおよび周辺構成要素相互接続拡張(PCI-X)バスを含み、前者はシリアルインターフェースを有し、後者は後方互換性があるパラレルインターフェースである。他の実施形態では、バス728は、シリアルATAバス(SATA)またはパラレルATA(PATA)の形態の、アドバンストテクノロジーアタッチメント(ATA)バスであってよい。
コンピュータ710はまた、他のリムーバブル/非リムーバブル、揮発性/不揮発性のコンピュータ記憶媒体を含み得る。単に例として、図7は、非リムーバブル不揮発性磁気媒体から読み取りまたはそこに書き込むハードディスクドライブ740を示す。ハードディスクドライブ740は、従来型ハードディスクドライブであってよい。ユニバーサルシリアルバス(USB)メモリ753、ファイアワイヤ(IEEE1394)、またはCD/DVDドライブ756などのリムーバブル媒体は、直接またはインターフェース750を通じてPCIバス728に接続され得る。記憶媒体754は、インターフェース750を通じて結合され得る。例示的な動作環境の中で使用され得る他のリムーバブル/非リムーバブル、揮発性/不揮発性のコンピュータ記憶媒体は、限定はしないが、磁気テープカセット、フラッシュメモリカード、デジタル多用途ディスク、デジタルビデオテープ、ソリッドステートRAM、ソリッドステートROMなどを含む。
上記で説明し図7に示したドライブおよびそれらの関連するコンピュータ記憶媒体は、コンピュータ710用のコンピュータ可読命令、データ構造、プログラムモジュール、および他のデータの記憶を行う。図7において、たとえば、ハードディスクドライブ740は、オペレーティングシステム744、アプリケーションプログラム745、他のプログラムモジュール746、およびプログラムデータ747を記憶するものとして図示される。これらの構成要素が、オペレーティングシステム734、アプリケーションプログラム735、他のプログラムモジュール736、およびプログラムデータ737と同じかまたはそれとは異なるかのいずれかであり得ることに留意されたい。オペレーティングシステム744、アプリケーションプログラム745、他のプログラムモジュール746、およびプログラムデータ747は、最低でもそれらが異なるコピーであることを示すためにここでは異なる番号が与えられる。ユーザは、マウス/キーボード762または他の入力デバイスの組合せなどの入力デバイスを通じて、コンピュータの中にコマンドおよび情報を入力し得る。他の入力デバイス(図示せず)は、マイクロフォン、ジョイスティック、ゲームパッド、サテライトディッシュ、スキャナなどを含み得る。これらおよび他の入力デバイスは、しばしば、SPI726、LPC727、またはPCI728などのI/Oインターフェースバスのうちの1つを通じてプロセッサ720に接続されるが、他のバスが使用されてよい。いくつかの実施形態では、他のデバイスが、スーパーI/Oチップ760を介してパラレルポート、赤外線インターフェース、ゲームポートなど(図示せず)に結合され得る。コンピュータ710は、ネットワークインターフェースコントローラ(NIC)770を介したリモートコンピュータ780などの1つまたは複数のリモートコンピュータへの論理接続を使用して、ネットワーク化環境の中で動作し得る。リモートコンピュータ780は、パーソナルコンピュータ、サーバ、ルータ、ネットワークPC、ピアデバイス、または他の共通ネットワークノードであってよく、通常、コンピュータ710に関して上記で説明した要素の多くまたはすべてを含む。図7に示すNIC770とリモートコンピュータ780との間の論理接続は、ローカルエリアネットワーク(LAN)、
ワイドエリアネットワーク(WAN)、またはその両方を含み得るが、同様に他のネットワークを含んでもよい。そのようなネットワーキング環境は、オフィス、企業規模のコンピュータネットワーク、イントラネット、およびインターネットでは珍しくない。リモートコンピュータ780はまた、コンピュータ710との対話式セッションをサポートするウェブサーバを表してよく、またはロケーションベースアプリケーションの特定の場合では、ロケーションサーバもしくはアプリケーションサーバであってよい。リモートコンピュータ780は、ベースラインゲノム配列データベース784、以前のデータベース782などを管理する、サーバを表し得る。たとえば、本明細書で説明するように、ベースラインゲノム配列データベース784は、新たなベースライン情報を用いて周期的に更新される。データベース784は、サンプルに対する可能なバリアントコールを有効化することに関して(たとえば、指定位置におけるベースラインバリアント頻度を取得するために)アクセスされる。別の例として、以前のデータベース782も、サンプルに対する可能なバリアントコールを有効化することに関して(たとえば、可能なバリアントコールが以前のバリアントに対応するかどうかを決定するために)アクセスされ得る。
いくつかの実施形態では、広帯域接続が利用可能でないかまたは使用されないとき、ネットワークインターフェースはモデム(図示せず)を使用し得る。図示のネットワーク接続が例であり、コンピュータ間で通信リンクを確立する他の手段が使用され得ることが諒解されよう。例示的なプロセッサ(処理ユニット)は、コンピューティングデバイスの中で使用されるすべての種類のマイクロプロセッサおよび他の処理ユニットを含む。例示的なコンピュータ可読媒体が上記で説明されている。システムの2つ以上の構成要素がプロセッサ可読媒体またはコンピュータ可読媒体を伴うとき、システムがわずか1つのプロセッサおよび/または1つのコンピュータ可読媒体しか含まないように、単一のプロセッサおよび/もしくはコンピュータ可読媒体がシステムの単一の構成要素に専用であるか、または2つ以上の機能が単一のプロセッサを共有しかつ/もしくは単一のコンピュータ可読媒体を共有する、システムが一般に作成され得る。いくつかの変形形態では、たとえば、異なるロケーションにおいてシステムの構成要素を有することが好都合である場合、複数のプロセッサまたは媒体を使用することが有利である。たとえば、システムのいくつかの構成要素が、試験室解析またはデータ解析に専用の検定試験室において配置されてよく、入力情報を供給するかまたは出力通信を取得するための(随意の)構成要素を含む他の構成要素が、医療施設もしくはカウンセリング施設(たとえば、医者のオフィス、健康診療所、HMO、薬剤師、遺伝学者、病院)において、および/または検定サービスがその人のために実行される人間被験者(患者)の自宅もしくは会社において、配置されてよい。
リモートコンピュータ780は、以前のデータベース782に通信可能に結合されるとともに、ヒトの集団の中にバリアント/対立遺伝子が存在することまたは存在しないことに相関する集団情報を含む、サーバまたは他のネットワークリソースを表し得る。たとえば、1つまたは複数のバリアント/対立遺伝子は、選択欠陥を引き起こすかまたはそれを示す、突然変異による対立遺伝子を含む。単純な変形形態では、以前のデータベース782は、たとえば、膀胱癌があるヒトの集団の中で、かつたとえば、膀胱癌がないヒトの集団の中で、選択対立遺伝子が観測された頻度に関係するデータを含む。追加または代替として、以前のデータベースは、2つ以上の対立遺伝子に関する類似のデータを含んでもよく、それによって、人間被験者が2つ以上の対立遺伝子のいずれかを有する場合、有用なリファレンスを提供する。追加または代替として、以前のデータベースは、条件を伴うかまたは伴わずに診断されるデータベースの中の個体についての、追加の定量的な個人的、医学的、または遺伝的な情報を含んでよい。そのような情報は、限定はしないが、人物における年齢、性別、民族性、人種、病歴、体重、糖尿病ステータス、血圧、膀胱癌の家族歴、喫煙歴、およびアルコール使用などのパラメータについての情報、ならびに以前のことに関する少なくとも1つのパラメータの影響を含む。以前のことはまた、対立遺伝子に対する他の遺伝的リスク要因についての情報を含むことができる。
ベースラインゲノム配列データベースまたはライブラリ784は、ベースラインバリアント頻度および他の情報を同定するために、本明細書における実施形態に従って利用されるベースラインゲノム配列を記憶するために設けられてよい。