詳細な説明
開示される態様は、胎児および母体の無細胞核酸を含む検査サンプルにおける、Y染色体のコピー数についての評価のための方法、機器、およびシステムに関する。いくつかの態様において、関心対象の配列には、遺伝的状態または疾患状態と関連することが知られるまたは疑われる、例えばキロベース(kb)〜メガベース(Mb)から染色体全体に及ぶゲノムセグメント配列が含まれる。いくつかの態様において、Y染色体のコピー数を用いて、胎児の性別を判定する。いくつかの態様において、本方法に従って判定され得るCNVには、Y性染色体のモノソミーおよびトリソミー(例えば、47,XXYおよび47,XYY)、テトラソミーおよびペンタソミーなど、性染色体の他のポリソミー(例えば、XXXXYおよびXYYYY)、ならびに性染色体のうちのいずれか1つまたは複数のセグメントの欠失および/または重複が含まれる。関心対象の配列の他の例には、周知の異数性、例えばトリソミーXXX、トリソミー21と関連した染色体、および癌などの疾患において増倍している染色体のセグメント、例えば急性骨髄性白血病における部分的トリソミー8が含まれる。
別様に示されない限り、本明細書において開示される方法およびシステムの履行は、当技術分野の技能の範囲内である、分子生物学、微生物学、タンパク質精製、タンパク質工学、タンパク質およびDNAシーケンシング、ならびに組換えDNAの分野において一般に用いられる従来的な技法および機器を伴う。そのような技法および機器は当業者に公知であり、かつ無数の教材および参考図書において記載されている(例えば、Sambrook et al.,「Molecular Cloning: A Laboratory Manual」, Third Edition (Cold Spring Harbor), [2001];およびAusubel et al.,「Current Protocols in Molecular Biology」[1987]を参照されたい)。
数値範囲は、範囲を規定する数を含む。本明細書を通して与えられるあらゆる最大数値限定は、あらゆるより低い数値限定を、あたかもそのようなより低い数値限定が本明細書において明示的に記されているかのように含むことが意図される。本明細書を通して与えられるあらゆる最小数値限定は、あらゆるより高い数値限定を、あたかもそのようなより高い数値限定が本明細書において明示的に記されているかのように含む。本明細書を通して与えられるあらゆる数値範囲は、そのようなより広い数値範囲内に入るあらゆるより狭い数値範囲を、あたかもそのようなより狭い数値範囲がすべて本明細書において明示的に記されているかのように含む。
本明細書において提供される見出しは、本開示を限定することを意図されるわけではない。本明細書において別様に定義されない限り、本明細書において用いられるすべての技術的および科学的な用語は、当業者によって一般に理解されるものと同じ意味を有する。本明細書において含まれる用語を含む様々な科学辞書は、当業者に周知でありかつ利用可能である。本明細書において記載されるものと同様または同等の任意の方法および材料は、本明細書において開示される態様の履行または検査における用途を見出すものの、一部の方法および材料を記載する。
すぐ下に定義される用語は、本明細書を全体として参照することによってより十分に記載される。本開示は、記載される特定の方法論、プロトコール、および試薬に限定されるわけではないことが理解されるべきである、というのもこれらは、それらが当業者によって用いられる状況に依存して変動し得るためである。
定義
本明細書において使用するとき、「a」、「an」、および「the」という単数形の用語は、文脈上はっきりと別様に示されない限り、複数形の指示対象(reference)を含む。
別様に示されない限り、それぞれ、核酸は5'から3'方向に左から右へ記され、かつアミノ酸配列はアミノからカルボキシ方向に左から右へ記される。
「査定する」という用語は、本明細書においてCNVについて核酸サンプルを解析する文脈で用いられる場合、「正常」すなわち「影響なし」、「影響あり」、および「コールなし」という3つのタイプのコールのうちの1つによって、染色体またはセグメントの異数性の状況を特徴付けすることを指す。正常および影響ありとコールするための閾値は、典型的に設定される。異数性または他のコピー数変異に関係したパラメーターをサンプルにおいて測定し、かつ測定された値を閾値と比較する。重複型異数性に関しては、染色体またはセグメントの量(または配列含有量の他の測定値)が、影響ありのサンプルに対して設定された既定閾値を上回る場合に、影響ありというコールがなされる。そのような異数性に関しては、染色体またはセグメントの量が正常なサンプルに対して設定された閾値を下回る場合に、正常というコールがなされる。対照的に、欠失型異数性に関しては、染色体またはセグメントの量が、影響ありのサンプルに対する既定閾値を下回る場合に、影響ありというコールがなされ、かつ染色体またはセグメントの量が、正常なサンプルに対して設定された閾値を上回る場合に、正常というコールがなされる。例えば、トリソミーの存在下において、「正常」というコールは、信頼性についてのユーザーにより規定された閾値を下回るパラメーターの値、例えば検査染色体量によって決定され、かつ「影響あり」というコールは、信頼性についてのユーザーにより規定された閾値を上回るパラメーター、例えば検査染色体量によって決定される。「コールなし」という結果は、「正常」または「影響あり」というコールを付けるための閾値間にあるパラメーター、例えば検査染色体量によって決定される。「コールなし」という用語は、「未分類」と互換可能に用いられる。
本明細書における「コピー数変異」という用語は、参照サンプル中に存在している核酸配列のコピー数と比較した、検査サンプル中に存在している核酸配列のコピーの数の変動を指す。ある特定の態様において、核酸配列は1kbまたはそれよりも大きい。ある場合には、核酸配列は、染色体全体またはその相当部分である。「コピー数変種」とは、検査サンプルにおける関心対象の配列と該関心対象の配列の予想されるレベルとの比較によって、コピー数の差異が見出される核酸の配列を指す。例えば、検査サンプルにおける関心対象の配列のレベルを、適格サンプル中に存在しているものと比較する。コピー数変種/変異には、微小欠失を含めた欠失、微小挿入、重複、増倍を含めた挿入、逆位、転座、および複合多重部位変種が含まれる。CNVは、染色体異数性および部分的異数性を包含する。
本明細書における「異数性」という用語は、染色体全体または染色体の一部の損失または増大によって引き起こされる遺伝物質の不均衡を指す。
本明細書における「染色体異数性」および「完全染色体異数性」という用語は、染色体全体の損失または増大によって引き起こされる遺伝物質の不均衡を指し、生殖細胞異数性およびモザイク異数性を含む。
本明細書における「部分的異数性」および「部分的染色体異数性」という用語は、染色体の一部の損失または増大、例えば部分的モノソミーおよび部分的トリソミーによって引き起こされる遺伝物質の不均衡を指し、転座、欠失、および挿入により生じる不均衡を包含する。
「複数」という用語は、1つを上回る要素を指す。例えば、該用語は、本明細書において開示される方法を用いて、検査サンプルおよび適格サンプルにおけるコピー数変異の有意な差異を同定するのに十分である、多数の核酸分子または配列タグに対して本明細書において用いられる。いくつかの態様において、各検査サンプルに対して、約20〜40bpの少なくとも約3×106個の配列タグを獲得する。いくつかの態様において、各検査サンプルは、少なくとも約5×106、8×106、10×106、15×106、20×106、30×106、40×106、または50×106個の配列タグについてのデータを提供し、各配列タグは約20〜40bpを含む。
「ポリヌクレオチド」、「核酸」、および「核酸分子」という用語は互換可能に用いられ、1個のヌクレオチドのペントースの3'箇所が、次のもののペントースの5'箇所にホスホジエステル基によって接合している、共有結合で連結したヌクレオチドの配列(すなわち、RNAに対するリボヌクレオチド、およびDNAに対するデオキシリボヌクレオチド)を指す。ヌクレオチドは、cfDNA分子などのRNAおよびDNA分子を含むがそれらに限定されない、任意の形態の核酸の配列を含む。「ポリヌクレオチド」という用語は、一本鎖および二本鎖ポリヌクレオチドを含むが、それらに限定されるわけではない。
「一部分」という用語は、生物学的サンプルにおける胎児および母体の核酸分子についての配列情報の量、要するに1つのヒトゲノムについての配列情報に満たない量に対して本明細書において用いられる。
本明細書における「検査サンプル」という用語は、典型的に、コピー数変異についてスクリーニングされる対象となる少なくとも1種の核酸配列を含む核酸または核酸の混合物を含む、生物学的流体、細胞、組織、臓器、または生物に由来するサンプルを指す。ある特定の態様において、サンプルは、そのコピー数が変異を受けていることが疑われる少なくとも1種の核酸配列を含む。そのようなサンプルには、痰/口腔液、羊水、血液、血液画分、または細針生検サンプル(例えば、外科的生検、細針生検など)、尿、腹水、胸水などが含まれるが、それらに限定されるわけではない。サンプルは、しばしばヒト対象(例えば、患者)から採取されるものの、イヌ、ネコ、ウマ、ヤギ、ヒツジ、ウシ、ブタなどを含むがそれらに限定されない、任意の哺乳類由来のサンプルにおけるコピー数変異(CNV)に対してアッセイを用いることができる。サンプルは、生物学的供給源から得られたものとして直接的に、またはサンプルの特徴を改変する前処理の後に用いられ得る。例えば、そのような前処理には、血液から血漿を調製する工程、粘性流体を希釈する工程などが含まれ得る。前処理方法は、濾過、沈殿、希釈、蒸留、混合、遠心分離、凍結、凍結乾燥、濃縮、増幅、核酸フラグメント化、干渉成分の不活性化、試薬の添加、溶解なども伴うが、それらに限定されるわけではない。そのような前処理の方法がサンプルに対して採用される場合、そのような前処理方法は、典型的に、ときには、未処理の検査サンプル(例えば、つまり、任意のそのような前処理方法に供されていないサンプル)中のものに比例した濃度で、関心対象の核酸が検査サンプル中に留まっているそのようなものである。そのような「処理された」または「加工された」サンプルは、本明細書において記載される方法に関して、なおも生物学的「検査」サンプルであると見なされる。
本明細書における「適格サンプル」という用語は、検査サンプル中の核酸を比較する対象となる、公知のコピー数で存在している核酸の混合物を含むサンプルを指し、それは、関心対象の配列に対して正常である、すなわち異数性でないサンプルである。ある特定の態様において、適格サンプルは、検討中の染色体に対する1種または複数種の正規化染色体またはセグメントを同定するために用いられる。例えば、適格サンプルは、第21染色体に対する正規化染色体を同定するために用いられ得る。そのような場合、適格サンプルは、トリソミー21サンプルではないサンプルである。適格サンプルは、影響ありのサンプルとコールするための閾値を決定することにおいても採用され得る。
本明細書における「トレーニングセット」という用語は、影響ありおよび/または影響なしのサンプルを含み得、かつ検査サンプルを解析するためのモデルを開発するために用いられるサンプルのセットを指す。いくつかの態様において、トレーニングセットは、影響なしのサンプルを含む。これらの態様において、CNVを判定するための閾値は、関心対象のコピー数変異に対して影響を受けていないサンプルのトレーニングセットを用いて確立される。トレーニングセット中の影響なしのサンプルを適格サンプルとして用いて、正規化配列、例えば正規化染色体を同定し得、かつ影響なしのサンプルの染色体量を用いて、関心対象の配列、例えば染色体のそれぞれに対する閾値を設定する。いくつかの態様において、トレーニングセットは、影響ありのサンプルを含む。トレーニングセット中の影響ありのサンプルを用いて、影響ありの検査サンプルは影響なしのサンプルと容易に識別され得ることを立証することができる。
「トレーニングセット」は、本明細書において、関心対象の集団の統計サンプルの個体のセットに対しても用いられ、その個体についてのデータを用いて、該集団に一般化可能な関心対象の1つまたは複数の定量値を決定する。統計サンプルとは、関心対象の集団における個体の部分集合である。個体は、人間、動物、組織、細胞、他の生物学的サンプル(すなわち、統計サンプルは複数の生物学的サンプルを含み得る)、および統計解析のためのデータ点を提供する他の個々の実体であり得る。
通常、トレーニングセットは検証セットと合わせて用いられる。「検証セット」という用語は、本明細書において、統計サンプルにおける個体のセットに対して用いられ、その個体についてのデータは、トレーニングセットを用いて決定された関心対象の定量値を検証するまたは評価するために用いられる。いくつかの態様において、例えば、トレーニングセットは、参照配列に対するマスクを算出するためのデータを提供し、検証セットは、該マスクを検証するまたは評価するデータを提供する。
「コピー数の評価」は、本明細書において、配列のコピー数に関係した遺伝子配列の状況についての統計的評価に対して用いられる。例えば、いくつかの態様において、評価は、遺伝子配列の有無についての判定を含む。いくつかの態様において、評価は、遺伝子配列の部分的または完全な異数性についての判定を含む。他の態様において、評価は、遺伝子配列のコピー数に基づく、2個またはそれを上回る数のサンプル間の判別を含む。いくつかの態様において、評価は、遺伝子配列のコピー数に基づく統計解析、例えば正規化および比較を含む。
「適格核酸」という用語は、それに対して検査配列または検査核酸の量が比較される配列である「適格配列」と互換可能に用いられる。適格配列とは、好ましくは公知の構成で生物学的サンプル中に存在しているものであり、すなわち適格配列の量は公知である。一般的に、適格配列は、「適格サンプル」中に存在している配列である。「関心対象の適格配列」とは、適格サンプル中での量が公知である適格配列であり、かつ医学的状態を有する個体における配列表現の差異と関連する配列である。
本明細書における「関心対象の配列」という用語は、健常個体対罹患個体における配列表現の差異と関連する核酸配列を指す。関心対象の配列は、疾患状態または遺伝的状態において誤って構成されている、すわなち過剰にまたは過少に構成されている、染色体上の配列であり得る。関心対象の配列は、染色体の一部分、すなわち染色体セグメント、または染色体であり得る。例えば、関心対象の配列は、異数性状態において過剰に構成されている染色体、または癌において過少に構成されている、腫瘍抑制因子をコードする遺伝子であり得る。関心対象の配列には、対象の細胞の集団全体または部分集団において過剰にまたは過少に構成されている配列が含まれる。「関心対象の適格配列」は、適格サンプル中の関心対象の配列である。「関心対象の検査配列」は、検査サンプル中の関心対象の配列である。
本明細書における「正規化配列」という用語は、正規化配列と関連した関心対象の配列にマッピングされた配列タグの数を正規化するために用いられる配列を指す。いくつかの態様において、正規化配列は、それが正規化パラメーターとして用いられる関心対象の配列の可変性を近似する、サンプル間およびシーケンシングラン間での、それにマッピングされる配列タグの数の可変性を呈する。正規化配列は、影響ありのサンプルと1つまたは複数の影響なしのサンプルとを識別し得る。いくつかの実践において、正規化配列は、他の染色体などの他の潜在的正規化配列と比較した場合に、影響ありのサンプルと1つまたは複数の影響なしのサンプルとを最良にまたは有効に識別する。「正規化染色体」または「正規化染色体配列」は、「正規化配列」の一例である。「正規化染色体配列」は、単一染色体または染色体の群から構成され得る。「正規化セグメント」は、「正規化配列」の別の例である。「正規化セグメント配列」は、染色体の単一セグメントから構成され得、またはそれは、同じもしくは異なる染色体の2つもしくはそれを上回る数のセグメントから構成され得る。ある特定の態様において、正規化配列は、過程に関係した、染色体間(ラン内)およびシーケンシング間(ラン間)の可変性などの可変性に対して正規化することを意図される。
本明細書における「識別能」という用語は、1個または複数個の影響なしのサンプル、すなわち正常なサンプルと、1個または複数個の影響ありのサンプル、すなわち異数性サンプルとを区別するのを可能にする、正規化染色体の特徴を指す。最大の「識別能」を呈する正規化染色体は、適格サンプルのセットにおける関心対象の染色体に関する染色体量、および1個または複数個の影響ありのサンプルにおける対応する染色体における関心対象の同じ染色体に関する染色体量の分布間で、最大の統計的差異を提供する染色体または染色体の群である。
本明細書における「可変性」という用語は、1個または複数個の影響なしのサンプル、すなわち正常なサンプルと、1個または複数個の影響ありのサンプル、すなわち異数性サンプルとを区別するのを可能にする、正規化染色体の別の特徴を指す。適格サンプルのセットにおいて測定される、正規化染色体の可変性とは、それが正規化パラメーターとして働く、関心対象の染色体にマッピングされる配列タグの数の可変性を近似する、それにマッピングされる配列タグの数の可変性を指す。
本明細書における「配列量」という用語は、関心対象の配列に対して同定された配列タグの数と、正規化配列に対して同定された配列タグの数とを関連付けするパラメーターを指す。ある場合には、配列量は、正規化配列に対して同定された配列タグの数に対する、関心対象の配列に対して同定された配列タグの数の比である。ある場合には、配列量は、関心対象の配列の配列タグ密度を、正規化配列のタグ密度に関連付けするパラメーターを指す。「検査配列量」とは、検査サンプルにおいて決定される、関心対象の配列、例えば第21染色体の配列タグ密度を、正規化配列、例えば第9染色体のものに関連付けするパラメーターである。同様に、「適格配列量」とは、適格サンプルにおいて決定される、関心対象の配列の配列タグ密度を、正規化配列のものに関連付けするパラメーターである。
本明細書における「配列タグ密度」という用語は、参照ゲノム配列にマッピングされる配列読み取りの数を指し、例えば第21染色体に対する配列タグ密度は、参照ゲノムの第21染色体にマッピングされる、シーケンシング法によって生成された配列読み取りの数である。本明細書における「配列タグ密度比」という用語は、参照ゲノム染色体の長さに対する、参照ゲノムの染色体、例えば第21染色体にマッピングされる配列タグの数の割合を指す。
本明細書における「次世代シーケンシング(NGS)」という用語は、クローン的に増幅された分子および単一核酸分子の超並列シーケンシングを可能にするシーケンシング法を指す。NGSの非限定的な例には、可逆的ダイターミネーターを用いた合成によるシーケンシング、およびライゲーションによるシーケンシングが含まれる。
本明細書における「パラメーター」という用語は、物理的特性を特徴付けする数値を指す。しばしば、パラメーターは、定量的データセット、および/または定量的データセット間の数的関係を数的に特徴付けする。例えば、染色体にマッピングされた配列タグの数と、タグがマッピングされる染色体の長さとの間の割合(または割合の関数)はパラメーターである。
本明細書における「閾値の値」および「適格閾値の値」という用語は、医学的状態を有することが疑われる生物由来の核酸を含有する検査サンプルなどのサンプルを特徴付けするカットオフとして用いられる任意の数を指す。閾値をパラメーター値と比較して、そのようなパラメーター値を生じさせるサンプルは、生物が医学的状態を有することを示唆するかどうかを判定し得る。ある特定の態様において、適格閾値の値は、適格化データセットを用いて算出され、かつ生物におけるコピー数変異、例えば異数性の診断の境界として働く。本明細書において開示される方法から得られる結果が閾値を超えた場合、対象は、コピー数変異、例えばトリソミー21を有すると診断され得る。本明細書において記載される方法に対する適当な閾値の値は、サンプルのトレーニングセットに対して算出される正規化値(例えば、染色体量、NCV、またはNSV)を解析することによって同定され得る。閾値の値は、適格(すなわち、影響なしの)サンプルおよび影響ありのサンプルの両方を含むトレーニングセットにおいて、適格(すなわち、影響なしの)サンプルを用いて同定され得る。染色体異数性を有することが知られる、トレーニングセット中のサンプル(すなわち、影響ありのサンプル)を用いて、検査セットにおいて、選定された閾値は、影響ありのサンプルと影響なしのサンプルとを識別するのに有用であることを確認することができる(本明細書における実施例を参照されたい)。閾値の選定は、分類をする必要があるとユーザーが望む信頼性のレベルに依存する。いくつかの態様において、適当な閾値の値を同定するために用いられるトレーニングセットは、少なくとも10個、少なくとも20個、少なくとも30個、少なくとも40個、少なくとも50個、少なくとも60個、少なくとも70個、少なくとも80個、少なくとも90個、少なくとも100個、少なくとも200個、少なくとも300個、少なくとも400個、少なくとも500個、少なくとも600個、少なくとも700個、少なくとも800個、少なくとも900個、少なくとも1000個、少なくとも2000個、少なくとも3000個、少なくとも4000個、またはそれを上回る数の適格サンプルを含む。閾値の値の診断的実用性を向上させるために、適格サンプルのより大きなセットを用いることが有利であり得る。
「マスキング閾値」という用語は、本明細書において、それに対して配列ビンにおける配列タグの数に基づく値が比較される分量を指すために用いられ、マスキング閾値を超える値を有するビンはマスキングされる。いくつかの態様において、マスキング閾値は、パーセンタイル順位、絶対数、または他の適切な値であり得る。マスキング閾値の値は、上述される医学的状態を有することが疑われる生物由来の核酸を含有するサンプルを特徴付けするカットオフとしての閾値の値とは異なる。
本明細書における「正規化値」という用語は、関心対象の配列(例えば、染色体または染色体セグメント)に対して同定された配列タグの数を、正規化配列(例えば、正規化染色体または正規化染色体セグメント)に対して同定された配列タグの数に関連付けする数値を指す。例えば、「正規化値」は、本明細書における他の箇所で記載される染色体量であり得、またはそれは、本明細書における他の箇所で記載されるNCV(正規化された染色体値)であり得、またはそれは、本明細書における他の箇所で記載されるNSV(正規化されたセグメント値)であり得る。
「読み取り」という用語は、核酸サンプルの一部分からの配列読み取りを指す。必ずではないものの、典型的に、読み取りは、サンプルにおける連続塩基対の短い配列を表す。読み取りは、サンプル一部分の塩基対配列による記号で(ATCGで)表され得る。それをメモリー装置に保存しかつ必要に応じて加工して、それが参照配列に一致するかどうかまたは他の基準を満たすかどうかを判定し得る。読み取りは、シーケンシング機器から直接的に、またはサンプルに関する保存された配列情報から間接的に獲得され得る。ある場合には、読み取りは、より大きな配列または領域を同定するために用いられ得る、例えば染色体またはゲノム領域または遺伝子にアラインメントされ得かつ特異的に割り当てられ得る、十分な長さ(例えば、少なくとも約30bp)のDNA配列である。「ゲノム読み取り」という用語は、個体の全ゲノムにおける任意のセグメントの読み取りに対して用いられる。
「配列タグ」という用語は、本明細書において、「マッピングされた配列タグ」という用語と互換可能に用いられて、アラインメントによってより大きな配列、例えば参照ゲノムに特異的に割り当てられている、すなわちマッピングされている配列読み取りを指す。マッピングされた配列タグは、参照ゲノムに一意的にマッピングされる、すなわちそれらは、参照ゲノムに対して単一位置に割り当てられる。別様に指定されない限り、参照配列上の同じ配列にマッピングするタグは1回計数される。タグは、データ構造またはデータの他の集合体として提供され得る。ある特定の態様において、タグは、読み取り配列、およびゲノムにおける配列の位置、例えば染色体上の箇所など、その読み取りについての関連情報を含有する。ある特定の態様において、位置は、プラス鎖方向に対して指定される。タグは、参照ゲノムにアラインメントする際にミスマッチの限界量を提供するように規定され得る。いくつかの態様において、参照ゲノム上の複数の位置にマッピングされ得るタグ、すなわち一意的にマッピングしないタグは、解析に含まれ得ない。
本明細書において使用するとき、「アラインメントされた」、「アラインメント」、または「アラインメントする」という用語は、読み取りまたはタグと参照配列とを比較し、かつそれによって該参照配列が該読み取り配列を含有するかどうかを判定する過程を指す。参照配列が読み取りを含有する場合、該読み取りは該参照配列にマッピングされ得、またはある特定の態様において、該参照配列における特定の位置にマッピングされ得る。ある場合には、アラインメントは、読み取りが特定の参照配列のメンバーであるか否か(すなわち、読み取りが参照配列中に存在しているまたは存在していないかどうか)を単に伝える。例えば、ヒト第13染色体に対する参照配列への読み取りのアラインメントは、該読み取りが第13染色体に対する参照配列中に存在しているかどうかを伝える。この情報を提供するツールは、セットメンバーシップテスターと称され得る。ある場合には、アラインメントは、読み取りまたはタグがマッピングする、参照配列における位置を付加的に示す。例えば、参照配列がヒトゲノム配列全体である場合、アラインメントは、読み取りが第13染色体上に存在していることを示し得、かつ該読み取りが第13染色体の特定の鎖および/または部位にあることをさらに示し得る。
アラインメントされる読み取りまたはタグは、参照ゲノム由来の公知の配列に、それらの核酸分子の順序という点で一致するものとして同定される1つまたは複数の配列である。アラインメントは手動でなされ得るが、本明細書において開示される方法を実践するための妥当な期間で読み取りをアラインメントすることは不可能であろうため、それは典型的にはコンピューターアルゴリズムによって実践される。配列をアラインメントすることによるアルゴリズムの一例は、Illuminaのゲノム解析パイプラインの一部として配布される、ヌクレオチドデータの効率的局所的アラインメント(Efficient Local Alignment of Nucleotide Data)(ELAND)コンピュータープログラムである。代替的には、ブルームフィルタまたは同様のセットメンバーシップテスターを採用して、読み取りを参照ゲノムにアラインメントし得る。参照によりその全体として本明細書に組み入れられる、2011年10月27日に提出された米国特許出願第61/552,374号を参照されたい。アラインメントする際の配列読み取りの一致は、100%の配列一致または100%未満(不完全一致)であり得る。
「アラインメントプロファイル」という用語は、関心対象の参照配列における塩基対ビンとして同定され得る位置にアラインメントされた配列タグの分布に対して用いられる。
本明細書において用いられる「マッピング」という用語は、アラインメントによってより大きな配列、例えば参照ゲノムに配列読み取りを特異的に割り当てることを指す。
本明細書において使用するとき、「参照ゲノム」または「参照配列」という用語は、対象由来の同定された配列を参照するために用いられ得る、任意の生物またはウイルスの、部分的または完全であるかどうかにかかわらない、任意の特定の公知のゲノム配列を指す。例えば、ヒト対象ならびに他の多くの生物に用いられる参照ゲノムは、国立生物工学情報センター(National Center for Biotechnology Information)でncbi.nlm.nih.gov.にて見出される。「ゲノム」とは、核酸配列で構成される、生物またはウイルスの完全な遺伝情報を指す。
様々な態様において、参照配列は、それに対してアラインメントされる読み取りよりも有意に大きい。例えば、それは少なくとも約100倍大きく、または少なくとも約1000倍大きく、または少なくとも約10,000倍大きく、または少なくとも約105倍大きく、または少なくとも約106倍大きく、または少なくとも約107倍大きくあり得る。
一例において、参照配列は、全長ヒトゲノムのものである。そのような配列は、ゲノム参照配列と呼ばれ得る。別の例において、参照配列は、第13染色体などの特定のヒト染色体に限定される。いくつかの態様において、参照Y染色体は、ヒトゲノムバージョンhg19からのY染色体配列である。そのような配列は、染色体参照配列と呼ばれ得る。参照配列の他の例には、他の種のゲノム、ならびに任意の種の染色体、染色体部分(sub-chromosomal)領域(鎖など)等が含まれる。
様々な態様において、参照配列は、複数の個体に由来するコンセンサス配列または他の組み合わせである。しかしながら、ある特定の適用において、参照配列は、特定の個体から選ばれ得る。
本明細書における「臨床的に関連する配列」という用語は、遺伝的状態または疾患状態と関連するまたは関与することが知られるまたは疑われる核酸配列を指す。臨床的に関連する配列の有無を判定することは、診断を決定するもしくは医学的状態の診断を裏付けすることにおいて、または疾患の発症の予後を提供することにおいて有用であり得る。
「由来する」という用語は、本明細書において、核酸または核酸の混合物の文脈で用いられる場合、核酸が、それらが起因する供給源から獲得される手段を指す。例えば、一態様において、2種の異なるゲノムに由来する核酸の混合物は、該核酸、例えばcfDNAが、ネクローシスまたはアポトーシスなどの天然に存在する過程を通じて、細胞によって天然に放出されたことを意味する。別の態様において、2種の異なるゲノムに由来する核酸の混合物は、該核酸が、対象由来の2種の異なるタイプの細胞から抽出されたことを意味する。
「に基づく」という用語は、本明細書において、特定の定量値を得る文脈で用いられる場合、別の分量をインプットとして用いて、特定の定量値をアウトプットとして算出することを指す。
本明細書における「患者サンプル」という用語は、患者、すなわち医学的な配慮、ケア、または治療のレシピエントから得られた生物学的サンプルを指す。患者サンプルは、本明細書において記載されるサンプルのいずれかであり得る。ある特定の態様において、患者サンプル、例えば末梢血サンプルまたは排泄物サンプルは、非侵襲的手順によって得られる。本明細書において記載される方法は、ヒトに限定される必要はない。ゆえに、様々な獣医学的適用が企図され、その場合には、患者サンプルは、非ヒト哺乳類(例えば、猫、豚、馬、牛など)由来のサンプルであり得る。
本明細書における「混合サンプル」という用語は、異なるゲノムに由来する核酸の混合物を含有するサンプルを指す。
本明細書における「母体サンプル」という用語は、妊娠した対象、例えば女性から得られた生物学的サンプルを指す。
本明細書における「生物学的流体」という用語は、生物学的供給源から採取された液体を指し、例えば血液、血清、血漿、痰、洗浄液、脳脊髄液、尿、精液、汗、涙、唾液などを含む。本明細書において使用するとき、「血液」、「血漿」、および「血清」という用語は、画分またはその加工された一部分を明示的に包含する。同様に、サンプルが、生検、スワブ、スメアなどから採取される場合、「サンプル」は、生検、スワブ、スメアなどに由来する加工された画分または一部分を明示的に包含する。
本明細書における「母体核酸」および「胎児核酸」という用語は、それぞれ、妊娠した雌性対象の核酸および妊娠した雌によって宿されている胎児の核酸を指す。
本明細書において使用するとき、「に対応する」という用語は、異なる対象のゲノムに存在しており、かつすべてのゲノムにおいて必ずしも同じ配列を有するわけではないが、関心対象の配列、例えば遺伝子または染色体の遺伝情報よりも、素性を提供するのに役立つ核酸配列、例えば遺伝子または染色体を指すこともある。
本明細書において使用するとき、所望のサンプルに関連して用いられる「実質的に無細胞」という用語は、サンプルに通常付随している細胞成分が除去されている、所望のサンプルの調製物を包含する。例えば、血漿サンプルは、それに通常付随している血液細胞、例えば赤血球を除去することによって実質的に無細胞の状態になる。いくつかの態様において、実質的に無細胞のサンプルは、そうでなければ、CNVについて検査される対象となる所望の遺伝物質に寄与すると考えられる細胞を除去するように加工される。
本明細書において使用するとき、「胎児画分」という用語は、胎児および母体の核酸を含むサンプル中に存在している胎児核酸の画分を指す。胎児画分は、しばしば、母親の血中におけるcfDNAを特徴付けするために用いられる。
本明細書において使用するとき、「染色体」という用語は、DNAおよびタンパク質成分(とりわけ、ヒストン)を含むクロマチン鎖に由来する、生細胞の遺伝性を担う遺伝子キャリアを指す。本明細書においては、国際的に認められた従来的な個々のヒトゲノム染色体付番システムが採用される。
本明細書において使用するとき、「ポリヌクレオチド長」という用語は、配列におけるまたは参照ゲノムの領域における、核酸分子(ヌクレオチド)の絶対数を指す。「染色体長」という用語は、塩基対で与えられる、例えばワールド・ワイド・ウェブでgenome.ucsc.edu/cgi-bin/hgTracks?hgsid=167155613&chromInfoPage=にて見出されるヒト染色体についてのNCBI36/hg18アセンブリで提供される、染色体の公知の長さを指す。
本明細書における「対象」という用語は、哺乳動物、無脊椎動物、脊椎動物、真菌、酵母、細菌、およびウイルスなど、ヒト対象ならびに非ヒト対象を指す。本明細書における例はヒトに関し、かつ言葉は主にヒト関係事項に向けられているが、本明細書において記載される概念は、任意の植物または動物由来のゲノムに適用可能であり、かつ獣医学、動物科学、研究用実験室などの分野において有用である。
本明細書における「状態」という用語は、人間の健康に影響を及ぼし得、医学的支援からの恩恵を受け得、または医学的治療に関わりがあり得る、すべての疾患および障害を含むが、[負傷]および妊娠など正常な健康の状況を含み得る広義の用語としての「医学的状態」を指す。
「完全な」という用語は、本明細書において染色体異数性に対して用いられる場合、染色体全体の増大または損失を指す。
「部分的」という用語は、本明細書において染色体異数性に対して用いられる場合、染色体の一部分、すなわちセグメントの増大または損失を指す。
本明細書における「モザイク」という用語は、単一受精卵から発生した1つの個体において、異なる核型を有する細胞の2つの集団の存在を示すことを指す。モザイクは、発生の間の突然変異により生じ得、それは成体細胞の部分集団のみに伝わる。
本明細書における「非モザイク」という用語は、1種の核型の細胞から構成される生物、例えばヒト胎児を指す。
「染色体を用いる」という用語は、本明細書において、染色体量を決定することに対して用いられる場合、染色体に関して得られた配列情報、すなわち染色体に関して得られた配列タグの数を用いることを指す。
本明細書において用いられる「感度」という用語は、真陽性および偽陰性の合計で割った、真陽性の数に相当する。
本明細書において用いられる「特異性」という用語は、真陰性および偽陽性の合計で割った、真陰性の数に相当する。
本明細書における「富化する」という用語は、母体サンプルの一部分に含有される多型標的核酸を増幅し、かつ増幅産物と、該一部分が取り出された母体サンプルの残りとを組み合わせる過程を指す。例えば、母体サンプルの残りは、元の母体サンプルであり得る。
本明細書における「元の母体サンプル」という用語は、そこから一部分が取り出されて多型標的核酸を増幅する供給源として働く、妊娠している対象、例えば女性から得られた、富化されていない生物学的サンプルを指す。「元のサンプル」は、妊娠している対象から得られた任意のサンプル、およびその加工された画分、例えば母体血漿サンプルから抽出された精製cfDNAサンプルであり得る。
本明細書において用いられる「プライマー」という用語は、伸長産物の合成にとって誘導的な条件下に置かれた場合に、合成の開始点として作用し得る単離オリゴヌクレオチドを指す(例えば、条件には、ヌクレオチド、DNAポリメラーゼなどの誘導剤、ならびに適切な温度およびpHが含まれる)。プライマーは、増幅の最大効率のために好ましくは一本鎖であるが、代替的に二本鎖であり得る。二本鎖の場合、プライマーは、伸長産物を調製するために用いられる前に、その鎖を分離するようにまず処理される。好ましくは、プライマーはオリゴデオキシリボヌクレオチドである。プライマーは、誘導剤の存在下で伸長産物の合成を点火するのに十分に長くなければならない。プライマーの正確な長さは、温度、プライマーの供給源、方法の使用法、およびプライマー設計に用いられるパラメーターを含めた多くの因子に依存する。
「投与させる(cause to be administered)」という語句は、問題の剤/化合物の対象への投与を制御しかつ/または許可する医学専門家(例えば、医師)、つまり対象の医学的ケアを制御するまたは指揮する人間によって取られる行動を指す。投与させることは、診断、および/または適当な治療的もしくは予防的レジメンの決定、ならびに/あるいは対象に対して特定の剤/化合物を処方することを伴い得る。そのような処方には、例えば処方箋書式を書くこと、医療記録に注釈付けすることなどが含まれ得る。同様に、例えば診断手順に関する「実施させる(cause to be performed)」とは、対象へのまたは対象に対する1つまたは複数の診断プロトコールの実施を制御しかつ/または許可する医学専門家(例えば、医師)、つまり対象の医学的ケアを制御するまたは指揮する人間によって取られる行動を指す。
序論
2種の異なるゲノムに由来する核酸の混合物を含み、かつ関心対象の1種または複数種の配列の量が異なることが知られるまたは疑われる検査サンプルにおける、関心対象の種々の配列のコピー数およびコピー数変異(CNV)を判定するための、方法、機器、およびシステムが本明細書において開示される。本明細書において開示される方法および機器によって判定されるコピー数変異には、染色体全体の増大または損失、顕微鏡で見える非常に大きな染色体セグメントを伴う変更、およびサイズが単一ヌクレオチドからキロベース(kb)に、メガベース(Mb)に及ぶDNAセグメントの多数の超顕微鏡的(sub-microscopic)コピー数変異が含まれる。
方法は、任意の胎児異数性についてのCNV、および多様な医学的状態と関連することが知られるまたは疑われるCNVを判定することに適用可能である。ヒト対象を伴ういくつかの態様において、本方法に従って判定され得るCNVには、検査サンプルの核酸を1回だけシーケンシングすることによって検出され得る、第1〜22、X、およびY染色体のうちのいずれか1種または複数種のトリソミーおよびモノソミー、他の染色体ポリソミー、ならびに該染色体のうちのいずれか1つまたは複数のセグメントの欠失および/または重複が含まれる。任意の異数性は、検査サンプルの核酸を1回だけシーケンシングすることによって得られるシーケンシング情報から判定され得る。
ヒトゲノムにおけるCNVは、ヒト多様性および疾患にかかりやすい傾向に重大に影響する(Redon et al., Nature 23:444-454 [2006]、Shaikh et al. Genome Res 19:1682-1690 [2009])。CNVは、種々のメカニズムを通じて遺伝的疾患に寄与することが知られており、ほとんどの場合において遺伝子量の不均衡または遺伝子破壊のいずれかをもたらす。遺伝的障害とのそれらの直接的な相関に加えて、CNVは、有害であり得る表現型変化を仲介することが知られる。近年、いくつかの調査により、正常対照と比較して、自閉症、ADHD、および統合失調症などの複雑な障害における、希少なまたは新たなCNVの負荷の増加が報告されており、希少なまたは特有のCNVの潜在的病原性を浮き彫りにしている(Sebat et al., 316:445-449 [2007];Walsh et al., Science 320:539-543 [2008])。CNVは主に欠失、重複、挿入、および不平衡転座の事象による、ゲノム再編成により生じる。
本明細書において記載される方法および機器は、超並列シーケンシングである次世代シーケンシング技術(NGS)を採用し得る。ある特定の態様において、クローン的に増幅されたDNA鋳型または単一DNA分子を、フローセル内にて超並列形式でシーケンシングする(例えば、Volkerding et al. Clin Chem 55:641-658 [2009];Metzker M Nature Rev 11:31-46 [2010]に記載されている)。ハイスループットな配列情報に加えて、NGSは、各配列読み取りが、個々のクローン的DNA鋳型または単一DNA分子を表す計数可能な「配列タグ」であるという点において、定量的な情報を提供する。NGSのシーケンシング技術には、パイロシーケンシング、可逆的ダイターミネーターを伴う合成によるシーケンシング、オリゴヌクレオチドプローブライゲーションによるシーケンシング、およびイオン半導体シーケンシングが含まれる。個々のサンプル由来のDNAを個々にシーケンシングして(すなわち、シングルプレックスシーケンシング)、または複数のサンプル由来のDNAをプールしかつ単一シーケンシングランで指標付きゲノム分子としてシーケンシングして(すなわち、マルチプレックスシーケンシング)、最高数億個のDNA配列の読み取りを生成することができる。本方法に従って配列情報を獲得するために用いられ得るシーケンシング技術の例は、本明細書において後に記載される。
DNAサンプルを用いた様々なCNV解析は、シーケンサーからの配列読み取りを参照配列にアラインメントするまたはマッピングする工程を伴う。参照配列は、ゲノム全体の配列、染色体の配列、染色体部分領域などであり得る。参照配列の特徴により、Y染色体のCNVについての診断は、Y染色体の網羅率が常染色体のものよりも低く、かつY染色体上の反復配列が、読み取りのそれらの正しい位置へのマッピングを複雑にするため、常染色体と比較して高度の技術的課題を伴う。現在のNGS技術によって入手可能な約10Mbの一意的なY配列が存在するが、母体サンプルにおける胎児cfDNAの量が、母体DNAのものよりも少なくとも1桁低い胎児診断の世界において、性別検出は依然として困難な仕事であり、非特異的マッピングの問題を際立たせている。
加えて、いくつかの現在のシーケンシングプロトコールは、25merの読み取りおよびタグなどの超短読み取りを利用する。ヒトゲノムのほぼ半分は反復によって網羅されているため、シーケンシングプロトコールの過程において利用される超短シーケンシングは、配列アラインメントに関する技術的課題を提示した短い読み取り長をもたらし、その多くについては数十年にわたって知られている。コンピューターによる見通しから、反復は、アラインメントにおいて曖昧性を創出し、それが今度は、染色体全体の計数レベルでさえバイアスおよびエラーを産生し得る。雌性胎児を有する妊娠している女性由来のサンプルにおける、15種の最もよく見られるY染色体(chrY)25merについての症例調査により、それらはすべて、ヒトゲノムにおける最も豊富な反復配列から1編集距離以内に入ることが示された。このことは、読み取りを参照ゲノムにアラインメントする過程において固有である問題:供給源DNAは参照と事実上決して同一ではなく、かつY染色体上の正しくない箇所への読み取りの体系的アラインメントは、誤った性別推論に必然的につながることを例証している。ヒトゲノムは、NGS技術、とりわけ現在利用されている超短読み取りシーケンシングによって産生される読み取りよりも長い、200〜500bpの範囲の数百万コピーの反復を有し、それゆえY染色体上の一意的なかつ非冗長の読み取りについての標的化ポストフィルタリングの必要性がある。
ヒトY染色体は、異質染色質、偽常染色体(pseudoautosomal)、X転位(X-transposed)、X縮退(X-degenerate)、およびアンプリコンから構成される不均一性であり、図1を参照されたい。具体的には、
1. Y染色体の雄性特異的領域の相当部分は、長腕上の単一〜40Mb質量の異質染色質を含めた、異質染色質配列のいくつかの離散ブロックを含む。
2. 偽常染色体領域(PAR)は、YおよびX染色体の最末端に位置し、かつY染色体配列全体の小部分をなす。
3. 3.4Mbに渡るXからYへの転位事象に起因する、X転位領域。
4. X縮退配列は、X染色体の劣化したバージョンである。それらは、16種の単一コピー遺伝子がまばらに投入されている。
5. アンプリコン配列は、重複配列の長い伸長から専ら構成される。
読み取りを参照配列に正確にマッピングすることは、次世代シーケンシングにとって最も重大な仕事の1つであり、それは商業的なNGSシステム適用において、とりわけ、Y染色体読み取りの正確なマッピングに依存する性別コール(calling)において、依然として最も困難な領域の1つである。Duke 25merマッピング能(mapability)トラック(UCSCのGenome Browser内で利用可能)は、全25塩基配列の一意性を反映し、かつchrYの11Mbのみが完全に一意的であることを示唆している。とはいえ、chrYのマッピングされた読み取り計数を一意的配列に限定することは、chrY総計数を、雄性網羅域(coverage estate)の大部分および雌性網羅域のすべてに対応する性別非判別ヒットから保護するわけではない。いくつかの従来的フィルタリング法は、マッピングされた読み取りの非一意性に対処しており:配列読み取りの配列タグへの変換は、複数のゲノム箇所にマッピングするすべての読み取りを除去する工程を伴い;かつタグの部位への変換は、同じゲノム箇所にマッピングする重複25merを除去する過程である。しかしながら、より良好な診断結果を達成するために、より効率的なフィルタリング法が望ましい。
非特定の商業的雌性サンプルのコホート内に存在している共通chrYタグの多くについての調査により、性別非判別タグは、高度に重複したゲノム領域内で起きたシーケンシングエラーを表すことが示唆されている。例えば、1種の特異的25merは、ゲノムにわたり10,000+個のヒットおよびY染色体上でゼロ個のヒットを与え、それにもかかわらず単一ミスマッチを有する類似25merは、Y染色体を除くゲノムにわたりゼロ個のヒットおよびY染色体上で単一ヒットを産生する。それゆえ、性別非判別タグは、最も高頻度なゲノム重複/反復を有する25merから短い編集距離内にある25merのコホートに対応する。
本明細書において開示されるいくつかの態様は、雌性サンプルの代表的トレーニングセットを用いた、Y染色体上の非判別配列読み取りをフィルター除去する(またはマスキングする)ためのストラテジーを記載する。いくつかの態様において、このフィルタリングストラテジーは、常染色体上の配列のコピー数変異についての評価のために、常染色体をフィルタリングすることにも適用可能である。
いくつかの態様において、参照配列は、何個の読み取りが参照配列にマッピングされるかを判定する場合に考慮されない、マスキングされたまたは除外された領域を含有する。そのような領域は、他の位置における配列に同一であるまたはほぼ同一である配列を有し得る。したがって、そのようなマッピングのいずれかは問題であり得る。Y染色体にマッピングされた読み取りは、ゲノムにおける、例えばX染色体における別の位置に実際には起因し得る。そのような場合、偽陽性が起こり得る。いくつかの態様において、参照配列に同一にマッピングされた読み取りは、配列タグを計数してマスクを決定する前に、読み取りからタグへの変換中に除外される。そのような態様において、Y染色体にほぼ同一にマッピングされた読み取りは、上述の問題をなおも提示する。本明細書において開示されるいくつかの態様は、Y染色体上で除外されるまたはマスキングされる対象となる領域を決定するための技法に関する。いくつかの態様において、参照配列をマスキングするための技法は、Y染色体以外の染色体に適用可能である。
いくつかの実践において、参照配列上の除外された領域は、マッピングに依然として利用可能である。そのような場合、まず、読み取りは、除外された領域にアラインメントされて配列タグをもたらすが、その後、マスキングされた領域上に収まった配列タグは、後続の算出および分類において考慮されない。代替的な実践において、除外された領域は、参照配列から単に除去され、そのため読み取りは除外された領域にマッピングし得ない。しかしながら、この後者の手法は、ゲノム上の他の箇所に出現する偶発ヒットにつながり得る。例えば、胎児のY染色体からの雄性胎児の読み取りの一部は、非Y参照染色体にマッピングされると考えられる。この手法において、そのような偶発ヒットは、それに応じて対処される必要がある。
本明細書において開示される、Y染色体をフィルタリングする経験的方法は、性別非判別領域についての事前に規定された/事前に算出された考えに依存しない。しかしながら、種々のバージョンのアッセイ間で保存され、かつY染色体の根本的反復構造を反映する、かなり顕著な「マスキング」構造が存在する。図2は、一態様において、マスキングされるY染色体のセグメントの一例を示している。マスキングされたセグメントは、プロットのY軸上に示されたY染色体塩基対数によって指標付けされた濃いバンドに相当する。いくつかの態様において、マスキングされたY染色体は、事前に算出され得、かつY染色体のコピー数についての評価のための参照配列として用いられ得る。見て分かるように、マスクビンの大部分は2 e7箇所を下回る。いくつかの態様において、マスクビンの少なくとも約80%は3 e7箇所を下回る。いくつかの態様において、マスクビンの少なくとも約90%は3 e7箇所を下回り、かつビンの残りのほとんどまたはすべては、5.5 e7〜6.2 e7箇所の領域に収まる。
参照配列をマスキングする
本明細書において開示されるいくつかの態様は、雌性サンプルの代表的トレーニングセットを用いた、Y染色体上の非判別配列読み取りをフィルター除去する(またはマスキングする)ためのストラテジーを採用する。いくつかの態様において、該フィルタリングストラテジーは、常染色体上の配列のコピー数変異についての評価のために、常染色体をフィルタリングすることにも適用可能である。いくつかの態様において、参照Y染色体は、ヒトゲノムバージョンhg19からのY染色体配列である。本明細書において記載される方法によって生成されるマスキングされた参照配列を用いると、性別を確実に判定することができ、かつ/または従来的方法と比べて向上した感度、選択性、および/もしくは効率で、コピー数およびCNVに関係した様々な遺伝的状態を判定することができる。
いくつかの態様において、臨床的雌性サンプルの代表的コホートにおけるそれらの経験的頻度の発生率に基づき、一意的にマッピングされた非冗長の読み取り(例えば、25mer)のY染色体フィルタリングのための過程が提供される。図3A〜3Bは、胎児および母体の無細胞核酸を含む検査サンプルにおける、Y染色体のコピー数についての評価のための方法の態様についてのブロック図を示している。いくつかの態様において、方法は、1つまたは複数のプロセッサーおよびシステムメモリーを含むコンピューターシステムで実践される。
図3Aは、ブロック200の方法の態様についてのブロック図を示している。これらの態様に従って、方法は、まず、第1の複数の雌性個体の核酸サンプルから測定されたゲノム読み取りを含むトレーニングセットを提供する、ブロック210。以降に記載されるいくつかの態様において、トレーニングセットは、検査される対象となる集団と比べて、該トレーニングセットの代表性を最大限に高める方法によって選択される。いくつかの態様において、ゲノム読み取りは、超短配列(例えば、25bpの配列)を含む。いくつかの態様において、Y染色体のコピー数についての評価を用いて、胎児の性別を判定する。
いくつかの態様において、方法は、トレーニングセットのゲノム読み取りをY染色体の参照配列にアラインメントする工程をさらに伴う(ブロック220)。典型的には、トレーニングセットのサンプルのゲノム由来の配列のゲノム読み取りを、完全なまたはほぼ完全なY染色体を含む参照ゲノムにアラインメントする。アラインメントは、アラインメントされたゲノム読み取りを含むトレーニング配列タグ、およびY染色体の参照配列上でのそれらの位置を提供する(ブロック230を参照されたい)。
さらに、方法は、参照配列を特定のサイズのビンに分割する工程を伴う(ブロック240を参照されたい)。この分割は、ゲノム読み取りをアラインメントする前に実施され得る。次いで、方法は、各ビンに位置するトレーニング配列タグの計数を決定する(ブロック250を参照されたい)。方法は、マスキング閾値を超えるビンをマスキングし、それによってY染色体のマスキングされた参照配列を提供する工程をさらに伴う(ブロック260を参照されたい)。いくつかの態様において、方法は、マスキング閾値を決定する工程も伴う。下記でさらに記載されるように、Y染色体のマスキングされた参照配列を用いて、検査サンプルにおけるY染色体のコピー数を解析することができる。
トレーニングセットを選択する
典型的には、Y染色体のコピー数評価のトレーニング目的のために、雌性サンプルの無作為サンプルセットが用いられる。理想的なシナリオにおいて、トレーニングセットは、検査サンプルと同様のY染色体アラインメントプロファイルを有する雌由来のゲノム読み取りの大きなセットである。そのため、トレーニングセット選択の目標は、それを可能な限り代表的なものにすることであり得、以下の特性のうちの1つまたは複数を維持する。(1)トレーニングセットは、元のデータセットと比較してサイズが有意に小さい。(2)それは、同じサイズの任意の部分集団と比較して、元のデータセットからの情報のほとんどを捉えている。(3)それは、それが含有する代表的なものの間で低い冗長性を有する。(4)適正データは、依然として検証結果を実証しなければならない。
雌性集団は、Y染色体に対する「アラインメントプロファイル」において相当な不均一性を有する。この文脈におけるアラインメントプロファイルとは、雌性サンプル由来の配列タグのY染色体内での分布である。一部の雌性サンプルは、Y染色体の特定の領域にアラインメントする読み取りを有するが、一方で他の雌性サンプルはそうではない。Y染色体の有効なマスクは、広範な雌性遺伝子型にわたって適用可能であるべきである。この目的のために、Y染色体上でのマスクの位置は、多数の雌性サンプルから同定される異なるアラインメントプロファイルを意図的に考慮することによって選択される。
いくつかの態様は、トレーニングセットを選択して、集団における多くの異なるタイプの雌性サンプルにわたって偽陽性(雄の性別同定)の出現率を低減させる、Y染色体に対するマスクを生成するための方法を提供する。雌性サンプルは、参照Y染色体へのサンプルマッピングからの読み取りの分布によって特徴付けされ得る。各雌性サンプルは、Y染色体におけるアラインメントプロファイルと呼ばれ得る、それ独自の分布を有すると考えられる。
Y染色体の有効なマスキングされた参照配列を提供するために、トレーニングセットのための雌性サンプルは、集団全般において表される広範なアラインメントプロファイルを網羅するように選択される。
トレーニングセットにおいて用いられる対象となるサンプルを選択するために、様々な技法を採用することができる。用いられ得る1つの技法は、サンプルのクラスタリングおよび各クラスターからサンプルを選択する工程を要する。他の技法を適用して、検査される対象となる集団を代表するトレーニングセットを選択し得、したがって参照配列の有用なマスクを導き出す適正な情報が提供される。実践され得る、トレーニングセット選択のための他の方法には、供給業者、試薬、計器、作業者、および特定の臨床サンプルパラメーター、例えばcfDNA収量などに関する意図的なサンプル多様化が含まれるが、それらに限定されるわけではない。
いくつかの態様において、トレーニングセット選択技法により、雌性サンプルは、アラインメントプロファイルの類似性に基づくクラスターに分割される。クラスタリング技法を実践して、妥当な数のクラスター(例えば、約10〜30個)を提供する。一態様において、雌性DNAサンプルを20個のクラスターに分ける。その後、各クラスターからいくつかのサンプルを選択して、トレーニングセットに投入する。ある特定の態様において、サンプルは各クラスターから無作為に選択される。
ある特定の態様において、各クラスターから同じ数のサンプルが選択される(例えば、各クラスターから15個のサンプルが選択される)。クラスターが、選択のために要求される数に満たないサンプルを有する場合、該クラスターのすべてのメンバーが選択される。他の態様において、各クラスターから選択されるメンバーの数は、該クラスターの相対的サイズによって決定される。例えば、相対的に多くの数のメンバーを有するクラスターは、トレーニングセットに対して、相対的に多くの数のメンバーを寄与する。逆に、相対的に少ない数のサンプルを有するクラスターは、トレーニングセットに対して、相対的に少ない数のメンバーを寄与する。いくつかの実践において、各クラスターの寄与は、そのサンプル数の割合である。
いくつかの態様において、トレーニングサンプルのクラスタリングは、クラスターの階層ツリーである、階層型順序付き分割および縮小のハイブリッド(HOPACH)というハイブリッドクラスタリング法によって実施される。M. van der Laan and K. Pollard. A new algorithm for hybrid hierarchical clustering with visualization and the bootstrap. Journal of Statistical Planning and Inference, 117:275-303, 2003を参照されたい。HOPACH方法論は、分配クラスタリング法および凝集クラスタリング法の両方の強みを組み合わせ、かつ研究者が、増加したレベルの詳細でクラスターを再検討することを可能にする。態様についてのさらなる詳細は、実施例2に例証されている。
Y染色体に対するマスクを規定する
Y染色体のCNV解析を伴ういくつかの態様において、Y染色体のマスクは、複数のマスクセグメントから構成される。各セグメントは1つまたは複数のビンを含み、該セグメントは長さおよび開始点を有する。いくつかの態様において、開始点は、Y染色体配列上の規定された位置からのずれとして規定され得る。マスクセグメントを決定する過程において、特定のビンサイズを想定し得る。一例において、長さは1Mbであり、別の例において、長さは1kbである。原理上、ビンサイズは、単一読み取りの長さ、例えば長さが約20〜50塩基対まで下方に伸長し得る。いくつかの態様において、1kbのビンサイズを用いた方法は、1Mbのビンサイズよりも良好に機能することが示されている。
いくつかの態様において、ビンのサイズを、判別解析または他の技法によって調整することができる。いくつかの態様において、シーケンサー読み取りのサイズまで下げた任意に小さなビンサイズが適当であると考えられる。他方で、シーケンシングプロトコールおよび計算効率は、より大きなサイズを要求し得る。いくつかの態様において、ビンサイズの選択は、ヒトゲノムにおいて見られる反復の最も頻度が高いサイズによって推進される。いくつかの実践において、500〜1000bpの範囲にあるビンは、初回ビン化(binning)に上手く機能し、それを後にビンのマージ(bin merging)で連結させて、最終的なマスキングセグメントのセットを作り出すことができる。Treangen TJ, Salzberg SL. Repetitive DNA and next-generation sequencing: computational challenges and solutions. Nat Rev Genet. 2011 Nov 29;13(1):36-46. doi: 10.1038/nrg3117。しかしながら、他の技術的制約が、ビンサイズ、例えばマスキングセグメントの総計数の上限の増加などにおそらく寄与し得る。
いくつかの態様において、トレーニングセットの各メンバーの配列を用いて、考え得るすべての読み取りを生成する。それらの読み取りのそれぞれを、参照Y染色体との一致またはアラインメントについてチェックする。いくつかの態様において、アラインメントは、読み取りにおける最高2個の塩基ミスマッチを許す。いくつかの態様において、アラインメントアルゴリズムは、読み取りが参照染色体の一部分と正確に一致する場合だけでなく、該読み取りの1個または2個の塩基変異が該参照染色体の一部分と一致する場合にも、一致を提供する。サンプルのクラスタリングおよび配列タグの算出は、正確な一致を要求するまたはミスマッチを許すアラインメントに限定されるわけではない。
トレーニングセットにおける各雌性サンプルを解析して、雌性サンプルからの読み取りがどのように参照Y染色体にアラインメントされるかに基づき、配列タグのアラインメントプロファイルを作り出す。参照Y染色体を、典型的には、等しいサイズのビンに分割する。アラインメントプロファイルは、参照Y染色体の各ビンにおける配列タグの数を提供する。参照Y染色体のビンのそれぞれは、トレーニングセットのメンバーに対する読み取りの計数によって選別される;すなわち、最も大きな比率を占めるビンが、マスキングの最上位候補である。
いくつかの態様において、少なくとも1つの計数を有するすべてのビンを、マスキングに考慮する。いくつかの態様において、実際に除去されるそのようなビンの数、またはより厳密には、実際に除去されるそのようなビンの部分は、経験的に選択され得る。トレーニングセットからの最大の数の計数を有するビンである最高位のビンは、除去される対象となる最初のビンである。2番目に最大の数の計数を有するビンは、除去される対象となる2番目のものである、など。ゆえに、マスキングのための閾値割合が非常に低い場合でさえ、典型的に、最上位に順位付けされるビンは、それにもかかわらず除去されると考えられる。閾値が50%に設定される場合、ビンの2分の1がマスキングされる。それらは、50パーセンタイルおよびそれを上回る割合で計数値を有するビンである。いくつかの態様において、マスキング閾値は、90パーセンタイルまたはそれを上回る割合に設定される。
上記の態様において、マスキングされる対象となるビンの閾値数は、雄/雌または異数性の判別測定基準などの判別測定基準を用いて経験的に決定される。いくつかの態様において、シグナル対ノイズ比が、上記で記載されるような測定基準として用いられ得る。当技術分野において公知の他の判別測定基準も採用され得る。
Y染色体のコピー数を判定する
いくつかの態様において、上記で記載されるY染色体フィルタリング技法を用いて、Y染色体のコピー数を判定する。図2Bは、Y染色体のコピー数についての評価のための方法の態様についてのブロック図を示している(ブロック200)。方法は、上記で記載される様々な態様に従って決定される、Y染色体のマスキングされた参照配列を提供する(ブロック260を参照されたい)。方法は、シーケンサーを用いて検査サンプル由来の無細胞核酸をシーケンシングし、それによって検査サンプルのゲノム読み取りを生成する工程をさらに伴う(ブロック262)。サンプルおよびサンプル加工方法は、以降にさらに詳細に記載されている。サンプルは、以降に記載される方法によってシーケンシングされ得る。方法は、検査サンプルのゲノム読み取りを参照配列にアラインメントする工程264、アラインメントされたゲノム読み取りを含む検査配列タグ、および参照配列上での位置を提供する工程266をさらに伴う。典型的には、検査サンプル読み取りを、マスキングされていない参照配列にアラインメントするが、とはいえ読み取りを、マスキングされた参照配列にアラインメントすることも可能である。いくつかの態様において、マスキングされていない参照配列にアラインメントすることは、より良好な結果をもたらし得る。これは、アラインメントがある程度のミスマッチを許す場合にとりわけ当てはまり得る。
いくつかの態様において、方法は、Y染色体のマスキングされた参照配列上の検査配列タグの計数を測定する工程をさらに伴う(ブロック268)。次いで、方法は、マスキングされた参照配列上の検査配列タグの計数に基づき、検査サンプルにおけるY染色体のコピー数を評価し得る。ブロック270を参照されたい。
Y染色体以外の染色体をマスキングする
いくつかの態様において、上記で記載されるY染色体フィルタリング技法は、CNVについての評価または他の目的のために他の染色体に拡大され得る。そのような態様において、フィルタリング法は、まず、全ゲノムフィルタリングに対するトレーニングセットを選択して、関心対象の公知の異常な遺伝的状態または異数性を有しない正常サンプルの個別のクラスターを表現する工程を伴う。トレーニングセットは、例えば、Y染色体に対する上記で記載された手法にあるようにクラスター表現を最大限に高めることによって選択される。検証のために、確認された異数性を有する公知の影響ありのサンプルを、トレーニングセットにはない正常サンプルのセットとともに用いる。
いくつかの態様において、方法は、トレーニングセットにおけるすべてのサンプルにわたる、事前に規定されたサイズの、重なり合わないあらゆるゲノムビンに対する(例えばchrYに限定されない)、非重複配列タグの総計数を決定する工程を伴う。いくつかの態様において、方法は、ビンにわたる網羅率中央値(例えば全ゲノム規模、常染色体規模、または染色体内で算出される中央値)によって近似され得る予想される計数を、ビン配列タグ計数から差し引くことによる標準化を伴う。代替的には、中央値の代わりに、平均またはトレーニングセットを代表する他の値が用いられ得る。
次いで、中央値/平均からの偏差の値をマスキング閾値と比較する。該閾値を超えるビンを、参照配列からマスキングする。これらのビンは、異常でないトレーニングセット内に存在する、配列タグ計数の比較的大きなゆらぎを含有する。したがって、これらのビンにおける配列タグ計数は、影響なし対影響ありのコホートを判別するための判別測定基準を導き出すために用いられる場合、ノイズになる傾向がある。参照配列からこれらのビンをマスキングするまたはフィルター除去することによって、2つのコホート間の判別は、いくつかの態様において向上する。いくつかの態様において、中央値からの正の偏差のみをマスキングに考慮し、非参照配列からの読み取りのミスアラインメントによる、配列タグの過剰出現を有するビンは除去される。
次いで、SNR算出において、方法は、影響ありの検証コホート対独立した影響なしのコホートの間の判別を考慮し、かつ関心対象のすべての染色体(例えば、第13、第18、および/または第21染色体)にわたるコンセンサスにより、最適なマスキング閾値の値を見出し、該最適なマスキング閾値の値とは、影響あり対影響なしのコホートを識別するための判別測定基準についての最高のSNRをもたらす値である。
最後に、方法は、最適なマスキング閾値の値を超える配列タグ計数を有するビンを含むマスクを提供する。該マスクを、CNVについての評価に用いられる参照配列に適用する。
いくつかの態様において、過程は、以下の一連の作業によって特徴付けされ得る。
1. 関心対象のゲノム領域において、CNVによる影響を受けていない複数のサンプルのそれぞれに対して、読み取りのトレーニングセットを受け取る。
2. 読み取りを参照ゲノム(または他の大きなゲノム参照配列)にアラインメントする。
3. 参照ゲノムにおける複数の等しいサイズのビンのそれぞれにおけるタグの数を決定する。
4. 参照配列の多くまたはすべてにわたって算出されたタグ計数中央値(または平均)を差し引くことによって、サンプルのビンにおけるタグ計数を標準化する。標準化は、トレーニングセットの各メンバーに対して行われ得る。標準化は任意の工程である。
5. ビンを、それらの標準化計数に基づき順位付けする。負の標準化計数を有するビンを切り捨てる。より大きな値を有するビンを、まずマスキングする。
6. 順位付けされたビンの部分における種々の閾値を評価して、影響ありおよび影響なしのサンプルを判別し得る閾値の能力に対してマスキングする。マスクは、検査のための関心対象の1種または複数種の染色体に対して(またはゲノムの別の領域に対して)規定され得る。
7. 判別力に基づき閾値を決定し、かつ閾値を上回る高位に順位付けされたすべてのビンを含めることによってマスクを規定する。
このストラテジーは、ベースラインと比較して網羅率を増加させる偶発ヒットをもたらす、ゲノムの反復部分とのクロストークにより過剰に出現しているビンを標的とし得る。代替的な態様において、標準化されたビンの絶対値が、フィルタリングストラテジーにおいて用いられる。
CNVについての判定
CNVについての判定のための方法
上記で記載される方法によって生成されるマスキングされた参照配列を用いると、従来的方法と比べて向上した感度、選択性、および/または効率で、Y染色体および他の染色体のコピー数およびCNVに関係した様々な遺伝的状態を判定することができる。
例えば、いくつかの態様において、マスキングされた参照配列は、胎児および母体の核酸分子を含む母体検査サンプルにおける、任意の2種またはそれを上回る種類の異なる完全胎児染色体異数性の有無を判定するために用いられる。下記で提供される例示的な方法は、読み取りを参照配列(参照ゲノムを含む)にアラインメントする。アラインメントは、マスキングされていないまたはマスキングされた参照配列に対して実施され得、それによって、参照配列にマッピングされた配列タグがもたらされる。後続の算出において、参照配列のマスキングされていないセグメントに収まる配列タグのみを、コピー数変異を判定する考慮に入れる。
いくつかの態様において、母体検査サンプルにおける任意の2種またはそれを上回る種類の異なる完全胎児染色体異数性の有無を判定するための方法は、(a)母体検査サンプルにおける胎児および母体の核酸についての配列情報を得る工程;(b)上記で記載されるように得られた配列情報およびマスキングされた参照配列を用いて、第1〜22、X、およびY染色体より選択される関心対象の任意の2種またはそれを上回る種類の染色体のそれぞれについての配列タグの数を同定し、かつ関心対象の任意の2種またはそれを上回る種類の染色体のそれぞれについての正規化染色体配列について配列タグの数を同定する工程;(c)関心対象の任意の2種またはそれを上回る種類の染色体のそれぞれについて同定された配列タグの数、および各正規化染色体について同定された配列タグの数を用いて、関心対象の任意の2種またはそれを上回る種類の染色体についての単一染色体量を算出する工程;ならびに(d)関心対象の任意の2種またはそれを上回る種類の染色体のそれぞれについての単一染色体量と、関心対象の2種またはそれを上回る種類の染色体のそれぞれについての閾値の値とを比較し、かつそれによって、母体検査サンプルにおける任意の2種またはそれを上回る種類の異なる完全胎児染色体異数性の有無を判定する工程を含む。
いくつかの態様において、上記で記載される工程(a)は、検査サンプルの核酸分子の少なくとも一部分をシーケンシングして、該検査サンプルの胎児および母体の核酸分子についての配列情報を獲得する工程を含み得る。いくつかの態様において、工程(c)は、関心対象の染色体のそれぞれについて同定された配列タグの数と、関心対象の染色体のそれぞれについての正規化染色体配列について同定された配列タグの数との比として、関心対象の染色体のそれぞれについての単一染色体量を算出する工程を含む。いくつかの他の態様において、染色体量は、配列タグの数の代わりに、配列タグ密度比に基づく。配列タグ密度比とは、配列の長さによって標準化された配列タグの数である。そのような態様において、関心対象の染色体のそれぞれについての配列タグ密度比と、関心対象の染色体のそれぞれについての正規化染色体配列についての配列タグ密度比との比として、染色体量を算出する。
上記の態様のいずれか1つにおいて、異なる完全染色体異数性は、完全染色体トリソミー、完全染色体モノソミー、および完全染色体ポリソミーより選択される。異なる完全染色体異数性は、第1〜22、X、およびY染色体のうちのいずれか1つの完全異数性より選択される。例えば、異なる完全胎児染色体異数性は、トリソミー2、トリソミー8、トリソミー9、トリソミー20、トリソミー21、トリソミー13、トリソミー16、トリソミー18、トリソミー22、47,XXX、47,XYY、およびモノソミーXより選択される。
上記の態様のいずれか1つにおいて、工程(a)〜(d)は、種々の母体対象由来の検査サンプルに対して反復され、かつ方法は、検査サンプルのそれぞれにおける任意の2つまたはそれを上回る種類の異なる完全胎児染色体異数性の有無を判定する工程を含む。
上記の態様のいずれか1つにおいて、方法は、正規化された染色体値(NCV)を算出する工程をさらに含み得、該NCVは、
式中、
および
は、適格サンプルのセットにおける第j染色体量に対する、それぞれ、推定される平均および標準偏差であり、かつx
ijは、検査サンプルiに対する観察される第j染色体量である、
として、染色体量を適格サンプルのセットにおける対応する染色体量の平均に関連付けする。
別の態様において、胎児および母体の核酸を含む母体検査サンプルにおける異なる部分的胎児染色体異数性の有無を判定するための方法が提供される。方法は、上記で概説される完全異数性を検出するための方法に類似した手順を伴う。しかしながら、完全染色体を解析する代わりに、染色体のセグメントを解析する。米国特許出願公報第20130029852号を参照されたく、それは参照により組み入れられる。
図4は、いくつかの態様に従った、コピー数変異の存在を判定するための方法を示している。概観的視点から、方法は、検査サンプルのCNVについての判定において、適格サンプルの正規化配列を使用する。正規化配列は、ラン内およびラン間の可変性についての測定結果を正規化するメカニズムを提供する。正規化配列は、関心対象の任意の1種の配列、例えば染色体またはそのセグメントに対して正常なコピー数を有する細胞を含むことが知られる対象から得られた適格サンプルのセットからの配列情報を用いて同定される。正規化配列の決定は、図4に描かれる方法の態様の工程110、120、130、140、および145において概説されている。いくつかの態様において、正規化配列を用いて、検査配列に対する配列量を算出する。工程150を参照されたい。いくつかの態様において、正規化配列を用いて、それに対して検査配列の配列量を比較する閾値も算出する。工程150を参照されたい。正規化配列および検査配列から得られた配列情報を、検査サンプルにおける染色体異数性の統計的に意味のある同定を判定するために用いる(工程165)。
いくつかの態様に従った、コピー数変異の存在を判定するための方法の詳細に目を向けると、図4は、生物学的サンプルにおける関心対象の配列、例えば染色体またはそのセグメントのCNVを判定するための態様の流れ図100を提供している。いくつかの態様において、生物学的サンプルは対象から得られ、異なるゲノムによって寄与される核酸の混合物を含む。異なるゲノムは2つの個体によってサンプルに寄与され得、例えば、異なるゲノムは、胎児および胎児を保持する母親によって寄与される。代替的に、ゲノムは、同じ対象由来の異数性癌性細胞および正常な正倍数性細胞によってサンプルに寄与される、例えば癌患者由来の血漿サンプル。
患者の検査サンプルを解析することは別として、関心対象の考え得る各染色体に対して、1種もしくは複数種の正規化染色体、または1種もしくは複数種の正規化染色体セグメントを選択する。正規化染色体またはセグメントは、臨床設定において起こり得る、患者サンプルの通常の検査から非同期的に同定される。言い換えれば、正規化染色体またはセグメントは、患者サンプルを検査する前に同定される。正規化染色体またはセグメントと関心対象の染色体またはセグメントとの間の関連性は、検査の間、使用のために保存される。下記で説明されるように、そのような関連性は、典型的に、多くのサンプルの検査に渡る期間にわたって維持される。以下の考察は、関心対象の個々の染色体またはセグメントに対して、正規化染色体または染色体セグメントを選択するための態様に関する。
適格サンプルのセットを獲得して、適格正規化配列を同定し、かつ検査サンプルにおけるCNVの統計的に意味のある同定を判定することにおける使用のための分散値を提供する。工程110において、複数の生物学的適格サンプルを、関心対象の任意の1種の配列に対して正常なコピー数を有する細胞を含むことが知られる複数の対象から獲得する。一態様において、適格サンプルを、正常なコピー数の染色体を有することが細胞遺伝学的手段を用いて確認されている胎児を妊娠している母親から獲得する。生物学的適格サンプルは、生物学的流体、例えば血漿、または下記で記載される任意の適切なサンプルであり得る。いくつかの態様において、適格サンプルは、核酸分子、例えばcfDNA分子の混合物を含有する。いくつかの態様において、適格サンプルは、胎児および母体のcfDNA分子の混合物を含有する母体血漿サンプルである。正規化染色体および/またはそのセグメントについての配列情報を、任意の公知のシーケンシング法を用いて、核酸、例えば胎児および母体の核酸の少なくとも一部分をシーケンシングすることによって得る。好ましくは、本明細書における他の箇所で記載される次世代シーケンシング(NGS)法のいずれか1つを用いて、単分子またはクローン的に増幅された分子として、胎児および母体の核酸をシーケンシングする。様々な態様において、シーケンシング前およびシーケンシングの間に、適格サンプルを下記で開示されるように加工する。それらは、本明細書において開示される機器、システム、およびキットを用いて加工され得る。
工程120において、適格サンプルに含有されるすべての適格核酸のそれぞれの少なくとも一部分をシーケンシングして、数百万個の配列読み取り、例えば36bpの読み取りを生成し、それを参照ゲノム、例えばhg18にアラインメントする。いくつかの態様において、配列読み取りは、約20bp、約25bp、約30bp、約35bp、約40bp、約45bp、約50bp、約55bp、約60bp、約65bp、約70bp、約75bp、約80bp、約85bp、約90bp、約95bp、約100bp、約110bp、約120bp、約130、約140bp、約150bp、約200bp、約250bp、約300bp、約350bp、約400bp、約450bp、または約500bpを含む。技術的進歩により、500bpよりも大きな単一末端の読み取りが可能となり、対合末端の読み取りが生成される場合には、約1000bpよりも大きな読み取りが可能となることが予想される。一態様において、マッピングされた配列読み取りは36bpを含む。別の態様において、マッピングされた配列読み取りは25bpを含む。
配列読み取りを参照ゲノムにアラインメントし、参照ゲノムに一意的にマッピングされる読み取りは、配列タグとして知られる。マスキングされた参照配列のマスクセグメントに収まる配列タグを、CNVの解析のために計数する。
一態様において、20〜40bpの読み取りを含む、少なくとも約3×106個の適格配列タグ、少なくとも約5×106個の適格配列タグ、少なくとも約8×106個の適格配列タグ、少なくとも約10×106個の適格配列タグ、少なくとも約15×106個の適格配列タグ、少なくとも約20×106個の適格配列タグ、少なくとも約30×106個の適格配列タグ、少なくとも約40×106個の適格配列タグ、または少なくとも約50×106個の適格配列タグが、参照ゲノムに一意的にマッピングする読み取りから獲得される。
工程130において、適格サンプルにおける核酸をシーケンシングすることにより得られたすべてのタグを計数して、適格配列タグ密度を決定する。一態様において、配列タグ密度は、参照ゲノム上の関心対象の配列にマッピングされた適格配列タグの数として決定される。別の態様において、適格配列タグ密度は、それらがマッピングされる関心対象の適格配列の長さに対して正規化された、関心対象の配列にマッピングされた適格配列タグの数として決定される。関心対象の配列の長さに対するタグ密度の比として決定される配列タグ密度は、本明細書においてタグ密度比と呼ばれる。関心対象の配列の長さに対する正規化は必要とされるわけではなく、ヒト解釈のためにそれを単純化する数の桁数を低減させる工程として含まれ得る。すべての適格配列タグが適格サンプルのそれぞれにおいてマッピングされかつ計数されるため、正規化配列が後に同定される由来の付加的配列に対する配列タグ密度がそうであるように、適格サンプルにおける関心対象の配列、例えば臨床的に関連する配列に対する配列タグ密度は決定される。
いくつかの態様において、関心対象の配列は、完全染色体異数性と関連する染色体、例えば第21染色体であり、かつ適格正規化配列は、染色体異数性と関連せずかつその配列タグ密度の変動が、関心対象の配列(すなわち、染色体)、例えば第21染色体のものを近似する完全染色体である。選択される正規化染色体は、関心対象の配列の配列タグ密度の変動を最良に近似する1つまたは群であり得る。第1〜22、X、およびY染色体のうちのいずれか1つまたは複数は、関心対象の配列であり得、かつ1種または複数種の染色体は、適格サンプルにおけるいずれか1つの第1〜22、X、およびY染色体のそれぞれに対する正規化配列として同定され得る。正規化染色体は個々の染色体であり得、またはそれは、本明細書における他の箇所で記載される染色体の群であり得る。
別の態様において、関心対象の配列は、部分的異数性と関連した染色体のセグメント、例えば染色体の欠失もしくは挿入、または不平衡な染色体転座であり、かつ正規化配列は、部分的異数性と関連せずかつその配列タグ密度の変動が、部分的異数性と関連した染色体セグメントのものを近似する染色体セグメント(またはセグメントの群)である。選択される正規化染色体セグメントは、関心対象の配列の配列タグ密度の変動を最良に近似する1つまたは複数のものであり得る。いずれか1つまたは複数の第1〜22、X、およびY染色体のいずれか1つまたは複数のセグメントは、関心対象の配列であり得る。
他の態様において、関心対象の配列は、部分的異数性と関連した染色体のセグメントであり、かつ正規化配列は、1種または複数種の染色体全体である。さらに他の態様において、関心対象の配列は、異数性と関連した染色体全体であり、かつ正規化配列は、異数性と関連しない1種または複数種の染色体セグメントである。
単一配列または配列の群が、適格サンプルにおいて、関心対象のいずれか1種または複数種の配列に対する正規化配列として同定されるかどうかにかかわらず、適格正規化配列は、適格サンプルにおいて決定される、関心対象の配列のものを最良にまたは有効に近似する配列タグ密度の変動を有するように選定され得る。例えば、適格正規化配列は、関心対象の配列を正規化するために用いられる場合、適格サンプルにわたって最小の可変性をもたらす配列である、すなわち正規化配列の可変性は、適格サンプルにおいて判定される、関心対象の配列のものに最も近い。別の言い方をすれば、適格正規化配列は、適格サンプルにわたって、(関心対象の配列に対する)配列量の最少の変動をもたらすように選択された配列である。ゆえに、過程は、正規化染色体として用いられる場合に、関心対象の配列に対するランからランへの染色体量の最小の可変性をもたらすことが予想される配列を選択する。
シーケンシングライブラリーを生成するために必要とされる手順、およびサンプルをシーケンシングする工程が経時的に本質的に変更されないという条件で、関心対象のいずれか1種または複数種の配列に対する、適格サンプルにおいて同定される正規化配列は、数日間、数週間、数ヶ月間、およびおそらく数年間にわたって、検査サンプルにおける異数性の有無を判定するための選定の正規化配列のままである。上記で記載されるように、異数性の存在を判定するための正規化配列は、(おそらく同様の他の理由の中でも、)それが正規化パラメーターとして用いられる関心対象の配列の可変性を最良に近似する、サンプル間、例えば異なるサンプル間、およびシーケンシングラン間、例えば同じ日および/または異なる日に生じるシーケンシングラン間での、それにマッピングされる配列タグの数の可変性で選定される。これらの手順の実質的な変更は、すべての配列にマッピングされるタグの数に影響を及ぼし、それが今度は、配列のうちのどの1つまたは群が、関心対象の配列のものを最も厳密に近似する、同じ日または異なる日の、同じおよび/または異なるシーケンシングランにおけるサンプルにわたる可変性を有するかを決定すると考えられ、それは、正規化配列のセットが再決定されることを要すると考えられる。手順の実質的な変更には、シングルプレックスシーケンシングの代わりにマルチプレックスシーケンシングのためのサンプルを調製する工程に関係した変化を含めた、シーケンシングライブラリーを調製するために用いられる実験室プロトコールの変化、およびシーケンシングに用いられる化学反応の変化を含めた、シーケンシングプラットフォームの変化が含まれる。
いくつかの態様において、関心対象の特定の配列を正規化するために選定される正規化配列は、1つまたは複数の適格サンプルを1つまたは複数の影響ありのサンプルから最良に区別する配列であり、それは、正規化配列が最大の識別能を有する配列であることを暗示する、すなわち正規化配列の識別能は、それが、影響ありの検査サンプルにおける関心対象の配列に対して最適な識別を提供して、影響ありの検査サンプルを他の影響なしのサンプルから容易に区別するそのようなものである。他の態様において、正規化配列は、最小の可変性と最大の識別能との組み合わせを有する配列である。
識別能のレベルは、下記で記載されかつ実施例において示されるように、適格サンプルの集団における配列量、例えば染色体量またはセグメント量と、1つまたは複数の検査サンプルにおける染色体量との間の統計的差異として判定され得る。例えば、識別能は、適格サンプルの集団における染色体量と、1つまたは複数の検査サンプルにおける染色体量との間の統計的差異を表すt検定値として数的に表され得る。同様に、識別能は、染色体量の代わりにセグメント量に基づき得る。代替的に、識別能は、NCVに対する分布が正常である限り、染色体量に対するzスコアである正規化された染色体値(NCV)として数的に表され得る。同様に、染色体セグメントが関心対象の配列である場合、セグメント量の識別能は、NSVに対する分布が正常である限り、染色体セグメント量に対するzスコアである正規化されたセグメント値(NSV)として数的に表され得る。zスコアの決定において、適格サンプルのセットにおける染色体量またはセグメント量の平均および標準偏差が用いられ得る。代替的に、適格サンプルおよび影響ありのサンプルを含むトレーニングセットにおける染色体量またはセグメント量の平均および標準偏差が用いられ得る。他の態様において、最小の可変性および最大の識別能、または小さな可変性と大きな識別能との最適な組み合わせを有する配列である。
方法は、同様の特徴を本質的に有し、かつサンプル間およびシーケンシングラン間で同様の変動の傾向があり、かつ検査サンプルにおける配列量を決定するのに有用である配列を同定する。
配列量の決定
いくつかの態様において、関心対象の1種または複数種の染色体またはセグメントについての染色体量またはセグメント量を、図4に示される工程140に記載されるように、すべての適格サンプルにおいて決定し、かつ正規化染色体またはセグメントの配列を工程145で同定する。工程145は工程140の下流として示されているが、一部の正規化配列は、配列量が算出される前に提供されることに留意されたい。次いで、1種または複数種の正規化配列を、下記でさらに記載される様々な基準に従って同定する(工程145を参照されたい)。いくつかの態様において、例えば、同定された正規化配列は、すべての適格サンプルにわたって、関心対象の配列にについての配列量の最小の可変性をもたらす。
工程140において、算出された適格タグ密度に基づき、関心対象の配列についての適格配列量、すなわち染色体量またはセグメント量を、関心対象の配列についての配列タグ密度と付加的配列についての適格タグ密度との比として決定し、それにより工程145において、正規化配列がその後同定される。同定された正規化配列をその後用いて、検査サンプルにおける配列量を決定する。
一態様において、適格サンプルにおける配列量は、関心対象の染色体についての配列タグの数と、適格サンプルにおける正規化染色体配列についての配列タグの数との比として算出される染色体量である。正規化染色体配列は、単一染色体、染色体の群、1種の染色体のセグメント、または異なる染色体由来のセグメントの群であり得る。したがって、関心対象の染色体についての染色体量は、適格サンプルにおいて、関心対象の染色体についてのタグの数と、(i)単一染色体から構成される正規化染色体配列、(ii)2種もしくはそれを上回る種類の染色体から構成される正規化染色体配列、(iii)染色体の単一セグメントから構成される正規化セグメント配列、(iv)1種の染色体由来の2つもしくはそれを上回る数のセグメントから構成される正規化セグメント配列、または(v)2種もしくはそれを上回る種類の染色体の2つもしくはそれを上回る数のセグメントから構成される正規化セグメント配列、についてのタグの数との比として決定される。(i)〜(v)に従った、関心対象の第21染色体についての染色体量を決定するための例は、下記のとおりである:関心対象の染色体、例えば第21染色体についての染色体量を、第21染色体の配列タグ密度と、以下の配列タグ密度:(i)残りすべての染色体、すなわち第1〜20染色体、第22染色体、X染色体、およびY染色体のそれぞれ;(ii)2種またはそれを上回る種類の残りの染色体の考え得るすべての組み合わせ;(iii)別の染色体、例えば第9染色体のセグメント;(iv)他の1種の染色体の2つのセグメント、例えば第9染色体の2つのセグメント;(v)2種の異なる染色体の2つのセグメント、例えば第9染色体のセグメントおよび第14染色体のセグメント、のうちの1つとの比として決定する。
別の態様において、適格サンプルにおける配列量は、染色体量とは対照的なセグメント量であり、セグメント量は、染色体全体ではない関心対象のセグメントについての配列タグの数と、適格サンプルにおける正規化セグメント配列についての配列タグの数との比として算出される。正規化セグメント配列は、上述される正規化染色体またはセグメント配列のいずれかであり得る。
正規化配列の同定
工程145において、正規化配列を、関心対象の配列について同定する。いくつかの態様において、例えば正規化配列は、例えばすべての適格サンプルにわたって関心対象の配列についての配列量の最小の可変性をもたらす、算出された配列量に基づく配列である。方法は、同様の特徴を本質的に有しかつサンプル間およびシーケンシングラン間で同様の変動の傾向があり、かつ検査サンプルにおける配列量を決定するのに有用である配列を同定する。
関心対象の1種または複数種の配列についての正規化配列は、適格サンプルのセットにおいて同定され得、かつ適格サンプルにおいて同定される配列をその後用いて、検査サンプルのそれぞれにおける関心対象の1種または複数種の配列についての配列量を算出して(工程150)、検査サンプルのそれぞれにおける異数性の有無を判定する。関心対象の染色体またはセグメントについて同定される正規化配列は、異なるシーケンシングプラットフォームが用いられる場合に、ならびに/またはシーケンシングされる対象となる核酸の精製および/もしくはシーケンシングライブラリーの調製に差異が存在する場合に異なり得る。本明細書において記載される方法に従った正規化配列の使用により、サンプル調製および/または用いられるシーケンシングプラットフォームにかかわりなく、染色体またはそのセグメントのコピー数の変動についての特異的かつ高感度な測定が提供される。
いくつかの態様において、1種を上回る種類の正規化配列が同定される、すなわち関心対象の1種の配列について、種々の正規化配列が決定され得、かつ関心対象の1種の配列について、複数の配列量が決定され得る。例えば、関心対象の第21染色体についての染色体量の変動、例えば変動係数(CV=標準偏差/平均)は、第14染色体の配列タグ密度が用いられる場合に最少である。しかしながら、検査サンプルにおける関心対象の配列についての配列量の決定における使用のために、2、3、4、5、6、7、8種、またはそれを上回る種類の正規化配列を同定することができる。例として、任意の1つの検査サンプルにおける第21染色体についての第2の量は、第7染色体、第9染色体、第11染色体、または第12染色体を正規化染色体配列として用いて決定され得る、というのもこれらの染色体はすべて、第14染色体についてのものに近いCVを有するためである(実施例4、表2を参照されたい)。
いくつかの態様において、単一染色体が、関心対象の染色体についての正規化染色体配列として選定される場合、正規化染色体配列は、検査されるすべてのサンプル、例えば適格サンプルにわたって最小の可変性を有する、関心対象の染色体についての染色体量をもたらす染色体であると考えられる。ある場合には、最良の正規化染色体は、最少の変動を有し得ないが、1つまたは複数の検査サンプルを適格サンプルから最良に区別する適格量の分布を有し得る、すなわち最良の正規化染色体は、最低の変動を有さないこともあるが、最大の識別能を有し得る。
検査サンプルにおける異数性についての判定
適格サンプルにおける正規化配列の同定に基づき、関心対象の1種または複数種の配列の点で異なるゲノムに由来する核酸の混合物を含む検査サンプルにおいて、関心対象の配列について、配列量を決定する。
工程115において、関心対象の配列の臨床的に関連するCNVを保持することが疑われるまたは知られる対象から検査サンプルを獲得する。検査サンプルは、生物学的流体、例えば血漿、または下記で記載される任意の適切なサンプルであり得る。説明されるように、サンプルは、単純な採血などの非侵襲的手順を用いて獲得され得る。いくつかの態様において、検査サンプルは、核酸分子、例えばcfDNA分子の混合物を含有する。いくつかの態様において、検査サンプルは、胎児および母体のcfDNA分子の混合物を含有する母体血漿サンプルである。
工程125において、検査サンプルにおける検査核酸の少なくとも一部分を、適格サンプルに関して記載されているようにシーケンシングして、数百万個の配列読み取り、例えば36bpの読み取りを生成する。工程120にあるように、検査サンプルにおける核酸をシーケンシングすることから生成される読み取りを、参照ゲノムに一意的にマッピングしまたはアラインメントして、タグを産生する。工程120に記載されるように、20〜40bpの読み取りを含む、少なくとも約3×106個の適格配列タグ、少なくとも約5×106個の適格配列タグ、少なくとも約8×106個の適格配列タグ、少なくとも約10×106個の適格配列タグ、少なくとも約15×106個の適格配列タグ、少なくとも約20×106個の適格配列タグ、少なくとも約30×106個の適格配列タグ、少なくとも約40×106個の適格配列タグ、または少なくとも約50×106個の適格配列タグが、参照ゲノムに一意的にマッピングする読み取りから獲得される。ある特定の態様において、シーケンシング機器によって産生された読み取りは、電子形式で提供される。アラインメントは、下記で記述される計算機器を用いて達成される。しばしば膨大(数百万個の塩基対)である、個々の読み取りを参照ゲノムに対して比較して、読み取りが参照ゲノムと一意的に対応する部位を同定する。いくつかの態様において、アラインメント手順は、読み取りと参照ゲノムとの間の限られたミスマッチを容認する。ある場合には、読み取りにおける1、2、または3個の塩基対は、参照ゲノムにおける対応する塩基対とミスマッチすることが容認され、なおかつマッピングはなおもなされる。
工程135において、下記で記載されるように、計算機器を用いて、検査サンプルにおける核酸をシーケンシングすることから得られたタグのすべてまたはほとんどを計数して、検査配列タグ密度を決定する。いくつかの態様において、各読み取りを参照ゲノム(ほとんどの場合、染色体またはセグメント)の特定の領域にアラインメントし、かつ部位情報を読み取りに添えることによって、読み取りをタグに変換する。この過程により明らかとなるように、計算機器は、参照ゲノム(ほとんどの場合、染色体またはセグメント)の各領域にマッピングするタグ/読み取りの数の累計を保ち得る。計数は、関心対象の各染色体またはセグメント、および対応する各正規化染色体またはセグメントに対して保存される。
ある特定の態様において、参照ゲノムは、真の生物学的ゲノムの一部であるが参照ゲノムには含まれない、1つまたは複数の除外された領域を有する。これらの除外された領域に潜在的にアラインメントする読み取りは、計数されない。除外される領域の例には、長い反復配列の領域、XおよびY染色体間での類似性の領域などが含まれる。上記で記載されるマスキング技法によって得られるマスキングされた参照配列を用いて、参照配列のマスキングされていないセグメント上のタグのみを、CNVについての解析の考慮に入れる。
いくつかの態様において、方法は、多数の読み取りが参照ゲノムまたは参照配列上の同じ部位にアラインメントする場合に、タグを1回よりも多く計数するかどうかを判定する。2つのタグが同じ配列を有し、したがって参照配列上の同一部位にアラインメントする場合が存在し得る。タグを計数するために採用される方法は、ある特定の状況下で、同じシーケンスを有するサンプルに由来する同一タグを計数から除外する。所与のサンプルにおいて不均衡な数のタグが同一である場合、手順における強いバイアスまたは他の欠陥が存在することが示唆される。したがって、ある特定の態様に従って、計数法は、以前に計数されたサンプル由来のタグと同一である、所与のサンプル由来のタグを計数しない。
単一サンプル由来の同一タグをいつ無視するかを選定するために、様々な基準を設定し得る。ある特定の態様において、計数されるタグについての規定されるパーセンテージは、一意的でなければならない。この閾値よりも多くのタグが一意的でない場合、それらは無視される。例えば、規定パーセンテージが、少なくとも50%が一意的であることを要する場合、一意的なタグのパーセンテージがサンプルに対して50%を超えるまで、同一タグは計数されない。他の態様において、一意的なタグの閾値数は少なくとも約60%である。他の態様において、一意的なタグの閾値パーセンテージは、少なくとも約75%、または少なくとも約90%、または少なくとも約95%、または少なくとも約98%、または少なくとも約99%である。第21染色体に対して、閾値は90%に設定され得る。30Mのタグが第21染色体にアラインメントされる場合には、それらの少なくとも27Mは一意的でなければならない。3Mの計数されたタグが一意的でなく、かつ3000万1番目のタグが一意的でない場合、それは計数されない。さらなる同一タグをいつ計数しないかを判定するために用いられる特定の閾値または他の基準の選定は、適当な統計解析を用いて選択され得る。この閾値または他の基準に影響する1つの因子は、タグがアラインメントし得るゲノムのサイズに対する、シーケンシングされたサンプルの相対量である。他の因子には、読み取りのサイズおよび同様の検討事項が含まれる。
一態様において、関心対象の配列にマッピングされた検査配列タグの数を、それらがマッピングする関心対象の配列の公知の長さに対して正規化して、検査配列タグ密度比を提供する。適格サンプルに関して記載されているように、関心対象の配列の公知の長さに対する正規化は必要とされるわけではなく、ヒト解釈のためにそれを単純化する数の桁数を低減させる工程として含まれ得る。すべてのマッピングされた検査配列タグが検査サンプルにおいて計数されるため、適格サンプルにおいて同定された少なくとも1種の正規化配列に対応する付加的配列に対する配列タグ密度がそうであるように、検査サンプルにおける関心対象の配列、例えば臨床的に関連する配列に対する配列タグ密度は決定される。
工程150において、適格サンプルにおける少なくとも1種の正規化配列の同一性に基づき、検査サンプルにおける関心対象の配列について、検査配列量を決定する。様々な態様において、本明細書において記載されるように、検査配列量は、関心対象の配列の配列タグ密度および対応する正規化配列を用いてコンピューターにより決定される。この取り組みに関わる計算機器は、関心対象の配列とその関連する正規化配列との間の関連性に電子的にアクセスし、それは、データベース、表、グラフで保存され得、またはプログラム命令にコードとして含まれ得る。
本明細書における他の箇所で記載されるように、少なくとも1種の正規化配列は、単一配列または配列の群であり得る。検査サンプルにおける関心対象の配列についての配列量は、検査サンプルにおける関心対象の配列について決定された配列タグ密度と、検査サンプルにおいて決定された、少なくとも1種の正規化配列の配列タグ密度との比であり、検査サンプルにおける正規化配列は、関心対象の特定の配列に対する適格サンプルにおいて同定された正規化配列に対応する。例えば、適格サンプルにおいて、第21染色体に対して同定された正規化配列が染色体、例えば第14染色体であると決定された場合には、第21染色体(関心対象の配列)に対する検査配列量は、それぞれ検査サンプルにおいて決定される、第21染色体に対する配列タグ密度と第14染色体に対する配列タグ密度との比として決定される。同様に、第13、第18、X、Y染色体、および染色体異数性と関連した他の染色体に対する染色体量が決定される。関心対象の染色体に対する正規化配列は、1つの染色体もしくは染色体の群、または1つの染色体セグメントもしくは染色体セグメントの群であり得る。以前に記載されるように、関心対象の配列は、染色体の一部、例えば染色体セグメントであり得る。したがって、染色体セグメントに対する量は、検査サンプルにおけるセグメントについて決定された配列タグ密度と、検査サンプルにおける正規化染色体セグメントについての配列タグ密度との比として決定され得、検査サンプルにおける正規化セグメントは、関心対象の特定のセグメントについての適格サンプルにおいて同定された正規化セグメント(単一セグメントまたはセグメントの群)に対応する。染色体セグメントは、サイズがキロベース(kb)からメガベース(Mb)(例えば、約1kb〜10kb、または約10kb〜100kb、または約100kb〜1Mb)に及び得る。
工程155において、閾値の値は、複数の適格サンプルにおいて決定された適格配列量に対して確立された標準偏差値、および関心対象の配列に対して異数性であることが知られるサンプルについて決定された配列量から導き出される。この作業は、典型的に、患者検査サンプルについての解析とは非同期的に実施される。それは、例えば、適格サンプルからの正規化配列の選択と同時に実施され得る。正確な分類は、種々のクラス、すなわち異数性のタイプに対する確率分布間の差異に依存する。いくつかの例において、閾値は、各タイプの異数性、例えばトリソミー21に対する経験分布から選定される。胎児および母体の核酸の混合物を含む母体サンプルから抽出されたcfDNAをシーケンシングすることによる、染色体異数性を判定するための方法の使用を記載する実施例において記載されるように、トリソミー13、トリソミー18、トリソミー21、およびモノソミーX異数性を分類するために確立された考え得る閾値の値。染色体の異数性について影響を受けたサンプルを区別するために決定される閾値の値は、異なる異数性についての閾値と同じであり得るまたは異なり得る。実施例において示されるように、関心対象の各染色体に対する閾値の値を、サンプルおよびシーケンシングランにわたる関心対象の染色体の量の可変性から決定する。関心対象の任意の染色体についての染色体量の可変性が少なければ少ないほど、すべての影響なしのサンプルにわたる関心対象の染色体についての量の広がりは狭く、それは、異なる異数性を判定するための閾値を設定するために用いられる。
患者検査サンプルを分類することに関連したプロセスフローに戻ると、工程160において、関心対象の配列のコピー数変異は、検査サンプルにおいて、関心対象の配列についての検査配列量と、適格配列量から確立された少なくとも1つの閾値の値とを比較することによって判定される。この作業は、配列タグ密度を測定しかつ/またはセグメント量を算出するために採用された同じ計算機器によって実施され得る。
工程165において、関心対象の検査配列についての算出された量と、サンプルを「正常」、「影響あり」、または「コールなし」として分類するための、ユーザーにより規定された「信頼性の閾値」に従って選定される閾値の値として設定されるものとを比較する。「コールなし」サンプルは、信頼性を有して確定診断がなされ得ないサンプルである。影響ありのサンプルの各タイプ(例えば、トリソミー21、部分的トリソミー21、モノソミーX)は、一方は正常な(影響なしの)サンプルをコールするためのもの、およびもう一方は影響ありのサンプルをコールするためのものであるそれ独自の閾値を有する(ある場合には、2つの閾値が重なるものの)。本明細書における他の箇所で記載されるように、ある状況下で、検査サンプルにおける核酸の胎児画分が十分に高い場合、コールなしはコール(影響ありまたは正常)に変換され得る。検査配列の分類は、このプロセスフローの他の作業において採用される計算機器によって報告され得る。ある場合には、分類は電子形式で報告され、かつ呈示され得、電子メールで送信され得、携帯メールで送信され得るなどされて、人間に関心を抱かせる。
ある特定の態様は、胎児および母体の核酸分子を含む生物学的サンプルにおける胎児染色体異数性の出生前診断を提供するための方法を提供する。生物学的検査サンプル、例えば母体血漿サンプルに由来する、胎児および母体の核酸分子の混合物の少なくとも一部分から配列情報を獲得する工程、シーケンシングデータから、関心対象の1種もしくは複数種の染色体についての正規化染色体量および/または関心対象の1つもしくは複数のセグメントについての正規化セグメント量を計算する工程、ならびに検査サンプルにおける、それぞれ関心対象の染色体についての染色体量および/または関心対象のセグメントについてのセグメント量と、複数の適格(正常)サンプルにおいて確立された閾値の値との間の統計的に有意な差異を判定する工程、ならびに統計的な差異に基づき出生前診断を提供する工程、に基づいて診断がなされる。方法の工程165に記載されるように、正常または影響ありという診断がなされる。正常または影響ありに対する診断が信頼を有してなされ得ない事象において、「コールなし」が提供される。
サンプルおよびサンプル加工
サンプル
CNV、例えば染色体異数性、部分的異数性などを判定するために用いられるサンプルには、関心対象の1種または複数種の配列に対するコピー数変異が判定される対象となる、任意の細胞、組織、または臓器から採取されたサンプルが含まれ得る。望ましくは、サンプルは、細胞内に存在している核酸、および/または「無細胞」である核酸(例えば、cfDNA)を含有する。
いくつかの態様において、無細胞核酸、例えば無細胞DNA(cfDNA)を獲得することが有利である。無細胞DNAを含めた無細胞核酸は、血漿、血清、および尿を含むがそれらに限定されない生物学的サンプルから、当技術分野において公知の様々な方法によって獲得され得る(例えば、Fan et al., Proc Natl Acad Sci 105:16266-16271 [2008];Koide et al., Prenatal Diagnosis 25:604-607 [2005];Chen et al., Nature Med. 2:1033-1035 [1996];Lo et al., Lancet 350:485-487 [1997];Botezatu et al., Clin Chem. 46:1078-1084, 2000;およびSu et al., J Mol. Diagn. 6:101-107 [2004]を参照されたい)。サンプル中の細胞から無細胞DNAを分離するために、分画、遠心分離(例えば、密度勾配遠心分離)、DNA特異的沈殿、もしくはハイスループット細胞選別、および/または他の分離法を含むがそれらに限定されない様々な方法が用いられ得る。cfDNAの手作業によるおよび自動化された分離のための市販のキットが入手可能である(Roche Diagnostics, Indianapolis, IN、Qiagen, Valencia, CA、Macherey-Nagel, Duren, DE)。染色体異数性および/または様々な多型を検出し得るシーケンシングアッセイによって、染色体異常、例えばトリソミー21の有無を判定するアッセイにおいて、cfDNAを含む生物学的サンプルが用いられている。
様々な態様において、サンプル中に存在しているcfDNAを、使用前に(例えば、シーケンシングライブラリーを調製する前に)特異的または非特異的に富化することができる。サンプルDNAの非特異的富化とは、cfDNAシーケンシングライブラリーを調製する前にサンプルDNAのレベルを増加させるために用いられ得る、サンプルのゲノムDNAフラグメントについての全ゲノム増幅を指す。非特異的富化は、1種を上回るゲノムを含むサンプル中に存在している2種のゲノムのうちの一方の選択的富化であり得る。例えば、非特異的富化は、母体サンプル中の胎児ゲノムに選択的であり得、それは、サンプルにおける母体DNAに対する胎児DNAの相対的割合を増加させる公知の方法によって獲得され得る。代替的に、非特異的富化は、サンプル中に存在している両ゲノムの非選択的増幅であり得る。例えば、非特異的増幅は、胎児および母体のゲノム由来のDNAの混合物を含むサンプルにおける胎児および母体のDNAについてのものであり得る。全ゲノム増幅のための方法は、当技術分野において公知である。縮重オリゴヌクレオチドプライマーによるPCR(DOP)、プライマー伸長PCR技法(PEP)、および多置換増幅(MDA)は、全ゲノム増幅法の例である。いくつかの態様において、種々のゲノム由来のcfDNAの混合物を含むサンプルは、該混合物中に存在しているゲノムのcfDNAについて富化されない。他の態様において、種々のゲノム由来のcfDNAの混合物を含むサンプルは、該サンプル中に存在しているゲノムの任意の1種について非特異的に富化される。
本明細書において記載される方法が適用される、核酸を含むサンプルは、典型的に、例えば上記で記載される生物学的サンプル(「検査サンプル」)を含む。いくつかの態様において、1種または複数種のCNVについてスクリーニングされる対象となる核酸を、多数の周知の方法のいずれかによって精製するかまたは単離する。
したがって、ある特定の態様において、サンプルは、精製されたもしくは単離されたポリヌクレオチドを含みもしくはそれらからなり、またはそれは、組織サンプル、生物学的流体サンプル、細胞サンプルなどのサンプルを含み得る。適切な生物学的流体サンプルには、血液、血漿、血清、汗、涙、痰、尿、痰、耳流出物(ear flow)、リンパ液、唾液、脳脊髄液、洗浄液(ravage)、骨髄懸濁液、膣流出物、経頸部洗浄液、脳液、腹水、母乳、呼吸器の分泌物、腸管および泌尿生殖器路、羊水、母乳、ならびに白血球除去(leukophoresis)サンプルが含まれるが、それらに限定されるわけではない。いくつかの態様において、サンプルは、非侵襲的手順によって容易に獲得可能であるサンプル、例えば血液、血漿、血清、汗、涙、痰、尿、痰、耳流出物、唾液、または糞便である。ある特定の態様において、サンプルは、末梢血サンプル、または末梢血サンプルの血漿画分および/もしくは血清画分である。他の態様において、生物学的サンプルは、スワブもしくはスメア、生検標本、または細胞培養物である。別の態様において、サンプルは、2種またはそれを上回る種類の生物学的サンプルの混合物であり、例えば生物学的サンプルは、生物学的流体サンプル、組織サンプル、および細胞培養物サンプルのうちの2種またはそれを上回る種類を含み得る。本明細書において使用するとき、「血液」、「血漿」、および「血清」という用語は、画分またはその加工された一部分を明示的に包含する。同様に、サンプルが、生検、スワブ、スメアなどから採取される場合、「サンプル」は、生検、スワブ、スメアなどに由来する加工された画分または一部分を明示的に包含する。
ある特定の態様において、サンプルは、異なる個体由来のサンプル、同じまたは異なる個体の異なる発生段階由来のサンプル、異なる疾患を有する個体(例えば、癌を有する個体または遺伝的障害を有することが疑われる個体)由来のサンプル、正常個体、個体における疾患の異なる段階で得られたサンプル、疾患に対する異なる治療に供された個体から得られたサンプル、異なる環境因子に供された個体由来のサンプル、病変にかかりやすい傾向を有する個体由来のサンプル、感染性疾患物質(例えば、HIV)への曝露を有する個体由来のサンプルなどを含むがそれらに限定されない供給源から獲得され得る。
例証的であるが非限定的な一態様において、サンプルは、妊娠している雌、例えば妊娠している女性から獲得される母体サンプルである。この場合、サンプルを本明細書において記載される方法を用いて解析して、胎児における潜在的染色体異常の出生前診断を提供することができる。母体サンプルは、組織サンプル、生物学的流体サンプル、または細胞サンプルであり得る。生物学的流体には、非限定的な例として、血液、血漿、血清、汗、涙、痰、尿、痰、耳流出物、リンパ液、唾液、脳脊髄液、洗浄液、骨髄懸濁液、膣流出物、経頸部洗浄液、脳液、腹水、母乳、呼吸器の分泌物、腸管および泌尿生殖器路、ならびに白血球除去サンプルが含まれる。
例証的であるが非限定的な別の態様において、母体サンプルは、2種またはそれを上回る種類の生物学的流体サンプルの混合物であり、例えば生物学的サンプルは、生物学的流体サンプル、組織サンプル、および細胞培養物サンプルのうちの2種またはそれを上回る種類を含み得る。いくつかの態様において、サンプルは、非侵襲的手順によって容易に獲得可能であるサンプル、例えば血液、血漿、血清、汗、涙、痰、尿、母乳、痰、耳流出物、唾液、および糞便である。いくつかの態様において、生物学的サンプルは、末梢血サンプル、ならびに/またはその血漿画分および血清画分である。他の態様において、生物学的サンプルは、スワブもしくはスメア、生検標本、または細胞培養物のサンプルである。上述されるように、「血液」、「血漿」、および「血清」という用語は、画分またはその加工された一部分を明示的に包含する。同様に、サンプルが、生検、スワブ、スメアなどから採取される場合、「サンプル」は、生検、スワブ、スメアなどに由来する加工された画分または一部分を明示的に包含する。
ある特定の態様において、サンプルは、インビトロで培養された組織、細胞、または他のポリヌクレオチド含有供給源からも獲得され得る。培養サンプルは、種々の培地および条件(例えば、pH、圧力、または温度)で維持された培養物(例えば、組織または細胞)、種々の長さの期間維持された培養物(例えば、組織または細胞)、種々の因子または試薬(例えば、候補薬物または変調因子)で処理された培養物(例えば、組織または細胞)、または種々のタイプの組織および/もしくは細胞の培養物を含むがそれらに限定されない供給源から採取され得る。
生物学的供給源から核酸を単離する方法は周知であり、かつ供給源の性質に依存して異なる。当業者であれば、本明細書において記載される方法の必要に応じて、供給源から核酸をすぐに単離することができる。ある場合には、核酸サンプルにおける核酸分子をフラグメント化することが有利であり得る。フラグメント化は無作為であり得、またはそれは、例えば制限エンドヌクレアーゼ消化を用いて達成されるような特異的であり得る。無作為フラグメント化のための方法は、当技術分野において周知であり、例えば限定的DNAse消化、アルカリ処理、および物理的剪断を含む。一態様において、サンプル核酸は、フラグメント化に供されないcfDNAから獲得される。
他の例証的な態様において、サンプル核酸は、およそ300個もしくはそれを上回る、およそ400個もしくはそれを上回る、またはおよそ500個もしくはそれを上回る数の塩基対のフラグメントへのフラグメント化に供され、かつNGS法がすぐに適用され得る、ゲノムDNAとして獲得される。
シーケンシングライブラリーの調製
一態様において、本明細書において記載される方法は、単一シーケンシングランで、多数のサンプルが、ゲノム分子として個々に(すなわち、シングルプレックスシーケンシング)、または指標付きゲノム分子を含むプールされたサンプル(例えば、マルチプレックスシーケンシング)としてシーケンシングされるのを可能にする次世代シーケンシング技術(NGS)を利用し得る。これらの方法は、DNA配列の最高数億個の読み取りを生成し得る。様々な態様において、ゲノム核酸および/または指標付きゲノム核酸の配列は、例えば本明細書において記載される次世代シーケンシング技術(NGS)を用いて決定され得る。様々な態様において、NGSを用いて獲得された大量の配列データについての解析は、本明細書において記載されるように、1つまたは複数のプロセッサーを用いて実施され得る。
様々な態様において、そのようなシーケンシング技術の使用は、シーケンシングライブラリーの調製を伴うわけではない。
しかしながら、ある特定の態様において、本明細書において企図されるシーケンシング法は、シーケンシングライブラリーの調製を伴う。1つの例証的な手法において、シーケンシングライブラリーの調製は、いつでもシーケンシングされる状態にある、アダプターが修飾されたDNAフラグメント(例えば、ポリヌクレオチド)の無作為収集物の産生を伴う。ポリヌクレオチドのシーケンシングライブラリーは、DNAまたはcDNAのいずれかの同等物、類似体、例えば相補的であるDNAもしくはcDNA、または逆転写酵素の作用によってRNA鋳型から産生されたコピーDNAを含めた、DNAまたはRNAから調製され得る。ポリヌクレオチドは、二本鎖形態(例えば、ゲノムDNAフラグメント、cDNA、PCR増幅産物などのdsDNA)に由来し得、またはある特定の態様において、ポリヌクレオチドは、一本鎖形態(例えば、ssDNA、RNAなど)に由来しかつdsDNA形態へ変換されている可能性がある。例証として、ある特定の態様において、一本鎖mRNA分子は、シーケンシングライブラリーの調製における使用に適した二本鎖cDNAにコピーされ得る。主要ポリヌクレオチド分子の正確な配列は、一般的に、ライブラリー調製の方法にとって重要ではなく、かつ公知であり得るまたは未知であり得る。一態様において、ポリヌクレオチド分子はDNA分子である。よりとくに、ある特定の態様において、ポリヌクレオチド分子は、生物の全遺伝子相補体または生物の実質的に全遺伝子相補体に相当し、かつイントロン配列およびエクソン配列(コード配列)の両方、ならびにプロモーターおよびエンハンサー配列などの非コード調節配列を典型的に含むゲノムDNA分子(例えば、細胞DNA、無細胞DNA(cfDNA)など)である。ある特定の態様において、主要ポリヌクレオチド分子は、ヒトゲノムDNA分子、例えば妊娠している対象の末梢血中に存在しているcfDNA分子を含む。
一部のNGSシーケンシングプラットフォームのためのシーケンシングライブラリーの調製は、特定の範囲のフラグメントサイズを含むポリヌクレオチドの使用によって容易となる。そのようなライブラリーの調製は、典型的に、所望のサイズ範囲のポリヌクレオチドを獲得するために、大きなポリヌクレオチド(例えば、細胞ゲノムDNA)のフラグメント化を伴う。
フラグメント化は、当業者に公知の多数の方法のいずれかによって達成され得る。例えば、フラグメント化は、噴霧化、超音波処理、およびハイドロシェアを含むがそれらに限定されない機械的方法によって達成され得る。しかしながら、機械的フラグメント化は、典型的に、C-O、P-O、およびC-C結合でDNA骨格を切断し、破壊されたC-O、P-O、およびC-C結合を有する、平滑末端、ならびに3'および5'突出末端の不均一混合物をもたらし(例えば、AlnemriおよびLiwack, J Biol. Chem 265:17323-17333 [1990];RichardsおよびBoyer, J Mol Biol 11:327-240 [1965]を参照されたい)、それは修復される必要があり得る、というのもそれらは、後続の酵素反応、例えばシーケンシング用のDNAを調製するために必要とされるシーケンシングアダプターのライゲーションにとって必須の5'-ホスフェートを欠いている可能性があるためである。
対照的に、cfDNAは、典型的に約300塩基対未満のフラグメントとして存在し、その結果として、cfDNAサンプルを用いたシーケンシングライブラリーの調製に、フラグメント化は典型的に必要ではない。
典型的に、ポリヌクレオチドが強制的にフラグメント化される(例えば、インビトロでフラグメント化される)、または天然にフラグメントとして存在するかどうかにかかわらず、それらは、5'-ホスフェートおよび3'-ヒドロキシルを有する平滑末端DNAに変換される。標準的プロトコール、例えば、本明細書における他の箇所で記載される例えばIlluminaプラットフォームを用いたシーケンシングのためのプロトコールは、サンプルDNAを末端修復するように、dAテーリングの前に末端修復産物を精製するように、かつライブラリー調製のアダプターライゲーション工程の前にdAテーリング産物を精製するようにユーザーに指示する。
本明細書において記載されるシーケンスライブラリーの調製の方法の様々な態様は、NGSによってシーケンシングされ得る改変DNA産物を獲得するための標準的プロトコールによって典型的に命じられる工程のうちの1つまたは複数を実施する必要性を取り除く。簡略法(ABB法)、1工程法、および2工程法は、シーケンシングライブラリーの調製のための方法の例であり、それらは、参照によりその全体が組み入れられる2012年7月20日に提出された特許出願第13/555,037号に見出され得る。
サンプル完全性を追跡するおよび立証するためのマーカー核酸
様々な態様において、サンプルの完全性の立証およびサンプル追跡は、サンプルゲノム核酸、例えばcfDNAおよび、例えば加工前に、サンプル中に導入されている付随するマーカー核酸の混合物をシーケンシングすることによって達成され得る。
マーカー核酸を、検査サンプル(例えば、生物学的供給源サンプル)と組み合わせることができ、かつ例えば、生物学的供給源サンプルを分画する工程、例えば全血サンプルから本質的に無細胞の血漿画分を獲得する工程、分画された例えば血漿、または分画されていない生物学的供給源サンプル、例えば組織サンプルから核酸を精製する工程、およびシーケンシングする工程のうちの1つまたは複数を含む過程に供することができる。いくつかの態様において、シーケンシングは、シーケンシングライブラリーを調製する工程を含む。供給源サンプルと組み合わされるマーカー分子の配列または配列の組み合わせは、供給源サンプルに一意的であるように選定される。いくつかの態様において、サンプル中の一意的マーカー分子はすべて、同じ配列を有する。他の態様において、サンプル中の一意的マーカー分子は、複数の配列、例えば2、3、4、5、6、7、8、9、10、15、20種、またはそれを上回る種類の異なる配列である。
一態様において、サンプルの完全性は、同一配列を有する複数のマーカー核酸分子を用いて立証され得る。代替的に、サンプルの同一性は、少なくとも2種、少なくとも3種、少なくとも4種、少なくとも5種、少なくとも6種、少なくとも7種、少なくとも8種、少なくとも9種、少なくとも10種、少なくとも11種、少なくとも12種、少なくとも13種、少なくとも14種、少なくとも15種、少なくとも16種、少なくとも17種、少なくとも18種、少なくとも19種、少なくとも20種、少なくとも25種、少なくとも30種、少なくとも35種、少なくとも40種、少なくとも50種、またはそれを上回る種類の異なる配列を有する複数のマーカー核酸分子を用いて立証され得る。複数の生物学的サンプル、すなわち2種またはそれを上回る種類の生物学的サンプルの完全性についての立証は、該2種またはそれを上回る種類の生物学的サンプルのそれぞれが、マーク付けされている複数の検査サンプルのそれぞれに一意的である配列を有するマーカー核酸でマーク付けされることを要する。例えば、第1のサンプルは、配列Aを有するマーカー核酸でマーク付けされ得、かつ第2のサンプルは、配列Bを有するマーカー核酸でマーク付けされ得る。代替的に、第1のサンプルは、すべてが配列Aを有するマーカー核酸分子でマーク付けされ得、かつ第2のサンプルは、配列BおよびCの混合物でマーク付けされ得、配列A、B、およびCは、異なる配列を有するマーカー分子である。
マーカー核酸を、ライブラリー調製(ライブラリーが調製される予定である場合)およびシーケンシングの前に存在するサンプル調製の任意の段階で、サンプルに添加することができる。一態様において、マーカー分子を、加工されていない供給源サンプルと組み合わせることができる。例えば、マーカー核酸を、血液サンプルを収集するために用いられる収集チューブに提供することができる。代替的に、マーカー核酸を、採血後の血液サンプルに添加することができる。一態様において、マーカー核酸を、生物学的流体サンプルを収集するために用いられる容器に添加し、例えばマーカー核酸を、血液サンプルを収集するために用いられる血液収集チューブに添加する。別の態様において、マーカー核酸を、生物学的流体サンプルの画分に添加する。例えば、マーカー核酸を、血液サンプルの血漿画分および/または血清画分、例えば母体血漿サンプルに添加する。さらに別の態様において、マーカー分子を、精製されたサンプル、例えば生物学的サンプルから精製されている核酸のサンプルに添加する。例えば、マーカー核酸を、精製された母体および胎児のcfDNAのサンプルに添加する。同様に、マーカー核酸を、標本を加工する前の生検標本に添加することができる。いくつかの態様において、マーカー核酸を、生物学的サンプルの細胞内にマーカー分子を送達するキャリアと組み合わせることができる。細胞送達キャリアには、pH感受性およびカチオン性のリポソームが含まれる。
様々な態様において、マーカー分子は、生物学的供給源サンプルのゲノムに存在しない配列であるアンチゲノム配列を有する。例示的な態様において、ヒト生物学的供給源サンプルの完全性を立証するために用いられるマーカー分子は、ヒトゲノムに存在しない配列を有する。代替的な態様において、マーカー分子は、供給源サンプルおよび他のいずれか1種または複数種の公知のゲノムに存在しない配列を有する。例えば、ヒト生物学的供給源サンプルの完全性を立証するために用いられるマーカー分子は、ヒトゲノムおよびマウスゲノムに存在しない配列を有する。代替手段は、2種またはそれを上回る種類のゲノムを含む検査サンプルの完全性を立証することを可能にする。例えば、病原体、例えば細菌によって影響を受けた対象から得られたヒト無細胞DNAサンプルの完全性は、該ヒトのゲノムおよび影響を及ぼしている細菌のゲノムの両方に存在しない配列を有するマーカー分子を用いて立証され得る。数々の病原体、例えば細菌、ウイルス、酵母、真菌、原生動物などのゲノムの配列は、ワールド・ワイド・ウェブでncbi.nlm.nih.gov/genomesにて公的に入手可能である。別の態様において、マーカー分子は、任意の公知のゲノムに存在しない配列を有する核酸である。マーカー分子の配列は、アルゴリズムにより無作為に生成され得る。
様々な態様において、マーカー分子は、天然に存在するデオキシリボ核酸(DNA)、リボ核酸、または、ホスホジエステル骨格を有しない分子もしくはDNA模倣体の骨格への変化によって、天然に存在するDNAもしくはRNAと区別される、ペプチド核酸(PMA)、モルフォリノ核酸、ロックド核酸、グリコール核酸、およびトレオース核酸を含めた人工的核酸類似体(核酸模倣体)であり得る。デオキシリボ核酸は、天然に存在するゲノム由来であり得、または酵素の使用によりもしくは固相化学合成によって実験室で生成され得る。化学的方法を用いて、天然には見出されないDNA模倣体を生成することもできる。ホスホジエステル連結は置換されているがデオキシリボースが保持されている、入手可能であるDNAの誘導体には、優れた構造DNA模倣体であることが示されている、チオホルムアセタール(thioformacetal)またはカルボキサミド連結によって形成される骨格を有するDNA模倣体が含まれるが、それらに限定されるわけではない。他のDNA模倣体には、N-(2-アミノエチル)グリシンに基づく疑似ペプチド骨格を含有する、モルフォリノ誘導体およびペプチド核酸(PNA)が含まれる(Ann Rev Biophys Biomol Struct 24:167-183 [1995])。PNAは、DNAの(またはリボ核酸[RNA]の)極めて優れた構造模倣体であり、かつPNAオリゴマーは、ワトソン-クリック相補的DNAおよびRNA(またはPNA)オリゴマーにより非常に安定した二重鎖構造を形成し得、かつそれらは、ヘリックス侵入によって二重鎖DNAの状態の標的に結合することもできる(Mol Biotechnol 26:233-248 [2004])。マーカー分子として用いられ得る、DNA類似体の別の優れた構造模倣体/類似体は、非架橋酸素のうちの1個が硫黄によって置換されているホスホロチオエートDNAである。この改変は、5'→3'および3'→5' DNA POL 1エキソヌクレアーゼ、ヌクレアーゼS1およびP1、RNase、血清ヌクレアーゼ、ならびにヘビ毒ホスホジエステラーゼを含めた、エンドおよびエキソヌクレアーゼ2の作用を低減させる。
マーカー分子の長さは、サンプル核酸のものとは異なっていてもよくもしくは異なっていなくてもよい、すなわちマーカー分子の長さは、サンプルゲノム分子のものと同程度であり得、またはそれは、サンプルゲノム分子のものより大きくもしくは小さくあり得る。マーカー分子の長さは、該マーカー分子をなすヌクレオチドまたはヌクレオチド類似塩基の数によって測定される。サンプルゲノム分子のものとは異なる長さを有するマーカー分子は、当技術分野において公知の分離法を用いて、供給源核酸と区別され得る。例えば、マーカーおよびサンプル核酸分子の長さの差異は、電気泳動分離、例えばキャピラリー電気泳動によって判定され得る。サイズの差異は、マーカーおよびサンプル核酸を定量しかつそれらの質を査定するのに有利であり得る。好ましくは、マーカー核酸はゲノム核酸よりも短く、かつそれらがサンプルのゲノムにマッピングされるのを除外するのに十分な長さのものである。例えば、30塩基のヒト配列が、それをヒトゲノムに一意的にマッピングするために必要とされるように。したがって、ある特定の態様において、ヒトサンプルのシーケンシングバイオアッセイにおいて用いられるマーカー分子は、長さが少なくとも30bpであるべきである。
マーカー分子の長さの選定は、供給源サンプルの完全性を立証するために用いられるシーケンシング技術によって主に決定される。シーケンシングされているサンプルゲノム核酸の長さも考慮され得る。例えば、一部のシーケンシング技術は、ポリヌクレオチドのクローン的増幅を採用し、それは、クローン的に増幅される対象となるゲノムポリヌクレオチドが最小限の長さのものであることを必要とし得る。例えば、Illumina GAIIシーケンスアナライザーを用いたシーケンシングは、110bpという最小限の長さを有するポリヌクレオチドのブリッジPCR(クラスター増幅としても知られる)によるインビトロでのクローン的増幅を含み、それにアダプターがライゲーションして、クローン的に増幅され得かつシーケンシングされ得る少なくとも200bpかつ600bp未満の核酸を提供する。いくつかの態様において、アダプターがライゲーションされたマーカー分子の長さは、約200bp〜約600bp、約250bp〜550bp、約300bp〜500bp、または約350〜450である。他の態様において、アダプターがライゲーションされたマーカー分子の長さは約200bpである。例えば、母体サンプル中に存在している胎児cfDNAをシーケンシングする場合、マーカー分子の長さは、胎児cfDNA分子のものと同程度であるように選定され得る。ゆえに、一態様において、胎児染色体異数性の有無を判定するための、母体サンプルにおけるcfDNAの超並列シーケンシングを含むアッセイにおいて用いられるマーカー分子の長さは、約150bp、約160bp、170bp、約180bp、約190bp、または約200bpであり得;好ましくは、マーカー分子は約170ppである。他のシーケンシング手法、例えばSOLiDシーケンシング、ポロニー(Polony)シーケンシング、および454シーケンシングは、エマルジョンPCRを用いてシーケンシングのためのDNA分子をクローン的に増幅し、かつ各技術は、増幅される対象となる分子の最小限および最大限の長さを定める。クローン的に増幅された核酸としてシーケンシングされる対象となるマーカー分子の長さは、最高約600bpであり得る。いくつかの態様において、シーケンシングされる対象となるマーカー分子の長さは、600bpよりも大きくあり得る。
分子のクローン的増幅を採用せず、かつほとんどの状況において、非常に広範な鋳型の長さにわたって核酸をシーケンシングすることが可能である単分子シーケンシング技術は、シーケンシングされる対象となる分子が任意の特定の長さのものであることを必要としない。しかしながら、単位質量あたりの配列の収率は、3'末端ヒドロキシル基の数に依存し、ゆえにシーケンシングのために比較的短い鋳型を有することは、長い鋳型を有するよりも効率的である。1000ntよりも長い核酸で開始する場合、核酸を100〜200ntの平均長に剪断することが一般的に得策であり、それにより、同じ質量の核酸から、より多くの配列情報が生成され得る。ゆえに、マーカー分子の長さは、数十塩基から数千塩基に及び得る。単分子シーケンシングに用いられるマーカー分子の長さは、長さが最高約25bp、最高約50bp、最高約75bp、最高約100bp、最高約200bp、最高約300bp、最高約400bp、最高約500bp、最高約600bp、最高約700bp、最高約800bp、最高約900bp、最高約1000bp、またはそれを上回る数であり得る。
マーカー分子に選定される長さは、シーケンシングされているゲノム核酸の長さによっても決定される。例えば、cfDNAは、細胞ゲノムDNAのゲノムフラグメントとして、ヒト血流中を循環している。妊娠している女性の血漿中に見出される胎児cfDNA分子は、一般的に母体cfDNA分子よりも短い(Chan et al., Clin Chem 50:8892 [2004])。循環胎児DNAのサイズ分画により、循環胎児DNAフラグメントの平均長は<300bpであることが確認されており、一方で母体DNAは約0.5〜1Kbであると推定されている(Li et al., Clin Chem, 50:1002-1011 [2004])。これらの知見は、胎児cfDNAが>340bpであることは滅多にないことをNGSを用いて判定したFanらのもの(Fan et al., Clin Chem 56:1279-1286 [2010])と合致する。標準的シリカベースの方法で尿から単離されたDNAは、離脱細胞に起因する高分子量DNA、および腎臓透過性(transrenal)DNA(Tr-DNA)の低分子量(150〜250塩基対)画分という2つの画分からなる(Botezatu et al., Clin Chem. 46:1078-1084, 2000;およびSu et al., J Mol. Diagn. 6:101-107, 2004)。体液由来の無細胞核酸の単離のために新しく開発された技法の腎臓透過性核酸の単離への適用により、150塩基対よりもはるかに短いDNAおよびRNAフラグメントの尿中での存在が明らかになった(米国特許出願公報第20080139801号)。cfDNAが、シーケンシングされるゲノム核酸である態様において、選定されるマーカー分子は、最高約cfDNAの長さであり得る。例えば、単一核酸分子としてまたはクローン的に増幅された核酸としてシーケンシングされる対象となる母体cfDNAサンプルにおいて用いられるマーカー分子の長さは、約100bp〜600であり得る。他の態様において、サンプルゲノム核酸は、より大きな分子のフラグメントである。例えば、シーケンシングされるサンプルゲノム核酸は、フラグメント化された細胞DNAである。態様において、フラグメント化された細胞DNAがシーケンシングされる場合、マーカー分子の長さは、最高で該DNAフラグメントの長さであり得る。いくつかの態様において、マーカー分子の長さは、少なくとも、配列読み取りを適当な参照ゲノムに一意的にマッピングするのに必要とされる最小限の長さである。他の態様において、マーカー分子の長さは、マーカー分子がサンプル参照ゲノムにマッピングされるのを除外するのに必要とされる最小限の長さである。
加えて、マーカー分子を用いて、核酸シーケンシングによってアッセイされずかつシーケンシング以外の一般的バイオ技法、例えばリアルタイムPCRによって立証され得るサンプルを立証することができる。
サンプル対照(例えば、シーケンシングおよび/または解析のための作業中陽性対照)
様々な態様において、例えば上記で記載されるように、サンプル中に導入されるマーカー配列は、シーケンシング、ならびに後続の加工および解析の精度および有効性を立証する陽性対照として機能し得る。
したがって、サンプル中のDNAのシーケンシングのための作業中陽性対照(IPC)を提供するための組成物および方法が提供される。ある特定の態様において、ゲノムの混合物を含むサンプル中のcfDNAのシーケンシングのための陽性対照が提供される。IPCを用いて、異なるセットのサンプル、例えば異なるシーケンシングランで異なるときにシーケンシングされるサンプルから得られた配列情報におけるベースライン推移を関連付けすることができる。ゆえに、例えば、IPCは、母体検査サンプルに関して得られた配列情報を、異なるときにシーケンシングされた適格サンプルのセットから得られた配列情報に関連付けすることができる。
同様に、セグメント解析の場合、IPCは、特定のセグメントに関して対象から得られた配列情報を、異なるときにシーケンシングされた(類似した配列の)適格サンプルのセットから得られた配列情報に関連付けすることができる。ある特定の態様において、IPCは、特定の癌関連遺伝子座に関して対象から得られた配列情報を、適格サンプルのセットから得られた配列情報に関連付けすることができる(例えば、公知の増幅/欠失などによる)。
加えて、IPCを、シーケンシング過程を通じてサンプルを追跡するためのマーカーとして用いることができる。IPCは、関心対象の染色体の1種または複数種の異数性、例えばトリソミー21、トリソミー13、トリソミー18に対する定性的な陽性の配列量値、例えばNCVを提供して、適正な解釈も提供し得かつデータの信頼度および精度も確保し得る。ある特定の態様において、雄性および雌性ゲノム由来の核酸を含むようにIPCを創出して、母体サンプルにおけるXおよびY染色体量を提供して、胎児が雄であるかどうかを判定することができる。
作業中対照のタイプおよび数は、必要とされる検査のタイプまたは性質に依存する。例えば、染色体異数性が存在するかどうかを判定するための、ゲノムの混合物を含むサンプル由来のDNAのシーケンシングを必要とする検査に関して、作業中対照は、検査されている同じ染色体異数性を含むことが知られるサンプルから得られたDNAを含み得る。いくつかの態様において、IPCは、関心対象の染色体の異数性を含むことが知られるサンプル由来のDNAを含む。例えば、母体サンプルにおける胎児トリソミー、例えばトリソミー21の有無を判定する検査に対するIPCは、トリソミー21を有する個体から得られたDNAを含む。いくつかの態様において、IPCは、異なる異数性を有する2つまたはそれを上回る数の個体から得られたDNAの混合物を含む。例えば、トリソミー13、トリソミー18、トリソミー21、およびモノソミーXの有無を判定する検査に関して、IPCは、検査されているトリソミーのうちの1種を有する胎児をそれぞれが保持している妊娠女性から得られたDNAサンプルの組み合わせを含む。完全染色体異数性に加えて、部分的異数性の有無を判定する検査に対する陽性対照を提供するようにIPCを創出することができる。
単一異数性を検出するための対照として働くIPCを、一方は異数性ゲノムの寄与因子である、2つの対象から得られた細胞ゲノムDNAの混合物を用いて創出することができる。例えば、胎児トリソミー、例えばトリソミー21を判定する検査に対する対照として創出されるIPCを、トリソミー染色体を保持する雄性または雌性対象由来のゲノムDNAと、トリソミー染色体を保持しないことが知られる雌性対象に関するゲノムDNAとを組み合わせることによって創出することができる。ゲノムDNAを両対象の細胞から抽出しかつ剪断して、母体サンプルにおける循環cfDNAフラグメントを模擬する約100〜400bp、約150〜350bp、または約200〜300bpのフラグメントを提供することができる。異数性、例えばトリソミー21を保持する対象由来のフラグメント化されたDNAの割合を、母体サンプルに見出される循環胎児cfDNAの割合を模擬するように選定して、異数性を保持する対象由来のDNAの約5%、約10%、約15%、約20%、約25%、約30%を含む、フラグメント化DNAの混合物を含むIPCを提供する。IPCは、それぞれが異なる異数性を保持する異なる対象由来のDNAを含み得る。例えば、IPCは、約80%の影響なしの雌性DNAを含み得、かつ残りの20%は、それぞれが第21トリソミー染色体、第13トリソミー染色体、および第18トリソミー染色体を保持する3つの異なる対象由来のDNAであり得る。シーケンシングのために、フラグメント化されたDNAの混合物を調製する。フラグメント化されたDNAの混合物の加工は、シーケンシングライブラリーを調製する工程を含み得、それは、シングルプレックスまたはマルチプレックス形式での任意の超並列法を用いてシーケンシングされ得る。ゲノムIPCのストック溶液は、保存され得かつ多数の診断検査において用いられ得る。
代替的に、公知の染色体異数性を有する胎児を保持することが知られる母親から得られたcfDNAを用いて、IPCを創出することができる。例えば、トリソミー21を有する胎児を保持している妊娠女性からcfDNAを獲得することができる。cfDNAを母体サンプルから抽出し、かつ細菌ベクター内にクローニングし、かつ細菌内で増大させて、IPCの継続的供給源を提供する。制限酵素を用いて、DNAを細菌ベクターから取り出すことができる。代替的に、クローン化cfDNAを、例えばPCRによって増幅することができる。染色体異数性の有無について解析される対象となる検査サンプル由来のcfDNAと同じランでのシーケンシングに対して、IPC DNAを加工することができる。
IPCの創出は、トリソミーに関して上記で記載されているが、例えば様々なセグメントの増幅および/または欠失を含めた他の部分的異数性を反映するように、IPCを創出し得ることが解されるであろう。ゆえに、例えば、様々な癌が、特定の増幅と関連することが知られている場合(例えば、20Q13と関連した乳癌)、そうした公知の増幅を組み入れるIPCを創出することができる。
シーケンシング法
上記で示されるように、調製されたサンプル(例えば、シーケンシングライブラリー)を、コピー数変異を同定するための手順の一部としてシーケンシングする。多数のシーケンシング技術のいずれかを利用することができる。
下記で記載される、Affymetrix Inc.(Sunnyvale, CA)製のハイブリダイゼーションによるシーケンシングプラットフォーム、ならびに454 Life Sciences(Bradford, CT)、Illumina/Solexa(Hayward, CA)、およびHelicos Biosciences(Cambridge, MA)製の合成によるシーケンシングプラットフォーム、ならびにApplied Biosystems(Foster City, CA)製のライゲーションによるシーケンシングプラットフォームなど、いくつかのシーケンシング技術は商業的に利用可能である。Helicos Biosciences製の合成によるシーケンシングを用いて実施される単分子シーケンシングに加えて、他の単分子シーケンシングには、Pacific BiosciencesのSMRT(商標)技術、ION TORRENT(商標)技術、および例えばOxford Nanopore Technologiesによって開発されたナノポアシーケンシングが含まれるが、それらに限定されるわけではない。
自動化されたサンガー法は「第1世代」技術と見なされるものの、本明細書において記載される方法では、自動化サンガーシーケンシングを含めたサンガーシーケンシングも採用することができる。さらなる適切なシーケンシング法には、核酸イメージング技術、例えば原子間力顕微鏡法(AFM)または透過電子顕微鏡法(TEM)が含まれるが、それらに限定されるわけではない。例証的なシーケンシング技術は、下記でより詳細に記載されている。
例証的であるが非限定的な一態様において、本明細書において記載される方法は、HelicosのTrue Single Molecule Sequencing(tSMS)技術(例えば、Harris T.D. et al., Science 320:106-109 [2008]に記載されている)の単分子シーケンシング技術を用いて、検査サンプルにおける核酸、例えば母体サンプルにおけるcfDNA、癌についてスクリーニングされている対象におけるcfDNAまたは細胞DNAなどについての配列情報を獲得する工程を含む。tSMS技法では、DNAサンプルをおよそ100〜200個のヌクレオチドの鎖に切断し、かつポリA配列を各DNA鎖の3'末端に付加する。各鎖を、蛍光標識されたアデノシンヌクレオチドの付加によって標識する。次いで、該DNA鎖を、フローセル表面に固定化されている数百万個のオリゴT捕捉部位を含有するフローセルにハイブリダイズさせる。ある特定の態様において、鋳型は、約1億個の鋳型/cm2の密度であり得る。次いで、フローセルを計器、例えばHeliScope(商標)シーケンサー内に載せ、かつレーザーがフローセルの表面を照射し、各鋳型の箇所が明らかとなる。CCDカメラにより、フローセル表面上の鋳型の箇所がマッピングされ得る。次いで、鋳型蛍光標識を切断し、かつ洗い流す。DNAポリメラーゼおよび蛍光標識されたヌクレオチドを導入することによって、シーケンシング反応が始まる。オリゴT核酸はプライマーとして働く。ポリメラーゼは、鋳型指向的様式でプライマーに標識ヌクレオチドを組み入れる。ポリメラーゼおよび組み入れられていないヌクレオチドを除去する。蛍光標識されたヌクレオチドの組み入れに指向している鋳型は、フローセル表面を撮像することによって見分けられる。撮像後、切断工程により蛍光標識を除去し、かつ該過程を、所望の読み取りの長さが達成されるまで、他の蛍光標識されたヌクレオチドを用いて反復する。各ヌクレオチド付加工程に関して配列情報が収集される。単分子シーケンシング技術による全ゲノムシーケンシングは、シーケンシングライブラリーの調製におけるPCRベースの増幅を除外しまたは典型的には取り除き、かつ方法は、そのサンプルのコピーの測定よりもむしろ、サンプルの直接的測定を可能にする。
例証的であるが非限定的な別の態様において、本明細書において記載される方法は、454シーケンシング(Roche)(例えば、Margulies, M. et al. Nature 437:376-380 [2005]に記載されている)を用いて、検査サンプルにおける核酸、例えば母体検査サンプルにおけるcfDNA、癌についてスクリーニングされている対象におけるcfDNAまたは細胞DNAなどについての配列情報を獲得する工程を含む。454シーケンシングは、典型的に2つの工程を伴う。第1の工程において、DNAをおよそ300〜800塩基対のフラグメントに剪断し、かつ該フラグメントを平滑末端化する。次いで、オリゴヌクレオチドアダプターを、フラグメントの末端にライゲーションさせる。アダプターは、フラグメントの増幅およびシーケンシングのためのプライマーとして働く。フラグメントは、例えば5'-ビオチンタグを含有するアダプターBを用いて、DNA捕捉ビーズ、例えばストレプトアビジンコートされたビーズに接着し得る。ビーズに接着したフラグメントは、油−水エマルジョンの液滴内でPCR増幅される。結果は、各ビーズ上でクローン的に増幅されたDNAフラグメントの多コピーである。第2の工程において、ビーズをウェル(例えば、ピコリットルサイズのウェル)中で捕捉する。各DNAフラグメントに対して、パイロシーケンシングを並列して実施する。1個または複数個のヌクレオチドの付加により、シーケンシング計器内のCCDカメラによって記録される光シグナルが生成される。シグナル強度は、組み入れられたヌクレオチドの数に比例する。パイロシーケンシングは、ヌクレオチド付加時に放出されるピロホスフェート(PPi)を使用する。PPiは、アデノシン5'ホスホスルフェートの存在下で、ATPスルフリラーゼによってATPに変換される。ルシフェラーゼは、ATPを用いてルシフェリンをオキシルシフェリンに変換し、かつこの反応は、測定されかつ解析される光を生成する。
例証的であるが非限定的な別の態様において、本明細書において記載される方法は、SOLiD(商標)技術(Applied Biosystems)を用いて、検査サンプルにおける核酸、例えば母体検査サンプルにおけるcfDNA、癌についてスクリーニングされている対象におけるcfDNAまたは細胞DNAなどについての配列情報を獲得する工程を含む。SOLiD(商標)のライゲーションによるシーケンシングでは、ゲノムDNAをフラグメントに剪断し、かつアダプターを該フラグメントの5'および3'末端に接着させて、フラグメントライブラリーを生成する。代替的に、アダプターをフラグメントの5'および3'末端にライゲーションさせ、フラグメントを循環させ、循環フラグメントを消化して内部アダプターを生成し、かつアダプターを結果として生じたフラグメントのフラグメントの5'および3'末端に接着させることによって内部アダプターを導入して、メイトペアのライブラリーを生成することができる。次に、ビーズ、プライマー、鋳型、およびPCR構成要素を含有するマイクロリアクター内で、クローン的ビーズ集団を調製する。PCRの後、鋳型を変性し、かつビーズを富化して、伸長した鋳型を有するビーズを分離する。選択されたビーズ上の鋳型を、ガラススライドへの結合を可能にする3'修飾に供する。配列は、部分的ランダムオリゴヌクレオチドと、特異的フルオロフォアによって同定される中心規定塩基(または塩基対)との逐次的ハイブリダイゼーションおよびライゲーションによって決定され得る。色が記録された後、ライゲーションしたオリゴヌクレオチドは切断されかつ除去され、次いで該過程が反復される。
例証的であるが非限定的な別の態様において、本明細書において記載される方法は、Pacific Biosciencesの単分子リアルタイム(SMRT(商標))シーケンシング技術を用いて、検査サンプルにおける核酸、例えば母体検査サンプルにおけるcfDNA、癌についてスクリーニングされている対象におけるcfDNAまたは細胞DNAなどについての配列情報を獲得する工程を含む。SMRTシーケンシングでは、色素標識されたヌクレオチドの連続的組み入れが、DNA合成中に撮像される。単一DNAポリメラーゼ分子は、ゼロモードにある個々の波長検出器(ZMW検出器)の底面に接着し、それは、ホスホ連結したヌクレオチドが、増大するプライマー鎖に組み入れられている間に配列情報を獲得する。ZMW検出器は、ZMWの内外に急速に(例えば、マイクロ秒で)拡散する蛍光ヌクレオチドのバックグラウンドに対して、DNAポリメラーゼによる単一ヌクレオチドの組み入れの観察を可能にする閉じ込め構造を含む。増大する鎖にヌクレオチドを組み入れるには、典型的に数ミリ秒かかる。この時間の間、蛍光標識は励起されかつ蛍光シグナルを産生し、かつ蛍光タグは切除される。色素の対応する蛍光についての測定は、どの塩基が組み入れられたかを示す。該過程が反復されて、配列が提供される。
例証的であるが非限定的な別の態様において、本明細書において記載される方法は、ナノポアシーケンシング(例えば、Soni GVおよびMeller A. Clin Chem 53:1996-2001 [2007]に記載されている)を用いて、検査サンプルにおける核酸、例えば母体検査サンプルにおけるcfDNA、癌についてスクリーニングされている対象におけるcfDNAまたは細胞DNAなどについての配列情報を獲得する工程を含む。ナノポアシーケンシングDNA解析技法は、例えばOxford Nanopore Technologies(Oxford, United Kingdom)、Sequenom、NABsysなどを含めたいくつかの会社によって開発されている。ナノポアシーケンシングは、DNAの単分子が、それがナノポアを通過するときに直接シーケンシングされる、単分子シーケンシング技術である。ナノポアは、典型的に直径1ナノメートルの桁の小さな穴である。導電性流体中へのナノポアの浸漬およびその両端間への電位(電圧)の印加は、ナノポアを通じたイオンの伝導により、わずかな電流をもたらす。流れる電流の量は、ナノポアのサイズおよび形状に敏感である。DNA分子がナノポアを通過するとき、該DNA分子上の各ヌクレオチドは種々の程度にナノポアを塞ぎ、ナノポアを通じた電流の大きさが種々の程度で変化する。ゆえに、DNA分子がナノポアと通過するときのこの電流の変化により、DNA配列の読み取りが提供される。
例証的であるが非限定的な別の態様において、本明細書において記載される方法は、化学的感受性電界効果トランジスタ(chemFET)アレイ(例えば、米国特許出願公報第2009/0026082号に記載されている)を用いて、検査サンプルにおける核酸、例えば母体検査サンプルにおけるcfDNA、癌についてスクリーニングされている対象におけるcfDNAまたは細胞DNAなどについての配列情報を獲得する工程を含む。この技法の一例において、DNA分子は反応チャンバー内に置かれ得、かつ鋳型分子は、ポリメラーゼに結合しているシーケンシングプライマーにハイブリダイズされ得る。シーケンシングプライマーの3'末端における、新しい核酸鎖への1個または複数個のトリホスフェートの組み入れは、chemFETによって電流の変化として見分けられ得る。アレイは、複数のchemFETセンサーを有し得る。別の例において、単一核酸はビーズに接着され得、かつ該核酸はビーズ上で増幅され得、かつ個々のビーズは、各チャンバーがchemFETセンサーを有するchemFETアレイ上の個々の反応チャンバーに移され得、かつ核酸がシーケンシングされ得る。
別の態様において、本方法は、透過電子顕微鏡法(TEM)を用いるHalcyon Molecularの技術を用いて、検査サンプルにおける核酸、例えば母体検査サンプルにおけるcfDNAについての配列情報を獲得する工程を含む。個別分子置換迅速ナノ移動(Individual Molecule Placement Rapid Nano Transfer)(IMPRNT)と称される方法は、重原子マーカーで選択的に標識された高分子量(150kbまたはそれを上回る)DNAの単原子分解能透過電子顕微鏡イメージングを利用する工程、およびこれらの分子を、塩基から塩基までの一貫した間隔を有する超高密度(鎖から鎖まで3nm)並列アレイにおける超薄フィルム上に配置する工程を含む。電子顕微鏡を用いてフィルム上の分子を撮像して、重原子マーカーの箇所を決定し、かつDNAからの塩基配列情報を抽出する。該方法は、PCT特許公報WO 2009/046445にさらに記載されている。該方法は、10分間未満で完全ヒトゲノムをシーケンシングすることを可能にする。
別の態様において、DNAシーケンシング技術は、Ion Torrentの単分子シーケンシングであり、それは、半導体技術と単純シーケンシング化学とを合わせて、化学的にコードされた情報(A、C、G、T)をデジタル情報(0、1)に半導体チップ上で直接翻訳する。本来、ポリメラーゼによってヌクレオチドがDNAの鎖に組み入れられる場合、水素イオンが副産物として放出される。Ion Torrentは、微細機械加工されたウェルの高密度アレイを用いて、超並列様態でこの生化学的過程を実施する。各ウェルは、異なるDNAを持つ。ウェルの下にイオン感受性層があり、その下にイオンセンサーがある。ヌクレオチド、例えばCがDNA鋳型に付加し、次いでDNAの鎖に組み入れられる場合、水素イオンが放出される。そのイオンからの電荷は、溶液のpHを変化させ、それがIon Torrentのイオンセンサーによって検出され得る。本質的に世界最小の固体pHメーターであるシーケンサーは、塩基を呼び出し、化学的情報からデジタル情報に直接進む。次いで、Ion personal Genome Machine(PGM(商標))シーケンサーは、次から次にチップを1種のヌクレオチドで逐次的に浸水させる。チップを浸水させる次のヌクレオチドが一致しない場合、電圧変化は記録されずかつ塩基は呼び出されない。DNA鎖上に2個の同一塩基が存在する場合、電圧は2倍になり、かつチップは、呼び出された2個の同一塩基を記録する。直接的検出により、数秒でのヌクレオチド組み入れの記録が可能となる。
別の態様において、本方法は、ハイブリダイゼーションによるシーケンシングを用いて、検査サンプルにおける核酸、例えば母体検査サンプルにおけるcfDNAについての配列情報を獲得する工程を含む。ハイブリダイゼーションによるシーケンシングは、複数のポリヌクレオチド配列と複数のポリヌクレオチドプローブとを接触させる工程を含み、該複数のポリヌクレオチドプローブのそれぞれは、任意で基板に係留され得る。基板は、公知のヌクレオチド配列を含む平面であり得る。アレイへのハイブリダイゼーションのパターンを用いて、サンプル中に存在しているポリヌクレオチド配列を決定することができる。他の態様において、各プローブはビーズ、例えば磁気ビーズなどに係留される。ビーズへのハイブリダイゼーションを判定しかつ用いて、サンプル内の複数のポリヌクレオチド配列を同定することができる。
別の態様において、本方法は、Illuminaの合成によるシーケンシングおよび可逆的ターミネーターに基づくシーケンシング化学(例えば、Bentley et al., Nature 6:53-59 [2009]に記載されている)を用いた、数百万個のDNAフラグメントの超並列シーケンシングによって、検査サンプルにおける核酸、例えば母体検査サンプルにおけるcfDNAについての配列情報を獲得する工程を含む。鋳型DNAはゲノムDNA、例えばcfDNAであり得る。いくつかの態様において、単離された細胞由来のゲノムDNAを鋳型として用い、かつそれを、数百個の塩基対の長さにフラグメント化する。他の態様において、cfDNAを鋳型として用い、cfDNAは短いフラグメントとして存在するため、フラグメント化は必要とされない。例えば、胎児cfDNAは、長さがおよそ170塩基対(bp)のフラグメントとして血流中を循環しており(Fan et al., Clin Chem 56:1279-1286 [2010])、シーケンシング前にDNAのフラグメント化は必要とされない。Illuminaのシーケンシング技術は、オリゴヌクレオチドアンカーが結合している平らな光透過性表面への、フラグメント化されたゲノムDNAの接着に依存する。鋳型DNAを末端修復して5'リン酸化平滑末端を生成し、かつKlenowフラグメントのポリメラーゼ活性を用いて、平滑のリン酸化DNAフラグメントの3'末端に単一A塩基を付加する。この付加により、それらの3'末端に単一T塩基の突出を有してライゲーション効率を増加させる、オリゴヌクレオチドアダプターへのライゲーションのためのDNAフラグメントが調製される。アダプターオリゴヌクレオチドは、フローセルアンカーに相補的である。限界希釈条件下で、アダプター修飾された一本鎖鋳型DNAは、フローセルに添加されかつハイブリダイゼーションによってアンカーに固定される。接着したDNAフラグメントは伸長されかつブリッジ増幅されて、それぞれが約1,000コピーの同じ鋳型を含有する何億個ものクラスターを有する超高密度シーケンシングフローセルを創出する。一態様において、無作為にフラグメント化されたゲノムDNA、例えばcfDNAを、それがクラスター増幅に供される前に、PCRを用いて増幅する。代替的に、増幅なしのゲノムライブラリー調製を用い、かつ無作為にフラグメント化されたゲノムDNA、例えばcfDNAを、クラスター増幅のみを用いて富化する(Kozarewa et al., Nature Methods 6:291-295 [2009])。除去可能な蛍光色素を有する可逆的ターミネーターを採用する、堅牢な4色DNAの合成によるシーケンシング技術を用いて、鋳型をシーケンシングする。高感度の蛍光検出は、レーザー励起および内部全反射光学を用いて達成される。約20〜40bp、例えば36bpの短い配列読み取りを、反復マスキングされた参照ゲノムに対してアラインメントし、かつ参照ゲノムへの短い配列読み取りの一意的マッピングを、特別に開発されたデータ解析パイプラインソフトウェアを用いて同定する。反復マスキングされていない参照ゲノムも用いることができる。反復マスキングされたまたは反復マスキングされていない参照ゲノムを用いるかどうかにかかわらず、参照ゲノムに一意的にマッピングする読み取りのみが計数される。第1の読み取りの完了後、鋳型をインサイチューで再生して、フラグメントの反対末端からの第2の読み取りを可能にすることができる。ゆえに、DNAフラグメントの単一末端または対合末端シーケンシングのいずれかを用いることができる。サンプル中に存在しているDNAフラグメントの部分的シーケンシングを実施し、かつ事前に規定された長さ、例えば36bpの読み取りを含む配列タグを、公知の参照ゲノムにマッピングし、計数する。一態様において、参照ゲノム配列はNCBI36/hg18配列であり、それは、ワールド・ワイド・ウェブでgenome.ucsc.edu/cgi-bin/hgGateway?org=Human&db=hg18&hgsid=166260105にて入手可能である。代替的に、参照ゲノム配列はGRCh37/hg19であり、それは、ワールド・ワイド・ウェブでgenome.ucsc.edu/cgi-bin/hgGatewayにて入手可能である。公的配列情報の他の供給源には、GenBank、dbEST、dbSTS、EMBL(欧州分子生物学研究所(European Molecular Biology Laboratory))、およびDDBJ(日本DNAデータバンク(DNA Databank of Japan))が含まれる。BLAST(Altschul et al., 1990)、BLITZ(MPsrch)(Sturrock & Collins, 1993)、FASTA(Person & Lipman, 1988)、BOWTIE(Langmead et al., Genome Biology 10:R25.1-R25.10 [2009])、またはELAND(Illumina, Inc., San Diego, CA, USA)を含むがそれらに限定されない、配列をアラインメントするための多数のコンピューターアルゴリズムが利用可能である。一態様において、血漿cfDNA分子のクローン的に拡大したコピーの一方の末端をシーケンシングし、かつヌクレオチドデータベースの効率的大規模アラインメント(Efficient Large-Scale Alignment of Nucleotide Databases)(ELAND)ソフトウェアを用いる、Illumina Genome Analyzer用のバイオインフォマティクスアラインメント解析によって処理する。
本明細書において記載される方法のいくつかの態様において、マッピングされた配列タグは、約20bp、約25bp、約30bp、約35bp、約40bp、約45bp、約50bp、約55bp、約60bp、約65bp、約70bp、約75bp、約80bp、約85bp、約90bp、約95bp、約100bp、約110bp、約120bp、約130、約140bp、約150bp、約200bp、約250bp、約300bp、約350bp、約400bp、約450bp、または約500bpの配列読み取りを含む。技術的進歩により、500bpよりも大きな単一末端の読み取りが可能となり、対合末端の読み取りが生成される場合には、約1000bpよりも大きな読み取りが可能となることが予想される。一態様において、マッピングされた配列読み取りは、36bpである配列読み取りを含む。配列タグのマッピングは、タグの配列と参照の配列とを比較して、シーケンシングされた核酸(例えば、cfDNA)分子の染色体起源を決定することによって達成され、具体的な遺伝子配列情報は必要とされない。参照ゲノムと混合サンプル中のゲノムとの間に存在し得る微量の多型を説明する、わずかな程度のミスマッチ(1個の配列タグあたり0〜2個のミスマッチ)は許され得る。
典型的に、1個のサンプルあたり複数の配列タグが獲得される。いくつかの態様において、1個のサンプルあたり、読み取りを参照ゲノムにマッピングすることにより、20〜40bpの読み取り、例えば36bpを含む、少なくとも約3×106個の配列タグ、少なくとも約5×106個の配列タグ、少なくとも約8×106個の配列タグ、少なくとも約10×106個の配列タグ、少なくとも約15×106個の配列タグ、少なくとも約20×106個の配列タグ、少なくとも約30×106個の配列タグ、少なくとも約40×106個の配列タグ、または少なくとも約50×106個の配列タグが獲得される。一態様において、すべての配列読み取りを、参照ゲノムのすべての領域にマッピングする。一態様において、参照ゲノムのすべての領域、例えばすべての染色体にマッピングされたタグを計数し、かつ混合DNAサンプルにおける関心対象の配列、例えば染色体またはその一部分のCNV、すなわち過剰または過少な構成を判定する。方法は、2種のゲノム間の識別を必要としない。
CNV、例えば異数性がサンプル中に存在しているまたは存在していないかどうかを正しく判定するために必要とされる精度は、シーケンシングラン内のサンプル間での、参照ゲノムにマッピングする配列タグの数の変動(染色体間の可変性)、および異なるシーケンシングランにおける、参照ゲノムにマッピングする配列タグの数の変動(シーケンシング間の可変性)に基礎を置いている。例えば、変動は、GCに富んだまたはGCが乏しい参照配列にマッピングするタグに関してとくに顕著であり得る。他の変動は、核酸の抽出および精製、シーケンシングライブラリーの調製、ならびに異なるシーケンシングプラットフォームの使用に対して、異なるプロトコールを用いることにより生じる。本方法は、正規化配列(正規化染色体配列または正規化セグメント配列)についての知識に基づく配列量(染色体量またはセグメント量)を用いて、染色体間(ラン内)およびシーケンシング間(ラン間)から生じる発生した変動、ならびにプラットフォーム依存的な変動を本質的に説明する。染色体量は、単一染色体から、または第1〜22、X、およびY染色体より選択される2種もしくはそれを上回る種類の染色体から構成され得る、正規化染色体配列についての知識に基づく。代替的に、正規化染色体配列は、単一染色体セグメントから、あるいは1種の染色体または2種もしくはそれを上回る種類の染色体の2つまたはそれを上回る数のセグメントから構成され得る。セグメント量は、いずれか1種の染色体の単一セグメントから、または第1〜22、X、およびY染色体のうちのいずれか2種もしくはそれを上回る種類の2つもしくはそれを上回る数のセグメントから構成され得る、正規化セグメント配列についての知識に基づく。
CNVおよび出生前診断
母体血中を循環している無細胞の胎児DNAおよびRNAを、妊娠管理のためにおよび生殖意思決定を支援するための両方に対して、増加する数の遺伝的状態についての早期の非侵襲的出生前診断(NIPD)に用いることができる。血流中を循環している無細胞DNAの存在は、50年間以上にわたって知られてきた。より近年には、少量の循環胎児DNAの存在が、妊娠中の母体血流中で発見された(Lo et al., Lancet 350:485-487 [1997])。死にゆく胎盤細胞に起因すると考えられ、無細胞胎児DNA(cfDNA)は、妊娠4週には早くも見分けられ得る(Illanes et al., Early Human Dev 83:563-566 [2007])典型的に長さが200bpよりも少ない短いフラグメントからなることが示されており(Chan et al., Clin Chem 50:88-92 [2004])、かつ分娩の数時間以内に母体循環から一掃されることが知られている(Lo et al., Am J Hum Genet 64:218-224 [1999])。cfDNAに加えて、胎児または胎盤において転写される遺伝子に起因する、無細胞胎児RNA(cfRNA)のフラグメントも母体血流中で見分けることができる。母体血液サンプル由来のこれらの胎児遺伝子要素の抽出および後続の解析は、NIPDに新規な機会を与える。
本方法は、NIPDにおける使用のための、かつ胎児異数性についての判定を可能にするのに胎児cfDNAが母体cfDNAと区別されることを必要としない、多型独立的方法である。いくつかの態様において、異数性は、完全染色体トリソミーもしくはモノソミー、または部分的トリソミーもしくはモノソミーである。部分的異数性は、染色体の一部の損失または増大によって引き起こされ、不平衡転座、不平衡逆位、欠失、および挿入により生じる染色体不平衡を包含する。群を抜いて、生命と共生可能である最もよく知られる異数性は、第21染色体の一部またはすべての存在によって引き起こされるトリソミー21、すなわちダウン症候群(DS)である。稀に、DSは、第21染色体のすべてまたは一部の余分なコピーが別の染色体(通常、第14染色体)に接着して単一の異常な染色体を形成する、遺伝性または孤発性の欠陥によって引き起こされ得る。DSは、知的障害、重度の学習困難、および心疾患などの長期の健康問題によって引き起こされる超死亡率と関連している。公知の臨床的意義を有する他の異数性には、エドワーズ(Edward)症候群(トリソミー18)およびパトー症候群(トリソミー13)が含まれ、それらは、生後初めの数ヶ月以内に高頻度で死に至る。性染色体の数と関連した異常も公知であり、雌性出生におけるモノソミーX、例えばターナー症候群(XO)、およびトリプルX症候群(XXX)、ならびに雄性出生におけるクラインフェルター(Kleinefelter)症候群(XXY)およびXYY症候群が含まれ、それらはすべて、不妊症および知的技能の低減を含めた様々な表現型と関連している。モノソミーX[45,X]は、自然流産の約7%を占める早期妊娠損失の一般的原因である。1〜2/10,000という45,X(ターナー症候群とも呼ばれる)の生産頻度に基づくと、45,X受胎の1%未満が期日まで生存すると推定される。ターナー症候群患者の約30%は、45,X細胞系列と、46,XX細胞系列または再編成されたX染色体を含有するもののいずれかとのモザイクである(HookおよびWarburton 1983)。高い胚性致死性を考慮すると、生産児における表現型は比較的軽度であり、ターナー症候群を有するおそらくすべての雌性生産児は、2つの性染色体を含有する細胞系列を保持するという仮説が立てられている。モノソミーXは、雌において45,Xまたは45,X/46XXとして、雄において45,X/46XYとして生じ得る。ヒトにおける常染色体モノソミーは、生命と共生不能であると一般的に示唆されているが、しかしながら、生産児における1本の第21染色体の完全モノソミーを記載しているかなり多数の細胞遺伝学的報告が存在する(Vosranova et al., Molecular Cytogen. 1:13 [2008];Joosten et al., Prenatal Diagn. 17:271-5 [1997])。本明細書において記載される方法を用いて、これらおよび他の染色体異常を出生前に診断することができる。
いくつかの態様に従って、本明細書において開示される方法は、第1〜22、X、およびY染色体のうちのいずれか1つの染色体トリソミーの有無を判定することができる。本方法に従って検出され得る染色体トリソミーの例には、トリソミー21(T21;ダウン症候群)、トリソミー18(T18;エドワーズ症候群)、トリソミー16(T16)、トリソミー20(T20)、トリソミー22(T22;ネコ眼症候群)、トリソミー15(T15;プラダー・ウィリー症候群)、トリソミー13(T13;パトー症候群)、トリソミー8(T8;Warkany症候群)、トリソミー9、およびXXY(クラインフェルター症候群)、XYY、またはXXXトリソミーが含まれるが、それらに限定されるわけではない。非モザイク状態で存在する他の常染色体の完全トリソミーは致死性であるが、モザイク状態で存在している場合、生命と共生可能であり得る。モザイクまたは非モザイク状態で存在するかどうかにかかわらない様々な完全トリソミー、および部分的トリソミーを、本明細書において提供される教示に従って、胎児cfDNAにおいて判定することができる。
本方法によって判定され得る部分的トリソミーの非限定的な例には、部分的トリソミー1q32-44、トリソミー9p、トリソミー4モザイク、トリソミー17p、部分的トリソミー4q26-qter、部分的2pトリソミー、部分的トリソミー1q、および/または部分的トリソミー6p/モノソミー6qが含まれるが、それらに限定されるわけではない。
本明細書において開示される方法を用いて、妊娠流産に関与することが知られる、染色体モノソミーX、染色体モノソミー21、ならびにモノソミー13、モノソミー15、モノソミー16、モノソミー21、およびモノソミー22などの部分的モノソミーも判定することができる。完全異数性に典型的に関与する染色体の部分的モノソミーも、本明細書において記載される方法によって判定することができる。本方法に従って判定され得る欠失症候群の非限定的な例には、染色体の部分的欠失によって引き起こされる症候群が含まれる。本明細書において記載される方法に従って判定され得る部分的欠失の例には、以下に記載される、第1、第4、第5、第7、第11、第18、第15、第13、第17、第22、および第10染色体の部分的欠失が含まれるが、それらに限定されるわけではない。
1q21.1欠失症候群または1q21.1(再発性)微小欠失は、第1染色体の稀な異常である。欠失症候群とは別に、1q21.1重複症候群も存在する。特定の地点に欠失症候群に関するDNA欠損の部分が存在する一方で、重複症候群に関しては同じ地点にDNAの同様の部分の2つまたは3つのコピーが存在する。文献は、1q21.1コピー数変異(CNV)として、欠失および重複の両方を言及している。1q21.1欠失は、TAR症候群(橈骨欠損症を伴う血小板減少症)と関連し得る。
ウォルフ・ヒルシュホーン症候群(WHS)(OMIN #194190)は、染色体4p16.3の半接合欠失と関連した連続的遺伝子欠失症候群である。ウォルフ・ヒルシュホーン症候群は、出生前または出生後の発育不全、様々な程度の発達障害、特徴的な頭蓋顔貌(鼻、広い額、隆起した眉間、隔離症、高いアーチ形の眉、突き出した目、内眼角贅皮、短い人中、下向きの口角を有する独特な口、および小顎症という「ギリシャ戦士ヘルメット」の外見)、ならびに発作性障害を特徴とする先天性奇形症候群である。
5p−または5pマイナスとしても知られかつネコ鳴き(Cris du Chat)症候群(OMIN #123450)と呼ばれる、第5染色体の部分的欠失は、第5染色体の短腕(p腕)(5p15.3-p15.2)の欠失によって引き起こされる。この病状を有する幼児は、しばしば、ネコのもののように聞こえる高い調子の鳴き声を有する。該障害は、知的障害および発達の遅れ、小さな頭のサイズ(小頭症)、低出生体重、ならびに幼児期の弱い筋緊張(低緊張症)、独特な顔貌、ならびに場合により心臓欠陥を特徴とする。
染色体7q11.23欠失症候群(OMIN 194050)としても知られるウィリアム・ボイレン症候群は、およそ28個の遺伝子を含有する、染色体7q11.23上の1.5〜1.8Mbの半接合欠失によって引き起こされる多系統障害をもたらす連続的遺伝子欠失症候群である。
11q欠失障害としても知られるヤコブセン症候群は、バンド11q24.1を含む、第11染色体の末端領域の欠失により生じる稀な先天性障害である。それは、知的障害、独特な顔貌、ならびに心臓欠陥および出血性障害を含めた多様な身体的問題を引き起こし得る。
モノソミー18pとして知られる第18染色体の部分的モノソミーは、第18染色体の短腕(p)のすべてまたは一部が欠失してる(一染色体性の)稀な染色体障害である。該障害は、典型的に、低身長、様々な程度の精神遅滞、発話遅延、頭蓋骨および顔面(頭蓋顔面)領域の奇形、ならびに/またはさらなる身体的異常を特徴とする。関連した頭蓋顔面欠陥は、症例ごとに範囲および重症度が大幅に変動し得る。
第15染色体の構造またはコピーの数の変化によって引き起こされる病状には、アンジェルマン症候群およびプラダー・ウィリー症候群が含まれ、それらは、第15染色体の同じ部分である15q11-q13領域における遺伝子活性の損失を伴う。いくらかの転座および微小欠失は、キャリアの親において無症候性であり得るが、子孫においては大きな遺伝子疾患を引き起こし得ると解される。例えば、15q11-q13微小欠失を保持する健常な母親は、重度の神経変性障害であるアンジェルマン症候群を有する子どもを出産し得る。ゆえに、本明細書において記載される方法、機器、およびシステムを用いて、胎児におけるそのような部分的欠失および他の欠失を同定することができる。
部分的トリソミー13qは、第13染色体の長腕(q)の一片が欠損している(一染色体性の)場合に生じる稀な染色体障害である。部分的モノソミー13qを有して生まれた幼児は、低出生体重、頭部および顔面(頭蓋顔面領域)の奇形、(とりわけ、手および足の)骨格異常、ならびに他の身体的異常を呈し得る。精神遅滞は、この病状の特徴である。幼児期の間の死亡率は、この障害を有して生まれた個体の間で高い。部分的モノソミー13qのほぼすべての症例は、明白な理由なし(孤発性)で無作為に起こる。
スミス・マゲニス症候群(SMS−OMIM #182290)は、1コピーの第17染色体上の欠失、つまり遺伝物質の欠失によって引き起こされる。この周知の症候群は、発達遅延、精神遅滞、心臓および腎臓の欠陥などの先天性異常、ならびに重度の睡眠障害および自傷行為などの神経行動学的異常と関連している。スミス・マゲニス症候群(SMS)は、ほとんどの症例(90%)で染色体17p11.2における3.7Mbの中間部欠失によって引き起こされる。
ディジョージ症候群としても知られる22q11.2欠失症候群は、第22染色体の小片の欠失によって引き起こされる症候群である。欠失(22q11.2)は、染色体のペアの一方の長腕上の染色体の中央付近で起こる。この症候群の特質は、同じ家族のメンバーの間でさえ大きく変動し、かつ身体の多くの部分に影響を及ぼす。特徴的な兆候および症候には、先天性心疾患などの出生時欠陥、口蓋における欠陥、閉鎖に関する神経筋問題に最も一般的に関係するもの(口蓋帆咽頭不全)、学習障害、顔貌の軽度の差異、ならびに再発性感染症が含まれ得る。染色体領域22q11.2における微小欠失は、統合失調症の20〜30倍のリスクの増加と関連している。
第10染色体の短腕上の欠失は、ディジョージ症候群様表現型と関連している。染色体10pの部分的モノソミーは稀であるが、ディジョージ症候群の特質を示す患者の一部分で観察されている。
一態様において、本明細書において記載される方法、機器、およびシステムを用いて、第1、第4、第5、第7、第11、第18、第15、第13、第17、第22、および第10染色体の部分的モノソミー、例えば部分的モノソミー1q21.11、部分的モノソミー4p16.3、部分的モノソミー5p15.3-p15.2、部分的モノソミー7q11.23、部分的モノソミー11q24.1、部分的モノソミー18p、第15染色体の部分的モノソミー(15q11-q13)、部分的モノソミー13q、部分的モノソミー17p11.2、第22染色体の部分的モノソミー(22q11.2)、および部分的モノソミー10pを含むがそれらに限定されない、部分的モノソミーを判定する。
本明細書において記載される方法に従って判定され得る他の部分的モノソミーには、不平衡転座t(8;11)(p23.2;p15.5);11q23微小欠失;17p11.2欠失;22q13.3欠失;Xp22.3微小欠失;10p14欠失;20p微小欠失、[del(22)(q11.2q11.23)]、7q11.23および7q36欠失;1p36欠失;2p微小欠失;神経線維腫症タイプ1(17q11.2微小欠失)、Yq欠失;4p16.3微小欠失;1p36.2微小欠失;11q14欠失;19q13.2微小欠失;ルビンスタイン・テイビ(16p13.3微小欠失);7p21微小欠失;ミラー・ディッカー症候群(17p13.3);ならびに2q37微小欠失が含まれる。部分的欠失は染色体の一部の小さな欠失であり得、またはそれらは、単一遺伝子の欠失が起こり得る染色体の微小欠失であり得る。
染色体腕の一部の重複によって引き起こされるいくつかの重複症候群が同定されている(OMIN [ncbi.nlm.nih.gov/omimにてオンラインで閲覧されるOnline Mendelian Inheritance in Man]を参照されたい)。一態様において、本方法を用いて、第1〜22、X、およびY染色体のうちのいずれか1つのセグメントの重複および/または増倍の有無を判定することができる。本方法に従って判定され得る重複症候群の非限定的な例には、以下に記載される、第8、第15、第12、および第17染色体の一部の重複が含まれる。
8p23.1重複症候群は、ヒト第8染色体由来の領域の重複によって引き起こされる稀な遺伝的障害である。この重複症候群は、64,000回の出生のうちの1回という推定有病率を有し、8p23.1欠失症候群と相互的である。8p23.1重複は、発語遅延、発達遅延、隆起した額およびアーチ形の眉を有する軽度の異形症、ならびに先天性心疾患(CHD)のうちの1つまたは複数を含む様々な表現型と関連している。
染色体15q重複症候群(Dup15q)は、染色体15q11-13.1の重複により生じる臨床的に特定可能な症候群である。Dup15q有する赤ん坊は、通常、低緊張症(乏しい筋緊張)、発育遅滞を有し;彼らは、口唇裂および/もしくは口蓋裂、または心臓、腎臓、もしくは他の臓器の奇形を有して生まれ得;彼らは、ある程度の認知遅延/障害(精神遅滞)、発語および言語遅延、ならびに感覚処理障害を示す。
パリスター・キリアン症候群は、余分な第12染色体物質の結果である。通常、一部は余分な第12物質を有しかつ一部は正常である(余分な第12物質を有しない46本の染色体)、細胞の混合物(モザイク)が存在する。この症候群を有する赤ん坊は、重度の精神遅滞、乏しい筋緊張、「粗野な」顔貌、および隆起した額を含めた多くの問題を有する。彼らは、より厚い下唇とともに非常に薄い上唇、および低い鼻を有する傾向がある。他の健康問題には、発作、乏しい食欲、硬直した関節、成人期における白内障、聴力損失、および心臓欠陥が含まれる。パリスター・キリアンを有する人間は、短縮した寿命を有する。
dup(17)(p11.2p11.2)またはdup17pと称される遺伝的病状を有する個体は、第17染色体の短腕上に余分な遺伝情報(重複として知られる)を保持する。染色体17p11.2の重複は、医学文献において数十の症例しか報告されていない新たに認められた遺伝的病状である、ポトツキー・ルプスキー(Potocki-Lupski)症候群(PTLS)の根底にある。この重複を有する患者は、低い筋緊張、乏しい食欲、および幼児期の間の成長不良をしばしば有し、かつ運動および言葉の主要管理点(milestone)の発達の遅延も提示する。PTLSを有する多くの個体は、明瞭な発音および言語処理の困難を有する。加えて、患者は、自閉症または自閉症スペクトラム障害を有する人間に見られるものと同様の行動特徴を有し得る。PTLSを有する個体は、心臓欠陥および睡眠時無呼吸を有し得る。PMP22遺伝子を含む染色体17p12における大きな領域の重複は、シャルコー・マリー・トゥース病を引き起こすことが知られている。
CNVは死産と関連付けされている。しかしながら、従来的な細胞遺伝学の固有の制約により、CNVの死産への寄与は、過少に表現されていると考えられる(Harris et al., Prenatal Diagn 31:932-944 [2011])。実施例に示されかつ本明細書における他の箇所で記載されるように、本方法は、部分的異数性、例えば染色体セグメントの欠失および増倍の存在を判定し得、そして死産に関連しているCNVの有無を同定しかつ判定するために用いられ得る。
CNVを判定するための機器およびシステム
シーケンシングデータの解析およびそこから導き出される診断は、典型的に、様々なコンピューター実行アルゴリズムおよびプログラムを用いて実施される。したがって、ある特定の態様は、1つもしくは複数のコンピューターシステムまたは他の処理システムに保存されたまたはそこから移されたデータを伴う過程を採用する。本明細書において開示される態様は、これらの作業を実施するための機器にも関する。この機器は、必要とされる目的のために特別に構築され得、またはそれは、コンピュータープログラムおよび/もしくはコンピューターに保存されたデータ構造によって選択的に活性化されたもしくは再構成された汎用コンピューター(もしくはコンピューターの群)であり得る。いくつかの態様において、プロセッサーの群は、列挙された解析作業のいくつかまたはすべてを協調的に(例えば、ネットワークまたはクラウドコンピューティングを介して)かつ/または並列に実施する。本明細書において記載される方法を実施するためのプロセッサーまたはプロセッサーの群は、プログラマブル装置(例えば、CPLDおよびFPGA)、およびゲートアレイASICなどの非プログラマブル装置、または汎用マイクロプロセッサーなど、マイクロコントローラーおよびマイクロプロセッサーを含めた様々なタイプのものであり得る。
加えて、ある特定の態様は、様々なコンピューター実践作業を実施するためのプログラムおよび/またはデータ(データ構造を含む)を含む、有形のかつ/もしくは非一時的なコンピューター可読媒体またはコンピュータープログラム製品に関する。コンピューター可読媒体の例には、半導体メモリー装置、ディスクドライブ、磁気テープなどの磁気媒体、CDなどの光学式媒体、光磁気媒体、ならびに読み取り専用メモリー装置(ROM)およびランダムアクセスメモリー(RAM)など、プログラム命令を保存しかつ実施するために特別に構成されているハードウェア装置が含まれるが、それらに限定されるわけではない。コンピューター可読媒体はエンドユーザーによって直接制御され得、または媒体はエンドユーザーによって間接的に制御され得る。直接制御される媒体の例には、ユーザー機能(facility)に位置する媒体、および/または他の実体と共有されていない媒体が含まれる。間接的に制御される媒体の例には、外部ネットワークを介しておよび/または「クラウド」などのサービス提供共有リソースを介して、ユーザーにとって間接的にアクセス可能である媒体が含まれる。プログラム命令の例には、コンパイラーによって作り出されるような機械コード、およびインタープリターを用いたコンピューターによって実行され得るより高レベルなコードを含有するファイルの両方が含まれる。
様々な態様において、開示される方法および機器において採用されるデータまたは情報は、電子形式で提供される。そのようなデータまたは情報には、核酸サンプルに由来する読み取りおよびタグ、参照配列の特定の領域とアラインメントする(例えば、染色体または染色体セグメントにアラインメントする)そのようなタグの計数または密度、参照配列(唯一または主に多型を提供する参照配列を含む)、染色体量およびセグメント量、異数性コールなどのコール、正規化された染色体値およびセグメント値、染色体またはセグメントのペアおよび対応する正規化染色体または正規化セグメント、カウンセリング勧告、診断などが含まれ得る。本明細書において使用するとき、電子形式で提供されるデータまたは他の情報は、機械上での保存および機械間での伝送に利用可能である。従来的に、電子形式のデータはデジタル的に提供され、かつ様々なデータ構造、リスト、データベースなどでビットおよび/またはバイトとして保存され得る。データは、電子的に、光学的になど具体化され得る。
一態様は、検査サンプルにおける異数性、例えば胎児異数性、または癌の有無を示すアウトプットを生成するためのコンピュータープログラム製品を提供する。コンピューター製品は、染色体異常を判定するための上記方法のいずれか1つまたは複数を実施するための命令を含有し得る。説明されているように、コンピューター製品には、染色体量、およびある場合には、胎児異数性が存在しているまたは存在していないかどうかをプロセッサーが判定するのを可能にするための、そこに記録されたコンピューター実行可能なまたはコンパイル可能な論理回路(例えば、命令)を有する非一時的なかつ/または有形のコンピューター可読媒体が含まれ得る。一例において、コンピューター製品は、母体生物学的サンプル由来の核酸分子の少なくとも一部分からシーケンシングデータを受信するための受信手順であって、該シーケンシングデータは、算出された染色体量および/またはセグメント量を含む;受信したデータから胎児異数性を解析するためのコンピューター支援論理回路;ならびに胎児異数性の存在、非存在、または種類を示すアウトプットを生成するためのアウトプット手順を含む、プロセッサーが胎児異数性を診断するのを可能にするための、そこに記録されたコンピューター実行可能なまたはコンパイル可能な論理回路(例えば、命令)を有するコンピューター可読媒体を含む。
検討中のサンプルからの配列情報を染色体参照配列にマッピングして、関心対象のいずれか1種または複数種の染色体のそれぞれに対する配列タグの数を同定し得、かつ関心対象のいずれか1種または複数種の染色体のそれぞれに対する正規化セグメント配列に対する配列タグの数を同定し得る。様々な態様において、参照配列は、例えば関係データベースまたはオブジェクトデータベースなどのデータベースに保存される。
支援のない人間が、本明細書において開示される方法の計算作業を実施するのは現実的でない、またはほとんどの場合には可能でさえないことが理解されるべきである。例えば、計算機器の支援なしで、ヒト染色体のいずれか1つに、サンプルからの単一の30bp読み取りをマッピングすることは、数年間の労力を要するであろう。当然、確実な異数性コールは、一般的に、数千個の(例えば、少なくとも約10,000個)またはさらに数百万個の読み取りを1種または複数種の染色体にマッピングすることを要するため、問題は悪化する。
本明細書において開示される方法は、検査サンプルにおける関心対象の遺伝子配列のコピー数についての評価のためのシステムを用いて実施され得る。システムは、(a)サンプルからの核酸配列情報を提供する、検査サンプル由来の核酸を受け取るためのシーケンサー;(b)プロセッサー;および(c)マスクによってフィルタリングされたY染色体の参照配列を用いて、検査サンプルにおけるY染色体のコピー数を評価する、該プロセッサーへの実行のための命令をそこに保存している1つまたは複数のコンピューター可読記憶媒体、を含む。マスクは、Y染色体の参照配列上に特定のサイズのビンを含む。ビンは、そこにアラインメントされた、閾値数を上回るトレーニング配列タグを有する。トレーニング配列タグは、Y染色体の参照配列にアラインメントされた、第1の複数の雌性個体からのゲノム読み取りを含む。
いくつかの態様において、方法は、任意のCNV、例えば染色体異数性または部分的異数性を同定するための方法を行うためのコンピューター可読命令をそこに保存しているコンピューター可読媒体によって命令される。ゆえに、一態様は、コンピューターシステムの1つまたは複数のプロセッサーによって実行される場合、胎児および母体の無細胞核酸を含む検査サンプルにおけるY染色体のコピー数についての評価のための方法を該コンピューターシステムに実践させる、コンピューター実行可能な命令をそこに保存している1つまたは複数の非一時的なコンピューター可読記憶媒体を含むコンピュータープログラム製品を提供する。方法は、(a)コンピューターシステム上で、第1の複数の雌性個体の核酸サンプルから測定されたゲノム読み取りを含むトレーニングセットを提供する工程;(b)コンピューターシステムによって、該トレーニングセットの1個体あたり少なくとも約100,000個のゲノム読み取りを、Y染色体の参照配列にアラインメントし、それによって、アラインメントされたゲノム読み取りを含むトレーニング配列タグ、およびY染色体の参照配列上でのそれらの位置を提供する工程;(c)コンピューターシステムによって、Y染色体の参照配列を特定のサイズのビンに分割する工程;(d)コンピューターシステムによって、各ビンに位置するトレーニング配列タグの計数を決定する工程;(e)コンピューターシステムによって、マスキング閾値を超えるビンをマスキングし、該マスキング閾値は各ビンにおけるトレーニング配列タグの計数に基づき、それによって、胎児および母体の無細胞核酸を含む検査サンプルにおけるY染色体のコピー数についての評価のための、Y染色体のマスキングされた参照配列が提供される工程、を含む。
いくつかの態様において、命令は、母体検査サンプルを提供するヒト対象についての患者医療記録に、染色体量および胎児染色体異数性の有無など、方法に関する情報を自動的に記録する工程をさらに含み得る。患者医療記録は、例えば実験室、診療所、病院、健康維持機構、保険会社、または個人医療記録ウェブサイトによって維持され得る。さらに、プロセッサーにより実践された解析の結果に基づき、方法は、母体検査サンプルが採取されたヒト対象の治療を処方する、開始する、および/または変更する工程をさらに伴い得る。これは、対象から採取された付加的サンプルに対する1つまたは複数の付加的検査または解析を実施する工程を伴い得る。
開示される方法は、任意のCNV、例えば染色体異数性または部分的異数性を同定するための方法を実施するように適応したまたは構成されたコンピューター処理システムを用いても実施され得る。一態様は、本明細書において記載される方法を実施するように適応したまたは構成されたコンピューター処理システムを提供する。一態様において、機器は、本明細書における他の箇所で記載される、配列情報のタイプを獲得するように、サンプルにおける核酸分子の少なくとも一部分をシーケンシングするために適応したまたは構成されたシーケンシング装置を含む。機器は、サンプルを処理するための構成要素も含み得る。そのような構成要素は、本明細書における他の箇所で記載されている。
配列または他のデータをコンピューターにインプットし得、またはコンピューター可読媒体に直接的または間接的に保存し得る。一態様において、コンピューターシステムを、サンプル由来の核酸の配列を読み取りかつ/または解析するシーケンシング装置に直接連結する。そのようなツールからの配列または他の情報は、コンピューターシステムにおけるインターフェースを介して提供される。代替的に、システムによって処理された配列は、データベースまたは他のリポジトリーなどの配列保存元から提供される。処理機器がいったん利用可能になると、メモリー装置または大容量記憶装置は、核酸の配列を少なくとも一時的にバッファリングするまたは保存する。加えて、メモリー装置は、様々な染色体またはゲノムに対するタグ計数などを保存し得る。メモリーは、配列データまたはマッピングされたデータの提示を解析するための様々なルーチンおよび/またはプログラムも保存し得る。そのようなプログラム/ルーチンには、統計解析を実施するためのプログラムなどが含まれ得る。
一例において、ユーザーは、サンプルをシーケンシング機器内に提供する。コンピューターに接続されているシーケンシング機器によって、データは収集されかつ/または解析される。コンピューターのソフトウェアにより、データの収集および/または解析が可能となる。データは保存され得、呈示され得(モニターまたは他の同様の装置を介して)、かつ/または別の場所に送信され得る。コンピューターは、遠隔ユーザー(例えば、医師、科学者、または分析者)によって利用される携帯用装置にデータを伝送するために用いられるインターネットに接続され得る。データを伝送前に保存し得かつ/または解析し得ると理解される。いくつかの態様において、生データが収集され、かつ該データを解析しかつ/または保存する遠隔ユーザーまたは機器に送信される。伝送はインターネットを介して生じ得るが、衛星または他の接続を介しても生じ得る。代替的に、データはコンピューター可読媒体に保存され得、かつ媒体はエンドユーザーに発送され得る(例えば、郵便物を介して)。遠隔ユーザーは、建物、都市、州、国、または大陸を含むがそれらに限定されない、同じまたは異なる地理的場所にあり得る。
いくつかの態様において、方法は、複数のポリヌクレオチド配列に関するデータ(例えば、読み取り、タグ、および/または参照染色体配列)を収集する工程、および該データをコンピューターまたは他のコンピューターシステムに送信する工程も含む。例えば、コンピューターは、実験室備品、例えばサンプル収集機器、ヌクレオチド増幅機器、ヌクレオチドシーケンシング機器、またはハイブリダイゼーション機器に接続され得る。次いで、コンピューターは、実験室装置によって集められた適用可能なデータを収集し得る。データは任意の工程で、例えばリアルタイムで収集される一方で、送信前に、送信中もしくは送信と同時に、または送信後に、コンピューターに保存され得る。データは、コンピューターから取り出され得るコンピューター可読媒体に保存され得る。収集されたまたは保存されたデータは、コンピューターから遠隔地に、例えばローカルネットワーク、またはインターネットなどの広域ネットワークを介して伝送され得る。遠隔地では、下記で記載されるように、様々な作業が、伝送されたデータに対して実施され得る。
本明細書において開示されるシステム、機器、および方法で保存され得、伝送され得、解析され得、かつ/または操作され得る、電子的にフォーマットされたデータのタイプの中には、以下のものがある。
検査サンプルにおける核酸をシーケンシングすることによって得られた読み取り
読み取りを、参照ゲノムまたは他の1種または複数種の参照配列にアラインメントすることによって得られたタグ
参照ゲノムまたは参照配列
配列タグ密度−参照ゲノムまたは他の参照配列の2つまたはそれを上回る数の領域(典型的には、染色体または染色体セグメント)のそれぞれに対するタグの計数または数
関心対象の特定の染色体または染色体セグメントに対する正規化染色体または正規化染色体セグメントの素性
関心対象の染色体またはセグメント、および対応する正規化染色体または正規化セグメントから得られた、染色体または染色体セグメント(または他の領域)に対する量
影響あり、影響なし、またはコールなしのいずれかとして、染色体量をコールするための閾値
染色体量の実際のコール
診断(コールと関連した臨床的病状)
コールおよび/または診断から導き出されたさらなる検査の勧告
コールおよび/または診断から導き出された治療および/またはモニタリング計画
これらの様々なタイプのデータは、個別の機器を用いて、1つまたは複数の場所で獲得され得、保存され得、伝送され得、解析され得、かつ/または操作され得る。処理の選択肢は、広域スペクトルに及ぶ。スペクトルの一末端において、この情報のすべてまたはほとんどは保存され、かつ、検査サンプルが加工される場所、例えば診療所(doctor's office)または他の臨床設定で用いられる。他の端において、サンプルは、1つの場所で獲得され、それは異なる場所で加工されかつ任意でシーケンシングされ、読み取りはアラインメントされ、かつコールは1つまたは複数の異なる場所でなされ、かつ診断、勧告、および/または計画はさらに別の場所で準備される(サンプルが獲得された場所であり得る)。
様々な態様において、読み取りは、シーケンシング機器で生成され、次いで、それらが処理されて異数性コールを産生する遠隔部位に伝送される。この遠隔地において、一例として、読み取りは参照配列にアラインメントされてタグを産生し、それは計数されかつ関心対象の染色体またはセグメントに割り当てられる。また遠隔地において、計数は、関連した正規化染色体または正規化セグメントを用いて量に変換される。なおさらに、遠隔地において、量を用いて、異数性コールが生成される。
個別の場所において採用され得る処理作業の中には、以下のものがある。
サンプル収集
シーケンシング前のサンプル加工
シーケンシング
配列データの解析および異数性コールの導出
診断
患者または健常なケア提供者への診断および/またはコールの報告
さらなる治療、検査、および/またはモニタリングの計画の立案
計画の実行
カウンセリング
本明細書における他の箇所で記載されるように、これらの作業のいずれか1つまたは複数は自動化され得る。典型的に、シーケンシング、ならびに配列データの解析および異数性コールの導出は、コンピューターにより実施される。他の作業は、手動または自動で実施され得る。
サンプル収集が実施され得る場所の例には、診療所(health practitioners' office)、クリニック、患者の自宅(サンプル収集ツールまたはキットが提供される場所)、および医療用移動車両が含まれる。シーケンシング前のサンプル加工が実施され得る場所の例には、診療所、クリニック、患者の自宅(サンプル加工用機器またはキットが提供される場所)、医療用移動車両、および異数性解析提供者の設備が含まれる。シーケンシングが実施され得る場所の例には、診療所、クリニック、診療所、クリニック、患者の自宅(サンプルシーケンシング用機器および/またはキットが提供される場所)、医療用移動車両、および異数性解析提供者の設備が含まれる。シーケンシングが行われる場所には、電子形式のシーケンシングデータ(典型的には、読み取り)を伝送するための特化したネットワーク接続が提供され得る。そのような接続は、有線または無線であり得、かつ、処理サイトへの伝送前に、データが処理され得かつ/または集約され得るサイトにデータを送信するように構成され得る。データ集約機関(aggregator)は、健康維持機構(HMO)などの保健機関によって維持され得る。
解析および/または導出の作業は、前述の場所のいずれかで、または代替的に、計算および/もしくは核酸配列データを解析するサービスに特化したさらなる遠隔部位で実施され得る。そのような場所には、例えば汎用サーバーファームなどのクラスター、異数性解析サービス業の設備などが含まれる。いくつかの態様において、解析を実施するために採用される計算機器は、リースされるまたはレンタルされる。計算リソースは、クラウドとして口語的に知られる処理リソースなど、インターネットアクセス可能なプロセッサーの収集物の一部であり得る。ある場合には、計算は、互いに加入しているまたは加入していない、並列または超並列のプロセッサー群によって実施される。処理は、クラスターコンピューティング、グリッドコンピューティングなどの分散処理を用いて達成され得る。そのような態様において、計算リソース共同体のクラスターまたはグリッドは、一緒に作動する多数のプロセッサーまたはコンピューターから構成される超仮想コンピューターを形成して、本明細書において記載される解析および/または導出を実施する。これらの技術ならびにより従来的なスーパーコンピューターを採用して、本明細書において記載される配列データを処理し得る。それぞれは、プロセッサーまたはコンピューターに依存する並列コンピューティングの形態である。グリッドコンピューティングの場合、これらのプロセッサー(しばしば、コンピューター全体)は、イーサネットなどの従来的ネットワークプロトコールによるネットワーク(プライベート、パブリック、またはインターネット)によって接続される。対照的に、スーパーコンピューターは、ローカル高速コンピューターバスによって接続された多くのプロセッサーを有する。
ある特定の態様において、診断(例えば、胎児はダウン症候群を有する、または患者は特定のタイプの癌を有する)は、解析作業と同じ場所で出される。他の態様において、それは異なる場所で実施される。いくつかの例において、診断の報告は、サンプルが採取された場所で実施されるが、とはいえこれが事実である必要はない。診断が出され得るもしくは報告され得る場所、および/または計画の立案が実施される場所の例には、診療所、クリニック、コンピューターによるアクセス可能なインターネットサイト、およびネットワークへの有線または無線の接続を有する、携帯電話、タブレット、スマートフォンなどの携帯用装置などが含まれる。カウンセリングが実施される場所の例には、診療所、クリニック、コンピューターによるアクセス可能なインターネットサイト、携帯用装置などが含まれる。
いくつかの態様において、サンプル収集、サンプル加工、およびシーケンシングの作業は、第1の場所で実施され、かつ解析および導出の作業は、第2の場所で実施される。しかしながら、ある場合には、サンプル収集は1つの場所(例えば、診療所またはクリニック)で収集され、かつサンプル加工およびシーケンシングは異なる場所で実施され、これは、任意で、解析および導出が行われるのと同じ場所である。
様々な態様において、上記で挙げられた一連の作業は、ユーザー、またはサンプル収集、サンプル加工、および/もしくはシーケンシングを開始する実体によって始動され得る。1つまたは複数のこれらの作業が実行し始めた後、他の作業が自然に続き得る。例えば、シーケンシング作業は、読み取りが自動的に収集されかつ処理機器に送信されることを引き起こし得、それは次いで、しばしば自動的にかつおそらくさらなるユーザーの介入なしで、配列解析および異数性の導出の作業を行う。いくつかの実践において、次いで、この処理作業の結果は、システム構成要素、または医療専門家および/もしくは患者への情報の報告を処理する実体に、おそらく診断としての再フォーマットとともに自動的に送達される。説明されているように、そのような情報は自動的に処理されて、おそらくカウンセリング情報とともに、治療、検査、および/またはモニタリング計画も作り出し得る。ゆえに、早期段階の作業を開始することは、身体的病状に働きかけるのに有用な診断、計画、カウンセリング、および/または他の情報が医療専門家、患者、または他の関係当事者に提供される、端から端までの一連のものを始動し得る。これは、たとえシステム全体の一部が物理的に分離しており、かつおそらく、例えばサンプル用および配列用の機器の場所から離れているとしても達成される。
図5は、検査サンプルからのコールまたは診断を作り出すための分散型システムの一実践を示している。サンプル収集の場所01は、妊娠している雌または推定癌患者などの患者から検査サンプルを獲得するために用いられる。次いで、サンプルは、上記で記載されるように、検査サンプルが加工され得かつシーケンシングされ得る、加工およびシーケンシングの場所03に提供される。場所03は、サンプルを加工するための機器、ならびに加工されたサンプルをシーケンシングするための機器を含む。本明細書における他の箇所で記載されるように、シーケンシングの結果は、典型的に、電子形式で提供される読み取りの収集物であり、かつ、図5における参照番号05によって示される、インターネットなどのネットワークに提供される。
配列データは、解析およびコール作成が実施される遠隔地07に提供される。この場所は、コンピューターまたはプロセッサーなどの1つまたは複数の強力な計算装置を含み得る。場所07における計算リソースが、受信した配列情報から、それらの解析を完了させかつコールを作成した後、コールはネットワーク05に送り返される。いくつかの実践において、場所07ではコールが作成されるだけでなく、関連した診断も作成される。コールおよび/または診断は、図5に図解されているように、次いで、ネットワークにわたって伝送されかつサンプル収集の場所01に返される。説明されているように、これは、コールまたは診断の作成と関連した様々な作業が、様々な場所の間でどのように分割され得るかに関する、多くのバリエーションのうちの単なる1つである。よく見られる1つの変種は、単一の場所で、サンプルの収集および加工、ならびにシーケンシングを提供する工程を伴う。別のバリエーションは、解析およびコール作成と同じ場所で、加工およびシーケンシングを提供する工程を伴う。
図6は、個別の場所で様々な作業を実施するための選択肢に関して詳述している。図6に描かれた最も細かい意味で、以下の作業のそれぞれは、別個の場所で実施される:サンプル収集、サンプル加工、シーケンシング、読み取りアラインメント、コール、診断、ならびに報告および/または計画立案。
これらの作業のいくつかを集約する一態様において、サンプル加工およびシーケンシングは1つの場所で実施され、かつ読み取りアラインメント、コール、および診断は別個の場所で実施される。参照文字Aによって識別される、図6の一部分を参照されたい。図6における文字Bによって識別される別の実践において、サンプル収集、サンプル加工、およびシーケンシングはすべて同じ場所で実施される。この実践において、読み取りアラインメントおよびコールは第2の場所で実施される。最後に、診断、ならびに報告および/または計画立案は第3の場所で実施される。図6における文字Cによって描かれた実践において、サンプル収集は第1の場所で実施され、サンプル加工、シーケンシング、読み取りアラインメント、コール、および診断はすべて第2の場所で一緒に実施され、かつ報告および/または計画立案は第3の場所で実施される。最後に、図6におけるDで標識された実践において、サンプル収集は第1の場所で実施され、サンプル加工、シーケンシング、読み取りアラインメント、およびコールはすべて第2の場所で実施され、かつ診断、ならびに報告および/または計画管理は第3の場所で実施される。
一態様は、胎児および母体の核酸を含む母体検査サンプルにおけるいずれか1種または複数種の完全胎児染色体異数性の有無を判定することにおける使用のためのシステムを提供し、該システムは、核酸サンプルを受け取りかつ該サンプルからの胎児および母体の核酸配列情報を提供するためのシーケンサー;プロセッサー;ならびに該プロセッサーに対する実行のための命令を含む機械可読記憶媒体を含み、該命令は、
(a)サンプルにおける胎児および母体の核酸についての配列情報を獲得するためのコード;
(b)該配列情報を用いて、第1〜22、X、およびY染色体より選択される関心対象のいずれか1種または複数種の染色体のそれぞれに対する、胎児および母体の核酸からの配列タグの数をコンピューターにより同定し、かつ関心対象のいずれか1種または複数種の染色体のそれぞれに対する少なくとも1種の正規化染色体配列または正規化染色体セグメント配列に対する配列タグの数を同定するためのコード;
(c)関心対象のいずれか1種または複数種の染色体のそれぞれに対して同定された配列タグの数、および各正規化染色体配列または正規化染色体セグメント配列に対して同定された配列タグの数を用いて、関心対象のいずれか1種または複数種の染色体のそれぞれに対する単一染色体量を算出するためのコード;ならびに
(d)関心対象のいずれか1種または複数種の染色体のそれぞれに対する単一染色体量のそれぞれと、関心対象のいずれか1種または複数種の染色体のそれぞれに対する対応する閾値の値とを比較し、それによって、サンプルにおけるいずれか1種または複数種の異なる完全胎児染色体異数性の有無を判定するためのコード
を含む。
いくつかの態様において、関心対象のいずれか1種または複数種の染色体のそれぞれに対する単一染色体量を算出するためのコードは、関心対象の染色体のうちの選択された1つに対する染色体量を算出するためのコードを、関心対象の選択された染色体に対して同定された配列タグの数と、関心対象の選択された染色体に対する対応する少なくとも1種の正規化染色体配列または正規化染色体セグメント配列に対して同定された配列タグの数との比として含む。
いくつかの態様において、システムは、関心対象のいずれか1種または複数種の染色体のいずれか1つまたは複数のセグメントの任意の残りの染色体セグメントのそれぞれに対する染色体量の算出を反復するためのコードをさらに含む。
いくつかの態様において、第1〜22、X、およびY染色体より選択される関心対象の1種または複数種の染色体は、第1〜22、X、およびY染色体より選択される少なくとも20種の染色体を含み、かつ命令は、少なくとも20種の異なる完全胎児染色体異数性の有無を判定するための命令を含む。
いくつかの態様において、少なくとも1種の正規化染色体配列は、第1〜22、X、およびY染色体より選択される染色体の群である。他の態様において、少なくとも1種の正規化染色体配列は、第1〜22、X、およびY染色体より選択される単一染色体である。
別の態様は、胎児および母体の核酸を含む母体検査サンプルにおけるいずれか1種または複数種の部分的胎児染色体異数性の有無を判定することにおける使用のためのシステムを提供し、該システムは、核酸サンプルを受け取りかつ該サンプルからの胎児および母体の核酸配列情報を提供するためのシーケンサー;プロセッサー;ならびに該プロセッサーに対する実行のための命令を含む機械可読記憶媒体を含み、該命令は、
(a)サンプルにおける胎児および母体の核酸についての配列情報を獲得するためのコード;
(b)該配列情報を用いて、第1〜22、X、およびY染色体より選択される関心対象のいずれか1種または複数種の染色体のいずれか1つまたは複数のセグメントのそれぞれに対する、胎児および母体の核酸からの配列タグの数をコンピューターにより同定し、かつ関心対象のいずれか1種または複数種の染色体のいずれか1つまたは複数のセグメントのそれぞれに対する少なくとも1種の正規化セグメント配列に対する配列タグの数を同定するためのコード;
(c)関心対象のいずれか1種または複数種の染色体のいずれか1つまたは複数のセグメントのそれぞれに対して同定された配列タグの数、および正規化セグメント配列に対して同定された配列タグの数を用いて、関心対象のいずれか1種または複数種の染色体のいずれか1つまたは複数のセグメントのそれぞれに対する単一染色体セグメント量を算出するためのコード;ならびに
(d)関心対象のいずれか1種または複数種の染色体のいずれか1つまたは複数のセグメントのそれぞれに対する単一染色体セグメント量のそれぞれと、関心対象のいずれか1種または複数種の染色体のいずれか1つまたは複数の染色体セグメントのそれぞれに対する対応する閾値の値とを比較し、それによって、サンプルにおけるいずれか1種または複数種の異なる部分的胎児染色体異数性の有無を判定するためのコード
を含む。
いくつかの態様において、単一染色体セグメント量を算出するためのコードは、染色体セグメントのうちの選択された1つに対する染色体セグメント量を算出するためのコードを、選択された染色体セグメントに対して同定された配列タグの数と、選択された染色体セグメントに対する対応する正規化セグメント配列に対して同定された配列タグの数との比として含む。
いくつかの態様において、システムは、関心対象のいずれか1種または複数種の染色体のいずれか1つまたは複数のセグメントの任意の残りの染色体セグメントのそれぞれに対する染色体セグメント量の算出を反復するためのコードをさらに含む。
いくつかの態様において、システムは、(i)種々の母体対象由来の検査サンプルに対して(a)〜(d)を反復するためのコード、および(ii)該サンプルのそれぞれにおけるいずれか1種または複数種の異なる部分的胎児染色体異数性の有無を判定するためのコードをさらに含む。
本明細書において提供されるシステムのいずれかについての他の態様において、コードは、母体検査サンプルを提供するヒト対象についての患者医療記録に、(d)で判定された胎児染色体異数性の有無を自動的に記録するためのコードをさらに含み、該記録はプロセッサーを用いて実施される。
本明細書において提供されるシステムのいずれかについてのいくつかの態様において、シーケンサーは、次世代シーケンシング(NGS)を実施するように構成される。いくつかの態様において、シーケンサーは、可逆的ダイターミネーターを伴う合成によるシーケンシングを用いた超並列シーケンシングを実施するように構成される。他の態様において、シーケンサーは、ライゲーションによるシーケンシングを実施するように構成される。さらに他の態様において、シーケンサーは、単分子シーケンシングを実施するように構成される。
実験
実施例1
一次および富化したシーケンシングライブラリーの調製およびシーケンシング
a. シーケンシングライブラリーの調製−簡略プロトコール(ABB)
すべてのシーケンシングライブラリー、すなわち一次および富化したライブラリーを、母体血漿から抽出されたおよそ2ngの精製cfDNAから調製した。Illumina(登録商標)用のNEBNext(商標)DNA Sample Prep DNA Reagent Set 1(品番E6000L;New England Biolabs, Ipswich, MA)を用いて、ライブラリー調製を以下のとおりに実施した。無細胞血漿DNAは天然にフラグメント化されているため、血漿DNAサンプルに対して、噴霧化または超音波処理によるさらなるフラグメント化は行わなかった。NEBNext(登録商標)End Repair Moduleに従って、1.5ml微量遠心(microfuge)チューブ中で、cfDNAと、NEBNext(商標)DNA Sample Prep DNA Reagent Set 1において提供されている5μlの10×リン酸化バッファー、2μlのデオキシヌクレオチド溶液ミックス(10mMの各dNTP)、1μlの1:5希釈のDNAポリメラーゼI、1μlのT4 DNAポリメラーゼ、および1μlのT4ポリヌクレオチドキナーゼとを20℃で15分間インキュベートすることによって、40μl中に含有されるおよそ2ngの精製cfDNAフラグメントの突出をリン酸化平滑末端に変換した。次いで、反応混合液を75℃で5分間インキュベートすることによって、酵素を熱不活性化した。混合液を4℃に冷却し、かつKlenowフラグメント(3'→5'exo−)(NEBNext(商標)DNA Sample Prep DNA Reagent Set 1)を含有する10μl のdAテーリングマスターミックスを用いかつ37℃で15分間インキュベートすることによって、平滑末端化DNAのdAテーリングを達成した。その後、反応混合液を75℃で5分間インキュベートすることによって、Klenowフラグメントを熱不活性化した。Klenowフラグメントの不活性化後、1μlの1:5希釈のIllumina製Genomic Adaptor Oligo Mix(品番1000521;Illumina Inc., Hayward, CA)を用い、NEBNext(商標)DNA Sample Prep DNA Reagent Set 1において提供されている4μlのT4 DNAリガーゼを用いて、反応混合液を25℃で15分間インキュベートすることによって、Illuminaアダプター(指標なしのYアダプター)を、dAテーリングされたDNAにライゲーションした。混合液を4℃に冷却し、かつアダプターがライゲーションされたcfDNAを、Agencourt AMPure XP PCR purification system(品番A63881;Beckman Coulter Genomics, Danvers, MA)において提供されている磁気ビーズを用いて、ライゲーションされていないアダプター、アダプターダイマー、および他の試薬から精製した。Phusion(登録商標)High-Fidelity Master Mix(25μl;Finnzymes, Woburn, MA)、およびアダプターに相補的なIllumina製PCRプライマー(それぞれ0.5μM)(品番1000537および1000537)を用い、18サイクルのPCRを実施して、アダプターがライゲーションされたcfDNAを選択的に富化した(25μl)。メーカーの指示書に従い、Illumina製ゲノム用PCRプライマー(品番100537および1000538)、およびNEBNext(商標)DNA Sample Prep DNA Reagent Set 1において提供されているPhusion HF PCR Master Mixを用いて、アダプターがライゲーションされたDNAをPCR(98℃30秒間;98℃10秒間、65℃30秒間、および72℃30の18サイクル;72℃5分間での最終伸長、ならびに4℃保持)に供した。www.beckmangenomics.com/products/AMPureXPProtocol_000387v001.pdfにて入手可能なメーカーの指示書に従い、Agencourt AMPure XP PCR purification system(Agencourt Bioscience Corporation, Beverly, MA)を用いて、増幅産物を精製した。精製された増幅産物を40μlのQiagen EB Buffer中に溶出し、かつ2100 Bioanalyzer(Agilent technologies Inc., Santa Clara, CA)用のAgilent DNA 1000 Kitを用いて、増幅ライブラリーの濃度およびサイズ分布を解析した。
b. シーケンシングライブラリーの調製−全長プロトコール
ここに記載される全長プロトコールは、本質的に、Illuminaによって提供されている標準的プロトコールであり、増幅ライブラリーの精製の点でIlluminaプロトコールと異なるだけである。Illuminaプロトコールは、ゲル電気泳動を用いて増幅ライブラリーを精製するように指示しているが、一方で本明細書において記載されるプロトコールは、同じ精製工程に磁気ビーズを用いる。母体血漿から抽出されたおよそ2ngの精製cfDNAを用い、本質的にメーカーの指示書に従い、Illumina(登録商標)用のNEBNext(商標)DNA Sample Prep DNA Reagent Set 1(品番E6000L;New England Biolabs, Ipswich, MA)を用いて、一次シーケンシングライブラリーを調製した。精製カラムの代わりにAgencourtの磁気ビーズおよび試薬を用いて実施した、アダプターがライゲーションされた産物の最終精製を除くすべての工程を、Illumina(登録商標)GAIIを用いてシーケンシングされるゲノムDNAライブラリー用のサンプル調製のための、NEBNext(商標)試薬に添付しているプロトコールに従って実施した。NEBNext(商標)プロトコールは、本質的に、Illuminaによって提供されているものに従い、それは、grcf.jhml.edu/hts/protocols/11257047_ChIP_Sample_Prep.pdfにて入手可能である。
NEBNext(登録商標)End Repair Moduleに従って、200μl微量遠心チューブ中で、40μlのcfDNAと、NEBNext(商標)DNA Sample Prep DNA Reagent Set 1において提供されている5μlの10×リン酸化バッファー、2μlのデオキシヌクレオチド溶液ミックス(10mMの各dNTP)、1μlの1:5希釈のDNAポリメラーゼI、1μlのT4 DNAポリメラーゼ、および1μlのT4ポリヌクレオチドキナーゼとを、サーマルサイクラーにて20℃で30分間インキュベートすることによって、40μl中に含有されるおよそ2ngの精製cfDNAフラグメントの突出をリン酸化平滑末端に変換した。サンプルを4℃に冷却し、かつQIAQuick PCR Purification Kit(QIAGEN Inc., Valencia, CA)において提供されているQIAQuickカラムを用いて以下のとおりに精製した。50μlの反応液を1.5ml微量遠心チューブに移し、かつ250μlのQiagen Buffer PBを添加した。結果として生じた300μlをQIAquickカラムに移し、それを微量遠心機にて13,000RPMで1分間遠心分離した。カラムを750μlのQiagen Buffer PEで洗浄しかつ再遠心分離した。残余エタノールを13,000RPMで5分間のさらなる遠心分離によって除去した。遠心分離によって、DNAを39μlのQiagen Buffer EB中に溶出した。メーカーのNEBNext(登録商標)dA-Tailing Moduleに従い、Klenowフラグメント(3'→5'exo−)(NEBNext(商標)DNA Sample Prep DNA Reagent Set 1)を含有する16μlのdAテーリングマスターミックスを用いかつ37℃で30分間インキュベートすることによって、34μlの平滑末端化DNAのdAテーリングを達成した。サンプルを4℃に冷却し、かつMinElute PCR Purification Kit(QIAGEN Inc., Valencia, CA)において提供されているカラムを用いて以下のとおりに精製した。50μlの反応液を1.5ml微量遠心チューブに移し、かつ250μlのQiagen Buffer PBを添加した。300μlをMinEluteカラムに移し、それを微量遠心機にて13,000RPMで1分間遠心分離した。カラムを750μlのQiagen Buffer PEで洗浄しかつ再遠心分離した。残余エタノールを13,000RPMで5分間のさらなる遠心分離によって除去した。遠心分離によって、DNAを15μlのQiagen Buffer EB中に溶出した。NEBNext(登録商標)Quick Ligation Moduleに従い、10μlのDNA溶出液を、1μlの1:5希釈のIllumina製Genomic Adapter Oligo Mix(品番1000521)、15μlの2×Quick Ligation Reaction Buffer、および4μlのQuick T4 DNA Ligaseとともに25℃で15分間インキュベートした。サンプルを4℃に冷却し、かつMinEluteカラムを用いて以下のとおりに精製した。150μlのQiagen Buffer PEを30μlの反応液に添加し、全容量をMinEluteカラムに移し、それを微量遠心機にて13,000RPMで1分間遠心分離した。カラムを750μlのQiagen Buffer PEで洗浄しかつ再遠心分離した。残余エタノールを13,000RPMで5分間のさらなる遠心分離によって除去した。遠心分離によって、DNAを28μlのQiagen Buffer EB中に溶出した。メーカーの指示書に従い、Illumina製ゲノム用PCRプライマー(品番100537および1000538)、およびNEBNext(商標)DNA Sample Prep DNA Reagent Set 1において提供されているPhusion HF PCR Master Mixを用いて、アダプターがライゲーションされた23μlのDNA溶出液を18サイクルのPCR(98℃30秒間;98℃10秒間、65℃30秒間、および72℃30の18サイクル;72℃5分間での最終伸長、ならびに4℃保持)に供した。www.beckmangenomics.com/products/AMPureXPProtocol_000387v001.pdfにて入手可能なメーカーの指示書に従い、Agencourt AMPure XP PCR purification system(Agencourt Bioscience Corporation, Beverly, MA)を用いて、増幅産物を精製した。Agencourt AMPure XP PCR purification systemは、組み入れられていないdNTP、プライマー、プライマーダイマー、塩、および他の夾雑物を除去し、かつ100bpを上回るアンプリコンを収集する。精製された増幅産物を、Agencourt ビーズから40μlのQiagen EB Buffer中に溶出し、かつ2100 Bioanalyzer(Agilent technologies Inc., Santa Clara, CA)用のAgilent DNA 1000 Kitを用いて、ライブラリーのサイズ分布を解析した。
c. 簡略(a)および全長(b)プロトコールに従って調製されたシーケンシングライブラリーの解析
Bioanalyzerによって作成されたエレクトロフェログラムは、図7Aおよび7Bに示されている。図7Aは、(a)で記載される全長プロトコールを用いて、血漿サンプルM24228から精製されたcfDNAから調製されたライブラリーDNAのエレクトロフェログラムを示しており、図7Bは、(b)で記載される全長プロトコールを用いて、血漿サンプルM24228から精製されたcfDNAから調製されたライブラリーDNAのエレクトロフェログラムを示している。両方の図において、ピーク1および4は、それぞれ15bpの低量マーカー(Lower Marker)および1,500の高量マーカー(Upper Marker)を表し;ピークの上の数は、ライブラリーフラグメントに関する移動時間を示し;かつ水平線は、積分のための設定閾値を示す。図7Aにおけるエレクトロフェログラムは、187bpのフラグメントの小さなピークおよび263bpのフラグメントの大きなピークを示しており、一方で図7Bにおけるエレクトロフェログラムは、265bpにおける1つのピークのみを示している。ピークエリアの積分により、図7Aにおける187bpのピークのDNAに対して0.40ng/μlという算出濃度、図7Aにおける263bpのピークのDNAに対して7.34ng/μlという濃度、および図7Bにおける265bpのピークのDNAに対して14.72ng/μlという濃度がもたらされた。cfDNAにライゲーションされたIlluminaアダプターは92bpであることが知られており、それを265bpから差し引いた場合、cfDNAのピークサイズは173bpであることを示す。187bpにおける小さなピークは、端から端までライゲーションした2つのプライマーのフラグメントを表す。線状の2つのプライマーフラグメントは、簡略プロトコールが用いられる場合、最終ライブラリー産物から排除される。簡略プロトコールは、187bp未満のより小さな他のフラグメントも排除する。本実施例において、アダプターがライゲーションされた精製cfDNAの濃度は、全長プロトコールを用いて産生された、アダプターがライゲーションされたcfDNAのものの2倍である。アダプターがライゲーションされたcfDNAフラグメントの濃度は、全長プロトコールを用いて獲得されたものよりも常に大きかったことが留意される。
ゆえに、簡略プロトコールを用いてシーケンシングライブラリーを調製する利点は、獲得されたライブラリーが、一貫して、262〜267bpの範囲に1つの大きなピークのみを含み、一方で、全長プロトコールを用いて調製されたライブラリーの質は、cfDNAを表すもの以外のピークの数および移動度に反映されているように変動する。非cfDNA産物は、フローセルの空間を占有し、かつクラスター増幅および後続のシーケンシング反応のイメージングの質を軽減すると考えられ、それは異数性状態の全体的割り当ての根拠をなす。簡略プロトコールは、ライブラリーのシーケンシングに影響を及ぼさないことが示された。
簡略プロトコールを用いてシーケンシングライブラリーを調製する別の利点は、平滑末端化、d-Aテーリング、およびアダプターライゲーションの3つの酵素工程が、完了するのに1時間未満しかかからず、迅速な異数性診断サービスの検証および実践を支持することである。
別の利点は、平滑末端化、d-Aテーリング、およびアダプターライゲーションの3つの酵素工程が同じ反応チューブ内で実施され、ゆえに、材料の損失、およびより重要なことには、考え得るサンプル混同およびサンプル汚染に潜在的につながると考えられる複数回のサンプル移動が回避されることである。
実施例2
HOPACHクラスタリングを用いて、Y染色体に対するトレーニングセットを選択する
データ整理は多種多様なアプリケーションを有し、かつ多様な提案される手法が存在する。本実施例は、ハイブリッドクラスタリング法を用いて、Y染色体に対するマスクの算出のための、雌性サンプルの代表的トレーニングセットを選択した。導き出されたマスクは、Y染色体の性別非判別セグメントをフィルター除去し、非侵襲的な胎児性別判別のための有用なツールを提供する。階層型順序付き分割および縮小のハイブリッド(HOPACH)というクラスタリング法は、クラスターの階層ツリーである。HOPACH方法論は、分配クラスタリング法および凝集クラスタリング法の両方の強みを組み合わせ、かつ研究が、増加したレベルの詳細でクラスターを再検討することを可能にする。本実施例は、Y染色体を有しないことが知られる475人の正常な雌のサンプルを解析する工程を伴った。475個のサンプルのうちの部分集団を、検査される対象となる集団における雌を代表するトレーニングセットとして選択する。
本実施例によって実施される代表的トレーニングセットの構築は、以下の工程を伴う。
1. トレーニング目的のために、入手可能なすべての雌性サンプルのゲノム読み取り(例えば、25merの読み取り)を提供する工程(N);
2. 入手可能なすべての雌性サンプルのゲノム読み取りを参照ゲノムにアラインメントし、それによって、配列読み取りに関係した配列タグおよびそれらのアラインメントされた位置を提供する工程;
3. 配列タグ計数を、事前に規定されたサイズのビン(例えば、M 1kbビン)の連続的ゲノム領域に分割する工程;
4. ビン内の1サンプルあたりの網羅率を、Y染色体上の所定の領域に一意的にアラインメントされた非重複配列タグの総計数として算出する工程;
5. N×M行列に対してHOPACHを実施し、かつ考え得る値の範囲にわたる平均シルエットを最大限に高めることによって、メドイド周辺分割(Partitioning Around Medoids)(PAM)の場合のクラスターの数を最適化する工程;
6. 例えば、上記で記載されるように、各クラスターに対して等しい数のサンプルを無作為に選択することによって、トレーニングセットに対するサンプルを選択する工程。
図8は、475人の雌にわたる対chrYの1kb網羅率についての相関ヒートマップを図解している。ヒートマップは、トレーニングセットにおけるサンプルにわたる対網羅率の相関を示している。X軸およびY軸の両方は、HOPACH結果によって選別されたサンプルであり、各セルは、1kbビン内の2つの所定のトレーニングセットサンプルに対するchrYヒット網羅率についての相関の程度を表す。相関マップの目に見えるパターンは、獲得されたクラスターの根拠をなすサンプルが、Y染色体上に多様な分布プロファイルを有することを示す。
マスキングされた参照、雌性サンプルの独立セット、および低い胎児画分のコホートの診断有効性についての検証のために、雄を用いて、上記で記載されるトレーニングを用いて獲得されたマスクによってフィルタリングされた参照配列を用いて獲得されたY染色体計数についての雄/雌判別を査定する。
実施例3
Y染色体に対するマスクを獲得する
Y染色体に対するマスクを獲得するための算出において、ビンサイズの選択は、ヒトゲノムにおいて見られる反復の最も頻度が高いサイズによって推進されるべきである。ヒトゲノムにおける様々なクラスの反復およびそれらの発生のパターンについての調査により、500〜1000bpの範囲が初回ビン化に最も最適であることが示唆されており、それを後にビンのマージで連結させて、マスキング間隔の最終セットを作り出すことができる。しかしながら、他の技術的制約が、ビンサイズ、例えばマスキングセグメントの総計数の上限などを増加させる解析を必要とし得る。
本実施例では、実施例2において獲得されたトレーニングセットを用いてマスクを獲得するために、1kbのビンサイズを用いた。獲得されたマスクを用いて、初回chrYフィルタリングを実施し、1Mbのビンサイズを有する同様のフィルタリング手法に基づいたマスキングと比較して、chrY性能の有意な向上がもたらされた(SNR 20対35)、図9を参照されたい。図9は、以下の欲張りな手法によって獲得された方法で獲得されたマスクY染色体を用いた、chrY計数/chr4計数を示している。
1. トレーニングデータセットにおけるすべての雌性サンプルにわたって事前に規定されたサイズのあらゆる非重複ゲノムビンに対して、非重複25merの読み取り計数の合計を算出する。
2. 次いで、除去/マスキングの最上位候補であるY染色体領域に対応する、最も多くの比率を占めたビンに関する絶対数によって、多いものから順にゲノムビンを選別する。
3. 次に、マスキング閾値を、低いほうから(例えば、ビンの10%がマスキングされる)高いほうへ(例えば、ビンの100%がマスキングされる)変動させ、かつ雄/雌の判別測定基準(例えば、サンプルの標準偏差によって割られた、サンプル間の差異によって算出されるシグナル対ノイズ比、つまりSNR)を独立検証セットにおいて算出する。検証セットは、トレーニングセットにはない雌性サンプル、および低い胎児画分を有する雄性サンプルを含む。
4. 次いで、達成された最高のSNRにおいて、マスキング閾値を確立する。
図9は、左のパネルにおいて1Mbのビンサイズ対する、および右のパネルにおいて1kbのビンサイズに対する、chrY計数/chr4計数についての箱ひげ図を示している。「2」という数によって標識された左の箱は、トレーニングセットにおける雌性サンプルとは無関係である雌性サンプルの検証から獲得されたデータを示している。「3」という数によって標識された右の箱は、雄性胎児DNAの低画分を含む母体サンプルである「雄性サンプル」の検証からのデータを示している。箱の中央にある線はchrY比の平均を示し、かつ箱の上側および下側は平均付近の標準偏差を示す。ひげは95%信頼区間を指す。雄における大きなSDは、根拠をなす低い胎児画分によって説明される。左のパネル(サイズが1Mb)と右のパネル(サイズが1Kb)との間の差異から明らかなように、より小さなビンサイズを用いて獲得されたY染色体マスクは、雄性サンプルを雌性サンプルからさらに分離する結果を提供する。
マスキング閾値に関して、経験的解析が、最も有効な閾値の値の同定を支援し得る。図10は、マスキングされたビンの画分の関数として、雄/雌判別のシグナル対ノイズ比を示している。理論的予想と一致して、雌におけるゼロ以外の構成を有するビンの積極的除去は、最も高いSNRにつながる。判別シグナルは、最高99%を上回って連続的に増加する。雌性サンプルからの1個の配列タグ計数を有する100%にごく近いビンが除去された場合にのみ、シグナルは下降し始める。より積極的な閾値の値は、雄性胎児において観察される網羅域を約68%低減させる。
次いで、Y染色体および他の染色体のマスクを用いて、関心対象の配列(染色体および染色体部分領域を含む)に収まる配列タグを算出し得る。マスキングされたY染色体を用いると、いくつかの態様は、マスキングされていないY染色体を用いるのと比較して、cfDNAを用いて胎児の性別をより効率的に識別することができる。図11は、雌性(薄い灰色)対雄性(濃い灰色)胎児cfDNAを含むサンプルに対する、Y染色体にマッピングされた配列タグの頻度分布を示している。左のパネルは、マスキングされていないY染色体にマッピングされた配列タグの分布を示している。右のパネルは、上記で記載される方法に従った、マスキングされたY染色体にマッピングされた分布を示している。雌性(薄い灰色)対雄性(濃い灰色)サンプル間の差異は、マスキングされていないY染色体(左のパネル)と比べて、マスキングされたY染色体(右のパネル)に関して、有意かつ明白により大きい。
以下の実施例は、上記で記載されるものなど、マスキングされた参照配列を用いてどのように異質染色体および常染色体のコピー数およびCNVを評価し得るかを例証する。下記の実施例において提示されるデータの少なくとも一部は、上記で記載されるように獲得された、マスキングされた参照配列を用いずに獲得された。それにもかかわらず、本実施例は、CNV評価および遺伝子診断を履行する際に当業者が参照配列を用いることを可能にする技術的ガイダンスを提供している。
実施例4
第13、第18、第21、X、およびY染色体の量および分散
すべての染色体に対するマッピングされた配列タグの数の、染色体間およびシーケンシング間での変動の程度を調べるために、48人のボランティアの妊娠している対象の末梢血から得られた血漿cfDNAを、以下のとおりに抽出し、シーケンシングし、かつ解析した。
各染色体にマッピングされた配列タグの総数(配列タグ密度)を決定した。代替的に、マッピングされた配列タグの数を染色体の長さに対して正規化して、配列タグ密度比を生成し得る。染色体長に対する正規化は必要とされる工程ではなく、ヒト解釈のためにそれを単純化する数の桁数を低減させるためにだけ実施され得る。配列タグ計数を正規化するために用いられ得る染色体長は、ワールド・ワイド・ウェブでgenome.ucsc.edu/goldenPath/stats.html#hg18にて提供されている長さであり得る。
結果として生じた各染色体に対する配列タグ密度を、残りの染色体のそれぞれの配列タグ密度に関連付けして適格染色体量を導き出し、それを、関心対象の染色体、例えば第21染色体に対する配列タグ密度と、残りの染色体、すなわち第1〜20、第22、およびX染色体のそれぞれの配列タグ密度との比として算出した。表1は、適格サンプルの1つにおいて決定された、関心対象の第13、第18、第21、X、およびY染色体に対する算出された適格染色体量の例を提供している。すべてのサンプルにおけるすべての染色体に対して染色体量が決定され、かつ適格サンプルにおける関心対象の第13、第18、第21、X、およびY染色体の平均量が表2および3に提供されかつ図12〜16に描かれている。図12〜16は、検査サンプルに対する染色体量も描いている。適格サンプルにおける関心対象の染色体のそれぞれに対する染色体量は、残りの染色体のそれぞれのものと比べた、関心対象の各染色体に対するマッピングされた配列タグの総数の変動の尺度を提供する。ゆえに、適格染色体量は、染色体または染色体の群、すなわち、関心対象の染色体の変動に最も近いサンプル間での変動を有し、かつさらなる統計的評価のための正規化値にとって理想的な配列として働くと考えられる正規化染色体を同定し得る。図17および18は、第13、第18、および第21染色体、ならびにXおよびY染色体に対する適格サンプルの集団において決定された、算出された平均染色体量を描いている。
ある場合には、最良の正規化染色体は、最少の変動を有さないこともあるが、1つまたは複数の検査サンプルを適格サンプルから最良に区別する適格量の分布を有し得る、すなわち最良の正規化染色体は、最低の変動を有さないこともあるが、最大の識別能を有し得る。ゆえに、識別能は、適格サンプルにおける染色体量の変動および量の分布を説明する。
表2および3は、変動の係数を可変性の尺度として、およびスチューデントt検定のp値を、第18、第21、X、およびY染色体に対する識別能の尺度として提供しており、t検定のp値が小さければ小さいほど、識別能はより高い。第13染色体に対する識別能を、適格サンプルにおける平均染色体量と、T13検査サンプルのみにおける第13染色体に対する識別能との間の差異の比、ならびに適格量の平均の標準偏差として判定した。
適格染色体量は、以下に記載されるように、検査サンプルにおける異数性を同定する場合の閾値の値を決定するための根拠としても働く。
(表1)
第13、第18、第21、X、およびY染色体に対する適格染色体量(n=1、サンプル#11342、46 XY)
(表2)
第21、第18、および第13染色体に対する適格染色体量、分散、および識別能
(表3)
第13、X、およびY染色体に対する適格染色体量、分散、および識別能
関心対象の染色体のそれぞれに対する正規化染色体、染色体量、および識別能を用いて獲得された、T21、T13、T18、およびターナー症候群の症例についての診断の例が、実施例5において記載されている。実施例5は、正規化染色体上のタグの平均が異数性の解析に用いられることを示しているが、正規化染色体に対するタグの合計が他の態様において代わりに用いられ得ることに留意されたい。
実施例5
正規化染色体を用いた胎児異数性の診断
生物学的検査サンプルにおける異数性の査定に対して染色体量の使用を適用するために、妊娠しているボランティアから母体血液検査サンプルを獲得し、かつ上記で記載される方法を用いてcfDNAを調製し、シーケンシングし、かつ解析した。
トリソミー21
表4は、例示的な検査サンプル(#11403)における第21染色体の算出された量を提供している。T21異数性の陽性診断のために算出される閾値を、適格(正常)サンプルの平均から>2標準偏差に設定した。T21の診断は、設定閾値を上回る検査サンプルにおける染色体量に基づいて与えられた。別個の算出において、第14および第15染色体を正規化染色体として用いて、最低の可変性を有する染色体、例えば第14染色体、または最大の識別能を有する染色体、例えば第15染色体のいずれかを用いて、異数性を同定することができることを示した。算出された染色体量を用いて13個のT21サンプルを同定し、かつ異数性サンプルはT21であることを核型によって確認した。
(表4)
T21異数性の染色体量(サンプル#11403、47 XY+21)
トリソミー18
表5は、検査サンプル(#11390)における第18染色体の算出された量を提供している。T18異数性の陽性診断のために算出される閾値を、適格(正常)サンプルの平均から2標準偏差に設定した。T18の診断は、設定閾値を上回る検査サンプルにおける染色体量に基づいて与えられた。第8染色体を正規化染色体として用いた。この場合、第8染色体は、最低の可変性および最大の識別能を有した。染色体量を用いて8個のT18サンプルを同定し、かつT18であることを核型によって確認した。
これらのデータは、正規化染色体が、最低の可変性および最大の識別能の両方を有し得ることを示している。
(表5)
T18異数性の染色体量(サンプル#11390、47 XY+18)
トリソミー13
表6は、検査サンプル(#51236)における第13染色体の算出された量を提供している。T13異数性の陽性診断のために算出される閾値を、適格サンプルの平均から2標準偏差に設定した。T13の診断は、設定閾値を上回る検査サンプルにおける染色体量に基づいて与えられた。第13染色体に対する染色体量を、第5染色体、または第3、第4、第5、および第6染色体の群のいずれかを正規化染色体として用いて算出した。1個のT13サンプルを同定した。
(表6)
T13異数性の染色体量(サンプル#51236、47 XY+13)
第3〜6染色体の配列タグ密度は、第3〜6染色体の平均タグ計数である。
データは、第3、第4、第5、および第6染色体の組み合わせが、第5染色体のものよりも低い可変性、および他の染色体のいずれよりも最大の識別能を提供することを示している。
ゆえに、染色体の群を正規化染色体として用いて、染色体量を決定しかつ異数性を同定することができる。
ターナー症候群(モノソミーX)
表7は、検査サンプル(#51238)におけるXおよびY染色体の算出された量を提供している。ターナー症候群(モノソミーX)の陽性診断のために算出される閾値を、X染色体に関しては平均から<-2標準偏差に、およびY染色体の非存在に関しては適格(正常)サンプルの平均から<-2標準偏差に設定した。
(表7)
ターナー(XO)異数性の染色体量(サンプル#51238、45 X)
設定閾値のもの未満のX染色体量を有するサンプルを、1本未満のX染色体を有するものとして同定した。同じサンプルを、設定閾値未満であるY染色体量を有すると判定し、該サンプルはY染色体を有しないことが示された。ゆえに、XおよびYに対する染色体量の組み合わせを用いて、ターナー症候群(モノソミーX)サンプルを同定した。
ゆえに、提供される方法は、染色体のCNVについての判定を可能にする。とくに、該方法は、母体血漿cfDNAの超並列シーケンシングによる、過剰および過少出現の染色体異数性についての判定、ならびにシーケンシングデータの統計解析のための正規化染色体の同定を可能にする。該方法の感度および信頼性により、妊娠第1期(first trimester)および第2期の正確な異数性検査が可能となる。
実施例6
異数性の検出の証明
実施例2および3において記載されかつ図12〜16に示されている、サンプルに対して得られたシーケンシングデータをさらに解析して、母体サンプルにおける異数性をうまく同定することにおける方法の感度を例証した。第21、第18、第13、X、およびY染色体に対する正規化された染色体量を、平均の標準偏差に対する分布として解析し(Y軸)、かつ図19A〜19Eに示した。用いられた正規化染色体を分母として示している(X軸)。
図19Aは、影響なしのサンプル(○)およびトリソミー21サンプル(T21;△)における、第21染色体に対する正規化染色体として第14染色体を用いた場合の、第21染色体量の平均からの標準偏差に対する染色体量の分布を示している。図19Bは、影響なしのサンプル(○)およびトリソミー18サンプル(T18;△)における、第18染色体に対する正規化染色体として第8染色体を用いた場合の、第18染色体量の平均からの標準偏差に対する染色体量の分布を示している。図19Cは、影響なしのサンプル(○)およびトリソミー13サンプル(T13;△)における、第3、第4、第5、および第6染色体の群の平均配列タグ密度を、第13染色体に対する染色体量を決定するための正規化染色体として用いた、第13染色体量の平均からの標準偏差に対する染色体量の分布を示している。図19Dは、影響なしの雌性サンプル(○)、影響なしの雄性サンプル(△)、およびモノソミーXサンプル(XO;+)における、X染色体に対する正規化染色体として第4染色体を用いた場合の、X染色体量の平均からの標準偏差に対する染色体量の分布を示している。図19Eは、影響なしの雄性サンプル(○)、影響なしの雌性サンプル(△)、およびモノソミーXサンプル(+)における、第1〜22およびX染色体の群の平均配列タグ密度を、Y染色体に対する染色体量を決定するための正規化染色体として用いた場合の、Y染色体量の平均からの標準偏差に対する染色体量の分布を示している。
データは、トリソミー21、トリソミー18、トリソミー13が、影響なし(正常)サンプルと明確に区別され得たことを示している。モノソミーXサンプルは、影響なしの雌性サンプルのものよりも明確に低いX染色体量を有し(図19D)、かつ影響なしの雄性サンプルのものよりも明確に低いY染色体量を有する(図19E)と容易に特定可能であった。
したがって、提供される方法は、母体血液サンプルにおける染色体異数性の有無を判定するのに高感度かつ特異的である。
実施例7
母体血漿DNAのシーケンシングによるゲノム規模の胎児異数性検出:前向き盲検多施設試験
母体検査サンプルにおける異数性の有無を判定するための方法を、前向き試験において用い、かつその診断精度を下記で記載されるように示した。前向き試験により、ゲノムにわたる複数の染色体に対する胎児異数性を検出する方法の有効性がさらに証明される。盲検試験は、胎児核型が不明である妊娠している女性の実際の集団を模倣しており、かつ任意の異常核型を有するすべてのサンプルをシーケンシングに選択した。本開示の方法に従ってなされた分類の決定を、侵襲的手順からの胎児核型と比較して、複数の染色体異数性に対する該方法の診断性能を判定した。
本実施例の概要
合衆国の60箇所の会場で出生前診断手順を受けている2,882人の女性から、前向き盲検試験で血液サンプルを収集した(clinicaltrials.gov NCT01122524)。
独立した生物統計学者が、任意の異常核型を有するすべての単胎妊娠、および正倍数性核型を有する均衡のとれた数の無作為に選択された妊娠を選択した。染色体分類を、本明細書において開示される方法に従って各サンプルに対して行い、かつ胎児核型と比較した。
532個のサンプルの解析コホート内で、89/89トリソミー21症例(感度100%(95% CI 95.9〜100))、35/36トリソミー18症例(感度97.2%、(95% CI 85.5〜99.9))、11/14トリソミー13症例(感度78.6%、(95% CI 49.2〜99.9))、232/233雌(感度99.6%、(95% CI 97.6〜>99.9))、184/184雄(感度100%、95% CI 98.0〜100))、および15/16モノソミーX症例(感度93.8%、95% CI 69.8〜99.8))を分類した。影響なしの対象において常染色体異数性の偽陽性は存在しなかった(100%特異性、(95% CI >98.5〜100))。加えて、トリソミー21(3/3)、トリソミー18(1/1)、およびモノソミーX(2/7)のモザイクを有する胎児、3症例の転座トリソミー、2症例の他の常染色体トリソミー(20および16)、ならびに他の性染色体異数性(XXX、XXY、およびXYY)を正しく分類した。
結果は、母体血漿DNAを用いて、ゲノムにわたる複数の染色体に対する胎児異数性を検出する本方法の有効性をさらに証明している。トリソミー21、18、13、およびモノソミーXの検出に対する高い感度および特異性は、本方法を既存の異数性スクリーニングアルゴリズムに組み入れて、不要な侵襲的手順を低減することができることを示唆している。
材料および方法
MELISSA(MatErnal BLood IS Source to Accurately diagnose fetal aneuploidy)試験を、盲検のコホート内症例(nested case):対照解析を有する前向き多施設観察試験として行った。胎児核型を判定する侵襲的手順を受けている、18歳およびより高齢の妊娠している女性を募集した(Clinicaltrials.gov NCT01122524)。適性基準には、以下のさらなる基準:年齢≧38歳、陽性のスクリーニング検査結果(血清解析および/または項部透過(NT)測定)、胎児異数性のリスクの増加と関連した超音波マーカーの存在、または以前の異数性胎児、のうちの少なくとも1つを満たす、妊娠8週0日〜22週0日の妊娠している女性が含まれた。参加することに同意したすべての女性から、書面によるインフォームドコンセントを得た。
登録は、各施設における施設内審査委員会(IRB)によって承認されたプロトコールで、25箇所の州における60箇所の地理的に分散した医療センターで行われた。試験の盲検化を維持し、かつデータ管理、データモニタリング、生物統計学、およびデータ解析サービスを提供する、2つの臨床研究組織(CRO)(Quintiles, Durham, NCおよびEmphusion, San Francisco, CA)を雇った。
任意の侵襲的手順の前に、末梢静脈血サンプル(17mL)を2本の酸性クエン酸デキストロース(ACD)チューブ(Becton Dickinson)に収集し、それを非特定化しかつ一意的な調査番号で標識した。会場研究職員が、採血の試験番号、日付、および時間を、安全な電子症例報告書(eCRF)に入力した。全血液サンプルを、温度制御された容器内にて一晩で会場から実験室(Verinata Health, Inc., CA)に運搬した。受け取りおよびサンプル点検があり次第、無細胞血漿を調製し、かつ2〜4個のアリコートで-80℃にてシーケンシングの時点まで凍結保存した。実験室でのサンプル受け取りの日付および時間を記録した。サンプルを、それが一晩で受け取られたかどうか、触ると冷たいかどうか、かつ少なくとも7mLの血液を含有しているかどうか、解析に適性であることを判定した。受け取りの時点で適性であったサンプルを週1回CROに報告し、かつ無作為サンプリングリストでの選択に用いた(下記および図20を参照されたい)。女性の現在の妊娠状態からの臨床データおよび胎児核型は、会場研究職員によってeCRFに入力され、かつ元文書審査によりCROモニタリング者によって照合された。
サンプルサイズの決定は、指標検査の性能特徴(感度および特異性)の目標範囲の推定値の正確性に基づいた。具体的には、影響ありの(T21、T18、T13、雄性、雌性、またはモノソミーX)症例および影響なしの(T21でない、T18でない、T13でない、雄でない、雌でない、またはモノソミーXでない)対照の数を決定して、正常な近似値(N=(1.96 √p(1-p)/許容誤差)2、式中、p=感度または特異性の推定値)に基づき、事前に指定したわずかな許容誤差内に、感度および特異性をそれぞれ推定した。95%またはそれを上回る割合の真の感度を想定して、73〜114症例のサンプルサイズは、感度の推定値の正確性が、95%信頼区間(CI)の下限が90%またはそれを上回る割合(許容誤差≦5%)であるそのようなものであろうことを保証した。より小さなサンプルサイズに関しては、感度に対して95% CIというより大きな推定許容誤差を企画した(6%〜13.5%)。より高い正確性を有する特異性を推定するために、より多くの数の影響なしの対照(約4:1という、症例に対する比)をサンプリング段階で企画した。これにより、少なくとも3%までの特異性の推定値の正確性が保証された。したがって、感度および/または特異性が増加すれば増加するほど、信頼区間の正確性も増加すると考えられる。
サンプルサイズの決定に基づき、無作為サンプリング計画をCROに立案して、配列に対して選択されたサンプルのリストを作成した(T21、T18、またはT13によって影響を受けた最小限の110症例、およびトリソミーの影響を受けていない400症例、これらの最高半分が46,XXまたは46,XY以外の核型を有することが可能となる)。単胎妊娠および適性血液サンプルを有する対象は、選択にとって適性であった。不適性サンプルを有する、記録された核型を有しない、または多胎妊娠を有する対象は除外された(図20)。試験を通じてリストを定期的に作成し、かつVerinata Healthの実験室に送った。
各適性血液サンプルを、6つの独立カテゴリーについて解析した。カテゴリーは、第21、第18、および第13染色体についての異数性状態、ならびに雄、雌についての性別状態、ならびにモノソミーXであった。なおも盲検の間、各血漿DNAサンプルに対して、6つの独立カテゴリーのそれぞれについて、3つの分類(影響あり、影響なし、または未分類)のうちの1つをあらかじめ作成した。このシナリオを用いると、同じサンプルを、一方の解析では影響あり(例えば、第21染色体についての異数性)として、かつ別の解析では影響なし(例えば、第18染色体についての正倍数性)として分類することができた。
絨毛膜絨毛サンプリング(CVS)または羊水穿刺によって獲得された細胞についての従来的な中期細胞遺伝学的解析を、本試験における参照標準として用いた。参加会場によって日常的に用いられている診断用実験室において、胎児核型判定を実施した。登録後に患者がCVSおよび羊水穿刺を受けた場合、羊水穿刺からの核型結果を試験解析に用いた。中期核型が入手できなかった場合、第21、第18、第13、X、およびY染色体を標的とした蛍光インサイチューハイブリダイゼーション(FISH)結果を許可した(表9)。すべての異常核型報告(すなわち、46,XXおよび46,XY以外)は、有資格細胞遺伝学者によって審査され、かつ第21、第18、および第13染色体に対して影響ありまたは影響なし、ならびにXX、XYの性別状態、ならびにモノソミーXとして分類された。
事前に指定したプロトコール会議は、以下の異常核型を、細胞遺伝学者によって核型について「打ち切り」という状態を割り当てる対象に規定した:三倍体性、四倍体性、第21、第18、もしくは第13染色体に関わるトリソミー以外の複雑核型(例えば、モザイク)、混合性染色体を有するモザイク、性染色体異数性、または元文書によって十分に解釈され得なかった核型(例えば、未知の起源のマーカー染色体)。細胞遺伝学的診断はシーケンシング実験室に知られていなかったため、細胞遺伝学的に打ち切られたすべてのサンプルは、本明細書において開示される方法に従って、独立して解析されかつシーケンシング情報を用いて決定された分類を割り当てられたが(シーケンシング分類)、統計解析には含まれなかった。打ち切られた状態は、6つの解析のうちの関連する1つまたは複数のみに関した(例えば、モザイクT18は第18染色体解析から打ち切られるが、第21、第13、X、およびY染色体など、他の解析については「影響なし」と見なされる)(表10)。プロトコール設計の時点では十分に予測され得なかった他の異常かつ稀な複雑核型は、解析から打ち切られなかった(表11)。
eCRFおよび臨床データベースに含有されるデータは、権限を与えられたユーザーのみに限定された(試験会場で、CRO、および契約臨床職員)。それは、非盲検化の時点まで、Verinata Healthのいかなる従業員にとっても入手不可であった。
CROから無作為サンプルリストを受け取った後、無細胞全DNA(母体および胎児の混合物)を、融解した選択血漿サンプルから抽出した。シーケンシングライブラリーを、Illumina TruSeq kit v2.5を利用して調製した。シーケンシングは、Verinata Healthの実験室においてIllumina HiSeq 2000計器で行われ(6プレックス、すなわち6サンプル/レーン)、36bp塩基対の単一末端の読み取りを獲得した。読み取りをゲノムにわたってマッピングし、そして関心対象の各染色体上の配列タグを計数しかつ用いて、上記で記載される独立カテゴリーに対してサンプルを分類した。
臨床プロトコールは、分類結果を報告するために、胎児DNAの存在の証拠を必要とした。雄または異数性の分類は、胎児DNAの十分な証拠と見なされた。加えて、各サンプルを、また対立遺伝子特異的な2つの方法を用いて、胎児DNAの存在について検査した。第1の方法では、AmpflSTR Minifiler kit(Life Technologies, San Diego, CA)を用いて、無細胞DNAにおける胎児成分の存在を調べた。メーカーのプロトコールに従い、短縦列反復(STR)アンプリコンの電気泳動をABI 3130 Genetic Analyzerで行った。このキットにおける9個すべてのSTR遺伝子座を、すべてのピークの強度の合計についてのパーセンテージとして報告される各ピークの強度を比較することによって解析し、かつ微小ピークの存在を用いて、胎児DNAの証拠を提供した。微小STRが同定され得なかった場合には、サンプルのアリコートを、Kiddらのパネル(Kidd et al., Forensic Sci Int 164(1):20-32 [2006])より選択される≧0.4の平均ヘテロ接合性を有する15種のSNPの単一ヌクレオチド多型(SNP)パネルに関して検討した。母体サンプルにおける胎児DNAを検出しかつ/または定量するために用いられ得る対立遺伝子特異的な方法は、参照により本明細書に組み入れられる、米国特許公報第20120010085号、第20110224087号、および第20110201507号に記載されている。
上記で記載されるように、すべての常染色体および性染色体に対する分母の考え得るすべての並べ替えを算出することによって、正規化された染色体値(NCV)を決定したが、本試験のシーケンシングは、1レーンあたり複数のサンプルを有する本発明者らの以前の研究とは異なる計器で行われたため、新たな正規化染色体分母を決定する必要があった。試験サンプルの解析前にシーケンシングされた110個の独立した(すなわち、MELISSA適性サンプル由来ではない)影響なしのサンプル(すなわち、適格サンプル)のトレーニングセットに基づいて、本試験における正規化染色体分母を決定した。ゲノムにわたる全染色体に対する影響なしのトレーニングセットに対する変動を最小限に抑える、すべての常染色体および性染色体に対する分母の考え得るすべての並べ替えを算出することによって、新たな正規化染色体分母を決定した(表8)。
各検査サンプルの常染色体分類を提供するために適用されたNCV法則は、上記で記載されるものであった。常染色体の異数性の分類に関しては、染色体を影響あり(すなわち、その染色体に対する異数性)として分類するためにNCV>4.0を要し、かつ染色体を影響なしとして分類するためにNCV<2.5を要した。2.5〜4.0のNCVを有する常染色体を有するサンプルは、「未分類」と名付けられた。
本検査における性染色体分類は、以下のとおり、XおよびYの両方に対するNCVの逐次的適用によって実施された。
1. NCV X<-4.0かつNCV Y<2.5の場合には、サンプルをモノソミーXとして分類した。
2. NCV X>-2.5かつNCV X<2.5かつNCV Y<2.5の場合には、サンプルを雌(XX)として分類した。
3. NCV X>4.0かつNCV Y<2.5の場合には、サンプルをXXXとして分類した。
4. NCV X>-2.5かつNCV X<2.5かつNCV Y>33の場合には、サンプルをXXYとして分類した。
5. NCV X<-4.0かつNCV Y>4.0の場合には、サンプルを雄(XY)として分類した。
6. 条件5を満たすが、NCV Yが、測定されたNCV X値に対して予想されるよりもおよそ2倍大きい場合には、サンプルをXYYとして分類した。
7. XおよびY染色体のNCVが上記の基準のいずれにも当てはまらない場合には、サンプルを性別に関して未分類として分類した。
実験室は臨床情報を盲検化されていたため、シーケンシング結果は、以下の人口統計学的可変因子:母体のボディマス指標、喫煙状態、糖尿病の存在、受胎のタイプ(自然発生的または補助による)、以前の妊娠、以前の異数性、または在胎期間のいずれに対しても調整されなかった。母体または父体サンプルのいずれも分類には利用されず、かつ本方法に従った分類は、特定の遺伝子座または対立遺伝子の測定に依存しなかった。
シーケンシング結果を、非盲検化および解析の前に、独立した契約生物統計学者に戻した。試験会場の職員、CRO(無作為サンプリングリストを作成する生物統計学者を含む)、および契約細胞遺伝学者は、シーケンシング結果を盲検化されていた。
(表8)すべての染色体について体系的に決定された正規化染色体配列
統計方法を、試験に関する詳細な統計解析計画に文書化した。Clopper-Pearson法を用いた、ちょうど95%信頼区間に沿った感度および特異性の点推定(point estimate)を、6つの解析カテゴリーのそれぞれについて計算した。実施されたすべての統計的推定手順に関して、検出された胎児DNAを有しないサンプル、(プロトコール規定会議により)複雑核型に対して「打ち切られた」サンプル、またはシーケンシング検査によって「未分類」されたサンプルは、除外された。
結果
2010年6月〜2011年8月に、2,882人の妊娠している女性が本試験に登録された。適性対象および選択コホートの特徴は、表9に与えられている。登録しかつ血液を提供したが、後のデータモニタリング中に組み入れ基準を突破しかつ登録時に22週0日を過ぎた実際の在胎期間を有することが見出された対象は、試験に留まることが許可された(n=22)。選択されたセットの中に、これらのサンプルのうちの3個がある。図20は、登録から解析までのサンプルの流れを示している。選択にとって適性な2,625個のサンプルが存在した。
(表9)患者の人口統計学データ
*侵襲的手順の時点におけるGA
**異常核型を有する胎児における超音波異常のより高い浸透度
略語:BMI−ボディマス指標、IUGR−子宮内発育遅滞
無作為サンプリング計画により、正倍数性胎児を保持する対象のセットだけでなく、異常核型を有するすべての適性対象を解析に選択し、それにより、シーケンシングされた試験集団全体は、トリソミー21に関しておよそ4:1比の影響なし対影響ありの対象をもたらした(図20B)。この過程から、534人の対象を選択した。その後、サンプルチューブとデータ取得との間の完全な一連の保管が品質監査を通過しないサンプル追跡事項により、2個のサンプルが解析から除去された(図20)。これにより、60箇所の試験会場のうちの53箇所によって寄与される解析に、532人の対象がもたらされた。選択コホートの人口統計学データは、コホート全体と同様であった。
検査性能
図21A〜21Cは、第21、第18、および第13染色体の異数性解析についての流れ図を示しており、かつ図21D〜21Fは、性別解析の流れを示している。表12は、6つの解析のそれぞれに対する感度、特異性、および信頼区間を示しており、かつ図22、23、および24は、シーケンシング後のNCVに従ったサンプルのグラフ分布を示している。解析の6つすべてのカテゴリーにおいて、検出された胎児DNAなしにより、16個のサンプル(3.0%)が除去された。非盲検化後、これらのサンプルに対して際立った臨床特質は存在しなかった。各カテゴリーに対して打ち切られた核型の数は、解析されている条件に依存した(図22に十分に詳述されている)。
解析集団(n=493)におけるT21を検出する方法の感度および特異性は、それぞれ100%(95% CI=95.9、100.0)および100%(95% CI=99.1、100.0)であった(表12および図21A)。これは、1個の複雑T21核型の47,XX, inv(7)(p22q32),+21、およびロバートソン型転座により生じる2個の転座T21に対する正しい分類を含み、その一方は、モノソミーXに対してモザイクでもあった(45,X,+21,der(14;21)q10;q10)[4]/46,XY,+21,der(14;21)q10;q10)[17]および46,XY,+21,der(21;21)q10;q10)。
解析集団(n=496)におけるT18を検出する方法の感度および特異性は、97.2%(85.5、99.9)および100%(99.2、100.0)であった(表12および図21B)。一次解析から(プロトコールどおりに)打ち切られたものの、T21およびT18に対してモザイク核型を有する4個のサンプルはすべて、ここに開示される方法によって、異数性に関して「影響あり」として正しく分類された(表10)。それらは正しく検出されたため、それらは図21Aおよび21Bの左側に表示されている。残りすべての打ち切られたサンプルは、トリソミー21、18、および13に対して影響なしとして正しく分類された(表10)。解析集団におけるT13を検出する方法の感度および特異性は、78.6%(49.2、99.9)および100%(99.2、100.0)であった(図21C)。検出された1つのT13症例は、ロバートソン型転座により生じた(46,XY,+13,der(13;13)q10;q10)。第21染色体解析において7個(1.4%)、第18染色体解析において5個(1.0%)、および第13染色体解析において2個(0.4%)の未分類サンプルが存在した(図21A〜21C)。すべてのカテゴリーにおいて、打ち切られた核型(69,XXX)および検出された胎児DNAなしの両方を有する3個のサンプルの重なりがあった。第21染色体解析における1個の未分類サンプルは、第13染色体解析においてT13として正しく同定され、かつ第18染色体解析における1個の未分類サンプルは、第21染色体解析においてT21として正しく同定された。
(表10)打ち切られた核型
*1種の細胞系列におけるマーカー染色体が理由で、すべての解析カテゴリーから除外された対象。
**48,XXY,+18という核型を有する対象は、第18染色体解析において未分類とされ、かつ性異数性は検出されなかった。
(表11)打ち切られなかった異常核型および複雑核型
*3.6という正規化された染色体値(NCV)の増加は、非盲検化後の第6染色体におけるシーケンシングタグにより気付かれた。
方法の性能を判定するための性染色体解析集団(雌、雄、またはモノソミーX)は433人であった。性染色体異数性についての正確な判定を可能にする、性別状態を分類するための本発明者らの洗練されたアルゴリズムは、より多数の未分類結果をもたらした。二倍体雌状態(XX)を検出することに対する感度および特異性は、それぞれ99.6%(95% CI=97.6、>99.9)および99.5%(95% CI=97.2、>99.9)であり;雄(XY)を検出する感度および特異性は、両方とも100%(95% CI=98.0、100.0)であり;かつモノソミーX(45,X)を検出することに対する感度および特異性は、93.8%(95% CI=69.8、99.8)および99.8%(95% CI=98.7、>99.9)であった。解析から(プロトコールどおりに)打ち切られたものの、モザイクモノソミーX核型のシーケンシング分類は下記のとおりであった(表10):モノソミーXとして分類された2/7個、XYとして分類されるY染色体構成要素を有すると分類された3/7個、および雌として分類されるXX染色体構成要素を有する2/7個。モノソミーXとして分類された2個のサンプルは、47,XXXおよび46,XXの核型を有した。47,XXX、47,XXY、および47,XYYという核型に対する10個の性染色体異数性のうちの8個は、正しく分類された(表10)。性染色体分類をモノソミーX、XY、およびXXに限定した場合、未分類サンプルのほとんどは雄として正しく分類されていたようであるが、XXYおよびXYYという性異数性は同定されていないようであった。
トリソミー21、18、13、および性別を正確に分類することに加えて、シーケンシング結果は、2個のサンプルにおける第16および第20染色体に対する異数性(47,XX,+16および47,XX,+20)も正しく分類した(表11)。興味深いことには、第6染色体の長腕(6q)の臨床的に複雑な変更、およびそのうちの一方はサイズが37.5Mbである2つの重複を有する1個のサンプルは、第6染色体におけるシーケンシングタグからのNCVの増加を示した(NCV=3.6)。別のサンプルにおいて、第2染色体の異数性は、本明細書において開示される方法に従って検出されたが、羊水穿刺における胎児核型では観察されなかった(46,XX)。表10および11に示されている他の複雑核型変種には、ここでは検出されなかったが、より高いシーケンシング密度でおよび/または本開示の方法を用いたさらなるアルゴリズム最適化により潜在的に分類され得るであろう、染色体の逆位、欠失、転座、三倍体性、および他の異常を有する胎児由来のサンプルが含まれる。これらの場合において、方法は、該サンプルをトリソミー21、18、または13に対して影響なしとして、および雄または雌として正しく分類した。
本試験において、38/532個の解析サンプルは、生殖補助を受けた女性由来のものであった。これらのうち、17/38個のサンプルは染色体異常を有し、この部分集団において、偽陽性または偽陰性は検出されなかった。
考察
母体血漿から全染色体胎児異数性を判定するこの前向き試験は、サンプルの収集、加工、および解析の実世界のシナリオを模倣するように設計された。全血サンプルは登録会場で獲得され、即時加工を必要とせず、かつシーケンシング実験室に一晩で運搬された。第21染色体のみに関わる先行前向き試験(Palomaki et al., Genetics in Medicine 2011:1)とは対照的に、本試験では、任意の異常核型を有するすべての適性サンプルがシーケンシングされかつ解析された。シーケンシング実験室は、どの胎児染色体が影響を受けている可能性があるのかについても、正倍数性サンプルに対する異数性の比率についても先行する知識を有していなかった。本試験設計は、高リスク集団の妊娠している女性を募集して、異数性の統計的に有意な有病率を確保しており、表10および11は、解析された核型の複雑性を示している。結果は、i)胎児異数性(転座、トリソミー、モザイク、および複合バリエーションにより生じるものを含む)を高い感度および特異性で検出することができること、ならびにii)1種の染色体における異数性は、本明細書において開示される方法が、他の染色体の正倍数性状態を正しく同定する能力に影響を及ぼさないこと、を証明している。以前の試験において利用されたアルゴリズムは、一般的な臨床集団に必然的に存在しているであろう他の異数性を有効に判定し得ないように思われる(Erich et al., Am J Obstet Gynecol 2011 Mar;204(3):205 e1-11、Chiu et al., BMJ 2011;342:c7401)。
モザイクに関して、本試験におけるシーケンシング情報の解析は、4/4個の影響ありのサンプルにおいて、第21および第18染色体に対するモザイク核型を有するサンプルを正しく分類することができなかった。これらの結果は、複合混合物における無細胞DNAの特異的な特徴を検出するための該解析の感度を証明している。1つの症例において、第2染色体に関するシーケンシングデータは、全体的または部分的な染色体異数性を示したが、一方で第2染色体に関する羊水穿刺の核型結果は二倍体であった。47,XXX核型を有する一方のサンプル、および46,XX核型を有するもう一方のサンプルという他の2つの例において、方法は、これらのサンプルをモノソミーXとして分類した。これらはモザイク症例であり、または妊娠している女性自体がモザイクである可能性がある。(シーケンシングは、母体および胎児のDNAの組み合わせである全DNAに対して実施されていることを覚えていることが重要である。)侵襲的手順からの羊膜細胞または絨毛についての細胞遺伝学的解析は、現在、異数性分類のための参照標準であるものの、限られた数の細胞に対して実施される核型は、低レベルのモザイクを除くことができない。現在の臨床試験設計は、長期の幼児追跡調査または分娩時の胎盤組織を利用する権利を含んでいなかったため、本発明者らは、これらが、真のまたは偽の陽性結果であるかどうかを判定することができない。本発明者らは、ゲノム規模の変動を検出する方法に従った、最適化されたアルゴリズムと連動したシーケンシング過程の特異性により、とくにモザイクの症例において、標準的な核型判定よりも高感度な胎児DNA異常の同定が最終的には提供され得ると推測する。
出生前診断に関する国際学会(International Society for Prenatal Diagnosis)は、ダウン症候群の出生前検出に対する超並列シーケンシング(MPS)の商業的利用可能性について論評した迅速な対応声明(Rapid Response Statement)を出した(Benn et al., Prenat Diagn 2012 doi:10.1002/pd.2919)。それらは、胎児ダウン症候群についてのMPSに基づくルーチン的集団スクリーニングが導入される前に、検査は、インビトロ受精によって妊娠した女性においてなど、一部の部分集団において実施されるという証拠が必要であると述べている。ここで報告される結果は、本方法が、その多くは異数性の高いリスクがある、この群の妊娠している女性において正確であることを示唆している。
これらの結果は、異数性の増加したリスクがある女性からの、単胎妊娠におけるゲノムにわたる異数性検出のための最適化されたアルゴリズムを有する本方法の優れた性能を証明しているものの、有病率が低い場合および多胎妊娠における該方法の診断性能の信頼を構築するために、とくに低リスク集団においてはより多くの経験が必要とされる。臨床的実践の早期段階において、本方法に従ったシーケンシング情報を用いた第21、第18、および第13染色体の分類は、妊娠第1期または第2期の陽性スクリーニング結果の後に利用されるべきである。これにより、手順に関係する有害事象の付随的低減とともに、偽陽性のスクリーニング結果によって引き起こされる不要な侵襲的手順が低減するであろう。侵襲的手順は、シーケンシングからの陽性結果の確認に限定され得るであろう。しかしながら、妊娠している女性が侵襲的手順を回避したいであろう臨床上のシナリオ(例えば、母体の高齢および不妊症)が存在し、彼らは、一次スクリーニングおよび/または侵襲的手順の代替手段としてこの検査を要求し得る。すべての患者は、彼らが検査の限界および結果の含意を理解することを保証する徹底的な検査前カウンセリングを受けるべきである。より多くのサンプルによる経験が蓄積するにつれて、この検査が、現在のスクリーニングプロトコールに置き換わり、かつ胎児異数性についての一次スクリーニングおよび最終的には非侵襲的診断検査になるであろう可能性がある。