JP6125731B2

JP6125731B2 - 核酸分子数計測法

Info

Publication number: JP6125731B2
Application number: JP2016531441A
Authority: JP
Inventors: 菊也加藤; 洋児久木田; 亮的場
Original assignee: DNA Chip Research Inc; Osaka Prefectural Hospital Organization
Current assignee: DNA Chip Research Inc; Osaka Prefectural Hospital Organization
Priority date: 2014-07-02
Filing date: 2015-07-02
Publication date: 2017-05-10
Anticipated expiration: 2035-07-02
Also published as: EP3165612B1; US10584331B2; US20200385708A1; JP2017099400A; EP3165612A1; US11332737B2; EP3165612A4; JPWO2016002875A1; US20170204406A1; WO2016002875A1; JP6664575B2

Description

本発明は、核酸分子混合物における核酸分子の数を計測する方法に関する。具体的には、本発明は、複数の核酸分子の混合物の核酸塩基配列に各分子を識別する配列を付加し、塩基配列決定する際に生じる識別配列内のリードエラーを検出することによって高精度に核酸分子数を計測する方法に関する。

現在までに、血液をサンプリングすることによって体内の腫瘍の情報を得ることができる手法として、死亡癌細胞から血中に放出されたセルフリーＤＮＡ（ｃｆＤＮＡ）である循環腫瘍ＤＮＡ（ｃｔＤＮＡ）が利用されるようになっている。このｃｔＤＮＡは固形腫瘍の遺伝情報を末梢血に運ぶキャリアと考えられており、ｃｔＤＮＡを利用することにより、遺伝的な腫瘍の不均一性（例えば疾病経過による癌細胞の進化）の分析を容易にすることが期待されている。このｃｆＤＮＡの大きさは平均して１７０塩基対であり、その半減期は１６．５分である。また血液１ミリリットル中に１〜数千ゲノムのｃｆＤＮＡが含まれている。

ところで、このｃｔＤＮＡを検出するために種々の技術が開発されているが、デジタルＰＣＲおよびその関連技術、特に超並列ＤＮＡシーケンサーがその筆頭技術となっている。しかし、このような次世代シーケンサーは高頻度で出現するリードエラーが問題となっており、塩基配列を決定する領域が多くなればなるほど、その誤判定数や偽陽性の数が増加してしまう。また別の問題として、大規模並列シーケンスのためのテンプレート準備段階で対象ＤＮＡ全体を増幅する工程があり、これにより最終的なシーケンスリードは最初のＤＮＡ分子の割合を反映しないものとなってしまう。通常、リード数は対象のＤＮＡ分子数を上回ってしまい、突然変異のアレルの計測に影響がでてしまう。

これらの問題の解決策として用いられている手法がバーコード配列である（非特許文献１及び２）。これは多くの場合１０から１５塩基のランダムな配列でＤＮＡ断片をラベルし、個々の分子由来のリードを見分け、各分子由来のリードのグループ化を可能にするものである。つまり、リードのコンセンサスを作ることにより、高品質のＤＮＡシーケンシングを提供し、配列決定した分子を計数することができるようになる。

Casbon, J. A., Osborne, R. J., Brenner, S. and Lichtenstein, C. P. 2011, A method for counting PCR template molecules with application to next-generation sequencing. Nucleic Acids Res., 39, e81. Kinde, I., Wu, J., Papadopoulos, N., Kinzler, K. W. and Vogelstein, B. 2011, Detection and quantification of rare mutations with massively parallel sequencing. Proc. Natl. Acad. Sci. USA, 108, 9530-9535.

しかしながら、このバーコード配列を用いた手法にも問題はあり、その主なものとしては、バーコード配列自体にもたらされるリードエラーである。つまりこの問題は、単一の固有のバーコードを各分子にラベルするという基本的な原則に影響を及ぼしてしまう。そのため、小さな集団のバーコード配列を設計してエラーを検出し、除外することが試みられているが、このアプローチでは、各バーコード配列を個別に製造することを必要とするため、多数の配列に対応することができない。そこで、複数の核酸分子の混合物における分子数を計測するために、より高精度な方法の開発が望まれている。

本発明は、このような状況を鑑みてなされたものであり、核酸塩基配列を決定する際に生じるリードエラーを検出することにより、高精度に核酸分子数を計測する方法を提供することを目的とする。

本発明者らは、このような課題を解決するために、核酸分子の塩基配列決定の際に生じるリードエラーの特徴に着目した結果、シーケンサーの種類に応じて主なリードエラーが異なることを観察した。そこで鋭意研究を重ねた結果、リードエラーの特徴ごとに適切なバーコード配列を設計し、このバーコード配列を解析することによりリード数毎にエラーのないものの割合を算出できることを見出し、リードエラーを適切に除去できることを見出した。

具体的には、本発明の第一の主要な観点によれば、核酸塩基配列を決定する際に生じるリードエラーを検出することによって高精度に核酸分子数を計測する方法であって、複数の核酸分子の混合物にバーコード配列生成オリゴヌクレオチドを加えることにより、各核酸分子を構成する塩基配列に、当該核酸分子に固有のバーコード配列を連結する工程と、前記バーコード配列を連結した核酸分子の塩基配列を決定する工程と、塩基配列を決定したバーコード配列のリードエラーを検出する工程と、前記塩基配列を決定したバーコード配列のリード数に基いて、塩基配列を決定した全バーコード配列のうち、当該バーコード配列にリードエラーが存在しないものの割合を算出する工程と、を有し、前記バーコード配列生成オリゴヌクレオチドは最多で５種類の塩基からなり、リードエラーが存在しないバーコード配列の数が前記混合物における核酸分子数を示す、方法が提供される。

このような構成によれば、塩基配列を決定したバーコード配列におけるリードエラーを取り除くことができるため、核酸分子１つにつき１つのバーコード配列が結合しているという大前提を保障することができ、塩基配列を決定する前の核酸分子の混合物における核酸分子数を正確に計測することができる。

またこのような構成によれば、ある特定のバーコード配列が連結している塩基配列はそれが複数あったとしてもいずれも同じ配列であるという推定が高い確率で成り立つため、塩基配列決定の精度を高めることができる。

また本発明の一実施形態によれば、上述の方法であって、さらに、前記塩基配列を決定したバーコード配列のリード数毎に前記算出した割合をプロットする工程を有する、方法が提供される。

またこの場合、本発明の他の一実施形態によれば、上述の方法であって、さらに、前記プロットする工程によって得られたグラフに基いて、所定の閾値以下のリード数を有するバーコード配列を除去する工程を有する、方法が提供される。

さらに本発明の他の一実施形態によれば、前記検出する工程は、塩基配列を決定したバーコード配列毎の塩基長または塩基配列を解析することによって行われることができる。

また本発明の別の一実施形態によれば、前記バーコード配列生成オリゴヌクレオチドの長さは５〜２０塩基であってもよく、また１２塩基とすることもできる。

さらに本発明の他の一実施形態によれば、前記バーコード配列生成オリゴヌクレオチドは、その配列中に１またはそれ以上の他の塩基配列を有することができる。

また本発明の別の一実施形態によれば、前記バーコード配列生成オリゴヌクレオチド中の塩基は、塩基部位毎に独立して２つまたは３つの種類の塩基から選択されることができる。またこのような場合、前記検出する工程は、塩基配列を決定したバーコード配列の塩基部位毎に、前記バーコード配列を構成しない塩基を検出することによって行われることができる。

さらに本発明の他の一実施形態によれば、前記バーコード配列は、前記バーコード配列生成オリゴヌクレオチドを含むアダプターを、アダプターライゲーションにより前記核酸分子を構成する塩基配列に付加し、その後バーコード配列生成オリゴヌクレオチドの外側のアダプタープライマーと前記核酸分子を構成する塩基配列に特異的なプライマーとを用いて前記アダプターを付加した核酸分子を増幅させることによって、前記核酸分子を構成する塩基配列に連結されることができる。

また本発明の別の一実施形態によれば、前記核酸分子を構成する塩基配列、または前記核酸分子を構成する塩基配列を持つアダプターは粘着末端を有することもでき、または平滑末端を有することもできる。

さらに本発明の他の一実施形態によれば、前記リードエラーは塩基配列の挿入、欠失または塩基置換であってもよい。

また本発明の別の一実施形態によれば、上述の方法であって、さらに、塩基配列を決定したバーコード配列に基いて、同じバーコード配列を有する核酸分子のコンセンサス配列を決定する工程と、前記コンセンサス配列に基いて、塩基配列を決定した核酸分子の塩基配列におけるリードエラーを検出する工程と、前記リードエラーを有する核酸分子を除外する工程とを有する、方法が提供される。

またこの場合、さらに、前記コンセンサス配列に基いて、塩基配列を決定した核酸分子の塩基配列における突然変異を検出することにより、突然変異を有する核酸分子数を計測する工程を有する、方法が提供される。

さらに、本願発明の第二の主要な観点によれば、上述の方法において用いられるバーコード配列生成オリゴヌクレオチドであって、当該バーコード配列生成オリゴヌクレオチド中の塩基が、塩基部位毎に独立して２つまたは３つの種類の塩基から選択されるものが提供される。

また本発明の一実施形態によれば、上記のバーコード配列生成オリゴヌクレオチドは、その配列中に１またはそれ以上の他の塩基配列を有することができる。

なお、上記した以外の本発明の特徴及び顕著な作用・効果は、次の発明の実施形態の項及び図面を参照することで、当業者にとって明確となる。

図１Ａは、本願発明の一実施形態に係るバーコード配列のライブラリを構築する際のスキーム図である。図１Ｂは、ヒトＴＰ５３の標的領域を示す模式図である。ヒトＴＰ５３遺伝子のコード領域のｃＤＮＡ構造は、ＣＯＳＭＩＣｖ６３（http://cancer.sanger.ac.uk/）に見られる突然変異の分布の棒グラフで示した。縦の点線はＤＮＡ結合領域のエキソンの境界を示す。横の黒い太いラインは、本願発明に係る一実施形態において用いた標的領域を示す。図２は、本願発明の一実施形態に係るバーコード配列タグにおけるエラーの観測、および標的分子の絶対定量を示すグラフ群である。Ｐｒｏｔｏｎシーケンサーでの結果であり、図２Ｆ以外の標的領域はＴＫ１０２Ｕである。また結果は４０ｎｇのゲノムＤＮＡを使用して得た。図２Ａはバーコードタグあたりのリード数の分布を示すグラフである。縦軸は異なるバーコードタグの数であり、横軸は常用対数で示した場合のバーコードタグあたりのリード数である。図２Ｂは累積リード数を示すグラフである。図２Ｃはサイズ毎のバーコードタグの割合を示すグラフである。図２Ｄは、１２ｂｐバーコードタグの割合の平均を示すグラフである。適合する１２ｂｐタグに対して単一の挿入または欠失塩基が存在する以外は１２ｂｐタグの配列と合致する１１ｂｐおよび１３ｂｐタグを１２ｂｐタグにまとめて分類している。割合の平均は周りの１１ビンの割合の平均を表す。図２Ｅは、エラーのあるタグを除去した後の標的分子の推計値である。横軸は推計に用いたリード数であり、リードは全リードからランダムに選択した（全リード数５ｎｇ：１，４５７，７６０リード、１０ｎｇ：２，２５１，１３３リード、２０ｎｇ：２，２４５，０３８リード、４０ｎｇ：２，３９５，７６３リード）。図２Ｆは、分子数とエラーのあるタグを除去した後のインプットＤＮＡの量との間の相関を示すグラフである。図３は、本願発明の一実施形態に係る、Ｐｒｏｔｏｎシーケンサーを用いた場合のリードの解析結果を示すグラフ群である。適合する１２ｂｐタグに対して単一の挿入または欠失塩基が存在する以外は１２ｂｐタグの配列と合致する１１ｂｐおよび１３ｂｐタグを１２ｂｐタグにまとめて分類している。

図３Ａはバーコードタグあたりのリード数の分布を示すグラフである。縦軸は異なるバーコードタグの数であり、横軸は常用対数で示した場合のバーコードタグあたりのリード数である。
図３Ｂは累積リード数を示すグラフである。矢印はエラーのあるタグを持つリードを除去する際の閾値を示す。解析した領域はＴＫ１０２Ｕであり、結果は４０ｎｇのゲノムＤＮＡを使用して得た（全リード数：２，３９５，７６３リード）。
図４は、本願発明の一実施形態に係る、ＭｉＳｅｑシーケンサーを用いた場合のリードの解析結果を示すグラフ群である。

図４Ａはバーコードタグあたりのリード数の分布を示すグラフである。縦軸は異なるバーコードタグの数であり、横軸は常用対数で示した場合のバーコードタグあたりのリード数である。
図４Ｂは累積リード数を示すグラフである。矢印はエラーのあるタグを持つリードを除去する際の閾値を示す。
図４Ｃは、エラーを持つバーコードタグおよびエラーを持たないバーコードタグの推計割合を示すグラフである。解析した領域はＴＫ１０２Ｕであり、結果は４０ｎｇのゲノムＤＮＡを使用して得た（全リード数：５９４，７１９リード）。
図４Ｄ及び図４Ｅは、エラーをもつバーコードタグを除去した後の標的分子数の推計値である。図４Ｄが本願発明の一実施形態に係る方法を用いた場合の結果であり、図４Ｅが１リードおよび２リードのタグを除去した場合の結果である。解析は全リードからランダムに選択したリードを用いて行った（全リード数５ｎｇ：３４３，９３２リード、１０ｎｇ：４０４，９００リード、２０ｎｇ：５４８，８０９リード、４０ｎｇ：５９４，７１９リード）。
図５は、本願発明の一実施形態に係るバーコード配列タグにおけるエラーの観測、および標的分子の絶対定量を示すグラフ群である。結果はＭｉＳｅｑシーケンサーによるものである。図５Ａは、エラーのないバーコードタグの推計平均割合を示すグラフである。平均割合は図２Ｄと同様に計算した。図５Ｂは、分子数とエラーのあるタグを除去した後のインプットＤＮＡの量との間の相関を示すグラフである。図６は、本願発明の一実施形態に係る標的領域のシーケンシングのエラーレートを示すグラフである。バーコードタグを使用した場合の置換エラーレートを各列の左に黒色で、ない場合の置換エラーレートを各列の右に灰色で示した。またＱ５はＱ５ＤＮＡポリメラーゼでＰＣＲ増幅した一本鎖ラベルを、ＰｔはＰｌａｔｉｎｕｍＴａｑＤＮＡポリメラーゼＨｉｇｈＦｉｄｅｌｉｔｙキットでＰＣＲ増幅した一本鎖ラベルを、ＤＳは二本鎖ラベルをそれぞれ示す。３０ナノグラムのゲノムＤＮＡを用いている。また計算はＩｏｎＰｒｏｔｏｎシーケンサーを用いて得られた７つ（Ｑ５、Ｐｔ）または５つ（ＴＫ１０２およびＴＫ１０３Ｕを除いてＤＳ）の領域から得られたシーケンスデータに基づいている。エラーレートの９５％信頼区間は次の通りである：Ｑ５タグ（＋）、２．８×１０−６〜８．８×１０−６；Ｐｔタグ（＋）、６．９×１０−６〜１．３×１０−５；ＤＳタグ（＋）、３．３×１０−６〜１．６×１０−５；Ｑ５タグ（−）、９．０×１０−５〜９．３×１０−５；Ｐｔタグ（−）、５．７×１０−４〜５．７×１０−４；ＤＳタグ（−）、３．７×１０−４〜３．７×１０−４。

以下に、本願発明に係る一実施形態および実施例を、図面を参照して説明する。
本実施形態に係る核酸塩基配列を決定する際に生じるリードエラーを検出することによって高精度に核酸分子数を計測する方法は、上述したように、複数の核酸分子の混合物にバーコード配列生成オリゴヌクレオチドを加えることにより、各核酸分子を構成する塩基配列に、当該核酸分子に固有のバーコード配列を連結する工程と、前記バーコード配列を連結した核酸分子の塩基配列を決定する工程と、塩基配列を決定したバーコード配列のリードエラーを検出する工程と、前記塩基配列を決定したバーコード配列のリード数に基いて、塩基配列を決定した全バーコード配列のうち、当該バーコード配列にリードエラーが存在しないものの割合を算出する工程と、前記塩基配列を決定したバーコード配列のリード数毎に前記算出した割合をプロットする工程と、を有し、前記バーコード配列生成オリゴヌクレオチドは最多で５種類の塩基からなり、リードエラーが存在しないバーコード配列の数が前記混合物における核酸分子数を示すことを特徴とするものである。

本願発明において、「リードエラー」とは、塩基配列決定の際に生じる読み取りエラーを指す。次世代シーケンサーを用いて特定の配列における変異や置換を検出するために行われるシーケンシングでは、シーケンシング結果として得られるリードと呼ばれる一つ一つの配列のデータを既知のゲノム配列であるリファレンス配列にマッピングする。この際、その一つ一つのリードに読み取り間違いが入ることがあり、次世代シーケンサーの製品や読み取り配列の特性等によって異なるがおよそ塩基配列全体の０．１％以上のエラーが存在すると言われている。また頻出するまたは優位となるリードエラーの種類は製品によって異なることも知られており、例えばＩｏｎＴｏｒｒｅｎｔ製品では挿入または欠失エラーが優位となり、Ｉｌｌｕｍｉｎａ製品では塩基置換エラーが優位となる。本願発明における「リードエラー」とはこのようなシーケンシングの際に生じるあらゆるエラーを含み、そのエラーの態様としては、塩基の挿入、欠失または塩基置換等が含まれる。またリードエラーの中には頻度は低いが鋳型調製のときのＰＣＲエラーによるものも含まれる。

また本願発明において、「複数の核酸分子の混合物」とは、複数のＤＮＡ分子またはＲＮＡ分子の混合物であり、各核酸分子の長さや配列はどのようなものであっても良い。また核酸プールとして特定の組織や生物種由来のものを使用することもできる。

また本願発明において、「バーコード配列生成オリゴヌクレオチド」とは、各塩基部位が任意の塩基（Ａ、Ｔ、Ｇ、Ｃ、Ｕ）の混合物から構成される配列である。好ましくはＮ（Ａ、Ｔ、Ｇ、Ｃの混合物）を用いる。その塩基配列の長さは後述するバーコード配列として識別可能であれば特に定めはないが、好ましくは５〜２０塩基であり、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０塩基として、塩基配列を決定する対象となる塩基配列の種類や長さ、核酸分子混合物の由来など、各実験の環境に応じて適宜選択可能である。

また、このバーコード配列生成オリゴヌクレオチドは、当該バーコード配列生成オリゴヌクレオチドの間に任意の塩基を挿入することができ、バーコード配列生成オリゴヌクレオチドが一連の配列とならなくても良い。例えば、バーコード配列生成オリゴヌクレオチドの長さを５とした場合、ＮＡＣＮＴＮＧＡＮＡＧＴＮ（下線部がバーコード配列生成オリゴヌクレオチド）のような配列としても良く、この場合はＮの位置を把握しておくことにより、一分子につき固有のバーコード配列として連結した後でも、当該バーコード配列を認識し、他のものと区別し得る。

さらに、このバーコード配列生成オリゴヌクレオチドを構成する塩基は、全体としては核酸を構成する５種類の塩基（Ａ、Ｔ、Ｇ、Ｃ、Ｕ）を用いるものの、塩基部位毎でみると独立して２つまたは３つの種類の塩基を選択することができる。例えば、ＤＨＶＢＤＨＶＢＤＨＶＢＤＨＶのような配列を採用することができる。ここで、ＤはＡ、Ｇ、またはＴであり、ＨはＡ、Ｔ、またはＣであり、ＶはＡ、Ｇ、またはＣであり、ＢはＧ、Ｔ、またはＣである。またＤＨＶＢ以外にも、Ｒ（プリン塩基）、Ｙ（ピリミジン塩基）、Ｍ（ＡまたはＣ）、Ｋ（ＧまたはＴ）、Ｓ（ＧまたはＣ）、Ｗ（ＡまたはＴ）を、バーコード配列生成オリゴヌクレオチドを構成する塩基として採用することができる。またＲＮＡの場合にはＵも採用することができる。

また本願発明において、「バーコード配列」とは上述のバーコード配列生成オリゴヌクレオチドがシーケンシングの対象となる塩基配列に結合し、当該塩基配列のそれぞれに固有の配列として結合した具体的なＡＴＧＣＵの配列が定まったものをいう。

このバーコード配列を用いて各分子を識別する技術を分子バーコード技術と呼ぶ。この分子バーコード技術は、実験操作、特にＰＣＲ増幅及び塩基配列決定前に、各分子に固有の別々の塩基配列を連結し、実験操作後の分子を識別する技術である。超並列（次世代）シーケンサーの使用を前提とした方法であり、バーコード配列生成オリゴヌクレオチドを実験操作前のＤＮＡまたはＲＮＡに連結することによって達成する。分子バーコード技術によって決定された塩基配列を個々のバーコード配列ごとにグループ化し、コンセンサス配列を作ることにより操作中のアーティファクトによる誤りを除去し、またバーコード配列の数を数えることにより、実験操作前のもとのＤＮＡあるいはＲＮＡ分子数を計測することができる。

シーケンシングの対象となる塩基配列へのバーコード配列生成オリゴヌクレオチドの結合は、任意の手法によって達成することができる。例えば、シーケンシングの対象となる塩基配列特異的なフォワードおよびリバースプライマーを用意し、当該プライマーにバーコード配列生成オリゴヌクレオチドを連結させ、核酸増幅させることによって連結することができる。

またシーケンシングの対象領域近傍の制限酵素あるいはＤＮＡ分解酵素切断末端やその他物理的生化学的手法によって生成した末端（平滑末端および粘着末端を含む）にバーコード配列生成オリゴヌクレオチドを連結したアダプターをライゲーションにより付加することでも達成できる。この場合プライマーの一方としてバーコード配列外側のアダプタープライマーをＰＣＲ増幅に使用する。

本願発明の一実施形態において、上述のリードエラーの検出はバーコード配列の長さと当該バーコード配列における塩基の解析によって行うことができる。例えば、上記のとおり、次世代シーケンサーとしてＩｏｎＴｏｒｒｅｎｔ製品を用いた場合、そのリードエラーは挿入または欠失エラーが優位となる。そのため、バーコード配列におけるリードエラーの検出はバーコード配列の長さを計測することにより検出可能である。例えばバーコード配列生成ヌクレオチドとしてＮ１２を用いた場合、シーケンシングの対象となる塩基配列に実際に連結したバーコード配列の長さを計測し、その長さが１２塩基以外のものはリードエラーが生じていると判断することができる。

同様に、Ｉｌｌｕｍｉｎａ製品を用いた場合には塩基置換エラーが優位となる。そこでこの場合には、上述のように、バーコード配列生成オリゴヌクレオチドを構成する塩基について、塩基部位毎に独立して２つまたは３つの種類の塩基を選択したものを使用することでバーコード配列のエラーを検出することが可能である。例えば、ＤＨＶＢＤＨＶＢＤＨＶＢＤＨＶをバーコード配列生成オリゴヌクレオチドとして用いた場合には、１番目の塩基部位のＤはＣではあり得ないため、仮にシーケンシングの対象となる塩基配列に実際に連結したバーコード配列のバーコード配列の１番目の塩基がＣであった場合、そのバーコード配列にはリードエラーが生じていると判断することができる。

これまでの研究により、バーコード配列あたりの塩基配列のリード数が少ないものに、エラーが入ったバーコード配列が多いことがわかっている。そこで、塩基配列のリード数ごとにバーコード配列をグループ化し、そのなかでリードエラーがないバーコード配列の比率を計算し、所定の閾値以上のグループを回収し、その他を除去することにより、エラーが存在している配列、つまり見かけ上、異なる核酸分子であると判断されてしまうものを除外することができる。

例えば、エラーの特徴として、塩基配列の挿入または欠失エラーが優位のシーケンサーの場合には、上述の通りエラーはバーコード配列の長さで判断できるため、塩基配列あたりのリード数ごとにバーコード配列をグループ化し、例えばバーコード配列生成ヌクレオチドの長さが１２の場合、当該グループ化したリード数のバーコード配列において、１２塩基のものの割合を算出し、そのリード数ごとにプロットする。これにより、所定の閾値以下のリード数しかもたないバーコード配列を除去することができ、またリードエラーが存在しないバーコード配列の数がもとの核酸分子集団における核酸分子数を正確に示すこととなる。

一方、エラーの態様として塩基置換エラーが優位のシーケンサーの場合には、まず上述の通り、各遠位部位において、バーコード配列生成オリゴヌクレオチドを構成する塩基として採用していないものを検出する。これによりエラーが入ったバーコード配列を割り出し、塩基配列あたりのリード数ごとにバーコード配列をグループ化し、このグループ内でのエラーが入ったバーコード配列の総数を算出する。ここで、リードエラーが入っているバーコード配列の総数における実際に検出されたリードエラーが入ったバーコード配列の数の比率は、バーコード配列生成オリゴヌクレオチドの各塩基部位における塩基が２種類のものの場合は３分の２、３種類のものの場合は３分の１である。そこで、この比率を元にバーコード配列生成オリゴヌクレオチド全体での比率を計算できる。例えば、ＤＨＶＢＤＨＶＢＤＨＶＢＤＨＶをバーコード配列生成オリゴヌクレオチドとして用いた場合には、リードエラーを有するバーコード配列の総数は、各塩基部位において取り得ない塩基を有するバーコード配列の数を３倍することによって得られる。これにより、各リード数のグループ内でのエラーが入ったバーコード配列の総数を推定することが可能となる。そして、このようにしてエラーの総数を推定した後、上述のようにリード数ごとにエラーの入っていないものの割合をプロットして、エラーをもつバーコード配列を除去することができる。

以上のように、核酸塩基配列を決定する際に生じるリードエラーを検出し、バーコード配列（塩基配列）あたりのリード数でバーコード配列をグループ化し、そのリード数毎に、塩基配列を決定したバーコード配列全体におけるリードエラーがないバーコード配列の割合をプロットしてグラフを作ることができる。そしてこのグラフに基づいて、実験毎にエラーのないバーコード配列の所定の割合を定め、その割合となるリード数を閾値として割り出し、その閾値以下のリード数しかもたないバーコード配列を除去することができる。またこれにより、リードエラーが存在しないバーコード配列の数が正確に計測できるため、もとの核酸分子の混合物における核酸分子数を正確に示すことができる。

さらに本願発明においては、上述のようにしてリードエラーが存在するものを除外することができるため、同じバーコード配列を持つ塩基配列は同じ核酸分子由来の塩基配列である蓋然性が高まる。そこで、塩基配列を決定したバーコード配列に基いて、同じバーコード配列を有する核酸分子のコンセンサス配列を決定し、このコンセンサス配列に基いて、塩基配列を決定した核酸分子の塩基配列におけるリードエラーを検出し、このリードエラーを有する塩基配列を除外することにより、シーケンシング自体の精度を高めることができる。

またこのようにして核酸分子のコンセンサス配列を決定することで、大部分のリードにおいて、特定の位置の塩基が変化していることを検出することができる。このように特定の塩基部位において変化した塩基が優位となり、且つその変化した塩基が単一の塩基となっている場合には、その変化は突然変異とみなすことができる。そのため、この突然変異を持つ塩基配列が連結したバーコード配列のグループ数を計測することにより、突然変異をもつ核酸分子の数を計測することも可能となる。

以下に、実施例を用いて、本発明をより詳細に説明するが、本発明はこれらの実施例に限定されるものではない。

（ＤＮＡサンプル）
ＤＮＡサンプルとして１００人の健常白色人種の男性由来のＤＮＡプールであるＭｅｇａｐｏｏｌＲｅｆｅｒｅｎｃｅｍａｌｅＤＮＡ（ＫｒｅａｔｅｃｈＢｉｏｔｅｃｈｎｏｌｏｇｙ社、アムステルダム、オランダ）を使用した。健常者由来およびＴＰ５３遺伝子中にＲ２８０Ｗの突然変異を持つＭＩＡＰａＣａ−２膵癌細胞株由来の白血球のゲノムＤＮＡを標準的なフェノール／クロロホルムプロトコルを用いて抽出した。肺癌組織中に活性ＥＧＦＲ突然変異を有する患者については大阪府立成人病センターから、胃癌患者については大阪大学病院から集め、書面でのインフォームドコンセントを本実験に参加するすべての患者から得た。また本実験は、大阪府立成人病センターおよび大阪大学病院の倫理委員会の承認を得た。

４〜５ｍＬのＥＤＴＡ処理済血液を室温で１０分間、８００ｇで遠心分離して血漿を準備し、その血漿を新しいチューブに移し、室温で１０分間、１５１００ｇで再遠心分離した。遠心分離後、血漿の上清を新しいチューブに移した。遠心分離した液体サンプルはＤＮＡ抽出まで−８０℃で凍結した。ＤＮＡはＱＩＡａｍｐｃｉｒｃｕｌａｔｉｎｇｎｕｃｌｅｉｃａｃｉｄｋｉｔ（Ｑｉａｇｅｎ社、ヒルデン、ドイツ）を用いて説明書に従って１．５〜２．０ｍＬの液体サンプルから採取した。ＤＮＡ濃度はＱｕｂｉｔｄｓＤＮＡＨＳＡｓｓａｙＫｉｔ（ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ社、米国カルフォルニア州）を用いて決定した。

（標的領域、アダプター、及び領域特異的プライマー）
ゲノム領域を分析するため、ＴＰ５３のＤＮＡ結合ドメイン、並びにＫＲＡＳおよびＣＴＮＮＢ１の突然変異ホットスポットをコードするアダプターおよびプライマーを設計した。

（バーコード鎖の線形増幅によるライブラリ構築）
ゲノムＤＮＡ（５〜４０ｎｇ）またはセルフリーＤＮＡ（全血の〜１ｍｌ）をマルチプル制限酵素（Ｓｅｔ１：ＡｌｗＮＩおよびＡｌｗ２６Ｉ；Ｓｅｔ２：ＥａｒＩおよびＮｃｏＩ；ＳｅｔＫＣ：ＥａｒＩおよびＮｍｕＣＩ（ＦａｓｔＤｉｇｅｓｔｅｎｚｙｍｅｓ、ＴｈｅｒｍｏＳｃｉｅｎｔｉｆｉｃ社、米国マサチューセッツ州））で処理した。大腸菌ＤＮＡリガーゼ（タカラバイオ、滋賀、日本）を用いてＮ１２バーコード配列タグを有するアダプターのライゲーションを行った。１．２×量のＡＭＰｕｒｅＸＰｂｅａｄｓ（ＢｅｃｋｍａｎＣｏｕｌｔｅｒ社、米国カルフォルニア州）により、ライゲーション産物を２回精製した。領域特異的プライマーミクスチャーおよびＱ５ＨｏｔＳｔａｒｔＨｉｇｈ−ＦｉｄｅｌｉｔｙＤＮＡポリメラーゼ（ＮＥＢ）を用いて１０サーマルサイクルで精製産物の線形増幅を行った。精製した線形増幅産物をＰＧＭ／ＰｒｏｔｏｎプライマーおよびＰｌａｔｉｎｕｍＴａｑＨｉｇｈＦｉｄｅｌｉｔｙ（Ｌｉｆｅ
Ｔｅｃｈｎｏｌｏｇｉｅｓ社）によって増幅した。この増幅産物をＡＭＰｕｒｅＸＰｂｅａｄｓによって、またはＭｉｎＥｌｕｔｅＧｅｌＥｘｔｒａｃｔｉｏｎＫｉｔ（Ｑｉａｇｅｎ）でアガロースゲル電気泳動することによって精製した。

（大規模並列シーケンシング）
ＩｏｎＴｏｒｒｅｎｔシーケンシングシステム用に、ＩｏｎＰＩＴｅｍｐｌａｔｅＯＴ２２００Ｋｉｔｖ２またはｖ３（ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ社）およびＩｏｎＯｎｅＴｏｕｃｈｓｙｓｔｅｍ（ＩｏｎＯｎｅＴｏｕｃｈＩｎｓｔｒｕｍｅｎｔおよびＩｏｎＯｎｅＴｏｕｃｈＥＳ、ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ社）を用いて、説明書に従ってシーケンシングライブラリからシーケンシングテンプレート（エマルジョンＰＣＲおよびビーズ濃縮）を用意した。この用意したテンプレートをＩｏｎＰＩＳｅｑｕｅｎｃｉｎｇ２００Ｋｉｔｖ２またはｖ３およびＰｒｏｔｏｎｓｅｑｕｅｎｃｅｒ（ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ社）を用いてシーケンスした。ＴｏｒｒｅｎｔＳｕｉｔｅ４．０または４．２（ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ社）を使用して、生シグナルを塩基コールに変換し、ＦＡＳＴＱファイルのシーケンシングリードを抽出した。またＭｉＳｅｑシステム（Ｉｌｌｕｍｉｎａ社、米国カルフォルニア州）を用いて、説明書に従ってＩｌｌｕｍｉｎａシステムのシーケンシングデータを生成し、ＦＡＳＴＱファイルのシングルエンドリードを抽出した。

（データ解析）
ＦＡＳＴＱフォーマットのリードを個々の割り当てのために５ｂｐインデックスを用いて分類した。５ｂｐインデックスおよびスペーサー配列間の配列をバーコードタグとした。スペーサーおよびその後に続く配列の全長が７０塩基より大きい場合、整列長の長いリード用のｂｗａｓｗモードと「−ｂ５−ｑ２−ｒ１−ｚ１０」のパラメータを用いて、ｂｗａ（バージョン０．６．２）で標的配列（スペーサ＋標的領域）にリードを整列させた。
長い未測定末端（全リード長の１０％以上）をもつリードは破棄した。

マップしたリードのバーコードタグを各標的領域で分析したところ、１２ｂｐバーコードタグを設計したにもかかわらず、シーケンシングの際の挿入・欠失エラーによって、１２ｂｐ長になっていないタグを得た。そこで、９ｂｐより短いタグについては破棄した。リードの最大値を正常値に修正するため、１塩基の挿入または欠失によって１２ｂｐタグではなくなっている１１ｂｐおよび１３ｂｐタグについては、その対応する１２ｂｐタグでまとめて分類した。例えば、「ＴＧＣＡＴＧＡＴＡＣＧ」や「ＴＧＣＡＴＧＧＡＴＴＡＣＧ」は、バーコード「ＴＧＣＡＴＧＡＴＴＡＣＧ」でまとめた。

同じバーコード配列をもつリードをグループ化して集め、そのバーコードタグを、タグあたりのリード数に従って、２つのリード数ごとにビンとして割り当てた。その後、各ビンの１２ｂｐタグの比率を算出し、各ビンの値（割合）を当該ビンの周りの１１ビンで平均化した。９０％以上の平均割合を有する最小値のビンを、エラーのあるバーコードタグを除去するための閾値として用いた。

閾値よりも少ないリードをもつエラーのあるバーコードタグを除去した後、同じバーコードを有するタグのリードをｓａｍｔｏｏｌｓ（バージョン０．１．１８）で組み合わせ、ＶａｒＳｃａｎ（ｖ２．２．１１）でコンセンサス配列を作成した。５０リード以上となる場合には最も長い５０リードを分析した。８０％以上のリードが特定の位置で代替の塩基をもつ場合には変異型とした。コンセンサス配列のセットをＦＡＳＴＱファイルに変換し、すべての塩基に対してquality scoreとして「５７」を割り当てた。ＦＡＳＴＱファイルは上述の標的領域の配列に整列させ、ｓａｍｔｏｏｌｓを用いて、生成したマッピングデータを処理してｐｅｒｂａｓｅｃｏｖｅｒａｇｅ（ｐｉｌｅｕｐファイル）を得た。その後、塩基の位置ごとに塩基数をまとめた。

シーケンスのエラー率は、ヒトゲノム参照配列と合致しないシーケンス塩基数を標的領域におけるシーケンスしたすべての塩基数で割ることによって算出した。バーコードタグを用いる場合、個々の分子由来の複数のリードのコンセンサス配列を分析した。コンセンサスを作る前のリードが通常の塩基配列のエラー率算出に用いられた。

（結果）
（アダプターライゲーションによるバーコード配列を結合する標的配列法）
アダプターライゲーションによってバーコード配列をゲノムＤＮＡおよびトランスクリプトームに取り付けることが可能である。標的配列決定のため、またはアンプリコン配列決定のため、バーコード配列をＰＣＲプライマーに埋め込む方法もある。

アダプターの制限酵素部位への結合、およびその後のアダプタープライマーと単一遺伝子特異的プライマーによるＰＣＲ増幅は、本発明者らによりゲノムＤＮＡおよびＲＮＡに対して大規模に適用されている強力な技術である。本発明者らは、バーコードによる標的配列決定にもこの方法を用いた。この方法では、５、４、または３塩基の突出末端をもつ制限酵素を使用することができ、これらの集団は大部分のヒトゲノムをカバーしている。本発明者らは、ＩＩＳ型制限酵素によって生成する粘着末端の配列特異的ライゲーションを可能にする大腸菌ＤＮＡリガーゼを使用した。使用したアダプター配列は、個々の指標となる５つの塩基と、分子の指標となるＮ１２（最大で１．７×１０７の分子を区別する）を含む。図１Ａに２種類の結合方法を示す。１つ目の方法（左のルート）はバーコード鎖の線形増幅と、その後のＰＣＲ増幅を含む。線形増幅は、ＰＣＲの最初のラウンドにおけるエラーを最小化することが期待される。２つ目の方法（右のルート）では、付加されたバーコードの相補鎖を置換合成することにより、両方の鎖を同じバーコードで標識する。その後の分析には、本発明者らはまずＩｏｎＰｒｏｔｏｎシーケンサーを用いて１つ目の方法を実施した。また本発明者らは、標的領域として７つの領域によりカバーされるＴＰ５３のＤＮＡ結合ドメインを選択した（図１Ｂ）。

（ＩｏｎＴｏｒｒｅｎｔシステムにおけるエラーバーコードタグのモニタリングおよび除去）
５〜４０ｎｇのゲノムＤＮＡを使用して、ＴＰ５３の７領域のうちの４つをシーケンスした。バーコード配列タグの数と、同じバーコード配列タグによってグループ化したリード数（タグあたりのリード）との関係の例を図２Ａに示した。この実験では、インプットＤＮＡはゲノムの約１０，０００コピーに相当するが、タグの総数は４００，０００を超えた。これらのタグの大部分は単一のリードを含むリード数の小さいものであった。しかし、この対応するリード数は、得られたリード全体のごくわずかな量でしかない（図２Ｂ）。このような現象は以前の研究でも観察されている。

挿入／欠失エラーは、ＩｏｎＴｏｒｒｅｎｔＰＧＭ／Ｐｒｏｔｏｎによるシーケンスにおけるエラーの大多数（＞９０％）を占める。従って、リードエラーによって生成したタグは、タグの大きさを用いて検出することが可能である。観察されたタグの割合を大きさによって分類したものを図２Ｃに示した。１２ｂｐではないタグ（つまり、エラーのあるタグ）はタグあたりのリード数の小さいタグの大多数を占め、タグあたりのリード数が増加するにつれて、１２ｂｐタグの割合は段階的に増加した。この動態は、エラータグがリード数の小さい分画にあつまり、適切な閾値を決めることにより除外し得ることを示唆している。リード数の利用率を向上させるため、適合する１２ｂｐタグに対して単一の挿入または欠失塩基が存在する以外は１２ｂｐタグの配列と合致する１１ｂｐおよび１３ｂｐタグを１２ｂｐタグにまとめて分類した。リード数に対して１２ｂｐタグの割合をプロットしたものを図２Ｄに示す。その付近の１１ビンにおける１２ｂｐタグの割合の平均が９０％を超える最小値のビンを、エラータグを除外するための閾値として定めた。得られた１２ｂｐタグの割合は修正した割合の９５％を超え、より厳しい閾値を設定した場合でもほとんど改善しなかった。図３Ａに示す通り、この閾値は２つのピークを分断している。また選択する閾値は、全リード数や標的領域（１１〜２４９（図２Ｅのデータポイントについて））および５７〜４８５（図２Ｆのデータポイントについて））などの要因に応じて変化し得るものである。このプロセスにより全リードの１０〜２０％を破棄する（図３Ｂ）。

タグあたりリード数の小さい領域における１２ｂｐタグの中には複数の挿入／欠失エラーにより１２ｂｐに戻った配列を含むことがあるため、１２ｂｐタグをカウントすることによって、除去されたエラーのないタグの数を推定することはできなかった。図２Ａの右側のピークがエラーのないタグの分布のピークを表すため、その分布の尾部に対応する分画を除去していることになる。Ｍを閾値として定めた場合、閾値と０の間のエラーのないタグの数は、Ｍと２Ｍの間のタグ数を超えない。そのためＭと２Ｍの間の１２ｂｐタグの数に基づく、除去されたエラーのないタグの予想最大数は、全てのエラーのないタグの５〜１０％となった。

標的分子の数は網羅的なシーケンシングにより計測することが可能である。得られたタグ数は、５００，０００リードで飽和に達した（図２Ｅ）。推定標的分子数とインプットＤＮＡ量の間には相関関係が観察され、相関係数は０．９８より大きくなった（図２Ｆ）。ＴＫ１０３Ｄを除いてインプットＤＮＡの約４０％が回収され、ＴＫ１０３Ｄでは１５％の回収を示した。この算出は配列決定した分子の数に基いて行った。この算出結果の相違はライゲーションサイトにおけるライゲーション効率の違いによるものと思われる。

従来の研究では、リード数の小さいタグを除去するために任意の基準が採用されており、例えば単一のリードのタグを除去したりしていた。しかし、１または２リードタグを除去した場合かなりの量のエラータグの割合が残り、タグ数がインプットＤＮＡの量から推定される標的分子数を上回ってしまう。タグ数はリードの追加によって増加し、飽和に達せず、これは新しいエラータグの生成を示唆している。

（Ｉｌｌｕｍｉｎａシステムにおけるエラーバーコードタグのモニタリングおよび除去）
ＩｌｌｕｍｉｎａシーケンサーのリードエラーはＩｏｎＴｏｒｒｅｎｔＰＧＭ／Ｐｒｏｔｏｎシーケンサーのものとは異なり、Ｉｌｌｕｍｉｎａの場合には塩基置換がその主なエラーとなっている。しかし、バーコードタグの分布パターンはいずれのシーケンシングシステムを用いた場合であっても同様のものとなった（図４Ａ）。そこでＩｌｌｕｍｉｎａシーケンサーに対応するため、本発明者らは、エラー検出用バーコードとして配列「ＢＤＨＶＢＤＨＶＢＤＨＶＢＤＨ」を用いた。つまり、各塩基部位は４種類の塩基のうちの１つを欠いており、その存在しないはずの塩基が出現する場合にはそれはリードエラーを示すこととなる。エラーのあるタグの総数は、存在しないはずの塩基を有するタグの数を３倍することによって得られる（図５Ａ、図４Ｃ）。そして、上述したようにエラーのないタグの分布から、エラーのあるタグを除去するための閾値を決定した。Ｉｌｌｕｍｉｎａシーケンサーで得られた結果は、ＩｏｎＰｒｏｔｏｎシーケンサーを使用して得られた結果と同様のものとなった。つまり、１０％のリードが除去され（図４Ｂ）、閾値は１５〜６５の間で変化した（図５Ｂのデータポイントについて）。この場合タグの数は網羅的なシーケンシングにより飽和したが（図４Ｄ）、１または２リードタグを除去する従来の基準では連続的に増加した（図４Ｅ）。標的分子数の推定値とインプットＤＮＡの量との間に相関関係が観察された（図５Ｂ）。

（個々の分子由来のリードのコンセンサスを構築することによる精度の向上）
バーコードタグを使用して、単一分子から生成した複数の配列のコンセンサスをグループ化および構築することにより、高精度のシーケンシングが可能となる。この方法の精度を図６に示した。２つのＤＮＡポリメラーゼ（ＮＥＢのＱ５ＤＮＡポリメラーゼおよびＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓのＰｌａｔｉｎｕｍＴａｑＤＮＡポリメラーゼＨｉｇｈＦｉｄｅｌｉｔｙ）を比較したが、バーコードタグを用いた場合には顕著な差異は確認できなかった（図６）。両方の鎖を同じバーコード配列でラベルする２つ目の方法では、１つの鎖をラベルする方法と比べて精度が改善することはなかった（図６）。１つ目の方法はＰＣＲの前に線形増幅サイクルを施しており、これによりＰＣＲサイクルの初期におけるエラーを最小化させている。１つ目の方法のほうが実験操作が単純であることから、２つ目のバーコード連結方法よりも１つ目のバーコード連結方法のほうが有用なものとなっていると考えられる。

Ｉｌｌｕｍｉｎａシステムを用いた１つ目のバーコード連結方法の精度は、１．８×１０−６（９５％信頼区間、３．５×１０−８〜６．９×１０−６）であった。

その他、本発明は、さまざまに変形可能であることは言うまでもなく、上述した一実施形態に限定されず、発明の要旨を変更しない範囲で種々変形可能である。

Claims

核酸塩基配列を決定する際に生じるリードエラーを検出することによって高精度に核酸分子数を計測する方法であって、
複数の核酸分子の混合物にバーコード配列生成オリゴヌクレオチドを加えることにより、各核酸分子を構成する塩基配列に、当該核酸分子に固有のバーコード配列を連結する工程と、
前記バーコード配列を連結した核酸分子の塩基配列を決定する工程と、
塩基配列を決定したバーコード配列のリードエラーを検出する工程と、
前記塩基配列を決定したバーコード配列のリード数に基いて、塩基配列を決定した全バーコード配列のうち、当該バーコード配列にリードエラーが存在しないものの割合を算出する工程と、
を有し、前記バーコード配列生成オリゴヌクレオチドは最多で５種類の塩基からなり、リードエラーが存在しないバーコード配列の数が前記混合物における核酸分子数を示す、方法。
請求項１記載の方法であって、さらに、前記塩基配列を決定したバーコード配列のリード数毎に前記算出した割合をプロットする工程を有する、方法。
請求項２記載の方法であって、さらに、前記プロットする工程によって得られたグラフに基いて、所定の閾値以下のリード数を有するバーコード配列を除去する工程を有する、方法。
請求項１記載の方法において、前記検出する工程は、塩基配列を決定したバーコード配列毎の塩基長または塩基配列を解析することによって行われる、方法。
請求項１記載の方法において、前記バーコード配列生成オリゴヌクレオチドの長さは５〜２０塩基である、方法。
請求項５記載の方法において、前記バーコード配列生成オリゴヌクレオチドの長さは１２塩基である、方法。
請求項１記載の方法において、前記バーコード配列生成オリゴヌクレオチドは、その配列中に１またはそれ以上の他の塩基配列を有する、方法。
請求項１記載の方法において、前記バーコード配列生成オリゴヌクレオチド中の塩基は、塩基部位毎に独立して２つまたは３つの種類の塩基から選択される、方法。
請求項８記載の方法において、前記検出する工程は、塩基配列を決定したバーコード配列の塩基部位毎に、前記バーコード配列を構成しない塩基を検出することによって行われる、方法。
請求項１記載の方法において、前記バーコード配列は、前記バーコード配列生成オリゴヌクレオチドを含むアダプターを、前記核酸分子を構成する塩基配列に付加し、アダプタープライマーと前記核酸分子を構成する塩基配列に特異的なプライマーとを用いて前記アダプターを付加した核酸分子を増幅させることによって、前記核酸分子を構成する塩基配列に連結される、方法。
請求項１記載の方法において、前記核酸分子を構成する塩基配列は粘着末端を有する、方法。
請求項１記載の方法において、前記核酸分子を構成する塩基配列は平滑末端を有する、方法。
請求項１記載の方法において、前記リードエラーは塩基配列の挿入、欠失または塩基置換である、方法。
請求項１記載の方法であって、さらに、
塩基配列を決定したバーコード配列に基いて、同じバーコード配列を有する核酸分子のコンセンサス配列を決定する工程と、
前記コンセンサス配列に基いて、塩基配列を決定した核酸分子の塩基配列におけるリードエラーを検出する工程と、
前記リードエラーを有する核酸分子を除外する工程と
を有する、方法。
請求項１４記載の方法であって、さらに、前記コンセンサス配列に基いて、塩基配列を決定した核酸分子の塩基配列における突然変異を検出することにより、突然変異を有する核酸分子数を計測する工程を有する、方法。