JP2019193612A

JP2019193612A - 高精度シーケンシング方法

Info

Publication number: JP2019193612A
Application number: JP2018168288A
Authority: JP
Inventors: 奨士松村; Shoji Matsumura; 平行佐藤; Hirayuki Sato; 裕紀大坪; Yuki Otsubo
Original assignee: Kao Corp
Current assignee: Kao Corp
Priority date: 2018-04-27
Filing date: 2018-09-07
Publication date: 2019-11-07
Anticipated expiration: 2038-09-07
Also published as: EP3784801B1; JP7212720B2; JP6898282B2; EP3784801A1; JP2021126125A

Abstract

【課題】高精度なシーケンシング方法の提供。【解決手段】以下を含むＤＮＡのシーケンシング方法:（１）サンプルＤＮＡの断片を調製すること；（２）該サンプルＤＮＡの断片をＰＣＲにかけてＰＣＲ産物を得ること、ここで、該サンプルＤＮＡの断片の各々について２つ以上の増幅断片が作製される；（３）得られたＰＣＲ産物をシーケンシングし、該ＰＣＲ産物に含まれる複数の増幅断片の各々について１つ以上のリード配列を作成し、該複数の増幅断片についての複数のリード配列を得ること；（４）得られた複数のリード配列の中から、該サンプルＤＮＡ上の同一領域の配列情報を有するリード配列を集めてグループ化することにより、リード配列のグループを１つ以上作成すること；（５）該リード配列のグループに含まれるリード配列の間で配列情報のコンセンサスを取ること。【選択図】なし

Description

本発明は、ＤＮＡのシーケンシング方法、及びこれを用いた変異解析方法に関する。

近年、次世代シーケンシング（ＮＧＳ）の技術が著しい発展をとげ、ゲノムＤＮＡのシーケンシング等に汎用されている（非特許文献１）。例えばがん細胞のゲノム変異解析では、ＮＧＳは特定の遺伝子領域に絞った解析だけでなく、従来では困難だったゲノム全体の変異の解析を可能にし、様々な新しい知見を生み出している（非特許文献２、３）。

これまでに様々なシーケンサーが開発されており、代表的なものとしてイルミナ社のシーケンサーであるＨｉＳｅｑやＭｉＳｅｑがある。これらシーケンサーでは解析対象となる細胞、組織等のＤＮＡ断片を数百ｂｐの大きさに細かく断片化し、この断片配列の配列情報（リード配列）を同時並行で大量に取得してデータ解析に使用する。これらのリード配列一つ一つの読み取り精度はそれほど高くないものの、複数の細胞に由来するリード配列を集め、集めた複数のリード配列の間で高確率に出現する塩基情報を取得することで、ゲノム配列上の同一箇所を複数回シーケンシングし、高精度のシーケンシングが可能になる。得られたシーケンシングデータは、ヒトの一塩基多型やがん細胞の遺伝子変異の同定等の変異解析に利用することができる。

一方で、上記のようなシーケンシング手法で検出できる変異は、一塩基多型や、がん細胞の変異のような、解析対象となる細胞集団内で比較的多くの細胞に共通して含まれている変異である。ＮＧＳでの個々のリード配列におけるエラー頻度は約１／１０^３ｂｐと言われていることから、これを下回るような低頻度（例えば０．１％以下）でしか含まれない変異を正確に同定することは、上記のようなシーケンシング手法では通常困難である。このような低頻度な変異の事例として、がん組織中の少数の細胞集団しか有していない稀な変異や、あるいは、解析対象の細胞集団が環境変異原等に暴露されたことによって、集団中の個々の細胞に独立に生じた変異等が挙げられる。これまで、これら低頻度な変異の解析にＮＧＳが用いられた例は少ない。しかし、低頻度な変異をＮＧＳで大規模に同定することが可能になれば、がんの早期発見や、化学物質等の変異原の毒性評価法として適用可能であることが考えられる。また、ヒトの個々の細胞が有する変異を網羅的に解析することで、対象のヒトがそれまでに暴露された環境変異原を推定し、がんの予防に役立てられるなどの様々な応用が期待できる。

低頻度な体細胞変異は、単離した単一細胞を解析することによって同定可能であることが報告されている。例えば、Ｇｕｎｄｒｙらは、マウス等の細胞に変異原物質を暴露後、単一の細胞を全ゲノムシーケンシングすることによって、化学物質による変異を同定している（非特許文献４）。しかし、この手法には、単離培養の難しいがん組織には適用が困難な場合があることや、細胞の単離の手間が発生してしまうこと、また単一細胞由来の変異情報しか得ることができないなどの課題があった。

そこで、単一細胞の単離を介さず、個々のＤＮＡ断片のシーケンシング精度を高めることによって、細胞集団中に含まれる稀な変異を正確に同定するシーケンシング方法が報告されている。広く用いられる方法として、イルミナ社のシーケンサーにおいて、ペアエンドシーケンシングで得られたリードペアを重ね合わせる方法がある（非特許文献５）。これは、各断片について得られるリードペアの双方のコンセンサスを取ることによって、シーケンシング精度を高めることが可能な方法である。

しかし、ＮＧＳでのエラーには、ライブラリ調製や保存の過程で解析対象のＤＮＡに生じる酸化修飾等を原因とするエラーがある（非特許文献６、７）。これらのエラーは、上述のリードペアを重ね合わせる方法では除くことが難しい。そこで、ＤＮＡの相補的な２本鎖それぞれについてのシーケンシング情報を用いることで、エラーか真の変異かを見分ける方法が開発されている（非特許文献８〜１０、特許文献１）。ＤＮＡの酸化修飾は、基本的にＤＮＡ２本鎖のうち片方の鎖だけに起こるため、ＤＮＡの２本の相補鎖それぞれについてのシーケンシング情報を用いることで、２本鎖に固定された真の変異のみを同定することが可能となる。例えば、ＤｕｐｌｅｘＳｅｑｕｅｎｃｉｎｇ法（非特許文献８、特許文献１）においては、各ＤＮＡ断片に１２ｂｐからなる断片固有のタグ配列を付加し、ＰＣＲ増幅及びシーケンシングを行い、シーケンシング後に該タグ配列を参照して同一のＤＮＡ断片を構成する２本の相補鎖に由来するリード配列を集めた後、それら相補鎖間のコンセンサスを取ることでシーケンシング精度を高める。また、ＰａｃｉｆｉｃＢｉｏＳｃｉｅｎｃｅ社のシーケンサーを用いたＳＭＲＴｂｅｌｌＴｅｍｐｌａｔｅ法（非特許文献１０）も相補鎖の情報を用いてシーケンシング精度を高めることができる。

しかし、上述した相補鎖情報を利用する既存の方法は、ライブラリ調製にＤＮＡ断片固有のタグ配列を付加するなど、特殊なライブラリ調製法を必要とするか、あるいは、ＳＭＲＴｂｅｌｌＴｅｍｐｌａｔｅ法のように特定のシーケンサーのみでしか実施できない。そのため、上述の方法は、広く一般的に実施可能な方法として認知されているとは言い難い。一方で、理論上のみではあるが、上記のようなＤＮＡ断片固有のタグ配列を付加することなく、ＤＮＡ断片自体の部分配列を指標として同じＤＮＡ領域に由来する配列を集める方法が開示されている（特許文献２）。このアプローチは、ライブラリ調製の手順を簡略化でき、またシーケンサーの種類に依存しないため、汎用性に優れると考えられる。しかしながら、ＤＮＡ断片固有のタグ配列を付加しない場合、異なるＤＮＡ断片に由来する配列情報を同一断片の情報として誤認識するリスクがあることが指摘されている（特許文献１）。

国際公開公報第2013/142389号国際公開公報第2012/142213号

Schendure & Ji, Nature Biotechnology, 26(10):1135-1145, 2008 Stratton, Science, 331:1553-1558, 2011 Alexandrov et al., Cell Reports, 3:246-259, 2013 Gundry et al., Nucleic Acid Research, 40(5):2032-2040, 2012 Zhang et al., Bioinformatics, 30(5):614-620, 2014 Costello et al., Nucleic Acid Research, 41(6):e67, 2013 Shibutani et al., Nature, 349:431-434, 1991 Schmitt et al., PNAS, 109(36):14508-14513, 2012 Gregory et al., Nucleic Acid Research, 44(3):e22, 2016 Travers et al., Nucleic Acid Research, 38(15):e159, 2010

高精度シーケンシング方法を化学物質の毒性評価法や特定の個人の変異解析などに適用するにあたり、その手順の簡略化は有用である。本発明は、より簡便に高い読み取り精度を実現することができるシーケンシング方法を提供する。さらに本発明は、該シーケンシング方法の最適条件と適用可能条件を提供する。

本発明は、ＤＮＡのシーケンシング方法であって、
（１）サンプルＤＮＡの断片を調製すること；
（２）該サンプルＤＮＡの断片をＰＣＲにかけてＰＣＲ産物を得ること、ここで、該サンプルＤＮＡの断片の各々について２つ以上の増幅断片が作製される；
（３）得られたＰＣＲ産物をシーケンシングし、該ＰＣＲ産物に含まれる複数の増幅断片の各々について１つ以上のリード配列を作成し、該複数の増幅断片についての複数のリード配列を得ること；
（４）得られた複数のリード配列の中から、該サンプルＤＮＡ上の同一領域の配列情報を有するリード配列を集めてグループ化することにより、リード配列のグループを１つ以上作成すること、ここで、該１つ以上のグループは、平均で１．０５〜３０個のリード配列を含む；
（５）該リード配列のグループに含まれるリード配列の間で配列情報のコンセンサスを取ること、
を含む、方法を提供する。

また本発明は、ＤＮＡのシーケンシング方法であって、
（１）サンプルＤＮＡの断片を調製すること；
（２）該サンプルＤＮＡの断片をＰＣＲにかけてＰＣＲ産物を得ること、ここで、該サンプルＤＮＡの断片の各々について２つ以上の増幅断片が作製され、該ＰＣＲでの初期ＤＮＡ量は、該サンプルＤＮＡのサイズ１Ｍｂｐあたり２５０ａｍｏｌ以下である；
（３）得られたＰＣＲ産物をシーケンシングし、該ＰＣＲ産物に含まれる複数の増幅断片の各々について１つ以上のリード配列を作成し、該複数の増幅断片についての複数のリード配列を得ること；
（４）得られた複数のリード配列の中から、該サンプルＤＮＡ上の同一領域の配列情報を有するリード配列を集めてグループ化することにより、リード配列のグループを１つ以上作成すること；
（５）該リード配列のグループに含まれるリード配列の間で配列情報のコンセンサスを取ること、
を含む、方法を提供する。

さらに本発明は、ゲノムＤＮＡの変異を検出する方法であって、
細胞中のゲノムＤＮＡをサンプルＤＮＡとして用いて、前記ＤＮＡのシーケンシング方法を実施し、配列データを作成すること；該配列データを参照配列と比較して、該配列データと該参照配列とで塩基がマッチしない部位を変異部位として検出すること、ここで該参照配列は、該ゲノムＤＮＡ中の既知配列である、
を含む、方法を提供する。

本発明の方法によれば、当該分野で広く実施されるシーケンシングの手順とほぼ同等のライブラリ調製及び実験操作で、同一のＤＮＡ断片に由来する配列情報や、さらには該断片を形成する相補鎖の配列情報を集めて、これらの配列情報を用いたシーケンシングを実施することができる。本発明の方法では、同一のＤＮＡ断片や相補鎖の配列情報を集めるために、従来のシーケンシング法のように個別のＤＮＡ断片に固有のタグ配列による個別のＤＮＡ断片の標識を行う必要がない。本発明の方法は、従来法に比べて技術の簡便さ、及び汎用性に優れる。

ＰＣＲでの初期ＤＮＡ量の異なるライブラリについての１０Ｇｂｐシーケンシングデータ（コントロール群）における、推定フラグメントについてのグループあたりのリードペア数の分布。横軸はグループあたりリードペア数、縦軸は各リードペア数を有するグループの数を表す。各曲線は、初期ＤＮＡ量の異なるライブラリのデータを表す。ＰＣＲでの初期ＤＮＡ量の異なるライブラリについての１０Ｇｂｐシーケンシングデータ（ＥＮＵ群）における、推定フラグメントについてのグループあたりのリードペア数の分布。横軸はグループあたりリードペア数、縦軸は各リードペア数を有するグループの数を表す。各曲線は、初期ＤＮＡ量の異なるライブラリのデータを表す。ＰＣＲでの初期ＤＮＡ量の異なるライブラリについての１０Ｇｂｐシーケンシングデータの解析効率。Ａ：コントロール群、Ｂ：ＥＮＵ群。ＰＣＲでの初期ＤＮＡ量の異なるライブラリについての２Ｇｂｐシーケンシングデータ（コントロール群）における、推定フラグメントについてのグループあたりのリードペア数の分布。横軸はグループあたりリードペア数、縦軸は各リードペア数を有するグループの数を表す。各曲線は、初期ＤＮＡ量の異なるライブラリのデータを表す。ＰＣＲでの初期ＤＮＡ量の異なるライブラリについての２Ｇｂｐシーケンシングデータの解析効率。ＰＣＲでの初期ＤＮＡ量の異なるライブラリについての１０Ｇｂｐシーケンシングデータの重なり率。Ａ：コントロール群、Ｂ：ＥＮＵ群。ＰＣＲでの初期ＤＮＡ量の異なるライブラリ（２００００〜１５６ａｍｏｌ）についての１０Ｇｂｐシーケンシングデータから算出した、コントロール群及びＥＮＵ群でのゲノム変異頻度。ＰＣＲでの初期ＤＮＡ量の異なるライブラリ（１５６〜５ａｍｏｌ）についての１０Ｇｂｐシーケンシングデータから算出した、コントロール群及びＥＮＵ群でのゲノム変異頻度。ＡＴ塩基対に塩基対置換型変異を導入した１０００ｂｐ合成ＤＮＡにおける各塩基対変異パターンの変異頻度。ＰＣＲ初期ＤＮＡ量の違いによる重なり率の変化。横軸はＰＣＲ初期ＤＮＡ量。Control：対照サンプル、Mutation：変異サンプル。実施例２の１０Ｇｂｐシーケンシングデータ（コントロール群）からのコンセンサスリード配列の作成効率。横軸はグループあたりリードペア数、縦軸は全リードペア数に対するコンセンサスリード配列の割合を表す。実施例５のライブラリＮｏ．１における推定フラグメントについてのグループあたりのリードペア数の分布。各曲線はマウス各染色体についてのデータを表す。横軸はグループあたりリードペア数、縦軸は各リードペア数を有するグループの数を表す。マウスＤＮＡにおける塩基対置換変異の頻度。

（１．定義）
本明細書において、「変異（又は突然変異）」（mutation）とは、ＤＮＡに生じる突然変異をいい、例えば、ＤＮＡにおける塩基又は配列の欠失、挿入、置換、付加、逆位、及び転座が挙げられる。本明細書における変異は、１塩基の欠失、挿入、置換、付加、ならびに２以上の塩基からなる配列の欠失、挿入、置換、付加、逆位、及び転座を包含する。また本明細書における変異には、遺伝子のコード領域及び非コード領域における変異が含まれ、また発現するアミノ酸の変化を伴う変異及び伴わない変異（サイレント変異）が含まれる。

本発明において評価される物質の「遺伝毒性」とは、該物質が変異を引き起こす性質（いわゆる変異原性）をいう。

本明細書において、「参照配列」とは、解析の対象であるＤＮＡ中に含まれる既知の配列である。当該既知の配列としては、公共のデータベース等に登録されている配列を使用することが好ましいが、予めシーケンサー等で配列決定した解析対象ＤＮＡ中の配列であってもよい。該参照配列の領域や長さ、その数は特に限定されず、解析の目的に応じてＤＮＡ中から適宜選択され得る。

本明細書において、ＰＣＲで得られる「増幅断片」とは、鋳型ＤＮＡのＰＣＲ増幅により得られた２本鎖ＤＮＡ断片をいう。

本明細書において、ＤＮＡ又はその断片に関する「２本の相補鎖」とは、２本鎖のＤＮＡ又はその断片を構成する互いに相補的な２本の一本鎖をいう。

本明細書において、「生リード配列」とは塩基配列のシーケンシングにより読み出された配列情報をいう。また、本明細書において、「リード配列」とは、生リード配列に対して、ＰＣＲやシーケンシング反応のために付加したアダプター配列やクオリティの低い塩基等のトリミングなどを行って、生リード配列からシーケンシング対象である塩基配列の情報を取り出したものをいう。ただし、上記のトリミング等の必要がない場合、生リード配列をそのままリード配列として用いることも可能である。また、生リード配列にシーケンシング対象塩基配列の配列情報が複数含まれる場合、それら個々のシーケンシング対象塩基配列の配列情報を個々のリード配列として取り出すことができ、その場合１つの生リード配列から１つ以上のリード配列が作成され得る。したがって基本的には、本明細書におけるリード配列は、サンプルＤＮＡ断片にアダプター配列等が付加される場合でも、該アダプター配列等の配列情報を含まず、サンプルＤＮＡ断片に由来する塩基配列の情報のみを含む。リード配列は、シーケンシング対象である塩基配列（例えば、サンプルＤＮＡ断片の塩基配列）のいずれかの末端の塩基から始まる塩基配列の情報を有する。リード配列の長さは、通常、シーケンサーの性能や仕様に依存する。したがって、リード配列は、場合によっては、シーケンシング対象である塩基配列の一方の末端の塩基から他方の末端の塩基までの配列（全配列）の情報を有していてもよいが、必ずしもその必要はない。

本明細書において、リード配列の「先頭」及び「末尾」とは、それぞれ、該リード配列の作成時に最初に読み取られた末端、及び最後に読み取られた末端をいう。本明細書において、リード配列に関する「配列の向き」とは、該リード配列をマッピングしたＤＮＡ配列における該リード配列の先頭から末尾への方向をいう。

本明細書において、２個以上のリード配列が「サンプルＤＮＡ上の同一領域の配列情報を有する」とは、サンプルＤＮＡの配列（又は参照配列）上においてそれらのリード配列の両末端が配置すると推定される位置が同一であることをいう。該「サンプルＤＮＡ上の同一領域の配列情報を有する」とは、該２個以上のリード配列が１００％配列同一であることを要求しないが、一方、両末端が配置すると推定される位置が１ｂｐでも異なるリード配列は、「サンプルＤＮＡ上の同一領域の配列情報を有する」ものではない。

本明細書において、２個以上のリード配列が「参照配列上の同一の位置にマッピングされる」とは、参照配列にマッピングしたときに、それらのリード配列の先頭と末尾の位置がそれぞれ、参照配列上で同一の位置に配置されることをいう。

本明細書において、「リードペア」とは、１つのシーケンシング対象配列から読み取られた２本のリード配列のペアをいう。リードペアに含まれる該２本のリード配列の一方は、該対象配列を５’末端側から３’側へ読んだ配列に相当する配列情報を含むリード配列（本明細書において「リード１」と称する）であり、他方は、同じ一方の鎖の配列を３’末端側から５’側へ読んだ配列に相当する配列情報を含むリード配列（本明細書において「リード２」と称する）である。

本明細書において、ＤＮＡ、配列又は断片の「リード１の先頭とリード２の先頭とに挟まれる領域」とは、リード１とリード２をマッピングした該ＤＮＡ、配列又は断片における、リード１の先頭が配置される部位とリード２の先頭が配置される部位までの領域（リード１の先頭が配置される部位とリード２の先頭が配置される部位とを含む）をいう。

本明細書において、２個以上のリードペアが「サンプルＤＮＡ上の同一領域の配列情報を有する」とは、それらのリードペアの間で、サンプルＤＮＡ配列（又は参照配列）上の「リード１の先頭とリード２の先頭とに挟まれる領域が同一」であることを意味する。２個以上のリードペアが「サンプルＤＮＡ上の同一領域の配列情報を有する」とき、それらのリードペア間でリード配列が１００％配列同一であることは必ずしも要求されない。一方、該「リード１の先頭とリード２の先頭とに挟まれる領域」の末端の位置が１ｂｐでも異なるリードペアは、「サンプルＤＮＡ上の同一領域の配列情報を有する」ものではない。

本明細書中で引用された全ての特許文献、非特許文献、及びその他の刊行物は、その全体が本明細書中において参考として援用される。

（２．ＤＮＡのシーケンシング方法）
本発明は、高精度なＤＮＡのシーケンシング方法を提供する。基本的には、本発明によるＤＮＡのシーケンシング方法は、サンプルＤＮＡの断片を取得すること；該サンプルＤＮＡの断片をＰＣＲにかけてＰＣＲ産物を得ること；得られたＰＣＲ産物をシーケンシングし、該ＰＣＲ産物に含まれる各サンプルＤＮＡ断片由来の複数の増幅断片の各々について１つ以上の読み取り結果（リード配列）を作成し、複数の増幅断片についての複数のリード配列を得ること；該シーケンシングで得られたリード配列の中から、該サンプルＤＮＡ上の同一領域の配列情報を有するリード配列を集めること；集めたリード配列の情報を用いて、該サンプルＤＮＡの配列情報を構築すること、を含む。

（２−１）サンプルＤＮＡ断片の調製及びＰＣＲ
本発明によるＤＮＡのシーケンシング方法で用いられる「サンプルＤＮＡ」は、２本鎖ＤＮＡであればよく、その由来は動物、植物、微生物などを含み、特に限定されない。該サンプルＤＮＡの種類としては、ゲノムＤＮＡ、ミトコンドリアゲノムＤＮＡ、葉緑体ゲノムＤＮＡ、プラスミドＤＮＡ、ウイルスゲノムＤＮＡ、合成ＤＮＡなどが挙げられ、限定されないが、ゲノムＤＮＡが好ましい。これらサンプルＤＮＡは、細胞から当該分野における通常の方法を用いて抽出又は単離することによって取得することができる。該抽出又は単離には、例えば、市販のＤＮＡ抽出キットなどを用いることができる。あるいは、細胞から抽出又は単離後保存されているＤＮＡを取得し、本発明の方法で使用してもよい。合成ＤＮＡは、公知の化学合成法により合成することができる。

あるいは、本発明の方法では、２本鎖ＤＮＡの代わりに、２本鎖ＲＮＡを用いてもよい。２本鎖ＲＮＡは、それを保有するウイルスや細胞などから、市販のＲＮＡ抽出キットなど、当該分野における通常の方法で抽出又は単離することができる。あるいは、抽出又は単離後保存されている２本鎖ＲＮＡを取得し、本発明の方法で使用してもよい。本発明の方法においてＲＮＡを取得および解析する場合、取得されたＲＮＡはＰＣＲ前にｃＤＮＡに変換され、該ｃＤＮＡ由来のリード配列の塩基Ｔは塩基Ｕと読み替えられる。

ＤＮＡの断片は、超音波処理、酵素処理など、切断箇所がランダムになる当該分野における通常の方法を用いて調製することができる。ＤＮＡの断片化の具体的な例としては、コバリス社のＤＮＡＳｈｅａｒｉｎｇシステムなどを用いた集中超音波処理やイルミナ社のＮｅｘｔｅｒａテクノロジーなどを用いたトランスポゾン及びトランスポゼース処理が挙げられる。調製する断片の長さは、シーケンサーが精度よく読み取れる長さに応じて適宜選択され得る。一般的には、１００〜１０，０００ｂｐが選択され得るが、シーケンサーが精度よく読み取れる限りは１０，０００ｂｐ以上の長さの断片が調製されてもよく、シーケンサーの種類に依存してより適切な範囲が選択され得る。例えば、断片の増幅を行うシーケンシング反応用のシーケンサーにかける場合は、断片の長さは平均長１００〜１０００ｂｐが好ましく、平均長２００〜５００ｂｐがより好ましい。あるいは、より長い断片を調製し、これを後述するＰＣＲにかけ、シーケンシング反応に適切な長さのＰＣＲ産物を調製してもよい。

本発明の方法では、サンプルＤＮＡの断片をＰＣＲにかけてＰＣＲ産物を得る。ＰＣＲは、市販のＰＣＲ用試薬や機器を用いて、常法に従って行うことができる。あるいは、ＰＣＲ増幅装置を備えたシーケンサーを用いてもよい。サンプルＤＮＡの断片のＰＣＲ増幅をその工程に含む高スループットシーケンサーとしては、ＨｉＳｅｑ（イルミナ社製）、ＭｉＳｅｑ（イルミナ社製）などが上市されている。該ＰＣＲにおいては、鋳型として使用された該サンプルＤＮＡの断片の各々について、２つ以上の増幅断片がそれぞれ作製される。このとき、鋳型として用いたサンプルＤＮＡの断片の少なくとも一部の各々について２つ以上の増幅断片が調製されればよい。一方、該ＰＣＲで全部の鋳型サンプルＤＮＡの断片について２つ以上の増幅断片を得てもよいが、その必要はない。サンプルＤＮＡの断片のＰＣＲ増幅をその工程に含む高スループットシーケンサーでは、シーケンシング反応に用いるＰＣＲ産物量を一定量用いることがシーケンシング効率の点で推奨されている。そのため、ＰＣＲにかけるサンプルＤＮＡ量（ＰＣＲでの初期ＤＮＡ量）に応じてＰＣＲのサイクル数を変更し、ＰＣＲ産物量を推奨量にあわせることが好ましい。

（２−２）シーケンシング及びリード配列の作成
次いで、得られたサンプルＤＮＡ断片のＰＣＲ産物をシーケンシングにかける。ＰＣＲ産物のシーケンシングは、解析等に必要な部分、例えば後述する変異解析の場合、参照配列との配列比較に使用すべき部分について行えば足りる。例えば、その配列の少なくとも一部、好ましくは全体が、参照配列のＤＮＡ領域に対応する断片をシーケンシングすればよい。哺乳動物細胞等の場合には、エクソン領域等を選択的にシーケンシングしてもよい。領域の選択には、ＳｕｒｅＳｅｌｅｃｔ（アジレント・テクノロジー社製）等のキットが上市されている。

該シーケンシングにより、増幅断片についての生リード配列が取得される。該生リード配列から、ＰＣＲやシーケンシング反応のために付加したアダプター配列やクオリティの低い塩基等のトリミングなどを行ってサンプルＤＮＡ断片に由来する配列を取り出すことで、リード配列が作成される。あるいは、上記トリミング等の必要がない場合、生リード配列をそのままリード配列として用いてもよい。該生リード配列又はリード配列が作成される増幅断片は、該ＰＣＲ産物に含まれる増幅断片のうちの少なくとも一部である複数の増幅断片であればよい。一方、該ＰＣＲ産物に含まれる全増幅断片についてリード配列を取得してもよいが、その必要はない。該リード配列は、該複数の増幅断片の各々に対して１つ以上作成される。それらのリード配列は、該増幅断片（すなわちそれが由来するサンプルＤＮＡ断片）の２本の相補鎖のいずれかについての配列情報を有する。したがって、該ＰＣＲ産物のシーケンシングにより、複数のリード配列が得られる。なお、この段階で得られた該複数のリード配列を含むデータを、本明細書において「シーケンシングデータ」と呼ぶことがある。

（２−３）リード配列のグループ化
次いで、得られた複数のリード配列の中から、各リード配列の配列情報に基づいて、サンプルＤＮＡ上の同一領域の配列情報を有するリード配列を集める。集めたリード配列は、グループ化される。したがって、本発明の方法で作成される「リード配列のグループ」とは、サンプルＤＮＡ上の同一領域の配列情報を有するリード配列の集合であり、言い換えると、同一のサンプルＤＮＡ断片に由来すると推定されるリード配列の集合である。本発明の方法においては、通常、ＰＣＲにかけたサンプルＤＮＡ断片の数とシーケンシングデータの量に依存して、１つ以上のリード配列のグループが作成され得る。

本発明の方法の一実施形態においては、ＰＣＲ産物に含まれる１増幅断片に対して、１本以上のリード配列が作成され、得られたリード配列は上述のようにグループ化される。好ましい実施形態においては、上述したリード配列のグループの作成に利用されるリード配列は、元のサンプルＤＮＡ断片（すなわち該リード配列が由来する増幅断片の元となるサンプルＤＮＡ断片）の全配列の情報を有するリード配列である。シーケンシングで得られたリード配列の中から元のサンプルＤＮＡ断片の全配列の情報を有するリード配列を選抜する手順としては、リード配列の末尾の塩基の読み取り精度（クオリティ値）が高いリード配列を選別する方法、末端に標識配列を付加した増幅断片をシーケンシングし、該標識配列の情報の有無に基づいてリード配列を選別する方法、などが挙げられる。このうち、標識配列を用いた方法についてより具体的な手順の例を説明する：まず、サンプルＤＮＡ断片の両末端にそれぞれ異なる標識配列を付加し、これをＰＣＲ増幅することにより、両末端に該標識配列を含む増幅断片を調製する；得られた増幅断片をシーケンシングし、該増幅断片由来のリード配列と、それに付随する該標識配列の情報を取得する。該両末端の標識配列の両方の情報が付随するリード配列は、元のサンプルＤＮＡ断片の全配列の情報を有するリード配列とみなされる。別の例では、サンプルＤＮＡ断片の片方の末端に標識配列を付加し、これをＰＣＲ増幅して該標識配列を含む増幅断片を調製する；得られた増幅断片を、該標識配列のない末端の側からシーケンシングする。該標識配列の情報が付随するリード配列は、元のサンプルＤＮＡ断片の全配列の情報を有するリード配列とみなされる。ここで該標識配列の情報は、生リード配列から取得してもよく、又はシーケンシングプライマーの配列情報から取得してもよい。

集めたリード配列からリード配列のグループを作成する手段としては、例えば、参照配列上の同一の位置にマッピングされるリード配列を集める方法、少なくとも両末端領域の配列が同等であるリード配列を集める方法、などが挙げられる。なお、「少なくとも両末端領域の配列が同等」とは、アラインさせたリード配列が、少なくとも両末端領域において配列同一性が８０％以上、好ましくは９０％以上、より好ましくは９５％以上、さらに好ましくは９７％以上であり、かつ両末端が同じ位置にアラインすることをいう。該「末端領域」の長さは適宜選択することができ、例えば末端を含め、１０塩基以上、好ましくは１０〜３０塩基程度であればよい。あるいは、配列全体の同一性が８０％以上、好ましくは９０％以上、より好ましくは９５％以上、さらに好ましくは９７％以上であり、かつ両末端が同じ位置にアラインするリード配列を集めることで、リード配列のグループを作成してもよい。

（２−４）リード配列のグループからのサンプルＤＮＡ配列情報の抽出
次に、得られたリード配列のグループから、サンプルＤＮＡの配列情報を抽出する。詳細には、該リード配列のグループに含まれるリード配列の情報を用いて１つの配列データを導き出す。得られた配列データは、該グループのリード配列が由来する特定のサンプルＤＮＡ断片についてのコンセンサス配列を表す。

例えば、リード配列のグループに含まれるリード配列の間で配列情報のコンセンサスを取ることで、１つの配列データを作成することができる。リード配列間でのコンセンサスを取る具体的な手法としては、以下が挙げられる：リード配列をアライメントし、アライメントした全てのリード配列の対応する塩基が一致した場合にその塩基を“コンセンサス塩基”とする方法；リード配列をアライメントした後、配列上の各位置で最大の頻度で出現する塩基を決定し、“コンセンサス塩基”として抽出する方法；リード配列をアライメントした後、対応する位置にある塩基の中でシーケンサーでの読み取り精度（クオリティ値）の最も高い塩基を“コンセンサス塩基”として採用する方法；リード配列をアライメントした後、クオリティ値や塩基の出現頻度等を基に、確率論的に“コンセンサス塩基”を決定する方法；あるいは、これらを組み合わせた方法、など。

リード配列間でのコンセンサスを取る際には、リード配列のグループに含まれる全てのリード配列が用いられてもよいが、該グループ内の一部のリード配列のみが用いられてもよい。リード配列間でのコンセンサスを取ることにより、シーケンシングにおける読み取りエラーなどのエラーを除外することができるので、高精度な読み取り結果を得ることができる。得られた配列データは、サンプルＤＮＡの一領域の配列を示す最終的な配列データとして取得することができる。

（２−５）相補鎖情報に基づくシーケンシング
シーケンシングエラーを引き起こす、ＤＮＡの酸化修飾等による塩基の変更は、基本的にはＤＮＡ２本鎖のうち片方の鎖だけに起こる。したがって、ＤＮＡの２本の相補鎖それぞれについてのシーケンシング情報を用いることで、片方の鎖にのみ発生した塩基の変更を変異として検出することなく、２本鎖に固定された真の変異のみを同定することが可能となる。ＤＮＡの２本の相補鎖の配列は、相補的であるものの、互いに等価の情報を有する。従って理論上は、シーケンシングで得られたリード配列の中から等価の情報を有する配列を探すことにより、相補鎖の情報を得ることが可能である。例えば、ある生物種のゲノム配列からサンプルＤＮＡを調製した場合、サンプルＤＮＡ断片を構成する２本の相補鎖それぞれに由来する読み取り領域が同一である２つのリード配列は、解析対象となる生物種の参照配列にマッピングした場合には、ゲノムの同一箇所にマッピングされる。したがって、ゲノムの同一箇所にマップされ得るリード配列を集めて、それらリード配列をその由来する相補鎖によって選抜することで、２本の相補鎖のそれぞれに由来するリード配列を取得することができる。さらにそれら２本の相補鎖に由来するリード配列間でのコンセンサスをとることにより、相補鎖の情報を反映させた高精度なリード情報を得ることが可能である。

したがって、本発明の一実施形態では、相補鎖情報を用いたＤＮＡのシーケンシング方法を提供する。当該方法では、上記（２−２）で述べたＰＣＲ産物のシーケンシングの際に、各サンプルＤＮＡ断片を構成する２本の相補鎖の各々に対してリード配列を作成する。より詳細には、該ＰＣＲ産物のシーケンシングにより該ＰＣＲ産物に含まれる該複数の増幅断片の各々についてのリード配列を作成する際に、各サンプルＤＮＡの断片を構成する２本の相補鎖の各々に由来する増幅断片に対して、それぞれ１つ以上のリード配列が作成される。すなわち、１個のサンプルＤＮＡ断片に対して２つ以上のリード配列が取得され、それらのリード配列はそれらが由来するサンプルＤＮＡ断片の２本の相補鎖の一方及び他方についての配列情報を有する。

次いで、得られた複数のリード配列から、１つ以上のリード配列のグループを作成する。リード配列のグループを作成する手段は、上記（２−３）で述べたとおりである。ここで得られるリード配列のグループには、特定のサンプルＤＮＡ断片についての２本の相補鎖の一方及び他方の配列情報を有するリード配列が含まれている。したがって、該リード配列のグループに含まれるリード配列の間で配列情報のコンセンサスを取ることにより、相補鎖の情報を反映させた配列データを作成することができる。リード配列間でのコンセンサスを取る具体的な手法は、上記（２−４）で述べたとおりである。リード配列間でのコンセンサスを取る際には、リード配列のグループに含まれる全てのリード配列が用いられてもよいが、該グループ内の一部のリード配列のみが用いられてもよい。

好ましくは、上記リード配列間でのコンセンサスを取る工程は、リード配列のグループの中から、サンプルＤＮＡ断片の２本の相補鎖の各々に由来するリード配列を少なくとも１つずつ集め、集めたリード配列の間で配列情報のコンセンサスを取ることを含む。これにより、相補鎖情報を用いたコンセンサスデータ（本明細書において「相補鎖間コンセンサスリード配列」ともいう）を得ることができる。得られた相補鎖間コンセンサスリード配列は、シーケンシングにおける読み取りエラーやＤＮＡ酸化修飾等に起因するエラーなどの片方の鎖にのみ生じるエラーが除外された高精度な読み取り結果であり、サンプルＤＮＡの一断片についての配列を示す最終的な配列データとして取得することができる。

リード配列のグループの中から、サンプルＤＮＡ断片の２本の相補鎖の各々に由来するリード配列を集める手順としては、例えば、以下の手順が挙げられる：予めサンプルＤＮＡ断片に２本の相補鎖を識別できる標識配列を付加することにより、該標識配列を含む増幅断片を調製する；次いで、該増幅断片をシーケンシングし、該増幅断片由来のリード配列と、それに付随する該標識配列の情報を取得する；得られたリード配列から、リード配列のグループを作成する；次いで、リード配列に付随する標識配列の情報を利用して、リード配列のグループの中から、互いに相補的な鎖に由来するリード配列を集める。

上記の手順において、サンプルＤＮＡ断片に標識配列を付加する場合、該標識配列は、各サンプルＤＮＡ断片の２本の相補鎖に由来するリード配列を互いに識別可能に標識する。一方、該標識配列は、該リード配列がいずれのサンプルＤＮＡ断片に由来するかを識別する必要はない。好ましくは、各サンプルＤＮＡ断片に付加される該標識配列は同一である。例えば、サンプルＤＮＡ断片を構成する２本の相補鎖の５’末端側と３’末端側にそれぞれ異なる標識配列を有するようにする。該増幅断片をシーケンシングすることで、該増幅断片由来のリード配列と、それに含まれる各リード配列に付随する該標識配列の情報を取得する。好ましくは、サンプルＤＮＡ断片の両鎖の間で５’末端側の標識配列は同一であり、両鎖の３’末端側の標識配列も同一であり、かつサンプルＤＮＡ断片の両端の標識配列の領域の両鎖は互いに相補的でない配列を含む。また好ましくは、各サンプルＤＮＡ断片の間で、該５’末端側の標識配列には共通の配列が使用され、かつ該３’末端側の標識配列にも共通の配列が使用される。結果、サンプルＤＮＡ断片を構成する２つの１本鎖は、それぞれ５’末端側及び３’末端側に異なる標識配列を有し得、かつ該５’末端側の標識配列と該３’末端側の標識配列は各１本鎖間で共通であり得る。このような、リード配列がサンプルＤＮＡ断片の２本の相補鎖のいずれに由来するかを識別可能にする標識配列の例としては、イルミナ社のＴｒｕＳｅｑに付属のアダプター配列が挙げられる。該標識配列が付加されたサンプルＤＮＡ断片から得られた増幅断片をシーケンシングすることで、該増幅断片由来のリード配列とそれに付随する該標識配列の情報を取得することができる。

次に、当該標識配列の情報を利用して、リード配列のグループの中から互いに相補的な鎖に由来するリード配列を集める際の好ましい手順を説明する。リード配列のグループに含まれるリード配列を参照配列にマッピングするとき、５’末端側の標識配列の情報が付随し、かつその先頭が末尾に対して参照配列上でより５’側に位置するリード配列と、３’末端側の標識配列の情報が付随し、かつその先頭が末尾に対して参照配列上でより３’側に位置するリード配列は、サンプルＤＮＡ断片の２本の相補鎖うちの同じ一本鎖に由来する。一方、３’末端側の標識配列の情報が付随し、かつその先頭が末尾に対して参照配列上でより５’側に位置するリード配列と、５’末端側の標識配列の情報が付随し、かつその先頭が末尾に対して参照配列上でより３’側に位置するリード配列は、サンプルＤＮＡ断片の２本の相補鎖うちのもう一方の一本鎖に由来する。したがって、参照配列にマッピングされたリード配列の参照配列に対する配置と、それに付随する標識配列の情報に基づいて、リード配列のグループ内の各リード配列がサンプルＤＮＡ断片を構成する２本の相補鎖のどちらに由来するかを識別することができる。あるいは、増幅断片の末端に特定の標識配列が付加しているときにのみ開始するシーケンシング反応を行うことにより、標識配列の情報に基づいて、サンプルＤＮＡ断片の特定の１本鎖に由来するリード配列を識別することができる。このようにサンプルＤＮＡ断片の同じ１本鎖に由来するリード配列を予め識別しておくことで、リード配列のグループの中から互いに相補的な鎖に由来するリード配列を集めることができる。

上述したリード配列のグループから相補鎖間コンセンサスリード配列を得る手順の具体的な例としては、リード配列のグループの中から、サンプルＤＮＡ断片の２本の相補鎖の各々に由来する２本のリード配列を選択し、それら２本のリード配列の間で配列情報のコンセンサスを取ることが挙げられる。さらに、該手順を繰り返して複数の相補鎖間コンセンサスリード配列を作成した後、さらにそれらの間でのコンセンサスを取り、１つの相補鎖間コンセンサスリード配列を作成してもよい。あるいは、該相補鎖間コンセンサスリード配列を得る手順の別の具体的な例としては、リード配列のグループに含まれるリード配列を、サンプルＤＮＡ断片の２本の相補鎖の一方に由来する群と他方に由来する群とに分け、各群のリード配列の間でコンセンサスを取り、得られた２つのコンセンサスデータの間でさらにコンセンサスを取り、１つの相補鎖間コンセンサスリード配列を作成することが挙げられる。あるいはサンプルＤＮＡ断片の２本の相補鎖に由来するリード配列を特に区別せず、リード配列のグループに含まれるリード配列の間でコンセンサスを取り、コンセンサスリード配列を作成することが挙げられる。

（２−６）リードペアを用いたサンプルＤＮＡ配列情報の抽出
本発明の方法の一実施形態においては、上記（２−２）で述べたＰＣＲ産物のシーケンシングの際に、ＰＣＲ産物に含まれる該複数の増幅断片の各々に対して１本のリード配列を作成する代わりに、２本のリード配列からなるリード配列のペア（すなわち「リードペア」）が１つ作成される。作成されたリードペアから、上記と同様の原理で、サンプルＤＮＡの配列情報が抽出される。

当該方法においては、ＰＣＲ産物のシーケンシングにより、各増幅断片に対して１つ以上のリードペアが作成される。また該１つ以上のリードペアの作成は、各サンプルＤＮＡ断片に由来する２つ以上の該増幅断片について行われる。それらのリードペアは、該サンプルＤＮＡ断片の２本の相補鎖のいずれかについての配列情報を有する。したがって、本実施形態においては、上述したＰＣＲ産物のシーケンシングで得られる複数のリード配列は、複数個のリードペアを含む。

該リードペアを構成する２本のリード配列の一方は、該増幅断片を構成する２本の相補鎖のうちの一方の鎖の配列を５’末端側から３’側へ読んだ配列に相当する配列情報を含むリード配列（すなわち「リード１」）であり、他方は、同じ一方の鎖の配列を３’末端側から５’側へ読んだ配列に相当する配列情報を含むリード配列（すなわち「リード２」）である。リード１とリード２は、オリジナルの鎖（増幅断片を構成する一本鎖）に対して互いに逆向きに配置する。すなわち、該オリジナルの鎖に対してマッピングした場合、リード１の先頭は、その末尾に比べてより該オリジナルの鎖の５’側に配置し、一方、リード２の先頭は、その末尾に比べてより該オリジナルの鎖の３’側に配置する（後出の模式図１参照）。

次いで、得られたシーケンシングデータ中の複数のリードペアの中から、サンプルＤＮＡ上の同一領域の配列情報を有するリードペアを選抜する。集めたリードペアはグループ化される。該リードペアのグループを作成する手段としては、例えば、リードペアのリード１とリード２を参照配列に対してマッピングし、リード１の先頭とリード２の先頭とに挟まれる該参照配列の領域が同一であるリード配列のペアを集めて、同じグループに分ける方法が挙げられる。より詳細な手順の例としては、まず、リードペアに含まれる一方のリード配列（リード１又は２）の先頭が参照配列上の同じ位置に位置するリードペアを集め、次いで集めたリード配列のペアの中から、該リードペアに含まれるもう一方のリード配列（リード２又は１）の先頭が参照配列上の同じ位置に位置するリード配列のペアを集めて、それらを同じグループに分ける方法が挙げられる。

したがって、本発明の方法で作成される「リード配列のペア（リードペア）のグループ」とは、サンプルＤＮＡ上の同一領域の配列情報を有する（すなわち、同一のサンプルＤＮＡ断片に由来する）と推定されるリードペアの集合である。本発明の方法においては、通常、ＰＣＲにかけたサンプルＤＮＡの断片の数とシーケンシングデータの量に依存して、１つ以上のリードペアのグループが作成され得る。

次いで、得られたリードペアのグループに含まれるリード配列の情報を用いて、サンプルＤＮＡの配列情報を抽出する。例えば、リードペアのグループに含まれるリード配列の間で配列情報のコンセンサスを取ることで、１つの配列データを作成することができる。リード配列間でのコンセンサスを取る具体的な手法は、上記（２−４）で述べたとおりである。リード配列間でのコンセンサスを取る際には、リードペアのグループに含まれる全てのリードペアのリード配列が用いられてもよいが、該グループ内の一部のリードペアのリード配列のみが用いられてもよい。得られた配列データは、サンプルＤＮＡ断片についての配列を示す最終的な配列データとして取得することができる。

（２−７）リードペアを用いた相補鎖情報に基づくシーケンシング
上述したリードペアを用いて、相補鎖情報を用いたＤＮＡのシーケンシング方法を行うことができる。当該方法では、上記（２−６）で述べたＰＣＲ産物のシーケンシングの際に、各サンプルＤＮＡの断片を構成する２本の相補鎖の各々に由来する増幅断片に対して、１つ以上のリードペアが作成される。すなわち、１個のサンプルＤＮＡ断片に対して２つ以上のリードペアが取得され、それらのリードペアは、該サンプルＤＮＡ断片の２本の相補鎖の一方及び他方についての配列情報を有する。したがって、本実施形態においては、上述したシーケンシングで得られる複数のリード配列は、複数個のリードペアを含む。

次いで、得られた複数のリードペアから、１つ以上のリードペアのグループを作成する。リードペアのグループを作成する手段は、上記（２−５）で述べたとおりである。ここで得られるリードペアのグループには、特定のサンプルＤＮＡ断片についての２本の相補鎖の一方及び他方の配列情報を有するリードペアが含まれている。したがって、該リードペアのグループに含まれるリード配列の間で配列情報のコンセンサスを取ることにより、相補鎖の情報を反映させた配列データを作成することができる。リード配列間でのコンセンサスを取る具体的な手法は、上記（２−４）で述べたとおりである。リード配列間でのコンセンサスを取る際には、リードペアのグループに含まれる全てのリードペアのリード配列が用いられてもよいが、該グループ内の一部のリードペアのリード配列のみが用いられてもよい。

次いで、得られたリードペアのグループに含まれるリード配列の情報を用いて、１つの配列データを導き出す。例えば、リードペアのグループに含まれるリード配列の間で配列情報のコンセンサスを取ることで、１つの配列データを作成することができる。得られた配列データは、該グループのリード配列が由来する特定のサンプルＤＮＡ断片についての配列である。リードペアのグループに、サンプルＤＮＡ断片についての２本の相補鎖の配列情報を有するリード配列が含まれている場合には、それらの間でのコンセンサスを取ることにより、シーケンシングにおける読み取りエラーやＤＮＡ酸化修飾等に起因するエラーなどの片方の鎖にのみ生じるエラーを除外することができる。

好ましくは、リードペアのグループに含まれるリード配列間でのコンセンサスを取る工程は、リードペアのグループの中から、サンプルＤＮＡ断片の２本の相補鎖の各々に由来するリードペアを少なくとも１組ずつ集め、集めたリードペアに含まれるリード配列の間で配列情報のコンセンサスを取ることを含む。これにより、相補鎖間コンセンサスリード配列を得ることができる。得られた相補鎖間コンセンサスリード配列は、サンプルＤＮＡ断片についての配列を示す最終的な配列データとして取得することができる。

リードペアのグループの中からサンプルＤＮＡ断片の２本の相補鎖の各々に由来するリードペアを集める手順としては、例えば、以下の手順が挙げられる：予めサンプルＤＮＡ断片に２本の相補鎖を識別できる標識配列を付加しておくことにより、該標識配列を含む増幅断片を調製する；次いで、該増幅断片をシーケンシングし、該増幅断片由来のリードペアと、それに付随する該標識配列の情報を取得する；得られたリードペアから、リードペアのグループを作成する；次いで、リードペアに付随する標識配列の情報を利用して、リードペアのグループの中から、互いに相補的な鎖に由来するリードペアを集める。

上記の手順において、サンプルＤＮＡ断片に標識配列を付加する場合、例えば、サンプルＤＮＡ断片を構成する２本の相補鎖の５’末端側と３’末端側にそれぞれ異なる標識配列を有するようにする。好ましくは、サンプルＤＮＡ断片の両鎖の間で５’末端側の標識配列は同一であり、両鎖の３’末端側の標識配列も同一であり、かつサンプルＤＮＡ断片の両端の標識配列の領域の両鎖は互いに相補的でない配列を含む。また好ましくは、各サンプルＤＮＡ断片の間で、該５’末端側の標識配列には共通の配列が使用され、かつ該３’末端側の標識配列にも共通の配列が使用される。結果、サンプルＤＮＡ断片を構成する２つの１本鎖は、それぞれ５’末端側及び３’末端側に異なる標識配列を有し得、かつ該５’末端側の標識配列と該３’末端側の標識配列は各１本鎖間で共通であり得る。このような、リード配列がサンプルＤＮＡ断片の２本の相補鎖のいずれに由来するかを識別可能にする標識配列の例としては、イルミナ社のＴｒｕＳｅｑに付属のアダプター配列が挙げられる。該標識配列が付加されたサンプルＤＮＡ断片から得られた増幅断片をシーケンシングすることで、該増幅断片由来のリードペアと、それに含まれる各リード配列に付随する該標識配列の情報を取得することができる。この場合、各リードペアのリード１とリード２には、いずれか一方に５’末端側の標識配列の情報が、他方に３’末端側の標識配列の情報が、それぞれ付随する。

次に、当該標識配列の情報を利用して、リードペアのグループの中から互いに相補的な鎖に由来するリードペアを集める際の好ましい手順を説明する。リードペアのグループに含まれるリードペアを参照配列にマッピングするとき、５’末端側の標識配列の情報が付随するリード配列の先頭が、参照配列上で、リードペアのもう一方のリード配列の先頭よりも５’側に位置する（すなわち、３’末端側の標識配列の情報が付随するリード配列の先頭が、参照配列上で、もう一方のリード配列の先頭よりも３’側に位置する）リードペアと、５’末端側の標識配列の情報が付随するリード配列の先頭が、参照配列上で、リードペアのもう一方のリード配列の先頭よりも３’側に位置する（すなわち、３’末端側の標識配列の情報が付随するリード配列の先頭が、参照配列上で、もう一方のリード配列の先頭よりも５’側に位置する）リードペアに分かれる。前者のリードペアと後者のリードペアは、サンプルＤＮＡ断片の２本の相補鎖のそれぞれに由来する（下図参照）。したがって、リードペアに含まれる２本のリード配列に付随する標識配列の情報と、該２本のリード配列の参照配列上での互いの位置関係に基づいて、リードペアのグループ内の各リードペアがサンプルＤＮＡ断片を構成する２本の相補鎖のどちらに由来するかを識別することができる。あるいは、増幅断片の末端に特定の標識配列が付加しているときにのみ開始するシーケンシング反応を行うことにより、標識配列の情報に基づいて、サンプルＤＮＡ断片の特定の１本鎖に由来するリードペアを識別することができる。このようにサンプルＤＮＡ断片の同じ１本鎖に由来するリードペアを予め識別しておくことで、リードペアのグループの中から互いに相補的な鎖に由来するリードペアを集めることができる。

上述したリードペアのグループから相補鎖間コンセンサスリード配列を得る手順の具体的な例としては、リードペアのグループの中から、サンプルＤＮＡ断片の２本の相補鎖の各々に由来する２組のリードペアを選択し、それらのリードペアに含まれるリード配列の間で配列情報のコンセンサスを取ることが挙げられる。さらに、該手順を繰り返して複数の相補鎖間コンセンサスリード配列を作成した後、さらにそれらの間でのコンセンサスを取り、１つの相補鎖間コンセンサスリード配列を作成してもよい。あるいは、該相補鎖間コンセンサスリード配列を得る手順の別の具体的な例としては、リードペアのグループに含まれるリードペアを、サンプルＤＮＡ断片の２本の相補鎖の一方に由来する群と他方に由来する群とに分け、各群のリードペアに含まれるリード配列の間でコンセンサスを取り、得られた２つのコンセンサスデータの間でさらにコンセンサスを取り、１つの相補鎖間コンセンサスリード配列を作成することが挙げられる。あるいはサンプルＤＮＡ断片の２本の相補鎖に由来するリード配列を特に区別せず、リードペアのグループに含まれるリード配列の間でコンセンサスを取り、コンセンサスリード配列を作成することが挙げられる。リードペアのグループから相補鎖間コンセンサスリード配列を作成する手順のより具体的な例は、以下の実施例１（模式図３）に説明されている。

本発明の方法においては、上述したリード配列又はリードペアのグループ分けは、リード配列に含まれるサンプルＤＮＡ自体の配列情報に基づいて行うことができる。また本発明の方法においては、互いに相補的な鎖の配列情報を有するリード配列は、サンプルＤＮＡの断片に付加した標識配列の配列情報等に基づいて識別され得る。一方、本発明の方法においては、リード配列がいずれのサンプルＤＮＡ断片に由来するかを標識によって識別する必要はない。したがって、本発明の方法において使用される該標識配列は、サンプルＤＮＡの個別の断片を識別する標識でなくともよい。本発明の方法においては、サンプルＤＮＡの個別の断片を識別するための標識（例えば、非特許文献８及び特許文献１に記載されるサンプルＤＮＡ断片固有のタグ配列）を付加する必要はない。本発明の方法では、リード配列又はリードペアのグループ内でリード配列が２本の相補鎖のいずれに由来するかを互いに識別できさえすれば、全断片に共通の標識配列を用いてもよい。したがって、本発明の方法によれば、当該分野で広く実施されるシーケンシング方法とほぼ同様のライブラリ調製及び実験操作で、高精度なシーケンシングを実施することができる。

（３．シーケンシング条件の最適化）
上述した本発明によるＤＮＡのシーケンシング方法では、サンプルＤＮＡの個別の断片を識別するための標識を用いないために、本来異なるＤＮＡ断片に由来する配列を誤って同一断片として誤認識する可能性があり、そのため本来変異として検出されるべきものがエラーと見なされて見逃される可能性がある。例えばがん遺伝子のような特定領域の変異の有無に基づき診断を行うような場合、変異の正確な同定が求められるため、変異の見逃しは重大な問題となり得る。一方、化学物質の変異原性評価や、特定の個人のゲノム全体に生じた変異情報に基づき変異原の推定を行う場合では、サンプルＤＮＡ全体での変異の概要を捉えることがより重要であり、必ずしも特定領域の変異の正確な同定を要求しない。この場合、変異の見逃しは、サンプルＤＮＡ全体での変異の傾向に影響を与える程度に高頻度に起こらない限り、許容できる。

これまで、シーケンシング条件の最適化については、Ｋｅｎｎｅｄｙらによって、ＤｕｐｌｅｘＳｅｑｕｅｎｃｉｎｇ法でのライブラリ調製時のＰＣＲ条件及びシーケンシングデータ量の最適化の検討がなされている（Nature protocol, 2014 9(11):2586-2606）。例えば、Ｋｅｎｎｅｄｙらの検討では、各ＰＣＲ産物のコンセンサスリード配列を作成するにあたり、同一のＤＮＡ断片由来のリード配列が少なくとも３つ以上含まれることを要件としている。しかし、この最適条件は、ターゲットとなるゲノム領域の変異の有無を正確に捉える目的で設計されており、サンプルＤＮＡ全体での変異の傾向を広く捉えるための本発明の方法での最適条件とは異なる可能性がある。本発明の方法でサンプルＤＮＡ全体の変異の概要を捉える場合、必要な精度を得るためには必ずしも同一のＤＮＡ断片由来のリード配列を多数必要としない。むしろ、本発明の方法では、同一のＤＮＡ断片由来のリード数を減らして代わりにより多数の異なるＤＮＡ断片を評価した方が効率的である。したがって、本発明の方法は、Ｋｅｎｎｅｄｙらの条件と比べてより少ないシーケンス量でサンプルＤＮＡ全体の変異の傾向を解析できる可能性がある。

下記実施例２に記載されるとおり、本発明によるＤＮＡのシーケンシング方法の最適条件と、サンプルＤＮＡの変異の傾向の解析に許容できる精度を発揮するための適用可能条件とを調べた。本発明によるＤＮＡのシーケンシング方法における変異の見逃しが、どういった条件でどの程度起こる可能性があるのか、及び、そのような見逃しを回避するためのシーケンシング条件について以下に記載する。

本発明のシーケンシング方法の効率及び精度に影響を与える可能性のある因子は以下のとおりである。
〔１〕サンプルＤＮＡの配列データの得られる効率（解析効率）
本発明のシーケンシング方法においては、サンプルＤＮＡ断片のＰＣＲを行い、その産物をライブラリ（様々なＤＮＡ断片のＰＣＲ産物の混合物）としてシーケンシングに供する。従って、シーケンシングデータからサンプルＤＮＡの配列データ（例えば、リード配列のグループ内でのコンセンサスデータや、相補鎖間コンセンサスリード配列）が得られる効率（解析効率）は、当該ライブラリ中に同一ＤＮＡ断片由来のＰＣＲ産物（順鎖及び相補鎖を含む）が含まれている割合と、該ライブラリを用いたシーケンシングデータの量（リード数又はｂｐ）に依存する。すなわち、適切なＰＣＲ条件とシーケンシングデータ量の設定が解析効率にとって重要である。

さらに、ＰＣＲでの初期ＤＮＡ量とシーケンシングデータ量は、上述したリード配列又はリードペアのグループに含まれるリード配列又はリードペアの数に影響している。リード配列又はリードペアのグループに含まれるリード配列又はリードペア数が減少すると、サンプルＤＮＡの配列データを作成できる確率が低下し、解析効率は低くなる。一方、グループあたりのリード配列又はリードペア数が多くなりすぎても、一つの配列データ作成に使用されるリード数が多くなりすぎるため、やはり解析効率は低下する。

〔２〕異なるＤＮＡ断片を同一断片と誤認識すること（断片の誤認識）の割合
断片の誤認識は、ライブラリ中に異なるサンプルＤＮＡ断片に由来するが配列が重複する断片が含まれており、かつそれら断片の双方がシーケンシングされている場合に発生し得る。したがって、断片の誤認識には、ライブラリ中のＤＮＡ配列の多様度（ＰＣＲでの初期ＤＮＡ量）が関係する。また、ライブラリ中のＤＮＡ配列の多様度には、サンプルＤＮＡの配列の多様度が影響し、サンプルＤＮＡの配列の多様度はサンプルＤＮＡのサイズに概ね依存する。よって、サンプルＤＮＡのサイズも断片の誤認識に影響する。

断片の誤認識は、上述したリード配列又はリードペアのグループに、同一のサンプルＤＮＡ断片に由来しないリード配列又はリードペアが含まれる割合に依存し、これは(1)ライブラリ中の同一のサンプルＤＮＡ断片に由来するＰＣＲ産物がシーケンシングされる確率と、(2)配列が偶然一致する（又は一致するとみなされる程度に高い同一性を有する）異なるＤＮＡ断片由来のＰＣＲ産物がシーケンシングされる確率と、の比率によって決定される。ＰＣＲでの初期ＤＮＡ量を減少させ、ＰＣＲのサイクル数を増やすと、全ＰＣＲ産物中における同一断片由来の産物の割合が増加して、(1)の確率は増加し、逆に(2)の確率は低下するので、断片の誤認識は低下する。一方、(1)と(2)の比率はシーケンシングデータ量の大小によらないので、断片の誤認識率はシーケンシングデータ量に依存しない。

以上の〔１〕及び〔２〕から、シーケンシングの効率及び精度に影響を与え得る因子としては、主にライブラリ調製時のＰＣＲ条件、特にＰＣＲ初期ＤＮＡ量、シーケンシングデータ量、そしてサンプルＤＮＡのサイズが重要である。さらに、これらの因子に依存するリード配列又はリードペアのグループに含まれるリード配列又はリードペアの数は、シーケンシングの効率及び精度を判断する指標となり得る。

適切なＰＣＲ初期ＤＮＡ量は、サンプルＤＮＡのサイズに依存し得る。小さなサイズのサンプルＤＮＡに対してＰＣＲ初期ＤＮＡ量が多すぎる場合、断片の誤認識の確率が高まり、正しく変異を検出できない可能性がある。また、大きなサイズのサンプルＤＮＡに対してＰＣＲ初期ＤＮＡ量が多い場合、後述の解析効率を考慮したときに、必要なシーケンスデータ量が膨大になる可能性がある。一方、大きなサイズのサンプルＤＮＡに対してＰＣＲ初期ＤＮＡ量が少なすぎる場合、サンプルＤＮＡの配列の多様度を充分に反映できなくなるため、ゲノムのカバー率が低下する可能性がある。しかし、サンプルＤＮＡの配列全体に対しての配列データの網羅性が特に問題とならない場合、サンプルＤＮＡのサイズに対して少ないＰＣＲ初期ＤＮＡ量を用いても、解析効率が低下しない範囲であれば、特に問題ではない。このようなケースとしては、サンプルＤＮＡ全体のうち、ランダムに一部の領域を選択して、該領域内での変異の頻度を把握したい場合などが考えられる。従って、本発明のシーケンシング方法における、サンプルＤＮＡのサイズに対してのＰＣＲ初期ＤＮＡ量は、断片の誤認識の確率とゲノムのカバー率の観点から、その研究の目的に応じて適切な範囲が選択され得る。本発明のシーケンシング方法におけるＰＣＲ初期ＤＮＡ量は、断片の誤認識の確率を低くすることと適切なシーケンスデータ量との観点から、サンプルＤＮＡの１Ｍｂｐあたり、好ましくは２５０ａｍｏｌ以下、より好ましくは１２５ａｍｏｌ以下、さらに好ましくは６２．５ａｍｏｌ以下、なお好ましくは３１．３ａｍｏｌ以下、さらになお好ましくは１５．６ａｍｏｌ以下、さらになお好ましくは７．８ａｍｏｌ以下、さらになお好ましくは３．９ａｍｏｌ以下、さらになお好ましくは１．７ａｍｏｌ以下、さらになお好ましくは０．８３ａｍｏｌ以下、さらになお好ましくは０．４２ａｍｏｌ以下、さらになお好ましくは０．２１ａｍｏｌ以下である。一方で、該ＰＣＲ初期ＤＮＡ量は、ゲノムの網羅性を担保する観点から、サンプルＤＮＡの１Ｍｂｐあたり、好ましくは０．０００３ａｍｏｌ以上、より好ましくは０．０００７ａｍｏｌ以上、さらに好ましくは０．００２ａｍｏｌ以上、なお好ましくは０．００５ａｍｏｌ以上、さらになお好ましくは０．０１ａｍｏｌ以上、さらになお好ましくは０．０３ａｍｏｌ以上、なお好ましくは０．０５ａｍｏｌ以上、さらになお好ましくは０．１ａｍｏｌ以上、さらになお好ましくは０．３ａｍｏｌ以上、さらに好ましくは１ａｍｏｌ以上、なお好ましくは２ａｍｏｌ以上、さらになお好ましくは３．９ａｍｏｌ以上、さらになお好ましくは７．８ａｍｏｌ以上である。

一例において、本発明のシーケンシング方法におけるＰＣＲ初期ＤＮＡ量は、以下のとおりである：ゲノムサイズ約５Ｍｂｐの細菌の場合、サンプルＤＮＡの１Ｍｂｐあたり、好ましくは０．１〜２５０ａｍｏｌ、より好ましくは０．３〜２５０ａｍｏｌ、さらに好ましくは１〜２５０ａｍｏｌ、なお好ましくは２〜１２５ａｍｏｌ、さらになお好ましくは３．９〜６２．５ａｍｏｌ、さらになお好ましくは７．８〜３１．３ａｍｏｌである；ゲノムサイズ約１０Ｍｂｐの酵母の場合、サンプルＤＮＡの１Ｍｂｐあたり、好ましくは０．０５〜２５０ａｍｏｌ、より好ましくは０．１〜２５０ａｍｏｌ、さらに好ましくは０．３〜１２５ａｍｏｌ、なお好ましくは１〜６２．５ａｍｏｌ、さらになお好ましくは２〜３１．３ａｍｏｌである；ゲノムサイズ約１００Ｍｂｐの線虫の場合、サンプルＤＮＡの１Ｍｂｐあたり、好ましくは０．００５〜３１．３ａｍｏｌ、より好ましくは０．０１〜３１．３ａｍｏｌ、さらに好ましくは０．０３〜１５．６ａｍｏｌ、なお好ましくは０．１〜７．８ａｍｏｌ、さらになお好ましくは０．３〜３．９ａｍｏｌである；ゲノムサイズ約３Ｇｂｐのマウスの場合、サンプルＤＮＡの１Ｍｂｐあたり、好ましくは０．０００３〜１．７ａｍｏｌ、より好ましくは０．０００７〜１．７ａｍｏｌ、さらに好ましくは０．００２〜１．７ａｍｏｌ、なお好ましくは０．００５〜０．８３ａｍｏｌ、さらになお好ましくは０．０１〜０．４２ａｍｏｌ、さらになお好ましくは０．０３〜０．２１ａｍｏｌ、である。なお、本願明細書において、ＰＣＲ初期ＤＮＡ量はＰＣＲ反応に使用するＤＮＡサンプル中のＤＮＡ量であり、ＰＣＲプライマーなどのＤＮＡ量は含まない。

さらに、適切なＰＣＲ初期ＤＮＡ量は、解析に用いることができるデータ（配列情報）の量に依存し得る。ＰＣＲ初期ＤＮＡ量が少なすぎる場合、その中に含まれるサンプルＤＮＡ断片数が少なくなり、解析に用いることができるデータ（配列情報）を十分に確保できなくなる。本発明のシーケンシング方法におけるＰＣＲ初期ＤＮＡ量は、好ましくは０．１ａｍｏｌ以上、より好ましくは１ａｍｏｌ以上、さらに好ましくは５ａｍｏｌ以上、なお好ましくは２０ａｍｏｌ以上、さらになお好ましくは３９ａｍｏｌ以上、さらになお好ましくは７８ａｍｏｌ以上である。一方、解析効率の観点からは、ＰＣＲ初期ＤＮＡ量は、好ましくは１０００００ａｍｏｌ以下、より好ましくは２００００ａｍｏｌ以下、さらに好ましくは５０００ａｍｏｌ以下である。例えば、本発明のシーケンシング方法におけるＰＣＲ初期ＤＮＡ量は、好ましくは０．１〜１０００００ａｍｏｌ、より好ましくは１〜１０００００ａｍｏｌ、さらに好ましくは５〜１０００００ａｍｏｌ、なお好ましくは２０〜１０００００ａｍｏｌ、さらになお好ましくは２０〜２００００ａｍｏｌ、さらになお好ましくは３９〜２００００ａｍｏｌ、さらになお好ましくは７８〜２００００ａｍｏｌ、さらになお好ましくは２０〜５０００ａｍｏｌ、さらになお好ましくは３９〜５０００ａｍｏｌ、さらになお好ましくは７８〜５０００ａｍｏｌである。

本発明のシーケンシング方法において、適切なシーケンシングデータ量は、ＰＣＲ初期ＤＮＡ量に依存し得る。ＰＣＲ初期ＤＮＡ量に対して大きすぎる又は少なすぎるシーケンシングデータ量は、解析効率を低下させる。また、本発明のシーケンシング方法におけるシーケンシングデータ量は、ＰＣＲ初期ＤＮＡ量１ａｍｏｌあたりのリードペア数又はリード配列数で、好ましくは０．０２×１０⁶個（リード配列又はリードペアの塩基対量で４Ｍｂｐ、これはリード配列の長さ、又はリードペアに含まれるリード配列の合計長の平均が２００ｂｐの場合の値であり、該リード配列長さ又はリードペアに含まれるリード配列の合計長の平均値に合わせて変化し得る値である、以下同）以上、より好ましくは０．０４×１０^６個（８Ｍｂｐ）以上、さらに好ましくは０．０８×１０⁶個（１６Ｍｂｐ）以上、なお好ましくは０．１６×１０⁶個（３２Ｍｂｐ）以上であり、かつ、好ましくは１０×１０⁶個（２０００Ｍｂｐ）以下、より好ましくは５×１０⁶個（１０００Ｍｂｐ）以下、さらに好ましくは２．５×１０⁶個（５００Ｍｂｐ）以下、なお好ましくは２×１０^６個（４００Ｍｂｐ）以下である。例えば、本発明のシーケンシング方法におけるシーケンシングデータ量は、ＰＣＲ初期ＤＮＡ量１ａｍｏｌあたりのリードペア数又はリード配列数で、好ましくは０．０２〜１０×１０⁶個（４〜２０００Ｍｂｐ）、より好ましくは０．０４〜５×１０⁶個（８〜１０００Ｍｂｐ）、さらに好ましくは０．０８〜２．５×１０⁶個（１６〜５００Ｍｂｐ）、なお好ましくは０．１６〜２×１０⁶個（３２〜４００Ｍｂｐ）である。

当該ＰＣＲ初期ＤＮＡ量及びシーケンシングデータ量は、それぞれリード配列又はリードペアのグループに含まれるリード配列又はリードペアの数に影響する。一方、異なるＰＣＲ初期ＤＮＡ量及びシーケンシングデータ量の条件の間で、最大の解析効率をもたらす条件におけるリード配列又はリードペアのグループに含まれるリード配列又はリードペアの数の平均値は、ほぼ一定である（後述の実施例、表３を参照）。したがって、本発明のシーケンシング方法においては、リード配列又はリードペアのグループに含まれるリード配列又はリードペアの数の平均値が所定の範囲になるように各種条件を設定することで、最適な解析効率及び精度でのシーケンシングが可能になる。本発明のシーケンシング方法において、リード配列のグループに含まれるリード配列数、又はリードペアのグループに含まれるリードペア数は、該グループ間の平均で、好ましくは１．０５以上、より好ましくは１．１以上、さらに好ましくは１．２以上であり、なお好ましくは１．４以上であり、かつ、好ましくは３０以下、より好ましくは２０以下、さらに好ましくは１０以下、なお好ましくは５以下である。例えば、本発明のシーケンシング方法において、リード配列又はリードペアのグループに含まれるリード配列又はリードペアの数は、該グループ間の平均で、好ましくは１．０５〜３０、より好ましくは１．１〜２０、さらに好ましくは１．２〜１０、なお好ましくは１．４〜５である。

上記のことから、適切なシーケンシングデータ量はまた、サンプルＤＮＡのサイズに依存し得る。大きなサイズのサンプルＤＮＡに対しては、そのゲノムのカバー率を十分に高くするためにはより多くのＰＣＲ初期ＤＮＡ量が必要となる。従って、サンプルＤＮＡのサイズに対してシーケンシングデータ量が少なすぎる場合、配列データを作成するための十分なリードペア数が確保できなくなり解析効率が低下する可能性がある。しかし、サンプルＤＮＡの配列全体に対しての配列データの網羅性が特に問題とならない場合、サンプルＤＮＡのサイズに対して少ないシーケンシングデータ量を用いても、解析効率が低下しない範囲であれば、特に問題ではない。一方、小さなサイズのサンプルＤＮＡに対しては、より少ないＰＣＲ初期ＤＮＡ量で、そのゲノムのカバー率を高くすることができる。従って、サンプルＤＮＡのサイズに対してシーケンシングデータ量が多すぎる場合、解析効率が低下する。本発明のシーケンシング方法におけるシーケンシングデータ量は、サンプルＤＮＡの１Ｍｂｐあたりのリード配列又はリードペア数で、好ましくは０．０５×１０⁶個（１０Ｍｂｐ）以上、より好ましくは０．１×１０⁶個（２０Ｍｂｐ）以上、さらに好ましくは０．２×１０⁶個（４０Ｍｂｐ）以上、なお好ましくは０．５×１０⁶個（１００Ｍｂｐ）以上、さらになお好ましくは１×１０⁶個（２００Ｍｂｐ）以上、さらになお好ましくは２×１０⁶個（０．４Ｇｂｐ）以上であり、かつ、好ましくは１６００×１０⁶個（３２０Ｇｂｐ）以下、より好ましくは８００×１０⁶個（１６０Ｇｂｐ）以下、さらに好ましくは４００×１０⁶個（８０Ｇｂｐ）以下、なお好ましくは２００×１０⁶個（４０Ｇｂｐ）以下、さらになお好ましくは１００×１０⁶個（２０Ｇｂｐ）以下、さらになお好ましくは５０×１０⁶個（１０Ｇｂｐ）以下である。例えば、本発明のシーケンシング方法におけるシーケンシングデータ量は、サンプルＤＮＡの１Ｍｂｐあたりリード配列又はリードペア数で、好ましくは０．０５〜１６００×１０⁶個（０．０１〜３２０Ｇｂｐ）、より好ましくは０．１〜８００×１０⁶個（０．０２〜１６０Ｇｂｐ）、さらに好ましくは０．２〜４００×１０⁶個（０．０４〜８０Ｇｂｐ）、なお好ましくは０．５〜２００×１０⁶個（０．１〜４０Ｇｂｐ）、さらになお好ましくは１〜１００×１０⁶個（０．２〜２０Ｇｂｐ）、さらになお好ましくは２〜５０×１０⁶個（０．４〜１０Ｇｂｐ）である。なお、哺乳動物由来ゲノムＤＮＡなどのようにサンプルＤＮＡのサイズが大きい場合で、かつサンプルＤＮＡの配列全体に対しての配列データの網羅性が特に問題とならない場合、本発明のシーケンシング方法におけるシーケンシングデータ量は、サンプルＤＮＡの１Ｍｂｐあたりのリード配列又はリードペア数で、０．０５×１０⁶個（１０Ｍｂｐ）未満であってもよい。例えば、ゲノムサイズ約３Ｇｂｐのマウスの場合のシーケンシングデータ量は、サンプルＤＮＡの１Ｍｂｐあたりのリード配列またはリードペア数で、好ましくは０．００００３〜１６×１０⁶個（０．００６〜３２００Ｍｂｐ）、より好ましくは０．００００７〜８×１０⁶個（０．０１４〜１６００Ｍｂｐ）、さらに好ましくは０．０００１〜４×１０⁶個（０．０２〜８００Ｍｂｐ）、なお好ましくは０．０００３〜２×１０⁶個（０．０６〜４００Ｍｂｐ）、さらになお好ましくは０．０００５〜１×１０⁶個（０．１〜２００Ｍｂｐ）、さらになお好ましくは０．００１〜０．５×１０⁶個（０．２〜１００Ｍｂｐ）である。

本発明のシーケンシング方法の有効性は、サンプルＤＮＡのサイズに依存し得る。サンプルＤＮＡのサイズが小さすぎると、シーケンシング用のライブラリ中の配列の多様性が低下して断片の誤認識の確率が高くなる。このことは、サンプルＤＮＡのサイズ低下に伴って、ＰＣＲの初期ＤＮＡ量を少なくする必要があり、よって得られる最終的な配列データが少なくなってしまうことを意味する。したがって、本発明のシーケンシング方法をゲノム変異解析に応用する場合、サンプルＤＮＡのサイズに依存して、十分な変異データを解析できなくなる可能性がある。本発明のシーケンシング方法におけるサンプルＤＮＡのサイズは、好ましくは１０ｋｂｐ以上、より好ましくは１００ｋｂｐ以上、さらに好ましくは１Ｍｂｐ以上、なお好ましくは４Ｍｂｐ以上である。なお、サンプルＤＮＡのサイズは、該サンプルＤＮＡの由来する生物のゲノムＤＮＡのサイズであることが好ましく、該ゲノムＤＮＡのうちのシーケンシング可能領域のＤＮＡのサイズであることがより好ましい。一方、サンプルＤＮＡのサイズが、該ゲノムＤＮＡのうちのシーケンシング対象領域のＤＮＡのサイズ、又は該ゲノムＤＮＡのうちの解析対象領域のＤＮＡのサイズであることも好ましい。該シーケンシング可能領域としては、ＰＣＲ反応やシーケンシング反応が可能な領域が挙げられ、該シーケンシング対象領域としては、哺乳動物細胞等におけるエクソン領域などが挙げられ、該解析対象領域としては、解析に用いる参照配列の領域や、リード配列又はリードペアのグループを作成することができた参照配列の領域などが挙げられる。

本発明のシーケンシング方法の好ましい一実施形態においては、サンプルＤＮＡのサイズは約５Ｍｂｐであり、ＰＣＲ初期ＤＮＡ量は、好ましくは１０〜１２５０ａｍｏｌであり、シーケンシングデータ量は、リード配列又はリードペア数で０．２〜１２５００×１０⁶個（０．０４〜２５００Ｇｂｐ）、好ましくは０．４〜６２５０×１０⁶個（０．０８〜１２５０Ｇｂｐ）、より好ましくは０．８〜３１２５×１０⁶個（０．１６〜６２５Ｇｂｐ）、さらに好ましくは１．６〜２５００×１０⁶個（０．３２〜５００Ｇｂｐ）である。
より好ましくは、サンプルＤＮＡのサイズは約５Ｍｂｐであり、ＰＣＲ初期ＤＮＡ量は２０〜６２５ａｍｏｌであり、シーケンシングデータ量は、リード配列又はリードペア数で０．４〜６２５０×１０⁶個（０．０８〜１２５０Ｇｂｐ）、好ましくは０．８〜３１２５×１０⁶個（０．１６〜６２５Ｇｂｐ）、より好ましくは１．６〜１５６３×１０⁶個（０．３２〜３１３Ｇｂｐ）、さらに好ましくは３．２〜１２５０×１０⁶個（０．６４〜２５０Ｇｂｐ）である。
さらに好ましくは、サンプルＤＮＡのサイズは約５Ｍｂｐであり、ＰＣＲ初期ＤＮＡ量は３９〜３１３ａｍｏｌであり、シーケンシングデータ量は、リード配列又はリードペア数で０．７８〜３１３０×１０⁶個（０．１５６〜６２６Ｇｂｐ）、好ましくは１．５６〜１５６５×１０⁶個（０．３１２〜３１３Ｇｂｐ）、より好ましくは３．１２〜７８３×１０⁶個（０．６２４〜１５７Ｇｂｐ）、さらに好ましくは６．２４〜６２６×１０⁶個（１．２４８〜１２５Ｇｂｐ）である。
本発明のシーケンシング方法の別の好ましい一実施形態においては、サンプルＤＮＡのサイズは約５Ｍｂｐであり、リード配列又はリードペアのグループあたりのリード配列又はリードペアの数は、該グループ間の平均で、１．０５〜３０、好ましくは１．１〜２０、さらに好ましくは１．２〜１０、なお好ましくは１．４〜５である。

本発明のシーケンシング方法のさらに別の好ましい一実施形態においては、サンプルＤＮＡのサイズは約３Ｇｂｐであり、ＰＣＲ初期ＤＮＡ量は、好ましくは１０〜５０００ａｍｏｌであり、シーケンシングデータ量は、リード配列又はリードペア数で０．２〜５００００×１０⁶個（０．０４〜１００００Ｇｂｐ）、好ましくは０．４〜２５０００×１０⁶個（０．０８〜５０００Ｇｂｐ）、より好ましくは０．８〜１２５００×１０⁶個（０．１６〜２５００Ｇｂｐ）、さらに好ましくは１．６〜１００００×１０⁶個（０．３２〜２０００Ｇｂｐ）である。
より好ましくは、サンプルＤＮＡのサイズは約３Ｇｂｐであり、ＰＣＲ初期ＤＮＡ量は２０〜２５００ａｍｏｌであり、シーケンシングデータ量は、リード配列又はリードペア数で０．４〜２５０００×１０⁶個（０．０８〜５０００Ｇｂｐ）、好ましくは０．８〜１２５００×１０⁶個（０．１６〜２５００Ｇｂｐ）、より好ましくは１．６〜６２５０×１０⁶個（０．３２〜１２５０Ｇｂｐ）、さらに好ましくは３．２〜５０００×１０⁶個（０．６４〜１０００Ｇｂｐ）である。
さらに好ましくは、サンプルＤＮＡのサイズは約３Ｇｂｐであり、ＰＣＲ初期ＤＮＡ量は３９〜１２５０ａｍｏｌであり、シーケンシングデータ量は、リード配列又はリードペア数で０．７８〜１２５００×１０⁶個（０．１５６〜２５００Ｇｂｐ）、好ましくは１．５６〜６２５０×１０⁶個（０．３１２〜１２５０Ｇｂｐ）、より好ましくは３．１２〜３１２５×１０⁶個（０．６２４〜６２５Ｇｂｐ）、さらに好ましくは６．２４〜２５００×１０⁶個（１．２４８〜５００Ｇｂｐ）である。
本発明のシーケンシング方法のなお別の好ましい一実施形態においては、サンプルＤＮＡのサイズは約３Ｇｂｐであり、リード配列又はリードペアのグループあたりのリード配列又はリードペアの数は、該グループ間の平均で、１．０５〜３０、好ましくは１．１〜２０、さらに好ましくは１．２〜１０、なお好ましくは１．４〜５である。

サイズ約５ＭｂｐのサンプルＤＮＡの例としては、サルモネラ菌のゲノム（約４．８６Ｍｂｐ）が挙げられる。サルモネラ菌の好ましい例としては、Ａｍｅｓ試験に使用されるＳ．ｔｙｐｈｉｍｕｒｉｕｍＬＴ−２株、ＴＡ１００株、ＴＡ９８株、ＴＡ１５３５株、ＴＡ１５３８株、ＴＡ１５３７株等が挙げられる。

（４．シーケンシング方法の応用）
本発明によるＤＮＡのシーケンシング方法で得られた配列データは、シーケンシングにおける読み取りエラーや、サンプルＤＮＡの酸化修飾等に起因するエラーが除外された高精度な配列データである。したがって、本発明によるＤＮＡのシーケンシング方法は、これに限定されないが、変異解析に応用することができる。より詳細には、例えば、ゲノムＤＮＡの変異解析による、試験物質の遺伝毒性の評価や、生殖発生毒性等のその他毒性の評価、ゲノムＤＮＡに対する経時変化、生活環境、遺伝的要素などの影響の評価、培養細胞の品質評価などに応用することができる。これらの応用においては、変異解析の対象であるゲノムＤＮＡをサンプルＤＮＡとして本発明のシーケンシング方法を行い、配列データを取得する。次いで、得られた配列データを用いて変異解析を行い、解析対象ゲノムＤＮＡの変異を検出する。

したがって、本発明はまた、ゲノムＤＮＡの変異を検出する方法を提供する。当該方法は、細胞中のゲノムＤＮＡをサンプルＤＮＡとして用いて、本発明によるＤＮＡのシーケンシング方法を実施し、配列データを作成すること；該配列データを参照配列と比較して、該配列データと該参照配列とで塩基がマッチしない部位を変異部位として検出すること、を含む。

一実施形態において、本発明によるゲノムＤＮＡの変異を検出する方法は、試験物質の遺伝毒性の評価に利用される。本実施形態では、該ゲノムＤＮＡは、試験物質に曝露した細胞のゲノムＤＮＡである。好ましくは、該ゲノムＤＮＡは、試験物質に曝露した細胞（被験細胞）のゲノムＤＮＡと、該試験物質に曝露していない細胞（対照細胞）のゲノムＤＮＡであり、該被験細胞のゲノムＤＮＡについて検出した変異と、該対照細胞のゲノムＤＮＡについて検出した変異とが比較される。例えば、該被験細胞でのみ検出された変異を、試験物質の曝露により生じた変異として同定することができる。本実施形態において使用される細胞は、特に限定されず、微生物細胞、動物細胞、植物細胞を含み得る。動物の例としては、好ましくは哺乳動物、鳥類、カイコ、線虫などが挙げられ、微生物の例としては、大腸菌、サルモネラ菌、酵母などが挙げられるが、これらに限定されない。本実施形態において使用される細胞の好ましい例としては、サルモネラ菌細胞、及び大腸菌細胞が挙げられるが、これらに限定されない。サルモネラ菌の好ましい例は、上述したとおりである。大腸菌の好ましい例としては、分子生物学研究で汎用されるＫ−１２株や、Ａｍｅｓ試験に使用されるＷＰ２株、ＷＰ２ｕｖｒＡ株等が挙げられる。本実施形態において使用される細胞の別の好ましい例としては、生体から採取した哺乳動物細胞、及び哺乳動物由来培養細胞が挙げられる。哺乳動物の好ましい例としては、マウス、ラット、ハムスター、チャイニーズハムスター、ウサギ、ヒトなどが挙げられ、このうちマウス及びヒトが好ましい。本実施形態において使用される細胞の別の好ましい例としては、生体から採取した鳥類細胞、及び鳥類由来培養細胞が挙げられる。鳥類の好ましい例としては、ニワトリが挙げられ、鳥類由来培養細胞の例としてはＤＴ４０などが挙げられる。

該試験物質の例としては、その遺伝毒性を評価したい物質であれば特に制限されない。例えば、遺伝毒性を有すると疑われる物質、又は遺伝毒性の有無を確認したい物質、どのような変異を誘発するかを調べたい物質などが挙げられる。試験物質は、天然に存在する物質であっても、化学的もしくは生物学的方法等で人工的に合成した物質であってもよく、又は化合物であっても、組成物もしくは混合物であってもよい。あるいは、該試験物質は、紫外線や放射線などであってもよい。細胞を試験物質に曝露する手段は、試験物質の種類に応じて適宜選択すればよく、特に限定されない。例えば、細胞を含む培地に試験物質を添加する方法、細胞を試験物質の存在する雰囲気下に置く方法などが挙げられる。

別の一実施形態において、本発明によるゲノムＤＮＡの変異を検出する方法は、ゲノムＤＮＡに対する経時変化、生活環境、遺伝的要素などの影響の評価に利用される。経時変化としては、細胞や個体の成長、加齢、老化、継代培養などが挙げられ、生活環境としては、食生活、運動などの生活習慣、居住地などが挙げられ、遺伝的要素としては、性別、種、特定の遺伝子の欠損などが挙げられるが、これらに限定されない。本実施形態の好適な例は、ゲノムＤＮＡに対する経時変化の影響の評価であり、該ゲノムＤＮＡには、経時変化した細胞のゲノムＤＮＡが用いられる。より好ましくは、該ゲノムＤＮＡは、経時変化した細胞（被験細胞）のゲノムＤＮＡと、より経時変化していない細胞（対照細胞）のゲノムＤＮＡであり、該被験細胞のゲノムＤＮＡについて検出した変異と、該対照細胞のゲノムＤＮＡについて検出した変異とが比較される。該対照細胞として用いられる、より経時変化していない細胞としては、成長、加齢、老化又は継代培養の程度が被験細胞より少ない細胞（例えば、より若い細胞、老化処理していない細胞、継代していないか継代数の少ない細胞など）が挙げられる。例えば、該被験細胞でのみ検出された変異を、経時変化により生じた変異として同定することができる。本実施形態において使用される細胞の好ましい例としては、生体から採取した哺乳動物細胞、及び哺乳動物由来培養細胞が挙げられる。哺乳動物の好ましい例としては、上述したとおりである。

別の一実施形態において、本発明によるゲノムＤＮＡの変異を検出する方法は、培養細胞の品質評価に利用される。本実施形態で用いられる該ゲノムＤＮＡは、変異の有無を調べたい培養細胞のゲノムＤＮＡであればよい。該変異の有無を調べたい培養細胞の例としては、ある一定期間培養した細胞であって、その変異の傾向を確認したいものが挙げられる。好ましくは、該ゲノムＤＮＡは、該変異の有無を調べたい培養細胞（被験細胞）のゲノムＤＮＡと、対照細胞のゲノムＤＮＡである。対照細胞としては、例えば、同じ種類の培養細胞であって、遺伝情報既知の（例えば変異の有無及びその変異タイプが確認されている）細胞が用いられる。該被験細胞のゲノムＤＮＡについて検出した変異と、該対照細胞のゲノムＤＮＡについて検出した変異とが比較される。例えば、該被験細胞でのみ検出された変異を、培養中に生じた変異として同定することができる。

本発明によるゲノムＤＮＡの変異を検出する方法で検出される変異としては、塩基対置換型変異、及び短い挿入／欠失変異が挙げられる。塩基対置換型変異とは、ＤＮＡの塩基対情報を別の塩基対に変化させる変異であり、例えば、１塩基対置換型変異、及び２塩基対又は３塩基対以上が置換した多塩基対置換型変異を含む。本発明では、好ましくは１塩基対置換型変異が検出される。一方、短い挿入／欠失変異とは、ＤＮＡの配列中に短い塩基配列の挿入又は欠失を引き起こす変異であり、好ましくは挿入又は欠失した塩基の長さが１０ｂｐ以下、より好ましくは１〜５ｂｐの挿入又は欠失変異をいう。

好ましい実施形態において、本発明では、解析対象ゲノムＤＮＡ全体における変異の傾向を調べるために、ゲノムの特定部位の変異の有無を厳密に同定するよりも、ゲノムのより広い領域の変異を検出し、それらの変異パターンを解析して、広いゲノム領域内での変異の傾向を解析することが優先される。

以下に、解析対象ゲノムＤＮＡにおける１塩基対置換型変異のパターンを検出する場合の好ましい手順を記載する。塩基対置換型変異の検出においては、本発明によるＤＮＡのシーケンシング方法で取得された配列データが参照配列と比較されて、該配列データと該参照配列とで塩基がマッチしない部位が変異部位として検出される。検出された部位は、塩基対置換型変異を有する変異部位として取得される。本発明においては、変異解析の目的に応じて、該参照配列との比較に、取得された配列データの一部を用いてもよく、又は全部を用いてもよい。

次いで、検出した変異部位の塩基と変異前の塩基の種類に基づいて、各変異を塩基の変異パターンに従って分類する。さらに、該塩基の変異パターンの各々について、出現頻度を決定することができる。これらの手順は、Ｐｙｔｈｏｎ等のプログラミング言語を用いて作成したプログラム等を用いて行うことができる。

より詳細な例においては、配列データに含まれる各塩基を、下記(i)〜(iv)に分ける。
(i) 参照配列上の塩基がＡである位置に存在する塩基
(ii) 参照配列上の塩基がＴである位置に存在する塩基
(iii)参照配列上の塩基がＧである位置に存在する塩基
(iv) 参照配列上の塩基がＣである位置に存在する塩基
上記(i)及び(ii)は、参照配列の塩基対がＡＴであった部位に存在する塩基であり、上記(iii)及び(iv)は、参照配列の塩基対がＧＣであった部位に存在する塩基である。これらの塩基の中から、参照配列と塩基がマッチしない（すなわち塩基対置換変異している）ものを検出する。次いで、検出された変異部位の各々について、参照配列と配列データの配列情報に基づいて変異前及び後の塩基対を求める。これらのデータから、各変異を、変異前の塩基対がＡＴであった場合について[ＡＴ→ＴＡ、ＡＴ→ＣＧ、及びＡＴ→ＧＣ]の３パターン、変異前の塩基対がＧＣであった場合について[ＧＣ→ＴＡ、ＧＣ→ＣＧ、及びＧＣ→ＡＴ]の３パターンの、全部で６つの塩基対の変異パターンに分類することができる。さらに、各変異パターンに属する変異の総数、及び解析した塩基の総数に基づいて、各変異パターンの出現頻度を決定することができる。例えば、ＡＴ、ＧＣ塩基対それぞれについての解析した塩基の総数に基づいて、各々の塩基対ごとに３種類の変異パターンの出現頻度を算出することができる。

本発明においては、多塩基対置換型変異を解析することもできる。多塩基対置換型変異としては、例えば、２塩基対置換型変異及び３塩基対置換型変異が挙げられる。多塩基対置換型変異の解析の場合には、例えば、変異前の塩基配列に応じて変異パターンを分類し（例えば２塩基対置換型においては４×４＝１６通り）、次いで、各変異パターンに属する変異の総数、及び解析した変異の総数に基づいて、各変異パターンの出現頻度を決定することができる。

本発明においては、１塩基対置換型変異のシーケンスコンテクスト解析を行うこともできる。この解析では、上記手順で１塩基対置換型変異を検出した後、検出した各変異について、参照配列に基づいて、変異前の塩基と、該変異前の塩基の上流及び下流に隣接する塩基とを含む配列（いわゆるコンテクスト）を決定する。続いて、各変異を、塩基対の変異パターン及び該コンテクストに従ってタイプ分けする。すなわち、検出した変異を、上述した手順で６つの塩基対の変異パターン［ＡＴ→ＴＡ、ＡＴ→ＣＧ、ＡＴ→ＧＣ、ＧＣ→ＴＡ、ＧＣ→ＣＧ、及びＧＣ→ＡＴ］に分ける。一方で、検出した各変異を、コンテクストに従って分類する。例えば、変異部位の両隣の１塩基ずつを含めた３塩基長のコンテクストは、４×４の１６群［例えば、Ｃからの変異の場合、ＡＣＡ、ＡＣＣ、ＡＣＧ、ＡＣＴ、ＣＣＡ、ＣＣＣ、ＣＣＧ、ＣＣＴ、ＧＣＡ、ＧＣＣ、ＧＣＧ、ＧＣＴ、ＴＣＡ、ＴＣＣ、ＴＣＧ、及びＴＣＴ］に分類される。結果、各変異は、塩基対の変異パターンとコンテクストに従って、全部で９６（４×６×４）のタイプに分類される。さらに長いコンテクストを解析することも可能である。例えば、変異部位の両隣の２塩基ずつを含めた５塩基長のコンテクストに従うと、各変異は２５６群（４×４×４×４）に分類され、この分類と６つの塩基対パターンにより、各変異は最終的に全部で１５３６（４×４×６×４×４）のタイプに分類される。さらに変異部位の両隣のｎ塩基ずつを含めた２ｎ＋１塩基長のコンテクストに従うと、各変異は４²ⁿ群に分類され、この分類と６つの塩基対パターンにより、各変異は最終的に全部で４²ⁿ×６個のタイプに分類される。次いで、各変異タイプに属する変異の総数、及び解析した塩基の総数に基づいて、上記変異タイプの各々の変異頻度を決定することができる。

次に、解析対象ゲノムＤＮＡにおける短い挿入／欠失変異を検出する場合の好ましい手順を記載する。短い挿入／欠失変異の検出においては、配列データをそれぞれ参照配列と比較することによって、各配列データにおける該参照配列に対して塩基が挿入又は欠失されている部位を検出する。該参照配列との比較には、取得された配列データの一部を用いてもよく、又は全部を用いてもよい。検出される挿入又は欠失部位としては、好ましくは挿入又は欠失した塩基の長さが１０ｂｐ以下、より好ましくは１〜５ｂｐである部位がよいが、これに限定されない。検出された部位は、挿入又は欠失変異を有する変異部位として取得される。

さらに、取得された各変異について、変異のタイプ（挿入変異か又は欠失変異か）、該挿入又は欠失部位の塩基長、あるいは挿入又は欠失した塩基の種類を決定することができる。特定の塩基長の挿入又は欠失部位を検出する手順は、上述したＰｙｔｈｏｎ等のプログラミング言語を用いて作成したプログラムを用いて行うことができる。さらに、各配列データと参照配列との比較によって、挿入又は欠失した塩基の種類を同定することができる。これらにより、各配列データにおける挿入又は欠失部位の塩基長、あるいは挿入又は欠失部位の塩基の種類を決定することができる。さらに、挿入又は欠失の頻度を、塩基長及び／又は塩基の種類ごとに決定してもよい。例えば、各リード配列について取得した挿入又は欠失変異を塩基長ごとに分類し、それぞれの頻度を決定することができる。また例えば、挿入又は欠失した塩基をその種類（Ａ、Ｔ、Ｇ、及びＣ）ごとに分類し、それぞれの頻度を決定することができる。さらに、該塩基長及び塩基の種類による分類を組み合わせたより細かい変異の分類を行い、それぞれの頻度を決定することができる。

本発明の例示的実施形態として、さらに以下の物質、製造方法、用途、方法等を本明細書に開示する。ただし、本発明はこれらの実施形態に限定されない。

＜１＞ＤＮＡのシーケンシング方法であって、
（１）サンプルＤＮＡの断片を調製すること；
（２）該サンプルＤＮＡの断片をＰＣＲにかけてＰＣＲ産物を得ること、ここで、該サンプルＤＮＡの断片の各々について２つ以上の増幅断片が作製される；
（３）得られたＰＣＲ産物をシーケンシングし、該ＰＣＲ産物に含まれる複数の増幅断片の各々について１つ以上のリード配列を作成し、該複数の増幅断片についての複数のリード配列を得ること；
（４）得られた複数のリード配列の中から、該サンプルＤＮＡ上の同一領域の配列情報を有するリード配列を集めてグループ化することにより、リード配列のグループを１つ以上作成すること、ここで、該１つ以上のグループは、平均で１．０５〜３０個のリード配列を含む；
（５）該リード配列のグループに含まれるリード配列の間で配列情報のコンセンサスを取ること、
を含む、方法。
＜２＞ＤＮＡのシーケンシング方法であって、
（１）サンプルＤＮＡの断片を調製すること；
（２）該サンプルＤＮＡの断片をＰＣＲにかけてＰＣＲ産物を得ること、ここで、該サンプルＤＮＡの断片の各々について２つ以上の増幅断片が作製され、該ＰＣＲでの初期ＤＮＡ量は、該サンプルＤＮＡのサイズ１Ｍｂｐあたり２５０ａｍｏｌ以下である；
（３）得られたＰＣＲ産物をシーケンシングし、該ＰＣＲ産物に含まれる複数の増幅断片の各々について１つ以上のリード配列を作成し、該複数の増幅断片についての複数のリード配列を得ること；
（４）得られた複数のリード配列の中から、該サンプルＤＮＡ上の同一領域の配列情報を有するリード配列を集めてグループ化することにより、リード配列のグループを１つ以上作成すること；
（５）該リード配列のグループに含まれるリード配列の間で配列情報のコンセンサスを取ること、
を含む、方法。
＜３＞好ましくは、前記（３）が、前記サンプルＤＮＡの断片を構成する２本の相補鎖の各々に由来する増幅断片に対して１つ以上のリード配列を作成することを含む、＜１＞又は＜２＞記載の方法。
＜４＞好ましくは、前記（４）が、参照配列上の同一の位置にマッピングされるリード配列を同じグループに分けることを含む、＜１＞〜＜３＞のいずれか１項記載の方法。
＜５＞好ましくは、前記（５）が、前記リード配列のグループの中から、前記サンプルＤＮＡ断片の２本の相補鎖の各々に由来するリード配列を少なくとも１つずつ集め、集めたリード配列の間で配列情報のコンセンサスを取ることを含む、＜３＞又は＜４＞記載の方法。

＜６＞前記＜１＞記載の方法であって、好ましくは、
前記（３）において、前記複数のリード配列が、以下からなるリード配列のペアを複数個含み：
リード１：前記増幅断片を構成する２本の相補鎖のうちの一方の鎖の配列を５’末端側から３’側へ読んだ配列に相当する配列情報を含むリード配列、
リード２：該一方の鎖の配列を３’末端側から５’側へ読んだ配列に相当する配列情報を含むリード配列、
前記（４）が、得られたリード配列のペアの中から、該サンプルＤＮＡ上の同一領域の配列情報を有するリード配列のペアを集めてグループ化することにより、リード配列のペアのグループを１つ以上作成することを含み、ここで、該１つ以上のグループは、平均で１．０５〜３０個のリード配列のペアを含み、
前記（５）が、該リード配列のペアのグループに含まれるリード配列の間で配列情報のコンセンサスを取ることを含む、
方法。
＜７＞前記＜２＞記載の方法であって、好ましくは、
前記（３）において、前記複数のリード配列が、以下からなるリード配列のペアを複数個含み：
リード１：前記増幅断片を構成する２本の相補鎖のうちの一方の鎖の配列を５’末端側から３’側へ読んだ配列に相当する配列情報を含むリード配列、
リード２：該一方の鎖の配列を３’末端側から５’側へ読んだ配列に相当する配列情報を含むリード配列、
前記（４）が、得られたリード配列のペア中から、該サンプルＤＮＡ上の同一領域の配列情報を有するリード配列のペアを集めてグループ化することにより、リード配列のペアのグループを１つ以上作成することを含み、
前記（５）が、該リード配列のペアのグループに含まれるリード配列の間で配列情報のコンセンサスを取ることを含む、
方法。
＜８＞好ましくは、前記（３）が、前記サンプルＤＮＡの断片を構成する２本の相補鎖の各々に由来する増幅断片に対して１つ以上の前記リード配列のペアを作成することを含む、＜６＞又は＜７＞記載の方法。
＜９＞好ましくは、前記（４）が、前記リード配列のペアのリード１とリード２を参照配列に対してマッピングし、リード１の先頭とリード２の先頭とに挟まれる該参照配列の領域が同一であるリード配列のペアを同じグループに分けることを含む、＜６＞〜＜８＞のいずれか１項記載の方法。
＜１０＞好ましくは、前記（４）が、前記リード配列のペアに含まれる一方のリード配列の先頭が前記参照配列上の同じ位置に位置するリード配列のペアを集め、次いで集めたリード配列のペアの中から、該リード配列のペアに含まれるもう一方のリード配列の先頭が該参照配列上の同じ位置に位置するリード配列のペアを集めて、集めたリード配列のペアを同じグループに分けることを含む、＜９＞記載の方法。
＜１１＞好ましくは、前記サンプルＤＮＡ断片の２本の相補鎖が、それらの５’末端側と３’末端側に異なる標識配列を有し、かつ、前記シーケンシングにより、各リード配列に付随する該標識配列の情報が取得され、
前記リード配列のペアのグループの中のリード配列のペアを、それに含まれる２本のリード配列に付随する該標識配列の情報と、該２本のリード配列の前記参照配列上での互いの位置関係に基づいて、サンプルＤＮＡ断片の２本の相補鎖のどちらに由来するか識別することをさらに含む、＜１０＞記載の方法。
＜１２＞好ましくは、前記（５）が、前記リード配列のペアのグループの中から、前記サンプルＤＮＡ断片の２本の相補鎖の各々に由来するリード配列のペアを少なくとも１組ずつ集め、集めたリード配列のペアに含まれるリード配列の間で配列情報のコンセンサスを取ることを含む、＜８＞〜＜１１＞のいずれか１項記載の方法。

＜１３＞前記（４）で得られた前記１つ以上のリード配列のグループに含まれるリード配列の数が、該グループ間の平均で、
好ましくは１．０５〜３０個
より好ましくは１．１〜２０個、
さらに好ましくは１．２〜１０個、
なお好ましくは１．４〜５個、
である、＜１＞〜＜５＞のいずれか１項記載の方法。
＜１４＞前記シーケンシングにおいて、前記ＰＣＲでの初期ＤＮＡ量１ａｍｏｌあたり、
好ましくは０．０２〜１０×１０⁶個、
より好ましくは０．０４〜５×１０⁶個、
さらに好ましくは０．０８〜２．５×１０⁶個、
なお好ましくは０．１６〜２×１０⁶個、
のリード配列を取得するか、
あるいは、
好ましくは４〜２０００Ｍｂｐ、
より好ましくは８〜１０００Ｍｂｐ、
さらに好ましくは１６〜５００Ｍｂｐ、
なお好ましくは３２〜４００Ｍｂｐ、
のリード配列を取得する、
＜１＞〜＜５＞及び＜１３＞のいずれか１項記載の方法。

＜１５＞前記（４）で得られた前記１つ以上のリード配列のペアのグループに含まれるリード配列のペアの数が、該グループ間の平均で、
好ましくは１．０５〜３０個
好ましくは１．１〜２０個、
さらに好ましくは１．２〜１０個、
なお好ましくは１．４〜５個、
である、＜６＞〜＜１２＞のいずれか１項記載の方法。
＜１６＞前記シーケンシングにおいて、前記ＰＣＲでの初期ＤＮＡ量１ａｍｏｌあたり、
好ましくは０．０２〜１０×１０⁶個、
より好ましくは０．０４〜５×１０⁶個、
さらに好ましくは０．０８〜２．５×１０⁶個、
なお好ましくは０．１６〜２×１０⁶個、
のリード配列のペアを取得するか、
あるいは、
好ましくは４〜２０００Ｍｂｐ、
より好ましくは８〜１０００Ｍｂｐ、
さらに好ましくは１６〜５００Ｍｂｐ、
なお好ましくは３２〜４００Ｍｂｐ、
のリード配列のペアを取得する、
＜６＞〜＜１２＞及び＜１５＞のいずれか１項記載の方法。

＜１７＞前記（２）において、前記ＰＣＲでの前記サンプルＤＮＡのサイズ１Ｍｂｐあたりの初期ＤＮＡ量が、
好ましくは２５０ａｍｏｌ以下、
より好ましくは１２５ａｍｏｌ以下、
さらに好ましくは６２．５ａｍｏｌ以下、
なお好ましくは３１．３ａｍｏｌ以下、
さらになお好ましくは１５．６ａｍｏｌ以下、
さらになお好ましくは７．８ａｍｏｌ以下、
さらになお好ましくは３．９ａｍｏｌ以下、
さらになお好ましくは１．７ａｍｏｌ以下、
さらになお好ましくは０．８３ａｍｏｌ以下、
さらになお好ましくは０．４２ａｍｏｌ以下、
さらになお好ましくは０．２１ａｍｏｌ以下、
である、＜１＞〜＜１６＞のいずれか１項記載の方法。
＜１８＞前記（２）において、前記ＰＣＲでの前記サンプルＤＮＡのサイズ１Ｍｂｐあたりの初期ＤＮＡ量が、
好ましくは０．０００３ａｍｏｌ以上、
より好ましくは０．０００７ａｍｏｌ以上、
さらに好ましくは０．００２ａｍｏｌ以上、
なお好ましくは０．００５ａｍｏｌ以上、
さらになお好ましくは０．０１ａｍｏｌ以上、
さらになお好ましくは０．０３ａｍｏｌ以上、
さらになお好ましくは０．０５ａｍｏｌ以上、
さらになお好ましくは０．１ａｍｏｌ以上、
さらになお好ましくは０．３ａｍｏｌ以上、
さらになお好ましくは０．１ａｍｏｌ以上、
さらになお好ましくは０．３ａｍｏｌ以上、
さらになお好ましくは１ａｍｏｌ以上、
さらになお好ましくは２ａｍｏｌ以上、
さらになお好ましくは３．９ａｍｏｌ以上、
さらになお好ましくは７．８ａｍｏｌ以上、
である、＜１＞〜＜１７＞のいずれか１項記載の方法。
＜１９＞前記（２）において、前記ＰＣＲでの初期ＤＮＡ量が、
好ましくは０．１ａｍｏｌ以上、
より好ましくは１ａｍｏｌ以上、
さらに好ましくは５ａｍｏｌ以上、
なお好ましくは２０ａｍｏｌ以上、
さらになお好ましくは３９ａｍｏｌ以上、
さらになお好ましくは７８ａｍｏｌ以上、
である、＜１＞〜＜１８＞のいずれか１項記載の方法。
＜２０＞前記（２）において、前記ＰＣＲでの初期ＤＮＡ量が、
好ましくは１０００００ａｍｏｌ以下、
より好ましくは２００００ａｍｏｌ以下、
さらに好ましくは５０００ａｍｏｌ以下、
である、＜１＞〜＜１９＞のいずれか１項記載の方法。
＜２１＞前記サンプルＤＮＡが、
好ましくは１０ｋｂｐ以上、
より好ましくは１００ｋｂｐ以上、
さらに好ましくは１Ｍｂｐ以上、
なお好ましくは４Ｍｂｐ以上、
のサイズを有する、＜１＞〜＜２０＞のいずれか１項記載の方法。
＜２２＞前記シーケンシングにおいて、前記サンプルＤＮＡの１Ｍｂｐあたり、
好ましくは０．０５〜１６００×１０⁶個、
より好ましくは０．１〜８００×１０⁶個、
さらに好ましくは０．２〜４００×１０⁶個、
なお好ましくは０．５〜２００×１０⁶個、
さらになお好ましくは１〜１００×１０⁶個、
さらになお好ましくは２〜５０×１０⁶個、
のリード配列又はリード配列のペアを取得するか、
あるいは、
好ましくは０．０１〜３２０Ｇｂｐ、
より好ましくは０．０２〜１６０Ｇｂｐ、
さらに好ましくは０．０４〜８０Ｇｂｐ、
なお好ましくは０．１〜４０Ｇｂｐ、
さらになお好ましくは０．２〜２０Ｇｂｐ、
さらになお好ましくは０．４〜１０Ｇｂｐ、
のリード配列又はリード配列のペアを取得する、
＜１＞〜＜２１＞のいずれか１項記載の方法。
＜２３＞好ましくは、前記サンプルＤＮＡが哺乳動物由来ゲノムＤＮＡであり、かつ前記シーケンシングにおいて、該サンプルＤＮＡの１Ｍｂｐあたり、
好ましくは０．００００３〜１６×１０⁶個、
より好ましくは０．００００７〜８×１０⁶個、
さらに好ましくは０．０００１〜４×１０⁶個、
なお好ましくは０．０００３〜２×１０⁶個、
さらになお好ましくは０．０００５〜１×１０⁶個、
さらになお好ましくは０．００１〜０．５×１０⁶個、
のリード配列又はリード配列のペアを取得するか、
あるいは、
好ましくは０．００６〜３２００Ｍｂｐ、
より好ましくは０．０１４〜１６００Ｍｂｐ、
さらに好ましくは０．０２〜８００Ｍｂｐ、
なお好ましくは０．０６〜４００Ｍｂｐ、
さらになお好ましくは０．１〜２００Ｍｂｐ、
さらになお好ましくは０．２〜１００Ｍｂｐ、
のリード配列又はリード配列のペアを取得する、
＜１＞〜＜２１＞のいずれか１項記載の方法。
＜２４＞好ましくは、前記ＰＣＲにかけるサンプルＤＮＡの断片に、個別のサンプルＤＮＡの断片を識別するための標識が連結されていない、＜１＞〜＜２３＞のいずれか１項記載の方法。

＜２５＞ゲノムＤＮＡの変異を検出する方法であって、
細胞中のゲノムＤＮＡをサンプルＤＮＡとして用いて、＜１＞〜＜２４＞のいずれか１項記載のＤＮＡのシーケンシング方法を実施し、配列データを作成すること；該配列データを参照配列と比較して、該配列データと該参照配列とで塩基がマッチしない部位を変異部位として検出すること、ここで該参照配列は、該ゲノムＤＮＡ中の既知配列である、
を含む、方法。
＜２６＞好ましくは、前記ゲノムＤＮＡが試験物質に曝露した細胞のゲノムＤＮＡを含む、＜２５＞記載の方法。
＜２７＞好ましくは、
前記ゲノムＤＮＡが試験物質に曝露した細胞のゲノムＤＮＡと、該試験物質に曝露していない対照細胞のゲノムＤＮＡを含み、
該試験物質に曝露した細胞のゲノムＤＮＡについて検出した変異と、該対照細胞のゲノムＤＮＡについて検出した変異とを比較することをさらに含む、
＜２６＞記載の方法。
＜２８＞前記細胞が、
好ましくは微生物細胞であり、
より好ましくは大腸菌細胞、サルモネラ菌細胞、又は酵母細胞であり、
さらに好ましくはサルモネラ菌細胞である、
＜２５＞〜＜２７＞のいずれか１項記載の方法。
＜２９＞好ましくは、前記サルモネラ菌がＳ．ｔｙｐｈｉｍｕｒｉｕｍＬＴ−２株、ＴＡ１００株、ＴＡ９８株、ＴＡ１５３５株、ＴＡ１５３８株又はＴＡ１５３７株である、＜２８＞記載の方法。
＜３０＞好ましくは、前記細胞が哺乳動物細胞、又は哺乳動物由来培養細胞である、＜２５＞〜＜２７＞のいずれか１項記載の方法。
＜３１＞好ましくは、前記哺乳動物がヒト又はマウスである、＜３０＞記載の方法。
＜３２＞好ましくは、前記ゲノムＤＮＡの変異が経時変化によるゲノムＤＮＡの変異を含む、＜２５＞記載の方法。
＜３３＞好ましくは、
前記ゲノムＤＮＡが、経時変化した細胞のゲノムＤＮＡと、より経時変化していない細胞のゲノムＤＮＡを含み、
該経時変化した細胞のゲノムＤＮＡについて検出した変異と、該より経時変化していない細胞のゲノムＤＮＡについて検出した変異とを比較することをさらに含む、
＜３２＞記載の方法。
＜３４＞好ましくは、前記細胞が哺乳動物細胞、又は哺乳動物由来培養細胞である、＜３２＞又は＜３３＞記載の方法。
＜３５＞好ましくは、前記細胞が培養細胞である、＜３２＞又は＜３３＞記載の方法。
＜３６＞好ましくは、前記変異が塩基対置換型変異である、＜２５＞〜＜３５＞のいずれか１項記載の方法。

以下、実施例を示し、本発明をより具体的に説明する。

以下の実施例１では、サンプルＤＮＡの一断片に対して複数のリード配列の情報を用いることで、個別のＤＮＡ断片を識別する標識を用いることなく、サンプルＤＮＡの配列情報のみに基づいて高精度なシーケンシングを可能にするアルゴリズムを構築した。

さらに、実施例２〜５では、当該アルゴリズムを用いたシーケンシング方法の最適条件を検討した。上述したとおり、シーケンシングの効率及び精度に影響を与えうる因子として、主にライブラリ調製時のＰＣＲ条件、シーケンシング量、そして解析対象ゲノムのサイズが重要と考えられた。そこで、これらの因子を調整して、サンプルＤＮＡの相補鎖情報を含む複数のリード配列を用いるシーケンシング方法について、化学物質等によるゲノム全体の変異の傾向を捉える上で必要な精度を達成し、効率の最大化が得られる最適条件の探索を行った。本実施例では、シーケンサーに、現在最も汎用されているイルミナ社のＨｉＳｅｑを用いた。

実施例１複数のリード配列を用いたシーケンシングアルゴリズム
１）ＤＮＡ相補鎖情報を用いたシーケンシングアルゴリズム
本アルゴリズムでは、個別のＤＮＡ断片を識別する標識（断片分子固有のタグ配列等）を用いることなく、同一ＤＮＡ断片のＰＣＲ産物に由来すると推定されるリード配列（リードペア）を集め、次いで、２本の相補鎖（以下、Ａ鎖及びＢ鎖と称する）のそれぞれに由来すると推定されるリード配列間でのコンセンサスリード配列（相補鎖間コンセンサスリード配列）を作成し、配列データとして取得する。得られた相補鎖間コンセンサスリード配列は、解析対象ＤＮＡの変異解析などに利用することができる。

当該相補鎖間コンセンサスリード配列の取得の基本的なフローを以下に説明する。
i）本実施例で用いるライブラリプールには、サンプルＤＮＡ断片の２本の相補鎖の双方に由来するＰＣＲ産物が含まれる。したがって、このライブラリプールがシーケンシングされた場合、該２本の相補鎖のそれぞれについてリード１とリード２が作成され得る。

ii）互いに相補的な鎖のリード配列を識別するため、ＰＣＲの前に、サンプルＤＮＡ断片の両末端に、非対称の標識ＤＮＡ配列を末端に含むアダプター配列を連結する。全てのサンプルＤＮＡ断片の両末端に、それぞれ同一のアダプター配列が付加される。これにより、全てのサンプルＤＮＡ断片のＡ鎖の５’末端とＢ鎖の５’末端、及びＡ鎖の３’末端とＢ鎖の３’末端には、それぞれ同じ標識配列が付加され、一方、１つの鎖の中で５’末端と３’末端には異なる標識配列が付加される。次いで、該アダプター配列に特異的に結合するプライマーを用いたＰＣＲにより、該アダプター配列を含むＰＣＲ産物を生成し、シーケンシング用のライブラリプールとして用いる。増幅産物中に含まれるアダプター配列が、後述のシーケンシングの際に使用されるフローセル上のオリゴＤＮＡ断片とアニーリングすることで、フローセル上に増幅産物が結合される。通常片側の鎖に由来する増幅産物のみをフローセル上に存在させた後に、シーケンシング反応を行う。

iii）得られたライブラリプールについてシーケンシングを行う。シーケンシングでは、ライブラリプール中の各ＰＣＲ産物に含まれる個々の増幅断片（サンプルＤＮＡ断片に由来する）に対して、それぞれ２本のリード配列（リード１、リード２）のペアが取得される。このとき、該増幅断片の一方の鎖の配列を５’側から３’側へ読んだ配列情報を含むリード配列がリード１（Ｒ１）であり、同じ鎖の配列を３’側から５’側へ読んだ配列に相当する配列情報を含むリード配列がリード２（Ｒ２）である。サンプルＤＮＡ断片の２本の相補鎖由来のリードペアを参照配列上にマッピングしたときの、参照配列に対する各リードペアの配置の概念図を模式図１に示す。なお参考のため、模式図１には、各リードペアが由来するサンプルＤＮＡ断片の２本の相補鎖を図示する。互いに相補的な鎖に由来するリードペアの間では、リード１の先頭とリード２の先頭とに挟まれる該参照配列の領域は同一である。したがって参照配列上でのリードペアのマッピング位置に基づいて、同じサンプルＤＮＡ断片に由来すると考えられるリードペアを集めることができる。

なお、以下の実施例において、用語を以下のように定義する：参照配列上における、マッピングしたリード１（リード２）の先頭からリード２（リード１）の先頭までの領域、言い換えると、リードペア（リード１、リード２）を参照配列上にマッピングしたときに、リード１の先頭とリード２の先頭とに挟まれる該参照配列の領域を、「推定フラグメント」と称する。推定フラグメントが共通するリードペアの群を、推定フラグメントについての「グループ」と称する（模式図２）。

iv）次いで、推定フラグメントについてのグループから、互いに相補的な２本の鎖のそれぞれに由来するリードペアの組み合わせを、リードペアのセットとして取得する。

サンプルＤＮＡ断片から得られた増幅断片は、サンプルＤＮＡ断片に元々含まれる変異を両鎖に保有するのに加えて、片方の鎖のみに、サンプルＤＮＡ断片の塩基修飾などに起因する塩基の変更を有することがある。このようなケースを模式図１、２に例示する。模式図１に示すサンプルＤＮＡ断片は、変異による塩基置換を両鎖に１つずつ保有する。一方、模式図２に示した該サンプルＤＮＡ断片由来の増幅断片は、変異による塩基置換（真の変異）を両鎖に保有するのに加え、片方の鎖のみにサンプル調製過程で生じた塩基置換（エラー）を有する。これらの真の変異及びエラーは、各リードペアのリード１とリード２に読み取られている。したがって、相補鎖に由来するリードペアのセットの有する配列情報から、両鎖に固定された真の変異と片方の鎖のみに生じたエラーとを区別し、真の変異を抽出することができる。

本アルゴリズムでは、集めたリードペアのセットから相補鎖間コンセンサスリード配列を作成する。相補鎖間コンセンサスリード配列の作成においては、まず、推定フラグメントの共通するリードペアを集め、それらをＡ鎖由来のリードペアとＢ鎖由来のリードペアとに分ける。次いで、１つ以上のＡ鎖由来のリードペアと１つ以上のＢ鎖由来のリードペアとの組み合わせをリードペアのセットとして取得し、それらを用いて相補鎖間コンセンサスリード配列を作成する。Ａ鎖由来、またはＢ鎖由来のリードペアの数は特に限定されず、Ａ鎖由来とＢ鎖由来双方のリードペアが少なくとも１つ以上含まれていれば良い。例えば、Ａ鎖由来のリードペアが２つで、Ｂ鎖由来のリードペアが２つの場合や、Ａ鎖由来のリードペアが３つで、Ｂ鎖由来のリードペアが１つの場合でも、それらの間でコンセンサスを取ることで相補鎖間コンセンサスリード配列を作成する。

リードペアの集合化から相補鎖間コンセンサスリード配列作成までのより具体的な手順の例を、以下の模式図３に示す。模式図３の手順では、まず、各相補鎖由来のリードペアを参照配列にマッピングする（１）。このとき、参照配列上で左端（参照配列上の最も５’側に配置する端）が同じ位置にあるリードペアの群を第一集合として取得する（２）。次いで、該第一集合から、参照配列上で右端（参照配列上の最も３’側に配置する端）が同じ位置にあるリードペアの群を分け、第二集合として取得する（３）。この第二集合は、推定フラグメントの共通するリードペアの集合である。次いで、第二集合を、Ａ鎖に由来する群（Ｆ群）と、Ｂ鎖に由来する群（Ｒ群）とに分ける（４）。このとき、Ａ鎖に由来する群であるかＢ鎖に由来する群であるかは、シーケンシングの際に取得される標識配列の情報に基づいて識別することができる。本実施例においては、サンプルＤＮＡ断片に付加されたアダプター配列中の標識配列を認識し結合するフローセルを用いてシーケンシング反応を行った。フローセル内での断片の増幅後、５’側に付加されたアダプター配列中の標識配列を特異的に切断することにより、各増幅断片のリード１、リード２のシーケンシングの方向性を統一することで、標識配列の情報に基づいてリードペアをＦ群とＲ群とに分けた。該Ｆ群とＲ群は、それぞれ、ＤＮＡ断片を構成する２本の相補鎖のいずれか一方に由来するリードペアの集合である。したがって、該Ｆ群とＲ群との間でコンセンサスを取ることにより、相補鎖間コンセンサスリード配列を作成することができる（５）。

相補鎖間コンセンサスリード配列を作成することにより、片方の鎖にのみ生じた変異はエラーとして除外し、両方の鎖に共通して存在する変異を真の変異として取得することができる。この手順により、相補鎖情報を用いて真の変異から解析エラーを除外し、シーケンシングの精度を向上させることが理論的に可能となる。

２）相補鎖間コンセンサスリード配列に基づく変異解析
１）で得られた相補鎖間コンセンサスリード配列は、各種解析に利用することができる。代表的な例として、相補鎖間コンセンサスリード配列を用いたゲノムＤＮＡの変異解析について以下に説明する。

基本的には、まず、上記１）の手順で解析対象のゲノムＤＮＡをシーケンシングし、相補鎖間コンセンサスリード配列を作成する。次いで、得られた相補鎖間コンセンサスリード配列を用いて、通常の手順により、解析対象ゲノムの変異を検出する。例えば、相補鎖間コンセンサスリード配列を再度参照配列上にマッピングすることで、解析対象ゲノムの変異を検出することができる。以下の実施例における実際のデータの変異解析は、模式図４に示したフローに従って行った。解析には、Ｃｕｔａｄａｐｔソフトウェア、Ｂｏｗｔｉｅ２ソフトウェア、Ｓａｍｔｏｏｌｓソフトウェア、及びプログラミング言語Ｐｙｔｈｏｎを用いて作成したプログラムを用いた。参照配列に再マッピングした相補鎖間コンセンサスリード配列から変異した塩基を検出するための具体的な手順は、ＰＣＴ／ＪＰ２０１７／００５７００（その全体を本明細書に援用する）に記載された手順に従って実施することができる。具体的な検出の手順は後述の実施例２及び３に記載する。

実施例２変異原暴露ＤＮＡサンプルを用いた最適シーケンシング条件の探索
本実施例では、ゲノム変異解析用の配列データを得るための、実施例１に記載したアルゴリズムによるシーケンシングにおける最適条件を探索した。サンプルＤＮＡには、代表的な変異原であるＥｔｈｙｌｎｉｔｒｏｓｏｕｒｅａ（ＥＮＵ、ＣＡＳＲＮ．７５９−７３−９）を暴露したＳａｌｍｏｎｅｌｌａｔｙｐｈｉｍｕｒｉｕｍ（Ｓ．ｔｙｐｈｉｍｕｒｉｕｍ）ＬＴ−２ＴＡ１００株（以下、単に「ＴＡ１００株」とも称する）のゲノムＤＮＡを用いた。

１）ＴＡ１００株のゲノムＤＮＡサンプルの調製
ＥＮＵへの細胞の曝露は、Ａｍｅｓ試験のプレインキュベーション法（K. Mortelmans et al., Mutat. Res. - Fundam. Mol. Mech. Mutagen., 455:29-60, 2000）に準拠して実施した。ＴＡ１００株を２ｍＬのニュートリエントブイヨンＮｏ．２（Ｏｘｏｉｄ社製）に植菌し、３７℃、１８０ｒｐｍで４時間振とう培養し、Ｏ．Ｄ．６６０値が１．０以上の前培養液を得た。ＥＮＵ（シグマアルドリッチ社製）は、ジメチルスルホキシド（ＤＭＳＯ；和光純薬工業製）で希釈した。試験管内に、ＥＮＵ溶液１００μＬ、０．１Ｍリン酸バッファー５００μＬ、及び前培養液１００μＬを添加し（ＥＮＵ量：６２．５、１２５、２５０、５００、及び１０００μｇ／ｔｕｂｅ）、３７℃のウォーターバス中で２０分間、１００ｒｐｍで振とう培養した（ＥＮＵ群）。コントロール群には、ＥＮＵ溶液の代わりに溶媒（ＤＭＳＯ）１００μＬを添加した。２０分間振とう培養後、培養液を含む試験管をウォーターバスから取り出し、予め分注しておいた２ｍＬのＮｕｔｒｉｅｎｔＢｒｏｔｈ溶液に培養液５０μＬを添加し、インキュベーター内で３７℃、１８０ｒｐｍで１４時間追培養した後、菌懸濁液を回収し、７５００ｒｐｍで５分間遠心し、上清を除去し、菌体を回収した。

また、Ａｍｅｓ試験用に、上記と同様の条件で、プレインキュベーション法でＥＮＵを曝露した菌懸濁液を作製し、４５℃に加温した２ｍＬのｔｏｐａｇａｒ（１％ＮａＣｌ、１％ａｇａｒ、０．０５ｍＭＨｉｓｔｉｄｉｎｅ及び０．０５ｍＭＢｉｏｔｉｎｅを含む）を添加し、ボルテックスで懸濁した後、最小グルコース寒天培地（テスメディア（登録商標）ＡＮ；オリエンタル酵母工業製）上に重層した。得られたプレートを３７℃で４８時間培養後、観察されたコロニーを計数した。

２）ＴｏｔａｌＤＮＡの回収と濃度測定
１）で得られた菌体（コントロール群、およびＥＮＵ群）から、ＤＮｅａｓｙＢｌｏｏｄ＆ＴｉｓｓｕｅＫｉｔ（キアゲン社製）を用い、推奨プロトコールに従って、ＴｏｔａｌＤＮＡを回収した。得られたＤＮＡサンプルの２本鎖ＤＮＡの濃度を、Ｑｕｂｉｔ３．０Ｆｌｕｏｒｏｍｅｔｅｒ（ＴｈｅｒｍｏＦｉｓｈｅｒＳｃｉｅｎｔｉｆｉｃ社製）を用いて、付属のＱｕｂｉｔ^TM ｄｓＤＮＡＢＲＡｓｓａｙＫｉｔで測定した。

３）シーケンシング用ライブラリの調製
２）で濃度を測定した各ＤＮＡサンプル（コントロール群及びＥＮＵ群）の１００ｎｇ相当量をそれぞれ複数サンプル用意し、各々をＤＮＡＳｈｅａｒｉｎｇシステムＭＥ２２０（コバリス社製）で推奨プロトコールに従って平均約３５０ｂｐの長さに断片化した。得られた断片化ＤＮＡをＴｒｕＳｅｑＮａｎｏＤＮＡＬｉｂｒａｒｙＰｒｅｐＫｉｔ（イルミナ社製、以下ＴｒｕＳｅｑと略記する）を用いて、推奨プロトコールに従ってライブラリ調製に供した。

ライブラリ調製では、得られたＤＮＡ断片を、実施例１で説明した標識配列を末端に含むアダプター配列で標識した。それらを用いて表１記載の異なる条件でＰＣＲを行い、シーケンシング用ライブラリを調製して、条件の異なるライブラリをそれぞれ標識した。アダプター配列は、イルミナ社のＴｒｕＳｅｑに付属のアダプター配列を使用した。なお、表１のとおり、使用するアダプター配列はライブラリごとに変更し、さらに各ライブラリには、それぞれ、異なるインデックス配列により区別される２種類の異なるアダプター（１^stｉｎｄｅｘ及び２^ndｉｎｄｅｘ）を使用した。したがって各ライブラリの各断片には、２種類のアダプターのどちらかが結合した。すなわち、各サンプル（コントロール群及びＥＮＵ群）のライブラリ調製液に、表１に従って、１^stｉｎｄｅｘ又は２^ndｉｎｄｅｘのアダプターを添加して、それぞれ別々にライゲーション反応に供した。得られたライゲーション反応液を推奨プロトコールに従って精製した後、Ａｇｉｌｅｎｔ４２００ＴａｐｅＳｔａｔｉｏｎ（アジレント・テクノロジー社製）のＨｉｇｈＳｅｎｓｉｔｉｖｉｔｙＤ５０００キットを用いてライゲーション産物の濃度測定を行った。測定濃度を基に、各サンプルを表１に従って、ＴｒｕＳｅｑのＲｅｓｕｓｐｅｎｓｉｏｎＢｕｆｆｅｒで段階的に希釈し、１^stｉｎｄｅｘと２^ndｉｎｄｅｘのアダプターのライゲーション産物それぞれの希釈液各１２．５μＬを混合し、２５μＬとした。得られた混合液を、推奨プロトコールに従い、ＰＣＲによる精製に供した。ＰＣＲでの初期ＤＮＡ量の差を調整するため、各サンプルを表１記載のＰＣＲサイクル数で増幅し、ライブラリのＤＮＡ量を調整した。

４）シーケンシング
３）で調製したライブラリを、ＨｉＳｅｑ２５００（イルミナ社製）を用いて、表１記載のライブラリＮｏ．１〜８については２×１２５ｂｐのリード長で、ライブラリＮｏ．９〜１４については２×１００ｂｐのリード長でシーケンシングした。ライブラリあたり、平均で約１０Ｇｂｐのシーケンシングデータを得た。

５）リード配列の編集、相補鎖情報の抽出、及び変異解析
シーケンシングによって得られた生リード配列の編集及び変異解析は、上述の模式図４に示す解析フローに従って実施した。まず、Ｃｕｔａｄａｐｔソフトウェアを用いて、生リード配列からアダプター配列、及びクオリティの低い塩基等のトリミングを行いリード配列のペアを作成した。次に、得られたトリミング後のリードペアのＦａｓｔｑファイルについて、アダプター配列のインデックス情報を元に、同一ライブラリに由来するＦａｓｔｑファイルを１つのファイルにまとめた。なお、アダプター配列のインデックス情報は、リード配列情報にリンクされている情報であるが、リード配列に含まれる情報ではない。一方、より少ないシーケンシングデータ量での解析のため、約２Ｇｂｐ（１０×１０⁶個（１０Ｍ）のリードペア）のシーケンシングデータの解析を実施した。すなわち、上記の約１０ＧｂｐのシーケンシングデータのＦａｓｔｑファイル（１０ＧｂｐＦａｓｔｑファイル）の先頭と末尾から、それぞれ５×１０⁶個（計１０×１０⁶個、１０Ｍリードペア）のリードペアを抽出して１つのファイルにまとめ、約２Ｇｂｐでの解析用のＦａｓｔｑファイル（２ＧｂｐＦａｓｔｑファイル）を作成した。その後、これらのＦａｓｔｑファイル（１０Ｇｂｐ及び２Ｇｂｐ）について、Ｂｏｗｔｉｅ２ソフトウェアを用いて参照配列へのマッピングを行い、Ｓａｍフォーマットのファイルを得た。Ｓａｍｔｏｏｌｓソフトウェアを用いてＳａｍフォーマットのファイルのリードの並び替えを実施した後、プログラミング言語Ｐｙｔｈｏｎを用いて作成したプログラムを用いて、実施例１に示したアルゴリズムに従って、推定フラグメントが共通する２本の相補鎖に由来するリードペアのセットを抽出し、該リードペアのセットから相補鎖間コンセンサスリード配列を作成した（模式図３参照）。得られた相補鎖間コンセンサスリード配列は、新たなＦａｓｔｑ形式のファイルとして出力した。得られた相補鎖間コンセンサスリード配列を、再度Ｂｏｗｔｉｅ２ソフトウェアで参照配列にマッピングし、Ｓａｍｔｏｏｌｓソフトウェア、及びプログラミング言語Ｐｙｔｈｏｎを用いて作成したプログラムを用いて、変異解析を行った。なお、Ｂｏｗｔｉｅ２ソフトウェアでマッピングする参照配列には、ＰＣＴ／ＪＰ２０１７／００５７００に記載されるＳ．ｔｙｐｈｉｍｕｒｉｕｍＴＡ１００株のゲノム配列を用いた。

６）リードペア数分布の算出
５）で作成した各ライブラリからの１０ＧｂｐＦａｓｔｑファイル及び２ＧｂｐＦａｓｔｑファイルそれぞれについて、マッピング結果を基に推定フラグメントについてのグループあたりのリードペア数を計数し、リードペア数が等しいグループの数を集計して、グループあたりリードペア数の分布を求めた。また、この分布から、各ライブラリにおける平均リードペア数／グループを算出した。

７）重なり率の算出
５）で作成した各ライブラリの１０ＧｂｐＦａｓｔｑファイル及び２ＧｂｐＦａｓｔｑファイルそれぞれから、マッピング結果を基に、推定フラグメントについてのグループのうち２つ以上のリードペアが含まれるグループを抽出した。抽出したグループを対象として、各リードペアについてのアダプター配列のインデックス情報を元に、異なるＤＮＡ断片に由来するリードペア（同一断片の２本の相補鎖に由来しないリードペア）を含むグループの割合（重なり率、Overlap rate）を算出した。すなわち、各リードペアのインデックス配列（１^stｉｎｄｅｘ又は２^ndｉｎｄｅｘ）を確認し、１^stｉｎｄｅｘ付リードペアと２^ndｉｎｄｅｘ付リードペアの両方を含むグループの数、及び抽出した２つ以上のリードペアが含まれるグループ全体に対するそれらの割合（重なり率）を算出した（模式図５）。
重なり率（％）＝（１^stｉｎｄｅｘ付リードペアと２^ndｉｎｄｅｘ付リードペアの両方を含むグループの数）／（２つ以上のリードペアが含まれるグループの数）×１００

８）変異頻度、及び解析効率の算出
５）で相補鎖間コンセンサスリード配列を参照配列にマッピングした後、ＰＣＴ／ＪＰ２０１７／００５７００に記載された手順に従って、変異した塩基を検出した。すなわち、Ｐｙｔｈｏｎを用いたプログラムを用いて、各ライブラリについて、参照配列に対してマッピングされた全相補鎖間コンセンサスリード配列中の全解析対象塩基を、対応する参照配列の塩基によって４群に分けた。次いで各群の塩基の総数、及び参照配列に対して変異した塩基を検出した。検出した変異した塩基を参照配列の塩基と比較することで、コントロール群及びＥＮＵ群それぞれについて、解析対象塩基中におけるＡＴ塩基対、ＧＣ塩基対の各１０⁶ｂｐにおける各変異パターン（ＡＴ→ＴＡ、ＡＴ→ＣＧ、ＡＴ→ＧＣ、及びＧＣ→ＴＡ、ＧＣ→ＣＧ、ＧＣ→ＡＴ）、及び各変異パターンの変異頻度を算出した。また、変異解析の際に用いた各ライブラリについてのコンセンサスリード配列中の解析対象塩基の総量（ｂｐ）と、各ライブラリのシーケンシングで読み取ったシーケンシングデータ量（ｂｐ）から、各ライブラリの解析効率（Data efficiency）を算出した。
解析効率（％）＝（相補鎖間コンセンサスリード配列中の解析対象塩基の総量）／（シーケンシングデータ量）×１００

９）結果と考察
I）Ａｍｅｓ試験の復帰突然変異体数
表２にＥＮＵ曝露後の復帰突然変異体コロニー数を示す。データは３枚のプレートの測定値と、その平均値を示す。ＥＮＵ曝露により、復帰突然変異体コロニー数の増加が認められたことから、ＥＮＵ曝露によりＴＡ１００株のゲノム中に変異が導入されたことが確認できた。

II）シーケンシングにおける解析効率とリードペア数分布に対する初期ＤＮＡ量の影響
i）１０Ｇｂｐシーケンシングデータ
６）で算出した、１０ＧｂｐＦａｓｔｑファイルにおける推定フラグメントについてのグループあたりのリードペア数の分布を、図１〜２に示す。図１にコントロール（ＤＭＳＯ曝露）群、図２にＥＮＵ（ＥＮＵ曝露）群のデータを、ＰＣＲでの初期ＤＮＡ量の異なるライブラリ（ライブラリＮｏ．１、４〜１４）ごとに示す。コントロール群及びＥＮＵ群のいずれにおいても、ＰＣＲでの初期ＤＮＡ量を減らすにつれて、グループあたりのリードペア数が増加する傾向がみられた。また、ＰＣＲでの初期ＤＮＡ量ごとに、８）で算出した解析効率を図３に示す。コントロール群において、初期ＤＮＡ量２００００〜１５６ａｍｏｌ（約４０００〜３１．３ａｍｏｌ／Ｍｂｐ（ｇｅｎｏｍｅ））ライブラリのシーケンシングでは、１５６ａｍｏｌで最も効率が良かったが、初期ＤＮＡ量をさらに減少させることでさらに効率が上がることが推測できた。そこで、さらに初期ＤＮＡ量１５６〜５ａｍｏｌ（約３１．３〜１ａｍｏｌ／Ｍｂｐ（ｇｅｎｏｍｅ））のライブラリをシーケンシングした結果、７８ａｍｏｌが最も効率が良かったことから、７８ａｍｏｌ（約１５．６ａｍｏｌ／Ｍｂｐ（ｇｅｎｏｍｅ））が最も解析効率が良い初期ＤＮＡ量と考えられた。

ii）２Ｇｂｐシーケンシングデータ
２ＧｂｐＦａｓｔｑファイルについて、i）と同様の解析を行った。２Ｇｂｐのシーケンシングデータの解析は、コントロール群についてのみ実施した。ＰＣＲでの初期ＤＮＡ量を減らすにつれて、１０Ｇｂｐデータと同様に、グループあたりのリードペア数が増加する傾向がみられた（図４）。解析効率は、１０Ｇｂｐデータとは異なり、２０ａｍｏｌの初期ＤＮＡ量で最大となった（図５）。

iii）解析効率とリードペア数の関係性
グループに含まれる平均的なリードペア数が少なければ、相補鎖間コンセンサスリード配列を作成できるグループが少なくなり、解析効率は低くなると考えられる。一方、グループあたりの平均的なリードペア数が多すぎれば、一つの相補鎖間コンセンサスリード配列作成に使用されるリード数が多くなり、逆に効率が低下するものと考えられる。１０Ｇｂｐ及び２Ｇｂｐシーケンシングデータについての初期ＤＮＡ量ごとの解析効率と推定フラグメントのグループあたり平均リードペア数を調べた。結果を表３に示す。１０Ｇｂｐ及び２Ｇｂｐシーケンシングデータのいずれにおいても、平均リードペア数は、基本的には初期ＤＮＡ量の減少に従って増加した。１０Ｇｂｐシーケンシングデータでは、最も効率のよい７８ａｍｏｌにおける平均リードペア数は、コントロール群で２．３５、ＥＮＵ群で２．３２であった。２Ｇｂｐシーケンシングデータでは、最も効率のよい２０ａｍｏｌにおける平均リードペア数は、２．２１で、１０Ｇｂｐの場合と近い値であった。この結果から、推定フラグメントについてのグループに含まれるリードペア数が平均約２になる辺りで、最適な解析効率が得られることが示された。

III）シーケンシングデータの重なり率に対する初期ＤＮＡ量の影響
i）１０Ｇｂｐシーケンシングデータ
７）で１０ＧｂｐＦａｓｔｑファイルについて算出した、１つの推定フラグメントについてのグループが異なるＤＮＡ断片に由来するリードペアを含む割合（重なり率）を、図６及び表４〜５に示す。図６Ａ及び表４にＤＭＳＯ曝露（コントロール）群、図６Ｂ及び表５にＥＮＵ曝露（ＥＮＵ）群のデータを示す。重なり率は、異なる細胞からの別々のＤＮＡ断片由来の異なるリード同士が、偶然等価の配列情報を有することで、同一断片由来のリードとして誤認識された割合を表す。本実施例では２種類のインデックスを用いたことから、異なるＤＮＡ断片が同一断片として誤認識される事象のうち、およそ半数が検出されたと推定される。したがって、得られた重なり率の約２倍の値が、異なるＤＮＡ断片の配列が偶然等価の配列情報を有する実際の割合（真の重なり率）であると推定される。１０Ｇｂｐシーケンシングデータでは、ＰＣＲでの初期ＤＮＡ量が減少するに従って重なり率は低下した。最も解析効率の高い初期ＤＮＡ量７８ａｍｏｌ（約１５．６ａｍｏｌ／Ｍｂｐ（ｇｅｎｏｍｅ））での重なり率は、コントロール群で０．５９％、ＥＮＵ群で０．７５％であったことから、７８ａｍｏｌ（約１５．６ａｍｏｌ／Ｍｂｐ（ｇｅｎｏｍｅ））付近は、解析効率が高いと同時に、真の重なり率を１％程度に抑えられる初期ＤＮＡ量であると考えられた。

ii）２Ｇｂｐシーケンシングデータ
２ＧｂｐＦａｓｔｑファイルについてのコントロール群での重なり率を表６に示す。１０Ｇｂｐシーケンシングデータと比較して、重なり率がやや低下する傾向が認められたが、大きな変化は確認されなかった。

IV）変異頻度に対する初期ＤＮＡ量の影響
８）で求めた、各ライブラリからの１０Ｇｂｐシーケンシングデータをもとに検出した変異頻度を図７〜８に示す。ＥＮＵ群では、いずれのライブラリにおいてもＧＣ→ＡＴ変異の頻度が最も高かった。これは、既知のＥＮＵによる変異の変異スペクトル解析の結果と一致していた（Matsuda et al., Genes and Environment, 2015、37：15-24）。ＰＣＲでの初期ＤＮＡ量が２００００〜１５６ａｍｏｌ（約４０００〜３１．３ａｍｏｌ／Ｍｂｐ（ｇｅｎｏｍｅ））のライブラリでは、初期ＤＮＡ量が低下するに従ってＥＮＵ群での変異頻度が上昇する傾向があった（図７）。一方、１５６〜５ａｍｏｌ（約３１．３〜１ａｍｏｌ／Ｍｂｐ（ｇｅｎｏｍｅ））のライブラリでは、初期ＤＮＡ量による変異頻度の上昇はみられなかった（図８）。特に重なり率が１％を下回るＰＣＲ初期ＤＮＡ量が７８ａｍｏｌ〜５ａｍｏｌの条件においては、重なり率の低下に伴う変異頻度の上昇が認められないことから、重なりによる変異頻度への影響が実験誤差の範囲に収まっており、これらの条件が示す付近に真の変異頻度があるものと考えられた。そこで、これら条件のうち、ＧＣ→ＡＴ変異頻度が最も高かった２０ａｍｏｌ（約４ａｍｏｌ／Ｍｂｐ（ｇｅｎｏｍｅ））ライブラリを基準にした各ライブラリのＧＣ→ＡＴ変異の相対変異頻度を算出し、重なり率とともに表７に示した。Ｓ．ｔｙｐｈｉｍｕｒｉｕｍのゲノム（ゲノムサイズ約４．８６Ｍｂｐ）においては、およそ１２５０ａｍｏｌ（約２５０ａｍｏｌ／Ｍｂｐ（ｇｅｎｏｍｅ））以下の初期ＤＮＡ量、又はＤＮＡの多様度がこれと同等以下のライブラリを用いれば、少なくとも７０％以上の精度で変異を検出できることが示唆された。一方、ＰＣＲでの初期ＤＮＡ量が多くなるにつれ変異頻度は低下した。表７に示した各ライブラリの重なり率から、ＰＣＲでの初期ＤＮＡ量が多い条件では、重なり率が大きいために本来変異として検出されるべきものがエラーとして誤認識され、正確な変異頻度が算出されていなかったと推測された。

V）最適なシーケンシング条件の検討
本実施例でのシーケンシングにおける各種条件を表８に示す。表８の各列の数値は、以下の理論値、設定値、及び測定値を示す。
Ａ．ＰＣＲでの初期ＤＮＡ量（ａｍｏｌ）
Ｂ．サンプルＤＮＡ１ＭｂｐあたりのＰＣＲでの初期ＤＮＡ量（ａｍｏｌ／Ｍｂｐ（ｓａｍｐｌｅＤＮＡ））
Ｃ．ＰＣＲ開始時のＤＮＡ断片の総数（個：６．０２×１０²³個×Ａ）
Ｄ．ＰＣＲのサイクル数
Ｅ．ＰＣＲにおける各断片の増幅率（２のＣ乗）
Ｆ．ＰＣＲ増幅後の断片の総数（Ｂ×Ｄ）
Ｇ．Ｅのうち、同一ＤＮＡ断片由来のＰＣＲ産物が占める割合（Ｄ／Ｅ）
Ｈ．シーケンシングされた塩基の総数（シーケンシングデータ量）
Ｉ．シーケンシングデータ中のリードペア数
Ｊ．重なり率（異なるＤＮＡ断片が同一断片として誤認識される割合）の測定値
Ｋ．推定フラグメントについてのグループあたりのリードペア数の測定値
Ｌ．解析効率の測定値

i）解析効率の最大化
表３に示したデータから、シーケンシングにおける解析効率は、解析に使用したシーケンシングデータ量とＰＣＲでの初期ＤＮＡ量に依存していることが分かった。本実施例では、相補鎖間コンセンサスリード配列を抽出する際、１つの推定フラグメントについてのグループに含まれるリードペア数に特に制限を設けなかった。グループ内に２本の相補鎖にそれぞれ由来する２つのリードペアのセットが少なくとも１個含まれていれば、相補鎖間コンセンサスリード配列を作成した。その結果、推定フラグメントについてのグループに含まれるリードペア数が、平均約２になる辺りの初期ＤＮＡ量で、最適な解析効率が得られることが分かった（表３）。

ii）重なり率の最少化
表４、表５及び表６に示したデータでは、重なり率（異なるＤＮＡ断片が同一断片として誤認識される割合）は、ＰＣＲの初期ＤＮＡ量に依存し、解析に使用したシーケンシングデータ量には依存しなかった。重なり率は、(1)ライブラリプール中の同一ＤＮＡ断片に由来するＰＣＲ産物がシーケンシングされる確率と、(2)等価な配列情報を有する異なるＤＮＡ断片由来のＰＣＲ産物がシーケンシングされる確率と、の比率によって決定される。表８の値を基にすると、ＰＣＲでの初期ＤＮＡ量を減少させ、ＰＣＲのサイクル数を増やすと、全ＰＣＲ産物中における同一断片由来の産物の割合が増加して、(1)の確率は増加し、逆に(2)の確率は低下し、これによって誤認識の割合が低減されるので、より正確に解析を実施できる。一方、シーケンシングされる断片は、表８のＥに示すような大過剰のＤＮＡ分子を含むＰＣＲ産物からランダムにピックアップされるため、シーケンシングデータ中での(1)と(2)の比率は、データ量の大小によらずＰＣＲ産物と同等になる。これが、２Ｇｂｐと１０Ｇｂｐのシーケンシングで重なり率が同等になった理由であると推測された。

iii）変異解析のためのシーケンシング条件
本実施例で最大の解析効率をもたらした条件（初期ＤＮＡ量７８ａｍｏｌ、シーケンシングデータ量１０Ｇｂｐ）での変異解析の精度（表７）は、サルモネラ菌（ゲノムサイズ約４．８６Ｍｂｐ）の変異原性物質の曝露により生じる変異頻度の測定にとって充分高いと判断された。したがって、上記V）i）において算出した最大の解析効率をもたらすシーケンシング条件は、化学物質等によって導入されたゲノム変異の全体像を捉える上で、十分な条件であると考えられた。

本実施例での解析効率とＰＣＲ初期ＤＮＡ量、シーケンシングデータ量の関係を表９に示す。約２Ｇｂｐ（１０Ｍリードペア）シーケンシングの解析において、解析効率の高かった（＞４％）３９、２０、及び１０ａｍｏｌのライブラリにおいては、ＰＣＲ初期ＤＮＡ量１ａｍｏｌあたりのシーケンシングデータ量は、それぞれ０．２６、０．５０、及び１．００Ｍリードペア（リードペアの塩基対量で５１、１００、及び２００Ｍｂｐ）／ａｍｏｌであった。一方、約１０Ｇｂｐのシーケンシングでの解析において効率の高かった（＞４％）、１５６（１回目）、１５６（２回目）、７８、及び３０ａｍｏｌにおいては、ＰＣＲ初期ＤＮＡ量１ａｍｏｌあたりのシーケンシングデータ量は、それぞれ０．２９、０．４１、０．９２、及び１．８３Ｍリードペア（リードペアの塩基対量で７３、８２、１８４、及び３６６Ｍｂｐ）／ａｍｏｌであった。従って、比較的高い解析効率（＞４％）を得るためのシーケンシングデータ量は、ＰＣＲ初期ＤＮＡ量１ａｍｏｌあたり０．２〜２Ｍ個（４０〜４００Ｍｂｐ）リードペアと算出された。また、解析効率が最大となった２Ｇｂｐシーケンシングでの２０ａｍｏｌライブラリと、１０Ｇｂｐシーケンシングでの７８ａｍｏｌライブラリでのシーケンシングデータ量がそれぞれ０．５０Ｍ及び０．９２Ｍリードペア／ａｍｏｌであったことから、最大の解析効率を得るためのシーケンシングデータ量は、ＰＣＲ初期ＤＮＡ量１ａｍｏｌあたり０．５〜１Ｍ個（１００〜２００Ｍｂｐ）リードペアと算出された。

上記IV）の検討では、１２５０ａｍｏｌ（約２５０ａｍｏｌ／Ｍｂｐ（ｇｅｎｏｍｅ））以下のＰＣＲ初期ＤＮＡ量、又はＤＮＡの多様度がこれと同等以下のライブラリを用いれば、誤認識率（真の重なり率）を約２０％以下まで低くした状態でサルモネラ菌の変異解析が可能であることが示された（表７）。そこで、ＰＣＲ初期ＤＮＡ量に対して最大効率でシーケンシングした場合に、サルモネラ菌のゲノム情報の取得できる配列データ量を決定した。初期ＤＮＡ量１２５０ａｍｏｌ（約２５０ａｍｏｌ／Ｍｂｐ（ｇｅｎｏｍｅ））において最適なシーケンシングデータ量は約６２５〜１２５０Ｍ個（１２５〜２５０Ｇｂｐ）リードペアであり、比較的効率の高い（＞４％）シーケンシングデータ量は約２５０〜２５００Ｍ個（５０〜５００Ｇｂｐ）リードペアと算出された。このシーケンシングデータ量から実施例１のアルゴリズムで得られる配列データ（相補鎖間コンセンサスリード配列）量は、本実施例と同様に解析効率約５％（表３）、誤認識率（真の重なり率）約２０％以下と仮定すれば、最大効率の条件の場合、６．２５Ｇｂｐ〜１２．５Ｇｂｐと算出される。また、多少の効率の低下を許容し、例えば５００Ｇｂｐでシーケンシングした場合、上述のように効率が＞４％であると仮定すれば、約２０Ｇｂｐの配列データを取得することができる。これが、本発明に基づくサルモネラ菌のゲノム変異解析に利用できる最大データ量である。

iv）変異解析可能なゲノムサイズの推計
上記IV）のとおり、サルモネラ菌のゲノム解析に利用可能な初期ＤＮＡ量は最大１２５０ａｍｏｌ（約２５０ａｍｏｌ／Ｍｂｐ（ｇｅｎｏｍｅ））であったことから（表７）、高い解析効率、及び低い誤認識率（真の重なり率）を達成するための初期ＤＮＡ量の上限は、ゲノム１Ｍｂｐあたり２５０ａｍｏｌと計算された。一方で、本実施例で検出したＥＮＵ群での変異頻度が１／１０⁶〜１／１０⁵ｂｐのオーダーであったことから、変異解析には少なくとも１０⁶ｂｐのデータ量が必要であると仮定された。これらの値をもとに、本発明の方法を用いた変異解析を適用可能な最も小さいゲノムサイズを推計した。表１０に、異なるサイズのゲノムについて、適用可能なＰＣＲ初期ＤＮＡ量の最大値、最適シーケンシングデータ量、及び取得可能な配列データ量の最大値（解析効率５％と仮定）を示す。表１０より、約１０ｋｂｐ以上のゲノムから１０⁶ｂｐ以上のデータ量が得られることから、ゲノムサイズ約１０ｋｂｐ以上のサンプルであれば、本発明に基づく変異解析法を適用可能であると考えられる。

実施例３合成ＤＮＡ配列を用いた変異解析
本実施例では、塩基対置換型変異を含む１０００ｂｐの合成ＤＮＡ配列を解析対象とした変異解析により、実施例１に記載したシーケンシングアルゴリズムの有用性と、異なる細胞由来のフラグメントが偶然重なる事象が変異解析に及ぼす影響を検討した。

１）サンプルＤＮＡの調製
１０００ｂｐのランダム配列ＤＮＡ（以下、対照ＤＮＡとする）と、該対照ＤＮＡに塩基対置換型変異（Ａ：Ｔ塩基対）を導入したＤＮＡ（以下、変異ＤＮＡとする）を作製した。これらを混合して、Ａ：Ｔ塩基対における３種類の塩基対置換パターン（Ａ：Ｔ＞Ｇ：Ｃ、Ａ：Ｔ＞Ｃ：Ｇ、及びＡ：Ｔ＞Ｔ：Ａ）を既知の頻度で等しく含むサンプルＤＮＡを調製した。模式図６に、サンプルＤＮＡ調製手順の概念図を示す。

以下に手順の詳細を説明する。Ｇ：Ｃ、Ａ：Ｔ塩基対をそれぞれ約５０％含むランダムな配列を有する１０００ｂｐのＤＮＡ（対照ＤＮＡ、配列番号１）を合成し、ｐＴＡＫＮ−２ベクターに組み込んで増幅させた。得られたベクターのＴＥバッファー（ｐＨ８．０、和光純薬工業社製）溶液（１０ｎｇ／μＬ）を調製した（対照ＤＮＡ溶液）。対照ＤＮＡをベースに、変異ＤＮＡを作製した。変異ＤＮＡとしては、対照ＤＮＡの配列の中心（５０２番目）に位置するＡ：Ｔ塩基対を他の塩基対（Ａ：Ｔ＞Ｇ：Ｃ、Ｃ：Ｇ又はＴ：Ａ）で置換した３種類の配列を作製した。各変異ＤＮＡをｐＴＡＫＮ−２ベクターに組み込んで増幅させ、得られたベクターのＴＥバッファー溶液（１０ｎｇ／μＬ）を調製した。各溶液を等量混合し、変異ＤＮＡ溶液を調製した。

対照ＤＮＡ溶液に、変異ＤＮＡ溶液を表１１に示した比率で混合し、各塩基対置換が均等の頻度で認められ、かつ総変異頻度が１／１０⁴ｂｐのＤＮＡサンプル（変異サンプル）を調製した。対照サンプルとして、変異ＤＮＡ溶液を含まない（対照ＤＮＡ溶液のみの）ＤＮＡサンプルを調製した。得られた変異サンプル及び対照サンプルを、ライブラリ調製及びシーケンシングに供した。

２）ライブラリ調製及びシーケンシング
１）で調製した変異サンプル及び対照サンプルを用いて実施例２と同様の方法でライブラリを調製し、得られたライブラリを用いてシーケンシングを行った。ライブラリ調製の際のＰＣＲでの初期ＤＮＡ量と、アダプターのインデックス配列、及びＰＣＲサイクル数を表１２に示す。各ＰＣＲ初期ＤＮＡ量のサンプルあたり、約１０Ｇｂｐのシーケンシングデータを得た。

３）変異解析用配列データの作成、及び変異解析
シーケンシングデータからの変異解析は、実施例２と同様に実施した。すなわち、実施例１に記載のアルゴリズムを用いて相補鎖間コンセンサスリード配列を含む配列データを作成し、これを用いて、ＰＣＴ／ＪＰ２０１７／００５７００に記載された手順に従って塩基置換を検出した。

変異解析用配列データの編集は、上述の模式図４に示す解析フローに従って実施した。まず、Ｃｕｔａｄａｐｔソフトウェアを用いて、生リード配列から、アダプター配列、及びクオリティの低い塩基等のトリミングを行いリード配列のペアを作成した。得られたトリミング後のリードペアのＦａｓｔｑファイルについて、アダプター配列のインデックス情報を元に、同一ライブラリに由来するＦａｓｔｑファイルを１つのファイルにまとめた。得られたＦａｓｔｑファイルの先頭と末尾からそれぞれ５×１０^４個（合計１０×１０^４個）のリードペアを抽出して１つのファイルにまとめ、約２０Ｍｂｐのシーケンシングデータ解析用のＦａｓｔｑファイルを作成した。

実施例１記載のアルゴリズムによる相補鎖情報を用いた解析では、得られた約２０Ｍｂｐデータ解析用Ｆａｓｔｑファイルについて、Ｂｏｗｔｉｅ２ソフトウェアを用いてリードペアの参照配列へのマッピングを行い、Ｓａｍフォーマットのファイルを得た。Ｓａｍｔｏｏｌｓソフトウェアを用いてＳａｍフォーマットのファイルのリードの並び替えを実施した後、プログラミング言語Ｐｙｔｈｏｎを用いて作成したプログラムを用いて、実施例１に示したアルゴリズムに従って、参照配列（対照ＤＮＡを挿入したｐＴＡＫＮ−２ベクターの配列）にマッピングされたリードペアの情報から、相補鎖間コンセンサスリード配列の抽出を行った。相補鎖間コンセンサスリード配列は、新たなＦａｓｔｑファイルとして出力した。

変異解析では、得られた相補鎖間コンセンサスリード配列を、再度Ｂｏｗｔｉｅ２ソフトウェアで参照配列にマッピングし、Ｓａｍｔｏｏｌｓソフトウェア、及びプログラミング言語Ｐｙｔｈｏｎを用いて作成したプログラムを用いて、ＰＣＴ／ＪＰ２０１７／００５７００に記載された手順に従って、変異した塩基を検出した。すなわち、Ｐｙｔｈｏｎを用いたプログラムを用いて、マッピングされた全リード配列中の全解析対象塩基を、対応する参照配列の塩基（Ａ、Ｔ、Ｇ及びＣ）によって４群に分けた。次いで、各群の塩基の総数、及び参照配列に対して変異した塩基を検出した。これらの解析は、参照配列中の１０００ｂｐ対照ＤＮＡの領域にマッピングされたリード配列の塩基に対してのみ実施した。

４）変異頻度、及び変異頻度増加量の算出
次いで、変異サンプル及び対照サンプルのそれぞれについて、対応する参照配列の塩基に基づいて、検出した変異した塩基の変異パターン（ＡＴ→ＴＡ、ＡＴ→ＣＧ、ＡＴ→ＧＣ、及びＧＣ→ＴＡ、ＧＣ→ＣＧ、ＧＣ→ＡＴ）を決定し、さらに各変異パターンの解析対象塩基中における１０⁶ｂｐあたりの変異頻度を算出した。本変異解析では、解析対象の１０００ｂｐ領域のうち、変異導入していない２６６番目のＡ：Ｔ塩基対において塩基対置換（Ａ：Ｔ＞Ｃ：Ｇ変異）が多く検出された。これは、対照ＤＮＡ中の自然発生的な変異によるものと推測された（データは示さず）。従って、本変異解析においては、２６６番塩基上にマッピングされたリード塩基を除いて、変異頻度を算出した。

本発明に基づく実施例１のアルゴリズムによる相補鎖情報を用いた解析で得られた、各サンプルの変異頻度を図９に示す。ＰＣＲ初期ＤＮＡ量が７８ａｍｏｌ及び２０ａｍｏｌの条件については、いずれの変異パターンについても対照サンプル及び変異サンプルともに変異頻度は０であった。一方、ＰＣＲ初期ＤＮＡ量が５ａｍｏｌの条件では、変異サンプルにのみ、約１／１０^５ｂｐ（Ａ：Ｔ＞Ｔ：Ａ）〜５×１０^５ｂｐ（Ａ：Ｔ＞Ｇ：Ｃ）の頻度で塩基対置換が検出された。これは、７８及び２０ａｍｏｌの条件においては、異なるＤＮＡ断片の偶然の重なりの割合が高く、変異がエラーと誤認識されてしまっている一方で、ＰＣＲ初期ＤＮＡ量を低減することによって、変異が検出できるようになるということを示していると考えられた。実際に、ＰＣＲ初期ＤＮＡ量を７８〜５ａｍｏｌへと減らしていくことによって、対照サンプル及び変異サンプルのいずれにおいても、異なるインデックスの重なりの割合が低下していく様子が観察された（図１０）。本実施例では各塩基対置換変異パターンが、１／５００〔ＡＴ塩基対の変異率〕ｂｐ×１／３〔変異後の塩基タイプ数〕×１／１０〔変異ＤＮＡ溶液希釈率〕＝６．７×１０^−５ｂｐの頻度で認められる設計である。変異サンプルの５ａｍｏｌの条件においては、異なるインデックスの重なり率が約３０％であることから、Ａ：Ｔ＞Ｔ：Ａの変異頻度が設計よりも約１／７程度に低くなっているのは、異なる断片の重なりが影響している可能性が考えられる。

以上のことから、本実施例のように解析対象のゲノムサイズが約数ｋｂｐである小さな領域の場合には、より大きなゲノムサイズの領域を対象とする場合に比べ、異なる断片の偶然の重なりの影響が大きくなる可能性があることが分かった。しかし、ＰＣＲ初期ＤＮＡ量を低減させていくことによって、ゲノムサイズが小さい場合にも本発明による相補鎖情報を用いた解析により、エラー頻度を飛躍的に低減した解析が実施できることが分かった。

実施例４相補鎖間コンセンサスリード配列の作成効率：ＤｕｐｌｅｘＳｅｑｕｅｎｃｉｎｇとの比較
本実施例では、実施例２のコントロールサンプルの１０Ｇｂｐシーケンスデータにおける、相補鎖間コンセンサスリード配列の作成効率を算出した。実施例２の表３に示したコントロールサンプルの１０Ｇｂｐシーケンスデータの各ライブラリについて、模式図３に示したフローに従って相補鎖間コンセンサスリード配列を取得した。全リードペア数に対するコンセンサスリードペアの数の割合を相補鎖間コンセンサスリード配列の作成効率として算出し、推定フラグメントのグループあたりの平均リードペア数に対してプロットした（図１１）。図１１では、表３に示したコントロールサンプルのライブラリＮｏ．１、４−８をＥｘｐ．１、ライブラリＮｏ．９−１４をＥｘｐ．２として示した。結果、相補鎖間コンセンサスリード配列の作成効率は、最大で７．５％（Ｅｘｐ．１）及び５．９％（Ｅｘｐ．２）であった。

一方、ＤｕｐｌｅｘＳｅｑｕｅｎｃｉｎｇにおいては、最大で約１．４％程度の効率が得られると報告されている（Nature protocol, 2014 9(11):2586-2606）。本方法ではその４〜５倍の効率が得られた。これは、ＤｕｐｌｅｘＳｅｑｕｅｎｃｉｎｇのコンセンサス配列の作成においては、サンプルＤＮＡ断片の片方の鎖に由来するリード配列が３つ以上含まれるグループのリード配列を用いているのに対し、本方法においては、２本鎖双方に各々由来する２つのリード配列を最低限含む推定フラグメントのグループを全て相補鎖間コンセンサスリードの作成に利用したためと考えられる。ＤｕｐｌｅｘＳｅｑｕｅｎｃｉｎｇでの相補鎖間コンセンサス配列の作成条件は、本方法に比べて１つのコンセンサスリードの作成により多くのリードを用いるため、より正確な相補鎖間コンセンサスリード配列を取得するのに有効であるが、比較的短い領域の解析に適しており、ゲノムの広範囲の解析には効率が悪い。一方、本方法では、相対的に少数のリードを用いて１つコンセンサスリードを作成するため、特定のゲノム領域についてのコンセンサスリードが得られる確率は低下するが、上述したとおり、ゲノムの広範囲の解析の効率は向上する。したがって、本方法は、ゲノム全体の変異解析を実施する場合により効率的な方法であると考えられる。

実施例５マウスＤＮＡサンプルを用いた変異解析への応用
本実施例では、実施例２で探索した最適条件による相補鎖情報を用いたシーケンシングをマウスのゲノムＤＮＡにおける変異解析に適用した。サンプルＤＮＡには、変異原としてＥＮＵ（Ｅｔｈｙｌｎｉｔｒｏｓｏｕｒｅａ、ＣＡＳＲＮ．７５９−７３−９）を暴露したマウス（Ｃ５７ＢＬ／６ＪＪｍｓＳｌｃ−Ｔｇ（ｇｐｔｄｅｌｔａ）、以下ＴＧマウスとも表す）から調製したゲノムＤＮＡを用いた。現在、動物を用いるin vivo遺伝子突然変異試験には、指標遺伝子を導入した遺伝子改変マウスやラットが使用されている。本発明を用いた変異解析法がマウス等に適用可能であれば、遺伝子改変動物を用いる必要性がないため、一般毒性試験等への変異原性評価の組み込みが可能となり、実験動物数の削減につながると期待される。また得られる詳細な変異情報は、発がん性予測に有用と考えられ、動物を用いない発がん性予測法の開発に有用と考えられる。なお、本実施例における動物実験は、花王株式会社研究開発部門動物実験委員会による審議を受け、「花王株式会社研究開発部門動物実験に関する規定」に従って実施された。

１）マウスからのゲノムＤＮＡサンプルの調製
投与開始時７〜９週齢の雄のＴＧマウスを用いた。ＥＮＵ（ＴｏｒｏｎｔｏＲｅｓｅａｒｃｈＣｈｅｍｉｃａｌｓ社製）は１５．０ｍｇ／ｍＬの濃度で生理食塩水（Ｓａｌｉｎｅ）に溶解した。ＥＮＵ溶液を、プラスチック製注射筒および２５Ｇ注射針を用いて、１日１回、１０ｍＬ（ＥＮＵ１５０ｍｇ／ｋｇ／ｄａｙ）を５日間、マウスに腹腔内投与した（ＥＮＵ群）。コントロール群には生理食塩水（Ｓａｌｉｎｅ）を投与した。各群のＥＮＵの用量と個体数を表１３に示した。最終投与後７日目に動物を安楽死させて大腿骨を摘出し、ＲＥｃｏｖｅｒＥａｓｅＤＮＡＩｓｏｌａｔｉｏｎＫｉｔ（アジレント・テクノロジーズ社製）を用いて、推奨プロトコールに従って、骨髄からゲノムＤＮＡを抽出した。得られたＤＮＡ中の２本鎖ＤＮＡの濃度を、Ｑｕｂｉｔ３．０Ｆｌｕｏｒｏｍｅｔｅｒ（ＴｈｅｒｍｏＦｉｓｈｅｒＳｃｉｅｎｔｉｆｉｃ社製）を用いて、付属のＱｕｂｉｔ^TM ｄｓＤＮＡＢＲＡｓｓａｙＫｉｔで測定した。

２）ｇｐｔ遺伝子を用いた遺伝子突然変異頻度の算出
１）で得たマウスの骨髄からフェノール／クロロホルムを用いてＤＮＡを抽出した。抽出したＤＮＡを用いて、ＯＥＣＤＧｕｉｄｅｌｉｎｅｓｆｏｒｔｈｅＴｅｓｔｉｎｇｏｆＣｈｅｍｉｃａｌｓ４８８（ＯＥＣＤＴＧ４８８）に従って、ＴＧマウスに導入されたｇｐｔ遺伝子を用いた遺伝子突然変異頻度の算出を行った（ｇｐｔ−ａｓｓａｙ）。より詳細には、得られたゲノムＤＮＡを、Ｔｒａｎｓｐａｃｋ（ＡｇｉｌｅｎｔＴｅｃｈｎｏｌｏｇｉｅｓ）製品添付のＩｎｓｔｒｕｃｔｉｏｎＭａｎｕａｌに従ってλファージへパッケージングした。得られたパッケージング溶液を、予め培養しておいた大腸菌懸濁液（ＹＧ６０２０株）と混合し、培養した後、トップアガーと混合してクロラムフェニコール入りの寒天培地（タイター用培地）および、クロラムフェニコールと６−チオグアニン入りの寒天培地（選択培地）上に重層して、形成されるコロニー数を計数した。選択培地上に形成されたコロニー（変異体コロニー）数と、タイター用培地上に形成されたコロニー（総コロニー）数を基に、突然変異頻度（×１０^-6）を算出した。各ＤＮＡサンプルの変異体コロニーについては、一部のコロニーをピックアップし、タイター用培地および選択培地を用いてＣｏｎｆｉｒｍａｔｉｏｎを実施した。突然変異頻度は得られたＣｏｎｆｉｒｍａｔｉｏｎの結果に基づき補正した。

３）シーケンシング用ライブラリの調製
コントロール群及びＥＮＵ投与群で、各２匹の動物からのＤＮＡサンプルを実験に供した。各ＤＮＡサンプルをＤＮＡＳｈｅａｒｉｎｇシステムＭＥ２２０（コバリス社製）で推奨プロトコールに従って平均約３５０ｂｐの長さに断片化した。得られた断片化ＤＮＡをＴｒｕＳｅｑＮａｎｏＤＮＡＬｉｂｒａｒｙＰｒｅｐＫｉｔ（イルミナ社製、以下ＴｒｕＳｅｑと略記する）を用いて、推奨プロトコールに従ってライブラリ調製に供した。ライブラリ調製は実施例２と同様の方法で行った。ライブラリ調製の際の溶液のＤＮＡ濃度、ＰＣＲでの初期ＤＮＡ量と、アダプターのインデックス配列、及びＰＣＲサイクル数を表１４に示す。

４）シーケンシング
３）で調製したライブラリを、ＨｉＳｅｑ２５００（イルミナ社製）を用いて、２×１００ｂｐのリード長でシーケンシングした。ライブラリあたり、約２０Ｇｂｐシーケンシングデータを得た。

５）リード配列の編集、相補鎖情報の抽出、及び変異解析
シーケンシングによって得られた生リード配列の編集、相補鎖情報の抽出、及び変異解析は、上述の模式図３及び４に示す解析フローに従って実施例２の５）と同様の手順で実施した。なお、Ｂｏｗｔｉｅ２ソフトウェアでマッピングする参照配列には、Ｃ５７ＢＬ／６Ｊのゲノム配列（ＧＣＡ＿０００００１６３５．６）を用いた。

６）リードペア数分布の算出
５）で作成した各ライブラリについてのマッピング結果を基に、実施例２の６）と同様の手順で推定フラグメントについてのグループあたりリードペア数の分布を求めた。マウス各染色体についてのグループあたりリードペア数の分布、及び平均リードペア数／グループを算出した。

７）重なり率の算出
実施例２の７）と同様の手順で、マウスの各染色体に対応する推定フラグメントについてのグループのうち、２つ以上のリードペアが含まれるグループを抽出し、抽出したグループを対象として染色体ごとの重なり率（Overlap rate）を算出した。

８）変異頻度の算出
５）で相補鎖間コンセンサスリード配列を参照配列にマッピングした後、実施例２の８）と同様の手順で変異した塩基を検出した。すなわち、ＰＣＴ／ＪＰ２０１７／００５７００に記載された手順に従い、Ｐｙｔｈｏｎを用いたプログラムを用いて、各ライブラリについて、参照配列に対してマッピングされた全相補鎖間コンセンサスリード配列中の全解析対象塩基を、対応する参照配列の塩基によって４群に分けた。次いで各群の塩基の総数、及び参照配列に対して変異した塩基を検出した。検出した変異した塩基を参照配列の塩基と比較することで、コントロール群及びＥＮＵ群それぞれについて、解析対象塩基中におけるＡＴ塩基対、ＧＣ塩基対の各１０⁶ｂｐにおける各変異パターン（ＡＴ→ＴＡ、ＡＴ→ＣＧ、ＡＴ→ＧＣ、及びＧＣ→ＴＡ、ＧＣ→ＣＧ、ＧＣ→ＡＴ）、及び各変異パターンの変異頻度を算出した。なお各マウス個体が有するゲノム配列の多型（ＳＮＰ等）が変異解析結果に影響すると予想されたことから、本解析では多型を有している可能性が高いと考えられるゲノム位置にマッピングされたリード配列の塩基は変異解析の対象から外した。具体的には、参照配列の同一の位置（塩基）にマップされたリード塩基のなかに同一の塩基置換が２つ以上認められた場合、その参照配列の位置にマップされたリード塩基は解析対象外とした。また、データベース上に登録されるマウスの変異情報に基づいて、多型が報告されている参照配列上の塩基は解析対象から外した。すなわち、当該参照配列上の多型が報告されている塩基に対してマップされたリード塩基は解析対象外とした。マウスの多型のデータはｅｎｓｅｍｂｌ[asia.ensembl.org/Mus_musculus/Info/Index]から取得した。

９）結果
I）リードペア数分布の算出
ライブラリＮｏ．１から得られたデータに基づくマウス各染色体での推定フラグメントについてのグループあたりのリードペア数の分布を図１２に示す。また、各染色体についてのグループあたりの平均リードペア数を表１５に示す。各サンプルの平均リードペア数／グループの値は、いずれも２〜４の範囲内であった。したがって、マウスゲノムＤＮＡを用いた場合でも、実施例２で算出された本方法の最適条件のＰＣＲ初期ＤＮＡ量及びシーケンシングデータ量でのシーケンシングで高い解析効率が得られると考えられた。

II）重なり率の算出
７）で調べた染色体ごとの重なり率を表１６に示す。本解析においては、Ｙ染色体はマッピングされたリード数が少なかったため、対象から除外した。いずれの染色体においても重なり率は同様の値であり、染色体間の平均は、コントロール群（ライブラリＮｏ．１、Ｎｏ．２）で０．０２５％及び０．０２５％、ＥＮＵ群（ライブラリＮｏ．３、Ｎｏ．４）で０．０２３％及び０．０２０％であった。実施例２で算出したＳ．ｔｙｐｈｉｍｕｒｉｕｍのゲノム配列を用いた検討において、ＰＣＲ初期ＤＮＡ量が７８ａｍｏｌの条件における重なり率は、コントロール群で０．５９％、ＥＮＵ群で０．７５％、平均０．６７％であった。したがって、同一のＰＣＲ初期ＤＮＡ量を用いた場合、サンプルＤＮＡのサイズがより大きいほど重なり率が低下し、より高精度な解析が実施できると考えられた。一方、マウスのゲノムサイズが、約３Ｇｂｐ、Ｓ．ｔｙｐｈｉｍｕｒｉｕｍのゲノムサイズが約５Ｍｂｐとすると、実施例２の結果から理論上求められるマウスのゲノム解析における重なり率は、[０．６７％×５Ｍｂｐ／３０００Ｍｂｐ＝０．００１１％]と推定された。すなわち、実際に得られた重なり率は理論値より２０倍程度高かった。マウス等の哺乳類のゲノムのシーケンシングにおいては、ヘテロクロマチンの存在やＰＣＲにおけるバイアスによる次世代シーケンサーでのライブラリ調製への影響のため、実際にシーケンシングされる領域のサイズはゲノムサイズより小さくなる。これが実測値と理論値のずれの原因であると考えられた。

III）変異解析結果
コントロール群及びＥＮＵ群の各塩基対置換の変異頻度の解析結果を図１３に示す（ｎ＝２）。ＥＮＵ群では、コントロール群に比べて、Ａ：Ｔ＞Ｔ：Ａ、Ａ：Ｔ＞Ｇ：Ｃ、およびＧ：Ｃ＞Ａ：Ｔの頻度が顕著に高く、これは既存のＥＮＵの変異スペクトルの知見（Proc Natl Acad Sci USA, 1994, 91(14):6564-6568）と一致していた。本方法により、マウスのゲノムにおいても高感度に変異解析ができることが示された。

IV）突然変異頻度の算出（gpt-assay）
２）で算出したコントロール群及びＥＮＵ群におけるｇｐｔ−ａｓｓａｙの結果を表１７に示す（コントロール群：ｎ＝５、ＥＮＵ投与群：ｎ＝４）。ＥＮＵ群では、コントロール群に比べて、遺伝子突然変異頻度の増加が顕著に認められた。ＥＮＵの曝露によってＴＧマウスのゲノムに突然変異が導入されたことが確認された。

Claims

ＤＮＡのシーケンシング方法であって、
（１）サンプルＤＮＡの断片を調製すること；
（２）該サンプルＤＮＡの断片をＰＣＲにかけてＰＣＲ産物を得ること、ここで、該サンプルＤＮＡの断片の各々について２つ以上の増幅断片が作製される；
（３）得られたＰＣＲ産物をシーケンシングし、該ＰＣＲ産物に含まれる複数の増幅断片の各々について１つ以上のリード配列を作成し、該複数の増幅断片についての複数のリード配列を得ること；
（４）得られた複数のリード配列の中から、該サンプルＤＮＡ上の同一領域の配列情報を有するリード配列を集めてグループ化することにより、リード配列のグループを１つ以上作成すること、ここで、該１つ以上のグループは、平均で１．０５〜３０個のリード配列を含む；
（５）該リード配列のグループに含まれるリード配列の間で配列情報のコンセンサスを取ること、
を含む、方法。
ＤＮＡのシーケンシング方法であって、
（１）サンプルＤＮＡの断片を調製すること；
（２）該サンプルＤＮＡの断片をＰＣＲにかけてＰＣＲ産物を得ること、ここで、該サンプルＤＮＡの断片の各々について２つ以上の増幅断片が作製され、該ＰＣＲでの初期ＤＮＡ量は、該サンプルＤＮＡのサイズ１Ｍｂｐあたり２５０ａｍｏｌ以下である；
（３）得られたＰＣＲ産物をシーケンシングし、該ＰＣＲ産物に含まれる複数の増幅断片の各々について１つ以上のリード配列を作成し、該複数の増幅断片についての複数のリード配列を得ること；
（４）得られた複数のリード配列の中から、該サンプルＤＮＡ上の同一領域の配列情報を有するリード配列を集めてグループ化することにより、リード配列のグループを１つ以上作成すること；
（５）該リード配列のグループに含まれるリード配列の間で配列情報のコンセンサスを取ること、
を含む、方法。
前記（３）が、前記サンプルＤＮＡの断片を構成する２本の相補鎖の各々に由来する増幅断片に対して１つ以上のリード配列を作成することを含む、請求項１又は２記載の方法。
前記（４）が、参照配列上の同一の位置にマッピングされるリード配列を同じグループに分けることを含む、請求項１〜３のいずれか１項記載の方法。
前記（５）が、前記リード配列のグループの中から、前記サンプルＤＮＡ断片の２本の相補鎖の各々に由来するリード配列を少なくとも１つずつ集め、集めたリード配列の間で配列情報のコンセンサスを取ることを含む、請求項３又は４記載の方法。
請求項１記載の方法であって、
前記（３）において、前記複数のリード配列が、以下からなるリード配列のペアを複数個含み：
リード１：前記増幅断片を構成する２本の相補鎖のうちの一方の鎖の配列を５’末端側から３’側へ読んだ配列に相当する配列情報を含むリード配列、
リード２：該一方の鎖の配列を３’末端側から５’側へ読んだ配列に相当する配列情報を含むリード配列、
前記（４）が、得られたリード配列のペアの中から、該サンプルＤＮＡ上の同一領域の配列情報を有するリード配列のペアを集めてグループ化することにより、リード配列のペアのグループを１つ以上作成することを含み、ここで、該１つ以上のグループは、平均で１．０５〜３０個のリード配列のペアを含み、
前記（５）が、該リード配列のペアのグループに含まれるリード配列の間で配列情報のコンセンサスを取ることを含む、
方法。
請求項２記載の方法であって、
前記（３）において、前記複数のリード配列が、以下からなるリード配列のペアを複数個含み：
リード１：前記増幅断片を構成する２本の相補鎖のうちの一方の鎖の配列を５’末端側から３’側へ読んだ配列に相当する配列情報を含むリード配列、
リード２：該一方の鎖の配列を３’末端側から５’側へ読んだ配列に相当する配列情報を含むリード配列、
前記（４）が、得られたリード配列のペア中から、該サンプルＤＮＡ上の同一領域の配列情報を有するリード配列のペアを集めてグループ化することにより、リード配列のペアのグループを１つ以上作成することを含み、
前記（５）が、該リード配列のペアのグループに含まれるリード配列の間で配列情報のコンセンサスを取ることを含む、
方法。
前記（３）が、前記サンプルＤＮＡの断片を構成する２本の相補鎖の各々に由来する増幅断片に対して１つ以上の前記リード配列のペアを作成することを含む、請求項６又は７記載の方法。
前記（４）が、前記リード配列のペアのリード１とリード２を参照配列に対してマッピングし、リード１の先頭とリード２の先頭とに挟まれる該参照配列の領域が同一であるリード配列のペアを同じグループに分けることを含む、請求項６〜８のいずれか１項記載の方法。
前記（４）が、前記リード配列のペアに含まれる一方のリード配列の先頭が前記参照配列上の同じ位置に位置するリード配列のペアを集め、次いで集めたリード配列のペアの中から、該リード配列のペアに含まれるもう一方のリード配列の先頭が該参照配列上の同じ位置に位置するリード配列のペアを集めて、集めたリード配列のペアを同じグループに分けることを含む、請求項９記載の方法。
前記サンプルＤＮＡ断片の２本の相補鎖が、それらの５’末端側と３’末端側に異なる標識配列を有し、かつ、前記シーケンシングにより、各リード配列に付随する該標識配列の情報が取得され、
前記リード配列のペアのグループの中のリード配列のペアを、それに含まれる２本のリード配列に付随する該標識配列の情報と、該２本のリード配列の前記参照配列上での互いの位置関係に基づいて、サンプルＤＮＡ断片の２本の相補鎖のどちらに由来するか識別することをさらに含む、請求項１０記載の方法。
前記（５）が、前記リード配列のペアのグループの中から、前記サンプルＤＮＡ断片の２本の相補鎖の各々に由来するリード配列のペアを少なくとも１組ずつ集め、集めたリード配列のペアに含まれるリード配列の間で配列情報のコンセンサスを取ることを含む、請求項８〜１１のいずれか１項記載の方法。
前記シーケンシングにおいて、前記ＰＣＲでの初期ＤＮＡ量１ａｍｏｌあたり０．０２〜１０×１０⁶個のリード配列を取得する、請求項１〜５のいずれか１項記載の方法。
前記シーケンシングにおいて、前記ＰＣＲでの初期ＤＮＡ量１ａｍｏｌあたり０．０２〜１０×１０⁶個のリード配列のペアを取得する、請求項６〜１２のいずれか１項記載の方法。
前記サンプルＤＮＡが、１０ｋｂｐ以上のサイズを有する、請求項１〜１４のいずれか１項記載の方法。
前記シーケンシングにおいて、前記サンプルＤＮＡの１Ｍｂｐあたり０．０５〜１６００×１０⁶個のリード配列又はリード配列のペアを取得する、請求項１〜１５のいずれか１項記載の方法。
前記ＰＣＲにかけるサンプルＤＮＡの断片に、個別のサンプルＤＮＡの断片を識別するための標識が連結されていない、請求項１〜１６のいずれか１項記載の方法。
ゲノムＤＮＡの変異を検出する方法であって、
細胞中のゲノムＤＮＡをサンプルＤＮＡとして用いて、請求項１〜１７のいずれか１項記載のＤＮＡのシーケンシング方法を実施し、配列データを作成すること；
該配列データを参照配列と比較して、該配列データと該参照配列とで塩基がマッチしない部位を変異部位として検出すること、ここで該参照配列は、該ゲノムＤＮＡ中の既知配列である、
を含む、方法。
前記ゲノムＤＮＡが試験物質に曝露した細胞のゲノムＤＮＡを含む、請求項１８記載の方法。
前記ゲノムＤＮＡが試験物質に曝露した細胞のゲノムＤＮＡと、該試験物質に曝露していない対照細胞のゲノムＤＮＡを含み、
該試験物質に曝露した細胞のゲノムＤＮＡについて検出した変異と、該対照細胞のゲノムＤＮＡについて検出した変異とを比較することをさらに含む、
請求項１９記載の方法。
前記細胞が大腸菌、サルモネラ菌又は酵母細胞である、請求項１８〜２０のいずれか１項記載の方法。
前記サルモネラ菌がＳ．ＴｙｐｈｉｍｕｒｉｕｍＬＴ−２株、ＴＡ１００株、ＴＡ９８株、ＴＡ１５３５株、ＴＡ１５３８株又はＴＡ１５３７株である、請求項２１記載の方法。
前記細胞が哺乳動物細胞、又は哺乳動物由来培養細胞である、請求項１８〜２０のいずれか１項記載の方法。
前記哺乳動物がヒト又はマウスである、請求項２３記載の方法。
前記ゲノムＤＮＡの変異が経時変化によるゲノムＤＮＡの変異を含む、請求項１８記載の方法。
前記ゲノムＤＮＡが、経時変化した細胞のゲノムＤＮＡと、より経時変化していない細胞のゲノムＤＮＡを含み、
該経時変化した細胞のゲノムＤＮＡについて検出した変異と、該より経時変化していない細胞のゲノムＤＮＡについて検出した変異とを比較することをさらに含む、
請求項２５記載の方法。
前記細胞が哺乳動物細胞、又は哺乳動物由来培養細胞である、請求項２５又は２６記載の方法。
前記細胞が培養細胞である、請求項２５又は２６記載の方法。
前記変異が塩基対置換型変異である、請求項１８〜２８のいずれか１項記載の方法。