JP2019193612A - 高精度シーケンシング方法 - Google Patents
高精度シーケンシング方法 Download PDFInfo
- Publication number
- JP2019193612A JP2019193612A JP2018168288A JP2018168288A JP2019193612A JP 2019193612 A JP2019193612 A JP 2019193612A JP 2018168288 A JP2018168288 A JP 2018168288A JP 2018168288 A JP2018168288 A JP 2018168288A JP 2019193612 A JP2019193612 A JP 2019193612A
- Authority
- JP
- Japan
- Prior art keywords
- sequence
- lead
- sequences
- read
- dna
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012163 sequencing technique Methods 0.000 title claims abstract description 253
- 239000012634 fragment Substances 0.000 claims abstract description 338
- 238000000034 method Methods 0.000 claims abstract description 221
- 238000001712 DNA sequencing Methods 0.000 claims abstract description 23
- 230000035772 mutation Effects 0.000 claims description 263
- JCLFHZLOKITRCE-UHFFFAOYSA-N 4-pentoxyphenol Chemical compound CCCCCOC1=CC=C(O)C=C1 JCLFHZLOKITRCE-UHFFFAOYSA-N 0.000 claims description 159
- 230000000295 complement effect Effects 0.000 claims description 156
- 210000004027 cell Anatomy 0.000 claims description 114
- 239000000126 substance Substances 0.000 claims description 39
- 238000012360 testing method Methods 0.000 claims description 34
- 238000006467 substitution reaction Methods 0.000 claims description 32
- 238000003491 array Methods 0.000 claims description 18
- 210000004748 cultured cell Anatomy 0.000 claims description 16
- 241000607142 Salmonella Species 0.000 claims description 15
- 241000124008 Mammalia Species 0.000 claims description 12
- 210000004962 mammalian cell Anatomy 0.000 claims description 8
- 241000588724 Escherichia coli Species 0.000 claims description 6
- 210000005253 yeast cell Anatomy 0.000 claims description 2
- 239000000523 sample Substances 0.000 description 269
- 238000004458 analytical method Methods 0.000 description 132
- 239000000047 product Substances 0.000 description 60
- 230000036438 mutation frequency Effects 0.000 description 32
- 238000002360 preparation method Methods 0.000 description 27
- 241000699666 Mus <mouse, genus> Species 0.000 description 22
- 238000002372 labelling Methods 0.000 description 21
- 239000000243 solution Substances 0.000 description 21
- 238000012217 deletion Methods 0.000 description 18
- 230000037430 deletion Effects 0.000 description 18
- 238000003780 insertion Methods 0.000 description 18
- 230000037431 insertion Effects 0.000 description 18
- 230000007423 decrease Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 16
- IAZDPXIOMUYVGZ-UHFFFAOYSA-N Dimethylsulphoxide Chemical compound CS(C)=O IAZDPXIOMUYVGZ-UHFFFAOYSA-N 0.000 description 14
- 238000006243 chemical reaction Methods 0.000 description 14
- 238000009826 distribution Methods 0.000 description 14
- 108091028043 Nucleic acid sequence Proteins 0.000 description 13
- 238000004364 calculation method Methods 0.000 description 11
- 241001465754 Metazoa Species 0.000 description 10
- 238000013507 mapping Methods 0.000 description 10
- 108020004414 DNA Proteins 0.000 description 9
- 241000699670 Mus sp. Species 0.000 description 9
- 210000000349 chromosome Anatomy 0.000 description 9
- 238000000605 extraction Methods 0.000 description 9
- 102000053602 DNA Human genes 0.000 description 8
- 239000013068 control sample Substances 0.000 description 8
- 230000003247 decreasing effect Effects 0.000 description 8
- 239000003471 mutagenic agent Substances 0.000 description 8
- 206010028980 Neoplasm Diseases 0.000 description 7
- 201000011510 cancer Diseases 0.000 description 7
- 238000012986 modification Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 231100000707 mutagenic chemical Toxicity 0.000 description 7
- 238000007481 next generation sequencing Methods 0.000 description 7
- 238000009966 trimming Methods 0.000 description 7
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 6
- 229920001817 Agar Polymers 0.000 description 6
- 238000012408 PCR amplification Methods 0.000 description 6
- 239000008272 agar Substances 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 231100000025 genetic toxicology Toxicity 0.000 description 6
- 230000001738 genotoxic effect Effects 0.000 description 6
- 230000003505 mutagenic effect Effects 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 238000010953 Ames test Methods 0.000 description 5
- 231100000039 Ames test Toxicity 0.000 description 5
- 241000271566 Aves Species 0.000 description 5
- 206010064571 Gene mutation Diseases 0.000 description 5
- 230000003321 amplification Effects 0.000 description 5
- 230000037429 base substitution Effects 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 238000002955 isolation Methods 0.000 description 5
- 238000003199 nucleic acid amplification method Methods 0.000 description 5
- 108090000623 proteins and genes Proteins 0.000 description 5
- 108091035707 Consensus sequence Proteins 0.000 description 4
- FUSGACRLAFQQRL-UHFFFAOYSA-N N-Ethyl-N-nitrosourea Chemical compound CCN(N=O)C(N)=O FUSGACRLAFQQRL-UHFFFAOYSA-N 0.000 description 4
- FAPWRFPIFSIZLT-UHFFFAOYSA-M Sodium chloride Chemical compound [Na+].[Cl-] FAPWRFPIFSIZLT-UHFFFAOYSA-M 0.000 description 4
- 230000001580 bacterial effect Effects 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 230000002068 genetic effect Effects 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 102000039446 nucleic acids Human genes 0.000 description 4
- 108020004707 nucleic acids Proteins 0.000 description 4
- 150000007523 nucleic acids Chemical class 0.000 description 4
- 239000002773 nucleotide Substances 0.000 description 4
- 125000003729 nucleotide group Chemical group 0.000 description 4
- 230000003647 oxidation Effects 0.000 description 4
- 238000007254 oxidation reaction Methods 0.000 description 4
- 241000894007 species Species 0.000 description 4
- 210000001519 tissue Anatomy 0.000 description 4
- 102000040650 (ribonucleotides)n+m Human genes 0.000 description 3
- 241000282412 Homo Species 0.000 description 3
- 238000007792 addition Methods 0.000 description 3
- 230000032683 aging Effects 0.000 description 3
- 238000003556 assay Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 231100000376 mutation frequency increase Toxicity 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 239000011780 sodium chloride Substances 0.000 description 3
- 239000000725 suspension Substances 0.000 description 3
- 206010007269 Carcinogenicity Diseases 0.000 description 2
- HEDRZPFGACZZDS-UHFFFAOYSA-N Chloroform Chemical compound ClC(Cl)Cl HEDRZPFGACZZDS-UHFFFAOYSA-N 0.000 description 2
- 230000009946 DNA mutation Effects 0.000 description 2
- 241000244206 Nematoda Species 0.000 description 2
- 241000700159 Rattus Species 0.000 description 2
- 240000004808 Saccharomyces cerevisiae Species 0.000 description 2
- 241000293869 Salmonella enterica subsp. enterica serovar Typhimurium Species 0.000 description 2
- 239000007984 Tris EDTA buffer Substances 0.000 description 2
- 238000003149 assay kit Methods 0.000 description 2
- 210000001185 bone marrow Anatomy 0.000 description 2
- 231100000260 carcinogenicity Toxicity 0.000 description 2
- 230000007670 carcinogenicity Effects 0.000 description 2
- WIIZWVCIJKGZOK-RKDXNWHRSA-N chloramphenicol Chemical compound ClC(Cl)C(=O)N[C@H](CO)[C@H](O)C1=CC=C([N+]([O-])=O)C=C1 WIIZWVCIJKGZOK-RKDXNWHRSA-N 0.000 description 2
- 229960005091 chloramphenicol Drugs 0.000 description 2
- 239000002299 complementary DNA Substances 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000003239 environmental mutagen Substances 0.000 description 2
- 230000008826 genomic mutation Effects 0.000 description 2
- 101150106093 gpt gene Proteins 0.000 description 2
- 230000012010 growth Effects 0.000 description 2
- 230000000813 microbial effect Effects 0.000 description 2
- 244000005700 microbiome Species 0.000 description 2
- 231100000299 mutagenicity Toxicity 0.000 description 2
- 230000007886 mutagenicity Effects 0.000 description 2
- 235000015097 nutrients Nutrition 0.000 description 2
- 230000001590 oxidative effect Effects 0.000 description 2
- 239000002504 physiological saline solution Substances 0.000 description 2
- 102000054765 polymorphisms of proteins Human genes 0.000 description 2
- 238000011533 pre-incubation Methods 0.000 description 2
- 238000013441 quality evaluation Methods 0.000 description 2
- 239000002096 quantum dot Substances 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000008685 targeting Effects 0.000 description 2
- WYWHKKSPHMUBEB-UHFFFAOYSA-N tioguanine Chemical compound N1C(N)=NC(=S)C2=C1N=CN2 WYWHKKSPHMUBEB-UHFFFAOYSA-N 0.000 description 2
- 231100000419 toxicity Toxicity 0.000 description 2
- 230000001988 toxicity Effects 0.000 description 2
- 230000005945 translocation Effects 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N (+)-Biotin Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 description 1
- 206010069754 Acquired gene mutation Diseases 0.000 description 1
- 241000894006 Bacteria Species 0.000 description 1
- 241000255789 Bombyx mori Species 0.000 description 1
- 108091026890 Coding region Proteins 0.000 description 1
- 241000699800 Cricetinae Species 0.000 description 1
- 241000699802 Cricetulus griseus Species 0.000 description 1
- 235000000638 D-biotin Nutrition 0.000 description 1
- 239000011665 D-biotin Substances 0.000 description 1
- 238000007400 DNA extraction Methods 0.000 description 1
- 238000007399 DNA isolation Methods 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 241000701959 Escherichia virus Lambda Species 0.000 description 1
- 241000287828 Gallus gallus Species 0.000 description 1
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 1
- 108010034791 Heterochromatin Proteins 0.000 description 1
- 241000699660 Mus musculus Species 0.000 description 1
- 108091092724 Noncoding DNA Proteins 0.000 description 1
- 231100000694 OECD Guidelines for the Testing of Chemicals Toxicity 0.000 description 1
- 108700020796 Oncogene Proteins 0.000 description 1
- 241000283973 Oryctolagus cuniculus Species 0.000 description 1
- 239000012807 PCR reagent Substances 0.000 description 1
- ISWSIDIOOBJBQZ-UHFFFAOYSA-N Phenol Chemical compound OC1=CC=CC=C1 ISWSIDIOOBJBQZ-UHFFFAOYSA-N 0.000 description 1
- 238000010802 RNA extraction kit Methods 0.000 description 1
- 102000008579 Transposases Human genes 0.000 description 1
- 108010020764 Transposases Proteins 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 210000002593 Y chromosome Anatomy 0.000 description 1
- 150000001413 amino acids Chemical class 0.000 description 1
- 210000004102 animal cell Anatomy 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000010170 biological method Methods 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 239000000872 buffer Substances 0.000 description 1
- 231100000045 chemical toxicity Toxicity 0.000 description 1
- 235000013330 chicken meat Nutrition 0.000 description 1
- 210000003763 chloroplast Anatomy 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000012258 culturing Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000010790 dilution Methods 0.000 description 1
- 239000012895 dilution Substances 0.000 description 1
- 235000006694 eating habits Nutrition 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 238000011331 genomic analysis Methods 0.000 description 1
- 239000008103 glucose Substances 0.000 description 1
- 210000004458 heterochromatin Anatomy 0.000 description 1
- HNDVDQJCIGZPNO-UHFFFAOYSA-N histidine Natural products OC(=O)C(N)CC1=CN=CN1 HNDVDQJCIGZPNO-UHFFFAOYSA-N 0.000 description 1
- 210000005260 human cell Anatomy 0.000 description 1
- 238000001727 in vivo Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000002438 mitochondrial effect Effects 0.000 description 1
- 239000011259 mixed solution Substances 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 239000008363 phosphate buffer Substances 0.000 description 1
- 239000013612 plasmid Substances 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 231100000205 reproductive and developmental toxicity Toxicity 0.000 description 1
- 230000009758 senescence Effects 0.000 description 1
- 230000037432 silent mutation Effects 0.000 description 1
- 239000002904 solvent Substances 0.000 description 1
- 230000037439 somatic mutation Effects 0.000 description 1
- 238000000527 sonication Methods 0.000 description 1
- 238000011895 specific detection Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 230000002269 spontaneous effect Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 239000006228 supernatant Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000009210 therapy by ultrasound Methods 0.000 description 1
- 229960003087 tioguanine Drugs 0.000 description 1
- 210000000689 upper leg Anatomy 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- 101150005573 uvrA gene Proteins 0.000 description 1
- 230000003612 virological effect Effects 0.000 description 1
- 238000003260 vortexing Methods 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Organic Chemistry (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Microbiology (AREA)
- Immunology (AREA)
- Biotechnology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Analytical Chemistry (AREA)
- Physics & Mathematics (AREA)
- Biochemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Genetics & Genomics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
Description
(1)サンプルDNAの断片を調製すること;
(2)該サンプルDNAの断片をPCRにかけてPCR産物を得ること、ここで、該サンプルDNAの断片の各々について2つ以上の増幅断片が作製される;
(3)得られたPCR産物をシーケンシングし、該PCR産物に含まれる複数の増幅断片の各々について1つ以上のリード配列を作成し、該複数の増幅断片についての複数のリード配列を得ること;
(4)得られた複数のリード配列の中から、該サンプルDNA上の同一領域の配列情報を有するリード配列を集めてグループ化することにより、リード配列のグループを1つ以上作成すること、ここで、該1つ以上のグループは、平均で1.05〜30個のリード配列を含む;
(5)該リード配列のグループに含まれるリード配列の間で配列情報のコンセンサスを取ること、
を含む、方法を提供する。
(1)サンプルDNAの断片を調製すること;
(2)該サンプルDNAの断片をPCRにかけてPCR産物を得ること、ここで、該サンプルDNAの断片の各々について2つ以上の増幅断片が作製され、該PCRでの初期DNA量は、該サンプルDNAのサイズ1Mbpあたり250amol以下である;
(3)得られたPCR産物をシーケンシングし、該PCR産物に含まれる複数の増幅断片の各々について1つ以上のリード配列を作成し、該複数の増幅断片についての複数のリード配列を得ること;
(4)得られた複数のリード配列の中から、該サンプルDNA上の同一領域の配列情報を有するリード配列を集めてグループ化することにより、リード配列のグループを1つ以上作成すること;
(5)該リード配列のグループに含まれるリード配列の間で配列情報のコンセンサスを取ること、
を含む、方法を提供する。
細胞中のゲノムDNAをサンプルDNAとして用いて、前記DNAのシーケンシング方法を実施し、配列データを作成すること; 該配列データを参照配列と比較して、該配列データと該参照配列とで塩基がマッチしない部位を変異部位として検出すること、ここで該参照配列は、該ゲノムDNA中の既知配列である、
を含む、方法を提供する。
本明細書において、「変異(又は突然変異)」(mutation)とは、DNAに生じる突然変異をいい、例えば、DNAにおける塩基又は配列の欠失、挿入、置換、付加、逆位、及び転座が挙げられる。本明細書における変異は、1塩基の欠失、挿入、置換、付加、ならびに2以上の塩基からなる配列の欠失、挿入、置換、付加、逆位、及び転座を包含する。また本明細書における変異には、遺伝子のコード領域及び非コード領域における変異が含まれ、また発現するアミノ酸の変化を伴う変異及び伴わない変異(サイレント変異)が含まれる。
本発明は、高精度なDNAのシーケンシング方法を提供する。基本的には、本発明によるDNAのシーケンシング方法は、サンプルDNAの断片を取得すること;該サンプルDNAの断片をPCRにかけてPCR産物を得ること;得られたPCR産物をシーケンシングし、該PCR産物に含まれる各サンプルDNA断片由来の複数の増幅断片の各々について1つ以上の読み取り結果(リード配列)を作成し、複数の増幅断片についての複数のリード配列を得ること;該シーケンシングで得られたリード配列の中から、該サンプルDNA上の同一領域の配列情報を有するリード配列を集めること;集めたリード配列の情報を用いて、該サンプルDNAの配列情報を構築すること、を含む。
本発明によるDNAのシーケンシング方法で用いられる「サンプルDNA」は、2本鎖DNAであればよく、その由来は動物、植物、微生物などを含み、特に限定されない。該サンプルDNAの種類としては、ゲノムDNA、ミトコンドリアゲノムDNA、葉緑体ゲノムDNA、プラスミドDNA、ウイルスゲノムDNA、合成DNAなどが挙げられ、限定されないが、ゲノムDNAが好ましい。これらサンプルDNAは、細胞から当該分野における通常の方法を用いて抽出又は単離することによって取得することができる。該抽出又は単離には、例えば、市販のDNA抽出キットなどを用いることができる。あるいは、細胞から抽出又は単離後保存されているDNAを取得し、本発明の方法で使用してもよい。合成DNAは、公知の化学合成法により合成することができる。
次いで、得られたサンプルDNA断片のPCR産物をシーケンシングにかける。PCR産物のシーケンシングは、解析等に必要な部分、例えば後述する変異解析の場合、参照配列との配列比較に使用すべき部分について行えば足りる。例えば、その配列の少なくとも一部、好ましくは全体が、参照配列のDNA領域に対応する断片をシーケンシングすればよい。哺乳動物細胞等の場合には、エクソン領域等を選択的にシーケンシングしてもよい。領域の選択には、SureSelect(アジレント・テクノロジー社製)等のキットが上市されている。
次いで、得られた複数のリード配列の中から、各リード配列の配列情報に基づいて、サンプルDNA上の同一領域の配列情報を有するリード配列を集める。集めたリード配列は、グループ化される。したがって、本発明の方法で作成される「リード配列のグループ」とは、サンプルDNA上の同一領域の配列情報を有するリード配列の集合であり、言い換えると、同一のサンプルDNA断片に由来すると推定されるリード配列の集合である。本発明の方法においては、通常、PCRにかけたサンプルDNA断片の数とシーケンシングデータの量に依存して、1つ以上のリード配列のグループが作成され得る。
次に、得られたリード配列のグループから、サンプルDNAの配列情報を抽出する。詳細には、該リード配列のグループに含まれるリード配列の情報を用いて1つの配列データを導き出す。得られた配列データは、該グループのリード配列が由来する特定のサンプルDNA断片についてのコンセンサス配列を表す。
シーケンシングエラーを引き起こす、DNAの酸化修飾等による塩基の変更は、基本的にはDNA2本鎖のうち片方の鎖だけに起こる。したがって、DNAの2本の相補鎖それぞれについてのシーケンシング情報を用いることで、片方の鎖にのみ発生した塩基の変更を変異として検出することなく、2本鎖に固定された真の変異のみを同定することが可能となる。DNAの2本の相補鎖の配列は、相補的であるものの、互いに等価の情報を有する。従って理論上は、シーケンシングで得られたリード配列の中から等価の情報を有する配列を探すことにより、相補鎖の情報を得ることが可能である。例えば、ある生物種のゲノム配列からサンプルDNAを調製した場合、サンプルDNA断片を構成する2本の相補鎖それぞれに由来する読み取り領域が同一である2つのリード配列は、解析対象となる生物種の参照配列にマッピングした場合には、ゲノムの同一箇所にマッピングされる。したがって、ゲノムの同一箇所にマップされ得るリード配列を集めて、それらリード配列をその由来する相補鎖によって選抜することで、2本の相補鎖のそれぞれに由来するリード配列を取得することができる。さらにそれら2本の相補鎖に由来するリード配列間でのコンセンサスをとることにより、相補鎖の情報を反映させた高精度なリード情報を得ることが可能である。
本発明の方法の一実施形態においては、上記(2−2)で述べたPCR産物のシーケンシングの際に、PCR産物に含まれる該複数の増幅断片の各々に対して1本のリード配列を作成する代わりに、2本のリード配列からなるリード配列のペア(すなわち「リードペア」)が1つ作成される。作成されたリードペアから、上記と同様の原理で、サンプルDNAの配列情報が抽出される。
上述したリードペアを用いて、相補鎖情報を用いたDNAのシーケンシング方法を行うことができる。当該方法では、上記(2−6)で述べたPCR産物のシーケンシングの際に、各サンプルDNAの断片を構成する2本の相補鎖の各々に由来する増幅断片に対して、1つ以上のリードペアが作成される。すなわち、1個のサンプルDNA断片に対して2つ以上のリードペアが取得され、それらのリードペアは、該サンプルDNA断片の2本の相補鎖の一方及び他方についての配列情報を有する。したがって、本実施形態においては、上述したシーケンシングで得られる複数のリード配列は、複数個のリードペアを含む。
上述した本発明によるDNAのシーケンシング方法では、サンプルDNAの個別の断片を識別するための標識を用いないために、本来異なるDNA断片に由来する配列を誤って同一断片として誤認識する可能性があり、そのため本来変異として検出されるべきものがエラーと見なされて見逃される可能性がある。例えばがん遺伝子のような特定領域の変異の有無に基づき診断を行うような場合、変異の正確な同定が求められるため、変異の見逃しは重大な問題となり得る。一方、化学物質の変異原性評価や、特定の個人のゲノム全体に生じた変異情報に基づき変異原の推定を行う場合では、サンプルDNA全体での変異の概要を捉えることがより重要であり、必ずしも特定領域の変異の正確な同定を要求しない。この場合、変異の見逃しは、サンプルDNA全体での変異の傾向に影響を与える程度に高頻度に起こらない限り、許容できる。
〔1〕サンプルDNAの配列データの得られる効率(解析効率)
本発明のシーケンシング方法においては、サンプルDNA断片のPCRを行い、その産物をライブラリ(様々なDNA断片のPCR産物の混合物)としてシーケンシングに供する。従って、シーケンシングデータからサンプルDNAの配列データ(例えば、リード配列のグループ内でのコンセンサスデータや、相補鎖間コンセンサスリード配列)が得られる効率(解析効率)は、当該ライブラリ中に同一DNA断片由来のPCR産物(順鎖及び相補鎖を含む)が含まれている割合と、該ライブラリを用いたシーケンシングデータの量(リード数又はbp)に依存する。すなわち、適切なPCR条件とシーケンシングデータ量の設定が解析効率にとって重要である。
断片の誤認識は、ライブラリ中に異なるサンプルDNA断片に由来するが配列が重複する断片が含まれており、かつそれら断片の双方がシーケンシングされている場合に発生し得る。したがって、断片の誤認識には、ライブラリ中のDNA配列の多様度(PCRでの初期DNA量)が関係する。また、ライブラリ中のDNA配列の多様度には、サンプルDNAの配列の多様度が影響し、サンプルDNAの配列の多様度はサンプルDNAのサイズに概ね依存する。よって、サンプルDNAのサイズも断片の誤認識に影響する。
より好ましくは、サンプルDNAのサイズは約5Mbpであり、PCR初期DNA量は20〜625amolであり、シーケンシングデータ量は、リード配列又はリードペア数で0.4〜6250×106個(0.08〜1250Gbp)、好ましくは0.8〜3125×106個(0.16〜625Gbp)、より好ましくは1.6〜1563×106個(0.32〜313Gbp)、さらに好ましくは3.2〜1250×106個(0.64〜250Gbp)である。
さらに好ましくは、サンプルDNAのサイズは約5Mbpであり、PCR初期DNA量は39〜313amolであり、シーケンシングデータ量は、リード配列又はリードペア数で0.78〜3130×106個(0.156〜626Gbp)、好ましくは1.56〜1565×106個(0.312〜313Gbp)、より好ましくは3.12〜783×106個(0.624〜157Gbp)、さらに好ましくは6.24〜626×106個(1.248〜125Gbp)である。
本発明のシーケンシング方法の別の好ましい一実施形態においては、サンプルDNAのサイズは約5Mbpであり、リード配列又はリードペアのグループあたりのリード配列又はリードペアの数は、該グループ間の平均で、1.05〜30、好ましくは1.1〜20、さらに好ましくは1.2〜10、なお好ましくは1.4〜5である。
より好ましくは、サンプルDNAのサイズは約3Gbpであり、PCR初期DNA量は20〜2500amolであり、シーケンシングデータ量は、リード配列又はリードペア数で0.4〜25000×106個(0.08〜5000Gbp)、好ましくは0.8〜12500×106個(0.16〜2500Gbp)、より好ましくは1.6〜6250×106個(0.32〜1250Gbp)、さらに好ましくは3.2〜5000×106個(0.64〜1000Gbp)である。
さらに好ましくは、サンプルDNAのサイズは約3Gbpであり、PCR初期DNA量は39〜1250amolであり、シーケンシングデータ量は、リード配列又はリードペア数で0.78〜12500×106個(0.156〜2500Gbp)、好ましくは1.56〜6250×106個(0.312〜1250Gbp)、より好ましくは3.12〜3125×106個(0.624〜625Gbp)、さらに好ましくは6.24〜2500×106個(1.248〜500Gbp)である。
本発明のシーケンシング方法のなお別の好ましい一実施形態においては、サンプルDNAのサイズは約3Gbpであり、リード配列又はリードペアのグループあたりのリード配列又はリードペアの数は、該グループ間の平均で、1.05〜30、好ましくは1.1〜20、さらに好ましくは1.2〜10、なお好ましくは1.4〜5である。
本発明によるDNAのシーケンシング方法で得られた配列データは、シーケンシングにおける読み取りエラーや、サンプルDNAの酸化修飾等に起因するエラーが除外された高精度な配列データである。したがって、本発明によるDNAのシーケンシング方法は、これに限定されないが、変異解析に応用することができる。より詳細には、例えば、ゲノムDNAの変異解析による、試験物質の遺伝毒性の評価や、生殖発生毒性等のその他毒性の評価、ゲノムDNAに対する経時変化、生活環境、遺伝的要素などの影響の評価、培養細胞の品質評価などに応用することができる。これらの応用においては、変異解析の対象であるゲノムDNAをサンプルDNAとして本発明のシーケンシング方法を行い、配列データを取得する。次いで、得られた配列データを用いて変異解析を行い、解析対象ゲノムDNAの変異を検出する。
(i) 参照配列上の塩基がAである位置に存在する塩基
(ii) 参照配列上の塩基がTである位置に存在する塩基
(iii)参照配列上の塩基がGである位置に存在する塩基
(iv) 参照配列上の塩基がCである位置に存在する塩基
上記(i)及び(ii)は、参照配列の塩基対がATであった部位に存在する塩基であり、上記(iii)及び(iv)は、参照配列の塩基対がGCであった部位に存在する塩基である。これらの塩基の中から、参照配列と塩基がマッチしない(すなわち塩基対置換変異している)ものを検出する。次いで、検出された変異部位の各々について、参照配列と配列データの配列情報に基づいて変異前及び後の塩基対を求める。これらのデータから、各変異を、変異前の塩基対がATであった場合について[AT→TA、AT→CG、及びAT→GC]の3パターン、変異前の塩基対がGCであった場合について[GC→TA、GC→CG、及びGC→AT]の3パターンの、全部で6つの塩基対の変異パターンに分類することができる。さらに、各変異パターンに属する変異の総数、及び解析した塩基の総数に基づいて、各変異パターンの出現頻度を決定することができる。例えば、AT、GC塩基対それぞれについての解析した塩基の総数に基づいて、各々の塩基対ごとに3種類の変異パターンの出現頻度を算出することができる。
(1)サンプルDNAの断片を調製すること;
(2)該サンプルDNAの断片をPCRにかけてPCR産物を得ること、ここで、該サンプルDNAの断片の各々について2つ以上の増幅断片が作製される;
(3)得られたPCR産物をシーケンシングし、該PCR産物に含まれる複数の増幅断片の各々について1つ以上のリード配列を作成し、該複数の増幅断片についての複数のリード配列を得ること;
(4)得られた複数のリード配列の中から、該サンプルDNA上の同一領域の配列情報を有するリード配列を集めてグループ化することにより、リード配列のグループを1つ以上作成すること、ここで、該1つ以上のグループは、平均で1.05〜30個のリード配列を含む;
(5)該リード配列のグループに含まれるリード配列の間で配列情報のコンセンサスを取ること、
を含む、方法。
<2>DNAのシーケンシング方法であって、
(1)サンプルDNAの断片を調製すること;
(2)該サンプルDNAの断片をPCRにかけてPCR産物を得ること、ここで、該サンプルDNAの断片の各々について2つ以上の増幅断片が作製され、該PCRでの初期DNA量は、該サンプルDNAのサイズ1Mbpあたり250amol以下である;
(3)得られたPCR産物をシーケンシングし、該PCR産物に含まれる複数の増幅断片の各々について1つ以上のリード配列を作成し、該複数の増幅断片についての複数のリード配列を得ること;
(4)得られた複数のリード配列の中から、該サンプルDNA上の同一領域の配列情報を有するリード配列を集めてグループ化することにより、リード配列のグループを1つ以上作成すること;
(5)該リード配列のグループに含まれるリード配列の間で配列情報のコンセンサスを取ること、
を含む、方法。
<3>好ましくは、前記(3)が、前記サンプルDNAの断片を構成する2本の相補鎖の各々に由来する増幅断片に対して1つ以上のリード配列を作成することを含む、<1>又は<2>記載の方法。
<4>好ましくは、前記(4)が、参照配列上の同一の位置にマッピングされるリード配列を同じグループに分けることを含む、<1>〜<3>のいずれか1項記載の方法。
<5>好ましくは、前記(5)が、前記リード配列のグループの中から、前記サンプルDNA断片の2本の相補鎖の各々に由来するリード配列を少なくとも1つずつ集め、集めたリード配列の間で配列情報のコンセンサスを取ることを含む、<3>又は<4>記載の方法。
前記(3)において、前記複数のリード配列が、以下からなるリード配列のペアを複数個含み:
リード1:前記増幅断片を構成する2本の相補鎖のうちの一方の鎖の配列を5’末端側から3’側へ読んだ配列に相当する配列情報を含むリード配列、
リード2:該一方の鎖の配列を3’末端側から5’側へ読んだ配列に相当する配列情報を含むリード配列、
前記(4)が、得られたリード配列のペアの中から、該サンプルDNA上の同一領域の配列情報を有するリード配列のペアを集めてグループ化することにより、リード配列のペアのグループを1つ以上作成することを含み、ここで、該1つ以上のグループは、平均で1.05〜30個のリード配列のペアを含み、
前記(5)が、該リード配列のペアのグループに含まれるリード配列の間で配列情報のコンセンサスを取ることを含む、
方法。
<7>前記<2>記載の方法であって、好ましくは、
前記(3)において、前記複数のリード配列が、以下からなるリード配列のペアを複数個含み:
リード1:前記増幅断片を構成する2本の相補鎖のうちの一方の鎖の配列を5’末端側から3’側へ読んだ配列に相当する配列情報を含むリード配列、
リード2:該一方の鎖の配列を3’末端側から5’側へ読んだ配列に相当する配列情報を含むリード配列、
前記(4)が、得られたリード配列のペア中から、該サンプルDNA上の同一領域の配列情報を有するリード配列のペアを集めてグループ化することにより、リード配列のペアのグループを1つ以上作成することを含み、
前記(5)が、該リード配列のペアのグループに含まれるリード配列の間で配列情報のコンセンサスを取ることを含む、
方法。
<8>好ましくは、前記(3)が、前記サンプルDNAの断片を構成する2本の相補鎖の各々に由来する増幅断片に対して1つ以上の前記リード配列のペアを作成することを含む、<6>又は<7>記載の方法。
<9>好ましくは、前記(4)が、前記リード配列のペアのリード1とリード2を参照配列に対してマッピングし、リード1の先頭とリード2の先頭とに挟まれる該参照配列の領域が同一であるリード配列のペアを同じグループに分けることを含む、<6>〜<8>のいずれか1項記載の方法。
<10>好ましくは、前記(4)が、前記リード配列のペアに含まれる一方のリード配列の先頭が前記参照配列上の同じ位置に位置するリード配列のペアを集め、次いで集めたリード配列のペアの中から、該リード配列のペアに含まれるもう一方のリード配列の先頭が該参照配列上の同じ位置に位置するリード配列のペアを集めて、集めたリード配列のペアを同じグループに分けることを含む、<9>記載の方法。
<11>好ましくは、前記サンプルDNA断片の2本の相補鎖が、それらの5’末端側と3’末端側に異なる標識配列を有し、かつ、前記シーケンシングにより、各リード配列に付随する該標識配列の情報が取得され、
前記リード配列のペアのグループの中のリード配列のペアを、それに含まれる2本のリード配列に付随する該標識配列の情報と、該2本のリード配列の前記参照配列上での互いの位置関係に基づいて、サンプルDNA断片の2本の相補鎖のどちらに由来するか識別することをさらに含む、<10>記載の方法。
<12>好ましくは、前記(5)が、前記リード配列のペアのグループの中から、前記サンプルDNA断片の2本の相補鎖の各々に由来するリード配列のペアを少なくとも1組ずつ集め、集めたリード配列のペアに含まれるリード配列の間で配列情報のコンセンサスを取ることを含む、<8>〜<11>のいずれか1項記載の方法。
好ましくは1.05〜30個
より好ましくは1.1〜20個、
さらに好ましくは1.2〜10個、
なお好ましくは1.4〜5個、
である、<1>〜<5>のいずれか1項記載の方法。
<14>前記シーケンシングにおいて、前記PCRでの初期DNA量1amolあたり、
好ましくは0.02〜10×106個、
より好ましくは0.04〜5×106個、
さらに好ましくは0.08〜2.5×106個、
なお好ましくは0.16〜2×106個、
のリード配列を取得するか、
あるいは、
好ましくは4〜2000Mbp、
より好ましくは8〜1000Mbp、
さらに好ましくは16〜500Mbp、
なお好ましくは32〜400Mbp、
のリード配列を取得する、
<1>〜<5>及び<13>のいずれか1項記載の方法。
好ましくは1.05〜30個
好ましくは1.1〜20個、
さらに好ましくは1.2〜10個、
なお好ましくは1.4〜5個、
である、<6>〜<12>のいずれか1項記載の方法。
<16>前記シーケンシングにおいて、前記PCRでの初期DNA量1amolあたり、
好ましくは0.02〜10×106個、
より好ましくは0.04〜5×106個、
さらに好ましくは0.08〜2.5×106個、
なお好ましくは0.16〜2×106個、
のリード配列のペアを取得するか、
あるいは、
好ましくは4〜2000Mbp、
より好ましくは8〜1000Mbp、
さらに好ましくは16〜500Mbp、
なお好ましくは32〜400Mbp、
のリード配列のペアを取得する、
<6>〜<12>及び<15>のいずれか1項記載の方法。
好ましくは250amol以下、
より好ましくは125amol以下、
さらに好ましくは62.5amol以下、
なお好ましくは31.3amol以下、
さらになお好ましくは15.6amol以下、
さらになお好ましくは7.8amol以下、
さらになお好ましくは3.9amol以下、
さらになお好ましくは1.7amol以下、
さらになお好ましくは0.83amol以下、
さらになお好ましくは0.42amol以下、
さらになお好ましくは0.21amol以下、
である、<1>〜<16>のいずれか1項記載の方法。
<18>前記(2)において、前記PCRでの前記サンプルDNAのサイズ1Mbpあたりの初期DNA量が、
好ましくは0.0003amol以上、
より好ましくは0.0007amol以上、
さらに好ましくは0.002amol以上、
なお好ましくは0.005amol以上、
さらになお好ましくは0.01amol以上、
さらになお好ましくは0.03amol以上、
さらになお好ましくは0.05amol以上、
さらになお好ましくは0.1amol以上、
さらになお好ましくは0.3amol以上、
さらになお好ましくは0.1amol以上、
さらになお好ましくは0.3amol以上、
さらになお好ましくは1amol以上、
さらになお好ましくは2amol以上、
さらになお好ましくは3.9amol以上、
さらになお好ましくは7.8amol以上、
である、<1>〜<17>のいずれか1項記載の方法。
<19>前記(2)において、前記PCRでの初期DNA量が、
好ましくは0.1amol以上、
より好ましくは1amol以上、
さらに好ましくは5amol以上、
なお好ましくは20amol以上、
さらになお好ましくは39amol以上、
さらになお好ましくは78amol以上、
である、<1>〜<18>のいずれか1項記載の方法。
<20>前記(2)において、前記PCRでの初期DNA量が、
好ましくは100000amol以下、
より好ましくは20000amol以下、
さらに好ましくは5000amol以下、
である、<1>〜<19>のいずれか1項記載の方法。
<21>前記サンプルDNAが、
好ましくは10kbp以上、
より好ましくは100kbp以上、
さらに好ましくは1Mbp以上、
なお好ましくは4Mbp以上、
のサイズを有する、<1>〜<20>のいずれか1項記載の方法。
<22>前記シーケンシングにおいて、前記サンプルDNAの1Mbpあたり、
好ましくは0.05〜1600×106個、
より好ましくは0.1〜800×106個、
さらに好ましくは0.2〜400×106個、
なお好ましくは0.5〜200×106個、
さらになお好ましくは1〜100×106個、
さらになお好ましくは2〜50×106個、
のリード配列又はリード配列のペアを取得するか、
あるいは、
好ましくは0.01〜320Gbp、
より好ましくは0.02〜160Gbp、
さらに好ましくは0.04〜80Gbp、
なお好ましくは0.1〜40Gbp、
さらになお好ましくは0.2〜20Gbp、
さらになお好ましくは0.4〜10Gbp、
のリード配列又はリード配列のペアを取得する、
<1>〜<21>のいずれか1項記載の方法。
<23>好ましくは、前記サンプルDNAが哺乳動物由来ゲノムDNAであり、かつ前記シーケンシングにおいて、該サンプルDNAの1Mbpあたり、
好ましくは0.00003〜16×106個、
より好ましくは0.00007〜8×106個、
さらに好ましくは0.0001〜4×106個、
なお好ましくは0.0003〜2×106個、
さらになお好ましくは0.0005〜1×106個、
さらになお好ましくは0.001〜0.5×106個、
のリード配列又はリード配列のペアを取得するか、
あるいは、
好ましくは0.006〜3200Mbp、
より好ましくは0.014〜1600Mbp、
さらに好ましくは0.02〜800Mbp、
なお好ましくは0.06〜400Mbp、
さらになお好ましくは0.1〜200Mbp、
さらになお好ましくは0.2〜100Mbp、
のリード配列又はリード配列のペアを取得する、
<1>〜<21>のいずれか1項記載の方法。
<24>好ましくは、前記PCRにかけるサンプルDNAの断片に、個別のサンプルDNAの断片を識別するための標識が連結されていない、<1>〜<23>のいずれか1項記載の方法。
細胞中のゲノムDNAをサンプルDNAとして用いて、<1>〜<24>のいずれか1項記載のDNAのシーケンシング方法を実施し、配列データを作成すること; 該配列データを参照配列と比較して、該配列データと該参照配列とで塩基がマッチしない部位を変異部位として検出すること、ここで該参照配列は、該ゲノムDNA中の既知配列である、
を含む、方法。
<26>好ましくは、前記ゲノムDNAが試験物質に曝露した細胞のゲノムDNAを含む、<25>記載の方法。
<27>好ましくは、
前記ゲノムDNAが試験物質に曝露した細胞のゲノムDNAと、該試験物質に曝露していない対照細胞のゲノムDNAを含み、
該試験物質に曝露した細胞のゲノムDNAについて検出した変異と、該対照細胞のゲノムDNAについて検出した変異とを比較することをさらに含む、
<26>記載の方法。
<28>前記細胞が、
好ましくは微生物細胞であり、
より好ましくは大腸菌細胞、サルモネラ菌細胞、又は酵母細胞であり、
さらに好ましくはサルモネラ菌細胞である、
<25>〜<27>のいずれか1項記載の方法。
<29>好ましくは、前記サルモネラ菌がS.typhimurium LT−2株、TA100株、TA98株、TA1535株、TA1538株又はTA1537株である、<28>記載の方法。
<30>好ましくは、前記細胞が哺乳動物細胞、又は哺乳動物由来培養細胞である、<25>〜<27>のいずれか1項記載の方法。
<31>好ましくは、前記哺乳動物がヒト又はマウスである、<30>記載の方法。
<32>好ましくは、前記ゲノムDNAの変異が経時変化によるゲノムDNAの変異を含む、<25>記載の方法。
<33>好ましくは、
前記ゲノムDNAが、経時変化した細胞のゲノムDNAと、より経時変化していない細胞のゲノムDNAを含み、
該経時変化した細胞のゲノムDNAについて検出した変異と、該より経時変化していない細胞のゲノムDNAについて検出した変異とを比較することをさらに含む、
<32>記載の方法。
<34>好ましくは、前記細胞が哺乳動物細胞、又は哺乳動物由来培養細胞である、<32>又は<33>記載の方法。
<35>好ましくは、前記細胞が培養細胞である、<32>又は<33>記載の方法。
<36>好ましくは、前記変異が塩基対置換型変異である、<25>〜<35>のいずれか1項記載の方法。
1)DNA相補鎖情報を用いたシーケンシングアルゴリズム
本アルゴリズムでは、個別のDNA断片を識別する標識(断片分子固有のタグ配列等)を用いることなく、同一DNA断片のPCR産物に由来すると推定されるリード配列(リードペア)を集め、次いで、2本の相補鎖(以下、A鎖及びB鎖と称する)のそれぞれに由来すると推定されるリード配列間でのコンセンサスリード配列(相補鎖間コンセンサスリード配列)を作成し、配列データとして取得する。得られた相補鎖間コンセンサスリード配列は、解析対象DNAの変異解析などに利用することができる。
i)本実施例で用いるライブラリプールには、サンプルDNA断片の2本の相補鎖の双方に由来するPCR産物が含まれる。したがって、このライブラリプールがシーケンシングされた場合、該2本の相補鎖のそれぞれについてリード1とリード2が作成され得る。
1)で得られた相補鎖間コンセンサスリード配列は、各種解析に利用することができる。代表的な例として、相補鎖間コンセンサスリード配列を用いたゲノムDNAの変異解析について以下に説明する。
本実施例では、ゲノム変異解析用の配列データを得るための、実施例1に記載したアルゴリズムによるシーケンシングにおける最適条件を探索した。サンプルDNAには、代表的な変異原であるEthylnitrosourea(ENU、CASRN.759−73−9)を暴露したSalmonella typhimurium(S.typhimurium)LT−2 TA100株(以下、単に「TA100株」とも称する)のゲノムDNAを用いた。
ENUへの細胞の曝露は、Ames試験のプレインキュベーション法(K. Mortelmans et al., Mutat. Res. - Fundam. Mol. Mech. Mutagen., 455:29-60, 2000)に準拠して実施した。TA100株を2mLのニュートリエントブイヨン No.2(Oxoid社製)に植菌し、37℃、180rpmで4時間振とう培養し、O.D.660値が1.0以上の前培養液を得た。ENU(シグマアルドリッチ社製)は、ジメチルスルホキシド(DMSO;和光純薬工業製)で希釈した。試験管内に、ENU溶液100μL、0.1Mリン酸バッファー500μL、及び前培養液100μLを添加し(ENU量:62.5、125、250、500、及び1000μg/tube)、37℃のウォーターバス中で20分間、100rpmで振とう培養した(ENU群)。コントロール群には、ENU溶液の代わりに溶媒(DMSO)100μLを添加した。20分間振とう培養後、培養液を含む試験管をウォーターバスから取り出し、予め分注しておいた2mLのNutrient Broth溶液に培養液50μLを添加し、インキュベーター内で37℃、180rpmで14時間追培養した後、菌懸濁液を回収し、7500rpmで5分間遠心し、上清を除去し、菌体を回収した。
1)で得られた菌体(コントロール群、およびENU群)から、DNeasy Blood & Tissue Kit(キアゲン社製)を用い、推奨プロトコールに従って、Total DNAを回収した。得られたDNAサンプルの2本鎖DNAの濃度を、Qubit3.0 Fluorometer(Thermo Fisher Scientific社製)を用いて、付属のQubitTM dsDNA BR Assay Kitで測定した。
2)で濃度を測定した各DNAサンプル(コントロール群及びENU群)の100ng相当量をそれぞれ複数サンプル用意し、各々をDNA Shearingシステム ME220(コバリス社製)で推奨プロトコールに従って平均約350bpの長さに断片化した。得られた断片化DNAをTruSeq Nano DNA Library Prep Kit(イルミナ社製、以下TruSeqと略記する)を用いて、推奨プロトコールに従ってライブラリ調製に供した。
3)で調製したライブラリを、HiSeq2500(イルミナ社製)を用いて、表1記載のライブラリNo.1〜8については2×125bpのリード長で、ライブラリNo.9〜14については2×100bpのリード長でシーケンシングした。ライブラリあたり、平均で約10Gbpのシーケンシングデータを得た。
シーケンシングによって得られた生リード配列の編集及び変異解析は、上述の模式図4に示す解析フローに従って実施した。まず、Cutadaptソフトウェアを用いて、生リード配列からアダプター配列、及びクオリティの低い塩基等のトリミングを行いリード配列のペアを作成した。次に、得られたトリミング後のリードペアのFastqファイルについて、アダプター配列のインデックス情報を元に、同一ライブラリに由来するFastqファイルを1つのファイルにまとめた。なお、アダプター配列のインデックス情報は、リード配列情報にリンクされている情報であるが、リード配列に含まれる情報ではない。一方、より少ないシーケンシングデータ量での解析のため、約2Gbp(10×106個(10M)のリードペア)のシーケンシングデータの解析を実施した。すなわち、上記の約10GbpのシーケンシングデータのFastqファイル(10Gbp Fastqファイル)の先頭と末尾から、それぞれ5×106個(計10×106個、10Mリードペア)のリードペアを抽出して1つのファイルにまとめ、約2Gbpでの解析用のFastqファイル(2Gbp Fastqファイル)を作成した。その後、これらのFastqファイル(10Gbp及び2Gbp)について、Bowtie2ソフトウェアを用いて参照配列へのマッピングを行い、Samフォーマットのファイルを得た。Samtoolsソフトウェアを用いてSamフォーマットのファイルのリードの並び替えを実施した後、プログラミング言語Pythonを用いて作成したプログラムを用いて、実施例1に示したアルゴリズムに従って、推定フラグメントが共通する2本の相補鎖に由来するリードペアのセットを抽出し、該リードペアのセットから相補鎖間コンセンサスリード配列を作成した(模式図3参照)。得られた相補鎖間コンセンサスリード配列は、新たなFastq形式のファイルとして出力した。得られた相補鎖間コンセンサスリード配列を、再度Bowtie2ソフトウェアで参照配列にマッピングし、Samtoolsソフトウェア、及びプログラミング言語Pythonを用いて作成したプログラムを用いて、変異解析を行った。なお、Bowtie2ソフトウェアでマッピングする参照配列には、PCT/JP2017/005700に記載されるS.typhimurium TA100株のゲノム配列を用いた。
5)で作成した各ライブラリからの10Gbp Fastqファイル及び2Gbp Fastqファイルそれぞれについて、マッピング結果を基に推定フラグメントについてのグループあたりのリードペア数を計数し、リードペア数が等しいグループの数を集計して、グループあたりリードペア数の分布を求めた。また、この分布から、各ライブラリにおける平均リードペア数/グループを算出した。
5)で作成した各ライブラリの10Gbp Fastqファイル及び2Gbp Fastqファイルそれぞれから、マッピング結果を基に、推定フラグメントについてのグループのうち2つ以上のリードペアが含まれるグループを抽出した。抽出したグループを対象として、各リードペアについてのアダプター配列のインデックス情報を元に、異なるDNA断片に由来するリードペア(同一断片の2本の相補鎖に由来しないリードペア)を含むグループの割合(重なり率、Overlap rate)を算出した。すなわち、各リードペアのインデックス配列(1stindex又は2ndindex)を確認し、1stindex付リードペアと2ndindex付リードペアの両方を含むグループの数、及び抽出した2つ以上のリードペアが含まれるグループ全体に対するそれらの割合(重なり率)を算出した(模式図5)。
重なり率(%) = (1stindex付リードペアと2ndindex付リードペアの両方を含むグループの数)/(2つ以上のリードペアが含まれるグループの数)×100
5)で相補鎖間コンセンサスリード配列を参照配列にマッピングした後、PCT/JP2017/005700に記載された手順に従って、変異した塩基を検出した。すなわち、Pythonを用いたプログラムを用いて、各ライブラリについて、参照配列に対してマッピングされた全相補鎖間コンセンサスリード配列中の全解析対象塩基を、対応する参照配列の塩基によって4群に分けた。次いで各群の塩基の総数、及び参照配列に対して変異した塩基を検出した。検出した変異した塩基を参照配列の塩基と比較することで、コントロール群及びENU群それぞれについて、解析対象塩基中におけるAT塩基対、GC塩基対の各106bpにおける各変異パターン(AT→TA、AT→CG、AT→GC、及びGC→TA、GC→CG、GC→AT)、及び各変異パターンの変異頻度を算出した。また、変異解析の際に用いた各ライブラリについてのコンセンサスリード配列中の解析対象塩基の総量(bp)と、各ライブラリのシーケンシングで読み取ったシーケンシングデータ量(bp)から、各ライブラリの解析効率(Data efficiency)を算出した。
解析効率(%) = (相補鎖間コンセンサスリード配列中の解析対象塩基の総量)/(シーケンシングデータ量)×100
I)Ames試験の復帰突然変異体数
表2にENU曝露後の復帰突然変異体コロニー数を示す。データは3枚のプレートの測定値と、その平均値を示す。ENU曝露により、復帰突然変異体コロニー数の増加が認められたことから、ENU曝露によりTA100株のゲノム中に変異が導入されたことが確認できた。
i)10Gbpシーケンシングデータ
6)で算出した、10Gbp Fastqファイルにおける推定フラグメントについてのグループあたりのリードペア数の分布を、図1〜2に示す。図1にコントロール(DMSO曝露)群、図2にENU(ENU曝露)群のデータを、PCRでの初期DNA量の異なるライブラリ(ライブラリNo.1、4〜14)ごとに示す。コントロール群及びENU群のいずれにおいても、PCRでの初期DNA量を減らすにつれて、グループあたりのリードペア数が増加する傾向がみられた。また、PCRでの初期DNA量ごとに、8)で算出した解析効率を図3に示す。コントロール群において、初期DNA量20000〜156amol(約4000〜31.3amol/Mbp(genome))ライブラリのシーケンシングでは、156amolで最も効率が良かったが、初期DNA量をさらに減少させることでさらに効率が上がることが推測できた。そこで、さらに初期DNA量156〜5amol(約31.3〜1amol/Mbp(genome))のライブラリをシーケンシングした結果、78amolが最も効率が良かったことから、78amol(約15.6amol/Mbp(genome))が最も解析効率が良い初期DNA量と考えられた。
2Gbp Fastqファイルについて、i)と同様の解析を行った。2Gbpのシーケンシングデータの解析は、コントロール群についてのみ実施した。PCRでの初期DNA量を減らすにつれて、10Gbpデータと同様に、グループあたりのリードペア数が増加する傾向がみられた(図4)。解析効率は、10Gbpデータとは異なり、20amolの初期DNA量で最大となった(図5)。
グループに含まれる平均的なリードペア数が少なければ、相補鎖間コンセンサスリード配列を作成できるグループが少なくなり、解析効率は低くなると考えられる。一方、グループあたりの平均的なリードペア数が多すぎれば、一つの相補鎖間コンセンサスリード配列作成に使用されるリード数が多くなり、逆に効率が低下するものと考えられる。10Gbp及び2Gbpシーケンシングデータについての初期DNA量ごとの解析効率と推定フラグメントのグループあたり平均リードペア数を調べた。結果を表3に示す。10Gbp及び2Gbpシーケンシングデータのいずれにおいても、平均リードペア数は、基本的には初期DNA量の減少に従って増加した。10Gbpシーケンシングデータでは、最も効率のよい78amolにおける平均リードペア数は、コントロール群で2.35、ENU群で2.32であった。2Gbpシーケンシングデータでは、最も効率のよい20amolにおける平均リードペア数は、2.21で、10Gbpの場合と近い値であった。この結果から、推定フラグメントについてのグループに含まれるリードペア数が平均約2になる辺りで、最適な解析効率が得られることが示された。
i)10Gbpシーケンシングデータ
7)で10Gbp Fastqファイルについて算出した、1つの推定フラグメントについてのグループが異なるDNA断片に由来するリードペアを含む割合(重なり率)を、図6及び表4〜5に示す。図6A及び表4にDMSO曝露(コントロール)群、図6B及び表5にENU曝露(ENU)群のデータを示す。重なり率は、異なる細胞からの別々のDNA断片由来の異なるリード同士が、偶然等価の配列情報を有することで、同一断片由来のリードとして誤認識された割合を表す。本実施例では2種類のインデックスを用いたことから、異なるDNA断片が同一断片として誤認識される事象のうち、およそ半数が検出されたと推定される。したがって、得られた重なり率の約2倍の値が、異なるDNA断片の配列が偶然等価の配列情報を有する実際の割合(真の重なり率)であると推定される。10Gbpシーケンシングデータでは、PCRでの初期DNA量が減少するに従って重なり率は低下した。最も解析効率の高い初期DNA量78amol(約15.6amol/Mbp(genome))での重なり率は、コントロール群で0.59%、ENU群で0.75%であったことから、78amol(約15.6amol/Mbp(genome))付近は、解析効率が高いと同時に、真の重なり率を1%程度に抑えられる初期DNA量であると考えられた。
2Gbp Fastqファイルについてのコントロール群での重なり率を表6に示す。10Gbpシーケンシングデータと比較して、重なり率がやや低下する傾向が認められたが、大きな変化は確認されなかった。
8)で求めた、各ライブラリからの10Gbpシーケンシングデータをもとに検出した変異頻度を図7〜8に示す。ENU群では、いずれのライブラリにおいてもGC→AT変異の頻度が最も高かった。これは、既知のENUによる変異の変異スペクトル解析の結果と一致していた(Matsuda et al., Genes and Environment, 2015、37:15-24)。PCRでの初期DNA量が20000〜156amol(約4000〜31.3amol/Mbp(genome))のライブラリでは、初期DNA量が低下するに従ってENU群での変異頻度が上昇する傾向があった(図7)。一方、156〜5amol(約31.3〜1amol/Mbp(genome))のライブラリでは、初期DNA量による変異頻度の上昇はみられなかった(図8)。特に重なり率が1%を下回るPCR初期DNA量が78amol〜5amolの条件においては、重なり率の低下に伴う変異頻度の上昇が認められないことから、重なりによる変異頻度への影響が実験誤差の範囲に収まっており、これらの条件が示す付近に真の変異頻度があるものと考えられた。そこで、これら条件のうち、GC→AT変異頻度が最も高かった20amol(約4amol/Mbp(genome))ライブラリを基準にした各ライブラリのGC→AT変異の相対変異頻度を算出し、重なり率とともに表7に示した。S.typhimuriumのゲノム(ゲノムサイズ約4.86Mbp)においては、およそ1250amol(約250amol/Mbp(genome))以下の初期DNA量、又はDNAの多様度がこれと同等以下のライブラリを用いれば、少なくとも70%以上の精度で変異を検出できることが示唆された。一方、PCRでの初期DNA量が多くなるにつれ変異頻度は低下した。表7に示した各ライブラリの重なり率から、PCRでの初期DNA量が多い条件では、重なり率が大きいために本来変異として検出されるべきものがエラーとして誤認識され、正確な変異頻度が算出されていなかったと推測された。
本実施例でのシーケンシングにおける各種条件を表8に示す。表8の各列の数値は、以下の理論値、設定値、及び測定値を示す。
A.PCRでの初期DNA量(amol)
B.サンプルDNA1MbpあたりのPCRでの初期DNA量(amol/Mbp(sample DNA))
C.PCR開始時のDNA断片の総数(個:6.02×1023個×A)
D.PCRのサイクル数
E.PCRにおける各断片の増幅率(2のC乗)
F.PCR増幅後の断片の総数(B×D)
G.Eのうち、同一DNA断片由来のPCR産物が占める割合(D/E)
H.シーケンシングされた塩基の総数(シーケンシングデータ量)
I.シーケンシングデータ中のリードペア数
J.重なり率(異なるDNA断片が同一断片として誤認識される割合)の測定値
K.推定フラグメントについてのグループあたりのリードペア数の測定値
L.解析効率の測定値
表3に示したデータから、シーケンシングにおける解析効率は、解析に使用したシーケンシングデータ量とPCRでの初期DNA量に依存していることが分かった。本実施例では、相補鎖間コンセンサスリード配列を抽出する際、1つの推定フラグメントについてのグループに含まれるリードペア数に特に制限を設けなかった。グループ内に2本の相補鎖にそれぞれ由来する2つのリードペアのセットが少なくとも1個含まれていれば、相補鎖間コンセンサスリード配列を作成した。その結果、推定フラグメントについてのグループに含まれるリードペア数が、平均約2になる辺りの初期DNA量で、最適な解析効率が得られることが分かった(表3)。
表4、表5及び表6に示したデータでは、重なり率(異なるDNA断片が同一断片として誤認識される割合)は、PCRの初期DNA量に依存し、解析に使用したシーケンシングデータ量には依存しなかった。重なり率は、(1)ライブラリプール中の同一DNA断片に由来するPCR産物がシーケンシングされる確率と、(2)等価な配列情報を有する異なるDNA断片由来のPCR産物がシーケンシングされる確率と、の比率によって決定される。表8の値を基にすると、PCRでの初期DNA量を減少させ、PCRのサイクル数を増やすと、全PCR産物中における同一断片由来の産物の割合が増加して、(1)の確率は増加し、逆に(2)の確率は低下し、これによって誤認識の割合が低減されるので、より正確に解析を実施できる。一方、シーケンシングされる断片は、表8のEに示すような大過剰のDNA分子を含むPCR産物からランダムにピックアップされるため、シーケンシングデータ中での(1)と(2)の比率は、データ量の大小によらずPCR産物と同等になる。これが、2Gbpと10Gbpのシーケンシングで重なり率が同等になった理由であると推測された。
本実施例で最大の解析効率をもたらした条件(初期DNA量78amol、シーケンシングデータ量10Gbp)での変異解析の精度(表7)は、サルモネラ菌(ゲノムサイズ約4.86Mbp)の変異原性物質の曝露により生じる変異頻度の測定にとって充分高いと判断された。したがって、上記V)i)において算出した最大の解析効率をもたらすシーケンシング条件は、化学物質等によって導入されたゲノム変異の全体像を捉える上で、十分な条件であると考えられた。
上記IV)のとおり、サルモネラ菌のゲノム解析に利用可能な初期DNA量は最大1250amol(約250amol/Mbp(genome))であったことから(表7)、高い解析効率、及び低い誤認識率(真の重なり率)を達成するための初期DNA量の上限は、ゲノム1Mbpあたり250amolと計算された。一方で、本実施例で検出したENU群での変異頻度が1/106〜1/105bpのオーダーであったことから、変異解析には少なくとも106bpのデータ量が必要であると仮定された。これらの値をもとに、本発明の方法を用いた変異解析を適用可能な最も小さいゲノムサイズを推計した。表10に、異なるサイズのゲノムについて、適用可能なPCR初期DNA量の最大値、最適シーケンシングデータ量、及び取得可能な配列データ量の最大値(解析効率5%と仮定)を示す。表10より、約10kbp以上のゲノムから106bp以上のデータ量が得られることから、ゲノムサイズ約10kbp以上のサンプルであれば、本発明に基づく変異解析法を適用可能であると考えられる。
本実施例では、塩基対置換型変異を含む1000bpの合成DNA配列を解析対象とした変異解析により、実施例1に記載したシーケンシングアルゴリズムの有用性と、異なる細胞由来のフラグメントが偶然重なる事象が変異解析に及ぼす影響を検討した。
1000bpのランダム配列DNA(以下、対照DNAとする)と、該対照DNAに塩基対置換型変異(A:T塩基対)を導入したDNA(以下、変異DNAとする)を作製した。これらを混合して、A:T塩基対における3種類の塩基対置換パターン(A:T>G:C、A:T>C:G、及びA:T>T:A)を既知の頻度で等しく含むサンプルDNAを調製した。模式図6に、サンプルDNA調製手順の概念図を示す。
1)で調製した変異サンプル及び対照サンプルを用いて実施例2と同様の方法でライブラリを調製し、得られたライブラリを用いてシーケンシングを行った。ライブラリ調製の際のPCRでの初期DNA量と、アダプターのインデックス配列、及びPCRサイクル数を表12に示す。各PCR初期DNA量のサンプルあたり、約10Gbpのシーケンシングデータを得た。
シーケンシングデータからの変異解析は、実施例2と同様に実施した。すなわち、実施例1に記載のアルゴリズムを用いて相補鎖間コンセンサスリード配列を含む配列データを作成し、これを用いて、PCT/JP2017/005700に記載された手順に従って塩基置換を検出した。
次いで、変異サンプル及び対照サンプルのそれぞれについて、対応する参照配列の塩基に基づいて、検出した変異した塩基の変異パターン(AT→TA、AT→CG、AT→GC、及びGC→TA、GC→CG、GC→AT)を決定し、さらに各変異パターンの解析対象塩基中における106bpあたりの変異頻度を算出した。本変異解析では、解析対象の1000bp領域のうち、変異導入していない266番目のA:T塩基対において塩基対置換(A:T>C:G変異)が多く検出された。これは、対照DNA中の自然発生的な変異によるものと推測された(データは示さず)。従って、本変異解析においては、266番塩基上にマッピングされたリード塩基を除いて、変異頻度を算出した。
本実施例では、実施例2のコントロールサンプルの10Gbpシーケンスデータにおける、相補鎖間コンセンサスリード配列の作成効率を算出した。実施例2の表3に示したコントロールサンプルの10Gbpシーケンスデータの各ライブラリについて、模式図3に示したフローに従って相補鎖間コンセンサスリード配列を取得した。全リードペア数に対するコンセンサスリードペアの数の割合を相補鎖間コンセンサスリード配列の作成効率として算出し、推定フラグメントのグループあたりの平均リードペア数に対してプロットした(図11)。図11では、表3に示したコントロールサンプルのライブラリNo.1、4−8をExp.1、ライブラリNo.9−14をExp.2として示した。結果、相補鎖間コンセンサスリード配列の作成効率は、最大で7.5%(Exp.1)及び5.9%(Exp.2)であった。
本実施例では、実施例2で探索した最適条件による相補鎖情報を用いたシーケンシングをマウスのゲノムDNAにおける変異解析に適用した。サンプルDNAには、変異原としてENU(Ethylnitrosourea、CASRN.759−73−9)を暴露したマウス(C57BL/6JJmsSlc−Tg(gpt delta)、以下TGマウスとも表す)から調製したゲノムDNAを用いた。現在、動物を用いるin vivo遺伝子突然変異試験には、指標遺伝子を導入した遺伝子改変マウスやラットが使用されている。本発明を用いた変異解析法がマウス等に適用可能であれば、遺伝子改変動物を用いる必要性がないため、一般毒性試験等への変異原性評価の組み込みが可能となり、実験動物数の削減につながると期待される。また得られる詳細な変異情報は、発がん性予測に有用と考えられ、動物を用いない発がん性予測法の開発に有用と考えられる。なお、本実施例における動物実験は、花王株式会社研究開発部門動物実験委員会による審議を受け、「花王株式会社研究開発部門動物実験に関する規定」に従って実施された。
投与開始時7〜9週齢の雄のTGマウスを用いた。ENU(Toronto Research Chemicals社製)は15.0mg/mLの濃度で生理食塩水(Saline)に溶解した。ENU溶液を、プラスチック製注射筒および25G注射針を用いて、1日1回、10mL(ENU150mg/kg/day)を5日間、マウスに腹腔内投与した(ENU群)。コントロール群には生理食塩水(Saline)を投与した。各群のENUの用量と個体数を表13に示した。最終投与後7日目に動物を安楽死させて大腿骨を摘出し、REcoverEase DNA Isolation Kit(アジレント・テクノロジーズ社製)を用いて、推奨プロトコールに従って、骨髄からゲノムDNAを抽出した。得られたDNA中の2本鎖DNAの濃度を、Qubit3.0 Fluorometer(Thermo Fisher Scientific社製)を用いて、付属のQubitTM dsDNA BR Assay Kitで測定した。
1)で得たマウスの骨髄からフェノール/クロロホルムを用いてDNAを抽出した。抽出したDNAを用いて、OECD Guidelines for the Testing of Chemicals 488(OECD TG488)に従って、TGマウスに導入されたgpt遺伝子を用いた遺伝子突然変異頻度の算出を行った(gpt−assay)。より詳細には、得られたゲノムDNAを、Transpack(Agilent Technologies)製品添付のInstruction Manualに従ってλファージへパッケージングした。得られたパッケージング溶液を、予め培養しておいた大腸菌懸濁液(YG6020株)と混合し、培養した後、トップアガーと混合してクロラムフェニコール入りの寒天培地(タイター用培地)および、クロラムフェニコールと6−チオグアニン入りの寒天培地(選択培地)上に重層して、形成されるコロニー数を計数した。選択培地上に形成されたコロニー(変異体コロニー)数と、タイター用培地上に形成されたコロニー(総コロニー)数を基に、突然変異頻度(×10-6)を算出した。各DNAサンプルの変異体コロニーについては、一部のコロニーをピックアップし、タイター用培地および選択培地を用いてConfirmationを実施した。突然変異頻度は得られたConfirmationの結果に基づき補正した。
コントロール群及びENU投与群で、各2匹の動物からのDNAサンプルを実験に供した。各DNAサンプルをDNA Shearingシステム ME220(コバリス社製)で推奨プロトコールに従って平均約350bpの長さに断片化した。得られた断片化DNAをTruSeq Nano DNA Library Prep Kit(イルミナ社製、以下TruSeqと略記する)を用いて、推奨プロトコールに従ってライブラリ調製に供した。ライブラリ調製は実施例2と同様の方法で行った。ライブラリ調製の際の溶液のDNA濃度、PCRでの初期DNA量と、アダプターのインデックス配列、及びPCRサイクル数を表14に示す。
3)で調製したライブラリを、HiSeq2500(イルミナ社製)を用いて、2×100bpのリード長でシーケンシングした。ライブラリあたり、約20Gbpシーケンシングデータを得た。
シーケンシングによって得られた生リード配列の編集、相補鎖情報の抽出、及び変異解析は、上述の模式図3及び4に示す解析フローに従って実施例2の5)と同様の手順で実施した。なお、Bowtie2ソフトウェアでマッピングする参照配列には、C57BL/6Jのゲノム配列(GCA_000001635.6)を用いた。
5)で作成した各ライブラリについてのマッピング結果を基に、実施例2の6)と同様の手順で推定フラグメントについてのグループあたりリードペア数の分布を求めた。マウス各染色体についてのグループあたりリードペア数の分布、及び平均リードペア数/グループを算出した。
実施例2の7)と同様の手順で、マウスの各染色体に対応する推定フラグメントについてのグループのうち、2つ以上のリードペアが含まれるグループを抽出し、抽出したグループを対象として染色体ごとの重なり率(Overlap rate)を算出した。
5)で相補鎖間コンセンサスリード配列を参照配列にマッピングした後、実施例2の8)と同様の手順で変異した塩基を検出した。すなわち、PCT/JP2017/005700に記載された手順に従い、Pythonを用いたプログラムを用いて、各ライブラリについて、参照配列に対してマッピングされた全相補鎖間コンセンサスリード配列中の全解析対象塩基を、対応する参照配列の塩基によって4群に分けた。次いで各群の塩基の総数、及び参照配列に対して変異した塩基を検出した。検出した変異した塩基を参照配列の塩基と比較することで、コントロール群及びENU群それぞれについて、解析対象塩基中におけるAT塩基対、GC塩基対の各106bpにおける各変異パターン(AT→TA、AT→CG、AT→GC、及びGC→TA、GC→CG、GC→AT)、及び各変異パターンの変異頻度を算出した。なお各マウス個体が有するゲノム配列の多型(SNP等)が変異解析結果に影響すると予想されたことから、本解析では多型を有している可能性が高いと考えられるゲノム位置にマッピングされたリード配列の塩基は変異解析の対象から外した。具体的には、参照配列の同一の位置(塩基)にマップされたリード塩基のなかに同一の塩基置換が2つ以上認められた場合、その参照配列の位置にマップされたリード塩基は解析対象外とした。また、データベース上に登録されるマウスの変異情報に基づいて、多型が報告されている参照配列上の塩基は解析対象から外した。すなわち、当該参照配列上の多型が報告されている塩基に対してマップされたリード塩基は解析対象外とした。マウスの多型のデータはensembl[asia.ensembl.org/Mus_musculus/Info/Index]から取得した。
I)リードペア数分布の算出
ライブラリNo.1から得られたデータに基づくマウス各染色体での推定フラグメントについてのグループあたりのリードペア数の分布を図12に示す。また、各染色体についてのグループあたりの平均リードペア数を表15に示す。各サンプルの平均リードペア数/グループの値は、いずれも2〜4の範囲内であった。したがって、マウスゲノムDNAを用いた場合でも、実施例2で算出された本方法の最適条件のPCR初期DNA量及びシーケンシングデータ量でのシーケンシングで高い解析効率が得られると考えられた。
7)で調べた染色体ごとの重なり率を表16に示す。本解析においては、Y染色体はマッピングされたリード数が少なかったため、対象から除外した。いずれの染色体においても重なり率は同様の値であり、染色体間の平均は、コントロール群(ライブラリNo.1、No.2)で0.025%及び0.025%、ENU群(ライブラリNo.3、No.4)で0.023%及び0.020%であった。実施例2で算出したS.typhimuriumのゲノム配列を用いた検討において、PCR初期DNA量が78amolの条件における重なり率は、コントロール群で0.59%、ENU群で0.75%、平均0.67%であった。したがって、同一のPCR初期DNA量を用いた場合、サンプルDNAのサイズがより大きいほど重なり率が低下し、より高精度な解析が実施できると考えられた。一方、マウスのゲノムサイズが、約3Gbp、S.typhimuriumのゲノムサイズが約5Mbpとすると、実施例2の結果から理論上求められるマウスのゲノム解析における重なり率は、[0.67%×5Mbp/3000Mbp=0.0011%]と推定された。すなわち、実際に得られた重なり率は理論値より20倍程度高かった。マウス等の哺乳類のゲノムのシーケンシングにおいては、ヘテロクロマチンの存在やPCRにおけるバイアスによる次世代シーケンサーでのライブラリ調製への影響のため、実際にシーケンシングされる領域のサイズはゲノムサイズより小さくなる。これが実測値と理論値のずれの原因であると考えられた。
コントロール群及びENU群の各塩基対置換の変異頻度の解析結果を図13に示す(n=2)。ENU群では、コントロール群に比べて、A:T>T:A、A:T>G:C、およびG:C>A:Tの頻度が顕著に高く、これは既存のENUの変異スペクトルの知見(Proc Natl Acad Sci USA, 1994, 91(14):6564-6568)と一致していた。本方法により、マウスのゲノムにおいても高感度に変異解析ができることが示された。
2)で算出したコントロール群及びENU群におけるgpt−assayの結果を表17に示す(コントロール群:n=5、ENU投与群:n=4)。ENU群では、コントロール群に比べて、遺伝子突然変異頻度の増加が顕著に認められた。ENUの曝露によってTGマウスのゲノムに突然変異が導入されたことが確認された。
Claims (29)
- DNAのシーケンシング方法であって、
(1)サンプルDNAの断片を調製すること;
(2)該サンプルDNAの断片をPCRにかけてPCR産物を得ること、ここで、該サンプルDNAの断片の各々について2つ以上の増幅断片が作製される;
(3)得られたPCR産物をシーケンシングし、該PCR産物に含まれる複数の増幅断片の各々について1つ以上のリード配列を作成し、該複数の増幅断片についての複数のリード配列を得ること;
(4)得られた複数のリード配列の中から、該サンプルDNA上の同一領域の配列情報を有するリード配列を集めてグループ化することにより、リード配列のグループを1つ以上作成すること、ここで、該1つ以上のグループは、平均で1.05〜30個のリード配列を含む;
(5)該リード配列のグループに含まれるリード配列の間で配列情報のコンセンサスを取ること、
を含む、方法。 - DNAのシーケンシング方法であって、
(1)サンプルDNAの断片を調製すること;
(2)該サンプルDNAの断片をPCRにかけてPCR産物を得ること、ここで、該サンプルDNAの断片の各々について2つ以上の増幅断片が作製され、該PCRでの初期DNA量は、該サンプルDNAのサイズ1Mbpあたり250amol以下である;
(3)得られたPCR産物をシーケンシングし、該PCR産物に含まれる複数の増幅断片の各々について1つ以上のリード配列を作成し、該複数の増幅断片についての複数のリード配列を得ること;
(4)得られた複数のリード配列の中から、該サンプルDNA上の同一領域の配列情報を有するリード配列を集めてグループ化することにより、リード配列のグループを1つ以上作成すること;
(5)該リード配列のグループに含まれるリード配列の間で配列情報のコンセンサスを取ること、
を含む、方法。 - 前記(3)が、前記サンプルDNAの断片を構成する2本の相補鎖の各々に由来する増幅断片に対して1つ以上のリード配列を作成することを含む、請求項1又は2記載の方法。
- 前記(4)が、参照配列上の同一の位置にマッピングされるリード配列を同じグループに分けることを含む、請求項1〜3のいずれか1項記載の方法。
- 前記(5)が、前記リード配列のグループの中から、前記サンプルDNA断片の2本の相補鎖の各々に由来するリード配列を少なくとも1つずつ集め、集めたリード配列の間で配列情報のコンセンサスを取ることを含む、請求項3又は4記載の方法。
- 請求項1記載の方法であって、
前記(3)において、前記複数のリード配列が、以下からなるリード配列のペアを複数個含み:
リード1:前記増幅断片を構成する2本の相補鎖のうちの一方の鎖の配列を5’末端側から3’側へ読んだ配列に相当する配列情報を含むリード配列、
リード2:該一方の鎖の配列を3’末端側から5’側へ読んだ配列に相当する配列情報を含むリード配列、
前記(4)が、得られたリード配列のペアの中から、該サンプルDNA上の同一領域の配列情報を有するリード配列のペアを集めてグループ化することにより、リード配列のペアのグループを1つ以上作成することを含み、ここで、該1つ以上のグループは、平均で1.05〜30個のリード配列のペアを含み、
前記(5)が、該リード配列のペアのグループに含まれるリード配列の間で配列情報のコンセンサスを取ることを含む、
方法。 - 請求項2記載の方法であって、
前記(3)において、前記複数のリード配列が、以下からなるリード配列のペアを複数個含み:
リード1:前記増幅断片を構成する2本の相補鎖のうちの一方の鎖の配列を5’末端側から3’側へ読んだ配列に相当する配列情報を含むリード配列、
リード2:該一方の鎖の配列を3’末端側から5’側へ読んだ配列に相当する配列情報を含むリード配列、
前記(4)が、得られたリード配列のペア中から、該サンプルDNA上の同一領域の配列情報を有するリード配列のペアを集めてグループ化することにより、リード配列のペアのグループを1つ以上作成することを含み、
前記(5)が、該リード配列のペアのグループに含まれるリード配列の間で配列情報のコンセンサスを取ることを含む、
方法。 - 前記(3)が、前記サンプルDNAの断片を構成する2本の相補鎖の各々に由来する増幅断片に対して1つ以上の前記リード配列のペアを作成することを含む、請求項6又は7記載の方法。
- 前記(4)が、前記リード配列のペアのリード1とリード2を参照配列に対してマッピングし、リード1の先頭とリード2の先頭とに挟まれる該参照配列の領域が同一であるリード配列のペアを同じグループに分けることを含む、請求項6〜8のいずれか1項記載の方法。
- 前記(4)が、前記リード配列のペアに含まれる一方のリード配列の先頭が前記参照配列上の同じ位置に位置するリード配列のペアを集め、次いで集めたリード配列のペアの中から、該リード配列のペアに含まれるもう一方のリード配列の先頭が該参照配列上の同じ位置に位置するリード配列のペアを集めて、集めたリード配列のペアを同じグループに分けることを含む、請求項9記載の方法。
- 前記サンプルDNA断片の2本の相補鎖が、それらの5’末端側と3’末端側に異なる標識配列を有し、かつ、前記シーケンシングにより、各リード配列に付随する該標識配列の情報が取得され、
前記リード配列のペアのグループの中のリード配列のペアを、それに含まれる2本のリード配列に付随する該標識配列の情報と、該2本のリード配列の前記参照配列上での互いの位置関係に基づいて、サンプルDNA断片の2本の相補鎖のどちらに由来するか識別することをさらに含む、請求項10記載の方法。 - 前記(5)が、前記リード配列のペアのグループの中から、前記サンプルDNA断片の2本の相補鎖の各々に由来するリード配列のペアを少なくとも1組ずつ集め、集めたリード配列のペアに含まれるリード配列の間で配列情報のコンセンサスを取ることを含む、請求項8〜11のいずれか1項記載の方法。
- 前記シーケンシングにおいて、前記PCRでの初期DNA量1amolあたり0.02〜10×106個のリード配列を取得する、請求項1〜5のいずれか1項記載の方法。
- 前記シーケンシングにおいて、前記PCRでの初期DNA量1amolあたり0.02〜10×106個のリード配列のペアを取得する、請求項6〜12のいずれか1項記載の方法。
- 前記サンプルDNAが、10kbp以上のサイズを有する、請求項1〜14のいずれか1項記載の方法。
- 前記シーケンシングにおいて、前記サンプルDNAの1Mbpあたり0.05〜1600×106個のリード配列又はリード配列のペアを取得する、請求項1〜15のいずれか1項記載の方法。
- 前記PCRにかけるサンプルDNAの断片に、個別のサンプルDNAの断片を識別するための標識が連結されていない、請求項1〜16のいずれか1項記載の方法。
- ゲノムDNAの変異を検出する方法であって、
細胞中のゲノムDNAをサンプルDNAとして用いて、請求項1〜17のいずれか1項記載のDNAのシーケンシング方法を実施し、配列データを作成すること;
該配列データを参照配列と比較して、該配列データと該参照配列とで塩基がマッチしない部位を変異部位として検出すること、ここで該参照配列は、該ゲノムDNA中の既知配列である、
を含む、方法。 - 前記ゲノムDNAが試験物質に曝露した細胞のゲノムDNAを含む、請求項18記載の方法。
- 前記ゲノムDNAが試験物質に曝露した細胞のゲノムDNAと、該試験物質に曝露していない対照細胞のゲノムDNAを含み、
該試験物質に曝露した細胞のゲノムDNAについて検出した変異と、該対照細胞のゲノムDNAについて検出した変異とを比較することをさらに含む、
請求項19記載の方法。 - 前記細胞が大腸菌、サルモネラ菌又は酵母細胞である、請求項18〜20のいずれか1項記載の方法。
- 前記サルモネラ菌がS.Typhimurium LT−2株、TA100株、TA98株、TA1535株、TA1538株又はTA1537株である、請求項21記載の方法。
- 前記細胞が哺乳動物細胞、又は哺乳動物由来培養細胞である、請求項18〜20のいずれか1項記載の方法。
- 前記哺乳動物がヒト又はマウスである、請求項23記載の方法。
- 前記ゲノムDNAの変異が経時変化によるゲノムDNAの変異を含む、請求項18記載の方法。
- 前記ゲノムDNAが、経時変化した細胞のゲノムDNAと、より経時変化していない細胞のゲノムDNAを含み、
該経時変化した細胞のゲノムDNAについて検出した変異と、該より経時変化していない細胞のゲノムDNAについて検出した変異とを比較することをさらに含む、
請求項25記載の方法。 - 前記細胞が哺乳動物細胞、又は哺乳動物由来培養細胞である、請求項25又は26記載の方法。
- 前記細胞が培養細胞である、請求項25又は26記載の方法。
- 前記変異が塩基対置換型変異である、請求項18〜28のいずれか1項記載の方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP19724948.5A EP3784801B1 (en) | 2018-04-27 | 2019-04-26 | Highly accurate sequencing method |
EP24160473.5A EP4353836A3 (en) | 2018-04-27 | 2019-04-26 | Highly accurate sequencing method |
PCT/JP2019/018133 WO2019208827A1 (en) | 2018-04-27 | 2019-04-26 | Highly accurate sequencing method |
US17/050,686 US20240254547A1 (en) | 2018-04-27 | 2019-04-26 | Highly accurate sequencing method |
JP2021097083A JP7212720B2 (ja) | 2018-04-27 | 2021-06-10 | 高精度シーケンシング方法 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018086972 | 2018-04-27 | ||
JP2018086972 | 2018-04-27 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021097083A Division JP7212720B2 (ja) | 2018-04-27 | 2021-06-10 | 高精度シーケンシング方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019193612A true JP2019193612A (ja) | 2019-11-07 |
JP6898282B2 JP6898282B2 (ja) | 2021-07-07 |
Family
ID=68468938
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018168288A Active JP6898282B2 (ja) | 2018-04-27 | 2018-09-07 | 高精度シーケンシング方法 |
JP2021097083A Active JP7212720B2 (ja) | 2018-04-27 | 2021-06-10 | 高精度シーケンシング方法 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021097083A Active JP7212720B2 (ja) | 2018-04-27 | 2021-06-10 | 高精度シーケンシング方法 |
Country Status (2)
Country | Link |
---|---|
EP (1) | EP3784801B1 (ja) |
JP (2) | JP6898282B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021095866A1 (ja) * | 2019-11-15 | 2021-05-20 | 花王株式会社 | シーケンシング用ライブラリの調製方法 |
JP2021080241A (ja) * | 2019-11-15 | 2021-05-27 | 花王株式会社 | シーケンシング用ライブラリの調製方法 |
CN117343929A (zh) * | 2023-12-06 | 2024-01-05 | 广州迈景基因医学科技有限公司 | 一种pcr随机引物及用其加强靶向富集的方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6679065B2 (ja) | 2015-10-07 | 2020-04-15 | 国立研究開発法人国立がん研究センター | 稀少突然変異の検出方法、検出装置及びコンピュータプログラム |
-
2018
- 2018-09-07 JP JP2018168288A patent/JP6898282B2/ja active Active
-
2019
- 2019-04-26 EP EP19724948.5A patent/EP3784801B1/en active Active
-
2021
- 2021-06-10 JP JP2021097083A patent/JP7212720B2/ja active Active
Non-Patent Citations (2)
Title |
---|
J. APPL. TOXICOL. 2017, VOL. 37, PP.1125-1128, JPN6020049668, ISSN: 0004412654 * |
PNAS, 2012, VOL. 109, NO.36, PP.14508-14513, JPN6020049664, ISSN: 0004412653 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021095866A1 (ja) * | 2019-11-15 | 2021-05-20 | 花王株式会社 | シーケンシング用ライブラリの調製方法 |
JP2021080241A (ja) * | 2019-11-15 | 2021-05-27 | 花王株式会社 | シーケンシング用ライブラリの調製方法 |
JP7146839B2 (ja) | 2019-11-15 | 2022-10-04 | 花王株式会社 | シーケンシング用ライブラリの調製方法 |
CN117343929A (zh) * | 2023-12-06 | 2024-01-05 | 广州迈景基因医学科技有限公司 | 一种pcr随机引物及用其加强靶向富集的方法 |
CN117343929B (zh) * | 2023-12-06 | 2024-04-05 | 广州迈景基因医学科技有限公司 | 一种pcr随机引物及用其加强靶向富集的方法 |
Also Published As
Publication number | Publication date |
---|---|
EP3784801B1 (en) | 2024-04-03 |
JP7212720B2 (ja) | 2023-01-25 |
JP6898282B2 (ja) | 2021-07-07 |
EP3784801A1 (en) | 2021-03-03 |
JP2021126125A (ja) | 2021-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7212720B2 (ja) | 高精度シーケンシング方法 | |
KR102658592B1 (ko) | 핵산의 염기 변형의 결정 | |
JP2020511966A (ja) | エラーが訂正された核酸配列決定への適用を伴う標的化核酸配列濃縮のための方法 | |
US20160168632A1 (en) | Dna sequencing and epigenome analysis | |
EP4219746A2 (en) | Analysis of chromatin using a nicking enzyme | |
EP3031929A1 (en) | Genome architecture mapping | |
US20210371918A1 (en) | Nucleic acid characteristics as guides for sequence assembly | |
US20190259469A1 (en) | Method for Evaluating Genotoxicity of Substance | |
JP2022174281A (ja) | シーケンシング用ライブラリの調製方法 | |
KR101913735B1 (ko) | 차세대 염기서열 분석을 위한 시료 간 교차 오염 탐색용 내부 검정 물질 | |
WO2019208827A1 (en) | Highly accurate sequencing method | |
JP2007060953A (ja) | 細菌叢の分析方法 | |
CN115620809A (zh) | 纳米孔测序数据分析方法、装置以及存储介质和应用 | |
CN111154891B (zh) | 绵羊igf2bp1基因插入/缺失多态性的检测引物对、试剂盒、方法和应用 | |
JP7146839B2 (ja) | シーケンシング用ライブラリの調製方法 | |
JP6417465B2 (ja) | 物質の遺伝毒性の評価方法 | |
JP7444488B2 (ja) | 混入検出法 | |
KR102703163B1 (ko) | 핵산의 염기 변형의 결정 | |
KR102705156B1 (ko) | 핵산의 염기 변형의 결정 | |
AU2018256358B2 (en) | Nucleic acid characteristics as guides for sequence assembly | |
Girault et al. | Combination of in silico and molecular techniques for discrimination and virulence characterization of marine Brucella ceti and Brucella pinnipedialis | |
CN112725467A (zh) | 一种与抗禽致病性大肠杆菌相关的nlr信号通路及其应用 | |
WO2018061638A1 (ja) | 100pg以下のヒトゲノムDNAからその由来を判別する方法、個人を識別する方法、および造血幹細胞の生着の程度を解析する方法 | |
Chen | Chromatin topology defines cell identity and phenotypic transition in human cancer and fungal pathogen | |
JP2023551502A (ja) | トリ種における腸炎症状態を分類する方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191212 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201222 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20210216 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210419 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210511 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210610 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6898282 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |