JP7160349B2 - 核酸をシークエンシングする方法および解析する方法 - Google Patents
核酸をシークエンシングする方法および解析する方法 Download PDFInfo
- Publication number
- JP7160349B2 JP7160349B2 JP2019525702A JP2019525702A JP7160349B2 JP 7160349 B2 JP7160349 B2 JP 7160349B2 JP 2019525702 A JP2019525702 A JP 2019525702A JP 2019525702 A JP2019525702 A JP 2019525702A JP 7160349 B2 JP7160349 B2 JP 7160349B2
- Authority
- JP
- Japan
- Prior art keywords
- sequence
- nucleic acid
- barcode
- index
- sequences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 150000007523 nucleic acids Chemical class 0.000 title claims description 409
- 102000039446 nucleic acids Human genes 0.000 title claims description 352
- 108020004707 nucleic acids Proteins 0.000 title claims description 352
- 238000000034 method Methods 0.000 title claims description 177
- 238000012163 sequencing technique Methods 0.000 title claims description 57
- 230000003321 amplification Effects 0.000 claims description 61
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 61
- 238000001514 detection method Methods 0.000 claims description 60
- 238000004458 analytical method Methods 0.000 claims description 42
- 239000000203 mixture Substances 0.000 claims description 17
- 238000011002 quantification Methods 0.000 description 46
- 108091028043 Nucleic acid sequence Proteins 0.000 description 37
- 238000012217 deletion Methods 0.000 description 35
- 230000037430 deletion Effects 0.000 description 33
- 238000003780 insertion Methods 0.000 description 33
- 230000037431 insertion Effects 0.000 description 33
- 108020004414 DNA Proteins 0.000 description 27
- 102000053602 DNA Human genes 0.000 description 26
- 230000008569 process Effects 0.000 description 19
- 238000001914 filtration Methods 0.000 description 18
- 238000002156 mixing Methods 0.000 description 17
- 229920002477 rna polymer Polymers 0.000 description 17
- 230000000694 effects Effects 0.000 description 13
- 238000007792 addition Methods 0.000 description 12
- 239000002773 nucleotide Substances 0.000 description 12
- 238000003559 RNA-seq method Methods 0.000 description 11
- 230000007717 exclusion Effects 0.000 description 11
- 230000035772 mutation Effects 0.000 description 11
- 238000005259 measurement Methods 0.000 description 10
- 125000003729 nucleotide group Chemical group 0.000 description 10
- 238000006467 substitution reaction Methods 0.000 description 9
- 238000013461 design Methods 0.000 description 8
- 238000012408 PCR amplification Methods 0.000 description 7
- 238000012864 cross contamination Methods 0.000 description 7
- 239000000243 solution Substances 0.000 description 7
- 210000004027 cell Anatomy 0.000 description 6
- 239000002299 complementary DNA Substances 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 239000000356 contaminant Substances 0.000 description 5
- 238000007481 next generation sequencing Methods 0.000 description 5
- 230000002441 reversible effect Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000010195 expression analysis Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 238000002360 preparation method Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 108090000623 proteins and genes Proteins 0.000 description 4
- 108020004465 16S ribosomal RNA Proteins 0.000 description 3
- 230000001580 bacterial effect Effects 0.000 description 3
- 238000002487 chromatin immunoprecipitation Methods 0.000 description 3
- 239000003086 colorant Substances 0.000 description 3
- 238000011109 contamination Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 3
- 238000004132 cross linking Methods 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000001114 immunoprecipitation Methods 0.000 description 3
- 238000012417 linear regression Methods 0.000 description 3
- 108020004418 ribosomal RNA Proteins 0.000 description 3
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 2
- 102000040650 (ribonucleotides)n+m Human genes 0.000 description 2
- FWMNVWWHGCHHJJ-SKKKGAJSSA-N 4-amino-1-[(2r)-6-amino-2-[[(2r)-2-[[(2r)-2-[[(2r)-2-amino-3-phenylpropanoyl]amino]-3-phenylpropanoyl]amino]-4-methylpentanoyl]amino]hexanoyl]piperidine-4-carboxylic acid Chemical compound C([C@H](C(=O)N[C@H](CC(C)C)C(=O)N[C@H](CCCCN)C(=O)N1CCC(N)(CC1)C(O)=O)NC(=O)[C@H](N)CC=1C=CC=CC=1)C1=CC=CC=C1 FWMNVWWHGCHHJJ-SKKKGAJSSA-N 0.000 description 2
- 108020004635 Complementary DNA Proteins 0.000 description 2
- 108060002716 Exonuclease Proteins 0.000 description 2
- 229920001213 Polysorbate 20 Polymers 0.000 description 2
- 238000010521 absorption reaction Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000010804 cDNA synthesis Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000010205 computational analysis Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 102000013165 exonuclease Human genes 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 108020004999 messenger RNA Proteins 0.000 description 2
- 238000001921 nucleic acid quantification Methods 0.000 description 2
- 238000003752 polymerase chain reaction Methods 0.000 description 2
- 235000010486 polyoxyethylene sorbitan monolaurate Nutrition 0.000 description 2
- 239000000256 polyoxyethylene sorbitan monolaurate Substances 0.000 description 2
- 230000000153 supplemental effect Effects 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- GUAHPAJOXVYFON-ZETCQYMHSA-N (8S)-8-amino-7-oxononanoic acid zwitterion Chemical compound C[C@H](N)C(=O)CCCCCC(O)=O GUAHPAJOXVYFON-ZETCQYMHSA-N 0.000 description 1
- VYZAMTAEIAYCRO-UHFFFAOYSA-N Chromium Chemical compound [Cr] VYZAMTAEIAYCRO-UHFFFAOYSA-N 0.000 description 1
- 108091035707 Consensus sequence Proteins 0.000 description 1
- 238000001712 DNA sequencing Methods 0.000 description 1
- 108700011259 MicroRNAs Proteins 0.000 description 1
- 238000011529 RT qPCR Methods 0.000 description 1
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 108020004682 Single-Stranded DNA Proteins 0.000 description 1
- 108020004566 Transfer RNA Proteins 0.000 description 1
- 108020000999 Viral RNA Proteins 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000037429 base substitution Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 229910052804 chromium Inorganic materials 0.000 description 1
- 239000011651 chromium Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010790 dilution Methods 0.000 description 1
- 239000012895 dilution Substances 0.000 description 1
- 239000012153 distilled water Substances 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000013401 experimental design Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012252 genetic analysis Methods 0.000 description 1
- 229920001519 homopolymer Polymers 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011534 incubation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 229920002521 macromolecule Polymers 0.000 description 1
- 239000002679 microRNA Substances 0.000 description 1
- 108091027963 non-coding RNA Proteins 0.000 description 1
- 102000042567 non-coding RNA Human genes 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 238000003753 real-time PCR Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010839 reverse transcription Methods 0.000 description 1
- 238000013341 scale-up Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000005382 thermal cycling Methods 0.000 description 1
- 238000011222 transcriptome analysis Methods 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6844—Nucleic acid amplification reactions
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
Landscapes
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Organic Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Engineering & Computer Science (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Immunology (AREA)
- Microbiology (AREA)
- Molecular Biology (AREA)
- Analytical Chemistry (AREA)
- Physics & Mathematics (AREA)
- Genetics & Genomics (AREA)
- Biochemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Description
本発明者らは、バーコード配列の種類の数をカウントする際に、バーコード配列内に変異(例えば、挿入、置換、および欠失)が生じ、同じと判断されるべき配列が異なる配列として認識される問題が発生し得ることが明らかになった。本発明者らは、一定の配列類似性を有する配列を一群にクラスタリングし、クラスター数に基づいて目的核酸分子の定量を行うことで、デジタル定量法の精度が向上し得ることを明らかにした。
本発明者らは、核酸をデジタルカウントする際に、鋳型を誤同定してしまう問題が生じ得ることが明らかになった。本発明者らはまた、同一のバーコードに2つの異なる目的核酸配列が付加されている場合に、最も頻度高いペアを正しいペアであるとし、それ以外のいずれかまたは全てを誤同定として除外することにより、デジタル定量法の精度が向上し得ることを明らかにした。
(1A)核酸の解析方法であって:
(I)分子バーコードとインデックスが付加された複数の目的核酸分子の混合物をシークエンシングに供して配列情報を得る工程と、
(II)上記(I)で得られた配列情報から特定のインデックスを有する配列若しくはこれと類似する配列、及び/又は特定の分子バーコードを有する配列若しくはこれと類似する配列を選択し、選択された配列により群を作成する工程と、
(III)上記(II)で作成された群において、検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定する工程と、
を含む、方法。
(2A)少なくとも分子バーコードが付加された目的核酸分子が、工程(I)の前に増幅に供されている、上記(1A)に記載の方法。
(3A)工程(II)における特定の分子バーコードを有する配列と類似する配列が、当該特定の分子バーコードを有する配列と所定の塩基数以下のミスマッチ塩基を分子バーコード配列部分に含む配列である、上記(1A)または(2A)に記載の方法。
(4A)分子バーコードが、特定の位置に固定塩基を有する、上記(1A)~(3A)のいずれかに記載の方法。
(5A)工程(II)における特定の分子バーコードを有する配列と類似する配列が、当該特定の位置に当該固定塩基を含むこと、および/または、当該固定塩基の位置が当該特定の位置からシフトしていることに基づいて選択される、上記(4A)に記載の方法。
(6A)当該特定の位置に当該固定塩基を含まない分子バーコードを有する配列を解析から除外することをさらに含む、上記(4A)に記載の方法。
(7A)工程(III)において、決定された正しいペア以外のインデックスと分子バーコードのペアを、インデックスと分子バーコードのミスペアと決定して除外する、
上記(1A)~(5A)のいずれかに記載の方法。
(8A)特定の分子バーコードを有する配列若しくはこれと類似する配列により作成された群の数に基づいて、目的核酸分子が由来するサンプルに含まれる目的核酸分子の数を決定する工程をさらに含む、上記(1A)~(7A)のいずれかに記載の方法。
(9A)核酸の解析方法であって:
(I)分子バーコードが付加された複数の核酸分子の混合物をシークエンシングに供して配列情報を得る工程と、
(II)上記(I)で得られた配列情報から特定の分子バーコードを有する配列若しくはこれと類似する配列を選択し、選択された配列により群を作成する工程と、
を含む、方法。
(10A)工程(II)における特定の分子バーコードを有する配列と類似する配列が、当該特定の分子バーコードを有する配列と所定の塩基数以下のミスマッチ塩基を分子バーコード配列部分に含む配列である、上記(9A)に記載の方法。
(11A)分子バーコードが、特定の位置に固定塩基を有する、上記(9A)または(10A)に記載の方法。
(12A)工程(II)における特定の分子バーコードを有する配列と類似する配列が、当該特定の位置に当該固定塩基を含むこと、および/または、当該固定塩基の位置が当該特定の位置からシフトしていることに基づいて選択される、上記(11A)に記載の方法。
(13A)当該特定の位置に当該固定塩基を含まない分子バーコードを有する配列を解析から除外する工程をさらに含む、上記(11A)に記載の方法。
(14A)特定の分子バーコードを有する配列若しくはこれと類似する配列により作成された群の数に基づいて、目的核酸分子が由来するサンプルに含まれる目的核酸分子の数を決定する工程をさらに含む、上記(9A)~(13A)のいずれかに記載の方法。
(15A)少なくとも分子バーコードが付加された目的核酸分子が、工程(I)の前に増幅に供されている、上記(9A)~(14A)のいずれかに記載の方法。
(16A)核酸の解析方法であって:
(I)特定の位置に固定塩基を有する分子バーコードが付加された複数の核酸分子の混合物をシークエンシングに供して配列情報を得る工程と、
(IIa)当該特定の位置に当該固定塩基を含まない分子バーコードを有する配列を解析から除外する工程;
(IIb)工程(I)において、若しくは、工程(I)の後で、当該特定の位置に当該固定塩基を含む配列からなる配列情報を得る工程;または
(IIc)工程(II)として上記(I)で得られた配列情報から特定の分子バーコードを有する配列若しくはこれと類似する配列を選択し、選択された配列により群を作成する工程をさらに含み、かつ工程(II)において、若しくは工程(II)の後で、当該特定の位置に当該固定塩基を含む配列からなる群を得る工程と、
を含む、方法。
(1B)複数の核酸分子を含むサンプル毎に固有のインデックス及び各核酸分子に固有のまたは任意の分子バーコードが付加された目的核酸分子を含む複数のサンプルの混合物を用いたシークエンシングより得られた配列情報から、目的核酸分子に付加されたインデックスと分子バーコードの正しいペア又はミスペアを決定する方法であって、
(E)得られた配列情報から、特定のインデックスを有する配列若しくはこれと類似する配列、特定の分子バーコードを有する配列若しくはこれと類似する配列、または目的核酸分子を含む配列若しくはこれと類似する配列を選択し、選択された配列により群を作成する工程と、
(F)上記(E)で作成された群において、検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定する、および/または、検出頻度の低いインデックスと分子バーコードのペアの少なくともいずれか1つまたは全てをインデックスと分子バーコードのミスペアと決定する工程と、
を含む、方法。
(2B)工程(E)において、特定のインデックスを有する配列を選択してインデックス毎に群を作成し、
工程(F)において、複数の群に出現した分子バーコードを有する核酸配列に関して、最もリード数が多いバーコードとインデックスのペアを、バーコードとインデックスの正しいペアと決定する、または、検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定する、
上記(1B)に記載の方法。
(3B)工程(E)において、特定の分子バーコードを有する配列を選択して分子バーコード毎に群を作成し、
工程(F)において、作成された群のうち検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定する、
上記(1B)に記載の方法。
(4B)工程(E)において、目的核酸分子の配列を含む配列を選択して群を作成し、
工程(F)において、さらに当該群から特定のインデックスを有する配列を選択してサブグループを作成し、複数のサブグループに出現した分子バーコードを有する核酸配列に関して、最もリード数が多いバーコードとインデックスのペアを、バーコードとインデックスの正しいペアと決定する、または、検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定する、
上記(1B)に記載の方法。
(5B)工程(E)において、目的核酸分子の配列を含む配列を選択して群を作成し、
工程(F)において、さらに当該群から特定の分子バーコードを有する分子を選択してサブグループを作成し、作成された一つのサブグループにおいて検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定する、
上記(1B)に記載の方法。
(6B)工程(F)において、決定された正しいペア以外のインデックスと分子バーコードのペアの少なくともいずれか1つまたは全てを、インデックスと分子バーコードのミスペアと決定する、
上記(2B)~(5B)に記載の方法。
(7B)工程(E)において特定のインデックスを有する分子を選択してインデックス毎に群を作成し、
工程(F)において、複数の群に出現した分子バーコードを有する配列に関して、検出頻度の低いインデックスと分子バーコードのペアをインデックスの少なくともいずれか1つまたは全てと分子バーコードのミスペアと決定する、
上記(1B)に記載の方法。
(8B)工程(E)において特定の分子バーコードを有する配列を選択して分子バーコード毎に群を作成し、
工程(F)において作成された群のうち検出頻度の低いインデックスと分子バーコードのペアをインデックスと分子バーコードの少なくともいずれか1つまたは全てのミスペアと決定する、
上記(1B)に記載の方法。
(9B)工程(E)において目的核酸分子を含む配列を選択して群を作成し、
工程(F)においてさらに当該群から特定のインデックスを有する分子を選択してサブグループを作成し、複数のサブグループに出現した分子バーコードを有する核酸分子に関して、検出頻度の低いインデックスと分子バーコードのペアの少なくともいずれか1つまたは全てをインデックスと分子バーコードのミスペアと決定する、
上記(1B)に記載の方法。
(10B)工程(E)において目的核酸分子を含む分子を選択して群を作成し、
工程(F)においてさらに当該群から特定の分子バーコードを有する分子を選択してサブグループを作成し、作成された一つのサブグループにおいて検出頻度の低いインデックスと分子バーコードのペアの少なくともいずれか1つまたは全てをインデックスと分子バーコードのミスペアと決定する、
上記(1B)に記載の方法。
(11B)工程(E)において、群を作成する工程が、配列同一性または類似性に基づいて判断される同一配列を有していたと推定される分子を一群としてクラスタリングすることによって群を作成することによって行われる、
上記(1B)~(10B)に記載の方法。
(12B)工程(E)において、クラスタリングが、
(i)分子バーコード部分の配列において、固有の分子バーコードの配列と同一の配列を有する核酸分子群を同じクラスターに分類することにより行われる;
(ii)分子バーコード部分の配列において、固有の分子バーコードの配列と1ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる;
(iii)分子バーコード部分の配列において、固有の分子バーコードの配列と2ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる;または
(iv)分子バーコード部分の配列において、固有の分子バーコードの配列と3ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる、
上記(11B)に記載の方法。
(13B)工程(E)において、クラスタリングが、
分子バーコード部分の配列において、塩基の挿入または欠失(indel)を有するとしてシークエンスされた配列を有する核酸分子群を同じクラスターに分類することにより行われる、
上記(11B)または(12B)に記載の方法。
(14B)工程(E)において、クラスタリングが、
分子バーコード部分の配列において、塩基の挿入または欠失(indel)を有するとしてシークエンスされた配列を除外して得られた核酸分子群に対して行われる、
上記(11B)または(12B)に記載の方法。
(15B)前記塩基の挿入または欠失が、核酸分子に連結する全ての分子バーコード配列中に配置された1以上の固定塩基それぞれの位置と、配列解読された分子バーコード配列部分の配列における1以上の固定塩基それぞれの位置との、位置の相違により特定することをさらに含む、上記(13B)または(14B)に記載の方法。
(16B)複数の核酸分子を含むサンプル毎に固有のインデックス及び各核酸分子に固有のまたは任意の分子バーコードが付加された目的核酸分子を含む複数のサンプルの混合物を用いたシークエンシングより得られた配列情報から、特定の元々のサンプルに含まれる目的核酸分子の数を決定する方法であって、
(e)得られた配列情報から、目的核酸分子の配列を含む核酸分子を選択することと、
(f)上記(e)で選択された核酸分子を固有の分子バーコードの配列毎にクラスタリングし、その後、インデックス核酸分子部分において複数の配列を有するクラスターを特定することと、
(g)上記(f)において特定されたクラスターそれぞれにおいて、検出頻度の最も高いインデックスと分子バーコードのペアを正しくインデックスされた目的核酸分子として特定し、それ以外のインデックスと分子バーコードのペアをミスペアであると決定することと、
を含み、
正しくインデックスされた目的核酸分子に連結した固有の分子バーコードの配列の種類の数(または、正しくインデックスされた目的核酸分子のクラスターの数)が、当該インデックスに対応するサンプルに含まれる目的核酸分子の数である、
方法。
(17B)前記(f)において、クラスタリングが、
(i)分子バーコード部分の配列において、固有の分子バーコードの配列と同一の配列を有する核酸分子群を同じクラスターに分類することにより行われる;
(ii)分子バーコード部分の配列において、固有の分子バーコードの配列と1ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる;
(iii)分子バーコード部分の配列において、固有の分子バーコードの配列と2ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる;または
(iv)分子バーコード部分の配列において、固有の分子バーコードの配列と3ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる、
上記(16B)に記載の方法。
(18B)前記(e)において、クラスタリングが、
分子バーコード部分の配列において、塩基の挿入または欠失(indel)を有するとしてシークエンスされた配列を有する核酸分子群を同じクラスターに分類することにより行われる、
上記(16B)または(17B)に記載の方法。
(19B)前記(e)において、クラスタリングが、
分子バーコード部分の配列において、塩基の挿入または欠失(indel)を有するとしてシークエンスされた配列を除外して得られた核酸分子群に対して行われる、
上記(16B)または(17B)に記載の方法。
(20B)前記塩基の挿入または欠失が、核酸分子に連結する全ての分子バーコード配列中に配置された1以上の固定塩基それぞれの位置と、配列解読された分子バーコード配列部分の配列における1以上の固定塩基それぞれの位置との、相違により特定することをさらに含む、上記(18B)または(19B)に記載の方法。
(21B)バーコード配列を用いた目的核酸分子のデジタル定量法において、得られた核酸配列の情報から、変異後の分子バーコードが有する配列を配列類似性を有する他の配列と一緒に1群にクラスタリングし、得られたクラスター数に基づいて目的核酸分子の数を推定する、方法。
(22B)上記(21B)に記載の方法であって、クラスタリングが、
(i)分子バーコード部分の配列において、固有の分子バーコードの配列と同一の配列を有する核酸分子群を同じクラスターに分類することにより行われる;
(ii)分子バーコード部分の配列において、固有の分子バーコードの配列と1ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる;
(iii)分子バーコード部分の配列において、固有の分子バーコードの配列と2ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる;または
(iv)分子バーコード部分の配列において、固有の分子バーコードの配列と3ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる、方法。
(23B)上記(21B)または(22B)に記載の方法であって、クラスタリングが、分子バーコード部分の配列において、塩基(例えば、1ベースまで、2ベースまで、または3ベースまで)の挿入または欠失(indel)を有するとしてシークエンスされた配列を有する核酸分子群を同じクラスターに分類することにより行われる、方法。
(24B)上記(21B)~(23B)のいずれか一項に記載の方法であって、
核酸分子に連結する全ての分子バーコード配列中に配置された1以上の固定塩基それぞれの位置と、配列解読された分子バーコード配列部分の配列における1以上の固定塩基それぞれの位置との、相対的位置を比較することによって特定することによって塩基の挿入または欠失(indel)を検出し、
クラスタリングが、分子バーコード部分の配列において、塩基の挿入または欠失(indel)を有するとしてシークエンスされた配列を有する核酸分子群を同じクラスターに分類することにより行われるか、または、
クラスタリングが、分子バーコード部分の配列において、塩基の挿入または欠失(indel)を有するとしてシークエンスされた配列を除外して得られた核酸分子群に対して行われる、方法。
(25B)バーコード配列を用いた目的核酸分子のデジタル定量法において、バーコード中の塩基の挿入または欠失(indel)を検出する方法であって、核酸分子に連結する全ての分子バーコード配列中に配置された1以上の固定塩基それぞれの位置と、配列解読された分子バーコード配列部分の配列における1以上の固定塩基それぞれの位置との、相対的位置を比較することによって特定することによって塩基の挿入または欠失(indel)を検出することを含む、方法。
(1C)複数の核酸分子を含むサンプル毎に固有のインデックス(インデックス配列核酸分子を意味し、各サンプルに固有であれば複数種のインデックス核酸分子を含んでいてもよい)及び各核酸分子に固有のまたは任意の分子バーコード(バーコード配列核酸分子)が付加された目的核酸分子(例えば、DNAまたはRNA)を含む複数のサンプルの混合物を用いたシークエンシング(すなわち、マルチプレックスシークエンシング)より得られた配列情報から、目的核酸分子に付加されたインデックスと分子バーコードの正しいペア又はミスペアを決定する方法であって、
(A)核酸分子(例えば、DNAまたはRNA)を含む複数のサンプルを別々に取得する工程と{サンプルの少なくとも1つには目的核酸分子が含まれる}、
(B){例えば、得られた複数のサンプルそれぞれにおいて、}サンプルに含まれる核酸分子を増幅する前に、目的核酸分子それぞれに各核酸分子に固有のまたは任意の分子バーコードを連結して、それぞれ異なる分子バーコードが連結した目的核酸分子を得る工程と、
(C){例えば、複数のサンプルを混合する前に、}複数の目的核酸分子を含むサンプル毎に固有のインデックスを目的核酸分子に付加し、由来するサンプル毎に異なるインデックスが連結した目的核酸分子のライブラリを得る工程と(工程Bの後に工程Cを行ってもよいし、工程Cの後に工程Bを行ってもよい;また、工程BまたはCの後で核酸分子を増幅して目的核酸分子の増幅産物を得ることができる)、
(D)上記(B)と(C)の後に得られた核酸分子の増幅産物を含む混合物中で(サンプルを混合するのは工程(C)の後であり、サンプルを混合した後に工程(B)を行っても良く、工程(B)を行った後に全サンプルを混合してもよい。また、分子バーコードが連結した核酸分子の増幅産物を得るのは工程(B)の後であり、増幅産物を得る前にサンプルを混合してもよく、増幅産物を得た後に当該増幅産物を含むサンプルを混合してもよい)、サンプル毎に固有のインデックス及び各目的核酸分子に固有のまたは任意の分子バーコードが付加された核酸分子をシークエンシングして、1核酸分子毎にインデックス部分の配列と分子バーコード部分の配列と必要に応じてそれに連結した目的核酸分子部分の配列を決定する工程と、
(E)得られた配列情報から、{例えば、配列同一性または類似性に基づいて行うことができるが}特定のインデックスを有する配列若しくはこれと類似する配列、特定の分子バーコードを有する配列若しくはこれと類似する配列、または目的核酸分子を含む配列若しくはこれと類似する配列を選択し、選択された配列により群を作成する工程と、
(F)上記(E)で作成された群において、検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定する、および/または、検出頻度の低いインデックスと分子バーコードのペア(例えば、一定の基準値より低い検出頻度のペアであって、一定の基準値とは群において99.5%以下、99%以下、90%以下、80%以下、70%以下、60%以下、50%以下、40%以下、30%以下、20%以下、10%以下、5%以下、1%以下の値が挙げられるがこれらに限定されない。また、例えば2番目以降の検出頻度のペアであってもよい。)の少なくともいずれか1つまたは全てをインデックスと分子バーコードのミスペアと決定する工程と、
を含む、方法。
(2C)工程(E)において、特定のインデックスを有する配列を選択してインデックス毎に群を作成し、
工程(F)において、複数の群に出現した分子バーコードを有する核酸配列に関して、最もリード数が多いバーコードとインデックスのペアを、バーコードとインデックスの正しいペアと決定する、または、検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定する、
上記(1C)に記載の方法。
(3C)工程(E)において、特定の分子バーコードを有する配列を選択して分子バーコード毎に群を作成し、
工程(F)において、作成された群のうち検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定する、
上記(1C)に記載の方法。
(4C)工程(E)において、目的核酸分子の配列を含む配列を選択して群を作成し、
工程(F)において、さらに当該群から特定のインデックスを有する配列を選択してサブグループを作成し、複数のサブグループに出現した分子バーコードを有する核酸配列に関して、最もリード数が多いバーコードとインデックスのペアを、バーコードとインデックスの正しいペアと決定する、または、検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定する、
上記(1C)に記載の方法。
(5C)工程(E)において、目的核酸分子の配列を含む配列を選択して群を作成し、
工程(F)において、さらに当該群から特定の分子バーコードを有する分子を選択してサブグループを作成し、作成された一つのサブグループにおいて検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定する、
上記(1C)に記載の方法。
(6C)工程(F)において、決定された正しいペア以外のインデックスと分子バーコードのペアの少なくともいずれか1つまたは全てを、インデックスと分子バーコードのミスペアと決定する、
上記(2C)~(5C)のいずれかに記載の方法。
(7C)工程(E)において特定のインデックスを有する分子を選択してインデックス毎に群を作成し、
工程(F)において、複数の群に出現した分子バーコードを有する配列に関して、検出頻度の低いインデックスと分子バーコードのペア(例えば、一定の基準値より低い検出頻度のペアであって、一定の基準値とは群において50%以下、40%以下、30%以下、20%以下、10%以下、5%以下、1%以下の値が挙げられるがこれらに限定されない。また、例えば2番目以降の検出頻度のペアであってもよい。)をインデックスの少なくともいずれか1つまたは全てと分子バーコードのミスペアと決定する、
上記(1C)に記載の方法。
(8C)工程(E)において特定の分子バーコードを有する配列を選択して分子バーコード毎に群を作成し、
工程(F)において作成された群のうち検出頻度の低いインデックスと分子バーコードのペア(例えば、一定の基準値より低い検出頻度のペアであって、一定の基準値とは群において50%以下、40%以下、30%以下、20%以下、10%以下、5%以下、1%以下の値が挙げられるがこれらに限定されない。また、例えば2番目以降の検出頻度のペアであってもよい。)をインデックスと分子バーコードの少なくともいずれか1つまたは全てのミスペアと決定する、
上記(1C)に記載の方法。
(9C)工程(E)において目的核酸分子を含む配列を選択して群を作成し、
工程(F)においてさらに当該群から特定のインデックスを有する分子を選択してサブグループを作成し、複数のサブグループに出現した分子バーコードを有する核酸分子に関して、検出頻度の低いインデックスと分子バーコードのペア(例えば、一定の基準値より低い検出頻度のペアであって、一定の基準値とは群において50%以下、40%以下、30%以下、20%以下、10%以下、5%以下、1%以下の値が挙げられるがこれらに限定されない。また、例えば2番目以降の検出頻度のペアであってもよい。)の少なくともいずれか1つまたは全てをインデックスと分子バーコードのミスペアと決定する、
上記(1C)に記載の方法。
(10C)工程(E)において目的核酸分子を含む分子を選択して群を作成し、
工程(F)においてさらに当該群から特定の分子バーコードを有する分子を選択してサブグループを作成し、作成された一つのサブグループにおいて検出頻度の低いインデックスと分子バーコードのペア(例えば、一定の基準値より低い検出頻度のペアであって、一定の基準値とは群において50%以下、40%以下、30%以下、20%以下、10%以下、5%以下、1%以下の値が挙げられるがこれらに限定されない。また、例えば2番目以降の検出頻度のペアであってもよい。)の少なくともいずれか1つまたは全てをインデックスと分子バーコードのミスペアと決定する、
上記(1C)に記載の方法。
(11C)工程(E)において、群を作成する工程が、{好ましくは、分子バーコード部分の配列において}配列同一性または類似性に基づいて判断される同一配列を有していた{例えば、工程(A)~(D)の工程のいずれかによって配列が変化することがある}と推定される分子を一群としてクラスタリングすることによって群を作成することによって行われる、
上記(1C)~(10C)に記載の方法。
(12C)工程(E)において、クラスタリングが、
(i)分子バーコード部分の配列において、固有の分子バーコードの配列と同一の配列を有する核酸分子群{すなわち、Distance = 0}を同じクラスターに分類することにより行われる;
(ii)分子バーコード部分の配列において、固有の分子バーコードの配列と1ベースまでのミスマッチを有する配列を有する核酸分子群{すなわち、Distance = 1}を同じクラスターに分類することにより行われる;
(iii)分子バーコード部分の配列において、固有の分子バーコードの配列と2ベースまでのミスマッチを有する配列を有する核酸分子群{すなわち、Distance = 2}を同じクラスターに分類することにより行われる;または
(iv)分子バーコード部分の配列において、固有の分子バーコードの配列と3ベースまでのミスマッチを有する配列を有する核酸分子群{すなわち、Distance = 3}を同じクラスターに分類することにより行われる、
上記(11C)に記載の方法。
(13C)工程(E)において、クラスタリングが、
分子バーコード部分の配列において、塩基(例えば、1ベースまで、2ベースまで、または3ベースまで)の挿入または欠失(indel)を有するとしてシークエンスされた配列を有する核酸分子群を同じクラスターに分類することにより行われる、
上記(11C)または(12C)に記載の方法。
(14C)工程(E)において、クラスタリングが、
分子バーコード部分の配列において、塩基(例えば、1ベースまで、2ベースまで、または3ベースまで)の挿入または欠失(indel)を有するとしてシークエンスされた配列を除外して得られた核酸分子群に対して行われる、
上記(11C)または(12C)に記載の方法。
(15C)前記塩基の挿入または欠失が、核酸分子に連結する全ての分子バーコード配列中に配置された1以上(例えば、1つ、2つ、3つ、4つ、5つ、または6つ以上)の固定塩基それぞれの位置と、配列解読された分子バーコード配列部分の配列における1以上の固定塩基それぞれの位置との、位置の相違により特定することをさらに含む、請求項13または14に記載の方法{例えば、それぞれの固定塩基は、A、T、GおよびCからなる群から選択されるいずれか1つの塩基となるように設計され得る;または、AとTの組合せ、AとGの組合せ、AとCの組合せ、TとGの組合せ、TとCの組合せ、GとCの組合せ、AとTとGとの組合せ、AとTとCとの組合せ、AとGとCとの組合せ、およびTとGとCとの組合せからなる群から選択されるいずれか1つの組合せに含まれる塩基からランダムに選択される塩基となるように設計され得る}。
(16C)複数の核酸分子を含むサンプル毎に固有のインデックス(インデックス配列核酸分子)及び各核酸分子に固有のまたは任意の分子バーコード(バーコード配列核酸分子)が付加された目的核酸分子(例えば、DNAまたはRNA)を含む複数のサンプルの混合物を用いたシークエンシング(すなわち、マルチプレックスシークエンシング)より得られた配列情報から、特定の元々(original)のサンプルに含まれる目的核酸分子の数を決定する方法であって、
(a)核酸分子(例えば、DNAまたはRNA)を含む複数のサンプルを別々に取得する工程と{サンプルの少なくとも1つには目的核酸分子が含まれる}、
(b)サンプルに含まれる核酸分子を増幅する前に、得られた複数のサンプルそれぞれにおいて、目的核酸分子それぞれに任意の分子バーコードを連結して、それぞれ異なる分子バーコードが連結した目的核酸分子を得る工程と、
(c)複数のサンプルを混合する前に、複数の目的核酸分子を含むサンプル毎に固有のインデックスを目的核酸分子に付加し、由来するサンプル毎に異なるインデックスが連結した目的核酸分子のライブラリを得る工程と(工程Bと工程Cの順序はどちらが先でもよい;また、工程BまたはCの後で核酸分子を増幅して目的核酸分子の増幅産物を得ることができる)、
(d)上記(B)と(C)の後得られた核酸分子の増幅産物を含む混合物中で(サンプルを混合するのは工程(C)の後であり、サンプルを混合した後に工程(B)を行っても良く、工程(B)を行った後に全サンプルを混合してもよい。また、分子バーコードが連結した核酸分子の増幅産物を得るのは工程(B)の後であり、増幅産物を得る前にサンプルを混合してもよく、増幅産物を得た後に当該増幅産物を含むサンプルを混合してもよい)、サンプル毎に固有のインデックス及び各目的核酸分子に固有のまたは任意の分子バーコードが付加された核酸分子をシークエンシングして、1核酸分子毎にインデックス部分の配列と分子バーコード部分の配列とそれに連結した核酸分子部分の配列を同定する工程と、
(e)得られた配列情報から、目的核酸分子の配列を含む核酸分子を選択することと、
(f)上記(e)で選択された核酸分子を固有の分子バーコードの配列毎にクラスタリングし、その後、インデックス核酸分子部分において複数の配列を有するクラスターを特定することと、
(g)上記(f)において特定されたクラスターそれぞれにおいて、検出頻度の最も高いインデックスと分子バーコードのペアを正しくインデックスされた目的核酸分子として特定し、それ以外のインデックスと分子バーコードのペアをミスペアであると決定することと、
を含み{ここで、ミスペアにおいてインデックスが誤っていると決定することをさらに含んでいてもよい}、
正しくインデックスされた目的核酸分子に連結した固有の分子バーコードの配列の種類の数(または、正しくインデックスされた目的核酸分子のクラスターの数)が、当該インデックスに対応するサンプルに含まれる目的核酸分子の数である、
方法。
(17C)前記(f)において、クラスタリングが、
(i)分子バーコード部分の配列において、固有の分子バーコードの配列と同一の配列を有する核酸分子群を同じクラスターに分類することにより行われる;
(ii)分子バーコード部分の配列において、固有の分子バーコードの配列と1ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる;
(iii)分子バーコード部分の配列において、固有の分子バーコードの配列と2ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる;または
(iv)分子バーコード部分の配列において、固有の分子バーコードの配列と3ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる、
上記(16C)に記載の方法。
(18C)前記(e)において、クラスタリングが、
分子バーコード部分の配列において、塩基(例えば、1ベースまで、2ベースまで、または、3ベースまで)の挿入または欠失(indel)を有するとしてシークエンスされた配列を有する核酸分子群を同じクラスターに分類することにより行われる、
上記(16C)または(17C)に記載の方法。
(19C)前記(e)において、クラスタリングが、
分子バーコード部分の配列において、塩基(例えば、1ベースまで、2ベースまで、または、3ベースまで)の挿入または欠失(indel)を有するとしてシークエンスされた配列を除外して得られた核酸分子群に対して行われる、
上記(16C)または(17C)に記載の方法。
(20C)前記塩基の挿入または欠失が、核酸分子に連結する全ての分子バーコード配列中に配置された1以上(例えば、1つ、2つ、3つ、4つ、5つ、または6つ以上)の固定塩基それぞれの位置と、配列解読された分子バーコード配列部分の配列における1以上の固定塩基それぞれの位置との、相違により特定することをさらに含む、請求項18または19に記載の方法{例えば、それぞれの固定塩基は、A、T、GおよびCからなる群から選択されるいずれか1つの塩基となるように設計され得る;または、AとTの組合せ、AとGの組合せ、AとCの組合せ、TとGの組合せ、TとCの組合せ、GとCの組合せ、AとTとGとの組合せ、AとTとCとの組合せ、AとGとCとの組合せ、およびTとGとCとの組合せからなる群から選択されるいずれか1つの組合せに含まれる塩基からランダムに選択される塩基となるように設計され得る}。
デジタルカウント法はまた、大量のシークエンスデータを取得することができる次世代シークエンサーのプラットフォームにおいて多くの用途に用いられている。そのような用途としては、例えば、RNA-Seqに加えて、単一ヌクレオチド解像度UV架橋免疫沈降(iCLIP:individual-nucleotide resolution UV cross-linking and immunoprecipitation)、抗体レパトワ解析、細菌16S rRNAの遺伝子解析、およびエキソヌクレアーゼ、固有のバーコードおよび単一ライゲーションを介したヌクレオチド解像度のクロマチン免疫沈降実験(ChIP-nexus:chromatin immunoprecipitation experiments with nucleotide resolution through exonuclease, unique barcode and single ligation)が挙げられる。
このデジタルカウントの方法において、サンプル中に存在する核酸分子の総数に対して十分に多くの種類の分子バーコードを用いることにより、同一のバーコードが元のサンプル中に存在する複数の核酸分子に付加される可能性を実質的に制限し、これによりバーコードの配列の種類数をサンプル中に存在していた核酸分子数に対応付けることができる。このようにして、十分な多様性を有するヌクレオチド配列を含む分子バーコードを用いることによって、サンプル中に存在する核酸分子の定量が可能である。分子バーコードは、例えば、ランダムな塩基を有する核酸群として得られ得る。分子バーコードは、測定する分子数を決定するために、その配列の種類の数に着目されるため、配列がランダム(配列が多様であり、かつ、ヒトが配列の内容を認識する必要がないように)に合成されたものであったとしてもよいということができる。あるいは、分子バーコードは、十分な多様性が得られるように設計された配列既知の核酸群であってもよい。本明細書では、分子バーコードを単にバーコードということがあり、また、分子バーコードの有する配列をバーコード配列ということがある。本明細書では、固有のバーコード配列の数とは、バーコード配列の多様性の程度を表す数である。固有のバーコード配列の数は、n個の異なるバーコード配列が検出された場合には、nとなる{ここで、nは自然数である}。本明細書では、ランダム塩基の数とは、ランダム塩基の塩基長を意味する。本明細書では、ランダム塩基とは、ランダムな配列を有する連続した塩基を意味する。ランダム塩基は、2種類の塩基、3種類の塩基、または4種類の塩基からなるものとし得る。
RNA分子、またはDNA(例えば、相補的DNAまたはcDNA)分子等の核酸(目的核酸分子)のそれぞれに対して、多様な外来配列を含むDNA(分子バーコード)を固有に付加する(すなわち、核酸分子毎に異なる配列を有する分子バーコードを付加する)(例えば、図6C参照)。このように分子毎に固有の配列を有する分子バーコードが付加された核酸を「バーコード付加された核酸」と呼ぶことがある。バーコード付加された目的核酸分子(出発材料の核酸がRNAである場合にはRNAから得られるcDNA)を増幅させる(例えば、図6D参照)。バーコード付加され増幅された核酸の目的核酸配列とバーコード配列をタンデムにシークエンスする(例えば、図6D参照)。理論的に提唱されているように、各々の目的核酸について、増幅された分子の数(いわゆる「リード数」)ではなく目的核酸配列に付加された固有のバーコードの数が定量され、元の(増幅前の)目的核酸分子の絶対的なコピー数が決定できる。このデジタル定量法においては、バーコード配列の種類の数が着目されるため、バーコード配列は、核酸分子毎に固有の配列を有するように目的核酸分子に付加されればよく、その具体的配列がどのようなものかは問われない。デジタル定量法において、具体的配列が既知のバーコードを用いてもよい。
次世代シークエンサーのプラットフォームが発展し、一度のシークエンシング(ラン)で大量の塩基配列を解読可能となった。これにより、単一サンプルの測定では、シークエンシングの能力を使い切れず、1回のランで複数のサンプルを同時にシークエンスすることに対するニーズが高まっている。1回のランで複数のサンプルをシークエンスする一方で、核酸がいずれのサンプルに由来するかを区別するために、サンプル毎に固有のインデックスの付加がなされ得る。本発明によれば、インデックスは、サンプル毎に固有であればどのような配列を有するように目的核酸分子に付加されていてもよく、その具体的配列がどのようなものかは問われない。デジタル定量法において、具体的配列が既知のインデックスを用いてもよい。
本発明によれば、インデックスは、目的核酸分子が増幅された後で増幅された目的核酸分子に対して付加されてもよいし、目的核酸分子が増幅される前に目的核酸分子に対して付加されてもよい。インデックスは、各サンプルで増幅を行った後に付加してもよい。例えば、インデックスの付加は、アダプターライゲーションによって増幅産物それぞれに対して行うことができる。あるいは、インデックスは、目的核酸分子が増幅される間に付加されてもよい。例えば、インデックスの付加は、プライマーの配列に含ませることによって核酸分子の増幅中に行われ得る。
本発明においてインデックスが増幅される前の目的核酸分子に付加される場合には、インデックスは、バーコード配列の付加の前に、同時に、または後で目的核酸分子に付加されてもよい。インデックス、バーコード配列、および目的核酸分子は、いずれの順番で連結されてもよい。インデックスは、バーコード配列と連結した状態で提供されてもよい。分子バーコードを利用して特定のサンプル内に含まれる目的核酸分子をデジタル定量に供する場合には、インデックスを指標として特定サンプルに由来する目的核酸分子を特定することができ、目的核酸配列に付加されたバーコード配列の種類の数(固有のバーコードの数)が定量され、元の(増幅前の)目的核酸分子の絶対的なコピー数が決定される(例えば、図6D参照)。
本発明によればまた、バーコード配列の種類の数をカウントする際に、バーコード配列内に生じる変異(例えば、挿入、置換、および欠失)によって、同じと判断されるべき配列が異なる配列として認識される問題が発生し得ることが明らかになった。これらの問題は、インデックスを用いるか否かによらず生じ得る。
サンプルの区別のためにサンプルに固有のインデックスを用いるデジタル定量方法においては、バーコードとインデックスが付加された目的核酸分子について、同一のバーコードに対して複数種のインデックスが付加されることはないと仮定できる(核酸一分子毎に固有のバーコードが付加されているためである)。これに対して本発明では、同一のバーコードが付加された核酸分子のクラスター中に複数のインデックスが見出された場合には、ミスインデックスが発生したと決定することができる(例えば、図6Eおよび図7C参照)。同一のバーコードが付加された核酸分子のクラスター中に複数のインデックスが見出された場合には、各インデックス配列の存在数を比較し、最も多く存在したインデックス配列を正しくインデックス付加された配列であると決定する(例えば、図6Eおよび図7C参照)。これにより、(例えば、1つのクラスター中の最も多く存在したインデックス配列以外の配列を除外することによって)ミスインデックスに対応することができる。この方法は、目的核酸分子の配列とは関係なく実施することができることは当然である。従って、この方法は、目的核酸配列を解読することを含まなくてよく、含んでいてもよい。この方法は、下記の第1の実施形態に対応する。
すなわち、本発明の第1の実施形態によれば、
複数の核酸分子を含むサンプル毎に固有のインデックス及び各核酸分子に固有のまたは任意の分子バーコードが付加された目的核酸分子を含む複数のサンプルの混合物を用いたシークエンシング(マルチプレックスシークエンシング)より得られた配列情報から、目的核酸分子に付加されたインデックスと分子バーコードの正しいペア又はミスペアを決定する方法であって、
(E)得られた配列情報から、特定のインデックスを有する配列若しくはこれと類似する配列、特定の分子バーコードを有する配列若しくはこれと類似する配列、または目的核酸分子を含む配列若しくはこれと類似する配列を選択し、選択された配列により群を作成する工程と、
(F)上記(E)で作成された群において、検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定する、および/または、検出頻度の低いインデックスと分子バーコードのペア(例えば、一定の基準値より低い検出頻度のペアであって、一定の基準値とは群において99.5%以下、99%以下、90%以下、80%以下、70%以下、60%以下、50%以下、40%以下、30%以下、20%以下、10%以下、5%以下、1%以下の値が挙げられるがこれらに限定されない。また、例えば、2番目以降の検出頻度のペアであってもよい。)の少なくともいずれか1つまたは全てをインデックスと分子バーコードのミスペアと決定する工程と、
を含む、方法が提供される。
(A)核酸分子(例えば、DNAまたはRNA)を含む複数のサンプルを別々に取得する工程と{サンプルの少なくとも1つには目的核酸分子が含まれる}、
(B){例えば、得られた複数のサンプルそれぞれにおいて、}サンプルに含まれる核酸分子を増幅する前に、目的核酸分子それぞれに各核酸分子に固有のまたは任意の分子バーコードを連結して、それぞれ異なる分子バーコードが連結した目的核酸分子を得る工程と、
(C){例えば、複数のサンプルを混合する前に、}複数の目的核酸分子を含むサンプル毎に固有のインデックスを目的核酸分子に付加し、由来するサンプル毎に異なるインデックスが連結した目的核酸分子のライブラリーを得る工程と(工程(B)の後に工程(C)を行ってもよいし、工程(C)の後に工程(B)を行ってもよい;また、工程(B)または(C)の後で核酸分子を増幅して目的核酸分子の増幅産物を得ることができる)、
(D)上記(B)と(C)の後に得られた核酸分子の増幅産物を含む混合物中で(サンプルを混合するのは工程(C)の後であり、サンプルを混合した後に工程(B)を行ってもよく、工程(B)を行った後に全サンプルを混合してもよい。また、分子バーコードが連結した核酸分子の増幅産物を得るのは工程(B)の後であり、増幅産物を得る前にサンプルを混合してもよく、増幅産物を得た後に当該増幅産物を含むサンプルを混合してもよい)、サンプル毎に固有のインデックス及び各目的核酸分子に固有のまたは任意の分子バーコードが付加された核酸分子をシークエンシングして、1核酸分子毎にインデックス部分の配列と分子バーコード部分の配列と必要に応じてそれに連結した目的核酸分子部分の配列を決定する工程と、
をさらに含んでいてもよい。
本発明の第1の実施形態では、例えば、上記(E)は、第2の実施形態と組み合わせて実施することもできる。詳細は、第2の実施形態において説明する。
本発明の第1の実施形態ではさらにまた、例えば、上記(E)は、第2の実施形態および第3の実施形態と組み合わせて実施することができる。詳細は、第3の実施形態において説明する。
(i)工程(F)において、作成された群のうち検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定することができる;または
(ii)工程(F)において作成された群のうち検出頻度の低いインデックスと分子バーコードのペア(例えば、一定の基準値より低い検出頻度のペアであって、一定の基準値とは群において50%以下、40%以下、30%以下、20%以下、10%以下、5%以下、1%以下の値が挙げられるがこれらに限定されない。また、例えば2番目以降の検出頻度のペアであってもよい。)をインデックスと分子バーコードの少なくともいずれか1つまたは全てのミスペアと決定することができる。
(iii)工程(F)において、複数の群に出現した分子バーコードを有する核酸配列に関して、最もリード数が多いバーコードとインデックスのペアを、バーコードとインデックスの正しいペアと決定する、または、検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定することができる;または
(iv)工程(F)において、複数の群に出現した分子バーコードを有する配列に関して、検出頻度の低いインデックスと分子バーコードのペア(例えば、一定の基準値より低い検出頻度のペアであって、一定の基準値とは群において50%以下、40%以下、30%以下、20%以下、10%以下、5%以下、1%以下の値が挙げられるがこれらに限定されない。また、例えば2番目以降の検出頻度のペアであってもよい。)をインデックスの少なくともいずれか1つまたは全てと分子バーコードのミスペアと決定することができる。
(v)工程(F)において、さらに当該群から特定のインデックスを有する配列を選択してサブグループを作成し、複数のサブグループに出現した分子バーコードを有する核酸配列に関して、最もリード数が多いバーコードとインデックスのペアを、バーコードとインデックスの正しいペアと決定する、または、検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定することができる;
(vi)工程(F)において、さらに当該群から特定の分子バーコードを有する分子を選択してサブグループを作成し、作成された一つのサブグループにおいて検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定することができる;
(vii)工程(F)においてさらに当該群から特定のインデックスを有する分子を選択してサブグループを作成し、複数のサブグループに出現した分子バーコードを有する核酸分子に関して、検出頻度の低いインデックスと分子バーコードのペア(例えば、一定の基準値より低い検出頻度のペアであって、一定の基準値とは群において50%以下、40%以下、30%以下、20%以下、10%以下、5%以下、1%以下の値が挙げられるがこれらに限定されない。また、例えば2番目以降の検出頻度のペアであってもよい。)の少なくともいずれか1つまたは全てをインデックスと分子バーコードのミスペアと決定することができる;または
(viii)工程(F)においてさらに当該群から特定の分子バーコードを有する分子を選択してサブグループを作成し、作成された一つのサブグループにおいて検出頻度の低いインデックスと分子バーコードのペア(例えば、一定の基準値より低い検出頻度のペアであって、一定の基準値とは群において50%以下、40%以下、30%以下、20%以下、10%以下、5%以下、1%以下の値が挙げられるがこれらに限定されない。また、例えば2番目以降の検出頻度のペアであってもよい。)の少なくともいずれか1つまたは全てをインデックスと分子バーコードのミスペアと決定することができる。
バーコード配列を用いた核酸分子のデジタル定量法においては、解析中にバーコード配列内に変異(挿入、置換、または欠失)が生じること、および変異が定量精度に影響することが明らかとなった。本発明の第2の実施形態は、バーコード配列を用いた目的核酸分子のデジタル定量法において、得られた核酸配列の情報から、変異後の分子バーコードが有する配列を配列類似性を有する他の配列と一緒に1群に分類する(クラスタリング)ことに関連する。これにより、解析中に生じるバーコード配列内の変異の影響を最小化しようとするものである。第2の実施形態は、例えば、分子バーコードに類似する配列が含まれる可能性が低い環境下では、類似する配列は、同一配列から変異(挿入、置換、または欠失)によって生じた可能性が高いことに基づくものであり、実際に実施例においてもこのクラスタリングによってデジタル定量の精度が向上することが示唆された。
より具体的には、例えば、群を作成する工程が、{好ましくは、分子バーコード部分の配列において}配列同一性または類似性に基づいて判断される同一配列を有していた{例えば、工程(A)~(D)を実施した場合、これらの工程のいずれかによって配列が変異することがある}と推定される分子を一群としてクラスタリングすることによって群を作成することであり得る。従って、特定のインデックスを有する配列と類似性を有する配列とは、特定のインデックスを有する配列、および、特定のインデックスを有する配列と類似性を有する配列を含む。
(i)分子バーコード部分の配列において、固有の分子バーコードの配列と同一の配列を有する核酸分子群を同じクラスターに分類することにより行われる(すなわち、Distance=0);
(ii)分子バーコード部分の配列において、固有の分子バーコードの配列と1ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる(すなわち、Distance=1);
(iii)分子バーコード部分の配列において、固有の分子バーコードの配列と2ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる(すなわち、Distance=2);または
(iv)分子バーコード部分の配列において、固有の分子バーコードの配列と3ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる(すなわち、Distance=3)。このようにすることで、デジタル定量法において生じ得る0~3塩基の変異による核酸配列の種類の人為的増加を是正する。
第2の実施形態のこの態様は、第1の実施形態と組み合わせる場合には、上記(E)の工程において実施することができる。
第2の実施形態のこの態様は、第1の実施形態と組み合わせる場合には、上記(E)の工程において実施することができる。
第2の実施形態のこの態様は、第1の実施形態と組み合わせる場合には、上記(E)の工程において実施することができる。
バーコード配列を用いた目的核酸分子のデジタル定量法において、得られた核酸配列において、挿入または欠失(indel)が生じることがある。本発明の第3の実施形態では、核酸配列(特にバーコード配列)に対して生じ得るindelの検出において、核酸分子に連結する全てのバーコード配列中に配置された1以上(例えば、1つ、2つ、3つ、4つ、5つ、または6つ以上)の固定塩基の一部(1つ以上)または全部が元来の位置において所定の固定塩基以外の塩基に変化しているか否かにより検出され得る。本発明の第3の実施形態ではまた、核酸配列(特にバーコード配列)に対して生じ得るindelの検出において、核酸分子に連結する全てのバーコード配列中に配置された1以上(例えば、1つ、2つ、3つ、4つ、5つ、または6つ以上)の固定塩基それぞれの位置と、配列解読されたバーコード配列部分の配列における1以上の固定塩基それぞれの位置との、相対的位置を比較することによって特定することをさらに含み得る{例えば、それぞれの固定塩基は、通常は、A、T、GおよびCからなる群から選択されるいずれか1つの塩基となるように設計され得る;または、それぞれの固定塩基は、AとTの組合せ、AとGの組合せ、AとCの組合せ、TとGの組合せ、TとCの組合せ、GとCの組合せ、AとTとGとの組合せ、AとTとCとの組合せ、AとGとCとの組合せ、およびTとGとCとの組合せからなる群から選択されるいずれか1つの組合せに含まれる塩基から選択される塩基となるように設計され得る}。これによって、1以上の固定塩基が所定の位置からずれた位置に存在することを指標として、および、好ましくは固定塩基が存在するべき位置に他の塩基が存在することを更なる指標として、indelを検出することができる。例えば、1以上、例えば、2以上の固定塩基が所定の位置からそれぞれ同じ塩基数ずれた位置に存在すれば、indelが検出されたと決定することができる。indelが検出されたときには、indelを有するとしてシークエンスされた配列を有する核酸分子群をindelを有しない配列と同じクラスターに分類してもよいし、indelを有するとしてシークエンスされた配列を有する核酸分子群を除外してもよい(例えば、得られた配列情報からindelを有するとしてシークエンスされた配列を有する核酸分子群を除外してもよいし、indelを有するとしてシークエンスされた配列を有する核酸分子群を除外して核酸分子群をクラスタリングしてもよい)。この態様では、固定塩基が2以上存在する場合には、固定塩基同士は、好ましくは、固定塩基間には1塩基以上の他の塩基を介在させ得る。ここで「固定塩基」とは、複数のバーコード配列において、バーコード配列の末端(5’末端、若しくは、3’末端、または、5’末端および3’末端)から所定の位置に存在する共通する塩基を意味する(ここで、共通する塩基は、上記のように複数のバーコード配列間で共通する設計によって決定された塩基としてもよい)。
第3の実施形態のこの態様は、第1の実施形態と組み合わせる場合には、上記(E)の工程において実施することができる。第3の実施形態のこの態様は、第2の実施形態と組み合わせる場合には、indelの検出において実施することができる。
核酸の解析方法であって:
(I)分子バーコードとインデックスが付加された複数の目的核酸分子の混合物をシークエンシングに供して配列情報を得る工程と、
(II)上記(I)で得られた配列情報から特定のインデックスを有する配列若しくはこれと類似する配列、及び/又は特定の分子バーコードを有する配列若しくはこれと類似する配列を選択し、選択された配列により群を作成する工程と、
(III)上記(II)で作成された群において、検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定する工程と、
を含む、方法であってもよい。
(I)分子バーコードが付加された複数の核酸分子の混合物をシークエンシングに供して配列情報を得る工程と、
(II)上記(I)で得られた配列情報から特定の分子バーコードを有する配列若しくはこれと類似する配列を選択し、選択された配列により群を作成する工程と、
を含む、方法であってもよい。
(I)特定の位置に固定塩基を有する分子バーコードが付加された複数の核酸分子の混合物をシークエンシングに供して配列情報を得る工程と、
(IIa)当該特定の位置に当該固定塩基を含まない分子バーコードを有する配列を解析から除外する工程と、
を含む、方法であってもよい。
上記第1、第2、および第3の実施形態のそれぞれにおいて、インデックスが、分子バーコードが付加された目的核酸分子の増幅産物に対して付加されていてもよい。増幅産物に対してインデックスを付加する方法としては、周知の方法、例えば、インデックス配列を有するアダプターを用いたアダプターライゲーション法が挙げられる。
上記第1、第2、および第3の実施形態のそれぞれにおいて、インデックスは、分子バーコードと一緒に目的核酸分子に付加されてもよい。例えば、目的核酸分子にインデックスおよび分子バーコードを付加する方法としては、周知の方法、例えば、インデックスおよび分子バーコードの配列を含むプライマーを用いて目的核酸分子を増幅(例えば、ポリメラーゼ連鎖反応)する方法が挙げられる。
例えば、第1および第2の実施形態のそれぞれにおいて、分子バーコードが、特定の位置に固定塩基を有するものであってもよい。
第1および第2の実施形態のそれぞれにおいて、工程(II)における特定の分子バーコードを有する配列と類似する配列が、当該特定の位置に当該固定塩基を含むこと、および/または、当該固定塩基の位置が当該特定の位置からシフトしていることに基づいて選択されてもよい。
第1および第2の実施形態のそれぞれにおいて、当該特定の位置に当該固定塩基を含まない分子バーコードを有する配列を解析から除外することをさらに含んでいてもよい。例えば、この実施形態において、分子バーコードをDistance=0でクラスタリングする場合も、Distance=1以上でクラスタリングする場合も、当該特定の位置に当該固定塩基を含まない分子バーコードを有する配列を解析から除外することをさらに含んでいてもよい。この場合、当該特定の位置に当該固定塩基を含まない分子バーコードを有する配列を解析から除外することは、クラスタリングの前でも後でも最中であってもよい。
第1および第2の実施形態のそれぞれにおいて、当該特定の位置に当該固定塩基を含まない分子バーコードを有する配列を工程(I)の配列情報から除外してもよく、工程(II)で作成した群から除外してもよく、解析から除外してもよい。
あるいはまた、第1、第2、および第3の実施形態のそれぞれにおいて、工程(I)において、または工程(I)の後で、当該特定の位置に当該固定塩基を含む配列からなる配列情報を得てもよい。あるいはまた、第1の実施形態では、工程(II)において、または工程(II)の後で、当該特定の位置に当該固定塩基を含む配列からなる群を得てもよい。すなわち、第3の実施形態の核酸の解析方法では、工程(IIa)に代えて、工程(IIb):工程(I)において、若しくは、工程(I)の後で、分子バーコード部分において当該特定の位置に当該固定塩基を含む配列からなる配列情報を得てもよいし;または、工程(II):上記(I)で得られた配列情報から特定の分子バーコードを有する配列若しくはこれと類似する配列を選択し、選択された配列により群を作成する工程を含み、かつ工程(IIc):工程(II)において、若しくは工程(II)の後で、分子バーコード部分において当該特定の位置に当該固定塩基を含む配列からなる群を得てもよい。分子バーコード部分において当該特定の位置に当該固定塩基を含む配列からなる配列情報または群は、全ての特定の位置に固定塩基を含む配列からなるものであり得る。分子バーコード部分において当該特定の位置に当該固定塩基を含む配列からなる配列情報または群は、固定塩基の数がn個{ここで、nは自然数である}である場合には、n個、またはn-m個{ここで、mは、1、2、3、または1からn-1の範囲の自然数であり得る}の固定塩基を特定の位置に含む配列からなるものであり得る。
本発明の第4の実施形態は、バーコード配列を用いた目的核酸分子のデジタル定量法であって、本発明の第1の実施形態、第2の実施形態、および第3の実施形態、並びにこれらの組合せからなる群から選択される実施形態の実施を含む、方法に関する。
(e)得られた配列情報から、目的核酸分子の配列を含む核酸分子を選択することと、
(f)上記(e)で選択された核酸分子を固有の分子バーコードの配列毎にクラスタリングし、その後、インデックス核酸分子部分において複数の配列を有するクラスターを特定することと、
(g)上記(f)において特定されたクラスターそれぞれにおいて、検出頻度の最も高いインデックスと分子バーコードのペアを正しくインデックスされた目的核酸分子として特定し、それ以外のインデックスと分子バーコードのペアをミスペアであると決定することと、
を含み{ここで、ミスペアにおいてインデックスが誤っていると決定することをさらに含んでいてもよい}、
正しくインデックスされた目的核酸分子に連結した固有の分子バーコードの配列の種類の数(または、正しくインデックスされた目的核酸分子のクラスターの数)に基づいて、当該インデックスに対応するサンプルに含まれる目的核酸分子の数を決定する、
方法であり得る。ここで、ある態様では、工程(g)において、正しくインデックスされた目的核酸分子に連結した固有の分子バーコードの配列の種類の数(または、正しくインデックスされた目的核酸分子のクラスターの数)を、当該インデックスに対応するサンプルに含まれる目的核酸分子の数と決定してもよく、リード数が増えるにつれて、原理的に定量の精度が高まると考えられる。
(a)核酸分子(例えば、DNAまたはRNA)を含む複数のサンプルを別々に取得する工程と{サンプルの少なくとも1つには目的核酸分子が含まれる}、
(b)サンプルに含まれる核酸分子を増幅する前に、得られた複数のサンプルそれぞれにおいて、目的核酸分子それぞれに任意の分子バーコードを連結して、それぞれ異なる分子バーコードが連結した目的核酸分子を得る工程と、
(c)複数のサンプルを混合する前に、複数の目的核酸分子を含むサンプル毎に固有のインデックスを目的核酸分子に付加し、由来するサンプル毎に異なるインデックスが連結した目的核酸分子のライブラリーを得る工程と(工程Bと工程Cの順序はどちらが先でもよい;また、工程(b)または(c)の後で核酸分子を増幅して目的核酸分子の増幅産物を得ることができる)、
(d)上記(b)と(c)の後得られた核酸分子の増幅産物を含む混合物中で(サンプルを混合するのは工程(c)の後であり、サンプルを混合した後に工程(b)を行っても良く、工程(b)を行った後に全サンプルを混合してもよい。また、分子バーコードが連結した核酸分子の増幅産物を得るのは工程(b)の後であり、増幅産物を得る前にサンプルを混合してもよく、増幅産物を得た後に当該増幅産物を含むサンプルを混合してもよい)、サンプル毎に固有のインデックス及び各目的核酸分子に固有のまたは任意の分子バーコードが付加された核酸分子をシークエンシングして、1核酸分子毎にインデックス部分の配列と分子バーコード部分の配列とそれに連結した核酸分子部分の配列を同定する工程
をさらに含んでいてもよい。
(i)分子バーコード部分の配列において、固有の分子バーコードの配列と同一の配列を有する核酸分子群を同じクラスターに分類することにより行われる;
(ii)分子バーコード部分の配列において、固有の分子バーコードの配列と1ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる;
(iii)分子バーコード部分の配列において、固有の分子バーコードの配列と2ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われる;または
(iv)分子バーコード部分の配列において、固有の分子バーコードの配列と3ベースまでのミスマッチを有する配列を有する核酸分子群を同じクラスターに分類することにより行われてもよい。
分子バーコード部分の配列において、塩基(例えば、1ベースまで、2ベースまで、または、3ベースまで)の挿入または欠失(indel)を有するとしてシークエンスされた配列を有する核酸分子群を同じクラスターに分類することにより行われてもよい。この際に、第3の実施形態で説明した、固定塩基を有する分子バーコードを用いてもよい。
分子バーコード部分の配列において、塩基(例えば、1ベースまで、2ベースまで、または、3ベースまで)の挿入または欠失(indel)を有するとしてシークエンスされた配列を除外して得られた核酸分子群に対して行われてもよい。この際に、第3の実施形態で説明した、固定塩基を有する分子バーコードを用いてもよい。
核酸分子のデジタル定量の一般的な手順は以下のとおりである(図1のパネルA参照)。(i)各々のRNA(または相補的DNA若しくはcDNA)またはDNAを、多様な配列を含む外部から加えたDNA(分子バーコード)によって固有にタグ化する1-3。(ii)バーコード付加されたDNAまたはcDNA(RNAから出発する場合RNAから生成される)を増幅する。(iii)バーコード付加され増幅された(c)DNAの目的核酸配列およびバーコード配列の両方をタンデムにシークエンスする。(iv)理論的に提唱されているように15、増幅前の元の目的核酸(すなわち、増幅前RNAまたは(c)DNA)の絶対的コピー数を与えるために、各々の目的核酸(または遺伝子)について、増幅された分子の数(いわゆる「リード数」)ではなく固有のバーコードの数が定量される。このスキームによって、システムの測定の間の種々の工程において(例えば、増幅、シークエンス、および/または分析から)生成されるノイズおよび/またはバイアスの影響を除外することができる。デジタルカウントシステムが適切に機能することを確実にするために、各々の目的核酸分子が固有にタグ化されることが保証され(またはほぼ保証され)、固有の分子バーコードの測定される数が所定の目的核酸分子の数と等しくなるように多様なバーコード配列を使用しなければならない16,17(下記の第1の要件)。また、正確なカウントのために十分なシークエンス深度が必要であると経験的に考えられている18,19(下記の第2の要件)。
デジタルカウントスキームにおいて、代表的には以下の2つのタイプのバーコード設計が使用されている:配列限定バーコード(各々のバーコード配列は個別に設計される)および非配列限定バーコード(「ランダム塩基」バーコードと称することがある)。配列限定バーコードが以前に使用されたときに、正確な定量のために必要とされるバーコード配列の多様性が理論計算によって概算され16、そしてバーコード付加された分子の絶対的定量のためのこの技術のキャパシティが実験的に確認された3,16。しかし、配列限定バーコードの使用には以下のような不利益が存在する:高いダイナミックレンジの測定のためには多くの異なる個別に設計されたバーコード配列を調製しなければならず、これは費用対効果が良くない。カウントのダイナミックレンジを増加させながらコストを最小化するために、ランダム(または擬似ランダム)塩基バーコードが代わりに使用されている2,4-9,11,12,18,20。この場合でも同様に、バーコードセットの配列多様性が十分であると決定すべきである17,18。しかし、単に、配列限定バーコードとは異なり、シークエンスおよび/または増幅エラーに起因するバーコードにおける配列変化(これらのエラーの1つから新たに生成されるバーコード配列が偽陽性になり得る)21という理由で、この調査はささいなことではない。すなわち、エラーはサンプル中の分子数の過大評価を引き起こし得る(配列限定バーコードの場合、全ての使用されるバーコード配列は既知であり、このことは全ての未使用のバーコード配列もまた既知であって、エラーから生じる配列を同定しそして除外することができることを意味することに留意のこと)。この問題は、類似のバーコード配列は同じ元のバーコード配列を起源とするエラーを通じて生じるという合理的な仮定に基づいてコンピューター解析を使用してエラーを除外することによってアプローチされる。さらに、Sudberyらは最近、制限されたダイナミックレンジ(100分子まで)についてのエラーのモデリングによるコンピューター解析に基づいてランダム塩基UMI(分子バーコード)の有効性を示した22。しかし、正確なデジタルカウントのためのランダム塩基分子バーコードの有効性は、特に定量的な意味7,20および高いダイナミックレンジで、理論的モデルには存在しない影響を明白に含み得る実験に基づいては、明確に示されたわけではない。
ここで本発明者らは、特定のバーコード設計を使用するときに、および、コンピューター解析の後に、ランダム塩基分子バーコードを、バーコード付加されたDNA分子の絶対数のデジタル定量のために利用することができることを実験的に示す。様々な応用において変動し得るバーコード付加および/または逆転写のような他の影響を除外することによってバーコード自体の有効性を調査するために、本発明者らはバーコード配列を含むDNA分子を合成し、そして増幅分子についてのシークエンスによってそれを定量した(図1のパネルAの点線の枠参照)。正確なデジタルカウントのために、本発明者らは上記2つの要件を定量的に調査した;(i)所定の分子の数と比較して十分に多いバーコード配列のセットを使用すること(上記の通り)(図1のパネルB)、および(ii)所定の分子の数に比較して十分なシークエンス深度が達成されること(図1のパネルC)。次いで、本発明者らは、分子のインプット数および測定される分子のアウトプット数の両方が、2つの要件を満たすモデル測定システムを通じて一貫していることを実験的に示す。これら2つの要件を満たすために、すなわち、デジタルカウントシステムが機能することを確実にするために、本発明者らは、エラー検出のためにランダムバーコード配列内に固定塩基を導入し、インハウス開発したソフトウエアを使用したバーコード配列クラスタリングを実施し、そして分子バーコードからの情報を利用して、異なってインデックス付加されたサンプル間のクロスコンタミネーションおよびマッピングプロセスにおける目的核酸配列(鋳型)の誤同定を同定および除外した。本結果は、任意の所定のサンプル中のバーコード付加された核酸分子の正確な定量が、適切なバーコード設計(最小の必要とされるバーコード長を含む)および十分なシークエンス深度を通じて、高いダイナミックレンジで(1から104超、潜在的には1015分子まで)達成され得ることを示す。
以下、本実施例では、「ランダム」という用語を用いるが、この用語は、本実施例では、配列を設計することなく配列に莫大な多様性を確保するために実験者が無作為に合成したことを意味する。
[方法]
ライブラリーの調製
ランダム塩基を含む一本鎖DNA鋳型をIntegrated DNA Technologies, Inc., Coralville, IA, USAから購入した(図13参照)。各鋳型の濃度は、提供された仕様シート(Integrated DNA Technologies, Inc.)に記載された吸収係数を用い分光光度計(NanoDrop 1000; Thermo Fisher Scientific Inc., MA, USA)を使用して260nmでの吸収により測定した。鋳型DNAは、0.1%(v/v)TWEEN20(Sigma-Aldrich, St. Louis, MO, USA)溶液中で50μMで-30℃で保存した。増幅用のDNA鋳型の濃度を調節するために、全ての鋳型は、水(蒸留水、脱イオン、滅菌、NIPPON GENE CO., LTD., Toyama, Japan)と0.1%TWEEN20で希釈し、下記の最終コピー数になるようPCRチューブ中で混合した。増幅は、25μLサンプル中で0.3μMの各プライマー(図14参照)を用い、MightyAmp (TAKARA BIO INC., Shiga, Japan)を用いてPCRにより実施した。2本のチューブを50μMの鋳型ストックから独立して調製し、プライマーの一つの中に設計されたインデックスによって区別した(図14参照)。熱サイクル(ProFlex PCR system; Themo Fisher Scientific Inc.)は、以下のように実施した:98℃で2分の1サイクル;98℃で10秒、60℃で10秒、および68℃で1分の4サイクル;98℃で10秒、60℃で2秒、および68℃で1分の19サイクル;68℃で5分の1サイクル;その後4℃でインキュベート。次いで、増幅産物を2回カラム精製した(DNA Clean & ConcentratorTM-5; Zymo Research Corp, CA, USA)し、増幅産物の長さ分布を2100 Bioanalyzer (Agilent Technologies, Inc., CA, USA)を用いて確認した。濃度をreal-time PCR system (7500; Themo Fisher Scientific Inc.)を使用してqPCR kit (KK4602; KAPA Biosystems, Inc., MA, USA)によって決定した。
インデックス付加された2つのサンプル(CGCTCATT: インデックスA(index A), GAGATTCC: インデックスB(index B))を150 cycle kit v3 (Read 1: 100サイクル, Read 2: 50サイクル, Index 1: 8サイクル)を使用しMiSeq sequencer (Illumina, Inc.)を用いてシングルランでシークエンスした。Read 2中の配列はRead 1中の配列の一部なので、Read 2は分析には用いなかった。分析に使用した生のシークエンスデータをGEO database GSE94895に寄託した。
Read 1の配列は、インデックスAおよびBによってソートし、各インデックスに対するfastqファイルをMiSeqを用いて生成した。いくつかの場合では、リードの100%、32%、10%、3.2%、1%、0.32%、および0.1%をランダムにサンプリングした。MiSeqのfastqファイルは、配列長によってフィルターをかけた(短い鋳型に対しては≧34bp長かつ≦39bp長、および長い鋳型に対しては≧90bp長)。目的核酸配列に対するリードのアラインメントは、リファレンスとして11種の鋳型の目的核酸配列を用い(図13の「target」参照)、Bowtie2 v.2.2.927を用いて長い鋳型(LT)および短い鋳型(ST)に対して個別に実施した。基本的に、固有にマップされたリードを次の分析に用いた。バーコード領域は、長い鋳型では5’末端から50bpであり、短い鋳型では5’末端から30bpであり(図13の「barcode」参照)、これらをマップされたリードから抽出した。バーコード領域中の固定塩基(短い鋳型については最大で6塩基であり、長い鋳型については最大で12塩基;図13「barcode」参照)をフィルタリングのために用い、少なくとも1つの固定塩基のミスマッチを有するバーコードを除外した。その後、距離(Distance)=0、1、2、または3でバーコードをクラスタリングするためにインハウスソフトウエアNucleotide Sequence Clusterizerを用いた。クラスターの数は、増幅前の分子の数であると考えられた。インデックスのクロスコンタミネーションを考慮した場合には、クラスタリング前にインデックスAおよびBを伴うリードを統合した。後者において、多重にマップされたリードもその後の分析に用いた。そして、クラスタリングの後で、複数のインデックスを含むクラスターが存在した場合、少数派のリードを除外した。インデックスAのリードとインデックスBのリードの数が同じであった場合には、インデックスAとインデックスBの両方に対して0.5の係数を与えた。同様に、ミスアラインメントも考慮した場合には、インデックスAおよびインデックスBを有する鋳型にマップされた全てのリードをクラスタリング前に統合した。一つのリードが複数の鋳型に対してマップされたときには、各鋳型に対して1/(異なる鋳型の数)の係数を与えた。クラスタリングの後で、複数の目的核酸にマップされたリードおよび/またはインデックスを含むクラスターが存在した場合には、少数派のリードを除外した。異なる鋳型にマップされたリードおよび/またはインデックスの数が同じ場合には、複数にマップされた目的核酸および/またはインデックスのそれぞれに対して、1/(異なる鋳型および/またはインデックスの数)の係数を与えた。各プロセスにおけるリードの数は、図15に示す通りである。
クラスタリングのために、「Nucleotide Sequence Clusterizer」と名付けたインハウスソフトウェアをC言語でコードした。このツールは、各配列の特定されたヌクレオチド位置を用いてDNA配列のクラスタリングを実施する。このツールは、有界単リンククラスタリングを実行する:最初に各配列はそれ自身のクラスターに存在する。任意の2つの配列がD個以下のミスマッチで互いに異なる場合、それらのクラスターを一緒に統合した。ここでDは、設定可能な「距離(Distance)」パラメータである。このプロセスは、これ以上統合するクラスターが存在しなくなるまで継続し、この時点でNucleotide Sequence Clusterizerは、クラスター数と各クラスター内の配列を報告する。Nucleotide Sequence Clusterizerは、要求に応じて入手可能である。
配列番号1の配列 - バーコード配列 - 目的核酸配列 - 配列番号2の配列
となるように設計した。LT1~6のバーコード配列および目的核酸配列を配列番号5~16に示す。
また、図13に示すように、ST1~5の核酸分子を、5’末端から3’末端側に向けて、
配列番号3の配列 - バーコード配列 - 目的核酸配列 - 配列番号4の配列
となるように設計した。ST1~5のバーコード配列および目的核酸配列を配列番号17~26に示す。
インデックスAの増幅用リバースプライマーの配列(図14におけるRv primer):
CAAGCAGAAGACGGCATACGAGATAATGAGCGGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT (配列番号28)
インデックスBの増幅用リバースプライマーの配列(図14におけるRv primer2):
CAAGCAGAAGACGGCATACGAGATGGAATCTCGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT (配列番号29)
なお、上記配列番号28の核酸配列において、下線部がインデックスAの核酸配列に対応し、上記配列番号29の核酸配列において、下線部がインデックスBの核酸配列に対応する。
最大で38個のランダム塩基を使用し、所定の分子数に依存して必要とされるランダム塩基の数(図12参照)により、実験的に測定されたデータセットへの単純線形回帰に基づけば、約1015個の分子が本発明の測定システムで定量され得ることが示唆される。このダイナミックレンジは、市販のディープシークエンサーの現在のキャパシティを遙かに超える優れたものである。これにより、広いダイナミックレンジを備えた定量分析のボトルネックは、もはやバーコードの設計によっては制限されず、むしろシークエンスのスループットによって制限される。
配列番号1:LT1~6の5’領域の塩基配列
配列番号2:LT1~6の3’領域の塩基配列
配列番号3:ST1~5の5’領域の塩基配列
配列番号4:ST1~5の3’領域の塩基配列
配列番号5:LT1のバーコード配列
配列番号6:LT1の目的核酸配列
配列番号7:LT2のバーコード配列
配列番号8:LT2の目的核酸配列
配列番号9:LT3のバーコード配列
配列番号10:LT3の目的核酸配列
配列番号11:LT4のバーコード配列
配列番号12:LT4の目的核酸配列
配列番号13:LT5のバーコード配列
配列番号14:LT5の目的核酸配列
配列番号15:LT6のバーコード配列
配列番号16:LT6の目的核酸配列
配列番号17:ST1のバーコード配列
配列番号18:ST1の目的核酸配列
配列番号19:ST2のバーコード配列
配列番号20:ST2の目的核酸配列
配列番号21:ST3のバーコード配列
配列番号22:ST3の目的核酸配列
配列番号23:ST4のバーコード配列
配列番号24:ST4の目的核酸配列
配列番号25:ST5のバーコード配列
配列番号26:ST5の目的核酸配列
配列番号27:増幅用フォワードプライマーの配列
配列番号28:増幅用リバースプライマーの配列(インデックスA用)
配列番号29:増幅用リバースプライマーの配列(インデックスB用)
Claims (15)
- 核酸の解析方法であって:
(I)分子バーコードとインデックスが付加された複数の目的核酸分子の混合物をシークエンシングに供して配列情報を得る工程と、ここで、分子バーコードは各目的核酸分子に対して1分子毎に異なる固有の配列を有し、
(II)上記(I)で得られた配列情報から特定のインデックスを有する配列若しくはこれと類似する配列、及び/又は特定の分子バーコードを有する配列若しくはこれと類似する配列を選択し、選択された配列により群を作成する工程と、
(III)上記(II)で作成された群において、検出頻度の最も高いインデックスと分子バーコードのペアをインデックスと分子バーコードの正しいペアと決定する工程と、
を含む、方法。 - 少なくとも分子バーコードが付加された目的核酸分子が、工程(I)の前に増幅に供されている、請求項1に記載の方法。
- 工程(II)における特定の分子バーコードを有する配列と類似する配列が、当該特定の分子バーコードを有する配列と所定の塩基数以下のミスマッチ塩基を分子バーコード配列部分に含む配列である、請求項1または2に記載の方法。
- 分子バーコードが、特定の位置に固定塩基を有する、請求項1~3のいずれか1項に記載の方法。
- 工程(II)における特定の分子バーコードを有する配列と類似する配列が、当該特定の位置に当該固定塩基を含むこと、および/または、当該固定塩基の位置が当該特定の位置からシフトしていることに基づいて選択される、請求項4に記載の方法。
- 当該特定の位置に当該固定塩基を含まない分子バーコードを有する配列を解析から除外することをさらに含む、請求項4に記載の方法。
- 工程(III)において、決定された正しいペア以外のインデックスと分子バーコードのペアを、インデックスと分子バーコードのミスペアと決定して除外する、
請求項1~5のいずれか1項に記載の方法。 - 特定の分子バーコードを有する配列若しくはこれと類似する配列により作成された群の数に基づいて、目的核酸分子が由来するサンプルに含まれる目的核酸分子の数を決定する工程をさらに含む、請求項1~7のいずれか1項に記載の方法。
- 核酸の解析方法であって:
(I)特定の位置に固定塩基を有し、1分子毎に異なる固有の配列を有する分子バーコードが付加された複数の核酸分子の混合物をシークエンシングに供して配列情報を得る工程と、
(II)上記(I)で得られた配列情報から特定の分子バーコードを有する配列若しくはこれと類似する配列を選択し、選択された配列により群を作成する工程と、
を含む、方法。 - 工程(II)における特定の分子バーコードを有する配列と類似する配列が、当該特定の分子バーコードを有する配列と所定の塩基数以下のミスマッチ塩基を分子バーコード配列部分に含む配列である、請求項9に記載の方法。
- 工程(II)における特定の分子バーコードを有する配列と類似する配列が、当該特定の位置に当該固定塩基を含むこと、および/または、当該固定塩基の位置が当該特定の位置からシフトしていることに基づいて選択される、請求項9または10に記載の方法。
- 当該特定の位置に当該固定塩基を含まない分子バーコードを有する配列を解析から除外する工程をさらに含む、請求項9または10に記載の方法。
- 特定の分子バーコードを有する配列若しくはこれと類似する配列により作成された群の数に基づいて、目的核酸分子が由来するサンプルに含まれる目的核酸分子の数を決定する工程をさらに含む、請求項9~12のいずれか一項に記載の方法。
- 少なくとも分子バーコードが付加された目的核酸分子が、工程(I)の前に増幅に供されている、請求項9~13のいずれか一項に記載の方法。
- 核酸の解析方法であって:
(I)特定の位置に固定塩基を有し、1分子毎に異なる固有の配列を有する分子バーコードが付加された複数の核酸分子の混合物をシークエンシングに供して配列情報を得る工程と、
(IIa)当該特定の位置に当該固定塩基を含まない分子バーコードを有する配列を解析から除外する工程;
(IIb)工程(I)において、若しくは、工程(I)の後で、当該特定の位置に当該固定塩基を含む配列からなる配列情報を得る工程;または
(IIc)工程(II)として上記(I)で得られた配列情報から特定の分子バーコードを有する配列若しくはこれと類似する配列を選択し、選択された配列により群を作成する工程をさらに含み、かつ工程(II)において、若しくは工程(II)の後で、当該特定の位置に当該固定塩基を含む配列からなる群を得る工程と、
を含む、方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762523857P | 2017-06-23 | 2017-06-23 | |
US62/523,857 | 2017-06-23 | ||
PCT/JP2018/023778 WO2018235938A1 (ja) | 2017-06-23 | 2018-06-22 | 核酸をシークエンシングする方法および解析する方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2018235938A1 JPWO2018235938A1 (ja) | 2020-04-23 |
JP7160349B2 true JP7160349B2 (ja) | 2022-10-25 |
Family
ID=64735948
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019525702A Active JP7160349B2 (ja) | 2017-06-23 | 2018-06-22 | 核酸をシークエンシングする方法および解析する方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7160349B2 (ja) |
WO (1) | WO2018235938A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4159873A4 (en) * | 2020-05-29 | 2024-07-17 | Riken | METHOD FOR PROCESSING A CELL POPULATION AND METHOD FOR ANALYZING GENES INCLUDED IN A CELL POPULATION |
CN113981056B (zh) * | 2021-11-26 | 2024-09-20 | 广州达安基因股份有限公司 | 基于已知标签的内参进行高通量测序的方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2855707B1 (en) * | 2012-05-31 | 2017-07-12 | Board Of Regents, The University Of Texas System | Method for accurate sequencing of dna |
AU2014377537B2 (en) * | 2014-01-16 | 2021-02-25 | Illumina, Inc. | Amplicon preparation and sequencing on solid supports |
EP3137601B1 (en) * | 2014-04-29 | 2020-04-08 | Illumina, Inc. | Multiplexed single cell gene expression analysis using template switch and tagmentation |
US10584331B2 (en) * | 2014-07-02 | 2020-03-10 | Dna Chip Research Inc. | Method for counting number of nucleic acid molecules |
-
2018
- 2018-06-22 JP JP2019525702A patent/JP7160349B2/ja active Active
- 2018-06-22 WO PCT/JP2018/023778 patent/WO2018235938A1/ja active Application Filing
Non-Patent Citations (4)
Title |
---|
Illumina, 次世代シーケンサーへようこそ!, 2012, p.1-8 |
MATSUMOTO Y. et al.,A framework for digital RNA sequencing (dRNA-Seq) and its application for gene expression profiling,European Journal of Immunology, 2016, Vol. 46, Supplement 1, pp. 1162. Abstract Number: 1203 |
城口克之,ゲノムワイドRNA高精度絶対計数法の標準化,科研費, 研究成果報告書, 課題番号:26640119, 更新日:2016-06-03 |
松本悠希ほか,デジタルRNA-Seqのための枠組み:ランダムバーコードによる核酸分子の正確なデジタル定量およびその評価基,第38回日本分子生物学会年会、第88回日本生化学会大会 合同大会要旨集, 2015, CD-ROM, [3LBA067] |
Also Published As
Publication number | Publication date |
---|---|
WO2018235938A1 (ja) | 2018-12-27 |
JPWO2018235938A1 (ja) | 2020-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12006532B2 (en) | Methods for targeted nucleic acid sequence enrichment with applications to error corrected nucleic acid sequencing | |
Gołębiewski et al. | Generating amplicon reads for microbial community assessment with next‐generation sequencing | |
CN106715711B (zh) | 确定探针序列的方法和基因组结构变异的检测方法 | |
JP7497879B2 (ja) | 核酸混合物および混合細胞集団を解析するための方法および試薬ならびに関連用途 | |
JP7541363B2 (ja) | プーリングを介した多数の試料の効率的な遺伝子型決定のための方法および試薬 | |
EP3329014A2 (en) | Systems and methods for genetic analysis | |
JP2018524993A (ja) | 染色体異常を検出するための核酸及び方法 | |
Zeng et al. | Technical considerations for functional sequencing assays | |
CN110878345A (zh) | 通过分子计数提高等位基因调用的置信度 | |
WO2012042374A2 (en) | Method of determining number or concentration of molecules | |
CN108138228B (zh) | 用于下一代测序的高分子量dna样品追踪标签 | |
CN107002120B (zh) | 测序方法 | |
Ogawa et al. | The efficacy and further functional advantages of random-base molecular barcodes for absolute and digital quantification of nucleic acid molecules | |
Brozynska et al. | Direct chloroplast sequencing: comparison of sequencing platforms and analysis tools for whole chloroplast barcoding | |
Owens et al. | A novel post hoc method for detecting index switching finds no evidence for increased switching on the Illumina HiSeq X | |
JP7160349B2 (ja) | 核酸をシークエンシングする方法および解析する方法 | |
WO2017027975A1 (en) | Method to amplify dna sequences from degraded sources | |
der Valk et al. | Low rate of index hopping on the Illumina HiSeq X platform | |
WO2020219751A1 (en) | Method for detecting specific nucleic acids in samples | |
Reed et al. | Identifying individual DNA species in a complex mixture by precisely measuring the spacing between nicking restriction enzymes with atomic force microscope | |
Kim et al. | A Universal Analysis Pipeline for Hybrid Capture-Based Targeted Sequencing Data with Unique Molecular Indexes | |
US11001880B2 (en) | Development of SNP islands and application of SNP islands in genomic analysis | |
CN111433374A (zh) | 用于检测串联重复区的方法、系统和计算机可读介质 | |
Zhao et al. | Optimized semi-specific PCR amplification using arbitrarily degenerate primer for genome-wide genotyping and its application in peanut genetic diversity study | |
Brown et al. | RNA sequencing with next-generation sequencing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210622 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220412 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220603 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220913 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221005 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7160349 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |