JP2023521687A - 浮動バーコード - Google Patents

浮動バーコード Download PDF

Info

Publication number
JP2023521687A
JP2023521687A JP2022560907A JP2022560907A JP2023521687A JP 2023521687 A JP2023521687 A JP 2023521687A JP 2022560907 A JP2022560907 A JP 2022560907A JP 2022560907 A JP2022560907 A JP 2022560907A JP 2023521687 A JP2023521687 A JP 2023521687A
Authority
JP
Japan
Prior art keywords
sample
molecular
index
index position
combination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022560907A
Other languages
English (en)
Other versions
JPWO2021207267A5 (ja
Inventor
ジョン エフ. トンプソン,
Original Assignee
パーソナル ゲノム ダイアグノスティクス インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パーソナル ゲノム ダイアグノスティクス インコーポレイテッド filed Critical パーソナル ゲノム ダイアグノスティクス インコーポレイテッド
Publication of JP2023521687A publication Critical patent/JP2023521687A/ja
Publication of JPWO2021207267A5 publication Critical patent/JPWO2021207267A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1065Preparation or screening of tagged libraries, e.g. tagged microorganisms by STM-mutagenesis, tagged polynucleotides, gene tags
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B20/00Methods specially adapted for identifying library members
    • C40B20/04Identifying library members by means of a tag, label, or other readable or detectable entity associated with the library members, e.g. decoding processes
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2525/00Reactions involving modified oligonucleotides, nucleic acids, or nucleotides
    • C12Q2525/10Modifications characterised by
    • C12Q2525/161Modifications characterised by incorporating target specific and non-target specific sites
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2525/00Reactions involving modified oligonucleotides, nucleic acids, or nucleotides
    • C12Q2525/10Modifications characterised by
    • C12Q2525/185Modifications characterised by incorporating bases where the precise position of the bases in the nucleic acid string is important
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2535/00Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
    • C12Q2535/119Double strand sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2563/00Nucleic acid detection characterized by the use of physical, structural and functional properties
    • C12Q2563/179Nucleic acid detection characterized by the use of physical, structural and functional properties the label being a nucleic acid
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2565/00Nucleic acid analysis characterised by mode or means of detection
    • C12Q2565/50Detection characterised by immobilisation to a surface
    • C12Q2565/514Detection characterised by immobilisation to a surface characterised by the use of the arrayed oligonucleotides as identifier tags, e.g. universal addressable array, anti-tag or tag complement array

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Organic Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Biochemistry (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Medicinal Chemistry (AREA)
  • General Chemical & Material Sciences (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Plant Pathology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Electrochromic Elements, Electrophoresis, Or Variable Reflection Or Absorption Elements (AREA)
  • Luminescent Compositions (AREA)
  • Bidet-Like Cleaning Device And Other Flush Toilet Accessories (AREA)

Abstract

一実施形態では、本発明は、試料中の核酸分子を標識するためのシステムであって、複数のバーコードを含むオリゴヌクレオチドのセットを含み、各バーコードが、(i)1つまたは複数の特定のヌクレオチドを含む所定数の試料インデックス位置を含む試料バーコードであって、試料インデックス位置の場所が試料間で変動する、試料バーコードと、(ii)試料インデックス位置のヌクレオチドとは異なるヌクレオチドを含む分子インデックス位置を含む分子バーコードとを含む、連続した塩基のストレッチを含み、試料インデックス位置が分子インデックス位置の間に散在している、システムを提供する。

Description

関連出願への相互参照
本願は、2020年4月7日に出願した米国特許仮出願第63/006,556号に基づく優先権の利益を米国特許法第119条(e)項に基づいて請求するものである。この先行出願の開示は、本願の開示の一部と見なされ、本願の開示に参考として援用される。
配列表の組み込み
添付の配列表内の物質は、これにより参照により本願に組み込まれる。PGDX3120-1WO_SL.txtという名の、添付の配列表のテキストファイルは、2021年3月31日に作成したものであり、11kbである。このファイルには、Windows(登録商標) OSを使用するコンピュータでMicrosoft Wordを使用してアクセスすることができる。
本発明の発明分野の背景
本発明は、一般には、核酸配列に、より具体的には、核酸分子を標識および解析するための、バーコードと呼ばれる配列に関する。
背景情報
バーコードは、シークエンシングされるDNAまたはRNA分子などの核酸に、それらの供給源を特定するためのタグを付けるために、多くの場合、使用される。バーコードは、DNAまたはRNA分子の試料、細胞または他の起源を示すために使用され得る。バーコードは、分子がどこから得られたのか、および特定の分子が増幅のためにプール内で何度もシークエンシングされた可能性があるかどうかについての情報を提供することができる。多くの場合、試料および分子の起源などの多数の情報が、所望される。確実に正しい配列を有し、供給源の誤った割り当てを確実に回避する、十分な数のバーコードおよび/またはバーコードのリードを生成することは、供給源が複雑であるほど難題である。具体的に言うと、バーコードの不十分な数、および複雑なバーコードにおける配列エラーの修正の困難が、例えば、プールされた試料からの核酸などの、核酸分子のゲノム解析を制限する。それ故、バーコード配列の不確実性の結果として生じる配列リードの正しくない割り当ておよび喪失を最小限に抑えるような核酸の多重ゲノム解析および改善されたエラー修正を可能にする、核酸をバーコーディングする新規システムおよび方法が必要とされている。
発明の概要
本発明は、所定数のインデックス位置を有するインデックス「バーコード」を含む、核酸分子を標識および解析するためのシステムおよびオリゴヌクレオチドのセットに関する。核酸分子を標識および解析するための方法も提供される。
一実施形態では、本発明は、試料中の核酸分子を標識するためのシステムであって、複数のバーコードを含むオリゴヌクレオチドのセットを含み、各バーコードが、(i)1つまたは複数の特定のヌクレオチドを含む所定数の試料インデックス位置を含む試料バーコードであって、試料インデックス位置の場所が試料間で変動する、試料バーコードと、(ii)試料インデックス位置のヌクレオチドとは異なるヌクレオチドを含む分子インデックス位置を含む分子バーコードとを含む、連続した塩基のストレッチを含み、試料インデックス位置が分子インデックス位置の間に散在している、システムを提供する。一態様では、所定数の試料バーコード位置は、本明細書で提供される核酸を標識するためのシステム内の異なる試料バーコード間で変動し得る。一部の態様では、バーコードは、約10~約35のヌクレオチドを含む。他の態様では、バーコードは、約12~約25のヌクレオチドを含む。別の態様では、試料バーコードは、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19もしくは20カ所の試料インデックス位置、またはこれらの組合せを含む。一部の態様では、試料バーコードは、約4~約12カ所の試料インデックス位置を含む。他の態様では、分子バーコードは、約5~約25カ所の分子インデックス位置を含む。様々な態様では、分子バーコードは、約5~約15カ所の分子インデックス位置を含む。一態様では、試料インデックス位置ヌクレオチドおよび分子インデックス位置ヌクレオチドは、以下から選択される:(A)試料インデックス位置ヌクレオチドが、Aであり、分子インデックス位置ヌクレオチドが、C、G、T、もしくはこれらの組合せであるか;(B)試料インデックス位置ヌクレオチドが、Tであり、分子インデックス位置ヌクレオチドが、C、G、A、もしくはこれらの組合せであるか;(C)試料インデックス位置ヌクレオチドが、Cであり、分子インデックス位置ヌクレオチドが、G、A、T、もしくはこれらの組合せであるか;(D)試料インデックス位置ヌクレオチドが、Gであり、分子インデックス位置ヌクレオチドが、C、A、T、もしくはこれらの組合せであるか;(E)試料インデックス位置ヌクレオチドが、A、T、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、C、G、もしくはこれらの組合せであるか;(F)試料インデックス位置ヌクレオチドが、A、C、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、T、G、もしくはこれらの組合せであるか;(G)試料インデックス位置ヌクレオチドが、A、G、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、T、C、もしくはこれらの組合せであるか;(H)試料インデックス位置ヌクレオチドが、T、C、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、A、G、もしくはこれらの組合せであるか;(I)試料インデックス位置ヌクレオチドが、T、G、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、A、C、もしくはこれらの組合せであるか;または(J)試料インデックス位置ヌクレオチドが、G、C、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、A、T、もしくはこれらの組合せである。一部の態様では、各バーコードは、インデックス位置を含む1つまたは複数の追加のインデックスバーコードを含む。多くの態様では、1つまたは複数の追加のインデックスバーコードは、細胞バーコードであるか、非修復末端のDNA長の尺度を提供するバーコードであるか、または細胞バーコードと、非修復末端のDNA長の尺度を提供するバーコードの両方である。他の態様では、オリゴヌクレオチドのセット内の各オリゴヌクレオチドは、ハイブリダイゼーションのための部位、配列プライマー結合のための部位、増幅のための部位、またはこれらの任意の組合せを含む非バーコード位置をさらに含む。
別の実施形態では、本発明は、複数のバーコードを含む試料中の核酸分子を標識するためのオリゴヌクレオチドのセットであって、各バーコードが、(i)1つまたは複数の特定のヌクレオチドを含む所定数の試料インデックス位置を含む試料バーコードであって、試料インデックス位置の場所が試料間で変動する、試料バーコードと、(ii)試料インデックス位置のヌクレオチドと異なるヌクレオチドを含む分子インデックス位置を含む分子バーコードとを含み、試料インデックス位置および分子インデックス位置が、連続した塩基のストレッチ内に散在している、オリゴヌクレオチドのセットを提供する。一態様では、所定数の試料バーコード位置は、異なる試料バーコード間で変動する。一部の態様では、バーコードは、約10~約35のヌクレオチドを含む。他の態様では、バーコードは、約12~約25のヌクレオチドを含む。別の態様では、試料バーコードは、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19もしくは20カ所の試料インデックス位置、またはこれらの組合せを含む。一部の態様では、試料バーコードは、約4~約12カ所の試料インデックス位置を含む。一態様では、分子バーコードは、約5~約25カ所の分子インデックス位置を含む。一部の態様では、分子バーコードは、約5~約15カ所の分子インデックス位置を含む。他の態様では、試料インデックス位置ヌクレオチドおよび分子インデックス位置ヌクレオチドは、以下から選択される:(A)試料インデックス位置ヌクレオチドが、Aであり、分子インデックス位置ヌクレオチドが、C、G、T、もしくはこれらの組合せであるか;(B)試料インデックス位置ヌクレオチドが、Tであり、分子インデックス位置ヌクレオチドが、C、G、A、もしくはこれらの組合せであるか;(C)試料インデックス位置ヌクレオチドが、Cであり、分子インデックス位置ヌクレオチドが、G、A、T、もしくはこれらの組合せであるか;(D)試料インデックス位置ヌクレオチドが、Gであり、分子インデックス位置ヌクレオチドが、C、A、T、もしくはこれらの組合せであるか;(E)試料インデックス位置ヌクレオチドが、A、T、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、C、G、もしくはこれらの組合せであるか;(F)試料インデックス位置ヌクレオチドが、A、C、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、T、G、もしくはこれらの組合せであるか;(G)試料インデックス位置ヌクレオチドが、A、G、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、T、C、もしくはこれらの組合せであるか;(H)試料インデックス位置ヌクレオチドが、T、C、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、A、G、もしくはこれらの組合せであるか;(I)試料インデックス位置ヌクレオチドが、T、G、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、A、C、もしくはこれらの組合せであるか;または(J)試料インデックス位置ヌクレオチドが、G、C、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、A、T、もしくはこれらの組合せである。一部の態様では、各バーコードは、インデックス位置を含む1つまたは複数の追加のインデックスバーコードを含む。多くの態様では、1つまたは複数の追加のインデックスバーコードは、細胞バーコードであるか、非修復末端のDNA長の尺度を提供するバーコードであるか、または細胞バーコードと、非修復末端のDNA長の尺度を提供するバーコードの両方である。一部の態様では、オリゴヌクレオチドのセット内の各オリゴヌクレオチドは、ハイブリダイゼーションのための部位、配列プライマー結合のための部位、増幅のための部位、またはこれらの任意の組合せを含む非バーコード位置をさらに含む。
さらなる実施形態では、本発明は、試料中の核酸分子の配列を解析するための方法であって、(a)複数のオリゴヌクレオチドを核酸分子に付着させるステップであって、各オリゴヌクレオチドが、(i)1つまたは複数の特定のヌクレオチドを含む所定数の試料インデックス位置を含む試料バーコードであって、試料インデックス位置の場所が試料間で変動する、試料バーコード、および(ii)試料インデックス位置のヌクレオチドとは異なるヌクレオチドを含む分子インデックス位置を含む分子バーコードを含むバーコードを含み、試料インデックス位置および分子インデックス位置が、連続した塩基のストレッチ内に散在している、ステップ;および(b)核酸分子をシークエンシングするステップであって、配列リードがバーコード配列を含む、ステップを含む方法を提供する。一態様では、本明細書で提供される試料中の核酸分子の配列を解析するための方法は、同じ試料バーコードを含むオリゴヌクレオチドを、試料中の核酸分子の各末端に付着させるステップをさらに含むことができる。別の態様では、所定数の試料バーコード位置は、異なる試料バーコード間で変動する。一部の態様では、バーコードは、約10~約35のヌクレオチドを含む。他の態様では、バーコードは、約12~約25のヌクレオチドを含む。一部の態様では、試料バーコードは、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19もしくは20カ所の試料インデックス位置、またはこれらの組合せを含む。他の態様では、試料バーコードは、約4~約12カ所の試料インデックス位置を含む。一態様では、分子バーコードは、約5~約25カ所の分子インデックス位置を含む。一部の態様では、分子バーコードは、約5~約15カ所の分子インデックス位置を含む。一態様では、試料インデックス位置ヌクレオチドおよび分子インデックス位置ヌクレオチドは、以下から選択される:(A)試料インデックス位置ヌクレオチドが、Aであり、分子インデックス位置ヌクレオチドが、C、G、T、もしくはこれらの組合せであるか;(B)試料インデックス位置ヌクレオチドが、Tであり、分子インデックス位置ヌクレオチドが、C、G、A、もしくはこれらの組合せであるか;(C)試料インデックス位置ヌクレオチドが、Cであり、分子インデックス位置ヌクレオチドが、G、A、T、もしくはこれらの組合せであるか;(D)試料インデックス位置ヌクレオチドが、Gであり、分子インデックス位置ヌクレオチドが、C、A、T、もしくはこれらの組合せであるか;(E)試料インデックス位置ヌクレオチドが、A、T、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、C、G、もしくはこれらの組合せであるか;(F)試料インデックス位置ヌクレオチドが、A、C、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、T、G、もしくはこれらの組合せであるか;(G)試料インデックス位置ヌクレオチドが、A、G、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、T、C、もしくはこれらの組合せであるか;(H)試料インデックス位置ヌクレオチドが、T、C、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、A、G、もしくはこれらの組合せであるか;(I)試料インデックス位置ヌクレオチドが、T、G、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、A、C、もしくはこれらの組合せであるか;または(J)試料インデックス位置ヌクレオチドが、G、C、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、A、T、もしくはこれらの組合せである。他の態様では、各バーコードは、インデックス位置を含む1つまたは複数の追加のインデックスバーコードを含む。一部の態様では、1つまたは複数の追加のインデックスバーコードは、細胞バーコードであるか、非修復末端のDNA長の尺度を提供するバーコードであるか、または細胞バーコードと、非修復末端のDNA長の尺度を提供するバーコードの両方である。一部の態様では、本明細書で提供される試料中の核酸分子の配列を解析するための方法は、配列リードを、試料インデックス位置の場所に基づいて試料ファミリーに割り当てるステップをさらに含む。他の態様では、本明細書で提供される試料中の核酸分子の配列を解析するための方法は、配列リードを、分子インデックス位置の場所および各分子インデック位置のヌクレオチドに基づいて分子ファミリーに割り当てるステップをさらに含む。一部の態様では、本明細書で提供される試料中の核酸分子の配列を解析するための方法は、配列リードにおける試料インデックス位置の数および場所を試料インデックス位置の所定数および場所と比較することによりシークエンシングエラーを修正するステップをさらに含む。他の態様では、本明細書で提供される試料中の核酸分子の配列を解析するための方法は、配列リードの両末端の試料バーコードを比較することによりシークエンシングエラーを修正するステップをさらに含む。一部の態様では、本明細書で提供される試料中の核酸分子の配列を解析するための方法は、配列リードの各末端の非同一試料バーコードを許容される試料バーコードと比較するための規則を適用するステップをさらに含む。他の態様では、本明細書で提供される試料中の核酸分子の配列を解析するための方法は、(1)バーコード内のエラーを修正するための、(2)核酸分子の各末端のバーコード間のエラーを修正するための、(3)配列リードを試料ファミリーに多重分離するための、(4)配列リードを分子ファミリーに割り当てるための、またはこれらの任意の組合せのための、1つまたは複数の規則を適用するステップをさらに含む。一部の態様では、各オリゴヌクレオチドは、ハイブリダイゼーションのための部位、配列プライマー結合のための部位、増幅のための部位、またはこれらの任意の組合せを含む非バーコード位置をさらに含む。他の態様では、本明細書で提供される試料中の核酸分子の配列を解析するための方法は、配列リードの誤った割り当てを高感度に検出するための、各オリゴヌクレオチドが試験される異なるゲノムの使用をさらに含む。一部の態様では、本明細書で提供される試料中の核酸分子の配列を解析するための方法は、多重分離せずに核酸配列データを格納するステップをさらに含む。
一実施形態では、本発明は、試料中の核酸分子を標識するための方法であって、複数のオリゴヌクレオチドを、バーコードを含む核酸分子に付着させるステップを含み、各バーコードが、(i)1つまたは複数の特定のヌクレオチドを含む所定数の試料インデックス位置を含む試料バーコードであって、試料インデックス位置の場所が試料間で変動する、試料バーコードと、(ii)試料インデックス位置のヌクレオチドと異なるヌクレオチドを含む分子インデックス位置を含む分子バーコードとを含み、試料インデックス位置および分子インデックス位置が、連続した塩基のストレッチ内に散在している、方法を提供する。一態様では、本明細書で提供される試料中の核酸分子を標識するための方法は、同じ試料バーコードを含むオリゴヌクレオチドを、核酸分子の各末端に付着させるステップをさらに含むことができる。一部の態様では、所定数の試料バーコード位置は、異なる試料バーコード間で変動する。他の態様では、バーコードは、約10~約35のヌクレオチドを含む。様々な態様では、バーコードは、約12~約25のヌクレオチドを含む。一部の態様では、試料バーコードは、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19または20カ所の試料インデックス位置を含む。他の態様では、試料バーコードは、約4~約12カ所の試料インデックス位置を含む。様々な態様では、分子バーコードは、約5~約25カ所の分子インデックス位置を含む。一部の態様では、分子バーコードは、約5~約15カ所の分子インデックス位置を含む。一態様では、試料インデックス位置ヌクレオチドおよび分子インデックス位置ヌクレオチドは、以下から選択される:(A)試料インデックス位置ヌクレオチドが、Aであり、分子インデックス位置ヌクレオチドが、C、G、T、もしくはこれらの組合せであるか;(B)試料インデックス位置ヌクレオチドが、Tであり、分子インデックス位置ヌクレオチドが、C、G、A、もしくはこれらの組合せであるか;(C)試料インデックス位置ヌクレオチドが、Cであり、分子インデックス位置ヌクレオチドが、G、A、T、もしくはこれらの組合せであるか;(D)試料インデックス位置ヌクレオチドが、Gであり、分子インデックス位置ヌクレオチドが、C、A、T、もしくはこれらの組合せであるか;(E)試料インデックス位置ヌクレオチドが、A、T、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、C、G、もしくはこれらの組合せであるか;(F)試料インデックス位置ヌクレオチドが、A、C、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、T、G、もしくはこれらの組合せであるか;(G)試料インデックス位置ヌクレオチドが、A、G、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、T、C、もしくはこれらの組合せであるか;(H)試料インデックス位置ヌクレオチドが、T、C、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、A、G、もしくはこれらの組合せであるか;(I)試料インデックス位置ヌクレオチドが、T、G、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、A、C、もしくはこれらの組合せであるか;または(J)試料インデックス位置ヌクレオチドが、G、C、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、A、T、もしくはこれらの組合せである。一部の態様では、各バーコードは、インデックス位置を含む1つまたは複数の追加のインデックスバーコードを含む。様々な態様では、1つまたは複数の追加のバーコードは、細胞バーコードであるか、非修復末端のDNA長の尺度を提供するバーコードであるか、または細胞バーコードと、非修復末端のDNA長の尺度を提供するバーコードの両方である。一部の態様では、各オリゴヌクレオチドは、ハイブリダイゼーションのための部位、配列プライマー結合のための部位、増幅のための部位、またはこれらの任意の組合せを含む非バーコード位置をさらに含む。他の態様では、本明細書で提供される試料中の核酸分子を標識するための方法は、標識された核酸分子をシークエンシングするステップをさらに含むことができる。一部の態様では、標識された核酸分子をシークエンシングするステップは、多重分離せずに核酸配列データを格納することをさらに含む。様々な態様では、多重分離せずに核酸配列データを格納することにより、多重分離キーの非存在下での配列データの使用が防止され、データの不正使用が防止される。
別の実施形態では、本発明は、誤った配列リードを特定するための方法であって、(a)複数のオリゴヌクレオチドを試料の核酸分子に付着させるステップであって、各オリゴヌクレオチドが、(i)1つまたは複数の特定のヌクレオチドを含む所定数の試料インデックス位置を含む試料バーコードであって、試料インデックス位置の場所が、試料間で変動し、同じ試料バーコードが、試料中の核酸分子の各末端に付着されている、試料バーコード、および(ii)試料インデックス位置のヌクレオチドとは異なるヌクレオチドを含む分子インデックス位置を含む分子バーコードを含むバーコードを含み、試料インデックス位置および分子インデックス位置が、連続した塩基のストレッチ内に散在している、ステップ;および(b)核酸分子をシークエンシングするステップであって、配列リードがバーコード配列を含む、ステップを含み、それによって、誤った配列リードを特定する方法を提供する。
一態様では、誤った配列リードを特定することは、一致しない試料バーコードを有する核酸分子を特定することを含む。一部の態様では、シークエンシングエラーは、配列リードの両末端の試料バーコードを比較することにより、さらに修正される。他の態様では、一致しない試料バーコードを有する核酸分子は、さらに、配列リードからおよび/または分子ファミリーから除去される。別の態様では、一致しない試料バーコードを有する核酸分子を特定することは、ミスプライミングされた核酸分子を特定することを含む。一部の態様では、ミスプライミングされた核酸分子は、適切なバーコードで修正され、配列品質を向上させるために使用される。他の態様では、修正されたバーコードを有する核酸分子は、修正されたリードファミリーに割り当てられる。様々な態様では、修正されたリードファミリーは、明確に異なるカバレッジを正確に決定するために使用される。一部の態様では、明確に異なるカバレッジの決定は、核酸分子のライブラリーを評価するために使用される。一態様では、方法は、配列リードを、分子インデックス位置の場所および各分子インデック位置のヌクレオチドに基づいて分子ファミリーに割り当てるステップをさらに含む。一部の態様では、誤った配列リードを特定することは、複数の分子ファミリーに割り当てられた核酸分子を特定することを含む。他の態様では、複数の分子ファミリーに割り当てられた核酸分子は、配列リードからおよび/または分子ファミリーからさらに除去される。
図1は、3つの浮動DNAバーコードに対する旧来の製品バーコードの比較を示す。
図2Aは、7/14基準を使用するデジタル形式での16の試料バーコードを示す。
図2Bは、デジタル形式からヌクレオチド形式への変換、7/14基準を示す。
図2Cは、単一試料バーコードの縮重配列から実際の配列への変換、7/20bp形式を示す。
図3Aは、標準バーコードを示す。
図3Bは、浮動バーコードを示す。
図4は、標準バーコードでのアーチファクトのキメラ分子の生成を示す。
図5は、ヒト配列リードの標準バーコード(左側)および浮動バーコード(右側)へのアラインメントを示す。
図6は、ライゲーションステップにおけるアダプターの存在量に基づくミスプライミングのレベルを示す。
図7は、アダプター濃度に基づくミスプライミング率の比i7:i5を示す。
図8は、分子バーコード配列反復の頻度を示す。
発明の詳細な説明
本発明は、配列ではなくヌクレオチドの場所に基づくバーコードを使用して核酸分子および配列リードを特定し、グループ化することができるという発見に基づく。
配列に基づくのではなくヌクレオチドの場所に基づくバーコードは、例えば、1つのインデックスのために比較的少数のバーコードおよび別のインデックスのために非常に多数のバーコードを、またはバーコードごとに2つもしくはそれより多くのインデックスのために多数のバーコードを生成することができるという柔軟性を可能にする。加えて、所定のインデックス位置を有するバーコードによって、エラー修正方法の改善が可能となる。
核酸を標識するためのシステムおよびオリゴヌクレオチドのセット
一実施形態では、本発明は、試料中の核酸分子を標識するためのシステムであって、複数のバーコードを含むオリゴヌクレオチドのセットを含み、各バーコードが、(i)1つまたは複数の特定のヌクレオチドを含む所定数の試料インデックス位置を含む試料バーコードであって、試料インデックス位置の場所が試料間で変動する、試料バーコードと、(ii)試料インデックス位置のヌクレオチドとは異なるヌクレオチドを含む分子インデックス位置を含む分子バーコードとを含む、連続した塩基のストレッチを含み、分子インデックス位置が試料インデックス位置の間に散在している、システムを提供する。
試料中の核酸分子を標識するためのシステムは、オリゴヌクレオチドのセットを含む。本明細書で使用される場合、「オリゴヌクレオチドのセット」は、一緒に使用することができるオリゴヌクレオチドのグループまたは集まりを意味する。したがって、本明細書で提供される試料中の核酸分子を標識するためのシステム内のオリゴヌクレオチドのセットを、核酸を標識するために一緒に使用することができる。オリゴヌクレオチドのセットのサブセットを、試料中の核酸分子を標識するためのシステム内で使用することもできる。本明細書で使用される場合、「オリゴヌクレオチドのサブセット」は、試料中の核酸を標識するためのオリゴヌクレオチドのセット内のオリゴヌクレオチドのほんの一部分または一部を指す。したがって、オリゴヌクレオチドのセットに含まれるオリゴヌクレオチドの全てまたは一部を、試料中の核酸を標識するために使用することができる。
本明細書で使用される場合、「核酸分子を標識すること」は、例えば、検出、特定、解析または精製のために核酸分子を修飾することを意味する。一部の態様では、核酸は、1つまたは複数のオリゴヌクレオチドを核酸分子に付着させることにより標識される。オリゴヌクレオチドを核酸分子の末端に付着させることができる。一部の態様では、オリゴヌクレオチドは、核酸分子の両末端に付着される。他の態様では、核酸分子の末端に付着されるオリゴヌクレオチドは、配列が異なる。一部の態様では、核酸分子の末端に付着されるオリゴヌクレオチドの試料インデックスは、同一である。他の態様では、核酸分子の末端に付着されるオリゴヌクレオチドの分子インデックスは、異なる。
例えば、DNA、RNAおよび核酸断片を含む、核酸分子を、標識することができる。標識され得るDNA源としては、例えば、染色体DNA、プラスミドDNA、cDNA、無細胞DNA(cfDNA)、血中循環腫瘍DNA(ctDNA)、およびこれらの任意の断片が挙げられる。標識された核酸を、例えば、核酸ライブラリーの調製に使用することができる。一部の態様では、ライブラリーは、ゲノムライブラリーである。標識された核酸分子を含むライブラリーは、例えば、本明細書で提供されるオリゴヌクレオチドのセットまたはサブセットを末端修復、Aテーリング、およびアダプターライゲーションによって核酸分子に付着させることにより、調製することができる。一部の態様では、末端修復およびAテーリングは割愛され、特定の個々のインデックスまたはインデックスのセットと会合している可変末端が、例えばDNA分子などの核酸分子の本来の末端を決定するために含められる。標識された核酸分子、および標識された核酸分子のライブラリーを、例えば、シークエンシングにより解析することができる。任意の好適なシークエンシング方法を使用して、標識された核酸分子を解析することができる。
試料
本明細書で提供される核酸およびオリゴヌクレオチドのセットを標識するためのシステムを使用して、試料中の核酸を標識することができる。標識され得る核酸は、任意の試料または任意のタイプの試料中に存在し得る。一部の態様では、試料は、血液、唾液、血漿、血清、尿、または他の生体液である。さらなる例示的な生体液としては、漿膜液、リンパ液、脳脊髄液、粘膜からの分泌物、膣液、腹水(ascites fluid)、胸膜液、心膜液、腹水(peritoneal fluid)、および腹水(abdominal fluid)が挙げられる。他の態様では、試料は、組織試料である。一部の態様では、試料は、細胞試料または単一細胞である。新鮮試料または保管試料を使用することができ、そのような試料には、例えば、凍結保管試料、ホルマリン固定パラフィン包埋(FFPE)試料、および任意の他の方法により保存された試料が含まれる。
試料は、正常なまたは健康な対象からのものであり得る。試料はまた、疾患または障害を有する対象からのものであり得る。任意の疾患または障害を有する対象からの試料中の核酸を、本明細書で提供されるシステムおよびオリゴヌクレオチドのセットを使用して標識することができる。一部の態様では、疾患または障害は、がんである。一部の態様では、試料は、がんを有する対象からの体液試料である。他の態様では、試料は、がんを有する対象からの組織試料である。一部の態様では、試料は、がんを有する対象からの細胞試料である。他の態様では、試料は、がん試料である。がん試料は、固形腫瘍または液性腫瘍からの試料であり得る。がんは、腎臓がん、腎がん、膀胱がん、前立腺がん、子宮がん、乳がん、子宮頸がん、卵巣がん、肺がん、結腸がん、直腸がん、口腔がん、咽頭がん、膵臓がん、甲状腺がん、黒色腫、皮膚がん、頭頸部がん、脳がん、造血器がん、白血病、リンパ腫、骨がん、筋肉のがん、肉腫、横紋筋肉腫などであり得る。
試料中の核酸を標識することができる。核酸を標識する前に試料から抽出、単離または精製することもできる。任意の好適な抽出、単離または精製方法を使用することができる。例示的な方法としては、フェノール-クロロホルム抽出、チオシアン酸グアニジン-フェノール-クロロホルム抽出、ゲル精製、ならびにカラムおよびビーズの使用が挙げられる。市販のキットを核酸の抽出、単離または精製に使用することができる。
バーコード
本明細書で提供される試料中の核酸分子を標識するためのオリゴヌクレオチドのセットは、各バーコードが、(i)1つまたは複数の特定のヌクレオチドを含む所定数の試料インデックス位置を含む試料バーコードであって、試料インデックス位置の場所が試料間で変動する、試料バーコードと、(ii)試料インデックス位置のヌクレオチドと異なるヌクレオチドを含む分子インデックス位置を含む分子バーコードとを含み、試料インデックス位置および分子インデックス位置が、連続した塩基のストレッチ内に散在している、複数のバーコードを含むことができる。
バーコードインデックス位置は、連続した塩基のストレッチを含むことができる。本明細書で使用される場合、「連続した塩基」は、塩基が配列内で互いに隣接していることを意味する。一部の態様では、連続した塩基のストレッチは、バーコードまたはインデックス位置、および非バーコードまたは非インデックス位置を含むことができる。他の態様では、連続した塩基のストレッチは、バーコードまたはインデックス位置を含むことができるが、非バーコード位置も非インデックス位置も含むことができない。一部の態様では、所定数の試料バーコード位置は、異なる試料バーコード間で変動する。
バーコードは、任意の数のヌクレオチドを含むことができる。例として、バーコードは、約10~約35のヌクレオチドを含むことができる。別の例として、バーコードは、約12~約25のヌクレオチドを含むことができる。さらに別の例として、バーコードは、約5、約6、約7、約8、約9、約10、約11、約12、約13、約14、約15、約16、約17、約18、約19、約20、約21、約22、約23、約24、約25、約26、約27、約28、約29、約30、約31、約32、約33、約34、約35、約36、約37、約38、約39、約40、またはそれより多くのヌクレオチドを含むことができる。さらに別の例として、バーコードは、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9、少なくとも10、少なくとも11、少なくとも12、少なくとも13、少なくとも14、少なくとも15、少なくとも16、少なくとも17、少なくとも18、少なくとも19、少なくとも20、少なくとも21、少なくとも22、少なくとも23、少なくとも24、少なくとも25、少なくとも26、少なくとも27、少なくとも28、少なくとも29、少なくとも30、少なくとも31、少なくとも32、少なくとも33、少なくとも34、少なくとも35、少なくとも36、少なくとも37、少なくとも38、少なくとも39、少なくとも40、またはそれより多くのヌクレオチドを含むことができる。
インデックス位置
本明細書で提供されるバーコードは、1つまたは複数のインデックス位置を含むことができる。例示的なインデックス位置としては、試料インデックス位置、分子インデックス位置、DNA末端インデックス位置、および細胞インデックス位置が挙げられる。例えば、バーコードは、試料インデックス位置、DNA末端インデックス位置、および分子インデックス位置を含むことができる。バーコードは、試料インデックス位置、分子インデックス位置、細胞インデックス位置、DNA末端インデックス位置、またはこれらの任意の組合せも含むことができる。
本明細書で使用される場合、用語「インデックス位置」は、核酸分子の起源または供給源を特定するために使用され得るバーコード内のヌクレオチド位置を意味する。したがって、インデックス位置は、核酸分子から生成された配列リードを、配列リードを生じさせた核酸分子の起源または供給源に基づいてカテゴリーまたはグループに割り当てることを可能にする。例として、試料インデックス位置は、核酸分子が得られた試料を特定するために、および核酸分子から生成された配列リードを試料カテゴリーにグループ化することを可能にするために使用することができる。したがって、同じ試料からの核酸分子から生成された配列リードを1つのグループにまとめることができる。別の例として、分子インデックス位置は、配列リードを生じさせた核酸分子を特定するために使用することができる。したがって、分子インデックス位置は、同じ核酸分子から生成された配列リードを1つのグループにまとめるために使用することができる。さらに別の例として、細胞インデックス位置は、核酸分子が得られた細胞を特定するために、および核酸分子から生成された配列リードを細胞カテゴリーにグループ化することを可能にするために使用することができる。したがって、同じ細胞からの核酸分子の配列リードを1つのグループにまとめることができる。
DNA末端インデックス位置は、例えば、非修復DNA末端の長さを示すことができる。異なる伸長部を有するオリゴヌクレオチドを調製することができ、それらを、修復されていない異なるDNA分子とライゲーションすることができる。異なる長さのオーバーハングにインデックスを付けて、非修復DNA分子内に存在するオーバーハングの長さを特定することができる。一部の態様では、非修復DNA分子内に存在する、異なる長さのオーバーハングが、がん試料において特定される。他の態様では、非修復DNA分子内に存在する、異なる長さのオーバーハングが、がんを特定または検出するために特定される。オリゴヌクレオチドは、1ヌクレオチド、2ヌクレオチド、3ヌクレオチド、4ヌクレオチド、5ヌクレオチド、6ヌクレオチド、7ヌクレオチド、8ヌクレオチド、9ヌクレオチド、10ヌクレオチド、11ヌクレオチド、12ヌクレオチド、13ヌクレオチド、14ヌクレオチド、15ヌクレオチド、16ヌクレオチド、17ヌクレオチド、18ヌクレオチド、19ヌクレオチド、20ヌクレオチド、またはそれより多いヌクレオチド数の伸長部を含む、任意の長さの伸長部を有することができる。オリゴヌクレオチドは、5’または3’伸長部を有することもできる。
本明細書で提供されるバーコードは、試料バーコードを含むことができる。試料バーコードは、所定数の試料インデックス位置を含むことができる。本明細書で使用される場合、「所定数の試料インデックス位置」は、核酸分子が得られた試料を特定するために特定の数の位置を試料インデックスに割り当てることができることを意味する。所定の試料インデックス位置の数は、試料間で変動し得る。試料インデックス位置の場所も、試料間で変動し得る。一部の態様では、所定の試料インデックス位置の数、および試料インデックス位置の場所は、試料間で変動し得る。したがって、核酸分子の試料源、および核酸分子が生じさせた配列リードを、試料バーコードを形成する試料インデックス位置の数、試料インデックス位置の場所、または試料インデックス位置の数と場所の両方により特定することができる。
試料インデックス位置の場所は、一部の実施形態では試料間で変動するため、試料バーコードは、「浮動」または「デジタル」バーコードであり得る。本明細書で使用される場合、「浮動バーコード」または「デジタルバーコード」は、その場所がグループまたはカテゴリー間で変動するインデックス位置を有するバーコードを指す。グループまたはカテゴリー間で変動し得るインデックス位置を含む任意のバーコード、例えば、試料インデックス位置を含む試料バーコード、分子インデックス位置を含む分子バーコード、細胞インデックス位置を含む細胞バーコードなどが、浮動バーコードであり得る。例えば、上で説明したような、異なり得る試料インデックス位置の場所に加えて、分子バーコードの分子インデックス位置の場所は、配列リードを生じさせた異なる核酸分子間で変動し得る。別の例として、細胞バーコードの細胞インデックス位置の場所は、異なる細胞からの核酸分子から得られた配列リード間で変動し得る。
一部の態様では、試料バーコード中の所定数の試料インデックス位置は、それが対応するインデックスのタイプを定義する1つまたは複数の特定のヌクレオチドを含む。例えば、所定数の試料インデックス位置の1つまたは複数の特定のヌクレオチドは、A、T、GまたはCであり得る。別の例として、所定数の試料インデックス位置の1つまたは複数の特定のヌクレオチドは、AおよびT、AおよびC、AおよびG、TおよびC、TおよびG、またはGおよびCであり得る。
一部の態様では、試料バーコードは、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20カ所、もしくはそれより多くの試料インデックス位置、またはこれらの組合せを含む。一部の態様では、試料バーコードは、約4~約12カ所の試料インデックス位置を含む。他の態様では、試料バーコードは、約2、約3、約4、約5、約6、約7、約8、約9、約10、約11、約12、約13、約14、約15、約16、約17、約18、約19、約20カ所、もしくはそれより多くの試料インデックス位置、またはこれらの組合せを含む。一部の態様では、試料バーコードは、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9、少なくとも10、少なくとも11、少なくとも12、少なくとも13、少なくとも14、少なくとも15、少なくとも16、少なくとも17、少なくとも18、少なくとも19、少なくとも20カ所、もしくはそれより多くの試料インデックス位置、またはこれらの組合せを含む。
本明細書で提供されるバーコードは、分子バーコードを含むことができる。分子バーコードは、試料インデックス位置のヌクレオチドとは異なるヌクレオチドを含む分子インデックス位置を含むことができる。例えば、試料インデックス位置ヌクレオチドおよび分子インデックス位置ヌクレオチドを、以下から選択することができる:(A)試料インデックス位置ヌクレオチドが、Aであり、分子インデックス位置ヌクレオチドが、C、G、T、もしくはこれらの組合せであるか;(B)試料インデックス位置ヌクレオチドが、Tであり、分子インデックス位置ヌクレオチドが、C、G、A、もしくはこれらの組合せであるか;(C)試料インデックス位置ヌクレオチドが、Cであり、分子インデックス位置ヌクレオチドが、G、A、T、もしくはこれらの組合せであるか;(D)試料インデックス位置ヌクレオチドが、Gであり、分子インデックス位置ヌクレオチドが、C、A、T、もしくはこれらの組合せであるか;(E)試料インデックス位置ヌクレオチドが、A、T、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、C、G、もしくはこれらの組合せであるか;(F)試料インデックス位置ヌクレオチドが、A、C、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、T、G、もしくはこれらの組合せであるか;(G)試料インデックス位置ヌクレオチドが、A、G、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、T、C、もしくはこれらの組合せであるか;(H)試料インデックス位置ヌクレオチドが、T、C、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、A、G、もしくはこれらの組合せであるか;(I)試料インデックス位置ヌクレオチドが、T、G、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、A、C、もしくはこれらの組合せであるか;または(J)試料インデックス位置ヌクレオチドが、G、C、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、A、T、もしくはこれらの組合せである。
本明細書で提供される試料バーコードの試料インデックス位置は、分子インデックス位置とともに散在していることがある。したがって、本明細書で提供されるバーコードは、ヌクレオチドの特定の連続したストレッチまたはブロックに限定される必要がない、試料インデックス位置および分子インデックス位置を含むことができる。例えば、全ての試料インデックス位置が、必ずしも互いに隣接している必要はなく、全ての分子インデックス位置が、必ずしも互いに隣接している必要はない。試料インデックス位置および分子インデックス位置は、交互に存在していてもよい。任意の数の分子インデックス位置が、試料インデックス位置の間にあってもよい。任意の数の分子インデックス位置が、任意の数の試料インデックス位置の間にあってもよい。任意の数の分子インデックス位置、および分子インデックス位置でも他のインデックス位置でもない任意の数のヌクレオチドが、試料インデックス位置の間にあってもよい。任意の数の分子インデックス位置、および分子インデックス位置でも他のインデックス位置でもない任意の数のヌクレオチドが、任意の数の試料インデックス位置の間にあってもよい。試料インデックス位置でも分子インデックス位置でもない任意の数のヌクレオチドが、試料インデックス位置および分子インデックス位置の間にあってもよい。
一部の試料インデックス位置は、互いに隣接していることがあるが、他の試料インデックス位置は、試料インデックス位置ではないバーコード内の任意の他のヌクレオチドに隣接する場所にあることがある。試料インデックス位置および分子インデックス位置は、例えば、全ての試料インデックス位置に互いに隣接していることを必要としない、いずれの配置であってもよい。試料インデックス位置および分子インデックス位置は、例えば、全ての分子インデックス位置に互いに隣接していることを必要としない、いずれの配置であってもよい。試料インデックス位置および分子インデックス位置は、例えば、全ての試料インデックス位置および全ての分子インデックス位置に互いに隣接していることを必要としない、いずれの配置であってもよい。いずれのインデックスバーコードの位置が、インデックスバーコードの全てのヌクレオチドに互いに隣接していることを必要としない、いずれの配置であってもよい。例示的なバーコードインデックスは、試料バーコード、分子バーコード、細胞バーコードなどを含む。
本明細書で提供される分子バーコードは、約5~約25カ所の分子インデックス位置を含むことができる。一部の態様では、本明細書で提供される分子バーコードは、約5~約15カ所の分子インデックス位置を含む。他の態様では、本明細書で提供される分子バーコードは、約2、約3、約4、約5、約6、約7、約8、約9、約10、約11、約12、約13、約14、約15、約16、約17、約18、約19、約20、約21、約22、約23、約24、約25、約26、約27、約28、約29、約30カ所、またはそれより多くの分子インデックス位置を含む。一部の態様では、本明細書で提供される分子バーコードは、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9、少なくとも10、少なくとも11、少なくとも12、少なくとも13、少なくとも14、少なくとも15、少なくとも16、少なくとも17、少なくとも18、少なくとも19、少なくとも20、少なくとも21、少なくとも22、少なくとも23、少なくとも24、少なくとも25、少なくとも26、少なくとも27、少なくとも28、少なくとも29、少なくとも30カ所、またはそれより多くの分子インデックス位置を含む。一部の態様では、本明細書で提供される分子バーコードは、約20カ所の分子インデックス位置または約20カ所より少ない分子インデックス位置を含む。
本明細書で提供されるバーコードは、インデックス位置を含む1つまたは複数の追加のインデックスバーコードを含むことができる。一部の態様では、1つまたは複数の追加のインデックスバーコードは、細胞バーコードである。したがって、本明細書で提供されるバーコードは、試料バーコード、分子バーコード、細胞バーコード、非修復DNA末端長の尺度を提供するバーコード、任意の他のインデックスバーコード、またはこれらの任意の組合せを含むことができる。したがって、本明細書で提供されるバーコードは、試料インデックス位置、分子インデックス位置、および互いの間に散在している、例えば細胞インデックス位置などの、任意の他のインデックス位置を含むことができる。本明細書で提供されるバーコードのいずれのインデックス位置も、ヌクレオチドの特定の連続したストレッチまたはブロックに限定される必要がない。インデックスバーコードおよびインデックス位置は、全てのインデックス位置に互いに隣接していることを必要としない、いずれの配置であってもよい。
オリゴヌクレオチドのセット内の各オリゴヌクレオチドは、非バーコード位置をさらに含むことができる。オリゴヌクレオチドに含まれる非バーコード位置は、ハイブリダイゼーションのための部位、増幅のための部位、配列プライマー結合のための部位、ならびにハイブリダイゼーション、配列プライマー結合および増幅のための部位を含むことができる。ハイブリダイゼーションのための部位、配列プライマー結合、および増幅のための部位は、約5、約6、約7、約8、約9、約10、約11、約12、約13、約14、約15、約16、約17、約18、約19、約20、約21、約22、約23、約24、約25、約26、約27、約28、約29、約30、またはそれより多くのヌクレオチドを含むことができる。ハイブリダイゼーションのための部位は、例えば、プローブの結合のための部位を含むことができる。増幅のための部位は、例えば、プライマー結合部位を含むことができる。ハイブリダイゼーションのための部位、配列プライマー結合、および増幅のための部位は、互いに明確に異なることがある。ハイブリダイゼーションのための部位、配列プライマー結合、および増幅のための部位は、オーバーラップしていることもある。ハイブリダイゼーションのための部位、配列プライマー結合、および増幅のための部位は、いかなる程度にオーバーラップしていてもよい。一部の態様では、ハイブリダイゼーションのための部位、配列プライマー結合、および増幅のための部位は、約1、約2、約3、約4、約5、約6、約7、約8、約9、約10、約11、約12、約13、約14、約15、約16、約17、約18、約19、約20、約21、約22、約23、約24、約25、約26、約27、約28、約29、約30、またはそれより多くのヌクレオチドがオーバーラップしている。一部の態様では、ハイブリダイゼーションのための部位、配列プライマー結合、および増幅のための部位は、完全にオーバーラップしている。他の態様では、ハイブリダイゼーションのための部位、配列プライマー結合、および増幅のための部位のオーバーラップはない。
核酸配列を解析するための方法
別の実施形態では、本発明は、試料中の核酸分子の配列を解析するための方法を提供する。本明細書で提供される核酸配列を解析するための方法は、(a)複数のオリゴヌクレオチドを核酸分子に付着させるステップであって、各オリゴヌクレオチドが、(i)1つまたは複数の特定のヌクレオチドを含む所定数の試料インデックス位置を含む試料バーコードであって、試料インデックス位置の場所が試料間で変動する、試料バーコード、および(ii)試料インデックス位置のヌクレオチドとは異なるヌクレオチドを含む分子インデックス位置を含む分子バーコードを含むバーコードを含み、試料インデックス位置および分子インデックス位置が、連続した塩基のストレッチ内に散在している、ステップ;および(b)核酸分子をシークエンシングするステップであって、一部の配列リードがバーコード配列を含む、ステップを含むことができる。
本明細書で提供される核酸配列を解析するための方法は、複数のオリゴヌクレオチドを核酸分子に付着させるステップを含むことができる。付着され得る複数のオリゴヌクレオチドは、オリゴヌクレオチドのセットを含むことができる。一部の態様では、付着され得る複数のオリゴヌクレオチドは、オリゴヌクレオチドのサブセットを含む。オリゴヌクレオチドのセットおよびサブセットを含む、本明細書で提供されるオリゴヌクレオチドのいずれも、本明細書で提供される核酸分子またはそれらの断片の配列を解析するための方法において使用することができる。したがって、付着され得る複数のオリゴヌクレオチドの各オリゴヌクレオチドは、1つまたは複数の特定のヌクレオチドを含む所定数の試料インデックス位置を含むことができる。所定数の試料インデックス位置の場所は、試料間で変動し得る。複数のオリゴヌクレオチドの各オリゴヌクレオチドは、分子インデックス位置を含む分子バーコードも含むことができる。分子インデックス位置は、試料インデックス位置のヌクレオチドとは異なるヌクレオチドを含むことができる。試料インデックス位置および分子インデックス位置は、連続した塩基のストレッチ内に散在していることがある。
他の態様では、本明細書で提供される核酸分子の配列を解析するための方法は、同じ試料バーコードを含むオリゴヌクレオチドを、核酸分子の各末端に付着させるステップを含む。一部の態様では、所定数の試料バーコード位置は、異なる試料バーコード間で変動する。連続した同一塩基のストレッチは、同じ試料バーコードを含むオリゴヌクレオチドに非存在であることがある。なぜなら、試料バーコードに含まれているヌクレオチドは、分子バーコードに含まれているもしくは分子インデックス位置を構成しているヌクレオチド、細胞バーコードに含まれているもしくは細胞インデックス位置を構成しているヌクレオチド、任意の他のインデックスバーコードに含まれているもしくは任意の他のインデックス位置を構成しているヌクレオチド、インデックスバーコードに含まれても、インデックス位置を構成してもいないヌクレオチド、またはこれらの任意の組合せとともに、散在していることがあるからである。したがって、一部の態様では、同じ試料バーコードを含む、核酸分子の各末端に付着されるオリゴヌクレオチドは、例えば、増幅中に、クロスハイブリダイズせず、キメラ分子などのアーチファクトの生成をもたらさない。一部の態様では、本明細書で提供される核酸分子の配列を解析するための方法は、異なる試料バーコードを含むオリゴヌクレオチドを、核酸分子の各末端に付着させるステップを含む。
一態様では、本明細書で提供される核酸分子の配列を解析するための方法は、同じ分子バーコードを含むオリゴヌクレオチドを、核酸分子の各末端に付着させるステップを含む。連続した同一塩基のストレッチは、同じ分子バーコードを含むオリゴヌクレオチドに非存在であることがある。なぜなら、分子バーコードに含まれているヌクレオチドは、試料バーコードに含まれているもしくは試料インデックス位置を構成しているヌクレオチド、細胞バーコードに含まれているもしくは細胞インデックス位置を構成しているヌクレオチド、任意の他のインデックスバーコードに含まれているもしくは任意の他のインデックス位置を構成しているヌクレオチド、インデックスバーコードに含まれても、インデックス位置を構成してもいないヌクレオチド、またはこれらの任意の組合せとともに、散在していることがあるからである。したがって、一部の態様では、同じ分子バーコードを含む、核酸分子の各末端に付着されるオリゴヌクレオチドは、例えば、増幅中に、クロスハイブリダイズせず、キメラ分子などのアーチファクトの生成をもたらさない。他の態様では、本明細書で提供される方法は、異なる分子バーコードを含むオリゴヌクレオチドを、核酸分子の各末端に付着させるステップを含む。
一部の態様では、本明細書で提供される核酸分子の配列を解析するための方法は、同じ試料バーコードおよび同じ分子バーコードを含むオリゴヌクレオチドを、核酸分子の各末端に付着させるステップを含む。連続した同一塩基のストレッチは、同じ試料バーコードおよび同じ分子バーコードを含むオリゴヌクレオチド中に非存在であることがある。なぜなら、試料バーコードにおよび分子バーコードに含まれているヌクレオチドは、細胞バーコードに含まれているもしくは細胞インデックス位置を構成しているヌクレオチド、任意の他のインデックスバーコードに含まれているもしくは任意の他のインデックス位置を構成しているヌクレオチド、インデックスバーコードに含まれても、インデックス位置を構成してもいないヌクレオチド、またはこれらの任意の組合せとともに、散在していることがあるからである。したがって、一部の態様では、同じ試料バーコードおよび同じ分子バーコードを含む、核酸分子の各末端に付着されるオリゴヌクレオチドは、例えば、増幅中に、クロスハイブリダイズせず、キメラ分子などのアーチファクトの生成をもたらさない。他の態様では、本明細書で提供される方法は、異なる試料バーコードおよび異なる分子バーコードを含むオリゴヌクレオチドを、核酸分子の各末端に付着させるステップを含む。
一部の態様では、本明細書で提供される核酸分子の配列を解析するための方法は、同じ試料バーコード、同じ分子バーコード、同じ細胞バーコード、非修復DNA末端長の尺度を提供する同じバーコード、任意の他のインデックスヌクレオチドを含む同じインデックスバーコード、またはこれらの任意の組合せを含む、オリゴヌクレオチドを、試料中の核酸分子の各末端に付着させるステップを含む。試料バーコード、分子バーコード、細胞バーコード、任意の他のインデックス位置もしくはインデックスバーコードを含むヌクレオチド、またはこれらの任意の組合せをはじめとするバーコード内の、連続した同一塩基のストレッチは、散在ヌクレオチドのため、非存在であることがある。散在ヌクレオチドは、インデックスバーコードに含まれていない、インデックス位置を構成していないヌクレオチドを含むことができ、またはヌクレオチドがともに散在しているインデックスバーコードもしくはインデックス位置以外のインデックスバーコードに含まれているもしくはインデックス位置を構成しているヌクレオチドを含むことができる。したがって、増幅中の、クロスハイブリダイゼーション、およびキメラ分子などのアーチファクトの生成を、防止することができる。一態様では、本明細書で提供される方法は、異なる試料バーコード、異なる分子バーコード、異なる細胞バーコード、任意の他のインデックスヌクレオチドを含む異なるインデックスバーコード、またはこれらの任意の組合せを含む、オリゴヌクレオチドを、試料中の核酸分子の各末端に付着させるステップを含む。
任意の好適な方法を、バーコードを含むオリゴヌクレオチドを核酸分子の末端に付着させるために使用することができる。様々な態様では、オリゴヌクレオチドは、共有結合で付着される。
本明細書で提供される核酸分子の配列を解析するための方法におけるバーコードは、任意の数のヌクレオチドを含むことができる。例として、本明細書で提供される核酸分子の配列を解析するための方法におけるバーコードは、約10~約35のヌクレオチドを含むことができる。別の例として、本明細書で提供される核酸分子の配列を解析するための方法におけるバーコードは、約12~約25のヌクレオチドを含むことができる。さらに別の例として、本明細書で提供される核酸分子の配列を解析するための方法におけるバーコードは、約5、約6、約7、約8、約9、約10、約11、約12、約13、約14、約15、約16、約17、約18、約19、約20、約21、約22、約23、約24、約25、約26、約27、約28、約29、約30、約31、約32、約33、約34、約35、約36、約37、約38、約39、約40、またはそれより多くのヌクレオチドを含むことができる。さらに別の例として、本明細書で提供される核酸分子の配列を解析するための方法におけるバーコードは、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9、少なくとも10、少なくとも11、少なくとも12、少なくとも13、少なくとも14、少なくとも15、少なくとも16、少なくとも17、少なくとも18、少なくとも19、少なくとも20、少なくとも21、少なくとも22、少なくとも23、少なくとも24、少なくとも25、少なくとも26、少なくとも27、少なくとも28、少なくとも29、少なくとも30、少なくとも31、少なくとも32、少なくとも33、少なくとも34、少なくとも35、少なくとも36、少なくとも37、少なくとも38、少なくとも39、少なくとも40、またはそれより多くのヌクレオチドを含むことができる。
本明細書で提供される核酸分子の配列を解析するための方法におけるバーコードは、1つまたは複数のインデックス位置を含むことができる。例示的なインデックス位置としては、試料インデックス位置、分子インデックス位置、および細胞インデックス位置が挙げられる。例えば、本明細書で提供される核酸分子の配列を解析するための方法におけるバーコードは、試料インデックス位置および分子インデックス位置を含むことができる。本明細書で提供される核酸分子の配列を解析するための方法におけるバーコードは、試料インデックス位置、分子インデックス位置、細胞インデックス位置、非修復DNA末端長の尺度を提供するインデックス位置、またはこれらの任意の組合せも含むことができる。
本明細書で提供される核酸分子の配列を解析するための方法におけるバーコードは、試料バーコードを含むことができる。試料バーコードは、所定数の試料インデックス位置を含むことができる。所定の試料インデックス位置の数は、試料間で変動し得る。試料インデックス位置の場所も、試料間で変動し得る。一部の態様では、所定の試料インデックス位置の数、および試料インデックス位置の場所は、試料間で変動し得る。したがって、核酸分子の試料源、および核酸分子が生じさせた配列リードを、試料バーコードを形成する試料インデックス位置の数、試料インデックス位置の場所、または試料インデックス位置の数と場所の両方により特定することができる。
本明細書で提供される核酸分子の配列を解析するための方法における試料バーコード中の所定数の試料インデックス位置は、1つまたは複数の特定のヌクレオチドを含むことができる。例えば、所定数の試料インデックス位置の1つまたは複数の特定のヌクレオチドは、A、T、GまたはCであり得る。別の例として、所定数の試料インデックス位置の1つまたは複数の特定のヌクレオチドは、AおよびT、AおよびC、AおよびG、TおよびC、TおよびG、またはGおよびCであり得る。
一部の態様では、本明細書で提供される核酸分子の配列を解析するための方法における試料バーコードは、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20カ所、もしくはそれより多くの試料インデックス位置、またはこれらの組合せを含む。一部の態様では、本明細書で提供される核酸分子の配列を解析するための方法における試料バーコードは、約4~12の試料インデックス位置を含む。様々な態様では、本明細書で提供される核酸分子の配列を解析するための方法における試料バーコードは、約2、約3、約4、約5、約6、約7、約8、約9、約10、約11、約12、約13、約14、約15、約16、約17、約18、約19、約20カ所、もしくはそれより多くの試料インデックス位置、またはこれらの組合せを含む。一態様では、本明細書で提供される核酸分子の配列を解析するための方法における試料バーコードは、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9、少なくとも10、少なくとも11、少なくとも12、少なくとも13、少なくとも14、少なくとも15、少なくとも16、少なくとも17、少なくとも18、少なくとも19、少なくとも20カ所、もしくはそれより多くの試料インデックス位置、またはこれらの組合せを含む。
本明細書で提供される核酸分子の配列を解析するための方法におけるバーコードは、分子バーコードを含むことができる。本明細書で提供される核酸分子の配列を解析するための方法における分子バーコードは、試料インデックス位置のヌクレオチドとは異なるヌクレオチドを含む分子インデックス位置を含むことができる。例えば、試料インデックス位置ヌクレオチドおよび分子インデックス位置ヌクレオチドを、以下から選択することができる:(A)試料インデックス位置ヌクレオチドが、Aであり、分子インデックス位置ヌクレオチドが、C、G、T、もしくはこれらの組合せであるか;(B)試料インデックス位置ヌクレオチドが、Tであり、分子インデックス位置ヌクレオチドが、C、G、A、もしくはこれらの組合せであるか;(C)試料インデックス位置ヌクレオチドが、Cであり、分子インデックス位置ヌクレオチドが、G、A、T、もしくはこれらの組合せであるか;(D)試料インデックス位置ヌクレオチドが、Gであり、分子インデックス位置ヌクレオチドが、C、A、T、もしくはこれらの組合せであるか;(E)試料インデックス位置ヌクレオチドが、A、T、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、C、G、もしくはこれらの組合せであるか;(F)試料インデックス位置ヌクレオチドが、A、C、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、T、G、もしくはこれらの組合せであるか;(G)試料インデックス位置ヌクレオチドが、A、G、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、T、C、もしくはこれらの組合せであるか;(H)試料インデックス位置ヌクレオチドが、T、C、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、A、G、もしくはこれらの組合せであるか;(I)試料インデックス位置ヌクレオチドが、T、G、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、A、C、もしくはこれらの組合せであるか;または(J)試料インデックス位置ヌクレオチドが、G、C、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、A、T、もしくはこれらの組合せである。
本明細書で提供される核酸分子の配列を解析するための方法における試料バーコードの試料インデックス位置は、分子インデックス位置とともに散在していることがある。したがって、本明細書で提供される核酸分子の配列を解析するための方法におけるバーコードは、ヌクレオチドの特定の連続したストレッチまたはブロックに限定される必要がない、試料インデックス位置および分子インデックス位置を含むことができる。例えば、全ての試料インデックス位置が、必ずしも互いに隣接している必要はなく、全ての分子インデックス位置が、必ずしも互いに隣接している必要はない。試料インデックス位置および分子インデックス位置は、交互に存在していてもよい。任意の数の分子インデックス位置が、試料インデックス位置の間にあってもよい。任意の数の分子インデックス位置が、任意の数の試料インデックス位置の間にあってもよい。任意の数の分子インデックス位置、および分子インデックス位置でも他のインデックス位置でもない任意の数のヌクレオチドが、試料インデックス位置の間にあってもよい。任意の数の分子インデックス位置、および分子インデックス位置でも他のインデックス位置でもない任意の数のヌクレオチドが、任意の数の試料インデックス位置の間にあってもよい。試料インデックス位置でも分子インデックス位置でもない任意の数のヌクレオチドが、試料インデックス位置および分子インデックス位置の間にあってもよい。
一部の試料インデックス位置は、互いに隣接していることがあるが、他の試料インデックス位置は、試料インデックス位置ではないバーコード内の任意の他のヌクレオチドに隣接する場所にあることがある。試料インデックス位置および分子インデックス位置は、例えば、全ての試料インデックス位置に互いに隣接していることを必要としない、いずれの配置であってもよい。試料インデックス位置および分子インデックス位置は、例えば、全ての分子インデックス位置に互いに隣接していることを必要としない、いずれの配置であってもよい。試料インデックス位置および分子インデックス位置は、例えば、全ての試料インデックス位置および全ての分子インデックス位置に互いに隣接していることを必要としない、いずれの配置であってもよい。いずれのインデックスバーコードの位置が、インデックスバーコードの全てのヌクレオチドに互いに隣接していることを必要としない、いずれの配置であってもよい。例示的なバーコードインデックスは、試料バーコード、分子バーコード、細胞バーコードなどを含む。
本明細書で提供される核酸分子の配列を解析するための方法における分子バーコードは、約5~25の分子のインデックス位置を含むことができる。一態様では、本明細書で提供される核酸分子の配列を解析するための方法における分子バーコードは、約5~約15の分子インデックス位置を含む。一部の態様では、本明細書で提供される核酸分子の配列を解析するための方法における分子バーコードは、約2、約3、約4、約5、約6、約7、約8、約9、約10、約11、約12、約13、約14、約15、約16、約17、約18、約19、約20、約21、約22、約23、約24、約25、約26、約27、約28、約29、約30カ所、またはそれより多くの分子インデックス位置を含む。他の態様では、本明細書で提供される核酸分子の配列を解析するための方法における分子バーコードは、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9、少なくとも10、少なくとも11、少なくとも12、少なくとも13、少なくとも14、少なくとも15、少なくとも16、少なくとも17、少なくとも18、少なくとも19、少なくとも20、少なくとも21、少なくとも22、少なくとも23、少なくとも24、少なくとも25、少なくとも26、少なくとも27、少なくとも28、少なくとも29、少なくとも30カ所、またはそれより多くの分子インデックス位置を含む。
本明細書で提供される核酸分子の配列を解析するための方法における各バーコードは、インデックス位置を含む1つまたは複数の追加のインデックスバーコードを含むことができる。一部の態様では、1つまたは複数の追加のインデックスバーコードは、細胞バーコードである。したがって、本明細書で提供される核酸分子の配列を解析するための方法におけるバーコードは、試料バーコード、分子バーコード、細胞バーコード、任意の他のインデックスバーコード、またはこれらの任意の組合せを含むことができる。したがって、本明細書で提供される核酸分子の配列を解析するための方法におけるバーコードは、試料インデックス位置、分子インデックス位置、および互いの間に散在している、例えば細胞インデックス位置などの、任意の他のインデックス位置を含むことができる。本明細書で提供されるいずれのバーコードのインデックス位置も、ヌクレオチドの特定の連続したストレッチまたはブロックに限定される必要がない。インデックスバーコードおよびインデックス位置は、全てのインデックス位置に互いに隣接していることを必要としない、いずれの配置であってもよい。
本明細書で提供される付着オリゴヌクレオチドを有する核酸分子を、例えば、シークエンシングにより解析することができる。得られる配列リードは、バーコード配列を含むことができる。任意の好適なシークエンシング方法を使用して、核酸分子を解析することができる。例示的なシークエンシング方法としては、例えば、次世代シークエンシング(NGS)が挙げられる。例示的なNGS手法は、Roche 454シークエンサー、Life Technologies SOLiDシステム、Life Technologies Ion Torrent、BGI/MGIシステム、Genapsysシステム、ならびにIlluminaシステム、例えば、Illumina Genome Analyzer II、Illumina MiSeq、Illumina HiSeq、Illumina NextSeq、およびIllumina NovaSeq装置を含む。シークエンシングを、例えば、少なくとも2×カバレッジ、少なくとも10×カバレッジ、少なくとも20×カバレッジ、少なくとも30×カバレッジ、少なくとも40×カバレッジ、少なくとも50×カバレッジ、少なくとも60×カバレッジ、少なくとも70×カバレッジ、少なくとも80×カバレッジ、少なくとも90×カバレッジ、少なくとも100×カバレッジ、少なくとも200×カバレッジ、少なくとも300×カバレッジ、少なくとも400×カバレッジ、少なくとも500×カバレッジ、少なくとも600×カバレッジ、少なくとも700×カバレッジ、少なくとも800×カバレッジ、少なくとも900×カバレッジ、少なくとも1,000×カバレッジ、少なくとも2,000×カバレッジ、少なくとも3,000×カバレッジ、少なくとも4,000×カバレッジ、少なくとも5,000×カバレッジ、少なくとも6,000×カバレッジ、少なくとも7,000×カバレッジ、少なくとも8,000×カバレッジ、少なくとも9,000×カバレッジ、少なくとも10,000×カバレッジ、少なくとも15,000×カバレッジ、少なくとも20,000×カバレッジ、およびこれらの間の任意の数または範囲を含む、各ヌクレオチドの深いカバレッジのために行うことができる。
一部の態様では、シークエンシングは、全ゲノムシークエンシングを含む。様々な態様では、シークエンシングは、エクソームシークエンシングまたは標的パネルを含む。本明細書で使用される場合、用語「エクソームシークエンシング」は、ゲノム内の遺伝子の全てのタンパク質コードエクソンのシークエンシングを指す。エクソームシークエンシングは、ターゲットエンリッチメント法、例えば、核酸のアレイベースの捕捉および溶解状態での捕捉などを含み得る。標的パネルは、目的の領域のサブセットを含み、タンパク質コード領域と非コード領域の両方を含み得る。
任意の試料または任意のタイプの試料中の核酸の配列を、本明細書で提供される方法を使用して解析することができる。一部の態様では、試料は、血液、唾液、血漿、血清、尿、または他の生体液である。さらなる例示的な生体液としては、漿膜液、リンパ液、脳脊髄液、粘膜からの分泌物、膣液、腹水(ascites fluid)、胸膜液、心膜液、腹水(peritoneal fluid)、および腹水(abdominal fluid)が挙げられる。一部の態様では、試料は、組織試料である。他の態様では、試料は、細胞試料である。新鮮試料または保管試料を使用することができ、そのような試料には、例えば、凍結保管試料、ホルマリン固定パラフィン包埋(FFPE)試料、および任意の他の方法により保存された試料が含まれる。
試料は、正常なまたは健康な対象からのものであり得る。試料はまた、疾患または障害を有する対象からのものであり得る。任意の疾患または障害を有する対象からの試料中の核酸の配列を、本明細書で提供される方法を使用して解析することができる。一部の態様では、疾患または障害は、がんである。他の態様では、試料は、がんを有する対象からの体液試料である。一部の態様では、試料は、がんを有する対象からの組織試料である。他の態様では、試料は、がんを有する対象からの細胞試料である。一部の態様では、試料は、がん試料である。がん試料は、固形腫瘍または液性腫瘍からの試料であり得る。がんは、腎臓がん、腎がん、膀胱がん、前立腺がん、子宮がん、乳がん、子宮頸がん、卵巣がん、肺がん、結腸がん、直腸がん、口腔がん、咽頭がん、膵臓がん、甲状腺がん、黒色腫、皮膚がん、頭頸部がん、脳がん、造血器がん、白血病、リンパ腫、骨がん、筋肉のがん、肉腫、横紋筋肉腫などであり得る。
核酸をシークエンシングする前に試料から抽出、単離または精製することができる。任意の好適な抽出、単離または精製方法を使用することができる。例示的な方法としては、フェノール-クロロホルム抽出、チオシアン酸グアニジン-フェノール-クロロホルム抽出、ゲル精製、ならびにカラムおよびビーズの使用が挙げられる。市販のキットを核酸の抽出、単離または精製に使用することができる。
本明細書で提供される核酸分子の配列を解析するための方法は、核酸分子のライブラリーをシークエンシングするステップを含むことができる。本明細書で提供される付着オリゴヌクレオチドを有する核酸分子のライブラリーを調製することができる。一部の態様では、ゲノムライブラリーが調製される。一部の態様では、本明細書で提供されるバーコードを含む付着オリゴヌクレオチドを有する核酸分子またはその断片のライブラリーが、増幅により調製される。本明細書で提供されるバーコードを含む付着オリゴヌクレオチドを含む核酸分子および核酸分子の断片を、ポリメラーゼ連鎖反応(PCR)により増幅することができる。本明細書で提供されるバーコードを含む付着オリゴヌクレオチドを含む核酸分子および核酸分子の断片のアンプリコンを、シークエンシングすることができる。任意の好適なシークエンシング方法を使用して、本明細書で提供されるバーコードを含む付着オリゴヌクレオチドを有する核酸分子および核酸分子の断片をシークエンシングすることができる。
本明細書で提供される試料中の核酸分子の配列を解析するための方法は、配列リードをグループまたはカテゴリーに割り当てるステップをさらに含むことができる。例えば、配列リードを、試料インデックス位置の場所および数に基づいて試料ファミリーに割り当てることができる。したがって、配列リードを生じさせる核酸分子を、核酸分子が由来する試料に割り当てることができる。一部の態様では、試料インデックス位置の数をエラー修正に使用することができる。配列リードを、分子インデックス位置の場所および各分子インデック位置のヌクレオチドに基づいて分子ファミリーに割り当てることもできる。分子インデックス位置の数および場所を使用して、配列リードを分子ファミリーに割る当てることもできる。したがって、配列リードを、配列リードを生じさせた核酸分子に割り当てることができる。一部の態様では、分子インデックス位置の数をエラー修正に使用することができる。さらに別の例として、細胞インデックス位置、例えば、各細胞インデックス位置における場所、数およびヌクレオチド、ならびにこれらの組合せに基づいて、配列リードを細胞ファミリーに割り当てることができる。したがって、配列リード、および配列リードを生じさせた核酸分子を、起源となる細胞に割り当てることができる。一態様では、細胞インデックス位置の数をエラー修正に使用することができる。配列リードのいずれの割り当ても、本明細書で提供されるオリゴヌクレオチドおよびオリゴヌクレオチドのセットのバーコードに含まれているインデックス位置に従って行うことができる。
本明細書で提供される試料中の核酸分子の配列を解析するための方法は、シークエンシングエラーを修正するステップをさらに含むことができる。エラー源は、例えば、増幅ステップ中の、合成エラー、シークエンシングアーチファクトまたはポリメラーゼスリッページを含み得る。配列リードにおける試料インデックス位置の数および場所を試料インデックス位置の所定数および場所と比較することにより、シークエンシングエラーを修正することができる。
配列リードの両末端の試料バーコードを比較することにより、シークエンシングエラーを修正することもできる。配列リードの各末端の非同一試料バーコードを許容される試料バーコードと比較するために規則を適用することができる。一態様では、同一の試料バーコードを含むオリゴヌクレオチドが核酸分子またはその断片の各末端に付着されている、シークエンシングリードの両末端の非同一試料バーコードを比較するために、規則を適用することができる。一部の態様では、非同一の試料バーコードを含むオリゴヌクレオチドが核酸分子またはその断片の各末端に付着されている、シークエンシングリードの両末端の非同一試料バーコードを比較するために、規則を適用することができる。他の態様では、本明細書で提供される核酸分子の配列を解析するための方法は、リードの誤った割り当てを高感度に検出するための、各オリゴヌクレオチドが試験される異なるゲノムの使用を含む。
試料中の核酸分子の配列を解析するための方法は、(1)バーコード内のエラーを修正するための、(2)核酸分子の各末端のバーコード間のエラーを修正するための、(3)配列リードを試料ファミリーに多重分離するための、(4)配列リードを分子ファミリーに割り当てるための、またはこれらの任意の組合せのための、1つまたは複数の規則を適用するステップをさらに含むことができる。本明細書で使用される場合、「多重分離すること」は、配列リードを、グループまたはカテゴリー、例えば、試料ファミリー、または複数の試料がシークエンシングのためにプールされた供給元の試料、例えば、分子ファミリー、細胞ファミリー、または任意の他の所望されるグループもしくはグループの組合せに、割り当てることを意味する。
本明細書で提供される試料中の核酸分子の配列を解析するための方法におけるオリゴヌクレオチドのセット内の各オリゴヌクレオチドは、非バーコード位置をさらに含むことができる。オリゴヌクレオチドに含まれる非バーコード位置は、ハイブリダイゼーションのための部位、増幅のための部位、配列プライマー結合のための部位、ならびにハイブリダイゼーション、配列プライマー結合および増幅のための部位を含むことができる。ハイブリダイゼーションのための部位、配列プライマー結合、および増幅のための部位は、約5、約6、約7、約8、約9、約10、約11、約12、約13、約14、約15、約16、約17、約18、約19、約20、約21、約22、約23、約24、約25、約26、約27、約28、約29、約30、またはそれより多くのヌクレオチドを含むことができる。ハイブリダイゼーションのための部位は、例えば、プローブの結合のための部位を含むことができる。増幅のための部位は、例えば、プライマー結合部位を含むことができる。ハイブリダイゼーションのための部位、配列プライマー結合、および増幅のための部位は、互いに明確に異なることがある。ハイブリダイゼーションのための部位、配列プライマー結合、および増幅のための部位は、オーバーラップしていることもある。ハイブリダイゼーションのための部位、配列プライマー結合、および増幅のための部位は、いかなる程度にオーバーラップしていてもよい。一部の態様では、ハイブリダイゼーションのための部位、配列プライマー結合、および増幅のための部位は、約1、約2、約3、約4、約5、約6、約7、約8、約9、約10、約11、約12、約13、約14、約15、約16、約17、約18、約19、約20、約21、約22、約23、約24、約25、約26、約27、約28、約29、約30、またはそれより多くのヌクレオチドがオーバーラップしている。他の態様では、ハイブリダイゼーションのための部位、配列プライマー結合、および増幅のための部位は、完全にオーバーラップしている。一態様では、ハイブリダイゼーションのための部位、配列プライマー結合、および増幅のための部位のオーバーラップはない。
本明細書で提供される核酸の配列を解析するための方法は、多重分離せずに核酸配列データを格納するステップをさらに含み得る。多重分離キーを使用して、配列データを例えばシークエンシングリードのグループに割り当てることができる。多重分離せずに核酸配列データを格納するステップは、配列データを保護することができる。例えば、核酸配列データの格納は、正しい多重分離キーを有さない個体による配列データの使用を防止することができ、それによってデータの不正使用を防止することができる。
核酸分子を標識する方法
一実施形態では、本発明は、試料中の核酸分子を標識するための方法であって、複数のオリゴヌクレオチドを、バーコードを含む核酸分子に付着させるステップを含み、各バーコードが、(i)1つまたは複数の特定のヌクレオチドを含む所定数の試料インデックス位置を含む試料バーコードであって、試料インデックス位置の場所が試料間で変動する、試料バーコードと、(ii)試料インデックス位置のヌクレオチドと異なるヌクレオチドを含む分子インデックス位置を含む分子バーコードとを含み、試料インデックス位置および分子インデックス位置が、連続した塩基のストレッチ内に散在している、方法を提供する。
オリゴヌクレオチドのセットおよびサブセットを含む、本明細書で提供されるいずれのオリゴヌクレオチドも、本明細書で提供される核酸分子を標識するための方法において核酸分子またはそれらの断片を標識するために使用することができる。一態様では、本明細書で提供される方法は、同じ試料バーコードを含むオリゴヌクレオチドを、核酸分子の各末端に付着させるステップを含む。一部の態様では、本明細書で提供される方法は、異なる試料バーコードを含むオリゴヌクレオチドを、核酸分子の各末端に付着させるステップを含む。他の態様では、所定数の試料バーコード位置は、異なる試料バーコード間で変動する。
任意の好適な方法を、1つまたは複数のバーコードを含むオリゴヌクレオチドを核酸分子の末端に付着させるために使用することができる。一部の態様では、オリゴヌクレオチドは、共有結合で付着される。
本明細書で提供される方法を使用して、任意の試料中の核酸を標識することができる。標識され得る核酸は、任意の試料または任意のタイプの試料中に存在し得る。一部の態様では、試料は、血液、唾液、血漿、血清、尿、または他の生体液である。さらなる例示的な生体液としては、漿膜液、リンパ液、脳脊髄液、粘膜からの分泌物、膣液、腹水(ascites fluid)、胸膜液、心膜液、腹水(peritoneal fluid)、および腹水(abdominal fluid)が挙げられる。一部の態様では、試料は、組織試料である。他の態様では、試料は、細胞試料である。新鮮試料または保管試料を使用することができ、そのような試料には、例えば、凍結保管試料、ホルマリン固定パラフィン包埋(FFPE)試料、および任意の他の方法により保存された試料が含まれる。
試料は、正常なまたは健康な対象からのものであり得る。試料はまた、疾患または障害を有する対象からのものであり得る。任意の疾患または障害を有する対象からの試料中の核酸を、本明細書で提供される方法を使用して標識することができる。一態様では、疾患または障害は、がんである。一部の態様では、試料は、がんを有する対象からの体液試料である。他の態様では、試料は、がんを有する対象からの組織試料である。一部の態様では、試料は、がんを有する対象からの細胞試料である。他の態様では、試料は、がん試料である。がん試料は、固形腫瘍または液性腫瘍からの試料であり得る。がんは、腎臓がん、腎がん、膀胱がん、前立腺がん、子宮がん、乳がん、子宮頸がん、卵巣がん、肺がん、結腸がん、直腸がん、口腔がん、咽頭がん、膵臓がん、甲状腺がん、黒色腫、皮膚がん、頭頸部がん、脳がん、造血器がん、白血病、リンパ腫、骨がん、筋肉のがん、肉腫、横紋筋肉腫などであり得る。
試料中の核酸を標識することができる。核酸を標識する前に試料から抽出、単離または精製することもできる。任意の好適な抽出、単離または精製方法を使用することができる。例示的な方法としては、フェノール-クロロホルム抽出、チオシアン酸グアニジン-フェノール-クロロホルム抽出、ゲル精製、ならびにカラムおよびビーズの使用が挙げられる。市販のキットを核酸の抽出、単離または精製に使用することができる。
標識された核酸を、例えば核酸ライブラリーの調製に、使用することができる。一部の態様では、ライブラリーは、ゲノムライブラリーである。標識された核酸分子を含むライブラリーは、例えば、本明細書で提供されるオリゴヌクレオチドのセットまたはサブセットを末端修復、Aテーリング、およびアダプターライゲーションによって核酸分子またはそれらの断片に付着させることにより、調製することができる。一部の態様では、末端修復およびAテーリングは割愛され、特定の個々のインデックスまたはインデックスのセットと会合している可変末端が、例えばDNA分子などの核酸分子の本来の末端を決定するために含められる。標識された核酸分子およびそれらの断片、ならびに標識された核酸分子およびそれらの断片のライブラリーを、例えば、シークエンシングにより解析することができる。任意の好適なシークエンシング方法を使用して、標識された核酸分子を解析することができる。シークエンシング方法は、多重分離せずに核酸配列データを格納するステップをさらに含むことができる。多重分離キーを使用して、配列データを例えばシークエンシングリードのグループに割り当てることができる。多重分離せずに核酸配列データを格納するステップは、配列データを保護することができる。例えば、核酸配列データの格納は、正しい多重分離キーを有さない個体による配列データの使用を防止することができ、それによってデータの不正使用を防止することができる。
本明細書で提供される核酸分子を標識するための方法におけるバーコードは、任意の数のヌクレオチドを含むことができる。例として、バーコードは、約10~約35のヌクレオチドを含むことができる。別の例として、バーコードは、約12~約25のヌクレオチドを含むことができる。さらに別の例として、バーコードは、約5、約6、約7、約8、約9、約10、約11、約12、約13、約14、約15、約16、約17、約18、約19、約20、約21、約22、約23、約24、約25、約26、約27、約28、約29、約30、約31、約32、約33、約34、約35、約36、約37、約38、約39、約40、またはそれより多くのヌクレオチドを含むことができる。さらに別の例として、バーコードは、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9、少なくとも10、少なくとも11、少なくとも12、少なくとも13、少なくとも14、少なくとも15、少なくとも16、少なくとも17、少なくとも18、少なくとも19、少なくとも20、少なくとも21、少なくとも22、少なくとも23、少なくとも24、少なくとも25、少なくとも26、少なくとも27、少なくとも28、少なくとも29、少なくとも30、少なくとも31、少なくとも32、少なくとも33、少なくとも34、少なくとも35、少なくとも36、少なくとも37、少なくとも38、少なくとも39、少なくとも40、またはそれより多くのヌクレオチドを含むことができる。
本明細書で提供される核酸分子を標識するための方法におけるバーコードは、1つまたは複数のインデックス位置を含むことができる。例示的なインデックス位置としては、試料インデックス位置、分子インデックス位置、DNA末端インデックス位置、および細胞インデックス位置が挙げられる。例えば、バーコードは、試料インデックス位置、および分子インデックス位置を含むことができる。バーコードは、試料インデックス位置、分子インデックス位置、細胞インデックス位置、DNA末端インデックス位置、またはこれらの任意の組合せも含むことができる。
本明細書で提供される核酸分子を標識するための方法におけるバーコードは、試料バーコードを含むことができる。試料バーコードは、所定数の試料インデックス位置を含むことができる。所定の試料インデックス位置の数は、試料間で変動し得る。試料インデックス位置の場所も、試料間で変動し得る。一部の態様では、所定の試料インデックス位置の数、および試料インデックス位置の場所は、試料間で変動し得る。したがって、核酸分子の試料源、および核酸分子が生じさせた配列リードを、試料バーコードを形成する試料インデックス位置の数、試料インデックス位置の場所、または試料インデックス位置の数と場所の両方により特定することができる。
本明細書で提供される核酸分子を標識するための方法における試料バーコード中の所定数の試料インデックス位置は、1つまたは複数の特定のヌクレオチドを含むことができる。例えば、所定数の試料インデックス位置の1つまたは複数の特定のヌクレオチドは、A、T、GまたはCであり得る。別の例として、所定数の試料インデックス位置の1つまたは複数の特定のヌクレオチドは、AおよびT、AおよびC、AおよびG、TおよびC、TおよびG、またはGおよびCであり得る。
一部の態様では、本明細書で提供される核酸分子を標識するための方法における試料バーコードは、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20カ所、もしくはそれより多くの試料インデックス位置、またはこれらの組合せを含む。他の態様では、本明細書で提供される核酸分子を標識するための方法における試料バーコードは、約4~約12の試料インデックス位置を含む。一部の態様では、本明細書で提供される核酸分子を標識するための方法における試料バーコードは、約2、約3、約4、約5、約6、約7、約8、約9、約10、約11、約12、約13、約14、約15、約16、約17、約18、約19、約20カ所、もしくはそれより多くの試料インデックス位置、またはこれらの組合せを含む。他の態様では、本明細書で提供される核酸分子を標識するための方法における試料バーコードは、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9、少なくとも10、少なくとも11、少なくとも12、少なくとも13、少なくとも14、少なくとも15、少なくとも16、少なくとも17、少なくとも18、少なくとも19、少なくとも20カ所、もしくはそれより多くの試料インデックス位置、またはこれらの組合せを含む。
本明細書で提供される核酸分子を標識するための方法におけるバーコードは、分子バーコードを含むことができる。分子バーコードは、試料インデックス位置のヌクレオチドとは異なるヌクレオチドを含む分子インデックス位置を含むことができる。例えば、試料インデックス位置ヌクレオチドおよび分子インデックス位置ヌクレオチドを、以下から選択することができる:(A)試料インデックス位置ヌクレオチドが、Aであり、分子インデックス位置ヌクレオチドが、C、G、T、もしくはこれらの組合せであるか;(B)試料インデックス位置ヌクレオチドが、Tであり、分子インデックス位置ヌクレオチドが、C、G、A、もしくはこれらの組合せであるか;(C)試料インデックス位置ヌクレオチドが、Cであり、分子インデックス位置ヌクレオチドが、G、A、T、もしくはこれらの組合せであるか;(D)試料インデックス位置ヌクレオチドが、Gであり、分子インデックス位置ヌクレオチドが、C、A、T、もしくはこれらの組合せであるか;(E)試料インデックス位置ヌクレオチドが、A、T、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、C、G、もしくはこれらの組合せであるか;(F)試料インデックス位置ヌクレオチドが、A、C、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、T、G、もしくはこれらの組合せであるか;(G)試料インデックス位置ヌクレオチドが、A、G、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、T、C、もしくはこれらの組合せであるか;(H)試料インデックス位置ヌクレオチドが、T、C、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、A、G、もしくはこれらの組合せであるか;(I)試料インデックス位置ヌクレオチドが、T、G、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、A、C、もしくはこれらの組合せであるか;または(J)試料インデックス位置ヌクレオチドが、G、C、もしくはこれらの組合せであり、分子インデックス位置ヌクレオチドが、A、T、もしくはこれらの組合せである。
本明細書で提供される核酸分子を標識するための方法における試料バーコードの試料インデックス位置は、分子インデックス位置とともに散在していることがある。したがって、本明細書で提供される核酸分子を標識するための方法におけるバーコードは、ヌクレオチドの特定の連続したストレッチまたはブロックに限定される必要がない、試料インデックス位置および分子インデックス位置を含むことができる。例えば、全ての試料インデックス位置が、必ずしも互いに隣接している必要はなく、全ての分子インデックス位置が、必ずしも互いに隣接している必要はない。試料インデックス位置および分子インデックス位置は、交互に存在していてもよい。任意の数の分子インデックス位置が、試料インデックス位置の間にあってもよい。任意の数の分子インデックス位置が、任意の数の試料インデックス位置の間にあってもよい。任意の数の分子インデックス位置、および分子インデックス位置でも他のインデックス位置でもない任意の数のヌクレオチドが、試料インデックス位置の間にあってもよい。任意の数の分子インデックス位置、および分子インデックス位置でも他のインデックス位置でもない任意の数のヌクレオチドが、任意の数の試料インデックス位置の間にあってもよい。試料インデックス位置でも分子インデックス位置でもない任意の数のヌクレオチドが、試料インデックス位置および分子インデックス位置の間にあってもよい。
一部の試料インデックス位置は、互いに隣接していることがあるが、他の試料インデックス位置は、試料インデックス位置ではないバーコード内の任意の他のヌクレオチドに隣接する場所にあることがある。試料インデックス位置および分子インデックス位置は、例えば、全ての試料インデックス位置に互いに隣接していることを必要としない、いずれの配置であってもよい。試料インデックス位置および分子インデックス位置は、例えば、全ての分子インデックス位置に互いに隣接していることを必要としない、いずれの配置であってもよい。試料インデックス位置および分子インデックス位置は、例えば、全ての試料インデックス位置および全ての分子インデックス位置に互いに隣接していることを必要としない、いずれの配置であってもよい。いずれのインデックスバーコードの位置が、インデックスバーコードの全てのヌクレオチドに互いに隣接していることを必要としない、いずれの配置であってもよい。例示的なバーコードインデックスは、試料バーコード、分子バーコード、細胞バーコード、DNA末端インデックス位置などを含む。
本明細書で提供される核酸分子を標識するための方法における分子バーコードは、約5~約25の分子のインデックス位置を含むことができる。一部の態様では、本明細書で提供される核酸分子を標識するための方法における分子バーコードは、約5~約15の分子インデックス位置を含む。他の態様では、本明細書で提供される核酸分子を標識するための方法における分子バーコードは、約2、約3、約4、約5、約6、約7、約8、約9、約10、約11、約12、約13、約14、約15、約16、約17、約18、約19、約20、約21、約22、約23、約24、約25、約26、約27、約28、約29、約30カ所、またはそれより多くの分子インデックス位置を含む。様々な態様では、本明細書で提供される核酸分子を標識するための方法における分子バーコードは、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9、少なくとも10、少なくとも11、少なくとも12、少なくとも13、少なくとも14、少なくとも15、少なくとも16、少なくとも17、少なくとも18、少なくとも19、少なくとも20、少なくとも21、少なくとも22、少なくとも23、少なくとも24、少なくとも25、少なくとも26、少なくとも27、少なくとも28、少なくとも29、少なくとも30カ所、またはそれより多くの分子インデックス位置を含む。
本明細書で提供される核酸分子を標識するための方法におけるバーコードは、インデックス位置を含む1つまたは複数の追加のインデックスバーコードを含むことができる。一部の態様では、1つまたは複数の追加のインデックスバーコードは、細胞バーコードである。他の態様では、1つまたは複数の追加のインデックスバーコードは、尺度または非修復DNA末端長を提供するバーコードである。したがって、本明細書で提供される核酸分子を標識するための方法におけるバーコードは、試料バーコード、分子バーコード、細胞バーコード、非修復DNA末端長の尺度を提供するバーコード、任意の他のインデックスバーコード、またはこれらの任意の組合せを含むことができる。したがって、本明細書で提供される核酸分子を標識するための方法におけるバーコードは、試料インデックス位置、分子インデックス位置、および互いの間に散在している、例えば細胞インデックス位置などの、任意の他のインデックス位置を含むことができる。本明細書で提供される核酸分子を標識するための方法におけるバーコードのいずれのインデックス位置も、ヌクレオチドの特定の連続したストレッチまたはブロックに限定される必要がない。インデックスバーコードおよびインデックス位置は、全てのインデックス位置に互いに隣接していることを必要としない、いずれの配置であってもよい。
本明細書で提供される試料中の核酸分子を標識するための方法におけるオリゴヌクレオチドのセット内の各オリゴヌクレオチドは、非バーコード位置をさらに含むことができる。オリゴヌクレオチドに含まれる非バーコード位置は、ハイブリダイゼーションのための部位、増幅のための部位、配列プライマー結合のための部位、ならびにハイブリダイゼーション、配列プライマー結合および増幅のための部位を含むことができる。ハイブリダイゼーションのための部位、配列プライマー結合、および増幅のための部位は、約5、約6、約7、約8、約9、約10、約11、約12、約13、約14、約15、約16、約17、約18、約19、約20、約21、約22、約23、約24、約25、約26、約27、約28、約29、約30、またはそれより多くのヌクレオチドを含むことができる。ハイブリダイゼーションのための部位は、例えば、プローブの結合のための部位を含むことができる。増幅のための部位は、例えば、プライマー結合部位を含むことができる。ハイブリダイゼーションのための部位、配列プライマー結合、および増幅のための部位は、互いに明確に異なることがある。ハイブリダイゼーションのための部位、配列プライマー結合、および増幅のための部位は、オーバーラップしていることもある。ハイブリダイゼーションのための部位、配列プライマー結合、および増幅のための部位は、いかなる程度にオーバーラップしていてもよい。一部の態様では、ハイブリダイゼーションのための部位、配列プライマー結合、および増幅のための部位は、約1、約2、約3、約4、約5、約6、約7、約8、約9、約10、約11、約12、約13、約14、約15、約16、約17、約18、約19、約20、約21、約22、約23、約24、約25、約26、約27、約28、約29、約30、またはそれより多くのヌクレオチドがオーバーラップしている。一部の態様では、ハイブリダイゼーションのための部位、配列プライマー結合、および増幅のための部位は、完全にオーバーラップしている。他の態様では、ハイブリダイゼーションのための部位、配列プライマー結合、および増幅のための部位のオーバーラップはない。
誤った配列リード特定するための方法
一実施形態では、本発明は、誤った配列リードを特定するための方法であって、(a)複数のオリゴヌクレオチドを試料の核酸分子に付着させるステップであって、各オリゴヌクレオチドが、(i)1つまたは複数の特定のヌクレオチドを含む所定数の試料インデックス位置を含む試料バーコードであって、試料インデックス位置の場所が、試料間で変動し、同じ試料バーコードが、試料中の核酸分子の各末端に付着されている、試料バーコード、および(ii)試料インデックス位置のヌクレオチドとは異なるヌクレオチドを含む分子インデックス位置を含む分子バーコードを含むバーコードを含み、試料インデックス位置および分子インデックス位置が、連続した塩基のストレッチ内に散在している、ステップ;および(b)核酸分子をシークエンシングするステップであって、配列リードがバーコード配列を含む、ステップを含み、それによって誤った配列リードを特定する方法を提供する。
本明細書で使用される場合、用語「誤った配列リード」は、本明細書に記載される方法により特定され得るあらゆるシークエンシングエラーを指すように意図されている。
一態様では、誤った配列リードを特定することは、一致しない試料バーコードを有する核酸分子を特定することを含む。
本明細書で記載される方法は、核酸分子の各末端への同じ試料バーコードの付着に頼る。用語「一致しない試料バーコード」は、シークエンシング用の核酸の調製中のエラーの発生の結果として、核酸分子がその核酸分子の各末端において異なるバーコードに付着されるケースを指す。この結果、分子ファミリーへの誤った割り当てが生じることになり得、ひいては配列リードの適切な解析に干渉し得る。
一部の態様では、シークエンシングエラーは、配列リードの両末端の試料バーコードを比較することにより、さらに修正される。他の態様では、一致しない試料バーコードを有する核酸分子は、さらに、配列リードからおよび/または分子ファミリーから除去される。
別の態様では、一致しない試料バーコードを有する核酸分子を特定することは、ミスプライミングされた核酸分子を特定することを含む。
本明細書で使用される場合、「ミスプライミングされた核酸分子」は、複数の分子バーコード対を含有する核酸分子を指すことができる。そのようなケースでは、分子の数が、間違って増加することがあり、および/または間違った試料が、正しくない分子リードに割り当てられることがあり、これらのことは、リードバリアントの頻度および/または同一性に悪影響を与えることがある。両方のケースが、結果の解析および臨床的解釈上の問題点をもたらす。
一部の態様では、ミスプライミングされた核酸分子は、適切なバーコードで修正され、配列品質を向上させるために使用される。他の態様では、修正されたバーコードを有する核酸分子は、修正されたリードファミリーに割り当てられる。
様々な態様では、修正されたリードファミリーは、明確に異なるカバレッジを正確に決定するために使用される。一部の態様では、明確に異なるカバレッジの決定は、核酸分子のライブラリーを評価するために使用される。
一態様では、方法は、配列リードを、分子インデックス位置の場所および各分子インデック位置のヌクレオチドに基づいて分子ファミリーに割り当てるステップをさらに含む。一部の態様では、誤った配列リードを特定することは、複数の分子ファミリーに割り当てられた核酸分子を特定することを含む。他の態様では、複数の分子ファミリーに割り当てられた核酸分子は、配列リードからおよび/または分子ファミリーからさらに除去される。
本明細書で使用される場合、単数形「1つの(a)」、「1つの(an)」および「その(the)」は、文脈による別段の明確な指示がない限り、複数の言及対象を含む。したがって、例えば、「方法(the method)」への言及は、本開示などを読めば当業者には明らかになる、本明細書に記載されるタイプの1つまたは複数の方法および/またはステップを含む。
別段の定義がない限り、本明細書で使用される全ての専門および科学用語は、本発明が属する技術分野の当業者によって一般に理解されているのと同じ意味を有する。
量、持続時間などのような、測定可能な値に言及するときに本明細書で使用される「約」は、指定された値から±20%または±10%、または±5%、またはさらには±1%の変動量を包含するように意図されている。そのような変動量は、開示される組成物に、または開示される方法を行うために、妥当であるからである。
本明細書で使用される場合、用語「核酸」は、任意のデオキシリボ核酸(DNA)分子、リボ核酸(RNA)分子、または核酸類似体を指す。DNAまたはRNA分子は、二本鎖状であってもまたは一本鎖状であってもよく、いずれのサイズのものであってもよい。例示的な核酸としては、染色体DNA、プラスミドDNA、cDNA、無細胞DNA(cfDNA)、血中循環腫瘍DNA(ctDNA)、mRNA、tRNA、rRNA、siRNA、マイクロRNA(miRNAまたはmiR)、hnRNAが挙げられるが、これらに限定されない。例示的な核酸類似体としては、ペプチド核酸、モルホリノおよびロックド核酸、グリコール核酸、ならびにトレオース核酸が挙げられる。本明細書で使用される場合、用語「核酸分子」は、例えば、任意の完全長または非断片化核酸分子だけでなく、核酸分子の断片も含むように意図されている。
本明細書で使用される場合、用語「ヌクレオチド」は、リボ核酸とデオキシリボ核酸の両方の個々の単位、ならびにヌクレオシドおよびヌクレオチドアナログ、ならびに修飾ヌクレオチド、例えば、標識されたヌクレオチドを含む。加えて、「ヌクレオチド」は、天然に存在しない類似体構造、例えば、糖単位、リン酸単位および/または塩基単位が非存在であるか、または他の化学構造により置き換えられているものを含む。したがって、用語「ヌクレオチド」は、個々のペプチド核酸(PNA)(Nielsen et al, Bioconjug. Chem. 1994; 5(1):3-7)およびロックド核酸(LNA)(Braasch and Corey, Chem. Biol. 2001; 8(1): 1-7)単位ならびに他の同様の単位を包含する。
本明細書で使用される場合、用語「対象」は、本明細書で開示される方法が行われる任意の個体または患者を指す。用語「対象」は、用語「個体」または「患者」と同義で使用され得る。対象は、ヒトであり得るが、対象は、当業者には分かるように、動物であってもよい。したがって、げっ歯類(マウス、ラット、ハムスターおよびモルモットを含む)、ネコ、イヌ、ウサギ、家畜(ウシ、ウマ、ヤギ、ヒツジ、ブタなどを含む)、および霊長類(サル、チンパンジー、オランウータンおよびゴリラを含む)などの、哺乳動物を含む、他の動物は、対象の定義の中に含まれる。対象は、植物または微生物であることもある。
本明細書で使用される場合、用語「処置する」、「処置」、「治療」、「治療の」およびこれらに類する用語は、進行を緩和すること、遅らせることもしくは緩徐化すること、作用または症状を軽減すること、発病を防止すること、疾患または障害の発病を抑制、軽快させること、疾患、障害または医学的状態に関して有益なまたは所望の結果、例えば、治療利益および/または予防利益を得ること、を含むがこれらに限定されない、所望の薬理学的および/または生理学的効果を得ることを指す。「処置」は、本明細書で使用される場合、哺乳動物における、特にヒトにおける、疾患のあらゆる処置を包含し、(a)疾患の素因を有するまたは疾患を獲得するリスクがある可能性があるがまだ疾患を有すると診断されていない対象において疾患が起こるのを防ぐこと;(b)疾患を抑制すること、すなわち、その発症を抑止すること;および(c)疾患を和らげること、すなわち、疾患の退行を生じさせることを含む。治療利益は、処置されることになる基礎障害の根絶または軽快を含む。また、治療利益は、対象が依然として基礎障害に罹患している可能性があるにもかかわらず対象に改善が見られるような、基礎障害に関連する生理的症状の1つもしくは複数についての根絶または軽快により実現される。一部のケースでは、予防利益のために、特定の疾患を発症するリスクがある対象に処置が投与されるか、または疾患の生理的症状の1つもしくは複数を報告する対象に、たとえこの疾患の診断が下されていなくても、処置が投与される。本開示の方法を任意の哺乳動物または他の動物に対して使用することができる。一部のケースでは、処置は、症状の減少または消滅をもたらすことができる。予防効果は、疾患もしくは状態の出現を遅らせる、もしくはなくならせること、疾患もしくは状態の症状の開始を遅らせる、もしくはなくならせること、疾患もしくは状態の進行を緩徐化する、停止させる、もしくは逆行させること、またはこれらの任意の組合せを含む。
(実施例1)
本実施例は、多重インデックス付加試料のための浮動/デジタルバーコードの設計を説明する。
浮動またはデジタルバーコードの所与の位置におけるヌクレオチドの存在または非存在は、消費者製品バーコード(UPC)に類似した情報内容を提供する(図1)。インデックスが異なれば、ヌクレオチドまたは「バー」が移動または浮動する位置も異なり、それらの新しい位置は交互のインデックスを示す。可能性のあるバーコードの数は、利用可能な配列場所が増加するので急増する。一次インデックスに使用しない位置を二次またはさらなるインデックスに使用することができる。単一細胞シークエンシングなどの方法において有用となる、さらなるインデックス付加レベルを含むことも可能である。単一細胞シークエンシングの場合、例えば、試料インデックス、細胞インデックスおよび分子インデックスの全てを単一のバーコード内に有することが可能になる。バーコードを作成するための条件の選択に依存して、異なる数の一次および二次バーコードが利用可能であり、エラー検出およびエラー修正の強度を必要に応じて調整することができる。
試料中の異なる分子の数は通常は非常に多く、100万またはそれより多くの分子が試料ごとにシークエンシングされる。そのような多数の分子を用いる場合は、各分子バーコードの個々のオリゴヌクレオチドを合成し、精製することは、一般に不可能である。多くの場合、複数の位置で縮重ヌクレオチドを使用することにより、異なる分子を区別するために必要とされる多様性が得られる。通常は、定義された試料バーコードおよびランダムに選ばれた分子バーコードは、解析のために互いに隔離される。浮動/デジタルバーコードシステムを用いる場合は、複数のタイプのバーコードが領域内に混在する。
標準的な固定長バーコードと比較して、これは、配列を参照と直接比較しない、場所に基づく方法を使用する、基本的に異なる試料インデックス付加方法を意味する。試料バーコードの場所は試料によって異なり、その場所を使用して試料ファミリーを特定する。標準バーコードを用いる場合は、配列を互いに比較し、完璧またはほぼ完璧な配列同一性のものを試料ファミリーとして1つのグループにまとめる。浮動/デジタルバーコードを用いる場合は、配列を互いに直接比較せず、むしろ、デジタル+/-方式で場所を示すために配列を使用する。したがって、+/-場所データを、旧来の製品バーコード(図1)と同様に試料を区別するために使用する。図1に示されている例では、ヌクレオチド「A」を有する一切の位置が試料バーコードの一部であり、その一方で、一切の他のヌクレオチドが分子バーコードの一部である。「A」をシークエンシングするたびに、その場所を記し、試料ファミリーの決定に使用する。
新しいタイプのバーコードを、例えば以下のものをはじめとする複数の要件に基づいて設計した:(1)いずれの実行時にも試料および分子の数に対応するのに十分な一意のバーコードがなければならない;(2)各分子リードの異なる末端にある組み合わせた試料/分子バーコードは、異なるものでなければならないが、大容量シークエンサーでのインデックスホッピングを検出するために予測可能な試料バーコードでなければならない;(3)バーコードは、配列品質に影響を与える広範なポリヌクレオチド反復も極端な塩基組成も含有してはならない;(4)分子インデックスは、可能性のある分子全てを区別するために高度に可変的でなければならない;および(5)試料バーコード設計は、実行可能なオリゴヌクレオチド合成数に対応するものでなければならない。
浮動またはデジタルバーコードの新規設計は、上記の基準を満たす。この新規バーコード設計は、例えば、NextSeqおよびNovaSeq Illuminaシークエンサーに既に対応している比較的短い配列内にこれらの特徴の全てを組み込むことができる。他のシークエンシングシステムに対応するように同じまたは同様の設計を行うことができる。
新しい浮動/デジタルバーコードは、隣接位置にある試料バーコードと分子バーコードを混ぜ、直接配列比較ではなく場所情報を使用して、試料ファミリーを割り当てる。任意の所与の位置のヌクレオチド配列を使用して、その位置を試料位置として指定すべきか、分子位置として指定すべきかを決定する。次いで、この場所情報を、バーコードの決定および試料ファミリーの割り当てに使用する。試料バーコード場所の数が、予想数または位置とマッチしなかった場合、分子を廃棄することができるか、またはバーコードの修正を試みることができる。これらのバーコードの設計は、バーコードおよびクラスの柔軟な分配を可能にするものであり、したがって、マルチプレックス試料を含む様々な応用において、シークエンシング実行時に、またはリードを特定の試料および細胞に割り当てる必要がある単一細胞アプローチで、それを使用することができる。
バーコードの多くの配置が可能である。多くの可能性の一例として、試料インデックスは、常にヌクレオチド「A」であり得、その一方で、分子インデックスは、他のヌクレオチドのいずれか(C、G、T)であり得る。IUPAC命名法を使用すると、C、GまたはTは、記号「B」により表され、A、CまたはGは、記号「V」により表される。この方法で使用される可能性がある配列の例を、図2A~2Cに示す。
所与の数の位置について可能なバーコードの数(n)を、以下の方程式から算出することができる:
Cr=n!/r!(n-r)!
式中、nは、可能な位置の数であり、rは、埋められる位置の数である。様々な配列サイズについての可能性の最大数を表1に示す。
Figure 2023521687000002
各位置において、二値選択によって、その位置が分子インデックスとして使用されるのか、試料インデックス位置として使用されるのかが決定される。配列が、試料インデックス配列(例えば、A)にマッチする場合、その配列は、試料バーコードの一部である。その配列が、マッチしない場合(例えば、C、GまたはT)、その配列は、縮重分子インデックスの一部である。図2Cに示されている例では、各20ntセグメント内の、7カ所以下の位置が、試料インデックス位置に割り振られ、13またはそれより多くの位置が、3重に縮重しており、そのため各試料バーコード20ntストレッチは、313重、すなわち1,594,323重に縮重していることになる。各分子は2つのそのようなバーコードを有するので、いずれの個々の分子も1,594,323重、すなわち2.5兆重に縮重していることになり得る。
図3Aに示されているように、多くのタイプの標準アダプターは、異なるアダプターオリゴヌクレオチド上に位置する縮重分子バーコードおよび固定試料バーコードを有する(配列番号1および2を参照されたい)。これは、図3Bに示されているような2つが混在する浮動バーコードには当てはまらない(配列番号5および6を参照されたい)。
試料および分子バーコードのエラー修正およびパターンは、様々な形をとり得る。体細胞変異体のシークエンシングなどの一部のケースでは、リードが誤ったものに割り当てられないことが重要である。したがって、ロバストなエラー検出および修正が行われることが重要である。例えば、固定数の試料バーコード位置がある場合、その数にマッチすることは、ある種の品質チェックになる。バーコードが選択長でなかった場合、特定の分子にシークエンシングエラーがあるに違いない。予想バーコードに基づいてエラーを修正することが可能であることもあり、または誤った割り当てを回避するために全体の結果から配列を消去する必要があることもある。あるいは、可変数の試料バーコード位置を使用することが可能であるが、任意の単一シークエンシングエラーを許容可能なパターンに基づいて検出することおよび修正することができるように、それらを生成することが可能である。そのようなケースでは、あらゆる試料バーコードは、少なくとも2つまたは少なくとも3つもしくはそれより多くの変化により、全ての他の試料バーコードとは異なる。他のケースでは、低頻度の誤った割り当ては、大きな問題点にならない可能性があり、最大数のバーコードをもたらすことのほうが重視される。これは、一部のタイプのエラー検出/修正を妨げることがあるが、それでも同じ分子の両末端のバーコードの比較を可能にする。
試料バーコードを表す単一ヌクレオチドに加えて、他の変形形態が可能である。例えば、試料(または細胞)バーコードを、固定AまたはTのどちらかで表すことができ、分子バーコードを縮重G/Cにより表すことができるだろう。この配置は、さらに多くの試料/細胞バーコードを、より少ない分子バーコードとともに生成する。試料/分子バーコード位置の数および縮重を変更することにより、目下の応用に向けて両方の数を最適化することが可能になる。
浮動またはデジタルバーコードシステムは、同じ試料バーコードを同じ核酸分子の両末端に置くことを可能にする。旧来のDNAバーコードを用いた場合には、同じ試料バーコードを同じ分子の両末端で使用することができない。同一の標準試料バーコードを同じ分子の両末端に配置すると、異なる分子がクロスハイブリダイズし、その結果、増幅中にアーチファクトのキメラ分子を生成するリスクが高くなる可能性がある。分子の両末端に同じバーコード配列を用いた場合には、2つの最も3’側の領域がハイブリダイズし、部分的に重複した分子を生成する可能性がある。標準試料バーコードが増幅中の試料中に何百万倍も存在する可能性があるので、キメラ分子形成の可能性は高い(図4ならびに配列番号7および8を参照されたい)。これは、浮動バーコードには当てはまらない。同じ試料バーコードを用いたとしても、連続した同一の塩基の長いストレッチが存在しないからである。浮動アダプターの試料バーコードは、短い相同領域しか有さないので、非特異的相互作用およびキメラ形成のリスクがほとんどない。したがって、同じ試料バーコードを同じ分子の両末端に配置することができ、それによって2つのバーコードを他方におけるエラーと比較することが可能になる。いずれのエラーも見つからなかった場合、試料を高い信頼度で割り当てることができる。2つのバーコードが同一でなかった場合、それらを、許容されるバーコードのリストと比較し、それに基づいて修正することができる。各インデックスに使用するバーコードの数によって、エラーを修正することができる程度が決まる。
したがって、低いキメラ形成リスクで、同じ分子の両末端に同じ試料バーコードを置くことができることは、単純だが強力なエラー修正の可能性をもたらす。同一性を検証するために分子の各末端の試料バーコードを比較するだけである。同じ場合には、分子を適切な試料ファミリーに入れることができる。それらがマッチしなかった場合には、両方を試料バーコードの許容可能なセットと比較することができ、間違ったバーコードを修正することができる可能性がある。本方法は、分子を適切な試料ファミリーに最小限のリード喪失で確実に割り当てる強力な方法を提供する。試料バーコード修正の例を表2に示す。バーコード間の編集距離によって、どの程度、バーコードが修正されるのかが決まることになり、編集距離が長いときほど、バーコードを修正する能力およびリードを保持する能力が高い。
同じ分子の異なる末端の試料バーコードの一致の欠如は、試料調製における問題のあるプロセスの証拠となる。マッチしない試料バーコードにより証明されるようなキメラ分子の頻度をモニターすることにより、ライブラリー調製およびシークエンシングの手法を改善することができる。
特定の分子バーコードが、複数の異なる分子バーコードとマッチし、ミスマッチの数が、それが単にシークエンシングエラーに起因しないことを示す場合、それは、1つまたは複数の分子リードがミスマッチであることを示す。分子対の相対頻度を使用して、どれが主要な種であり、そのままで使用することができるのか、およびどれがアーチファクトであり、修正または除去を必要とする可能性が高いのかを決定することができる。i5およびi7アダプターが一対の試料にどのように分布しているのかの内訳については表3を参照されたい。正しいおよび修正可能なバーコードは、直接的に使用することができるが、ミスプライミングされた分子は、リードを復旧させるべき場合、より複雑な解析を必要とする。どのリードがミスプライミングされたのかが分からないと、正しくない情報が解析に組み込まれる可能性がある。ミスプライミングがどこで起こったのかを知ることにより、配列リードの適切な取り扱いが可能になる。ミスプライミングは、それを確実に検出することができる十分に低いレベルである場合にしか修正することができない。
図6に示されているように、ライゲーションステップにおけるアダプターの過剰は、残留アダプターがPCRプライマー(例えば、配列番号3および4)により伸長され、続いて、その後の増幅段階で使用される場合、大きな問題につながり得る。0.2μMおよびそれ未満で、ミスプライミングのレベルは比較的低いが、0.5μMおよびそれより上ではかなり増大する。
Figure 2023521687000003
Figure 2023521687000004
まとめると、新規浮動またはデジタルバーコードを設計するためのアプローチの基本的な差異は、特定のヌクレオチド配列ではなくバーコードとしてのヌクレオチドの場所の使用であった。バーコードの数およびエラー修正の方法の柔軟性を可能にするこのテーマの複数の可能な変形形態がある。これらの新しいバーコードの恩恵の一部としては、(1)試料および分子ファミリーへのNGSリードの割り当ての改善;(2)複合試料のためのオリゴ合成/精製数の低減;(3)縮重領域における問題のあるホモポリマーおよびGCリッチストレッチの数の低減が挙げられる。
(実施例2)
本実施例は、試料に伴う浮動バーコードについての試験を説明する。
浮動バーコードを試験するために、最大感度でリードミスマッチを検出するように実験を設計した。標準的なライブラリー調製プロトコールを使用した。標準バーコードと浮動バーコードの間に収率の有意差は認められなかった。
誤った割り当てを検出するために、3つの試料を調製し、標準バーコードと浮動バーコードの両方と並行してシークエンシングした。異なるバーコードを使用して各試料を調製した。3つの試料は、ヒトDNAの標的パネルを使用して捕捉したヒトDNA、ならびにせん断したが選択的に捕捉していないE.coliおよびArabidopsis thalianaからのゲノムDNAであった。20ntインデックスシークエンシングのための同じNextSeqシークエンシング実行時に6つの試料全てを実行した。次いで、得られたリードを、1回は標準バーコードを使用し、1回は浮動バーコードを使用して、2回、多重分離した。次いで、リードを別々に解析して、どのゲノムリードがアラインしたのかを見た。アラインされたヒト配列に関して、最初のアルゴリズムは、標準アラインメントと同様に良好であるかまたはそれより良好であり、図5に示されているようにE.coliおよびArabidopsis thalianaに割り当てられたバーコードへのリードアラインメントは0.002%未満であった。オフターゲットリードマッピングが少ないほど、招いたリード割り当てエラー率は低かった。
これらのデータは、浮動またはデジタルバーコードが、標準バーコードと比較して良好に機能したことを示す。例えば、遮断薬の変更を含む、実験室プロトコールの最適化、ならびに例えば、多重分離、エラー修正、およびリードファミリーの生成のためのソフトウェアを含む、ソフトウェア/アルゴリズムによって、配列解析についての浮動またはデジタルバーコードで得られる結果がさらに向上されるであろう。加えて、浮動またはデジタルバーコードを、複数のインデックスが有用である様々な応用において、例えば、1つ、2つ、3つ、またはそれより多くのインデックスが、例えば、分子、細胞および/または試料特性のマーキングならびにそれぞれのカテゴリーへのグループ化に有用である、単一細胞解析およびシステムでの細胞のマーキングにおいて、使用することができる。
まとめると、新規浮動またはデジタルバーコードシステムは、解析の複数の利点、例えば、柔軟性、より低いオリゴ合成コスト、および例えば、現行のエラー修正方法に比べて正しい試料および分子ファミリーへのリードのより良好な割り当てに至る改善を、意外にも、かつ驚くべきことに提供する、容易なエラー修正方法を提供する。
(実施例3)
本実施例は、どのように浮動バーコードを使用して、誤って割り当てられた分子リードを特定し、試料から除去することができるのかを説明する。
試料バーコードは、各分子の両末端において符号化されるので、エラー修正、および複数の試料から生じる望ましくないキメラ分子が有意な程度に発生していないことの確認の両方のために、バーコードを比較することがある。図6に示されているように、キメラ分子の形成は、たとえ標準条件を使用しても、大きな問題点であり得る。この問題は、同じ分子が複数の分子バーコード対を獲得し、分子の数をアーチファクトにより増加させる形、または間違った試料を分子リードに割り当て、その結果、バリアントの頻度または同一性が正しくなくなるという形をとり得る。両方の状況が、結果の臨床的解釈に影響を与え得る分析上の問題点をもたらす。
ライブラリー調製における増幅プライマーの絶対および相対濃度は、バーコードの効率および精度の変動を生じさせる。アダプターの初期濃度が高いほど、ライゲーションの効率が高くなり、回収することができる試料の割合が多くなる。残念なことに、過剰なアダプターは、アダプターが増幅され、プライマーとして使用されると、追加のバーコードがライゲーション段階だけでなく増幅中に付加されることになるという、増幅上の問題点をもたらし得る(図7)。増幅中に新しい試料バーコードが付加されると、リードが間違った試料に割り当てられ、バリアントの頻度または存在の精度が低下することになる。増幅中に新しい分子バーコードが付加されると、各分子は複数のバーコード対を有し、その結果、分子の多様性が過大評価されることになり、そのような多様性によってそれらのリードのエラー修正がより困難にまたは不可能になる。標準バーコードを用いた場合には、これらの問題の程度を測定することさえできない。浮動バーコードを用いた場合には、このような問題点が容易に検出され、その結果、方法を改善して精度を最適化することができる。
(実施例4)
分子バーコードは、ランダムであるが、試料バーコード内に散在しているため、問題を引き起こし得る完全にランダムな塩基の長いストレッチを含有しない。完全にランダムなバーコードは、100%GCであり得るが、20ntの全配列は、全てAまたは全てTであり得る試料バーコードを含有しなければならず、それ故、GC含有量の上限、通常は65%、が設定される。このことによって、長いホモポリマーも防止される。完全にランダムなバーコードは、数百のコピーで存在し得る、ある特定の配列を有することが示されているが、ほとんどの配列は、数回しか存在しない。[Kinde I, Wu J, Papadopoulos N, Kinzler KW, Vogelstein B. Detection and quantification of rare mutations with massively parallel sequencing. Proc Natl Acad Sci U S A. 2011 Jun 7;108(23):9530-5. doi: 10.1073/pnas.1105422108. Epub 2011 May 17. PMID: 21586637; PMCID: PMC3111315]。有意に過剰に存在するバーコードがほとんどない、これらの分子バーコードのより均一な含有量を図8に示す。
本発明を、上記実施例に関して説明したが、修飾形態および変形形態が本発明の趣旨および範囲内に包含されることは理解されるであろう。したがって、本発明は、以下の特許請求の範囲によってのみ限定される。

Claims (71)

  1. 試料中の核酸分子を標識するためのシステムであって、
    複数のバーコードを含むオリゴヌクレオチドのセットを含み、各バーコードが、
    (i)1つまたは複数の特定のヌクレオチドを含む所定数の試料インデックス位置を含む試料バーコードであって、試料インデックス位置の場所が試料間で変動する、試料バーコードと、
    (ii)試料インデックス位置の前記ヌクレオチドとは異なるヌクレオチドを含む分子インデックス位置を含む分子バーコードと
    を含む、連続した塩基のストレッチを含み、
    試料インデックス位置が分子インデックス位置の間に散在している、システム。
  2. 所定数の前記試料バーコードの位置が、異なる試料バーコード間で変動する、請求項1に記載のシステム。
  3. 前記バーコードが、約10~約35のヌクレオチドを含む、請求項1に記載のシステム。
  4. 前記バーコードが、約12~約25のヌクレオチドを含む、請求項1に記載のシステム。
  5. 前記試料バーコードが、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19もしくは20カ所の試料インデックス位置、またはこれらの組合せを含む、請求項1に記載のシステム。
  6. 前記試料バーコードが、約4~約12カ所の試料インデックス位置を含む、請求項1に記載のシステム。
  7. 前記分子バーコードが、約5~約25カ所の分子インデックス位置を含む、請求項1に記載のシステム。
  8. 前記分子バーコードが、約5~約15カ所の分子インデックス位置を含む、請求項1に記載のシステム。
  9. 試料インデックス位置ヌクレオチドおよび分子インデックス位置ヌクレオチドが、
    (A)前記試料インデックス位置ヌクレオチドが、Aであり、前記分子インデックス位置ヌクレオチドが、C、G、T、もしくはこれらの組合せであるか;
    (B)前記試料インデックス位置ヌクレオチドが、Tであり、前記分子インデックス位置ヌクレオチドが、C、G、A、もしくはこれらの組合せであるか;
    (C)前記試料インデックス位置ヌクレオチドが、Cであり、前記分子インデックス位置ヌクレオチドが、G、A、T、もしくはこれらの組合せであるか;
    (D)前記試料インデックス位置ヌクレオチドが、Gであり、前記分子インデックス位置ヌクレオチドが、C、A、T、もしくはこれらの組合せであるか;
    (E)前記試料インデックス位置ヌクレオチドが、A、T、もしくはこれらの組合せであり、前記分子インデックス位置ヌクレオチドが、C、G、もしくはこれらの組合せであるか;
    (F)前記試料インデックス位置ヌクレオチドが、A、C、もしくはこれらの組合せであり、前記分子インデックス位置ヌクレオチドが、T、G、もしくはこれらの組合せであるか;
    (G)前記試料インデックス位置ヌクレオチドが、A、G、もしくはこれらの組合せであり、前記分子インデックス位置ヌクレオチドが、T、C、もしくはこれらの組合せであるか;
    (H)前記試料インデックス位置ヌクレオチドが、T、C、もしくはこれらの組合せであり、前記分子インデックス位置ヌクレオチドが、A、G、もしくはこれらの組合せであるか;
    (I)前記試料インデックス位置ヌクレオチドが、T、G、もしくはこれらの組合せであり、前記分子インデックス位置ヌクレオチドが、A、C、もしくはこれらの組合せであるか;または
    (J)前記試料インデックス位置ヌクレオチドが、G、C、もしくはこれらの組合せであり、前記分子インデックス位置ヌクレオチドが、A、T、もしくはこれらの組合せである、
    から選択される、請求項1に記載のシステム。
  10. 各バーコードが、インデックス位置を含む1つまたは複数の追加のインデックスバーコードを含む、請求項1に記載のシステム。
  11. 前記1つまたは複数の追加のインデックスバーコードが、細胞バーコードであるか、非修復末端のDNA長の尺度を提供するバーコードであるか、または細胞バーコードと、非修復末端のDNA長の尺度を提供するバーコードの両方である、請求項10に記載のシステム。
  12. オリゴヌクレオチドの前記セット内の各オリゴヌクレオチドが、ハイブリダイゼーションのための部位、配列プライマー結合のための部位、増幅のための部位、またはこれらの任意の組合せを含む非バーコード位置をさらに含む、請求項1に記載のシステム。
  13. 複数のバーコードを含む試料中の核酸分子を標識するためのオリゴヌクレオチドのセットであって、各バーコードが、
    (i)1つまたは複数の特定のヌクレオチドを含む所定数の試料インデックス位置を含む試料バーコードであって、試料インデックス位置の場所が試料間で変動する、試料バーコードと、
    (ii)試料インデックス位置の前記ヌクレオチドとは異なるヌクレオチドを含む分子インデックス位置を含む分子バーコードと
    を含み、
    試料インデックス位置および分子インデックス位置が、連続した塩基のストレッチ内に散在している、オリゴヌクレオチドのセット。
  14. 所定数の前記試料バーコードの位置が、異なる試料バーコード間で変動する、請求項13に記載のオリゴヌクレオチドのセット。
  15. 前記バーコードが、約10~約35のヌクレオチドを含む、請求項13に記載のオリゴヌクレオチドのセット。
  16. 前記バーコードが、約12~約25のヌクレオチドを含む、請求項13に記載のオリゴヌクレオチドのセット。
  17. 前記試料バーコードが、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19もしくは20カ所の試料インデックス位置、またはこれらの組合せを含む、請求項13に記載のオリゴヌクレオチドのセット。
  18. 前記試料バーコードが、約4~約12カ所の試料インデックス位置を含む、請求項13に記載のオリゴヌクレオチドのセット。
  19. 前記分子バーコードが、約5~約25カ所の分子インデックス位置を含む、請求項13に記載のオリゴヌクレオチドのセット。
  20. 前記分子バーコードが、約5~約15カ所の分子インデックス位置を含む、請求項13に記載のオリゴヌクレオチドのセット。
  21. 試料インデックス位置ヌクレオチドおよび分子インデックス位置ヌクレオチドが、
    (A)前記試料インデックス位置ヌクレオチドが、Aであり、前記分子インデックス位置ヌクレオチドが、C、G、T、もしくはこれらの組合せであるか;
    (B)前記試料インデックス位置ヌクレオチドが、Tであり、前記分子インデックス位置ヌクレオチドが、C、G、A、もしくはこれらの組合せであるか;
    (C)前記試料インデックス位置ヌクレオチドが、Cであり、前記分子インデックス位置ヌクレオチドが、G、A、T、もしくはこれらの組合せであるか;
    (D)前記試料インデックス位置ヌクレオチドが、Gであり、前記分子インデックス位置ヌクレオチドが、C、A、T、もしくはこれらの組合せであるか;
    (E)前記試料インデックス位置ヌクレオチドが、A、T、もしくはこれらの組合せであり、前記分子インデックス位置ヌクレオチドが、C、G、もしくはこれらの組合せであるか;
    (F)前記試料インデックス位置ヌクレオチドが、A、C、もしくはこれらの組合せであり、前記分子インデックス位置ヌクレオチドが、T、G、もしくはこれらの組合せであるか;
    (G)前記試料インデックス位置ヌクレオチドが、A、G、もしくはこれらの組合せであり、前記分子インデックス位置ヌクレオチドが、T、C、もしくはこれらの組合せであるか;
    (H)前記試料インデックス位置ヌクレオチドが、T、C、もしくはこれらの組合せであり、前記分子インデックス位置ヌクレオチドが、A、G、もしくはこれらの組合せであるか;
    (I)前記試料インデックス位置ヌクレオチドが、T、G、もしくはこれらの組合せであり、前記分子インデックス位置ヌクレオチドが、A、C、もしくはこれらの組合せであるか;または
    (J)前記試料インデックス位置ヌクレオチドが、G、C、もしくはこれらの組合せであり、前記分子インデックス位置ヌクレオチドが、A、T、もしくはこれらの組合せである、
    から選択される、請求項13に記載のオリゴヌクレオチドのセット。
  22. 各バーコードが、インデックス位置を含む1つまたは複数の追加のインデックスバーコードを含む、請求項13に記載のオリゴヌクレオチドのセット。
  23. 前記1つまたは複数の追加のインデックスバーコードが、細胞バーコードであるか、非修復末端のDNA長の尺度を提供するバーコードであるか、または細胞バーコードと、非修復末端のDNA長の尺度を提供するバーコードの両方である、請求項22に記載のオリゴヌクレオチドのセット。
  24. オリゴヌクレオチドの前記セット内の各オリゴヌクレオチドが、ハイブリダイゼーションのための部位、配列プライマー結合のための部位、増幅のための部位、またはこれらの任意の組合せを含む非バーコード位置をさらに含む、請求項13に記載のオリゴヌクレオチドのセット。
  25. 試料中の核酸分子の配列を解析するための方法であって、
    (a)複数のオリゴヌクレオチドを前記核酸分子に付着させるステップであって、各オリゴヌクレオチドが、
    (i)1つまたは複数の特定のヌクレオチドを含む所定数の試料インデックス位置を含む試料バーコードであって、試料インデックス位置の場所が試料間で変動する、試料バーコード、および
    (ii)試料インデックス位置の前記ヌクレオチドとは異なるヌクレオチドを含む分子インデックス位置を含む分子バーコードと
    を含むバーコードを含み、試料インデックス位置および分子インデックス位置が、連続した塩基のストレッチ内に散在している、ステップ;および
    (b)前記核酸分子をシークエンシングするステップであって、配列リードが、バーコード配列を含む、ステップ
    を含む方法。
  26. 同じ試料バーコードを含むオリゴヌクレオチドを前記試料中の核酸分子の各末端に付着させるステップをさらに含む、請求項25に記載の方法。
  27. 所定数の前記試料バーコードの位置が、異なる試料バーコード間で変動する、請求項25に記載の方法。
  28. 前記バーコードが、約10~約35のヌクレオチドを含む、請求項25に記載の方法。
  29. 前記バーコードが、約12~約25のヌクレオチドを含む、請求項25に記載の方法。
  30. 前記試料バーコードが、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19もしくは20カ所の試料インデックス位置、またはこれらの組合せを含む、請求項25に記載の方法。
  31. 前記試料バーコードが、約4~約12カ所の試料インデックス位置を含む、請求項25に記載の方法。
  32. 前記分子バーコードが、約5~約25カ所の分子インデックス位置を含む、請求項25に記載の方法。
  33. 前記分子バーコードが、約5~約15カ所の分子インデックス位置を含む、請求項25に記載の方法。
  34. 試料インデックス位置ヌクレオチドおよび分子インデックス位置ヌクレオチドが、
    (A)前記試料インデックス位置ヌクレオチドが、Aであり、前記分子インデックス位置ヌクレオチドが、C、G、T、もしくはこれらの組合せであるか;
    (B)前記試料インデックス位置ヌクレオチドが、Tであり、前記分子インデックス位置ヌクレオチドが、C、G、A、もしくはこれらの組合せであるか;
    (C)前記試料インデックス位置ヌクレオチドが、Cであり、前記分子インデックス位置ヌクレオチドが、G、A、T、もしくはこれらの組合せであるか;
    (D)前記試料インデックス位置ヌクレオチドが、Gであり、前記分子インデックス位置ヌクレオチドが、C、A、T、もしくはこれらの組合せであるか;
    (E)前記試料インデックス位置ヌクレオチドが、A、T、もしくはこれらの組合せであり、前記分子インデックス位置ヌクレオチドが、C、G、もしくはこれらの組合せであるか;
    (F)前記試料インデックス位置ヌクレオチドが、A、C、もしくはこれらの組合せであり、前記分子インデックス位置ヌクレオチドが、T、G、もしくはこれらの組合せであるか;
    (G)前記試料インデックス位置ヌクレオチドが、A、G、もしくはこれらの組合せであり、前記分子インデックス位置ヌクレオチドが、T、C、もしくはこれらの組合せであるか;
    (H)前記試料インデックス位置ヌクレオチドが、T、C、もしくはこれらの組合せであり、前記分子インデックス位置ヌクレオチドが、A、G、もしくはこれらの組合せであるか;
    (I)前記試料インデックス位置ヌクレオチドが、T、G、もしくはこれらの組合せであり、前記分子インデックス位置ヌクレオチドが、A、C、もしくはこれらの組合せであるか;または
    (J)前記試料インデックス位置ヌクレオチドが、G、C、もしくはこれらの組合せであり、前記分子インデックス位置ヌクレオチドが、A、T、もしくはこれらの組合せである、
    から選択される、請求項25に記載の方法。
  35. 各バーコードが、インデックス位置を含む1つまたは複数の追加のインデックスバーコードを含む、請求項25に記載の方法。
  36. 前記1つまたは複数の追加のインデックスバーコードが、細胞バーコードであるか、非修復末端のDNA長の尺度を提供するバーコードであるか、または細胞バーコードと、非修復末端のDNA長の尺度を提供するバーコードの両方である、請求項35に記載の方法。
  37. 前記配列リードを、試料インデックス位置の場所に基づいて試料ファミリーに割り当てるステップをさらに含む、請求項25に記載の方法。
  38. 前記配列リードを、分子インデックス位置の場所および各分子インデックス位置の前記ヌクレオチドに基づいて分子ファミリーに割り当てるステップをさらに含む、請求項25に記載の方法。
  39. 配列リードにおける試料インデックス位置の数および場所を試料インデックス位置の前記所定数および場所と比較することによりシークエンシングエラーを修正するステップをさらに含む、請求項25に記載の方法。
  40. 配列リードの両末端の試料バーコードを比較することによりシークエンシングエラーを修正するステップをさらに含む、請求項25に記載の方法。
  41. 前記配列リードの各末端の非同一試料バーコードを許容される試料バーコードと比較するための規則を適用するステップを含む、請求項40に記載の方法。
  42. (1)バーコード内のエラーを修正するための、(2)核酸分子の各末端のバーコード間のエラーを修正するための、(3)配列リードを試料ファミリーに多重分離するための、(4)配列リードを分子ファミリーに割り当てるための、またはこれらの任意の組合せのための、1つまたは複数の規則を適用するステップをさらに含む、請求項25に記載の方法。
  43. 各オリゴヌクレオチドが、ハイブリダイゼーションのための部位、配列プライマー結合のための部位、増幅のための部位、またはこれらの任意の組合せを含む非バーコード位置をさらに含む、請求項25に記載の方法。
  44. 配列リードの誤った割り当てを高感度に検出するための、各オリゴヌクレオチドが試験される異なるゲノムの使用をさらに含む、請求項25に記載の方法。
  45. 試料中の核酸分子を標識するための方法であって、複数のオリゴヌクレオチドを、バーコードを含む前記核酸分子に付着させるステップを含み、各バーコードが、
    (i)1つまたは複数の特定のヌクレオチドを含む所定数の試料インデックス位置を含む試料バーコードであって、試料インデックス位置の場所が試料間で変動する、試料バーコードと、
    (ii)試料インデックス位置の前記ヌクレオチドとは異なるヌクレオチドを含む分子インデックス位置を含む分子バーコードと
    を含み、
    試料インデックス位置および分子インデックス位置が、連続した塩基のストレッチ内に散在している、方法。
  46. 同じ試料バーコードを含むオリゴヌクレオチドを、核酸分子の各末端に付着させるステップをさらに含む、請求項45に記載の方法。
  47. 所定数の前記試料バーコードの位置が、異なる試料バーコード間で変動する、請求項45に記載の方法。
  48. 前記バーコードが、約10~約35のヌクレオチドを含む、請求項45に記載の方法。
  49. 前記バーコードが、約12~約25のヌクレオチドを含む、請求項45に記載の方法。
  50. 前記試料バーコードが、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19または20カ所の試料インデックス位置を含む、請求項45に記載の方法。
  51. 前記試料バーコードが、約4~約12カ所の試料インデックス位置を含む、請求項45に記載の方法。
  52. 前記分子バーコードが、約5~約25カ所の分子インデックス位置を含む、請求項45に記載の方法。
  53. 前記分子バーコードが、約5~約15カ所の分子インデックス位置を含む、請求項45に記載の方法。
  54. 試料インデックス位置ヌクレオチドおよび分子インデックス位置ヌクレオチドが、
    (A)前記試料インデックス位置ヌクレオチドが、Aであり、前記分子インデックス位置ヌクレオチドが、C、G、T、もしくはこれらの組合せであるか;
    (B)前記試料インデックス位置ヌクレオチドが、Tであり、前記分子インデックス位置ヌクレオチドが、C、G、A、もしくはこれらの組合せであるか;
    (C)前記試料インデックス位置ヌクレオチドが、Cであり、前記分子インデックス位置ヌクレオチドが、G、A、T、もしくはこれらの組合せであるか;
    (D)前記試料インデックス位置ヌクレオチドが、Gであり、前記分子インデックス位置ヌクレオチドが、C、A、T、もしくはこれらの組合せであるか;
    (E)前記試料インデックス位置ヌクレオチドが、A、T、もしくはこれらの組合せであり、前記分子インデックス位置ヌクレオチドが、C、G、もしくはこれらの組合せであるか;
    (F)前記試料インデックス位置ヌクレオチドが、A、C、もしくはこれらの組合せであり、前記分子インデックス位置ヌクレオチドが、T、G、もしくはこれらの組合せであるか;
    (G)前記試料インデックス位置ヌクレオチドが、A、G、もしくはこれらの組合せであり、前記分子インデックス位置ヌクレオチドが、T、C、もしくはこれらの組合せであるか;
    (H)前記試料インデックス位置ヌクレオチドが、T、C、もしくはこれらの組合せであり、前記分子インデックス位置ヌクレオチドが、A、G、もしくはこれらの組合せであるか;
    (I)前記試料インデックス位置ヌクレオチドが、T、G、もしくはこれらの組合せであり、前記分子インデックス位置ヌクレオチドが、A、C、もしくはこれらの組合せであるか;または
    (J)前記試料インデックス位置ヌクレオチドが、G、C、もしくはこれらの組合せであり、前記分子インデックス位置ヌクレオチドが、A、T、もしくはこれらの組合せである、
    から選択される、請求項45に記載の方法。
  55. 各バーコードが、インデックス位置を含む1つまたは複数の追加のインデックスバーコードを含む、請求項45に記載の方法。
  56. 前記1つまたは複数の追加のバーコードが、細胞バーコードであるか、非修復末端のDNA長の尺度を提供するバーコードであるか、または細胞バーコードと、非修復末端のDNA長の尺度を提供するバーコードの両方である、請求項55に記載の方法。
  57. 各オリゴヌクレオチドが、ハイブリダイゼーションのための部位、配列プライマー結合のための部位、増幅のための部位、またはこれらの任意の組合せを含む非バーコード位置をさらに含む、請求項45に記載の方法。
  58. 多重分離せずに核酸配列データを格納するステップをさらに含む、請求項25~44のいずれか一項に記載の方法。
  59. 多重分離せずに核酸配列データを格納するステップが、多重分離キーの非存在下での配列データの使用を防止し、かつ前記データの不正使用を防止する、請求項58に記載の方法。
  60. 誤った配列リードを特定するための方法であって、
    (a)複数のオリゴヌクレオチドを試料の核酸分子に付着させるステップであって、各オリゴヌクレオチドが、
    (i)1つまたは複数の特定のヌクレオチドを含む所定数の試料インデックス位置を含む試料バーコードであって、試料インデックス位置の場所が、試料間で変動し、同じ試料バーコードが、前記試料中の核酸分子の各末端に付着されている、試料バーコード、および
    (ii)試料インデックス位置の前記ヌクレオチドとは異なるヌクレオチドを含む分子インデックス位置を含む分子バーコード
    を含むバーコードを含み、試料インデックス位置および分子インデックス位置が、連続した塩基のストレッチ内に散在している、ステップ;および
    (b)前記核酸分子をシークエンシングするステップであって、配列リードが、バーコード配列を含む、ステップ
    を含み、それによって、誤った配列リードを特定する方法。
  61. 誤った配列リードを特定することが、一致しない試料バーコードを有する核酸分子を特定することを含む、請求項60に記載の方法。
  62. 配列リードの両末端の試料バーコードを比較することによりシークエンシングエラーを修正するステップをさらに含む、請求項60に記載の方法。
  63. 一致しない試料バーコードを有する前記核酸分子を、前記配列リードからおよび/または分子ファミリーから除去するステップをさらに含む、請求項61に記載の方法。
  64. 一致しない試料バーコードを有する核酸分子を特定することが、ミスプライミングされた核酸分子を特定することを含む、請求項61に記載の方法。
  65. ミスプライミングされた核酸分子が、適切なバーコードで修正され、配列品質を向上させるために使用される、請求項64に記載の方法。
  66. 修正されたバーコードを有する核酸分子が、修正されたリードファミリーに割り当てられる、請求項65に記載の方法。
  67. 修正されたリードファミリーが、明確に異なるカバレッジを正確に決定するために使用される、請求項66に記載の方法。
  68. 明確に異なるカバレッジの決定が、核酸分子のライブラリーを評価するために使用される、請求項67に記載の方法。
  69. 前記配列リードを、分子インデックス位置の前記場所および各分子インデックス位置の前記ヌクレオチドに基づいて分子ファミリーに割り当てるステップをさらに含む、請求項60に記載の方法。
  70. 誤った配列リードを特定することが、複数の分子ファミリーに割り当てられた核酸分子を特定することを含む、請求項69に記載の方法。
  71. 複数の分子ファミリーに割り当てられた前記核酸分子を、前記配列リードからおよび/または分子ファミリーから除去するステップをさらに含む、請求項70に記載の方法。
JP2022560907A 2020-04-07 2021-04-06 浮動バーコード Pending JP2023521687A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063006556P 2020-04-07 2020-04-07
US63/006,556 2020-04-07
PCT/US2021/026043 WO2021207267A1 (en) 2020-04-07 2021-04-06 Floating barcodes

Publications (2)

Publication Number Publication Date
JP2023521687A true JP2023521687A (ja) 2023-05-25
JPWO2021207267A5 JPWO2021207267A5 (ja) 2024-04-18

Family

ID=78023484

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022560907A Pending JP2023521687A (ja) 2020-04-07 2021-04-06 浮動バーコード

Country Status (11)

Country Link
US (1) US20230151356A1 (ja)
EP (1) EP4133110A1 (ja)
JP (1) JP2023521687A (ja)
KR (1) KR20220164753A (ja)
CN (1) CN115698339A (ja)
AU (1) AU2021251780A1 (ja)
BR (1) BR112022020164A2 (ja)
CA (1) CA3176915A1 (ja)
GB (1) GB2609801A (ja)
MX (1) MX2022012594A (ja)
WO (1) WO2021207267A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113999893B (zh) * 2021-11-09 2022-11-01 纳昂达(南京)生物科技有限公司 兼容双测序平台的建库元件、试剂盒及建库方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2625320B1 (en) * 2010-10-08 2019-03-27 President and Fellows of Harvard College High-throughput single cell barcoding
CN110023509A (zh) * 2016-11-15 2019-07-16 私人基因诊断公司 基因型分型测定中的非独特条形码

Also Published As

Publication number Publication date
KR20220164753A (ko) 2022-12-13
EP4133110A1 (en) 2023-02-15
GB2609801A (en) 2023-02-15
GB202215530D0 (en) 2022-12-07
MX2022012594A (es) 2023-02-16
BR112022020164A2 (pt) 2022-11-22
CA3176915A1 (en) 2021-10-14
US20230151356A1 (en) 2023-05-18
AU2021251780A1 (en) 2022-10-20
CN115698339A (zh) 2023-02-03
WO2021207267A1 (en) 2021-10-14

Similar Documents

Publication Publication Date Title
AU2018266377B2 (en) Universal short adapters for indexing of polynucleotide samples
AU2018331434B2 (en) Universal short adapters with variable length non-random unique molecular identifiers
CN110799653A (zh) 用于多重大规模平行测序的最佳索引序列
KR20190117529A (ko) 이종 분자 길이를 가진 고유 분자 인덱스 세트의 생성 및 오류 수정 방법 및 시스템
CN110546272B (zh) 将衔接子附接至样品核酸的方法
CN108138227A (zh) 使用具有独特分子索引(umi)的冗余读段在测序dna片段中抑制误差
CN110872617A (zh) 检测稀有突变和拷贝数变异的系统和方法
CN108753954B (zh) 痴呆相关基因的捕获探针组、试剂盒、文库构建方法和用途
US20230081899A1 (en) Modular nucleic acid adapters
JP2022502343A (ja) 肝癌によく見られた複数の変異を同時に検出するctDNAライブラリーの構築及びシークエンシングデータの分析の方法
WO2013049135A1 (en) Algorithms for sequence determinations
JP2023521687A (ja) 浮動バーコード
CN116065240A (zh) 一种高通量构建rna测序文库的方法及试剂盒
JP7152599B2 (ja) 塩基配列決定のためのモジュール式およびコンビナトリアル核酸試料調製のためのシステムおよび方法
CN111748621A (zh) 一种检测肺癌相关41基因的探针库、试剂盒及其应用
CA3079252A1 (en) Correcting for deamination-induced sequence errors
WO2023119252A1 (en) Compositions and methods for identification of gene fusions

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240408

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240408