JP2023508792A - ハイスループット単一細胞ライブラリー、並びに製造方法及び使用方法 - Google Patents

ハイスループット単一細胞ライブラリー、並びに製造方法及び使用方法 Download PDF

Info

Publication number
JP2023508792A
JP2023508792A JP2021557409A JP2021557409A JP2023508792A JP 2023508792 A JP2023508792 A JP 2023508792A JP 2021557409 A JP2021557409 A JP 2021557409A JP 2021557409 A JP2021557409 A JP 2021557409A JP 2023508792 A JP2023508792 A JP 2023508792A
Authority
JP
Japan
Prior art keywords
cells
nuclei
cell
nucleic acid
sequencing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021557409A
Other languages
English (en)
Other versions
JPWO2021127436A5 (ja
Inventor
ジェイ シェンドゥア,
ダレン クサノビッチ,
リザ ダザ,
フランク ジェイ. スティーマーズ,
アンドリュー ケネディー,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Washington
Original Assignee
University of Washington
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Washington filed Critical University of Washington
Publication of JP2023508792A publication Critical patent/JP2023508792A/ja
Publication of JPWO2021127436A5 publication Critical patent/JPWO2021127436A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1065Preparation or screening of tagged libraries, e.g. tagged microorganisms by STM-mutagenesis, tagged polynucleotides, gene tags
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1093General methods of preparing gene libraries, not provided for in other subgroups
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1082Preparation or screening gene libraries by chromosomal integration of polynucleotide sequences, HR-, site-specific-recombination, transposons, viral vectors
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biomedical Technology (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Plant Pathology (AREA)
  • Immunology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Virology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)

Abstract

本明細書で提供されるのは、複数の単一細胞から核酸を含むシークエンシングライブラリーを調製するための方法である。一実施形態では、シークエンシングライブラリーは、複数の単一細胞からのクロマチンアクセス可能性を表す核酸を含む。一実施形態では、核酸は、3つのインデックス配列を含む。別の実施形態では、本開示は、単離された細胞及び核における希少事象を特性評価するための方法を提供する。実施形態では、提供することは、複数の区画で複数の核又は細胞を提供することを含み得、各区画は、核若しくは細胞のサブセットを含むか、又は試料を表す。

Description

(関連出願の相互参照)
本出願は、2019年12月19日に出願された米国特許仮出願第62/950,670号の利益を主張し、この出願は、参照によりその全体が本明細書に組み込まれる
(政府出資)
本発明は、National Institutes of Healthによって与えられた認可番号T32 HL007828の下で政府の支援を受けてなされた。政府は本発明において一定の権利を有する。
(発明の分野)
本開示の実施形態は、核酸のシークエンシングに関する。具体的には、本明細書で提供される方法及び組成物の実施形態は、単一細胞コンビナトリアルインデックス付きシークエンシングライブラリーを作製し、それから配列データを取得することに関する。いくつかの実施形態では、ライブラリーから取得された配列データは包括的であり、他の実施形態では、ライブラリーから取得された配列データは、希少事象の特性評価を可能にする。
単一細胞コンビナトリアルインデクシング(「sci-」)は、スプリットプールバーコーディングを用いて多数の単一細胞又は単一核の核酸内容を一意に標識化して、単一細胞コンビナトリアルシークエンシングライブラリーを作製する、方法論的フレームワークである。現在の単一細胞ゲノム技術は、多くの場合、トランスポソーム複合体を使用して、1工程で一意の標識を付加することを含むが、これは、大量のカスタム修飾されたトランスポゾンを必要とする。
単一細胞ゲノム技術は、細胞のバルク集団の研究時に決定困難である細胞間の相違を解決する。腫瘍学、免疫学、及びメタゲノミクスなど多くの重要な用途では、希少細胞の特性評価に大きな関心が寄せられており、課題が存在する。単一細胞シークエンシングの現在の方法では、並行して数百万個の単一細胞を特性評価することができる。しかしながら、濃縮を行わずに集団内の希少細胞を包括的シークエンシングベースで特性評価することは、コスト高であり、困難である。
本明細書では、カスタム修飾されたトランスポゾンの産生を必要とせずに、単一細胞コンビナトリアルインデクシング中にトランスポソーム複合体を使用する方法が提供される。
一実施形態では、本開示は、複数の単一核又は単一細胞からの核酸を含むシークエンシングライブラリーを調製するための方法を提供する。本方法は、複数の核又は細胞を提供することであって、核又は細胞はヌクレオソームを含む、ことと、複数の核又は細胞を、トランスポザーゼ及びユニバーサル配列を含むトランスポソーム複合体と接触させることと、を含む。一実施形態では、複数の核又は細胞は、トランスポソーム複合体との接触時にバルクであり、別の実施形態では、トランスポソーム複合体との接触時に、複数の核又は細胞は、第1の複数の区画内で分配され、各区画は、核若しくは細胞のサブセットを含むか、又は試料を表す。接触させることは、ユニバーサル配列をDNA核酸に組み込み、ユニバーサル配列を含む二本鎖DNA核酸をもたらすのに好適な条件を更に含む。接触させることが、バルクである複数の核又は細胞と生じる実施形態では、本方法はまた、複数の核又は細胞を第1の複数の区画に分配することを含み、各区画は核又は細胞のサブセットを含む。核又は細胞の各サブセット内のDNA分子は、インデックス付きの核又は細胞を生成するように処理される。この処理は、核又は細胞の各サブセットに存在するDNA核酸に、第1の区画特異的インデックス配列を付加して、インデックス付き核又は細胞に存在するインデックス付き核酸をもたらす。この処理は、ライゲーション、プライマー伸長、ハイブリダイゼーション、増幅、又はこれらの組み合わせを含み得る。インデックス付き核又は細胞を組み合わせて、プールされたインデックス付き核又は細胞を生成することができる。
一実施形態では、提供することは、複数の区画で複数の核又は細胞を提供することを含み得、各区画は、核若しくは細胞のサブセットを含むか、又は試料を表す。接触させることは、各区画をトランスポソーム複合体と接触させることを含み得、本方法は、接触後に核又は細胞を組み合わせて、プールされた核又は細胞を生成することを更に含み得る。
一実施形態では、接触させることは、各サブセットを2つのトランスポソーム複合体と接触させることを含み、一方のトランスポソーム複合体は、第1のユニバーサル配列を含む第1のトランスポザーゼを含み、第2のトランスポソーム複合体は、第2のユニバーサル配列を含む第2のトランスポザーゼを含み、接触させることは、第1のユニバーサル配列及び第2のユニバーサル配列をDNA核酸に組み込んで、第1のユニバーサル配列及び第2のユニバーサル配列を含む二本鎖DNA核酸をもたらすのに好適な条件を更に含む。
一実施形態では、本方法は、インデックス付き核又は細胞を含むプールされたインデックス付き核又は細胞を第2の複数の区画に分配することであって、各区画は核又は細胞のサブセットを含む、ことと、二重インデックス付き核又は細胞を生成するために、核又は細胞の各サブセット内のDNA分子を処理することと、を更に含み得る。処理することは、核又は細胞の各サブセットに存在するDNA核酸に、第2の区画特異的インデックス配列を付加して、インデックス付き核又は細胞に存在する二重インデックス付き核酸をもたらすことを含み得る。本方法は、二重インデックス付き核又は細胞を組み合わせて、プールされた二重インデックス付き核又は細胞を生成することを含み得る。
一実施形態では、本方法は、二重インデックス付き核又は細胞を含むプールされたインデックス付き核又は細胞を第3の複数の区画に分配することであって、各区画は核又は細胞のサブセットを含む、ことと、三重インデックス付き核又は細胞を生成するために、核又は細胞の各サブセット内のDNA分子を処理することと、を更に含み得る。処理することは、核又は細胞の各サブセットに存在するDNA核酸に、第3の区画特異的インデックス配列を付加して、インデックス付き核又は細胞に存在する三重インデックス付き核酸をもたらすことを含み得る。本方法は、三重インデックス付き核又は細胞を組み合わせて、プールされた三重インデックス付き核又は細胞を生成することを含み得る。
一実施形態では、本方法は、プールされたインデックス付き核又は細胞から、インデックス付き核酸(例えば、二重インデックス付き、三重インデックス付きなど)を得、したがって、複数の核又は細胞からシークエンシングライブラリーを作製することを更に含み得る。
また、本明細書では、細胞のサブ集団を同定する及び/又は特性評価する方法が提供される。一実施形態では、本方法は、単一細胞コンビナトリアルシークエンシングライブラリーなどシークエンシングライブラリーを提供することを含む。任意選択的に、シークエンシングライブラリーは、特性が濃縮された細胞又は核の集団から作製される。本方法は、ターゲットシークエンシングによってシークエンシングライブラリーを精査することを含み得る。ターゲットシークエンシングは、ライブラリーの作製に使用される細胞のわずかな割合で典型的に存在する生物学的特徴に基づき得る。生物学的特徴の例としては、細胞クラス、種のタイプ、又は疾患状態を示すヌクレオチド配列が挙げられるが、これらに限定されない。生物学的特徴のターゲットシークエンシングに加えて、シークエンシングはまた、生物学的特徴と同じ修飾ターゲット核酸に存在するインデックス配列の配列を決定することを含む。その結果、生物学的特徴を含むライブラリーのメンバーと同じ細胞又は核に由来するシークエンシングライブラリーのメンバーが同定される。本方法は、シークエンシングライブラリーを改変して、生物学的特徴を含むライブラリーのメンバーと同じ細胞又は核に由来するこれらのメンバーの表現を増加させることを更に含む。この改変は、シークエンシングライブラリーの所望のメンバーを濃縮して、又はシークエンシングライブラリーの望ましくないメンバーを枯渇させて、サブライブラリーをもたらすことを含み得る。
定義
本明細書で使用される用語は、別段の指定がない限り、関連技術の通常の意味をとるものと理解されるであろう。本明細書で使用されるいくつかの用語及びそれらの意味は、以下に記載される。
本明細書で使用するとき、用語「生物」及び「対象」は、交換可能に使用され、微生物(例えば、原核生物又は真核生物)、動物、及び植物を指す。動物の例は、ヒトなどの哺乳類である。
本明細書で使用するとき、用語「細胞タイプ」は、形態、表現型、発生起源、又は他の既知の若しくは認識可能な区別可能な細胞特性に基づいて細胞を同定することを意図する。様々な異なる細胞型は、単一の生物(又は同じ種の生物から)から得ることができる。例示的な細胞タイプとしては、ガメト(例えば、例えば、卵子又は卵細胞などの雌性ガメト、及び精子などの雄性ガメトを含む)、卵巣上皮、卵巣上皮、卵巣線維芽細胞、精巣、膀胱、免疫細胞、B細胞、T細胞、ナチュラルキラー細胞、樹状細胞、癌細胞、真核細胞、幹細胞、血球、筋細胞、脂肪細胞、皮膚細胞、神経細胞、骨細胞、膵臓細胞、内皮細胞、膵臓β、膵臓内皮、骨髄リンパ芽球、骨髄リンパ芽球、骨髄マクロファージ、骨髄芽球、骨髄脂肪細胞、骨髄骨芽細胞、骨髄軟骨細胞、骨髄軟骨細胞、骨髄軟骨細胞、骨髄芽球、骨髄軟骨細胞、前骨髄芽細胞、骨髄巨核芽細胞、膀胱、脳Bリンパ球、脳神経膠細胞、ニューロン、脳星状細胞、神経外胚葉、脳マクロファージ、脳小膠細胞、脳上皮、皮質ニューロン、脳線維芽細胞、乳房上皮、結腸上皮、結腸Bリンパ球、乳腺上皮、乳腺筋上皮、乳腺線維芽細胞、結腸腸細胞、子宮頸部上皮、乳房管上皮、舌上皮、扁桃腺樹状、扁桃腺リンパ球、末梢血リンパ芽球、末梢血Tリンパ芽球、末梢血Tリンパ球、末梢血天然キラー、末梢血Bリンパ芽球、末梢血単球、末梢血骨髄芽細胞、末梢血モノ芽細胞、末梢血モノ芽細胞、末梢血モノ芽細胞、末梢血単芽球、末梢血モノ芽球、末梢血Tリンパ球、末梢血前骨髄芽球、末梢血マクロファージ、末梢血好塩基球、肝臓内皮、肝臓マスト、肝臓上皮、肝臓Bリンパ球、脾臓内皮、脾臓上皮、脾臓Bリンパ球、肝細胞、肝臓、線維芽細胞、肺上皮、気管支上皮、肺線維芽細胞、肺Bリンパ球、肺シュワン、肺扁平上皮、肺マクロファージ、肺骨芽細胞、神経内分泌、肺肺胞、胃上皮、及び胃線維芽細胞が挙げられるが、これらに限定されない。一実施形態では、単一生物から得られる様々な異なる細胞タイプは、生物の細胞、及び生物に関連する共生微生物又は病原性微生物の細胞など他の細胞を含み得る。生物に関連する共生微生物又は病原性微生物の例としては、生物由来のマイクロバイオーム試料中に存在する、又は組織内に存在し、任意選択的に病気の原因となる原核微生物及び真核微生物が挙げられるが、これらに限定されない。
本明細書で使用するとき、用語「組織」は、生物内で1つ以上の特定の機能を実行するように共に作用する細胞の集合又は集合体を意味することを意図する。細胞は、任意選択で形態学的に類似し得る。例示的な組織としては、胚性、精巣上体、眼、筋肉、皮膚、腱、静脈、動脈、血液、心臓、脾臓、リンパ節、骨、骨髄、肺、気管支、気管、腸、小腸、大腸、結腸、直腸、唾液腺、舌、胆嚢、虫垂、肝臓、膵臓、脳、胃、皮膚、腎臓、尿管、膀胱、尿道、性腺、睾丸、卵巣、子宮、卵管、胸腺、下垂体、甲状腺、副腎、又は副甲状腺が挙げられるが、これらに限定されない。組織は、ヒト又は他の生物の様々な器官のいずれかに由来し得る。組織は、健康な組織又は不健康な組織であり得る。不健康な組織の例としては、生殖組織、肺、乳房、結腸直腸、前立腺、鼻咽頭、胃、精巣、皮膚、神経系、骨、卵巣、肝臓、血液組織、膵臓、子宮、腎臓、リンパ組織などの悪性腫瘍が挙げられる。悪性腫瘍は、様々な組織学的サブタイプ、例えば、癌腫、腺癌、肉腫、線維腺癌、神経内分泌、又は未分化のものであり得るが、これらに限定されない。
本明細書で定義するように、「試料」及びその派生語は、その最も広い意味で使用され、ターゲット核酸及び/又はターゲットタンパク質を含んでいると疑われる、任意の検体、培養物などが挙げられる。いくつかの実施形態では、試料は、DNA、RNA、タンパク質、又はこれらの組み合わせを含む。試料は、1つ以上の核酸及び/又は1つ以上のタンパク質を含有する任意の生物試料、臨床試料、外科試料、農業試料、大気試料、又は水生ベースの試料を含み得る。この用語はまた、ゲノムDNA又はトランスクリプトームなど試料からの任意の単離された核酸、及び試料からの任意の単離されたタンパク質を含む。いくつかの実施形態では、試料は、細胞又は核の集合を含む。
本明細書で使用するとき、用語「区画」は、他の物から何かを分離又は単離する領域又は容積を意味することを意図する。例示的な区画としては、バイアル、チューブ、ウェル、液滴、ボーラス、ビーズ、容器、表面特徴部、又は流体流、磁性、電流などの物理的な力によって分離された領域又は容積が挙げられるが、これらに限定されない。一実施形態では、区画は、96又は384ウェルプレートなどのマルチウェルプレートのウェルである。一実施形態では、区画は、パターン化された表面のウェル(例えば、マイクロウェル又はナノウェル)である。本明細書で使用するとき、液滴は、1つ以上の核又は細胞を封入するためのビーズであり、ヒドロゲル組成物を含む、ヒドロゲルビーズを含み得る。いくつかの実施形態では、液滴は、ヒドロゲル材料の均質な液滴であるか、又はポリマーヒドロゲルシェルを有する中空液滴である。均質又は中空であるかどうかに関わらず、液滴は、1つ又はそれ以上の核又は細胞を封入することが可能であり得る。いくつかの実施形態では、液滴は、界面活性剤安定化液滴である。
本明細書で使用するとき、「トランスポソーム複合体」は、組み込み酵素、及び組み込み認識部位を含む核酸を指す。「トランスポソーム複合体」は、転位反応を触媒することが可能なトランスポザーゼ及びトランスポザーゼ認識部位によって形成される機能的複合体である(例えば、Gundersonら、国際公開第2016/130704号を参照)。組み込み酵素の例としては、インテグラーゼ又はトランスポアーゼが挙げられるが、これらに限定されない。組み込み認識部位の例としては、トランスポザーゼ認識部位が挙げられるが、これらに限定されない。
本明細書で使用するとき、用語「核酸」は、ポリヌクレオチド及びオリゴヌクレオチドと交換可能に使用される。核酸は、当技術分野におけるその使用と一致することを意図し、天然に存在する核酸又はその機能的類似体を含む。特に有用な機能的類似体は、配列特異的な様式で核酸にハイブリダイズすることができ、又は特定のヌクレオチド配列を複製するための鋳型として使用することができる。天然に存在する核酸は、一般に、ホスホジエステル結合を含有するバックボーンを有する。アナログ構造は、当技術分野において既知の様々なもののいずれかを含む、代替的バックボーン結合を有することができる。天然に存在する核酸は、一般に、デオキシリボース糖(例えば、デオキシリボ核酸(DNA)に見られる)又はリボース糖(例えば、リボ核酸(RNA)に見られる)を有する。核酸は、当技術分野において既知のこれらの糖部分の様々な類似体のいずれかを含有することができる。核酸は、天然又は非天然塩基を含み得る。この点に関して、天然デオキシリボ核酸は、アデニン、チミン、シトシン、又はグアニンからなる群から選択される1つ又は複数の塩基を有することができ、リボ核酸は、アデニン、ウラシル、シトシン、又はグアニンからなる群から選択される1つ又は複数の塩基を有することができる。核酸に含まれ得る有用な非天然塩基は、当技術分野において既知である。非天然塩基の例としては、ロックされた核酸(LNA)、架橋核酸(BNA)、及び疑似相補的塩基(Trilink Biotechnologies社、サンディエゴ、カリフォルニア州)が挙げられる。LNA及びBNA塩基をDNAオリゴヌクレオチドに組み込んで、オリゴヌクレオチドのハイブリダイゼーション強度及び特異性を高めることができる。LNA及びBNA塩基、並びにそのような塩基の使用は、当業者に既知であり、日常的である。別途記載のない限り、用語「核酸」は、天然及び非天然DNA、mRNA、並びに非コードRNA、例えば、3’末端にポリAを有さないRNA、並びにRNAに由来する核酸、例えば、cDNAを含む。用語「核酸」は、分子の一次構造のみを指す。したがって、この用語は、三本鎖、二本鎖、及び一本鎖デオキシリボ核酸(「DNA」)、並びに三本鎖、二本鎖、及び一本鎖リボ核酸(「RNA」)を含む。
本明細書で使用するとき、用語「ターゲット」は、供給源、機能、同一性、及び/又は組成が調査されている分子の意味的識別子として意図される。ターゲットの例としては、核酸及びタンパク質が挙げられるが、これらに限定されない。本明細書で使用するとき、用語「ターゲット」は、核酸に関して使用する場合、本明細書に記載の方法又は組成物の文脈における核酸の意味的識別子として意図され、別途明示的に示されるもの以外の核酸の構造又は機能を必ずしも限定するものではない。ターゲット核酸は、本質的に既知又は未知の配列の任意の核酸であってもよい。これは、例えば、ゲノムDNA(例えば、染色体DNA)の断片、プラスミドなど染色体外DNA、無細胞DNA、RNA(例えば、RNA又は非コードRNA)、タンパク質(例えば細胞又は細胞表面タンパク質)、又はcDNAであってよい。ターゲット核酸は、タンパク質、グリカン、プロテオグリカン、又は脂質など生体分子を特異的に結合する抗体など化合物に結合する核酸であってよい(米国特許出願公開第2018/0273933号)。シークエンシングは、ターゲット分子の全体又は一部の配列の決定をもたらし得る。ターゲットは、核などの一次核酸サンプルに由来し得る。一実施形態では、ターゲットは、各ターゲット断片の一端又は両端にユニバーサル配列を配置することによって増幅に好適な鋳型に処理することができる。ターゲットはまた、cDNAへの逆転写によって一次RNAサンプルから得ることもできる。一実施形態では、ターゲットは、細胞内に存在するDNA、RNA、又はタンパク質のサブセットを参照して使用される。ターゲットシークエンシングは、典型的にはPCR増幅(例えば、領域特異的プライマー)又はハイブリダイゼーションベースの捕捉法又は抗体のいずれかによる、対象とする遺伝子又は領域又はタンパク質の選択及び単離を使用する。ターゲット濃縮は、方法の様々な段階で行うことができる。例えば、ターゲットRNA表現は、逆転写工程でターゲット特異的プライマーを使用するか、より複雑なライブラリーからサブセットをハイブリダイゼーションベースで濃縮することで得られる。例としては、エクソームシークエンシング又はL1000アッセイがある(Subramanianら、2017年,Cell,171;1437-1452)。ターゲットシークエンシングは、当業者に既知の濃縮プロセスのいずれかを含み得る。ユニバーサル配列の一端又は両端を有するターゲット核酸は、修飾ターゲット核酸と称され得る。ターゲット核酸など核酸への言及は、別途記載のない限り、一本鎖核酸及び二本鎖核酸の両方を含む。一実施形態では、ライブラリーは、インデックス配列又は複数のインデックス配列を使用して濃縮される。いくつかの実施形態では、濃縮は、同一ライブラリー分子に結合された1つ以上のインデックス配列を含み、例えば、コンビナトリアルインデクシングを介して導入される。
本明細書で使用するとき、用語「ユニバーサル」は、ヌクレオチド配列を記述するために使用する場合、2つ以上の核酸分子に共通する配列の領域を指し、分子はまた、互いに異なる配列の領域を有する。分子の集合の異なるメンバー、例えばシークエンシングライブラリーのメンバー中に存在するユニバーサル配列は、ユニバーサル捕捉シーケンスの集団を使用して、複数の異なる核酸の捕捉を可能にすることができる。ユニバーサル捕捉配列の非限定的な例としては、P5及びP7プライマーと同一又は相補的な配列が挙げられる。同様に、分子の集合の異なるメンバーに存在するユニバーサル配列は、ユニバーサル配列の一部に相補的なユニバーサルプライマーの集団、例えば、ユニバーサルプライマー結合部位を使用して、複数の異なる核酸を複製(例えば、シークエンシング)又は増幅することができる。用語「A14」及び「B15」は、ユニバーサルプライマー結合部位を指す場合に使用され得る。用語「A14’」(A14プライム)及び「B15’」(B15プライム)は、それぞれA14及びB15の相補体を指す。本明細書に提示される方法において、任意の好適なユニバーサルプライマー結合部位を使用することができ、A14及びB15の使用は例示的な実施形態に過ぎないことが理解されるであろう。一実施形態では、ユニバーサルプライマー結合部位は、ユニバーサルプライマー(例えば、リード1又はリード2のためのシークエンシングプライマー)がシークエンシングのためにアニーリングする部位として使用される。
用語「P5」及び「P7」は、ユニバーサル捕捉配列又は捕捉オリゴヌクレオチドを指す場合に使用され得る。用語「P5’」(P5プライム)及び「P7’」(P7プライム)は、それぞれP5及びP7の相補体を指す。本明細書に提示される方法において、任意の好適なユニバーサル捕捉配列又は捕捉ヌクレオチドを使用することができ、P5及びP7の使用は例示的な実施形態のみであることが理解されるであろう。フローセル上でのP5及びP7又はそれらの相補体などの捕捉ヌクレオチドの使用は、国際公開第2007/010251号、同第2006/064199号、同第2005/065814号、同第2015/106941号、同第1998/044151号、及び同第2000/018957号の開示によって例示されるように、当技術分野において既知である。例えば、任意の好適な順方向増幅プライマーは、固定化されているか又は溶液中にあるかに関わらず、相補的配列及び配列の増幅のために本明細書に提示される方法において有用であり得る。同様に、任意の好適な逆増幅プライマーは、固定化されているか又は溶液中にあるかに関わらず、相補的配列及び配列の増幅のために本明細書に提示される方法において有用であり得る。当業者であれば、本明細書に提示される核酸の捕捉及び/又は増幅に好適なプライマー配列の設計及び使用方法を理解するであろう。
本明細書で使用するとき、用語「プライマー」及びその派生語は、一般に、対象とする配列にハイブリダイズすることができる任意の核酸を指す。典型的には、プライマーは、ヌクレオチドがポリメラーゼによって重合され得るか、又はインデックスなどヌクレオチド配列がライゲーションされ得る基質として機能するが、いくつかの実施形態では、プライマーは、合成された核酸鎖に組み込まれ、別のプライマーがハイブリダイズして、合成された核酸分子に相補的な新たな鎖合成をプライムすることができる部位を提供することができる。プライマーは、ヌクレオチド又はその類似体の任意の組み合わせを含み得る。プライマーは、一本鎖、二本鎖である、又は一本鎖領域及び二本鎖領域を含む核酸であってよく、リボヌクレオチド、デオキシリボヌクレオチド、これらの類似体、又はこれらの混合物を含んでよい。用語「ポリヌクレオチド」及び「オリゴヌクレオチド」は、本明細書において交換可能に使用される。これらの用語は、同等物として、ヌクレオチド類似体から作製されたDNA、RNA、cDNA、又は抗体-オリゴ複合体のいずれかの類似体を含み、一本鎖(センス又はアンチセンスなど)及び二本鎖ポリヌクレオチドに適用可能であることを理解されたい。本明細書で使用するこの用語はまた、例えば逆転写酵素の作用によって、RNA鋳型から産生される相補的又はコピーDNAであるcDNAも包含する。この用語は、分子の一次構造のみを指す。したがって、この用語は、三本鎖、二本鎖、及び一本鎖デオキシリボ核酸(「DNA」)、並びに三本鎖、二本鎖、及び一本鎖リボ核酸(「RNA」)を含む。
本明細書で使用するとき、用語「アダプター」及びその派生語、例えば、ユニバーサルアダプターは、一般に、本開示の核酸分子に結合され得る任意の線状オリゴヌクレオチドを指す。いくつかの実施形態では、アダプターは、サンプル中に存在する任意のターゲット配列の3’末端又は5’末端に実質的に非相補的である。いくつかの実施形態では、好適なアダプター長さは、約10-100ヌクレオチド、約12-60ヌクレオチド、又は約15-50ヌクレオチドの長さの範囲である。一般に、アダプターは、ヌクレオチド及び/又は核酸の任意の組み合わせを含み得る。いくつかの態様では、アダプターは、1つ又はそれ以上の位置に1つ又はそれ以上の開裂可能な基を含み得る。別の態様では、アダプターは、プライマー、例えばユニバーサルプライマーの少なくとも一部と実質的に同一であるか、又は実質的に相補的である配列を含み得る。いくつかの実施形態では、アダプターは、下流エラー訂正、同定、又はシークエンシングを支援するために、バーコード(本明細書ではタグ又はインデックスとも呼ばれる)を含み得る。用語「アダプター(adaptor)」及び「アダプター(adapter)」は、交換可能に使用される。
本明細書で使用するとき、用語「それぞれ」は、項目の集合に関して使用する場合、集合内の個々の項目を識別することを意図しているが、文脈が明確に別段の指示をしない限り、必ずしも集合内の全ての項目を指すものではない。
本明細書で使用するとき、用語「輸送」は、流体を通る分子の移動を指す。この用語は、それらの濃度勾配(例えば、受動拡散)に沿った分子の移動などの受動輸送を含み得る。この用語はまた、分子がそれらの濃度勾配に沿って又はそれらの濃度勾配に逆らって移動することができる能動輸送も含み得る。したがって、輸送は、1つ以上の分子を所望の方向に、又は増幅部位などの所望の位置に移動させるためにエネルギーを適用することを含み得る。
本明細書で使用するとき、「増幅」、「増幅する」又は「増幅反応」及びそれらの派生語は、一般に、核酸分子の少なくとも一部が少なくとも1つの追加の核酸分子に複製又はコピーされる任意の作用又はプロセスを指す。追加の核酸分子は、任意選択で、鋳型核酸分子の少なくとも一部と実質的に同一であるか、又は実質的に相補的である配列を含む。鋳型核酸分子は一本鎖又は二本鎖であってよく、追加の核酸分子は、独立して一本鎖又は二本鎖であり得る。増幅は、核酸分子の線形又は指数関数的複製を任意選択的に含む。いくつかの実施形態では、このような増幅は、等温条件を使用して行うことができ、他の実施形態では、このような増幅は、熱サイクリングを含み得る。いくつかの実施形態では、増幅は、単一増幅反応における複数のターゲット配列の同時増幅を含む多重増幅である。いくつかの実施形態では、「増幅」は、DNA及びRNAベースの核酸の少なくとも一部を単独で、又は組み合わせて増幅することを含む。増幅反応は、当業者に既知の増幅プロセスのいずれかを含み得る。いくつかの実施形態では、増幅反応は、ポリメラーゼ連鎖反応(PCR)を含む。
本明細書で使用するとき、「増幅条件」及びその派生語は、一般に、1つ以上の核酸配列を増幅するのに好適な条件を指す。このような増幅は、線形又は指数関数的であり得る。いくつかの実施形態では、増幅条件は、等温条件を含むことができ、あるいは、熱サイクリング条件、又は等温及び熱サイクリング条件の組み合わせを含み得る。いくつかの実施形態では、1つ又はそれ以上の核酸配列を増幅するのに好適な条件としては、ポリメラーゼ連鎖反応(PCR)条件が挙げられる。典型的には、増幅条件は、ユニバーサル配列が隣接した1つ又はそれ以上のターゲット配列などの核酸を増幅するのに十分な反応混合物、又は1つ又はそれ以上のアダプターにライゲーションされた増幅されたターゲット配列を増幅するのに十分な反応混合物を指す。一般に、増幅条件は、増幅用の触媒、又は核酸合成、例えばポリメラーゼ、増幅される核酸に対してある程度相補性を有するプライマー、及び核酸にハイブリダイズしたときにプライマーの伸長を促進するためのデオキシリボヌクレオチド三リン酸(dNTP)などのヌクレオチドを含む。増幅条件は、プライマーの核酸へのハイブリダイゼーション又はアニーリング、プライマーの伸長、及び伸長プライマーが増幅を受ける核酸配列から分離される変性工程を必要とし得る。典型的には、必ずしもそうとは限らないが、増幅条件は、熱サイクリングを含み得るが、いくつかの実施形態では、増幅条件は、アニーリング、伸長、及び分離の工程が繰り返される複数のサイクルを含む。典型的には、増幅条件としては、Mg2+又はMn2+などのカチオンが挙げられ、イオン強度の様々な改質剤も含み得る。
本明細書で使用するとき、「再増幅」及びそれらの派生語は、一般に、増幅された核酸分子の少なくとも一部が任意の好適な増幅プロセスを介して更に増幅され、それによって再増幅された核酸分子を生成する任意のプロセス(いくつかの実施形態では「二次」増幅と呼ばれる)を指す。二次増幅が、増幅された核酸分子が生成される元の増幅プロセスと同一である必要はなく、増幅された核酸分子が、増幅された核酸分子と完全に同一であるか、完全に相補的である必要もなく、必要なのは、再増幅された核酸分子が、増幅された核酸分子又はその相補体の少なくとも一部を含むことだけである。例えば、再増幅は、一次増幅とは異なるターゲット特異的プライマーを含む、異なる増幅条件及び/又は異なるプライマーの使用を含み得る。
本明細書で使用するとき、用語「ポリメラーゼ連鎖反応」(「PCR」)は、クローニング又は精製することなくゲノムDNAの混合物中の対象となるポリヌクレオチドのセグメントの濃度を増加させるための方法を記載するMullisの方法(米国特許第4,683,195号及び同第4,683,202号)を指す。対象のポリヌクレオチドを増幅するためのこのプロセスは、所望の対象ポリヌクレオチドを含有するDNA混合物に、多量の過剰の2つのオリゴヌクレオチドプライマーを導入する工程、続いてDNAポリメラーゼの存在下で一連の熱サイクリングを行う工程からなる。2つのプライマーは、対象の二本鎖ポリヌクレオチドのそれぞれの鎖に相補的である。最初に混合物がより高温で変性され、次いで、プライマーが、目的の分子のポリヌクレオチド内の相補的配列にアニーリングされる。アニーリング後、プライマーをポリメラーゼで伸長させて、相補鎖の新しい対を形成する。変性、プライマーアニーリング、及びポリメラーゼ伸長の工程は、所望の目的ポリヌクレオチドの高濃度の増幅セグメントを得るために、何度も繰り返され得る(熱サイクリングと呼ばれる)。所望の目的ポリヌクレオチドの増幅セグメントの長さ(アンプリコン)は、互いに対するプライマーの相対位置によって決定され、したがって、この長さは制御可能なパラメータである。このプロセスを繰り返すことにより、この方法はPCRと呼ばれる。対象となるポリヌクレオチドの所望の増幅セグメントは、混合物中の主要な核酸配列(濃度に関して)になるため、これらは「PCR増幅された」と言われる。上記の方法の改変において、ターゲット核酸分子は、複数の異なるプライマー対を使用してPCR増幅することができ、場合によっては、対象とするターゲット核酸分子当たり1つ又はそれ以上のプライマー対を使用してPCR増幅することができ、それによって多重PCR反応を形成することができる。
本明細書で定義するように、「多重増幅」は、少なくとも1つのターゲット特異的プライマーを使用した、試料内の2つ以上のターゲット配列の選択的かつ非ランダム増幅を指す。いくつかの実施形態では、ターゲット配列の一部又は全てが単一の反応容器内で増幅されるように多重増幅が行われる。所与の多重増幅の「プレックス」は、一般に、当該単一多重増幅中に増幅される、異なるターゲット特異的配列の数を指す。いくつかの実施形態では、プレックスは、約12プレックス、24プレックス、48プレックス、96プレックス、192プレックス、384プレックス、768プレックス、1536プレックス、3072プレックス、6144プレックス、又はそれ以上であり得る。増幅されたターゲット配列をいくつかの異なる方法論(例えば、ゲル電気泳動とそれに続くデンシトメトリー、バイオアナライザー又は定量的PCRによる定量化、標識プローブでのハイブリダイゼーション、ビオチン化プライマーの組み込みとそれに続くアビジン-酵素共役の検出、増幅ターゲット配列への32P標識デオキシヌクレオチド三リン酸の組み込み)によって検出することも可能である。
本明細書で使用するとき、「増幅されたターゲット配列」及びその派生語は、一般に、ターゲット特異的プライマーを及び本明細書で提供される方法を使用してターゲット配列を増幅することによって作製されるポリヌクレオチド配列を指す。増幅されたターゲット配列は、ターゲット配列に関して同じセンス(すなわち、正鎖)又はアンチセンス(すなわち、負鎖)のいずれかであってよい。
本明細書で使用するとき、用語「ライゲート」、「ライゲーション」、及びそれらの派生語は、一般に、2つ以上の分子を互いに共有結合させる、例えば、2つ以上の核酸分子を互いに共有結合させるプロセスを指す。いくつかの実施形態では、ライゲーションは、核酸の隣接するヌクレオチド間のニックの結合を含む。いくつかの実施形態では、ライゲーションは、第1の核酸分子の末端部と第2の核酸分子の末端部との間に共有結合を形成することを含む。いくつかの実施形態では、ライゲーションは、1つの核酸の5’リン酸基と第2の核酸の3’ヒドロキシル基との間に共有結合を形成し、それによりライゲーションされた核酸分子を形成することを含み得る。一般に、本開示の目的のために、増幅されたターゲット配列をアダプターにライゲーションして、アダプターライゲーションされた増幅ターゲット配列を生成することができる。
本明細書で使用するとき、「リガーゼ」及びその派生語は、一般に、2つの基質分子のライゲーションを触媒することができる任意の薬剤を指す。いくつかの実施形態では、リガーゼは、核酸の隣接ヌクレオチド間のニックの結合を触媒することができる酵素を含む。いくつかの実施形態では、リガーゼは、1つの核酸分子の5’リン酸と別の核酸分子の3’ヒドロキシルとの間の共有結合の形成を触媒し、それによりライゲーションされた核酸分子を形成することができる酵素を含む。好適なリガーゼとしては、T4 DNAリガーゼ、T4 RNAリガーゼ、及びE.coli DNAリガーゼを挙げることができるが、これらに限定されない。
本明細書で使用するとき、「ライゲーション条件」及びその派生語は、一般に、2つの分子を互いにライゲートするのに好適な条件を指す。いくつかの実施形態では、ライゲーション条件は、核酸間のニック又は間隙を封止するのに好適である。本明細書で使用するとき、ニック又は間隙という用語は、当技術分野における用語の使用と一致する。典型的には、ニック又は空隙は、適切な温度及びpHでリガーゼなどの酵素の存在下でライゲーションすることができる。いくつかの実施形態では、T4 DNAリガーゼは、約70-72°Cの温度で核酸間のニックに結合することができる。
本明細書で使用するとき、用語「フローセル」は、1つ以上の流体試薬を流通させることができる固体表面を含むチャンバを指す。本開示の方法において容易に使用することができるフローセル及び関連する流体システム及び検出プラットフォームの例は、例えば、Bentleyら、Nature 456:53-59(2008年)、国際公開第04/018497号、米国特許第7,057,026号、国際公開第91/06678号、同第07/123744号、米国特許第7,329,492号、同第7,211,414号、同第7,315,019号、同第7,405,281号、及び米国特許出願公開第2008/0108082号に記載されている。
本明細書で使用するとき、用語「アンプリコン」は、核酸に関して使用する場合、核酸をコピーする生成物を意味し、この生成物は、核酸のヌクレオチド配列の少なくとも一部と同じ又は相補的なヌクレオチド配列を有する。アンプリコンは、例えばポリメラーゼ伸長、ポリメラーゼ連鎖反応(PCR)、ローリングサークル増幅(RCA)、ライゲーション伸長、又はライゲーション連鎖反応を含む鋳型として、核酸又はそのアンプリコンを使用する様々な増幅法のいずれかによって産生することができる。アンプリコンは、特定のヌクレオチド配列(例えば、PCR産物)の単一コピー又はヌクレオチド配列(例えば、RCAのコンカテマー産物)の複数のコピーを有する核酸分子であり得る。ターゲット核酸の第1のアンプリコンは、典型的には相補的なコピーである。後続のアンプリコンは、第1のアンプリコンの生成後に、ターゲット核酸又は第1のアンプリコンから作成されたコピーである。
本明細書で使用するとき、用語「増幅部位」は、1つ以上のアンプリコンが生成され得るアレイ内又はアレイ上の部位を指す。増幅部位は、その部位で生成される少なくとも1つのアンプリコンを含有、保持、又は付着させるように更に構成することができる。
本明細書で使用するとき、用語「アレイ」は、相対的な位置に従って互いに区別することができる部位の集団を指す。アレイの異なる部位にある異なる分子は、アレイ内の部位の位置に従って互いに区別することができる。アレイの個々の部位は、特定の種類の1つ又はそれ以上の分子を含み得る。例えば、部位は、特定の配列を有する単一のターゲット核酸分子を含むことができ、又は部位は、同じ配列(及び/又はその相補的配列)を有するいくつかの核酸分子を含むことができる。アレイの部位は、同じ基質上に位置する異なる特徴とすることができる。例示的な特徴としては、基質中のウェル、基質中又は基質上のビーズ(又は他の粒子)、基質からの突出部、基質上の隆起部、又は基質内のチャネルが挙げられるが、これらに限定されない。アレイの部位は、それぞれ異なる分子を有する別個の基質とすることができる。別個の基質に付着した異なる分子は、基質が会合する表面上の基質の位置に従って、又は液体若しくはゲル内の基質の位置に従って特定することができる。別個の基質が表面上に配置される例示的なアレイとしては、ウェル内にビーズを有するものが挙げられるが、これらに限定されない。
本明細書で使用するとき、用語「容量」は、部位及び核酸材料に関して使用する場合、部位を占有し得る核酸材料の最大量を意味する。例えば、この用語は、特定の条件下で部位を占有し得る核酸分子の総数を指し得る。他の測定値は、例えば、特定の条件下で部位を占有し得る核酸材料の総質量又は特定のヌクレオチド配列のコピーの総数を含めて使用することができる。典型的には、ターゲット核酸の部位の容量は、ターゲット核酸のアンプリコンのための部位の容量と実質的に同等である。
本明細書で使用するとき、用語「捕捉剤」は、ターゲット分子(例えば、ターゲット核酸)に付着、保持、又は結合することができる材料、化学物質、分子、又はその部分を指す。例示的な捕捉剤としては、ターゲット核酸の少なくとも一部に相補的な捕捉配列(本明細書では捕捉オリゴヌクレオチドとも呼ばれる)、ターゲット核酸(又はそれに付着した連結部分)に結合することができる受容体-リガンド結合対のメンバー(例えば、アビジン、ストレプトアビジン、ビオチン、レクチン、炭水化物、核酸結合タンパク質、エピトープ、抗体など)、又はターゲット核酸(又はそれに付着した連結部分)と共有結合を形成することができる化学試薬が挙げられるが、これらに限定されない。
本明細書で使用するとき、用語「レポーター部分」は、調査されるターゲットの組成、同一性、及び/又は供給源を決定することを可能にする任意の識別可能なタグ、標識、インデックス、バーコード、又は群を指すことができる。いくつかの実施形態では、レポーター部分は、タンパク質に特異的に結合する抗体を含み得る。いくつかの実施形態では、抗体は、検出可能な標識を含んでもよい。いくつかの実施形態では、レポーターは、核酸タグで標識された抗体又は親和性試薬を含み得る。一実施形態では、核酸は、トランスポソーム複合体の基質として機能するのに十分な長さである。一実施形態では、核酸タグは、例えば、近接ライゲーションアッセイ(PLA)若しくは近接伸長アッセイ(PEA)、シークエンシングベースの読み出し(Shahi et al.Scientific Reports volume7,Article number:44447,2017)、又はCITE-seq(Stoeckius et al.Nature Methods14:865-868,2017)などエピトープベースの読み出しを介して検出可能であり得る。
本明細書で使用するとき、用語「クローン集団」は、特定のヌクレオチド配列に対して均質である核酸の集団を指す。均質な配列は、典型的には、少なくとも10ヌクレオチド長であるが、更に長い、例えば、少なくとも50、100、250、500又は1000ヌクレオチド長を含み得る。クローン集団は、単一のターゲット核酸又は鋳型核酸に由来し得る。典型的には、クローン集団中の全ての核酸は、同じヌクレオチド配列を有する。クロナリティーから逸脱することなく、少数の変異(例えば、増幅アーチファクトによる)が生じ得ることが理解されよう。
本明細書で使用するとき、用語「固有分子識別子」又は「UMI」は、核酸に付けられ得る、ランダム、非ランダム、又は半ランダムのいずれかの分子タグを指す。核酸に組み込まれる場合、増幅後にシークエンシングされる固有分子識別子(UMI)を直接カウントすることによって、UMIを使用して後続の増幅バイアスを補正することができる。
本明細書で使用するとき、「外因性」化合物、例えば外因性酵素とは、特定組成物中に通常又は天然では見られない化合物を指す。例えば、特定組成物が細胞溶解物を含む場合、外因性酵素は、細胞溶解物中に通常又は天然では見られない酵素である。
本明細書で使用するとき、例えば、組成物、物品、核酸、又は核の文脈における「提供する」は、組成物、物品、核酸、若しくは核を作製すること、組成物、物品、核酸、若しくは核を購入すること、又は別の方法で化合物、組成物、物品、若しくは核を得ることを意味する。
用語「及び/又は」は、列挙された要素の1つ若しくは全て、又は列挙された要素のうちの任意の2つ以上の組み合わせを意味する。
「好ましい」及び「好ましくは」という語は、特定の状況下で特定の利益をもたらし得る本開示の実施形態を指す。しかしながら、同じ又は他の状況下で、他の実施形態が好ましい場合もある。更に、1つ又はそれ以上の好ましい実施形態の記載は、その他の実施形態が有用でないことを示唆するものではなく、本開示の範囲から他の実施形態を除外することを意図するものではない。
用語「含む(comprises)」及びその変形は、これらの用語が説明及び特許請求の範囲に現れる場合、限定的な意味を有しない。
本明細書では、「含む(include)」、「含む(includes)」又は「含む(including)」などの語で本明細書に記載されている場合、「からなる(consisting of)」及び/又は「から本質的になる(consisting essentially of)」という用語で説明される類似の実施形態もまた提供されることが理解される。
別途記載のない限り、「a」、「an」、「the」、及び「at least one」は、交換可能に使用され、1つ又は2つ以上を意味する。
本明細書において、端点による数値範囲の列挙は、その範囲内に包含される全ての数を含む(例えば、1から5は1、1.5、2、2.75、3、3.80、4、5などを含む)。
別個の工程を含む本明細書に開示される任意の方法では、工程は、任意の実行可能な順序で行われてもよい。また、適切には、2つ以上の工程の任意の組み合わせを同時に行うことができる。
「一実施形態」、「実施形態」、「特定の実施形態」、又は「いくつかの実施形態」などへの言及は、本実施形態に関連して説明される特定の特徴、構成、組成、又は特性が、本開示の少なくとも1つの実施形態に含まれることを意味する。したがって、本明細書全体をとおして様々な場所でのこのような語句の出現は、必ずしも本開示の同じ実施形態を指すものではない。更に、特定の特徴、構成、組成、又は特性は、1つ又はそれ以上の実施形態において任意の好適な方法で組み合わされてもよい。
本開示の例示的な実施形態の以下の詳細な説明は、以下の図面と併せて読むと、最も良く理解され得る。
本開示による、単一細胞コンビナトリアルインデクシングのための一般的な例示的方法の異なる実施形態の一般的なブロック図を示す。 本開示による、単一細胞コンビナトリアルインデクシングのための一般的な例示的方法の異なる実施形態の一般的なブロック図を示す。
図1Aの方法に一般的に示されるような、単一細胞コンビナトリアルインデクシングの方法の概略図を示す。簡略化するために、1つの二本鎖ターゲット核酸のみを示す。
本開示による、単一細胞コンビナトリアルインデクシングの一般的な例示的方法の一実施形態の一般的なブロック図を示す。
本開示による、単一細胞コンビナトリアルインデクシングの一般的な例示的方法の一実施形態の一般的なブロック図を示す。
図1、図3、又は図4の方法に一般的に示されるような、単一細胞コンビナトリアルインデクシングの方法の概略図を示す。簡略化するために、1つの二本鎖ターゲット核酸のみを示す。
本開示による、単一細胞コンビナトリアルインデクシングによるメタゲノム解析の一般的な例示的方法の一実施形態の一般的なブロック図を示す。
本開示による、連続インデックスを有するシークエンシングライブラリーを作製するための一般的な例示的方法の一実施形態の概略図を示す。
本開示による、濃縮をターゲット増幅と結合するための一般的な例示的方法の一実施形態の概略図を示す。
sci-ATAC-seq3の概略図を示す。59の胎児試料から160万個の細胞の核を、バルクのTn5トランスポザーゼでタグ付けした。最初の2回のインデックス付けは、Tn5トランスポザーゼ複合体の各末端に対する連続ライゲーションによって、また3回目は、PCRによって行った。1回目のインデックス付けを試料インデックスとして使用した。
実施例1に記載のsci-ATAC-seq3から得たアンプリコンの構造を示す。
実施例2に記載のプロジェクトワークフローを示す。
概略図は必ずしも縮尺どおりではない。図面に使用される同様の数字は、同様の構成要素、工程などを指す。しかしながら、所与の図の構成要素を指すための数字の使用は、同じ数字でラベル付けされた別の図における構成要素を制限することを意図していないことが理解されるであろう。更に、構成要素を指すために異なる番号を使用することは、異なる番号の構成要素が他の番号付けされた構成要素と同じ又は類似であることができないことを示すことを意図するものではない。
本明細書で提供される方法は、複数の単一細胞からシークエンシングライブラリーを作製するために使用することができる。本質的に、トランスポゾンアクセス可能クロマチンの単一核シークエンシング(sci-ATAC、米国特許第10,059,989号)、単一核の全ゲノムシークエンシング(米国特許出願公開第2018/0023119号)、単一核トランスクリプトームシークエンシング(米国特許仮出願第62/680,259号及びGundersonら(国際公開第2016/130704号))、sci-HiC(Ramani et al.,Nature Methods,2017,14:263-266)、DRUG-seq(Ye et al.,Nature Commun.,9,article number4307)、又はDNA及びタンパク質、例えば、sci-CAR(Cao et al.,Science,2018,361(6409):1380-1385)並びにRNA及びタンパク質、例えば、CITE-seq(Stoeckius et al.,2017,Nature Methods.14(9):865-868)からの解析の任意の組み合わせなどが含まれるが、これらに限定されない、任意の単一核又は単細胞ライブラリー調製法又はシークエンシング法を使用することができる。一実施形態では、細胞アトラス実験は、クロマチンアクセス可能DNA、全細胞トランスクリプトーム、非常に情報量の多い、限られた数のmRNA、又はこれらの組み合わせに限定される読み出しを用いて実施され得る。
単離された核又は細胞の提供
一実施形態では、本明細書で提供される方法は、細胞又は複数の細胞から単離された核を提供することを含み得る(例えば、図1A、ブロック10、図3、ブロック30、図4、ブロック40、図6、ブロック600)。細胞は、任意の生物からのものであり得、また、生物の任意の細胞タイプ又は任意の組織からのものであり得る。一実施形態では、細胞は、組織又は液体生検など生検からのものであり得る。一実施形態では、細胞は胚細胞、例えば胚から得られる細胞であり得る。一実施形態では、細胞又は核は、癌又は疾患組織からのものであり得る。一実施形態では、細胞又は核は、T細胞又はB細胞など免疫細胞であり得る。一実施形態では、細胞は、単一生物から得られた、様々な異なる細胞タイプであり得る。一実施形態では、単一生物から得られた、様々な異なる細胞タイプは、原核細胞及び/又は真核細胞など微生物細胞を含み得る。一実施形態では、異なる供給源、例えば、異なる生物及び/又は異なる組織からの細胞は、この段階では組み合わされない。一実施形態では、異なる供給源、例えば、異なる生物及び/又は異なる組織からの細胞が、この段階で組み合わされる。
一実施形態では、複数の細胞は、より大きな細胞集団のサブセットであり得る。サブセットは、例えば、細胞の表面にあるタンパク質又はグリカンのような同定可能な分子のサイズ、形態、又は有無の相違に基づいて、他の細胞から分離され得る。細胞を選別するための方法は、当該技術分野において既知であり、蛍光活性化細胞選別、磁気活性化細胞選別、及びマイクロ流体細胞選別が挙げられる。
本方法は、細胞を解離させること、及び/又は核を単離することを更に含み得る。一実施形態では、核内に存在するクロマチンを維持する条件が使用される。一実施形態では、核内に存在するヌクレオソームを枯渇させる。ヌクレオソームを枯渇させるための方法は、当業者に既知である(米国特許出願公開第2018/002311号)。
多くの異なる単一細胞ライブラリー調製法が、当該技術分野において既知である。(Hwang et al.Experimental & Molecular Medicine,vol.50,Article number:96(2018)、Drop-seq法、Seq-well法、単一細胞コンビナトリアルインデクシング(「sci-」)法が挙げられるが、これらに限定されない。単一細胞製品及び関連技術を提供する企業としては、10X Genomics、Takara biosciences、BD biosciences、Biorad、1cellbio、IsoPlexis、CellSee、NanoCellect、及びDolomite Bioが挙げられるが、これらに限定されない。SCI-seqは、スプリットプールバーコーディングを用いて多数の単一細胞又は単一核の核酸内容を一意に標識化する、方法論的フレームワークである。典型的には、核又は細胞の数は、少なくとも2つであり得る。上限は、本明細書に記載の方法の他の工程で使用される機器の実際の制限(例えば、マルチウェルプレート、インデックスの数)に依存する。使用され得る核又は細胞の数は、限定することを意図するものではなく、数十億に達することがあり得る。例えば、一実施形態では、核又は細胞の数は、1,000,000,000以下、100,000,000以下、10,000,000以下、1,000,000以下、100,000以下、10,000以下、1,000以下、500以下、又は50以下であり得る。一実施形態では、核又は細胞の数は、少なくとも50、少なくとも500、少なくとも1,000、少なくとも10,000、少なくとも100,000、少なくとも1,000,000、少なくとも10,000,000、少なくとも100,000,000、又は少なくとも1,000,000,000であり得る。
単離された核を使用するこれらの実施形態では、核は抽出及び固定によって得ることができる。任意選択的に、及び好ましくは、単離された核を得る方法は、酵素処理を含まない。
一実施形態では、核は、接着性又は懸濁液である個々の細胞から単離される。個々の細胞から核を単離するための方法は、当業者に既知である。核は、典型的には、組織内に存在する細胞から単離される。単離された核を得るための方法は、典型的には、組織を調製することと、調製された組織から核を単離することと、次いで核を固定することとを含む。一実施形態では、全ての工程が氷上で行われる。
一実施形態では、組織調製は、液体窒素中で組織を急速凍結し、次いで、組織のサイズを直径1mm以下の片に低減することを含む。組織は、ミンチ力又は鈍い力のいずれかを受けることによって、サイズが縮小され得る。ミンチは、組織を小片に切断するためのブレードで達成することができる。鈍い力を加えることは、ハンマー又は同様の物体で組織を粉砕することによって達成することができ、粉砕組織の結果として得られる組成物は粉末と呼ばれる。
核単離は、細胞溶解緩衝液中で片又は粉末を、5分、10分、又は15分など、少なくとも1分から20分間インキュベートすることによって達成され得る。有用な緩衝液は、細胞溶解を促進するが、核の完全性を保持するものである。細胞溶解緩衝液の例としては、10mM Tris-HCl、pH7.4、10mM NaCl、3mM MgCl2、0.1% IGEPAL CA-630、1% SUPERase In RNAse阻害剤(20U/μL、Ambion)、及び1% BSA(20mg/mL、NEB)が挙げられる。標準的な核単離法は、多くの場合、単離を補助するために、外因性酵素など1つ以上の外因性化合物を使用する。細胞溶解緩衝液中に存在し得る有用な酵素の例としては、プロテアーゼ阻害剤、リゾチーム、プロテイナーゼK、界面活性剤、リゾスタフィン、ザイモリアーゼ、セルロース、プロテアーゼ又はグリカナーゼなど(Islam et al.Micromachines(Basel),2017,8(3):83;www.sigmaaldrich.com/life-science/biochemicals/biochemical-products.html?TablePage=14573107)が挙げられるが、これらに限定されない。一実施形態では、1つ以上の外因性酵素は、本明細書に記載の方法において有用な細胞溶解緩衝液中に存在しない。例えば、外因性酵素は、(i)細胞と溶解緩衝液との混合前に細胞に添加されない、(ii)細胞との混合前に細胞溶解緩衝液中に存在しない、(iii)細胞と細胞溶解緩衝液との混合物に添加されない、又はこれらの組み合わせである。当業者であれば、核を単離するための細胞溶解緩衝液の有用性を低下させることなく、これらの成分の濃度をある程度変更できることを認識するであろう。次いで、抽出した核を、核バッファを用いた1回以上(one of more rounds)の洗浄によって精製する。核緩衝液の例としては、10mM Tris-HCl、pH7.4、10mM NaCl、3mM MgCl2、1% SUPERase In RNAse阻害剤(20U/μL、Ambion)、及び1% BSA(20mg/mL、NEB)が挙げられる。細胞溶解緩衝液と同様に、外因性酵素もまた、本開示の方法で使用される核緩衝液中に存在しなくてよい。当業者であれば、核を単離するための核緩衝液の有用性を低下させることなく、これらの成分の濃度をある程度変更できることを認識するであろう。当業者は、BSA及び/又は界面活性剤が、核の単離のために使用される緩衝剤において有用であり得ることを認識するであろう。
単離された核は、架橋剤への曝露によって固定することができる。架橋剤の有用な例としては、パラホルムアルデヒド及びホルムアルデヒドが挙げられるが、これらに限定されない。パラホルムアルデヒドは、4%など1%~8%の濃度であり得る。ホルムアルデヒドは、37%など30%~45%の濃度であり得る。架橋剤による核の処理は、架橋剤を核の懸濁液に添加し、0℃でインキュベートすることを含み得る。固定の他の方法としては、メタノール固定が挙げられるが、これに限定されない。任意選択的に、かつ好ましくは、固定後に、核緩衝液中での洗浄が行われる。
単離された固定核は、後で使用するために、液体窒素中で直ちに等分し、急速凍結することができる。凍結後に使用するために調製する場合、解凍された核は、例えば、氷上で0.2% Triton X-100で3分間透過処理され、核の凝集を低減するために短時間超音波処理することができる。
従来の組織核抽出技術は、通常、組織特異的酵素(例えば、トリプシン)で、組織を高温(例えば、37°C)で30分間から数時間インキュベートし、次いで細胞を細胞溶解緩衝液で溶解させる。本明細書に記載の核単離法には、いくつかの利点がある。すなわち、(1)人工酵素が導入されず、全工程が氷上で行われる。これにより、細胞状態(例えば、クロマチン組織状態、又はトランスクリプトーム状態)への潜在的な摂動を低減する。(2)この新方法は、脳、肺、腎臓、脾臓、心臓、小脳、及び腫瘍組織など疾患試料を含む、大部分の組織タイプにわたって検証されている。異なる組織タイプのために異なる酵素を使用する従来の組織核抽出技術と比較して、新しい技術は、異なる組織からの細胞状態を比較する際のバイアスを潜在的に低減することができる。(3)この新方法はまた、酵素処理工程を除去することによってコストを低減し、効率を高める。(4)他の核抽出技術(例えば、Dounce組織グラインダー)と比較して、この新技術は、異なる組織タイプに対してより堅牢(例えば、Dounce法は、異なる組織に対してDounceサイクルを最適化する必要がある)であり、高スループットで大きい試料片を処理することが可能である(例えば、Dounce法は、グラインダーのサイズに制限される)。
任意選択的に、単離された核は、ヌクレオソームを含まなくてもよく、又はヌクレオソームの核を枯渇させ、ヌクレオソーム枯渇核を生成する条件に供することができる。
ユニバーサル配列の挿入
本明細書で提供される方法は、核又は細胞に存在する核酸に1つ以上のユニバーサル配列を挿入することを含む。一実施形態では、1つ以上のユニバーサル配列の組み込みは、サブセットの分配前に生じ(図1A、ブロック11、図1B、ブロック110)、他の実施形態では、1つ以上のユニバーサル配列の組み込みは、サブセットの配布後に生じる(図3、ブロック32、図4、ブロック42、ブロック45)。いくつかの実施形態では、インデックスはまた、ユニバーサル配列と組み合わされてよく、又は1つ以上のユニバーサル配列の挿入とは別個の任意選択的な工程として細胞若しくは核と関連してよい。核又は細胞の任意選択的なインデックス付けは、ユニバーサル配列の挿入の前又は後に生じ得る(図1A、ブロック12)。一実施形態では、核又は細胞のサブセットの分配前に、試料にインデックスを付加する(図1A、ブロック13)。いくつかの実施形態では、核又は細胞のサブセットの分配前に、複数の試料にインデックスを付加する(図1A、ブロック13)。
一実施形態では、トランスポソーム複合体を使用する。トランスポソーム複合体はトランスポザーゼ認識部位に結合され、「タグ付け」と呼ばれることもあるプロセスで、核内のターゲット核酸にトランスポザーゼ認識部位を挿入することができる。一部のそのような挿入イベントでは、トランスポザーゼ認識部位の一本鎖は、ターゲット核酸に移され得る。このような鎖は、「移送鎖」と称される。一実施形態では、トランスポソーム複合体は、2つのサブユニット、及び2つの非連続的なトランスポゾン配列を有する二量体トランスポザーゼを含む。別の実施形態では、トランスポザーゼは、2つのサブユニット、及び非連続的なトランスポゾン配列を有する二量体トランスポザーゼを含む。一実施形態では、トランスポザーゼ認識部位の一方又は両方の鎖の5’末端をリン酸化することができる。
いくつかの実施形態は、高活性Tn5トランスポザーゼ及びTn5型トランスポザーゼ認識部位(Goryshin及びReznikoff、J.Biol.Chem.、273:7367(1998年))、又はR1及びR2末端配列を含むMuAトランスポザーゼ及びMuトランスポザーゼ認識部位(Mizuuchi,K.、Cell、35:785,1983年、Savilahti,Hら、EMBO J.、14:4893、1995年)の使用を含み得る。Tn5モザイク末端(ME)配列もまた、当業者が使用することができる。
本明細書で提供される組成物及び方法の特定の実施形態と共に使用することができる転位システムの更なる例としては、黄色ブドウ球菌Tn552(Colegioら、J.Bacteriol.、183:2384-8,2001年、Kirby Cら、Mol.Microbiol.、43:173-86、2002年)、Ty1(Devine及びBoeke、Nucleic Acids Res.、22:3765-72、1994年、及び国際公開第95/23875号)、トランスポゾンTn7(Craig、NL、Science.271:1512、1996年、Craig、NL、Curr Top Microbiol Immunol.中のレビュー、204:27-48、1996年)、Tn/O及びIS10(Kleckner N、ら、Curr Top Microbiol Immunol.、204:49-82、1996年)、Mariner transposase(Lampe D J、ら、EMBO J、15:5470-9、1996年)、Tc1(Plasterk R H、Curr.Topics Microbiol.Immunol.、204:125-43、1996年)、P要素(Gloor、G B、Methods Mol.BiBiol、260:97-114、2004年)、Tn3(Ichikawa及びOhtsubo、J Biol.Chem.265:18829-32、1990年)、細菌挿入配列(Ohtsubo及びSekine、Curr.Top.Microbiol.Immunol.204:1-26、1996年)、レトロウイルス(Brownら、Proc Natl Acad Sci USA、86:2525-9、1989年)、及び酵母のレトロトランスポゾン(Boeke及びCorces、Annu Rev Microbiol.43:403-34、1989年)が挙げられる。その他の例としては、IS5、Tn10、Tn903、IS911、及びトランスポザーゼファミリー酵素の改変型(Zhangら、(2009年)PLoS Genet.5:e1000689.Epub 2009年10月16日、Wilson C.ら(2007年)J.Microbiol.Methods 71:332-5)がある。
本明細書で提供される方法及び組成物と共に使用され得るインテグラーゼの他の例には、レトロウイルスインテグラーゼ及びそのようなレトロウイルスインテグラーゼのインテグラーゼ認識配列、例えば、HIV-1、HIV-2、SIV、PFV-1、RSVからのインテグラーゼが含まれる。
本明細書に記載の方法及び組成物で有用なトランスポゾン配列は、米国特許出願公開第2012/0208705号、米国特許出願公開第2012/0208724号、及び国際公開第2012/061832号に記載されている。いくつかの実施形態では、トランスポゾン配列は、第1のトランスポザーゼ認識部位と、第2のトランスポザーゼ認識部位とを含む。
本明細書で有用ないくつかのトランスポソーム複合体は、2つのトランスポゾン配列を有するトランスポザーゼを含む。いくつかのそのような実施形態では、2つのトランスポゾン配列は互いに連結されておらず、換言すれば、トランスポゾン配列は互いに連続していない。このようなトランスポソームの例は、当技術分野において既知である(例えば、米国特許出願公開第2010/0120098号参照)。
一実施形態では、タグ付けは、各末端に異なるユニバーサル配列を含むターゲット核酸(例えば、一端にA14などユニバーサルプライマー結合部位、及び他端にB15などユニバーサルプライマー結合部位)を産生するために使用される。これは、2種類のトランスポソーム複合体を使用することによって達成することができ、各トランスポソーム複合体は、移送鎖の一部である、異なるヌクレオチド配列を含む。ユニバーサル配列は、複数の目的を果たすことができる。例えば、限定することを意図するものではないが、ユニバーサル配列は、別のヌクレオチド配列(例えば、インデックス)を付加するために、後続の増幅工程でハイブリダイゼーション用相補的配列としての役割を果たすことができる、ユニバーサルプライマー(例えば、リード1又はリード2用のシークエンシングプライマー)がシークエンシングのためにアニーリングする部位としての役割を果たすことができる、又はインデックスなど別のヌクレオチド配列をターゲット核酸に付加するためのプライマーとして使用され得るヌクレオチド配列をアニーリングするために、後続の工程で「着地パッド」としての役割を果たすことができる。
いくつかの実施形態では、トランスポソーム複合体は、2つのトランスポザーゼサブユニットを結合して「ループ状複合体」又は「ループ状トランスポソーム」を形成するトランスポゾン配列核酸を含む。一実施例では、トランスポソームは、二量体トランスポザーゼ及びトランスポゾン配列を含む。ループ状複合体は、ターゲットDNAを断片化することなく、元のターゲットDNAの順序情報を維持しながら、トランスポゾンがターゲットDNAに挿入されることを確実にすることができる。理解されるように、ループ状構造は、ターゲット核酸の物理的接続性を維持しながら、ターゲット核酸に、ユニバーサル配列など所望の核酸配列を挿入してよい。いくつかの実施形態では、ループ状トランスポソーム複合体のトランスポゾン配列は、トランスポゾン配列を断片化して2つのトランスポゾン配列を含むトランスポソーム複合体を作成することができるように、断片化部位を含むことができる。このようなトランスポソーム複合体は、トランスポゾンが挿入される、近傍のターゲットDNA断片が、アッセイの後の段階で明確に組み立てられ得るバーコードの組み合わせを確実に受け取るのに有用である。一実施形態では、ターゲット核酸への1つ以上のユニバーサル配列の挿入後に、インデックスの組み合わせを付加する。
一実施形態では、核酸の断片化は、核酸中に存在する断片化部位を使用することによって達成される。典型的には、断片化部位は、トランスポソーム複合体を使用することによってターゲット核酸に導入される。一実施形態では、核酸断片の断片化後、トランスポザーゼは、同じゲノムDNA分子に由来する核酸断片が物理的に連結されたままであるように、核酸断片に結合したままである(Adey et al.,2014,Genome Res.,24:2041-2049,Amini S.et al.(2014)Nat Genet 46:1343-1349)。例えば、ループ状トランスポソーム複合体は、断片化部位を含み得る。断片化部位は、物理的会合を開裂するために使用することができるが、ターゲット核酸に組み込まれているインデックス配列間の情報的会合の開裂に使用することはできない。開裂は、生化学的、化学的、又は他の手段によって行われてよい。いくつかの実施形態では、断片化部位は、様々な手段によって断片化され得るヌクレオチド又はヌクレオチド配列を含み得る。断片化部位の例としては、制限エンドヌクレアーゼ部位、RNAseにより開裂可能な少なくとも1つのリボヌクレオチド、特定の化学剤の存在下で開裂可能なヌクレオチド類似体、過ヨウ素酸塩による処理で開裂可能なジオール結合、化学還元剤で開裂可能なジスルフィド基、光化学的開裂に供され得る開裂可能部分、及びペプチダーゼ酵素又は他の好適な手段によって開裂可能なペプチドが挙げられるが、これらに限定されない(例えば、米国特許出願公開第2012/0208705号、米国特許出願公開第2012/0208724号、及び国際公開第2012/061832号を参照)。一実施形態では、トランスポザーゼは、核酸断片に結合したままであり、タンパク質変性剤(例えばSDS)又はキレート剤(例えば、EDTA)の添加など適切な条件の使用による除去まで、同じゲノムDNA分子に由来する核酸断片間の物理的結合を維持する。このタイプのアプローチは、連続的に連結され、転位したターゲット核酸を捕捉することによって、連続性情報の導出を可能にする(米国特許出願公開第2019/0040382号)。連続性情報は、トランスポザーゼを使用してターゲット核酸内で隣接する鋳型核酸断片の会合を維持することによって保存され得る。
転位の代わりに、断片化によってターゲット核酸を得ることができる。試料からの一次核酸の断片化は、酵素法、化学的方法、又は機械的方法によって順不同の様式で達成され得、次いで、アダプターが断片の末端に付加される。酵素的断片化の例としては、CRISPR及びTalen様酵素、並びにDNA断片がハイブリダイズし、伸長又は増幅を開始することができる一本鎖領域を作製することができるDNA(例えば、ヘリカーゼ)をほどく酵素が挙げられる。例えば、ヘリカーゼベースの増幅を使用することができる(Vincent et al.,2004,EMBO Rep.,5(8):795-800)。一実施形態では、伸長又は増幅は、ランダムプライマーを用いて開始される。機械的断片化の例としては、噴霧化又は超音波処理が挙げられる。
機械的手段による一次核酸の断片化は、平滑末端、3’オーバーハング末端、及び5’オーバーハング末端の異種混合物を有する断片をもたらす。したがって、例えば、平滑部位にアダプターを付加するのに最適な端部を生成するために、当該技術分野において既知の方法を使用して、断片末端を修復することが望ましい。特定の実施形態では、核酸集団の断片末端は、平滑末端である。より具体的には、断片末端は、平滑末端であり、リン酸化されている。リン酸部分は、酵素処理によって、例えば、ポリヌクレオチドキナーゼを使用して導入することができる。
一実施形態では、断片化した核酸は、オーバーハングヌクレオチドを用いて調製される。例えば、単一のオーバーハングヌクレオチドは、例えばヌクレオチド「A」をDNA分子の3’末端に付加するなど単一のデオキシヌクレオチドを付加する、鋳型非依存の末端トランスフェラーゼ活性を有する、Taqポリメラーゼ又はKlenowエキソマイナスポリメラーゼなど特定タイプの活性によって付加することができる。このような酵素を使用して、二本鎖核酸断片の各鎖の平滑末端の3’末端に単一ヌクレオチド「A」を付加することができる。したがって、Taq又はKlenowエキソマイナスポリメラーゼとの反応によって、二本鎖ターゲット断片の末端修復された各鎖の3’末端に「A」を付加することができ、一方、アダプターは、ユニバーサルアダプターの二本鎖核酸の各領域の3’末端に存在する適合性のある「T」オーバーハングを有するT構築物であり得る。一実施例では、末端デオキシヌクレオチジルトランスフェラーゼ(TdT)を使用して、複数の「T」ヌクレオチド」(Swift Biosciences,Ann Arbor,MI)を付加することができる。このタイプの末端修飾はまた、各末端に同じアダプターを有するターゲット核酸を形成するバイアスが存在するように、ベクター及びターゲットの両方の自己ライゲーションを防止する。
一次核酸は、DNA、RNA、又はDNA/RNAハイブリッドであり得る。一次核酸がRNAである実施形態では、核又は細胞に存在する核酸に1つ以上のユニバーサル配列を組み込むことは、典型的には、RNAをDNAに変換することを含む。様々な方法を使用することができるが、いくつかの実施形態では、cDNAを産生するために使用される常法が含まれる。例えば、3’末端にポリT配列を有するプライマー及びポリT配列の上流のアダプターをmRNA分子にアニーリングし、逆転写酵素を使用して伸長させることができる。これにより、DNAへのmRNAの1工程変換、任意選択的に、3’末端へのユニバーサル配列の1工程変換をもたらす。一実施形態では、プライマーはまた、1つ以上のインデックス配列を含んでよい。一実施形態では、ランダムプライマーを使用する。
非コードRNAはまた、DNAに変換することができ、任意選択的に、様々な方法を使用してユニバーサル配列を含むように修飾されてよい。例えば、ランダム配列及び鋳型スイッチプライマーを含む第1プライマーを使用してアダプターを付加することができ、いずれのプライマーもユニバーサル配列アダプターを含むことができる。合成鎖の3’末端への非鋳型ヌクレオチドの付加をもたらすために末端トランスフェラーゼ活性を有する逆転写酵素を使用することができ、鋳型スイッチプライマーは、逆転写酵素により付加される非鋳型ヌクレオチドとアニーリングするヌクレオチドを含む。有用な逆転写酵素の例は、モロニ-マウス白血病ウイルス逆転写酵素である。特定の実施形態では、鋳型スイッチに使用するために、Takara Bio USA,Inc.から入手可能なSMARTer(商標)試薬(カタログ番号634926)を使用して、非コードRNAに、また必要に応じてmRNAにユニバーサル配列を付加する。任意選択的に、鋳型スイッチプライマーを、ポリT配列を有するプライマーと併せてRNAで用い、RNAから産生されたDNAターゲット核酸の両端にユニバーサル配列を付加することができる。
サブセットの分配
本明細書で提供される方法は、単離された核又は細胞のサブセットを複数の区画に分配することを含む(図1A、ブロック13、図1B、ブロック115、図3、ブロック31、図4、ブロック41、ブロック44)。本方法は、単離された核又は細胞の集団(本明細書ではプールとも呼ばれる)をサブセットに分割する、複数の分配工程を含み得る。典型的には、単離された核又は細胞のサブセット、例えば、複数の区画に存在するサブセットを、区画特異的インデックスでインデックス付けし、次いでプールする。したがって、本方法は、典型的には、プールされた単離核又は単離細胞を得て、それらを分配し、区画特異的インデックスを付加するという、少なくとも1つの「スプリット及びプール」工程を含み、「スプリット及びプール」工程の数は、ターゲット核酸に付加される、異なるインデックスの数に依存し得る。インデックス付け前の核又は細胞の各初期サブセットは、他のサブセットとは異なり、一意であり得る。例えば、第1の各サブセットは、一意の生物又は一意の組織など一意の試料からのものであり得る。インデックス付け後、サブセットをプールし、サブセットに分割し、十分な数のインデックスがターゲット核酸に付加されるまで、必要に応じて再度プールすることができる。このプロセスは、それぞれの単一細胞又は単一核に固有のインデックス又はインデックスの組み合わせを割り当て、本明細書に記載されるコンビナトリアルインデクシングをもたらす。インデックス付けの完了後、例えば、1つ、2つ、3つ、又はそれ以上のインデックスの付加後、単離された核又は細胞を溶解することができる。いくつかの実施形態では、インデックスの付加及び溶解は同時に生じ得る。
サブセット、したがって各区画内に存在する核又は細胞の数は、少なくとも1であり得る。一実施形態では、サブセット内に存在する核又は細胞の数は、100,000,000以下、10,000,000以下、1,000,000以下、100,000以下、10,000以下、4,000以下、3,000以下、2,000以下、1,000以下、500以下、又は50以下である。一実施形態では、サブセット内に存在する核又は細胞の数は、1~1,000、1,000~10,000、10,000~100,000、100,000~1,000,000、1,000,000~10,000,000、又は10,000,000~100,000,000であり得る。一実施形態では、各サブセット内に存在する核又は細胞の数はほぼ等しい。サブセット内に存在する核又は細胞の数、したがって各区画内の核又は細胞の数は、インデックスの衝突を減らしたいという要望に部分的に基づいており、衝突とは、本方法のこの工程において同じ区画内で終わる同じインデックスの組み合わせを有する2つの核又は細胞の存在である。核又は細胞をサブセットに分配するための方法は、当業者に既知であり、日常的である。蛍光活性化細胞選別(FACS)サイトメトリーを使用することができるが、いくつかの実施形態では、単純希釈の使用が好ましい。一実施形態では、FACSサイトメトリーは使用されない。任意選択的に、染色、例えばDAPI(4’,6-ジアミジノ-2-フェニルインドール)染色により、異なる倍数性の核をゲーティングし、濃縮することができる。染色は、選別中にダブレットから単一の細胞を同定するためにも使用することができる。
分配工程(及び後続のインデックスの付加)における区画の数は、使用するフォーマットに依存し得る。例えば、区画の数は、2~96区画(96ウェルプレートを使用する場合)、2~384区画(384ウェルプレートを使用する場合)、又は2~1536区画(1536ウェルプレートを使用する場合)であり得る。一実施形態では、複数のプレートを使用することができる。区画の例としては、ウェル、液滴、及びマイクロ流体区画が挙げられるが、これらに限定されない。一実施形態では、各区画は液滴であり得る。使用される区画の種類が2つ以上の核又は細胞を含有する液滴である場合、少なくとも10,000、少なくとも100,000、少なくとも1,000,000、又は少なくとも10,000,000の液滴など、任意の数の液滴を使用することができる。単離された核又は細胞のサブセットは、典型的には、プール前に区画内でインデックス付けされる。
コンビナトリアルインデクシング
本明細書で提供される方法は、試料中に存在する核又は細胞に区画特異的インデックスを付加すること(図1B、ブロック112)、又は異なる区画に分配された、単離された核若しくは細胞のサブセットに区画特異的インデックスを付加すること(例えば、図1A、ブロック14、図3、ブロック32、図4、ブロック42及び45、図6、ブロック601)を含む。いくつかの実施形態では、ユニバーサル配列はまた、インデックスと共に組み込まれ得る。タグ又はバーコードとも呼ばれるインデックス配列は、特定の核酸が存在する区画に特徴的なマーカーとして有用である。したがって、いくつかの実施形態では、インデックスは、特定の区画に存在するターゲット核酸のそれぞれに結合された核酸配列タグであり、その存在は、本方法の特定の段階で核又は細胞の集団が存在している区画を示すか、又は同定するために使用される。
一実施形態では、複数のインデックスが付加される。各インデックスの組み込みは、1回のスプリット及びプールインデクシングで生じる。1回、2回、3回、又はそれ以上の回数のスプリット及びプールバーコーディングは、一重、二重、三重、又は多重(例えば、四重以上の)インデックス付きターゲット核酸をもたらす。
インデックスは、ターゲット核酸の一端又は両端に付加され得る。例えば、2つ以上のインデックスを有する修飾ターゲット核酸は、各末端に異なるインデックスを含み得る(その例を図5Aに示す)。図5Aでは、ターゲット核酸55は、4つの別個のインデックス、一端に2つのインデックス(51及び52)、及び他端に2つのインデックス(53及び54)を含むように修飾される。他の実施形態では、修飾ターゲット核酸は、一端部又は両端においてグループ化されたインデックスを含み得る(図5Bに一例を示す)。図5Bでは、ターゲット核酸56は、各末端に4つの別個のインデックス(51、52、53、及び54)を含むように修飾される。ターゲット核酸の一端に存在する1セットのインデックスは、「連続インデックス」と称され得る。一実施形態では、連続インデックスは、各インデックス間にヌクレオチドを有さない。他の実施形態では、連続インデックスのうちの1つ以上のインデックスの間に、1個、2個、3個、4個、又はそれ以上のヌクレオチドが存在し得る。本明細書に記載のように、連続インデックスは、特定のインデックスセットを有するライブラリーのメンバーを同定する際に有用であり得る。例えば、連続インデックスは、同一細胞に由来するライブラリーメンバーの濃縮を促進することができる。
インデックス配列は、任意の好適な数、例えば、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20以上のヌクレオチドの長さであり得る。4つのヌクレオチドタグは、同一アレイで256個の試料を多重化する可能性をもたらし、6つの塩基タグは、同一アレイでの4096個の試料の処理を可能にする。
一実施形態では、インデックスは、例えばトランスポソーム複合体によって、ユニバーサル配列が核又は細胞のDNA核酸に組み込まれた後に付加される。インデックス配列の組み込みは、本質的に、ライゲーション、伸長、ハイブリダイゼーション、吸着、プライマーの特異的若しくは非特異的相互作用、又は増幅の任意の組み合わせを使用して、1つ、2つ、又はそれ以上の工程を含むプロセスを使用し得る。一実施形態では、インデックスは、cDNA合成中に付加される。一実施形態では、インデックスは、タグ付けを通して付加される。ターゲット核酸の一端又は両末端に付加されるヌクレオチド配列はまた、1つ以上のユニバーサル配列及び/又は固有分子識別子など他の有用な配列を含み得る。
ユニバーサル配列を含む核酸へのインデックスの付加には様々な方法を使用することができ、インデックスの付加方法を限定することは意図しない。一実施形態では、ターゲット核酸は、各末端に異なるユニバーサル配列(例えば、一端にA14、他端にB15)を有し、当業者であれば、ターゲット核酸の一端又は両端に特定の配列を付加できることを認識するであろう。トランスポソーム複合体により付加されるユニバーサル配列は、例えば、別のインデックス及び/又は別のユニバーサル配列など別のヌクレオチド配列をターゲット核酸に付加するためのプライマーとして使用され得るヌクレオチド配列をアニーリングする後続工程において、「着地パッド」として使用することができる。例えば、一実施形態では、インデックス配列の組み込みは、核酸の一端又は両端にプライマーをライゲートすることを含む。プライマーのライゲーションは、ターゲット核酸の各末端におけるユニバーサル配列の存在によって補助され得る。プライマーの例は、二重ヘアピンライゲーションである。二重ライゲーションは、ターゲット核酸の一端、又は好ましくは両端にライゲーションされ得る。
一実施形態では、平滑末端ライゲーションを使用することができる。別の実施形態では、ターゲット核酸は、例えば、Taqポリメラーゼ、又は1つ以上のデオキシヌクレオチド、例えば、デオキシアデノシン(A)をターゲット核酸の3’末端に付加する、鋳型非依存末端トランスフェラーゼ活性を有するKlenowエキソマイナスポリメラーゼなど特定タイプのDNAポリメラーゼの活性によって、単一のオーバーハングヌクレオチドを用いて調製される。場合によっては、オーバーハングヌクレオチドは、2つ以上の塩基である。このような酵素を使用して、ターゲット核酸の各鎖の平滑端である3’末端に単一のヌクレオチド「A」を付加することができる。したがって、Taq又はKlenowエキソマイナスポリメラーゼとの反応によって、二本鎖ターゲット断片の各鎖の3’末端に「A」を付加することができ、一方、ターゲット核酸の各末端に付加される更なる配列は、付加される二本鎖核酸の各領域の3’末端に存在する、適合性のある「T」オーバーハングを含み得る。この末端修飾はまた、この実施形態で付加される配列に隣接するインデックス付きターゲット核酸を形成するバイアスが存在するように、核酸の自己ライゲーションを防止する。
一実施形態では、インデックスの組み込みは、PCRなど指数的増幅反応によって行われる。ターゲット核酸の末端に存在するユニバーサル配列は、プライマーとしての役割を果たし、増幅反応で伸長し得る配列のアニーリングに使用することができる。
インデックス及び他の有用な配列は、単一工程で、又は複数工程で付加することができる。例えば、インデックス及び任意の他の有用な配列は、ライゲーション又は伸長によって付加することができ、又は、例えば、ユニバーサル配列をライゲーションすること、次いで、インデックス及び任意の他の有用な配列を含むように、ユニバーサル配列を更に修飾するように増幅することを含む2工程法を使用することができる。
一実施形態では、インデクシング工程中の配列の付加により、ターゲット核酸の固定化及び/又はシークエンシングに有用なユニバーサル配列が付加される。別の実施形態では、インデックス付きターゲット核酸を更に処理して、ターゲット核酸の固定化及びシークエンシングに有用なユニバーサル配列を付加することができる。当業者は、区画が液滴である実施形態では、核酸断片を固定するための配列は任意選択的であることを認識するであろう。一実施形態では、断片の固定化及びシークエンシングに有用なユニバーサル配列の組み込みは、同一のユニバーサルアダプター(「ミスマッチアダプター」とも呼ばれ、その一般的な特徴は、米国特許第7,741,463号(Gormleyら)及び同第8,053,192号(Bignellら)に記載されている)を、インデックス付き核酸断片の5’末端及び3’末端にライゲートすることを含む。一実施形態では、ユニバーサルアダプターは、アレイ上でインデックス付き核酸断片を固定化するための配列を含む、シークエンシングに必要な全ての配列を含む。
得られたインデックス付き断片は、固定化し、次いでシークエンシングできる核酸のライブラリーを集合的に提供する。本明細書においてシークエンシングライブラリーとも呼ばれるライブラリーという用語は、3’末端及び5’末端に既知のユニバーサル配列及びインデックスの様々な組み合わせを含む単一核又は単一細胞からの核酸断片の集合体を指す。ライブラリーは、例えば、アクセス可能DNA、全ゲノム、又は全トランスクリプトーム、特定のタンパク質を示す核酸、又はこれらの組み合わせからの核酸を含み、シークエンシングを行うために使用することができる。
インデックス付き核酸断片は、150~300ヌクレオチドなどの長さ150~400ヌクレオチドなど所定のサイズ範囲について選択する条件に供され得る。得られたインデックス付き核酸断片はプールされ、任意選択的に、組み込まれていないユニバーサルアダプター又はプライマーの少なくとも一部を除去することによって、DNA分子の純度を向上させるために、クリーンアッププロセスに供され得る。電気泳動、サイズ排除クロマトグラフィーなどの任意の好適なクリーンアッププロセスが使用されてよい。いくつかの実施形態では、固相可逆性固定常磁性ビーズを用いて、結合していないユニバーサルアダプター又はプライマーから所望のDNA分子を分離し、サイズに基づいて核酸を選択してよい。固相可逆性固定常磁性ビーズは、ベックマン・コールター社(Agencourt AMPure XP)、サーモフィッシャー社(MagJet)、オメガ・バイオテック社(Mag-Bind)、プロメガ・ビーズ社(Promega)、及びカパ・バイオシステムズ社(Kapa Pure Beads)から市販されている。
本開示の非限定的な例示的実施形態を図1Aに示す。この実施形態では、本方法は、複数の核又は細胞を提供することを含む(図1A、ブロック10)。複数の核又は細胞は、試料又は複数の試料からのものであり得る。本方法は、核又は細胞に存在する核酸に1つ以上のユニバーサル配列を組み込むことを更に含む(図1A、ブロック11)。任意選択的に、本方法はまた、核又は細胞にインデックスを関連付けること(例えば、核又は細胞ハッシング、国際公開第2020/180778号を参照)を含み得、一実施形態では、関連付けることにより、核酸にインデックスを付加することができる(図1A、ブロック12)。一実施形態では、2つの異なるユニバーサル配列が付加されて、最終的に、各末端に異なるユニバーサル配列を有するターゲット核酸が得られる。本方法は、核又は細胞のサブセットを分配することを更に含み、そこに位置する核酸にユニバーサル配列を組み込むこと、及び任意選択的に少なくとも1つのインデックスを複数の区画に組み込むこと含む(図1、ブロック13)。各区画に存在する核酸にインデックス付けし(図1A、ブロック14)、次いで核又は細胞をプールする(図1A、ブロック15)。単一のインデックスの付加後に、核又は細胞内の核酸のライブラリーを更に処理して、シークエンシング用に調製することができる(図1A、ブロック16)。しかしながら、いくつかの好ましい実施形態では、第2、第3、又はそれ以上のインデックスを付加することが望ましい。一実施形態では、各インデックスの付加は、スプリット後にインデックス付けが生じる「スプリット及びプール」工程を含むことができ、例えば、核又は細胞のサブセットを複数の区画に分配し(図1A、ブロック13)、各区画内に存在する核酸にインデックス付けし(図1A、ブロック14)、次いで核又は細胞をプールする(図1A、ブロック15)。「スプリット及びプール」工程は、結果として、核又は細胞に存在する核酸の一端のみ又は両端にインデックスを付加することができる。最後のインデックスの付加後に、核又は細胞内の核酸のライブラリーをプールし、更に処理して、シークエンシング用(包括的シークエンシング又はターゲットシークエンシングであり得る)に調製することができる(図1A、ブロック16)。
本開示の別の非限定的な例示的実施形態を図1Bに示す。この実施形態では、本方法は、最初に並行処理される複数の試料を提供すること(図1B、ブロック110)を含む。本方法は、核又は細胞に存在する核酸に1つ以上のユニバーサル配列を組み込むこと(図1B、ブロック111)、続いて核酸にインデックスを付加すること(図1B、ブロック112)を含み、各試料に付加されたインデックスは一意であり、特定の試料に由来する核酸を同定するための試料インデックスとして使用され得る。一実施形態では、2つの異なるユニバーサル配列が付加されて、最終的に、各末端に異なるユニバーサル配列を有するターゲット核酸が得られる。本方法は、核又は細胞をプールすること(図1B、ブロック113)を更に含む。一実施形態では、1つのインデックスの付加後に、核又は細胞内の核酸のライブラリーを更に処理して、シークエンシング用に調製することができる(図1B、ブロック114)。しかしながら、いくつかの好ましい実施形態では、第2、第3、又はそれ以上のインデックスを付加することが望ましい。一実施形態では、各インデックスの付加は、スプリット後にインデックス付けが生じる「スプリット及びプール」工程を含むことができ、例えば、核又は細胞のサブセットを複数の区画に分配し(図1B、ブロック115)、各区画内に存在する核酸にインデックス付けし(図1B、ブロック116)、次いで核又は細胞をプールする(図1B、ブロック117)。「スプリット及びプール」工程は、結果として、核又は細胞に存在する核酸の一端のみ又は両端にインデックスを付加することができる。最後のインデックスの付加後に、核又は細胞内の核酸のライブラリーをプールし、更に処理して、シークエンシング用(包括的シークエンシング又はターゲットシークエンシングであり得る)に調製することができる(図1B、ブロック118)。
本開示の別の非限定的な例示的実施形態を図2に示す。この実施形態では、本方法は、タグ付けを使用して、核又は細胞に存在する核酸に2つのユニバーサル配列を組み込み、後続の3回のインデクス付けを行うことを含む(図2A)。あるトランスポソーム複合体21は、ユニバーサル配列23(例えば、A14)を含み、別のトランスポソーム複合体22は、ユニバーサル配列24(B15)を含む。核酸へのユニバーサル配列の挿入は、バルクの複数の核又は細胞に対して生じる。図2Aはまた、ターゲット核酸25への2つのユニバーサル配列23及び24の挿入の結果を示す。複数の核又は細胞を異なる区画に分配し、一方のユニバーサル配列(例えば、A14)に相補的なヌクレオチドを使用して、ライゲーションによってインデックスを含むポリヌクレオチド26を核酸25の片側に付加する(図2B)。複数の核又は細胞をプールし、次いで異なる区画に分配し、他方のユニバーサル配列(例えば、B15)に相補的なヌクレオチドを使用して、ライゲーションによって第2のインデックスを含む、異なるポリヌクレオチド27を核酸25の他方の側に付加する(図2C)。二重インデックス付き核酸を含有する複数の核又は細胞をプールし、次いで、異なる区画に分配し、次いで、第3のインデックスを含むポリヌクレオチド28を核酸25の片側に付加し、第4のインデックスを含むポリヌクレオチド29を核酸25の片側に付加するPCR増幅反応に供する(図2D)。最後のインデックスの付加後に、核又は細胞内の核酸のライブラリーをプールし、更に処理して、シークエンシング用(包括的シークエンシング又はターゲットシークエンシングであり得る)に調製することができる。
本開示の更に別の非限定的な例示的実施形態を図3に示す。この実施形態では、本方法は、複数の核又は細胞を提供することを含む(図3、ブロック30)。本方法は、核又は細胞のサブセットを複数の区画に分配することを更に含む(図3、ブロック31)。各区画の核又は細胞に存在する核酸は、インデックス及び/又はユニバーサル配列の組み込みによって修飾される(図3、ブロック32)。別の実施形態では、各区画の核又は細胞に存在する核酸は、同じユニバーサル配列の組み込み(例えば、同じユニバーサル配列を有するトランスポゾンを使用したタグ付け)、続いての、区画特異的インデックスの付加によって修飾される。次いで、核又は細胞をプールする(図3、ブロック33)。インデックス及び/又はユニバーサル配列の付加後に、核又は細胞内の核酸のライブラリーを更に処理して、シークエンシング用に調製することができる(図3、ブロック34)。しかしながら、いくつかの好ましい実施形態では、第2、第3、又はそれ以上のインデックスを付加することが望ましい。任意選択的に、ユニバーサル配列を付加することもできる。各インデックスの付加は、スプリット後にインデックス付けが生じる「スプリット及びプール」工程を含むことができ、例えば、核又は細胞のサブセットを複数の区画に分配し(図3、ブロック31)、各区画内に存在する核酸にインデックス付けし(図3、ブロック32)、次いで核又は細胞をプールする(図3、ブロック33)。「スプリット及びプール」工程は、結果として、核又は細胞に存在する核酸の一端のみ又は両端にインデックスを付加することができる。最後のインデックスの付加後に、核又は細胞内の核酸のライブラリーをプールし、更に処理して、シークエンシング用(包括的シークエンシング又はターゲットシークエンシングであり得る)に調製することができる(図3、ブロック34)。
本開示の更に非限定的な例示的実施形態を図4に示す。この実施形態では、本方法はRNAの解析を含む。複数の核又は細胞が提供され(図4、ブロック40)、これらは、試料又は複数の試料から得ることができる。核又は細胞のサブセットを複数の区画に分配する(図4、ブロック41)。任意選択的に、本方法はまた、分配前に、核又は細胞に(例えば、核又は細胞ハッシング、国際公開第2020/180778号を参照)、又は核酸にインデックスを関連付けることも含み得る。各区画の核又は細胞に存在する核酸は、逆転写酵素を使用して修飾し、インデックス及び/又はユニバーサル配列を挿入し(図4、ブロック42)、次いで核又は細胞をプールする(図4、ブロック43)。本方法は、核又は細胞のサブセットを複数の区画に分配することを更に含む(図4、ブロック44)。各区画の核又は細胞に存在する核酸は、別のインデックス及び/又はユニバーサル配列の挿入によって修飾し(図4、ブロック45)、次いで核又は細胞をプールする(図4、ブロック46)。インデックス及び/又はユニバーサル配列の付加後に、核又は細胞内の核酸のライブラリーを更に処理して、シークエンシング用に調製することができる(図4、ブロック47)。しかしながら、いくつかの好ましい実施形態では、第3、第4、又はそれ以上のインデックスを付加することが望ましい。任意選択的に、ユニバーサル配列を付加することもできる。各インデックスの付加は、スプリット後にインデックス付けが生じる「スプリット及びプール」工程を含むことができ、例えば、核又は細胞のサブセットを複数の区画に分配し(図4、ブロック44)、各区画内に存在する核酸にインデックス付けし(図4、ブロック45)、次いで核又は細胞をプールする(図4、ブロック46)。「スプリット及びプール」工程は、結果として、核又は細胞に存在する核酸の一端のみ又は両端にインデックスを付加することができる。最後のインデックスの付加後に、核又は細胞内の核酸のライブラリーをプールし、更に処理して、シークエンシング用(包括的シークエンシング又はターゲットシークエンシングであり得る)に調製することができる(図4、ブロック47)。
シークエンシングのための固定されたサンプルの調製
1つ又はそれ以上の源からのインデックス付き断片を基質に取り付ける方法は、当技術分野において既知である。一実施形態では、インデックス付き断片は、インデックス付き断片に対する特異性を有する複数の捕捉配列を使用して濃縮され、捕捉配列は、固体基質の表面に固定され得る。例えば、捕捉配列は、結合対の第1のメンバー(例えば、P5’)を含み得、結合対の第2のメンバー(P5)は、固体基質の表面に固定される。同様に、固定化されたインデックス付き断片を増幅するための方法としては、ブリッジ増幅及び結合平衡除外が挙げられるが、これらに限定されない。シークエンシングの前に固定化及び増幅する方法は、例えば、Bignellら(米国特許第8,053,192号)、Gundersonら(国際公開第2016/130704号)、Shenら(米国特許第8,895,249号)、及びPipenburgら(米国特許第9,309,502号)に記載されている。
プールされたサンプルは、シークエンシングのために調製中に固定化され得る。シークエンシングは、単一分子のアレイとして実施することも、シークエンシングの前に増幅することもできる。増幅は、1つ又は複数の固定化プライマーを使用して実施することができる。固定化されたプライマーは、例えば、平面上、又はビーズのプール上のローンであり得る。ビーズのプールは、エマルジョンの各「区画」に単一のビーズを有するエマルジョン中に単離され得る。「区画」当たり1つの鋳型のみの濃度では、単一の鋳型のみが各ビーズ上で増幅される。
本明細書で使用するとき、用語「固相増幅」は、形成時に増幅産物の全て又は一部が固体支持体上に固定されるように、固体支持体上又は固体支持体と関連して実施される任意の核酸増幅反応を指す。具体的には、この用語は、順方向及び逆方向増幅プライマーの一方又は両方が固体支持体上に固定されていることを除いて、標準溶液相増幅に類似した反応である固相ポリメラーゼ連鎖反応(固相PCR)及び固相等温増幅を包含する。固相PCRは、一方のプライマーがビーズに固定され、もう一方が遊離溶液にあるエマルジョンや、一方のプライマーが表面に固定され、もう一方が遊離溶液にある固相ゲルマトリックスでのコロニー形成などの系を対象としている。
いくつかの実施形態では、固体支持体はパターン化された表面を含む。「パターン化された表面」は、固体支持体の露出層内又はその上の異なる領域の配置を指す。例えば、1つ又はそれ以上の領域は、1つ又はそれ以上の増幅プライマーが存在する特徴であり得る。この特徴は、増幅プライマーが存在しない間質領域によって分離され得る。いくつかの実施形態では、パターンは、行及び列にある特徴のx-yフォーマットであり得る。いくつかの実施形態では、パターンは、特徴及び/又は間質領域の反復配列であり得る。いくつかの実施態様では、パターンは、特徴及び/又は間質領域のランダム配列であり得る。本明細書に記載の方法及び組成物で使用することができる例示的なパターン化された表面は、米国特許第8,778,848号、同第8,778,849号、及び同第9,079,148号、並びに米国特許出願公開第2014/0243224号に記載されている。
いくつかの実施形態では、固体支持体は、表面にウェル又は窪みのアレイを含む。これは、フォトリソグラフィー、スタンピング技術、成形技術、及びマイクロエッチング技術を含むがこれらに限定されない様々な技術を使用して、技術分野において一般的に知られているように製造することができる。技術分野において理解されるように、使用される技術は、アレイ基板の組成及び形状に依存する。
パターン付き表面内の特徴は、ガラス、シリコン、プラスチック、又はポリ(N-(5-アジドアセトアミルペンチル)アクリルアミド-コ-アクリルアミド)(PAZAM、例えば、米国特許出願公開第2013/184796号、国際公開第2016/066586号、及び同第2015/002813号参照)などのパターン化された共有結合ゲルを備えた他の適切な固体支持体上のウェルのアレイ(例えば、マイクロウェル又はナノウェル)のウェルである可能性がある。このプロセスは、配列決定のために使用されるゲルパッドを作成し、これは、多数のサイクルで配列決定動作にわたって安定であり得る。ポリマーをウェルに共有結合することは、様々な用途の間に、構造化基材の寿命全体にわたってゲルを構造化特徴部に維持するのに有用である。しかしながら、多くの実施形態では、ゲルは、ウェルに共有結合される必要はない。例えば、いくつかの条件では、構造化基質のどの部分にも共有結合されていないシランフリーのアクリルアミド(SFA、例えば、米国特許第8,563,477号を参照)をゲル材料として使用することができる。
特定の別の実施形態では、構造化基材は、ウェル(例えば、マイクロウェル又はナノウェル)を用いて固体支持材料をパターニングし、パターン化された支持体をゲル材料(例えば、PAZAM、SFA、又はその化学修飾された変異体)、例えばSFAのアジド化型(アジド-SFA)など)でコーティングし、ゲルコーティングされた支持体を、例えば化学研磨又は機械研磨によって研磨することによって作製することができ、それによって、ウェル内にゲルを保持するが、ウェル間の構造化基材の表面の間隙領域から実質的に全てのゲルを除去又は不活性化する。ゲル材料にプライマー核酸を付着させることができる。次に、インデックス付き断片の溶液を研磨基材と接触させて、個々のインデックス付き断片が、ゲル材料に付着したプライマーとの相互作用を介して個々のウェルに播種されるようにすることができるが、ゲル材料が存在しないか不活性であるため、ターゲット核酸は間質領域を占有しない。インデックス付き断片の増幅は、間質領域内のゲルの非存在又は非活性が、増殖する核酸コロニーの外向きの移動を防止するため、ウェルに限定されるであろう。プロセスは、好都合に製造可能であり、スケール変更可能であり、従来のマイクロ又はナノ製造方法を利用する。
本開示は、1つの増幅プライマーのみが固定される「固相」増幅法(他のプライマーは通常は遊離溶液中に存在する)を包含するが、一実施形態では、固体支持体には、固定化された順方向及び逆方向プライマーの両方が提供されることが望ましい。実際には、増幅プロセスは増幅を維持するために過剰なプライマーを必要とするため、「複数」の同一の順方向プライマー及び/又は固体支持体上に固定化された「複数」の同一の逆方向プライマーが存在するであろう。本明細書における順方向及び逆方向プライマーへの言及は、文脈が別段の指示をしない限り、「複数の」そのようなプライマーを包含するものとして解釈されるべきである。
当業者に理解されるように、任意の所与の増幅反応は、増幅される鋳型に特異的な少なくとも1つのタイプの順方向プライマー及び少なくとも1つのタイプの逆方向プライマーを必要とする。しかしながら、特定の実施形態では、順方向及び逆方向プライマーは、同一配列の鋳型特異的部分を含んでもよく、完全に同一のヌクレオチド配列及び構造(任意の非ヌクレオチド修飾を含む)を有してもよい。換言すれば、1つのタイプのプライマーのみを用いて固相増幅を行うことができ、そのような単一プライマー法は、本開示の範囲内に包含される。他の実施形態は、同一の鋳型特異的配列を含むが、いくつかの他の構造的特徴において異なる順方向及び逆方向プライマーを使用してもよい。例えば、一方のタイプのプライマーは、他方には存在しない非ヌクレオチド修飾を含み得る。
本開示の全ての実施形態では、固相増幅用プライマーは、好ましくは、プライマーの5’末端又はその付近で固体支持体への単一点共有結合によって固定され、プライマーの鋳型特異的部分をその同族鋳型及びプライマー伸長を含まない3’ヒドロキシル基に自由にアニーリングさせる。当技術分野において既知の任意の好適な共有結合手段をこの目的のために使用することができる。選択された付着化学的物質は、固体支持体の性質、及びそれに適用される任意の誘導体化又は官能化に依存する。プライマー自体は、付着を促進するために非ヌクレオチド化学修飾であってもよい部分を含んでもよい。特定の実施形態では、プライマーは、5’末端にホスホロチオエート又はチオホスフェートなどの硫黄含有求核剤を含んでもよい。固体に支持されたポリアクリルアミドヒドロゲルの場合、この求核剤はヒドロゲルに存在するブロモアセトアミド基に結合する。プライマー及び鋳型を固体支持体に結合させるより具体的な手段は、国際公開第05/065814号に記載されるように、重合アクリルアミド及びN-(5-ブロモアセトアミドイルペンチル)アクリルアミド(BRAPA)からなるヒドロゲルへの、5’ホスホロチオエート結合を介している。
本開示の特定の実施形態は、例えば、ポリヌクレオチドなど生体分子への共有結合を可能にする反応基を含む中間材料の層又はコーティングの適用によって「官能化」された不活性基質又はマトリックス(例えば、ガラススライド、ポリマービーズなど)を含む固体支持体を利用することができる。このような支持体の例としては、ガラスなどの不活性基質上に支持されるポリアクリルアミドヒドロゲルが挙げられるが、これに限定されない。このような実施形態では、生体分子(例えば、ポリヌクレオチド)は、中間材料(例えば、ヒドロゲル)に直接共有結合してもよいが、中間材料は、それ自体が基質又はマトリックス(例えば、ガラス基質)に非共有結合してもよい。用語「固体支持体への共有結合」は、このタイプの配置を包含するように適宜解釈されるべきである。
プールされたサンプルは、ビーズ上で増幅されてもよく、各ビーズは、順方向及び逆方向増幅プライマーを含有する。特定の実施形態では、インデックス付き断片のライブラリーを使用して、米国特許出願公開第2005/0100900号、米国特許第7,115,400号、国際公開第00/18957号及び同第98/44151号に記載されているものと同様に、固相増幅、より具体的には固相等温増幅によって核酸コロニーのクラスター化アレイを調製する。用語「クラスター」及び「コロニー」は、本明細書において交換可能に使用され、複数の同一の固定化核酸鎖及び複数の同一の固定化された相補的核酸鎖を含む、固体支持体上の別個の部位を指す。「クラスター化アレイ」という用語は、そのようなクラスター又はコロニーから形成されるアレイを指す。この文脈では、用語「アレイ」は、クラスターの順序付けられた配置を必要とするものとして理解されるべきではない。
「固相」又は「表面」という用語は、プライマーが平坦な表面、例えば、ガラス、シリカ若しくはプラスチック顕微鏡スライド、又は類似のフロー細胞デバイスや、ビーズであって、1つ又は2つのプライマーが付着し、ビーズが増幅される、ビーズに取り付けられている平面アレイか、ビーズが増幅された後の表面上のビーズのアレイのいずれかを意味するために使用される。
クラスター化された配列は、国際公開第98/44151号に記載されているような熱サイクルのプロセス、又は温度が一定に維持され、試薬の変化を使用して延伸及び変性のサイクルが行われるプロセスを使用して調整され得る。このような等温増幅法は、国際公開第02/46456号及び米国特許出願公開第2008/0009420号に記載されている。等温プロセスにおいて有用なより低い温度により、これは、いくつかの実施形態において特に好ましい。
本明細書に記載されるか、又は当技術分野において一般的に既知の増幅方法のいずれも、固定化DNA断片を増幅するために、ユニバーサル又はターゲット特異的なプライマーと共に使用され得ることが理解されるであろう。増幅に好適な方法としては、米国特許第8,003,354号に記載されているように、ポリメラーゼ連鎖反応(PCR)、鎖置換増幅(SDA)、転写媒介増幅(TMA)、及び核酸配列に基づく増幅(NASBA)が挙げられるが、これらに限定されない。上記の増幅方法を用いて、対象とする1つ又はそれ以上の核酸を増幅することができる。例えば、多重PCR、SDA、TMA、NASBAなどPCRを利用して、固定化DNA断片を増幅することができる。いくつかの実施形態では、対象となるポリヌクレオチドに特異的に指向されるプライマーは、増幅反応に含まれる。
ポリヌクレオチドの増幅に好適な他の方法としては、オリゴヌクレオチド伸長及びライゲーション、ローリングサークル増幅(RCA)(Lizardiら、Nat.Genet.19:225-232(1998年))、及びオリゴヌクレオチドライゲーションアッセイ(OLA)(一般に米国特許第7,582,420号、同第5,185,243号、同第5,679,524号、及び同第5,573,907号、欧州特許第0 320 308(B1)号、同第0 336 731(B1)号、同第0 439 182(B1)号、国際公開第90/01069号、国際公開第89/12696号、及び国際公開第89/09835号参照)技術を含み得る。これらの増幅方法は、固定化DNA断片を増幅するように設計され得ることが理解されるであろう。例えば、いくつかの実施形態では、増幅法は、対象の核酸に特異的に指向されるプライマーを含有するライゲーションプローブ増幅又はオリゴヌクレオチドライゲーションアッセイ(OLA)反応を含んでもよい。いくつかの実施形態では、増幅法は、対象の核酸に特異的に指向されるプライマーを含有するプライマー伸長ライゲーション反応を含んでもよい。対象の核酸を増幅するよう特異的に設計され得るプライマー伸長及びライゲーションプライマーの非限定的な例として、増幅は、米国特許第7,582,420号及び同第7,611,869号により例示されるように、GoldenGateアッセイに使用されるプライマー(Illumina社、サンディエゴ、カリフォルニア州)を挙げることができる。
DNAナノブロックも、本明細書に記載の方法及び組成物と組み合わせて使用することができる。ゲノムシークエンシングのためのDNAナノブロックを作成し、使用するための方法は、例えば、米国特許及び公報である米国特許第7,910,354号、同第2009/0264299号、同第2009/0011943号、同第2009/0005252号、同第2009/0155781号、同第2009/0118488号に見出すことができ、例えば、Drmanac et al.,2010,Science 327(5961):78-81に記載されているように見出すことができる。簡潔に言えば、ゲノムライブラリーDNA断片化後、アダプターを断片にライゲーションし、アダプターがライゲーションされた断片をサークルリガーゼとのライゲーションによって循環させ、ローリングサークル増幅を実施する(Lizardi et al.,1998.Nat.Genet.19:225-232及び米国特許出願公開第2007/0099208(A1)号に記載)。アンプリコンの伸長されたコンカテマー構造は、コイリングを促進し、それによりコンパクトなDNAナノボールを生成する。DNAナノボールは、好ましくは、各ナノボール間の距離が維持され、それによって別個のDNAナノボールのシークエンシングを可能になるように、順序付けられた又はパターン化された配列を形成するために基質上に捕捉することができる。いくつかの実施形態では、連続して実行されるアダプターライゲーション、増幅及び消化は、アダプター配列によって分離されたいくつかのゲノムDNA断片を有する頭尾構築物を作製するために、循環前に行われる。
本開示の方法で使用され得る例示的な等温増幅法としては、例えば、DeanらのProc.Natl.Acad.Sci.USA 99:5261-66(2002年)、又は例えば米国特許第6,214,587号により例示される等温鎖置換核酸増幅によって例示される複数置換増幅(MDA)が挙げられるが、これらに限定されない。本開示で使用され得る他の非PCR系方法としては、例えば、Walkerら、Molecular Methods for Virus Detection、Academic Press社、1995年に記載されている鎖置換増幅(SDA)、米国特許第5,455,166号、及び同第5,130,238号、並びにWalkerら、Nucl.Acids Res.20:1691-96(1992年)、又は、例えばLageらのGenome Res.13:294-307(2003年)に記載されている過分枝鎖置換増幅が挙げられる。等温増幅法は、例えば、鎖置換Phi 29ポリメラーゼ又はBst DNAポリメラーゼ大型断片、ゲノムDNAのランダムプライマー増幅のための5’->3’エキソで使用することができる。これらのポリメラーゼの使用は、それらの高い加工性及び鎖置換活性の利点を利用する。高い加工性により、ポリメラーゼは、10-20kbの長さの断片を産生できる。上記に述べたように、低加工性を有するポリメラーゼ及びKlenowポリメラーゼなどの鎖置換活性を有するポリメラーゼを使用して、等温条件下でより小さな断片を産生することができる。増幅反応、条件及び成分の更なる説明は、米国特許第7,670,810号の開示に詳細に記載されている。
本開示において有用な別のポリヌクレオチド増幅法は、例えばGrothuesらのNucleic Acids Res.21(5):1321-2(1993年)に記載されているように、5’領域に続いてランダム3’領域を有する2ドメインプライマーの集団を使用する、タグ付きPCRである。増幅の第1のラウンドは、ランダムに合成された3’領域からの個々のハイブリダイゼーションに基づいて、熱変性DNA上で多数の開始を可能にするために行われる。3’領域の性質により、開始部位はゲノム全体にランダムであると考えられる。その後、未結合のプライマーを除去し、一定の5’領域に相補的なプライマーを使用して更なる複製を行ってもよい。
いくつかの実施形態では、等温増幅は、排除増幅(ExAmp)とも呼ばれる、結合平衡除外増幅(KEA)を使用して行うことができる。本開示の核酸ライブラリーは、増幅試薬を反応させて、部位に播種した個々のターゲット核酸からそれぞれがアンプリコンの実質的にクローン性集団を含む複数の増幅部位を産生する工程を含む方法を使用して作製することができる。いくつかの実施形態では、増幅反応は、それぞれの増幅部位の容量を満たすのに十分な数のアンプリコンが産生されるまで進行する。このように、既に播種された部位を容量まで満たすと、ターゲット核酸がその部位に着地して増幅するのを阻害し、それによってその部位でアンプリコンのクローン集団を産生する。いくつかの実施形態では、第2のターゲット核酸がその部位に到達する前に増幅部位が容量まで満たされていなくても、見かけのクローン性を達成することができる。いくつかの条件下では、第1のターゲット核酸の増幅は、その部位に輸送される第2のターゲット核酸からのコピーの産生を有効に上回るか又は圧倒するのに十分な数のコピーが作製される点まで進行し得る。例えば、直径500nm未満の円形特徴部上でブリッジ増幅プロセスを使用する実施形態では、第1のターゲット核酸に対する指数増幅の14サイクル後、同じ部位での第2のターゲット核酸からの汚染は、Illuminaシークエンシングプラットフォーム上での配列合成分析に悪影響を及ぼすのに不十分な数の汚染アンプリコンを生成することが決定された。
いくつかの実施形態では、アレイ中の増幅部位は、完全にクローンであることができるが、必ずしもそうである必要はない。むしろ、いくつかの用途では、個々の増幅部位は、主に第1のインデックス付き断片からのアンプリコンで占められ、また、第2のターゲット核酸からの低レベルの汚染アンプリコンを有することもできる。アレイは、汚染レベルがアレイのその後の使用に許容できない影響を有さない限り、低レベルの汚染アンプリコンを有する1つ又はそれ以上の増幅部位を有することができる。例えば、アレイが検出用途で使用される場合、許容可能なレベルの汚染は、検出技術の信号対雑音比又は分解能に許容できない方法で影響を与えないレベルである。したがって、見かけのクローン性は、一般に、本明細書に記載の方法によって作製されるアレイの特定の使用又は用途に関連する。特定の用途のために個々の増幅部位で許容できる汚染の例示的なレベルとしては、最大で0.1%、0.5%、1%、5%、10%又は25%の汚染アンプリコンを含むが、これらに限定されない。アレイは、これらの例示的なレベルの汚染アンプリコンを有する1つ又はそれ以上の増幅部位を含み得る。例えば、アレイ内の増幅部位の最大5%、10%、25%、50%、75%、又は更には100%に、汚染されたアンプリコンが含まれている可能性がある。アレイ又はその他の部位集合において、部位の少なくとも50%、75%、80%、85%、90%、95%又は99%以上がクローン性であるか、又は見かけでクローン性であり得ることが理解されよう。
いくつかの実施形態では、結合平衡除外は、別のイベント又はプロセスが発生することを効果的に排除するために、十分に速い速度でプロセスが生じるときに生じ得る。アレイの部位が溶液からのインデックス付き断片でランダムに播種され、インデックス付き断片のコピーが増幅プロセスで産生されて、播種部位のそれぞれを容量まで満たす核酸アレイの作製を例として取り上げる。本開示の結合平衡除外法によれば、播種及び増幅プロセスは、増幅速度が播種速度を超える条件下で同時に進行することができる。したがって、第1のターゲット核酸によって播種された部位でコピーが作製される比較的速い速度は、増幅のためにその部位を播種することから、第2の核酸を効果的に排除する。結合平衡除外増幅法は、米国特許出願公開第2013/0338042号の開示に詳細に記載されているように実施することができる。
結合平衡除外は、増幅を開始するための比較的遅い速度(例えば、インデックス付き断片の第1のコピーを作製するための遅い速度)対インデックス付き断片の後続のコピー(又はインデックス付き断片の第1のコピー)を作製するための比較的速い速度を利用することができる。前の段落の例では、結合平衡除外は、比較的遅い速度のインデックス付き断片播種(例えば、比較的遅い拡散又は輸送)対インデックス付き断片種のコピーで部位を満たすために増幅が生じる比較的速い速度のために生じる。別の例示的な実施形態において、結合平衡除外は、部位を播種したインデックス付き断片の第1のコピーの形成の遅延(例えば、遅延又は遅い活性化)対部位を満たすために後続のコピーが作製される比較的速い速度のために生じ得る。この実施例では、個々の部位に、いくつかの異なるインデックス付き断片が播種されている可能性がある(例えば、増幅前に各部位にいくつかのインデックス付き断片が存在し得る)。しかしながら、任意の所与のインデックス付き断片の第1のコピー形成はランダムに活性化できるため、第1のコピー形成の平均速度は、後続のコピーが生成される速度と比較して比較的遅くなる。この場合、個々の部位には、いくつかの異なるインデックス付き断片が播種されている場合があるが、結合平衡除外により、それらのインデックス付き断片のうちの1つのみを増幅できる。より具体的には、第1のインデックス付き断片が増幅のために活性化されると、部位はそのコピーで急速に容量まで満たされ、それによって、第2のインデックス付き断片のコピーが部位で作製されることを防止する。
一実施形態では、本方法は、(i)平均輸送速度で増幅部位にインデックス付き断片を輸送する、(ii)平均増幅速度で増幅部位にあるインデックス断片を増幅するために同時に実施され、平均増幅速度は平均輸送速度を超える(米国特許第9,169,513号)。したがって、このような実施形態では、比較的遅い輸送速度を使用することによって、結合平衡除外を達成することができる。例えば、より低い濃度は、より遅い輸送速度をもたらすので、十分に低い濃度のインデックス断片を選択して、所望の平均輸送速度を達成することができる。代替的に又は追加的に、溶液中の高粘度溶液及び/又は分子クラウディング試薬の存在を使用して、輸送速度を低下させることができる。有用な分子クラウディング試薬の例としては、ポリエチレングリコール(PEG)、フィコール、デキストラン、又はポリビニルアルコールが挙げられるが、これらに限定されない。例示的な分子クラウディング試薬及び製剤は、参照により本明細書に組み込まれる米国特許第7,399,590号に記載されている。所望の輸送速度を達成するように調節することができる別の因子は、ターゲット核酸の平均サイズである。
増幅試薬は、アンプリコン形成を促進する更なる成分を含むことができ、場合によってはアンプリコン形成の速度を増加させる。一実施例は、リコンビナーゼである。リコンビナーゼは、反復的な浸潤/伸長を可能にすることによって、アンプリコン形成を促進することができる。より具体的には、リコンビナーゼは、ポリメラーゼによるインデックス断片の浸潤、及びアンプリコン形成のための鋳型としてインデックス付き断片を使用するポリメラーゼによるプライマーの伸長を促進することができる。このプロセスは、浸潤/伸長の各ラウンドから産生されたアンプリコンが後続のラウンドで鋳型として機能する鎖反応として繰り返すことができる。変性サイクル(例えば、加熱又は化学変性による)は必要とされないため、このプロセスは標準的なPCRよりも迅速に行うことができる。したがって、リコンビナーゼ促進増幅は、等温的に行うことができる。増幅を促進するために、リコンビナーゼ促進増幅試薬中に、ATP、又は他のヌクレオチド(又は場合によってはその非加水分解性類似体)を含めることが望ましい。リコンビナーゼと一本鎖結合(SSB)タンパク質の混合物は、SSBが増幅を更に促進できるため、特に有用である。リコンビナーゼ促進増幅のための代表的な製剤としては、TwistDx社(ケンブリッジ、英国)によりTwistAmpキットとして市販されているものが挙げられる。リコンビナーゼ促進増幅試薬の有用な成分及び反応条件は、米国特許第5,223,414号及び同第7,399,590号に記載されている。
アンプリコン形成を促進し、場合によってはアンプリコン形成の速度を増加させるために増幅試薬に含めることができる成分の別の例は、ヘリカーゼである。ヘリカーゼは、アンプリコン形成の連鎖反応を可能にすることによって、アンプリコン形成を促進することができる。変性サイクル(例えば、加熱又は化学変性による)は必要とされないため、このプロセスは標準的なPCRよりも迅速に行うことができる。したがって、ヘリカーゼ促進増幅は、等温的に行うことができる。ヘリカーゼと一本鎖結合(SSB)タンパク質の混合物は、SSBが増幅を更に促進できるため、特に有用である。ヘリカーゼ促進増幅のための代表的な製剤としては、Biohelix社(ビバリー、マサチューセッツ州)からIsoAmpキットとして市販されているものが挙げられる。更に、ヘリカーゼタンパク質を含む有用な製剤の例は、米国特許第7,399,590号及び同第7,829,284号に記載されている。
アンプリコン形成を促進し、場合によってはアンプリコン形成の速度を増加させるために増幅試薬に含めることができる成分の更に別の例は、起点結合タンパク質である。
シーケンシングの方法
表面へのインデックス付き断片の付着に続いて、固定され、増幅されたインデックス付き断片の配列を決定する。シークエンシングは、包括的シークエンシング、又はターゲットシークエンシングであり得る。包括的シークエンシングは、ライブラリー内に存在する各細胞又は核の配列全体が所望されるときに使用することができる。包括的シークエンシングを使用する用途の例としては、全ゲノムシークエンシング、全トランスクリプトームシークエンシング、及びATACシークエンシングが挙げられるが、これらに限定されない。ターゲットシークエンシングは、生物学的特徴に関する情報が所望されるときに使用することができる。一実施形態では、ターゲットシークエンシングは、細胞若しくは核のサブ集団、又はゲノムのサブセット、トランスクリプトームのサブセット、プロテオームのサブセット、又はこれらの任意の組み合わせの同定に使用することができ、本明細書に詳細に記載する。
シークエンシングは、任意の好適なシークエンシング技術を使用して実施することができ、鎖再合成など、固定され、増幅されたインデックス付き断片の配列を決定するための方法は、当技術分野において既知であり、例えば、Bignellら(米国特許第8,053,192号)、Gundersonら(国際公開第2016/130704号)、Shenら(米国特許第8,895,249号)、及びPipenburgら(米国特許第9,309,502号)に記載されている。
本明細書に記載の方法は、様々な核酸シークエンシング方法と併せて使用することができる。特に適用可能な技術は、核酸が、それらの相対的位置が変化しないようにアレイ内の固定位置に取り付けられ、アレイが繰り返し撮像されるものである。例えば、1つのヌクレオチド塩基型を別のヌクレオチド塩基型と区別するために使用される異なる標識と一致する異なる色チャネルで画像が得られる実施形態は、特に適用可能である。いくつかの実施形態では、インデックス付き断片のヌクレオチド配列を決定するプロセスは、自動プロセスであり得る。好ましい実施形態としては、合成によるシークエンシング(「SBS」)技術が挙げられる。
SBS技術は、一般に、鋳型鎖に対するヌクレオチドの反復的添加による、新生核酸鎖の酵素的伸長を伴う。SBSの従来の方法では、単一のヌクレオチドモノマーが、各送達においてポリメラーゼの存在下でターゲットヌクレオチドに提供され得る。しかしながら、本明細書に記載の方法では、送達中のポリメラーゼの存在下で、複数のタイプのヌクレオチドモノマーをターゲット核酸に提供することができる。
一実施形態では、ヌクレオチドモノマーは、ロックされた核酸(LNA)又は架橋核酸(BNA)を含む。ヌクレオチドモノマーにおけるLNA又はBNAの使用は、ヌクレオチドモノマーと固定化されたインデックス付き断片上に存在するシークエンシングプライマー配列との間のハイブリダイゼーション強度を増加させる。
SBSは、ターミネーター部分を有するヌクレオチドモノマー、又はターミネーター部分を欠くヌクレオチドモノマーを使用することができる。ターミネーターを含まないヌクレオチドモノマーを使用する方法としては、例えば、本明細書で更に詳細に記載されるように、γ-リン酸標識ヌクレオチドを用いたピロシークエンシング及びシークエンシングが挙げられる。ターミネーターを含まないヌクレオチドモノマーを使用する方法では、各サイクルに添加されるヌクレオチドの数は、一般に可変であり、鋳型配列及びヌクレオチド送達のモードに依存する。ターミネーター部分を有するヌクレオチドモノマーを利用するSBS技術では、ターミネーターは、ジデオキシリヌクレオチドを利用する従来のSangerシークエンシングの場合のように使用されるシークエンシング条件下で有効に不可逆的であり得るか、又はターミネーターは、Solexa(現在はIllumina,Inc.)によって開発されたシークエンシング方法の場合のように可逆的であり得る。
SBS技術は、標識部分を有するヌクレオチドモノマー、又は標識部分を欠くヌクレオチドモノマーを使用することができる。したがって、標識の蛍光などの標識の特性、分子量又は電荷などのヌクレオチドモノマーの特性、ピロリン酸の放出などのヌクレオチドの組み込みの副生成物などに基づいて、組み込みイベントを検出することができる。2つ以上の異なるヌクレオチドがシークエンシング試薬中に存在する実施形態では、異なるヌクレオチドは互いに区別可能であってもよく、あるいは2つ以上の異なる標識は、使用される検出技術の下で区別可能であり得る。例えば、シークエンシング試薬中に存在する異なるヌクレオチドは、異なる標識を有することができ、それらは、Solexa社(現Illumina社)によって開発されたシークエンシング方法によって例示される適切な光学系を使用して区別することができる。
好ましい実施形態としては、ピロシークエンシング技術が挙げられる。ピロシークエンシングは、特定のヌクレオチドが新生鎖に組み込まれるときに無機ピロリン酸塩(PPi)の放出を検出する(Ronaghi,M.,Karamohamed,S.,Pettersson,B.,Uhlen,M.and Nyren,P.(1996)「Real-time DNA sequencing using detection of pyrophosphate release.」Analytical Biochemistry 242(1)、84-9、Ronaghi,M.(2001)「Pyrosequencing sheds light on DNA sequencing.」Genome Res.、11(1)、3-11、Ronaghi,M.,Uhlen,M.and Nyren,P.(1998)「A sequencing method based on real-time pyrophosphate.」Science 281(5375)、363、米国特許第6,210,891号、同第6,258,568号及び同第6,274,320号)。ピロシークエンシングにおいて、放出されたPPiは、ATPスルフラーゼによってアデノシン三リン酸(ATP)に即座に変換されることによって検出することができ、生成されたATPのレベルはルシフェラーゼで生成された光子を介して検出される。シークエンシングされる核酸は、アレイ中の特徴部に付着させることができ、アレイは、アレイの特徴部にヌクレオチドを組み込むことにより産生される化学発光シグナルを捕捉するために画像化することができる。アレイを特定のヌクレオチド型(例えば、T、C、又はG)で処理した後に、画像を得ることができる。各ヌクレオチド型の添加後に得られる画像は、アレイ内のどの特徴部が検出されるかに関して異なる。画像内のこれらの差異は、アレイ上の特徴部の異なる配列コンテンツを反映する。しかしながら、各特徴部の相対的な位置は、画像内で変わらないままである。画像は、本明細書に記載の方法を使用して記憶、処理、及び分析することができる。例えば、アレイを各異なるヌクレオチド型で処理した後に得られる画像は、可逆的ターミネーターベースのシークエンシング方法のための異なる検出チャネルから得られる画像について、本明細書に例示されるものと同じ方法で処理することができる。
別の例示的な種類のSBSでは、サイクルシークエンシングは、例えば、国際公開第04/018497号及び米国特許第7,057,026号に記載されているような開裂可能な又は光漂白可能な染料標識を含む可逆的ターミネーターヌクレオチドを段階的に添加することによって達成される。この手法は、Solexa社(現在Illumina社)によって商品化されており、国際公開第91/06678号及び同第07/123,744号にも記載されている。終端の両方を逆転させることができ、蛍光標識が開裂された蛍光標識ターミネーターの可用性は、効率的な循環可逆的終端(CRT)シークエンシングを容易にする。ポリメラーゼはまた、これらの修飾されたヌクレオチドを効率的に組み込み、かつそこから伸長するように共操作することもできる。
いくつかの可逆的ターミネーターベースのシークエンシング実施形態では、標識は、SBS反応条件下での伸長を実質的に阻害しない。しかしながら、検出標識は、例えば、開裂又は分解によって取り外し可能であり得る。画像は、アレイ化された核酸特徴部への標識の組み込み後に捕捉することができる。特定の実施形態では、各サイクルは、アレイへの4つの異なるヌクレオチド型の同時送達を伴い、各ヌクレオチド型は、スペクトル的に異なる標識を有する。次に、4つの異なる標識の1つに選択的な検出チャネルをそれぞれ使用して、4つの画像を得ることができる。あるいは、異なるヌクレオチド型を順次追加することができ、各追加工程の間にアレイの画像を得ることができる。このような実施形態では、各画像は、特定の型のヌクレオチドを組み込んだ核酸特徴部を示す。各特徴部のシーケンスコンテンツが異なるため、様々な画像に様々な特徴部が存在するか、存在しない。しかしながら、特徴部の相対的な位置は、画像内で変わらないままである。このような可逆的ターミネーター-SBS法から得られる画像は、本明細書に記載されるように保存、処理、及び分析することができる。画像捕捉工程に続いて、標識を除去することができ、その後のヌクレオチド添加及び検出のサイクルのために可逆的ターミネーター部分を除去することができる。特定のサイクルで検出された後、及び後続のサイクルの前に標識を除去すると、サイクル間のバックグラウンド信号及びクロストークを低減できるという利点がある。有用な標識及び除去方法の例を本明細書に記載する。
特定の実施形態では、ヌクレオチドモノマーの一部又は全ては、可逆的ターミネーターを含み得る。このような実施形態では、可逆的ターミネーター/開裂可能なフルオロフォアは、3’エステル結合(Metzker、Genome Res.15:1767-1776(2005年))を介してリボース部分に結合されたフルオロフォアを含み得る。他の手法は、蛍光標識(Ruparelら、Proc Natl Acad Sci USA 102:5932-7(2005年))からターミネーターの化学的物質を分離した。Ruparelらは、少量の3’アリル基を使用して伸長をブロックするが、パラジウム触媒で短時間処理することで簡単にブロックを解除できる可逆性ターミネーターの開発について説明している。フルオロフォアは、長波長UV光への30秒の曝露によって容易に開裂することができる光開裂可能リンカーを介して基に付着された。したがって、ジスルフィド還元又は光開裂のいずれかを開裂可能なリンカーとして使用することができる。可逆的終端への別の手法は、dNTP上に嵩高な染料を配置した後に続く自然終端の使用である。dNTP上の帯電した嵩高な染料の存在は、立体障害及び/又は静電障害を介して効果的なターミネーターとして作用することができる。1つの組み込みイベントの存在は、染料が除去されない限り、それ以上の結合を防止する。染料の開裂は、フルオロフォアを除去し、終端を効果的に逆転させる。修飾ヌクレオチドの例は、米国特許第7,427,673号及び同第7,057,026号にも記載されている。
本明細書に記載の方法及びシステムと共に用いることができる追加の例示的なSBSシステム及び方法は、米国特許出願公開第2007/0166705号、同第2006/0188901号、同第2006/0240439号、2006/0281109号、同第2012/0270305号、及び同第2013/0260372号、米国特許第7,057,026号、及び国際公開第05/065814号、米国特許出願公開第2005/0100900号、及び国際公開第06/064199号及び同第07/010,251号に記載されている。
いくつかの実施形態は、4つ未満の異なる標識を使用する4つの異なるヌクレオチドの検出を使用することができる。例えば、SBSは、組み込まれた資料である米国特許公開公報第2013/0079232号に記載される方法及びシステムを使用して実施することができる。第1の例として、ヌクレオチド型の対は、同じ波長で検出することができるが、対のうちの1つのメンバーに対する強度の差に基づいて、又は、対の他の部材について検出された信号と比較して明らかなシグナルを出現又は消失させる、対の1つのメンバーへの変化(例えば、化学修飾、光化学修飾、又は物理的改質を行うことを介して)に基づいて区別され得る。第2の例として、4つの異なるヌクレオチド型のうちの3つを特定の条件下で検出することができ、一方、第4のヌクレオチド型は、それらの条件下で検出可能な標識がないか、又はそれらの条件下で最小限に検出される(例えば、バックグラウンド蛍光による最小限の検出など)。最初の3つのヌクレオチド型を核酸に組み込むことは、それらの対応するシグナルの存在に基づいて決定することができ、第4のヌクレオチド型を核酸に組み込むことは、任意のシグナルの不在又は最小限の検出に基づいて決定することができる。第3の例として、1つのヌクレオチド型は、2つの異なるチャネルで検出される標識を含むことができ、一方、他のヌクレオチド型は、チャネルのうちの1つ以下で検出される。前述の3つの例示的な構成は、相互に排他的であるとはみなされず、様々な組み合わせで使用することができる。3つ全ての実施例を組み合わせた例示的な実施形態は、第1のチャネルで検出される第1のヌクレオチド型(例えば、第1の励起波長によって励起されたときに第1のチャネルで検出される標識を有するdATP)、第2のチャネルで検出される第2のヌクレオチド型(例えば、第2の励起波長によって励起されたときに第2のチャネルで検出される標識を有するdCTP)、第1及び第2のチャネルの両方において検出される第3のヌクレオチド型(例えば、第1及び/又は第2の励起波長によって励起されたときに両方のチャネルで検出される少なくとも1つの標識を有するdTTP)、及びいずれのチャネルでも検出されないか、又は最小限に検出される、標識のない第4のヌクレオチド型(例えば、標識のないdGTP)を使用する蛍光ベースのSBS法である。
更に、組み込まれた資料である米国特許出願公開第2013/0079232号に記載のように、シークエンシングデータは、単一のチャネルを使用して得ることができる。このようないわゆる1つの染料シークエンシング方法では、第1のヌクレオチド型は標識されるが、第1の画像が生成された後に標識が除去され、第2のヌクレオチド型は、第1の画像が生成された後にのみ標識される。第3のヌクレオチド型は、第1及び第2の画像の両方においてその標識を保持し、第4のヌクレオチド型は、両方の画像において標識されていないままである。
いくつかの実施形態は、ライゲーション技術によるシークエンシングを使用することができる。このような技術は、DNAリガーゼを使用してオリゴヌクレオチドを組み込み、そのようなオリゴヌクレオチドの組み込みを識別する。オリゴヌクレオチドは、典型的には、オリゴヌクレオチドがハイブリダイズする配列中の特定のヌクレオチドの同一性と相関する異なる標識を有する。他のSBS方法と同様に、標識されたシークエンシング試薬で核酸配列のアレイを処理した後、画像を得ることができる。各画像は、特定の型の標識を組み込んだ核酸特徴部を示す。各特徴部のシーケンスコンテンツが異なるため、様々な画像に様々な特徴部が存在するか、存在しないが、特徴部の相対的な位置は、画像内で変わらないままである。ライゲーションベースのシークエンシング方法から得られる画像は、本明細書に記載されるように保存、処理、及び分析することができる。本明細書に記載の方法及びシステムと共に用いることができる例示的なSBSシステム及び方法は、米国特許第6,969,488号、同第6,172,218号、及び同第6,306,597号に記載されている。
いくつかの実施形態は、ナノ細孔シークエンシングを使用することができる(Deamer,D.W.&Akeson,M.「Nanopores and nucleic acids:prospects for ultrarapid sequencing.」、Trends Biotechnol.、18、147-151(2000年)、Deamer,D.and D.Branton,「Characterization of nucleic acids by nanopore analysis」,Acc.Chem.Res.35:817-825(2002年)、Li,J.,M.Gershow,D.Stein,E.Brandin,and J.A.Golovchenko,「DNA molecules and configurations in a solid-state nanopore microscope」 Nat.Mater.2:611-615(2003年))。このような実施形態では、インデックス付き断片は、ナノ細孔を通過する。ナノ細孔は、α-ヘモリジンなどの合成孔又は生体膜タンパク質であり得る。インデックス付き断片がナノ細孔を通過するとき、各塩基対は、細孔の電気コンダクタンスの変動を測定することによって識別することができる。(米国特許第7,001,792号、Soni,G.V.& Meller,「A.Progress toward ultrafast DNA sequencing using solid-state nanopores.」Clin.Chem.53,1996-2001(2007)、Healy,K.「Nanopore-based single-molecule DNA analysis.」Nanomed.、2,459-481(2007)、Cockroft,S.L.,Chu,J.,Amorin,M.& Ghadiri,M.R.「A single-molecule nanopore device detects DNA polymerase activity with single-nucleotide resolution.」J.Am Chem.Soc.130、818-820(2008年)。ナノ細孔シークエンシングから得られるデータは、本明細書に記載されるように、保存、処理、及び分析することができる。具体的には、データは、本明細書に記載される光学画像及び他の画像の例示的な処理に従って、画像として処理することができる。
いくつかの実施形態は、DNAポリメラーゼ活性のリアルタイムモニタリングを含む方法を使用することができる。ヌクレオチドの組み込みは、例えば、米国特許第7,329,492号及び同第7,211,414号に記載されているようなフルオロフォア含有ポリメラーゼとγ-リン酸標識ヌクレオチドとの間の蛍光共鳴エネルギー移動(FRET)相互作用を介して検出することができ、又はヌクレオチドの組み込みは、例えば、米国特許第7,315,019号に記載されているようなゼロモード導波路、並びに、例えば、米国特許第7,405,281号及び米国特許出願公開第2008/0108082号に記載されているような蛍光ヌクレオチド類似体及び操作ポリメラーゼを使用して検出することができる。照明は、蛍光標識されたヌクレオチドの組み込みが低バックグラウンドで観察され得るように、表面繋留ポリメラーゼの周囲のゼプトリットルスケールの体積に制限することができる(Levene,M.J.et al.「Zero-mode waveguides for single-molecule analysis at high concentrations.」Science,299,682-686(2003年)、Lundquist,P.M.et al.「Parallel confocal detection of single molecules in real time.」Opt.Lett.33,1026-1028(2008)、Levene,M.J.et al.「Zero-mode waveguides for single-molecule analysis at high concentrations.」Proc.Natl.Acad.Sci.USA 105、1176-1181(2008年))。このような方法から得られる画像は、本明細書に記載されるように、記憶、処理、及び分析することができる。
いくつかのSBS実施形態は、伸長産物へのヌクレオチドの組み込み時に放出されるプロトンの検出を含む。例えば、放出されたプロトンの検出に基づくシークエンシングは、Ion Torrent社(ギルフォード、コネチカット州、Life Technologies社子会社)から市販されている電気検出器及び関連技術、又は米国特許出願公開第2009/0026082号、同第2009/0127589号、同第2010/0137143号、及び同第2010/0282617号に記載のシークエンシング方法及びシステムを使用することができる。結合平衡除外を使用してターゲット核酸を増幅するための本明細書に記載の方法は、プロトンを検出するために使用される基質に容易に適用することができる。より具体的には、本明細書に記載の方法を使用して、プロトンを検出するために使用されるアンプリコンのクローン集団を産生することができる。
上記のSBS方法は、複数の異なるインデックス付き断片が同時に操作されるように、多重形式で有利に実施することができる。特定の実施形態では、異なるインデックス付き断片は、共通の反応容器又は特定の基質の表面で処理することができる。これにより、シークエンシング試薬の簡便な送達、未反応試薬の除去、及び組み込みイベントの検出を多重に可能になる。表面結合されたターゲット核酸を使用する実施形態では、インデックス付き断片はアレイ形式であり得る。アレイ形式では、インデックス付き断片は、典型的には、空間的に区別可能な様式で表面に結合され得る。インデックス付き断片は、直接共有結合、ビーズ若しくは他の粒子への付着、又は表面に付着したポリメラーゼ若しくは他の分子への結合によって結合され得る。アレイは、各部位(特徴部とも呼ばれる)におけるインデックス付き断片の単一コピーを含むか、又は同じ配列を有する複数のコピーが、各部位若しくは特徴部に存在し得る。複数のコピーは、本明細書で更に詳細に記載されるブリッジ増幅又はエマルジョンPCRなどの増幅方法によって産生することができる。
本明細書に記載の方法は、例えば、少なくとも約10個の特徴部/cm、100個の特徴部/cm、500個の特徴部/cm、1,000個の特徴部/cm、5,000個の特徴部/cm、10,000個の特徴部/cm、50,000個の特徴部/cm、100,000個の特徴部/cm、1,000,000個の特徴部/cm、5,000,000個の特徴部/cm、又はそれ以上を含む、様々な密度のいずれかの特徴部を有するアレイを使用することができる。
本明細書に記載の方法の利点は、複数のcmの迅速かつ効率的で、並行な検出を提供することである。したがって、本開示は、本明細書に例示されるものなどの当技術分野において既知の技術を使用して核酸を調製及び検出することができる統合システムを提供する。したがって、本開示の統合システムは、増幅試薬及び/又はシークエンシング試薬を1つ以上の固定化されたインデックス付き断片に送達することができる流体構成要素を含むことができ、システムは、ポンプ、弁、リザーバー、流体ラインなどの構成要素を含む。フローセルは、標的核酸を検出するための統合システムで構成及び/又は使用することができる。例示的なフローセルは、例えば、米国特許出願公開第2010/0111768号及び米国特許出願第13/273,666号に記載されている。フローセルについて例示されるように、統合システムの流体成分の1つ又はそれ以上を増幅方法及び検出方法に使用することができる。核酸シークエンシングの実施形態を一例として取ると、統合システムの流体構成要素の1つ又は複数を、本明細書に記載の増幅方法、及び上記に例示したようなシークエンシング方法におけるシークエンシング試薬の送達に使用することができる。あるいは、統合システムは、増幅方法を実行し、検出方法を実行するための別個の流体システムを含み得る。増幅された核酸を作製し、また、核酸の配列を決定することができる統合シークエンシングシステムの例としては、MiSeq(商標)プラットフォーム(Illumina,Inc.,San Diego,CA)、及び米国特許出願第13/273,666号に記載の装置が挙げられるが、これらに限定されない。
希少事象の検出
本開示はまた、希少事象を同定する、及び/又は特性評価するための方法を提供する。現在、集団内の希少事象を濃縮せずに特性評価するための方法は、コストがかかり、困難である。濃縮を使用するとき、選択は、典型的には、サイズ、形態、又は細胞表面でのタンパク質若しくはグリカンなど識別可能な分子の有無など細胞のいくつかの生物学的特徴に基づいている。これにより、同定可能な事象のタイプが制限される。本明細書に提示される方法は、希少事象の有無を識別する、及び/又は特性評価する能力において有意な進歩をもたらす。一般に、本発明は、数百万又は数十億の細胞のライブラリー内に存在する希少単一細胞のサブセットの同定、濃縮、及びシークエンシングベースの特徴付けを提供する。希少単一細胞の同定を使用して、更なる解析で使用可能な細胞を決定するために研究者が使用できる細胞データベースを作製することができる。
希少事象の例としては、大集団の細胞内の希少細胞が挙げられるが、これらに限定されない。希少細胞のタイプとしては、細胞クラス、種のタイプ、及び疾患状態又はリスクが挙げられるが、これらに限定されない。希少細胞クラスの例としては、例えばゲノム、トランスクリプトーム、又はエピゲノムにおける改変を有する個体由来の細胞が挙げられるが、これらに限定されない。希少種のタイプの例としては、原核細胞、真核細胞、又は真菌細胞が挙げられるが、これらに限定されない。疾患状態又はリスクに関連する希少細胞の例としては、癌細胞が挙げられるが、これに限定されない。
希少事象は、典型的には、希少事象と相関する生物学的特徴(通常はヌクレオチド配列の有無)によって同定される。一実施形態では、生物学的特徴は、タンパク質、グリカン、プロテオグリカン、又は脂質など生体分子である。生体分子は、生体分子に特異的に結合する、抗体など化合物に結合した核酸でタグ付けされ得る。生物学的特徴は、事前に知られ得る(例えば、方法が実施される前に既知であり、所定のものと呼ばれる)又は新たに知られ得る(例えば、生物学的特徴は、本明細書に記載のターゲットシークエンシング又は包括的シークエンシング後に同定される)。
ゲノムに関連する生物学的特徴の例としては、遺伝子再構成など免疫細胞での改変が挙げられるが、これに限定されない。トランスクリプトームに関連する生物学的特徴の例としては、1つ以上の特定遺伝子若しくはRNA分子の発現、又は特定タンパク質の発現が挙げられる。エピゲノムに関連する生物学的特徴の例としては、メチル化標識、メチル化パターン、及びアクセス可能DNA、又はエピジェネティック変化と相関する特定タンパク質の発現などエピジェネティックパターンが挙げられるが、これらに限定されない。希少種のタイプと相関する生物学的特徴の例としては、16s rRNA若しくはrDNA、18s rRNA若しくはrDNA、及び内部転写スペーサー(ITS)rRNA/rDNA、又は希少種による特定タンパク質の発現が挙げられる。疾患状態又はリスクに関連する生物学的特徴の例としては、癌など疾患と相関するRNA及び/又はタンパク質の変異DNA配列又は発現パターンを有する生殖系細胞又は体細胞が挙げられる。
本方法は、希少事象を含むシークエンシングライブラリーのメンバー(個々の修飾ターゲット核酸)を同定することを含み得る。一実施形態では、本方法は、希少事象を含む疑いのあるシークエンシングライブラリーの精査を含み得る。シークエンシングライブラリーを精査することは、典型的には、ライブラリー内に存在する2タイプのヌクレオチド領域の配列について、(i)希少事象と相関する生物学的特徴、及び(ii)ライブラリーのメンバーに存在するインデックスを決定すること含む。一実施形態では、2つ以上の生物学的特徴の配列を決定することができる。
一実施形態では、生物学的特徴のヌクレオチド配列は、ターゲットシークエンシングによって同定される。ターゲットシークエンシング法は、当該技術分野において既知であり、シークエンシング用の開始部位としての役割を果たす位置及び向きの点で生物学的特徴に近づくようにハイブリダイズするプライマーの使用を含み得る。例えば、生物学的特徴が、特異的一塩基多型(SNP)の有無である場合、SNPに近いヌクレオチドに特異的にアニーリングするプライマーを設計することができる。別の例では、生物学的特徴がタンパク質である場合、生体分子に特異的に結合した化合物に付着した核酸のヌクレオチドに特異的にアニーリングするプライマーを設計することができる。その結果、当業者は、対象となる生物学的特徴を含むライブラリーのメンバーの同定を可能にする配列データを得られる。シークエンシングライブラリーのメンバーに存在するインデックスの配列を決定することは、単一細胞コンビナトリアルインデクシング法の日常部分である。
次いで、生物学的特徴のターゲットシークエンシング及びインデックスのシークエンシングからの配列データを、常法であるバイオインフォマティクス法を用いて解析し、生物学的特徴として同一ライブラリーメンバーに存在するインデックス配列のこれらの組み合わせを同定する。生物学的特徴及びインデックス配列のこの相関により、ライブラリーのメンバーのサブセットが同定され、各メンバーは、生物学的特徴及びインデックス配列の固有分類、並びに細胞データベースの作製を含む。本明細書で「マーカーインデックス配列」とも称されるインデックス配列のそれぞれの固有分類は、同一細胞又は核に由来するライブラリー、例えば、対象となるインデックスライブラリーの他のメンバーにも同様に存在する。一実施形態では、マーカーインデックス配列は、連続インデックスであり、すなわち、各インデックスの間に0、1、2、3、4個、又はそれ以上のヌクレオチドを有する行でライブラリーメンバーに存在する、複数のインデックスセットである。本明細書に記載のように、これらのマーカーインデックス配列を使用して、当該生物学的特徴を有する細胞又は核に由来するライブラリーこれらのメンバーに対する後続のシークエンシングの取り組みに注力することができ、したがってコストを削減する。
本方法は、シークエンシングライブラリーを改変して、当該生物学的特徴を有する細胞又は核に由来するこれらのメンバーの表現を増加させることを更に含み得る。改変することは、濃縮(例えば、所望のマーカーインデックス配列を含むライブラリーのこれらの希少メンバーの正の選択)又は枯渇(例えば、所望のマーカーインデックス配列を含まないライブラリーの豊富なメンバーの選択的除去など負の選択)を含み得る。
濃縮及び枯渇は、マーカーインデックス配列を使用することを含み得る。濃縮及び枯渇のための方法は、当該技術分野において既知であり、マーカーインデックス配列特異的増幅(例えば、アダプター固定PCR)、ハイブリッド捕捉、及びCRISPR(d)Cas9などハイブリダイゼーションベースの方法が挙げられるが、これらに限定されない。濃縮方法及び枯渇方法は、所望のマーカーインデックス配列に特異的にハイブリダイズするヌクレオチド配列を使用することから利益を得る。したがって、濃縮又は枯渇は、連続インデックス、すなわち、各インデックスの間に0、1、2、3、4個又はそれ以上のヌクレオチドを有する行で、ライブラリーメンバーに存在する、複数のインデックスのセット(図5Bを参照)で実行することができる。所望の生物学的特徴と相関する連続インデックスを確実に選択し、保持することができ、その結果、所望のライブラリーメンバーを濃縮する。あるいは、所望の生物学的特徴と相関しない連続インデックスを選択し、除去することができ、その結果、豊富な細胞と相関するライブラリーメンバーを枯渇させ、所望の生物学的特徴と相関するライブラリーメンバーを事実上濃縮する。一実施形態では、濃縮は、ターゲット増幅を伴い得る。例えば、シークエンシングライブラリーの構築後、増幅反応を使用して、対象となる生物学的特徴を含むライブラリーメンバーを特異的に増幅することができる。一実施形態では、特異的増幅は、生物学的特徴を有するヌクレオチド配列にアニーリングするように設計された、生物学的特徴特異的プライマー、及びライブラリーの全メンバーの片側にアニーリングする第2のプライマーを使用して達成することができる。生物学的特徴特異的プライマーは、その5’末端に1つ以上のインデックス及び/又はユニバーサル配列を含み得る。
連続インデックスの全長は、プローブと所望のマーカーインデックス配列を有するライブラリーのメンバーとの間の特異的ハイブリダイゼーションに必要なプローブのサイズに依存する。いくつかの実施形態では、連続インデックス(したがってマーカーインデックス配列)の全長は、少なくとも40ヌクレオチド、少なくとも45ヌクレオチド、少なくとも50ヌクレオチド、又は少なくとも55ヌクレオチド、かつ80ヌクレオチド以下、75ヌクレオチド以下、70ヌクレオチド以下、又は65ヌクレオチド以下である。一実施形態では、連続インデックスの全長は、60ヌクレオチドである。
濃縮又は枯渇のいずれかを使用することにより、当該生物学的特徴を有する細胞又は核に由来するライブラリーのこれらのメンバーの増加した表現を含むサブライブラリーが得られる。サブライブラリーの包括的シークエンシングは、本明細書に記載のものなど、常法を用いて実行することができる。表現は十分に増加するため、包括的シークエンシングは、著しく少ないリソースを必要とし、したがってコスト効率は高い。サブライブラリーの包括的シークエンシングを使用することにより、これまで未知であった、1つ以上の更なる生物学的特徴を同定することができる。
用途
本開示によって提供される方法は、全ゲノム、トランスクリプトーム、エピゲノム、アクセス可能(例えば、ATAC)、及び立体構造状態(例えば、HiC)などシークエンシングライブラリーの調製を含む、本質的に任意の用途に容易に組み込むことができる。全ゲノム又はターゲットライブラリーの構築に使用することができる、多数のシークエンシングライブラリー法が当業者に知られている(例えば、genomics.umn.edu/downloads/sequencing-methods-review.pdfで入手可能な「Sequencing Methods Review」を参照)。
希少事象の検出を目的とするこれらの実施形態では、本開示によって提供される方法は、全ゲノム(例えば、sci-WGS-seq)、エピゲノム(例えば、sci-MET-seq)、アクセス可能(例えば、sci-ATAC-seq)、トランスクリプトーム(sci-RNA-seq)、及び立体構造(sci-HiC-seq)などが挙げられるが、これらに限定されない、単一細胞コンビナトリアルインデクシング(sci)法を用いて、本質的にあらゆる用途に容易に組み込むことができる。いくつかの実施形態では、用途は、架橋を伴う連結ロングリード法を用いた近接ライゲーションを含む、立体構造単一細胞コンビナトリアルインデクシングを使用することを含む。いくつかの実施形態では、用途は共アッセイであり、ある試料からの2つ以上の異なる検体又は情報を同時に評価する。検体の例としては、DNA、RNA、及びタンパク質(例えば、表面タンパク質)が挙げられるが、これらに限定されない。例としては、全ゲノム及びトランスクリプトーム、又はATAC及びトランスクリプトームを解析するアッセイが挙げられる(Ma et al.,2020,bioRxiv,DOI:doi.org/10.1016/j.cell.2020.09.056)。
いくつかの実施形態では、用途は、メタゲノミクス(環境試料から直接回収された遺伝物質の研究)である。環境の例としては、農業(例えば、土壌)、バイオ燃料(例えば、バイオマスを変換する微生物群)、バイオテクノロジー(例えば、生物活性化合物を産生する微生物群)、及び腸内微生物叢(例えば、ヒト又は動物マイクロバイオーム中に存在する微生物群)に関連する分野に存在するものが挙げられる。遺伝子材料は、真菌細胞など原核微生物及び/又は真核微生物(単細胞及び多細胞の両方)に存在し得る。本明細書に記載される方法は、それらが培養され得るかどうかにかかわらず、希少細胞を同定するために使用することができる。メタゲノミクスにおける希少事象の同定に使用することができる生物学的特徴としては、16s rRNA若しくはrDNA、18s rRNA若しくはrDNA、及び内部転写スペーサー(ITS)rRNA/rDNA、又は微生物によってコードされるタンパク質が挙げられるが、これらに限定されない。同定後、希少細胞を包括的にシークエンシングすることができる。
いくつかの実施形態では、本出願は、疾患状態又はリスクに関する。疾患又は疾患のリスクと相関する一塩基多型(SNP)及び/又はバイオマーカーなどであるが、これらに限定されない希少事象を同定することができ、SNP及び/又はバイオマーカーを有するこれらの細胞は、包括的にシークエンシングされる。例えば、対象の血流中の循環細胞の液体生検、又は細胞の組織生検は、疾患又は疾患のリスクに関する希少事象について解析され得る。アッセイされ得る希少事象としては、特定の癌の割り当てを可能にする体細胞のドライバ変異が挙げられるが、これに限定されない。関連用途は、ある期間にわたって対象から試料を得、癌性細胞又は核を選択し、次いで腫瘍細胞のサブセットを包括的にシークエンシングすることによって、腫瘍の進展を完全に特性評価し、追跡することである。
いくつかの実施形態では、本出願は、免疫細胞に関する。免疫細胞は、獲得した免疫系の外部分子同定能力に関連する特定遺伝子の再構成を受ける。遺伝子の再構成を受ける免疫細胞の例としては、T細胞(例えば、T細胞受容体の再構成)、抗原提示細胞(例えば、主要な組織適合性複合体のタンパク質をコードする遺伝子の再構成)、及びB細胞(例えば、抗体をコードする遺伝子の再構成)が挙げられるが、これらに限定されない。免疫細胞の改変に関連する生物学的特徴は、特異的再構成、又は特定の再構成から得られるタンパク質であり得るが、これらに限定されない。T細胞受容体のレパートリー特性及び進化を含むが、これらに限定されない、特定の改変を有する免疫細胞は、完全に特性評価し、追跡することができる。別の実施形態では、本出願は、細胞分化に関する。例えば、異なる領域での発現レベル及び/又はメチル化を使用して、アクセス可能性と発現との相関など分化事象を評価することができる。
本開示の非限定的な例示的実施形態を図6に示す。この実施形態では、T細胞受容体レパートリーを同定し、特性評価するための方法は、複数の細胞を提供すること(図6、ブロック600)と、複数の区画に細胞のサブセットを分配すること(図6、ブロック601)とを含み得る。複数の細胞は、例えば、血液試料又はリンパ節の試料からのものであり得る。各区画の細胞に存在する核酸を、インデックスの挿入によって修飾し(図6、ブロック602)、次いで細胞をプールする(図6、ブロック603)。追加のインデックスは、分配(図6、ブロック601)、インデックスの付加(図6、ブロック602)、及びサブセットのプール(図6、ブロック603)を繰り返す「スプリット及びプール」工程によって付加される。一実施形態では、各インデックスは、ライブラリーのメンバーの同じ側に付加されて、連続インデックスをもたらす(図5Bを参照)。任意選択的に、ユニバーサル配列は、1つ以上のインデックスと共に付加されてよい。最後のインデックスを付加した後、核又は細胞内の核酸のライブラリーをプールし(図6、ブロック603)、更に処理して、対象となる生物学的特徴、例えば、微生物又はウイルスの生体分子を結合することができるものなど特定のヌクレオチド配列を含むT細胞受容体の同定及び対象となる生物学的特徴に関連するインデックスのシークエンシングを可能にする生物学的特徴のターゲットシークエンシング用に調製することができる(図6、ブロック604)。配列解析(図6、ブロック605)を使用して、マーカーインデックス配列、すなわち、インデックス配列の固有分類を同定する。同定したマーカーインデックス配列は、(i)生物学的特徴と相関し、したがって、希少細胞に由来するライブラリーのメンバーを同定するもの、又は(ii)生物学的特徴と相関せず、したがって、豊富細胞に由来するライブラリーのメンバーを同定するものである。この例示的な実施形態の続いての工程は、ライブラリーの豊富なメンバーの枯渇について説明するが、本方法を本明細書に記載のように改変して、希少ライブラリーメンバーを濃縮することを含み得る。特定のオリゴヌクレオチド又はガイドRNA配列は、豊富な細胞に由来するライブラリーのメンバーと相関するマーカーインデックス配列とハイブリダイズするように設計することができ(図6、ブロック606)、次いで、例えば、ハイブリダイゼーション捕捉又はCRISPRダイジェストを使用することにより、豊富な細胞に由来するメンバーのシークエンシングライブラリーを枯渇させることができる(図6、607)。結果として、生物学的特徴を有する細胞に由来するこれらのメンバーの増加した表現を含む、改変されたライブラリーを得る。改変されたシークエンシングライブラリーのメンバーは、包括的シークエンシングに供され得る(図6、ブロック608)。あるいは、ライブラリーの所望のメンバーの表現が特性評価の基準を満たすのに十分になるまで、改変されたライブラリーは、更なる回数の濃縮及び/又は枯渇に供され得る。例えば、改変されたライブラリーのメンバーは、2回目のシークエンシングを受けることができ、マーカーインデックスは同定され、特定のオリゴヌクレオチド又はガイドRNA配列は、改変されたライブラリーを枯渇させる又は濃縮するように設計され、使用される。
いくつかの実施形態では、用途は、連続インデックスを使用することを含む。連続インデックスを用いてシークエンシングライブラリーを作製するアプローチの非限定的な例示的実施形態を図7に示す。細胞又は核のサブセットの分配後、例えば、タグ付けにより、細胞又は核に存在するDNA分子705に第1の区画特異的インデックスI1を付加することができる(図7、工程701)。核酸の一次供給源がRNAである場合、核酸は、タグ付け前にcDNA合成などの方法を使用して、DNAに変換することができる。結果として、細胞又は核に存在する修飾核酸のライブラリーが得られ、各修飾核酸706は、各末端に区画特異的インデックスI1を含む。サブセットはプール可能であり、得られた、修飾ターゲット核酸の末端は、必要に応じて、例えば3’のフィルインによって修復することができる。一実施形態では、修飾ターゲット核酸の5’末端は、リン酸化され得る。一実施形態では、第2のインデックス付加の次の工程は、オーバーハング(例えば、G、C、又はポリAテール)を、修飾ターゲット核酸の3’末端に付加することによって促進することができる。プールした細胞又は核は第2の区画セットに分配され、例えば、適切に修飾された3’末端、例えばTテール3’末端を有するアダプターのライゲーションによって第2の区画特異的インデックスI2が付加され得る(図7、工程702)。これにより、修飾核酸のライブラリーを含有する細胞又は核が得られ、各修飾核酸707は、各末端に2つの区画特異的インデックスI1及びI2を含む。修飾ターゲット核酸の末端は、例えば、5’のリン酸化及び/又はポリAテールによる3’末端の修飾、又はG若しくはCの3’への付加によって次のインデックスの付加を促進するように改変することができる。所望に応じて、プール及び別の区画特異的インデックスの付加を繰り返して、適切な数のインデックスを付加することができる。一実施形態では、分配した細胞又はサブセットに最後の区画特異的インデックスI3を付加するときに、ユニバーサル配列を有するアダプターが含まれ得る(図7、工程703)。例えば、ミスマッチアダプターを各末端に付加して、修飾核酸708を得ることができる。ユニバーサル配列の例としては、ライブラリーメンバーをアレイに固定するために使用されるものが挙げられる(P5及びP7)。ミスマッチアダプターはまた、シークエンシングに有用なユニバーサル配列を含むことができ、又はいくつかの実施形態では、修飾核酸708を増幅することができ(図7、工程704)、及びシークエンシングに有用なユニバーサル配列(i5及びi7)を付加して、修飾核酸709を得ることができる。修飾核酸709は、ターゲットシークエンシングで使用して、後続の濃縮及び/又は欠失に有用な生物学的特徴と相関するマーカーインデックス配列を同定することができる。
濃縮をターゲット増幅と結合する、非限定的な例示的実施形態を図8に示す。この実施形態では、単一細胞コンビナトリアルライブラリーが作製されており(例えば、図3、ブロック35;図4、ブロック47;図6、ブロック605)、得られた修飾核酸(例えば図7、修飾核酸709)は、対象となる生物学的特徴を含むライブラリーメンバーを特異的に増幅する増幅反応に供される。連続インデックスを有する修飾核酸802は、2つのドメイン、すなわち、生物学的特徴を有するヌクレオチド配列にアニーリングするように設計された3’ドメイン、及び1つ以上のユニバーサル配列又はその相補体、例えば、例えば、i7及びP7を有する5’ドメインを含み得るプライマー803と接触する。増幅反応は、ライブラリーの全メンバーの片側にアニーリングする第2のプライマー804を含む。増幅801は、一端に区画特異的インデックスI1-3を有する修飾核酸805、もう一端には、生物学的特徴をターゲットとした2ドメインプライマーと共に付加されたユニバーサル配列をもたらす。増幅された修飾ターゲット核酸は、ターゲットシークエンシング及び対象とする生物学的特徴と相関するマーカーインデックス配列を同定するためのシークエンシングで使用され得る。
本明細書では、キットも提供される。一実施形態では、キットはシークエンシングライブラリーを調製するためのものである。一実施形態では、キットは、1つのトランスポソーム複合体を含み、ユニバーサル配列がターゲット核酸に挿入され得るように、トランスポゾン認識部位を含む。別の実施形態では、キットは、2つのトランスポソーム複合体を含み、各複合体は、ユニバーサル配列がターゲット核酸に挿入され得るように、異なるユニバーサル配列を有するトランスポゾン認識部位を含む。別の実施形態では、キットは、核酸に少なくとも1つ、2つ、又は3つのインデックスを付加する構成要素を含む。キットはまた、シークエンシングライブラリーの作製に有用な他の構成要素も含み得る。例えば、キットは、DNA分子を処理してインデックスを含むようにするために、ライゲーション、プライマー伸長、又は増幅を媒介する少なくとも1つの酵素を含み得る。キットは、インデックス配列を有する核酸を含み得る。
キットの構成要素は、典型的には、少なくとも1つのアッセイ又は使用に十分な量で好適なパッケージ材料に入っている。任意選択的に、緩衝剤及び溶液など他の構成要素が含まれ得る。典型的には、パッケージされた構成要素の使用説明書も含まれる。本明細書で使用するとき、「パッケージ材料」という語句は、キットの内容物を収容するために使用される1つ以上の物理的構造を指す。パッケージ材料は、一般的に、無菌の、汚染物質を含まない環境を提供するために、常法によって構築される。パッケージ材料は、シークエンシングライブラリーを作製するために構成要素が使用され得ることを示すラベルを有してよい。加えて、パッケージ材料は、キット内の材料の使用方法を示す説明書を含む。本明細書で使用するとき、用語「パッケージ」は、キットの構成要素を一定限度内に保持することができる、ガラス、プラスチック、紙、箔などの容器を指す。「使用説明書」は、典型的には、試薬濃度、又は混合する試薬及び試料の相対量、試薬/試料混合物の維持期間、温度、緩衝条件など少なくとも1つのアッセイ法パラメータを説明する具体的な表現を含む。
組成物
シークエンシングライブラリーの作製中、又は作製後に、多数の分子及び組成物が得られることがある。例えば、結果として得られ得る分子又は組成物には、連続インデックスによって片側又は両側に隣接する修飾ターゲット核酸が含まれる。連続インデックスは、行内に1、2、3、4、5、6、又はそれ以上のインデックスを含み得、各インデックスは、1、2、3、4、又はそれ以上のヌクレオチドによって他のインデックスから分離される。いくつかの実施形態では、連続インデックスの全長は、少なくとも40ヌクレオチド、少なくとも45ヌクレオチド、少なくとも50ヌクレオチド、又は少なくとも55ヌクレオチド、かつ80ヌクレオチド以下、75ヌクレオチド以下、70ヌクレオチド以下、又は65ヌクレオチド以下である。複数のこのような修飾ターゲット核酸を含むライブラリー又は組成物が得られることがある。このようなポリヌクレオチドのプールされたライブラリーを含むプールされたライブラリー及び組成物が得られることがある。
例示的な実施形態
実施形態1.生物学的特徴を含む細胞のサブ集団を同定するための方法であって、
(a)単一細胞シークエンシングライブラリーを提供することであって、
シークエンシングライブラリーは、複数の修飾ターゲット核酸を含み、
修飾ターゲット核酸は、少なくとも1つのインデックス配列を含む、ことと、
(b)生物学的特徴と同じ修飾ターゲット核酸に存在するインデックス配列を同定するために、シークエンシングライブラリーをターゲットシークエンシングによって精査することであって、
生物学的特徴に関連するインデックス配列は、マーカーインデックス配列である、ことと、
(c)サブライブラリーを得るためにシークエンシングライブラリーを改変することであって、
サブライブラリーは、マーカーインデックス配列を含まない、シークエンシングライブラリー内に存在する他の修飾ターゲット核酸と比較して、マーカーインデックス配列を含む修飾ターゲット核酸の増加した表現を含む、ことと、
(d)マーカーインデックス配列を含む修飾ターゲット核酸のヌクレオチド配列を決定することと、を含む、方法。
実施形態2.単一細胞シークエンシングライブラリーは、複数の試料からの核酸を含む、実施形態1に記載の方法。
実施形態3.複数の試料は、(i)異なる生物から得られた同一組織の試料、(ii)1つの生物からの異なる組織の試料、又は(iii)異なる生物からの異なる組織の試料を含む、実施形態1~2のいずれか1つに記載の方法。
実施形態4.工程(b)において、2つ以上のマーカーインデックス配列が同定される、実施形態1~3のいずれか1つに記載の方法。
実施形態5.単一細胞コンビナトリアルシークエンシングライブラリーは、細胞若しくは核の全ゲノム又はゲノムのサブセットを表すターゲット核酸を含む、実施形態1~4のいずれか1つに記載の方法。
実施形態6.ゲノムのサブセットは、トランスクリプトーム、アクセス可能クロマチン、DNA、立体構造状態、又は細胞若しくは核のタンパク質を表すターゲット核酸を含む、実施形態1~5のいずれか1つに記載の方法。
実施形態7.改変することは、マーカーインデックス配列を含む修飾ターゲット核酸の濃縮を含む、実施形態1~6のいずれか1つに記載の方法。
実施形態8.濃縮はハイブリダイゼーションベースの方法を含む、実施形態1~7のいずれか1つに記載の方法。
実施形態9.ハイブリダイゼーションベースの方法は、ハイブリッド捕捉、増幅、又はCRISPR(d)Cas9を含む、実施形態1~8のいずれか1つに記載の方法。
実施形態10.改変することは、マーカーインデックス配列を含まない修飾ターゲット核酸の枯渇を含む、実施形態1~9のいずれか1つに記載の方法。
実施形態11.枯渇はハイブリダイゼーションベースの方法を含む、実施形態1~10のいずれか1つに記載の方法。
実施形態12.ハイブリダイゼーションベースの方法は、ハイブリッド捕捉、増幅、又はCRISPR(d)Cas9を含む、実施形態1~11のいずれか1つに記載の方法。
実施形態13.生物学的特徴は、種のタイプを示すヌクレオチド配列を含む、実施形態1~12のいずれか1つに記載の方法。
実施形態14.種のタイプは細胞の種を含む、実施形態1~13のいずれか1つに記載の方法。
実施形態15.生物学的特徴は、16sサブユニット、18sサブユニット、又はITS非転写領域のヌクレオチドを含む、実施形態1~14のいずれか1つに記載の方法。
実施形態16.生物学的特徴は、細胞クラスを示すヌクレオチド配列を含む、実施形態1~15のいずれか1つに記載の方法。
実施形態17.細胞クラスは、発現パターン、エピジェネティックパターン、免疫遺伝子組み換え、又はこれらの組み合わせを含む、実施形態1~16のいずれか1つに記載の方法。
実施形態18.エピジェネティックパターンは、メチル化標識、メチル化パターン、アクセス可能DNA、又はこれらの組み合わせを含む、実施形態1~17のいずれか1つに記載の方法。
実施形態19.生物学的特徴は、疾患状態又はリスクを示すヌクレオチド配列を含む、実施形態1~18のいずれか1つに記載の方法。
実施形態20.疾患状態又はリスクは、変異DNA配列、変異発現パターン、又は疾患と相関する変異エピジェネティックパターンを含む、実施形態1~19のいずれか1つに記載の方法。
実施形態21.変異DNA配列は、少なくとも1つの一塩基多型を含む、実施形態1~20のいずれか1つに記載の方法。
実施形態22.変異発現パターンは、バイオマーカーの発現を含む、実施形態1~21のいずれか1つに記載の方法。
実施形態23.変異エピジェネティックパターンは、メチル化標識、メチル化パターンを含む、実施形態1~22のいずれか1つに記載の方法。
実施形態24.修飾ターゲット核酸は、少なくとも2つの区画特異的インデックス配列の連続インデックスを含み、2つのインデックス配列間には7個以上のヌクレオチドが存在しない、実施形態1~23のいずれか1つに記載の方法。
実施形態25.連続インデックスは、修飾ターゲット核酸の各末端に存在する、実施形態1~24のいずれか1つに記載の方法。
実施形態26.連続インデックスの長さは少なくとも55ヌクレオチドである、実施形態1~25のいずれか1つに記載の方法。
実施形態27.連続インデックスの1つのコピーは、修飾ターゲット核酸に存在する、実施形態1~26のいずれか1つに記載の方法。
実施形態28.連続インデックスの2つのコピーは、修飾ターゲット核酸に存在する、実施形態1~27のいずれか1つに記載の方法。
実施形態29.シークエンシングライブラリーの複数の修飾ターゲット核酸は、少なくとも100,000個の異なる細胞又は核を表す、実施形態1~28のいずれか1つに記載の方法。
実施形態30.単一細胞コンビナトリアルシークエンシングライブラリーを提供することは、
試料を処理してライブラリーを作製することであって、試料は、生物から得られたメタゲノミクス試料である、ことを含む、実施形態1~29のいずれか1つに記載の方法。
実施形態31.生物は哺乳類である、実施形態1~30のいずれか1つに記載の方法。
実施形態32.メタゲノミクス試料は、共生微生物又は病原微生物を含む疑いのある組織を含む、実施形態1~31のいずれか1つに記載の方法。
実施形態33.微生物は原核生物又は真核生物である、実施形態1~32のいずれか1つに記載の方法。
実施形態34.メタゲノミクス試料はマイクロバイオーム試料を含む、実施形態1~33のいずれか1つに記載の方法。
実施形態35.単一細胞コンビナトリアルシークエンシングライブラリーを提供することは、
ライブラリーを作製するために試料を処理することであって、試料は生物からのものである、ことを含む、実施形態1~34のいずれか1つに記載の方法。
実施形態36.生物は哺乳類である、実施形態1~35のいずれか1つに記載の方法。
実施形態37.試料からの核酸の一次供給源はRNAを含む、実施形態1~36のいずれか1つに記載の方法。
実施形態38 RNAはmRNAを含む、実施形態1~37のいずれか1つに記載の方法。
実施形態39.試料からの核酸の一次供給源はDNAを含む、実施形態1~38のいずれか1つに記載の方法。
実施形態40.DNAは全細胞ゲノムDNAを含む、実施形態1~39のいずれか1つに記載の方法。
実施形態41.全細胞ゲノムDNAはヌクレオソームを含む、実施形態1~40のいずれか1つに記載の方法。
実施形態42.試料からの核酸の一次供給源は無細胞DNAを含む、実施形態1~41のいずれか1つに記載の方法。
実施形態43.試料は癌細胞を含む、実施形態1~42のいずれか1つに記載の方法。
実施形態44.単一細胞コンビナトリアルシークエンシングライブラリーを提供することは、単一核トランスクリプトームシークエンシング、単一細胞トランスクリプトームシークエンシング、単一細胞トランスクリプトーム及びトランスポゾンアクセス可能クロマチンシークエンシング、単一核の全ゲノムシークエンシング、トランスポゾンアクセス可能クロマチンの単一核シークエンシング、単一細胞エピトープシークエンシング、sci-HiC、及びsci-METから選択される単一細胞コンビナトリアルインデクシング法を用いてライブラリーを作製することを含む、実施形態1~43のいずれか1つに記載の方法。
実施形態45.提供することは、各細胞又は核から2つの異なる単一細胞コンビナトリアルシークエンシングライブラリーを提供することを含む、実施形態1~44のいずれか1つに記載の方法。
実施形態46.2つの異なる単一細胞コンビナトリアルシークエンシングライブラリーは、単一核トランスクリプトームシークエンシング、単一細胞トランスクリプトームシークエンシング、単一細胞トランスクリプトーム及びトランスポゾンアクセス可能クロマチンシークエンシング、単一核の全ゲノムシークエンシング、トランスポゾンアクセス可能クロマチンの単一核シークエンシング、sci-HiC、及びsci-METから選択される単一細胞コンビナトリアルインデクシング法から選択される、実施形態1~45のいずれか1つに記載の方法。
実施形態47.核酸のヌクレオチド配列を決定するためにシークエンシング手順を実行することを更に含む、実施形態1~46のいずれか1つに記載の方法。
実施形態48.複数の単一核又は単一細胞からの核酸を含むシークエンシングライブラリーを調製するための方法であって、
(a)複数の核又は細胞を提供することであって、核又は細胞はヌクレオソームを含む、ことと、
(b)複数の核又は細胞を、トランスポザーゼ及びユニバーサル配列を含むトランスポソーム複合体と接触させることであって、接触させることは、ユニバーサル配列をDNA核酸に組み込み、ユニバーサル配列を含む二本鎖DNA核酸をもたらすのに好適な条件を更に含む、ことと、
(d)複数の核又は細胞を第1の複数の区画に分配することであって、
各区画は、核又は細胞のサブセットを含む、ことと、
(e)インデックス付き核又は細胞を生成するために、核又は細胞の各サブセット内のDNA分子を処理することであって、
処理することは、核又は細胞の各サブセットに存在するDNA核酸に、第1の区画特異的インデックス配列を付加して、インデックス付き核又は細胞に存在するインデックス付き核酸をもたらし、
処理することは、ライゲーション、プライマー伸長、ハイブリダイゼーション、増幅、又はこれらの組み合わせを含む、ことと、
(g)プールされたインデックス付き核又は細胞を生成するために、インデックス付き核又は細胞を組み合わせることと、を含む、方法。
実施形態49.提供することは、複数の区画内に複数の核又は細胞を提供することを含み、各区画は核又は細胞のサブセットを含み、接触させることは、各区画をトランスポソーム複合体と接触させることを含み、方法は、接触させることの後に核又は細胞を組み合わせて、プールされた核又は細胞を生成することを更に含む、請求項48に記載の方法。
実施形態50.提供することは、単離された核の完全性を維持しながらヌクレオソーム枯渇核を生成するために、核を化学処理に供することを含む、実施形態48~49のいずれか1つに記載の方法。
実施形態51.
インデックス付き核又は細胞を含むプールされたインデックス付き核又は細胞を第2の複数の区画に分配することであって、
各区画は、核又は細胞のサブセットを含む、ことと、
二重インデックス付き核又は細胞を生成するために、核又は細胞の各サブセット内のDNA分子を処理することであって、
処理することは、核又は細胞の各サブセットに存在するDNA核酸に、第2の区画特異的インデックス配列を付加して、インデックス付き核又は細胞に存在する二重インデックス付き核酸をもたらし、
処理することは、ライゲーション、プライマー伸長、ハイブリダイゼーション、増幅、又はこれらの組み合わせを含む、ことと、
プールされた二重インデックス付き核又は細胞を生成するために、二重インデックス付き核又は細胞を組み合わせることと、を更に含む、実施形態48~50のいずれか1つに記載の方法。
実施形態52.
二重インデックス付き核又は細胞を含むプールされた核又は細胞を第3の複数の区画に分配することであって、
各区画は、核又は細胞のサブセットを含む、ことと、
三重インデックス付き核又は細胞を生成するために、核又は細胞の各サブセット内のDNA分子を処理することであって、
処理することは、核又は細胞の各サブセットに存在するDNA核酸に、第3の区画特異的インデックス配列を付加して、インデックス付き核又は細胞に存在する三重インデックス付き核酸をもたらし、
処理することは、ライゲーション、プライマー伸長、ハイブリダイゼーション、増幅、又はこれらの組み合わせを含む、ことと、
プールされた三重インデックス付き核又は細胞を生成するために、三重インデックス付き核又は細胞を組み合わせることと、を更に含む、実施形態48~51のいずれか1つに記載の方法。
実施形態53.分配する工程は希釈を含む、実施形態48~52のいずれか1つに記載の方法。
実施形態54.区画はウェル、マイクロ流体区画、又は液滴を含む、実施形態48~53のいずれか1つに記載の方法。
実施形態55.第1の複数の区画の区画は、50~100,000,000個の核又は細胞を含む、実施形態48~54のいずれか1つに記載の方法。
実施形態56.第2の複数の区画の区画は、50~100,000,000個の核又は細胞を含む、実施形態48~55のいずれか1つに記載の方法。
実施形態57.第3の複数の区画の区画は、50~100,000,000個の核又は細胞を含む、実施形態48~56のいずれか1つに記載の方法。
実施形態58.接触させることは、各サブセットを2つのトランスポソーム複合体と接触させることを含み、一方のトランスポソーム複合体は、第1のユニバーサル配列を含む第1のトランスポザーゼを含み、第2のトランスポソーム複合体は、第2のユニバーサル配列を含む第2のトランスポザーゼを含み、接触させることは、第1のユニバーサル配列及び第2のユニバーサル配列をDNA核酸に組み込んで、第1のユニバーサル配列及び第2のユニバーサル配列を含む二本鎖DNA核酸をもたらすのに好適な条件を更に含む、実施形態48~57のいずれか1つに記載の方法。
実施形態59.区画特異的インデックス配列を付加することは、ユニバーサル配列を含むヌクレオチド配列を核酸に付加し、次いで、区画特異的インデックス配列を核酸に付加する2工程プロセスを含む、実施形態48~58のいずれか1つに記載の方法。
実施形態60.プールされたインデックス付き核又は細胞からインデックス付き核酸を得ることを更に含み、それにより、複数の核又は細胞からシークエンシングライブラリーを作製することを更に含む、実施形態48~59のいずれか1つに記載の方法。
実施形態61.プールされた二重インデックス付き核又は細胞から二重インデックス付き核酸を得ることを更に含み、それにより、複数の核又は細胞からシークエンシングライブラリーを作製することを更に含む、実施形態48~60のいずれか1つに記載の方法。
実施形態62.プールされた三重インデックス付き核又は細胞から三重インデックス付き核酸を得ることを更に含み、それにより、複数の核又は細胞からシークエンシングライブラリーを作製することを更に含む、実施形態48~61のいずれか1つに記載の方法。
実施形態63.
複数の増幅部位を含む表面を提供する工程を更に含み、
増幅部位は、遊離3’末端を有する結合した一本鎖捕捉オリゴヌクレオチドの少なくとも2つの集団を含み、
複数のインデックスを含む個々の断片からアンプリコンのクローン集団をそれぞれ含む複数の増幅部位を生成するのに好適な条件下で、増幅部位を含む表面を、1つ、2つ、又は3つのインデックス配列を含む核酸断片と接触させることと、を更に含む、実施形態48~62のいずれか1つに記載の方法。
実施形態64.核酸ライブラリーを調製するための方法であって、
(a)複数の試料を提供することであって、各試料は複数の細胞又は核を含み、各試料の複数の細胞又は核は、1つ以上の別個の区画に存在する、ことと、
(b)複数の核又は細胞を、トランスポソーム複合体がインデックス配列を含まないという条件で、トランスポザーゼ及びユニバーサル配列を含むトランスポソーム複合体と接触させることであって、接触させることは、ユニバーサル配列を核酸に組み込むのに好適な条件を更に含む、ことと、
(c)各別個の区画の核酸に第1のインデックス配列を付加することと、
(d)別個の区画の細胞又は核を組み合わせることと、
(e)細胞又は核を複数の区画に分配することと、
(f)複数の区画の核酸に第2のインデックス配列を付加することと、を含む、方法。
実施形態65.第1のインデックス配列、第2のインデックス配列、又はこれらの組み合わせは、ライゲーション、プライマー伸長、ハイブリダイゼーション、増幅、又はこれらの組み合わせによって付加される、実施形態64に記載の方法。
実施形態66.工程(d)~(e)を繰り返して、第3又はそれ以上のインデックス配列を複数の区画の細胞又は核に付加する、実施形態64~65のいずれか1つに記載の方法。
実施形態67.複数の核又は細胞は固定される、実施形態64~66のいずれか1つに記載の方法。
実施形態68.工程(c)又は工程(f)の後にインデックス付き核酸の増幅を更に含む、実施形態64~67のいずれか1つに記載の方法。
実施形態69.複数の区画の核酸を組み合わせ、核酸の配列を決定する工程(g)を更に含む、実施形態64~68のいずれか1つに記載の方法。
実施形態70.核酸のヌクレオチド配列を決定するためにシークエンシング手順を実行することを更に含む、実施形態64~69のいずれか1つに記載の方法。
実施形態71.単一細胞又は単一核をシークエンシングするための方法であって、
(a)試料内の各細胞又は核の核酸を一意にインデックス付けし、それにより、各細胞又は核のインデックス付きライブラリーを作製することと、
(b)生物学的特徴を使用して、工程(a)からの、対象となる1つ以上のインデックス付きライブラリーを同定することと、
(c)工程(b)の、対象となるインデックス付きライブラリーを濃縮し、それにより、濃縮ライブラリーを作製することと、
(d)工程(c)からの濃縮ライブラリーをシークエンシングすることと、を含む、方法。
実施形態72.ライブラリーは、細胞又は核のDNA、RNA、又はタンパク質由来である、実施形態71に記載の方法。
実施形態73.生物学的特徴は、DNA、RNA、若しくはタンパク質、又はこれらの組み合わせである、実施形態64~72のいずれか1つに記載の方法。
実施形態74.工程(a)における一意にインデックス付けすることは、少なくとも2つの異なるインデックスを細胞又は核の核酸に関連付けることを含む、実施形態64~73のいずれか1つに記載の方法。
実施形態75.少なくとも2つの異なるインデックスは連続インデックスである、実施形態64~74のいずれか1つに記載の方法。
実施形態76.濃縮ライブラリーは正の濃縮によって作製される、実施形態64~75のいずれか1つに記載の方法。
実施形態77.正の濃縮は増幅を含む、実施形態64~76のいずれか1つに記載の方法。
実施形態78.正の濃縮は捕捉剤を含む、実施形態64~77のいずれか1つに記載の方法。
実施形態79.正の濃縮は、固体支持体を含む、実施形態64~78のいずれか1つに記載の方法。
実施形態80.濃縮ライブラリーは負の濃縮によって作製される、実施形態64~79のいずれか1つに記載の方法。
実施形態81.工程(c)における、対象となるインデックス付きライブラリーを同定することは、インデックスをシークエンシングすることを含む、実施形態64~80のいずれか1つに記載の方法。
実施形態82.単一細胞又は単一核をシークエンシングするための方法であって、(a)試料を提供することであって、試料は複数の核又は細胞を含む、ことと、
(b)試料内の各核又は細胞に第1のインデックスを関連付けることと、
(c)試料を複数の区画に分割することと、
(d)複数の区画の各核又は細胞に第2のインデックスを関連付けることと、
(e)複数の区画をプールすることと、
(f)プールされた区画をシークエンシングすることと、
(g)生物学的特徴と関連付けられた第1のインデックス及び第2のインデックスの組み合わせを同定することと、
(h)工程(g)からの第1のインデックス及び第2のインデックスの同定された組み合わせを使用して、プールされた区画からの生物学的特徴を濃縮することと、を含む、方法。
実施形態83.キットであって、
(a)複数のトランスポソーム複合体であって、各トランスポソーム複合体は、トランスポザーゼ及びトランスポゾン配列を含み、トランスポゾン配列はインデックス付けされていない、複数のトランスポソーム複合体と、
(b)第1の複数のインデックスオリゴヌクレオチドであって、第1の複数のインデックスオリゴヌクレオチドは、少なくとも2つの異なる配列を有するオリゴヌクレオチドを含む、第1の複数のインデックスオリゴヌクレオチドと、
(c)インデックスオリゴヌクレオチドと共に使用するためのリガーゼ酵素と、を含む、キット。
実施形態84.第2の複数のインデックスオリゴヌクレオチドを更に含み、第2の複数のインデックスオリゴヌクレオチドは、第1の複数のインデックスオリゴヌクレオチドとは異なる配列を有するオリゴヌクレオチドを含む、実施形態83に記載のキット。
実施形態85.第3の複数のインデックスオリゴヌクレオチドを更に含み、第3の複数のインデックスオリゴヌクレオチドは、第1の複数のインデックスオリゴヌクレオチド及び第2の複数のインデックスオリゴヌクレオチドとは異なる配列を有するオリゴヌクレオチドを含む、実施形態83又は84に記載のキット。
本開示は、以下の実施例によって例示される。特定の実施例、材料、量、及び手順は、本明細書に記載の本開示の範囲及び趣旨に従って広く解釈されるべきであることを理解されたい。
実施例1
発生中のクロマチンアクセス可能性のヒト細胞アトラス
要約
ヒトゲノムのクロマチンランドスケープは、遺伝子発現の細胞タイプ特異的プログラムを形作る。本発明者らは、3レベルのコンビナトリアルインデクシング(sci-ATAC-seq3)に基づいてクロマチンアクセス可能性の単一細胞プロファイリング用の改善されたアッセイを開発して、15の器官を表す59個の胎児試料に適用し、およそ百万個の単一細胞を全てプロファイリングした。本発明者らは、同一器官における遺伝子発現によって定義される細胞タイプを活用して、これらのデータをアノテーションし、数十万の細胞タイプ特異的DNA調節要素のカタログを構築し、系統特異的転写因子の特性、並びに複合形質遺伝性の細胞タイプ特異的濃縮を調査する。発生中の遺伝子発現の付随するヒト細胞アトラスと合わせて、これらのデータは、ヒト生物学を探査するための豊富なリソースを含む。
本文
近年、単一細胞法、実験、及びアトラスが急増している。しかしながら、その取り組みの圧倒的大部分は、細胞生物学、発生生物学、及び有機生物学の一側面のみを反映する単一細胞遺伝子発現に集中したままである。遺伝子発現プログラムを形作るクロマチンランドスケープなど他の側面は、単一細胞解像度での調査にとって同程度に重要であるが、拡張性のある方法が比較的少ないという課題を抱えている。
単一細胞コンビナトリアルインデクシング(「sci」)のフレームワークは、細胞又は核のスプリット及びウェルへのプールを含み、ウェルでは、分子バーコードが対象となる種(例えば、RNA又はクロマチン)にその場で毎回導入される。連続して行われる、その場での分子バーコーディングを通して、同一細胞内の種をバーコードの一意の組み合わせで一致して標識し、クロマチンアクセス可能性(sci-ATAC-seq)、遺伝子発現(sci-RNA-seq)、核構造、ゲノム配列、メチル化、ヒストン標識及び他の現象をプロファイリングするためのsci-アッセイ、並びに、例えば、クロマチンアクセス可能性及び遺伝子発現を併せてプロファイリングするためのsci-共アッセイを開発した(「CoBatch」、「Split-seq」、「Pagaired-seq」、及び「dscATAC-seq」は、単一細胞コンビナトリアルインデクシングにも依存する方法である)。
これまでは、2レベルのsci-ATAC-seqを介して、~100,000個の哺乳類細胞におけるクロマチンアクセス可能性をプロファイリングすることができたが、アッセイにはいくつかの制限がある。例えば、バーコード付きアダプターを有するTn5酵素のカスタム装填を必要とし、衝突による実験毎に10~10個の細胞、つまり同じバーコードの組み合わせを受容する細胞に限定される。これらの問題に対処するために、本発明者らは、3レベルのコンビナトリアルインデクシング(sci-ATAC-seq3)に基づいて、クロマチンアクセス可能性の単一細胞プロファイリング用の改善されたアッセイを開発した。sci-ATAC-seqの以前の繰り返しとは対照的に、このアッセイは、分子バーコード付きTn5複合体に依存しない(図9;図10)。むしろ、最初の2回のインデックス付けは、従来の、均一に充填されたTn5トランスポザーゼ複合体(標準的な「Nextera」)のいずれかの末端にライゲーションすることによって達成され、最終回のインデックス付けは、依然としてPCRを介する。2レベルのsci-ATAC-seqと比較して、ただしsci-RNA-seq3に類似して、sci-ATAC-seq3は、1細胞当たりのライブラリー調製コスト、並びに衝突率を大幅に低減する。2レベルのインデクシング(96x384ウェル)及び3レベルのインデクシング(384x384x384ウェル)の理論衝突率は、それぞれ12%及び1.3%であり、プールされた等数のGM12878細胞及びCH12.LX細胞を使用した、3レベルの「種混合」実験について観察された衝突率は4.0%と推定され、10細胞規模の実験に道を開いた。このプロトコルは、もはや細胞選別を必要としない。また、本発明者らは、各細胞から回収される断片の数を最大化するために、リガーゼ及びポリメラーゼの選択、キナーゼ濃度、並びにオリゴ設計及び濃度を最適化した。アクセス可能領域内での濃縮を維持しつつ、アクセス可能部位の特異性を犠牲にして複雑性を最大化するという明示的な選択を行ったことに留意されたい。Picardを使用して、細胞ごとに推定総固有リード(「複雑性」)を計算し、細胞ごとにFraction of Reads in Transcription Start Site(「FRiTSS」)を計算した。Gencode TSSの500bp以内のリードは、TSS内であるとみなした。具体的には、固定条件を調整して、アッセイの感度(すなわち、複雑性)及び特異度(すなわち、アクセス可能部位における濃縮)を調節することができることを見出した。
クロマチンアクセス可能性のヒト細胞アトラスに向かって、15器官(副腎、小脳の2領域、眼、心臓、腸、腎臓、肝臓、肺、筋肉、膵臓、胎盤、脾臓、胃、及び胸腺)を表す59の胎児試料にsci-ATAC-seq3を適用し、160万個の細胞でクロマチンアクセス可能性を全てプロファイリングした(図1D~E)。実施例2では、同一器官からの400万~500万個の細胞における遺伝子発現のプロファイリングを、重複する試料セットに基づいて説明する。プロファイリングした器官は、多様な系に及び、最も不在が目立つのは、骨髄、骨、性腺、及び皮膚である。
異種の胎児組織の迅速かつ均一な処理は、困難な課題を示す。本発明者らは、様々な組織タイプにわたって良好に機能し、sci-ATAC-seq3及びsci-RNA-seq3の両方に好適なホモジネートを生成する、凍結保存組織から核を直接抽出するための新たな方法を開発した。簡潔に言えば、急速凍結した組織切片をアルミニウム箔に包み、冷却したハンマーを使用して、ドライアイス上で粉末に粉砕する。次いで、組織粉末をアリコートに分割し、一方はsci-ATAC-seq3用、他方はsci-RNA-seq3用であった。
sci-ATAC-seq3では、89~125日の範囲の推定妊娠年齢の23の胎児から試料を得た。細胞を溶解して、公開されたATAC-seq細胞溶解緩衝液を用いて核を単離し、今後の処理のために急速凍結前にホルムアルデヒドで核を固定した。各組織からの核では、およそ50,000個の固定核を、96ウェルプレートの4つのウェルにわたって堆積させ、タグ付けのために処理した。タグ付け後、組織試料も同定された第1のインデックスを、非対称の挿入されたトランスポザーゼ複合体の自由端の一方にライゲーションによって導入した。プール及びスプリットの後、第2のインデックスを、トランスポザーゼ複合体の他方の自由端にライゲーションによって導入した。別の回のプール及びスプリットに続いて、最終インデックスをPCRにより付加し、得られたアンプリコンをシークエンシングのためにプールした。
5回のIllumina NovaSeqでの実験から3回目の実験のsci-ATAC-seq3ライブラリーをシークエンシングし、全部で500億超のリードを生成した。最初のQCチェックとして、組織レベルで、すなわち、単一細胞に分割する前にデータを調べた。胎児組織からの全ての利用可能なシングルエンドDNase-seq試料をENCODEデータポータルからダウンロードし、再マッピングした。次に、各「擬バルク」試料及び各ENCODE試料におけるアクセス可能性のピークを特定し、これらをマージし、マスターリスト内の各ピークにおけるアクセス可能性について各試料をスコア化した。しかしながら、sci-ATAC-seq3データは、ピークであまり濃縮されていなかったが(ピークの中央リード:ATAC-SEQ3では29%、ENCODE DNase-seqでは35%)、同一組織からの試料は、2つのアッセイに関して同程度に相関し(中央スピアマン相関:sci-ATAC-seq3での同一組織からの2つの試料で0.93、DNase-seqでは0.91)、sci-ATAC-seq3はより高い技術的再現性を有した(中央スピアマン相関:0.95)。更に、これらの集約プロファイル、sci-ATAC-seq3試料を単独で解析するか、又はクラスター試料に対するペアワイズスピアマン相関を使用してsci-ATAC-seq3試料とDNase-seq試料を合わせて解析するかに基づいて、試料をそれらのそれぞれの組織にクラスタリングした。
細胞バーコードに基づいてリードを分割し、前述のように動的閾値を適用して、1,568,018個の細胞を同定した。鶏対照から、3回の各実験について~5%の衝突率を推定する。ヒトセンチネル組織に対応する細胞のUniform Manifold Approximation and Projection(UMAP)可視化は、明白な実験バッチ効果を明らかにしなかった。それらの断片サイズ分布の乏しいヌクレオソームバンディングを考慮して3つの試料をドロップし、細胞をほとんど捕捉しなかったために2つの試料を更にドロップした。これらのsci-ATAC-seq3ライブラリーにおいて、組織タイプごとに1細胞につき全ての固有断片の91%~99%の中央をシークエンシングしたと推定する。
組織ごとにアクセス可能性のピークを特定した後、これらをマージして、105万部位のマスターセットを生成する。各部位でのリードの有無について各細胞をスコアリングした後、固有リードの総数(1,000~3586の範囲の試料特異的最小値)、アクセス可能部位のマスターセットに重複するリードの割合(0.2~0.4の範囲の試料特異的最小値)、TSS付近に収まるリードの割合(+/-1kb;0.05~0.15の範囲の試料特異的最小値)、及びscRNA-seqデータ用に当初開発されたScrubletダブレット検出アルゴリズムを適応して得たダブレットスコア(最高ダブレットスコアを有する細胞の~10%を除く)に基づいて、低精度の細胞をフィルタリングして除去した。
これらの手順の後、54の胎児試料からの790,957個の単一細胞クロマチンアクセス可能性プロファイルが残った。組織ごとの高精度細胞の総数は、2,421(脾臓)~211,450(肝臓)の範囲であった。このセットの細胞当たりの固有断片の中央値は6,042であり、アクセス可能部位のマスターセットと重複するものの中央値は0.49であり、TSS(+/-1kb)付近に収まるのは0.19である。
本発明者らは、対数変換されたターム頻度構成要素を使用して、組織ごとに高精度細胞を潜在意味インデクシング(LSI)に供した。同一組織に対応する異なる試料に対するバッチ効果の明白な証拠を観察しなかったが、Harmonyアルゴリズムを適用して、組織ごとにPCA空間内の試料を保存的手段として整列させた。組織ごとに整列させたPCA空間を使用して、次いでLouvainクラスタリングを適用し、最初に全組織にわたって172のクラスターを得た。UMAPを使用して、各組織データセットの次元を更に低減した。
細胞タイプのアノテーション
本発明者ら及び他の人々が示したように、scATAC-seqデータセット内の細胞タイプのアノテーションは、scRNA-seqデータセットを活用することによって大幅に簡略化することができる。scATAC-seqデータについての細胞タイプのアノテーションを部分的に自動化するために、手引書に記載のように、まず、同一組織についてscRNA-seqデータ内の細胞タイプをアノテーションした。第2に、scATAC-seqデータについて遺伝子レベルのアクセス可能性スコアを計算し、それらのTSSの2kb上流によって延長された遺伝子本体に収まる転位事象の数を集計した。第3に、非負最小二乗(NNLS)回帰に基づいて、scRNA-seqクラスターとscATAC-seqクラスターとの間で生じ得る対応を見出すためのアプローチへの入力として、データタイプごとに遺伝子-細胞マトリックスを使用し、これにより、scATAC-seqクラスターの自動アノテーションの初期「リフトオーバー」セットを得た。最後に、各組織内の細胞タイプごとにマーカー遺伝子の周囲のパイルアップを調べることにより、全ての自動アノテーションを手動で見直して、必要と判断した場合には割り当てられた標識を修正した。最初に、マーカー遺伝子発現に基づいて、マッチする組織で集められたsci-RNA-seqデータで、細胞タイプをアノテーションした。組織ごとのATACデータで、Louvainクラスターを同定した。次に、これらのクラスターごとに遺伝子レベルのアクセス可能性スコアを計算し、非負最小二乗(NNLS)回帰に基づいてRNAクラスターにマッチさせ、場合によっては、Louvainクラスターのマージが生じた。これらの1回目の自動アノテーションは、マーカー遺伝子周辺のクラスター特異的アクセス可能性ランドスケープを手動で見直すことにより、更に精緻化された。アノテーションされた細胞タイプは、既知のマーカー遺伝子のTSSの周辺の特異的アクセス可能性を示した。細胞タイプ又はアノテーションされていないクラスターごとに、既知のマーカー遺伝子のTSS付近のアクセス可能性を合計し、細胞当たりの総リードの差、並びに細胞タイプ全体の細胞数を考慮するために、スケールを正規化した。データは、一部のアノテーションされていないクラスターは新規の細胞タイプを表していない可能性があるが、むしろ技術的アーチファクト(例えば、ダブレット)を表していることを示唆した。本発明者らは、他のアプローチが単一細胞データのマルチモーダル組み込みについて非常に有望であることを示していることに留意したが、本明細書での目的にはクラスター対クラスターNNLS法が十分であり、はるかに計算集約的ではないことを見出した。
総計で、172クラスターのうちの150(87%)、信頼性の低い標識を含む場合には172クラスターのうちの163(95%)をアノテーションすることができた。一部のクラスターは、同一組織内で同一のアノテーションを受け、したがってマージされ、全組織にわたって124のアノテーションをもたらした。これらのうち、一部のアノテーションは、複数の組織(例えば、4組織内の赤芽球)にわたって存在した。組織にわたって却下することにより、scRNA-seqデータセットで行われたアノテーションに1:1をマッピングする、54(又は信頼度の低い標識及び1:2のマッピングを含む場合には59)の一意の細胞タイプアノテーションを得た。このレベルの分解能ではクロマチンアクセス可能性データで見出されなかったScRNA-seq細胞タイプの多くは、この研究でプロファイリングされた細胞数が少ない(~4M(RNA)対~800K(ATAC)の高精度細胞)ことに起因して、検出可能であるように十分にサンプリングされていない場合がある小型クラスターである。一方、完全にアノテーションされていないままであった9つのscATAC-seqクラスターの大部分は、フィルタリングされていないダブレットが原因と考えられる。これは、UMAP表現において、複数の隣接する細胞タイプのマーカー遺伝子におけるアクセス可能性によって特徴付けられるためである。
系統特異的TFの同定
次に、全15器官にわたって細胞タイプにおけるクロマチンアクセス可能性を統合し、比較しようとした。器官及び/又は細胞タイプ当たりの細胞数の正味差異の影響を軽減するために、器官ごとに細胞タイプ当たり800個の細胞をランダムにサンプリングし(又は、所与の器官で所与の細胞タイプの800個未満の細胞が示された場合、全ての細胞を取得し)、UMAP可視化を実施した。安心させるように、細胞タイプは、バッチ又は個別ではなく、例えば、間質細胞(9器官)、内皮細胞(13器官)、リンパ系細胞(7器官)、及び骨髄細胞(10器官)のように、合わせてクラスタリングされた複数の器官に示した。例えば、多様な血液細胞、分泌細胞、PNSニューロン、CNSニューロンなど、発生及び機能に関連する細胞タイプも共局在化した。
発生生物学における重要な問題は、どの転写因子(TF)が、この多様な細胞タイプを不変ゲノムから産生することに関与するかということである。次に、本発明者らは、クロマチンアクセス可能性のこのヒト細胞アトラスの幅を活用して、差次的にアクセス可能であるTFモチーフを体系的に評価し、したがって、インビボでのヒト発生の文脈での細胞運命の主要調節因子を指名しようとした。
第1のアプローチとして、細胞タイプの関係を最も説明する、各細胞のアクセス可能部位で見出されるTFモチーフを求める線形回帰モデルを使用した。最初に各組織を独立して処置し、アノテーションされた124の細胞タイプクラスターのそれぞれにおいて、JASPARデータベースから最も高度に濃縮されたモチーフ/TFを同定して、既知の調節因子及び潜在的に新規の調節因子の両方を明らかにした。例えば、胎盤では、SPI1/PU1のモチーフ(骨髄系の成長の確立された調節因子)は、骨髄細胞のピークで高度に濃縮されており、TWIST-1のモチーフ(間質前駆細胞の形成に必要)は、間質細胞のピークで濃縮されており、FOS::JUNモチーフは、絨毛外栄養膜(対応するAP1複合体は特異的に活性であると記載されている細胞タイプ)におけるクロマチンアクセス可能性に関連している。
興味深いことに、胎盤内のアノテーションされていないクラスターは、GATA1::TAL1モチーフ(赤血球生成の確立された調節因子)について高度に濃縮されている。これらの細胞は、グローバルUMAP内の他の組織からの赤芽球とクラスタリングし、更なる検査の際に、主要赤血球マーカー遺伝子は、特異的プロモーターアクセス可能性を示した。NNLS誘導ワークフローでは、このクラスターはアノテーションされなかった。これは、scRNA-seq研究において赤芽球クラスターが胎盤で検出されなかったためであり、恐らくは、胎盤が、RNA細胞よりもATACを有する数少ない組織のうちの1つであるためである。したがって、モチーフの濃縮は、細胞タイプの主要調節因子が既知である場合、細胞タイプのアノテーションを支援することができる。
本発明者らは、全ての組織にわたって観察した54の主要細胞タイプについて、すなわち、複数の組織に現れる細胞タイプを却下した後に、この解析を繰り返した。予想どおりに、上位モチーフは、組織特異的解析、並びに文献、例えば骨髄細胞におけるSPI1/PU1、網膜色素及び光受容体細胞におけるCRX、心筋細胞及び骨格筋細胞におけるMEF2B(31)、及び心内膜細胞及び平滑筋細胞におけるSRFと一致したままであった。大部分のモチーフは、1つ又は2つの細胞タイプのみで濃縮されるが、OLIG2、NEUROG1、及びPOU4F1など神経細胞TFモチーフは、複数の神経細胞タイプで濃縮される。別の注目すべき例外は、腎臓及び膵臓の発生に従来の方法で関連するHNF1Bであり、そのモチーフは、特定の上皮細胞及び分泌細胞の範囲にわたる13の細胞タイプで濃縮される。
POU2F1は、特定の発生ブランチとこれまで関連していないTFの例であるが、むしろ、POUファミリー内では例外であり、広く発現し、特定の軌道を制御しないことが示唆されている。対照的に、本発明者らは、少なくともヒト胎児発生において、そのモチーフがいくつかの神経細胞タイプで濃縮されることを見出した。更に支持すると、POU2F1は、それらの同じ細胞タイプで特異的に発現する。
この観察の延長で、次に、コンパニオンscRNA-seqアトラスを活用して、TFが、それらのモチーフの差次的アクセス可能性に一致するパターンで差次的に発現するかどうかをより一般的に確認しようとした。例えば、両データセットにおいて同一組織にアノテーションされた全ての細胞タイプを見渡すと、骨髄先駆因子SPI1/PU1の発現は、アクセス可能部位におけるそのモチーフの濃縮と強く相関している。興味深いことに、この解析はまた、発現とモチーフの濃縮との負の相関を有する多くのTFを明らかにした。精密検査の結果、これらのTFは、抑制因子である傾向にあった。例えば、GFI1Bは、モチーフの結合時にヒストン脱アセチル化酵素を補充し、例えば胎児ヘモグロビン遺伝子座におけるクロマチンの閉鎖を誘導することによって、赤芽球及び巨核球の発生に重要な抑制因子として作用すると説明されている。これと一致して、本発明者らは、その発現が、アクセス可能部位においてそのモチーフの濃縮と負に相関することを観察した。
本発明者らは、GOタームに基づいて「活性化因子」又は「抑制因子」としてTFを分類すると、TF発現及びモチーフアクセス可能性はアノテーションされた活性化因子に正に相関する傾向があり、またアノテーションされた抑制因子に負に相関する傾向があり、モチーフの濃縮と発現との相関を使用して、未分類のTFの作用様式を予測することができることを見出した。例外は、GOタームの欠如又は競合によって大部分が説明され得るが、文献検索を行うと、相関値で予測されるカテゴリーに当てはめられる。したがって、この種の解析は、TFを活性化因子又は抑制因子として分類するための系統的なアプローチを提供し得る。例えば、NFATc3は、一般に活性化因子と説明されているが、本発明者らの解析は、特に、高度に発現していながらも、アクセス可能部位においてモチーフが枯渇しているT細胞の発生において作用の抑制モードを示す。NFATc3の作用のこのような抑制モードは、これまでの文献で示唆されている。一般的な分類とは別に、TFが活性化因子又は抑制因子として可変的に作用し得る細胞タイプの文脈への洞察も得ることができる。例えば、FOXO3などTFは、その未修飾状態で活性化因子として作用するが、リン酸化されると抑制因子として作用することが提示されており、これは、発現とアクセス可能性とのより曖昧な関係を説明し得る。
上記のアプローチは、既知のTFを潜在的に新規の役割と体系的に関連付けることを可能にし、細胞タイプごとに差次的アクセス可能部位を事前選択することに依存しないという利点、また、TFの発現をその対応するモチーフのアクセス可能性と関連付けることができるという更なる利点を有する。しかしながら、既知のTFモチーフのデータベースに依存するという点で制限される。異なるアプローチとして、アクセス可能部位ごとに特異性スコアも計算し、細胞タイプごとに2,000の最も特異的なピークを選択し、CpG一致バックグラウンドゲノム配列と比較して、このセット内の濃縮モチーフを新たに検索した。一般に、個々の細胞タイプの上位の新たなモチーフは、線形回帰によって同定された上位の既知モチーフに一致する。興味深いことに、既知のモチーフに対する強いマッチを有さなかった一部の細胞タイプ(例えば、内皮細胞、間質細胞、シュワン細胞)は、それでもなお、新たなモチーフに強く関連していた。特に内皮細胞については、そのような結果を以下で更に説明する。
血液細胞及び内皮細胞の組織横断分析
このデータセットの性質は、広範に出現する細胞タイプ、例えば、血液細胞及び内皮細胞内のクロマチンアクセス可能性の器官特異的差異を調査する機会を生み出す。血液系の細胞タイプアノテーションの第1のパスでは、骨髄細胞、リンパ細胞、赤芽球、巨核球、及び造血幹細胞を区別することができた。全器官からこれらの血液系統を抽出し、再クラスタリングすることにより、マクロファージ、B細胞、NK/ILC 3細胞、T細胞、及び樹状細胞を追加で同定することが可能になり、この場合もRNA支援アノテーションアプローチを採用する(注目すべきことに、複数の組織から類似の細胞タイプを解析するには、追加のダブレット洗浄工程を必要とする。「方法」を参照)。マクロファージは、以前に観察されたように、組織起源に関連する群、並びに食細胞マクロファージへと更に分類することができる。この後者の群は、主に脾臓において同定され、肝臓及び副腎と続いた。血液系統で特に関心を集めるのは赤芽球であり、これは、胎児発生中の赤血球生成の時空動態に起因する。本発明者らは、肝臓、副腎、心臓、及び胎盤において、この系統を最初に検出し、組織横断解析により、浅くプロファイリングした脾臓(当初は、巨核球及び骨髄細胞のみアノテーションした)において赤芽球を更に同定した。組織の血液系統内での赤芽球比率は、肝臓内で最も高く(この器官はこの発生段階における赤血球生成の主要部位であることに一致する)、続いて脾臓及び副腎であり、RNAデータで観察される傾向を模写する。胎児造血の潜在的部位が副腎という予想外の結果であったことについては、実施例2で更に考察する。
赤芽球について更に調査すると、成人βグロブリン遺伝子及び胎児γグロブリン遺伝子の両方に近位の領域がこの発生段階においてアクセス可能であり、一方では、胚性εグロブリン遺伝子のプロモーターはアクセス不能であることを観察した。赤芽球クラスターは、別個の赤芽球前駆細胞クラスターなど、差次的クロマチンアクセス可能性を有する5つの主要Louvainクラスターに更に細分化することができる。赤芽球前駆細胞クラスター内のアクセス可能部位、並びに隣接する初期赤芽球クラスター(erythroblast_3)は、GATA1:TAL1及び他のGATAモチーフについて濃縮される。赤芽球前駆細胞の様々なGATA因子の発現レベルを比較することにより、このモチーフの濃縮に関与する可能性の高いTFとして、GATA1/2を指名することができる。赤血球生成の後期段階に対応する他の赤芽球クラスターは、NFE2/NFE2L2(erythroblast_1)及びKLF因子(erythroblast_2/4)のモチーフ濃縮を示し、注目するべきは、GATAモチーフアクセス可能性の濃縮の不在が目立つことである。マウス造血系について最近公開されたscRNA-seqに関する研究は、赤血球生成早期にGATA2が誘導され、その後GATA2は減じるものの、GATA1は安定して発現することを報告した。対照的に、選別されたバルクヒトのインビトロ培養赤血球集団の研究により、前駆細胞から分化赤芽球へのGATA1発現の減少(ヒト胎児組織における観察結果に一致)、並びに後期段階の赤芽球でのKLF1レベル及びNFE-2レベルの増加が明らかになった。この結果は、アクセス可能性ランドスケープが、KLF1又はNFE-2など非GATA因子によって形作られる、後成的に明らかに異なる分化赤芽球のサブ集団が存在し得ることを更に示す。例えば、マラリア原虫によって赤血球侵入受容体として使用されるGYPAの上流の遠位調節エレメントは、erythroblast_1において最もアクセス可能であり、NFE-2モチーフに似たモチーフを含有する。
別の興味深い組織横断系は血管内皮である。興味深いことに、血管内皮細胞において排他的に発現していると説明されるTFはなく、内皮特異的トランスクリプトームが、内皮での重複発現を有するいくつかのTFによるコンビナトリアル制御を受けていることを示唆している。これと一致して、JASPARモチーフの解析では、内皮細胞での強力な濃縮を1つも観察できない。一方、2,000個の最も内皮特異的なピークでの新たなモチーフの発見により、ERG及びSOX15に類似したモチーフのバックグラウンドゲノム配列にわたる強力な濃縮が明らかになった。これらのモチーフは、内皮細胞に限定されないため(ERGモチーフは、巨核球においてより濃縮され、SOX15は、いくつかの細胞タイプで濃縮される)、また、これらのTFの発現はこの細胞タイプに限定されないために、本発明者らの線形モデリングアプローチにおいてそれほど強く重み付けされない傾向にあった。このため、ERGは、内皮機能の主要調節因子として既に説明されているが、巨核球への文化転換も促進する。
内皮細胞は全器官に存在し、肺内での気体交換又は腎臓内での流体濾過など、構造的機能及び高度に分化した機能の両方を行う必要がある。本研究では、15の器官のうち13の器官の内皮細胞を検出した(例外は、より浅くプロファイリングした小脳及び眼である)。これらの細胞を器官にわたって抽出し、再クラスタリングすると、あらゆる残留汚染ダブレットを除去する厳密な反復濾過工程(方法)にもかかわらず、組織起源に応じて顕著に分離し、赤芽球系とは対照的であった。これにより、本発明者らはまた、実施例2に記載するように、遺伝子発現の組織特異的プログラムを観察する。実際に、これらの差次的に発現した遺伝子に最も近いアクセス可能性のピークは、ATACデータでマッチする組織においてより高い特異性スコアを有する。更に、ほぼ全ての器官に由来する内皮細胞は、特異的TFモチーフの濃縮を示した。注目すべきは、濃縮モチーフの多くのTFは、RNAデータでマッチする組織で差次的に発現することである。
全体として、これらの知見は、一般的機能及び器官特異の機能の両方を満たす必要のある、広範に分布する細胞タイプである内皮細胞におけるクロマチンアクセス可能性及び遺伝子発現の一般的なプログラムが、ERG及びSOX15など構造的TF、並びに更なる特異化を促進する組織特異的TFの組み合わせによって媒介されることを示す。これらの解析はまた、特定ピークにおける新たなモチーフ濃縮及び組織全体での線形モデルアプローチの両方を組み合わせるメリットを強調して、個々の細胞タイプのクロマチンアクセス可能性ランドスケープの根底にある主要制御因子を指名する。
別の興味深い例は、胎盤のPAEP_MECOM陽性細胞タイプを含み、scRNA-seqアトラス及びsc-ATAC-seqアトラスの両方で同定される。この系統の調節領域は、HNF1Bのモチーフについて強力に濃縮されており、腎臓及び膵臓の発生に従来関連する因子である。例えば、HNF1Bは、胎盤内のPAEP_MECOM細胞系統で極めて特異的に発現する。アクセス不能な部位であっても染色体全体で一部のゲノムリードを捕捉するATAC-seqデータの性質により、X染色体上のY染色体又は常染色体由来のリードに基づいて細胞の雌雄鑑別が可能になる。興味深いことに、本発明者らは、PAEP_MECOM及びIGFBP1_DKK陽性胎盤細胞タイプ、並びにより少ない程度で胎盤骨髄細胞は、雄胎児でY染色体のリード比が有意に低いことを見出した。PAEP(グリコデル)及びIGFBP1について既知であることに一致して、これらの細胞タイプは、それぞれ母体の子宮内膜上皮及び間質細胞に対応する可能性がある。
CICERO
更なる研究のためのリソースとして、本発明者らは、データセットの組織ごとにCiceroコアクセス可能性スコア及びCicero遺伝子活動スコアを生成した。Ciceroコアクセス可能性スコアを使用して、アクセス可能要素間のcis調節相互作用を予測することができる。本発明者らは、正のコアクセス可能性スコアによって対になった要素を組み合わせて、推定cis調節相互作用のデータベースを作製した。このデータベースは、450万(6%)のプロモーター-末端対、7,600万(94%)の末端-末端対、及び128,000(0.2%)のプロモーター-プロモーター対を含む、8,000万個の一意のコアクセス可能対を含む。本発明者らは、組織当たり平均3,300万のコアクセス可能対を見出した。38%の対は、単一組織のみに特有であり、0.007%の対のみが16の組織全てで検出された。より多くの組織で検出される対は、プロモーター-末端及びプロモーター-プロモーターである可能性が高かった。生成したコアクセス可能性スコア及び遺伝子活動スコアは、本発明者らのウェブサイトでダウンロードすることができる。
注目すべきは、2,040個の細胞(17の試料のそれぞれからランダムに抽出された120個の細胞、追加資料を参照)の対照セットと比較して、当初同定された436,206の部位の89%は、これらの85の細胞クラスターのうちの少なくとも1つにおいて1%の偽発見率(FDR)であり、著しく差次的アクセス可能(DA)であった。アクセス可能性が特定のクラスターに制限されたDAサイトを特定するために、scRNA-seq研究で遺伝子発現特異性を定量化するためのメトリックをクロマチンアクセス可能性に適合させて、全85のクラスターによる全436,206の部位について計算した。アクセス可能部位の39%(167,981/436,206)をクラスター限定(すなわち、限定数のクラスターにおけるアクセス可能性の増加)と分類し、これらの55%(92,334/167,981)は、単一クラスターに限定された。
共通ヒト形質及び疾患における細胞タイプの示唆
ゲノムワイド関連解析(GWAS)によって測定される、共通ヒト形質及び疾患の遺伝可能性の大部分は、細胞タイプ特異的であることの多い、末端調節要素に分割される。結果的に研究の大部分は、特定疾患を特定組織の機能不全に体系的に関連付けることを目的として、GWAS信号をバルクDNase過敏症データ(及び他の後成的特徴)と交差させることに費やされる。しかしながら、このような研究の解明度は、細胞タイプの不均質性によって著しく制限される。本発明者らは、マウスとヒトとの間のクロマチンアクセス可能性の保全度を考慮すると、データを使用して、種間の差異に関係なく、複雑なヒト形質の根底にある様々な遺伝子の細胞タイプ特異的効果を更に理解できないかと考えた。したがって、本発明者らのデータがマウス組織で生成されたという事実にもかかわらず、ヒト遺伝可能性の細胞タイプ特異的濃縮を検出するために最先端の方法を適用しようとした。
これを行うために、分割された連鎖不平衡(LD)スコア回帰(LDSC)を使用して、85のクラスターごとにDAピーク内のヒト形質の遺伝可能性の濃縮を定量化した。ヒトSNPをマウスゲノムのオルソロガス座標に移した後、85のクラスターごとに得たDAピークにわたって、32の表現型の遺伝可能性の濃縮を計算した。85のうち55の細胞タイプは、少なくとも1つの表現型の濃縮を有し、32のうち28の表現型は、少なくとも1つの細胞タイプについて濃縮された。大きな傾向として、白血球に対応するクラスター内で、狼瘡、セリアック病、及びクローン病などの自己免疫疾患の遺伝可能性の強い濃縮を観察し、一方、双極性障害、教育達成度、及び統合失調症など神経学的形質については、神経細胞タイプで濃縮が生じた。とりわけ、これらの濃縮の大部分は、バルク組織からのピークで顕著ではなく、単一細胞クロマチンアクセス可能性データによって定義される細胞タイプの値を実証している。多くの濃縮は、期待どおりであった。例えば、低密度リポタンパク質(LDL)コレステロール、高密度リポタンパク質(HDL)コレステロール、及びトリグリセリドの遺伝可能性の最強度の濃縮が肝細胞に存在するが、興味深いことに、LDLコレステロールもヘンレ係締の腎臓上皮で有意であった。同様に、免疫グロブリンA(IgA)欠乏症の遺伝性の最強度の濃縮は、T細胞のクラスター内に存在する。これらの信号はまた、細胞のサブタイプの重要性の更なる理解をもたらすことができる。この傾向の一例として、双極性障害の遺伝可能性の濃縮は複数のニューロンクラスターについて観察されているが、最強度の濃縮は興奮ニューロンを伴う。対照的に、アルツハイマー病の遺伝可能性は、いずれのクラスのニューロンでも濃縮されない。その代わりに、その最強度の濃縮は、小膠細胞のクラスターに見出される。
本発明者らの分析をより大型の形質セットに拡張するために、300,000人を超える個人の2,419の形質についてのGWASの要約統計をUK Biobankからダウンロードした(nealelab.github.io/UKBB_ldsc/)。有効試料サイズ≧5,000、推定遺伝可能性≧0.01である405の形質に着目し、少なくとも1つの細胞タイプの273の形質で遺伝可能性の著しい濃縮を観察したが、85のうち74の細胞タイプは、少なくとも1つの形質に対して濃縮された遺伝可能性を示す。自己免疫形質及び神経学的形質については、上述した傾向と同じ大きな傾向がここで見られるが、UK Biobankによって測定された遙かに多数の形質は、更なる傾向を明らかにする。例えば、身体のサイズ及び組成(例えば、体格指数)の多数の測定値はまた、脳内の細胞タイプに関連する(図18B)。加えて、T細胞の特定サブセット(12.1、12.2)は、他のT細胞クラスターなど他の細胞タイプよりも喘息及びアレルギー性鼻炎との関連性が強い。より精細なレベルでは、心臓発作は、肝臓からの内皮細胞(25.3)に関連するが、他の内皮クラスターからの内皮細胞は関連しない。その一方、痛風は腎臓近位尿細管細胞に関連している。本明細書で実証するフレームワークは、任意のヒト又はマウス組織及び任意の遺伝可能形質から収集された単一細胞クロマチンアクセス可能性データに容易に適用することができる。
新たな設計の1つの結果は、2レベル(「2lv2」、つまり「2レベルバージョン2プロトコル」)及び3レベル(「3lv2」)構成の両方との互換性があることであり、試験設計に更なる柔軟性をもたらす(図9)。
最後に、細胞又は核をホルムアルデヒドで固定する様々な条件を試験して、長期の安定保管を可能にした。本発明者らは、固定に使用する緩衝液、並びに固定前又は固定後の核の単離を選択することは、複雑性と特異性との間での選択を提示することを見出した。現在の研究では、本発明者らは、特異性を犠牲にして複雑性/感度を増加させる固定プロトコルを選択するが、これは、プロトコルのエンドユーザが決定できる。
材料及び方法
細胞培養
Gm12878細胞を培養し、15% FBS(Thermo Fisherカタログ番号SH30071.03)及び1% Pen-strep(Thermo Fisherカタログ番号15140122)を含むRPMI 1640培地(Thermo Fisher Scientificカタログ番号11875-093)に維持した。これらをカウントし、300,000細胞/mLで週に3回分割した。CH12-LXマウス細胞株を、Michael Snyder lab(Stanford)により与えられた。細胞は、10% FBS、1% Pen-strep(ペニシリン及びストレプトマイシン)及び1×10^5M B-MEを含むRPMI1640培地で培養した。これらをカウントし、1×10^5細胞/mLの密度で維持し、細胞濃度を維持するために週に3回分割した。両方の細胞株を、5% CO2、37℃でインキュベートした。
細胞株からの核単離及び固定
懸濁細胞については、~10~100百万個の細胞を得て、500xg、室温で5分間回転させることにより細胞をペレット化する。上清を吸引し、1mLのOmni-ATAC溶解緩衝液(10mM NaCl、3mM MgCl2、10mM Tris-HCl pH7.4、0.1% NP40、0.1% Tween20及び0.01%ジギトニン)にペレットを再懸濁し、氷上で3分間インキュベートする。5mLの10mM NaCl、3mM MgCl2、10mM Tris-HCl pH7.4に0.1% Tween20を添加し、500xg、4℃で5分間ペレット化する。上清を吸引し、5mLの1X DPBS(Thermo Fisherカタログ番号14190144)に核を再懸濁する。核を架橋するために、140uLの37%ホルムアルデヒドをメタノール(VWRカタログ番号MK501602)に1回で添加し、最終濃度は1%であった。固定混合物を室温で10分間インキュベートし、1~2分ごとに反転させる。架橋反応をクエンチするために、250uLの2.5Mグリシンを添加し、室温で5分間インキュベートし、次いで氷上で15分間インキュベートして、架橋を完全に停止させる。20uLのクエンチした架橋混合物を、カウントするために20uLのトリパンブルーに入れる。架橋核を500xg、4℃で5分間回転させ、上清を吸引する。適量の凍結緩衝液(pH8.0の50mM Tris、25%グリセロール、5mM Mg(OAc)2、0.1mM EDTA、5mM DTT(Sigma-Aldrichカタログ番号646563-10X0.5mL)、1×プロテアーゼ阻害剤カクテル(Sigma-Aldrichカタログ番号P8340)に固定核を再懸濁し、1mLのアリコート当たり2百万個の核を得て、液体窒素中で急速凍結し、-80℃で保管する。
組織の調達及び保管
対象となる組織を単離し、1X HBSS(Ca.及びMg.を含む)で洗い流し、次いで半分湿ったガーゼ上で吸収乾燥させた。乾燥した組織を頑丈な箔上に、又はクライオチューブ内に配置し、液体窒素を使用して組織を急速凍結する。凍結した組織を-80℃で保管する。
凍結した胎児組織の核単離及び固定
粉砕日に、ドライアイスと金属との間に布タオルを置いて、予め標識したチューブ及びハンマーをドライアイス上で予め冷却する。18インチ×18インチの頑丈な箔を用いて「詰め物」を作製し、半分に2回折って矩形にする。更に2回折って、正方形にする。箔の「詰め物」の内側に凍結した組織を入れ、次いで、予め冷却した4mmプラスチックバッグの内側に、箔の詰め物に入れた組織を配置して、箔が破裂した場合に組織がドライアイス上に落下しないようにする。この組織パケットを、2枚のドライアイスの間で冷却する。予め冷却したハンマーを使用して、パケットの内側の組織を手動で粉砕する。3~5回の衝撃で粉砕動作を回避し、試料が加熱しないように休憩する。組織が均一になるまで必要に応じてハンマーを冷却し、粉砕を繰り返す。粉砕した組織を、予め標識し、予め冷却した1.5mLのLoBind及びヌクレアーゼフリーのスナップキャップ付き1.5mLチューブ(Eppendorfカタログ番号022431021)に等分する。粉状組織のアリコートは、更に処理するときまで-80℃で保管することができる。
核の単離日に、溶解緩衝液をチューブに直接添加する、又は細胞溶解緩衝液の入った60mmの皿に凍結したアリコートを入れ、刃を用いて更に細分化する。保管中にある時点でアリコートが解凍しない限り、粉状組織のアリコートは、試料損失なしで保管チューブから容易に引き出されるべきである。本発明者らは、当初の組織重量1mg当たり~20,000個の細胞を推定し、性能は組織ごとに異なり得る。粉砕した組織を1mLのOmni溶解(RSB+0.1% Tween+0.1% NP-40及び0.01%ジギトニン)に再懸濁し、次いで15mLのファルコンチューブに移す。氷上で核を3分間インキュベートし、次いで、5mLのRSB+0.1% Tween20を添加する。核を500×g、4℃で5分間遠心分離する。上清を吸引し、5mLの1X DPBSに再懸濁する。1X DPBS中の核を100ミクロンの細胞ストレーナー(VWRカタログ番号10199-658)に通して、組織塊を除去する。ドラフト内で、140uLの37%ホルムアルデヒドをメタノールに1回で添加して1%の最終濃度にし、チューブを数回反転させて素早く混合することによって核を架橋する。1~2分ごとにチューブを静かに反転させながら、室温で正確に10分間インキュベートする。250uLの2.5Mグリシン(新たに作製し、濾過滅菌済み)を添加して、架橋反応をクエンチし、チューブを数回反転させてよく混合する。室温で5分間インキュベートし、次いで氷上で15分間インキュベートして、架橋を完全に停止させる。血球計を使用して核をカウントして添加する凍結緩衝液の最終量を確認する。目的は、~100~200万個の核/チューブを凍結することである。架橋核を500xg、4℃で5分間遠心分離し、上清を吸引し、1xプロテアーゼ阻害剤及び5mM DTTを補充した凍結緩衝液1~10mLにペレットを再懸濁する。液体窒素中で核を急速凍結し、-80℃で核を保管する。
sci ATAC-seq3試料の処理(ライブラリー構築及びqc)
凍結した固定核を-80℃から取り出し、ドライアイスの床に置く。解凍するまで37℃の水浴中で核を解凍し(~30秒~1分)、核を15mLのファルコンチューブに移す。核を500xg、4℃で5分間ペレット化する。ペレットを乱すことなく上清を吸引し、200uLのOmni溶解緩衝液にペレットを再懸濁し、次いで氷上で3分間インキュベートする。0.1% Tween20を含む1mLのATAC-RSBで溶解緩衝液を洗い流し、チューブを3回静かに反転させて混合する。20uLの核及び20uLのトリパンブルーを取って、核をカウントする。カウントしつつ、今後は可能な限り、核を氷上に維持する。384^3dでの3レベルインデクシング実験では、核入力数は、組織ごとのウェル当たり480万個@50,000の核、又は96回の反応にわたって拡散した試料である。核をペレット化し、予め作製したタグ付け反応マスターミックス(Nextera TD緩衝液、1X DPBS、0.1%ジギトニン、0.1% Tween 20、及び水)に再懸濁する。LoBind 96ウェルプレート(Eppendorfカタログ番号30129512)全体で広口チップ(Rainin Instrument Coカタログ番号30389249)を使用して、タグ付けミックス中の47.5uLの核を等分する。ウェル当たり2.5uLのNextera v2酵素(Illumina Incカタログ番号FC-121-1031)を添加し、接着テープでプレートを封止し、500xgで30秒間回転させる。プレートを55℃で30分間インキュベートしてDNAのタグ付けを行う。50uLの停止反応混合物(1mMスペルミジンを含む40mM EDTA)を添加してタグ付け反応を停止させ、次いで37℃で15分間インキュベートした。広口チップを使用して、タグ付き核をプールし、500xg、4℃で5分間ペレット化し、次いで、0.1% Tween20を含むATAC-RSBで洗浄した。核を500xg、4℃で5分間ペレット化し、上清を吸引し、0.1% Tween 20を含む384uLのATAC-RSBに再懸濁する。PNK反応マスターミックス(1X PNK緩衝液(NEBカタログ番号M0201L)、1mM rATP(NEBカタログ番号P0756S)、水、及びT4ポリヌクレオチドキナーゼ(NEBカタログ番号M0201L)を調製し、核に添加する。5uLのPNK反応ミックスを4枚のLoBind 96ウェルプレートに等分し、接着テープで封止し、500xg、4℃で5分間回転させる。PNK反応を37℃で30分間インキュベートした。13.8uLのライゲーションマスターミックス(1X T7リガーゼ緩衝液(NEB、カタログ番号M0318L)、9uM N5_スプリント(IDT)、水、及び2.5uLのT7 DNAリガーゼ酵素(NEBカタログ番号M0318L)をPNK反応に直接添加する。マルチチャネル、つまり96ヘッドディスペンサー(Liquidator、カタログ番号17010335)を使用し、4枚の96ウェルプレートにわたって各ウェルに1.2uLの50uM N5_オリゴ(IDT)を添加する。接着テープを用いて封止し、500xgで30秒間回転させ、次いで25℃で1時間インキュベートする。初回のライゲーション後、1mMスペルミジンを含む20uLの40mM EDTAを添加してライゲーション反応を停止させ、37℃で15分間インキュベートする。広口チップを使用して、各ウェルをトラフにプールし、50mLのファルコンチューブに移す。核を500xg、4℃で5分間ペレット化し、上清を吸引し、0.1% Tween 20を含む1mLのATAC-RSBに核を再懸濁して、残留ライゲーション反応ミックスを全て洗浄する。核を500xg、4℃で5分間ペレット化し、ペレットを乱すことなく上清を吸引する。N7ライゲーションマスターミックス(1X T7リガーゼ緩衝液、9uM N7_スプリント(IDT)、水、及びT7 DNAリガーゼ)を調製し、ライゲーションマスターミックスで核を再懸濁する。マスターミックスに懸濁した核をトラフに移し、広口チップを使用して、18.8uLのライゲーションマスターミックスを4枚の96ウェルLoBindプレートに等分し、次いで、1.2uLの50uM N7_オリゴ(IDT)を、4枚の96ウェルプレートにわたって各ウェルに添加する。接着テープでプレートを封止し、500xgで30秒間回転させ、次いで25℃で1時間インキュベートし、次いで20uLの40mM EDTA及びImMスペルミジンを添加してライゲーションを停止させ、37℃で15分間インキュベートする。広口チップを使用してトラフにウェルをプールし、次いで50mLのファルコンチューブに移す。核を500xg、4℃で5分間ペレット化し、上清を吸引し、2mLのQiagen EB緩衝液(Qiagenカタログ番号19086)に核を再懸濁する。20uLの再懸濁した核及び20uLのトリパンブルーを得て、核をカウントする。100~300個の核/uLに核を希釈し、10uL/ウェルを4枚の96ウェルLoBindプレートに等分する。核を逆架橋するために、EB緩衝液、プロテイナーゼk(Qiagen、カタログ番号19133)及び1% SDS、それぞれ1uL/0.5uL/0.5uL/ウェル)の逆架橋マスターミックスを作製し、2uLを各ウェルの核に添加する。接着テープで封止し、500xgで30秒間回転させ、65℃で16時間インキュベートする。試験PCR増幅を実行し、プレートのいくつかのウェルでSYBRグリーンとの反応をモニタリングして、最適なサイクル数を決定した。試験PCR結果に基づいて、ウェル当たり7.5uLのNPM、0.5uLのBSA(NEB、カタログ番号B9000S)、1.25uLのインデックス付きP5_10 uM(IDT)、1.25のインデックス付きP7_10 uM(IDT)、及び水で、逆架橋プレートの残りを増幅した。2回のライゲーション後の組織及び核回収に応じて、本発明者らには11~13サイクルが典型的である。サイクル条件は、72℃で3分間、98℃で30秒間、「98℃で10秒間、63℃で30秒間、72℃で1分間」を11~13サイクル、及び10℃で保持であった。96ウェルプレートからの増幅産物をトラフにプールし、製造元の仕様書に従ってZymo Clean&Concentrate-5(Zymo Researchカタログ番号D4014)を使用して精製し、4カラムに分割した。各カラムを25uLのEB緩衝液に溶出させ、次いで、1つのチューブに合わせる。100uLのAMPureビーズ(Agencourt、カタログ番号A63882)を精製したPCR産物に添加して、全ての残留プライマー二量体を更に除去し、製造業者の精製プロセスに従う。25uLのQiagen EB緩衝液中のビーズから最終ライブラリーを溶出する。D5000 ScreenTape(Agilentカタログ番号5067-5588 ScreenTape、5067-5589試薬)、及び200~1000の塩基対ウィンドウを確立して、シークエンシング中にウェルをクラスタリングする断片のnM濃度を測定するAgilent 4200 Tapestation Systemを用いて、最終ライブラリーを定量化する。等モルプーリングから2nMプールを作製し、カスタムレシピ及びプライマーのNextSeq高出力150サイクルキット(Illuminaカタログ番号20024904)を用いて1.8pMのローディング濃度でシークエンシングした。
方法開発のためのデータ処理
sci-ATAC-seq3を開発するために実施した鶏実験のデータ処理は、前述のように行った。簡潔に述べると、bcl2fastq v2.16(Illumina)を用いて、BCLファイルをfastqファイルに変換した。各リードは、4つの構成要素からなる細胞バーコードに関連付けられており、分子のP5末端には、タグ付け用及びPCR用に付加された行アドレスがあり、分子のP7末端には、タグ付け用及びPCR用に付加された列アドレスが存在した。これらのバーコードのエラーを修正するために、本発明者らは、これらの4つの構成部分に分割し、修正が所要の編集距離において一義的である限り、編集距離2以内で最も近いバーコードに修正した。4つのバーコードのうちのいずれも既知のバーコードに修正できなかった場合、対応するリード対をドロップした。次いで、オプション「ILLUMINACLIP:{adapters_path}:2:30:10:1:true TRAILING:3 SLIDINGWINDOW:4:10 MINLEN:20」を使用して、Trimmomaticでリードを調節した。次いで、調節したリードを、オプション「-X 2000-3 1」でbowtie2を使用して、ハイブリッドヒト/マウス(hg19/mm9)遺伝子にマッピングした。続いて、少なくとも10の精度を有するゲノムに適切な対でマッピングされなかったリードを、オプション「-f3-F12-q10」を使用してsamtoolsでフィルタリングして除去し、常染色体又は性染色体にマッピングしたリードのみを、下流解析のために保持した。カスタムスクリプトを使用して、細胞バーコードごとにリードの重複排除を行った。組織のパイプライン(以下で論じる)とは異なり、リード対は重複して維持されないことに留意されたい。
組織試料のためのデータ処理
組織試料からのシークエンシングデータを処理するための方法は、忠実に使用される方法に忠実に従い、より大規模のデータセットに拡大するために多くの最適化を有するが、便宜上、本明細書では説明を含む。bcl2fastq v2.20(Illumina)を用いて、BCLファイルをfastqファイルに変換した。リード名に含まれた修正バーコードを有するリードを、本発明者らのデータセット内の試料ごとに、別個のR1/R2ファイルに書き込んだ。既知のバーコードセットへの全てのミスマッチのマッピングを予め計算し(バーコードの長さが短く、比較的少数であるために実行可能)、pypy(この特定タスクついて極めて高速であるcpythonインタープリターの代替)を使用して修正スクリプトを実行し、この計算をシークエンシングランの異なるレーンにわたって並列化した。これにより、以前の方法を著しく上回るランタイムへと総合的に改善した。
次に、オプション「ILLUMINACLIP:{adapters_path}TRAILING:3 SLIDINGWINDOW:4:10 MINLEN:20」を使用してTrimmomaticで、3’末端からの低精度の塩基/アダプター配列を調節し、次いで、オプション「-X 2000 3 1」でbowtie2を使用して、調節したリードをhg19参照ゲノムにマッピングし、次いで、少なくとも10のマッピング精度を有する常染色体又は性染色体に一意にマッピングしなかったリード対を、Samtools--samtools view-L{whitelist of chromosomes}-f3-F12-q10-bSを使用してフィルタリングして除去した。得られたBAMファイルをソートし、sambabambaを使用して各試料の整列したリードをマージし、得られたBAMファイルにインデックス付けした。このプロセスは、可能な限り試料/レーンにわたって並列化したが、trimmomatic/bowtie2/sambabambaを提供することにより、プロセスごとにスレッドを増加させてランタイムを改善するであろう。
続いて、各細胞内の断片エンドポイントの固有セットを同定することによって、細胞内でのPCRの重複を同定した。本発明者らの以前の研究では、得られた重複BAMファイルは、重複BAMファイルに書き出されたリード対間で正しいリード名を常に維持しているわけではなく(固有断片ごとに、R1及びR2の代表的なリードを独立してランダムに選択する)、SnapATAC(github.com/r3fang/SnapATAC)など一部のツールとの適合性の問題の原因であった。本発明者らはこの問題を修正し、また、1)細胞ごとの断片エンドポイントのBEDファイル、及び2)scATACソリューション用に10x Genomicsによって提供されるfragments.tsv.gzファイルを厳密にミラーリングするファイルの書き込みを行った。
各試料内で、MACS2--macs2 callpeak-t{bed}-f BED-g hs--nomodel--shift-100--extsize 200--keep-dup all--call-summits-n{sample_name}-o{output_dir}による各試料のピークの呼び出しに、細胞ごとの固有断片エンドポイントのBEDファイルを使用した。得られた{outdir}/{sample_name}_peaks.narrowPeakファイルをソートし、BEDファイルとして出力した。下流解析に含まれる全試料からのピーク呼び出し(付加的に本発明者らの標準を除外)をbedtoolを使用してマージして、ピークのマスターセットを形成した。以前に説明したように、本明細書でのピーク呼び出しにBEDファイルを使用することは意図的であり、BAM入力に対するmacs2の挙動を考慮しないことに留意した。BAMファイルを入力とすると、MACS2は、R1/R2を独立して使用するリード対のうちの1つを廃棄する(入力データを事実上ダウンサンプリングする)か、又は、BAMファイルが末端対であることを明示的に指定した場合には、カバレッジ計算時にインサート全体を使用する(本発明者らは、インサート全体に沿ってではなく、エンドポイントのみカバレッジを計算することを望む)かのいずれかである。BEDファイルを使用することにより、全データを使用し、分子エンドポイントの周囲のウィンドウのみを使用して、カバレッジを計算することができる。
更に、試料ごとに、1)ピークのマスターセットに入るリード、2)2kb上流によって伸長された遺伝子体及び5kbのゲノムウィンドウに入るリードをカウントするスパース行列を作製した。また更に、アノテーションされたTSS(各TSSの周囲+/-1kb)からの各細胞の総リード数、ENCODEブラックリスト領域、QC目的でマージされたピークセットを一覧にした。
また、10xゲノミクスscATACパイプラインで用いられる方法を使用して、モチーフマトリックスによるピークを構築した(support.10xgenomics.com/single-cell-atac/software/pipelines/latest/algorithms/overviewを参照)。簡潔に述べると、10xからの方法は、ピーク及びビンピークのGC%分布をGC含量の等分位範囲に計算して、モチーフの発生を各ビン内で別個に発見することができる。MOODSパッケージを使用して、1E-7のp値閾値でのJASPARモチーフデータベース内のモチーフについてのモチーフの発生及びGCバイアスを緩和するためのそれぞれのGCビンにマッチしたバックグラウンドヌクレオチド組成物を同定する。これらのヒットは、下流解析での細胞数によってモチーフのマトリックスを計算するために使用され得るピークマトリックスによってモチーフを構築するために使用する。このマトリックスは、モチーフの1つのインスタンスのみがピークごとにカウントされ得るように、2値化される。
細胞バーコードを、10xゲノミクスscATACパイプライン(上記のリンクを参照)で用いられる方法の修正版を使用して、バックグラウンドバーコードの分布から分離した。簡潔に述べると、2つの負の2項(ノイズ対信号)混合物にフィットさせる。10xによって使用される方法の代わりに、これらの2つの分布間に初期閾値を確立するために、対数スケールされた総断片数分布にk平均法を適用し、より低い平均総計数を初期閾値として有するクラスターの最大値を得る。この初期閾値は、最尤推定値を使用して、2つの分布の開始パラメータを決定するために使用し、期待値最大化アプローチによって更に改良する。10xに記載されるように、このフィットは、カウント分布に左シフトを適用することによって改善し得る。10x法とは異なり、2~12のいくつかのシフトを試みることによってこのシフトを決定し、最良のフィットを有する混合分配モデルを得た。最後に、10xアプローチとは対照的に、呼び出されたピーク内でのカウントの分布ではなく、総断片数の分布にこの方法を適用する。選択した最終閾値は、どちらも20以上の(信号の利益になる)オッズ比をもたらす最小数であり、信号分布のCDFから推定されるように信号分布の少なくとも0.5%を除去する(本発明者らは、この第2の基準が、さもなければ過度に曖昧であるように見える閾値とのフィットを妨げることを見出した)。
細胞レベルのQC、次元の低減、及びクラスタリング
上記のように、ピーク及びENCODEブラックリスト領域でTSSの周囲(+/1kb)に入る固有リードの総数を細胞ごとに表にした。これらの総数を使用して、試料ごとに、これらの分布の目視検査によりピークにおける固有リードの割合及びTSSに入る固有リードの割合の試料特異的カットオフ、並びにENCODEブラックリスト領域から得た固有リードの0.5%のグローバルカットオフを選択する。データセット内の他の試料よりも著しく低かった自動閾値を有する少数の試料のために、細胞当たり1000個の固有リード(又は細胞当たり500個の固有断片)のグローバル閾値を適用して、対応する試料の自動閾値を上昇させた。以前開発したヌクレオソームバンディングスコアを調べたが、マウスの精巣について以前観察したように、外れ値の明確な分布を観察しなかったため、QCではこれらのスコアを使用しなかった。下流工程の前に、ENCODEブラックリスト領域に重複するか、又は性染色体に該当するピークを除去した(後者は、異なる性別の試料間での潜在的なバッチ効果の導入を回避するため)。また、ピーク分布当たりの対数スケールカウントの平均から2標準偏差を超えるピークを除外して、解析対象組織内でのカウントが非常に低いピークを除去した。
全ての下流工程は、所与の組織の全試料から通過する細胞をプールすることによって、一度に1つの組織を実施した。
フィルタリング後、ダブレットである可能性が最も高い細胞を除去する目的で、Scrubletアルゴリズムの修正版を用いた。簡潔に述べると、細胞マトリックスによるピークを使用して、データセットからランダムに選択した細胞の合計としてダブレットをシミュレートする。次に、元の細胞のマトリックス及びシミュレートしたダブレットを使用して、以下に記載するようにLSIを実行する。この工程では、ScrubletがscRNA-seqデータの元のデータセットからの倍率を適用する方法に類似して、シミュレートしたダブレットを用いずに元のデータセットから得た逆文書頻度(IDF)タームを使用することに留意されたい。得られた50次元空間で各細胞の最近傍を見出し、近傍にある疑似ダブレットの割合をダブレットスコアとして計算する。最高ダブレットスコアを有する、各試料内の細胞の上位10%を除外する。
次元の低減については、最初に、これまでに記載した潜在意味インデクシング(LSI;言い換えると、潜在未解析、つまりLSA)を実施しても、本研究で収集したデータでは良好に機能しないことを見出した。これは疎性に起因している可能性があると判断し、CisTopic及びSnapATACなどいくつかの代替的方法を調べた。これらの方法のそれぞれは、当初は、LSIよりも良好に機能すると思われた。当初は、これらの方法の根本的な類似性及びデータの性質を考慮しても、このような状態の理由は不明であった。本発明者らは、これまで行われていなかった、LSIでのターム頻度タームの単純な対数スケーリングが、試験した他のツールと非常に類似した性能をもたらすことを発見した。これは、細胞当たりの総カウントの指数分布及び対数スケーリングを行わない、LSIのPCA工程に対する強い外れ値の影響に起因する可能性がある。これについては、andrewjohnhill.com/blog/2019/05/06/dimensionality-reduction-for-scatac-data/に詳述されている。対数スケーリングの使用の有無に観察した差は、特に、細胞当たりの総カウントの範囲が大きい疎性データセットで特に大きいことに留意されたい。また、本発明者らの独立した発見を確認したため、他のグループが、LSIをscATACの次元を低減するための全ての他の既存の方法と好意的に比較していることに留意されたい。また、ゲノムのピーク又は5kbウィンドウを使用したときに非常に類似した性能を観察したため、以前の研究で主に行っていたようにピークを使用すること選択した。
要約すると、ある時点で、各組織の全ての通過細胞からの細胞マトリックスによって、一度に1つの組織について2値化ウィンドウでLSIを実行した。最初に、個々の細胞の全部位を対数(細胞内のアクセス可能ピークの総数)(対数スケールされた「ターム頻度」)で加重した。次いで、これらの荷重値に対数(1+全細胞の各部位の逆頻度)、つまり「逆文書頻度」を乗じた。次いで、TF-IDFマトリックスで特異値分解を使用して、第2~50の次元を保持するだけで(第1の次元がリード深さと高度に相関する傾向があるため)データのより低い次元表現(PCA)を生成した。次いで、細胞当たりの固有断片の数の差を更に考慮するために、PCAマトリックスでL2正規化を実施した。このL2正規化したPCAマトリックスを全ての下流工程に使用した。
試料間の著しいバッチ効果の証拠を観察しなかったが、異なる試料間のバッチ効果を補正するためにPCA空間にHarmonaryバッチ補正アルゴリズムを適用した。Harmonyを選択するのは、主として、大規模データセットに容易に拡張でき、既存のPCA座標を使用可能であるという事実のためである。
この補正されたL2正規化PCA空間は、Seurat V3で実施されるように、Louvainクラスタリング及びUMAPへの入力として使用した。
特異性スコア
特異性スコアを計算する前に、ENCODEブラックリスト領域と重複する全てのピークを、フィルタリングして除去した。前述のように部位/細胞タイプ対ごとに特異性スコアを計算した。
モチーフの濃縮
モチーフの濃縮を計算する前に、ENCODEブラックリスト領域と重複する全てのピークを、フィルタリングして除去した。最初に、対応するピーク×細胞マトリックス(上述したように、対象データのサブセット内の全細胞にわたって合計)にピーク×モチーフマトリックスを乗じることによって、モチーフ×細胞のマトリックスを得る。アノテーション(例えば、細胞タイプ)当たり最大800個の細胞が含まれるようにデータセットをダウンサンプリングして計算コストを低減し、下流工程での濃縮の計算時に非常に多数の細胞タイプの過剰出現を低減することに留意されたい。次いで、アノテーションごとに、speedglmパッケージを使用して負の2項回帰を実施し、2つの入力変数、つまりアノテーションのインジケータ列を対象となる主変数として、また細胞ごとの対数(入力ピークマトリックス内の非ゼロエントリの総数)を共変数として使用して、総モチーフカウントを予測する。アノテーションインジケータ列の係数及び切片を使用して、他の全てのアノテーションからの細胞に対する、対象となるアノテーションのモチーフカウントの倍率変化、すなわちexp(intercept+annotation_efficient)/exp(intercept)を推定する。全群で全モチーフについてこの試験を行い、次いで、Benjamini Hochberg手順を用いてp値を補正する。
実施例2
発生の遺伝子発現のヒト細胞アトラス
要約
ヒト発生中の細胞タイプの出現及び分化は、根本的に興味深い。3レベルのコンビナトリアルインデクシング(sci-RNA-seq3)に基づいた遺伝子発現の単一細胞プロファイリング用アッセイを、15の器官を表す121の胎児組織に適用し、全体で4~5百万個の単一細胞で転写をプロファイリングした。これらのデータから、マーカー遺伝子、発現、及び調節モジュールに関して、細胞タイプを特定し、アノテーションする。これらのデータの当初の解析では、複数の器官系、例えば、上皮細胞、内皮細胞、及び血液細胞に及ぶ細胞タイプに着目する。興味深い観察としては、器官特異的内皮の特殊化、胎児赤血球の潜在的な新規部位、及び潜在的な新規細胞タイプが挙げられる。発生中のクロマチンアクセス可能性の付随するヒト細胞アトラスと合わせて、これらのデータは、ヒト生物学を探査するための豊富なリソースである。
本文
いくつかの理由から、発生中に得た組織を使用して遺伝子発現及びクロマチンアクセス可能性の両方のヒト細胞アトラスを生成することに着手した。まず、大部分が発生構成要素を含む、遺伝性疾患は、小児罹患率及び死亡率の極めて不均衡な割合を占める。これらとしては、遺伝因子及び非遺伝因子の両方が相当に寄与する、数千のメンデル障害、並びにより一般的な疾患(例えば、先天性心不全、他の出生異常、神経発生障害など)が挙げられる。組織の発生から生成された参照細胞アトラスは、これらの小児疾患のそれぞれを増加させる特定の分子及び細胞イベントを理解しようとする組織的な取り組みの基盤としての役割を果たすことができる。
第2に、発生中の組織は、成人組織よりもヒト細胞タイプのインビボ出現及び分化を研究するために、極めてより良好な機会をもたらす。胚性組織及び胎児組織と比較して、成人組織は分化した細胞に占められ、また、多くの細胞状態を単純に表さない。インビボ発生軌道のより良好な分解能により、発生組織から生成された単一細胞アトラスは、インビボヒト生物学の基本的な理解、並びに細胞再プログラミング及び細胞療法に対する本発明者らの基本的な理解を広く知らせることができる。
第3に、多くの成人ヒト器官については、先駆的な細胞アトラスが既に報告されてきたが、これらの研究の独立した性質は、異なる組織に出現する細胞タイプ、例えば、上皮細胞、内皮細胞、及び血液細胞間の差異の調査を困難にする。具体的には、既存のデータに基づいた比較は、器官特異的細胞アトラスを生成する群間での試料処理及び技術プラットフォームの差異により困難である。
遺伝子発現のヒト細胞アトラスに向けて、3レベルのコンビナトリアルインデクシング(sci RNA-seq3)に基づいて、単一細胞RNA-seq用に最近開発したアッセイを15の器官を表す121の胎児組織に適用し、全体で5百万個の細胞における遺伝子発現をプロファイリングした(図11)。実施例1では、同一器官からの160万個の細胞におけるクロマチンアクセス可能性のプロファイリングを、重複する試料セットに基づいて説明する。プロファイリングした器官は、多様な系に及び、最も不在が目立つのは、骨髄、骨、性腺、及び皮膚である。
72~129日の推定妊娠年齢の範囲の28の胎児から試料を得た。簡潔に言えば、これらを急速凍結し、粉砕し、得られた粉末を異なるアッセイ用に分割した。sci RNA-seq3では、核を低温の、溶解した粉末から直接抽出し、次いでパラホルムアルデヒドで固定した。RNases及びプロテアーゼが豊富である腎及び消化器官では、核ではなくパラホルムアルデヒドで固定した細胞を使用し、細胞及びmRNAの回収を増加させた。実験ごとに、所与の組織からの核又は細胞を異なるウェルに堆積させ、それにより、sci-RNA-seq3プロトコルの第1のインデックスは、供給源も同定した。核での実験のバッチ制御として、ヒトHEK293TとマウスNIH/3T3核との混合物、又は一般的な「センチネル」組織からの核(sci-ATAC-seq3実験にも使用される)を1つ又は複数のウェルに入れた。細胞での実験のバッチ対照として、一般的な膵臓組織(核もまたプロファイリングされた)に由来する細胞を1つ又は複数のウェルに入れた。
7回のIllumina NovaSeqの実行にわたる7回の実験からのsci-RNA-seq3ライブラリーをシークエンシングし、全部で686億のリードを生成した。前述のようにデータを処理し、4,979,593個の単一細胞遺伝子発現プロファイル(UMI>250)を回収した。ヒト-マウス対照ウェルからの単一細胞トランスクリプトームは、圧倒的に種コヒーレント(~5%の衝突)であった。センチネル組織からの核又は細胞のUniform Manifold Approximation and Projection(UMAP)は、細胞タイプの差が任意の実験間のバッチ効果を圧倒することを示した。Seuratを使用した、一般的な膵臓組織に対応する核及び細胞の統合分析はまた、高度に重複する分配をもたらした。
本発明者らは、器官当たり72,241個の細胞又は核の中央値(最大2,005,512(大脳)、最小12,611分(胸腺))をプロファイリングした。他の大規模な単一細胞RNA-seqアトラスと比較して、比較的浅いシークエンシング(細胞当たり~14,000の生リード)にもかかわらず、細胞又は核当たり同等数のUMI(中央値863UMI及び525の遺伝子)を回収した。予想どおり、核は、細胞よりもイントロンへのUMISマッピングの割合が高いことを示した(核の場合は56%、細胞の場合は45%、p<2.2e-16、両面ウィルコクソンの順位和検定)。特に明記しない限り、細胞及び核の両方を指すために「細胞」を使用する。
組織は、性別特異的遺伝子の発現によって、雄(n=14)又は雌(n=14)に由来するものとして容易に同定された。15器官のそれぞれは、それぞれの性別のうちの少なくとも2つ、及び妊娠期間の範囲など複数の試料(中央値8)によって表された。個々又は実験ではなく器官によってクラスタリングされた各組織の「疑似バルク」トランスクリプトームのUMAP可視化。発現したタンパク質コード転写産物の約半分が、このセットの擬似バルクトランスクリプトームにわたって差次的に発現した(20,033のうちの11,766、FDR5%)。
Scrubletを適用して、クラスター内及びクラスター間ダブレットの両方を含む12.6%のダブレット推定値に対応する、6.4%の推定ダブレット細胞を検出した。次いで、2百万のマウス器官形成細胞アトラス(MOCA)のために以前に開発した戦略を適用して、低精度細胞、タブレット濃縮クラスター、並びにスパイクインHEK293T細胞及びNIH/3T3細胞を除去した。以下に記載の全ての解析は、このフィルタリング工程後に残った112の胎児組織に由来する4,062,980のヒト単一細胞遺伝子発現プロファイルに基づいている。
77の主要細胞タイプの同定
低精度細胞及びダブレット濃縮クラスターに対するフィルタリング後、400万の単一細胞遺伝子発現プロファイルを、UMAP可視化及び器官ベースでのMonocle 3によるLouvainクラスタリングに供した。全体では、文献からの細胞タイプ特異的マーカーに基づいて、172の細胞タイプを最初に同定し、アノテーションした。組織に共通するアノテーションを却下すると、77の主要細胞タイプに減少し、そのうち54は、単一器官(例えば、小脳のプルキンエニューロン)のみで観察され、23は、複数の器官(例えば、各器官の血管内皮細胞)で観察された。これらの77の主要細胞タイプは、4,829という細胞の中央値を含み、1,258,818個の細胞(大脳の内興奮ニューロン)からわずか68個の細胞(副腎のSLC26A4_PAEP陽性細胞)の範囲であった。各主細胞タイプは、複数の個体(中央値9)に寄与した。本発明者らは、種、発生段階、及び技術に関する違いにもかかわらず、同一器官を対象とするこれまでのアトラス作製の取り組みによって特定されたほぼ全ての主要細胞タイプを回収した。器官ごとに12の主要細胞タイプの中央値を特定し、これは5(胸腺)~16(眼、心臓及び胃)の範囲であった。プロファイリングした細胞の数と同定した細胞タイプの数との相関は観察しなかった(ρ=-0.10、p=0.74)。
平均して、主要細胞タイプ当たり11個のマーカー遺伝子を同定した(最小0、最大294;発現に関して第1位の細胞タイプと第2位の細胞タイプとの間に少なくとも5倍の差異がある場合、差次的発現遺伝子と定義する;FDR5%)。他の器官(例えば、ENSグリア及びシュワン細胞)の類似の細胞タイプに起因して、この閾値のマーカー遺伝子のない細胞タイプがいくつか存在した。そのため、同じ手順であるが、器官ごとに決定した「組織内マーカー遺伝子」のセットも報告した(細胞タイプ当たり平均147のマーカー;最小12、最大778。
カノニカルマーカーは一般的に観察され、このアノテーションプロセスで実際に重要であったが、知る限りでは、観察したマーカーの大部分は新規である。例えば、OLR1、SIGLEC10、及び非コードRNA RP11-480C22.1は、CLEC7A、TLR7、及びCCL3などより確立された小膠細胞マーカーと共に、小膠細胞の最も強いマーカーのうちの1つである。これらの組織が積極的に成長していることを前提とする予測として、77の主要細胞タイプの多くは、前駆体から1つ又は複数の末端分化細胞タイプに進行する状態を含む。例えば、脳興奮ニューロンは、PAX6+神経前駆体からNEUROD6+分化ニューロン、更にSLC17A7+成熟ニューロンへの連続軌跡を示す。肝臓では、肝前駆体(DLK1+、KRT8+、KRT18+)は、機能肝芽細胞(SLC22A25+、ACSS2+、ASS1+)への連続軌跡を示す。転写プログラムの成熟が発生時間に緊密に連結しているマウスの器官形成とは対照的に、細胞状態軌道は、これらのヒトデータでの推定妊娠期間と一貫して相関した。最も単純な説明は、遺伝子発現が、発生の初期段階中に著しくより動的である(すなわち、器官形成vs.胎児発生)ことである。しかしながら、推定妊娠期間における不均一な表現及び不正確さが、本発明者らの解明を混乱させることもあり得る。
これらの細胞タイプの手作業でのアノテーションに加えて、Garnettを使用して、各器官の半自動分類子、並びにグローバル分類子を作製した。Garnett分類子は、文献から個別にコンパイルされたマーカー遺伝子を使用して、クラスタリングに依存せずに生成した。Garnettによる分類は、手動分類と極めて一致しており、例えば、細胞の88%は膵臓において一致していた(クラスター拡張;非一致5%;未分類7%)。このヒト細胞アトラスで訓練されたGarnettモデルを使用して、異なる方法からのデータ及び成人器官からのデータなど、他の単一細胞データセットから細胞タイプを正確に分類することも可能であった。例えば、本発明者らは、膵臓のGarnett分類子をinDrop単一細胞RNA-seqデータに適用し、このモデルが細胞の82%を正確にアノテーションしたことを見出した(クラスター拡張;不正確11%、未分類8%)。これらのGarnettモデルは本発明者らのウェブサイトに投稿されており、多様な器官からの単一細胞データの自動分類に広く使用することができる。
組織にわたっての統合及び予想外の細胞タイプの調査
次に、全15器官にわたってデータを統合し、細胞タイプを比較しようとした。器官及び/又は細胞タイプ当たりのサンプリングされた細胞数の正味差異の影響を軽減するために、器官ごとに細胞タイプ当たり5,000個の細胞をランダムにサンプリングし(又は、所与の器官で所与の細胞タイプの5,000個未満の細胞が示された場合、全ての細胞を取得し)、各器官内で細胞タイプにわたって最も差次的に発言した遺伝子に基づいてUMAP可視化を実施した。予想どおりに、例えば、間質細胞、リンパ内皮細胞、及び中胚葉細胞など複数の器官で示される細胞タイプは、一般に合わせてクラスタリングされた。例えば、多様な血液細胞、PNSニューロン、間葉など発生に関係する細胞タイプも、一般に共局在化された。
このグローバルUMAPを活用して、当初観察しなかった器官で明確なアノテーションが不能であった、又は予想しなかった細胞タイプを明らかにした。多くの場合、グローバルUMAPでアノテーションした細胞タイプとの共局在化は、その同一性を明らかにした。例えば、胎盤からの栄養芽層巨大細胞と高度に相関する(例えば、高レベルの胎盤性ラクトゲン、絨毛性ゴナドトロピン、及びアロマターゼを発現する)肺及び副腎内の細胞を観測すると、これらは、胎児循環に入った栄養芽細胞(CSH1_CSH2陽性細胞)であることを示唆している。より驚くべきことに、肝芽細胞と高度に相関する(例えば、高レベルの血清アルブミン、αフェトタンパク質、及びアポリポタンパク質を発現する)胎盤及び脾臓の細胞(AFP_ALB_陽性細胞)を観察する。
心臓では、以前のアトラス作製の取り組みに基づいて予想されなかった3つの細胞タイプを観察した。これらのうちの第1(SATB2_LRRC7陽性ニューロン)はCNS興奮ニューロンと強く相関し、SATB2、PTPRD、及びDAB1を含むマーカーを発現する。知る限りでは、これは予想外の観察である。別の組織からの汚染を完全に除外することはできないが、サンプリングした各心臓(n=9)に一貫した割合(範囲)でこれらの細胞を観察し、更に、心臓内で他のCNS様細胞タイプは観察しない。他の2つは心筋細胞と高度に相関しているが、特殊な役割を反映し得る別個のプログラムを発現する。具体的には、ELF3_AGBL2陽性心筋細胞様細胞は、肺分泌タンパク質1(SCGB3A2)、肺界面活性剤関連タンパク質B(SFTPB)、及び肺界面活性剤関連タンパク質C(SFTPC)など肺胞界面活性剤分泌細胞に関連する多くの遺伝子を特異的に発現し、CLC_IL5RA陽性心筋細胞様細胞は、インターロイキン5受容体サブユニットα(IL5RA)及び造血特異的膜貫通タンパク質4(MS4A3)など免疫細胞関連受容体を特異的に発現する。
細胞タイプ特異的遺伝子調節ネットワーク及び経路の特性評価。
次に、細胞と細胞又は細胞と環境の相互作用を調節するために重要な表面及び分泌タンパク質コード遺伝子の細胞タイプ特異的発現を調べた。大部分の表面タンパク質(5,480のうち4,565)及び大部分の分泌パク質(2,933のうち2,491)は、77の主要細胞タイプにわたって差次的に発現した(FDR0.05)。例えば、小膠細胞は、どちらもアルツハイマー病に関連する、シアル酸結合免疫グロブリン様レクチン8(SIGLEC8)及び酸化LDLエンドサイトーシス受容体(OLR1)を特異的に発現し、内皮細胞は、いずれも血管新生及び血管パターニングに関与する、roundabout誘導受容体4(ROBO4)及び内皮細胞接着分子(ESAM)を発現する。同様に、異なるニューロンは、別個の細胞表面輸送体によって標識された。例えば、小脳において、抑制介在ニューロンでのグリシン神経伝達物質輸送体SLC6A5、プルキンエニューロンでの興奮性アミノ酸輸送体SLC1A6、顆粒ニューロンでのカリウムチャネルKCNK9、及びSLC24A4_PEX5L陽性抑制介在ニューロンでのナトリウム/カリウム/カルシウム交換体SLC24A4の特異的発現を観察する。分泌タンパク質の細胞タイプ特異的発現には、同様の無数の例が存在する。特に興味深い例は、間葉前駆体又は幹細胞に全て関連する、糖タンパク質STC2、並びにTF TLX1及びNKX2-3を特異的に発現する、脾臓の予想外の細胞タイプ(STC2_TLX1陽性細胞)である。
非コードRNAは、正常な発生及び疾患において重要な役割を果たすことが実証されている。これらのデータでは、10,695のうち3,130の非コードRNAが、77の主要細胞タイプにわたって差次的に発現した(FDR0.05)。例えば、ncRNAsは、小膠細胞(RP11-489O18.1、RP11-480C22.1、RP11-10H3.1)又は内皮細胞(AC011526.1、RP11-554D15.1、CTD-3179P9.1)に極めて特異的であった。このような細胞タイプ特異的ncRNAsの生物学的意義は不明であるが、その発現のパターンは、77の主要細胞タイプを発生的に一貫したグループに分離するのに十分であったことは注目に値する。
転写因子(TF)の大部分もまた、77の主要細胞タイプにわたって差次的に発現した(1,984のうち1,715、FDR0.05)。細胞タイプごとに最も特異的なTFの多くは予想どおりであり、例えば、腺房細胞ではRBPJL、乏突起膠細胞ではOLG1及びOLG2、及び衛星細胞ではPAX7であった。他の場合では、細胞タイプ特異的TFは、例えば、膵臓内で観察され、免疫活性化に関連するTFを特異的に発現する、リンパ系ケモカイン(CCL19_CCL21陽性細胞)の発現によって特徴付けられる間質細胞タイプなど予想外の細胞タイプを考慮するように指摘した。
本発明者らは、遺伝子発現データを介してTFターゲット遺伝子の相互作用を直接予測しようとした。簡潔に言えば、候補相互作用は、完全データセットにわたるTF発現とターゲット遺伝子発現との間の共分散によって同定された。これらの相互作用を、ChIP-seq結合及びモチーフ濃縮解析(「方法」)によって更にフィルタリングした。706のTF及び12,868のターゲット遺伝子を含む、56,272の候補TFターゲット遺伝子リンクが残っていた。これらの706のTF結合遺伝子セットのうち220は、TFネットワーク(TRRUST)又はEnrichr TF遺伝子ネットワークの手動でクラスタリングされたデータベース内の対応するTF(FDR0.05)の濃縮を示した(例えば、E2F1に結合する330の遺伝子の最も濃縮したTRRUST TFはE2F1であり、調節p値=2.2e-14;FLI1に結合する1,219の遺伝子の最高Enrichr TFはFLI1であり、調節p値=5.6e-122)。これらの706のTFに割り当てられたターゲット遺伝子を並べ替え、解析を繰り返すと、TF結合遺伝子セットのいずれも、同じ閾値で対応するTFに対して有意に濃縮されない。
器官にわたる血液系統の発生の特性評価
このデータセットの性質は、広範に出現する細胞タイプ、例えば、血液細胞、内皮細胞及び上皮細胞内での遺伝子発現の器官特異的差異を調査する機会をもたらす。第1のこのような解析として、本発明者らは、造血細胞タイプに対応する、全器官に由来する103,766個の細胞を再クラスタリングした。次いで、公開された遺伝子マーカーに基づいて、Louvainクラスタリング、更に細粒免疫細胞タイプのアノテーションを行った。場合によっては、非常に稀な細胞タイプを同定した。例えば、骨髄細胞は、小膠細胞、マクロファージ、及び多様な樹状細胞サブタイプ(CD1C+、S100A9+、CLEC9A+及びpDC)に分かれる。小膠細胞クラスターは、主に大脳及び小脳に由来し、それらの異なる発生起源に一致するマクロファージから良好に分離される。リンパ系細胞は、B細胞、NK細胞、ILC 3細胞、及びT細胞(後者は胸腺産生軌道を含む)を含む、いくつかの群にクラスタリングされた。また、形質細胞(全血液細胞の0.1%又は完全データセットの0.003%である139細胞、大部分は胎盤内)及びTRAF1+APC(全血液細胞の0.2%又は完全データセットの0.005%である189細胞、大部分は、胸腺及び心臓内)など非常に稀な細胞タイプを回収した。
異なる免疫細胞タイプの遺伝子発現マーカーが広範に研究されてきたが、これらは、器官又は細胞タイプの制限されたセットを介した定義によって制限され得る。実際に、本発明者らは、多くの従来の免疫細胞マーカーが複数の細胞タイプで発現することを見出した。例えば、T細胞の従来のマーカーは、他の研究と一致して、マクロファージ及び樹状細胞(CD4)又はNK細胞(CD8A)でも発現した。本発明者らは、14の血液細胞タイプにわたって、汎器官細胞タイプ特異的マーカーを計算した。例えば、T細胞は、予想どおりにCD8B及びCD5を特異的に発現したが、TENM1も発現した。アノテーションがRORC及びKITの発現に基づいたILC 3細胞は、SORCS1及びJMYによってより特異的に標識された。これら及び他の汎器官定義マーカーは、将来の研究でヒト胎児血液細胞タイプの標識及び精製に有用であり得る。
予想どおりに、異なる器官は、血液細胞の極めて異なる割合を示した。例えば、肝臓は、胎児赤血球の主要部位としての役割に一致して最も高い割合の赤芽球を含み、T細胞は脾臓内の胸腺及びB細胞で濃縮された。小脳及び大脳から回収した血液細胞は、ほぼ小膠細胞であった。集合的解析はまた、特定器官における希少細胞集団の同定を可能にする。例えば、本発明者らは、肝臓、脾臓、及び胸腺において希少なHSCを同定したが、心臓、肺、副腎、及び腸においても同定した。
赤血球生成に着目すると、HSCから中間細胞タイプ、赤血球-好塩基球-巨核球バイアス前駆細胞(EBMP)への連続軌道を観察し、次いで、これは、最近のマウス胎児肝臓の研究と一致して、赤血球軌道、好塩基球性軌道、及び巨核球軌道に分割される。これは、種(ヒト対マウス)、技術(sci-RNA-seq3対10x)及び器官(汎器官対胎児器官)の違いにも関わらず一致した。教師なしクラスタリングを行い、その研究から専門用語を採用し、赤血球状態の連続体を3段階、つまり、初期赤血球前駆細胞(EEP;SLC16A9及びFAM178Bで標識される)、委任赤血球前駆細胞(CEP;KIF18B及びKIF15で標識される)、及び赤血球最終分化状態の細胞(ETD;TMCC2及びHBBで標識される)に更に分割した。巨核球細胞の初期及び後期段階も容易に同定された。赤血球系統におけるゲノムワイドのクロマチンアクセス可能性の対応する動態は、手引書で更に考慮される。
予想どおりに胎児赤血球で確立された役割を所与とすると、肝臓及び脾臓の免疫細胞の相当な割合が、EEP、CP、及び巨核細胞前駆細胞に相当した。驚くべきことに、研究した核試料において、副腎でEEP、CEP、及び巨核細胞前駆細胞も観察した。肝臓及び脾臓でより一般的である細胞タイプを観察しないため、副腎の回収中の種の汚染(trival contamination)は、説明になっているとは言えない。直交法による確認が必要であるが、結果は、胎児赤血球の付加部位としての副腎の可能性を示唆する。
マクロファージは、更により広範に分布している。次に、脳からの小膠細胞と合わせて全てのマクロファージを着色し、独立してUMAP可視化及びLouvainクラスタリングに供した。小膠細胞を3つのサブクラスターに分割し、そのうちのIL1B及びTNFRSF10Dで標識される1つは、炎症応答に関与する活性小膠細胞を示す可能性が高い。他の小膠細胞クラスターは、TMEM119及びCX3CR1(大脳でより一般的)又はPTPRC及びCDC14B(小脳でより一般的)の発現によって標識された。
脳の外部のマクロファージは、3つの主要な群にクラスタリングされ、この群とは、すなわち、1)抗原提示マクロファージであって、大部分はGI気管器官(腸及び胃)で見出され、抗原提示(HLA DPB1、HLA DQA1)及び炎症活性化(AHR)遺伝子の高度発現によって標識され、2)血管周囲マクロファージであって、大部分の器官で見出され、F13A1及びCOLEC12などマーカーの特異的発現、並びにRNASE1及びLYVE1などの新規マーカーを有し、3)食細胞マクロファージであって、肝臓、脾臓、及び副腎で濃縮され、CD5L、TIMD4及びVCAM1などのーカーの特異的発現を有する。食細胞マクロファージは、赤血球貪食作用にとって重要であり、副腎でのこれらの観察は、胎児赤血球生成の部位としての前述の潜在的役割と一致している。
器官にわたる内皮細胞及び上皮細胞の特性評価
多くの器官にわたる単一細胞タイプの第2の分析として、本発明者らは、血管内皮、リンパ内皮、又は心内膜に対応する全器官に由来する細胞を再クラスタリングした。これらの3つの群は、互いに容易に分離され、血管内皮細胞は、器官ごとに少なくともある程度更にクラスタリングされる。その器官特異的差異は、動脈、毛細血管、及び静脈間の差異よりも容易に検出され、成体マウスの以前の細胞アトラスと一致する。
差次的発現遺伝子解析は、内皮細胞のサブセットで特異的に発現する700のマーカーを同定した(FDR0.05、第1位のクラスターと第2位のクラスターとの間には2倍超の発現差)。これらの約1/3(700のうち236)のコード化膜タンパク質に関して、その多くは、潜在的な特殊機能に対応するように見えた。例えば、腎内皮細胞は、腎臓内での筋原性収縮及び血流調節に関与する機械センサーである酸検出イオンチャネル2(ASIC2)を特異的に発現した。肺内皮細胞は、リラキシンファミリーペプチド受容体1(RXFP1)を特異的に発現した。RXFP1は、ナトリウム依存性リゾホスファチジルコリン輸送体共輸送体1(MFSD2A)を特異的に発現した、肺内の内因性一酸化窒素媒介血管弛緩に関与し、MFSD2Aは、血液脳関門の確立及び機能に一体的に関与している。内皮のサブセットでの差次的遺伝子発現の潜在的な制御基準は、手引書で考察する。
広範に分布した細胞タイプの第3の解析として、全器官に由来する上皮細胞を再クラスタリングし、これらをUMAP可視化に供した。一部の上皮細胞タイプは、極めて器官特異的であり、例えば、腺癌(膵臓)及び肺胞細胞(肺)、同様の機能を有する上皮細胞は、概して一緒にクラスタリングされる。例えば、扁平上皮細胞(肺、胃)の発現プログラムは、角膜及び結膜上皮細胞(眼)と共クラスタリングされ、PDE1C_ACSM3陽性細胞(胃)は腸上皮細胞(腸)と共クラスタリングされる。
上皮細胞内で、2つの神経内分泌細胞クラスターが同定された。これらのより単純なものは、副腎クロム親和性細胞に対応し、交感神経ニューロンの多様化に関与するTFであるHHMX1(NKX-5-3)の特異的発現によって標識された。他のクラスターは、複数の器官(胃、腸、膵臓、肺)からの神経内分泌細胞を含み、膵島及び腸内分泌の分化において重要な役割を有するTFであるNKX2-2の特異的発現によって標識された。本発明者らは、後者の群で更なる解析行い、5つのサブセット、すなわち、1)インスリン発現によって標識された、膵島β細胞、2)膵臓ポリペプチド発現及びグルカゴンの発現によって標識された、膵島α/γ細胞、3)ソマトスタチン発現によって標識された、膵島δ細胞、4)肺内のこの系統を特定する際に重要な役割を有するTFであるASCL1の発現によって標識された、肺神経内分泌細胞(PNEC)、並びに5)腸内分泌細胞を同定した。腸内分泌細胞は、NEUROG発現膵島ε前駆細胞、胃内及び腸内の両方のTPH1発現クロム親和性細胞、ガストリン発現又はコレシストキニン発現G/L/K/I細胞など複数のサブセットを更に含む。最後に、胃及び腸内のグレリン発現腸内分泌前駆細胞を観察したが、発生中の肺におけるグレリン発現内分泌細胞も観察した。神経内分泌細胞の多様な機能はそれらの分泌タンパク質と密接に結合しているため、神経内分泌細胞にわたって差次的に発現する1,086の分泌タンパク質コード遺伝子を同定した(FDR0.05)。例えば、PNECは、粘膜保護及び肺石灰化細胞分化に関与するトレオイル因子3、胃内のG細胞からのガストリン放出を刺激するガストリン放出ペプチド、及び肺発生に関連する界面活性剤であるSCGB3A2の特異的発現を示した。
これらのデータを使用して細胞軌道を探索し得る方法の例示的な例として、腎尿細管細胞へとつながる上皮細胞の多様化の経路を更に調査した。尿管芽後腎細胞を合わせて再クラスタリングし、前駆細胞及び末端腎上皮細胞タイプの両方を同定し、分化経路は、ヒト胎児腎臓の最近の研究と極めて一致した。差次的遺伝子発現解析により、その仕様を潜在的に調節するTFの特性を更に評価した。例えば、後腎軌道のネフロン前駆細胞は、高レベルの間葉及びMeisホメオボックス遺伝子(MEOX1、MEIS1、MEIS2)を発現し、ポドサイトは、MAFB及びTCF21/POD1を特異的に発現した。別の例として、HNF4Aは、近位尿細管細胞で特異的に発現し、この遺伝子の変異は、近位尿細管に特異的に影響を及ぼす疾患であるファンコーニー腎細管症候群を引き起こす。これは、最近、マウスでの近位尿細管の形成に必要であることが示された。
ヒト及びマウスの発生アトラスの比較
細胞タイプ間の発生関係を調査するために、次に、より初期の哺乳類発生ウィンドウである、E9.5~E13.5に及ぶ胚全体からの2百万個の細胞をプロファイリングした、本発明者らの最近のマウス器官形成細胞アトラス(MOCA)とこれらのデータを比較した。
第1のアプローチとして、前述した細胞タイプ横断マッチング法によって、本明細書で定義した77の主要ヒト細胞タイプを、MOCAによって定義された発生軌道と比較した。簡潔に言えば、この方法は、非負最小二乗法(NNLS)回帰を使用して、2つのデータセットから相互に最も良好にマッチした細胞タイプ対を選択する。大部分のヒト細胞タイプは、単一の主要マウス軌道及びサブ軌道に強くマッチする。これらは一般に期待値に対応し、アノテーションの両セットのために検証の一形態としての役割を果たす。いくつかの不一致は、MOCAアノテーションに対する重要な補正を容易にした。強いマッチに欠ける(合計したNNLS回帰係数<0.6)ヒト細胞タイプ及びマウス軌道の多くは、他のデータセットで除外された組織(例えば、マウス胎盤、ヒト皮膚及び生殖腺)に対応した。他の曖昧な点は恐らく、研究した発生ウィンドウ間の隙間(例えば、副腎細胞タイプ)、希少性(例えば、双極細胞)、及び/又は細胞タイプ間の複雑な関係(例えば、複数の胚軌道に由来する胎児細胞タイプ)によるものである。
第2のアプローチとして、ヒト細胞及びマウス細胞を合わせてクラスタリングしようとした。簡潔に言えば、MOCAから100,000個のマウス胚細胞(ランダム)及び65,000個のヒト胎児細胞(77細胞タイプのそれぞれから最大1,000個の細胞)をサンプリングし、種横断scRNA-seqデータセットを統合するために、最近記載したSeuratの戦略に供した。得られたUMAPベースの可視化におけるマウス細胞の分布は、本発明者らのMOCAのグローバル解析と非常に類似していた。更に、驚くべきことであるが、細胞は、空間的器官位置ではなく、発生関係及び時間的関係の両方に対して概して合理的な方法で分布した。例えば、ヒト胎児内皮細胞、造血細胞、肝細胞、上皮細胞、及び間葉細胞は全て、対応するマウス胚軌道にマッピングされたことを観察する。ヒト胎児脳ニューロン及び小脳ニューロンは、マウス胚神経管軌道と重複したが、恐らく、種又は発生段階間の過度の差異に起因して、ヒト胎児神経堤誘導体、例えばENSニューロン、内臓ニューロン、交感神経芽細胞、及びクロム親和性細胞は、対応するマウス胚軌道とは別個にクラスタリングされた。予想どおりに、ヒトENSグリア並びにシュワン細胞は、マウス胚PNSギラサブ軌道と重複した。ヒト胎児星状細胞は、マウス胚神経上皮軌道と共にクラスタリングされる(マウス星状細胞はE18.5まで発生しない)。ヒト胎児乏突起膠細胞は、考えてみるとオリゴデンドロサイト前駆細胞(OPC;Olig1+、Olig2+、Brinp3+)に対応する、希少なマウス胚サブ軌道(Pdgfra+グリア)と重複し、オリゴデンドロサイト前駆体として、異なるOligo1+サブ軌道の以前のアノテーションに疑問を投じる。
ヒト胎児細胞とマウス胚細胞とのより詳細な関係を可視化するために、類似の統合解析戦略を適用して、造血、内皮、及び上皮の軌道からヒト細胞及びマウス細胞を抽出した。この胎児ヒト細胞アトラスからのデータにより、「全胚」マウスデータは、細粒化された機能群又は空間群へと容易にデコンボリューションされる。例えば、マウス「白血球」軌道のサブセットは、HSC、小膠細胞、マクロファージ(肝臓及び脾臓)、マクロファージ(他の器官)及びDCなど特定のヒト血液細胞タイプにマッピングされる。これらのサブセットは、関連する血液細胞マーカーの発現によって更に実証された。同様に、本発明者らは、マウス/ヒト内皮細胞及び上皮細胞の関連サブセットが互いにマッピングされることを観察した。このアプローチは、アクセス又は解剖学的分解が困難である発生時点で特定の系統の前駆細胞の遺伝子発現プログラムを得るのに有用であり得る。例えば、前腸上皮軌道として以前に標識したマウス細胞内では、胃対膵臓に起用する可能性の高い因子を分解することが可能である。
考察
機能性ヒト胎児の発生の成功は驚くべきプロセスであり、3つの主要発生段階にわたる細胞増殖及び分化のプロセスによって特徴付けられる。
単純な細胞の増殖及び子宮での着床を伴う短い(受精から2週間)胚期間に続いて、胚形成段階は、激しい細胞分化及び内臓器官前駆体の生成を特徴とする、原腸形成、神経形成、及び器官形成を継続する。妊娠期間の10週目の終了までに、胚は、胎児と呼ばれる基本形態を獲得している。次の20週間にわたって、様々な器官が成長と成熟を続け、多様な末端分化細胞タイプが前駆体から生成される。
胚段階及び胚形成段階の両方は、共有初期発生プログラムを用いて、ヒト又はモデル系(すなわち、マウス)での単一の細胞分解能で集中的にプロファイリングされている。後期発生段階(胎児段階)は、ホモサピエンスと他の種では異なる発生プログラム及び期間を示す。また、器官がより複雑であり、技術的制限があるために、この段階における細胞動力学の全体像を得ることは困難である。最近は胎児発生の単一細胞に関する研究がいくつか発表されているが、これらの大部分は、特定の器官又は細胞系統に限られており、器官全体の発生の全体像を得ることはできない。
材料及び方法:
哺乳類細胞の培養及び核抽出
全ての哺乳類細胞を、5%CO、37℃で培養し、10% FBS及び1X Pen/Strep(Gibcoカタログ番号15140122;100U/mLペニシリン、100μg/mLストレプトマイシン)を補充した高グルコースDMEM(Gibcoカタログ番号11965)中で維持した。0.25%トリプシン-EDTA(Gibcoカタログ番号25200-056)で細胞をトリプシン処理し、週に3回、1:10に分割した。
全ての細胞株をトリプシン処理し、300xgで5分間(4°C)スピンダウンし、1X氷冷PBSで1回洗浄した。5Mの細胞を合わせ、1mLの氷冷細胞溶解緩衝液(10mM Tris-HCl、pH7.4、10mM NaCl、3mM MgCl2、及び0.1% IGEPAL CA-630、1% SUPERase InRNase阻害剤及び1% BSAを含むように修飾)を使用して溶解した。次いで、濾過した核を新しい15mLチューブ(ファルコン)に移し、500xg、4℃で5分間遠心分離してペレット化し、1mLの氷冷細胞溶解緩衝液で1回洗浄した。核を、氷上で15分間、4mLの氷冷4%パラホルムアルデヒド(EMS)中で固定した。固定後、1mLの核洗浄緩衝液(IGEPALを含まない細胞溶解緩衝液)中で核を2回洗浄し、500uLの核洗浄緩衝液に再懸濁した。試料を各チューブに100uL入れて、5本のチューブに分割し、液体窒素中で急速凍結した。
ヒト胎児組織の調製及び核抽出
ヒト胎児組織を合わせて処理して、バッチ効果を低減した。各器官をハンマーで(ドライアイス上で)組織粉末に粉砕し、サンプリング前に混合した。まず、1mLの氷冷細胞溶解緩衝液(10mM Tris-HCl、pH7.4、10mM NaCl、3mM MgCl2、及び0.1% IGEPAL CA-63053、1% SUPERase In及び1% BSAも含むように修飾)を用いて0.1~1gの粉末をインキュベートし、次いで40μmの細胞ストレーナー(ファルコン)の上に移した。4mLの細胞溶解緩衝液中で注射器プランジャ(5mL、BD)のゴムチップ用いて、組織を均質化した。次いで、濾過した核を新しい15mLチューブ(ファルコン)に移し、500xgで5分間遠心分離してペレット化し、1mLの細胞溶解緩衝液で1回洗浄した。核を、氷上で15分間、5mLの氷冷4%パラホルムアルデヒド(EMS)中で固定した。固定後、1mLの核洗浄緩衝液(IGEPALを含まない細胞溶解緩衝液)中で核を2回洗浄し、500μLの核洗浄緩衝液に再懸濁した。試料を各チューブに250μL入れて、2本のチューブに分割し、液体窒素中で急速凍結した。一部の器官(腎臓、膵臓、腸、及び胃)でのヒト細胞抽出及びパラホルムアルデヒド固定の場合。
sci-RNA-seq3ライブラリーの調製及びシークエンシング
公開されたsci-RNA-seq3プロトコルと同様に、わずかな修正を加えて、パラホルムアルデヒド固定核を処理した。簡潔に述べると、解凍した核を、0.2% TritonX-100(核洗浄緩衝液中)を用いて氷上で3分間透過処理し、短時間の超音波処理(Diagenode、低電力モードで12秒)を行って、核の凝集を低減した。次いで、核洗浄緩衝液で核を1回洗浄し、1mLのFlowmi細胞ストレーナ(Flowmi)を通して濾過した。濾過した核を500xgで5分間スピンダウンし、核洗浄緩衝液に再懸濁した。次いで、各試料からの核を、4枚の96ウェルプレート内の複数の個々のウェルに分配した。ウェルIDとマウス胚との間のリンクを、下流データ処理のために記録した。ウェルごとに、80,000個の核(16μL)を、8μLの25μM固定オリゴ-dTプライマー((5’-/5Phos/CAGAGCNNNNNNNN[10bpバーコード]TTTTTTTTTTTTTTTTTTTTTTTTTTTTTT-3’(配列番号1)、配列中、「N」は任意の塩基;IDT)及び2uLの10mM dNTPミックス(Thermo)と混合し、55℃で5分間変性させ、直ちに氷上に置いた。次いで、8μLの5X Superscript IV First-Strand Buffer(Invitrogen)、2μLの100mM DTT(Invitrogen)、2μLのSuperScript IV逆転写酵素(200U/μL、Invitrogen)、2μLのRNaseOUT Recombinant Ribonuclease Inhibitor(Invitrogen)を含有する、14uLの第1鎖反応ミックスを各ウェルに添加した。勾配温度(4℃で2分、10℃で2分、20℃で2分、30℃で2分、40℃で2分、50℃で2分、及び55℃で10分)でプレートをインキュベートすることにより逆転写を行った。
逆転写反応後、60μLの核希釈緩衝液(10mM Tris-HCl、pH 7.4、10mM NaCl、3mM MgCl2、及び1% BSA)を各ウェルに添加した。全てのウェルからの核を合わせてプールし、500xgで10分間スピンダウンした。次いで、核を核洗浄緩衝液に再懸濁し、20μLのQuickリガーゼ緩衝液(NEB)、2μLのQuick DNAリガーゼ(NEB)、10μLの核洗浄緩衝液中核、8μLのバーコード付きライゲーションアダプター(100uM、5’-GCTCTG[9bp又は10bpのバーコードA]/ジデオキシU/ACGACGCTCTTCCGATCT[バーコードAの逆相補体]-3’(配列番号2))を各ウェルに含む別の4枚の96ウェルプレートに再分配した。25℃で10分間ライゲーション反応を行った。ライゲーション反応後、60μLの核希釈緩衝液(10mM Tris-HCl、pH7.4、10mM NaCl、3mM MgCl2、及び1% BSA)を各ウェルに添加した。全てのウェルからの核を合わせてプールし、600xgで10分間スピンダウンした。
核を核洗浄緩衝液で1回洗浄し、1mLのFlowmi細胞ストレーナ(Flowmi)で1回濾過し、カウントし、各ウェルが5μLの核洗浄緩衝液中2,500個の各及び3μLの溶出緩衝液(Qiagen)を含む、8枚の96ウェルプレートに分配した。次いで、1.33μLのmRNA第2鎖合成緩衝液(NEB)及び0.66μLのmRNA第2鎖合成酵素(NEB)を各ウェルに添加し、16℃で180分間第2鎖合成を行った。
タグ付けのために、各ウェルを11μLのNextera TD緩衝液(Illumina)及び1μLのi7のみのTDE1酵素(62.5nM、Illumina、Nextera TD緩衝液(Illumina)で希釈)と混合し、次いで55℃で5分間インキュベートしてタグ付けを行った。次いで、ウェル当たり24μLのDNA結合緩衝液(Zymo)を添加することによって反応を停止させ、室温で5分間インキュベートた。次いで、1.5x AMPure XPビーズ(Beckman Coulter)を使用して、各ウェルを精製した。溶出工程では、各ウェルに8μLのヌクレアーゼフリー水、1μLの10X USER緩衝液(NEB)、1μLのUSER酵素(NEB)を添加し、37℃で15分間インキュベートした。別の6.5μL溶出緩衝液を各ウェルに添加した。AMPure XPビーズを磁気スタンドによって除去し、溶出産物(16μL)を新しい96ウェルプレートに移した。
PCR増幅のために、各ウェル(16μLの産物)を、2μLの10μMインデックス付きP5プライマー(5’-AATGATACGGCGACCACCGAGATCTACAC[i5]ACACTCTTTCCCTACACGACGCTCTTCCGATCT-3’(配列番号3);IDT)、2μLの10μM P7プライマー(5’-CAAGCAGAAGACGGCATACGAGAT[i7]GTCTCGTGGGCTCGG-3’(配列番号4)、IDT)、及び20μLのNEBNext High-Fidelity 2x PCR MASTER Mix(NEB)と混合した。72℃で5分間、98℃で30秒間、「98℃で10秒間、66℃で30秒間、72℃で1分間」を12~16サイクル、及び最後に72℃で5分間というプログラムを使用して、増幅を実施した。
PCR後、試料をプールし、0.8容量のAMPure XPビーズを使用して精製した。Qubit(Invitrogen)によってライブラリー濃度を決定し、6% TBE-PAGEゲル上での電気泳動によりライブラリーを可視化した。全てのライブラリーを、1つのNovaSeqプラットフォーム(Illumina)(リード1:34サイクル、リード2:52サイクル、インデックス1:10サイクル、インデックス2:10サイクル)でシークエンシングした。
パラホルムアルデヒド固定細胞については、固定核と同様に、わずかな修正を加えて以下のように処理した。すなわち、凍結固定細胞を37℃の水浴で解凍し、500xgで5分間スピンダウンし、0.2% Triton X-100を含む500uLのPBSR(1x PBS、pH 7.4、1% BSA、1% SuperRnaseIn、1% 10mM DTT)を用いて氷上で3分間インキュベートした。細胞をペレット化し、1% SuperRnaseInを含む500ulのヌクレアーゼフリー水に再懸濁した。氷上で5分間インキュベートするために、3mLの0.1 N HClを細胞に添加した(7)。HClを中和するために、3.5mLのTris-HCl(pH=8.0)及び35ulの10% Triton X-100を細胞に添加した。細胞をペレット化し、1mLのPBSRで洗浄した。細胞をペレット化し、100uLのPBSI(1xPBS、pH7.4、1% BSA、1% SuperRnaseIn)に再懸濁した。続いての工程は、上記のsci-RNA-seq3プロトコル(パラホルムアルデヒド固定核を用いる)と同様であったが、わずかに修正を加えた。すなわち、(1)逆転写のために、ウェル当たり(80,000個の核ではなく)20,000個の固定細胞を分配した。(2)以降の工程で、全ての核洗浄緩衝液をPBSIに置き換えた。(3)全ての核希釈緩衝液をPBS+1% BSAに置き換えた。
リードのシークエンシング処理
sci-RNA-seq3用に開発したパイプラインに多少の変更を加えて、単一細胞RNA-seqのリードアライメント及び遺伝子カウントマトリックスの生成を実行した。すなわち、Illuminaのbcl2fastq/v2.16を使用してベースコールをfastq形式に変換し、デフォルト設定で最尤逆多重化パッケージdeMLを使用してPCR i5及びi7バーコードに基づいて逆多重化した。下流配列処理及び単一細胞デジタル発現マトリックスの生成は、RTインデックスをヘアピンアダプターインデックスと組み合わせたことを除いて、sci-RNA-seqと同様であり、したがって、マッピングされたリードは、RTインデックス及びライゲーションインデックス(ED<2、挿入及び削除を含む)の両方を使用してリードを逆多重化することによって構成細胞インデックスに分割した。簡潔に言えば、逆多重化されたリードを、RTインデックス及びライゲーションインデックス(ED<2、挿入及び削除を含む)に基づいてフィルタリングし、デフォルト設定でtrim_galore/v0.4.1を使用してアダプターをクリップした。デフォルト設定及び遺伝子アノテーション(ヒトにはGENCODE V19、マウスにはGENCODE VM11)でSTAR/v 2.5.2bを用いて、ヒト胎児核のヒト参照ゲノム(hg19)、又はヒトhg19のキメラ参照ゲノム、及びHEK293T及びNIH/3T3混合核のマウスmm10に、調節されたリードをマッピングした。一意にマッピングされたリードを抽出し、固有分子識別子(UMI)配列(ED<2、挿入及び削除を含む)、逆転写(RT)インデックス、ヘアピンライゲーションインデックス及びリード2末端座標を使用して重複を除去した(すなわち、編集距離が2未満のUMI配列、RTインデックス、ライゲーションアダプターインデックス及びタグ付け部位を重複とみなした)。最後に、RTインデックス及びライゲーションヘアピン(ED<2、挿入及び削除)を使用して、リードを更に逆多重化することにより、マッピングされたリードを構成細胞インデックスに分割した。種混合実験では、各種のゲノムの一意にマッピングされたリードの割合を計算した。UMIの85%超が1つの種に割り当てられた細胞を種特異的細胞とみなし、残りの細胞は、混合細胞又は「衝突」として分類した。デジタル発現マトリックスを生成するために、python/v2.7.13 HTseqパッケージを使用して、各遺伝子のエクソン及びイントロン領域にマッピングされる各細胞の鎖固有のUMIの数を計算した56。多重マッピングされたリードについては、最も近い遺伝子にリードが割り当てられたが、最も近い遺伝子の末端まで100bp以内に別の交差遺伝子が収まる場合は例外であり、リードは破棄された。大部分の解析では、遺伝子ごとの単一細胞発現マトリックスに予想される鎖のイントロンとエクソンの両方のUMIを含めた。
単一細胞遺伝子カウントマトリックスの生成後に、250未満のUMIを有する細胞をフィルタリングして除去した。RTバーコードに基づいて、各細胞をその元のヒト胎児試料に割り当てた。各胎児の個体にマッピングされるリードを集約して、「バルクRNA-seq」を生成した。胎児の性別分離のために、雌特異的非コードRNA(TSIX及びXIST)又はchrY遺伝子(雌雄両方で検出される、遺伝子TBL1Y、RP11-424G14.1、NLGN4Y、AC010084.1、CD24P4、PCDH11Y、及びTTTY14を除く)にマッピングされるリードをカウントした。胎児を、雌(chrYよりもTSIX及びXISTにマッピングされたリードが多い)及び雄(TSIX及びXISTよりもChrY遺伝子にマッピングされたリードが多い)に容易に分類する。
ヒト胎児試料全体のクラスタリング解析を、Monocle 3で行った。簡潔に述べると、集約した遺伝子発現マトリックスは、各個体からのヒト胎児器官について上述のように構築された。5,000超の総UMIを有する試料を選択した。データの次元は、まず上位500の最も高分散の遺伝子でのPCA(10成分)によって、次いで、UMAP(max_component=2、n_neibors=10、min_dist=0.5、metric=’cosine’)を用いて低減した。
細胞フィルタリング、クラスタリング、及びマーカー遺伝子の同定
潜在的ダブレット細胞を検出するために、まず、各器官及び個々のサブセットにデータセットを分割し、次いで、パラメータ(min_count=3、min_cells=3、vscore_percentile=85、n_pc=30、expected_doublet_rate=0.06、sim_doublet_ratio=2、n_neighbors=30、scaling_method=’log’)を使用して各サブセットにscrublet/v0.1を適用してダブレットスコアを計算する。0.2を超えるダブレットスコアを有する細胞は、検出ダブレットとしてアノテーションする。全データセットで6.4%の潜在的ダブレット細胞を検出した。これは、総推定ダブレット率12.6%に対応する(クラスター内ダブレット及びクラスター間ダブレットの両方を含む)。
各器官からの細胞についてダブレット由来サブクラスターを検出するために、前に示したような反復クラスタリング戦略を使用した。簡潔に述べると、性染色体への遺伝子カウントのマッピングを、クラスタリング及び次元の低減の前に削除した。前処理工程は、参照により使用されるアプローチに類似していた。簡潔に述べると、カウントなしの遺伝子をフィルタリングして除去し、細胞当たりの総UMIカウントによって各細胞を正規化した。最大の分散を有する上位1,000個の遺伝子を選択し、遺伝子のフィルタリング後にデジタル遺伝子発現マトリックスを再度正規化した。擬似カウントを加えた後にデータを対数変換し、単位分散及びゼロ平均にスケーリングした。データの次元は、最初にPCA(30成分)によって低減し、次いでUMAPを用い、続いてデフォルトパラメータを用いて30の主要成分でLouvainクラスタリングを実施した。Louvainクラスタリングについては、最初に、上位30のPCをフィルタリングして、scanpy/v1.0のscanpy.api.pp.neighbors関数により、50の局部近傍数を有する観測結果の近傍グラフを計算する。次に、scanpy.api.tl.louvain関数として実施されるLouvainアルゴリズムを使用して、細胞をサブグループにクラスタリングする。UMAPの可視化のために、0.1.のmin_distanceでscanpy.api.tl.umap関数にPCAマトリックスを直接フィットさせる。サブクラスターを同定するために、各主要細胞タイプで細胞を選択し、主要なクラスター解析と同様に、PCA、UMAP、Louvainクラスタリングを適用した。15%を超える検出ダブレット比(Scrubletによる)を有するサブクラスターは、ダブレット由来のサブクラスターとしてアノテーションされた。
データの可視化のために、(Scrubletにより)ダブレットとして標識された細胞、又はダブレット由来のサブクラスターをフィルタリングして除去した。細胞ごとに、タンパク質コード遺伝子、lincRNA遺伝子、及び偽遺伝子のみを保持する。10個未満の細胞で発現した遺伝子及び100個未満の遺伝子を発現した細胞を更にフィルタリングして除去した。下流での次元の低減及びクラスタリング解析は、Monocle 3で行った。データの次元は、まず上位5,000の最も高分散の遺伝子でのPCA(50成分)によって、次いで、UMAP(max_component=2、n_neibors=50、min_dist=0.1、metric=’cosine’)を用いて低減した。Monocle 3(louvain_res=1e-04)に実装されたLouvainアルゴリズムを使用して、細胞クラスターを同定した。クラスターは、細胞タイプ特異的マーカーに基づいて既知の細胞タイプに割り当てた。本発明者らは、上記のScrublet及び反復クラスタリングベースのアプローチが、豊富細胞クラスターと希少細胞クラスターとの間での細胞ダブレットの標識化において限界を有する(例えば、全細胞集団の1%未満)ことを見出した。これらのダブレット細胞を更に除去するために、Monocle 3によって同定された細胞クラスターを取得し、まず、Monocle 3のdifferentialGeneTest()関数を用いて、(器官内で)細胞クラスターにわたって差次的に発現した遺伝子を計算した。次に、細胞クラスターごとに上位10個の遺伝子マーカー(q値及び第1位細胞クラスターと第2位の細胞クラスターとの発現差の倍率によって順序付ける)を組み合わせた遺伝子セットを選択した。各主要細胞クラスターからの細胞を、まず上位クラスター特異的遺伝子マーカーの選択した遺伝子セットでのPCA(10成分)によって、次いでUMAP(max_components=2、n_neighbors=50、min_dist=0.1、metric=’cosine’)によって、続いてMonocle 3に実装された密度ピーククラスタリングアルゴリズム(ほとんどのクラスタリング解析ではrho_thresh=5、delta_thresh=0.2)を使用したIDのクラスタングによって次元を低減するために選択した。ターゲット細胞クラスター特異的マーカーの低発現及び非ターゲット細胞クラスター特異的マーカーの濃縮発現を示すサブクラスターは、ダブレット由来のサブクラスターとしてアノテーションし、可視化及び下流解析でフィルタリングして除去した。(器官内で)細胞タイプにわたって差次的に発現した遺伝子を、ダブレット由来のサブクラスターから全てのダブレット又は細胞を除去した後にMonocle 3のdifferentialGeneTest()関数を用いて再計算した。
器官にわたる細胞のクラスタリング解析
15の器官にわたる77の主要細胞タイプのクラスタリング解析では、各細胞タイプから5,000個の細胞(又は所与の器官に5,000個未満の細胞を有する細胞タイプの場合は全ての細胞)をサンプリングした。まず、上記で同定した上位細胞タイプ特異的遺伝子マーカーを合わせた遺伝子セット(表S5、qval=0)でのPCA(50成分)によって、次いでUMAP(max_component=2、n_neibors=50、min_dist=0.1、meametric=’cosine’)を用いてデータの次元を低減した。細胞タイプにわたって差次的に発現した遺伝子を、Monocle 3のdifferentialGeneTest()関数を用いて同定した。細胞タイプ特異的遺伝子特徴のアノテーションでは、上記で同定した細胞タイプ特異的遺伝を、ヒトタンパク質アトラスから予測される分泌及び膜タンパク質コード遺伝子セット、並びにパッケージRcisTarget/v1.2.1.からの「motifAnnotations_hgnc」データでアノテーションされたTFセットと交差させた。
15器官にわたる血液細胞のクラスタリング解析では、骨髄細胞、リンパ球細胞、幹細胞、巨核細胞、小膠細胞、抗原提示細胞、赤芽球、及び造血幹細胞を含む全ての血液細胞を抽出した。まず上位3,000の血液細胞タイプ特異的遺伝子マーカーを組み合わせる遺伝子セットの発現(少なくとも1つの血液細胞タイプで特異的に発現した遺伝子のみが選択され(q値<0.05、第1位の細胞クラスターと第2位の細胞クラスターとの発現差倍率>2)、器官にわたって中央値qvalによって順位付けられる)でのPCA(40成分)によって、次いでUMAP(max_components=2、n_neighbors=50、min_dist=0.1、metric=’cosine’)を用いてデータの次元を低減した。Monocle 3(louvain_res=1e-04)に実装されたLouvainアルゴリズムを使用して、細胞クラスターを同定した。クラスターは、細胞タイプ特異的マーカーに基づいて既知の細胞タイプに割り当てた。
次に、器官にわたって内皮細胞又は上皮細胞のクラスタリング解析を行うために、上記と同様の解析戦略を適用した。内皮細胞では、最初に、血管内皮細胞からの細胞、リンパ管内皮細胞、及び器官全体からの心内細胞を抽出した。まず、上記で同定した上位1,000の内皮細胞タイプ特異的遺伝子マーカーを組み合わせる遺伝子セット(少なくとも1つの内皮細胞タイプで特異的に発現した遺伝子のみが選択され(q値<0.05、第1位の細胞クラスターと第2位の細胞クラスターとの発現差倍率>2)、器官にわたって中央値qvalによって順位付けられる)でのPCA(30成分)によって、次いで血液細胞と同一のパラメータでUMAPを用いてデータの次元を低減した。Monocle 3(louvain_res=1e-04)に実装されたLouvainアルゴリズムを使用して細胞クラスターを同定し、次いで内皮細胞の組織起源に基づいてアノテーションを行った。上皮細胞では、まず図S3Bの上皮細胞クラスターから細胞を抽出し、続いて最初に、上位5,000の最も高分散の遺伝子でのPCA(50成分)によって最初に次元を低減し、次いでUMAP(max_component=2、n_neibors=50、min_dist=0.1、measue=’cosine’)を用いて次元を低減した。
TF遺伝子連鎖解析
本発明者らは、遺伝子調節プロセスを大規模な単一細胞遺伝子発現解析に絡めることができると仮定した。この目的に向かって、本発明者らは、以前の研究に類似の単一細胞調節推論法を適用して、数百万個の細胞にわたる共分散を検証用の調節配列解析と結合することによって、TF遺伝子相互作用を予測する。このワークフローは、以下の3つの工程からなる。単一細胞プロファイルの疎性により困難になるので、最初に上記の反復クラスタリング戦略によって(器官内の)細胞をサブクラスターに分類することにより、極めて類似するトランスクリプトームを有する細胞のサブセット(~100個の細胞)からの遺伝子数を合計し、続いて、各サブクラスターからの細胞についてUMAP座標上でk平均クラスタリングを行った。kは、サブクラスター当たり平均細胞数が100であるように、各サブクラスター内の細胞数に基づいて選択する。
本発明者らは、各器官内の集約した「疑似細胞」にわたる発現共分散に基づいて、TFSとそれらの調節遺伝子との間のリンクを特定しようとした。検出した10,000超のUMIを有する細胞、及び全細胞の10%超で検出した遺伝子(TFを含む)を選択した。Monocle 3でのestimateSizeFactorsによって完全遺伝子発現マトリックスで計算された細胞特異的ライブラリーサイズ因子によって細胞ごとの完全遺伝子発現を正規化し、対数変換し、中心合わせし、次いで、Rのスケール関数によってスケーリングした。検出した遺伝子ごとに、パッケージglmnet/v.2.0でLASSO回帰モデルを構築し、以下のモデルをフィットさせることによって、パッケージRcisTarget/v1.2.1からの「motifAnnotations_hgnc」データでアノテーションされたTFの正規表現に基づいて、各遺伝子の正規化発現レベルを予測した。
=β+β
式中、Gは遺伝子iの調節された遺伝子発現値である。これは、疑似細胞ごとに遺伝子数によって計算され、各疑似細胞の完全発現マトリックスでのMonocle 3のestimateSizeFactorsによる細胞特異的サイズ因子(SG)推定により正規化され、対数変換される。
Figure 2023508792000001
遺伝子間の下流比較を単純化するために、Rのscale()関数用いて各遺伝子iのモデルをフィットさせる前に、反応Gを標準化した。
と同様に、Tは、疑似細胞ごとに調節されたTF発現値である。これは、総TF発現数によって計算され、各疑似細胞の完全発現マトリックスでのMonocle 3のestimateSizeFactorsによる細胞特異的サイズ因子(SG)推定により正規化され、対数変換される。
Figure 2023508792000002
フィットさせる前に、T、Rのscale()関数で標準化する。
TFの発現と遺伝子の新たな合成速度との負の相関は転写抑制因子の活性を反映し得るが、本発明者らは、glmnetによって報告された負のリンクに対するより可能性の高い説明は、細胞状態特異的発現及びTF活性の相互排他的なパターンであるという感触を得た。したがって、予測中、本発明者らは、潜在的ターゲット遺伝子の合成速度と負に相関する発現を有するTFを除外し、また回帰係数の低いリンク(<0.03)も除外した。
本発明者らのアプローチは、回帰モデルでその発現を予測するために使用され得るサブセットを見出すことによって、各遺伝子を調節し得るTFを同定することを目的としている。しかしながら、遺伝子の発現と相関する発現を有するTFは、当該遺伝子を直接調節することを明確に意味するわけではない。このセット内の直接的ターゲットを推定的に特定するために、まず、ENCODE ChIP-seq実験でプロファイリングされたTFとのリンクを交差させる。正確なTF ChIP-seq結合部位の有意な濃縮を有する遺伝子セットのみを保持し(フィッシャーの両側正確確率検定、FDR5%)、更にTF結合データの支持を受けない間接的ターゲット遺伝子を削除するために不要なものを除去した。検証済みTF遺伝子リンクのセットを拡張するために、遺伝子のプロモーターの周囲10kbのウィンドウ内でのターゲットTFモチーフの濃縮に基づいて遺伝子調節ネットワークを構築するパイプラインである、パッケージSCENICを更に適用した。LASSO回帰により同定した各共発現モジュールを、RcisTarget/v1.2.1を使用したcis調節モチーフ解析を使用して解析した。正確なTF調節因子の有意なモチーフ濃縮を有するモジュールのみを保持し、モチーフの支持を受けない間接的ターゲット遺伝子を削除するために不要なものを除去した。3つの相関係数閾値(0.3、0.4、及び0.5)によってTF遺伝子リンクをフィルタリングし、RcisTarget36及びChIP-seq結合データによって検証された全てのリンクを組み合わせた。
各器官内の集約した疑似細胞に上記の戦略を適用し、器官全体で1,220(胸腺)~10,059(肝臓)TF遺伝子リンクを同定し(合わせて、706個のTFと12,868個の遺伝子との間の合計56,272のTF遺伝子リンク)、発現共分散及びTF結合又はモチーフデータの両方で検証した。対照解析として、TF発現マトリックスの細胞IDを並べ替えたが、並べ替え後にリンクは同定されなかった。同定されたTF及び遺伝子調節関係の一部は、TFネットワーク(TRRUST)又はEnrichr提供TF遺伝子共起ネットワーク)、例えば、E2F1(330の結合遺伝子のうちの最高濃縮TRRUST TF=E2F1、調節p値=2.2e-14)、HNF4A(745の結合遺伝子のうちの最高濃縮TRRUST TF=HNF4A、調節p値=0.000003)、及びFLI1(1219の結合遺伝子のうちの最高濃縮共起TF=FLI1、調節p値=5.6e-122)の手動でキュレートしたデータベースで容易に検証される。85%(56,272のうち48,050)のTF遺伝子リンクは、器官特異的であった。例えば、ATPase Phospholipid Transporting 8B1(ATP8B1)は腸内においてのみHNF4Aに結合したが、これは、他の器官(スピアマンの相関係数の平均=0.008)と比較して、腸(スピアマンの相関係数の平均=0.36)内でHNF4Aとの最高の相関を示したという事実に一致した。745のTF遺伝子リンクが、複数の器官(>5)で見出された。予想どおりに、それらの結合遺伝子は、免疫細胞分化経路(造血幹細胞分化:調節p値2.5e-6;肺樹状細胞及びマクロファージサブセットの発生:調節p値0.0001)並びにストレス反応及び細胞周期(ATRによるDNA IR損傷及び細胞応答:調節p値0.006、酸化ストレス:調節p値0.02、G1~Sの細胞周期制御:調節p値0.05)など基本的な生物学的プロセスで濃縮された。10.5%(56,272のうち5935)のTF遺伝子リンクは、2つのTF間であり、362のTF対は、自己活性化回路を潜在的に表す双方向制御関係を示した。例えば、本発明者らは、MYOD1、MYOG、TEAD4、及びMYF6など骨格筋の分化を促進する、主要調節因子の正のフィードバックループを特定した。細胞タイプ特異的遺伝子、TF、及びそれらの調節相互作用は、本発明者らのウェブサイトで可視化し、検討することができる。
ヒト-マウスの統合解析
本発明者らは、最初に、ヒト胎児細胞アトラスとマウス器官形成細胞アトラス(MOCA)との相関細胞タイプを同定するために、若干修正した戦略を適用した。最初に、細胞タイプ特異的UMI数を集計し、合計数で正規化し、100,000を乗じ、擬似カウントを加えた後に対数変換した。次いで、データセットBでの全細胞タイプの遺伝子発現(M)を用いて、データセットAでのターゲット細胞タイプの遺伝子発現(T)を予測するために、非負最小二乗法(NNLS)回帰を適用した。
=β0a+β1a
式中、T及びMは、データセットAからのターゲット細胞タイプのフィルタリングされた遺伝子発現、及びデータセットBからの全ての細胞タイプをそれぞれ表す。精度及び特異性を改善するために、1)ターゲット細胞タイプと全細胞タイプの中央発現との間での発現倍率変化に基づいて遺伝子をランク付けし、次いで上位200個の遺伝子を選択すること、2)ターゲット細胞タイプと全ての他の細胞タイプのうちで最大発現を有する細胞タイプとの間での発現倍率変化に基づいて遺伝子をランク付けし、次いで、上位200個の遺伝子を選択すること、3)工程(1)及び(2)からの遺伝子リストをマージすること、によって各ターゲット細胞の細胞タイプ特異的遺伝子を選択した。β1aは、NNLS回帰によって計算した相関係数である。
同様に、データセットA及びBの順序を切り替え、データセットAでの全細胞タイプ(M)の遺伝子発現を用いて、データセットBでのターゲット細胞タイプ(T)の遺伝子発現を予測する。
=β0b+β1b
したがって、データセットAの各細胞タイプa及びデータセットBの各細胞タイプbは、上記の解析からの2つの相関係数、すなわち、bを使用して細胞タイプaを予測するためのβab、及びaを使用して細胞タイプbを予測するためのβbaによってリンクされている。以下のようにこれら2つの値を組み合わせた。
β=βab+βba
また、βは、特異性の高い2つのデータセット間での細胞タイプのマッチを反映することを見出した。データセットBの全細胞タイプは、データセットAの細胞タイプごとに、βによってランク付けされ、上位の細胞タイプ(β>0.06)はマッチした細胞タイプとして同定される。本発明者らは、この研究からの全てのヒト細胞タイプを、マウス胚細胞アトラス(MOCA)からの10の主要細胞軌道及び56のサブ軌道と比較した。
次に、ヒト及びマウスの両方で共有遺伝子名を有する、上位3,000の高度に可変の遺伝子で選択した30の次元で、Seurat v3統合法(FindAnchors及びIntegrateData)を使用して、ヒト胎児細胞アトラス及びマウス有機新生細胞アトラス(MOCA)を統合した。まず、65,000個のヒト胎児細胞(77細胞タイプのそれぞれからランダムに最大1,000個サンプリングされた細胞)と、MOCAからランダムにサンプリングされた100,000個のマウス胚細胞とをデフォルトパラメータを用いて統合した。次いで、同一の統合解析戦略を適用して、造血、内皮、及び上皮の軌跡から、ヒト細胞及びマウス細胞を抽出した。
実施例3
3レベルのコンビナトリアルインデクシング(sci-ATAC-seq)に基づいたクロマチンアクセス可能性の単一細胞プロファイリング方法
材料
試薬及び消耗品
0.5M EDTA(Thermo Fisher Scientific、AM9260G);100bpラダー(New England Biolabs(NEB)、N3231L);1000X Sybr(Invitrogen(Gibco/BRL Life Tech)、S7563);10mM ATP(New England Biolabs(NEB)、PO756S);10X HBSS(Gibco/BRL Life Tech、14065-056);10X PNK緩衝液(New England Biolabs(NEB)、M0201L);1M MgCl2(Thermo Fisher Scientific、AM9530G);1X DPBS(Thermo Fisher Scientific、14190-144);5%ジギトニン(Thermo Fisher Scientific、BN2006);5M NaCl(Thermo Fisher Scientific、AM9759);6% TBE PAGE(Invitrogen(Gibco/BRL Life Tech)、EC6265BOX);6xオレンジ染料(New England Biolabs(NEB)、B7022S);AMPure Beads(Beckman Coulter、A63882);BSA、Molecular Biology Grade(New England Biolabs(NEB)、B9000S);DNA LoBindチューブ1.5mL、PCR clean(Eppendorf North America、22431021);DL-ジチオトレイトール、1M 10x 0.5ML(Sigma Aldrich、64563-10x.5ML);EB緩衝剤(Qiagen、19086);ファルコンチューブ、15mL(VWR Scientific、21008-936);ファルコンチューブ、50mL(VWR Scientific、21008-940);Falcon(登録商標)5mL丸底(細胞ストレーナー付き)(Fisher Scientific、352235);グリーンパックLTS 200uLフィルターチップ(GP-L200F)(Rainin Instrument、17002428);グリーンパックLTS 20uLフィルターチップ(GP-L20F)(Rainin Instrument、17002429);グリセロール(Sigma Aldrich、G5516-500ML);グリシン(Sigma Aldrich、50046-250G);IGEPAL CA-630(Sigma Aldrich、I8896-50ML);Liquidatorチップ-10uL(Rainin Instrument、17011117);Liquidatorチップ-200uL(Rainin Instrument、17010646);LoBindクリア、96ウェルPCRプレート(Eppendorf North America、30129512);低プロファイル0.2mL 8チューブ白色チューブ(キャップなし)(Bio-rad Laboratories、TLS0851);酢酸マグネシウム四水和物(Sigma Aldrich、M5661-50G);Microseal「B」接着シール(Bio-Rad Laboratories、MSB1001);Nalgene MF 75滅菌フィルターユニット、0.2um-250mL(VWR、28199-112);Nalgene MF 75滅菌フィルターユニット、0.2um-500mL(VWR、28198-505);NEBNext Hi-fidelityマスターミックス(2x)(New England Biolabs(NEB)、M0541L);NextSeq 500高出力キット(150サイクル)(Illumina Inc.、FC-404-2002);不織布ガーゼ(Dukal、6114);ヌクレアーゼフリー水(Thermo Fisher Scientific、AM9937);オプティカルフラット8ストリップキャップ(Bio-Rad Laboratories、TCS-0803);プロテアーゼ阻害剤(Sigma Aldrich、P8340-1mL);RT-L250WSワイドオリフィスLTS 250uL(Rainin Instrument、30389249);試薬リザーバー(Fisher Scientific、07-200-127);スペルミジン(Sigma Aldrich、S2626-1G);Sybr Gold(Invitrogen(Gibco/BRL Life Tech)、S-11494);Steriflip使い捨て真空フィルターユニット、0.22um孔(Fisher Scientific、SCGP00525);T4 PNK(New England Biolabs(NEB)、M0201L);T7リガーゼ(New England Biolabs(NEB)、M0318L);T7リガーゼ緩衝液(New England Biolabs(NEB)、M0318L);Tapestation(D5000試薬)(Agilent Technologies、5067-5589);Tapestation(スクリーンテープ)(Agilent Technologies、5067-5588);TD緩衝液(2x)(Illumina Inc.、FC-121-1031);TDE1(Tn5)(Illumina Inc.、FC-121-1031)、Tris-HCl pH7.5(1M)(Thermo Fisher Scientific、15567027);Tween-20(Thermo Fisher Scientific、BP337-500);UltraPure蒸留水(DNAse、RNAse、Free)(Thermo Fisher Scientific、10977023);DNA Clean and Concentrate(DCC-5)(Zymo Research、D4014)。
器具:
Agilent 4200 TapeStation System;Bright-Line(商標)Hemacytometer(Sigma);遠心分離器(4℃まで冷却)(Eppendorf、5810R);DynaMag(商標)96 Side Skirted Magnet(Thermo Fisher Scientific、12027);Eppendorf Mastercycler(サーマルサイクラー);FACSAria IIIセルソーター(BD);冷凍庫(-20℃、-80℃)及び冷蔵庫(4℃);ゲルボックス;試料保管用液体窒素タンク;顕微鏡;マルチチャネルピペット(10uL、200uL)(Rainin Instrument);NextSeq500プラットフォーム(Illumina)、Rainin Liquidator 96手動ピペッティングシステム
試薬調製:
のファルコンチューブ内で、500uLの1M Tris-HCl pH7.4(最終的に10mM Tris-HC)、100uLの5M NaCl(最終的に10mM NaCl)、300uLの0.5M MgCl2(最終的に3mM MgCl2)及び49.1mLのヌクレアーゼフリー水を混合する。Millipore「Steriflip」滅菌、使い捨て真空フィルターユニット、PES膜;孔径:0.22μm(SCGP00525)を使用することによって濾過滅菌する。緩衝液を、最大6ヶ月間4℃で保管する。
10% Tween-20(最大6ヶ月間4℃で保管);10% IGEPAL CA-630(最大6ヶ月間4℃で保管);1%ジギトニン(ヌクレアーゼフリー水を用いて5%ジギトニンを1%に希釈し、最大6ヶ月間4℃で保管)
凍結緩衝液(FB)。50mLのファルコンチューブ内で、50mM Tris(pH8.0)、25%グリセロール、5mM Mg(OAc)2、0.1mM EDTA、及び水を混合する。Millipore「Steriflip」滅菌、使い捨て真空フィルターユニット、PES膜;孔径:0.22μm(SCGP00525)を使用することによって濾過滅菌する。緩衝液を、最大6ヶ月間4℃で保管する。核単離の日に、975uLのFB、5uLの5mM DTT(Sigma-Aldrichカタログ番号646563-10X0.5mL)及び20uLの50xプロテアーゼ阻害剤カクテル(Sigma-Aldrichカタログ番号P8340)を混合する。
2.5Mグリシン。2.5Mグリシンを作製する。46.92gのグリシンを250mLの水に混合し、次いで濾過滅菌する(Nalgene濾過システム、0.2um硝酸細胞ロース膜(VWR、28199-112)。試薬を、最大6ヶ月間室温で保管する。
40mM EDTA。0.5M EDTAのストック(Invitrogen、AM9262)及び水から40mM EDTAを作製し、次いで濾過滅菌する(VWR、28198-505)。試薬を、最大6ヶ月間室温で保管する。
細胞培養。15% FBS(Thermo Fisherカタログ番号SH30071.03)及び1% Pen-strep(Thermo Fisherカタログ番号15140122)を含むRPMI 1640培地(Thermo Fisher Scientificカタログ番号11875-093)でGm12878細胞を培養し、維持した。これらをカウントし、300,000細胞/mLで週に3回分割した。10% FBS、1%Pen-strep(ペニシリン及びストレプトマイシン)及び1×10^5M B-MEを含むRPMI1640培地でCH12-LXマウス細胞株を培養した。これらをカウントし、1×10^5細胞/mLの密度で維持し、細胞濃度を維持するために週に3回分割した。両方の細胞株を、5% CO、37℃でインキュベートした。
細胞株からの核分離及び固定。懸濁細胞については、~10~100百万個の細胞を得て、500xg、室温で5分間回転させることにより細胞をペレット化する。上清を吸引し、1mLのOmni-ATAC溶解緩衝液(10mM NaCl、3mM MgCl2、10mM Tris-HCl pH7.4、0.1% NP40、0.1% Tween20、及び0.01%ジギトニン)にペレットを再懸濁し、氷上で3分間インキュベートする。5mLの10mM NaCl、3mM MgCl2、10mM Tris-HCl pH7.4に0.1% Tween20を添加し、500xg、4℃で5分間ペレット化する。上清を吸引し、5mLの1X DPBS(Thermo Fisherカタログ番号14190144)に核を再懸濁する。核を架橋するために、140uLの37%ホルムアルデヒドをメタノール(VWRカタログ番号MK501602)に1回で添加し、最終濃度は1%であった。固定混合物を室温で10分間インキュベートし、1~2分ごとに反転させる。架橋反応をクエンチするために、250uLの2.5Mグリシンを添加し、室温で5分間インキュベートし、次いで氷上で15分間インキュベートして、架橋を完全に停止させる。20uLのクエンチした架橋混合物を、カウントするために20uLのトリパンブルーに入れる。架橋核を500xg、4℃で5分間回転させ、上清を吸引する。固定核を適切量の凍結緩衝液(pH8.0の50mM Tris、25%グリセロール、5mM Mg(OAc)、0.1mM EDTA、5mM DTT(Sigma-Aldrichカタログ番号646563-10X0.5mL)、1×プロテアーゼ阻害剤カクテル(Sigma-Aldrichカタログ番号P8340))に固定核を再懸濁し、1mLのアリコート当たり2百万個の核を得て、液体窒素中で急速凍結し、-80℃で保管する。
組織の調達及び保管。
対象となる組織を単離する。1X HBSS pH7.4(Caを含む、Mgを含む)中で、カルシウム及びマグネシウムを含み、フェノールレッドを含まず、Gibco BRL(500mL)14065-056.1X HBSSを含む1X HBSSを洗い流す。半分湿ったガーゼ上で組織を吸収乾燥させる(湿ったガーゼは、組織がガーゼに付着しないようにする)。不織布ガーゼDukal#6114。乾燥した組織を頑丈な箔(NC19180132、Fisher Scientific)上又はクライオチューブ内に置く。注:クライオチューブは、液体窒素を使用して、組織を急速凍結する、急速凍結プロセス中に閉じ込められた空気/水分に起因して、チューブ内に水結晶の「霜」を生成することができる。-80℃で組織を保管庫に保管する。
粉砕及び保管。粉砕日に、ドライアイスと金属との間に布タオルを置いて、予め標識したチューブ及びハンマーをドライアイス上で予め冷却する。18インチ×18インチの頑丈な箔を用いて「詰め物」を作製し、半分に2回折って矩形にする。更に2回折って、正方形にする。箔の「詰め物」の内側に凍結した組織を入れ、次いで、予め冷却した4mmプラスチックバッグの内側に、箔の詰め物に入れた組織を配置して、箔が破裂した場合に組織がドライアイス上に落下しないようにする。この組織パケットを、2枚のドライアイスの間で冷却する。予め冷却したハンマーを使用して、パケットの内側の組織を手動で粉砕する。3~5回の衝撃で粉砕動作を回避し、試料が加熱しないように休憩する。組織が均一になるまで必要に応じてハンマーを冷却し、粉砕を繰り返す。粉砕した組織を、予め標識し、予め冷却した1.5mLのLoBind及びヌクレアーゼフリーのスナップキャップ付き1.5mLチューブ(Eppendorfカタログ番号022431021)に等分する。粉状組織のアリコートは、更に処理するときまで-80℃で保管することができる。
凍結組織の核単離及び固定。開始前に、Omni溶解緩衝液(RSB+0.1%Tween+0.1% NP-40及び0.01%ジギトニン)及び0.1% Tween-20を含むRSBを調製した。核の単離日に、溶解緩衝液をチューブに直接添加する、又は細胞溶解緩衝液の入った60mmの皿に凍結したアリコートを入れ、刃を用いて更に細分化する。保管のある時点でアリコートが解凍しない限り、粉状組織のアリコートは、試料損失なしで保管チューブから容易に引き出されるべきである。元の組織重量1mg当たり推定~20,000個の細胞を得ることができ、性能は組織ごとに異なり得る。粉砕した組織を1mLのOmni溶解(RSB+0.1% Tween+0.1% NP-40及び0.01%ジギトニン)に再懸濁し、次いで15mLのファルコンチューブに移す。氷上で核を3分間インキュベートし、次いで、5mLのRSB+0.1% Tween20を添加する。核を500×g、4℃で5分間遠心分離する。上清を吸引し、5mLの1X DPBSに再懸濁する。1X DPBS中の核を100um細胞ストレーナー(VWRカタログ番号10199-658)に通して、組織塊を除去する。
ドラフト内で、1回で140uLの37%ホルムアルデヒド(VWR、MK501602)をメタノールに添加して1%の最終濃度にし、チューブを数回反転させて素早く混合することによって核を架橋する。1~2分ごとにチューブを静かに反転させながら、室温で正確に10分間インキュベートする。250uLの2.5Mグリシン(新たに作製し、濾過滅菌済み)を添加して、架橋反応をクエンチし、チューブを数回反転させてよく混合する。室温で5分間インキュベートし、次いで氷上で15分間インキュベートして、架橋を完全に停止させる。血球計を使用して核をカウントして添加する凍結緩衝液の最終量を確認する。目的は、~100~200万個の核/チューブを凍結することである。架橋核を500xg、4℃で5分間遠心分離し、上清を吸引し、1xプロテアーゼ阻害剤及び5mM DTTを補充した凍結緩衝液1~10mLにペレットを再懸濁する。液体窒素中で核を急速凍結し、-80℃で核を保管する。
sci ATAC-seq3試料の処理(ライブラリー構築及びqc)。解凍、透過処理、カウント、及びタグ化。開始前に、Omni溶解緩衝液(RSB+0.1%Tween+0.1% NP-40及び0.01%ジギトニン)及び0.1% Tween-20を含むRSBを調製した。凍結した固定核を-80℃から取り出し、ドライアイスの床に置く。解凍するまで37℃の水浴中で核を解凍し(~30秒~1分)、核を15mLのファルコンチューブに移す。核を500xg、4℃で5分間ペレット化する。ペレットを乱すことなく上清を吸引し、200uLのOmni溶解緩衝液にペレットを再懸濁し、次いで氷上で3分間インキュベートする。0.1% Tween20を含む1mLのATAC-RSBで溶解緩衝液を洗い流し、チューブを3回静かに反転させて混合する。20uLの核及び20uLのトリパンブルーを取って、核をカウントする。カウントしつつ、今後は可能な限り、核を氷上に維持する。384^3dでの3レベルインデクシング実験では、核入力数は、組織ごとのウェル当たり480万個@50,000の核、又は96回の反応にわたって拡散した試料である。バッチごとに、23の試料/組織、並びに24番目の試料及び対照としてマウス核とヒト核との混合物が存在する。タグ付け反応用のマスターミックスを作製する(表1)。
Figure 2023508792000003
試料ごとに、(カウントに基づいて)225,000個の核を取り、500xg、4℃で5分間回転させ、上清を吸引し、213uLの予め作製したタグ付け反応マスターミックスにペレットを再懸濁する。LoBind 96ウェルプレート(Eppendorfカタログ番号30129512)の4ウェルにわったって広口チップ(Rainin Instrument Coカタログ番号30389249)を使用して、タグ付けミックス中の47.5uLの核を等分する。ウェル当たり2.5uLのNextera v2酵素(Illumina Incカタログ番号FC-121-1031)を添加し、接着テープでプレートを封止し、500xgで30秒間回転させる。プレートを55℃で30分間インキュベートしてDNAのタグ付けを行う。25mLの40mM EDTA及び3.9uLの6.4Mスペルミジン(最終的に20mM EDTA及び1mMスペルミジン)を混合することによって、停止反応マスターミックスを作製する。50uLの停止反応混合物(1mMスペルミジンを含む40mM EDTA)を添加してタグ付け反応を停止させ、次いで37℃で15分間インキュベートした。
プール、PNK反応、及びN5ライゲーション。広口チップを使用して、タグ付き核を(試料ごとに)プールし、500xg、4℃で5分間ペレット化し、次いで、0.1% Tween20を含む500uLのATAC-RSBで洗浄した。核を500xg、4℃で5分間ペレット化し、上清を吸引し、試料ごとに、0.1% Tween-20を含む18uLのATAC-RSBに再懸濁する。PNK反応マスターミックスを作製する(表2)。
Figure 2023508792000004
72uLのPNKマスターミックスを各試料に添加する。5uLのPNK反応ミックスを(4枚の96ウェルプレートにわたって16ウェルに)等分する。接着テープを用いて封止し、500xg、4℃で5分間回転させる。PNK反応物を37℃で30分間インキュベートした。440回の反応に十分なN5ライゲーションマスターミックスを作製する(表3)。
Figure 2023508792000005
マルチチャネルを使用して、13.8uLのライゲーションマスターミックスを各PNK反応に直接添加する。マルチチャネル、つまり96ヘッドディスペンサー(Liquidator、カタログ番号17010335)を使用し、4枚の96ウェルプレートにわたって各ウェルに1.2uLの50uM N5_オリゴ(IDT)を添加する。接着テープを用いて封止し、500xgで30秒間回転させ、次いで25℃で1時間インキュベートする。初回のライゲーション後、20uLのEDTA及びスペルミジンミックス(20mM EDTA及び1mMスペルミジン)を添加してライゲーション反応を停止させ、37℃で15分間インキュベートする。広口チップを使用して、各ウェルをトラフにプールし、50mLのファルコンチューブに移す。核を500xg、4℃で5分間ペレット化し、上清を吸引し、0.1% Tween-20を含む1mLのATAC-RSBに核を再懸濁して、残留ライゲーション反応ミックスを全て洗浄する。核を500xg、4℃で5分間ペレット化し、ペレットを乱すことなく上清を吸引する。
N7ライゲーション。440回の反応に十分なN7ライゲーションマスターミックス(1X T7リガーゼ緩衝液、9uM N7_スプリント(IDT)、水、及びT7 DNAリガーゼ)を調製し、ライゲーションマスターミックスで核を再懸濁する(表4)。
Figure 2023508792000006
マスターミックスに懸濁した核をトラフに移し、広口チップを使用して、18.8uLのライゲーションマスターミックスを4枚の96ウェルLoBindプレートに等分し、次いで、1.2uLの50uM N7_オリゴ(IDT)を、4枚の96ウェルプレートにわたって各ウェルに添加する。接着テープでプレートを封止し、500xgで30秒間回転させ、次いで25℃で1時間インキュベートし、20uLのEDTA及びスペルミジンミックス(20mM EDTA及び1mMスペルミジン)を添加し、37℃で15分間インキュベートすることによってライゲーションを停止させる。
プール、カウント、及び希釈。広口チップを使用してトラフ内のウェルをプールし、次いで、50mLのファルコンチューブに移す。核を500xg、4℃で5分間ペレット化し、上清を吸引し、2mLのQiagen EB緩衝液(Qiagenカタログ番号19086)に核を再懸濁する。40um濾過キャップ付きFACチューブ(Fisher Scientificカタログ番号352235)を使用して核を濾過する20uLの再懸濁し、濾過した核及び20uLのトリパンブルーを得て、核をカウントする。100~300個の核/uLに核を希釈し、10uL/ウェルを4枚の96ウェルLoBindプレートに等分する。
未架橋。核を逆架橋するために、EB緩衝液、プロテイナーゼk(Qiagen、カタログ番号19133)及び1% SDS(それぞれ1uL/0.5uL/0.5uL/ウェル)の逆架橋マスターミックスを作製し、2uLを各ウェルの核に添加する。接着テープで封止し、500xgで30秒間回転させ、65℃で16時間インキュベートする。
試験PCR及びゲルのQC。開始前に未架橋プレートを短時間スピンダウンする。6回の反応に十分なPCRマスターミックスを作製する(表5)。
Figure 2023508792000007
35.5uLのPCRマスターミックスを、8チューブストリップ(キャップなし、白)(Bio-Rad Laboratories、TLS0851)に等分する。1.25uLの10 uM P7及びP5プライマーを添加する。12uLの未架橋核をPCR及びプライマーミックスに添加する。オプティカルフラット8ストリップキャップ(Bio-Rad Laboratories、TCS-0803)で反応チューブにキャップをかぶせる。qPCR機に入れ、増幅をモニタリングして、最適サイクル数を決定する(72℃で5分間、98℃で30秒間、「98℃で10秒間、63℃で30秒間、72℃で1分間」を30サイクル、次に10℃で保持)。試験ウェルに基づいて、試験ウェルが全て明確に増幅されるものの、ウェルのいずれかの蛍光強度が飽和する前であるサイクル数を選択する。QCのために1ulのPCR産物を得る:試料=1uL+9uLのヌクレアーゼフリー水+2uLの6xオレンジ染料;100bpのラダー(1:10)=1uL+9uLのヌクレアーゼフリー水+2uLの6xオレンジ染料。6% TBEポリアクリルアミドゲルを180ボルトで35分間実行する。5uLのSYBR Gold及び50mLの0.5X TBE緩衝液を用いて、室温で5分間染色する。
PCRプレートの設定。プレートを短時間スピンダウンする。PCR試験結果が利用可能になるまで氷上に置く。PCRマスターミックスを作製する(表6):
Figure 2023508792000008
増幅中に使用する行及び列のプライマーの組み合わせを記す。接着テープで封止し、次いで500xgで30秒間回転させる。試験PCRの結果からの最適サイクル数を使用して、PCRプレートを実行する(72℃で5分間、98℃で30秒間、10~20サイクル:98℃で10秒間、63℃で30秒間、72℃で1分間、次いで10℃で保持)。
PCR増幅のクリーンアップ及びQC。Zymo Clean&Concentrator-5を用いてPCR産物を洗浄する。25uLの各PCR反応物(2.4mL)をトラフに合わせ、2倍量の結合緩衝液(4.8mL)を添加し、4本のC&Cカラムに分割し(各カラムで600uLの回転を3回)、200uLのZymo洗浄緩衝液を添加し、回転させ(合計2回洗浄)、最後の洗浄後に更に1回回転させてカラムを1分間乾燥させ、25uLのQiagen溶出緩衝液に溶出させ(緩衝液をカラム上に1分間立て、次いで最高速度で1分間回転させる)、4つの溶出物を合わせ、1X AMPureビーズ(100uL)中で2回目の洗浄を行い、上清が透明になるまでMPC(磁気粒子捕集器)に入れて、上清を吸引する。200uLの80%エタノールでビーズを2回洗浄し、ビーズを過剰に乾燥させることなく、ビーズの色が鈍くなるまでビーズを30秒~1分間乾燥させ、25uLのQiagen EB緩衝液にビーズを溶出させ、MPCに入れ、Tapestationを使用して、ライブラリーQC用の清潔なチューブに上澄みを移し、製造元の仕様書に従ってD5000 ScreenTapeアッセイを使用する。断片解析のために、領域モル濃度を計算する200~1000bpの領域表を作る。当該nM(nmol/L)濃度を使用して、EB緩衝液及び0.1% Tween-20でライブラリーを2nMに希釈する複数のライブラリーをプールする場合、各ライブラリーを2nMに正規化し、シークエンシング用の等モルプールを作製する。
次のシークエンシング(150サイクルキット)。ライブラリー変性:2N NaOHを0.2N NaOHに(10uLの1Nを90uLのヌクレアーゼフリー水に)希釈し、新しい1.5Lo-Bindチューブで、10uLの0.1N NaOHを移し、プールした10uLの2nMライブラリーを添加し、室温で5分間インキュベートし、980uLのHT1を添加して、変性ライブラリーを20pMに希釈し、変性ライブラリーを1.8pMのローディング濃度に希釈し(135uLの20pM+1365uLのHT1)、カスタムプライマーを0.6uMのNextSeqシークエンシングレシピ名:3LV2_sciATAC_highに希釈する。
R1-gDNAの50塩基、R2-gDNAの50塩基。
インデックス1-20塩基(N7オリゴの10塩基、15暗サイクル、10塩基PCRバーコード)、インデックス2-20塩基(N5オリゴの10塩基、15暗サイクル、10塩基PCRバーコード)。
シークエンシングプライマー:3L_NexteraV2_R1_seq TCGTCGGCAGCGTCAGATGTGTATAAGAGACAG(配列番号5);L_NexteraV2_R2_seq GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG(配列番号6);3LV2_IDX1 CTCCGAGCCCACGAGACGACAAGTC(配列番号7);3LV2_IDX2 ACACATCTGACGCTGCCGACGACTGATTAC(配列番号8)。
全ての特許、特許出願、及び刊行物、並びに本明細書で引用した電子的に利用可能な資料の完全な開示(例えば、GenBank及びRefSeqでのヌクレオチド配列の提出、SwissProt、PIR、PRF、PDBでのアミノ酸配列の提出、並びにGenBank及びRefSeqにおける注釈付きコード領域からの翻訳)は、参照によりその全体が組み込まれる。刊行物で参照されている補足資料(補足表、補足図、補足資料及び方法、並びに/又は補足実験データなど)も同様に、参照によりその全体が組み込まれる。本出願の開示と、参照により本明細書に組み込まれる文書の開示との間に矛盾が存在する場合、本出願の開示が優先するものとする。前述の詳細な説明及び実施例は、理解を明確にするためにのみ提供されている。それから不必要な制限を理解する必要はない。当業者に明らかな変形は、特許請求の範囲によって定義される開示に含まれるため、本開示は、図示及び記載された正確な詳細に限定されない。
別途記載のない限り、本明細書及び特許請求の範囲で使用される成分、分子量などの量を表す全ての数は、全ての場合において、用語「約」によって修飾されるものとして理解されるべきである。したがって、別途記載のない限り、本明細書及び特許請求の範囲に記載される数値パラメータは、本開示によって得られることが求められる所望の特性に応じて変化し得る近似値である。少なくとも、かつ均等論を特許請求の範囲に限定する試みとしてではなく、各数値パラメータは、少なくとも、報告された有効桁数に照らして、通常の四捨五入法を適用することによって解釈されるべきである。
本開示の広い範囲を示す数値範囲及びパラメータは近似値であることにかかわらず、特定の実施例に記載される数値は、可能な限り正確に報告される。しかしながら、全ての数値は、それぞれの試験測定値に見出される標準偏差から必然的に生じる範囲を本質的に含む。
全ての見出しは読者の便宜のためのものであり、特に明記されていない限り、見出しに続くテキストの意味を制限するために使用されるべきではない。

Claims (85)

  1. 生物学的特徴を含む細胞のサブ集団を同定するための方法であって、
    (a)単一細胞シークエンシングライブラリーを提供することであって、
    前記シークエンシングライブラリーは、複数の修飾ターゲット核酸を含み、
    前記修飾ターゲット核酸は、少なくとも1つのインデックス配列を含む、ことと、
    (b)生物学的特徴と同じ修飾ターゲット核酸に存在する前記インデックス配列を同定するために、前記シークエンシングライブラリーをターゲットシークエンシングによって精査することであって、
    前記生物学的特徴に関連する前記インデックス配列は、マーカーインデックス配列である、ことと、
    (c)サブライブラリーを得るために前記シークエンシングライブラリーを改変することであって、
    前記サブライブラリーは、マーカーインデックス配列を含まない、前記シークエンシングライブラリー内に存在する他の修飾ターゲット核酸と比較して、前記マーカーインデックス配列を含む前記修飾ターゲット核酸の増加した表現を含む、ことと、
    (d)マーカーインデックス配列を含む前記修飾ターゲット核酸のヌクレオチド配列を決定することと、を含む、方法。
  2. 前記単一細胞シークエンシングライブラリーは、複数の試料からの核酸を含む、請求項1に記載の方法。
  3. 前記複数の試料は、(i)異なる生物から得られた同一組織の試料、(ii)1つの生物からの異なる組織の試料、又は(iii)異なる生物からの異なる組織の試料を含む、請求項2に記載の方法。
  4. 工程(b)において、2つ以上のマーカーインデックス配列が同定される、請求項1に記載の方法。
  5. 前記単一細胞コンビナトリアルシークエンシングライブラリーは、前記細胞若しくは前記核の全ゲノム又は前記ゲノムのサブセットを表すターゲット核酸を含む、請求項1に記載の方法。
  6. 前記ゲノムの前記サブセットは、前記細胞又は前記核のトランスクリプトーム、アクセス可能クロマチン、DNA、立体構造状態、又はタンパク質を表すターゲット核酸を含む、請求項5に記載の方法。
  7. 前記改変することは、前記マーカーインデックス配列を含む前記修飾ターゲット核酸の濃縮を含む、請求項1~6のいずれか一項に記載の方法。
  8. 前記濃縮することはハイブリダイゼーションベースの方法を含む、請求項7に記載の方法。
  9. 前記ハイブリダイゼーションベースの方法は、ハイブリッド捕捉、増幅、又はCRISPR(d)Cas9を含む、請求項8に記載の方法。
  10. 前記改変することは、前記マーカーインデックス配列を含まない前記修飾ターゲット核酸の枯渇を含む、請求項9に記載の方法。
  11. 前記枯渇はハイブリダイゼーションベースの方法を含む、請求項10に記載の方法。
  12. 前記ハイブリダイゼーションベースの方法は、ハイブリッド捕捉、増幅、又はCRISPR(d)Cas9を含む、請求項11に記載の方法。
  13. 前記生物学的特徴は、種のタイプを示すヌクレオチド配列を含む、請求項1に記載の方法。
  14. 前記種のタイプは前記細胞の種を含む、請求項13に記載の方法。
  15. 前記生物学的特徴は、16sサブユニット、18sサブユニット、又はITS非転写領域のヌクレオチドを含む、請求項14に記載の方法。
  16. 前記生物学的特徴は、細胞クラスを示すヌクレオチド配列を含む、請求項1に記載の方法。
  17. 前記細胞クラスは、発現パターン、エピジェネティックパターン、免疫遺伝子組み換え、又はこれらの組み合わせを含む、請求項16に記載の方法。
  18. 前記エピジェネティックパターンは、メチル化標識、メチル化パターン、アクセス可能DNA、又はこれらの組み合わせを含む、請求項17に記載の方法。
  19. 前記生物学的特徴は、疾患状態又はリスクを示すヌクレオチド配列を含む、請求項1に記載の方法。
  20. 疾患状態又はリスクは、変異DNA配列、変異発現パターン、又は疾患と相関する変異エピジェネティックパターンを含む、請求項19に記載の方法。
  21. 前記変異DNA配列は、少なくとも1つの一塩基多型を含む、請求項20に記載の方法。
  22. 前記変異発現パターンは、バイオマーカーの発現を含む、請求項21に記載の方法。
  23. 前記変異エピジェネティックパターンは、メチル化標識、メチル化パターンを含む、請求項22に記載の方法。
  24. 前記修飾ターゲット核酸は、少なくとも2つの区画特異的インデックス配列の連続インデックスを含み、前記2つのインデックス配列間には7個以上のヌクレオチドが存在しない、請求項1に記載の方法。
  25. 前記連続インデックスは、前記修飾ターゲット核酸の各末端に存在する、請求項24に記載の方法。
  26. 前記連続インデックスの長さは少なくとも55ヌクレオチドである、請求項24又は25に記載の方法。
  27. 前記連続インデックスの1つのコピーは、前記修飾ターゲット核酸に存在する、請求項24~26のいずれか一項に記載の方法。
  28. 前記連続インデックスの2つのコピーは、前記修飾ターゲット核酸に存在する、請求項24~26のいずれか一項に記載の方法。
  29. 前記シークエンシングライブラリーの前記複数の修飾ターゲット核酸は、少なくとも100,000個の異なる細胞又は核を表す、請求項1に記載の方法。
  30. 前記単一細胞コンビナトリアルシークエンシングライブラリーを提供することは、
    試料を処理してライブラリーを作製することであって、前記試料は、生物から得られたメタゲノミクス試料である、ことを含む、請求項1に記載の方法。
  31. 前記生物は哺乳類である、請求項30に記載の方法。
  32. 前記メタゲノミクス試料は、共生微生物又は病原微生物を含む疑いのある組織を含む、請求項30又は31に記載の方法。
  33. 前記微生物は原核生物又は真核生物である、請求項32に記載の方法。
  34. 前記メタゲノミクス試料はマイクロバイオーム試料を含む、請求項30、31、又は33のいずれか一項に記載の方法。
  35. 前記単一細胞コンビナトリアルシークエンシングライブラリーを提供することは、
    ライブラリーを作製するために試料を処理することであって、前記試料は生物からのものである、ことを含む、請求項1に記載の方法。
  36. 前記生物は哺乳類である、請求項35に記載の方法。
  37. 前記試料からの核酸の一次供給源はRNAを含む、請求項35に記載の方法。
  38. 前記RNAはmRNAを含む、請求項37に記載の方法。
  39. 前記試料からの核酸の一次供給源はDNAを含む、請求項35に記載の方法。
  40. 前記DNAは全細胞ゲノムDNAを含む、請求項39に記載の方法。
  41. 前記全細胞ゲノムDNAはヌクレオソームを含む、請求項40に記載の方法。
  42. 前記試料からの核酸の前記一次供給源は無細胞DNAを含む、請求項35に記載の方法。
  43. 前記試料は癌細胞を含む、請求項35に記載の方法。
  44. 前記単一細胞コンビナトリアルシークエンシングライブラリーを提供することは、単一核トランスクリプトームシークエンシング、単一細胞トランスクリプトームシークエンシング、単一細胞トランスクリプトーム及びトランスポゾンアクセス可能クロマチンシークエンシング、単一核の全ゲノムシークエンシング、トランスポゾンアクセス可能クロマチンの単一核シークエンシング、単一細胞エピトープシークエンシング、sci-HiC、及びsci-METから選択される単一細胞コンビナトリアルインデクシング法を用いてライブラリーを作製することを含む、請求項1に記載の方法。
  45. 前記提供することは、各細胞又は核から2つの異なる単一細胞コンビナトリアルシークエンシングライブラリーを提供することを含む、請求項44に記載の方法。
  46. 前記2つの異なる単一細胞コンビナトリアルシークエンシングライブラリーは、単一核トランスクリプトームシークエンシング、単一細胞トランスクリプトームシークエンシング、単一細胞トランスクリプトーム及びトランスポゾンアクセス可能クロマチンシークエンシング、単一核の全ゲノムシークエンシング、トランスポゾンアクセス可能クロマチンの単一核シークエンシング、sci-HiC、及びsci-METから選択される単一細胞コンビナトリアルインデクシング法から選択される、請求項45に記載の方法。
  47. 前記核酸の前記ヌクレオチド配列を決定するためにシークエンシング手順を実行することを更に含む、請求項1に記載の方法。
  48. 複数の単一核又は単一細胞からの核酸を含むシークエンシングライブラリーを調製するための方法であって、
    (a)複数の核又は細胞を提供することであって、前記核又は前記細胞はヌクレオソームを含む、ことと、
    (b)前記複数の核又は細胞を、トランスポザーゼ及びユニバーサル配列を含むトランスポソーム複合体と接触させることであって、前記接触させることは、前記ユニバーサル配列をDNA核酸に組み込み、前記ユニバーサル配列を含む二本鎖DNA核酸をもたらすのに好適な条件を更に含む、ことと、
    (d)前記複数の核又は細胞を第1の複数の区画に分配することであって、
    各区画は、核又は細胞のサブセットを含む、ことと、
    (e)インデックス付き核又は細胞を生成するために、核又は細胞の各サブセット内のDNA分子を処理することであって、
    前記処理することは、核又は細胞の各サブセットに存在するDNA核酸に、第1の区画特異的インデックス配列を付加して、インデックス付き核又は細胞に存在するインデックス付き核酸をもたらし、
    前記処理することは、ライゲーション、プライマー伸長、ハイブリダイゼーション、増幅、又はこれらの組み合わせを含む、ことと、
    (g)プールされたインデックス付き核又は細胞を生成するために、前記インデックス付き核又は細胞を組み合わせることと、を含む、方法。
  49. 前記提供することは、複数の区画内に前記複数の核又は細胞を提供することを含み、各区画は核又は細胞のサブセットを含み、前記接触させることは、各区画を前記トランスポソーム複合体と接触させることを含み、前記方法は、前記接触させることの後に前記核又は細胞を組み合わせて、プールされた核又は細胞を生成することを更に含む、請求項48に記載の方法。
  50. 前記提供することは、前記単離された核の完全性を維持しながらヌクレオソーム枯渇核を生成するために、前記核を化学処理に供することを含む、請求項48に記載の方法。
  51. 前記インデックス付き核又は細胞を含む前記プールされたインデックス付き核又は細胞を第2の複数の区画に分配することであって、
    各区画は、核又は細胞のサブセットを含む、ことと、
    二重インデックス付き核又は細胞を生成するために、核又は細胞の各サブセット内のDNA分子を処理することであって、
    前記処理することは、核又は細胞の各サブセットに存在するDNA核酸に、第2の区画特異的インデックス配列を付加して、インデックス付き核又は細胞に存在する二重インデックス付き核酸をもたらし、
    前記処理することは、ライゲーション、プライマー伸長、ハイブリダイゼーション、増幅、又はこれらの組み合わせを含む、ことと、
    プールされた二重インデックス付き核又は細胞を生成するために、前記二重インデックス付き核又は細胞を組み合わせることと、を更に含む、請求項48に記載の方法。
  52. 前記二重インデックス付き核又は細胞を含む前記プールされた核又は細胞を第3の複数の区画に分配することであって、
    各区画は、核又は細胞のサブセットを含む、ことと、
    三重インデックス付き核又は細胞を生成するために、核又は細胞の各サブセット内のDNA分子を処理することであって、
    前記処理することは、核又は細胞の各サブセットに存在するDNA核酸に、第3の区画特異的インデックス配列を付加して、インデックス付き核又は細胞に存在する三重インデックス付き核酸をもたらし、
    前記処理することは、ライゲーション、プライマー伸長、ハイブリダイゼーション、増幅、又はこれらの組み合わせを含む、ことと、
    プールされた三重インデックス付き核又は細胞を生成するために、前記三重インデックス付き核又は細胞を組み合わせることと、を更に含む、請求項51に記載の方法。
  53. 前記分配する工程は希釈を含む、請求項48、51、又は52のいずれか一項に記載の方法。
  54. 前記区画はウェル、マイクロ流体区画、又は液滴を含む、請求項48、51、又は52のいずれか一項に記載の方法。
  55. 前記第1の複数の区画の区画は、50~100,000,000個の核又は細胞を含む、請求項48に記載の方法。
  56. 前記第2の複数の区画の区画は、50~100,000,000個の核又は細胞を含む、請求項51に記載の方法。
  57. 前記第3の複数の区画の区画は、50~100,000,000個の核又は細胞を含む、請求項52に記載の方法。
  58. 前記接触させることは、各サブセットを2つのトランスポソーム複合体と接触させることを含み、一方のトランスポソーム複合体は、第1のユニバーサル配列を含む第1のトランスポザーゼを含み、第2のトランスポソーム複合体は、第2のユニバーサル配列を含む第2のトランスポザーゼを含み、前記接触させることは、前記第1のユニバーサル配列及び前記第2のユニバーサル配列をDNA核酸に組み込んで、前記第1のユニバーサル配列及び前記第2のユニバーサル配列を含む二本鎖DNA核酸をもたらすのに好適な条件を更に含む、請求項48に記載の方法。
  59. 前記区画特異的インデックス配列を付加することは、ユニバーサル配列を含むヌクレオチド配列を前記核酸に付加し、次いで、前記区画特異的インデックス配列を前記核酸に付加する2工程プロセスを含む、請求項48、49、又は50のいずれか一項に記載の方法。
  60. 前記プールされたインデックス付き核又は細胞から前記インデックス付き核酸を得て、それにより、前記複数の核又は細胞からシークエンシングライブラリーを作製することを更に含む、請求項48に記載の方法。
  61. 前記プールされた二重インデックス付き核又は細胞から前記二重インデックス付き核酸を得て、それにより、前記複数の核又は細胞からシークエンシングライブラリーを作製することを更に含む、請求項49に記載の方法。
  62. 前記プールされた三重インデックス付き核又は細胞から前記三重インデックス付き核酸を得て、それにより、前記複数の核又は細胞からシークエンシングライブラリーを作製することを更に含む、請求項50に記載の方法。
  63. 複数の増幅部位を含む表面を提供する工程を更に含み、
    前記増幅部位は、遊離3’末端を有する結合した一本鎖捕捉オリゴヌクレオチドの少なくとも2つの集団を含み、
    複数のインデックスを含む個々の断片からアンプリコンのクローン集団をそれぞれ含む複数の増幅部位を生成するのに好適な条件下で、増幅部位を含む前記表面を、1つ、2つ、又は3つのインデックス配列を含む前記核酸断片と接触させることと、を更に含む、請求項60~62のいずれか一項に記載の方法。
  64. 核酸ライブラリーを調製するための方法であって、
    (a)複数の試料を提供することであって、各試料は複数の細胞又は核を含み、各試料の前記複数の細胞又は核は、1つ以上の別個の区画に存在する、ことと、
    (b)前記複数の核又は細胞を、トランスポソーム複合体がインデックス配列を含まないという条件で、前記トランスポザーゼ及びユニバーサル配列を含むトランスポソーム複合体と接触させることであって、前記接触させることは、前記ユニバーサル配列を核酸に組み込むのに好適な条件を更に含む、ことと、
    (c)各別個の区画の前記核酸に第1のインデックス配列を付加することと、
    (d)前記別個の区画の前記細胞又は核を組み合わせることと、
    (e)前記細胞又は核を複数の区画に分配することと、
    (f)前記複数の区画の前記核酸に第2のインデックス配列を付加することと、を含む、方法。
  65. 前記第1のインデックス配列、前記第2のインデックス配列、又はこれらの組み合わせは、ライゲーション、プライマー伸長、ハイブリダイゼーション、増幅、又はこれらの組み合わせによって付加される、請求項64に記載の方法。
  66. 工程(d)~(e)を繰り返して、第3又はそれ以上のインデックス配列を前記複数の区画の前記細胞又は前記核に付加する、請求項64又は65に記載の方法。
  67. 前記複数の核又は細胞は固定される、請求項64又は65のいずれか一項に記載の方法。
  68. 工程(c)又は工程(f)の後にインデックス付き核酸の増幅を更に含む、請求項64又は65のいずれか一項に記載の方法。
  69. 前記複数の区画の前記核酸を組み合わせ、前記核酸の前記配列を決定する工程(g)を更に含む、請求項64又は65のいずれか一項に記載の方法。
  70. 前記核酸の前記ヌクレオチド配列を決定するためにシークエンシング手順を実行することを更に含む、請求項64に記載の方法。
  71. 単一細胞又は単一核をシークエンシングするための方法であって、
    (a)試料内の各細胞又は核の核酸を一意にインデックス付けし、それにより、各細胞又は核のインデックス付きライブラリーを作製することと、
    (b)生物学的特徴を使用して、工程(a)からの、対象となる1つ以上のインデックス付きライブラリーを同定することと、
    (c)工程(b)の、対象となる前記インデックス付きライブラリーを濃縮し、それにより、濃縮ライブラリーを作製することと、
    (d)工程(c)からの前記濃縮ライブラリーをシークエンシングすることと、を含む、方法。
  72. 前記ライブラリーは、前記細胞又は前記核のDNA、RNA、又はタンパク質由来である、請求項71に記載の方法。
  73. 前記生物学的特徴は、DNA、RNA、若しくはタンパク質、又はこれらの組み合わせである、請求項71又は72のいずれか一項に記載の方法。
  74. 工程(a)における一意にインデックス付けすることは、少なくとも2つの異なるインデックスを前記細胞又は前記核の前記核酸に関連付けることを含む、請求項71又は72のいずれか一項に記載の方法。
  75. 前記少なくとも2つの異なるインデックスは連続インデックスである、請求項74に記載の方法。
  76. 前記濃縮ライブラリーは正の濃縮によって作製される、請求項71又は72のいずれか一項に記載の方法。
  77. 前記正の濃縮は増幅を含む、請求項76に記載の方法。
  78. 前記正の濃縮は捕捉剤を含む、請求項76に記載の方法。
  79. 前記正の濃縮は固体支持体を含む、請求項76に記載の方法。
  80. 前記濃縮ライブラリーは負の濃縮によって作製される、請求項76に記載の方法。
  81. 工程(c)における、対象となる前記インデックス付きライブラリーを同定することは、前記インデックスをシークエンシングすることを含む、請求項71又は72のいずれか一項に記載の方法。
  82. 単一細胞又は単一核をシークエンシングするための方法であって、
    (a)試料を提供することであって、前記試料は複数の核又は細胞を含む、ことと、
    (b)前記試料内の各核又は細胞に第1のインデックスを関連付けることと、
    (c)前記試料を複数の区画に分割することと、
    (d)前記複数の区画の各核又は細胞に第2のインデックスを関連付けることと、
    (e)前記複数の区画をプールすることと、
    (f)前記プールされた区画をシークエンシングすることと、
    (g)生物学的特徴と関連付けられた第1のインデックス及び第2のインデックスの組み合わせを同定することと、
    (h)工程(g)からの第1のインデックス及び第2のインデックスの前記同定された組み合わせを使用して、前記プールされた区画からの生物学的特徴を濃縮することと、を含む、方法。
  83. キットであって、
    (a)複数のトランスポソーム複合体であって、各トランスポソーム複合体は、トランスポザーゼ及びトランスポゾン配列を含み、前記トランスポゾン配列はインデックス付けされていない、複数のトランスポソーム複合体と、
    (b)第1の複数のインデックスオリゴヌクレオチドであって、前記第1の複数のインデックスオリゴヌクレオチドは、少なくとも2つの異なる配列を有するオリゴヌクレオチドを含む、第1の複数のインデックスオリゴヌクレオチドと、
    (c)前記インデックスオリゴヌクレオチドと共に使用するためのリガーゼ酵素と、を含む、キット。
  84. 第2の複数のインデックスオリゴヌクレオチドを更に含み、前記第2の複数のインデックスオリゴヌクレオチドは、前記第1の複数のインデックスオリゴヌクレオチドとは異なる配列を有するオリゴヌクレオチドを含む、請求項83に記載のキット。
  85. 第3の複数のインデックスオリゴヌクレオチドを更に含み、前記第3の複数のインデックスオリゴヌクレオチドは、前記第1の複数のインデックスオリゴヌクレオチド及び前記第2の複数のインデックスオリゴヌクレオチドとは異なる配列を有するオリゴヌクレオチドを含む、請求項83に記載のキット。
JP2021557409A 2019-12-19 2020-12-18 ハイスループット単一細胞ライブラリー、並びに製造方法及び使用方法 Pending JP2023508792A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962950670P 2019-12-19 2019-12-19
US62/950,670 2019-12-19
PCT/US2020/066013 WO2021127436A2 (en) 2019-12-19 2020-12-18 High-throughput single-cell libraries and methods of making and of using

Publications (2)

Publication Number Publication Date
JP2023508792A true JP2023508792A (ja) 2023-03-06
JPWO2021127436A5 JPWO2021127436A5 (ja) 2023-12-25

Family

ID=74191887

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021557409A Pending JP2023508792A (ja) 2019-12-19 2020-12-18 ハイスループット単一細胞ライブラリー、並びに製造方法及び使用方法

Country Status (12)

Country Link
US (1) US20220356461A1 (ja)
EP (1) EP3927824A2 (ja)
JP (1) JP2023508792A (ja)
KR (1) KR20220118295A (ja)
CN (1) CN114008199A (ja)
AU (1) AU2020407641A1 (ja)
BR (1) BR112021019640A2 (ja)
CA (1) CA3134746A1 (ja)
IL (1) IL286643A (ja)
MX (1) MX2021011847A (ja)
SG (1) SG11202109486QA (ja)
WO (1) WO2021127436A2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240024835A (ko) * 2021-06-24 2024-02-26 일루미나, 인코포레이티드 비이드-기반 핵산의 조합 인덱싱을 위한 방법 및 조성물
WO2023137292A1 (en) * 2022-01-12 2023-07-20 Jumpcode Genomics, Inc. Methods and compositions for transcriptome analysis

Family Cites Families (81)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4683195A (en) 1986-01-30 1987-07-28 Cetus Corporation Process for amplifying, detecting, and/or-cloning nucleic acid sequences
US4683202A (en) 1985-03-28 1987-07-28 Cetus Corporation Process for amplifying nucleic acid sequences
CA1323293C (en) 1987-12-11 1993-10-19 Keith C. Backman Assay using template-dependent nucleic acid probe reorganization
CA1341584C (en) 1988-04-06 2008-11-18 Bruce Wallace Method of amplifying and detecting nucleic acid sequences
WO1989009835A1 (en) 1988-04-08 1989-10-19 The Salk Institute For Biological Studies Ligase-based amplification method
JP2801051B2 (ja) 1988-06-24 1998-09-21 アムジエン・インコーポレーテツド 核酸塩基配列を検出するための方法及び試薬
US5130238A (en) 1988-06-24 1992-07-14 Cangene Corporation Enhanced nucleic acid amplification process
WO1990001069A1 (en) 1988-07-20 1990-02-08 Segev Diagnostics, Inc. Process for amplifying and detecting nucleic acid sequences
US5185243A (en) 1988-08-25 1993-02-09 Syntex (U.S.A.) Inc. Method for detection of specific nucleic acid sequences
CA2044616A1 (en) 1989-10-26 1991-04-27 Roger Y. Tsien Dna sequencing
AU635105B2 (en) 1990-01-26 1993-03-11 Abbott Laboratories Improved method of amplifying target nucleic acids applicable to both polymerase and ligase chain reactions
US5573907A (en) 1990-01-26 1996-11-12 Abbott Laboratories Detecting and amplifying target nucleic acids using exonucleolytic activity
US5223414A (en) 1990-05-07 1993-06-29 Sri International Process for nucleic acid hybridization and amplification
US5455166A (en) 1991-01-31 1995-10-03 Becton, Dickinson And Company Strand displacement amplification
JP3175110B2 (ja) 1994-02-07 2001-06-11 オーキッド・バイオサイエンシーズ・インコーポレイテッド リガーゼ/ポリメラーゼ媒体された単一ヌクレオチド多型のジェネティックビットアナリシスおよび遺伝子解析におけるその使用
US5677170A (en) 1994-03-02 1997-10-14 The Johns Hopkins University In vitro transposition of artificial transposons
AU687535B2 (en) 1994-03-16 1998-02-26 Gen-Probe Incorporated Isothermal strand displacement nucleic acid amplification
US5846719A (en) 1994-10-13 1998-12-08 Lynx Therapeutics, Inc. Oligonucleotide tags for sorting and identification
US5750341A (en) 1995-04-17 1998-05-12 Lynx Therapeutics, Inc. DNA sequencing by parallel oligonucleotide extensions
GB9620209D0 (en) 1996-09-27 1996-11-13 Cemu Bioteknik Ab Method of sequencing DNA
GB9626815D0 (en) 1996-12-23 1997-02-12 Cemu Bioteknik Ab Method of sequencing DNA
ES2563643T3 (es) 1997-04-01 2016-03-15 Illumina Cambridge Limited Método de secuenciación de ácido nucleico
US6969488B2 (en) 1998-05-22 2005-11-29 Solexa, Inc. System and apparatus for sequential processing of analytes
AR021833A1 (es) 1998-09-30 2002-08-07 Applied Research Systems Metodos de amplificacion y secuenciacion de acido nucleico
US6274320B1 (en) 1999-09-16 2001-08-14 Curagen Corporation Method of sequencing a nucleic acid
US7582420B2 (en) 2001-07-12 2009-09-01 Illumina, Inc. Multiplex nucleic acid reactions
US7611869B2 (en) 2000-02-07 2009-11-03 Illumina, Inc. Multiplexed methylation detection methods
US7955794B2 (en) 2000-09-21 2011-06-07 Illumina, Inc. Multiplex nucleic acid reactions
US7001792B2 (en) 2000-04-24 2006-02-21 Eagle Research & Development, Llc Ultra-fast nucleic acid sequencing device and a method for making and using the same
CA2415897A1 (en) 2000-07-07 2002-01-17 Susan H. Hardin Real-time sequence determination
EP1354064A2 (en) 2000-12-01 2003-10-22 Visigen Biotechnologies, Inc. Enzymatic nucleic acid synthesis: compositions and methods for altering monomer incorporation fidelity
AR031640A1 (es) 2000-12-08 2003-09-24 Applied Research Systems Amplificacion isotermica de acidos nucleicos en un soporte solido
US7057026B2 (en) 2001-12-04 2006-06-06 Solexa Limited Labelled nucleotides
US8030000B2 (en) 2002-02-21 2011-10-04 Alere San Diego, Inc. Recombinase polymerase amplification
US7399590B2 (en) 2002-02-21 2008-07-15 Asm Scientific, Inc. Recombinase polymerase amplification
DK3363809T3 (da) 2002-08-23 2020-05-04 Illumina Cambridge Ltd Modificerede nukleotider til polynukleotidsekvensering
CA2498764C (en) 2002-09-20 2015-11-10 New England Biolabs, Inc. Helicase dependent amplification of nucleic acids
WO2005003304A2 (en) 2003-06-20 2005-01-13 Illumina, Inc. Methods and compositions for whole genome amplification and genotyping
GB0321306D0 (en) 2003-09-11 2003-10-15 Solexa Ltd Modified polymerases for improved incorporation of nucleotide analogues
EP1701785A1 (en) 2004-01-07 2006-09-20 Solexa Ltd. Modified molecular arrays
CN101914620B (zh) 2004-09-17 2014-02-12 加利福尼亚太平洋生命科学公司 核酸测序的方法
EP1828412B2 (en) 2004-12-13 2019-01-09 Illumina Cambridge Limited Improved method of nucleotide detection
JP4990886B2 (ja) 2005-05-10 2012-08-01 ソレックサ リミテッド 改良ポリメラーゼ
EP1907571B1 (en) 2005-06-15 2017-04-26 Complete Genomics Inc. Nucleic acid analysis by random mixtures of non-overlapping fragments
GB0514936D0 (en) 2005-07-20 2005-08-24 Solexa Ltd Preparation of templates for nucleic acid sequencing
US7405281B2 (en) 2005-09-29 2008-07-29 Pacific Biosciences Of California, Inc. Fluorescent nucleotide analogs and uses therefor
GB0522310D0 (en) 2005-11-01 2005-12-07 Solexa Ltd Methods of preparing libraries of template polynucleotides
EP2495337A1 (en) 2006-02-24 2012-09-05 Callida Genomics, Inc. High throughput genome sequencing on DNA arrays
SG10201405158QA (en) 2006-02-24 2014-10-30 Callida Genomics Inc High throughput genome sequencing on dna arrays
EP2021503A1 (en) 2006-03-17 2009-02-11 Solexa Ltd. Isothermal methods for creating clonal single molecule arrays
US8241573B2 (en) 2006-03-31 2012-08-14 Illumina, Inc. Systems and devices for sequence by synthesis analysis
WO2008051530A2 (en) 2006-10-23 2008-05-02 Pacific Biosciences Of California, Inc. Polymerase enzymes and reagents for enhanced nucleic acid sequencing
WO2008070352A2 (en) 2006-10-27 2008-06-12 Complete Genomics, Inc. Efficient arrays of amplified polynucleotides
US8349167B2 (en) 2006-12-14 2013-01-08 Life Technologies Corporation Methods and apparatus for detecting molecular interactions using FET arrays
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
ES2923759T3 (es) 2006-12-14 2022-09-30 Life Technologies Corp Aparato para medir analitos utilizando matrices de FET
EP2121983A2 (en) 2007-02-02 2009-11-25 Illumina Cambridge Limited Methods for indexing samples and sequencing multiple nucleotide templates
WO2010003132A1 (en) 2008-07-02 2010-01-07 Illumina Cambridge Ltd. Using populations of beads for the fabrication of arrays on surfaces
US20100137143A1 (en) 2008-10-22 2010-06-03 Ion Torrent Systems Incorporated Methods and apparatus for measuring analytes
US9080211B2 (en) 2008-10-24 2015-07-14 Epicentre Technologies Corporation Transposon end compositions and methods for modifying nucleic acids
WO2012061832A1 (en) 2010-11-05 2012-05-10 Illumina, Inc. Linking sequence reads using paired code tags
US9074251B2 (en) 2011-02-10 2015-07-07 Illumina, Inc. Linking sequence reads using paired code tags
US8829171B2 (en) 2011-02-10 2014-09-09 Illumina, Inc. Linking sequence reads using paired code tags
US8951781B2 (en) 2011-01-10 2015-02-10 Illumina, Inc. Systems, methods, and apparatuses to image a sample for biological or chemical analysis
WO2012170936A2 (en) 2011-06-09 2012-12-13 Illumina, Inc. Patterned flow-cells useful for nucleic acid analysis
WO2013044018A1 (en) 2011-09-23 2013-03-28 Illumina, Inc. Methods and compositions for nucleic acid sequencing
CA3003082C (en) 2011-10-28 2020-12-15 Illumina, Inc. Microarray fabrication system and method
US8938309B2 (en) 2012-01-16 2015-01-20 Greatbatch Ltd. Elevated hermetic feedthrough insulator adapted for side attachment of electrical conductors on the body fluid side of an active implantable medical device
EP4219012A1 (en) 2012-04-03 2023-08-02 Illumina, Inc. Method of imaging a substrate comprising fluorescent features and use of the method in nucleic acid sequencing
US8895249B2 (en) 2012-06-15 2014-11-25 Illumina, Inc. Kinetic exclusion amplification of nucleic acid libraries
US9512422B2 (en) 2013-02-26 2016-12-06 Illumina, Inc. Gel patterned surfaces
CN105339503B (zh) 2013-05-23 2020-04-10 斯坦福大学托管董事会 用于个人表观基因组学的至天然染色质的转座
DK3017065T3 (en) 2013-07-01 2018-11-26 Illumina Inc Catalyst-free Surface functionalization and polymer grafting
US9677132B2 (en) 2014-01-16 2017-06-13 Illumina, Inc. Polynucleotide modification on solid support
US10017759B2 (en) * 2014-06-26 2018-07-10 Illumina, Inc. Library preparation of tagged nucleic acid
JP6808617B2 (ja) 2014-10-17 2021-01-06 イルミナ ケンブリッジ リミテッド 連続性を維持した転位
PL3212684T3 (pl) 2014-10-31 2020-10-19 Illumina Cambridge Limited Polimery i powłoki z kopolimeru DNA
EP3725893A1 (en) 2015-02-10 2020-10-21 Illumina, Inc. Compositions for analyzing cellular components
US11535883B2 (en) 2016-07-22 2022-12-27 Illumina, Inc. Single cell whole genome libraries and combinatorial indexing methods of making thereof
CA3067435C (en) * 2018-05-17 2023-09-12 Illumina, Inc. High-throughput single-cell sequencing with reduced amplification bias
KR20210134598A (ko) 2019-03-01 2021-11-10 일루미나, 인코포레이티드 고-처리량 단일-핵 및 단일-세포 라이브러리 및 이의 제조 및 사용 방법

Also Published As

Publication number Publication date
AU2020407641A1 (en) 2021-09-23
CA3134746A1 (en) 2021-06-24
EP3927824A2 (en) 2021-12-29
IL286643A (en) 2021-12-01
WO2021127436A3 (en) 2021-07-29
SG11202109486QA (en) 2021-09-29
KR20220118295A (ko) 2022-08-25
WO2021127436A2 (en) 2021-06-24
MX2021011847A (es) 2021-11-17
CN114008199A (zh) 2022-02-01
BR112021019640A2 (pt) 2022-06-21
US20220356461A1 (en) 2022-11-10

Similar Documents

Publication Publication Date Title
AU2022202739B2 (en) High-Throughput Single-Cell Sequencing With Reduced Amplification Bias
US20230323426A1 (en) Single cell whole genome libraries and combinatorial indexing methods of making thereof
KR102393414B1 (ko) 고속 대량 단일 세포 전사체 라이브러리 그리고 이의 제조 및 사용 방법
AU2020342793A1 (en) Method for sequencing RNA oligonucleotides
JP2023508792A (ja) ハイスループット単一細胞ライブラリー、並びに製造方法及び使用方法
NZ760374A (en) High-throughput single-cell transcriptome libraries and methods of making and of using
NZ749719B2 (en) Single cell whole genome libraries and combinatorial indexing methods of making thereof

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220311

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231215

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231215