JP2023508792A

JP2023508792A - ハイスループット単一細胞ライブラリー、並びに製造方法及び使用方法

Info

Publication number: JP2023508792A
Application number: JP2021557409A
Authority: JP
Inventors: ジェイシェンドゥア，; ダレンクサノビッチ，; リザダザ，; フランクジェイ．スティーマーズ，; アンドリューケネディー，
Original assignee: University of Washington
Current assignee: University of Washington
Priority date: 2019-12-19
Filing date: 2020-12-18
Publication date: 2023-03-06
Also published as: AU2020407641A1; CA3134746A1; EP3927824A2; IL286643A; WO2021127436A3; SG11202109486QA; KR20220118295A; WO2021127436A2; MX2021011847A; CN114008199A; BR112021019640A2; US20220356461A1

Abstract

本明細書で提供されるのは、複数の単一細胞から核酸を含むシークエンシングライブラリーを調製するための方法である。一実施形態では、シークエンシングライブラリーは、複数の単一細胞からのクロマチンアクセス可能性を表す核酸を含む。一実施形態では、核酸は、３つのインデックス配列を含む。別の実施形態では、本開示は、単離された細胞及び核における希少事象を特性評価するための方法を提供する。実施形態では、提供することは、複数の区画で複数の核又は細胞を提供することを含み得、各区画は、核若しくは細胞のサブセットを含むか、又は試料を表す。

Description

（関連出願の相互参照）

本出願は、２０１９年１２月１９日に出願された米国特許仮出願第６２／９５０，６７０号の利益を主張し、この出願は、参照によりその全体が本明細書に組み込まれる

（政府出資）

本発明は、ＮａｔｉｏｎａｌＩｎｓｔｉｔｕｔｅｓｏｆＨｅａｌｔｈによって与えられた認可番号Ｔ３２ＨＬ００７８２８の下で政府の支援を受けてなされた。政府は本発明において一定の権利を有する。

（発明の分野）

本開示の実施形態は、核酸のシークエンシングに関する。具体的には、本明細書で提供される方法及び組成物の実施形態は、単一細胞コンビナトリアルインデックス付きシークエンシングライブラリーを作製し、それから配列データを取得することに関する。いくつかの実施形態では、ライブラリーから取得された配列データは包括的であり、他の実施形態では、ライブラリーから取得された配列データは、希少事象の特性評価を可能にする。

単一細胞コンビナトリアルインデクシング（「ｓｃｉ－」）は、スプリットプールバーコーディングを用いて多数の単一細胞又は単一核の核酸内容を一意に標識化して、単一細胞コンビナトリアルシークエンシングライブラリーを作製する、方法論的フレームワークである。現在の単一細胞ゲノム技術は、多くの場合、トランスポソーム複合体を使用して、１工程で一意の標識を付加することを含むが、これは、大量のカスタム修飾されたトランスポゾンを必要とする。

単一細胞ゲノム技術は、細胞のバルク集団の研究時に決定困難である細胞間の相違を解決する。腫瘍学、免疫学、及びメタゲノミクスなど多くの重要な用途では、希少細胞の特性評価に大きな関心が寄せられており、課題が存在する。単一細胞シークエンシングの現在の方法では、並行して数百万個の単一細胞を特性評価することができる。しかしながら、濃縮を行わずに集団内の希少細胞を包括的シークエンシングベースで特性評価することは、コスト高であり、困難である。

本明細書では、カスタム修飾されたトランスポゾンの産生を必要とせずに、単一細胞コンビナトリアルインデクシング中にトランスポソーム複合体を使用する方法が提供される。

一実施形態では、本開示は、複数の単一核又は単一細胞からの核酸を含むシークエンシングライブラリーを調製するための方法を提供する。本方法は、複数の核又は細胞を提供することであって、核又は細胞はヌクレオソームを含む、ことと、複数の核又は細胞を、トランスポザーゼ及びユニバーサル配列を含むトランスポソーム複合体と接触させることと、を含む。一実施形態では、複数の核又は細胞は、トランスポソーム複合体との接触時にバルクであり、別の実施形態では、トランスポソーム複合体との接触時に、複数の核又は細胞は、第１の複数の区画内で分配され、各区画は、核若しくは細胞のサブセットを含むか、又は試料を表す。接触させることは、ユニバーサル配列をＤＮＡ核酸に組み込み、ユニバーサル配列を含む二本鎖ＤＮＡ核酸をもたらすのに好適な条件を更に含む。接触させることが、バルクである複数の核又は細胞と生じる実施形態では、本方法はまた、複数の核又は細胞を第１の複数の区画に分配することを含み、各区画は核又は細胞のサブセットを含む。核又は細胞の各サブセット内のＤＮＡ分子は、インデックス付きの核又は細胞を生成するように処理される。この処理は、核又は細胞の各サブセットに存在するＤＮＡ核酸に、第１の区画特異的インデックス配列を付加して、インデックス付き核又は細胞に存在するインデックス付き核酸をもたらす。この処理は、ライゲーション、プライマー伸長、ハイブリダイゼーション、増幅、又はこれらの組み合わせを含み得る。インデックス付き核又は細胞を組み合わせて、プールされたインデックス付き核又は細胞を生成することができる。

一実施形態では、提供することは、複数の区画で複数の核又は細胞を提供することを含み得、各区画は、核若しくは細胞のサブセットを含むか、又は試料を表す。接触させることは、各区画をトランスポソーム複合体と接触させることを含み得、本方法は、接触後に核又は細胞を組み合わせて、プールされた核又は細胞を生成することを更に含み得る。

一実施形態では、接触させることは、各サブセットを２つのトランスポソーム複合体と接触させることを含み、一方のトランスポソーム複合体は、第１のユニバーサル配列を含む第１のトランスポザーゼを含み、第２のトランスポソーム複合体は、第２のユニバーサル配列を含む第２のトランスポザーゼを含み、接触させることは、第１のユニバーサル配列及び第２のユニバーサル配列をＤＮＡ核酸に組み込んで、第１のユニバーサル配列及び第２のユニバーサル配列を含む二本鎖ＤＮＡ核酸をもたらすのに好適な条件を更に含む。

一実施形態では、本方法は、インデックス付き核又は細胞を含むプールされたインデックス付き核又は細胞を第２の複数の区画に分配することであって、各区画は核又は細胞のサブセットを含む、ことと、二重インデックス付き核又は細胞を生成するために、核又は細胞の各サブセット内のＤＮＡ分子を処理することと、を更に含み得る。処理することは、核又は細胞の各サブセットに存在するＤＮＡ核酸に、第２の区画特異的インデックス配列を付加して、インデックス付き核又は細胞に存在する二重インデックス付き核酸をもたらすことを含み得る。本方法は、二重インデックス付き核又は細胞を組み合わせて、プールされた二重インデックス付き核又は細胞を生成することを含み得る。

一実施形態では、本方法は、二重インデックス付き核又は細胞を含むプールされたインデックス付き核又は細胞を第３の複数の区画に分配することであって、各区画は核又は細胞のサブセットを含む、ことと、三重インデックス付き核又は細胞を生成するために、核又は細胞の各サブセット内のＤＮＡ分子を処理することと、を更に含み得る。処理することは、核又は細胞の各サブセットに存在するＤＮＡ核酸に、第３の区画特異的インデックス配列を付加して、インデックス付き核又は細胞に存在する三重インデックス付き核酸をもたらすことを含み得る。本方法は、三重インデックス付き核又は細胞を組み合わせて、プールされた三重インデックス付き核又は細胞を生成することを含み得る。

一実施形態では、本方法は、プールされたインデックス付き核又は細胞から、インデックス付き核酸（例えば、二重インデックス付き、三重インデックス付きなど）を得、したがって、複数の核又は細胞からシークエンシングライブラリーを作製することを更に含み得る。

また、本明細書では、細胞のサブ集団を同定する及び／又は特性評価する方法が提供される。一実施形態では、本方法は、単一細胞コンビナトリアルシークエンシングライブラリーなどシークエンシングライブラリーを提供することを含む。任意選択的に、シークエンシングライブラリーは、特性が濃縮された細胞又は核の集団から作製される。本方法は、ターゲットシークエンシングによってシークエンシングライブラリーを精査することを含み得る。ターゲットシークエンシングは、ライブラリーの作製に使用される細胞のわずかな割合で典型的に存在する生物学的特徴に基づき得る。生物学的特徴の例としては、細胞クラス、種のタイプ、又は疾患状態を示すヌクレオチド配列が挙げられるが、これらに限定されない。生物学的特徴のターゲットシークエンシングに加えて、シークエンシングはまた、生物学的特徴と同じ修飾ターゲット核酸に存在するインデックス配列の配列を決定することを含む。その結果、生物学的特徴を含むライブラリーのメンバーと同じ細胞又は核に由来するシークエンシングライブラリーのメンバーが同定される。本方法は、シークエンシングライブラリーを改変して、生物学的特徴を含むライブラリーのメンバーと同じ細胞又は核に由来するこれらのメンバーの表現を増加させることを更に含む。この改変は、シークエンシングライブラリーの所望のメンバーを濃縮して、又はシークエンシングライブラリーの望ましくないメンバーを枯渇させて、サブライブラリーをもたらすことを含み得る。

定義

本明細書で使用される用語は、別段の指定がない限り、関連技術の通常の意味をとるものと理解されるであろう。本明細書で使用されるいくつかの用語及びそれらの意味は、以下に記載される。

本明細書で使用するとき、用語「生物」及び「対象」は、交換可能に使用され、微生物（例えば、原核生物又は真核生物）、動物、及び植物を指す。動物の例は、ヒトなどの哺乳類である。

本明細書で使用するとき、用語「細胞タイプ」は、形態、表現型、発生起源、又は他の既知の若しくは認識可能な区別可能な細胞特性に基づいて細胞を同定することを意図する。様々な異なる細胞型は、単一の生物（又は同じ種の生物から）から得ることができる。例示的な細胞タイプとしては、ガメト（例えば、例えば、卵子又は卵細胞などの雌性ガメト、及び精子などの雄性ガメトを含む）、卵巣上皮、卵巣上皮、卵巣線維芽細胞、精巣、膀胱、免疫細胞、Ｂ細胞、Ｔ細胞、ナチュラルキラー細胞、樹状細胞、癌細胞、真核細胞、幹細胞、血球、筋細胞、脂肪細胞、皮膚細胞、神経細胞、骨細胞、膵臓細胞、内皮細胞、膵臓β、膵臓内皮、骨髄リンパ芽球、骨髄リンパ芽球、骨髄マクロファージ、骨髄芽球、骨髄脂肪細胞、骨髄骨芽細胞、骨髄軟骨細胞、骨髄軟骨細胞、骨髄軟骨細胞、骨髄芽球、骨髄軟骨細胞、前骨髄芽細胞、骨髄巨核芽細胞、膀胱、脳Ｂリンパ球、脳神経膠細胞、ニューロン、脳星状細胞、神経外胚葉、脳マクロファージ、脳小膠細胞、脳上皮、皮質ニューロン、脳線維芽細胞、乳房上皮、結腸上皮、結腸Ｂリンパ球、乳腺上皮、乳腺筋上皮、乳腺線維芽細胞、結腸腸細胞、子宮頸部上皮、乳房管上皮、舌上皮、扁桃腺樹状、扁桃腺リンパ球、末梢血リンパ芽球、末梢血Ｔリンパ芽球、末梢血Ｔリンパ球、末梢血天然キラー、末梢血Ｂリンパ芽球、末梢血単球、末梢血骨髄芽細胞、末梢血モノ芽細胞、末梢血モノ芽細胞、末梢血モノ芽細胞、末梢血単芽球、末梢血モノ芽球、末梢血Ｔリンパ球、末梢血前骨髄芽球、末梢血マクロファージ、末梢血好塩基球、肝臓内皮、肝臓マスト、肝臓上皮、肝臓Ｂリンパ球、脾臓内皮、脾臓上皮、脾臓Ｂリンパ球、肝細胞、肝臓、線維芽細胞、肺上皮、気管支上皮、肺線維芽細胞、肺Ｂリンパ球、肺シュワン、肺扁平上皮、肺マクロファージ、肺骨芽細胞、神経内分泌、肺肺胞、胃上皮、及び胃線維芽細胞が挙げられるが、これらに限定されない。一実施形態では、単一生物から得られる様々な異なる細胞タイプは、生物の細胞、及び生物に関連する共生微生物又は病原性微生物の細胞など他の細胞を含み得る。生物に関連する共生微生物又は病原性微生物の例としては、生物由来のマイクロバイオーム試料中に存在する、又は組織内に存在し、任意選択的に病気の原因となる原核微生物及び真核微生物が挙げられるが、これらに限定されない。

本明細書で使用するとき、用語「組織」は、生物内で１つ以上の特定の機能を実行するように共に作用する細胞の集合又は集合体を意味することを意図する。細胞は、任意選択で形態学的に類似し得る。例示的な組織としては、胚性、精巣上体、眼、筋肉、皮膚、腱、静脈、動脈、血液、心臓、脾臓、リンパ節、骨、骨髄、肺、気管支、気管、腸、小腸、大腸、結腸、直腸、唾液腺、舌、胆嚢、虫垂、肝臓、膵臓、脳、胃、皮膚、腎臓、尿管、膀胱、尿道、性腺、睾丸、卵巣、子宮、卵管、胸腺、下垂体、甲状腺、副腎、又は副甲状腺が挙げられるが、これらに限定されない。組織は、ヒト又は他の生物の様々な器官のいずれかに由来し得る。組織は、健康な組織又は不健康な組織であり得る。不健康な組織の例としては、生殖組織、肺、乳房、結腸直腸、前立腺、鼻咽頭、胃、精巣、皮膚、神経系、骨、卵巣、肝臓、血液組織、膵臓、子宮、腎臓、リンパ組織などの悪性腫瘍が挙げられる。悪性腫瘍は、様々な組織学的サブタイプ、例えば、癌腫、腺癌、肉腫、線維腺癌、神経内分泌、又は未分化のものであり得るが、これらに限定されない。

本明細書で定義するように、「試料」及びその派生語は、その最も広い意味で使用され、ターゲット核酸及び／又はターゲットタンパク質を含んでいると疑われる、任意の検体、培養物などが挙げられる。いくつかの実施形態では、試料は、ＤＮＡ、ＲＮＡ、タンパク質、又はこれらの組み合わせを含む。試料は、１つ以上の核酸及び／又は１つ以上のタンパク質を含有する任意の生物試料、臨床試料、外科試料、農業試料、大気試料、又は水生ベースの試料を含み得る。この用語はまた、ゲノムＤＮＡ又はトランスクリプトームなど試料からの任意の単離された核酸、及び試料からの任意の単離されたタンパク質を含む。いくつかの実施形態では、試料は、細胞又は核の集合を含む。

本明細書で使用するとき、用語「区画」は、他の物から何かを分離又は単離する領域又は容積を意味することを意図する。例示的な区画としては、バイアル、チューブ、ウェル、液滴、ボーラス、ビーズ、容器、表面特徴部、又は流体流、磁性、電流などの物理的な力によって分離された領域又は容積が挙げられるが、これらに限定されない。一実施形態では、区画は、９６又は３８４ウェルプレートなどのマルチウェルプレートのウェルである。一実施形態では、区画は、パターン化された表面のウェル（例えば、マイクロウェル又はナノウェル）である。本明細書で使用するとき、液滴は、１つ以上の核又は細胞を封入するためのビーズであり、ヒドロゲル組成物を含む、ヒドロゲルビーズを含み得る。いくつかの実施形態では、液滴は、ヒドロゲル材料の均質な液滴であるか、又はポリマーヒドロゲルシェルを有する中空液滴である。均質又は中空であるかどうかに関わらず、液滴は、１つ又はそれ以上の核又は細胞を封入することが可能であり得る。いくつかの実施形態では、液滴は、界面活性剤安定化液滴である。

本明細書で使用するとき、「トランスポソーム複合体」は、組み込み酵素、及び組み込み認識部位を含む核酸を指す。「トランスポソーム複合体」は、転位反応を触媒することが可能なトランスポザーゼ及びトランスポザーゼ認識部位によって形成される機能的複合体である（例えば、Ｇｕｎｄｅｒｓｏｎら、国際公開第２０１６／１３０７０４号を参照）。組み込み酵素の例としては、インテグラーゼ又はトランスポアーゼが挙げられるが、これらに限定されない。組み込み認識部位の例としては、トランスポザーゼ認識部位が挙げられるが、これらに限定されない。

本明細書で使用するとき、用語「核酸」は、ポリヌクレオチド及びオリゴヌクレオチドと交換可能に使用される。核酸は、当技術分野におけるその使用と一致することを意図し、天然に存在する核酸又はその機能的類似体を含む。特に有用な機能的類似体は、配列特異的な様式で核酸にハイブリダイズすることができ、又は特定のヌクレオチド配列を複製するための鋳型として使用することができる。天然に存在する核酸は、一般に、ホスホジエステル結合を含有するバックボーンを有する。アナログ構造は、当技術分野において既知の様々なもののいずれかを含む、代替的バックボーン結合を有することができる。天然に存在する核酸は、一般に、デオキシリボース糖（例えば、デオキシリボ核酸（ＤＮＡ）に見られる）又はリボース糖（例えば、リボ核酸（ＲＮＡ）に見られる）を有する。核酸は、当技術分野において既知のこれらの糖部分の様々な類似体のいずれかを含有することができる。核酸は、天然又は非天然塩基を含み得る。この点に関して、天然デオキシリボ核酸は、アデニン、チミン、シトシン、又はグアニンからなる群から選択される１つ又は複数の塩基を有することができ、リボ核酸は、アデニン、ウラシル、シトシン、又はグアニンからなる群から選択される１つ又は複数の塩基を有することができる。核酸に含まれ得る有用な非天然塩基は、当技術分野において既知である。非天然塩基の例としては、ロックされた核酸（ＬＮＡ）、架橋核酸（ＢＮＡ）、及び疑似相補的塩基（ＴｒｉｌｉｎｋＢｉｏｔｅｃｈｎｏｌｏｇｉｅｓ社、サンディエゴ、カリフォルニア州）が挙げられる。ＬＮＡ及びＢＮＡ塩基をＤＮＡオリゴヌクレオチドに組み込んで、オリゴヌクレオチドのハイブリダイゼーション強度及び特異性を高めることができる。ＬＮＡ及びＢＮＡ塩基、並びにそのような塩基の使用は、当業者に既知であり、日常的である。別途記載のない限り、用語「核酸」は、天然及び非天然ＤＮＡ、ｍＲＮＡ、並びに非コードＲＮＡ、例えば、３’末端にポリＡを有さないＲＮＡ、並びにＲＮＡに由来する核酸、例えば、ｃＤＮＡを含む。用語「核酸」は、分子の一次構造のみを指す。したがって、この用語は、三本鎖、二本鎖、及び一本鎖デオキシリボ核酸（「ＤＮＡ」）、並びに三本鎖、二本鎖、及び一本鎖リボ核酸（「ＲＮＡ」）を含む。

本明細書で使用するとき、用語「ターゲット」は、供給源、機能、同一性、及び／又は組成が調査されている分子の意味的識別子として意図される。ターゲットの例としては、核酸及びタンパク質が挙げられるが、これらに限定されない。本明細書で使用するとき、用語「ターゲット」は、核酸に関して使用する場合、本明細書に記載の方法又は組成物の文脈における核酸の意味的識別子として意図され、別途明示的に示されるもの以外の核酸の構造又は機能を必ずしも限定するものではない。ターゲット核酸は、本質的に既知又は未知の配列の任意の核酸であってもよい。これは、例えば、ゲノムＤＮＡ（例えば、染色体ＤＮＡ）の断片、プラスミドなど染色体外ＤＮＡ、無細胞ＤＮＡ、ＲＮＡ（例えば、ＲＮＡ又は非コードＲＮＡ）、タンパク質（例えば細胞又は細胞表面タンパク質）、又はｃＤＮＡであってよい。ターゲット核酸は、タンパク質、グリカン、プロテオグリカン、又は脂質など生体分子を特異的に結合する抗体など化合物に結合する核酸であってよい（米国特許出願公開第２０１８／０２７３９３３号）。シークエンシングは、ターゲット分子の全体又は一部の配列の決定をもたらし得る。ターゲットは、核などの一次核酸サンプルに由来し得る。一実施形態では、ターゲットは、各ターゲット断片の一端又は両端にユニバーサル配列を配置することによって増幅に好適な鋳型に処理することができる。ターゲットはまた、ｃＤＮＡへの逆転写によって一次ＲＮＡサンプルから得ることもできる。一実施形態では、ターゲットは、細胞内に存在するＤＮＡ、ＲＮＡ、又はタンパク質のサブセットを参照して使用される。ターゲットシークエンシングは、典型的にはＰＣＲ増幅（例えば、領域特異的プライマー）又はハイブリダイゼーションベースの捕捉法又は抗体のいずれかによる、対象とする遺伝子又は領域又はタンパク質の選択及び単離を使用する。ターゲット濃縮は、方法の様々な段階で行うことができる。例えば、ターゲットＲＮＡ表現は、逆転写工程でターゲット特異的プライマーを使用するか、より複雑なライブラリーからサブセットをハイブリダイゼーションベースで濃縮することで得られる。例としては、エクソームシークエンシング又はＬ１０００アッセイがある（Ｓｕｂｒａｍａｎｉａｎら、２０１７年，Ｃｅｌｌ，１７１；１４３７－１４５２）。ターゲットシークエンシングは、当業者に既知の濃縮プロセスのいずれかを含み得る。ユニバーサル配列の一端又は両端を有するターゲット核酸は、修飾ターゲット核酸と称され得る。ターゲット核酸など核酸への言及は、別途記載のない限り、一本鎖核酸及び二本鎖核酸の両方を含む。一実施形態では、ライブラリーは、インデックス配列又は複数のインデックス配列を使用して濃縮される。いくつかの実施形態では、濃縮は、同一ライブラリー分子に結合された１つ以上のインデックス配列を含み、例えば、コンビナトリアルインデクシングを介して導入される。

本明細書で使用するとき、用語「ユニバーサル」は、ヌクレオチド配列を記述するために使用する場合、２つ以上の核酸分子に共通する配列の領域を指し、分子はまた、互いに異なる配列の領域を有する。分子の集合の異なるメンバー、例えばシークエンシングライブラリーのメンバー中に存在するユニバーサル配列は、ユニバーサル捕捉シーケンスの集団を使用して、複数の異なる核酸の捕捉を可能にすることができる。ユニバーサル捕捉配列の非限定的な例としては、Ｐ５及びＰ７プライマーと同一又は相補的な配列が挙げられる。同様に、分子の集合の異なるメンバーに存在するユニバーサル配列は、ユニバーサル配列の一部に相補的なユニバーサルプライマーの集団、例えば、ユニバーサルプライマー結合部位を使用して、複数の異なる核酸を複製（例えば、シークエンシング）又は増幅することができる。用語「Ａ１４」及び「Ｂ１５」は、ユニバーサルプライマー結合部位を指す場合に使用され得る。用語「Ａ１４’」（Ａ１４プライム）及び「Ｂ１５’」（Ｂ１５プライム）は、それぞれＡ１４及びＢ１５の相補体を指す。本明細書に提示される方法において、任意の好適なユニバーサルプライマー結合部位を使用することができ、Ａ１４及びＢ１５の使用は例示的な実施形態に過ぎないことが理解されるであろう。一実施形態では、ユニバーサルプライマー結合部位は、ユニバーサルプライマー（例えば、リード１又はリード２のためのシークエンシングプライマー）がシークエンシングのためにアニーリングする部位として使用される。

用語「Ｐ５」及び「Ｐ７」は、ユニバーサル捕捉配列又は捕捉オリゴヌクレオチドを指す場合に使用され得る。用語「Ｐ５’」（Ｐ５プライム）及び「Ｐ７’」（Ｐ７プライム）は、それぞれＰ５及びＰ７の相補体を指す。本明細書に提示される方法において、任意の好適なユニバーサル捕捉配列又は捕捉ヌクレオチドを使用することができ、Ｐ５及びＰ７の使用は例示的な実施形態のみであることが理解されるであろう。フローセル上でのＰ５及びＰ７又はそれらの相補体などの捕捉ヌクレオチドの使用は、国際公開第２００７／０１０２５１号、同第２００６／０６４１９９号、同第２００５／０６５８１４号、同第２０１５／１０６９４１号、同第１９９８／０４４１５１号、及び同第２０００／０１８９５７号の開示によって例示されるように、当技術分野において既知である。例えば、任意の好適な順方向増幅プライマーは、固定化されているか又は溶液中にあるかに関わらず、相補的配列及び配列の増幅のために本明細書に提示される方法において有用であり得る。同様に、任意の好適な逆増幅プライマーは、固定化されているか又は溶液中にあるかに関わらず、相補的配列及び配列の増幅のために本明細書に提示される方法において有用であり得る。当業者であれば、本明細書に提示される核酸の捕捉及び／又は増幅に好適なプライマー配列の設計及び使用方法を理解するであろう。

本明細書で使用するとき、用語「プライマー」及びその派生語は、一般に、対象とする配列にハイブリダイズすることができる任意の核酸を指す。典型的には、プライマーは、ヌクレオチドがポリメラーゼによって重合され得るか、又はインデックスなどヌクレオチド配列がライゲーションされ得る基質として機能するが、いくつかの実施形態では、プライマーは、合成された核酸鎖に組み込まれ、別のプライマーがハイブリダイズして、合成された核酸分子に相補的な新たな鎖合成をプライムすることができる部位を提供することができる。プライマーは、ヌクレオチド又はその類似体の任意の組み合わせを含み得る。プライマーは、一本鎖、二本鎖である、又は一本鎖領域及び二本鎖領域を含む核酸であってよく、リボヌクレオチド、デオキシリボヌクレオチド、これらの類似体、又はこれらの混合物を含んでよい。用語「ポリヌクレオチド」及び「オリゴヌクレオチド」は、本明細書において交換可能に使用される。これらの用語は、同等物として、ヌクレオチド類似体から作製されたＤＮＡ、ＲＮＡ、ｃＤＮＡ、又は抗体－オリゴ複合体のいずれかの類似体を含み、一本鎖（センス又はアンチセンスなど）及び二本鎖ポリヌクレオチドに適用可能であることを理解されたい。本明細書で使用するこの用語はまた、例えば逆転写酵素の作用によって、ＲＮＡ鋳型から産生される相補的又はコピーＤＮＡであるｃＤＮＡも包含する。この用語は、分子の一次構造のみを指す。したがって、この用語は、三本鎖、二本鎖、及び一本鎖デオキシリボ核酸（「ＤＮＡ」）、並びに三本鎖、二本鎖、及び一本鎖リボ核酸（「ＲＮＡ」）を含む。

本明細書で使用するとき、用語「アダプター」及びその派生語、例えば、ユニバーサルアダプターは、一般に、本開示の核酸分子に結合され得る任意の線状オリゴヌクレオチドを指す。いくつかの実施形態では、アダプターは、サンプル中に存在する任意のターゲット配列の３’末端又は５’末端に実質的に非相補的である。いくつかの実施形態では、好適なアダプター長さは、約１０－１００ヌクレオチド、約１２－６０ヌクレオチド、又は約１５－５０ヌクレオチドの長さの範囲である。一般に、アダプターは、ヌクレオチド及び／又は核酸の任意の組み合わせを含み得る。いくつかの態様では、アダプターは、１つ又はそれ以上の位置に１つ又はそれ以上の開裂可能な基を含み得る。別の態様では、アダプターは、プライマー、例えばユニバーサルプライマーの少なくとも一部と実質的に同一であるか、又は実質的に相補的である配列を含み得る。いくつかの実施形態では、アダプターは、下流エラー訂正、同定、又はシークエンシングを支援するために、バーコード（本明細書ではタグ又はインデックスとも呼ばれる）を含み得る。用語「アダプター（adaptor）」及び「アダプター（adapter）」は、交換可能に使用される。

本明細書で使用するとき、用語「それぞれ」は、項目の集合に関して使用する場合、集合内の個々の項目を識別することを意図しているが、文脈が明確に別段の指示をしない限り、必ずしも集合内の全ての項目を指すものではない。

本明細書で使用するとき、用語「輸送」は、流体を通る分子の移動を指す。この用語は、それらの濃度勾配（例えば、受動拡散）に沿った分子の移動などの受動輸送を含み得る。この用語はまた、分子がそれらの濃度勾配に沿って又はそれらの濃度勾配に逆らって移動することができる能動輸送も含み得る。したがって、輸送は、１つ以上の分子を所望の方向に、又は増幅部位などの所望の位置に移動させるためにエネルギーを適用することを含み得る。

本明細書で使用するとき、「増幅」、「増幅する」又は「増幅反応」及びそれらの派生語は、一般に、核酸分子の少なくとも一部が少なくとも１つの追加の核酸分子に複製又はコピーされる任意の作用又はプロセスを指す。追加の核酸分子は、任意選択で、鋳型核酸分子の少なくとも一部と実質的に同一であるか、又は実質的に相補的である配列を含む。鋳型核酸分子は一本鎖又は二本鎖であってよく、追加の核酸分子は、独立して一本鎖又は二本鎖であり得る。増幅は、核酸分子の線形又は指数関数的複製を任意選択的に含む。いくつかの実施形態では、このような増幅は、等温条件を使用して行うことができ、他の実施形態では、このような増幅は、熱サイクリングを含み得る。いくつかの実施形態では、増幅は、単一増幅反応における複数のターゲット配列の同時増幅を含む多重増幅である。いくつかの実施形態では、「増幅」は、ＤＮＡ及びＲＮＡベースの核酸の少なくとも一部を単独で、又は組み合わせて増幅することを含む。増幅反応は、当業者に既知の増幅プロセスのいずれかを含み得る。いくつかの実施形態では、増幅反応は、ポリメラーゼ連鎖反応（ＰＣＲ）を含む。

本明細書で使用するとき、「増幅条件」及びその派生語は、一般に、１つ以上の核酸配列を増幅するのに好適な条件を指す。このような増幅は、線形又は指数関数的であり得る。いくつかの実施形態では、増幅条件は、等温条件を含むことができ、あるいは、熱サイクリング条件、又は等温及び熱サイクリング条件の組み合わせを含み得る。いくつかの実施形態では、１つ又はそれ以上の核酸配列を増幅するのに好適な条件としては、ポリメラーゼ連鎖反応（ＰＣＲ）条件が挙げられる。典型的には、増幅条件は、ユニバーサル配列が隣接した１つ又はそれ以上のターゲット配列などの核酸を増幅するのに十分な反応混合物、又は１つ又はそれ以上のアダプターにライゲーションされた増幅されたターゲット配列を増幅するのに十分な反応混合物を指す。一般に、増幅条件は、増幅用の触媒、又は核酸合成、例えばポリメラーゼ、増幅される核酸に対してある程度相補性を有するプライマー、及び核酸にハイブリダイズしたときにプライマーの伸長を促進するためのデオキシリボヌクレオチド三リン酸（ｄＮＴＰ）などのヌクレオチドを含む。増幅条件は、プライマーの核酸へのハイブリダイゼーション又はアニーリング、プライマーの伸長、及び伸長プライマーが増幅を受ける核酸配列から分離される変性工程を必要とし得る。典型的には、必ずしもそうとは限らないが、増幅条件は、熱サイクリングを含み得るが、いくつかの実施形態では、増幅条件は、アニーリング、伸長、及び分離の工程が繰り返される複数のサイクルを含む。典型的には、増幅条件としては、Ｍｇ^２＋又はＭｎ^２＋などのカチオンが挙げられ、イオン強度の様々な改質剤も含み得る。

本明細書で使用するとき、「再増幅」及びそれらの派生語は、一般に、増幅された核酸分子の少なくとも一部が任意の好適な増幅プロセスを介して更に増幅され、それによって再増幅された核酸分子を生成する任意のプロセス（いくつかの実施形態では「二次」増幅と呼ばれる）を指す。二次増幅が、増幅された核酸分子が生成される元の増幅プロセスと同一である必要はなく、増幅された核酸分子が、増幅された核酸分子と完全に同一であるか、完全に相補的である必要もなく、必要なのは、再増幅された核酸分子が、増幅された核酸分子又はその相補体の少なくとも一部を含むことだけである。例えば、再増幅は、一次増幅とは異なるターゲット特異的プライマーを含む、異なる増幅条件及び／又は異なるプライマーの使用を含み得る。

本明細書で使用するとき、用語「ポリメラーゼ連鎖反応」（「ＰＣＲ」）は、クローニング又は精製することなくゲノムＤＮＡの混合物中の対象となるポリヌクレオチドのセグメントの濃度を増加させるための方法を記載するＭｕｌｌｉｓの方法（米国特許第４，６８３，１９５号及び同第４，６８３，２０２号）を指す。対象のポリヌクレオチドを増幅するためのこのプロセスは、所望の対象ポリヌクレオチドを含有するＤＮＡ混合物に、多量の過剰の２つのオリゴヌクレオチドプライマーを導入する工程、続いてＤＮＡポリメラーゼの存在下で一連の熱サイクリングを行う工程からなる。２つのプライマーは、対象の二本鎖ポリヌクレオチドのそれぞれの鎖に相補的である。最初に混合物がより高温で変性され、次いで、プライマーが、目的の分子のポリヌクレオチド内の相補的配列にアニーリングされる。アニーリング後、プライマーをポリメラーゼで伸長させて、相補鎖の新しい対を形成する。変性、プライマーアニーリング、及びポリメラーゼ伸長の工程は、所望の目的ポリヌクレオチドの高濃度の増幅セグメントを得るために、何度も繰り返され得る（熱サイクリングと呼ばれる）。所望の目的ポリヌクレオチドの増幅セグメントの長さ（アンプリコン）は、互いに対するプライマーの相対位置によって決定され、したがって、この長さは制御可能なパラメータである。このプロセスを繰り返すことにより、この方法はＰＣＲと呼ばれる。対象となるポリヌクレオチドの所望の増幅セグメントは、混合物中の主要な核酸配列（濃度に関して）になるため、これらは「ＰＣＲ増幅された」と言われる。上記の方法の改変において、ターゲット核酸分子は、複数の異なるプライマー対を使用してＰＣＲ増幅することができ、場合によっては、対象とするターゲット核酸分子当たり１つ又はそれ以上のプライマー対を使用してＰＣＲ増幅することができ、それによって多重ＰＣＲ反応を形成することができる。

本明細書で定義するように、「多重増幅」は、少なくとも１つのターゲット特異的プライマーを使用した、試料内の２つ以上のターゲット配列の選択的かつ非ランダム増幅を指す。いくつかの実施形態では、ターゲット配列の一部又は全てが単一の反応容器内で増幅されるように多重増幅が行われる。所与の多重増幅の「プレックス」は、一般に、当該単一多重増幅中に増幅される、異なるターゲット特異的配列の数を指す。いくつかの実施形態では、プレックスは、約１２プレックス、２４プレックス、４８プレックス、９６プレックス、１９２プレックス、３８４プレックス、７６８プレックス、１５３６プレックス、３０７２プレックス、６１４４プレックス、又はそれ以上であり得る。増幅されたターゲット配列をいくつかの異なる方法論（例えば、ゲル電気泳動とそれに続くデンシトメトリー、バイオアナライザー又は定量的ＰＣＲによる定量化、標識プローブでのハイブリダイゼーション、ビオチン化プライマーの組み込みとそれに続くアビジン－酵素共役の検出、増幅ターゲット配列への^３２Ｐ標識デオキシヌクレオチド三リン酸の組み込み）によって検出することも可能である。

本明細書で使用するとき、「増幅されたターゲット配列」及びその派生語は、一般に、ターゲット特異的プライマーを及び本明細書で提供される方法を使用してターゲット配列を増幅することによって作製されるポリヌクレオチド配列を指す。増幅されたターゲット配列は、ターゲット配列に関して同じセンス（すなわち、正鎖）又はアンチセンス（すなわち、負鎖）のいずれかであってよい。

本明細書で使用するとき、用語「ライゲート」、「ライゲーション」、及びそれらの派生語は、一般に、２つ以上の分子を互いに共有結合させる、例えば、２つ以上の核酸分子を互いに共有結合させるプロセスを指す。いくつかの実施形態では、ライゲーションは、核酸の隣接するヌクレオチド間のニックの結合を含む。いくつかの実施形態では、ライゲーションは、第１の核酸分子の末端部と第２の核酸分子の末端部との間に共有結合を形成することを含む。いくつかの実施形態では、ライゲーションは、１つの核酸の５’リン酸基と第２の核酸の３’ヒドロキシル基との間に共有結合を形成し、それによりライゲーションされた核酸分子を形成することを含み得る。一般に、本開示の目的のために、増幅されたターゲット配列をアダプターにライゲーションして、アダプターライゲーションされた増幅ターゲット配列を生成することができる。

本明細書で使用するとき、「リガーゼ」及びその派生語は、一般に、２つの基質分子のライゲーションを触媒することができる任意の薬剤を指す。いくつかの実施形態では、リガーゼは、核酸の隣接ヌクレオチド間のニックの結合を触媒することができる酵素を含む。いくつかの実施形態では、リガーゼは、１つの核酸分子の５’リン酸と別の核酸分子の３’ヒドロキシルとの間の共有結合の形成を触媒し、それによりライゲーションされた核酸分子を形成することができる酵素を含む。好適なリガーゼとしては、Ｔ４ＤＮＡリガーゼ、Ｔ４ＲＮＡリガーゼ、及びＥ．ｃｏｌｉＤＮＡリガーゼを挙げることができるが、これらに限定されない。

本明細書で使用するとき、「ライゲーション条件」及びその派生語は、一般に、２つの分子を互いにライゲートするのに好適な条件を指す。いくつかの実施形態では、ライゲーション条件は、核酸間のニック又は間隙を封止するのに好適である。本明細書で使用するとき、ニック又は間隙という用語は、当技術分野における用語の使用と一致する。典型的には、ニック又は空隙は、適切な温度及びｐＨでリガーゼなどの酵素の存在下でライゲーションすることができる。いくつかの実施形態では、Ｔ４ＤＮＡリガーゼは、約７０－７２°Ｃの温度で核酸間のニックに結合することができる。

本明細書で使用するとき、用語「フローセル」は、１つ以上の流体試薬を流通させることができる固体表面を含むチャンバを指す。本開示の方法において容易に使用することができるフローセル及び関連する流体システム及び検出プラットフォームの例は、例えば、Ｂｅｎｔｌｅｙら、Ｎａｔｕｒｅ４５６：５３－５９（２００８年）、国際公開第０４／０１８４９７号、米国特許第７，０５７，０２６号、国際公開第９１／０６６７８号、同第０７／１２３７４４号、米国特許第７，３２９，４９２号、同第７，２１１，４１４号、同第７，３１５，０１９号、同第７，４０５，２８１号、及び米国特許出願公開第２００８／０１０８０８２号に記載されている。

本明細書で使用するとき、用語「アンプリコン」は、核酸に関して使用する場合、核酸をコピーする生成物を意味し、この生成物は、核酸のヌクレオチド配列の少なくとも一部と同じ又は相補的なヌクレオチド配列を有する。アンプリコンは、例えばポリメラーゼ伸長、ポリメラーゼ連鎖反応（ＰＣＲ）、ローリングサークル増幅（ＲＣＡ）、ライゲーション伸長、又はライゲーション連鎖反応を含む鋳型として、核酸又はそのアンプリコンを使用する様々な増幅法のいずれかによって産生することができる。アンプリコンは、特定のヌクレオチド配列（例えば、ＰＣＲ産物）の単一コピー又はヌクレオチド配列（例えば、ＲＣＡのコンカテマー産物）の複数のコピーを有する核酸分子であり得る。ターゲット核酸の第１のアンプリコンは、典型的には相補的なコピーである。後続のアンプリコンは、第１のアンプリコンの生成後に、ターゲット核酸又は第１のアンプリコンから作成されたコピーである。

本明細書で使用するとき、用語「増幅部位」は、１つ以上のアンプリコンが生成され得るアレイ内又はアレイ上の部位を指す。増幅部位は、その部位で生成される少なくとも１つのアンプリコンを含有、保持、又は付着させるように更に構成することができる。

本明細書で使用するとき、用語「アレイ」は、相対的な位置に従って互いに区別することができる部位の集団を指す。アレイの異なる部位にある異なる分子は、アレイ内の部位の位置に従って互いに区別することができる。アレイの個々の部位は、特定の種類の１つ又はそれ以上の分子を含み得る。例えば、部位は、特定の配列を有する単一のターゲット核酸分子を含むことができ、又は部位は、同じ配列（及び／又はその相補的配列）を有するいくつかの核酸分子を含むことができる。アレイの部位は、同じ基質上に位置する異なる特徴とすることができる。例示的な特徴としては、基質中のウェル、基質中又は基質上のビーズ（又は他の粒子）、基質からの突出部、基質上の隆起部、又は基質内のチャネルが挙げられるが、これらに限定されない。アレイの部位は、それぞれ異なる分子を有する別個の基質とすることができる。別個の基質に付着した異なる分子は、基質が会合する表面上の基質の位置に従って、又は液体若しくはゲル内の基質の位置に従って特定することができる。別個の基質が表面上に配置される例示的なアレイとしては、ウェル内にビーズを有するものが挙げられるが、これらに限定されない。

本明細書で使用するとき、用語「容量」は、部位及び核酸材料に関して使用する場合、部位を占有し得る核酸材料の最大量を意味する。例えば、この用語は、特定の条件下で部位を占有し得る核酸分子の総数を指し得る。他の測定値は、例えば、特定の条件下で部位を占有し得る核酸材料の総質量又は特定のヌクレオチド配列のコピーの総数を含めて使用することができる。典型的には、ターゲット核酸の部位の容量は、ターゲット核酸のアンプリコンのための部位の容量と実質的に同等である。

本明細書で使用するとき、用語「捕捉剤」は、ターゲット分子（例えば、ターゲット核酸）に付着、保持、又は結合することができる材料、化学物質、分子、又はその部分を指す。例示的な捕捉剤としては、ターゲット核酸の少なくとも一部に相補的な捕捉配列（本明細書では捕捉オリゴヌクレオチドとも呼ばれる）、ターゲット核酸（又はそれに付着した連結部分）に結合することができる受容体－リガンド結合対のメンバー（例えば、アビジン、ストレプトアビジン、ビオチン、レクチン、炭水化物、核酸結合タンパク質、エピトープ、抗体など）、又はターゲット核酸（又はそれに付着した連結部分）と共有結合を形成することができる化学試薬が挙げられるが、これらに限定されない。

本明細書で使用するとき、用語「レポーター部分」は、調査されるターゲットの組成、同一性、及び／又は供給源を決定することを可能にする任意の識別可能なタグ、標識、インデックス、バーコード、又は群を指すことができる。いくつかの実施形態では、レポーター部分は、タンパク質に特異的に結合する抗体を含み得る。いくつかの実施形態では、抗体は、検出可能な標識を含んでもよい。いくつかの実施形態では、レポーターは、核酸タグで標識された抗体又は親和性試薬を含み得る。一実施形態では、核酸は、トランスポソーム複合体の基質として機能するのに十分な長さである。一実施形態では、核酸タグは、例えば、近接ライゲーションアッセイ（ＰＬＡ）若しくは近接伸長アッセイ（ＰＥＡ）、シークエンシングベースの読み出し（Ｓｈａｈｉｅｔａｌ．ＳｃｉｅｎｔｉｆｉｃＲｅｐｏｒｔｓｖｏｌｕｍｅ７，Ａｒｔｉｃｌｅｎｕｍｂｅｒ：４４４４７，２０１７）、又はＣＩＴＥ－ｓｅｑ（Ｓｔｏｅｃｋｉｕｓｅｔａｌ．ＮａｔｕｒｅＭｅｔｈｏｄｓ１４：８６５－８６８，２０１７）などエピトープベースの読み出しを介して検出可能であり得る。

本明細書で使用するとき、用語「クローン集団」は、特定のヌクレオチド配列に対して均質である核酸の集団を指す。均質な配列は、典型的には、少なくとも１０ヌクレオチド長であるが、更に長い、例えば、少なくとも５０、１００、２５０、５００又は１０００ヌクレオチド長を含み得る。クローン集団は、単一のターゲット核酸又は鋳型核酸に由来し得る。典型的には、クローン集団中の全ての核酸は、同じヌクレオチド配列を有する。クロナリティーから逸脱することなく、少数の変異（例えば、増幅アーチファクトによる）が生じ得ることが理解されよう。

本明細書で使用するとき、用語「固有分子識別子」又は「ＵＭＩ」は、核酸に付けられ得る、ランダム、非ランダム、又は半ランダムのいずれかの分子タグを指す。核酸に組み込まれる場合、増幅後にシークエンシングされる固有分子識別子（ＵＭＩ）を直接カウントすることによって、ＵＭＩを使用して後続の増幅バイアスを補正することができる。

本明細書で使用するとき、「外因性」化合物、例えば外因性酵素とは、特定組成物中に通常又は天然では見られない化合物を指す。例えば、特定組成物が細胞溶解物を含む場合、外因性酵素は、細胞溶解物中に通常又は天然では見られない酵素である。

本明細書で使用するとき、例えば、組成物、物品、核酸、又は核の文脈における「提供する」は、組成物、物品、核酸、若しくは核を作製すること、組成物、物品、核酸、若しくは核を購入すること、又は別の方法で化合物、組成物、物品、若しくは核を得ることを意味する。

用語「及び／又は」は、列挙された要素の１つ若しくは全て、又は列挙された要素のうちの任意の２つ以上の組み合わせを意味する。

「好ましい」及び「好ましくは」という語は、特定の状況下で特定の利益をもたらし得る本開示の実施形態を指す。しかしながら、同じ又は他の状況下で、他の実施形態が好ましい場合もある。更に、１つ又はそれ以上の好ましい実施形態の記載は、その他の実施形態が有用でないことを示唆するものではなく、本開示の範囲から他の実施形態を除外することを意図するものではない。

用語「含む（comprises）」及びその変形は、これらの用語が説明及び特許請求の範囲に現れる場合、限定的な意味を有しない。

本明細書では、「含む（include）」、「含む（includes）」又は「含む（including）」などの語で本明細書に記載されている場合、「からなる（consisting of）」及び／又は「から本質的になる（consisting essentially of）」という用語で説明される類似の実施形態もまた提供されることが理解される。

別途記載のない限り、「ａ」、「ａｎ」、「ｔｈｅ」、及び「ａｔｌｅａｓｔｏｎｅ」は、交換可能に使用され、１つ又は２つ以上を意味する。

本明細書において、端点による数値範囲の列挙は、その範囲内に包含される全ての数を含む（例えば、１から５は１、１．５、２、２．７５、３、３．８０、４、５などを含む）。

別個の工程を含む本明細書に開示される任意の方法では、工程は、任意の実行可能な順序で行われてもよい。また、適切には、２つ以上の工程の任意の組み合わせを同時に行うことができる。

「一実施形態」、「実施形態」、「特定の実施形態」、又は「いくつかの実施形態」などへの言及は、本実施形態に関連して説明される特定の特徴、構成、組成、又は特性が、本開示の少なくとも１つの実施形態に含まれることを意味する。したがって、本明細書全体をとおして様々な場所でのこのような語句の出現は、必ずしも本開示の同じ実施形態を指すものではない。更に、特定の特徴、構成、組成、又は特性は、１つ又はそれ以上の実施形態において任意の好適な方法で組み合わされてもよい。

本開示の例示的な実施形態の以下の詳細な説明は、以下の図面と併せて読むと、最も良く理解され得る。

本開示による、単一細胞コンビナトリアルインデクシングのための一般的な例示的方法の異なる実施形態の一般的なブロック図を示す。本開示による、単一細胞コンビナトリアルインデクシングのための一般的な例示的方法の異なる実施形態の一般的なブロック図を示す。

図１Ａの方法に一般的に示されるような、単一細胞コンビナトリアルインデクシングの方法の概略図を示す。簡略化するために、１つの二本鎖ターゲット核酸のみを示す。

本開示による、単一細胞コンビナトリアルインデクシングの一般的な例示的方法の一実施形態の一般的なブロック図を示す。

図１、図３、又は図４の方法に一般的に示されるような、単一細胞コンビナトリアルインデクシングの方法の概略図を示す。簡略化するために、１つの二本鎖ターゲット核酸のみを示す。

本開示による、単一細胞コンビナトリアルインデクシングによるメタゲノム解析の一般的な例示的方法の一実施形態の一般的なブロック図を示す。

本開示による、連続インデックスを有するシークエンシングライブラリーを作製するための一般的な例示的方法の一実施形態の概略図を示す。

本開示による、濃縮をターゲット増幅と結合するための一般的な例示的方法の一実施形態の概略図を示す。

ｓｃｉ－ＡＴＡＣ－ｓｅｑ３の概略図を示す。５９の胎児試料から１６０万個の細胞の核を、バルクのＴｎ５トランスポザーゼでタグ付けした。最初の２回のインデックス付けは、Ｔｎ５トランスポザーゼ複合体の各末端に対する連続ライゲーションによって、また３回目は、ＰＣＲによって行った。１回目のインデックス付けを試料インデックスとして使用した。

実施例１に記載のｓｃｉ－ＡＴＡＣ－ｓｅｑ３から得たアンプリコンの構造を示す。

実施例２に記載のプロジェクトワークフローを示す。

概略図は必ずしも縮尺どおりではない。図面に使用される同様の数字は、同様の構成要素、工程などを指す。しかしながら、所与の図の構成要素を指すための数字の使用は、同じ数字でラベル付けされた別の図における構成要素を制限することを意図していないことが理解されるであろう。更に、構成要素を指すために異なる番号を使用することは、異なる番号の構成要素が他の番号付けされた構成要素と同じ又は類似であることができないことを示すことを意図するものではない。

本明細書で提供される方法は、複数の単一細胞からシークエンシングライブラリーを作製するために使用することができる。本質的に、トランスポゾンアクセス可能クロマチンの単一核シークエンシング（ｓｃｉ－ＡＴＡＣ、米国特許第１０，０５９，９８９号）、単一核の全ゲノムシークエンシング（米国特許出願公開第２０１８／００２３１１９号）、単一核トランスクリプトームシークエンシング（米国特許仮出願第６２／６８０，２５９号及びＧｕｎｄｅｒｓｏｎら（国際公開第２０１６／１３０７０４号））、ｓｃｉ－ＨｉＣ（Ｒａｍａｎｉｅｔａｌ．，ＮａｔｕｒｅＭｅｔｈｏｄｓ，２０１７，１４：２６３－２６６）、ＤＲＵＧ－ｓｅｑ（Ｙｅｅｔａｌ．，ＮａｔｕｒｅＣｏｍｍｕｎ．，９，ａｒｔｉｃｌｅｎｕｍｂｅｒ４３０７）、又はＤＮＡ及びタンパク質、例えば、ｓｃｉ－ＣＡＲ（Ｃａｏｅｔａｌ．，Ｓｃｉｅｎｃｅ，２０１８，３６１（６４０９）：１３８０－１３８５）並びにＲＮＡ及びタンパク質、例えば、ＣＩＴＥ－ｓｅｑ（Ｓｔｏｅｃｋｉｕｓｅｔａｌ．，２０１７，ＮａｔｕｒｅＭｅｔｈｏｄｓ．１４（９）：８６５－８６８）からの解析の任意の組み合わせなどが含まれるが、これらに限定されない、任意の単一核又は単細胞ライブラリー調製法又はシークエンシング法を使用することができる。一実施形態では、細胞アトラス実験は、クロマチンアクセス可能ＤＮＡ、全細胞トランスクリプトーム、非常に情報量の多い、限られた数のｍＲＮＡ、又はこれらの組み合わせに限定される読み出しを用いて実施され得る。

単離された核又は細胞の提供

一実施形態では、本明細書で提供される方法は、細胞又は複数の細胞から単離された核を提供することを含み得る（例えば、図１Ａ、ブロック１０、図３、ブロック３０、図４、ブロック４０、図６、ブロック６００）。細胞は、任意の生物からのものであり得、また、生物の任意の細胞タイプ又は任意の組織からのものであり得る。一実施形態では、細胞は、組織又は液体生検など生検からのものであり得る。一実施形態では、細胞は胚細胞、例えば胚から得られる細胞であり得る。一実施形態では、細胞又は核は、癌又は疾患組織からのものであり得る。一実施形態では、細胞又は核は、Ｔ細胞又はＢ細胞など免疫細胞であり得る。一実施形態では、細胞は、単一生物から得られた、様々な異なる細胞タイプであり得る。一実施形態では、単一生物から得られた、様々な異なる細胞タイプは、原核細胞及び／又は真核細胞など微生物細胞を含み得る。一実施形態では、異なる供給源、例えば、異なる生物及び／又は異なる組織からの細胞は、この段階では組み合わされない。一実施形態では、異なる供給源、例えば、異なる生物及び／又は異なる組織からの細胞が、この段階で組み合わされる。

一実施形態では、複数の細胞は、より大きな細胞集団のサブセットであり得る。サブセットは、例えば、細胞の表面にあるタンパク質又はグリカンのような同定可能な分子のサイズ、形態、又は有無の相違に基づいて、他の細胞から分離され得る。細胞を選別するための方法は、当該技術分野において既知であり、蛍光活性化細胞選別、磁気活性化細胞選別、及びマイクロ流体細胞選別が挙げられる。

本方法は、細胞を解離させること、及び／又は核を単離することを更に含み得る。一実施形態では、核内に存在するクロマチンを維持する条件が使用される。一実施形態では、核内に存在するヌクレオソームを枯渇させる。ヌクレオソームを枯渇させるための方法は、当業者に既知である（米国特許出願公開第２０１８／００２３１１号）。

多くの異なる単一細胞ライブラリー調製法が、当該技術分野において既知である。（Ｈｗａｎｇｅｔａｌ．Ｅｘｐｅｒｉｍｅｎｔａｌ＆ＭｏｌｅｃｕｌａｒＭｅｄｉｃｉｎｅ，ｖｏｌ．５０，Ａｒｔｉｃｌｅｎｕｍｂｅｒ：９６（２０１８）、Ｄｒｏｐ－ｓｅｑ法、Ｓｅｑ－ｗｅｌｌ法、単一細胞コンビナトリアルインデクシング（「ｓｃｉ－」）法が挙げられるが、これらに限定されない。単一細胞製品及び関連技術を提供する企業としては、１０ＸＧｅｎｏｍｉｃｓ、Ｔａｋａｒａｂｉｏｓｃｉｅｎｃｅｓ、ＢＤｂｉｏｓｃｉｅｎｃｅｓ、Ｂｉｏｒａｄ、１ｃｅｌｌｂｉｏ、ＩｓｏＰｌｅｘｉｓ、ＣｅｌｌＳｅｅ、ＮａｎｏＣｅｌｌｅｃｔ、及びＤｏｌｏｍｉｔｅＢｉｏが挙げられるが、これらに限定されない。ＳＣＩ－ｓｅｑは、スプリットプールバーコーディングを用いて多数の単一細胞又は単一核の核酸内容を一意に標識化する、方法論的フレームワークである。典型的には、核又は細胞の数は、少なくとも２つであり得る。上限は、本明細書に記載の方法の他の工程で使用される機器の実際の制限（例えば、マルチウェルプレート、インデックスの数）に依存する。使用され得る核又は細胞の数は、限定することを意図するものではなく、数十億に達することがあり得る。例えば、一実施形態では、核又は細胞の数は、１，０００，０００，０００以下、１００，０００，０００以下、１０，０００，０００以下、１，０００，０００以下、１００，０００以下、１０，０００以下、１，０００以下、５００以下、又は５０以下であり得る。一実施形態では、核又は細胞の数は、少なくとも５０、少なくとも５００、少なくとも１，０００、少なくとも１０，０００、少なくとも１００，０００、少なくとも１，０００，０００、少なくとも１０，０００，０００、少なくとも１００，０００，０００、又は少なくとも１，０００，０００，０００であり得る。

単離された核を使用するこれらの実施形態では、核は抽出及び固定によって得ることができる。任意選択的に、及び好ましくは、単離された核を得る方法は、酵素処理を含まない。

一実施形態では、核は、接着性又は懸濁液である個々の細胞から単離される。個々の細胞から核を単離するための方法は、当業者に既知である。核は、典型的には、組織内に存在する細胞から単離される。単離された核を得るための方法は、典型的には、組織を調製することと、調製された組織から核を単離することと、次いで核を固定することとを含む。一実施形態では、全ての工程が氷上で行われる。

一実施形態では、組織調製は、液体窒素中で組織を急速凍結し、次いで、組織のサイズを直径１ｍｍ以下の片に低減することを含む。組織は、ミンチ力又は鈍い力のいずれかを受けることによって、サイズが縮小され得る。ミンチは、組織を小片に切断するためのブレードで達成することができる。鈍い力を加えることは、ハンマー又は同様の物体で組織を粉砕することによって達成することができ、粉砕組織の結果として得られる組成物は粉末と呼ばれる。

核単離は、細胞溶解緩衝液中で片又は粉末を、５分、１０分、又は１５分など、少なくとも１分から２０分間インキュベートすることによって達成され得る。有用な緩衝液は、細胞溶解を促進するが、核の完全性を保持するものである。細胞溶解緩衝液の例としては、１０ｍＭＴｒｉｓ－ＨＣｌ、ｐＨ７．４、１０ｍＭＮａＣｌ、３ｍＭＭｇＣｌ２、０．１％ＩＧＥＰＡＬＣＡ－６３０、１％ＳＵＰＥＲａｓｅＩｎＲＮＡｓｅ阻害剤（２０Ｕ／μＬ、Ａｍｂｉｏｎ）、及び１％ＢＳＡ（２０ｍｇ／ｍＬ、ＮＥＢ）が挙げられる。標準的な核単離法は、多くの場合、単離を補助するために、外因性酵素など１つ以上の外因性化合物を使用する。細胞溶解緩衝液中に存在し得る有用な酵素の例としては、プロテアーゼ阻害剤、リゾチーム、プロテイナーゼＫ、界面活性剤、リゾスタフィン、ザイモリアーゼ、セルロース、プロテアーゼ又はグリカナーゼなど（Ｉｓｌａｍｅｔａｌ．Ｍｉｃｒｏｍａｃｈｉｎｅｓ（Ｂａｓｅｌ），２０１７，８（３）：８３；ｗｗｗ．ｓｉｇｍａａｌｄｒｉｃｈ．ｃｏｍ／ｌｉｆｅ－ｓｃｉｅｎｃｅ／ｂｉｏｃｈｅｍｉｃａｌｓ／ｂｉｏｃｈｅｍｉｃａｌ－ｐｒｏｄｕｃｔｓ．ｈｔｍｌ？ＴａｂｌｅＰａｇｅ＝１４５７３１０７）が挙げられるが、これらに限定されない。一実施形態では、１つ以上の外因性酵素は、本明細書に記載の方法において有用な細胞溶解緩衝液中に存在しない。例えば、外因性酵素は、（ｉ）細胞と溶解緩衝液との混合前に細胞に添加されない、（ｉｉ）細胞との混合前に細胞溶解緩衝液中に存在しない、（ｉｉｉ）細胞と細胞溶解緩衝液との混合物に添加されない、又はこれらの組み合わせである。当業者であれば、核を単離するための細胞溶解緩衝液の有用性を低下させることなく、これらの成分の濃度をある程度変更できることを認識するであろう。次いで、抽出した核を、核バッファを用いた１回以上（one of more rounds）の洗浄によって精製する。核緩衝液の例としては、１０ｍＭＴｒｉｓ－ＨＣｌ、ｐＨ７．４、１０ｍＭＮａＣｌ、３ｍＭＭｇＣｌ２、１％ＳＵＰＥＲａｓｅＩｎＲＮＡｓｅ阻害剤（２０Ｕ／μＬ、Ａｍｂｉｏｎ）、及び１％ＢＳＡ（２０ｍｇ／ｍＬ、ＮＥＢ）が挙げられる。細胞溶解緩衝液と同様に、外因性酵素もまた、本開示の方法で使用される核緩衝液中に存在しなくてよい。当業者であれば、核を単離するための核緩衝液の有用性を低下させることなく、これらの成分の濃度をある程度変更できることを認識するであろう。当業者は、ＢＳＡ及び／又は界面活性剤が、核の単離のために使用される緩衝剤において有用であり得ることを認識するであろう。

単離された核は、架橋剤への曝露によって固定することができる。架橋剤の有用な例としては、パラホルムアルデヒド及びホルムアルデヒドが挙げられるが、これらに限定されない。パラホルムアルデヒドは、４％など１％～８％の濃度であり得る。ホルムアルデヒドは、３７％など３０％～４５％の濃度であり得る。架橋剤による核の処理は、架橋剤を核の懸濁液に添加し、０℃でインキュベートすることを含み得る。固定の他の方法としては、メタノール固定が挙げられるが、これに限定されない。任意選択的に、かつ好ましくは、固定後に、核緩衝液中での洗浄が行われる。

単離された固定核は、後で使用するために、液体窒素中で直ちに等分し、急速凍結することができる。凍結後に使用するために調製する場合、解凍された核は、例えば、氷上で０．２％ＴｒｉｔｏｎＸ－１００で３分間透過処理され、核の凝集を低減するために短時間超音波処理することができる。

従来の組織核抽出技術は、通常、組織特異的酵素（例えば、トリプシン）で、組織を高温（例えば、３７°Ｃ）で３０分間から数時間インキュベートし、次いで細胞を細胞溶解緩衝液で溶解させる。本明細書に記載の核単離法には、いくつかの利点がある。すなわち、（１）人工酵素が導入されず、全工程が氷上で行われる。これにより、細胞状態（例えば、クロマチン組織状態、又はトランスクリプトーム状態）への潜在的な摂動を低減する。（２）この新方法は、脳、肺、腎臓、脾臓、心臓、小脳、及び腫瘍組織など疾患試料を含む、大部分の組織タイプにわたって検証されている。異なる組織タイプのために異なる酵素を使用する従来の組織核抽出技術と比較して、新しい技術は、異なる組織からの細胞状態を比較する際のバイアスを潜在的に低減することができる。（３）この新方法はまた、酵素処理工程を除去することによってコストを低減し、効率を高める。（４）他の核抽出技術（例えば、Ｄｏｕｎｃｅ組織グラインダー）と比較して、この新技術は、異なる組織タイプに対してより堅牢（例えば、Ｄｏｕｎｃｅ法は、異なる組織に対してＤｏｕｎｃｅサイクルを最適化する必要がある）であり、高スループットで大きい試料片を処理することが可能である（例えば、Ｄｏｕｎｃｅ法は、グラインダーのサイズに制限される）。

任意選択的に、単離された核は、ヌクレオソームを含まなくてもよく、又はヌクレオソームの核を枯渇させ、ヌクレオソーム枯渇核を生成する条件に供することができる。

ユニバーサル配列の挿入

本明細書で提供される方法は、核又は細胞に存在する核酸に１つ以上のユニバーサル配列を挿入することを含む。一実施形態では、１つ以上のユニバーサル配列の組み込みは、サブセットの分配前に生じ（図１Ａ、ブロック１１、図１Ｂ、ブロック１１０）、他の実施形態では、１つ以上のユニバーサル配列の組み込みは、サブセットの配布後に生じる（図３、ブロック３２、図４、ブロック４２、ブロック４５）。いくつかの実施形態では、インデックスはまた、ユニバーサル配列と組み合わされてよく、又は１つ以上のユニバーサル配列の挿入とは別個の任意選択的な工程として細胞若しくは核と関連してよい。核又は細胞の任意選択的なインデックス付けは、ユニバーサル配列の挿入の前又は後に生じ得る（図１Ａ、ブロック１２）。一実施形態では、核又は細胞のサブセットの分配前に、試料にインデックスを付加する（図１Ａ、ブロック１３）。いくつかの実施形態では、核又は細胞のサブセットの分配前に、複数の試料にインデックスを付加する（図１Ａ、ブロック１３）。

一実施形態では、トランスポソーム複合体を使用する。トランスポソーム複合体はトランスポザーゼ認識部位に結合され、「タグ付け」と呼ばれることもあるプロセスで、核内のターゲット核酸にトランスポザーゼ認識部位を挿入することができる。一部のそのような挿入イベントでは、トランスポザーゼ認識部位の一本鎖は、ターゲット核酸に移され得る。このような鎖は、「移送鎖」と称される。一実施形態では、トランスポソーム複合体は、２つのサブユニット、及び２つの非連続的なトランスポゾン配列を有する二量体トランスポザーゼを含む。別の実施形態では、トランスポザーゼは、２つのサブユニット、及び非連続的なトランスポゾン配列を有する二量体トランスポザーゼを含む。一実施形態では、トランスポザーゼ認識部位の一方又は両方の鎖の５’末端をリン酸化することができる。

いくつかの実施形態は、高活性Ｔｎ５トランスポザーゼ及びＴｎ５型トランスポザーゼ認識部位（Ｇｏｒｙｓｈｉｎ及びＲｅｚｎｉｋｏｆｆ、Ｊ．Ｂｉｏｌ．Ｃｈｅｍ．、２７３：７３６７（１９９８年））、又はＲ１及びＲ２末端配列を含むＭｕＡトランスポザーゼ及びＭｕトランスポザーゼ認識部位（Ｍｉｚｕｕｃｈｉ，Ｋ．、Ｃｅｌｌ、３５：７８５，１９８３年、Ｓａｖｉｌａｈｔｉ，Ｈら、ＥＭＢＯＪ．、１４：４８９３、１９９５年）の使用を含み得る。Ｔｎ５モザイク末端（ＭＥ）配列もまた、当業者が使用することができる。

本明細書で提供される組成物及び方法の特定の実施形態と共に使用することができる転位システムの更なる例としては、黄色ブドウ球菌Ｔｎ５５２（Ｃｏｌｅｇｉｏら、Ｊ．Ｂａｃｔｅｒｉｏｌ．、１８３：２３８４－８，２００１年、ＫｉｒｂｙＣら、Ｍｏｌ．Ｍｉｃｒｏｂｉｏｌ．、４３：１７３－８６、２００２年）、Ｔｙ１（Ｄｅｖｉｎｅ及びＢｏｅｋｅ、ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．、２２：３７６５－７２、１９９４年、及び国際公開第９５／２３８７５号）、トランスポゾンＴｎ７（Ｃｒａｉｇ、ＮＬ、Ｓｃｉｅｎｃｅ．２７１：１５１２、１９９６年、Ｃｒａｉｇ、ＮＬ、ＣｕｒｒＴｏｐＭｉｃｒｏｂｉｏｌＩｍｍｕｎｏｌ．中のレビュー、２０４：２７－４８、１９９６年）、Ｔｎ／Ｏ及びＩＳ１０（ＫｌｅｃｋｎｅｒＮ、ら、ＣｕｒｒＴｏｐＭｉｃｒｏｂｉｏｌＩｍｍｕｎｏｌ．、２０４：４９－８２、１９９６年）、Ｍａｒｉｎｅｒｔｒａｎｓｐｏｓａｓｅ（ＬａｍｐｅＤＪ、ら、ＥＭＢＯＪ、１５：５４７０－９、１９９６年）、Ｔｃ１（ＰｌａｓｔｅｒｋＲＨ、Ｃｕｒｒ．ＴｏｐｉｃｓＭｉｃｒｏｂｉｏｌ．Ｉｍｍｕｎｏｌ．、２０４：１２５－４３、１９９６年）、Ｐ要素（Ｇｌｏｏｒ、ＧＢ、ＭｅｔｈｏｄｓＭｏｌ．ＢｉＢｉｏｌ、２６０：９７－１１４、２００４年）、Ｔｎ３（Ｉｃｈｉｋａｗａ及びＯｈｔｓｕｂｏ、ＪＢｉｏｌ．Ｃｈｅｍ．２６５：１８８２９－３２、１９９０年）、細菌挿入配列（Ｏｈｔｓｕｂｏ及びＳｅｋｉｎｅ、Ｃｕｒｒ．Ｔｏｐ．Ｍｉｃｒｏｂｉｏｌ．Ｉｍｍｕｎｏｌ．２０４：１－２６、１９９６年）、レトロウイルス（Ｂｒｏｗｎら、ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ、８６：２５２５－９、１９８９年）、及び酵母のレトロトランスポゾン（Ｂｏｅｋｅ及びＣｏｒｃｅｓ、ＡｎｎｕＲｅｖＭｉｃｒｏｂｉｏｌ．４３：４０３－３４、１９８９年）が挙げられる。その他の例としては、ＩＳ５、Ｔｎ１０、Ｔｎ９０３、ＩＳ９１１、及びトランスポザーゼファミリー酵素の改変型（Ｚｈａｎｇら、（２００９年）ＰＬｏＳＧｅｎｅｔ．５：ｅ１０００６８９．Ｅｐｕｂ２００９年１０月１６日、ＷｉｌｓｏｎＣ．ら（２００７年）Ｊ．Ｍｉｃｒｏｂｉｏｌ．Ｍｅｔｈｏｄｓ７１：３３２－５）がある。

本明細書で提供される方法及び組成物と共に使用され得るインテグラーゼの他の例には、レトロウイルスインテグラーゼ及びそのようなレトロウイルスインテグラーゼのインテグラーゼ認識配列、例えば、ＨＩＶ－１、ＨＩＶ－２、ＳＩＶ、ＰＦＶ－１、ＲＳＶからのインテグラーゼが含まれる。

本明細書に記載の方法及び組成物で有用なトランスポゾン配列は、米国特許出願公開第２０１２／０２０８７０５号、米国特許出願公開第２０１２／０２０８７２４号、及び国際公開第２０１２／０６１８３２号に記載されている。いくつかの実施形態では、トランスポゾン配列は、第１のトランスポザーゼ認識部位と、第２のトランスポザーゼ認識部位とを含む。

本明細書で有用ないくつかのトランスポソーム複合体は、２つのトランスポゾン配列を有するトランスポザーゼを含む。いくつかのそのような実施形態では、２つのトランスポゾン配列は互いに連結されておらず、換言すれば、トランスポゾン配列は互いに連続していない。このようなトランスポソームの例は、当技術分野において既知である（例えば、米国特許出願公開第２０１０／０１２００９８号参照）。

一実施形態では、タグ付けは、各末端に異なるユニバーサル配列を含むターゲット核酸（例えば、一端にＡ１４などユニバーサルプライマー結合部位、及び他端にＢ１５などユニバーサルプライマー結合部位）を産生するために使用される。これは、２種類のトランスポソーム複合体を使用することによって達成することができ、各トランスポソーム複合体は、移送鎖の一部である、異なるヌクレオチド配列を含む。ユニバーサル配列は、複数の目的を果たすことができる。例えば、限定することを意図するものではないが、ユニバーサル配列は、別のヌクレオチド配列（例えば、インデックス）を付加するために、後続の増幅工程でハイブリダイゼーション用相補的配列としての役割を果たすことができる、ユニバーサルプライマー（例えば、リード１又はリード２用のシークエンシングプライマー）がシークエンシングのためにアニーリングする部位としての役割を果たすことができる、又はインデックスなど別のヌクレオチド配列をターゲット核酸に付加するためのプライマーとして使用され得るヌクレオチド配列をアニーリングするために、後続の工程で「着地パッド」としての役割を果たすことができる。

いくつかの実施形態では、トランスポソーム複合体は、２つのトランスポザーゼサブユニットを結合して「ループ状複合体」又は「ループ状トランスポソーム」を形成するトランスポゾン配列核酸を含む。一実施例では、トランスポソームは、二量体トランスポザーゼ及びトランスポゾン配列を含む。ループ状複合体は、ターゲットＤＮＡを断片化することなく、元のターゲットＤＮＡの順序情報を維持しながら、トランスポゾンがターゲットＤＮＡに挿入されることを確実にすることができる。理解されるように、ループ状構造は、ターゲット核酸の物理的接続性を維持しながら、ターゲット核酸に、ユニバーサル配列など所望の核酸配列を挿入してよい。いくつかの実施形態では、ループ状トランスポソーム複合体のトランスポゾン配列は、トランスポゾン配列を断片化して２つのトランスポゾン配列を含むトランスポソーム複合体を作成することができるように、断片化部位を含むことができる。このようなトランスポソーム複合体は、トランスポゾンが挿入される、近傍のターゲットＤＮＡ断片が、アッセイの後の段階で明確に組み立てられ得るバーコードの組み合わせを確実に受け取るのに有用である。一実施形態では、ターゲット核酸への１つ以上のユニバーサル配列の挿入後に、インデックスの組み合わせを付加する。

一実施形態では、核酸の断片化は、核酸中に存在する断片化部位を使用することによって達成される。典型的には、断片化部位は、トランスポソーム複合体を使用することによってターゲット核酸に導入される。一実施形態では、核酸断片の断片化後、トランスポザーゼは、同じゲノムＤＮＡ分子に由来する核酸断片が物理的に連結されたままであるように、核酸断片に結合したままである（Ａｄｅｙｅｔａｌ．，２０１４，ＧｅｎｏｍｅＲｅｓ．，２４：２０４１－２０４９，ＡｍｉｎｉＳ．ｅｔａｌ．（２０１４）ＮａｔＧｅｎｅｔ４６：１３４３－１３４９）。例えば、ループ状トランスポソーム複合体は、断片化部位を含み得る。断片化部位は、物理的会合を開裂するために使用することができるが、ターゲット核酸に組み込まれているインデックス配列間の情報的会合の開裂に使用することはできない。開裂は、生化学的、化学的、又は他の手段によって行われてよい。いくつかの実施形態では、断片化部位は、様々な手段によって断片化され得るヌクレオチド又はヌクレオチド配列を含み得る。断片化部位の例としては、制限エンドヌクレアーゼ部位、ＲＮＡｓｅにより開裂可能な少なくとも１つのリボヌクレオチド、特定の化学剤の存在下で開裂可能なヌクレオチド類似体、過ヨウ素酸塩による処理で開裂可能なジオール結合、化学還元剤で開裂可能なジスルフィド基、光化学的開裂に供され得る開裂可能部分、及びペプチダーゼ酵素又は他の好適な手段によって開裂可能なペプチドが挙げられるが、これらに限定されない（例えば、米国特許出願公開第２０１２／０２０８７０５号、米国特許出願公開第２０１２／０２０８７２４号、及び国際公開第２０１２／０６１８３２号を参照）。一実施形態では、トランスポザーゼは、核酸断片に結合したままであり、タンパク質変性剤（例えばＳＤＳ）又はキレート剤（例えば、ＥＤＴＡ）の添加など適切な条件の使用による除去まで、同じゲノムＤＮＡ分子に由来する核酸断片間の物理的結合を維持する。このタイプのアプローチは、連続的に連結され、転位したターゲット核酸を捕捉することによって、連続性情報の導出を可能にする（米国特許出願公開第２０１９／００４０３８２号）。連続性情報は、トランスポザーゼを使用してターゲット核酸内で隣接する鋳型核酸断片の会合を維持することによって保存され得る。

転位の代わりに、断片化によってターゲット核酸を得ることができる。試料からの一次核酸の断片化は、酵素法、化学的方法、又は機械的方法によって順不同の様式で達成され得、次いで、アダプターが断片の末端に付加される。酵素的断片化の例としては、ＣＲＩＳＰＲ及びＴａｌｅｎ様酵素、並びにＤＮＡ断片がハイブリダイズし、伸長又は増幅を開始することができる一本鎖領域を作製することができるＤＮＡ（例えば、ヘリカーゼ）をほどく酵素が挙げられる。例えば、ヘリカーゼベースの増幅を使用することができる（Ｖｉｎｃｅｎｔｅｔａｌ．，２００４，ＥＭＢＯＲｅｐ．，５（８）：７９５－８００）。一実施形態では、伸長又は増幅は、ランダムプライマーを用いて開始される。機械的断片化の例としては、噴霧化又は超音波処理が挙げられる。

機械的手段による一次核酸の断片化は、平滑末端、３’オーバーハング末端、及び５’オーバーハング末端の異種混合物を有する断片をもたらす。したがって、例えば、平滑部位にアダプターを付加するのに最適な端部を生成するために、当該技術分野において既知の方法を使用して、断片末端を修復することが望ましい。特定の実施形態では、核酸集団の断片末端は、平滑末端である。より具体的には、断片末端は、平滑末端であり、リン酸化されている。リン酸部分は、酵素処理によって、例えば、ポリヌクレオチドキナーゼを使用して導入することができる。

一実施形態では、断片化した核酸は、オーバーハングヌクレオチドを用いて調製される。例えば、単一のオーバーハングヌクレオチドは、例えばヌクレオチド「Ａ」をＤＮＡ分子の３’末端に付加するなど単一のデオキシヌクレオチドを付加する、鋳型非依存の末端トランスフェラーゼ活性を有する、Ｔａｑポリメラーゼ又はＫｌｅｎｏｗエキソマイナスポリメラーゼなど特定タイプの活性によって付加することができる。このような酵素を使用して、二本鎖核酸断片の各鎖の平滑末端の３’末端に単一ヌクレオチド「Ａ」を付加することができる。したがって、Ｔａｑ又はＫｌｅｎｏｗエキソマイナスポリメラーゼとの反応によって、二本鎖ターゲット断片の末端修復された各鎖の３’末端に「Ａ」を付加することができ、一方、アダプターは、ユニバーサルアダプターの二本鎖核酸の各領域の３’末端に存在する適合性のある「Ｔ」オーバーハングを有するＴ構築物であり得る。一実施例では、末端デオキシヌクレオチジルトランスフェラーゼ（ＴｄＴ）を使用して、複数の「Ｔ」ヌクレオチド」（ＳｗｉｆｔＢｉｏｓｃｉｅｎｃｅｓ，ＡｎｎＡｒｂｏｒ，ＭＩ）を付加することができる。このタイプの末端修飾はまた、各末端に同じアダプターを有するターゲット核酸を形成するバイアスが存在するように、ベクター及びターゲットの両方の自己ライゲーションを防止する。

一次核酸は、ＤＮＡ、ＲＮＡ、又はＤＮＡ／ＲＮＡハイブリッドであり得る。一次核酸がＲＮＡである実施形態では、核又は細胞に存在する核酸に１つ以上のユニバーサル配列を組み込むことは、典型的には、ＲＮＡをＤＮＡに変換することを含む。様々な方法を使用することができるが、いくつかの実施形態では、ｃＤＮＡを産生するために使用される常法が含まれる。例えば、３’末端にポリＴ配列を有するプライマー及びポリＴ配列の上流のアダプターをｍＲＮＡ分子にアニーリングし、逆転写酵素を使用して伸長させることができる。これにより、ＤＮＡへのｍＲＮＡの１工程変換、任意選択的に、３’末端へのユニバーサル配列の１工程変換をもたらす。一実施形態では、プライマーはまた、１つ以上のインデックス配列を含んでよい。一実施形態では、ランダムプライマーを使用する。

非コードＲＮＡはまた、ＤＮＡに変換することができ、任意選択的に、様々な方法を使用してユニバーサル配列を含むように修飾されてよい。例えば、ランダム配列及び鋳型スイッチプライマーを含む第１プライマーを使用してアダプターを付加することができ、いずれのプライマーもユニバーサル配列アダプターを含むことができる。合成鎖の３’末端への非鋳型ヌクレオチドの付加をもたらすために末端トランスフェラーゼ活性を有する逆転写酵素を使用することができ、鋳型スイッチプライマーは、逆転写酵素により付加される非鋳型ヌクレオチドとアニーリングするヌクレオチドを含む。有用な逆転写酵素の例は、モロニ－マウス白血病ウイルス逆転写酵素である。特定の実施形態では、鋳型スイッチに使用するために、ＴａｋａｒａＢｉｏＵＳＡ，Ｉｎｃ．から入手可能なＳＭＡＲＴｅｒ（商標）試薬（カタログ番号６３４９２６）を使用して、非コードＲＮＡに、また必要に応じてｍＲＮＡにユニバーサル配列を付加する。任意選択的に、鋳型スイッチプライマーを、ポリＴ配列を有するプライマーと併せてＲＮＡで用い、ＲＮＡから産生されたＤＮＡターゲット核酸の両端にユニバーサル配列を付加することができる。

サブセットの分配

本明細書で提供される方法は、単離された核又は細胞のサブセットを複数の区画に分配することを含む（図１Ａ、ブロック１３、図１Ｂ、ブロック１１５、図３、ブロック３１、図４、ブロック４１、ブロック４４）。本方法は、単離された核又は細胞の集団（本明細書ではプールとも呼ばれる）をサブセットに分割する、複数の分配工程を含み得る。典型的には、単離された核又は細胞のサブセット、例えば、複数の区画に存在するサブセットを、区画特異的インデックスでインデックス付けし、次いでプールする。したがって、本方法は、典型的には、プールされた単離核又は単離細胞を得て、それらを分配し、区画特異的インデックスを付加するという、少なくとも１つの「スプリット及びプール」工程を含み、「スプリット及びプール」工程の数は、ターゲット核酸に付加される、異なるインデックスの数に依存し得る。インデックス付け前の核又は細胞の各初期サブセットは、他のサブセットとは異なり、一意であり得る。例えば、第１の各サブセットは、一意の生物又は一意の組織など一意の試料からのものであり得る。インデックス付け後、サブセットをプールし、サブセットに分割し、十分な数のインデックスがターゲット核酸に付加されるまで、必要に応じて再度プールすることができる。このプロセスは、それぞれの単一細胞又は単一核に固有のインデックス又はインデックスの組み合わせを割り当て、本明細書に記載されるコンビナトリアルインデクシングをもたらす。インデックス付けの完了後、例えば、１つ、２つ、３つ、又はそれ以上のインデックスの付加後、単離された核又は細胞を溶解することができる。いくつかの実施形態では、インデックスの付加及び溶解は同時に生じ得る。

サブセット、したがって各区画内に存在する核又は細胞の数は、少なくとも１であり得る。一実施形態では、サブセット内に存在する核又は細胞の数は、１００，０００，０００以下、１０，０００，０００以下、１，０００，０００以下、１００，０００以下、１０，０００以下、４，０００以下、３，０００以下、２，０００以下、１，０００以下、５００以下、又は５０以下である。一実施形態では、サブセット内に存在する核又は細胞の数は、１～１，０００、１，０００～１０，０００、１０，０００～１００，０００、１００，０００～１，０００，０００、１，０００，０００～１０，０００，０００、又は１０，０００，０００～１００，０００，０００であり得る。一実施形態では、各サブセット内に存在する核又は細胞の数はほぼ等しい。サブセット内に存在する核又は細胞の数、したがって各区画内の核又は細胞の数は、インデックスの衝突を減らしたいという要望に部分的に基づいており、衝突とは、本方法のこの工程において同じ区画内で終わる同じインデックスの組み合わせを有する２つの核又は細胞の存在である。核又は細胞をサブセットに分配するための方法は、当業者に既知であり、日常的である。蛍光活性化細胞選別（ＦＡＣＳ）サイトメトリーを使用することができるが、いくつかの実施形態では、単純希釈の使用が好ましい。一実施形態では、ＦＡＣＳサイトメトリーは使用されない。任意選択的に、染色、例えばＤＡＰＩ（４’，６－ジアミジノ－２－フェニルインドール）染色により、異なる倍数性の核をゲーティングし、濃縮することができる。染色は、選別中にダブレットから単一の細胞を同定するためにも使用することができる。

分配工程（及び後続のインデックスの付加）における区画の数は、使用するフォーマットに依存し得る。例えば、区画の数は、２～９６区画（９６ウェルプレートを使用する場合）、２～３８４区画（３８４ウェルプレートを使用する場合）、又は２～１５３６区画（１５３６ウェルプレートを使用する場合）であり得る。一実施形態では、複数のプレートを使用することができる。区画の例としては、ウェル、液滴、及びマイクロ流体区画が挙げられるが、これらに限定されない。一実施形態では、各区画は液滴であり得る。使用される区画の種類が２つ以上の核又は細胞を含有する液滴である場合、少なくとも１０，０００、少なくとも１００，０００、少なくとも１，０００，０００、又は少なくとも１０，０００，０００の液滴など、任意の数の液滴を使用することができる。単離された核又は細胞のサブセットは、典型的には、プール前に区画内でインデックス付けされる。

コンビナトリアルインデクシング

本明細書で提供される方法は、試料中に存在する核又は細胞に区画特異的インデックスを付加すること（図１Ｂ、ブロック１１２）、又は異なる区画に分配された、単離された核若しくは細胞のサブセットに区画特異的インデックスを付加すること（例えば、図１Ａ、ブロック１４、図３、ブロック３２、図４、ブロック４２及び４５、図６、ブロック６０１）を含む。いくつかの実施形態では、ユニバーサル配列はまた、インデックスと共に組み込まれ得る。タグ又はバーコードとも呼ばれるインデックス配列は、特定の核酸が存在する区画に特徴的なマーカーとして有用である。したがって、いくつかの実施形態では、インデックスは、特定の区画に存在するターゲット核酸のそれぞれに結合された核酸配列タグであり、その存在は、本方法の特定の段階で核又は細胞の集団が存在している区画を示すか、又は同定するために使用される。

一実施形態では、複数のインデックスが付加される。各インデックスの組み込みは、１回のスプリット及びプールインデクシングで生じる。１回、２回、３回、又はそれ以上の回数のスプリット及びプールバーコーディングは、一重、二重、三重、又は多重（例えば、四重以上の）インデックス付きターゲット核酸をもたらす。

インデックスは、ターゲット核酸の一端又は両端に付加され得る。例えば、２つ以上のインデックスを有する修飾ターゲット核酸は、各末端に異なるインデックスを含み得る（その例を図５Ａに示す）。図５Ａでは、ターゲット核酸５５は、４つの別個のインデックス、一端に２つのインデックス（５１及び５２）、及び他端に２つのインデックス（５３及び５４）を含むように修飾される。他の実施形態では、修飾ターゲット核酸は、一端部又は両端においてグループ化されたインデックスを含み得る（図５Ｂに一例を示す）。図５Ｂでは、ターゲット核酸５６は、各末端に４つの別個のインデックス（５１、５２、５３、及び５４）を含むように修飾される。ターゲット核酸の一端に存在する１セットのインデックスは、「連続インデックス」と称され得る。一実施形態では、連続インデックスは、各インデックス間にヌクレオチドを有さない。他の実施形態では、連続インデックスのうちの１つ以上のインデックスの間に、１個、２個、３個、４個、又はそれ以上のヌクレオチドが存在し得る。本明細書に記載のように、連続インデックスは、特定のインデックスセットを有するライブラリーのメンバーを同定する際に有用であり得る。例えば、連続インデックスは、同一細胞に由来するライブラリーメンバーの濃縮を促進することができる。

インデックス配列は、任意の好適な数、例えば、１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０以上のヌクレオチドの長さであり得る。４つのヌクレオチドタグは、同一アレイで２５６個の試料を多重化する可能性をもたらし、６つの塩基タグは、同一アレイでの４０９６個の試料の処理を可能にする。

一実施形態では、インデックスは、例えばトランスポソーム複合体によって、ユニバーサル配列が核又は細胞のＤＮＡ核酸に組み込まれた後に付加される。インデックス配列の組み込みは、本質的に、ライゲーション、伸長、ハイブリダイゼーション、吸着、プライマーの特異的若しくは非特異的相互作用、又は増幅の任意の組み合わせを使用して、１つ、２つ、又はそれ以上の工程を含むプロセスを使用し得る。一実施形態では、インデックスは、ｃＤＮＡ合成中に付加される。一実施形態では、インデックスは、タグ付けを通して付加される。ターゲット核酸の一端又は両末端に付加されるヌクレオチド配列はまた、１つ以上のユニバーサル配列及び／又は固有分子識別子など他の有用な配列を含み得る。

ユニバーサル配列を含む核酸へのインデックスの付加には様々な方法を使用することができ、インデックスの付加方法を限定することは意図しない。一実施形態では、ターゲット核酸は、各末端に異なるユニバーサル配列（例えば、一端にＡ１４、他端にＢ１５）を有し、当業者であれば、ターゲット核酸の一端又は両端に特定の配列を付加できることを認識するであろう。トランスポソーム複合体により付加されるユニバーサル配列は、例えば、別のインデックス及び／又は別のユニバーサル配列など別のヌクレオチド配列をターゲット核酸に付加するためのプライマーとして使用され得るヌクレオチド配列をアニーリングする後続工程において、「着地パッド」として使用することができる。例えば、一実施形態では、インデックス配列の組み込みは、核酸の一端又は両端にプライマーをライゲートすることを含む。プライマーのライゲーションは、ターゲット核酸の各末端におけるユニバーサル配列の存在によって補助され得る。プライマーの例は、二重ヘアピンライゲーションである。二重ライゲーションは、ターゲット核酸の一端、又は好ましくは両端にライゲーションされ得る。

一実施形態では、平滑末端ライゲーションを使用することができる。別の実施形態では、ターゲット核酸は、例えば、Ｔａｑポリメラーゼ、又は１つ以上のデオキシヌクレオチド、例えば、デオキシアデノシン（Ａ）をターゲット核酸の３’末端に付加する、鋳型非依存末端トランスフェラーゼ活性を有するＫｌｅｎｏｗエキソマイナスポリメラーゼなど特定タイプのＤＮＡポリメラーゼの活性によって、単一のオーバーハングヌクレオチドを用いて調製される。場合によっては、オーバーハングヌクレオチドは、２つ以上の塩基である。このような酵素を使用して、ターゲット核酸の各鎖の平滑端である３’末端に単一のヌクレオチド「Ａ」を付加することができる。したがって、Ｔａｑ又はＫｌｅｎｏｗエキソマイナスポリメラーゼとの反応によって、二本鎖ターゲット断片の各鎖の３’末端に「Ａ」を付加することができ、一方、ターゲット核酸の各末端に付加される更なる配列は、付加される二本鎖核酸の各領域の３’末端に存在する、適合性のある「Ｔ」オーバーハングを含み得る。この末端修飾はまた、この実施形態で付加される配列に隣接するインデックス付きターゲット核酸を形成するバイアスが存在するように、核酸の自己ライゲーションを防止する。

一実施形態では、インデックスの組み込みは、ＰＣＲなど指数的増幅反応によって行われる。ターゲット核酸の末端に存在するユニバーサル配列は、プライマーとしての役割を果たし、増幅反応で伸長し得る配列のアニーリングに使用することができる。

インデックス及び他の有用な配列は、単一工程で、又は複数工程で付加することができる。例えば、インデックス及び任意の他の有用な配列は、ライゲーション又は伸長によって付加することができ、又は、例えば、ユニバーサル配列をライゲーションすること、次いで、インデックス及び任意の他の有用な配列を含むように、ユニバーサル配列を更に修飾するように増幅することを含む２工程法を使用することができる。

一実施形態では、インデクシング工程中の配列の付加により、ターゲット核酸の固定化及び／又はシークエンシングに有用なユニバーサル配列が付加される。別の実施形態では、インデックス付きターゲット核酸を更に処理して、ターゲット核酸の固定化及びシークエンシングに有用なユニバーサル配列を付加することができる。当業者は、区画が液滴である実施形態では、核酸断片を固定するための配列は任意選択的であることを認識するであろう。一実施形態では、断片の固定化及びシークエンシングに有用なユニバーサル配列の組み込みは、同一のユニバーサルアダプター（「ミスマッチアダプター」とも呼ばれ、その一般的な特徴は、米国特許第７，７４１，４６３号（Ｇｏｒｍｌｅｙら）及び同第８，０５３，１９２号（Ｂｉｇｎｅｌｌら）に記載されている）を、インデックス付き核酸断片の５’末端及び３’末端にライゲートすることを含む。一実施形態では、ユニバーサルアダプターは、アレイ上でインデックス付き核酸断片を固定化するための配列を含む、シークエンシングに必要な全ての配列を含む。

得られたインデックス付き断片は、固定化し、次いでシークエンシングできる核酸のライブラリーを集合的に提供する。本明細書においてシークエンシングライブラリーとも呼ばれるライブラリーという用語は、３’末端及び５’末端に既知のユニバーサル配列及びインデックスの様々な組み合わせを含む単一核又は単一細胞からの核酸断片の集合体を指す。ライブラリーは、例えば、アクセス可能ＤＮＡ、全ゲノム、又は全トランスクリプトーム、特定のタンパク質を示す核酸、又はこれらの組み合わせからの核酸を含み、シークエンシングを行うために使用することができる。

インデックス付き核酸断片は、１５０～３００ヌクレオチドなどの長さ１５０～４００ヌクレオチドなど所定のサイズ範囲について選択する条件に供され得る。得られたインデックス付き核酸断片はプールされ、任意選択的に、組み込まれていないユニバーサルアダプター又はプライマーの少なくとも一部を除去することによって、ＤＮＡ分子の純度を向上させるために、クリーンアッププロセスに供され得る。電気泳動、サイズ排除クロマトグラフィーなどの任意の好適なクリーンアッププロセスが使用されてよい。いくつかの実施形態では、固相可逆性固定常磁性ビーズを用いて、結合していないユニバーサルアダプター又はプライマーから所望のＤＮＡ分子を分離し、サイズに基づいて核酸を選択してよい。固相可逆性固定常磁性ビーズは、ベックマン・コールター社（ＡｇｅｎｃｏｕｒｔＡＭＰｕｒｅＸＰ）、サーモフィッシャー社（ＭａｇＪｅｔ）、オメガ・バイオテック社（Ｍａｇ－Ｂｉｎｄ）、プロメガ・ビーズ社（Ｐｒｏｍｅｇａ）、及びカパ・バイオシステムズ社（ＫａｐａＰｕｒｅＢｅａｄｓ）から市販されている。

本開示の非限定的な例示的実施形態を図１Ａに示す。この実施形態では、本方法は、複数の核又は細胞を提供することを含む（図１Ａ、ブロック１０）。複数の核又は細胞は、試料又は複数の試料からのものであり得る。本方法は、核又は細胞に存在する核酸に１つ以上のユニバーサル配列を組み込むことを更に含む（図１Ａ、ブロック１１）。任意選択的に、本方法はまた、核又は細胞にインデックスを関連付けること（例えば、核又は細胞ハッシング、国際公開第２０２０／１８０７７８号を参照）を含み得、一実施形態では、関連付けることにより、核酸にインデックスを付加することができる（図１Ａ、ブロック１２）。一実施形態では、２つの異なるユニバーサル配列が付加されて、最終的に、各末端に異なるユニバーサル配列を有するターゲット核酸が得られる。本方法は、核又は細胞のサブセットを分配することを更に含み、そこに位置する核酸にユニバーサル配列を組み込むこと、及び任意選択的に少なくとも１つのインデックスを複数の区画に組み込むこと含む（図１、ブロック１３）。各区画に存在する核酸にインデックス付けし（図１Ａ、ブロック１４）、次いで核又は細胞をプールする（図１Ａ、ブロック１５）。単一のインデックスの付加後に、核又は細胞内の核酸のライブラリーを更に処理して、シークエンシング用に調製することができる（図１Ａ、ブロック１６）。しかしながら、いくつかの好ましい実施形態では、第２、第３、又はそれ以上のインデックスを付加することが望ましい。一実施形態では、各インデックスの付加は、スプリット後にインデックス付けが生じる「スプリット及びプール」工程を含むことができ、例えば、核又は細胞のサブセットを複数の区画に分配し（図１Ａ、ブロック１３）、各区画内に存在する核酸にインデックス付けし（図１Ａ、ブロック１４）、次いで核又は細胞をプールする（図１Ａ、ブロック１５）。「スプリット及びプール」工程は、結果として、核又は細胞に存在する核酸の一端のみ又は両端にインデックスを付加することができる。最後のインデックスの付加後に、核又は細胞内の核酸のライブラリーをプールし、更に処理して、シークエンシング用（包括的シークエンシング又はターゲットシークエンシングであり得る）に調製することができる（図１Ａ、ブロック１６）。

本開示の別の非限定的な例示的実施形態を図１Ｂに示す。この実施形態では、本方法は、最初に並行処理される複数の試料を提供すること（図１Ｂ、ブロック１１０）を含む。本方法は、核又は細胞に存在する核酸に１つ以上のユニバーサル配列を組み込むこと（図１Ｂ、ブロック１１１）、続いて核酸にインデックスを付加すること（図１Ｂ、ブロック１１２）を含み、各試料に付加されたインデックスは一意であり、特定の試料に由来する核酸を同定するための試料インデックスとして使用され得る。一実施形態では、２つの異なるユニバーサル配列が付加されて、最終的に、各末端に異なるユニバーサル配列を有するターゲット核酸が得られる。本方法は、核又は細胞をプールすること（図１Ｂ、ブロック１１３）を更に含む。一実施形態では、１つのインデックスの付加後に、核又は細胞内の核酸のライブラリーを更に処理して、シークエンシング用に調製することができる（図１Ｂ、ブロック１１４）。しかしながら、いくつかの好ましい実施形態では、第２、第３、又はそれ以上のインデックスを付加することが望ましい。一実施形態では、各インデックスの付加は、スプリット後にインデックス付けが生じる「スプリット及びプール」工程を含むことができ、例えば、核又は細胞のサブセットを複数の区画に分配し（図１Ｂ、ブロック１１５）、各区画内に存在する核酸にインデックス付けし（図１Ｂ、ブロック１１６）、次いで核又は細胞をプールする（図１Ｂ、ブロック１１７）。「スプリット及びプール」工程は、結果として、核又は細胞に存在する核酸の一端のみ又は両端にインデックスを付加することができる。最後のインデックスの付加後に、核又は細胞内の核酸のライブラリーをプールし、更に処理して、シークエンシング用（包括的シークエンシング又はターゲットシークエンシングであり得る）に調製することができる（図１Ｂ、ブロック１１８）。

本開示の別の非限定的な例示的実施形態を図２に示す。この実施形態では、本方法は、タグ付けを使用して、核又は細胞に存在する核酸に２つのユニバーサル配列を組み込み、後続の３回のインデクス付けを行うことを含む（図２Ａ）。あるトランスポソーム複合体２１は、ユニバーサル配列２３（例えば、Ａ１４）を含み、別のトランスポソーム複合体２２は、ユニバーサル配列２４（Ｂ１５）を含む。核酸へのユニバーサル配列の挿入は、バルクの複数の核又は細胞に対して生じる。図２Ａはまた、ターゲット核酸２５への２つのユニバーサル配列２３及び２４の挿入の結果を示す。複数の核又は細胞を異なる区画に分配し、一方のユニバーサル配列（例えば、Ａ１４）に相補的なヌクレオチドを使用して、ライゲーションによってインデックスを含むポリヌクレオチド２６を核酸２５の片側に付加する（図２Ｂ）。複数の核又は細胞をプールし、次いで異なる区画に分配し、他方のユニバーサル配列（例えば、Ｂ１５）に相補的なヌクレオチドを使用して、ライゲーションによって第２のインデックスを含む、異なるポリヌクレオチド２７を核酸２５の他方の側に付加する（図２Ｃ）。二重インデックス付き核酸を含有する複数の核又は細胞をプールし、次いで、異なる区画に分配し、次いで、第３のインデックスを含むポリヌクレオチド２８を核酸２５の片側に付加し、第４のインデックスを含むポリヌクレオチド２９を核酸２５の片側に付加するＰＣＲ増幅反応に供する（図２Ｄ）。最後のインデックスの付加後に、核又は細胞内の核酸のライブラリーをプールし、更に処理して、シークエンシング用（包括的シークエンシング又はターゲットシークエンシングであり得る）に調製することができる。

本開示の更に別の非限定的な例示的実施形態を図３に示す。この実施形態では、本方法は、複数の核又は細胞を提供することを含む（図３、ブロック３０）。本方法は、核又は細胞のサブセットを複数の区画に分配することを更に含む（図３、ブロック３１）。各区画の核又は細胞に存在する核酸は、インデックス及び／又はユニバーサル配列の組み込みによって修飾される（図３、ブロック３２）。別の実施形態では、各区画の核又は細胞に存在する核酸は、同じユニバーサル配列の組み込み（例えば、同じユニバーサル配列を有するトランスポゾンを使用したタグ付け）、続いての、区画特異的インデックスの付加によって修飾される。次いで、核又は細胞をプールする（図３、ブロック３３）。インデックス及び／又はユニバーサル配列の付加後に、核又は細胞内の核酸のライブラリーを更に処理して、シークエンシング用に調製することができる（図３、ブロック３４）。しかしながら、いくつかの好ましい実施形態では、第２、第３、又はそれ以上のインデックスを付加することが望ましい。任意選択的に、ユニバーサル配列を付加することもできる。各インデックスの付加は、スプリット後にインデックス付けが生じる「スプリット及びプール」工程を含むことができ、例えば、核又は細胞のサブセットを複数の区画に分配し（図３、ブロック３１）、各区画内に存在する核酸にインデックス付けし（図３、ブロック３２）、次いで核又は細胞をプールする（図３、ブロック３３）。「スプリット及びプール」工程は、結果として、核又は細胞に存在する核酸の一端のみ又は両端にインデックスを付加することができる。最後のインデックスの付加後に、核又は細胞内の核酸のライブラリーをプールし、更に処理して、シークエンシング用（包括的シークエンシング又はターゲットシークエンシングであり得る）に調製することができる（図３、ブロック３４）。

本開示の更に非限定的な例示的実施形態を図４に示す。この実施形態では、本方法はＲＮＡの解析を含む。複数の核又は細胞が提供され（図４、ブロック４０）、これらは、試料又は複数の試料から得ることができる。核又は細胞のサブセットを複数の区画に分配する（図４、ブロック４１）。任意選択的に、本方法はまた、分配前に、核又は細胞に（例えば、核又は細胞ハッシング、国際公開第２０２０／１８０７７８号を参照）、又は核酸にインデックスを関連付けることも含み得る。各区画の核又は細胞に存在する核酸は、逆転写酵素を使用して修飾し、インデックス及び／又はユニバーサル配列を挿入し（図４、ブロック４２）、次いで核又は細胞をプールする（図４、ブロック４３）。本方法は、核又は細胞のサブセットを複数の区画に分配することを更に含む（図４、ブロック４４）。各区画の核又は細胞に存在する核酸は、別のインデックス及び／又はユニバーサル配列の挿入によって修飾し（図４、ブロック４５）、次いで核又は細胞をプールする（図４、ブロック４６）。インデックス及び／又はユニバーサル配列の付加後に、核又は細胞内の核酸のライブラリーを更に処理して、シークエンシング用に調製することができる（図４、ブロック４７）。しかしながら、いくつかの好ましい実施形態では、第３、第４、又はそれ以上のインデックスを付加することが望ましい。任意選択的に、ユニバーサル配列を付加することもできる。各インデックスの付加は、スプリット後にインデックス付けが生じる「スプリット及びプール」工程を含むことができ、例えば、核又は細胞のサブセットを複数の区画に分配し（図４、ブロック４４）、各区画内に存在する核酸にインデックス付けし（図４、ブロック４５）、次いで核又は細胞をプールする（図４、ブロック４６）。「スプリット及びプール」工程は、結果として、核又は細胞に存在する核酸の一端のみ又は両端にインデックスを付加することができる。最後のインデックスの付加後に、核又は細胞内の核酸のライブラリーをプールし、更に処理して、シークエンシング用（包括的シークエンシング又はターゲットシークエンシングであり得る）に調製することができる（図４、ブロック４７）。

シークエンシングのための固定されたサンプルの調製

１つ又はそれ以上の源からのインデックス付き断片を基質に取り付ける方法は、当技術分野において既知である。一実施形態では、インデックス付き断片は、インデックス付き断片に対する特異性を有する複数の捕捉配列を使用して濃縮され、捕捉配列は、固体基質の表面に固定され得る。例えば、捕捉配列は、結合対の第１のメンバー（例えば、Ｐ５’）を含み得、結合対の第２のメンバー（Ｐ５）は、固体基質の表面に固定される。同様に、固定化されたインデックス付き断片を増幅するための方法としては、ブリッジ増幅及び結合平衡除外が挙げられるが、これらに限定されない。シークエンシングの前に固定化及び増幅する方法は、例えば、Ｂｉｇｎｅｌｌら（米国特許第８，０５３，１９２号）、Ｇｕｎｄｅｒｓｏｎら（国際公開第２０１６／１３０７０４号）、Ｓｈｅｎら（米国特許第８，８９５，２４９号）、及びＰｉｐｅｎｂｕｒｇら（米国特許第９，３０９，５０２号）に記載されている。

プールされたサンプルは、シークエンシングのために調製中に固定化され得る。シークエンシングは、単一分子のアレイとして実施することも、シークエンシングの前に増幅することもできる。増幅は、１つ又は複数の固定化プライマーを使用して実施することができる。固定化されたプライマーは、例えば、平面上、又はビーズのプール上のローンであり得る。ビーズのプールは、エマルジョンの各「区画」に単一のビーズを有するエマルジョン中に単離され得る。「区画」当たり１つの鋳型のみの濃度では、単一の鋳型のみが各ビーズ上で増幅される。

本明細書で使用するとき、用語「固相増幅」は、形成時に増幅産物の全て又は一部が固体支持体上に固定されるように、固体支持体上又は固体支持体と関連して実施される任意の核酸増幅反応を指す。具体的には、この用語は、順方向及び逆方向増幅プライマーの一方又は両方が固体支持体上に固定されていることを除いて、標準溶液相増幅に類似した反応である固相ポリメラーゼ連鎖反応（固相ＰＣＲ）及び固相等温増幅を包含する。固相ＰＣＲは、一方のプライマーがビーズに固定され、もう一方が遊離溶液にあるエマルジョンや、一方のプライマーが表面に固定され、もう一方が遊離溶液にある固相ゲルマトリックスでのコロニー形成などの系を対象としている。

いくつかの実施形態では、固体支持体はパターン化された表面を含む。「パターン化された表面」は、固体支持体の露出層内又はその上の異なる領域の配置を指す。例えば、１つ又はそれ以上の領域は、１つ又はそれ以上の増幅プライマーが存在する特徴であり得る。この特徴は、増幅プライマーが存在しない間質領域によって分離され得る。いくつかの実施形態では、パターンは、行及び列にある特徴のｘ－ｙフォーマットであり得る。いくつかの実施形態では、パターンは、特徴及び／又は間質領域の反復配列であり得る。いくつかの実施態様では、パターンは、特徴及び／又は間質領域のランダム配列であり得る。本明細書に記載の方法及び組成物で使用することができる例示的なパターン化された表面は、米国特許第８，７７８，８４８号、同第８，７７８，８４９号、及び同第９，０７９，１４８号、並びに米国特許出願公開第２０１４／０２４３２２４号に記載されている。

いくつかの実施形態では、固体支持体は、表面にウェル又は窪みのアレイを含む。これは、フォトリソグラフィー、スタンピング技術、成形技術、及びマイクロエッチング技術を含むがこれらに限定されない様々な技術を使用して、技術分野において一般的に知られているように製造することができる。技術分野において理解されるように、使用される技術は、アレイ基板の組成及び形状に依存する。

パターン付き表面内の特徴は、ガラス、シリコン、プラスチック、又はポリ（Ｎ－（５－アジドアセトアミルペンチル）アクリルアミド－コ－アクリルアミド）（ＰＡＺＡＭ、例えば、米国特許出願公開第２０１３／１８４７９６号、国際公開第２０１６／０６６５８６号、及び同第２０１５／００２８１３号参照）などのパターン化された共有結合ゲルを備えた他の適切な固体支持体上のウェルのアレイ（例えば、マイクロウェル又はナノウェル）のウェルである可能性がある。このプロセスは、配列決定のために使用されるゲルパッドを作成し、これは、多数のサイクルで配列決定動作にわたって安定であり得る。ポリマーをウェルに共有結合することは、様々な用途の間に、構造化基材の寿命全体にわたってゲルを構造化特徴部に維持するのに有用である。しかしながら、多くの実施形態では、ゲルは、ウェルに共有結合される必要はない。例えば、いくつかの条件では、構造化基質のどの部分にも共有結合されていないシランフリーのアクリルアミド（ＳＦＡ、例えば、米国特許第８，５６３，４７７号を参照）をゲル材料として使用することができる。

特定の別の実施形態では、構造化基材は、ウェル（例えば、マイクロウェル又はナノウェル）を用いて固体支持材料をパターニングし、パターン化された支持体をゲル材料（例えば、ＰＡＺＡＭ、ＳＦＡ、又はその化学修飾された変異体）、例えばＳＦＡのアジド化型（アジド－ＳＦＡ）など）でコーティングし、ゲルコーティングされた支持体を、例えば化学研磨又は機械研磨によって研磨することによって作製することができ、それによって、ウェル内にゲルを保持するが、ウェル間の構造化基材の表面の間隙領域から実質的に全てのゲルを除去又は不活性化する。ゲル材料にプライマー核酸を付着させることができる。次に、インデックス付き断片の溶液を研磨基材と接触させて、個々のインデックス付き断片が、ゲル材料に付着したプライマーとの相互作用を介して個々のウェルに播種されるようにすることができるが、ゲル材料が存在しないか不活性であるため、ターゲット核酸は間質領域を占有しない。インデックス付き断片の増幅は、間質領域内のゲルの非存在又は非活性が、増殖する核酸コロニーの外向きの移動を防止するため、ウェルに限定されるであろう。プロセスは、好都合に製造可能であり、スケール変更可能であり、従来のマイクロ又はナノ製造方法を利用する。

本開示は、１つの増幅プライマーのみが固定される「固相」増幅法（他のプライマーは通常は遊離溶液中に存在する）を包含するが、一実施形態では、固体支持体には、固定化された順方向及び逆方向プライマーの両方が提供されることが望ましい。実際には、増幅プロセスは増幅を維持するために過剰なプライマーを必要とするため、「複数」の同一の順方向プライマー及び／又は固体支持体上に固定化された「複数」の同一の逆方向プライマーが存在するであろう。本明細書における順方向及び逆方向プライマーへの言及は、文脈が別段の指示をしない限り、「複数の」そのようなプライマーを包含するものとして解釈されるべきである。

当業者に理解されるように、任意の所与の増幅反応は、増幅される鋳型に特異的な少なくとも１つのタイプの順方向プライマー及び少なくとも１つのタイプの逆方向プライマーを必要とする。しかしながら、特定の実施形態では、順方向及び逆方向プライマーは、同一配列の鋳型特異的部分を含んでもよく、完全に同一のヌクレオチド配列及び構造（任意の非ヌクレオチド修飾を含む）を有してもよい。換言すれば、１つのタイプのプライマーのみを用いて固相増幅を行うことができ、そのような単一プライマー法は、本開示の範囲内に包含される。他の実施形態は、同一の鋳型特異的配列を含むが、いくつかの他の構造的特徴において異なる順方向及び逆方向プライマーを使用してもよい。例えば、一方のタイプのプライマーは、他方には存在しない非ヌクレオチド修飾を含み得る。

本開示の全ての実施形態では、固相増幅用プライマーは、好ましくは、プライマーの５’末端又はその付近で固体支持体への単一点共有結合によって固定され、プライマーの鋳型特異的部分をその同族鋳型及びプライマー伸長を含まない３’ヒドロキシル基に自由にアニーリングさせる。当技術分野において既知の任意の好適な共有結合手段をこの目的のために使用することができる。選択された付着化学的物質は、固体支持体の性質、及びそれに適用される任意の誘導体化又は官能化に依存する。プライマー自体は、付着を促進するために非ヌクレオチド化学修飾であってもよい部分を含んでもよい。特定の実施形態では、プライマーは、５’末端にホスホロチオエート又はチオホスフェートなどの硫黄含有求核剤を含んでもよい。固体に支持されたポリアクリルアミドヒドロゲルの場合、この求核剤はヒドロゲルに存在するブロモアセトアミド基に結合する。プライマー及び鋳型を固体支持体に結合させるより具体的な手段は、国際公開第０５／０６５８１４号に記載されるように、重合アクリルアミド及びＮ－（５－ブロモアセトアミドイルペンチル）アクリルアミド（ＢＲＡＰＡ）からなるヒドロゲルへの、５’ホスホロチオエート結合を介している。

本開示の特定の実施形態は、例えば、ポリヌクレオチドなど生体分子への共有結合を可能にする反応基を含む中間材料の層又はコーティングの適用によって「官能化」された不活性基質又はマトリックス（例えば、ガラススライド、ポリマービーズなど）を含む固体支持体を利用することができる。このような支持体の例としては、ガラスなどの不活性基質上に支持されるポリアクリルアミドヒドロゲルが挙げられるが、これに限定されない。このような実施形態では、生体分子（例えば、ポリヌクレオチド）は、中間材料（例えば、ヒドロゲル）に直接共有結合してもよいが、中間材料は、それ自体が基質又はマトリックス（例えば、ガラス基質）に非共有結合してもよい。用語「固体支持体への共有結合」は、このタイプの配置を包含するように適宜解釈されるべきである。

プールされたサンプルは、ビーズ上で増幅されてもよく、各ビーズは、順方向及び逆方向増幅プライマーを含有する。特定の実施形態では、インデックス付き断片のライブラリーを使用して、米国特許出願公開第２００５／０１００９００号、米国特許第７，１１５，４００号、国際公開第００／１８９５７号及び同第９８／４４１５１号に記載されているものと同様に、固相増幅、より具体的には固相等温増幅によって核酸コロニーのクラスター化アレイを調製する。用語「クラスター」及び「コロニー」は、本明細書において交換可能に使用され、複数の同一の固定化核酸鎖及び複数の同一の固定化された相補的核酸鎖を含む、固体支持体上の別個の部位を指す。「クラスター化アレイ」という用語は、そのようなクラスター又はコロニーから形成されるアレイを指す。この文脈では、用語「アレイ」は、クラスターの順序付けられた配置を必要とするものとして理解されるべきではない。

「固相」又は「表面」という用語は、プライマーが平坦な表面、例えば、ガラス、シリカ若しくはプラスチック顕微鏡スライド、又は類似のフロー細胞デバイスや、ビーズであって、１つ又は２つのプライマーが付着し、ビーズが増幅される、ビーズに取り付けられている平面アレイか、ビーズが増幅された後の表面上のビーズのアレイのいずれかを意味するために使用される。

クラスター化された配列は、国際公開第９８／４４１５１号に記載されているような熱サイクルのプロセス、又は温度が一定に維持され、試薬の変化を使用して延伸及び変性のサイクルが行われるプロセスを使用して調整され得る。このような等温増幅法は、国際公開第０２／４６４５６号及び米国特許出願公開第２００８／０００９４２０号に記載されている。等温プロセスにおいて有用なより低い温度により、これは、いくつかの実施形態において特に好ましい。

本明細書に記載されるか、又は当技術分野において一般的に既知の増幅方法のいずれも、固定化ＤＮＡ断片を増幅するために、ユニバーサル又はターゲット特異的なプライマーと共に使用され得ることが理解されるであろう。増幅に好適な方法としては、米国特許第８，００３，３５４号に記載されているように、ポリメラーゼ連鎖反応（ＰＣＲ）、鎖置換増幅（ＳＤＡ）、転写媒介増幅（ＴＭＡ）、及び核酸配列に基づく増幅（ＮＡＳＢＡ）が挙げられるが、これらに限定されない。上記の増幅方法を用いて、対象とする１つ又はそれ以上の核酸を増幅することができる。例えば、多重ＰＣＲ、ＳＤＡ、ＴＭＡ、ＮＡＳＢＡなどＰＣＲを利用して、固定化ＤＮＡ断片を増幅することができる。いくつかの実施形態では、対象となるポリヌクレオチドに特異的に指向されるプライマーは、増幅反応に含まれる。

ポリヌクレオチドの増幅に好適な他の方法としては、オリゴヌクレオチド伸長及びライゲーション、ローリングサークル増幅（ＲＣＡ）（Ｌｉｚａｒｄｉら、Ｎａｔ．Ｇｅｎｅｔ．１９：２２５－２３２（１９９８年））、及びオリゴヌクレオチドライゲーションアッセイ（ＯＬＡ）（一般に米国特許第７，５８２，４２０号、同第５，１８５，２４３号、同第５，６７９，５２４号、及び同第５，５７３，９０７号、欧州特許第０３２０３０８（Ｂ１）号、同第０３３６７３１（Ｂ１）号、同第０４３９１８２（Ｂ１）号、国際公開第９０／０１０６９号、国際公開第８９／１２６９６号、及び国際公開第８９／０９８３５号参照）技術を含み得る。これらの増幅方法は、固定化ＤＮＡ断片を増幅するように設計され得ることが理解されるであろう。例えば、いくつかの実施形態では、増幅法は、対象の核酸に特異的に指向されるプライマーを含有するライゲーションプローブ増幅又はオリゴヌクレオチドライゲーションアッセイ（ＯＬＡ）反応を含んでもよい。いくつかの実施形態では、増幅法は、対象の核酸に特異的に指向されるプライマーを含有するプライマー伸長ライゲーション反応を含んでもよい。対象の核酸を増幅するよう特異的に設計され得るプライマー伸長及びライゲーションプライマーの非限定的な例として、増幅は、米国特許第７，５８２，４２０号及び同第７，６１１，８６９号により例示されるように、ＧｏｌｄｅｎＧａｔｅアッセイに使用されるプライマー（Ｉｌｌｕｍｉｎａ社、サンディエゴ、カリフォルニア州）を挙げることができる。

ＤＮＡナノブロックも、本明細書に記載の方法及び組成物と組み合わせて使用することができる。ゲノムシークエンシングのためのＤＮＡナノブロックを作成し、使用するための方法は、例えば、米国特許及び公報である米国特許第７，９１０，３５４号、同第２００９／０２６４２９９号、同第２００９／００１１９４３号、同第２００９／０００５２５２号、同第２００９／０１５５７８１号、同第２００９／０１１８４８８号に見出すことができ、例えば、Ｄｒｍａｎａｃｅｔａｌ．，２０１０，Ｓｃｉｅｎｃｅ３２７（５９６１）：７８－８１に記載されているように見出すことができる。簡潔に言えば、ゲノムライブラリーＤＮＡ断片化後、アダプターを断片にライゲーションし、アダプターがライゲーションされた断片をサークルリガーゼとのライゲーションによって循環させ、ローリングサークル増幅を実施する（Ｌｉｚａｒｄｉｅｔａｌ．，１９９８．Ｎａｔ．Ｇｅｎｅｔ．１９：２２５－２３２及び米国特許出願公開第２００７／００９９２０８（Ａ１）号に記載）。アンプリコンの伸長されたコンカテマー構造は、コイリングを促進し、それによりコンパクトなＤＮＡナノボールを生成する。ＤＮＡナノボールは、好ましくは、各ナノボール間の距離が維持され、それによって別個のＤＮＡナノボールのシークエンシングを可能になるように、順序付けられた又はパターン化された配列を形成するために基質上に捕捉することができる。いくつかの実施形態では、連続して実行されるアダプターライゲーション、増幅及び消化は、アダプター配列によって分離されたいくつかのゲノムＤＮＡ断片を有する頭尾構築物を作製するために、循環前に行われる。

本開示の方法で使用され得る例示的な等温増幅法としては、例えば、ＤｅａｎらのＰｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．ＵＳＡ９９：５２６１－６６（２００２年）、又は例えば米国特許第６，２１４，５８７号により例示される等温鎖置換核酸増幅によって例示される複数置換増幅（ＭＤＡ）が挙げられるが、これらに限定されない。本開示で使用され得る他の非ＰＣＲ系方法としては、例えば、Ｗａｌｋｅｒら、ＭｏｌｅｃｕｌａｒＭｅｔｈｏｄｓｆｏｒＶｉｒｕｓＤｅｔｅｃｔｉｏｎ、ＡｃａｄｅｍｉｃＰｒｅｓｓ社、１９９５年に記載されている鎖置換増幅（ＳＤＡ）、米国特許第５，４５５，１６６号、及び同第５，１３０，２３８号、並びにＷａｌｋｅｒら、Ｎｕｃｌ．ＡｃｉｄｓＲｅｓ．２０：１６９１－９６（１９９２年）、又は、例えばＬａｇｅらのＧｅｎｏｍｅＲｅｓ．１３：２９４－３０７（２００３年）に記載されている過分枝鎖置換増幅が挙げられる。等温増幅法は、例えば、鎖置換Ｐｈｉ２９ポリメラーゼ又はＢｓｔＤＮＡポリメラーゼ大型断片、ゲノムＤＮＡのランダムプライマー増幅のための５’－＞３’エキソで使用することができる。これらのポリメラーゼの使用は、それらの高い加工性及び鎖置換活性の利点を利用する。高い加工性により、ポリメラーゼは、１０－２０ｋｂの長さの断片を産生できる。上記に述べたように、低加工性を有するポリメラーゼ及びＫｌｅｎｏｗポリメラーゼなどの鎖置換活性を有するポリメラーゼを使用して、等温条件下でより小さな断片を産生することができる。増幅反応、条件及び成分の更なる説明は、米国特許第７，６７０，８１０号の開示に詳細に記載されている。

本開示において有用な別のポリヌクレオチド増幅法は、例えばＧｒｏｔｈｕｅｓらのＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．２１（５）：１３２１－２（１９９３年）に記載されているように、５’領域に続いてランダム３’領域を有する２ドメインプライマーの集団を使用する、タグ付きＰＣＲである。増幅の第１のラウンドは、ランダムに合成された３’領域からの個々のハイブリダイゼーションに基づいて、熱変性ＤＮＡ上で多数の開始を可能にするために行われる。３’領域の性質により、開始部位はゲノム全体にランダムであると考えられる。その後、未結合のプライマーを除去し、一定の５’領域に相補的なプライマーを使用して更なる複製を行ってもよい。

いくつかの実施形態では、等温増幅は、排除増幅（ＥｘＡｍｐ）とも呼ばれる、結合平衡除外増幅（ＫＥＡ）を使用して行うことができる。本開示の核酸ライブラリーは、増幅試薬を反応させて、部位に播種した個々のターゲット核酸からそれぞれがアンプリコンの実質的にクローン性集団を含む複数の増幅部位を産生する工程を含む方法を使用して作製することができる。いくつかの実施形態では、増幅反応は、それぞれの増幅部位の容量を満たすのに十分な数のアンプリコンが産生されるまで進行する。このように、既に播種された部位を容量まで満たすと、ターゲット核酸がその部位に着地して増幅するのを阻害し、それによってその部位でアンプリコンのクローン集団を産生する。いくつかの実施形態では、第２のターゲット核酸がその部位に到達する前に増幅部位が容量まで満たされていなくても、見かけのクローン性を達成することができる。いくつかの条件下では、第１のターゲット核酸の増幅は、その部位に輸送される第２のターゲット核酸からのコピーの産生を有効に上回るか又は圧倒するのに十分な数のコピーが作製される点まで進行し得る。例えば、直径５００ｎｍ未満の円形特徴部上でブリッジ増幅プロセスを使用する実施形態では、第１のターゲット核酸に対する指数増幅の１４サイクル後、同じ部位での第２のターゲット核酸からの汚染は、Ｉｌｌｕｍｉｎａシークエンシングプラットフォーム上での配列合成分析に悪影響を及ぼすのに不十分な数の汚染アンプリコンを生成することが決定された。

いくつかの実施形態では、アレイ中の増幅部位は、完全にクローンであることができるが、必ずしもそうである必要はない。むしろ、いくつかの用途では、個々の増幅部位は、主に第１のインデックス付き断片からのアンプリコンで占められ、また、第２のターゲット核酸からの低レベルの汚染アンプリコンを有することもできる。アレイは、汚染レベルがアレイのその後の使用に許容できない影響を有さない限り、低レベルの汚染アンプリコンを有する１つ又はそれ以上の増幅部位を有することができる。例えば、アレイが検出用途で使用される場合、許容可能なレベルの汚染は、検出技術の信号対雑音比又は分解能に許容できない方法で影響を与えないレベルである。したがって、見かけのクローン性は、一般に、本明細書に記載の方法によって作製されるアレイの特定の使用又は用途に関連する。特定の用途のために個々の増幅部位で許容できる汚染の例示的なレベルとしては、最大で０．１％、０．５％、１％、５％、１０％又は２５％の汚染アンプリコンを含むが、これらに限定されない。アレイは、これらの例示的なレベルの汚染アンプリコンを有する１つ又はそれ以上の増幅部位を含み得る。例えば、アレイ内の増幅部位の最大５％、１０％、２５％、５０％、７５％、又は更には１００％に、汚染されたアンプリコンが含まれている可能性がある。アレイ又はその他の部位集合において、部位の少なくとも５０％、７５％、８０％、８５％、９０％、９５％又は９９％以上がクローン性であるか、又は見かけでクローン性であり得ることが理解されよう。

いくつかの実施形態では、結合平衡除外は、別のイベント又はプロセスが発生することを効果的に排除するために、十分に速い速度でプロセスが生じるときに生じ得る。アレイの部位が溶液からのインデックス付き断片でランダムに播種され、インデックス付き断片のコピーが増幅プロセスで産生されて、播種部位のそれぞれを容量まで満たす核酸アレイの作製を例として取り上げる。本開示の結合平衡除外法によれば、播種及び増幅プロセスは、増幅速度が播種速度を超える条件下で同時に進行することができる。したがって、第１のターゲット核酸によって播種された部位でコピーが作製される比較的速い速度は、増幅のためにその部位を播種することから、第２の核酸を効果的に排除する。結合平衡除外増幅法は、米国特許出願公開第２０１３／０３３８０４２号の開示に詳細に記載されているように実施することができる。

結合平衡除外は、増幅を開始するための比較的遅い速度（例えば、インデックス付き断片の第１のコピーを作製するための遅い速度）対インデックス付き断片の後続のコピー（又はインデックス付き断片の第１のコピー）を作製するための比較的速い速度を利用することができる。前の段落の例では、結合平衡除外は、比較的遅い速度のインデックス付き断片播種（例えば、比較的遅い拡散又は輸送）対インデックス付き断片種のコピーで部位を満たすために増幅が生じる比較的速い速度のために生じる。別の例示的な実施形態において、結合平衡除外は、部位を播種したインデックス付き断片の第１のコピーの形成の遅延（例えば、遅延又は遅い活性化）対部位を満たすために後続のコピーが作製される比較的速い速度のために生じ得る。この実施例では、個々の部位に、いくつかの異なるインデックス付き断片が播種されている可能性がある（例えば、増幅前に各部位にいくつかのインデックス付き断片が存在し得る）。しかしながら、任意の所与のインデックス付き断片の第１のコピー形成はランダムに活性化できるため、第１のコピー形成の平均速度は、後続のコピーが生成される速度と比較して比較的遅くなる。この場合、個々の部位には、いくつかの異なるインデックス付き断片が播種されている場合があるが、結合平衡除外により、それらのインデックス付き断片のうちの１つのみを増幅できる。より具体的には、第１のインデックス付き断片が増幅のために活性化されると、部位はそのコピーで急速に容量まで満たされ、それによって、第２のインデックス付き断片のコピーが部位で作製されることを防止する。

一実施形態では、本方法は、（ｉ）平均輸送速度で増幅部位にインデックス付き断片を輸送する、（ｉｉ）平均増幅速度で増幅部位にあるインデックス断片を増幅するために同時に実施され、平均増幅速度は平均輸送速度を超える（米国特許第９，１６９，５１３号）。したがって、このような実施形態では、比較的遅い輸送速度を使用することによって、結合平衡除外を達成することができる。例えば、より低い濃度は、より遅い輸送速度をもたらすので、十分に低い濃度のインデックス断片を選択して、所望の平均輸送速度を達成することができる。代替的に又は追加的に、溶液中の高粘度溶液及び／又は分子クラウディング試薬の存在を使用して、輸送速度を低下させることができる。有用な分子クラウディング試薬の例としては、ポリエチレングリコール（ＰＥＧ）、フィコール、デキストラン、又はポリビニルアルコールが挙げられるが、これらに限定されない。例示的な分子クラウディング試薬及び製剤は、参照により本明細書に組み込まれる米国特許第７，３９９，５９０号に記載されている。所望の輸送速度を達成するように調節することができる別の因子は、ターゲット核酸の平均サイズである。

増幅試薬は、アンプリコン形成を促進する更なる成分を含むことができ、場合によってはアンプリコン形成の速度を増加させる。一実施例は、リコンビナーゼである。リコンビナーゼは、反復的な浸潤／伸長を可能にすることによって、アンプリコン形成を促進することができる。より具体的には、リコンビナーゼは、ポリメラーゼによるインデックス断片の浸潤、及びアンプリコン形成のための鋳型としてインデックス付き断片を使用するポリメラーゼによるプライマーの伸長を促進することができる。このプロセスは、浸潤／伸長の各ラウンドから産生されたアンプリコンが後続のラウンドで鋳型として機能する鎖反応として繰り返すことができる。変性サイクル（例えば、加熱又は化学変性による）は必要とされないため、このプロセスは標準的なＰＣＲよりも迅速に行うことができる。したがって、リコンビナーゼ促進増幅は、等温的に行うことができる。増幅を促進するために、リコンビナーゼ促進増幅試薬中に、ＡＴＰ、又は他のヌクレオチド（又は場合によってはその非加水分解性類似体）を含めることが望ましい。リコンビナーゼと一本鎖結合（ＳＳＢ）タンパク質の混合物は、ＳＳＢが増幅を更に促進できるため、特に有用である。リコンビナーゼ促進増幅のための代表的な製剤としては、ＴｗｉｓｔＤｘ社（ケンブリッジ、英国）によりＴｗｉｓｔＡｍｐキットとして市販されているものが挙げられる。リコンビナーゼ促進増幅試薬の有用な成分及び反応条件は、米国特許第５，２２３，４１４号及び同第７，３９９，５９０号に記載されている。

アンプリコン形成を促進し、場合によってはアンプリコン形成の速度を増加させるために増幅試薬に含めることができる成分の別の例は、ヘリカーゼである。ヘリカーゼは、アンプリコン形成の連鎖反応を可能にすることによって、アンプリコン形成を促進することができる。変性サイクル（例えば、加熱又は化学変性による）は必要とされないため、このプロセスは標準的なＰＣＲよりも迅速に行うことができる。したがって、ヘリカーゼ促進増幅は、等温的に行うことができる。ヘリカーゼと一本鎖結合（ＳＳＢ）タンパク質の混合物は、ＳＳＢが増幅を更に促進できるため、特に有用である。ヘリカーゼ促進増幅のための代表的な製剤としては、Ｂｉｏｈｅｌｉｘ社（ビバリー、マサチューセッツ州）からＩｓｏＡｍｐキットとして市販されているものが挙げられる。更に、ヘリカーゼタンパク質を含む有用な製剤の例は、米国特許第７，３９９，５９０号及び同第７，８２９，２８４号に記載されている。

アンプリコン形成を促進し、場合によってはアンプリコン形成の速度を増加させるために増幅試薬に含めることができる成分の更に別の例は、起点結合タンパク質である。

シーケンシングの方法

表面へのインデックス付き断片の付着に続いて、固定され、増幅されたインデックス付き断片の配列を決定する。シークエンシングは、包括的シークエンシング、又はターゲットシークエンシングであり得る。包括的シークエンシングは、ライブラリー内に存在する各細胞又は核の配列全体が所望されるときに使用することができる。包括的シークエンシングを使用する用途の例としては、全ゲノムシークエンシング、全トランスクリプトームシークエンシング、及びＡＴＡＣシークエンシングが挙げられるが、これらに限定されない。ターゲットシークエンシングは、生物学的特徴に関する情報が所望されるときに使用することができる。一実施形態では、ターゲットシークエンシングは、細胞若しくは核のサブ集団、又はゲノムのサブセット、トランスクリプトームのサブセット、プロテオームのサブセット、又はこれらの任意の組み合わせの同定に使用することができ、本明細書に詳細に記載する。

シークエンシングは、任意の好適なシークエンシング技術を使用して実施することができ、鎖再合成など、固定され、増幅されたインデックス付き断片の配列を決定するための方法は、当技術分野において既知であり、例えば、Ｂｉｇｎｅｌｌら（米国特許第８，０５３，１９２号）、Ｇｕｎｄｅｒｓｏｎら（国際公開第２０１６／１３０７０４号）、Ｓｈｅｎら（米国特許第８，８９５，２４９号）、及びＰｉｐｅｎｂｕｒｇら（米国特許第９，３０９，５０２号）に記載されている。

本明細書に記載の方法は、様々な核酸シークエンシング方法と併せて使用することができる。特に適用可能な技術は、核酸が、それらの相対的位置が変化しないようにアレイ内の固定位置に取り付けられ、アレイが繰り返し撮像されるものである。例えば、１つのヌクレオチド塩基型を別のヌクレオチド塩基型と区別するために使用される異なる標識と一致する異なる色チャネルで画像が得られる実施形態は、特に適用可能である。いくつかの実施形態では、インデックス付き断片のヌクレオチド配列を決定するプロセスは、自動プロセスであり得る。好ましい実施形態としては、合成によるシークエンシング（「ＳＢＳ」）技術が挙げられる。

ＳＢＳ技術は、一般に、鋳型鎖に対するヌクレオチドの反復的添加による、新生核酸鎖の酵素的伸長を伴う。ＳＢＳの従来の方法では、単一のヌクレオチドモノマーが、各送達においてポリメラーゼの存在下でターゲットヌクレオチドに提供され得る。しかしながら、本明細書に記載の方法では、送達中のポリメラーゼの存在下で、複数のタイプのヌクレオチドモノマーをターゲット核酸に提供することができる。

一実施形態では、ヌクレオチドモノマーは、ロックされた核酸（ＬＮＡ）又は架橋核酸（ＢＮＡ）を含む。ヌクレオチドモノマーにおけるＬＮＡ又はＢＮＡの使用は、ヌクレオチドモノマーと固定化されたインデックス付き断片上に存在するシークエンシングプライマー配列との間のハイブリダイゼーション強度を増加させる。

ＳＢＳは、ターミネーター部分を有するヌクレオチドモノマー、又はターミネーター部分を欠くヌクレオチドモノマーを使用することができる。ターミネーターを含まないヌクレオチドモノマーを使用する方法としては、例えば、本明細書で更に詳細に記載されるように、γ－リン酸標識ヌクレオチドを用いたピロシークエンシング及びシークエンシングが挙げられる。ターミネーターを含まないヌクレオチドモノマーを使用する方法では、各サイクルに添加されるヌクレオチドの数は、一般に可変であり、鋳型配列及びヌクレオチド送達のモードに依存する。ターミネーター部分を有するヌクレオチドモノマーを利用するＳＢＳ技術では、ターミネーターは、ジデオキシリヌクレオチドを利用する従来のＳａｎｇｅｒシークエンシングの場合のように使用されるシークエンシング条件下で有効に不可逆的であり得るか、又はターミネーターは、Ｓｏｌｅｘａ（現在はＩｌｌｕｍｉｎａ，Ｉｎｃ．）によって開発されたシークエンシング方法の場合のように可逆的であり得る。

ＳＢＳ技術は、標識部分を有するヌクレオチドモノマー、又は標識部分を欠くヌクレオチドモノマーを使用することができる。したがって、標識の蛍光などの標識の特性、分子量又は電荷などのヌクレオチドモノマーの特性、ピロリン酸の放出などのヌクレオチドの組み込みの副生成物などに基づいて、組み込みイベントを検出することができる。２つ以上の異なるヌクレオチドがシークエンシング試薬中に存在する実施形態では、異なるヌクレオチドは互いに区別可能であってもよく、あるいは２つ以上の異なる標識は、使用される検出技術の下で区別可能であり得る。例えば、シークエンシング試薬中に存在する異なるヌクレオチドは、異なる標識を有することができ、それらは、Ｓｏｌｅｘａ社（現Ｉｌｌｕｍｉｎａ社）によって開発されたシークエンシング方法によって例示される適切な光学系を使用して区別することができる。

好ましい実施形態としては、ピロシークエンシング技術が挙げられる。ピロシークエンシングは、特定のヌクレオチドが新生鎖に組み込まれるときに無機ピロリン酸塩（ＰＰｉ）の放出を検出する（Ｒｏｎａｇｈｉ，Ｍ．，Ｋａｒａｍｏｈａｍｅｄ，Ｓ．，Ｐｅｔｔｅｒｓｓｏｎ，Ｂ．，Ｕｈｌｅｎ，Ｍ．ａｎｄＮｙｒｅｎ，Ｐ．（１９９６）「Ｒｅａｌ－ｔｉｍｅＤＮＡｓｅｑｕｅｎｃｉｎｇｕｓｉｎｇｄｅｔｅｃｔｉｏｎｏｆｐｙｒｏｐｈｏｓｐｈａｔｅｒｅｌｅａｓｅ．」ＡｎａｌｙｔｉｃａｌＢｉｏｃｈｅｍｉｓｔｒｙ２４２（１）、８４－９、Ｒｏｎａｇｈｉ，Ｍ．（２００１）「ＰｙｒｏｓｅｑｕｅｎｃｉｎｇｓｈｅｄｓｌｉｇｈｔｏｎＤＮＡｓｅｑｕｅｎｃｉｎｇ．」ＧｅｎｏｍｅＲｅｓ．、１１（１）、３－１１、Ｒｏｎａｇｈｉ，Ｍ．，Ｕｈｌｅｎ，Ｍ．ａｎｄＮｙｒｅｎ，Ｐ．（１９９８）「Ａｓｅｑｕｅｎｃｉｎｇｍｅｔｈｏｄｂａｓｅｄｏｎｒｅａｌ－ｔｉｍｅｐｙｒｏｐｈｏｓｐｈａｔｅ．」Ｓｃｉｅｎｃｅ２８１（５３７５）、３６３、米国特許第６，２１０，８９１号、同第６，２５８，５６８号及び同第６，２７４，３２０号）。ピロシークエンシングにおいて、放出されたＰＰｉは、ＡＴＰスルフラーゼによってアデノシン三リン酸（ＡＴＰ）に即座に変換されることによって検出することができ、生成されたＡＴＰのレベルはルシフェラーゼで生成された光子を介して検出される。シークエンシングされる核酸は、アレイ中の特徴部に付着させることができ、アレイは、アレイの特徴部にヌクレオチドを組み込むことにより産生される化学発光シグナルを捕捉するために画像化することができる。アレイを特定のヌクレオチド型（例えば、Ｔ、Ｃ、又はＧ）で処理した後に、画像を得ることができる。各ヌクレオチド型の添加後に得られる画像は、アレイ内のどの特徴部が検出されるかに関して異なる。画像内のこれらの差異は、アレイ上の特徴部の異なる配列コンテンツを反映する。しかしながら、各特徴部の相対的な位置は、画像内で変わらないままである。画像は、本明細書に記載の方法を使用して記憶、処理、及び分析することができる。例えば、アレイを各異なるヌクレオチド型で処理した後に得られる画像は、可逆的ターミネーターベースのシークエンシング方法のための異なる検出チャネルから得られる画像について、本明細書に例示されるものと同じ方法で処理することができる。

別の例示的な種類のＳＢＳでは、サイクルシークエンシングは、例えば、国際公開第０４／０１８４９７号及び米国特許第７，０５７，０２６号に記載されているような開裂可能な又は光漂白可能な染料標識を含む可逆的ターミネーターヌクレオチドを段階的に添加することによって達成される。この手法は、Ｓｏｌｅｘａ社（現在Ｉｌｌｕｍｉｎａ社）によって商品化されており、国際公開第９１／０６６７８号及び同第０７／１２３，７４４号にも記載されている。終端の両方を逆転させることができ、蛍光標識が開裂された蛍光標識ターミネーターの可用性は、効率的な循環可逆的終端（ＣＲＴ）シークエンシングを容易にする。ポリメラーゼはまた、これらの修飾されたヌクレオチドを効率的に組み込み、かつそこから伸長するように共操作することもできる。

いくつかの可逆的ターミネーターベースのシークエンシング実施形態では、標識は、ＳＢＳ反応条件下での伸長を実質的に阻害しない。しかしながら、検出標識は、例えば、開裂又は分解によって取り外し可能であり得る。画像は、アレイ化された核酸特徴部への標識の組み込み後に捕捉することができる。特定の実施形態では、各サイクルは、アレイへの４つの異なるヌクレオチド型の同時送達を伴い、各ヌクレオチド型は、スペクトル的に異なる標識を有する。次に、４つの異なる標識の１つに選択的な検出チャネルをそれぞれ使用して、４つの画像を得ることができる。あるいは、異なるヌクレオチド型を順次追加することができ、各追加工程の間にアレイの画像を得ることができる。このような実施形態では、各画像は、特定の型のヌクレオチドを組み込んだ核酸特徴部を示す。各特徴部のシーケンスコンテンツが異なるため、様々な画像に様々な特徴部が存在するか、存在しない。しかしながら、特徴部の相対的な位置は、画像内で変わらないままである。このような可逆的ターミネーター－ＳＢＳ法から得られる画像は、本明細書に記載されるように保存、処理、及び分析することができる。画像捕捉工程に続いて、標識を除去することができ、その後のヌクレオチド添加及び検出のサイクルのために可逆的ターミネーター部分を除去することができる。特定のサイクルで検出された後、及び後続のサイクルの前に標識を除去すると、サイクル間のバックグラウンド信号及びクロストークを低減できるという利点がある。有用な標識及び除去方法の例を本明細書に記載する。

特定の実施形態では、ヌクレオチドモノマーの一部又は全ては、可逆的ターミネーターを含み得る。このような実施形態では、可逆的ターミネーター／開裂可能なフルオロフォアは、３’エステル結合（Ｍｅｔｚｋｅｒ、ＧｅｎｏｍｅＲｅｓ．１５：１７６７－１７７６（２００５年））を介してリボース部分に結合されたフルオロフォアを含み得る。他の手法は、蛍光標識（Ｒｕｐａｒｅｌら、ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ１０２：５９３２－７（２００５年））からターミネーターの化学的物質を分離した。Ｒｕｐａｒｅｌらは、少量の３’アリル基を使用して伸長をブロックするが、パラジウム触媒で短時間処理することで簡単にブロックを解除できる可逆性ターミネーターの開発について説明している。フルオロフォアは、長波長ＵＶ光への３０秒の曝露によって容易に開裂することができる光開裂可能リンカーを介して基に付着された。したがって、ジスルフィド還元又は光開裂のいずれかを開裂可能なリンカーとして使用することができる。可逆的終端への別の手法は、ｄＮＴＰ上に嵩高な染料を配置した後に続く自然終端の使用である。ｄＮＴＰ上の帯電した嵩高な染料の存在は、立体障害及び／又は静電障害を介して効果的なターミネーターとして作用することができる。１つの組み込みイベントの存在は、染料が除去されない限り、それ以上の結合を防止する。染料の開裂は、フルオロフォアを除去し、終端を効果的に逆転させる。修飾ヌクレオチドの例は、米国特許第７，４２７，６７３号及び同第７，０５７，０２６号にも記載されている。

本明細書に記載の方法及びシステムと共に用いることができる追加の例示的なＳＢＳシステム及び方法は、米国特許出願公開第２００７／０１６６７０５号、同第２００６／０１８８９０１号、同第２００６／０２４０４３９号、２００６／０２８１１０９号、同第２０１２／０２７０３０５号、及び同第２０１３／０２６０３７２号、米国特許第７，０５７，０２６号、及び国際公開第０５／０６５８１４号、米国特許出願公開第２００５／０１００９００号、及び国際公開第０６／０６４１９９号及び同第０７／０１０，２５１号に記載されている。

いくつかの実施形態は、４つ未満の異なる標識を使用する４つの異なるヌクレオチドの検出を使用することができる。例えば、ＳＢＳは、組み込まれた資料である米国特許公開公報第２０１３／００７９２３２号に記載される方法及びシステムを使用して実施することができる。第１の例として、ヌクレオチド型の対は、同じ波長で検出することができるが、対のうちの１つのメンバーに対する強度の差に基づいて、又は、対の他の部材について検出された信号と比較して明らかなシグナルを出現又は消失させる、対の１つのメンバーへの変化（例えば、化学修飾、光化学修飾、又は物理的改質を行うことを介して）に基づいて区別され得る。第２の例として、４つの異なるヌクレオチド型のうちの３つを特定の条件下で検出することができ、一方、第４のヌクレオチド型は、それらの条件下で検出可能な標識がないか、又はそれらの条件下で最小限に検出される（例えば、バックグラウンド蛍光による最小限の検出など）。最初の３つのヌクレオチド型を核酸に組み込むことは、それらの対応するシグナルの存在に基づいて決定することができ、第４のヌクレオチド型を核酸に組み込むことは、任意のシグナルの不在又は最小限の検出に基づいて決定することができる。第３の例として、１つのヌクレオチド型は、２つの異なるチャネルで検出される標識を含むことができ、一方、他のヌクレオチド型は、チャネルのうちの１つ以下で検出される。前述の３つの例示的な構成は、相互に排他的であるとはみなされず、様々な組み合わせで使用することができる。３つ全ての実施例を組み合わせた例示的な実施形態は、第１のチャネルで検出される第１のヌクレオチド型（例えば、第１の励起波長によって励起されたときに第１のチャネルで検出される標識を有するｄＡＴＰ）、第２のチャネルで検出される第２のヌクレオチド型（例えば、第２の励起波長によって励起されたときに第２のチャネルで検出される標識を有するｄＣＴＰ）、第１及び第２のチャネルの両方において検出される第３のヌクレオチド型（例えば、第１及び／又は第２の励起波長によって励起されたときに両方のチャネルで検出される少なくとも１つの標識を有するｄＴＴＰ）、及びいずれのチャネルでも検出されないか、又は最小限に検出される、標識のない第４のヌクレオチド型（例えば、標識のないｄＧＴＰ）を使用する蛍光ベースのＳＢＳ法である。

更に、組み込まれた資料である米国特許出願公開第２０１３／００７９２３２号に記載のように、シークエンシングデータは、単一のチャネルを使用して得ることができる。このようないわゆる１つの染料シークエンシング方法では、第１のヌクレオチド型は標識されるが、第１の画像が生成された後に標識が除去され、第２のヌクレオチド型は、第１の画像が生成された後にのみ標識される。第３のヌクレオチド型は、第１及び第２の画像の両方においてその標識を保持し、第４のヌクレオチド型は、両方の画像において標識されていないままである。

いくつかの実施形態は、ライゲーション技術によるシークエンシングを使用することができる。このような技術は、ＤＮＡリガーゼを使用してオリゴヌクレオチドを組み込み、そのようなオリゴヌクレオチドの組み込みを識別する。オリゴヌクレオチドは、典型的には、オリゴヌクレオチドがハイブリダイズする配列中の特定のヌクレオチドの同一性と相関する異なる標識を有する。他のＳＢＳ方法と同様に、標識されたシークエンシング試薬で核酸配列のアレイを処理した後、画像を得ることができる。各画像は、特定の型の標識を組み込んだ核酸特徴部を示す。各特徴部のシーケンスコンテンツが異なるため、様々な画像に様々な特徴部が存在するか、存在しないが、特徴部の相対的な位置は、画像内で変わらないままである。ライゲーションベースのシークエンシング方法から得られる画像は、本明細書に記載されるように保存、処理、及び分析することができる。本明細書に記載の方法及びシステムと共に用いることができる例示的なＳＢＳシステム及び方法は、米国特許第６，９６９，４８８号、同第６，１７２，２１８号、及び同第６，３０６，５９７号に記載されている。

いくつかの実施形態は、ナノ細孔シークエンシングを使用することができる（Ｄｅａｍｅｒ，Ｄ．Ｗ．＆Ａｋｅｓｏｎ，Ｍ．「Ｎａｎｏｐｏｒｅｓａｎｄｎｕｃｌｅｉｃａｃｉｄｓ：ｐｒｏｓｐｅｃｔｓｆｏｒｕｌｔｒａｒａｐｉｄｓｅｑｕｅｎｃｉｎｇ．」、ＴｒｅｎｄｓＢｉｏｔｅｃｈｎｏｌ．、１８、１４７－１５１（２０００年）、Ｄｅａｍｅｒ，Ｄ．ａｎｄＤ．Ｂｒａｎｔｏｎ，「Ｃｈａｒａｃｔｅｒｉｚａｔｉｏｎｏｆｎｕｃｌｅｉｃａｃｉｄｓｂｙｎａｎｏｐｏｒｅａｎａｌｙｓｉｓ」，Ａｃｃ．Ｃｈｅｍ．Ｒｅｓ．３５：８１７－８２５（２００２年）、Ｌｉ，Ｊ．，Ｍ．Ｇｅｒｓｈｏｗ，Ｄ．Ｓｔｅｉｎ，Ｅ．Ｂｒａｎｄｉｎ，ａｎｄＪ．Ａ．Ｇｏｌｏｖｃｈｅｎｋｏ，「ＤＮＡｍｏｌｅｃｕｌｅｓａｎｄｃｏｎｆｉｇｕｒａｔｉｏｎｓｉｎａｓｏｌｉｄ－ｓｔａｔｅｎａｎｏｐｏｒｅｍｉｃｒｏｓｃｏｐｅ」Ｎａｔ．Ｍａｔｅｒ．２：６１１－６１５（２００３年））。このような実施形態では、インデックス付き断片は、ナノ細孔を通過する。ナノ細孔は、α－ヘモリジンなどの合成孔又は生体膜タンパク質であり得る。インデックス付き断片がナノ細孔を通過するとき、各塩基対は、細孔の電気コンダクタンスの変動を測定することによって識別することができる。（米国特許第７，００１，７９２号、Ｓｏｎｉ，Ｇ．Ｖ．＆Ｍｅｌｌｅｒ，「Ａ．ＰｒｏｇｒｅｓｓｔｏｗａｒｄｕｌｔｒａｆａｓｔＤＮＡｓｅｑｕｅｎｃｉｎｇｕｓｉｎｇｓｏｌｉｄ－ｓｔａｔｅｎａｎｏｐｏｒｅｓ．」Ｃｌｉｎ．Ｃｈｅｍ．５３，１９９６－２００１（２００７）、Ｈｅａｌｙ，Ｋ．「Ｎａｎｏｐｏｒｅ－ｂａｓｅｄｓｉｎｇｌｅ－ｍｏｌｅｃｕｌｅＤＮＡａｎａｌｙｓｉｓ．」Ｎａｎｏｍｅｄ．、２，４５９－４８１（２００７）、Ｃｏｃｋｒｏｆｔ，Ｓ．Ｌ．，Ｃｈｕ，Ｊ．，Ａｍｏｒｉｎ，Ｍ．＆Ｇｈａｄｉｒｉ，Ｍ．Ｒ．「Ａｓｉｎｇｌｅ－ｍｏｌｅｃｕｌｅｎａｎｏｐｏｒｅｄｅｖｉｃｅｄｅｔｅｃｔｓＤＮＡｐｏｌｙｍｅｒａｓｅａｃｔｉｖｉｔｙｗｉｔｈｓｉｎｇｌｅ－ｎｕｃｌｅｏｔｉｄｅｒｅｓｏｌｕｔｉｏｎ．」Ｊ．ＡｍＣｈｅｍ．Ｓｏｃ．１３０、８１８－８２０（２００８年）。ナノ細孔シークエンシングから得られるデータは、本明細書に記載されるように、保存、処理、及び分析することができる。具体的には、データは、本明細書に記載される光学画像及び他の画像の例示的な処理に従って、画像として処理することができる。

いくつかの実施形態は、ＤＮＡポリメラーゼ活性のリアルタイムモニタリングを含む方法を使用することができる。ヌクレオチドの組み込みは、例えば、米国特許第７，３２９，４９２号及び同第７，２１１，４１４号に記載されているようなフルオロフォア含有ポリメラーゼとγ－リン酸標識ヌクレオチドとの間の蛍光共鳴エネルギー移動（ＦＲＥＴ）相互作用を介して検出することができ、又はヌクレオチドの組み込みは、例えば、米国特許第７，３１５，０１９号に記載されているようなゼロモード導波路、並びに、例えば、米国特許第７，４０５，２８１号及び米国特許出願公開第２００８／０１０８０８２号に記載されているような蛍光ヌクレオチド類似体及び操作ポリメラーゼを使用して検出することができる。照明は、蛍光標識されたヌクレオチドの組み込みが低バックグラウンドで観察され得るように、表面繋留ポリメラーゼの周囲のゼプトリットルスケールの体積に制限することができる（Ｌｅｖｅｎｅ，Ｍ．Ｊ．ｅｔａｌ．「Ｚｅｒｏ－ｍｏｄｅｗａｖｅｇｕｉｄｅｓｆｏｒｓｉｎｇｌｅ－ｍｏｌｅｃｕｌｅａｎａｌｙｓｉｓａｔｈｉｇｈｃｏｎｃｅｎｔｒａｔｉｏｎｓ．」Ｓｃｉｅｎｃｅ，２９９，６８２－６８６（２００３年）、Ｌｕｎｄｑｕｉｓｔ，Ｐ．Ｍ．ｅｔａｌ．「Ｐａｒａｌｌｅｌｃｏｎｆｏｃａｌｄｅｔｅｃｔｉｏｎｏｆｓｉｎｇｌｅｍｏｌｅｃｕｌｅｓｉｎｒｅａｌｔｉｍｅ．」Ｏｐｔ．Ｌｅｔｔ．３３，１０２６－１０２８（２００８）、Ｌｅｖｅｎｅ，Ｍ．Ｊ．ｅｔａｌ．「Ｚｅｒｏ－ｍｏｄｅｗａｖｅｇｕｉｄｅｓｆｏｒｓｉｎｇｌｅ－ｍｏｌｅｃｕｌｅａｎａｌｙｓｉｓａｔｈｉｇｈｃｏｎｃｅｎｔｒａｔｉｏｎｓ．」Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．ＵＳＡ１０５、１１７６－１１８１（２００８年））。このような方法から得られる画像は、本明細書に記載されるように、記憶、処理、及び分析することができる。

いくつかのＳＢＳ実施形態は、伸長産物へのヌクレオチドの組み込み時に放出されるプロトンの検出を含む。例えば、放出されたプロトンの検出に基づくシークエンシングは、ＩｏｎＴｏｒｒｅｎｔ社（ギルフォード、コネチカット州、ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ社子会社）から市販されている電気検出器及び関連技術、又は米国特許出願公開第２００９／００２６０８２号、同第２００９／０１２７５８９号、同第２０１０／０１３７１４３号、及び同第２０１０／０２８２６１７号に記載のシークエンシング方法及びシステムを使用することができる。結合平衡除外を使用してターゲット核酸を増幅するための本明細書に記載の方法は、プロトンを検出するために使用される基質に容易に適用することができる。より具体的には、本明細書に記載の方法を使用して、プロトンを検出するために使用されるアンプリコンのクローン集団を産生することができる。

上記のＳＢＳ方法は、複数の異なるインデックス付き断片が同時に操作されるように、多重形式で有利に実施することができる。特定の実施形態では、異なるインデックス付き断片は、共通の反応容器又は特定の基質の表面で処理することができる。これにより、シークエンシング試薬の簡便な送達、未反応試薬の除去、及び組み込みイベントの検出を多重に可能になる。表面結合されたターゲット核酸を使用する実施形態では、インデックス付き断片はアレイ形式であり得る。アレイ形式では、インデックス付き断片は、典型的には、空間的に区別可能な様式で表面に結合され得る。インデックス付き断片は、直接共有結合、ビーズ若しくは他の粒子への付着、又は表面に付着したポリメラーゼ若しくは他の分子への結合によって結合され得る。アレイは、各部位（特徴部とも呼ばれる）におけるインデックス付き断片の単一コピーを含むか、又は同じ配列を有する複数のコピーが、各部位若しくは特徴部に存在し得る。複数のコピーは、本明細書で更に詳細に記載されるブリッジ増幅又はエマルジョンＰＣＲなどの増幅方法によって産生することができる。

本明細書に記載の方法は、例えば、少なくとも約１０個の特徴部／ｃｍ^２、１００個の特徴部／ｃｍ^２、５００個の特徴部／ｃｍ^２、１，０００個の特徴部／ｃｍ^２、５，０００個の特徴部／ｃｍ^２、１０，０００個の特徴部／ｃｍ^２、５０，０００個の特徴部／ｃｍ^２、１００，０００個の特徴部／ｃｍ^２、１，０００，０００個の特徴部／ｃｍ^２、５，０００，０００個の特徴部／ｃｍ^２、又はそれ以上を含む、様々な密度のいずれかの特徴部を有するアレイを使用することができる。

本明細書に記載の方法の利点は、複数のｃｍ^２の迅速かつ効率的で、並行な検出を提供することである。したがって、本開示は、本明細書に例示されるものなどの当技術分野において既知の技術を使用して核酸を調製及び検出することができる統合システムを提供する。したがって、本開示の統合システムは、増幅試薬及び／又はシークエンシング試薬を１つ以上の固定化されたインデックス付き断片に送達することができる流体構成要素を含むことができ、システムは、ポンプ、弁、リザーバー、流体ラインなどの構成要素を含む。フローセルは、標的核酸を検出するための統合システムで構成及び／又は使用することができる。例示的なフローセルは、例えば、米国特許出願公開第２０１０／０１１１７６８号及び米国特許出願第１３／２７３，６６６号に記載されている。フローセルについて例示されるように、統合システムの流体成分の１つ又はそれ以上を増幅方法及び検出方法に使用することができる。核酸シークエンシングの実施形態を一例として取ると、統合システムの流体構成要素の１つ又は複数を、本明細書に記載の増幅方法、及び上記に例示したようなシークエンシング方法におけるシークエンシング試薬の送達に使用することができる。あるいは、統合システムは、増幅方法を実行し、検出方法を実行するための別個の流体システムを含み得る。増幅された核酸を作製し、また、核酸の配列を決定することができる統合シークエンシングシステムの例としては、ＭｉＳｅｑ（商標）プラットフォーム（Ｉｌｌｕｍｉｎａ，Ｉｎｃ．，ＳａｎＤｉｅｇｏ，ＣＡ）、及び米国特許出願第１３／２７３，６６６号に記載の装置が挙げられるが、これらに限定されない。

希少事象の検出

本開示はまた、希少事象を同定する、及び／又は特性評価するための方法を提供する。現在、集団内の希少事象を濃縮せずに特性評価するための方法は、コストがかかり、困難である。濃縮を使用するとき、選択は、典型的には、サイズ、形態、又は細胞表面でのタンパク質若しくはグリカンなど識別可能な分子の有無など細胞のいくつかの生物学的特徴に基づいている。これにより、同定可能な事象のタイプが制限される。本明細書に提示される方法は、希少事象の有無を識別する、及び／又は特性評価する能力において有意な進歩をもたらす。一般に、本発明は、数百万又は数十億の細胞のライブラリー内に存在する希少単一細胞のサブセットの同定、濃縮、及びシークエンシングベースの特徴付けを提供する。希少単一細胞の同定を使用して、更なる解析で使用可能な細胞を決定するために研究者が使用できる細胞データベースを作製することができる。

希少事象の例としては、大集団の細胞内の希少細胞が挙げられるが、これらに限定されない。希少細胞のタイプとしては、細胞クラス、種のタイプ、及び疾患状態又はリスクが挙げられるが、これらに限定されない。希少細胞クラスの例としては、例えばゲノム、トランスクリプトーム、又はエピゲノムにおける改変を有する個体由来の細胞が挙げられるが、これらに限定されない。希少種のタイプの例としては、原核細胞、真核細胞、又は真菌細胞が挙げられるが、これらに限定されない。疾患状態又はリスクに関連する希少細胞の例としては、癌細胞が挙げられるが、これに限定されない。

希少事象は、典型的には、希少事象と相関する生物学的特徴（通常はヌクレオチド配列の有無）によって同定される。一実施形態では、生物学的特徴は、タンパク質、グリカン、プロテオグリカン、又は脂質など生体分子である。生体分子は、生体分子に特異的に結合する、抗体など化合物に結合した核酸でタグ付けされ得る。生物学的特徴は、事前に知られ得る（例えば、方法が実施される前に既知であり、所定のものと呼ばれる）又は新たに知られ得る（例えば、生物学的特徴は、本明細書に記載のターゲットシークエンシング又は包括的シークエンシング後に同定される）。

ゲノムに関連する生物学的特徴の例としては、遺伝子再構成など免疫細胞での改変が挙げられるが、これに限定されない。トランスクリプトームに関連する生物学的特徴の例としては、１つ以上の特定遺伝子若しくはＲＮＡ分子の発現、又は特定タンパク質の発現が挙げられる。エピゲノムに関連する生物学的特徴の例としては、メチル化標識、メチル化パターン、及びアクセス可能ＤＮＡ、又はエピジェネティック変化と相関する特定タンパク質の発現などエピジェネティックパターンが挙げられるが、これらに限定されない。希少種のタイプと相関する生物学的特徴の例としては、１６ｓｒＲＮＡ若しくはｒＤＮＡ、１８ｓｒＲＮＡ若しくはｒＤＮＡ、及び内部転写スペーサー（ＩＴＳ）ｒＲＮＡ／ｒＤＮＡ、又は希少種による特定タンパク質の発現が挙げられる。疾患状態又はリスクに関連する生物学的特徴の例としては、癌など疾患と相関するＲＮＡ及び／又はタンパク質の変異ＤＮＡ配列又は発現パターンを有する生殖系細胞又は体細胞が挙げられる。

本方法は、希少事象を含むシークエンシングライブラリーのメンバー（個々の修飾ターゲット核酸）を同定することを含み得る。一実施形態では、本方法は、希少事象を含む疑いのあるシークエンシングライブラリーの精査を含み得る。シークエンシングライブラリーを精査することは、典型的には、ライブラリー内に存在する２タイプのヌクレオチド領域の配列について、（ｉ）希少事象と相関する生物学的特徴、及び（ｉｉ）ライブラリーのメンバーに存在するインデックスを決定すること含む。一実施形態では、２つ以上の生物学的特徴の配列を決定することができる。

一実施形態では、生物学的特徴のヌクレオチド配列は、ターゲットシークエンシングによって同定される。ターゲットシークエンシング法は、当該技術分野において既知であり、シークエンシング用の開始部位としての役割を果たす位置及び向きの点で生物学的特徴に近づくようにハイブリダイズするプライマーの使用を含み得る。例えば、生物学的特徴が、特異的一塩基多型（ＳＮＰ）の有無である場合、ＳＮＰに近いヌクレオチドに特異的にアニーリングするプライマーを設計することができる。別の例では、生物学的特徴がタンパク質である場合、生体分子に特異的に結合した化合物に付着した核酸のヌクレオチドに特異的にアニーリングするプライマーを設計することができる。その結果、当業者は、対象となる生物学的特徴を含むライブラリーのメンバーの同定を可能にする配列データを得られる。シークエンシングライブラリーのメンバーに存在するインデックスの配列を決定することは、単一細胞コンビナトリアルインデクシング法の日常部分である。

次いで、生物学的特徴のターゲットシークエンシング及びインデックスのシークエンシングからの配列データを、常法であるバイオインフォマティクス法を用いて解析し、生物学的特徴として同一ライブラリーメンバーに存在するインデックス配列のこれらの組み合わせを同定する。生物学的特徴及びインデックス配列のこの相関により、ライブラリーのメンバーのサブセットが同定され、各メンバーは、生物学的特徴及びインデックス配列の固有分類、並びに細胞データベースの作製を含む。本明細書で「マーカーインデックス配列」とも称されるインデックス配列のそれぞれの固有分類は、同一細胞又は核に由来するライブラリー、例えば、対象となるインデックスライブラリーの他のメンバーにも同様に存在する。一実施形態では、マーカーインデックス配列は、連続インデックスであり、すなわち、各インデックスの間に０、１、２、３、４個、又はそれ以上のヌクレオチドを有する行でライブラリーメンバーに存在する、複数のインデックスセットである。本明細書に記載のように、これらのマーカーインデックス配列を使用して、当該生物学的特徴を有する細胞又は核に由来するライブラリーこれらのメンバーに対する後続のシークエンシングの取り組みに注力することができ、したがってコストを削減する。

本方法は、シークエンシングライブラリーを改変して、当該生物学的特徴を有する細胞又は核に由来するこれらのメンバーの表現を増加させることを更に含み得る。改変することは、濃縮（例えば、所望のマーカーインデックス配列を含むライブラリーのこれらの希少メンバーの正の選択）又は枯渇（例えば、所望のマーカーインデックス配列を含まないライブラリーの豊富なメンバーの選択的除去など負の選択）を含み得る。

濃縮及び枯渇は、マーカーインデックス配列を使用することを含み得る。濃縮及び枯渇のための方法は、当該技術分野において既知であり、マーカーインデックス配列特異的増幅（例えば、アダプター固定ＰＣＲ）、ハイブリッド捕捉、及びＣＲＩＳＰＲ（ｄ）Ｃａｓ９などハイブリダイゼーションベースの方法が挙げられるが、これらに限定されない。濃縮方法及び枯渇方法は、所望のマーカーインデックス配列に特異的にハイブリダイズするヌクレオチド配列を使用することから利益を得る。したがって、濃縮又は枯渇は、連続インデックス、すなわち、各インデックスの間に０、１、２、３、４個又はそれ以上のヌクレオチドを有する行で、ライブラリーメンバーに存在する、複数のインデックスのセット（図５Ｂを参照）で実行することができる。所望の生物学的特徴と相関する連続インデックスを確実に選択し、保持することができ、その結果、所望のライブラリーメンバーを濃縮する。あるいは、所望の生物学的特徴と相関しない連続インデックスを選択し、除去することができ、その結果、豊富な細胞と相関するライブラリーメンバーを枯渇させ、所望の生物学的特徴と相関するライブラリーメンバーを事実上濃縮する。一実施形態では、濃縮は、ターゲット増幅を伴い得る。例えば、シークエンシングライブラリーの構築後、増幅反応を使用して、対象となる生物学的特徴を含むライブラリーメンバーを特異的に増幅することができる。一実施形態では、特異的増幅は、生物学的特徴を有するヌクレオチド配列にアニーリングするように設計された、生物学的特徴特異的プライマー、及びライブラリーの全メンバーの片側にアニーリングする第２のプライマーを使用して達成することができる。生物学的特徴特異的プライマーは、その５’末端に１つ以上のインデックス及び／又はユニバーサル配列を含み得る。

連続インデックスの全長は、プローブと所望のマーカーインデックス配列を有するライブラリーのメンバーとの間の特異的ハイブリダイゼーションに必要なプローブのサイズに依存する。いくつかの実施形態では、連続インデックス（したがってマーカーインデックス配列）の全長は、少なくとも４０ヌクレオチド、少なくとも４５ヌクレオチド、少なくとも５０ヌクレオチド、又は少なくとも５５ヌクレオチド、かつ８０ヌクレオチド以下、７５ヌクレオチド以下、７０ヌクレオチド以下、又は６５ヌクレオチド以下である。一実施形態では、連続インデックスの全長は、６０ヌクレオチドである。

濃縮又は枯渇のいずれかを使用することにより、当該生物学的特徴を有する細胞又は核に由来するライブラリーのこれらのメンバーの増加した表現を含むサブライブラリーが得られる。サブライブラリーの包括的シークエンシングは、本明細書に記載のものなど、常法を用いて実行することができる。表現は十分に増加するため、包括的シークエンシングは、著しく少ないリソースを必要とし、したがってコスト効率は高い。サブライブラリーの包括的シークエンシングを使用することにより、これまで未知であった、１つ以上の更なる生物学的特徴を同定することができる。

用途

本開示によって提供される方法は、全ゲノム、トランスクリプトーム、エピゲノム、アクセス可能（例えば、ＡＴＡＣ）、及び立体構造状態（例えば、ＨｉＣ）などシークエンシングライブラリーの調製を含む、本質的に任意の用途に容易に組み込むことができる。全ゲノム又はターゲットライブラリーの構築に使用することができる、多数のシークエンシングライブラリー法が当業者に知られている（例えば、ｇｅｎｏｍｉｃｓ．ｕｍｎ．ｅｄｕ／ｄｏｗｎｌｏａｄｓ／ｓｅｑｕｅｎｃｉｎｇ－ｍｅｔｈｏｄｓ－ｒｅｖｉｅｗ．ｐｄｆで入手可能な「ＳｅｑｕｅｎｃｉｎｇＭｅｔｈｏｄｓＲｅｖｉｅｗ」を参照）。

希少事象の検出を目的とするこれらの実施形態では、本開示によって提供される方法は、全ゲノム（例えば、ｓｃｉ－ＷＧＳ－ｓｅｑ）、エピゲノム（例えば、ｓｃｉ－ＭＥＴ－ｓｅｑ）、アクセス可能（例えば、ｓｃｉ－ＡＴＡＣ－ｓｅｑ）、トランスクリプトーム（ｓｃｉ－ＲＮＡ－ｓｅｑ）、及び立体構造（ｓｃｉ－ＨｉＣ－ｓｅｑ）などが挙げられるが、これらに限定されない、単一細胞コンビナトリアルインデクシング（ｓｃｉ）法を用いて、本質的にあらゆる用途に容易に組み込むことができる。いくつかの実施形態では、用途は、架橋を伴う連結ロングリード法を用いた近接ライゲーションを含む、立体構造単一細胞コンビナトリアルインデクシングを使用することを含む。いくつかの実施形態では、用途は共アッセイであり、ある試料からの２つ以上の異なる検体又は情報を同時に評価する。検体の例としては、ＤＮＡ、ＲＮＡ、及びタンパク質（例えば、表面タンパク質）が挙げられるが、これらに限定されない。例としては、全ゲノム及びトランスクリプトーム、又はＡＴＡＣ及びトランスクリプトームを解析するアッセイが挙げられる（Ｍａｅｔａｌ．，２０２０，ｂｉｏＲｘｉｖ，ＤＯＩ：ｄｏｉ．ｏｒｇ／１０．１０１６／ｊ．ｃｅｌｌ．２０２０．０９．０５６）。

いくつかの実施形態では、用途は、メタゲノミクス（環境試料から直接回収された遺伝物質の研究）である。環境の例としては、農業（例えば、土壌）、バイオ燃料（例えば、バイオマスを変換する微生物群）、バイオテクノロジー（例えば、生物活性化合物を産生する微生物群）、及び腸内微生物叢（例えば、ヒト又は動物マイクロバイオーム中に存在する微生物群）に関連する分野に存在するものが挙げられる。遺伝子材料は、真菌細胞など原核微生物及び／又は真核微生物（単細胞及び多細胞の両方）に存在し得る。本明細書に記載される方法は、それらが培養され得るかどうかにかかわらず、希少細胞を同定するために使用することができる。メタゲノミクスにおける希少事象の同定に使用することができる生物学的特徴としては、１６ｓｒＲＮＡ若しくはｒＤＮＡ、１８ｓｒＲＮＡ若しくはｒＤＮＡ、及び内部転写スペーサー（ＩＴＳ）ｒＲＮＡ／ｒＤＮＡ、又は微生物によってコードされるタンパク質が挙げられるが、これらに限定されない。同定後、希少細胞を包括的にシークエンシングすることができる。

いくつかの実施形態では、本出願は、疾患状態又はリスクに関する。疾患又は疾患のリスクと相関する一塩基多型（ＳＮＰ）及び／又はバイオマーカーなどであるが、これらに限定されない希少事象を同定することができ、ＳＮＰ及び／又はバイオマーカーを有するこれらの細胞は、包括的にシークエンシングされる。例えば、対象の血流中の循環細胞の液体生検、又は細胞の組織生検は、疾患又は疾患のリスクに関する希少事象について解析され得る。アッセイされ得る希少事象としては、特定の癌の割り当てを可能にする体細胞のドライバ変異が挙げられるが、これに限定されない。関連用途は、ある期間にわたって対象から試料を得、癌性細胞又は核を選択し、次いで腫瘍細胞のサブセットを包括的にシークエンシングすることによって、腫瘍の進展を完全に特性評価し、追跡することである。

いくつかの実施形態では、本出願は、免疫細胞に関する。免疫細胞は、獲得した免疫系の外部分子同定能力に関連する特定遺伝子の再構成を受ける。遺伝子の再構成を受ける免疫細胞の例としては、Ｔ細胞（例えば、Ｔ細胞受容体の再構成）、抗原提示細胞（例えば、主要な組織適合性複合体のタンパク質をコードする遺伝子の再構成）、及びＢ細胞（例えば、抗体をコードする遺伝子の再構成）が挙げられるが、これらに限定されない。免疫細胞の改変に関連する生物学的特徴は、特異的再構成、又は特定の再構成から得られるタンパク質であり得るが、これらに限定されない。Ｔ細胞受容体のレパートリー特性及び進化を含むが、これらに限定されない、特定の改変を有する免疫細胞は、完全に特性評価し、追跡することができる。別の実施形態では、本出願は、細胞分化に関する。例えば、異なる領域での発現レベル及び／又はメチル化を使用して、アクセス可能性と発現との相関など分化事象を評価することができる。

本開示の非限定的な例示的実施形態を図６に示す。この実施形態では、Ｔ細胞受容体レパートリーを同定し、特性評価するための方法は、複数の細胞を提供すること（図６、ブロック６００）と、複数の区画に細胞のサブセットを分配すること（図６、ブロック６０１）とを含み得る。複数の細胞は、例えば、血液試料又はリンパ節の試料からのものであり得る。各区画の細胞に存在する核酸を、インデックスの挿入によって修飾し（図６、ブロック６０２）、次いで細胞をプールする（図６、ブロック６０３）。追加のインデックスは、分配（図６、ブロック６０１）、インデックスの付加（図６、ブロック６０２）、及びサブセットのプール（図６、ブロック６０３）を繰り返す「スプリット及びプール」工程によって付加される。一実施形態では、各インデックスは、ライブラリーのメンバーの同じ側に付加されて、連続インデックスをもたらす（図５Ｂを参照）。任意選択的に、ユニバーサル配列は、１つ以上のインデックスと共に付加されてよい。最後のインデックスを付加した後、核又は細胞内の核酸のライブラリーをプールし（図６、ブロック６０３）、更に処理して、対象となる生物学的特徴、例えば、微生物又はウイルスの生体分子を結合することができるものなど特定のヌクレオチド配列を含むＴ細胞受容体の同定及び対象となる生物学的特徴に関連するインデックスのシークエンシングを可能にする生物学的特徴のターゲットシークエンシング用に調製することができる（図６、ブロック６０４）。配列解析（図６、ブロック６０５）を使用して、マーカーインデックス配列、すなわち、インデックス配列の固有分類を同定する。同定したマーカーインデックス配列は、（ｉ）生物学的特徴と相関し、したがって、希少細胞に由来するライブラリーのメンバーを同定するもの、又は（ｉｉ）生物学的特徴と相関せず、したがって、豊富細胞に由来するライブラリーのメンバーを同定するものである。この例示的な実施形態の続いての工程は、ライブラリーの豊富なメンバーの枯渇について説明するが、本方法を本明細書に記載のように改変して、希少ライブラリーメンバーを濃縮することを含み得る。特定のオリゴヌクレオチド又はガイドＲＮＡ配列は、豊富な細胞に由来するライブラリーのメンバーと相関するマーカーインデックス配列とハイブリダイズするように設計することができ（図６、ブロック６０６）、次いで、例えば、ハイブリダイゼーション捕捉又はＣＲＩＳＰＲダイジェストを使用することにより、豊富な細胞に由来するメンバーのシークエンシングライブラリーを枯渇させることができる（図６、６０７）。結果として、生物学的特徴を有する細胞に由来するこれらのメンバーの増加した表現を含む、改変されたライブラリーを得る。改変されたシークエンシングライブラリーのメンバーは、包括的シークエンシングに供され得る（図６、ブロック６０８）。あるいは、ライブラリーの所望のメンバーの表現が特性評価の基準を満たすのに十分になるまで、改変されたライブラリーは、更なる回数の濃縮及び／又は枯渇に供され得る。例えば、改変されたライブラリーのメンバーは、２回目のシークエンシングを受けることができ、マーカーインデックスは同定され、特定のオリゴヌクレオチド又はガイドＲＮＡ配列は、改変されたライブラリーを枯渇させる又は濃縮するように設計され、使用される。

いくつかの実施形態では、用途は、連続インデックスを使用することを含む。連続インデックスを用いてシークエンシングライブラリーを作製するアプローチの非限定的な例示的実施形態を図７に示す。細胞又は核のサブセットの分配後、例えば、タグ付けにより、細胞又は核に存在するＤＮＡ分子７０５に第１の区画特異的インデックスＩ１を付加することができる（図７、工程７０１）。核酸の一次供給源がＲＮＡである場合、核酸は、タグ付け前にｃＤＮＡ合成などの方法を使用して、ＤＮＡに変換することができる。結果として、細胞又は核に存在する修飾核酸のライブラリーが得られ、各修飾核酸７０６は、各末端に区画特異的インデックスＩ１を含む。サブセットはプール可能であり、得られた、修飾ターゲット核酸の末端は、必要に応じて、例えば３’のフィルインによって修復することができる。一実施形態では、修飾ターゲット核酸の５’末端は、リン酸化され得る。一実施形態では、第２のインデックス付加の次の工程は、オーバーハング（例えば、Ｇ、Ｃ、又はポリＡテール）を、修飾ターゲット核酸の３’末端に付加することによって促進することができる。プールした細胞又は核は第２の区画セットに分配され、例えば、適切に修飾された３’末端、例えばＴテール３’末端を有するアダプターのライゲーションによって第２の区画特異的インデックスＩ２が付加され得る（図７、工程７０２）。これにより、修飾核酸のライブラリーを含有する細胞又は核が得られ、各修飾核酸７０７は、各末端に２つの区画特異的インデックスＩ１及びＩ２を含む。修飾ターゲット核酸の末端は、例えば、５’のリン酸化及び／又はポリＡテールによる３’末端の修飾、又はＧ若しくはＣの３’への付加によって次のインデックスの付加を促進するように改変することができる。所望に応じて、プール及び別の区画特異的インデックスの付加を繰り返して、適切な数のインデックスを付加することができる。一実施形態では、分配した細胞又はサブセットに最後の区画特異的インデックスＩ３を付加するときに、ユニバーサル配列を有するアダプターが含まれ得る（図７、工程７０３）。例えば、ミスマッチアダプターを各末端に付加して、修飾核酸７０８を得ることができる。ユニバーサル配列の例としては、ライブラリーメンバーをアレイに固定するために使用されるものが挙げられる（Ｐ５及びＰ７）。ミスマッチアダプターはまた、シークエンシングに有用なユニバーサル配列を含むことができ、又はいくつかの実施形態では、修飾核酸７０８を増幅することができ（図７、工程７０４）、及びシークエンシングに有用なユニバーサル配列（ｉ５及びｉ７）を付加して、修飾核酸７０９を得ることができる。修飾核酸７０９は、ターゲットシークエンシングで使用して、後続の濃縮及び／又は欠失に有用な生物学的特徴と相関するマーカーインデックス配列を同定することができる。

濃縮をターゲット増幅と結合する、非限定的な例示的実施形態を図８に示す。この実施形態では、単一細胞コンビナトリアルライブラリーが作製されており（例えば、図３、ブロック３５；図４、ブロック４７；図６、ブロック６０５）、得られた修飾核酸（例えば図７、修飾核酸７０９）は、対象となる生物学的特徴を含むライブラリーメンバーを特異的に増幅する増幅反応に供される。連続インデックスを有する修飾核酸８０２は、２つのドメイン、すなわち、生物学的特徴を有するヌクレオチド配列にアニーリングするように設計された３’ドメイン、及び１つ以上のユニバーサル配列又はその相補体、例えば、例えば、ｉ７及びＰ７を有する５’ドメインを含み得るプライマー８０３と接触する。増幅反応は、ライブラリーの全メンバーの片側にアニーリングする第２のプライマー８０４を含む。増幅８０１は、一端に区画特異的インデックスＩ１－３を有する修飾核酸８０５、もう一端には、生物学的特徴をターゲットとした２ドメインプライマーと共に付加されたユニバーサル配列をもたらす。増幅された修飾ターゲット核酸は、ターゲットシークエンシング及び対象とする生物学的特徴と相関するマーカーインデックス配列を同定するためのシークエンシングで使用され得る。

本明細書では、キットも提供される。一実施形態では、キットはシークエンシングライブラリーを調製するためのものである。一実施形態では、キットは、１つのトランスポソーム複合体を含み、ユニバーサル配列がターゲット核酸に挿入され得るように、トランスポゾン認識部位を含む。別の実施形態では、キットは、２つのトランスポソーム複合体を含み、各複合体は、ユニバーサル配列がターゲット核酸に挿入され得るように、異なるユニバーサル配列を有するトランスポゾン認識部位を含む。別の実施形態では、キットは、核酸に少なくとも１つ、２つ、又は３つのインデックスを付加する構成要素を含む。キットはまた、シークエンシングライブラリーの作製に有用な他の構成要素も含み得る。例えば、キットは、ＤＮＡ分子を処理してインデックスを含むようにするために、ライゲーション、プライマー伸長、又は増幅を媒介する少なくとも１つの酵素を含み得る。キットは、インデックス配列を有する核酸を含み得る。

キットの構成要素は、典型的には、少なくとも１つのアッセイ又は使用に十分な量で好適なパッケージ材料に入っている。任意選択的に、緩衝剤及び溶液など他の構成要素が含まれ得る。典型的には、パッケージされた構成要素の使用説明書も含まれる。本明細書で使用するとき、「パッケージ材料」という語句は、キットの内容物を収容するために使用される１つ以上の物理的構造を指す。パッケージ材料は、一般的に、無菌の、汚染物質を含まない環境を提供するために、常法によって構築される。パッケージ材料は、シークエンシングライブラリーを作製するために構成要素が使用され得ることを示すラベルを有してよい。加えて、パッケージ材料は、キット内の材料の使用方法を示す説明書を含む。本明細書で使用するとき、用語「パッケージ」は、キットの構成要素を一定限度内に保持することができる、ガラス、プラスチック、紙、箔などの容器を指す。「使用説明書」は、典型的には、試薬濃度、又は混合する試薬及び試料の相対量、試薬／試料混合物の維持期間、温度、緩衝条件など少なくとも１つのアッセイ法パラメータを説明する具体的な表現を含む。

組成物

シークエンシングライブラリーの作製中、又は作製後に、多数の分子及び組成物が得られることがある。例えば、結果として得られ得る分子又は組成物には、連続インデックスによって片側又は両側に隣接する修飾ターゲット核酸が含まれる。連続インデックスは、行内に１、２、３、４、５、６、又はそれ以上のインデックスを含み得、各インデックスは、１、２、３、４、又はそれ以上のヌクレオチドによって他のインデックスから分離される。いくつかの実施形態では、連続インデックスの全長は、少なくとも４０ヌクレオチド、少なくとも４５ヌクレオチド、少なくとも５０ヌクレオチド、又は少なくとも５５ヌクレオチド、かつ８０ヌクレオチド以下、７５ヌクレオチド以下、７０ヌクレオチド以下、又は６５ヌクレオチド以下である。複数のこのような修飾ターゲット核酸を含むライブラリー又は組成物が得られることがある。このようなポリヌクレオチドのプールされたライブラリーを含むプールされたライブラリー及び組成物が得られることがある。

例示的な実施形態

実施形態１．生物学的特徴を含む細胞のサブ集団を同定するための方法であって、
（ａ）単一細胞シークエンシングライブラリーを提供することであって、
シークエンシングライブラリーは、複数の修飾ターゲット核酸を含み、
修飾ターゲット核酸は、少なくとも１つのインデックス配列を含む、ことと、
（ｂ）生物学的特徴と同じ修飾ターゲット核酸に存在するインデックス配列を同定するために、シークエンシングライブラリーをターゲットシークエンシングによって精査することであって、
生物学的特徴に関連するインデックス配列は、マーカーインデックス配列である、ことと、
（ｃ）サブライブラリーを得るためにシークエンシングライブラリーを改変することであって、
サブライブラリーは、マーカーインデックス配列を含まない、シークエンシングライブラリー内に存在する他の修飾ターゲット核酸と比較して、マーカーインデックス配列を含む修飾ターゲット核酸の増加した表現を含む、ことと、
（ｄ）マーカーインデックス配列を含む修飾ターゲット核酸のヌクレオチド配列を決定することと、を含む、方法。

実施形態２．単一細胞シークエンシングライブラリーは、複数の試料からの核酸を含む、実施形態１に記載の方法。

実施形態３．複数の試料は、（ｉ）異なる生物から得られた同一組織の試料、（ｉｉ）１つの生物からの異なる組織の試料、又は（ｉｉｉ）異なる生物からの異なる組織の試料を含む、実施形態１～２のいずれか１つに記載の方法。

実施形態４．工程（ｂ）において、２つ以上のマーカーインデックス配列が同定される、実施形態１～３のいずれか１つに記載の方法。

実施形態５．単一細胞コンビナトリアルシークエンシングライブラリーは、細胞若しくは核の全ゲノム又はゲノムのサブセットを表すターゲット核酸を含む、実施形態１～４のいずれか１つに記載の方法。

実施形態６．ゲノムのサブセットは、トランスクリプトーム、アクセス可能クロマチン、ＤＮＡ、立体構造状態、又は細胞若しくは核のタンパク質を表すターゲット核酸を含む、実施形態１～５のいずれか１つに記載の方法。

実施形態７．改変することは、マーカーインデックス配列を含む修飾ターゲット核酸の濃縮を含む、実施形態１～６のいずれか１つに記載の方法。

実施形態８．濃縮はハイブリダイゼーションベースの方法を含む、実施形態１～７のいずれか１つに記載の方法。

実施形態９．ハイブリダイゼーションベースの方法は、ハイブリッド捕捉、増幅、又はＣＲＩＳＰＲ（ｄ）Ｃａｓ９を含む、実施形態１～８のいずれか１つに記載の方法。

実施形態１０．改変することは、マーカーインデックス配列を含まない修飾ターゲット核酸の枯渇を含む、実施形態１～９のいずれか１つに記載の方法。

実施形態１１．枯渇はハイブリダイゼーションベースの方法を含む、実施形態１～１０のいずれか１つに記載の方法。

実施形態１２．ハイブリダイゼーションベースの方法は、ハイブリッド捕捉、増幅、又はＣＲＩＳＰＲ（ｄ）Ｃａｓ９を含む、実施形態１～１１のいずれか１つに記載の方法。

実施形態１３．生物学的特徴は、種のタイプを示すヌクレオチド配列を含む、実施形態１～１２のいずれか１つに記載の方法。

実施形態１４．種のタイプは細胞の種を含む、実施形態１～１３のいずれか１つに記載の方法。

実施形態１５．生物学的特徴は、１６ｓサブユニット、１８ｓサブユニット、又はＩＴＳ非転写領域のヌクレオチドを含む、実施形態１～１４のいずれか１つに記載の方法。

実施形態１６．生物学的特徴は、細胞クラスを示すヌクレオチド配列を含む、実施形態１～１５のいずれか１つに記載の方法。

実施形態１７．細胞クラスは、発現パターン、エピジェネティックパターン、免疫遺伝子組み換え、又はこれらの組み合わせを含む、実施形態１～１６のいずれか１つに記載の方法。

実施形態１８．エピジェネティックパターンは、メチル化標識、メチル化パターン、アクセス可能ＤＮＡ、又はこれらの組み合わせを含む、実施形態１～１７のいずれか１つに記載の方法。

実施形態１９．生物学的特徴は、疾患状態又はリスクを示すヌクレオチド配列を含む、実施形態１～１８のいずれか１つに記載の方法。

実施形態２０．疾患状態又はリスクは、変異ＤＮＡ配列、変異発現パターン、又は疾患と相関する変異エピジェネティックパターンを含む、実施形態１～１９のいずれか１つに記載の方法。

実施形態２１．変異ＤＮＡ配列は、少なくとも１つの一塩基多型を含む、実施形態１～２０のいずれか１つに記載の方法。

実施形態２２．変異発現パターンは、バイオマーカーの発現を含む、実施形態１～２１のいずれか１つに記載の方法。

実施形態２３．変異エピジェネティックパターンは、メチル化標識、メチル化パターンを含む、実施形態１～２２のいずれか１つに記載の方法。

実施形態２４．修飾ターゲット核酸は、少なくとも２つの区画特異的インデックス配列の連続インデックスを含み、２つのインデックス配列間には７個以上のヌクレオチドが存在しない、実施形態１～２３のいずれか１つに記載の方法。

実施形態２５．連続インデックスは、修飾ターゲット核酸の各末端に存在する、実施形態１～２４のいずれか１つに記載の方法。

実施形態２６．連続インデックスの長さは少なくとも５５ヌクレオチドである、実施形態１～２５のいずれか１つに記載の方法。

実施形態２７．連続インデックスの１つのコピーは、修飾ターゲット核酸に存在する、実施形態１～２６のいずれか１つに記載の方法。

実施形態２８．連続インデックスの２つのコピーは、修飾ターゲット核酸に存在する、実施形態１～２７のいずれか１つに記載の方法。

実施形態２９．シークエンシングライブラリーの複数の修飾ターゲット核酸は、少なくとも１００，０００個の異なる細胞又は核を表す、実施形態１～２８のいずれか１つに記載の方法。

実施形態３０．単一細胞コンビナトリアルシークエンシングライブラリーを提供することは、
試料を処理してライブラリーを作製することであって、試料は、生物から得られたメタゲノミクス試料である、ことを含む、実施形態１～２９のいずれか１つに記載の方法。

実施形態３１．生物は哺乳類である、実施形態１～３０のいずれか１つに記載の方法。

実施形態３２．メタゲノミクス試料は、共生微生物又は病原微生物を含む疑いのある組織を含む、実施形態１～３１のいずれか１つに記載の方法。

実施形態３３．微生物は原核生物又は真核生物である、実施形態１～３２のいずれか１つに記載の方法。

実施形態３４．メタゲノミクス試料はマイクロバイオーム試料を含む、実施形態１～３３のいずれか１つに記載の方法。

実施形態３５．単一細胞コンビナトリアルシークエンシングライブラリーを提供することは、
ライブラリーを作製するために試料を処理することであって、試料は生物からのものである、ことを含む、実施形態１～３４のいずれか１つに記載の方法。

実施形態３６．生物は哺乳類である、実施形態１～３５のいずれか１つに記載の方法。

実施形態３７．試料からの核酸の一次供給源はＲＮＡを含む、実施形態１～３６のいずれか１つに記載の方法。

実施形態３８ＲＮＡはｍＲＮＡを含む、実施形態１～３７のいずれか１つに記載の方法。

実施形態３９．試料からの核酸の一次供給源はＤＮＡを含む、実施形態１～３８のいずれか１つに記載の方法。

実施形態４０．ＤＮＡは全細胞ゲノムＤＮＡを含む、実施形態１～３９のいずれか１つに記載の方法。

実施形態４１．全細胞ゲノムＤＮＡはヌクレオソームを含む、実施形態１～４０のいずれか１つに記載の方法。

実施形態４２．試料からの核酸の一次供給源は無細胞ＤＮＡを含む、実施形態１～４１のいずれか１つに記載の方法。

実施形態４３．試料は癌細胞を含む、実施形態１～４２のいずれか１つに記載の方法。

実施形態４４．単一細胞コンビナトリアルシークエンシングライブラリーを提供することは、単一核トランスクリプトームシークエンシング、単一細胞トランスクリプトームシークエンシング、単一細胞トランスクリプトーム及びトランスポゾンアクセス可能クロマチンシークエンシング、単一核の全ゲノムシークエンシング、トランスポゾンアクセス可能クロマチンの単一核シークエンシング、単一細胞エピトープシークエンシング、ｓｃｉ－ＨｉＣ、及びｓｃｉ－ＭＥＴから選択される単一細胞コンビナトリアルインデクシング法を用いてライブラリーを作製することを含む、実施形態１～４３のいずれか１つに記載の方法。

実施形態４５．提供することは、各細胞又は核から２つの異なる単一細胞コンビナトリアルシークエンシングライブラリーを提供することを含む、実施形態１～４４のいずれか１つに記載の方法。

実施形態４６．２つの異なる単一細胞コンビナトリアルシークエンシングライブラリーは、単一核トランスクリプトームシークエンシング、単一細胞トランスクリプトームシークエンシング、単一細胞トランスクリプトーム及びトランスポゾンアクセス可能クロマチンシークエンシング、単一核の全ゲノムシークエンシング、トランスポゾンアクセス可能クロマチンの単一核シークエンシング、ｓｃｉ－ＨｉＣ、及びｓｃｉ－ＭＥＴから選択される単一細胞コンビナトリアルインデクシング法から選択される、実施形態１～４５のいずれか１つに記載の方法。

実施形態４７．核酸のヌクレオチド配列を決定するためにシークエンシング手順を実行することを更に含む、実施形態１～４６のいずれか１つに記載の方法。

実施形態４８．複数の単一核又は単一細胞からの核酸を含むシークエンシングライブラリーを調製するための方法であって、
（ａ）複数の核又は細胞を提供することであって、核又は細胞はヌクレオソームを含む、ことと、
（ｂ）複数の核又は細胞を、トランスポザーゼ及びユニバーサル配列を含むトランスポソーム複合体と接触させることであって、接触させることは、ユニバーサル配列をＤＮＡ核酸に組み込み、ユニバーサル配列を含む二本鎖ＤＮＡ核酸をもたらすのに好適な条件を更に含む、ことと、
（ｄ）複数の核又は細胞を第１の複数の区画に分配することであって、
各区画は、核又は細胞のサブセットを含む、ことと、
（ｅ）インデックス付き核又は細胞を生成するために、核又は細胞の各サブセット内のＤＮＡ分子を処理することであって、
処理することは、核又は細胞の各サブセットに存在するＤＮＡ核酸に、第１の区画特異的インデックス配列を付加して、インデックス付き核又は細胞に存在するインデックス付き核酸をもたらし、
処理することは、ライゲーション、プライマー伸長、ハイブリダイゼーション、増幅、又はこれらの組み合わせを含む、ことと、
（ｇ）プールされたインデックス付き核又は細胞を生成するために、インデックス付き核又は細胞を組み合わせることと、を含む、方法。

実施形態４９．提供することは、複数の区画内に複数の核又は細胞を提供することを含み、各区画は核又は細胞のサブセットを含み、接触させることは、各区画をトランスポソーム複合体と接触させることを含み、方法は、接触させることの後に核又は細胞を組み合わせて、プールされた核又は細胞を生成することを更に含む、請求項４８に記載の方法。

実施形態５０．提供することは、単離された核の完全性を維持しながらヌクレオソーム枯渇核を生成するために、核を化学処理に供することを含む、実施形態４８～４９のいずれか１つに記載の方法。

実施形態５１．
インデックス付き核又は細胞を含むプールされたインデックス付き核又は細胞を第２の複数の区画に分配することであって、
各区画は、核又は細胞のサブセットを含む、ことと、
二重インデックス付き核又は細胞を生成するために、核又は細胞の各サブセット内のＤＮＡ分子を処理することであって、
処理することは、核又は細胞の各サブセットに存在するＤＮＡ核酸に、第２の区画特異的インデックス配列を付加して、インデックス付き核又は細胞に存在する二重インデックス付き核酸をもたらし、
処理することは、ライゲーション、プライマー伸長、ハイブリダイゼーション、増幅、又はこれらの組み合わせを含む、ことと、
プールされた二重インデックス付き核又は細胞を生成するために、二重インデックス付き核又は細胞を組み合わせることと、を更に含む、実施形態４８～５０のいずれか１つに記載の方法。

実施形態５２．
二重インデックス付き核又は細胞を含むプールされた核又は細胞を第３の複数の区画に分配することであって、
各区画は、核又は細胞のサブセットを含む、ことと、
三重インデックス付き核又は細胞を生成するために、核又は細胞の各サブセット内のＤＮＡ分子を処理することであって、
処理することは、核又は細胞の各サブセットに存在するＤＮＡ核酸に、第３の区画特異的インデックス配列を付加して、インデックス付き核又は細胞に存在する三重インデックス付き核酸をもたらし、
処理することは、ライゲーション、プライマー伸長、ハイブリダイゼーション、増幅、又はこれらの組み合わせを含む、ことと、
プールされた三重インデックス付き核又は細胞を生成するために、三重インデックス付き核又は細胞を組み合わせることと、を更に含む、実施形態４８～５１のいずれか１つに記載の方法。

実施形態５３．分配する工程は希釈を含む、実施形態４８～５２のいずれか１つに記載の方法。

実施形態５４．区画はウェル、マイクロ流体区画、又は液滴を含む、実施形態４８～５３のいずれか１つに記載の方法。

実施形態５５．第１の複数の区画の区画は、５０～１００，０００，０００個の核又は細胞を含む、実施形態４８～５４のいずれか１つに記載の方法。

実施形態５６．第２の複数の区画の区画は、５０～１００，０００，０００個の核又は細胞を含む、実施形態４８～５５のいずれか１つに記載の方法。

実施形態５７．第３の複数の区画の区画は、５０～１００，０００，０００個の核又は細胞を含む、実施形態４８～５６のいずれか１つに記載の方法。

実施形態５８．接触させることは、各サブセットを２つのトランスポソーム複合体と接触させることを含み、一方のトランスポソーム複合体は、第１のユニバーサル配列を含む第１のトランスポザーゼを含み、第２のトランスポソーム複合体は、第２のユニバーサル配列を含む第２のトランスポザーゼを含み、接触させることは、第１のユニバーサル配列及び第２のユニバーサル配列をＤＮＡ核酸に組み込んで、第１のユニバーサル配列及び第２のユニバーサル配列を含む二本鎖ＤＮＡ核酸をもたらすのに好適な条件を更に含む、実施形態４８～５７のいずれか１つに記載の方法。

実施形態５９．区画特異的インデックス配列を付加することは、ユニバーサル配列を含むヌクレオチド配列を核酸に付加し、次いで、区画特異的インデックス配列を核酸に付加する２工程プロセスを含む、実施形態４８～５８のいずれか１つに記載の方法。

実施形態６０．プールされたインデックス付き核又は細胞からインデックス付き核酸を得ることを更に含み、それにより、複数の核又は細胞からシークエンシングライブラリーを作製することを更に含む、実施形態４８～５９のいずれか１つに記載の方法。

実施形態６１．プールされた二重インデックス付き核又は細胞から二重インデックス付き核酸を得ることを更に含み、それにより、複数の核又は細胞からシークエンシングライブラリーを作製することを更に含む、実施形態４８～６０のいずれか１つに記載の方法。

実施形態６２．プールされた三重インデックス付き核又は細胞から三重インデックス付き核酸を得ることを更に含み、それにより、複数の核又は細胞からシークエンシングライブラリーを作製することを更に含む、実施形態４８～６１のいずれか１つに記載の方法。

実施形態６３．
複数の増幅部位を含む表面を提供する工程を更に含み、
増幅部位は、遊離３’末端を有する結合した一本鎖捕捉オリゴヌクレオチドの少なくとも２つの集団を含み、
複数のインデックスを含む個々の断片からアンプリコンのクローン集団をそれぞれ含む複数の増幅部位を生成するのに好適な条件下で、増幅部位を含む表面を、１つ、２つ、又は３つのインデックス配列を含む核酸断片と接触させることと、を更に含む、実施形態４８～６２のいずれか１つに記載の方法。

実施形態６４．核酸ライブラリーを調製するための方法であって、
（ａ）複数の試料を提供することであって、各試料は複数の細胞又は核を含み、各試料の複数の細胞又は核は、１つ以上の別個の区画に存在する、ことと、
（ｂ）複数の核又は細胞を、トランスポソーム複合体がインデックス配列を含まないという条件で、トランスポザーゼ及びユニバーサル配列を含むトランスポソーム複合体と接触させることであって、接触させることは、ユニバーサル配列を核酸に組み込むのに好適な条件を更に含む、ことと、
（ｃ）各別個の区画の核酸に第１のインデックス配列を付加することと、
（ｄ）別個の区画の細胞又は核を組み合わせることと、
（ｅ）細胞又は核を複数の区画に分配することと、
（ｆ）複数の区画の核酸に第２のインデックス配列を付加することと、を含む、方法。

実施形態６５．第１のインデックス配列、第２のインデックス配列、又はこれらの組み合わせは、ライゲーション、プライマー伸長、ハイブリダイゼーション、増幅、又はこれらの組み合わせによって付加される、実施形態６４に記載の方法。

実施形態６６．工程（ｄ）～（ｅ）を繰り返して、第３又はそれ以上のインデックス配列を複数の区画の細胞又は核に付加する、実施形態６４～６５のいずれか１つに記載の方法。

実施形態６７．複数の核又は細胞は固定される、実施形態６４～６６のいずれか１つに記載の方法。

実施形態６８．工程（ｃ）又は工程（ｆ）の後にインデックス付き核酸の増幅を更に含む、実施形態６４～６７のいずれか１つに記載の方法。

実施形態６９．複数の区画の核酸を組み合わせ、核酸の配列を決定する工程（ｇ）を更に含む、実施形態６４～６８のいずれか１つに記載の方法。

実施形態７０．核酸のヌクレオチド配列を決定するためにシークエンシング手順を実行することを更に含む、実施形態６４～６９のいずれか１つに記載の方法。

実施形態７１．単一細胞又は単一核をシークエンシングするための方法であって、
（ａ）試料内の各細胞又は核の核酸を一意にインデックス付けし、それにより、各細胞又は核のインデックス付きライブラリーを作製することと、
（ｂ）生物学的特徴を使用して、工程（ａ）からの、対象となる１つ以上のインデックス付きライブラリーを同定することと、
（ｃ）工程（ｂ）の、対象となるインデックス付きライブラリーを濃縮し、それにより、濃縮ライブラリーを作製することと、
（ｄ）工程（ｃ）からの濃縮ライブラリーをシークエンシングすることと、を含む、方法。

実施形態７２．ライブラリーは、細胞又は核のＤＮＡ、ＲＮＡ、又はタンパク質由来である、実施形態７１に記載の方法。

実施形態７３．生物学的特徴は、ＤＮＡ、ＲＮＡ、若しくはタンパク質、又はこれらの組み合わせである、実施形態６４～７２のいずれか１つに記載の方法。

実施形態７４．工程（ａ）における一意にインデックス付けすることは、少なくとも２つの異なるインデックスを細胞又は核の核酸に関連付けることを含む、実施形態６４～７３のいずれか１つに記載の方法。

実施形態７５．少なくとも２つの異なるインデックスは連続インデックスである、実施形態６４～７４のいずれか１つに記載の方法。

実施形態７６．濃縮ライブラリーは正の濃縮によって作製される、実施形態６４～７５のいずれか１つに記載の方法。

実施形態７７．正の濃縮は増幅を含む、実施形態６４～７６のいずれか１つに記載の方法。

実施形態７８．正の濃縮は捕捉剤を含む、実施形態６４～７７のいずれか１つに記載の方法。

実施形態７９．正の濃縮は、固体支持体を含む、実施形態６４～７８のいずれか１つに記載の方法。

実施形態８０．濃縮ライブラリーは負の濃縮によって作製される、実施形態６４～７９のいずれか１つに記載の方法。

実施形態８１．工程（ｃ）における、対象となるインデックス付きライブラリーを同定することは、インデックスをシークエンシングすることを含む、実施形態６４～８０のいずれか１つに記載の方法。

実施形態８２．単一細胞又は単一核をシークエンシングするための方法であって、（ａ）試料を提供することであって、試料は複数の核又は細胞を含む、ことと、
（ｂ）試料内の各核又は細胞に第１のインデックスを関連付けることと、
（ｃ）試料を複数の区画に分割することと、
（ｄ）複数の区画の各核又は細胞に第２のインデックスを関連付けることと、
（ｅ）複数の区画をプールすることと、
（ｆ）プールされた区画をシークエンシングすることと、
（ｇ）生物学的特徴と関連付けられた第１のインデックス及び第２のインデックスの組み合わせを同定することと、
（ｈ）工程（ｇ）からの第１のインデックス及び第２のインデックスの同定された組み合わせを使用して、プールされた区画からの生物学的特徴を濃縮することと、を含む、方法。

実施形態８３．キットであって、
（ａ）複数のトランスポソーム複合体であって、各トランスポソーム複合体は、トランスポザーゼ及びトランスポゾン配列を含み、トランスポゾン配列はインデックス付けされていない、複数のトランスポソーム複合体と、
（ｂ）第１の複数のインデックスオリゴヌクレオチドであって、第１の複数のインデックスオリゴヌクレオチドは、少なくとも２つの異なる配列を有するオリゴヌクレオチドを含む、第１の複数のインデックスオリゴヌクレオチドと、
（ｃ）インデックスオリゴヌクレオチドと共に使用するためのリガーゼ酵素と、を含む、キット。

実施形態８４．第２の複数のインデックスオリゴヌクレオチドを更に含み、第２の複数のインデックスオリゴヌクレオチドは、第１の複数のインデックスオリゴヌクレオチドとは異なる配列を有するオリゴヌクレオチドを含む、実施形態８３に記載のキット。

実施形態８５．第３の複数のインデックスオリゴヌクレオチドを更に含み、第３の複数のインデックスオリゴヌクレオチドは、第１の複数のインデックスオリゴヌクレオチド及び第２の複数のインデックスオリゴヌクレオチドとは異なる配列を有するオリゴヌクレオチドを含む、実施形態８３又は８４に記載のキット。

本開示は、以下の実施例によって例示される。特定の実施例、材料、量、及び手順は、本明細書に記載の本開示の範囲及び趣旨に従って広く解釈されるべきであることを理解されたい。

実施例１

発生中のクロマチンアクセス可能性のヒト細胞アトラス

要約

ヒトゲノムのクロマチンランドスケープは、遺伝子発現の細胞タイプ特異的プログラムを形作る。本発明者らは、３レベルのコンビナトリアルインデクシング（ｓｃｉ－ＡＴＡＣ－ｓｅｑ３）に基づいてクロマチンアクセス可能性の単一細胞プロファイリング用の改善されたアッセイを開発して、１５の器官を表す５９個の胎児試料に適用し、およそ百万個の単一細胞を全てプロファイリングした。本発明者らは、同一器官における遺伝子発現によって定義される細胞タイプを活用して、これらのデータをアノテーションし、数十万の細胞タイプ特異的ＤＮＡ調節要素のカタログを構築し、系統特異的転写因子の特性、並びに複合形質遺伝性の細胞タイプ特異的濃縮を調査する。発生中の遺伝子発現の付随するヒト細胞アトラスと合わせて、これらのデータは、ヒト生物学を探査するための豊富なリソースを含む。

本文

近年、単一細胞法、実験、及びアトラスが急増している。しかしながら、その取り組みの圧倒的大部分は、細胞生物学、発生生物学、及び有機生物学の一側面のみを反映する単一細胞遺伝子発現に集中したままである。遺伝子発現プログラムを形作るクロマチンランドスケープなど他の側面は、単一細胞解像度での調査にとって同程度に重要であるが、拡張性のある方法が比較的少ないという課題を抱えている。

単一細胞コンビナトリアルインデクシング（「ｓｃｉ」）のフレームワークは、細胞又は核のスプリット及びウェルへのプールを含み、ウェルでは、分子バーコードが対象となる種（例えば、ＲＮＡ又はクロマチン）にその場で毎回導入される。連続して行われる、その場での分子バーコーディングを通して、同一細胞内の種をバーコードの一意の組み合わせで一致して標識し、クロマチンアクセス可能性（ｓｃｉ－ＡＴＡＣ－ｓｅｑ）、遺伝子発現（ｓｃｉ－ＲＮＡ－ｓｅｑ）、核構造、ゲノム配列、メチル化、ヒストン標識及び他の現象をプロファイリングするためのｓｃｉ－アッセイ、並びに、例えば、クロマチンアクセス可能性及び遺伝子発現を併せてプロファイリングするためのｓｃｉ－共アッセイを開発した（「ＣｏＢａｔｃｈ」、「Ｓｐｌｉｔ－ｓｅｑ」、「Ｐａｇａｉｒｅｄ－ｓｅｑ」、及び「ｄｓｃＡＴＡＣ－ｓｅｑ」は、単一細胞コンビナトリアルインデクシングにも依存する方法である）。

これまでは、２レベルのｓｃｉ－ＡＴＡＣ－ｓｅｑを介して、～１００，０００個の哺乳類細胞におけるクロマチンアクセス可能性をプロファイリングすることができたが、アッセイにはいくつかの制限がある。例えば、バーコード付きアダプターを有するＴｎ５酵素のカスタム装填を必要とし、衝突による実験毎に１０^４～１０^５個の細胞、つまり同じバーコードの組み合わせを受容する細胞に限定される。これらの問題に対処するために、本発明者らは、３レベルのコンビナトリアルインデクシング（ｓｃｉ－ＡＴＡＣ－ｓｅｑ３）に基づいて、クロマチンアクセス可能性の単一細胞プロファイリング用の改善されたアッセイを開発した。ｓｃｉ－ＡＴＡＣ－ｓｅｑの以前の繰り返しとは対照的に、このアッセイは、分子バーコード付きＴｎ５複合体に依存しない（図９；図１０）。むしろ、最初の２回のインデックス付けは、従来の、均一に充填されたＴｎ５トランスポザーゼ複合体（標準的な「Ｎｅｘｔｅｒａ」）のいずれかの末端にライゲーションすることによって達成され、最終回のインデックス付けは、依然としてＰＣＲを介する。２レベルのｓｃｉ－ＡＴＡＣ－ｓｅｑと比較して、ただしｓｃｉ－ＲＮＡ－ｓｅｑ３に類似して、ｓｃｉ－ＡＴＡＣ－ｓｅｑ３は、１細胞当たりのライブラリー調製コスト、並びに衝突率を大幅に低減する。２レベルのインデクシング（９６ｘ３８４ウェル）及び３レベルのインデクシング（３８４ｘ３８４ｘ３８４ウェル）の理論衝突率は、それぞれ１２％及び１．３％であり、プールされた等数のＧＭ１２８７８細胞及びＣＨ１２．ＬＸ細胞を使用した、３レベルの「種混合」実験について観察された衝突率は４．０％と推定され、１０^６細胞規模の実験に道を開いた。このプロトコルは、もはや細胞選別を必要としない。また、本発明者らは、各細胞から回収される断片の数を最大化するために、リガーゼ及びポリメラーゼの選択、キナーゼ濃度、並びにオリゴ設計及び濃度を最適化した。アクセス可能領域内での濃縮を維持しつつ、アクセス可能部位の特異性を犠牲にして複雑性を最大化するという明示的な選択を行ったことに留意されたい。Ｐｉｃａｒｄを使用して、細胞ごとに推定総固有リード（「複雑性」）を計算し、細胞ごとにＦｒａｃｔｉｏｎｏｆＲｅａｄｓｉｎＴｒａｎｓｃｒｉｐｔｉｏｎＳｔａｒｔＳｉｔｅ（「ＦＲｉＴＳＳ」）を計算した。ＧｅｎｃｏｄｅＴＳＳの５００ｂｐ以内のリードは、ＴＳＳ内であるとみなした。具体的には、固定条件を調整して、アッセイの感度（すなわち、複雑性）及び特異度（すなわち、アクセス可能部位における濃縮）を調節することができることを見出した。

クロマチンアクセス可能性のヒト細胞アトラスに向かって、１５器官（副腎、小脳の２領域、眼、心臓、腸、腎臓、肝臓、肺、筋肉、膵臓、胎盤、脾臓、胃、及び胸腺）を表す５９の胎児試料にｓｃｉ－ＡＴＡＣ－ｓｅｑ３を適用し、１６０万個の細胞でクロマチンアクセス可能性を全てプロファイリングした（図１Ｄ～Ｅ）。実施例２では、同一器官からの４００万～５００万個の細胞における遺伝子発現のプロファイリングを、重複する試料セットに基づいて説明する。プロファイリングした器官は、多様な系に及び、最も不在が目立つのは、骨髄、骨、性腺、及び皮膚である。

異種の胎児組織の迅速かつ均一な処理は、困難な課題を示す。本発明者らは、様々な組織タイプにわたって良好に機能し、ｓｃｉ－ＡＴＡＣ－ｓｅｑ３及びｓｃｉ－ＲＮＡ－ｓｅｑ３の両方に好適なホモジネートを生成する、凍結保存組織から核を直接抽出するための新たな方法を開発した。簡潔に言えば、急速凍結した組織切片をアルミニウム箔に包み、冷却したハンマーを使用して、ドライアイス上で粉末に粉砕する。次いで、組織粉末をアリコートに分割し、一方はｓｃｉ－ＡＴＡＣ－ｓｅｑ３用、他方はｓｃｉ－ＲＮＡ－ｓｅｑ３用であった。

ｓｃｉ－ＡＴＡＣ－ｓｅｑ３では、８９～１２５日の範囲の推定妊娠年齢の２３の胎児から試料を得た。細胞を溶解して、公開されたＡＴＡＣ－ｓｅｑ細胞溶解緩衝液を用いて核を単離し、今後の処理のために急速凍結前にホルムアルデヒドで核を固定した。各組織からの核では、およそ５０，０００個の固定核を、９６ウェルプレートの４つのウェルにわたって堆積させ、タグ付けのために処理した。タグ付け後、組織試料も同定された第１のインデックスを、非対称の挿入されたトランスポザーゼ複合体の自由端の一方にライゲーションによって導入した。プール及びスプリットの後、第２のインデックスを、トランスポザーゼ複合体の他方の自由端にライゲーションによって導入した。別の回のプール及びスプリットに続いて、最終インデックスをＰＣＲにより付加し、得られたアンプリコンをシークエンシングのためにプールした。

５回のＩｌｌｕｍｉｎａＮｏｖａＳｅｑでの実験から３回目の実験のｓｃｉ－ＡＴＡＣ－ｓｅｑ３ライブラリーをシークエンシングし、全部で５００億超のリードを生成した。最初のＱＣチェックとして、組織レベルで、すなわち、単一細胞に分割する前にデータを調べた。胎児組織からの全ての利用可能なシングルエンドＤＮａｓｅ－ｓｅｑ試料をＥＮＣＯＤＥデータポータルからダウンロードし、再マッピングした。次に、各「擬バルク」試料及び各ＥＮＣＯＤＥ試料におけるアクセス可能性のピークを特定し、これらをマージし、マスターリスト内の各ピークにおけるアクセス可能性について各試料をスコア化した。しかしながら、ｓｃｉ－ＡＴＡＣ－ｓｅｑ３データは、ピークであまり濃縮されていなかったが（ピークの中央リード：ＡＴＡＣ－ＳＥＱ３では２９％、ＥＮＣＯＤＥＤＮａｓｅ－ｓｅｑでは３５％）、同一組織からの試料は、２つのアッセイに関して同程度に相関し（中央スピアマン相関：ｓｃｉ－ＡＴＡＣ－ｓｅｑ３での同一組織からの２つの試料で０．９３、ＤＮａｓｅ－ｓｅｑでは０．９１）、ｓｃｉ－ＡＴＡＣ－ｓｅｑ３はより高い技術的再現性を有した（中央スピアマン相関：０．９５）。更に、これらの集約プロファイル、ｓｃｉ－ＡＴＡＣ－ｓｅｑ３試料を単独で解析するか、又はクラスター試料に対するペアワイズスピアマン相関を使用してｓｃｉ－ＡＴＡＣ－ｓｅｑ３試料とＤＮａｓｅ－ｓｅｑ試料を合わせて解析するかに基づいて、試料をそれらのそれぞれの組織にクラスタリングした。

細胞バーコードに基づいてリードを分割し、前述のように動的閾値を適用して、１，５６８，０１８個の細胞を同定した。鶏対照から、３回の各実験について～５％の衝突率を推定する。ヒトセンチネル組織に対応する細胞のＵｎｉｆｏｒｍＭａｎｉｆｏｌｄＡｐｐｒｏｘｉｍａｔｉｏｎａｎｄＰｒｏｊｅｃｔｉｏｎ（ＵＭＡＰ）可視化は、明白な実験バッチ効果を明らかにしなかった。それらの断片サイズ分布の乏しいヌクレオソームバンディングを考慮して３つの試料をドロップし、細胞をほとんど捕捉しなかったために２つの試料を更にドロップした。これらのｓｃｉ－ＡＴＡＣ－ｓｅｑ３ライブラリーにおいて、組織タイプごとに１細胞につき全ての固有断片の９１％～９９％の中央をシークエンシングしたと推定する。

組織ごとにアクセス可能性のピークを特定した後、これらをマージして、１０５万部位のマスターセットを生成する。各部位でのリードの有無について各細胞をスコアリングした後、固有リードの総数（１，０００～３５８６の範囲の試料特異的最小値）、アクセス可能部位のマスターセットに重複するリードの割合（０．２～０．４の範囲の試料特異的最小値）、ＴＳＳ付近に収まるリードの割合（＋／－１ｋｂ；０．０５～０．１５の範囲の試料特異的最小値）、及びｓｃＲＮＡ－ｓｅｑデータ用に当初開発されたＳｃｒｕｂｌｅｔダブレット検出アルゴリズムを適応して得たダブレットスコア（最高ダブレットスコアを有する細胞の～１０％を除く）に基づいて、低精度の細胞をフィルタリングして除去した。

これらの手順の後、５４の胎児試料からの７９０，９５７個の単一細胞クロマチンアクセス可能性プロファイルが残った。組織ごとの高精度細胞の総数は、２，４２１（脾臓）～２１１，４５０（肝臓）の範囲であった。このセットの細胞当たりの固有断片の中央値は６，０４２であり、アクセス可能部位のマスターセットと重複するものの中央値は０．４９であり、ＴＳＳ（＋／－１ｋｂ）付近に収まるのは０．１９である。

本発明者らは、対数変換されたターム頻度構成要素を使用して、組織ごとに高精度細胞を潜在意味インデクシング（ＬＳＩ）に供した。同一組織に対応する異なる試料に対するバッチ効果の明白な証拠を観察しなかったが、Ｈａｒｍｏｎｙアルゴリズムを適用して、組織ごとにＰＣＡ空間内の試料を保存的手段として整列させた。組織ごとに整列させたＰＣＡ空間を使用して、次いでＬｏｕｖａｉｎクラスタリングを適用し、最初に全組織にわたって１７２のクラスターを得た。ＵＭＡＰを使用して、各組織データセットの次元を更に低減した。

細胞タイプのアノテーション

本発明者ら及び他の人々が示したように、ｓｃＡＴＡＣ－ｓｅｑデータセット内の細胞タイプのアノテーションは、ｓｃＲＮＡ－ｓｅｑデータセットを活用することによって大幅に簡略化することができる。ｓｃＡＴＡＣ－ｓｅｑデータについての細胞タイプのアノテーションを部分的に自動化するために、手引書に記載のように、まず、同一組織についてｓｃＲＮＡ－ｓｅｑデータ内の細胞タイプをアノテーションした。第２に、ｓｃＡＴＡＣ－ｓｅｑデータについて遺伝子レベルのアクセス可能性スコアを計算し、それらのＴＳＳの２ｋｂ上流によって延長された遺伝子本体に収まる転位事象の数を集計した。第３に、非負最小二乗（ＮＮＬＳ）回帰に基づいて、ｓｃＲＮＡ－ｓｅｑクラスターとｓｃＡＴＡＣ－ｓｅｑクラスターとの間で生じ得る対応を見出すためのアプローチへの入力として、データタイプごとに遺伝子－細胞マトリックスを使用し、これにより、ｓｃＡＴＡＣ－ｓｅｑクラスターの自動アノテーションの初期「リフトオーバー」セットを得た。最後に、各組織内の細胞タイプごとにマーカー遺伝子の周囲のパイルアップを調べることにより、全ての自動アノテーションを手動で見直して、必要と判断した場合には割り当てられた標識を修正した。最初に、マーカー遺伝子発現に基づいて、マッチする組織で集められたｓｃｉ－ＲＮＡ－ｓｅｑデータで、細胞タイプをアノテーションした。組織ごとのＡＴＡＣデータで、Ｌｏｕｖａｉｎクラスターを同定した。次に、これらのクラスターごとに遺伝子レベルのアクセス可能性スコアを計算し、非負最小二乗（ＮＮＬＳ）回帰に基づいてＲＮＡクラスターにマッチさせ、場合によっては、Ｌｏｕｖａｉｎクラスターのマージが生じた。これらの１回目の自動アノテーションは、マーカー遺伝子周辺のクラスター特異的アクセス可能性ランドスケープを手動で見直すことにより、更に精緻化された。アノテーションされた細胞タイプは、既知のマーカー遺伝子のＴＳＳの周辺の特異的アクセス可能性を示した。細胞タイプ又はアノテーションされていないクラスターごとに、既知のマーカー遺伝子のＴＳＳ付近のアクセス可能性を合計し、細胞当たりの総リードの差、並びに細胞タイプ全体の細胞数を考慮するために、スケールを正規化した。データは、一部のアノテーションされていないクラスターは新規の細胞タイプを表していない可能性があるが、むしろ技術的アーチファクト（例えば、ダブレット）を表していることを示唆した。本発明者らは、他のアプローチが単一細胞データのマルチモーダル組み込みについて非常に有望であることを示していることに留意したが、本明細書での目的にはクラスター対クラスターＮＮＬＳ法が十分であり、はるかに計算集約的ではないことを見出した。

総計で、１７２クラスターのうちの１５０（８７％）、信頼性の低い標識を含む場合には１７２クラスターのうちの１６３（９５％）をアノテーションすることができた。一部のクラスターは、同一組織内で同一のアノテーションを受け、したがってマージされ、全組織にわたって１２４のアノテーションをもたらした。これらのうち、一部のアノテーションは、複数の組織（例えば、４組織内の赤芽球）にわたって存在した。組織にわたって却下することにより、ｓｃＲＮＡ－ｓｅｑデータセットで行われたアノテーションに１：１をマッピングする、５４（又は信頼度の低い標識及び１：２のマッピングを含む場合には５９）の一意の細胞タイプアノテーションを得た。このレベルの分解能ではクロマチンアクセス可能性データで見出されなかったＳｃＲＮＡ－ｓｅｑ細胞タイプの多くは、この研究でプロファイリングされた細胞数が少ない（～４Ｍ（ＲＮＡ）対～８００Ｋ（ＡＴＡＣ）の高精度細胞）ことに起因して、検出可能であるように十分にサンプリングされていない場合がある小型クラスターである。一方、完全にアノテーションされていないままであった９つのｓｃＡＴＡＣ－ｓｅｑクラスターの大部分は、フィルタリングされていないダブレットが原因と考えられる。これは、ＵＭＡＰ表現において、複数の隣接する細胞タイプのマーカー遺伝子におけるアクセス可能性によって特徴付けられるためである。

系統特異的ＴＦの同定

次に、全１５器官にわたって細胞タイプにおけるクロマチンアクセス可能性を統合し、比較しようとした。器官及び／又は細胞タイプ当たりの細胞数の正味差異の影響を軽減するために、器官ごとに細胞タイプ当たり８００個の細胞をランダムにサンプリングし（又は、所与の器官で所与の細胞タイプの８００個未満の細胞が示された場合、全ての細胞を取得し）、ＵＭＡＰ可視化を実施した。安心させるように、細胞タイプは、バッチ又は個別ではなく、例えば、間質細胞（９器官）、内皮細胞（１３器官）、リンパ系細胞（７器官）、及び骨髄細胞（１０器官）のように、合わせてクラスタリングされた複数の器官に示した。例えば、多様な血液細胞、分泌細胞、ＰＮＳニューロン、ＣＮＳニューロンなど、発生及び機能に関連する細胞タイプも共局在化した。

発生生物学における重要な問題は、どの転写因子（ＴＦ）が、この多様な細胞タイプを不変ゲノムから産生することに関与するかということである。次に、本発明者らは、クロマチンアクセス可能性のこのヒト細胞アトラスの幅を活用して、差次的にアクセス可能であるＴＦモチーフを体系的に評価し、したがって、インビボでのヒト発生の文脈での細胞運命の主要調節因子を指名しようとした。

第１のアプローチとして、細胞タイプの関係を最も説明する、各細胞のアクセス可能部位で見出されるＴＦモチーフを求める線形回帰モデルを使用した。最初に各組織を独立して処置し、アノテーションされた１２４の細胞タイプクラスターのそれぞれにおいて、ＪＡＳＰＡＲデータベースから最も高度に濃縮されたモチーフ／ＴＦを同定して、既知の調節因子及び潜在的に新規の調節因子の両方を明らかにした。例えば、胎盤では、ＳＰＩ１／ＰＵ１のモチーフ（骨髄系の成長の確立された調節因子）は、骨髄細胞のピークで高度に濃縮されており、ＴＷＩＳＴ－１のモチーフ（間質前駆細胞の形成に必要）は、間質細胞のピークで濃縮されており、ＦＯＳ：：ＪＵＮモチーフは、絨毛外栄養膜（対応するＡＰ１複合体は特異的に活性であると記載されている細胞タイプ）におけるクロマチンアクセス可能性に関連している。

興味深いことに、胎盤内のアノテーションされていないクラスターは、ＧＡＴＡ１：：ＴＡＬ１モチーフ（赤血球生成の確立された調節因子）について高度に濃縮されている。これらの細胞は、グローバルＵＭＡＰ内の他の組織からの赤芽球とクラスタリングし、更なる検査の際に、主要赤血球マーカー遺伝子は、特異的プロモーターアクセス可能性を示した。ＮＮＬＳ誘導ワークフローでは、このクラスターはアノテーションされなかった。これは、ｓｃＲＮＡ－ｓｅｑ研究において赤芽球クラスターが胎盤で検出されなかったためであり、恐らくは、胎盤が、ＲＮＡ細胞よりもＡＴＡＣを有する数少ない組織のうちの１つであるためである。したがって、モチーフの濃縮は、細胞タイプの主要調節因子が既知である場合、細胞タイプのアノテーションを支援することができる。

本発明者らは、全ての組織にわたって観察した５４の主要細胞タイプについて、すなわち、複数の組織に現れる細胞タイプを却下した後に、この解析を繰り返した。予想どおりに、上位モチーフは、組織特異的解析、並びに文献、例えば骨髄細胞におけるＳＰＩ１／ＰＵ１、網膜色素及び光受容体細胞におけるＣＲＸ、心筋細胞及び骨格筋細胞におけるＭＥＦ２Ｂ（３１）、及び心内膜細胞及び平滑筋細胞におけるＳＲＦと一致したままであった。大部分のモチーフは、１つ又は２つの細胞タイプのみで濃縮されるが、ＯＬＩＧ２、ＮＥＵＲＯＧ１、及びＰＯＵ４Ｆ１など神経細胞ＴＦモチーフは、複数の神経細胞タイプで濃縮される。別の注目すべき例外は、腎臓及び膵臓の発生に従来の方法で関連するＨＮＦ１Ｂであり、そのモチーフは、特定の上皮細胞及び分泌細胞の範囲にわたる１３の細胞タイプで濃縮される。

ＰＯＵ２Ｆ１は、特定の発生ブランチとこれまで関連していないＴＦの例であるが、むしろ、ＰＯＵファミリー内では例外であり、広く発現し、特定の軌道を制御しないことが示唆されている。対照的に、本発明者らは、少なくともヒト胎児発生において、そのモチーフがいくつかの神経細胞タイプで濃縮されることを見出した。更に支持すると、ＰＯＵ２Ｆ１は、それらの同じ細胞タイプで特異的に発現する。

この観察の延長で、次に、コンパニオンｓｃＲＮＡ－ｓｅｑアトラスを活用して、ＴＦが、それらのモチーフの差次的アクセス可能性に一致するパターンで差次的に発現するかどうかをより一般的に確認しようとした。例えば、両データセットにおいて同一組織にアノテーションされた全ての細胞タイプを見渡すと、骨髄先駆因子ＳＰＩ１／ＰＵ１の発現は、アクセス可能部位におけるそのモチーフの濃縮と強く相関している。興味深いことに、この解析はまた、発現とモチーフの濃縮との負の相関を有する多くのＴＦを明らかにした。精密検査の結果、これらのＴＦは、抑制因子である傾向にあった。例えば、ＧＦＩ１Ｂは、モチーフの結合時にヒストン脱アセチル化酵素を補充し、例えば胎児ヘモグロビン遺伝子座におけるクロマチンの閉鎖を誘導することによって、赤芽球及び巨核球の発生に重要な抑制因子として作用すると説明されている。これと一致して、本発明者らは、その発現が、アクセス可能部位においてそのモチーフの濃縮と負に相関することを観察した。

本発明者らは、ＧＯタームに基づいて「活性化因子」又は「抑制因子」としてＴＦを分類すると、ＴＦ発現及びモチーフアクセス可能性はアノテーションされた活性化因子に正に相関する傾向があり、またアノテーションされた抑制因子に負に相関する傾向があり、モチーフの濃縮と発現との相関を使用して、未分類のＴＦの作用様式を予測することができることを見出した。例外は、ＧＯタームの欠如又は競合によって大部分が説明され得るが、文献検索を行うと、相関値で予測されるカテゴリーに当てはめられる。したがって、この種の解析は、ＴＦを活性化因子又は抑制因子として分類するための系統的なアプローチを提供し得る。例えば、ＮＦＡＴｃ３は、一般に活性化因子と説明されているが、本発明者らの解析は、特に、高度に発現していながらも、アクセス可能部位においてモチーフが枯渇しているＴ細胞の発生において作用の抑制モードを示す。ＮＦＡＴｃ３の作用のこのような抑制モードは、これまでの文献で示唆されている。一般的な分類とは別に、ＴＦが活性化因子又は抑制因子として可変的に作用し得る細胞タイプの文脈への洞察も得ることができる。例えば、ＦＯＸＯ３などＴＦは、その未修飾状態で活性化因子として作用するが、リン酸化されると抑制因子として作用することが提示されており、これは、発現とアクセス可能性とのより曖昧な関係を説明し得る。

上記のアプローチは、既知のＴＦを潜在的に新規の役割と体系的に関連付けることを可能にし、細胞タイプごとに差次的アクセス可能部位を事前選択することに依存しないという利点、また、ＴＦの発現をその対応するモチーフのアクセス可能性と関連付けることができるという更なる利点を有する。しかしながら、既知のＴＦモチーフのデータベースに依存するという点で制限される。異なるアプローチとして、アクセス可能部位ごとに特異性スコアも計算し、細胞タイプごとに２，０００の最も特異的なピークを選択し、ＣｐＧ一致バックグラウンドゲノム配列と比較して、このセット内の濃縮モチーフを新たに検索した。一般に、個々の細胞タイプの上位の新たなモチーフは、線形回帰によって同定された上位の既知モチーフに一致する。興味深いことに、既知のモチーフに対する強いマッチを有さなかった一部の細胞タイプ（例えば、内皮細胞、間質細胞、シュワン細胞）は、それでもなお、新たなモチーフに強く関連していた。特に内皮細胞については、そのような結果を以下で更に説明する。

血液細胞及び内皮細胞の組織横断分析

このデータセットの性質は、広範に出現する細胞タイプ、例えば、血液細胞及び内皮細胞内のクロマチンアクセス可能性の器官特異的差異を調査する機会を生み出す。血液系の細胞タイプアノテーションの第１のパスでは、骨髄細胞、リンパ細胞、赤芽球、巨核球、及び造血幹細胞を区別することができた。全器官からこれらの血液系統を抽出し、再クラスタリングすることにより、マクロファージ、Ｂ細胞、ＮＫ／ＩＬＣ３細胞、Ｔ細胞、及び樹状細胞を追加で同定することが可能になり、この場合もＲＮＡ支援アノテーションアプローチを採用する（注目すべきことに、複数の組織から類似の細胞タイプを解析するには、追加のダブレット洗浄工程を必要とする。「方法」を参照）。マクロファージは、以前に観察されたように、組織起源に関連する群、並びに食細胞マクロファージへと更に分類することができる。この後者の群は、主に脾臓において同定され、肝臓及び副腎と続いた。血液系統で特に関心を集めるのは赤芽球であり、これは、胎児発生中の赤血球生成の時空動態に起因する。本発明者らは、肝臓、副腎、心臓、及び胎盤において、この系統を最初に検出し、組織横断解析により、浅くプロファイリングした脾臓（当初は、巨核球及び骨髄細胞のみアノテーションした）において赤芽球を更に同定した。組織の血液系統内での赤芽球比率は、肝臓内で最も高く（この器官はこの発生段階における赤血球生成の主要部位であることに一致する）、続いて脾臓及び副腎であり、ＲＮＡデータで観察される傾向を模写する。胎児造血の潜在的部位が副腎という予想外の結果であったことについては、実施例２で更に考察する。

赤芽球について更に調査すると、成人βグロブリン遺伝子及び胎児γグロブリン遺伝子の両方に近位の領域がこの発生段階においてアクセス可能であり、一方では、胚性εグロブリン遺伝子のプロモーターはアクセス不能であることを観察した。赤芽球クラスターは、別個の赤芽球前駆細胞クラスターなど、差次的クロマチンアクセス可能性を有する５つの主要Ｌｏｕｖａｉｎクラスターに更に細分化することができる。赤芽球前駆細胞クラスター内のアクセス可能部位、並びに隣接する初期赤芽球クラスター（ｅｒｙｔｈｒｏｂｌａｓｔ＿３）は、ＧＡＴＡ１：ＴＡＬ１及び他のＧＡＴＡモチーフについて濃縮される。赤芽球前駆細胞の様々なＧＡＴＡ因子の発現レベルを比較することにより、このモチーフの濃縮に関与する可能性の高いＴＦとして、ＧＡＴＡ１／２を指名することができる。赤血球生成の後期段階に対応する他の赤芽球クラスターは、ＮＦＥ２／ＮＦＥ２Ｌ２（ｅｒｙｔｈｒｏｂｌａｓｔ＿１）及びＫＬＦ因子（ｅｒｙｔｈｒｏｂｌａｓｔ＿２／４）のモチーフ濃縮を示し、注目するべきは、ＧＡＴＡモチーフアクセス可能性の濃縮の不在が目立つことである。マウス造血系について最近公開されたｓｃＲＮＡ－ｓｅｑに関する研究は、赤血球生成早期にＧＡＴＡ２が誘導され、その後ＧＡＴＡ２は減じるものの、ＧＡＴＡ１は安定して発現することを報告した。対照的に、選別されたバルクヒトのインビトロ培養赤血球集団の研究により、前駆細胞から分化赤芽球へのＧＡＴＡ１発現の減少（ヒト胎児組織における観察結果に一致）、並びに後期段階の赤芽球でのＫＬＦ１レベル及びＮＦＥ－２レベルの増加が明らかになった。この結果は、アクセス可能性ランドスケープが、ＫＬＦ１又はＮＦＥ－２など非ＧＡＴＡ因子によって形作られる、後成的に明らかに異なる分化赤芽球のサブ集団が存在し得ることを更に示す。例えば、マラリア原虫によって赤血球侵入受容体として使用されるＧＹＰＡの上流の遠位調節エレメントは、ｅｒｙｔｈｒｏｂｌａｓｔ＿１において最もアクセス可能であり、ＮＦＥ－２モチーフに似たモチーフを含有する。

別の興味深い組織横断系は血管内皮である。興味深いことに、血管内皮細胞において排他的に発現していると説明されるＴＦはなく、内皮特異的トランスクリプトームが、内皮での重複発現を有するいくつかのＴＦによるコンビナトリアル制御を受けていることを示唆している。これと一致して、ＪＡＳＰＡＲモチーフの解析では、内皮細胞での強力な濃縮を１つも観察できない。一方、２，０００個の最も内皮特異的なピークでの新たなモチーフの発見により、ＥＲＧ及びＳＯＸ１５に類似したモチーフのバックグラウンドゲノム配列にわたる強力な濃縮が明らかになった。これらのモチーフは、内皮細胞に限定されないため（ＥＲＧモチーフは、巨核球においてより濃縮され、ＳＯＸ１５は、いくつかの細胞タイプで濃縮される）、また、これらのＴＦの発現はこの細胞タイプに限定されないために、本発明者らの線形モデリングアプローチにおいてそれほど強く重み付けされない傾向にあった。このため、ＥＲＧは、内皮機能の主要調節因子として既に説明されているが、巨核球への文化転換も促進する。

内皮細胞は全器官に存在し、肺内での気体交換又は腎臓内での流体濾過など、構造的機能及び高度に分化した機能の両方を行う必要がある。本研究では、１５の器官のうち１３の器官の内皮細胞を検出した（例外は、より浅くプロファイリングした小脳及び眼である）。これらの細胞を器官にわたって抽出し、再クラスタリングすると、あらゆる残留汚染ダブレットを除去する厳密な反復濾過工程（方法）にもかかわらず、組織起源に応じて顕著に分離し、赤芽球系とは対照的であった。これにより、本発明者らはまた、実施例２に記載するように、遺伝子発現の組織特異的プログラムを観察する。実際に、これらの差次的に発現した遺伝子に最も近いアクセス可能性のピークは、ＡＴＡＣデータでマッチする組織においてより高い特異性スコアを有する。更に、ほぼ全ての器官に由来する内皮細胞は、特異的ＴＦモチーフの濃縮を示した。注目すべきは、濃縮モチーフの多くのＴＦは、ＲＮＡデータでマッチする組織で差次的に発現することである。

全体として、これらの知見は、一般的機能及び器官特異の機能の両方を満たす必要のある、広範に分布する細胞タイプである内皮細胞におけるクロマチンアクセス可能性及び遺伝子発現の一般的なプログラムが、ＥＲＧ及びＳＯＸ１５など構造的ＴＦ、並びに更なる特異化を促進する組織特異的ＴＦの組み合わせによって媒介されることを示す。これらの解析はまた、特定ピークにおける新たなモチーフ濃縮及び組織全体での線形モデルアプローチの両方を組み合わせるメリットを強調して、個々の細胞タイプのクロマチンアクセス可能性ランドスケープの根底にある主要制御因子を指名する。

別の興味深い例は、胎盤のＰＡＥＰ＿ＭＥＣＯＭ陽性細胞タイプを含み、ｓｃＲＮＡ－ｓｅｑアトラス及びｓｃ－ＡＴＡＣ－ｓｅｑアトラスの両方で同定される。この系統の調節領域は、ＨＮＦ１Ｂのモチーフについて強力に濃縮されており、腎臓及び膵臓の発生に従来関連する因子である。例えば、ＨＮＦ１Ｂは、胎盤内のＰＡＥＰ＿ＭＥＣＯＭ細胞系統で極めて特異的に発現する。アクセス不能な部位であっても染色体全体で一部のゲノムリードを捕捉するＡＴＡＣ－ｓｅｑデータの性質により、Ｘ染色体上のＹ染色体又は常染色体由来のリードに基づいて細胞の雌雄鑑別が可能になる。興味深いことに、本発明者らは、ＰＡＥＰ＿ＭＥＣＯＭ及びＩＧＦＢＰ１＿ＤＫＫ陽性胎盤細胞タイプ、並びにより少ない程度で胎盤骨髄細胞は、雄胎児でＹ染色体のリード比が有意に低いことを見出した。ＰＡＥＰ（グリコデル）及びＩＧＦＢＰ１について既知であることに一致して、これらの細胞タイプは、それぞれ母体の子宮内膜上皮及び間質細胞に対応する可能性がある。

ＣＩＣＥＲＯ

更なる研究のためのリソースとして、本発明者らは、データセットの組織ごとにＣｉｃｅｒｏコアクセス可能性スコア及びＣｉｃｅｒｏ遺伝子活動スコアを生成した。Ｃｉｃｅｒｏコアクセス可能性スコアを使用して、アクセス可能要素間のｃｉｓ調節相互作用を予測することができる。本発明者らは、正のコアクセス可能性スコアによって対になった要素を組み合わせて、推定ｃｉｓ調節相互作用のデータベースを作製した。このデータベースは、４５０万（６％）のプロモーター－末端対、７，６００万（９４％）の末端－末端対、及び１２８，０００（０．２％）のプロモーター－プロモーター対を含む、８，０００万個の一意のコアクセス可能対を含む。本発明者らは、組織当たり平均３，３００万のコアクセス可能対を見出した。３８％の対は、単一組織のみに特有であり、０．００７％の対のみが１６の組織全てで検出された。より多くの組織で検出される対は、プロモーター－末端及びプロモーター－プロモーターである可能性が高かった。生成したコアクセス可能性スコア及び遺伝子活動スコアは、本発明者らのウェブサイトでダウンロードすることができる。

注目すべきは、２，０４０個の細胞（１７の試料のそれぞれからランダムに抽出された１２０個の細胞、追加資料を参照）の対照セットと比較して、当初同定された４３６，２０６の部位の８９％は、これらの８５の細胞クラスターのうちの少なくとも１つにおいて１％の偽発見率（ＦＤＲ）であり、著しく差次的アクセス可能（ＤＡ）であった。アクセス可能性が特定のクラスターに制限されたＤＡサイトを特定するために、ｓｃＲＮＡ－ｓｅｑ研究で遺伝子発現特異性を定量化するためのメトリックをクロマチンアクセス可能性に適合させて、全８５のクラスターによる全４３６，２０６の部位について計算した。アクセス可能部位の３９％（１６７，９８１／４３６，２０６）をクラスター限定（すなわち、限定数のクラスターにおけるアクセス可能性の増加）と分類し、これらの５５％（９２，３３４／１６７，９８１）は、単一クラスターに限定された。

共通ヒト形質及び疾患における細胞タイプの示唆

ゲノムワイド関連解析（ＧＷＡＳ）によって測定される、共通ヒト形質及び疾患の遺伝可能性の大部分は、細胞タイプ特異的であることの多い、末端調節要素に分割される。結果的に研究の大部分は、特定疾患を特定組織の機能不全に体系的に関連付けることを目的として、ＧＷＡＳ信号をバルクＤＮａｓｅ過敏症データ（及び他の後成的特徴）と交差させることに費やされる。しかしながら、このような研究の解明度は、細胞タイプの不均質性によって著しく制限される。本発明者らは、マウスとヒトとの間のクロマチンアクセス可能性の保全度を考慮すると、データを使用して、種間の差異に関係なく、複雑なヒト形質の根底にある様々な遺伝子の細胞タイプ特異的効果を更に理解できないかと考えた。したがって、本発明者らのデータがマウス組織で生成されたという事実にもかかわらず、ヒト遺伝可能性の細胞タイプ特異的濃縮を検出するために最先端の方法を適用しようとした。

これを行うために、分割された連鎖不平衡（ＬＤ）スコア回帰（ＬＤＳＣ）を使用して、８５のクラスターごとにＤＡピーク内のヒト形質の遺伝可能性の濃縮を定量化した。ヒトＳＮＰをマウスゲノムのオルソロガス座標に移した後、８５のクラスターごとに得たＤＡピークにわたって、３２の表現型の遺伝可能性の濃縮を計算した。８５のうち５５の細胞タイプは、少なくとも１つの表現型の濃縮を有し、３２のうち２８の表現型は、少なくとも１つの細胞タイプについて濃縮された。大きな傾向として、白血球に対応するクラスター内で、狼瘡、セリアック病、及びクローン病などの自己免疫疾患の遺伝可能性の強い濃縮を観察し、一方、双極性障害、教育達成度、及び統合失調症など神経学的形質については、神経細胞タイプで濃縮が生じた。とりわけ、これらの濃縮の大部分は、バルク組織からのピークで顕著ではなく、単一細胞クロマチンアクセス可能性データによって定義される細胞タイプの値を実証している。多くの濃縮は、期待どおりであった。例えば、低密度リポタンパク質（ＬＤＬ）コレステロール、高密度リポタンパク質（ＨＤＬ）コレステロール、及びトリグリセリドの遺伝可能性の最強度の濃縮が肝細胞に存在するが、興味深いことに、ＬＤＬコレステロールもヘンレ係締の腎臓上皮で有意であった。同様に、免疫グロブリンＡ（ＩｇＡ）欠乏症の遺伝性の最強度の濃縮は、Ｔ細胞のクラスター内に存在する。これらの信号はまた、細胞のサブタイプの重要性の更なる理解をもたらすことができる。この傾向の一例として、双極性障害の遺伝可能性の濃縮は複数のニューロンクラスターについて観察されているが、最強度の濃縮は興奮ニューロンを伴う。対照的に、アルツハイマー病の遺伝可能性は、いずれのクラスのニューロンでも濃縮されない。その代わりに、その最強度の濃縮は、小膠細胞のクラスターに見出される。

本発明者らの分析をより大型の形質セットに拡張するために、３００，０００人を超える個人の２，４１９の形質についてのＧＷＡＳの要約統計をＵＫＢｉｏｂａｎｋからダウンロードした（ｎｅａｌｅｌａｂ．ｇｉｔｈｕｂ．ｉｏ／ＵＫＢＢ＿ｌｄｓｃ／）。有効試料サイズ≧５，０００、推定遺伝可能性≧０．０１である４０５の形質に着目し、少なくとも１つの細胞タイプの２７３の形質で遺伝可能性の著しい濃縮を観察したが、８５のうち７４の細胞タイプは、少なくとも１つの形質に対して濃縮された遺伝可能性を示す。自己免疫形質及び神経学的形質については、上述した傾向と同じ大きな傾向がここで見られるが、ＵＫＢｉｏｂａｎｋによって測定された遙かに多数の形質は、更なる傾向を明らかにする。例えば、身体のサイズ及び組成（例えば、体格指数）の多数の測定値はまた、脳内の細胞タイプに関連する（図１８Ｂ）。加えて、Ｔ細胞の特定サブセット（１２．１、１２．２）は、他のＴ細胞クラスターなど他の細胞タイプよりも喘息及びアレルギー性鼻炎との関連性が強い。より精細なレベルでは、心臓発作は、肝臓からの内皮細胞（２５．３）に関連するが、他の内皮クラスターからの内皮細胞は関連しない。その一方、痛風は腎臓近位尿細管細胞に関連している。本明細書で実証するフレームワークは、任意のヒト又はマウス組織及び任意の遺伝可能形質から収集された単一細胞クロマチンアクセス可能性データに容易に適用することができる。

新たな設計の１つの結果は、２レベル（「２ｌｖ２」、つまり「２レベルバージョン２プロトコル」）及び３レベル（「３ｌｖ２」）構成の両方との互換性があることであり、試験設計に更なる柔軟性をもたらす（図９）。

最後に、細胞又は核をホルムアルデヒドで固定する様々な条件を試験して、長期の安定保管を可能にした。本発明者らは、固定に使用する緩衝液、並びに固定前又は固定後の核の単離を選択することは、複雑性と特異性との間での選択を提示することを見出した。現在の研究では、本発明者らは、特異性を犠牲にして複雑性／感度を増加させる固定プロトコルを選択するが、これは、プロトコルのエンドユーザが決定できる。

材料及び方法

細胞培養

Ｇｍ１２８７８細胞を培養し、１５％ＦＢＳ（ＴｈｅｒｍｏＦｉｓｈｅｒカタログ番号ＳＨ３００７１．０３）及び１％Ｐｅｎ－ｓｔｒｅｐ（ＴｈｅｒｍｏＦｉｓｈｅｒカタログ番号１５１４０１２２）を含むＲＰＭＩ１６４０培地（ＴｈｅｒｍｏＦｉｓｈｅｒＳｃｉｅｎｔｉｆｉｃカタログ番号１１８７５－０９３）に維持した。これらをカウントし、３００，０００細胞／ｍＬで週に３回分割した。ＣＨ１２－ＬＸマウス細胞株を、ＭｉｃｈａｅｌＳｎｙｄｅｒｌａｂ（Ｓｔａｎｆｏｒｄ）により与えられた。細胞は、１０％ＦＢＳ、１％Ｐｅｎ－ｓｔｒｅｐ（ペニシリン及びストレプトマイシン）及び１×１０＾５ＭＢ－ＭＥを含むＲＰＭＩ１６４０培地で培養した。これらをカウントし、１×１０＾５細胞／ｍＬの密度で維持し、細胞濃度を維持するために週に３回分割した。両方の細胞株を、５％ＣＯ２、３７℃でインキュベートした。

細胞株からの核単離及び固定

懸濁細胞については、～１０～１００百万個の細胞を得て、５００ｘｇ、室温で５分間回転させることにより細胞をペレット化する。上清を吸引し、１ｍＬのＯｍｎｉ－ＡＴＡＣ溶解緩衝液（１０ｍＭＮａＣｌ、３ｍＭＭｇＣｌ２、１０ｍＭＴｒｉｓ－ＨＣｌｐＨ７．４、０．１％ＮＰ４０、０．１％Ｔｗｅｅｎ２０及び０．０１％ジギトニン）にペレットを再懸濁し、氷上で３分間インキュベートする。５ｍＬの１０ｍＭＮａＣｌ、３ｍＭＭｇＣｌ２、１０ｍＭＴｒｉｓ－ＨＣｌｐＨ７．４に０．１％Ｔｗｅｅｎ２０を添加し、５００ｘｇ、４℃で５分間ペレット化する。上清を吸引し、５ｍＬの１ＸＤＰＢＳ（ＴｈｅｒｍｏＦｉｓｈｅｒカタログ番号１４１９０１４４）に核を再懸濁する。核を架橋するために、１４０ｕＬの３７％ホルムアルデヒドをメタノール（ＶＷＲカタログ番号ＭＫ５０１６０２）に１回で添加し、最終濃度は１％であった。固定混合物を室温で１０分間インキュベートし、１～２分ごとに反転させる。架橋反応をクエンチするために、２５０ｕＬの２．５Ｍグリシンを添加し、室温で５分間インキュベートし、次いで氷上で１５分間インキュベートして、架橋を完全に停止させる。２０ｕＬのクエンチした架橋混合物を、カウントするために２０ｕＬのトリパンブルーに入れる。架橋核を５００ｘｇ、４℃で５分間回転させ、上清を吸引する。適量の凍結緩衝液（ｐＨ８．０の５０ｍＭＴｒｉｓ、２５％グリセロール、５ｍＭＭｇ（ＯＡｃ）２、０．１ｍＭＥＤＴＡ、５ｍＭＤＴＴ（Ｓｉｇｍａ－Ａｌｄｒｉｃｈカタログ番号６４６５６３－１０Ｘ０．５ｍＬ）、１×プロテアーゼ阻害剤カクテル（Ｓｉｇｍａ－Ａｌｄｒｉｃｈカタログ番号Ｐ８３４０）に固定核を再懸濁し、１ｍＬのアリコート当たり２百万個の核を得て、液体窒素中で急速凍結し、－８０℃で保管する。

組織の調達及び保管

対象となる組織を単離し、１ＸＨＢＳＳ（Ｃａ．及びＭｇ．を含む）で洗い流し、次いで半分湿ったガーゼ上で吸収乾燥させた。乾燥した組織を頑丈な箔上に、又はクライオチューブ内に配置し、液体窒素を使用して組織を急速凍結する。凍結した組織を－８０℃で保管する。

凍結した胎児組織の核単離及び固定

粉砕日に、ドライアイスと金属との間に布タオルを置いて、予め標識したチューブ及びハンマーをドライアイス上で予め冷却する。１８インチ×１８インチの頑丈な箔を用いて「詰め物」を作製し、半分に２回折って矩形にする。更に２回折って、正方形にする。箔の「詰め物」の内側に凍結した組織を入れ、次いで、予め冷却した４ｍｍプラスチックバッグの内側に、箔の詰め物に入れた組織を配置して、箔が破裂した場合に組織がドライアイス上に落下しないようにする。この組織パケットを、２枚のドライアイスの間で冷却する。予め冷却したハンマーを使用して、パケットの内側の組織を手動で粉砕する。３～５回の衝撃で粉砕動作を回避し、試料が加熱しないように休憩する。組織が均一になるまで必要に応じてハンマーを冷却し、粉砕を繰り返す。粉砕した組織を、予め標識し、予め冷却した１．５ｍＬのＬｏＢｉｎｄ及びヌクレアーゼフリーのスナップキャップ付き１．５ｍＬチューブ（Ｅｐｐｅｎｄｏｒｆカタログ番号０２２４３１０２１）に等分する。粉状組織のアリコートは、更に処理するときまで－８０℃で保管することができる。

核の単離日に、溶解緩衝液をチューブに直接添加する、又は細胞溶解緩衝液の入った６０ｍｍの皿に凍結したアリコートを入れ、刃を用いて更に細分化する。保管中にある時点でアリコートが解凍しない限り、粉状組織のアリコートは、試料損失なしで保管チューブから容易に引き出されるべきである。本発明者らは、当初の組織重量１ｍｇ当たり～２０，０００個の細胞を推定し、性能は組織ごとに異なり得る。粉砕した組織を１ｍＬのＯｍｎｉ溶解（ＲＳＢ＋０．１％Ｔｗｅｅｎ＋０．１％ＮＰ－４０及び０．０１％ジギトニン）に再懸濁し、次いで１５ｍＬのファルコンチューブに移す。氷上で核を３分間インキュベートし、次いで、５ｍＬのＲＳＢ＋０．１％Ｔｗｅｅｎ２０を添加する。核を５００×ｇ、４℃で５分間遠心分離する。上清を吸引し、５ｍＬの１ＸＤＰＢＳに再懸濁する。１ＸＤＰＢＳ中の核を１００ミクロンの細胞ストレーナー（ＶＷＲカタログ番号１０１９９－６５８）に通して、組織塊を除去する。ドラフト内で、１４０ｕＬの３７％ホルムアルデヒドをメタノールに１回で添加して１％の最終濃度にし、チューブを数回反転させて素早く混合することによって核を架橋する。１～２分ごとにチューブを静かに反転させながら、室温で正確に１０分間インキュベートする。２５０ｕＬの２．５Ｍグリシン（新たに作製し、濾過滅菌済み）を添加して、架橋反応をクエンチし、チューブを数回反転させてよく混合する。室温で５分間インキュベートし、次いで氷上で１５分間インキュベートして、架橋を完全に停止させる。血球計を使用して核をカウントして添加する凍結緩衝液の最終量を確認する。目的は、～１００～２００万個の核／チューブを凍結することである。架橋核を５００ｘｇ、４℃で５分間遠心分離し、上清を吸引し、１ｘプロテアーゼ阻害剤及び５ｍＭＤＴＴを補充した凍結緩衝液１～１０ｍＬにペレットを再懸濁する。液体窒素中で核を急速凍結し、－８０℃で核を保管する。

ｓｃｉＡＴＡＣ－ｓｅｑ３試料の処理（ライブラリー構築及びｑｃ）

凍結した固定核を－８０℃から取り出し、ドライアイスの床に置く。解凍するまで３７℃の水浴中で核を解凍し（～３０秒～１分）、核を１５ｍＬのファルコンチューブに移す。核を５００ｘｇ、４℃で５分間ペレット化する。ペレットを乱すことなく上清を吸引し、２００ｕＬのＯｍｎｉ溶解緩衝液にペレットを再懸濁し、次いで氷上で３分間インキュベートする。０．１％Ｔｗｅｅｎ２０を含む１ｍＬのＡＴＡＣ－ＲＳＢで溶解緩衝液を洗い流し、チューブを３回静かに反転させて混合する。２０ｕＬの核及び２０ｕＬのトリパンブルーを取って、核をカウントする。カウントしつつ、今後は可能な限り、核を氷上に維持する。３８４＾３ｄでの３レベルインデクシング実験では、核入力数は、組織ごとのウェル当たり４８０万個＠５０，０００の核、又は９６回の反応にわたって拡散した試料である。核をペレット化し、予め作製したタグ付け反応マスターミックス（ＮｅｘｔｅｒａＴＤ緩衝液、１ＸＤＰＢＳ、０．１％ジギトニン、０．１％Ｔｗｅｅｎ２０、及び水）に再懸濁する。ＬｏＢｉｎｄ９６ウェルプレート（Ｅｐｐｅｎｄｏｒｆカタログ番号３０１２９５１２）全体で広口チップ（ＲａｉｎｉｎＩｎｓｔｒｕｍｅｎｔＣｏカタログ番号３０３８９２４９）を使用して、タグ付けミックス中の４７．５ｕＬの核を等分する。ウェル当たり２．５ｕＬのＮｅｘｔｅｒａｖ２酵素（ＩｌｌｕｍｉｎａＩｎｃカタログ番号ＦＣ－１２１－１０３１）を添加し、接着テープでプレートを封止し、５００ｘｇで３０秒間回転させる。プレートを５５℃で３０分間インキュベートしてＤＮＡのタグ付けを行う。５０ｕＬの停止反応混合物（１ｍＭスペルミジンを含む４０ｍＭＥＤＴＡ）を添加してタグ付け反応を停止させ、次いで３７℃で１５分間インキュベートした。広口チップを使用して、タグ付き核をプールし、５００ｘｇ、４℃で５分間ペレット化し、次いで、０．１％Ｔｗｅｅｎ２０を含むＡＴＡＣ－ＲＳＢで洗浄した。核を５００ｘｇ、４℃で５分間ペレット化し、上清を吸引し、０．１％Ｔｗｅｅｎ２０を含む３８４ｕＬのＡＴＡＣ－ＲＳＢに再懸濁する。ＰＮＫ反応マスターミックス（１ＸＰＮＫ緩衝液（ＮＥＢカタログ番号Ｍ０２０１Ｌ）、１ｍＭｒＡＴＰ（ＮＥＢカタログ番号Ｐ０７５６Ｓ）、水、及びＴ４ポリヌクレオチドキナーゼ（ＮＥＢカタログ番号Ｍ０２０１Ｌ）を調製し、核に添加する。５ｕＬのＰＮＫ反応ミックスを４枚のＬｏＢｉｎｄ９６ウェルプレートに等分し、接着テープで封止し、５００ｘｇ、４℃で５分間回転させる。ＰＮＫ反応を３７℃で３０分間インキュベートした。１３．８ｕＬのライゲーションマスターミックス（１ＸＴ７リガーゼ緩衝液（ＮＥＢ、カタログ番号Ｍ０３１８Ｌ）、９ｕＭＮ５＿スプリント（ＩＤＴ）、水、及び２．５ｕＬのＴ７ＤＮＡリガーゼ酵素（ＮＥＢカタログ番号Ｍ０３１８Ｌ）をＰＮＫ反応に直接添加する。マルチチャネル、つまり９６ヘッドディスペンサー（Ｌｉｑｕｉｄａｔｏｒ、カタログ番号１７０１０３３５）を使用し、４枚の９６ウェルプレートにわたって各ウェルに１．２ｕＬの５０ｕＭＮ５＿オリゴ（ＩＤＴ）を添加する。接着テープを用いて封止し、５００ｘｇで３０秒間回転させ、次いで２５℃で１時間インキュベートする。初回のライゲーション後、１ｍＭスペルミジンを含む２０ｕＬの４０ｍＭＥＤＴＡを添加してライゲーション反応を停止させ、３７℃で１５分間インキュベートする。広口チップを使用して、各ウェルをトラフにプールし、５０ｍＬのファルコンチューブに移す。核を５００ｘｇ、４℃で５分間ペレット化し、上清を吸引し、０．１％Ｔｗｅｅｎ２０を含む１ｍＬのＡＴＡＣ－ＲＳＢに核を再懸濁して、残留ライゲーション反応ミックスを全て洗浄する。核を５００ｘｇ、４℃で５分間ペレット化し、ペレットを乱すことなく上清を吸引する。Ｎ７ライゲーションマスターミックス（１ＸＴ７リガーゼ緩衝液、９ｕＭＮ７＿スプリント（ＩＤＴ）、水、及びＴ７ＤＮＡリガーゼ）を調製し、ライゲーションマスターミックスで核を再懸濁する。マスターミックスに懸濁した核をトラフに移し、広口チップを使用して、１８．８ｕＬのライゲーションマスターミックスを４枚の９６ウェルＬｏＢｉｎｄプレートに等分し、次いで、１．２ｕＬの５０ｕＭＮ７＿オリゴ（ＩＤＴ）を、４枚の９６ウェルプレートにわたって各ウェルに添加する。接着テープでプレートを封止し、５００ｘｇで３０秒間回転させ、次いで２５℃で１時間インキュベートし、次いで２０ｕＬの４０ｍＭＥＤＴＡ及びＩｍＭスペルミジンを添加してライゲーションを停止させ、３７℃で１５分間インキュベートする。広口チップを使用してトラフにウェルをプールし、次いで５０ｍＬのファルコンチューブに移す。核を５００ｘｇ、４℃で５分間ペレット化し、上清を吸引し、２ｍＬのＱｉａｇｅｎＥＢ緩衝液（Ｑｉａｇｅｎカタログ番号１９０８６）に核を再懸濁する。２０ｕＬの再懸濁した核及び２０ｕＬのトリパンブルーを得て、核をカウントする。１００～３００個の核／ｕＬに核を希釈し、１０ｕＬ／ウェルを４枚の９６ウェルＬｏＢｉｎｄプレートに等分する。核を逆架橋するために、ＥＢ緩衝液、プロテイナーゼｋ（Ｑｉａｇｅｎ、カタログ番号１９１３３）及び１％ＳＤＳ、それぞれ１ｕＬ／０．５ｕＬ／０．５ｕＬ／ウェル）の逆架橋マスターミックスを作製し、２ｕＬを各ウェルの核に添加する。接着テープで封止し、５００ｘｇで３０秒間回転させ、６５℃で１６時間インキュベートする。試験ＰＣＲ増幅を実行し、プレートのいくつかのウェルでＳＹＢＲグリーンとの反応をモニタリングして、最適なサイクル数を決定した。試験ＰＣＲ結果に基づいて、ウェル当たり７．５ｕＬのＮＰＭ、０．５ｕＬのＢＳＡ（ＮＥＢ、カタログ番号Ｂ９０００Ｓ）、１．２５ｕＬのインデックス付きＰ５＿１０ｕＭ（ＩＤＴ）、１．２５のインデックス付きＰ７＿１０ｕＭ（ＩＤＴ）、及び水で、逆架橋プレートの残りを増幅した。２回のライゲーション後の組織及び核回収に応じて、本発明者らには１１～１３サイクルが典型的である。サイクル条件は、７２℃で３分間、９８℃で３０秒間、「９８℃で１０秒間、６３℃で３０秒間、７２℃で１分間」を１１～１３サイクル、及び１０℃で保持であった。９６ウェルプレートからの増幅産物をトラフにプールし、製造元の仕様書に従ってＺｙｍｏＣｌｅａｎ＆Ｃｏｎｃｅｎｔｒａｔｅ－５（ＺｙｍｏＲｅｓｅａｒｃｈカタログ番号Ｄ４０１４）を使用して精製し、４カラムに分割した。各カラムを２５ｕＬのＥＢ緩衝液に溶出させ、次いで、１つのチューブに合わせる。１００ｕＬのＡＭＰｕｒｅビーズ（Ａｇｅｎｃｏｕｒｔ、カタログ番号Ａ６３８８２）を精製したＰＣＲ産物に添加して、全ての残留プライマー二量体を更に除去し、製造業者の精製プロセスに従う。２５ｕＬのＱｉａｇｅｎＥＢ緩衝液中のビーズから最終ライブラリーを溶出する。Ｄ５０００ＳｃｒｅｅｎＴａｐｅ（Ａｇｉｌｅｎｔカタログ番号５０６７－５５８８ＳｃｒｅｅｎＴａｐｅ、５０６７－５５８９試薬）、及び２００～１０００の塩基対ウィンドウを確立して、シークエンシング中にウェルをクラスタリングする断片のｎＭ濃度を測定するＡｇｉｌｅｎｔ４２００ＴａｐｅｓｔａｔｉｏｎＳｙｓｔｅｍを用いて、最終ライブラリーを定量化する。等モルプーリングから２ｎＭプールを作製し、カスタムレシピ及びプライマーのＮｅｘｔＳｅｑ高出力１５０サイクルキット（Ｉｌｌｕｍｉｎａカタログ番号２００２４９０４）を用いて１．８ｐＭのローディング濃度でシークエンシングした。

方法開発のためのデータ処理

ｓｃｉ－ＡＴＡＣ－ｓｅｑ３を開発するために実施した鶏実験のデータ処理は、前述のように行った。簡潔に述べると、ｂｃｌ２ｆａｓｔｑｖ２．１６（Ｉｌｌｕｍｉｎａ）を用いて、ＢＣＬファイルをｆａｓｔｑファイルに変換した。各リードは、４つの構成要素からなる細胞バーコードに関連付けられており、分子のＰ５末端には、タグ付け用及びＰＣＲ用に付加された行アドレスがあり、分子のＰ７末端には、タグ付け用及びＰＣＲ用に付加された列アドレスが存在した。これらのバーコードのエラーを修正するために、本発明者らは、これらの４つの構成部分に分割し、修正が所要の編集距離において一義的である限り、編集距離２以内で最も近いバーコードに修正した。４つのバーコードのうちのいずれも既知のバーコードに修正できなかった場合、対応するリード対をドロップした。次いで、オプション「ＩＬＬＵＭＩＮＡＣＬＩＰ：｛ａｄａｐｔｅｒｓ＿ｐａｔｈ｝：２：３０：１０：１：ｔｒｕｅＴＲＡＩＬＩＮＧ：３ＳＬＩＤＩＮＧＷＩＮＤＯＷ：４：１０ＭＩＮＬＥＮ：２０」を使用して、Ｔｒｉｍｍｏｍａｔｉｃでリードを調節した。次いで、調節したリードを、オプション「－Ｘ２０００－３１」でｂｏｗｔｉｅ２を使用して、ハイブリッドヒト／マウス（ｈｇ１９／ｍｍ９）遺伝子にマッピングした。続いて、少なくとも１０の精度を有するゲノムに適切な対でマッピングされなかったリードを、オプション「－ｆ３－Ｆ１２－ｑ１０」を使用してｓａｍｔｏｏｌｓでフィルタリングして除去し、常染色体又は性染色体にマッピングしたリードのみを、下流解析のために保持した。カスタムスクリプトを使用して、細胞バーコードごとにリードの重複排除を行った。組織のパイプライン（以下で論じる）とは異なり、リード対は重複して維持されないことに留意されたい。

組織試料のためのデータ処理

組織試料からのシークエンシングデータを処理するための方法は、忠実に使用される方法に忠実に従い、より大規模のデータセットに拡大するために多くの最適化を有するが、便宜上、本明細書では説明を含む。ｂｃｌ２ｆａｓｔｑｖ２．２０（Ｉｌｌｕｍｉｎａ）を用いて、ＢＣＬファイルをｆａｓｔｑファイルに変換した。リード名に含まれた修正バーコードを有するリードを、本発明者らのデータセット内の試料ごとに、別個のＲ１／Ｒ２ファイルに書き込んだ。既知のバーコードセットへの全てのミスマッチのマッピングを予め計算し（バーコードの長さが短く、比較的少数であるために実行可能）、ｐｙｐｙ（この特定タスクついて極めて高速であるｃｐｙｔｈｏｎインタープリターの代替）を使用して修正スクリプトを実行し、この計算をシークエンシングランの異なるレーンにわたって並列化した。これにより、以前の方法を著しく上回るランタイムへと総合的に改善した。

次に、オプション「ＩＬＬＵＭＩＮＡＣＬＩＰ：｛ａｄａｐｔｅｒｓ＿ｐａｔｈ｝ＴＲＡＩＬＩＮＧ：３ＳＬＩＤＩＮＧＷＩＮＤＯＷ：４：１０ＭＩＮＬＥＮ：２０」を使用してＴｒｉｍｍｏｍａｔｉｃで、３’末端からの低精度の塩基／アダプター配列を調節し、次いで、オプション「－Ｘ２０００３１」でｂｏｗｔｉｅ２を使用して、調節したリードをｈｇ１９参照ゲノムにマッピングし、次いで、少なくとも１０のマッピング精度を有する常染色体又は性染色体に一意にマッピングしなかったリード対を、Ｓａｍｔｏｏｌｓ－－ｓａｍｔｏｏｌｓｖｉｅｗ－Ｌ｛ｗｈｉｔｅｌｉｓｔｏｆｃｈｒｏｍｏｓｏｍｅｓ｝－ｆ３－Ｆ１２－ｑ１０－ｂＳを使用してフィルタリングして除去した。得られたＢＡＭファイルをソートし、ｓａｍｂａｂａｍｂａを使用して各試料の整列したリードをマージし、得られたＢＡＭファイルにインデックス付けした。このプロセスは、可能な限り試料／レーンにわたって並列化したが、ｔｒｉｍｍｏｍａｔｉｃ／ｂｏｗｔｉｅ２／ｓａｍｂａｂａｍｂａを提供することにより、プロセスごとにスレッドを増加させてランタイムを改善するであろう。

続いて、各細胞内の断片エンドポイントの固有セットを同定することによって、細胞内でのＰＣＲの重複を同定した。本発明者らの以前の研究では、得られた重複ＢＡＭファイルは、重複ＢＡＭファイルに書き出されたリード対間で正しいリード名を常に維持しているわけではなく（固有断片ごとに、Ｒ１及びＲ２の代表的なリードを独立してランダムに選択する）、ＳｎａｐＡＴＡＣ（ｇｉｔｈｕｂ．ｃｏｍ／ｒ３ｆａｎｇ／ＳｎａｐＡＴＡＣ）など一部のツールとの適合性の問題の原因であった。本発明者らはこの問題を修正し、また、１）細胞ごとの断片エンドポイントのＢＥＤファイル、及び２）ｓｃＡＴＡＣソリューション用に１０ｘＧｅｎｏｍｉｃｓによって提供されるｆｒａｇｍｅｎｔｓ．ｔｓｖ．ｇｚファイルを厳密にミラーリングするファイルの書き込みを行った。

各試料内で、ＭＡＣＳ２－－ｍａｃｓ２ｃａｌｌｐｅａｋ－ｔ｛ｂｅｄ｝－ｆＢＥＤ－ｇｈｓ－－ｎｏｍｏｄｅｌ－－ｓｈｉｆｔ－１００－－ｅｘｔｓｉｚｅ２００－－ｋｅｅｐ－ｄｕｐａｌｌ－－ｃａｌｌ－ｓｕｍｍｉｔｓ－ｎ｛ｓａｍｐｌｅ＿ｎａｍｅ｝－ｏ｛ｏｕｔｐｕｔ＿ｄｉｒ｝による各試料のピークの呼び出しに、細胞ごとの固有断片エンドポイントのＢＥＤファイルを使用した。得られた｛ｏｕｔｄｉｒ｝／｛ｓａｍｐｌｅ＿ｎａｍｅ｝＿ｐｅａｋｓ．ｎａｒｒｏｗＰｅａｋファイルをソートし、ＢＥＤファイルとして出力した。下流解析に含まれる全試料からのピーク呼び出し（付加的に本発明者らの標準を除外）をｂｅｄｔｏｏｌを使用してマージして、ピークのマスターセットを形成した。以前に説明したように、本明細書でのピーク呼び出しにＢＥＤファイルを使用することは意図的であり、ＢＡＭ入力に対するｍａｃｓ２の挙動を考慮しないことに留意した。ＢＡＭファイルを入力とすると、ＭＡＣＳ２は、Ｒ１／Ｒ２を独立して使用するリード対のうちの１つを廃棄する（入力データを事実上ダウンサンプリングする）か、又は、ＢＡＭファイルが末端対であることを明示的に指定した場合には、カバレッジ計算時にインサート全体を使用する（本発明者らは、インサート全体に沿ってではなく、エンドポイントのみカバレッジを計算することを望む）かのいずれかである。ＢＥＤファイルを使用することにより、全データを使用し、分子エンドポイントの周囲のウィンドウのみを使用して、カバレッジを計算することができる。

更に、試料ごとに、１）ピークのマスターセットに入るリード、２）２ｋｂ上流によって伸長された遺伝子体及び５ｋｂのゲノムウィンドウに入るリードをカウントするスパース行列を作製した。また更に、アノテーションされたＴＳＳ（各ＴＳＳの周囲＋／－１ｋｂ）からの各細胞の総リード数、ＥＮＣＯＤＥブラックリスト領域、ＱＣ目的でマージされたピークセットを一覧にした。

また、１０ｘゲノミクスｓｃＡＴＡＣパイプラインで用いられる方法を使用して、モチーフマトリックスによるピークを構築した（ｓｕｐｐｏｒｔ．１０ｘｇｅｎｏｍｉｃｓ．ｃｏｍ／ｓｉｎｇｌｅ－ｃｅｌｌ－ａｔａｃ／ｓｏｆｔｗａｒｅ／ｐｉｐｅｌｉｎｅｓ／ｌａｔｅｓｔ／ａｌｇｏｒｉｔｈｍｓ／ｏｖｅｒｖｉｅｗを参照）。簡潔に述べると、１０ｘからの方法は、ピーク及びビンピークのＧＣ％分布をＧＣ含量の等分位範囲に計算して、モチーフの発生を各ビン内で別個に発見することができる。ＭＯＯＤＳパッケージを使用して、１Ｅ－７のｐ値閾値でのＪＡＳＰＡＲモチーフデータベース内のモチーフについてのモチーフの発生及びＧＣバイアスを緩和するためのそれぞれのＧＣビンにマッチしたバックグラウンドヌクレオチド組成物を同定する。これらのヒットは、下流解析での細胞数によってモチーフのマトリックスを計算するために使用され得るピークマトリックスによってモチーフを構築するために使用する。このマトリックスは、モチーフの１つのインスタンスのみがピークごとにカウントされ得るように、２値化される。

細胞バーコードを、１０ｘゲノミクスｓｃＡＴＡＣパイプライン（上記のリンクを参照）で用いられる方法の修正版を使用して、バックグラウンドバーコードの分布から分離した。簡潔に述べると、２つの負の２項（ノイズ対信号）混合物にフィットさせる。１０ｘによって使用される方法の代わりに、これらの２つの分布間に初期閾値を確立するために、対数スケールされた総断片数分布にｋ平均法を適用し、より低い平均総計数を初期閾値として有するクラスターの最大値を得る。この初期閾値は、最尤推定値を使用して、２つの分布の開始パラメータを決定するために使用し、期待値最大化アプローチによって更に改良する。１０ｘに記載されるように、このフィットは、カウント分布に左シフトを適用することによって改善し得る。１０ｘ法とは異なり、２～１２のいくつかのシフトを試みることによってこのシフトを決定し、最良のフィットを有する混合分配モデルを得た。最後に、１０ｘアプローチとは対照的に、呼び出されたピーク内でのカウントの分布ではなく、総断片数の分布にこの方法を適用する。選択した最終閾値は、どちらも２０以上の（信号の利益になる）オッズ比をもたらす最小数であり、信号分布のＣＤＦから推定されるように信号分布の少なくとも０．５％を除去する（本発明者らは、この第２の基準が、さもなければ過度に曖昧であるように見える閾値とのフィットを妨げることを見出した）。

細胞レベルのＱＣ、次元の低減、及びクラスタリング

上記のように、ピーク及びＥＮＣＯＤＥブラックリスト領域でＴＳＳの周囲（＋／１ｋｂ）に入る固有リードの総数を細胞ごとに表にした。これらの総数を使用して、試料ごとに、これらの分布の目視検査によりピークにおける固有リードの割合及びＴＳＳに入る固有リードの割合の試料特異的カットオフ、並びにＥＮＣＯＤＥブラックリスト領域から得た固有リードの０．５％のグローバルカットオフを選択する。データセット内の他の試料よりも著しく低かった自動閾値を有する少数の試料のために、細胞当たり１０００個の固有リード（又は細胞当たり５００個の固有断片）のグローバル閾値を適用して、対応する試料の自動閾値を上昇させた。以前開発したヌクレオソームバンディングスコアを調べたが、マウスの精巣について以前観察したように、外れ値の明確な分布を観察しなかったため、ＱＣではこれらのスコアを使用しなかった。下流工程の前に、ＥＮＣＯＤＥブラックリスト領域に重複するか、又は性染色体に該当するピークを除去した（後者は、異なる性別の試料間での潜在的なバッチ効果の導入を回避するため）。また、ピーク分布当たりの対数スケールカウントの平均から２標準偏差を超えるピークを除外して、解析対象組織内でのカウントが非常に低いピークを除去した。

全ての下流工程は、所与の組織の全試料から通過する細胞をプールすることによって、一度に１つの組織を実施した。

フィルタリング後、ダブレットである可能性が最も高い細胞を除去する目的で、Ｓｃｒｕｂｌｅｔアルゴリズムの修正版を用いた。簡潔に述べると、細胞マトリックスによるピークを使用して、データセットからランダムに選択した細胞の合計としてダブレットをシミュレートする。次に、元の細胞のマトリックス及びシミュレートしたダブレットを使用して、以下に記載するようにＬＳＩを実行する。この工程では、ＳｃｒｕｂｌｅｔがｓｃＲＮＡ－ｓｅｑデータの元のデータセットからの倍率を適用する方法に類似して、シミュレートしたダブレットを用いずに元のデータセットから得た逆文書頻度（ＩＤＦ）タームを使用することに留意されたい。得られた５０次元空間で各細胞の最近傍を見出し、近傍にある疑似ダブレットの割合をダブレットスコアとして計算する。最高ダブレットスコアを有する、各試料内の細胞の上位１０％を除外する。

次元の低減については、最初に、これまでに記載した潜在意味インデクシング（ＬＳＩ；言い換えると、潜在未解析、つまりＬＳＡ）を実施しても、本研究で収集したデータでは良好に機能しないことを見出した。これは疎性に起因している可能性があると判断し、ＣｉｓＴｏｐｉｃ及びＳｎａｐＡＴＡＣなどいくつかの代替的方法を調べた。これらの方法のそれぞれは、当初は、ＬＳＩよりも良好に機能すると思われた。当初は、これらの方法の根本的な類似性及びデータの性質を考慮しても、このような状態の理由は不明であった。本発明者らは、これまで行われていなかった、ＬＳＩでのターム頻度タームの単純な対数スケーリングが、試験した他のツールと非常に類似した性能をもたらすことを発見した。これは、細胞当たりの総カウントの指数分布及び対数スケーリングを行わない、ＬＳＩのＰＣＡ工程に対する強い外れ値の影響に起因する可能性がある。これについては、ａｎｄｒｅｗｊｏｈｎｈｉｌｌ．ｃｏｍ／ｂｌｏｇ／２０１９／０５／０６／ｄｉｍｅｎｓｉｏｎａｌｉｔｙ－ｒｅｄｕｃｔｉｏｎ－ｆｏｒ－ｓｃａｔａｃ－ｄａｔａ／に詳述されている。対数スケーリングの使用の有無に観察した差は、特に、細胞当たりの総カウントの範囲が大きい疎性データセットで特に大きいことに留意されたい。また、本発明者らの独立した発見を確認したため、他のグループが、ＬＳＩをｓｃＡＴＡＣの次元を低減するための全ての他の既存の方法と好意的に比較していることに留意されたい。また、ゲノムのピーク又は５ｋｂウィンドウを使用したときに非常に類似した性能を観察したため、以前の研究で主に行っていたようにピークを使用すること選択した。

要約すると、ある時点で、各組織の全ての通過細胞からの細胞マトリックスによって、一度に１つの組織について２値化ウィンドウでＬＳＩを実行した。最初に、個々の細胞の全部位を対数（細胞内のアクセス可能ピークの総数）（対数スケールされた「ターム頻度」）で加重した。次いで、これらの荷重値に対数（１＋全細胞の各部位の逆頻度）、つまり「逆文書頻度」を乗じた。次いで、ＴＦ－ＩＤＦマトリックスで特異値分解を使用して、第２～５０の次元を保持するだけで（第１の次元がリード深さと高度に相関する傾向があるため）データのより低い次元表現（ＰＣＡ）を生成した。次いで、細胞当たりの固有断片の数の差を更に考慮するために、ＰＣＡマトリックスでＬ２正規化を実施した。このＬ２正規化したＰＣＡマトリックスを全ての下流工程に使用した。

試料間の著しいバッチ効果の証拠を観察しなかったが、異なる試料間のバッチ効果を補正するためにＰＣＡ空間にＨａｒｍｏｎａｒｙバッチ補正アルゴリズムを適用した。Ｈａｒｍｏｎｙを選択するのは、主として、大規模データセットに容易に拡張でき、既存のＰＣＡ座標を使用可能であるという事実のためである。

この補正されたＬ２正規化ＰＣＡ空間は、ＳｅｕｒａｔＶ３で実施されるように、Ｌｏｕｖａｉｎクラスタリング及びＵＭＡＰへの入力として使用した。

特異性スコア

特異性スコアを計算する前に、ＥＮＣＯＤＥブラックリスト領域と重複する全てのピークを、フィルタリングして除去した。前述のように部位／細胞タイプ対ごとに特異性スコアを計算した。

モチーフの濃縮

モチーフの濃縮を計算する前に、ＥＮＣＯＤＥブラックリスト領域と重複する全てのピークを、フィルタリングして除去した。最初に、対応するピーク×細胞マトリックス（上述したように、対象データのサブセット内の全細胞にわたって合計）にピーク×モチーフマトリックスを乗じることによって、モチーフ×細胞のマトリックスを得る。アノテーション（例えば、細胞タイプ）当たり最大８００個の細胞が含まれるようにデータセットをダウンサンプリングして計算コストを低減し、下流工程での濃縮の計算時に非常に多数の細胞タイプの過剰出現を低減することに留意されたい。次いで、アノテーションごとに、ｓｐｅｅｄｇｌｍパッケージを使用して負の２項回帰を実施し、２つの入力変数、つまりアノテーションのインジケータ列を対象となる主変数として、また細胞ごとの対数（入力ピークマトリックス内の非ゼロエントリの総数）を共変数として使用して、総モチーフカウントを予測する。アノテーションインジケータ列の係数及び切片を使用して、他の全てのアノテーションからの細胞に対する、対象となるアノテーションのモチーフカウントの倍率変化、すなわちｅｘｐ（ｉｎｔｅｒｃｅｐｔ＋ａｎｎｏｔａｔｉｏｎ＿ｅｆｆｉｃｉｅｎｔ）／ｅｘｐ（ｉｎｔｅｒｃｅｐｔ）を推定する。全群で全モチーフについてこの試験を行い、次いで、ＢｅｎｊａｍｉｎｉＨｏｃｈｂｅｒｇ手順を用いてｐ値を補正する。

実施例２

発生の遺伝子発現のヒト細胞アトラス

要約

ヒト発生中の細胞タイプの出現及び分化は、根本的に興味深い。３レベルのコンビナトリアルインデクシング（ｓｃｉ－ＲＮＡ－ｓｅｑ３）に基づいた遺伝子発現の単一細胞プロファイリング用アッセイを、１５の器官を表す１２１の胎児組織に適用し、全体で４～５百万個の単一細胞で転写をプロファイリングした。これらのデータから、マーカー遺伝子、発現、及び調節モジュールに関して、細胞タイプを特定し、アノテーションする。これらのデータの当初の解析では、複数の器官系、例えば、上皮細胞、内皮細胞、及び血液細胞に及ぶ細胞タイプに着目する。興味深い観察としては、器官特異的内皮の特殊化、胎児赤血球の潜在的な新規部位、及び潜在的な新規細胞タイプが挙げられる。発生中のクロマチンアクセス可能性の付随するヒト細胞アトラスと合わせて、これらのデータは、ヒト生物学を探査するための豊富なリソースである。

本文

いくつかの理由から、発生中に得た組織を使用して遺伝子発現及びクロマチンアクセス可能性の両方のヒト細胞アトラスを生成することに着手した。まず、大部分が発生構成要素を含む、遺伝性疾患は、小児罹患率及び死亡率の極めて不均衡な割合を占める。これらとしては、遺伝因子及び非遺伝因子の両方が相当に寄与する、数千のメンデル障害、並びにより一般的な疾患（例えば、先天性心不全、他の出生異常、神経発生障害など）が挙げられる。組織の発生から生成された参照細胞アトラスは、これらの小児疾患のそれぞれを増加させる特定の分子及び細胞イベントを理解しようとする組織的な取り組みの基盤としての役割を果たすことができる。

第２に、発生中の組織は、成人組織よりもヒト細胞タイプのインビボ出現及び分化を研究するために、極めてより良好な機会をもたらす。胚性組織及び胎児組織と比較して、成人組織は分化した細胞に占められ、また、多くの細胞状態を単純に表さない。インビボ発生軌道のより良好な分解能により、発生組織から生成された単一細胞アトラスは、インビボヒト生物学の基本的な理解、並びに細胞再プログラミング及び細胞療法に対する本発明者らの基本的な理解を広く知らせることができる。

第３に、多くの成人ヒト器官については、先駆的な細胞アトラスが既に報告されてきたが、これらの研究の独立した性質は、異なる組織に出現する細胞タイプ、例えば、上皮細胞、内皮細胞、及び血液細胞間の差異の調査を困難にする。具体的には、既存のデータに基づいた比較は、器官特異的細胞アトラスを生成する群間での試料処理及び技術プラットフォームの差異により困難である。

遺伝子発現のヒト細胞アトラスに向けて、３レベルのコンビナトリアルインデクシング（ｓｃｉＲＮＡ－ｓｅｑ３）に基づいて、単一細胞ＲＮＡ－ｓｅｑ用に最近開発したアッセイを１５の器官を表す１２１の胎児組織に適用し、全体で５百万個の細胞における遺伝子発現をプロファイリングした（図１１）。実施例１では、同一器官からの１６０万個の細胞におけるクロマチンアクセス可能性のプロファイリングを、重複する試料セットに基づいて説明する。プロファイリングした器官は、多様な系に及び、最も不在が目立つのは、骨髄、骨、性腺、及び皮膚である。

７２～１２９日の推定妊娠年齢の範囲の２８の胎児から試料を得た。簡潔に言えば、これらを急速凍結し、粉砕し、得られた粉末を異なるアッセイ用に分割した。ｓｃｉＲＮＡ－ｓｅｑ３では、核を低温の、溶解した粉末から直接抽出し、次いでパラホルムアルデヒドで固定した。ＲＮａｓｅｓ及びプロテアーゼが豊富である腎及び消化器官では、核ではなくパラホルムアルデヒドで固定した細胞を使用し、細胞及びｍＲＮＡの回収を増加させた。実験ごとに、所与の組織からの核又は細胞を異なるウェルに堆積させ、それにより、ｓｃｉ－ＲＮＡ－ｓｅｑ３プロトコルの第１のインデックスは、供給源も同定した。核での実験のバッチ制御として、ヒトＨＥＫ２９３ＴとマウスＮＩＨ／３Ｔ３核との混合物、又は一般的な「センチネル」組織からの核（ｓｃｉ－ＡＴＡＣ－ｓｅｑ３実験にも使用される）を１つ又は複数のウェルに入れた。細胞での実験のバッチ対照として、一般的な膵臓組織（核もまたプロファイリングされた）に由来する細胞を１つ又は複数のウェルに入れた。

７回のＩｌｌｕｍｉｎａＮｏｖａＳｅｑの実行にわたる７回の実験からのｓｃｉ－ＲＮＡ－ｓｅｑ３ライブラリーをシークエンシングし、全部で６８６億のリードを生成した。前述のようにデータを処理し、４，９７９，５９３個の単一細胞遺伝子発現プロファイル（ＵＭＩ＞２５０）を回収した。ヒト－マウス対照ウェルからの単一細胞トランスクリプトームは、圧倒的に種コヒーレント（～５％の衝突）であった。センチネル組織からの核又は細胞のＵｎｉｆｏｒｍＭａｎｉｆｏｌｄＡｐｐｒｏｘｉｍａｔｉｏｎａｎｄＰｒｏｊｅｃｔｉｏｎ（ＵＭＡＰ）は、細胞タイプの差が任意の実験間のバッチ効果を圧倒することを示した。Ｓｅｕｒａｔを使用した、一般的な膵臓組織に対応する核及び細胞の統合分析はまた、高度に重複する分配をもたらした。

本発明者らは、器官当たり７２，２４１個の細胞又は核の中央値（最大２，００５，５１２（大脳）、最小１２，６１１分（胸腺））をプロファイリングした。他の大規模な単一細胞ＲＮＡ－ｓｅｑアトラスと比較して、比較的浅いシークエンシング（細胞当たり～１４，０００の生リード）にもかかわらず、細胞又は核当たり同等数のＵＭＩ（中央値８６３ＵＭＩ及び５２５の遺伝子）を回収した。予想どおり、核は、細胞よりもイントロンへのＵＭＩＳマッピングの割合が高いことを示した（核の場合は５６％、細胞の場合は４５％、ｐ＜２．２ｅ－１６、両面ウィルコクソンの順位和検定）。特に明記しない限り、細胞及び核の両方を指すために「細胞」を使用する。

組織は、性別特異的遺伝子の発現によって、雄（ｎ＝１４）又は雌（ｎ＝１４）に由来するものとして容易に同定された。１５器官のそれぞれは、それぞれの性別のうちの少なくとも２つ、及び妊娠期間の範囲など複数の試料（中央値８）によって表された。個々又は実験ではなく器官によってクラスタリングされた各組織の「疑似バルク」トランスクリプトームのＵＭＡＰ可視化。発現したタンパク質コード転写産物の約半分が、このセットの擬似バルクトランスクリプトームにわたって差次的に発現した（２０，０３３のうちの１１，７６６、ＦＤＲ５％）。

Ｓｃｒｕｂｌｅｔを適用して、クラスター内及びクラスター間ダブレットの両方を含む１２．６％のダブレット推定値に対応する、６．４％の推定ダブレット細胞を検出した。次いで、２百万のマウス器官形成細胞アトラス（ＭＯＣＡ）のために以前に開発した戦略を適用して、低精度細胞、タブレット濃縮クラスター、並びにスパイクインＨＥＫ２９３Ｔ細胞及びＮＩＨ／３Ｔ３細胞を除去した。以下に記載の全ての解析は、このフィルタリング工程後に残った１１２の胎児組織に由来する４，０６２，９８０のヒト単一細胞遺伝子発現プロファイルに基づいている。

７７の主要細胞タイプの同定

低精度細胞及びダブレット濃縮クラスターに対するフィルタリング後、４００万の単一細胞遺伝子発現プロファイルを、ＵＭＡＰ可視化及び器官ベースでのＭｏｎｏｃｌｅ３によるＬｏｕｖａｉｎクラスタリングに供した。全体では、文献からの細胞タイプ特異的マーカーに基づいて、１７２の細胞タイプを最初に同定し、アノテーションした。組織に共通するアノテーションを却下すると、７７の主要細胞タイプに減少し、そのうち５４は、単一器官（例えば、小脳のプルキンエニューロン）のみで観察され、２３は、複数の器官（例えば、各器官の血管内皮細胞）で観察された。これらの７７の主要細胞タイプは、４，８２９という細胞の中央値を含み、１，２５８，８１８個の細胞（大脳の内興奮ニューロン）からわずか６８個の細胞（副腎のＳＬＣ２６Ａ４＿ＰＡＥＰ陽性細胞）の範囲であった。各主細胞タイプは、複数の個体（中央値９）に寄与した。本発明者らは、種、発生段階、及び技術に関する違いにもかかわらず、同一器官を対象とするこれまでのアトラス作製の取り組みによって特定されたほぼ全ての主要細胞タイプを回収した。器官ごとに１２の主要細胞タイプの中央値を特定し、これは５（胸腺）～１６（眼、心臓及び胃）の範囲であった。プロファイリングした細胞の数と同定した細胞タイプの数との相関は観察しなかった（ρ＝－０．１０、ｐ＝０．７４）。

平均して、主要細胞タイプ当たり１１個のマーカー遺伝子を同定した（最小０、最大２９４；発現に関して第１位の細胞タイプと第２位の細胞タイプとの間に少なくとも５倍の差異がある場合、差次的発現遺伝子と定義する；ＦＤＲ５％）。他の器官（例えば、ＥＮＳグリア及びシュワン細胞）の類似の細胞タイプに起因して、この閾値のマーカー遺伝子のない細胞タイプがいくつか存在した。そのため、同じ手順であるが、器官ごとに決定した「組織内マーカー遺伝子」のセットも報告した（細胞タイプ当たり平均１４７のマーカー；最小１２、最大７７８。

カノニカルマーカーは一般的に観察され、このアノテーションプロセスで実際に重要であったが、知る限りでは、観察したマーカーの大部分は新規である。例えば、ＯＬＲ１、ＳＩＧＬＥＣ１０、及び非コードＲＮＡＲＰ１１－４８０Ｃ２２．１は、ＣＬＥＣ７Ａ、ＴＬＲ７、及びＣＣＬ３などより確立された小膠細胞マーカーと共に、小膠細胞の最も強いマーカーのうちの１つである。これらの組織が積極的に成長していることを前提とする予測として、７７の主要細胞タイプの多くは、前駆体から１つ又は複数の末端分化細胞タイプに進行する状態を含む。例えば、脳興奮ニューロンは、ＰＡＸ６＋神経前駆体からＮＥＵＲＯＤ６＋分化ニューロン、更にＳＬＣ１７Ａ７＋成熟ニューロンへの連続軌跡を示す。肝臓では、肝前駆体（ＤＬＫ１＋、ＫＲＴ８＋、ＫＲＴ１８＋）は、機能肝芽細胞（ＳＬＣ２２Ａ２５＋、ＡＣＳＳ２＋、ＡＳＳ１＋）への連続軌跡を示す。転写プログラムの成熟が発生時間に緊密に連結しているマウスの器官形成とは対照的に、細胞状態軌道は、これらのヒトデータでの推定妊娠期間と一貫して相関した。最も単純な説明は、遺伝子発現が、発生の初期段階中に著しくより動的である（すなわち、器官形成ｖｓ．胎児発生）ことである。しかしながら、推定妊娠期間における不均一な表現及び不正確さが、本発明者らの解明を混乱させることもあり得る。

これらの細胞タイプの手作業でのアノテーションに加えて、Ｇａｒｎｅｔｔを使用して、各器官の半自動分類子、並びにグローバル分類子を作製した。Ｇａｒｎｅｔｔ分類子は、文献から個別にコンパイルされたマーカー遺伝子を使用して、クラスタリングに依存せずに生成した。Ｇａｒｎｅｔｔによる分類は、手動分類と極めて一致しており、例えば、細胞の８８％は膵臓において一致していた（クラスター拡張；非一致５％；未分類７％）。このヒト細胞アトラスで訓練されたＧａｒｎｅｔｔモデルを使用して、異なる方法からのデータ及び成人器官からのデータなど、他の単一細胞データセットから細胞タイプを正確に分類することも可能であった。例えば、本発明者らは、膵臓のＧａｒｎｅｔｔ分類子をｉｎＤｒｏｐ単一細胞ＲＮＡ－ｓｅｑデータに適用し、このモデルが細胞の８２％を正確にアノテーションしたことを見出した（クラスター拡張；不正確１１％、未分類８％）。これらのＧａｒｎｅｔｔモデルは本発明者らのウェブサイトに投稿されており、多様な器官からの単一細胞データの自動分類に広く使用することができる。

組織にわたっての統合及び予想外の細胞タイプの調査

次に、全１５器官にわたってデータを統合し、細胞タイプを比較しようとした。器官及び／又は細胞タイプ当たりのサンプリングされた細胞数の正味差異の影響を軽減するために、器官ごとに細胞タイプ当たり５，０００個の細胞をランダムにサンプリングし（又は、所与の器官で所与の細胞タイプの５，０００個未満の細胞が示された場合、全ての細胞を取得し）、各器官内で細胞タイプにわたって最も差次的に発言した遺伝子に基づいてＵＭＡＰ可視化を実施した。予想どおりに、例えば、間質細胞、リンパ内皮細胞、及び中胚葉細胞など複数の器官で示される細胞タイプは、一般に合わせてクラスタリングされた。例えば、多様な血液細胞、ＰＮＳニューロン、間葉など発生に関係する細胞タイプも、一般に共局在化された。

このグローバルＵＭＡＰを活用して、当初観察しなかった器官で明確なアノテーションが不能であった、又は予想しなかった細胞タイプを明らかにした。多くの場合、グローバルＵＭＡＰでアノテーションした細胞タイプとの共局在化は、その同一性を明らかにした。例えば、胎盤からの栄養芽層巨大細胞と高度に相関する（例えば、高レベルの胎盤性ラクトゲン、絨毛性ゴナドトロピン、及びアロマターゼを発現する）肺及び副腎内の細胞を観測すると、これらは、胎児循環に入った栄養芽細胞（ＣＳＨ１＿ＣＳＨ２陽性細胞）であることを示唆している。より驚くべきことに、肝芽細胞と高度に相関する（例えば、高レベルの血清アルブミン、αフェトタンパク質、及びアポリポタンパク質を発現する）胎盤及び脾臓の細胞（ＡＦＰ＿ＡＬＢ＿陽性細胞）を観察する。

心臓では、以前のアトラス作製の取り組みに基づいて予想されなかった３つの細胞タイプを観察した。これらのうちの第１（ＳＡＴＢ２＿ＬＲＲＣ７陽性ニューロン）はＣＮＳ興奮ニューロンと強く相関し、ＳＡＴＢ２、ＰＴＰＲＤ、及びＤＡＢ１を含むマーカーを発現する。知る限りでは、これは予想外の観察である。別の組織からの汚染を完全に除外することはできないが、サンプリングした各心臓（ｎ＝９）に一貫した割合（範囲）でこれらの細胞を観察し、更に、心臓内で他のＣＮＳ様細胞タイプは観察しない。他の２つは心筋細胞と高度に相関しているが、特殊な役割を反映し得る別個のプログラムを発現する。具体的には、ＥＬＦ３＿ＡＧＢＬ２陽性心筋細胞様細胞は、肺分泌タンパク質１（ＳＣＧＢ３Ａ２）、肺界面活性剤関連タンパク質Ｂ（ＳＦＴＰＢ）、及び肺界面活性剤関連タンパク質Ｃ（ＳＦＴＰＣ）など肺胞界面活性剤分泌細胞に関連する多くの遺伝子を特異的に発現し、ＣＬＣ＿ＩＬ５ＲＡ陽性心筋細胞様細胞は、インターロイキン５受容体サブユニットα（ＩＬ５ＲＡ）及び造血特異的膜貫通タンパク質４（ＭＳ４Ａ３）など免疫細胞関連受容体を特異的に発現する。

細胞タイプ特異的遺伝子調節ネットワーク及び経路の特性評価。

次に、細胞と細胞又は細胞と環境の相互作用を調節するために重要な表面及び分泌タンパク質コード遺伝子の細胞タイプ特異的発現を調べた。大部分の表面タンパク質（５，４８０のうち４，５６５）及び大部分の分泌パク質（２，９３３のうち２，４９１）は、７７の主要細胞タイプにわたって差次的に発現した（ＦＤＲ０．０５）。例えば、小膠細胞は、どちらもアルツハイマー病に関連する、シアル酸結合免疫グロブリン様レクチン８（ＳＩＧＬＥＣ８）及び酸化ＬＤＬエンドサイトーシス受容体（ＯＬＲ１）を特異的に発現し、内皮細胞は、いずれも血管新生及び血管パターニングに関与する、ｒｏｕｎｄａｂｏｕｔ誘導受容体４（ＲＯＢＯ４）及び内皮細胞接着分子（ＥＳＡＭ）を発現する。同様に、異なるニューロンは、別個の細胞表面輸送体によって標識された。例えば、小脳において、抑制介在ニューロンでのグリシン神経伝達物質輸送体ＳＬＣ６Ａ５、プルキンエニューロンでの興奮性アミノ酸輸送体ＳＬＣ１Ａ６、顆粒ニューロンでのカリウムチャネルＫＣＮＫ９、及びＳＬＣ２４Ａ４＿ＰＥＸ５Ｌ陽性抑制介在ニューロンでのナトリウム／カリウム／カルシウム交換体ＳＬＣ２４Ａ４の特異的発現を観察する。分泌タンパク質の細胞タイプ特異的発現には、同様の無数の例が存在する。特に興味深い例は、間葉前駆体又は幹細胞に全て関連する、糖タンパク質ＳＴＣ２、並びにＴＦＴＬＸ１及びＮＫＸ２－３を特異的に発現する、脾臓の予想外の細胞タイプ（ＳＴＣ２＿ＴＬＸ１陽性細胞）である。

非コードＲＮＡは、正常な発生及び疾患において重要な役割を果たすことが実証されている。これらのデータでは、１０，６９５のうち３，１３０の非コードＲＮＡが、７７の主要細胞タイプにわたって差次的に発現した（ＦＤＲ０．０５）。例えば、ｎｃＲＮＡｓは、小膠細胞（ＲＰ１１－４８９Ｏ１８．１、ＲＰ１１－４８０Ｃ２２．１、ＲＰ１１－１０Ｈ３．１）又は内皮細胞（ＡＣ０１１５２６．１、ＲＰ１１－５５４Ｄ１５．１、ＣＴＤ－３１７９Ｐ９．１）に極めて特異的であった。このような細胞タイプ特異的ｎｃＲＮＡｓの生物学的意義は不明であるが、その発現のパターンは、７７の主要細胞タイプを発生的に一貫したグループに分離するのに十分であったことは注目に値する。

転写因子（ＴＦ）の大部分もまた、７７の主要細胞タイプにわたって差次的に発現した（１，９８４のうち１，７１５、ＦＤＲ０．０５）。細胞タイプごとに最も特異的なＴＦの多くは予想どおりであり、例えば、腺房細胞ではＲＢＰＪＬ、乏突起膠細胞ではＯＬＧ１及びＯＬＧ２、及び衛星細胞ではＰＡＸ７であった。他の場合では、細胞タイプ特異的ＴＦは、例えば、膵臓内で観察され、免疫活性化に関連するＴＦを特異的に発現する、リンパ系ケモカイン（ＣＣＬ１９＿ＣＣＬ２１陽性細胞）の発現によって特徴付けられる間質細胞タイプなど予想外の細胞タイプを考慮するように指摘した。

本発明者らは、遺伝子発現データを介してＴＦターゲット遺伝子の相互作用を直接予測しようとした。簡潔に言えば、候補相互作用は、完全データセットにわたるＴＦ発現とターゲット遺伝子発現との間の共分散によって同定された。これらの相互作用を、ＣｈＩＰ－ｓｅｑ結合及びモチーフ濃縮解析（「方法」）によって更にフィルタリングした。７０６のＴＦ及び１２，８６８のターゲット遺伝子を含む、５６，２７２の候補ＴＦターゲット遺伝子リンクが残っていた。これらの７０６のＴＦ結合遺伝子セットのうち２２０は、ＴＦネットワーク（ＴＲＲＵＳＴ）又はＥｎｒｉｃｈｒＴＦ遺伝子ネットワークの手動でクラスタリングされたデータベース内の対応するＴＦ（ＦＤＲ０．０５）の濃縮を示した（例えば、Ｅ２Ｆ１に結合する３３０の遺伝子の最も濃縮したＴＲＲＵＳＴＴＦはＥ２Ｆ１であり、調節ｐ値＝２．２ｅ－１４；ＦＬＩ１に結合する１，２１９の遺伝子の最高ＥｎｒｉｃｈｒＴＦはＦＬＩ１であり、調節ｐ値＝５．６ｅ－１２２）。これらの７０６のＴＦに割り当てられたターゲット遺伝子を並べ替え、解析を繰り返すと、ＴＦ結合遺伝子セットのいずれも、同じ閾値で対応するＴＦに対して有意に濃縮されない。

器官にわたる血液系統の発生の特性評価

このデータセットの性質は、広範に出現する細胞タイプ、例えば、血液細胞、内皮細胞及び上皮細胞内での遺伝子発現の器官特異的差異を調査する機会をもたらす。第１のこのような解析として、本発明者らは、造血細胞タイプに対応する、全器官に由来する１０３，７６６個の細胞を再クラスタリングした。次いで、公開された遺伝子マーカーに基づいて、Ｌｏｕｖａｉｎクラスタリング、更に細粒免疫細胞タイプのアノテーションを行った。場合によっては、非常に稀な細胞タイプを同定した。例えば、骨髄細胞は、小膠細胞、マクロファージ、及び多様な樹状細胞サブタイプ（ＣＤ１Ｃ＋、Ｓ１００Ａ９＋、ＣＬＥＣ９Ａ＋及びｐＤＣ）に分かれる。小膠細胞クラスターは、主に大脳及び小脳に由来し、それらの異なる発生起源に一致するマクロファージから良好に分離される。リンパ系細胞は、Ｂ細胞、ＮＫ細胞、ＩＬＣ３細胞、及びＴ細胞（後者は胸腺産生軌道を含む）を含む、いくつかの群にクラスタリングされた。また、形質細胞（全血液細胞の０．１％又は完全データセットの０．００３％である１３９細胞、大部分は胎盤内）及びＴＲＡＦ１＋ＡＰＣ（全血液細胞の０．２％又は完全データセットの０．００５％である１８９細胞、大部分は、胸腺及び心臓内）など非常に稀な細胞タイプを回収した。

異なる免疫細胞タイプの遺伝子発現マーカーが広範に研究されてきたが、これらは、器官又は細胞タイプの制限されたセットを介した定義によって制限され得る。実際に、本発明者らは、多くの従来の免疫細胞マーカーが複数の細胞タイプで発現することを見出した。例えば、Ｔ細胞の従来のマーカーは、他の研究と一致して、マクロファージ及び樹状細胞（ＣＤ４）又はＮＫ細胞（ＣＤ８Ａ）でも発現した。本発明者らは、１４の血液細胞タイプにわたって、汎器官細胞タイプ特異的マーカーを計算した。例えば、Ｔ細胞は、予想どおりにＣＤ８Ｂ及びＣＤ５を特異的に発現したが、ＴＥＮＭ１も発現した。アノテーションがＲＯＲＣ及びＫＩＴの発現に基づいたＩＬＣ３細胞は、ＳＯＲＣＳ１及びＪＭＹによってより特異的に標識された。これら及び他の汎器官定義マーカーは、将来の研究でヒト胎児血液細胞タイプの標識及び精製に有用であり得る。

予想どおりに、異なる器官は、血液細胞の極めて異なる割合を示した。例えば、肝臓は、胎児赤血球の主要部位としての役割に一致して最も高い割合の赤芽球を含み、Ｔ細胞は脾臓内の胸腺及びＢ細胞で濃縮された。小脳及び大脳から回収した血液細胞は、ほぼ小膠細胞であった。集合的解析はまた、特定器官における希少細胞集団の同定を可能にする。例えば、本発明者らは、肝臓、脾臓、及び胸腺において希少なＨＳＣを同定したが、心臓、肺、副腎、及び腸においても同定した。

赤血球生成に着目すると、ＨＳＣから中間細胞タイプ、赤血球－好塩基球－巨核球バイアス前駆細胞（ＥＢＭＰ）への連続軌道を観察し、次いで、これは、最近のマウス胎児肝臓の研究と一致して、赤血球軌道、好塩基球性軌道、及び巨核球軌道に分割される。これは、種（ヒト対マウス）、技術（ｓｃｉ－ＲＮＡ－ｓｅｑ３対１０ｘ）及び器官（汎器官対胎児器官）の違いにも関わらず一致した。教師なしクラスタリングを行い、その研究から専門用語を採用し、赤血球状態の連続体を３段階、つまり、初期赤血球前駆細胞（ＥＥＰ；ＳＬＣ１６Ａ９及びＦＡＭ１７８Ｂで標識される）、委任赤血球前駆細胞（ＣＥＰ；ＫＩＦ１８Ｂ及びＫＩＦ１５で標識される）、及び赤血球最終分化状態の細胞（ＥＴＤ；ＴＭＣＣ２及びＨＢＢで標識される）に更に分割した。巨核球細胞の初期及び後期段階も容易に同定された。赤血球系統におけるゲノムワイドのクロマチンアクセス可能性の対応する動態は、手引書で更に考慮される。

予想どおりに胎児赤血球で確立された役割を所与とすると、肝臓及び脾臓の免疫細胞の相当な割合が、ＥＥＰ、ＣＰ、及び巨核細胞前駆細胞に相当した。驚くべきことに、研究した核試料において、副腎でＥＥＰ、ＣＥＰ、及び巨核細胞前駆細胞も観察した。肝臓及び脾臓でより一般的である細胞タイプを観察しないため、副腎の回収中の種の汚染（ｔｒｉｖａｌｃｏｎｔａｍｉｎａｔｉｏｎ）は、説明になっているとは言えない。直交法による確認が必要であるが、結果は、胎児赤血球の付加部位としての副腎の可能性を示唆する。

マクロファージは、更により広範に分布している。次に、脳からの小膠細胞と合わせて全てのマクロファージを着色し、独立してＵＭＡＰ可視化及びＬｏｕｖａｉｎクラスタリングに供した。小膠細胞を３つのサブクラスターに分割し、そのうちのＩＬ１Ｂ及びＴＮＦＲＳＦ１０Ｄで標識される１つは、炎症応答に関与する活性小膠細胞を示す可能性が高い。他の小膠細胞クラスターは、ＴＭＥＭ１１９及びＣＸ３ＣＲ１（大脳でより一般的）又はＰＴＰＲＣ及びＣＤＣ１４Ｂ（小脳でより一般的）の発現によって標識された。

脳の外部のマクロファージは、３つの主要な群にクラスタリングされ、この群とは、すなわち、１）抗原提示マクロファージであって、大部分はＧＩ気管器官（腸及び胃）で見出され、抗原提示（ＨＬＡＤＰＢ１、ＨＬＡＤＱＡ１）及び炎症活性化（ＡＨＲ）遺伝子の高度発現によって標識され、２）血管周囲マクロファージであって、大部分の器官で見出され、Ｆ１３Ａ１及びＣＯＬＥＣ１２などマーカーの特異的発現、並びにＲＮＡＳＥ１及びＬＹＶＥ１などの新規マーカーを有し、３）食細胞マクロファージであって、肝臓、脾臓、及び副腎で濃縮され、ＣＤ５Ｌ、ＴＩＭＤ４及びＶＣＡＭ１などのーカーの特異的発現を有する。食細胞マクロファージは、赤血球貪食作用にとって重要であり、副腎でのこれらの観察は、胎児赤血球生成の部位としての前述の潜在的役割と一致している。

器官にわたる内皮細胞及び上皮細胞の特性評価

多くの器官にわたる単一細胞タイプの第２の分析として、本発明者らは、血管内皮、リンパ内皮、又は心内膜に対応する全器官に由来する細胞を再クラスタリングした。これらの３つの群は、互いに容易に分離され、血管内皮細胞は、器官ごとに少なくともある程度更にクラスタリングされる。その器官特異的差異は、動脈、毛細血管、及び静脈間の差異よりも容易に検出され、成体マウスの以前の細胞アトラスと一致する。

差次的発現遺伝子解析は、内皮細胞のサブセットで特異的に発現する７００のマーカーを同定した（ＦＤＲ０．０５、第１位のクラスターと第２位のクラスターとの間には２倍超の発現差）。これらの約１／３（７００のうち２３６）のコード化膜タンパク質に関して、その多くは、潜在的な特殊機能に対応するように見えた。例えば、腎内皮細胞は、腎臓内での筋原性収縮及び血流調節に関与する機械センサーである酸検出イオンチャネル２（ＡＳＩＣ２）を特異的に発現した。肺内皮細胞は、リラキシンファミリーペプチド受容体１（ＲＸＦＰ１）を特異的に発現した。ＲＸＦＰ１は、ナトリウム依存性リゾホスファチジルコリン輸送体共輸送体１（ＭＦＳＤ２Ａ）を特異的に発現した、肺内の内因性一酸化窒素媒介血管弛緩に関与し、ＭＦＳＤ２Ａは、血液脳関門の確立及び機能に一体的に関与している。内皮のサブセットでの差次的遺伝子発現の潜在的な制御基準は、手引書で考察する。

広範に分布した細胞タイプの第３の解析として、全器官に由来する上皮細胞を再クラスタリングし、これらをＵＭＡＰ可視化に供した。一部の上皮細胞タイプは、極めて器官特異的であり、例えば、腺癌（膵臓）及び肺胞細胞（肺）、同様の機能を有する上皮細胞は、概して一緒にクラスタリングされる。例えば、扁平上皮細胞（肺、胃）の発現プログラムは、角膜及び結膜上皮細胞（眼）と共クラスタリングされ、ＰＤＥ１Ｃ＿ＡＣＳＭ３陽性細胞（胃）は腸上皮細胞（腸）と共クラスタリングされる。

上皮細胞内で、２つの神経内分泌細胞クラスターが同定された。これらのより単純なものは、副腎クロム親和性細胞に対応し、交感神経ニューロンの多様化に関与するＴＦであるＨＨＭＸ１（ＮＫＸ－５－３）の特異的発現によって標識された。他のクラスターは、複数の器官（胃、腸、膵臓、肺）からの神経内分泌細胞を含み、膵島及び腸内分泌の分化において重要な役割を有するＴＦであるＮＫＸ２－２の特異的発現によって標識された。本発明者らは、後者の群で更なる解析行い、５つのサブセット、すなわち、１）インスリン発現によって標識された、膵島β細胞、２）膵臓ポリペプチド発現及びグルカゴンの発現によって標識された、膵島α／γ細胞、３）ソマトスタチン発現によって標識された、膵島δ細胞、４）肺内のこの系統を特定する際に重要な役割を有するＴＦであるＡＳＣＬ１の発現によって標識された、肺神経内分泌細胞（ＰＮＥＣ）、並びに５）腸内分泌細胞を同定した。腸内分泌細胞は、ＮＥＵＲＯＧ発現膵島ε前駆細胞、胃内及び腸内の両方のＴＰＨ１発現クロム親和性細胞、ガストリン発現又はコレシストキニン発現Ｇ／Ｌ／Ｋ／Ｉ細胞など複数のサブセットを更に含む。最後に、胃及び腸内のグレリン発現腸内分泌前駆細胞を観察したが、発生中の肺におけるグレリン発現内分泌細胞も観察した。神経内分泌細胞の多様な機能はそれらの分泌タンパク質と密接に結合しているため、神経内分泌細胞にわたって差次的に発現する１，０８６の分泌タンパク質コード遺伝子を同定した（ＦＤＲ０．０５）。例えば、ＰＮＥＣは、粘膜保護及び肺石灰化細胞分化に関与するトレオイル因子３、胃内のＧ細胞からのガストリン放出を刺激するガストリン放出ペプチド、及び肺発生に関連する界面活性剤であるＳＣＧＢ３Ａ２の特異的発現を示した。

これらのデータを使用して細胞軌道を探索し得る方法の例示的な例として、腎尿細管細胞へとつながる上皮細胞の多様化の経路を更に調査した。尿管芽後腎細胞を合わせて再クラスタリングし、前駆細胞及び末端腎上皮細胞タイプの両方を同定し、分化経路は、ヒト胎児腎臓の最近の研究と極めて一致した。差次的遺伝子発現解析により、その仕様を潜在的に調節するＴＦの特性を更に評価した。例えば、後腎軌道のネフロン前駆細胞は、高レベルの間葉及びＭｅｉｓホメオボックス遺伝子（ＭＥＯＸ１、ＭＥＩＳ１、ＭＥＩＳ２）を発現し、ポドサイトは、ＭＡＦＢ及びＴＣＦ２１／ＰＯＤ１を特異的に発現した。別の例として、ＨＮＦ４Ａは、近位尿細管細胞で特異的に発現し、この遺伝子の変異は、近位尿細管に特異的に影響を及ぼす疾患であるファンコーニー腎細管症候群を引き起こす。これは、最近、マウスでの近位尿細管の形成に必要であることが示された。

ヒト及びマウスの発生アトラスの比較

細胞タイプ間の発生関係を調査するために、次に、より初期の哺乳類発生ウィンドウである、Ｅ９．５～Ｅ１３．５に及ぶ胚全体からの２百万個の細胞をプロファイリングした、本発明者らの最近のマウス器官形成細胞アトラス（ＭＯＣＡ）とこれらのデータを比較した。

第１のアプローチとして、前述した細胞タイプ横断マッチング法によって、本明細書で定義した７７の主要ヒト細胞タイプを、ＭＯＣＡによって定義された発生軌道と比較した。簡潔に言えば、この方法は、非負最小二乗法（ＮＮＬＳ）回帰を使用して、２つのデータセットから相互に最も良好にマッチした細胞タイプ対を選択する。大部分のヒト細胞タイプは、単一の主要マウス軌道及びサブ軌道に強くマッチする。これらは一般に期待値に対応し、アノテーションの両セットのために検証の一形態としての役割を果たす。いくつかの不一致は、ＭＯＣＡアノテーションに対する重要な補正を容易にした。強いマッチに欠ける（合計したＮＮＬＳ回帰係数＜０．６）ヒト細胞タイプ及びマウス軌道の多くは、他のデータセットで除外された組織（例えば、マウス胎盤、ヒト皮膚及び生殖腺）に対応した。他の曖昧な点は恐らく、研究した発生ウィンドウ間の隙間（例えば、副腎細胞タイプ）、希少性（例えば、双極細胞）、及び／又は細胞タイプ間の複雑な関係（例えば、複数の胚軌道に由来する胎児細胞タイプ）によるものである。

第２のアプローチとして、ヒト細胞及びマウス細胞を合わせてクラスタリングしようとした。簡潔に言えば、ＭＯＣＡから１００，０００個のマウス胚細胞（ランダム）及び６５，０００個のヒト胎児細胞（７７細胞タイプのそれぞれから最大１，０００個の細胞）をサンプリングし、種横断ｓｃＲＮＡ－ｓｅｑデータセットを統合するために、最近記載したＳｅｕｒａｔの戦略に供した。得られたＵＭＡＰベースの可視化におけるマウス細胞の分布は、本発明者らのＭＯＣＡのグローバル解析と非常に類似していた。更に、驚くべきことであるが、細胞は、空間的器官位置ではなく、発生関係及び時間的関係の両方に対して概して合理的な方法で分布した。例えば、ヒト胎児内皮細胞、造血細胞、肝細胞、上皮細胞、及び間葉細胞は全て、対応するマウス胚軌道にマッピングされたことを観察する。ヒト胎児脳ニューロン及び小脳ニューロンは、マウス胚神経管軌道と重複したが、恐らく、種又は発生段階間の過度の差異に起因して、ヒト胎児神経堤誘導体、例えばＥＮＳニューロン、内臓ニューロン、交感神経芽細胞、及びクロム親和性細胞は、対応するマウス胚軌道とは別個にクラスタリングされた。予想どおりに、ヒトＥＮＳグリア並びにシュワン細胞は、マウス胚ＰＮＳギラサブ軌道と重複した。ヒト胎児星状細胞は、マウス胚神経上皮軌道と共にクラスタリングされる（マウス星状細胞はＥ１８．５まで発生しない）。ヒト胎児乏突起膠細胞は、考えてみるとオリゴデンドロサイト前駆細胞（ＯＰＣ；Ｏｌｉｇ１＋、Ｏｌｉｇ２＋、Ｂｒｉｎｐ３＋）に対応する、希少なマウス胚サブ軌道（Ｐｄｇｆｒａ＋グリア）と重複し、オリゴデンドロサイト前駆体として、異なるＯｌｉｇｏ１＋サブ軌道の以前のアノテーションに疑問を投じる。

ヒト胎児細胞とマウス胚細胞とのより詳細な関係を可視化するために、類似の統合解析戦略を適用して、造血、内皮、及び上皮の軌道からヒト細胞及びマウス細胞を抽出した。この胎児ヒト細胞アトラスからのデータにより、「全胚」マウスデータは、細粒化された機能群又は空間群へと容易にデコンボリューションされる。例えば、マウス「白血球」軌道のサブセットは、ＨＳＣ、小膠細胞、マクロファージ（肝臓及び脾臓）、マクロファージ（他の器官）及びＤＣなど特定のヒト血液細胞タイプにマッピングされる。これらのサブセットは、関連する血液細胞マーカーの発現によって更に実証された。同様に、本発明者らは、マウス／ヒト内皮細胞及び上皮細胞の関連サブセットが互いにマッピングされることを観察した。このアプローチは、アクセス又は解剖学的分解が困難である発生時点で特定の系統の前駆細胞の遺伝子発現プログラムを得るのに有用であり得る。例えば、前腸上皮軌道として以前に標識したマウス細胞内では、胃対膵臓に起用する可能性の高い因子を分解することが可能である。

考察

機能性ヒト胎児の発生の成功は驚くべきプロセスであり、３つの主要発生段階にわたる細胞増殖及び分化のプロセスによって特徴付けられる。

単純な細胞の増殖及び子宮での着床を伴う短い（受精から２週間）胚期間に続いて、胚形成段階は、激しい細胞分化及び内臓器官前駆体の生成を特徴とする、原腸形成、神経形成、及び器官形成を継続する。妊娠期間の１０週目の終了までに、胚は、胎児と呼ばれる基本形態を獲得している。次の２０週間にわたって、様々な器官が成長と成熟を続け、多様な末端分化細胞タイプが前駆体から生成される。

胚段階及び胚形成段階の両方は、共有初期発生プログラムを用いて、ヒト又はモデル系（すなわち、マウス）での単一の細胞分解能で集中的にプロファイリングされている。後期発生段階（胎児段階）は、ホモサピエンスと他の種では異なる発生プログラム及び期間を示す。また、器官がより複雑であり、技術的制限があるために、この段階における細胞動力学の全体像を得ることは困難である。最近は胎児発生の単一細胞に関する研究がいくつか発表されているが、これらの大部分は、特定の器官又は細胞系統に限られており、器官全体の発生の全体像を得ることはできない。

材料及び方法：

哺乳類細胞の培養及び核抽出

全ての哺乳類細胞を、５％ＣＯ_２、３７℃で培養し、１０％ＦＢＳ及び１ＸＰｅｎ／Ｓｔｒｅｐ（Ｇｉｂｃｏカタログ番号１５１４０１２２；１００Ｕ／ｍＬペニシリン、１００μｇ／ｍＬストレプトマイシン）を補充した高グルコースＤＭＥＭ（Ｇｉｂｃｏカタログ番号１１９６５）中で維持した。０．２５％トリプシン－ＥＤＴＡ（Ｇｉｂｃｏカタログ番号２５２００－０５６）で細胞をトリプシン処理し、週に３回、１：１０に分割した。

全ての細胞株をトリプシン処理し、３００ｘｇで５分間（４°Ｃ）スピンダウンし、１Ｘ氷冷ＰＢＳで１回洗浄した。５Ｍの細胞を合わせ、１ｍＬの氷冷細胞溶解緩衝液（１０ｍＭＴｒｉｓ－ＨＣｌ、ｐＨ７．４、１０ｍＭＮａＣｌ、３ｍＭＭｇＣｌ２、及び０．１％ＩＧＥＰＡＬＣＡ－６３０、１％ＳＵＰＥＲａｓｅＩｎＲＮａｓｅ阻害剤及び１％ＢＳＡを含むように修飾）を使用して溶解した。次いで、濾過した核を新しい１５ｍＬチューブ（ファルコン）に移し、５００ｘｇ、４℃で５分間遠心分離してペレット化し、１ｍＬの氷冷細胞溶解緩衝液で１回洗浄した。核を、氷上で１５分間、４ｍＬの氷冷４％パラホルムアルデヒド（ＥＭＳ）中で固定した。固定後、１ｍＬの核洗浄緩衝液（ＩＧＥＰＡＬを含まない細胞溶解緩衝液）中で核を２回洗浄し、５００ｕＬの核洗浄緩衝液に再懸濁した。試料を各チューブに１００ｕＬ入れて、５本のチューブに分割し、液体窒素中で急速凍結した。

ヒト胎児組織の調製及び核抽出

ヒト胎児組織を合わせて処理して、バッチ効果を低減した。各器官をハンマーで（ドライアイス上で）組織粉末に粉砕し、サンプリング前に混合した。まず、１ｍＬの氷冷細胞溶解緩衝液（１０ｍＭＴｒｉｓ－ＨＣｌ、ｐＨ７．４、１０ｍＭＮａＣｌ、３ｍＭＭｇＣｌ２、及び０．１％ＩＧＥＰＡＬＣＡ－６３０^５３、１％ＳＵＰＥＲａｓｅＩｎ及び１％ＢＳＡも含むように修飾）を用いて０．１～１ｇの粉末をインキュベートし、次いで４０μｍの細胞ストレーナー（ファルコン）の上に移した。４ｍＬの細胞溶解緩衝液中で注射器プランジャ（５ｍＬ、ＢＤ）のゴムチップ用いて、組織を均質化した。次いで、濾過した核を新しい１５ｍＬチューブ（ファルコン）に移し、５００ｘｇで５分間遠心分離してペレット化し、１ｍＬの細胞溶解緩衝液で１回洗浄した。核を、氷上で１５分間、５ｍＬの氷冷４％パラホルムアルデヒド（ＥＭＳ）中で固定した。固定後、１ｍＬの核洗浄緩衝液（ＩＧＥＰＡＬを含まない細胞溶解緩衝液）中で核を２回洗浄し、５００μＬの核洗浄緩衝液に再懸濁した。試料を各チューブに２５０μＬ入れて、２本のチューブに分割し、液体窒素中で急速凍結した。一部の器官（腎臓、膵臓、腸、及び胃）でのヒト細胞抽出及びパラホルムアルデヒド固定の場合。

ｓｃｉ－ＲＮＡ－ｓｅｑ３ライブラリーの調製及びシークエンシング

公開されたｓｃｉ－ＲＮＡ－ｓｅｑ３プロトコルと同様に、わずかな修正を加えて、パラホルムアルデヒド固定核を処理した。簡潔に述べると、解凍した核を、０．２％ＴｒｉｔｏｎＸ－１００（核洗浄緩衝液中）を用いて氷上で３分間透過処理し、短時間の超音波処理（Ｄｉａｇｅｎｏｄｅ、低電力モードで１２秒）を行って、核の凝集を低減した。次いで、核洗浄緩衝液で核を１回洗浄し、１ｍＬのＦｌｏｗｍｉ細胞ストレーナ（Ｆｌｏｗｍｉ）を通して濾過した。濾過した核を５００ｘｇで５分間スピンダウンし、核洗浄緩衝液に再懸濁した。次いで、各試料からの核を、４枚の９６ウェルプレート内の複数の個々のウェルに分配した。ウェルＩＤとマウス胚との間のリンクを、下流データ処理のために記録した。ウェルごとに、８０，０００個の核（１６μＬ）を、８μＬの２５μＭ固定オリゴ－ｄＴプライマー（（５’－／５Ｐｈｏｓ／ＣＡＧＡＧＣＮＮＮＮＮＮＮＮ［１０ｂｐバーコード］ＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴＴ－３’（配列番号１）、配列中、「Ｎ」は任意の塩基；ＩＤＴ）及び２ｕＬの１０ｍＭｄＮＴＰミックス（Ｔｈｅｒｍｏ）と混合し、５５℃で５分間変性させ、直ちに氷上に置いた。次いで、８μＬの５ＸＳｕｐｅｒｓｃｒｉｐｔＩＶＦｉｒｓｔ－ＳｔｒａｎｄＢｕｆｆｅｒ（Ｉｎｖｉｔｒｏｇｅｎ）、２μＬの１００ｍＭＤＴＴ（Ｉｎｖｉｔｒｏｇｅｎ）、２μＬのＳｕｐｅｒＳｃｒｉｐｔＩＶ逆転写酵素（２００Ｕ／μＬ、Ｉｎｖｉｔｒｏｇｅｎ）、２μＬのＲＮａｓｅＯＵＴＲｅｃｏｍｂｉｎａｎｔＲｉｂｏｎｕｃｌｅａｓｅＩｎｈｉｂｉｔｏｒ（Ｉｎｖｉｔｒｏｇｅｎ）を含有する、１４ｕＬの第１鎖反応ミックスを各ウェルに添加した。勾配温度（４℃で２分、１０℃で２分、２０℃で２分、３０℃で２分、４０℃で２分、５０℃で２分、及び５５℃で１０分）でプレートをインキュベートすることにより逆転写を行った。

逆転写反応後、６０μＬの核希釈緩衝液（１０ｍＭＴｒｉｓ－ＨＣｌ、ｐＨ７．４、１０ｍＭＮａＣｌ、３ｍＭＭｇＣｌ２、及び１％ＢＳＡ）を各ウェルに添加した。全てのウェルからの核を合わせてプールし、５００ｘｇで１０分間スピンダウンした。次いで、核を核洗浄緩衝液に再懸濁し、２０μＬのＱｕｉｃｋリガーゼ緩衝液（ＮＥＢ）、２μＬのＱｕｉｃｋＤＮＡリガーゼ（ＮＥＢ）、１０μＬの核洗浄緩衝液中核、８μＬのバーコード付きライゲーションアダプター（１００ｕＭ、５’－ＧＣＴＣＴＧ［９ｂｐ又は１０ｂｐのバーコードＡ］／ジデオキシＵ／ＡＣＧＡＣＧＣＴＣＴＴＣＣＧＡＴＣＴ［バーコードＡの逆相補体］－３’（配列番号２））を各ウェルに含む別の４枚の９６ウェルプレートに再分配した。２５℃で１０分間ライゲーション反応を行った。ライゲーション反応後、６０μＬの核希釈緩衝液（１０ｍＭＴｒｉｓ－ＨＣｌ、ｐＨ７．４、１０ｍＭＮａＣｌ、３ｍＭＭｇＣｌ２、及び１％ＢＳＡ）を各ウェルに添加した。全てのウェルからの核を合わせてプールし、６００ｘｇで１０分間スピンダウンした。

核を核洗浄緩衝液で１回洗浄し、１ｍＬのＦｌｏｗｍｉ細胞ストレーナ（Ｆｌｏｗｍｉ）で１回濾過し、カウントし、各ウェルが５μＬの核洗浄緩衝液中２，５００個の各及び３μＬの溶出緩衝液（Ｑｉａｇｅｎ）を含む、８枚の９６ウェルプレートに分配した。次いで、１．３３μＬのｍＲＮＡ第２鎖合成緩衝液（ＮＥＢ）及び０．６６μＬのｍＲＮＡ第２鎖合成酵素（ＮＥＢ）を各ウェルに添加し、１６℃で１８０分間第２鎖合成を行った。

タグ付けのために、各ウェルを１１μＬのＮｅｘｔｅｒａＴＤ緩衝液（Ｉｌｌｕｍｉｎａ）及び１μＬのｉ７のみのＴＤＥ１酵素（６２．５ｎＭ、Ｉｌｌｕｍｉｎａ、ＮｅｘｔｅｒａＴＤ緩衝液（Ｉｌｌｕｍｉｎａ）で希釈）と混合し、次いで５５℃で５分間インキュベートしてタグ付けを行った。次いで、ウェル当たり２４μＬのＤＮＡ結合緩衝液（Ｚｙｍｏ）を添加することによって反応を停止させ、室温で５分間インキュベートた。次いで、１．５ｘＡＭＰｕｒｅＸＰビーズ（ＢｅｃｋｍａｎＣｏｕｌｔｅｒ）を使用して、各ウェルを精製した。溶出工程では、各ウェルに８μＬのヌクレアーゼフリー水、１μＬの１０ＸＵＳＥＲ緩衝液（ＮＥＢ）、１μＬのＵＳＥＲ酵素（ＮＥＢ）を添加し、３７℃で１５分間インキュベートした。別の６．５μＬ溶出緩衝液を各ウェルに添加した。ＡＭＰｕｒｅＸＰビーズを磁気スタンドによって除去し、溶出産物（１６μＬ）を新しい９６ウェルプレートに移した。

ＰＣＲ増幅のために、各ウェル（１６μＬの産物）を、２μＬの１０μＭインデックス付きＰ５プライマー（５’－ＡＡＴＧＡＴＡＣＧＧＣＧＡＣＣＡＣＣＧＡＧＡＴＣＴＡＣＡＣ［ｉ５］ＡＣＡＣＴＣＴＴＴＣＣＣＴＡＣＡＣＧＡＣＧＣＴＣＴＴＣＣＧＡＴＣＴ－３’（配列番号３）；ＩＤＴ）、２μＬの１０μＭＰ７プライマー（５’－ＣＡＡＧＣＡＧＡＡＧＡＣＧＧＣＡＴＡＣＧＡＧＡＴ［ｉ７］ＧＴＣＴＣＧＴＧＧＧＣＴＣＧＧ－３’（配列番号４）、ＩＤＴ）、及び２０μＬのＮＥＢＮｅｘｔＨｉｇｈ－Ｆｉｄｅｌｉｔｙ２ｘＰＣＲＭＡＳＴＥＲＭｉｘ（ＮＥＢ）と混合した。７２℃で５分間、９８℃で３０秒間、「９８℃で１０秒間、６６℃で３０秒間、７２℃で１分間」を１２～１６サイクル、及び最後に７２℃で５分間というプログラムを使用して、増幅を実施した。

ＰＣＲ後、試料をプールし、０．８容量のＡＭＰｕｒｅＸＰビーズを使用して精製した。Ｑｕｂｉｔ（Ｉｎｖｉｔｒｏｇｅｎ）によってライブラリー濃度を決定し、６％ＴＢＥ－ＰＡＧＥゲル上での電気泳動によりライブラリーを可視化した。全てのライブラリーを、１つのＮｏｖａＳｅｑプラットフォーム（Ｉｌｌｕｍｉｎａ）（リード１：３４サイクル、リード２：５２サイクル、インデックス１：１０サイクル、インデックス２：１０サイクル）でシークエンシングした。

パラホルムアルデヒド固定細胞については、固定核と同様に、わずかな修正を加えて以下のように処理した。すなわち、凍結固定細胞を３７℃の水浴で解凍し、５００ｘｇで５分間スピンダウンし、０．２％ＴｒｉｔｏｎＸ－１００を含む５００ｕＬのＰＢＳＲ（１ｘＰＢＳ、ｐＨ７．４、１％ＢＳＡ、１％ＳｕｐｅｒＲｎａｓｅＩｎ、１％１０ｍＭＤＴＴ）を用いて氷上で３分間インキュベートした。細胞をペレット化し、１％ＳｕｐｅｒＲｎａｓｅＩｎを含む５００ｕｌのヌクレアーゼフリー水に再懸濁した。氷上で５分間インキュベートするために、３ｍＬの０．１ＮＨＣｌを細胞に添加した（７）。ＨＣｌを中和するために、３．５ｍＬのＴｒｉｓ－ＨＣｌ（ｐＨ＝８．０）及び３５ｕｌの１０％ＴｒｉｔｏｎＸ－１００を細胞に添加した。細胞をペレット化し、１ｍＬのＰＢＳＲで洗浄した。細胞をペレット化し、１００ｕＬのＰＢＳＩ（１ｘＰＢＳ、ｐＨ７．４、１％ＢＳＡ、１％ＳｕｐｅｒＲｎａｓｅＩｎ）に再懸濁した。続いての工程は、上記のｓｃｉ－ＲＮＡ－ｓｅｑ３プロトコル（パラホルムアルデヒド固定核を用いる）と同様であったが、わずかに修正を加えた。すなわち、（１）逆転写のために、ウェル当たり（８０，０００個の核ではなく）２０，０００個の固定細胞を分配した。（２）以降の工程で、全ての核洗浄緩衝液をＰＢＳＩに置き換えた。（３）全ての核希釈緩衝液をＰＢＳ＋１％ＢＳＡに置き換えた。

リードのシークエンシング処理

ｓｃｉ－ＲＮＡ－ｓｅｑ３用に開発したパイプラインに多少の変更を加えて、単一細胞ＲＮＡ－ｓｅｑのリードアライメント及び遺伝子カウントマトリックスの生成を実行した。すなわち、Ｉｌｌｕｍｉｎａのｂｃｌ２ｆａｓｔｑ／ｖ２．１６を使用してベースコールをｆａｓｔｑ形式に変換し、デフォルト設定で最尤逆多重化パッケージｄｅＭＬを使用してＰＣＲｉ５及びｉ７バーコードに基づいて逆多重化した。下流配列処理及び単一細胞デジタル発現マトリックスの生成は、ＲＴインデックスをヘアピンアダプターインデックスと組み合わせたことを除いて、ｓｃｉ－ＲＮＡ－ｓｅｑと同様であり、したがって、マッピングされたリードは、ＲＴインデックス及びライゲーションインデックス（ＥＤ＜２、挿入及び削除を含む）の両方を使用してリードを逆多重化することによって構成細胞インデックスに分割した。簡潔に言えば、逆多重化されたリードを、ＲＴインデックス及びライゲーションインデックス（ＥＤ＜２、挿入及び削除を含む）に基づいてフィルタリングし、デフォルト設定でｔｒｉｍ＿ｇａｌｏｒｅ／ｖ０．４．１を使用してアダプターをクリップした。デフォルト設定及び遺伝子アノテーション（ヒトにはＧＥＮＣＯＤＥＶ１９、マウスにはＧＥＮＣＯＤＥＶＭ１１）でＳＴＡＲ／ｖ２．５．２ｂを用いて、ヒト胎児核のヒト参照ゲノム（ｈｇ１９）、又はヒトｈｇ１９のキメラ参照ゲノム、及びＨＥＫ２９３Ｔ及びＮＩＨ／３Ｔ３混合核のマウスｍｍ１０に、調節されたリードをマッピングした。一意にマッピングされたリードを抽出し、固有分子識別子（ＵＭＩ）配列（ＥＤ＜２、挿入及び削除を含む）、逆転写（ＲＴ）インデックス、ヘアピンライゲーションインデックス及びリード２末端座標を使用して重複を除去した（すなわち、編集距離が２未満のＵＭＩ配列、ＲＴインデックス、ライゲーションアダプターインデックス及びタグ付け部位を重複とみなした）。最後に、ＲＴインデックス及びライゲーションヘアピン（ＥＤ＜２、挿入及び削除）を使用して、リードを更に逆多重化することにより、マッピングされたリードを構成細胞インデックスに分割した。種混合実験では、各種のゲノムの一意にマッピングされたリードの割合を計算した。ＵＭＩの８５％超が１つの種に割り当てられた細胞を種特異的細胞とみなし、残りの細胞は、混合細胞又は「衝突」として分類した。デジタル発現マトリックスを生成するために、ｐｙｔｈｏｎ／ｖ２．７．１３ＨＴｓｅｑパッケージを使用して、各遺伝子のエクソン及びイントロン領域にマッピングされる各細胞の鎖固有のＵＭＩの数を計算した^５６。多重マッピングされたリードについては、最も近い遺伝子にリードが割り当てられたが、最も近い遺伝子の末端まで１００ｂｐ以内に別の交差遺伝子が収まる場合は例外であり、リードは破棄された。大部分の解析では、遺伝子ごとの単一細胞発現マトリックスに予想される鎖のイントロンとエクソンの両方のＵＭＩを含めた。

単一細胞遺伝子カウントマトリックスの生成後に、２５０未満のＵＭＩを有する細胞をフィルタリングして除去した。ＲＴバーコードに基づいて、各細胞をその元のヒト胎児試料に割り当てた。各胎児の個体にマッピングされるリードを集約して、「バルクＲＮＡ－ｓｅｑ」を生成した。胎児の性別分離のために、雌特異的非コードＲＮＡ（ＴＳＩＸ及びＸＩＳＴ）又はｃｈｒＹ遺伝子（雌雄両方で検出される、遺伝子ＴＢＬ１Ｙ、ＲＰ１１－４２４Ｇ１４．１、ＮＬＧＮ４Ｙ、ＡＣ０１００８４．１、ＣＤ２４Ｐ４、ＰＣＤＨ１１Ｙ、及びＴＴＴＹ１４を除く）にマッピングされるリードをカウントした。胎児を、雌（ｃｈｒＹよりもＴＳＩＸ及びＸＩＳＴにマッピングされたリードが多い）及び雄（ＴＳＩＸ及びＸＩＳＴよりもＣｈｒＹ遺伝子にマッピングされたリードが多い）に容易に分類する。

ヒト胎児試料全体のクラスタリング解析を、Ｍｏｎｏｃｌｅ３で行った。簡潔に述べると、集約した遺伝子発現マトリックスは、各個体からのヒト胎児器官について上述のように構築された。５，０００超の総ＵＭＩを有する試料を選択した。データの次元は、まず上位５００の最も高分散の遺伝子でのＰＣＡ（１０成分）によって、次いで、ＵＭＡＰ（ｍａｘ＿ｃｏｍｐｏｎｅｎｔ＝２、ｎ＿ｎｅｉｂｏｒｓ＝１０、ｍｉｎ＿ｄｉｓｔ＝０．５、ｍｅｔｒｉｃ＝’ｃｏｓｉｎｅ’）を用いて低減した。

細胞フィルタリング、クラスタリング、及びマーカー遺伝子の同定

潜在的ダブレット細胞を検出するために、まず、各器官及び個々のサブセットにデータセットを分割し、次いで、パラメータ（ｍｉｎ＿ｃｏｕｎｔ＝３、ｍｉｎ＿ｃｅｌｌｓ＝３、ｖｓｃｏｒｅ＿ｐｅｒｃｅｎｔｉｌｅ＝８５、ｎ＿ｐｃ＝３０、ｅｘｐｅｃｔｅｄ＿ｄｏｕｂｌｅｔ＿ｒａｔｅ＝０．０６、ｓｉｍ＿ｄｏｕｂｌｅｔ＿ｒａｔｉｏ＝２、ｎ＿ｎｅｉｇｈｂｏｒｓ＝３０、ｓｃａｌｉｎｇ＿ｍｅｔｈｏｄ＝’ｌｏｇ’）を使用して各サブセットにｓｃｒｕｂｌｅｔ／ｖ０．１を適用してダブレットスコアを計算する。０．２を超えるダブレットスコアを有する細胞は、検出ダブレットとしてアノテーションする。全データセットで６．４％の潜在的ダブレット細胞を検出した。これは、総推定ダブレット率１２．６％に対応する（クラスター内ダブレット及びクラスター間ダブレットの両方を含む）。

各器官からの細胞についてダブレット由来サブクラスターを検出するために、前に示したような反復クラスタリング戦略を使用した。簡潔に述べると、性染色体への遺伝子カウントのマッピングを、クラスタリング及び次元の低減の前に削除した。前処理工程は、参照により使用されるアプローチに類似していた。簡潔に述べると、カウントなしの遺伝子をフィルタリングして除去し、細胞当たりの総ＵＭＩカウントによって各細胞を正規化した。最大の分散を有する上位１，０００個の遺伝子を選択し、遺伝子のフィルタリング後にデジタル遺伝子発現マトリックスを再度正規化した。擬似カウントを加えた後にデータを対数変換し、単位分散及びゼロ平均にスケーリングした。データの次元は、最初にＰＣＡ（３０成分）によって低減し、次いでＵＭＡＰを用い、続いてデフォルトパラメータを用いて３０の主要成分でＬｏｕｖａｉｎクラスタリングを実施した。Ｌｏｕｖａｉｎクラスタリングについては、最初に、上位３０のＰＣをフィルタリングして、ｓｃａｎｐｙ／ｖ１．０のｓｃａｎｐｙ．ａｐｉ．ｐｐ．ｎｅｉｇｈｂｏｒｓ関数により、５０の局部近傍数を有する観測結果の近傍グラフを計算する。次に、ｓｃａｎｐｙ．ａｐｉ．ｔｌ．ｌｏｕｖａｉｎ関数として実施されるＬｏｕｖａｉｎアルゴリズムを使用して、細胞をサブグループにクラスタリングする。ＵＭＡＰの可視化のために、０．１．のｍｉｎ＿ｄｉｓｔａｎｃｅでｓｃａｎｐｙ．ａｐｉ．ｔｌ．ｕｍａｐ関数にＰＣＡマトリックスを直接フィットさせる。サブクラスターを同定するために、各主要細胞タイプで細胞を選択し、主要なクラスター解析と同様に、ＰＣＡ、ＵＭＡＰ、Ｌｏｕｖａｉｎクラスタリングを適用した。１５％を超える検出ダブレット比（Ｓｃｒｕｂｌｅｔによる）を有するサブクラスターは、ダブレット由来のサブクラスターとしてアノテーションされた。

データの可視化のために、（Ｓｃｒｕｂｌｅｔにより）ダブレットとして標識された細胞、又はダブレット由来のサブクラスターをフィルタリングして除去した。細胞ごとに、タンパク質コード遺伝子、ｌｉｎｃＲＮＡ遺伝子、及び偽遺伝子のみを保持する。１０個未満の細胞で発現した遺伝子及び１００個未満の遺伝子を発現した細胞を更にフィルタリングして除去した。下流での次元の低減及びクラスタリング解析は、Ｍｏｎｏｃｌｅ３で行った。データの次元は、まず上位５，０００の最も高分散の遺伝子でのＰＣＡ（５０成分）によって、次いで、ＵＭＡＰ（ｍａｘ＿ｃｏｍｐｏｎｅｎｔ＝２、ｎ＿ｎｅｉｂｏｒｓ＝５０、ｍｉｎ＿ｄｉｓｔ＝０．１、ｍｅｔｒｉｃ＝’ｃｏｓｉｎｅ’）を用いて低減した。Ｍｏｎｏｃｌｅ３（ｌｏｕｖａｉｎ＿ｒｅｓ＝１ｅ－０４）に実装されたＬｏｕｖａｉｎアルゴリズムを使用して、細胞クラスターを同定した。クラスターは、細胞タイプ特異的マーカーに基づいて既知の細胞タイプに割り当てた。本発明者らは、上記のＳｃｒｕｂｌｅｔ及び反復クラスタリングベースのアプローチが、豊富細胞クラスターと希少細胞クラスターとの間での細胞ダブレットの標識化において限界を有する（例えば、全細胞集団の１％未満）ことを見出した。これらのダブレット細胞を更に除去するために、Ｍｏｎｏｃｌｅ３によって同定された細胞クラスターを取得し、まず、Ｍｏｎｏｃｌｅ３のｄｉｆｆｅｒｅｎｔｉａｌＧｅｎｅＴｅｓｔ（）関数を用いて、（器官内で）細胞クラスターにわたって差次的に発現した遺伝子を計算した。次に、細胞クラスターごとに上位１０個の遺伝子マーカー（ｑ値及び第１位細胞クラスターと第２位の細胞クラスターとの発現差の倍率によって順序付ける）を組み合わせた遺伝子セットを選択した。各主要細胞クラスターからの細胞を、まず上位クラスター特異的遺伝子マーカーの選択した遺伝子セットでのＰＣＡ（１０成分）によって、次いでＵＭＡＰ（ｍａｘ＿ｃｏｍｐｏｎｅｎｔｓ＝２、ｎ＿ｎｅｉｇｈｂｏｒｓ＝５０、ｍｉｎ＿ｄｉｓｔ＝０．１、ｍｅｔｒｉｃ＝’ｃｏｓｉｎｅ’）によって、続いてＭｏｎｏｃｌｅ３に実装された密度ピーククラスタリングアルゴリズム（ほとんどのクラスタリング解析ではｒｈｏ＿ｔｈｒｅｓｈ＝５、ｄｅｌｔａ＿ｔｈｒｅｓｈ＝０．２）を使用したＩＤのクラスタングによって次元を低減するために選択した。ターゲット細胞クラスター特異的マーカーの低発現及び非ターゲット細胞クラスター特異的マーカーの濃縮発現を示すサブクラスターは、ダブレット由来のサブクラスターとしてアノテーションし、可視化及び下流解析でフィルタリングして除去した。（器官内で）細胞タイプにわたって差次的に発現した遺伝子を、ダブレット由来のサブクラスターから全てのダブレット又は細胞を除去した後にＭｏｎｏｃｌｅ３のｄｉｆｆｅｒｅｎｔｉａｌＧｅｎｅＴｅｓｔ（）関数を用いて再計算した。

器官にわたる細胞のクラスタリング解析

１５の器官にわたる７７の主要細胞タイプのクラスタリング解析では、各細胞タイプから５，０００個の細胞（又は所与の器官に５，０００個未満の細胞を有する細胞タイプの場合は全ての細胞）をサンプリングした。まず、上記で同定した上位細胞タイプ特異的遺伝子マーカーを合わせた遺伝子セット（表Ｓ５、ｑｖａｌ＝０）でのＰＣＡ（５０成分）によって、次いでＵＭＡＰ（ｍａｘ＿ｃｏｍｐｏｎｅｎｔ＝２、ｎ＿ｎｅｉｂｏｒｓ＝５０、ｍｉｎ＿ｄｉｓｔ＝０．１、ｍｅａｍｅｔｒｉｃ＝’ｃｏｓｉｎｅ’）を用いてデータの次元を低減した。細胞タイプにわたって差次的に発現した遺伝子を、Ｍｏｎｏｃｌｅ３のｄｉｆｆｅｒｅｎｔｉａｌＧｅｎｅＴｅｓｔ（）関数を用いて同定した。細胞タイプ特異的遺伝子特徴のアノテーションでは、上記で同定した細胞タイプ特異的遺伝を、ヒトタンパク質アトラスから予測される分泌及び膜タンパク質コード遺伝子セット、並びにパッケージＲｃｉｓＴａｒｇｅｔ／ｖ１．２．１．からの「ｍｏｔｉｆＡｎｎｏｔａｔｉｏｎｓ＿ｈｇｎｃ」データでアノテーションされたＴＦセットと交差させた。

１５器官にわたる血液細胞のクラスタリング解析では、骨髄細胞、リンパ球細胞、幹細胞、巨核細胞、小膠細胞、抗原提示細胞、赤芽球、及び造血幹細胞を含む全ての血液細胞を抽出した。まず上位３，０００の血液細胞タイプ特異的遺伝子マーカーを組み合わせる遺伝子セットの発現（少なくとも１つの血液細胞タイプで特異的に発現した遺伝子のみが選択され（ｑ値＜０．０５、第１位の細胞クラスターと第２位の細胞クラスターとの発現差倍率＞２）、器官にわたって中央値ｑｖａｌによって順位付けられる）でのＰＣＡ（４０成分）によって、次いでＵＭＡＰ（ｍａｘ＿ｃｏｍｐｏｎｅｎｔｓ＝２、ｎ＿ｎｅｉｇｈｂｏｒｓ＝５０、ｍｉｎ＿ｄｉｓｔ＝０．１、ｍｅｔｒｉｃ＝’ｃｏｓｉｎｅ’）を用いてデータの次元を低減した。Ｍｏｎｏｃｌｅ３（ｌｏｕｖａｉｎ＿ｒｅｓ＝１ｅ－０４）に実装されたＬｏｕｖａｉｎアルゴリズムを使用して、細胞クラスターを同定した。クラスターは、細胞タイプ特異的マーカーに基づいて既知の細胞タイプに割り当てた。

次に、器官にわたって内皮細胞又は上皮細胞のクラスタリング解析を行うために、上記と同様の解析戦略を適用した。内皮細胞では、最初に、血管内皮細胞からの細胞、リンパ管内皮細胞、及び器官全体からの心内細胞を抽出した。まず、上記で同定した上位１，０００の内皮細胞タイプ特異的遺伝子マーカーを組み合わせる遺伝子セット（少なくとも１つの内皮細胞タイプで特異的に発現した遺伝子のみが選択され（ｑ値＜０．０５、第１位の細胞クラスターと第２位の細胞クラスターとの発現差倍率＞２）、器官にわたって中央値ｑｖａｌによって順位付けられる）でのＰＣＡ（３０成分）によって、次いで血液細胞と同一のパラメータでＵＭＡＰを用いてデータの次元を低減した。Ｍｏｎｏｃｌｅ３（ｌｏｕｖａｉｎ＿ｒｅｓ＝１ｅ－０４）に実装されたＬｏｕｖａｉｎアルゴリズムを使用して細胞クラスターを同定し、次いで内皮細胞の組織起源に基づいてアノテーションを行った。上皮細胞では、まず図Ｓ３Ｂの上皮細胞クラスターから細胞を抽出し、続いて最初に、上位５，０００の最も高分散の遺伝子でのＰＣＡ（５０成分）によって最初に次元を低減し、次いでＵＭＡＰ（ｍａｘ＿ｃｏｍｐｏｎｅｎｔ＝２、ｎ＿ｎｅｉｂｏｒｓ＝５０、ｍｉｎ＿ｄｉｓｔ＝０．１、ｍｅａｓｕｅ＝’ｃｏｓｉｎｅ’）を用いて次元を低減した。

ＴＦ遺伝子連鎖解析

本発明者らは、遺伝子調節プロセスを大規模な単一細胞遺伝子発現解析に絡めることができると仮定した。この目的に向かって、本発明者らは、以前の研究に類似の単一細胞調節推論法を適用して、数百万個の細胞にわたる共分散を検証用の調節配列解析と結合することによって、ＴＦ遺伝子相互作用を予測する。このワークフローは、以下の３つの工程からなる。単一細胞プロファイルの疎性により困難になるので、最初に上記の反復クラスタリング戦略によって（器官内の）細胞をサブクラスターに分類することにより、極めて類似するトランスクリプトームを有する細胞のサブセット（～１００個の細胞）からの遺伝子数を合計し、続いて、各サブクラスターからの細胞についてＵＭＡＰ座標上でｋ平均クラスタリングを行った。ｋは、サブクラスター当たり平均細胞数が１００であるように、各サブクラスター内の細胞数に基づいて選択する。

本発明者らは、各器官内の集約した「疑似細胞」にわたる発現共分散に基づいて、ＴＦＳとそれらの調節遺伝子との間のリンクを特定しようとした。検出した１０，０００超のＵＭＩを有する細胞、及び全細胞の１０％超で検出した遺伝子（ＴＦを含む）を選択した。Ｍｏｎｏｃｌｅ３でのｅｓｔｉｍａｔｅＳｉｚｅＦａｃｔｏｒｓによって完全遺伝子発現マトリックスで計算された細胞特異的ライブラリーサイズ因子によって細胞ごとの完全遺伝子発現を正規化し、対数変換し、中心合わせし、次いで、Ｒのスケール関数によってスケーリングした。検出した遺伝子ごとに、パッケージｇｌｍｎｅｔ／ｖ．２．０でＬＡＳＳＯ回帰モデルを構築し、以下のモデルをフィットさせることによって、パッケージＲｃｉｓＴａｒｇｅｔ／ｖ１．２．１からの「ｍｏｔｉｆＡｎｎｏｔａｔｉｏｎｓ＿ｈｇｎｃ」データでアノテーションされたＴＦの正規表現に基づいて、各遺伝子の正規化発現レベルを予測した。

Ｇ_ｉ＝β_０＋β_ｔＴ_ｉ

式中、Ｇ_ｉは遺伝子ｉの調節された遺伝子発現値である。これは、疑似細胞ごとに遺伝子数によって計算され、各疑似細胞の完全発現マトリックスでのＭｏｎｏｃｌｅ３のｅｓｔｉｍａｔｅＳｉｚｅＦａｃｔｏｒｓによる細胞特異的サイズ因子（ＳＧ_ｉ）推定により正規化され、対数変換される。

遺伝子間の下流比較を単純化するために、Ｒのｓｃａｌｅ（）関数用いて各遺伝子ｉのモデルをフィットさせる前に、反応Ｇ_ｉを標準化した。

Ｇ_ｉと同様に、Ｔ_ｉは、疑似細胞ごとに調節されたＴＦ発現値である。これは、総ＴＦ発現数によって計算され、各疑似細胞の完全発現マトリックスでのＭｏｎｏｃｌｅ３のｅｓｔｉｍａｔｅＳｉｚｅＦａｃｔｏｒｓによる細胞特異的サイズ因子（ＳＧ_ｉ）推定により正規化され、対数変換される。

フィットさせる前に、Ｔ_ｉ、Ｒのｓｃａｌｅ（）関数で標準化する。

ＴＦの発現と遺伝子の新たな合成速度との負の相関は転写抑制因子の活性を反映し得るが、本発明者らは、ｇｌｍｎｅｔによって報告された負のリンクに対するより可能性の高い説明は、細胞状態特異的発現及びＴＦ活性の相互排他的なパターンであるという感触を得た。したがって、予測中、本発明者らは、潜在的ターゲット遺伝子の合成速度と負に相関する発現を有するＴＦを除外し、また回帰係数の低いリンク（＜０．０３）も除外した。

本発明者らのアプローチは、回帰モデルでその発現を予測するために使用され得るサブセットを見出すことによって、各遺伝子を調節し得るＴＦを同定することを目的としている。しかしながら、遺伝子の発現と相関する発現を有するＴＦは、当該遺伝子を直接調節することを明確に意味するわけではない。このセット内の直接的ターゲットを推定的に特定するために、まず、ＥＮＣＯＤＥＣｈＩＰ－ｓｅｑ実験でプロファイリングされたＴＦとのリンクを交差させる。正確なＴＦＣｈＩＰ－ｓｅｑ結合部位の有意な濃縮を有する遺伝子セットのみを保持し（フィッシャーの両側正確確率検定、ＦＤＲ５％）、更にＴＦ結合データの支持を受けない間接的ターゲット遺伝子を削除するために不要なものを除去した。検証済みＴＦ遺伝子リンクのセットを拡張するために、遺伝子のプロモーターの周囲１０ｋｂのウィンドウ内でのターゲットＴＦモチーフの濃縮に基づいて遺伝子調節ネットワークを構築するパイプラインである、パッケージＳＣＥＮＩＣを更に適用した。ＬＡＳＳＯ回帰により同定した各共発現モジュールを、ＲｃｉｓＴａｒｇｅｔ／ｖ１．２．１を使用したｃｉｓ調節モチーフ解析を使用して解析した。正確なＴＦ調節因子の有意なモチーフ濃縮を有するモジュールのみを保持し、モチーフの支持を受けない間接的ターゲット遺伝子を削除するために不要なものを除去した。３つの相関係数閾値（０．３、０．４、及び０．５）によってＴＦ遺伝子リンクをフィルタリングし、ＲｃｉｓＴａｒｇｅｔ^３６及びＣｈＩＰ－ｓｅｑ結合データによって検証された全てのリンクを組み合わせた。

各器官内の集約した疑似細胞に上記の戦略を適用し、器官全体で１，２２０（胸腺）～１０，０５９（肝臓）ＴＦ遺伝子リンクを同定し（合わせて、７０６個のＴＦと１２，８６８個の遺伝子との間の合計５６，２７２のＴＦ遺伝子リンク）、発現共分散及びＴＦ結合又はモチーフデータの両方で検証した。対照解析として、ＴＦ発現マトリックスの細胞ＩＤを並べ替えたが、並べ替え後にリンクは同定されなかった。同定されたＴＦ及び遺伝子調節関係の一部は、ＴＦネットワーク（ＴＲＲＵＳＴ）又はＥｎｒｉｃｈｒ提供ＴＦ遺伝子共起ネットワーク）、例えば、Ｅ２Ｆ１（３３０の結合遺伝子のうちの最高濃縮ＴＲＲＵＳＴＴＦ＝Ｅ２Ｆ１、調節ｐ値＝２．２ｅ－１４）、ＨＮＦ４Ａ（７４５の結合遺伝子のうちの最高濃縮ＴＲＲＵＳＴＴＦ＝ＨＮＦ４Ａ、調節ｐ値＝０．０００００３）、及びＦＬＩ１（１２１９の結合遺伝子のうちの最高濃縮共起ＴＦ＝ＦＬＩ１、調節ｐ値＝５．６ｅ－１２２）の手動でキュレートしたデータベースで容易に検証される。８５％（５６，２７２のうち４８，０５０）のＴＦ遺伝子リンクは、器官特異的であった。例えば、ＡＴＰａｓｅＰｈｏｓｐｈｏｌｉｐｉｄＴｒａｎｓｐｏｒｔｉｎｇ８Ｂ１（ＡＴＰ８Ｂ１）は腸内においてのみＨＮＦ４Ａに結合したが、これは、他の器官（スピアマンの相関係数の平均＝０．００８）と比較して、腸（スピアマンの相関係数の平均＝０．３６）内でＨＮＦ４Ａとの最高の相関を示したという事実に一致した。７４５のＴＦ遺伝子リンクが、複数の器官（＞５）で見出された。予想どおりに、それらの結合遺伝子は、免疫細胞分化経路（造血幹細胞分化：調節ｐ値２．５ｅ－６；肺樹状細胞及びマクロファージサブセットの発生：調節ｐ値０．０００１）並びにストレス反応及び細胞周期（ＡＴＲによるＤＮＡＩＲ損傷及び細胞応答：調節ｐ値０．００６、酸化ストレス：調節ｐ値０．０２、Ｇ１～Ｓの細胞周期制御：調節ｐ値０．０５）など基本的な生物学的プロセスで濃縮された。１０．５％（５６，２７２のうち５９３５）のＴＦ遺伝子リンクは、２つのＴＦ間であり、３６２のＴＦ対は、自己活性化回路を潜在的に表す双方向制御関係を示した。例えば、本発明者らは、ＭＹＯＤ１、ＭＹＯＧ、ＴＥＡＤ４、及びＭＹＦ６など骨格筋の分化を促進する、主要調節因子の正のフィードバックループを特定した。細胞タイプ特異的遺伝子、ＴＦ、及びそれらの調節相互作用は、本発明者らのウェブサイトで可視化し、検討することができる。

ヒト－マウスの統合解析

本発明者らは、最初に、ヒト胎児細胞アトラスとマウス器官形成細胞アトラス（ＭＯＣＡ）との相関細胞タイプを同定するために、若干修正した戦略を適用した。最初に、細胞タイプ特異的ＵＭＩ数を集計し、合計数で正規化し、１００，０００を乗じ、擬似カウントを加えた後に対数変換した。次いで、データセットＢでの全細胞タイプの遺伝子発現（Ｍ_ｂ）を用いて、データセットＡでのターゲット細胞タイプの遺伝子発現（Ｔ_ａ）を予測するために、非負最小二乗法（ＮＮＬＳ）回帰を適用した。

Ｔ_ａ＝β_０ａ＋β_１ａＭ_ｂ

式中、Ｔ_ａ及びＭ_ｂは、データセットＡからのターゲット細胞タイプのフィルタリングされた遺伝子発現、及びデータセットＢからの全ての細胞タイプをそれぞれ表す。精度及び特異性を改善するために、１）ターゲット細胞タイプと全細胞タイプの中央発現との間での発現倍率変化に基づいて遺伝子をランク付けし、次いで上位２００個の遺伝子を選択すること、２）ターゲット細胞タイプと全ての他の細胞タイプのうちで最大発現を有する細胞タイプとの間での発現倍率変化に基づいて遺伝子をランク付けし、次いで、上位２００個の遺伝子を選択すること、３）工程（１）及び（２）からの遺伝子リストをマージすること、によって各ターゲット細胞の細胞タイプ特異的遺伝子を選択した。β_１ａは、ＮＮＬＳ回帰によって計算した相関係数である。

同様に、データセットＡ及びＢの順序を切り替え、データセットＡでの全細胞タイプ（Ｍ_ａ）の遺伝子発現を用いて、データセットＢでのターゲット細胞タイプ（Ｔ_ｂ）の遺伝子発現を予測する。

Ｔ_ｂ＝β_０ｂ＋β_１ｂＭ_ａ

したがって、データセットＡの各細胞タイプａ及びデータセットＢの各細胞タイプｂは、上記の解析からの２つの相関係数、すなわち、ｂを使用して細胞タイプａを予測するためのβ_ａｂ、及びａを使用して細胞タイプｂを予測するためのβ_ｂａによってリンクされている。以下のようにこれら２つの値を組み合わせた。

β＝β_ａｂ＋β_ｂａ

また、βは、特異性の高い２つのデータセット間での細胞タイプのマッチを反映することを見出した。データセットＢの全細胞タイプは、データセットＡの細胞タイプごとに、βによってランク付けされ、上位の細胞タイプ（β＞０．０６）はマッチした細胞タイプとして同定される。本発明者らは、この研究からの全てのヒト細胞タイプを、マウス胚細胞アトラス（ＭＯＣＡ）からの１０の主要細胞軌道及び５６のサブ軌道と比較した。

次に、ヒト及びマウスの両方で共有遺伝子名を有する、上位３，０００の高度に可変の遺伝子で選択した３０の次元で、Ｓｅｕｒａｔｖ３統合法（ＦｉｎｄＡｎｃｈｏｒｓ及びＩｎｔｅｇｒａｔｅＤａｔａ）を使用して、ヒト胎児細胞アトラス及びマウス有機新生細胞アトラス（ＭＯＣＡ）を統合した。まず、６５，０００個のヒト胎児細胞（７７細胞タイプのそれぞれからランダムに最大１，０００個サンプリングされた細胞）と、ＭＯＣＡからランダムにサンプリングされた１００，０００個のマウス胚細胞とをデフォルトパラメータを用いて統合した。次いで、同一の統合解析戦略を適用して、造血、内皮、及び上皮の軌跡から、ヒト細胞及びマウス細胞を抽出した。

実施例３

３レベルのコンビナトリアルインデクシング（ｓｃｉ－ＡＴＡＣ－ｓｅｑ）に基づいたクロマチンアクセス可能性の単一細胞プロファイリング方法

材料

試薬及び消耗品

０．５ＭＥＤＴＡ（ＴｈｅｒｍｏＦｉｓｈｅｒＳｃｉｅｎｔｉｆｉｃ、ＡＭ９２６０Ｇ）；１００ｂｐラダー（ＮｅｗＥｎｇｌａｎｄＢｉｏｌａｂｓ（ＮＥＢ）、Ｎ３２３１Ｌ）；１０００ＸＳｙｂｒ（Ｉｎｖｉｔｒｏｇｅｎ（Ｇｉｂｃｏ／ＢＲＬＬｉｆｅＴｅｃｈ）、Ｓ７５６３）；１０ｍＭＡＴＰ（ＮｅｗＥｎｇｌａｎｄＢｉｏｌａｂｓ（ＮＥＢ）、ＰＯ７５６Ｓ）；１０ＸＨＢＳＳ（Ｇｉｂｃｏ／ＢＲＬＬｉｆｅＴｅｃｈ、１４０６５－０５６）；１０ＸＰＮＫ緩衝液（ＮｅｗＥｎｇｌａｎｄＢｉｏｌａｂｓ（ＮＥＢ）、Ｍ０２０１Ｌ）；１ＭＭｇＣｌ２（ＴｈｅｒｍｏＦｉｓｈｅｒＳｃｉｅｎｔｉｆｉｃ、ＡＭ９５３０Ｇ）；１ＸＤＰＢＳ（ＴｈｅｒｍｏＦｉｓｈｅｒＳｃｉｅｎｔｉｆｉｃ、１４１９０－１４４）；５％ジギトニン（ＴｈｅｒｍｏＦｉｓｈｅｒＳｃｉｅｎｔｉｆｉｃ、ＢＮ２００６）；５ＭＮａＣｌ（ＴｈｅｒｍｏＦｉｓｈｅｒＳｃｉｅｎｔｉｆｉｃ、ＡＭ９７５９）；６％ＴＢＥＰＡＧＥ（Ｉｎｖｉｔｒｏｇｅｎ（Ｇｉｂｃｏ／ＢＲＬＬｉｆｅＴｅｃｈ）、ＥＣ６２６５ＢＯＸ）；６ｘオレンジ染料（ＮｅｗＥｎｇｌａｎｄＢｉｏｌａｂｓ（ＮＥＢ）、Ｂ７０２２Ｓ）；ＡＭＰｕｒｅＢｅａｄｓ（ＢｅｃｋｍａｎＣｏｕｌｔｅｒ、Ａ６３８８２）；ＢＳＡ、ＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙＧｒａｄｅ（ＮｅｗＥｎｇｌａｎｄＢｉｏｌａｂｓ（ＮＥＢ）、Ｂ９０００Ｓ）；ＤＮＡＬｏＢｉｎｄチューブ１．５ｍＬ、ＰＣＲｃｌｅａｎ（ＥｐｐｅｎｄｏｒｆＮｏｒｔｈＡｍｅｒｉｃａ、２２４３１０２１）；ＤＬ－ジチオトレイトール、１Ｍ１０ｘ０．５ＭＬ（ＳｉｇｍａＡｌｄｒｉｃｈ、６４５６３－１０ｘ．５ＭＬ）；ＥＢ緩衝剤（Ｑｉａｇｅｎ、１９０８６）；ファルコンチューブ、１５ｍＬ（ＶＷＲＳｃｉｅｎｔｉｆｉｃ、２１００８－９３６）；ファルコンチューブ、５０ｍＬ（ＶＷＲＳｃｉｅｎｔｉｆｉｃ、２１００８－９４０）；Ｆａｌｃｏｎ（登録商標）５ｍＬ丸底（細胞ストレーナー付き）（ＦｉｓｈｅｒＳｃｉｅｎｔｉｆｉｃ、３５２２３５）；グリーンパックＬＴＳ２００ｕＬフィルターチップ（ＧＰ－Ｌ２００Ｆ）（ＲａｉｎｉｎＩｎｓｔｒｕｍｅｎｔ、１７００２４２８）；グリーンパックＬＴＳ２０ｕＬフィルターチップ（ＧＰ－Ｌ２０Ｆ）（ＲａｉｎｉｎＩｎｓｔｒｕｍｅｎｔ、１７００２４２９）；グリセロール（ＳｉｇｍａＡｌｄｒｉｃｈ、Ｇ５５１６－５００ＭＬ）；グリシン（ＳｉｇｍａＡｌｄｒｉｃｈ、５００４６－２５０Ｇ）；ＩＧＥＰＡＬＣＡ－６３０（ＳｉｇｍａＡｌｄｒｉｃｈ、Ｉ８８９６－５０ＭＬ）；Ｌｉｑｕｉｄａｔｏｒチップ－１０ｕＬ（ＲａｉｎｉｎＩｎｓｔｒｕｍｅｎｔ、１７０１１１１７）；Ｌｉｑｕｉｄａｔｏｒチップ－２００ｕＬ（ＲａｉｎｉｎＩｎｓｔｒｕｍｅｎｔ、１７０１０６４６）；ＬｏＢｉｎｄクリア、９６ウェルＰＣＲプレート（ＥｐｐｅｎｄｏｒｆＮｏｒｔｈＡｍｅｒｉｃａ、３０１２９５１２）；低プロファイル０．２ｍＬ８チューブ白色チューブ（キャップなし）（Ｂｉｏ－ｒａｄＬａｂｏｒａｔｏｒｉｅｓ、ＴＬＳ０８５１）；酢酸マグネシウム四水和物（ＳｉｇｍａＡｌｄｒｉｃｈ、Ｍ５６６１－５０Ｇ）；Ｍｉｃｒｏｓｅａｌ「Ｂ」接着シール（Ｂｉｏ－ＲａｄＬａｂｏｒａｔｏｒｉｅｓ、ＭＳＢ１００１）；ＮａｌｇｅｎｅＭＦ７５滅菌フィルターユニット、０．２ｕｍ－２５０ｍＬ（ＶＷＲ、２８１９９－１１２）；ＮａｌｇｅｎｅＭＦ７５滅菌フィルターユニット、０．２ｕｍ－５００ｍＬ（ＶＷＲ、２８１９８－５０５）；ＮＥＢＮｅｘｔＨｉ－ｆｉｄｅｌｉｔｙマスターミックス（２ｘ）（ＮｅｗＥｎｇｌａｎｄＢｉｏｌａｂｓ（ＮＥＢ）、Ｍ０５４１Ｌ）；ＮｅｘｔＳｅｑ５００高出力キット（１５０サイクル）（ＩｌｌｕｍｉｎａＩｎｃ．、ＦＣ－４０４－２００２）；不織布ガーゼ（Ｄｕｋａｌ、６１１４）；ヌクレアーゼフリー水（ＴｈｅｒｍｏＦｉｓｈｅｒＳｃｉｅｎｔｉｆｉｃ、ＡＭ９９３７）；オプティカルフラット８ストリップキャップ（Ｂｉｏ－ＲａｄＬａｂｏｒａｔｏｒｉｅｓ、ＴＣＳ－０８０３）；プロテアーゼ阻害剤（ＳｉｇｍａＡｌｄｒｉｃｈ、Ｐ８３４０－１ｍＬ）；ＲＴ－Ｌ２５０ＷＳワイドオリフィスＬＴＳ２５０ｕＬ（ＲａｉｎｉｎＩｎｓｔｒｕｍｅｎｔ、３０３８９２４９）；試薬リザーバー（ＦｉｓｈｅｒＳｃｉｅｎｔｉｆｉｃ、０７－２００－１２７）；スペルミジン（ＳｉｇｍａＡｌｄｒｉｃｈ、Ｓ２６２６－１Ｇ）；ＳｙｂｒＧｏｌｄ（Ｉｎｖｉｔｒｏｇｅｎ（Ｇｉｂｃｏ／ＢＲＬＬｉｆｅＴｅｃｈ）、Ｓ－１１４９４）；Ｓｔｅｒｉｆｌｉｐ使い捨て真空フィルターユニット、０．２２ｕｍ孔（ＦｉｓｈｅｒＳｃｉｅｎｔｉｆｉｃ、ＳＣＧＰ００５２５）；Ｔ４ＰＮＫ（ＮｅｗＥｎｇｌａｎｄＢｉｏｌａｂｓ（ＮＥＢ）、Ｍ０２０１Ｌ）；Ｔ７リガーゼ（ＮｅｗＥｎｇｌａｎｄＢｉｏｌａｂｓ（ＮＥＢ）、Ｍ０３１８Ｌ）；Ｔ７リガーゼ緩衝液（ＮｅｗＥｎｇｌａｎｄＢｉｏｌａｂｓ（ＮＥＢ）、Ｍ０３１８Ｌ）；Ｔａｐｅｓｔａｔｉｏｎ（Ｄ５０００試薬）（ＡｇｉｌｅｎｔＴｅｃｈｎｏｌｏｇｉｅｓ、５０６７－５５８９）；Ｔａｐｅｓｔａｔｉｏｎ（スクリーンテープ）（ＡｇｉｌｅｎｔＴｅｃｈｎｏｌｏｇｉｅｓ、５０６７－５５８８）；ＴＤ緩衝液（２ｘ）（ＩｌｌｕｍｉｎａＩｎｃ．、ＦＣ－１２１－１０３１）；ＴＤＥ１（Ｔｎ５）（ＩｌｌｕｍｉｎａＩｎｃ．、ＦＣ－１２１－１０３１）、Ｔｒｉｓ－ＨＣｌｐＨ７．５（１Ｍ）（ＴｈｅｒｍｏＦｉｓｈｅｒＳｃｉｅｎｔｉｆｉｃ、１５５６７０２７）；Ｔｗｅｅｎ－２０（ＴｈｅｒｍｏＦｉｓｈｅｒＳｃｉｅｎｔｉｆｉｃ、ＢＰ３３７－５００）；ＵｌｔｒａＰｕｒｅ蒸留水（ＤＮＡｓｅ、ＲＮＡｓｅ、Ｆｒｅｅ）（ＴｈｅｒｍｏＦｉｓｈｅｒＳｃｉｅｎｔｉｆｉｃ、１０９７７０２３）；ＤＮＡＣｌｅａｎａｎｄＣｏｎｃｅｎｔｒａｔｅ（ＤＣＣ－５）（ＺｙｍｏＲｅｓｅａｒｃｈ、Ｄ４０１４）。

器具：

Ａｇｉｌｅｎｔ４２００ＴａｐｅＳｔａｔｉｏｎＳｙｓｔｅｍ；Ｂｒｉｇｈｔ－Ｌｉｎｅ（商標）Ｈｅｍａｃｙｔｏｍｅｔｅｒ（Ｓｉｇｍａ）；遠心分離器（４℃まで冷却）（Ｅｐｐｅｎｄｏｒｆ、５８１０Ｒ）；ＤｙｎａＭａｇ（商標）９６ＳｉｄｅＳｋｉｒｔｅｄＭａｇｎｅｔ（ＴｈｅｒｍｏＦｉｓｈｅｒＳｃｉｅｎｔｉｆｉｃ、１２０２７）；ＥｐｐｅｎｄｏｒｆＭａｓｔｅｒｃｙｃｌｅｒ（サーマルサイクラー）；ＦＡＣＳＡｒｉａＩＩＩセルソーター（ＢＤ）；冷凍庫（－２０℃、－８０℃）及び冷蔵庫（４℃）；ゲルボックス；試料保管用液体窒素タンク；顕微鏡；マルチチャネルピペット（１０ｕＬ、２００ｕＬ）（ＲａｉｎｉｎＩｎｓｔｒｕｍｅｎｔ）；ＮｅｘｔＳｅｑ５００プラットフォーム（Ｉｌｌｕｍｉｎａ）、ＲａｉｎｉｎＬｉｑｕｉｄａｔｏｒ９６手動ピペッティングシステム

試薬調製：

のファルコンチューブ内で、５００ｕＬの１ＭＴｒｉｓ－ＨＣｌｐＨ７．４（最終的に１０ｍＭＴｒｉｓ－ＨＣ）、１００ｕＬの５ＭＮａＣｌ（最終的に１０ｍＭＮａＣｌ）、３００ｕＬの０．５ＭＭｇＣｌ２（最終的に３ｍＭＭｇＣｌ２）及び４９．１ｍＬのヌクレアーゼフリー水を混合する。Ｍｉｌｌｉｐｏｒｅ「Ｓｔｅｒｉｆｌｉｐ」滅菌、使い捨て真空フィルターユニット、ＰＥＳ膜；孔径：０．２２μｍ（ＳＣＧＰ００５２５）を使用することによって濾過滅菌する。緩衝液を、最大６ヶ月間４℃で保管する。

１０％Ｔｗｅｅｎ－２０（最大６ヶ月間４℃で保管）；１０％ＩＧＥＰＡＬＣＡ－６３０（最大６ヶ月間４℃で保管）；１％ジギトニン（ヌクレアーゼフリー水を用いて５％ジギトニンを１％に希釈し、最大６ヶ月間４℃で保管）

凍結緩衝液（ＦＢ）。５０ｍＬのファルコンチューブ内で、５０ｍＭＴｒｉｓ（ｐＨ８．０）、２５％グリセロール、５ｍＭＭｇ（ＯＡｃ）２、０．１ｍＭＥＤＴＡ、及び水を混合する。Ｍｉｌｌｉｐｏｒｅ「Ｓｔｅｒｉｆｌｉｐ」滅菌、使い捨て真空フィルターユニット、ＰＥＳ膜；孔径：０．２２μｍ（ＳＣＧＰ００５２５）を使用することによって濾過滅菌する。緩衝液を、最大６ヶ月間４℃で保管する。核単離の日に、９７５ｕＬのＦＢ、５ｕＬの５ｍＭＤＴＴ（Ｓｉｇｍａ－Ａｌｄｒｉｃｈカタログ番号６４６５６３－１０Ｘ０．５ｍＬ）及び２０ｕＬの５０ｘプロテアーゼ阻害剤カクテル（Ｓｉｇｍａ－Ａｌｄｒｉｃｈカタログ番号Ｐ８３４０）を混合する。

２．５Ｍグリシン。２．５Ｍグリシンを作製する。４６．９２ｇのグリシンを２５０ｍＬの水に混合し、次いで濾過滅菌する（Ｎａｌｇｅｎｅ濾過システム、０．２ｕｍ硝酸細胞ロース膜（ＶＷＲ、２８１９９－１１２）。試薬を、最大６ヶ月間室温で保管する。

４０ｍＭＥＤＴＡ。０．５ＭＥＤＴＡのストック（Ｉｎｖｉｔｒｏｇｅｎ、ＡＭ９２６２）及び水から４０ｍＭＥＤＴＡを作製し、次いで濾過滅菌する（ＶＷＲ、２８１９８－５０５）。試薬を、最大６ヶ月間室温で保管する。

細胞培養。１５％ＦＢＳ（ＴｈｅｒｍｏＦｉｓｈｅｒカタログ番号ＳＨ３００７１．０３）及び１％Ｐｅｎ－ｓｔｒｅｐ（ＴｈｅｒｍｏＦｉｓｈｅｒカタログ番号１５１４０１２２）を含むＲＰＭＩ１６４０培地（ＴｈｅｒｍｏＦｉｓｈｅｒＳｃｉｅｎｔｉｆｉｃカタログ番号１１８７５－０９３）でＧｍ１２８７８細胞を培養し、維持した。これらをカウントし、３００，０００細胞／ｍＬで週に３回分割した。１０％ＦＢＳ、１％Ｐｅｎ－ｓｔｒｅｐ（ペニシリン及びストレプトマイシン）及び１×１０＾５ＭＢ－ＭＥを含むＲＰＭＩ１６４０培地でＣＨ１２－ＬＸマウス細胞株を培養した。これらをカウントし、１×１０＾５細胞／ｍＬの密度で維持し、細胞濃度を維持するために週に３回分割した。両方の細胞株を、５％ＣＯ_２、３７℃でインキュベートした。

細胞株からの核分離及び固定。懸濁細胞については、～１０～１００百万個の細胞を得て、５００ｘｇ、室温で５分間回転させることにより細胞をペレット化する。上清を吸引し、１ｍＬのＯｍｎｉ－ＡＴＡＣ溶解緩衝液（１０ｍＭＮａＣｌ、３ｍＭＭｇＣｌ２、１０ｍＭＴｒｉｓ－ＨＣｌｐＨ７．４、０．１％ＮＰ４０、０．１％Ｔｗｅｅｎ２０、及び０．０１％ジギトニン）にペレットを再懸濁し、氷上で３分間インキュベートする。５ｍＬの１０ｍＭＮａＣｌ、３ｍＭＭｇＣｌ２、１０ｍＭＴｒｉｓ－ＨＣｌｐＨ７．４に０．１％Ｔｗｅｅｎ２０を添加し、５００ｘｇ、４℃で５分間ペレット化する。上清を吸引し、５ｍＬの１ＸＤＰＢＳ（ＴｈｅｒｍｏＦｉｓｈｅｒカタログ番号１４１９０１４４）に核を再懸濁する。核を架橋するために、１４０ｕＬの３７％ホルムアルデヒドをメタノール（ＶＷＲカタログ番号ＭＫ５０１６０２）に１回で添加し、最終濃度は１％であった。固定混合物を室温で１０分間インキュベートし、１～２分ごとに反転させる。架橋反応をクエンチするために、２５０ｕＬの２．５Ｍグリシンを添加し、室温で５分間インキュベートし、次いで氷上で１５分間インキュベートして、架橋を完全に停止させる。２０ｕＬのクエンチした架橋混合物を、カウントするために２０ｕＬのトリパンブルーに入れる。架橋核を５００ｘｇ、４℃で５分間回転させ、上清を吸引する。固定核を適切量の凍結緩衝液（ｐＨ８．０の５０ｍＭＴｒｉｓ、２５％グリセロール、５ｍＭＭｇ（ＯＡｃ）_２、０．１ｍＭＥＤＴＡ、５ｍＭＤＴＴ（Ｓｉｇｍａ－Ａｌｄｒｉｃｈカタログ番号６４６５６３－１０Ｘ０．５ｍＬ）、１×プロテアーゼ阻害剤カクテル（Ｓｉｇｍａ－Ａｌｄｒｉｃｈカタログ番号Ｐ８３４０））に固定核を再懸濁し、１ｍＬのアリコート当たり２百万個の核を得て、液体窒素中で急速凍結し、－８０℃で保管する。

組織の調達及び保管。

対象となる組織を単離する。１ＸＨＢＳＳｐＨ７．４（Ｃａを含む、Ｍｇを含む）中で、カルシウム及びマグネシウムを含み、フェノールレッドを含まず、ＧｉｂｃｏＢＲＬ（５００ｍＬ）１４０６５－０５６．１ＸＨＢＳＳを含む１ＸＨＢＳＳを洗い流す。半分湿ったガーゼ上で組織を吸収乾燥させる（湿ったガーゼは、組織がガーゼに付着しないようにする）。不織布ガーゼＤｕｋａｌ＃６１１４。乾燥した組織を頑丈な箔（ＮＣ１９１８０１３２、ＦｉｓｈｅｒＳｃｉｅｎｔｉｆｉｃ）上又はクライオチューブ内に置く。注：クライオチューブは、液体窒素を使用して、組織を急速凍結する、急速凍結プロセス中に閉じ込められた空気／水分に起因して、チューブ内に水結晶の「霜」を生成することができる。－８０℃で組織を保管庫に保管する。

粉砕及び保管。粉砕日に、ドライアイスと金属との間に布タオルを置いて、予め標識したチューブ及びハンマーをドライアイス上で予め冷却する。１８インチ×１８インチの頑丈な箔を用いて「詰め物」を作製し、半分に２回折って矩形にする。更に２回折って、正方形にする。箔の「詰め物」の内側に凍結した組織を入れ、次いで、予め冷却した４ｍｍプラスチックバッグの内側に、箔の詰め物に入れた組織を配置して、箔が破裂した場合に組織がドライアイス上に落下しないようにする。この組織パケットを、２枚のドライアイスの間で冷却する。予め冷却したハンマーを使用して、パケットの内側の組織を手動で粉砕する。３～５回の衝撃で粉砕動作を回避し、試料が加熱しないように休憩する。組織が均一になるまで必要に応じてハンマーを冷却し、粉砕を繰り返す。粉砕した組織を、予め標識し、予め冷却した１．５ｍＬのＬｏＢｉｎｄ及びヌクレアーゼフリーのスナップキャップ付き１．５ｍＬチューブ（Ｅｐｐｅｎｄｏｒｆカタログ番号０２２４３１０２１）に等分する。粉状組織のアリコートは、更に処理するときまで－８０℃で保管することができる。

凍結組織の核単離及び固定。開始前に、Ｏｍｎｉ溶解緩衝液（ＲＳＢ＋０．１％Ｔｗｅｅｎ＋０．１％ＮＰ－４０及び０．０１％ジギトニン）及び０．１％Ｔｗｅｅｎ－２０を含むＲＳＢを調製した。核の単離日に、溶解緩衝液をチューブに直接添加する、又は細胞溶解緩衝液の入った６０ｍｍの皿に凍結したアリコートを入れ、刃を用いて更に細分化する。保管のある時点でアリコートが解凍しない限り、粉状組織のアリコートは、試料損失なしで保管チューブから容易に引き出されるべきである。元の組織重量１ｍｇ当たり推定～２０，０００個の細胞を得ることができ、性能は組織ごとに異なり得る。粉砕した組織を１ｍＬのＯｍｎｉ溶解（ＲＳＢ＋０．１％Ｔｗｅｅｎ＋０．１％ＮＰ－４０及び０．０１％ジギトニン）に再懸濁し、次いで１５ｍＬのファルコンチューブに移す。氷上で核を３分間インキュベートし、次いで、５ｍＬのＲＳＢ＋０．１％Ｔｗｅｅｎ２０を添加する。核を５００×ｇ、４℃で５分間遠心分離する。上清を吸引し、５ｍＬの１ＸＤＰＢＳに再懸濁する。１ＸＤＰＢＳ中の核を１００ｕｍ細胞ストレーナー（ＶＷＲカタログ番号１０１９９－６５８）に通して、組織塊を除去する。

ドラフト内で、１回で１４０ｕＬの３７％ホルムアルデヒド（ＶＷＲ、ＭＫ５０１６０２）をメタノールに添加して１％の最終濃度にし、チューブを数回反転させて素早く混合することによって核を架橋する。１～２分ごとにチューブを静かに反転させながら、室温で正確に１０分間インキュベートする。２５０ｕＬの２．５Ｍグリシン（新たに作製し、濾過滅菌済み）を添加して、架橋反応をクエンチし、チューブを数回反転させてよく混合する。室温で５分間インキュベートし、次いで氷上で１５分間インキュベートして、架橋を完全に停止させる。血球計を使用して核をカウントして添加する凍結緩衝液の最終量を確認する。目的は、～１００～２００万個の核／チューブを凍結することである。架橋核を５００ｘｇ、４℃で５分間遠心分離し、上清を吸引し、１ｘプロテアーゼ阻害剤及び５ｍＭＤＴＴを補充した凍結緩衝液１～１０ｍＬにペレットを再懸濁する。液体窒素中で核を急速凍結し、－８０℃で核を保管する。

ｓｃｉＡＴＡＣ－ｓｅｑ３試料の処理（ライブラリー構築及びｑｃ）。解凍、透過処理、カウント、及びタグ化。開始前に、Ｏｍｎｉ溶解緩衝液（ＲＳＢ＋０．１％Ｔｗｅｅｎ＋０．１％ＮＰ－４０及び０．０１％ジギトニン）及び０．１％Ｔｗｅｅｎ－２０を含むＲＳＢを調製した。凍結した固定核を－８０℃から取り出し、ドライアイスの床に置く。解凍するまで３７℃の水浴中で核を解凍し（～３０秒～１分）、核を１５ｍＬのファルコンチューブに移す。核を５００ｘｇ、４℃で５分間ペレット化する。ペレットを乱すことなく上清を吸引し、２００ｕＬのＯｍｎｉ溶解緩衝液にペレットを再懸濁し、次いで氷上で３分間インキュベートする。０．１％Ｔｗｅｅｎ２０を含む１ｍＬのＡＴＡＣ－ＲＳＢで溶解緩衝液を洗い流し、チューブを３回静かに反転させて混合する。２０ｕＬの核及び２０ｕＬのトリパンブルーを取って、核をカウントする。カウントしつつ、今後は可能な限り、核を氷上に維持する。３８４＾３ｄでの３レベルインデクシング実験では、核入力数は、組織ごとのウェル当たり４８０万個＠５０，０００の核、又は９６回の反応にわたって拡散した試料である。バッチごとに、２３の試料／組織、並びに２４番目の試料及び対照としてマウス核とヒト核との混合物が存在する。タグ付け反応用のマスターミックスを作製する（表１）。

試料ごとに、（カウントに基づいて）２２５，０００個の核を取り、５００ｘｇ、４℃で５分間回転させ、上清を吸引し、２１３ｕＬの予め作製したタグ付け反応マスターミックスにペレットを再懸濁する。ＬｏＢｉｎｄ９６ウェルプレート（Ｅｐｐｅｎｄｏｒｆカタログ番号３０１２９５１２）の４ウェルにわったって広口チップ（ＲａｉｎｉｎＩｎｓｔｒｕｍｅｎｔＣｏカタログ番号３０３８９２４９）を使用して、タグ付けミックス中の４７．５ｕＬの核を等分する。ウェル当たり２．５ｕＬのＮｅｘｔｅｒａｖ２酵素（ＩｌｌｕｍｉｎａＩｎｃカタログ番号ＦＣ－１２１－１０３１）を添加し、接着テープでプレートを封止し、５００ｘｇで３０秒間回転させる。プレートを５５℃で３０分間インキュベートしてＤＮＡのタグ付けを行う。２５ｍＬの４０ｍＭＥＤＴＡ及び３．９ｕＬの６．４Ｍスペルミジン（最終的に２０ｍＭＥＤＴＡ及び１ｍＭスペルミジン）を混合することによって、停止反応マスターミックスを作製する。５０ｕＬの停止反応混合物（１ｍＭスペルミジンを含む４０ｍＭＥＤＴＡ）を添加してタグ付け反応を停止させ、次いで３７℃で１５分間インキュベートした。

プール、ＰＮＫ反応、及びＮ５ライゲーション。広口チップを使用して、タグ付き核を（試料ごとに）プールし、５００ｘｇ、４℃で５分間ペレット化し、次いで、０．１％Ｔｗｅｅｎ２０を含む５００ｕＬのＡＴＡＣ－ＲＳＢで洗浄した。核を５００ｘｇ、４℃で５分間ペレット化し、上清を吸引し、試料ごとに、０．１％Ｔｗｅｅｎ－２０を含む１８ｕＬのＡＴＡＣ－ＲＳＢに再懸濁する。ＰＮＫ反応マスターミックスを作製する（表２）。

７２ｕＬのＰＮＫマスターミックスを各試料に添加する。５ｕＬのＰＮＫ反応ミックスを（４枚の９６ウェルプレートにわたって１６ウェルに）等分する。接着テープを用いて封止し、５００ｘｇ、４℃で５分間回転させる。ＰＮＫ反応物を３７℃で３０分間インキュベートした。４４０回の反応に十分なＮ５ライゲーションマスターミックスを作製する（表３）。

マルチチャネルを使用して、１３．８ｕＬのライゲーションマスターミックスを各ＰＮＫ反応に直接添加する。マルチチャネル、つまり９６ヘッドディスペンサー（Ｌｉｑｕｉｄａｔｏｒ、カタログ番号１７０１０３３５）を使用し、４枚の９６ウェルプレートにわたって各ウェルに１．２ｕＬの５０ｕＭＮ５＿オリゴ（ＩＤＴ）を添加する。接着テープを用いて封止し、５００ｘｇで３０秒間回転させ、次いで２５℃で１時間インキュベートする。初回のライゲーション後、２０ｕＬのＥＤＴＡ及びスペルミジンミックス（２０ｍＭＥＤＴＡ及び１ｍＭスペルミジン）を添加してライゲーション反応を停止させ、３７℃で１５分間インキュベートする。広口チップを使用して、各ウェルをトラフにプールし、５０ｍＬのファルコンチューブに移す。核を５００ｘｇ、４℃で５分間ペレット化し、上清を吸引し、０．１％Ｔｗｅｅｎ－２０を含む１ｍＬのＡＴＡＣ－ＲＳＢに核を再懸濁して、残留ライゲーション反応ミックスを全て洗浄する。核を５００ｘｇ、４℃で５分間ペレット化し、ペレットを乱すことなく上清を吸引する。

Ｎ７ライゲーション。４４０回の反応に十分なＮ７ライゲーションマスターミックス（１ＸＴ７リガーゼ緩衝液、９ｕＭＮ７＿スプリント（ＩＤＴ）、水、及びＴ７ＤＮＡリガーゼ）を調製し、ライゲーションマスターミックスで核を再懸濁する（表４）。

マスターミックスに懸濁した核をトラフに移し、広口チップを使用して、１８．８ｕＬのライゲーションマスターミックスを４枚の９６ウェルＬｏＢｉｎｄプレートに等分し、次いで、１．２ｕＬの５０ｕＭＮ７＿オリゴ（ＩＤＴ）を、４枚の９６ウェルプレートにわたって各ウェルに添加する。接着テープでプレートを封止し、５００ｘｇで３０秒間回転させ、次いで２５℃で１時間インキュベートし、２０ｕＬのＥＤＴＡ及びスペルミジンミックス（２０ｍＭＥＤＴＡ及び１ｍＭスペルミジン）を添加し、３７℃で１５分間インキュベートすることによってライゲーションを停止させる。

プール、カウント、及び希釈。広口チップを使用してトラフ内のウェルをプールし、次いで、５０ｍＬのファルコンチューブに移す。核を５００ｘｇ、４℃で５分間ペレット化し、上清を吸引し、２ｍＬのＱｉａｇｅｎＥＢ緩衝液（Ｑｉａｇｅｎカタログ番号１９０８６）に核を再懸濁する。４０ｕｍ濾過キャップ付きＦＡＣチューブ（ＦｉｓｈｅｒＳｃｉｅｎｔｉｆｉｃカタログ番号３５２２３５）を使用して核を濾過する２０ｕＬの再懸濁し、濾過した核及び２０ｕＬのトリパンブルーを得て、核をカウントする。１００～３００個の核／ｕＬに核を希釈し、１０ｕＬ／ウェルを４枚の９６ウェルＬｏＢｉｎｄプレートに等分する。

未架橋。核を逆架橋するために、ＥＢ緩衝液、プロテイナーゼｋ（Ｑｉａｇｅｎ、カタログ番号１９１３３）及び１％ＳＤＳ（それぞれ１ｕＬ／０．５ｕＬ／０．５ｕＬ／ウェル）の逆架橋マスターミックスを作製し、２ｕＬを各ウェルの核に添加する。接着テープで封止し、５００ｘｇで３０秒間回転させ、６５℃で１６時間インキュベートする。

試験ＰＣＲ及びゲルのＱＣ。開始前に未架橋プレートを短時間スピンダウンする。６回の反応に十分なＰＣＲマスターミックスを作製する（表５）。

３５．５ｕＬのＰＣＲマスターミックスを、８チューブストリップ（キャップなし、白）（Ｂｉｏ－ＲａｄＬａｂｏｒａｔｏｒｉｅｓ、ＴＬＳ０８５１）に等分する。１．２５ｕＬの１０ｕＭＰ７及びＰ５プライマーを添加する。１２ｕＬの未架橋核をＰＣＲ及びプライマーミックスに添加する。オプティカルフラット８ストリップキャップ（Ｂｉｏ－ＲａｄＬａｂｏｒａｔｏｒｉｅｓ、ＴＣＳ－０８０３）で反応チューブにキャップをかぶせる。ｑＰＣＲ機に入れ、増幅をモニタリングして、最適サイクル数を決定する（７２℃で５分間、９８℃で３０秒間、「９８℃で１０秒間、６３℃で３０秒間、７２℃で１分間」を３０サイクル、次に１０℃で保持）。試験ウェルに基づいて、試験ウェルが全て明確に増幅されるものの、ウェルのいずれかの蛍光強度が飽和する前であるサイクル数を選択する。ＱＣのために１ｕｌのＰＣＲ産物を得る：試料＝１ｕＬ＋９ｕＬのヌクレアーゼフリー水＋２ｕＬの６ｘオレンジ染料；１００ｂｐのラダー（１：１０）＝１ｕＬ＋９ｕＬのヌクレアーゼフリー水＋２ｕＬの６ｘオレンジ染料。６％ＴＢＥポリアクリルアミドゲルを１８０ボルトで３５分間実行する。５ｕＬのＳＹＢＲＧｏｌｄ及び５０ｍＬの０．５ＸＴＢＥ緩衝液を用いて、室温で５分間染色する。

ＰＣＲプレートの設定。プレートを短時間スピンダウンする。ＰＣＲ試験結果が利用可能になるまで氷上に置く。ＰＣＲマスターミックスを作製する（表６）：

増幅中に使用する行及び列のプライマーの組み合わせを記す。接着テープで封止し、次いで５００ｘｇで３０秒間回転させる。試験ＰＣＲの結果からの最適サイクル数を使用して、ＰＣＲプレートを実行する（７２℃で５分間、９８℃で３０秒間、１０～２０サイクル：９８℃で１０秒間、６３℃で３０秒間、７２℃で１分間、次いで１０℃で保持）。

ＰＣＲ増幅のクリーンアップ及びＱＣ。ＺｙｍｏＣｌｅａｎ＆Ｃｏｎｃｅｎｔｒａｔｏｒ－５を用いてＰＣＲ産物を洗浄する。２５ｕＬの各ＰＣＲ反応物（２．４ｍＬ）をトラフに合わせ、２倍量の結合緩衝液（４．８ｍＬ）を添加し、４本のＣ＆Ｃカラムに分割し（各カラムで６００ｕＬの回転を３回）、２００ｕＬのＺｙｍｏ洗浄緩衝液を添加し、回転させ（合計２回洗浄）、最後の洗浄後に更に１回回転させてカラムを１分間乾燥させ、２５ｕＬのＱｉａｇｅｎ溶出緩衝液に溶出させ（緩衝液をカラム上に１分間立て、次いで最高速度で１分間回転させる）、４つの溶出物を合わせ、１ＸＡＭＰｕｒｅビーズ（１００ｕＬ）中で２回目の洗浄を行い、上清が透明になるまでＭＰＣ（磁気粒子捕集器）に入れて、上清を吸引する。２００ｕＬの８０％エタノールでビーズを２回洗浄し、ビーズを過剰に乾燥させることなく、ビーズの色が鈍くなるまでビーズを３０秒～１分間乾燥させ、２５ｕＬのＱｉａｇｅｎＥＢ緩衝液にビーズを溶出させ、ＭＰＣに入れ、Ｔａｐｅｓｔａｔｉｏｎを使用して、ライブラリーＱＣ用の清潔なチューブに上澄みを移し、製造元の仕様書に従ってＤ５０００ＳｃｒｅｅｎＴａｐｅアッセイを使用する。断片解析のために、領域モル濃度を計算する２００～１０００ｂｐの領域表を作る。当該ｎＭ（ｎｍｏｌ／Ｌ）濃度を使用して、ＥＢ緩衝液及び０．１％Ｔｗｅｅｎ－２０でライブラリーを２ｎＭに希釈する複数のライブラリーをプールする場合、各ライブラリーを２ｎＭに正規化し、シークエンシング用の等モルプールを作製する。

次のシークエンシング（１５０サイクルキット）。ライブラリー変性：２ＮＮａＯＨを０．２ＮＮａＯＨに（１０ｕＬの１Ｎを９０ｕＬのヌクレアーゼフリー水に）希釈し、新しい１．５Ｌｏ－Ｂｉｎｄチューブで、１０ｕＬの０．１ＮＮａＯＨを移し、プールした１０ｕＬの２ｎＭライブラリーを添加し、室温で５分間インキュベートし、９８０ｕＬのＨＴ１を添加して、変性ライブラリーを２０ｐＭに希釈し、変性ライブラリーを１．８ｐＭのローディング濃度に希釈し（１３５ｕＬの２０ｐＭ＋１３６５ｕＬのＨＴ１）、カスタムプライマーを０．６ｕＭのＮｅｘｔＳｅｑシークエンシングレシピ名：３ＬＶ２＿ｓｃｉＡＴＡＣ＿ｈｉｇｈに希釈する。

Ｒ１－ｇＤＮＡの５０塩基、Ｒ２－ｇＤＮＡの５０塩基。

インデックス１－２０塩基（Ｎ７オリゴの１０塩基、１５暗サイクル、１０塩基ＰＣＲバーコード）、インデックス２－２０塩基（Ｎ５オリゴの１０塩基、１５暗サイクル、１０塩基ＰＣＲバーコード）。

シークエンシングプライマー：３Ｌ＿ＮｅｘｔｅｒａＶ２＿Ｒ１＿ｓｅｑＴＣＧＴＣＧＧＣＡＧＣＧＴＣＡＧＡＴＧＴＧＴＡＴＡＡＧＡＧＡＣＡＧ（配列番号５）；Ｌ＿ＮｅｘｔｅｒａＶ２＿Ｒ２＿ｓｅｑＧＴＣＴＣＧＴＧＧＧＣＴＣＧＧＡＧＡＴＧＴＧＴＡＴＡＡＧＡＧＡＣＡＧ（配列番号６）；３ＬＶ２＿ＩＤＸ１ＣＴＣＣＧＡＧＣＣＣＡＣＧＡＧＡＣＧＡＣＡＡＧＴＣ（配列番号７）；３ＬＶ２＿ＩＤＸ２ＡＣＡＣＡＴＣＴＧＡＣＧＣＴＧＣＣＧＡＣＧＡＣＴＧＡＴＴＡＣ（配列番号８）。

全ての特許、特許出願、及び刊行物、並びに本明細書で引用した電子的に利用可能な資料の完全な開示（例えば、ＧｅｎＢａｎｋ及びＲｅｆＳｅｑでのヌクレオチド配列の提出、ＳｗｉｓｓＰｒｏｔ、ＰＩＲ、ＰＲＦ、ＰＤＢでのアミノ酸配列の提出、並びにＧｅｎＢａｎｋ及びＲｅｆＳｅｑにおける注釈付きコード領域からの翻訳）は、参照によりその全体が組み込まれる。刊行物で参照されている補足資料（補足表、補足図、補足資料及び方法、並びに／又は補足実験データなど）も同様に、参照によりその全体が組み込まれる。本出願の開示と、参照により本明細書に組み込まれる文書の開示との間に矛盾が存在する場合、本出願の開示が優先するものとする。前述の詳細な説明及び実施例は、理解を明確にするためにのみ提供されている。それから不必要な制限を理解する必要はない。当業者に明らかな変形は、特許請求の範囲によって定義される開示に含まれるため、本開示は、図示及び記載された正確な詳細に限定されない。

別途記載のない限り、本明細書及び特許請求の範囲で使用される成分、分子量などの量を表す全ての数は、全ての場合において、用語「約」によって修飾されるものとして理解されるべきである。したがって、別途記載のない限り、本明細書及び特許請求の範囲に記載される数値パラメータは、本開示によって得られることが求められる所望の特性に応じて変化し得る近似値である。少なくとも、かつ均等論を特許請求の範囲に限定する試みとしてではなく、各数値パラメータは、少なくとも、報告された有効桁数に照らして、通常の四捨五入法を適用することによって解釈されるべきである。

本開示の広い範囲を示す数値範囲及びパラメータは近似値であることにかかわらず、特定の実施例に記載される数値は、可能な限り正確に報告される。しかしながら、全ての数値は、それぞれの試験測定値に見出される標準偏差から必然的に生じる範囲を本質的に含む。

全ての見出しは読者の便宜のためのものであり、特に明記されていない限り、見出しに続くテキストの意味を制限するために使用されるべきではない。

Claims

生物学的特徴を含む細胞のサブ集団を同定するための方法であって、
（ａ）単一細胞シークエンシングライブラリーを提供することであって、
前記シークエンシングライブラリーは、複数の修飾ターゲット核酸を含み、
前記修飾ターゲット核酸は、少なくとも１つのインデックス配列を含む、ことと、
（ｂ）生物学的特徴と同じ修飾ターゲット核酸に存在する前記インデックス配列を同定するために、前記シークエンシングライブラリーをターゲットシークエンシングによって精査することであって、
前記生物学的特徴に関連する前記インデックス配列は、マーカーインデックス配列である、ことと、
（ｃ）サブライブラリーを得るために前記シークエンシングライブラリーを改変することであって、
前記サブライブラリーは、マーカーインデックス配列を含まない、前記シークエンシングライブラリー内に存在する他の修飾ターゲット核酸と比較して、前記マーカーインデックス配列を含む前記修飾ターゲット核酸の増加した表現を含む、ことと、
（ｄ）マーカーインデックス配列を含む前記修飾ターゲット核酸のヌクレオチド配列を決定することと、を含む、方法。
前記単一細胞シークエンシングライブラリーは、複数の試料からの核酸を含む、請求項１に記載の方法。
前記複数の試料は、（ｉ）異なる生物から得られた同一組織の試料、（ｉｉ）１つの生物からの異なる組織の試料、又は（ｉｉｉ）異なる生物からの異なる組織の試料を含む、請求項２に記載の方法。
工程（ｂ）において、２つ以上のマーカーインデックス配列が同定される、請求項１に記載の方法。
前記単一細胞コンビナトリアルシークエンシングライブラリーは、前記細胞若しくは前記核の全ゲノム又は前記ゲノムのサブセットを表すターゲット核酸を含む、請求項１に記載の方法。
前記ゲノムの前記サブセットは、前記細胞又は前記核のトランスクリプトーム、アクセス可能クロマチン、ＤＮＡ、立体構造状態、又はタンパク質を表すターゲット核酸を含む、請求項５に記載の方法。
前記改変することは、前記マーカーインデックス配列を含む前記修飾ターゲット核酸の濃縮を含む、請求項１～６のいずれか一項に記載の方法。
前記濃縮することはハイブリダイゼーションベースの方法を含む、請求項７に記載の方法。
前記ハイブリダイゼーションベースの方法は、ハイブリッド捕捉、増幅、又はＣＲＩＳＰＲ（ｄ）Ｃａｓ９を含む、請求項８に記載の方法。
前記改変することは、前記マーカーインデックス配列を含まない前記修飾ターゲット核酸の枯渇を含む、請求項９に記載の方法。
前記枯渇はハイブリダイゼーションベースの方法を含む、請求項１０に記載の方法。
前記ハイブリダイゼーションベースの方法は、ハイブリッド捕捉、増幅、又はＣＲＩＳＰＲ（ｄ）Ｃａｓ９を含む、請求項１１に記載の方法。
前記生物学的特徴は、種のタイプを示すヌクレオチド配列を含む、請求項１に記載の方法。
前記種のタイプは前記細胞の種を含む、請求項１３に記載の方法。
前記生物学的特徴は、１６ｓサブユニット、１８ｓサブユニット、又はＩＴＳ非転写領域のヌクレオチドを含む、請求項１４に記載の方法。
前記生物学的特徴は、細胞クラスを示すヌクレオチド配列を含む、請求項１に記載の方法。
前記細胞クラスは、発現パターン、エピジェネティックパターン、免疫遺伝子組み換え、又はこれらの組み合わせを含む、請求項１６に記載の方法。
前記エピジェネティックパターンは、メチル化標識、メチル化パターン、アクセス可能ＤＮＡ、又はこれらの組み合わせを含む、請求項１７に記載の方法。
前記生物学的特徴は、疾患状態又はリスクを示すヌクレオチド配列を含む、請求項１に記載の方法。
疾患状態又はリスクは、変異ＤＮＡ配列、変異発現パターン、又は疾患と相関する変異エピジェネティックパターンを含む、請求項１９に記載の方法。
前記変異ＤＮＡ配列は、少なくとも１つの一塩基多型を含む、請求項２０に記載の方法。
前記変異発現パターンは、バイオマーカーの発現を含む、請求項２１に記載の方法。
前記変異エピジェネティックパターンは、メチル化標識、メチル化パターンを含む、請求項２２に記載の方法。
前記修飾ターゲット核酸は、少なくとも２つの区画特異的インデックス配列の連続インデックスを含み、前記２つのインデックス配列間には７個以上のヌクレオチドが存在しない、請求項１に記載の方法。
前記連続インデックスは、前記修飾ターゲット核酸の各末端に存在する、請求項２４に記載の方法。
前記連続インデックスの長さは少なくとも５５ヌクレオチドである、請求項２４又は２５に記載の方法。
前記連続インデックスの１つのコピーは、前記修飾ターゲット核酸に存在する、請求項２４～２６のいずれか一項に記載の方法。
前記連続インデックスの２つのコピーは、前記修飾ターゲット核酸に存在する、請求項２４～２６のいずれか一項に記載の方法。
前記シークエンシングライブラリーの前記複数の修飾ターゲット核酸は、少なくとも１００，０００個の異なる細胞又は核を表す、請求項１に記載の方法。
前記単一細胞コンビナトリアルシークエンシングライブラリーを提供することは、
試料を処理してライブラリーを作製することであって、前記試料は、生物から得られたメタゲノミクス試料である、ことを含む、請求項１に記載の方法。
前記生物は哺乳類である、請求項３０に記載の方法。
前記メタゲノミクス試料は、共生微生物又は病原微生物を含む疑いのある組織を含む、請求項３０又は３１に記載の方法。
前記微生物は原核生物又は真核生物である、請求項３２に記載の方法。
前記メタゲノミクス試料はマイクロバイオーム試料を含む、請求項３０、３１、又は３３のいずれか一項に記載の方法。
前記単一細胞コンビナトリアルシークエンシングライブラリーを提供することは、
ライブラリーを作製するために試料を処理することであって、前記試料は生物からのものである、ことを含む、請求項１に記載の方法。
前記生物は哺乳類である、請求項３５に記載の方法。
前記試料からの核酸の一次供給源はＲＮＡを含む、請求項３５に記載の方法。
前記ＲＮＡはｍＲＮＡを含む、請求項３７に記載の方法。
前記試料からの核酸の一次供給源はＤＮＡを含む、請求項３５に記載の方法。
前記ＤＮＡは全細胞ゲノムＤＮＡを含む、請求項３９に記載の方法。
前記全細胞ゲノムＤＮＡはヌクレオソームを含む、請求項４０に記載の方法。
前記試料からの核酸の前記一次供給源は無細胞ＤＮＡを含む、請求項３５に記載の方法。
前記試料は癌細胞を含む、請求項３５に記載の方法。
前記単一細胞コンビナトリアルシークエンシングライブラリーを提供することは、単一核トランスクリプトームシークエンシング、単一細胞トランスクリプトームシークエンシング、単一細胞トランスクリプトーム及びトランスポゾンアクセス可能クロマチンシークエンシング、単一核の全ゲノムシークエンシング、トランスポゾンアクセス可能クロマチンの単一核シークエンシング、単一細胞エピトープシークエンシング、ｓｃｉ－ＨｉＣ、及びｓｃｉ－ＭＥＴから選択される単一細胞コンビナトリアルインデクシング法を用いてライブラリーを作製することを含む、請求項１に記載の方法。
前記提供することは、各細胞又は核から２つの異なる単一細胞コンビナトリアルシークエンシングライブラリーを提供することを含む、請求項４４に記載の方法。
前記２つの異なる単一細胞コンビナトリアルシークエンシングライブラリーは、単一核トランスクリプトームシークエンシング、単一細胞トランスクリプトームシークエンシング、単一細胞トランスクリプトーム及びトランスポゾンアクセス可能クロマチンシークエンシング、単一核の全ゲノムシークエンシング、トランスポゾンアクセス可能クロマチンの単一核シークエンシング、ｓｃｉ－ＨｉＣ、及びｓｃｉ－ＭＥＴから選択される単一細胞コンビナトリアルインデクシング法から選択される、請求項４５に記載の方法。
前記核酸の前記ヌクレオチド配列を決定するためにシークエンシング手順を実行することを更に含む、請求項１に記載の方法。
複数の単一核又は単一細胞からの核酸を含むシークエンシングライブラリーを調製するための方法であって、
（ａ）複数の核又は細胞を提供することであって、前記核又は前記細胞はヌクレオソームを含む、ことと、
（ｂ）前記複数の核又は細胞を、トランスポザーゼ及びユニバーサル配列を含むトランスポソーム複合体と接触させることであって、前記接触させることは、前記ユニバーサル配列をＤＮＡ核酸に組み込み、前記ユニバーサル配列を含む二本鎖ＤＮＡ核酸をもたらすのに好適な条件を更に含む、ことと、
（ｄ）前記複数の核又は細胞を第１の複数の区画に分配することであって、
各区画は、核又は細胞のサブセットを含む、ことと、
（ｅ）インデックス付き核又は細胞を生成するために、核又は細胞の各サブセット内のＤＮＡ分子を処理することであって、
前記処理することは、核又は細胞の各サブセットに存在するＤＮＡ核酸に、第１の区画特異的インデックス配列を付加して、インデックス付き核又は細胞に存在するインデックス付き核酸をもたらし、
前記処理することは、ライゲーション、プライマー伸長、ハイブリダイゼーション、増幅、又はこれらの組み合わせを含む、ことと、
（ｇ）プールされたインデックス付き核又は細胞を生成するために、前記インデックス付き核又は細胞を組み合わせることと、を含む、方法。
前記提供することは、複数の区画内に前記複数の核又は細胞を提供することを含み、各区画は核又は細胞のサブセットを含み、前記接触させることは、各区画を前記トランスポソーム複合体と接触させることを含み、前記方法は、前記接触させることの後に前記核又は細胞を組み合わせて、プールされた核又は細胞を生成することを更に含む、請求項４８に記載の方法。
前記提供することは、前記単離された核の完全性を維持しながらヌクレオソーム枯渇核を生成するために、前記核を化学処理に供することを含む、請求項４８に記載の方法。
前記インデックス付き核又は細胞を含む前記プールされたインデックス付き核又は細胞を第２の複数の区画に分配することであって、
各区画は、核又は細胞のサブセットを含む、ことと、
二重インデックス付き核又は細胞を生成するために、核又は細胞の各サブセット内のＤＮＡ分子を処理することであって、
前記処理することは、核又は細胞の各サブセットに存在するＤＮＡ核酸に、第２の区画特異的インデックス配列を付加して、インデックス付き核又は細胞に存在する二重インデックス付き核酸をもたらし、
前記処理することは、ライゲーション、プライマー伸長、ハイブリダイゼーション、増幅、又はこれらの組み合わせを含む、ことと、
プールされた二重インデックス付き核又は細胞を生成するために、前記二重インデックス付き核又は細胞を組み合わせることと、を更に含む、請求項４８に記載の方法。
前記二重インデックス付き核又は細胞を含む前記プールされた核又は細胞を第３の複数の区画に分配することであって、
各区画は、核又は細胞のサブセットを含む、ことと、
三重インデックス付き核又は細胞を生成するために、核又は細胞の各サブセット内のＤＮＡ分子を処理することであって、
前記処理することは、核又は細胞の各サブセットに存在するＤＮＡ核酸に、第３の区画特異的インデックス配列を付加して、インデックス付き核又は細胞に存在する三重インデックス付き核酸をもたらし、
前記処理することは、ライゲーション、プライマー伸長、ハイブリダイゼーション、増幅、又はこれらの組み合わせを含む、ことと、
プールされた三重インデックス付き核又は細胞を生成するために、前記三重インデックス付き核又は細胞を組み合わせることと、を更に含む、請求項５１に記載の方法。
前記分配する工程は希釈を含む、請求項４８、５１、又は５２のいずれか一項に記載の方法。
前記区画はウェル、マイクロ流体区画、又は液滴を含む、請求項４８、５１、又は５２のいずれか一項に記載の方法。
前記第１の複数の区画の区画は、５０～１００，０００，０００個の核又は細胞を含む、請求項４８に記載の方法。
前記第２の複数の区画の区画は、５０～１００，０００，０００個の核又は細胞を含む、請求項５１に記載の方法。
前記第３の複数の区画の区画は、５０～１００，０００，０００個の核又は細胞を含む、請求項５２に記載の方法。
前記接触させることは、各サブセットを２つのトランスポソーム複合体と接触させることを含み、一方のトランスポソーム複合体は、第１のユニバーサル配列を含む第１のトランスポザーゼを含み、第２のトランスポソーム複合体は、第２のユニバーサル配列を含む第２のトランスポザーゼを含み、前記接触させることは、前記第１のユニバーサル配列及び前記第２のユニバーサル配列をＤＮＡ核酸に組み込んで、前記第１のユニバーサル配列及び前記第２のユニバーサル配列を含む二本鎖ＤＮＡ核酸をもたらすのに好適な条件を更に含む、請求項４８に記載の方法。
前記区画特異的インデックス配列を付加することは、ユニバーサル配列を含むヌクレオチド配列を前記核酸に付加し、次いで、前記区画特異的インデックス配列を前記核酸に付加する２工程プロセスを含む、請求項４８、４９、又は５０のいずれか一項に記載の方法。
前記プールされたインデックス付き核又は細胞から前記インデックス付き核酸を得て、それにより、前記複数の核又は細胞からシークエンシングライブラリーを作製することを更に含む、請求項４８に記載の方法。
前記プールされた二重インデックス付き核又は細胞から前記二重インデックス付き核酸を得て、それにより、前記複数の核又は細胞からシークエンシングライブラリーを作製することを更に含む、請求項４９に記載の方法。
前記プールされた三重インデックス付き核又は細胞から前記三重インデックス付き核酸を得て、それにより、前記複数の核又は細胞からシークエンシングライブラリーを作製することを更に含む、請求項５０に記載の方法。
複数の増幅部位を含む表面を提供する工程を更に含み、
前記増幅部位は、遊離３’末端を有する結合した一本鎖捕捉オリゴヌクレオチドの少なくとも２つの集団を含み、
複数のインデックスを含む個々の断片からアンプリコンのクローン集団をそれぞれ含む複数の増幅部位を生成するのに好適な条件下で、増幅部位を含む前記表面を、１つ、２つ、又は３つのインデックス配列を含む前記核酸断片と接触させることと、を更に含む、請求項６０～６２のいずれか一項に記載の方法。
核酸ライブラリーを調製するための方法であって、
（ａ）複数の試料を提供することであって、各試料は複数の細胞又は核を含み、各試料の前記複数の細胞又は核は、１つ以上の別個の区画に存在する、ことと、
（ｂ）前記複数の核又は細胞を、トランスポソーム複合体がインデックス配列を含まないという条件で、前記トランスポザーゼ及びユニバーサル配列を含むトランスポソーム複合体と接触させることであって、前記接触させることは、前記ユニバーサル配列を核酸に組み込むのに好適な条件を更に含む、ことと、
（ｃ）各別個の区画の前記核酸に第１のインデックス配列を付加することと、
（ｄ）前記別個の区画の前記細胞又は核を組み合わせることと、
（ｅ）前記細胞又は核を複数の区画に分配することと、
（ｆ）前記複数の区画の前記核酸に第２のインデックス配列を付加することと、を含む、方法。
前記第１のインデックス配列、前記第２のインデックス配列、又はこれらの組み合わせは、ライゲーション、プライマー伸長、ハイブリダイゼーション、増幅、又はこれらの組み合わせによって付加される、請求項６４に記載の方法。
工程（ｄ）～（ｅ）を繰り返して、第３又はそれ以上のインデックス配列を前記複数の区画の前記細胞又は前記核に付加する、請求項６４又は６５に記載の方法。
前記複数の核又は細胞は固定される、請求項６４又は６５のいずれか一項に記載の方法。
工程（ｃ）又は工程（ｆ）の後にインデックス付き核酸の増幅を更に含む、請求項６４又は６５のいずれか一項に記載の方法。
前記複数の区画の前記核酸を組み合わせ、前記核酸の前記配列を決定する工程（ｇ）を更に含む、請求項６４又は６５のいずれか一項に記載の方法。
前記核酸の前記ヌクレオチド配列を決定するためにシークエンシング手順を実行することを更に含む、請求項６４に記載の方法。
単一細胞又は単一核をシークエンシングするための方法であって、
（ａ）試料内の各細胞又は核の核酸を一意にインデックス付けし、それにより、各細胞又は核のインデックス付きライブラリーを作製することと、
（ｂ）生物学的特徴を使用して、工程（ａ）からの、対象となる１つ以上のインデックス付きライブラリーを同定することと、
（ｃ）工程（ｂ）の、対象となる前記インデックス付きライブラリーを濃縮し、それにより、濃縮ライブラリーを作製することと、
（ｄ）工程（ｃ）からの前記濃縮ライブラリーをシークエンシングすることと、を含む、方法。
前記ライブラリーは、前記細胞又は前記核のＤＮＡ、ＲＮＡ、又はタンパク質由来である、請求項７１に記載の方法。
前記生物学的特徴は、ＤＮＡ、ＲＮＡ、若しくはタンパク質、又はこれらの組み合わせである、請求項７１又は７２のいずれか一項に記載の方法。
工程（ａ）における一意にインデックス付けすることは、少なくとも２つの異なるインデックスを前記細胞又は前記核の前記核酸に関連付けることを含む、請求項７１又は７２のいずれか一項に記載の方法。
前記少なくとも２つの異なるインデックスは連続インデックスである、請求項７４に記載の方法。
前記濃縮ライブラリーは正の濃縮によって作製される、請求項７１又は７２のいずれか一項に記載の方法。
前記正の濃縮は増幅を含む、請求項７６に記載の方法。
前記正の濃縮は捕捉剤を含む、請求項７６に記載の方法。
前記正の濃縮は固体支持体を含む、請求項７６に記載の方法。
前記濃縮ライブラリーは負の濃縮によって作製される、請求項７６に記載の方法。
工程（ｃ）における、対象となる前記インデックス付きライブラリーを同定することは、前記インデックスをシークエンシングすることを含む、請求項７１又は７２のいずれか一項に記載の方法。
単一細胞又は単一核をシークエンシングするための方法であって、
（ａ）試料を提供することであって、前記試料は複数の核又は細胞を含む、ことと、
（ｂ）前記試料内の各核又は細胞に第１のインデックスを関連付けることと、
（ｃ）前記試料を複数の区画に分割することと、
（ｄ）前記複数の区画の各核又は細胞に第２のインデックスを関連付けることと、
（ｅ）前記複数の区画をプールすることと、
（ｆ）前記プールされた区画をシークエンシングすることと、
（ｇ）生物学的特徴と関連付けられた第１のインデックス及び第２のインデックスの組み合わせを同定することと、
（ｈ）工程（ｇ）からの第１のインデックス及び第２のインデックスの前記同定された組み合わせを使用して、前記プールされた区画からの生物学的特徴を濃縮することと、を含む、方法。
キットであって、
（ａ）複数のトランスポソーム複合体であって、各トランスポソーム複合体は、トランスポザーゼ及びトランスポゾン配列を含み、前記トランスポゾン配列はインデックス付けされていない、複数のトランスポソーム複合体と、
（ｂ）第１の複数のインデックスオリゴヌクレオチドであって、前記第１の複数のインデックスオリゴヌクレオチドは、少なくとも２つの異なる配列を有するオリゴヌクレオチドを含む、第１の複数のインデックスオリゴヌクレオチドと、
（ｃ）前記インデックスオリゴヌクレオチドと共に使用するためのリガーゼ酵素と、を含む、キット。
第２の複数のインデックスオリゴヌクレオチドを更に含み、前記第２の複数のインデックスオリゴヌクレオチドは、前記第１の複数のインデックスオリゴヌクレオチドとは異なる配列を有するオリゴヌクレオチドを含む、請求項８３に記載のキット。
第３の複数のインデックスオリゴヌクレオチドを更に含み、前記第３の複数のインデックスオリゴヌクレオチドは、前記第１の複数のインデックスオリゴヌクレオチド及び前記第２の複数のインデックスオリゴヌクレオチドとは異なる配列を有するオリゴヌクレオチドを含む、請求項８３に記載のキット。