CN115867676A

CN115867676A - 细胞群的处理方法和细胞群中所含的基因的分析方法

Info

Publication number: CN115867676A
Application number: CN202180038544.5A
Authority: CN
Inventors: 城口克之; 金坚石; 山本玲子
Original assignee: RIKEN Institute of Physical and Chemical Research
Current assignee: RIKEN Institute of Physical and Chemical Research
Priority date: 2020-05-29
Filing date: 2021-05-28
Publication date: 2023-03-28
Also published as: CA3185619A1; JP7423101B2; WO2021241721A1; EP4159873A1; JPWO2021241721A1; EP4159873A4; US20230203600A1

Abstract

本发明提供处理细胞群的方法和分析细胞群(例如微生物丛)的方法。本发明可以包括：从包含单离出的细胞群的细胞的分散液得到液滴群，所述液滴群包含水性液滴，所述液滴的至少一部分各自包含一个细胞和一分子的细胞条形码。

Description

细胞群的处理方法和细胞群中所含的基因的分析方法

技术领域

本发明涉及细胞群的处理方法和细胞群中所含的基因的分析方法。

背景技术

为了从本质上理解共生微生物丛的构成如何有助于宿主的健康^1,2，由于细胞是微生物丛^3-5的基本物理单位，因此应该单纯地以细胞水平定义微生物丛。但是，以现在的最新技术难以解决^6-8。

微生物相与宿主的相互作用与宿主的内稳态和许多疾病^13-16有关。为了进一步且综合地理解微生物相与宿主的相互作用的机理，不仅要研究微生物相，而且还要将微生物相和宿主这两者的代谢组学和/或转录组学等其它分析与微生物相的组成分析结合起来是重要的⁵。为了这个目的，需要基于通常可以使用的单位、例如每重量的细胞数和/或每体积的分子数的浓度测量。关于这一点，开发了对在细胞内存在的核酸的分子数进行计数的技术(专利文献1～3)。在该计数技术中，对分子一个一个赋予固有的核酸序列(条形码)，通过计数条形码的种类数来推定分子数。另外，在专利文献1～3中，由于核酸的扩增中的错误、测序时的读取错误，分子的计数数可能产生误差。还开发了减少该误差的技术(专利文献4)。在专利文献4中提出了考虑了核酸的扩增中的错误、测序时的读取错误的性质的、与错误除去和计数数的纠正有关的方法。但是，在现行的技术^6-8中，难以测定细胞水平下的微生物相组成。而且，微生物丛由大量细菌种的庞大数量的细菌构成¹⁷。但是，迄今为止还没有开发出具有高的分类学分辨率的高通量细胞定量法。

基于使用下一代测序技术的16S rRNA基因扩增子测序的高通量法对细菌多样性研究做出了贡献^22,23。但是，以往的方法是从纯化大容量细菌基因组扩增16S rRNA基因，测定扩增的分子的数量，因此基本上有以下的限制。1)不同种类在基因组上具有16S rRNA基因的不同拷贝数，大部分种类的拷贝数不明确，因此难以测定细胞数并比较不同种类的细胞数。2)16S rRNA序列的鉴定由于序列确定和扩增错误而不准确，导致低分类学分辨率。实际上，序列确定错误使用分子条形码^24-26进行了修正，但不能充分除去主要来自嵌合体生成的扩增错误²⁷。

现有技术文献

专利文献

专利文献1：US9260753B

专利文献2：US10287630B

专利文献3：US10584382B

专利文献4：WO2018/235938

发明内容

本发明提供细胞群的处理方法和细胞群中所含的基因的分析方法。

本发明人开发了利用高通量法定量细菌微生物丛的细胞类型和针对各细胞类型的细胞浓度的新方法。本发明人还发现了如下方法：根据与在一个细胞中重复存在分析对象的基因对应的、基于细胞的操作分类单元(cOTU)，对分析对象的基因组进行分类，由此可以对具有基因重复的未知细胞(例如，微生物)进行细分类，推定其数量。

根据本发明，提供以下的发明。

[1]一种细胞群的处理方法，其包括：

(A)从包含单离出的细胞群的细胞的分散液得到液滴群，所述液滴群包含水性液滴，所述液滴的至少一部分各自包含一个细胞和一分子的细胞条形码。

[2]一种分析细胞群中所含的基因的碱基序列的方法，其包括：

(A)从包含单离出的细胞群的细胞的分散液得到液滴群，所述液滴群包含水性液滴，所述液滴的至少一部分各自包含一个细胞和一分子的细胞条形码；以及

(B)在所得到的各个液滴中，得到细胞条形码的扩增产物和规定基因的扩增产物，进一步得到包含细胞条形码和规定基因的全部或一部分碱基序列的连接物；并且将所得到的连接物从液滴回收到水溶液中，对所得到的连接物进行测序，确定规定基因的碱基序列和细胞条形码的碱基序列。

[3]如上述[2]所述的方法，其中，

在所述(B)中，细胞条形码的扩增产物具有来自第一引物的第一区域，规定基因的扩增产物具有来自第二引物的第二区域，第一区域和第二区域具有能够互相杂交的互补序列部分，上述第一引物和第二引物各自连接有一个以上的标签分子，该标签分子不包含在上述连接物中，并且，

在上述(B)中，还包括：从回收到水溶液中的连接物中将具有标签分子的扩增产物利用负载有对该标签分子具有亲和性的分子的柱或珠除去。

[4]如上述[2]或[3]所述的方法，其中，还包括：

(C-1)根据所确定的细胞条形码的碱基序列对所确定的碱基序列进行聚类，得到两个以上第一簇。

[5]如上述[4]所述的方法，其中，还包括：

(D-1)由所得到的第一簇的数量推定细胞群中所含的细胞的数量或特定的具有规定基因的细胞的数量。

[6]如上述[2]或[3]所述的方法，其中，还包括：

(C-2)根据所确定的规定基因的碱基序列对所确定的碱基序列进行聚类，得到两个以上第二簇。

[7]如上述[6]所述的方法，其中，还包括：

(D-2)由所得到的第二簇的数量推定细胞群中所含的细胞的种类的数量。

[8]如上述[2]或[3]所述的方法，其中，还包括：

(C-3)根据所确定的细胞条形码的碱基序列对所确定的碱基序列进行聚类，得到两个以上第一簇；并且根据所确定的规定基因的碱基序列对所确定的碱基序列进行聚类，得到两个以上第二簇。

[9]如上述[8]所述的方法，其中，还包括：

(D-3)根据所得到的细胞条形码的碱基序列和规定基因的碱基序列的组合的信息，由与被分类为至少存在一个的第二簇的规定基因的碱基序列连接的细胞条形码的碱基序列确定该规定基因的碱基序列被分类的第一簇，由该细胞条形码被分类的第一簇的数量推定被分类为该第二簇的细胞的数量。

[10]如上述[8]所述的方法，其中，还包括：

(C-4)在被分类为相同第一簇的序列被分类为不同第二簇的情况下，将该第二簇分类为相同基于细胞的操作分类单元(cOTU)。

[11]如上述[10]所述的方法，其中，还包括：

(E)针对第一细胞群和与第一细胞群不同的第二细胞群各自推定细胞群中所含的(i)cOTU的数量和/或(ii)特定的cOTU中所含的细胞的数量，将针对第一细胞群推定的(i)cOTU的数量和/或(ii)特定的cOTU中所含的细胞的数量与针对第二细胞群推定的(i)cOTU的数量和/或(ii)特定的cOTU中所含的细胞的数量各自进行比较。

[12]如上述[11]所述的方法，其中，包括：

(F)将针对第一细胞群推定的(i)cOTU的数量和(ii’)特定的cOTU中所含的细胞的数量与针对第二细胞群推定的(i)cOTU的数量和(ii’)特定的cOTU中所含的细胞的数量进行比较。

[13]如上述[1]～[12]中任一项所述的方法，其中，细胞群为微生物丛。

[14]如上述[13]所述的方法，其中，微生物丛为体内或体表的微生物丛。

[15]如上述[13]所述的方法，其中，微生物丛为消化道内的微生物丛。

[16]如上述[11]或[12]所述的方法，其中，第一细胞群和第二细胞群为从相同对象的不同部位得到的微生物丛。

[17]如上述[11]或[12]所述的方法，其中，第一细胞群和第二细胞群为从不同对象的相同部位得到的微生物丛。

[18]如上述[11]或[12]所述的方法，其中，第一细胞群和第二细胞群为在不同时间从相同对象的相同部位得到的微生物丛。

[19]如上述[1]～[18]中任一项所述的方法，其中，细胞群包含未知的细胞。

附图说明

图1是BarBIQ及其有效性。a，BarBIQ的概略图。使试样悬浮在溶液中，然后，为了破坏细菌块，进行涡旋处理。细胞条形码、在细胞中包含固有的碱基(每一分子不同的碱基序列)、包含用于扩增的引物位点的DNA分子；扩增引物、用于16S rRNA基因和细胞条形码各自的用于连接两者的扩增产物和用于附着测序衔接子的DNA引物；试剂、用于DNA扩增的试剂。文库的生成、纯化和测序的概略图的详细情况参照图5，数据处理的详细情况参照图6。b，模拟细胞群对BarBIQ的有效性。编辑距离、被定义为置换、插入和缺失的最小数的莱文斯坦距离²⁹；San序列、通过桑格测序鉴定的16S rRNA序列；ATCC/JCM/DSM-＜数＞，株ID；A、B或C、针对各株的San序列；Bar序列-MK-XX(01-16)、通过BarBIQ鉴定的序列(Bar序列)；COTU-MK-XX(01-10)、基于细胞的操作分类单元(cOTU)；红色星号符号、具有一个碱基差异的Bar序列；OTU-RepSeq-MK-XX(01-12)、表示OTU的序列；c，通过BarBIQ[C]_BarBIQ和显微镜图像[C]_显微镜(表1和2的数据)测定的模拟细胞群中的10株的细胞浓度的比较。蓝线：用对数刻度固定斜率1的拟合线；r、Pearson系数、R2：决定系数。误差棒、标准偏差(对于[C]_BarBIQ，n＝3，对于[C]_显微镜，n＝5)。

图2是小鼠盲肠微生物丛的综合分析。a，小鼠盲肠中的远端(dist)和近端(prox)的取样位置。b，Bar序列的序列一致性分布图；一致性、各Bar序列与其在3个一般的公共数据库GreenGene(GG)、核糖体数据库项目(RDP)和Silva中的最接近的16S rRNA序列之间的一致性。Three，所有三个数据库的组合。c，技术性重复之间的cOTU的细胞浓度的比较(其它重复见图16)。品红色线、根据利用泊松分布和总浓度的归一化的取样噪声的理论置信区间(99.9％)；浅蓝色线，2倍的变化；蓝色点，表示不同浓度的cOTU；插入的数字，蓝色和灰色的点的数量；Ma、Mb、Mc、小鼠；dist和prox，位置；1、2和3，技术性重复。d与e、c相同，但不同的试样间的比较；不同的cOTU(蓝色点)的最小(d)和最大(e)的数量的例子。关于其它样品的比较，图16。f，各样品间的微生物的Bray-Curtis的不相似性。标签与c～e相同。

图3是小鼠间的各个cOTU的细胞浓度的变化。a，3只小鼠(Ma、Mb和Mc)的远端(红色实线)和近端(浅蓝色虚线)的cOTU细胞浓度的例子。CV、变异系数。b，梭菌(Clostridium)XIVa属的cOTU的CV(将检测出的所有属示于图9a和9b)。COTU-CM-＜数＞、cOTU的ID；远端和近端、位置；误差棒、通过假定了取样噪声和总浓度测定的技术性误差的模拟而得到的针对各cOTU的CV的95％置信区间。

图4是相关细菌网络。a，根据cOTU对的丰富度的相关例子。点、6个样品(Ma^dist1、Ma^prox1、Mb^dist、Mb^prox、Mc^dist、Mc^prox)的细胞浓度(个细胞/mg)；r、Pearson系数。b，强烈相关的细菌群(SCBG)的定义。树状图、根据定义的距离、1-最小(│r’│)[r’∈(r-OCI,r+OCI)]对通常在所有六个样品中检测出的296cOTU的层次聚类；红色虚线，阈值0.6；热图，所有cOTU的r；热图的白色间隙、表示在垂直和水平这两者低于阈值0.6的枝的分离的间隔；下面的数字，SCBG的ID。将具有全部SCBG的cOTU名和ID的树状图示于图17。c，分别在力导引布局(Force-directed layout)³⁹中可视化的SCBG7和SCBG26的cOTU网络。分支，cOTU；分支尺寸，如a所示，6个样品中的cOTU的平均细胞浓度；边缘颜色，在端部处连接的cOTU之间的r。将全部SCBG的可视化网络示于图12a～f。d，通过力导引布局(Force-directed layout)可视化的SCBG网络。边缘颜色，两个SCBG间的SCBG间相互关系R_inter。

图5是包括BarBIQ中的文库生成的序列信息、纯化和测序的概略图。将I、II、III、IV命名为P5-index-R1P-barcode-R、Biotin-Link-barcode-F、Biotin-link-805R、P7-R2P-341F，设计的引物；索引(Index)(XXXXXXXX)为设计的8个碱基；条形码(Barcode)，随机和固定碱基(其它3种条形码见表3)；序列中的N、A、C、G或T；用于I2、R1和R2、MiSeq的illumina测序引物；I1、定制的测序引物。

图6是BarBIQ数据处理的概略图。黑箭头、处理阶段；红箭头、下一阶段的操作数的说明；条形码、细胞条形码；R1、R1的读取序列；I1和R2，低质量的末端和引物部分被修剪的I1和R2的读取序列；BCluster、利用条形码进行聚类的簇；SCluster、利用各BCluster中的16S rRNA序列聚类的子簇；发生了位移的RepSeq，由于读取序列的引物部分中的插入或缺失而产生的RepSeq；一个插入或缺失的RepSeq、由于在修剪后读取序列的剩余部分中的一个碱基的插入或缺失错误而产生的RepSeq；嵌合体RepSeq、通过PCR嵌合体得到的RepSeq；罕见的错误RepSeq，由在修剪后读取序列的剩余部分中的一个得失位(插入或缺失)和一个置换、一个得失位和两个置换或两个得失位的错误而产生的RepSeq；RepSeq型、RepSeq的序列类型；低计数RepSeq、在少数BCluster中检测出的RepSeq型；一个碱基错误RepSeq、与其它RepSeq具有一个碱基差异的RepSeq型、在前者与后者的RepSeq型之间检测出的RepSeq的数量小于阈值；Bar序列、利用BarBIQ鉴定的序列：cOTU，基于细胞的操作分类单元。

图7是在BarBIQ测定中，为了计算各cOTU的绝对细胞浓度和各cOTU的取样噪声而使用的总浓度。a，通过液滴数字PCR(参照实施例的BarBIQ法的项目)测定的各试样的总细菌浓度。Ma、Mb、Mc、Md(Md未测序)、小鼠；dist和prox、位置(参照图2a)；1、2和3，技术性重复。误差棒，标准偏差(n＝5)。b，作为计数平均的函数，对于各cOTU的Ma^dist的技术性重复3次中的计数的CV²(CV，变异系数)；根据泊松分布得到模拟1和2以及理论值。c，log₁₀(CV²)-log₁₀(CV_Poisson ²)的分布；各CV、cOTU的CV；CV_Poisson、根据泊松(Poisson)分布的理论性CV。d，Ma^dist的测定与模拟1之间以及模拟1与模拟2之间的log₁₀(CV²)-log₁₀(CV_Poisson ²)的分布的Q-Q曲线⁴⁵。log₁₀(CV²)-log₁₀(CV_Poisson2)的分布在测定与模拟之间是同等的，暗示了所检测出的各cOTU的噪声主要由取样引起。

图8是小鼠Ma中的各cOTU的位置依赖性细胞浓度比较。a，对于小鼠Ma中的远端位置(Ma^dist)与近端位置(Ma^prox)之间的3次技术性重复的各cOTU的平均细胞浓度比较；误差棒，标准偏差(n＝3)；红点、表示FDR＜0.05和平均＞2的倍率变化(参照b)；虚线，倍率变化＝2。b，火山图(Volcano plot)表示Ma中的远端和近端位置之间的cOTU的细胞浓度的差异。FDR(假发现率)根据使用函数t.test(R软件包stat)的两侧2组t检验(n＝3)计算出的全部240的cOTU的p值，使用BH法的函数p.adjust(R软件包stat)确定⁴⁶；Ma^dist/Ma^prox、Ma^dist的平均细胞浓度相对于Ma^prox中的平均细胞浓度之比；虚线、Ma^dist与Ma^prox的总浓度之比。

图9a是所有cOTU相对于分类学的CV(变异系数)。左、从门到属的分类。右，远端和近端位置的各cOTU的CV。COTU-CM-＜数＞，cOTUID；误差棒，通过假定总浓度测定的取样噪声和技术误差的模拟得到的95％置信区间。

图9b同上。

图10是网络整体中的各cOTU与其它cOTU的相关特性。上段显示给出的cOTU与除此以外的所有cOTU之间的│r│的分布，│r│为绝对皮尔逊相关系数；cOTU根据沿横轴的各cOTU的│r│的平均(蓝色线)排列。下段、由相对频率表示的针对各cOTU的│r│的分布；对于上图的各行，数值由它们的最小值(设为0)和最大值(设为1)归一化(即，沿水平轴的归一化)。该分析能够发现“主细菌”，所述“主细菌”是在细菌相关网络中与其它大部分高度相关的细菌(即，cOTU)。

图11是强烈相关的细菌群(SCBG)的分析。a，作为树状图的高度的阈值的函数的SCBG的数量(图4b)。红色点线，阈值0.6。b，作为阈值的函数包含最多的cOTU的SCBG中的cOTU的数量。c，当阈值为0.6时，SCBG中的cOTU数的分布。d，关于各SCBG中的试样的Ma^dist1、Ma^prox1、Mb^dist、Mb^prox、Mc^dist和Mc^prox的cOTU平均细胞浓度；黑点，SCBG内所有的cOTU显示正相关；紫色和浅蓝色点、表示全部显示正相关的cOTU，不同子组的cOTU显示负相关。

图12a是示出各SCBG内的各cOTU和其它之间的相对相关强度的网络和r分布。左，利用力导引布局(Force-directed layout)³⁹可视化的SCBG网络。分支，cOTU；分支编号，cOTUID；边缘颜色，连接的cOTU之间的r；ID颜色，表示与图11d中的点颜色相同。右，在SCBG中，给出的cOTU和其它所有cOTU之间的r分布。首先按子组(ID颜色)划分cOTU，接着对各子组内的各cOTU按全部正r的平均(蓝线)排列。

图12b同上。

图12c同上。

图12d同上。

图12e同上。

图12f同上。

图13是SCBG中的cOTU的从门到属的分类。点的颜色，表示与图11d中的点颜色相同。所有的SCBG包含两个以上属，＞60％的SCBG(19/31)甚至包含两个以上门，暗示了SCBG与分类学关系不大。另一方面，在包含≥2cOTU的检测出的所有属中，发明人从两个以上SCBG中发现cOTU，为了理解微生物相的细菌网络，暗示了比属水平低的分析、实际上cOTU水平是重要的。

图14是SCBG间的关系。a，R_inner和R_inter的分布。b，列、给出的SCBG和其它所有SCBG之间的R_inter分布；SCBG按照沿水平轴分布的平均(蓝线)排列。

图15是根据通过测序得到的各cOTU的计数的、各个Ma^dist和Ma^prox2样品的技术性重复间的比较。Ma，小鼠；dist、prox，位置；1、2、3、技术性重复，r：Pearson系数。

图16a是各cOTU的细胞浓度的技术性重复间和试样间的比较。将Ma^dist1-Ma^dist3、Ma^dist3-Ma^prox2、Mb^dist-Mc^prox(红色星号符号)这3个例子示于图16c。Ma、Mb和Mc、小鼠；dist和prox，位置；1、2和3，技术性重复。点、cOTU；品红色线、进行根据泊松分布的归一化的取样噪声的理论置信区间(99.9％)；浅蓝色线，2倍变化；蓝色点，表示不同浓度的cOTU，分别为插入编号、蓝色和灰色的点的数量。

图16b同上。

图16c同上。

图17是SCBG的ID。上：是与图4d相同的树状图树，但有cOTU ID。下：红色正方形的位置，在图4d所示的热图中的SCBG的位置；蓝色编号，针对各SCBG的ID。

图18是对相同的试样使用引物组F1-Fw/F1-Rv和341F/805R的ddPCR测定的比较。a，使用引物F1-Fw/F1-Rv的盲肠细胞试样的通过ddPCR测定的液滴的荧光强度的分布。b，是与a相同的测定、但使用不同的引物341F/805R。c，分别应用于b的荧光强度分布的4种高斯分布和4个高斯分布的混合合计。d，根据作为拟合的高斯分布数的函数的拟合计算的阳性液滴的比例。浅蓝色，利用引物F1-Fw/F1-Rv扩增的细胞试样；蓝色，利用引物341F/805R但与浅蓝色相同的细胞试样；红色，利用引物F1-Fw/F1-Rv扩增的细胞外试样；黑色，与红色相同的细胞外试样，但利用引物341F/805R扩增的细胞外试样；误差棒具有3个独立拟合的标准偏差(具有不同的随机初始值)。e，对在相同试样使用引物F1-Fw/F1-Rv的情况下和在使用引物341F/805R的情况下的ddPCR测定的比较；根据使用4个高斯分布的适合计算的阳性液滴的比例；细胞、细胞试样；ecDNA，细胞外DNA试样；误差棒，标准偏差，n＝4。

图19是包含添加/加入(某种物质)的对照(spike-in control)制备的序列信息的概略图。StdTarget1、StdTarget2、RandomBar_std1、Std_R2、P2_qPCR_Rv和P1_qPCR_Fw、合成DNA寡核苷酸；StdTarget2中的“5Phos”，寡核苷酸的5’末端的磷酸化；索引为8个碱基；序列中的N、A、C、G或T。

图20是步骤3.2的逻辑图。

图21是步骤5的逻辑图。

图22是在Silva数据库中登记的V3-V4区域中的16S rRNA基因的长度分布。仅使用与引物341F和805R匹配的16S rRNA基因(整体的86.4％)。长度，从与341R一致的最初的碱基到与805R一致的最后的碱基的碱基的数量。对应的16S rRNA基因的全长的总计99.94％在400～500的范围内。

图23是步骤7的逻辑图。

图24是步骤8的逻辑图。

图25是步骤9的逻辑图。

图26是根据San序列的一个碱基不同的RepSeq类型的特性评价。a，根据San序列的分组化RepSeq类型的平均计数(根据Mock-a、Mock-b、Mock-c数据)。碱基的差异、RepSeq类型与在各组中最近的San序列(以San序列为ID组)之间的碱基的差异的数量。b，相对于其平均计数相对于在各组中一致的RepSeq类型的平均计数的比，一个碱基的不同的RepSeq类型的最高平均计数。天蓝色标签，组ID。

图27是Bar序列向cOTU的聚类。a，根据Mock-b的数据的相对于log₁₀(A×B)的log₁₀(Overlap)。点、Bar序列的可能的所有对；Overlap、A和B分别为包含Bar序列、仅BS_A以及仅BS_B的BCluster的数量(BS_A和BS_B为对中的两个Bar序列)。蓝色虚线，拟合的95％置信区间。b，根据Mock-a、Mock-b、Mock-c的数据的相对于log₁₀(A×B)+OD的log₁₀(Overlap)。点、在3次取样中可能的所有Bar序列对(对于相同Bar序列对有3个点)；不同株、与由不同株鉴定的San序列一致的对的Bar序列；JCM/ATCC编号、与从规定的株鉴定的San序列一致的对的Bar序列；绿色的线、通过模拟得到的log₁₀(Overlap)的分布的99.9％的单侧置信区间；黄色的线、x＝y；OD、通过在a中的拟合推定的log₁₀(Droplets/μ)。要注意，为了该绘图，除去了混入异物的Bar序列(参照步骤14)。c，与(b)同样，数据根据M0-a、M0-b和M0-c的数据。各Bar序列的名称根据Silva数据库。不同名称，一对Bar序列的映射的名称不同；相同名称(科)，一对Bar序列的映射的名称相同，仅确定科的名称或更高级的分类的名称；相同名称(属)，1对Bar序列的映射的名称相同，仅确定了属的名称或更高级的分类名称；不明，1对Bar序列中的一者或两者未在数据库中登记。d，比率_阳性(Ratio_Positive)的分布(参照步骤12)。样本的Ma^dist1-3、Ma^prox1-3、Mb^dist、Mb^prox、Mc^dist、Mc^prox的结果。

图28是在模拟细胞群与M0之间检测出的cOTU的平均计数(来自3次重复)的比较。未示出在M0中未检测出的cOTU。JCM/ATCC，与规定的株一致的cOTU。COTU＜数＞，与任何一个设计株都不一致的cOTU；I、II、III、3个类别(参照步骤14)。

图29是细菌凝集块的破坏。a，涡旋前的JCM10188的细菌块。b，在涡旋后包含一个点或两个以上点的斑点的例子。c，涡旋后的各菌株和盲肠试样的每个斑点的点的数量的分布。d，涡旋后的各菌株和盲肠试样的每个斑点的点的数量的平均值。f，包含盲肠试样的共计208个得到确认的斑点中的两个以上点的所有斑点。黄色箭头，仅该一例看起来在相同斑点内具有两个不同形状的点。

图30是利用显微镜图像的细菌数测定。a，相同视野的大肠杆菌(DH5α)的相位差照明和荧光照明(PI)的比较。b，根据显微镜图像的细菌数的概况。c、用荧光照射和相位差进行照射，用PI染色的ATCC700926株。将背景除去的阈值示于e。红色箭头、通过相位差照射也能够观察到的微小球。d，c中的放大图像(A-E)。颜色线、在利用ImageJ的亮度测定中使用的线轮廓；数、由(e)表示的亮斑点(即，细菌)的编号。e，沿着(d)的线轮廓测定的亮度(灰度值)。虚线、背景除去的阈值(参照c)。

图31是ecDNA与细胞的分离的控制。a，使用孔径0.1μm、0.22μm、0.45μm的Ultrafree(商标)-MC离心过滤器的不同滤液的比较。过滤器上的残渣、残留在过滤器膜上的试样；通过过滤器的液体、从过滤器膜通过的液体；存在量、利用ddPCR测定的总拷贝数。b，对利用ddPCR和显微镜图像测定的过滤后的细胞与ecDNA的存在量进行比较。存在量、利用ddPCR测定的拷贝总数或通过荧光成像测定的亮斑点的总数。c，使用过滤和离心分离的ecDNA与细胞的分离的比较。存在量、与a相同。

图32是盲肠试样的细胞和细胞外DNA。a，以总浓度正常化的细胞和ecDNA的浓度比率。将合计(100％)定义为细胞和ecDNA的浓度的合计。误差棒、由根据计算的细胞和ecDNA的浓度的标准偏差(n＝5)计算的传播误差。b，分离的细胞和ecDNA的合计浓度相对于未过滤的试样的总浓度之比。误差棒、传播标准偏差(n＝5)。c和d，各cOTU浓度的细胞和ecDNA的合计浓度与试样Ma^dist和Ma^prox的非过滤试样浓度的比较。红点为检测到ecDNA的cOTU，黑点为未检测到ecDNA的cOTU。过滤的重复3次分别进行了比较。

图33是对簇数(固有的条形码)对设计成条形码的随机碱基数的依赖性。显示测序运行1的结果。

图34是对于每个唯一的条形码的读取序列数的平均值，与10系统的San序列匹配的cOTU的数量的依赖性。显示了Mock-b的数据。

图35是cOTU的丰富度。a，对各试样进行6075个细胞的二次取样。B，对3000个细胞进行二次取样。Ma、Mb和Mc、小鼠；dist和prox，位置；1a、2和3，技术性重复；误差棒，标准误差。

图36是使用cOTU的比例的存在量测定的试样间的微生物相的Bray-Curtis不相似度。Ma、Mb和Mc、小鼠；dist和prox、位置；1、2和3、技术性重复。

图37是来自相同分类群的cOTU对(点)的r的分布(小提琴图)。包围从门到科级别的名称的彩色盒表示其所有权。

图38是cOTU间的平均浓度相对于r之比的依赖性。点、cOTU对；比、将在对中更高一者的浓度除以更低一者的浓度而得到的值；黄色的线、定量的等高线(10％间隔)。

图39示出使用脑切片机的小鼠大肠试样的细分。在图a～f中示出了将小鼠大肠试样载置在脑切片机上(图a)、进行包埋(图b)，使其冷冻(图c)，进行切断(图d和e)，得到了切断(细分)的样品(图f)。在图g中图示了从盲肠(Cecal侧)到肛门(Anal侧)的区域划分。关于C区域，进一步在中心部和周边部进行细分(图g)。

图40示出各样品的条形码序列的浓度。“-细胞”表示细胞不存在时的结果，“+细胞”表示细胞存在下的结果。误差棒表示标准偏差(n＝4)。

图41示出ddPCR的第三阶段的循环数与液滴的荧光强度的关系(图a)以及阳性液滴在全部液滴中所占的比例的关系(图b)。误差棒表示标准偏差(n＝4)。

图42示出ddPCR的第三阶段的反应时间与阳性液滴在全部液滴中所占的比例的关系。误差棒表示标准偏差(n＝4)。

具体实施方式

在本说明书中，“对象”是指生物，为动物和植物。对象例如为脊椎动物，例如可以为哺乳动物、鱼类、鸟类、两栖类、爬行动物类，例如人、黑猩猩、大猩猩、猩猩、猴子、绒猴和倭黑猩猩等灵长类；猪、大鼠、小鼠、牛、绵羊、山羊、马、猫和狗等四足动物(例如肉食类、偶蹄类、奇蹄类和啮齿类)。

在本说明书中，“细胞”为生物的细胞，可以为细菌、原生动物、色藻界、动物、植物和菌的细胞。在本说明书中，“单一化的细胞”是指具有一个一个分离的存在形态的细胞。即，包含单一化的细胞的溶液是指包含一个以上的细胞的溶液，是各个细胞具有一个一个分离的存在形态的溶液。包含单一化的细胞的溶液优选为所含的全部细胞或大部分细胞显示出具有一个一个分离的存在形态的溶液，但是只要包含单一化的细胞，则溶液可以含有两个以上细胞粘附而成的细胞块。

在本说明书中，“细胞群”为包含两个以上细胞的组合物。细胞群一般包含多种细胞，各种细胞可以各自包含两个以上细胞。组合物的形态可以为液体或固体。

在本说明书中，“微生物丛”是指微生物的群体。在自然中存在各种微生物丛。例如，在土、水(海、川、沼泽、池塘)、空气、动物的表皮、体毛、口腔、鼻腔、消化道(食道、胃、小肠、大肠、盲肠等)和生殖器；以及植物的外皮和根等存在微生物丛。动物中的微生物丛可以反映该动物的健康状态或影响健康状态。微生物丛可以包含10种以上、20种以上、30种以上、40种以上、50种以上、60种以上、70种以上、80种以上、90种以上或100种以上的微生物。微生物丛可以包含未知的微生物。微生物丛中的未知的微生物可以为所含的微生物的种类的10％以上、20％以上、30％以上或40％以上。

在本说明书中，“细胞条形码”是指具有分配给一个一个细胞的固有的碱基序列的核酸。一个一个细胞可以与具有不同碱基序列(即，细胞所固有的碱基序列)的细胞条形码相关联。因此，细胞条形码的数量可以表示细胞的数量。由此，可以将以往能够定量测定的细胞数转换为可以定性评价的碱基序列数来进行测定。细胞条形码可以准备相对于存在的总细胞数充分的种类。

在本说明书中，“单离”是指将目标物从其它分离。单离可以包括在分离后浓缩或纯化目标物。

在本说明书中，“扩增产物”是指通过基因扩增(例如聚合酶链式反应(PCR))扩增而得到的核酸。在PCR中，以夹着使DNA扩增的部位的方式设计两个引物，在规定的条件下使其与DNA聚合酶反应，由此使由两个引物夹着的部分被扩增。引物可以为具有与DNA的扩增部位杂交的序列的单链形态的核酸，但是可以在该核酸的5’末端连接附加的碱基序列(例如衔接子、样品所固有的索引序列、限制酶识别部位等)。

在本说明书中，“旁系同源物”是指在基因组上通过基因重复而产生的两个基因。在本说明书中，“直系同源物”是指存在于不同生物中的具有同源功能的基因。

根据本发明，提供一种细胞群的处理方法，其包括：(A)从包含单离出的细胞群的细胞的分散液得到液滴群，所述液滴群包含水性液滴，上述液滴的至少一部分各自包含一个细胞和一分子的细胞条形码。

根据本发明，还提供一种液滴群，所述液滴群包含水性液滴，上述液滴的至少一部分各自包含一个细胞和一分子的细胞条形码。在该方式中，细胞可以为构成单离出的细胞群(例如，微生物丛)的细胞。

上述(A)的细胞的分散液可以通过使单离出的细胞群中所含的细胞分散在水溶液中而得到。细胞可以通过水流、例如振荡、移液等由水产生的剪切应力等而分散在溶液中。“分散”是指在水溶液中使包含两个以上细胞的细胞块分离而形成两个以上单个细胞以及优选使单个细胞在水溶液中浮游。本发明的方法可以包括使单离出的细胞群中所含的细胞分散在水溶液中。

在一个方式中，细胞群可以为微生物丛。在该方式中，作为微生物丛，可以优选使用天然的微生物丛。作为微生物丛，例如可以使用土、水(海、川、沼泽、池塘)、空气、动物的表皮、体毛、口腔、鼻腔、消化道(食道、胃、小肠、大肠、盲肠等)和生殖器；以及在植物外皮和根中存在的微生物丛，例如可以使用消化道的微生物丛。作为微生物丛，例如可以为口腔内的微生物丛、食道内的微生物丛、胃内的微生物丛、十二指肠内的微生物丛、小肠内(例如，空肠内或回肠内)的微生物丛、盲肠的微生物丛、大肠内(例如升结肠、横结肠、降结肠、S状结肠或直肠内)的微生物丛。天然的微生物丛优选不进行培养而进行分析，但可以允许在进行培养后进行分析。在某些优选方式中，微生物丛包含未知的微生物。在某些优选的对象中，未知的微生物的种类可以为微生物丛中所含的微生物的种类的10％以上、20％以上、30％以上或40％以上。在一个方式中，细胞群可以包含细胞外DNA。细胞外DNA可以包含规定基因。细胞外DNA可以在处理细胞群之前除去。如后所述，细胞外DNA的除去可以通过过滤器过滤或离心分离来进行。细胞外DNA可以包含在要处理的细胞群中。

细胞群的单离通过获取细胞群来进行。细胞群的单离可以还包括将获取的细胞群从细胞以外的一个以上构成要素中分离。将细胞群从细胞以外的一个以上构成要素中分离可以通过过滤器过滤或离心分离来进行。过滤器过滤例如可以使用具有亚μm的孔径(例如0.22μm)的过滤器进行，细胞群可以从过滤器上的残渣回收。

在本发明中，在制作液滴之前，可以使单离出的细胞群中所含的细胞分散在水溶液中。在此，分散是指一个一个细胞分离存在的状态。分散可以通过用移液以不破坏细胞的方式破坏细胞块来实现。作为水溶液，只要不破坏细胞就没有特别限定，可以使用水和生理盐水等。单离出的细胞群可以分散在纯水、生理盐水和基因扩增用反应溶液等中。

在一个方式中，液滴可以在油中制作。因此，在该方式中，在(A)中得到的液滴群在油中包含水性液滴(水滴)。即，在(A)中得到的液滴群可以为油包水滴型粒子(分散在油中的水性液滴群)。

关于上述水滴的粒径，例如下限值可以为10μm～100μm的范围的数值，上限值可以为50μm～1000μm的数值。水滴的粒径例如可以为10μm～1000μm，例如可以为20μm～900μm、30μm～800μm、40μm～700μm、50μm～600μm、50μm～500μm、50μm～400μm、50μm～300μm、50μm～200μm、50μm～150μm或例如约100μm。这样的液滴群例如可以使用微流体器件由本领域技术人员适当制作。另外，这样的液滴群可以使用市售的液滴制造机制作。作为市售的液滴制造机，例如可以使用BIO-RAD公司的QX200液滴生成器。

根据本发明的细胞群的处理方法，能够得到一种液滴群，所述液滴群包含水性液滴，上述液滴包含一个细胞和一分子的相对于该细胞具有固有的一种碱基序列的细胞条形码(例如，DNA)。更具体而言，在本发明的细胞群的处理方法中，例如，通过将包含分散的两个以上细胞的水溶液与包含每一分子具有不同碱基序列的细胞条形码的水溶液在油中混合，能够得到包含一个细胞和水性液滴的液滴群，所述水性液滴包含每个细胞所固有的单一种类的细胞条形码。

根据本发明的细胞群的处理方法，其它细胞包含在含有相对于该细胞具有固有的另一种碱基序列的细胞条形码的水性液滴中。细胞可以包含全部液滴的50％以下、40％以下、35％以下、30％以下、25％以下或20％以下(例如20％)。由此，能够降低相对于一个液滴包含两个以上细胞的概率，当假设在20％的液滴中含有细胞时，理论上，包含细胞的液滴的例如90％以上的液滴所包含的细胞数为1。另外，也可以使细胞条形码包含在全部液滴的50％以下、40％以下、35％以下、30％以下、25％以下或20％以下(例如20％)中。由此，能够使包含细胞条形码的液滴的例如90％以上的液滴所包含的细胞条形码的数量为1。由此，能够得到包含一个细胞和一分子细胞条形码的液滴，上述液滴可以为全部液滴中的1～10％、2～6％、3～5％或者例如约4％。在一个方式中，可以将包含细胞的液滴相对于全部液滴的比例设定为30％以下(优选约20％)，并且可以将包含细胞条形码的液滴相对于全部液滴的比例设定为30％以下(优选约20％)。像这样，通过降低包含细胞和细胞条形码的液滴相对于全部液滴的比例，能够降低或消除两个以上细胞混入一个液滴中的可能性以及2分子以上的细胞条形码混入一个液滴中的可能性。需要说明的是，不包含细胞和细胞条形码中任一者和两者的液滴的存在不影响以细胞中的规定基因与细胞条形码的连接物为对象而进行测序后的工序。

在所得到的液滴群中，包含两个以上细胞和一个细胞条形码的液滴的比例例如可以为0.5％以下、0.4％以下或0.3％以下，例如可以为0.3％～0.5％。在所得到的液滴群中，包含一个细胞和两个以上细胞条形码的液滴的比例例如可以为0.5％以下、0.4％以下或0.3％以下，例如可以为0.3％～0.5％。在所得到的液滴群中，包含两个以上细胞和两个以上细胞条形码的液滴的比例例如可以为0.05％以下、0.04％以下或0.03％以下，例如可以为0.03％～0.05％。在此，包含两个以上细胞或细胞条形码的液滴越少越优选，但是允许产生这样的液滴。

水性液滴除了包含一个细胞和一分子的细胞条形码以外，还可以包含引物和基因扩增用试剂。细胞在基因扩增反应中被破坏，因此试剂不需要含有表面活性剂。另外，水性液滴可以为适合于基因扩增反应的水溶液(例如基因扩增反应溶液)。

油只要是在基因扩增反应(60℃～100℃)的环境下稳定且无活性的油就可以使用任意的油。作为这样的油，例如可以列举矿物油(例如轻油)、硅油、氟化油或其它市售的油或它们的组合，但不限于此。

在这样的条件下，可以从包含细胞、细胞条形码、引物和基因扩增用试剂的水溶液得到液滴群，所述液滴群包含水性液滴，上述液滴的至少一部分各自包含一个所得到的细胞和一分子的细胞条形码。更具体而言，可以制作包含细胞、细胞条形码、引物和基因扩增用试剂的基因扩增反应液，由该溶液如上所述得到液滴群。

根据本发明，还提供一种确定(或分析)细胞群中所含的基因序列的方法，所述方法(以下，称为本发明的序列确定方法)包括：

(B)在所得到的各个液滴中，得到细胞条形码的扩增产物和规定基因的扩增产物，进一步得到包含细胞条形码和规定基因的全部或一部分碱基序列的连接物；并且对所得到的连接物进行测序，确定规定基因的碱基序列和细胞条形码的碱基序列。

在形成液滴时，通过将在用于细胞条形码的扩增和细胞内的规定基因的扩增的引物组、dNTP和耐热性DNA聚合酶等PCR中必需的模板以外的构成要素预先混合到溶液中(例如细胞条形码溶液中)，能够在各液滴中预先引入这些基因扩增所必需的要素。然后，可以将包含液滴群的液体转移到PCR用管中，通过PCR在各液滴内诱导DNA的扩增反应。通过各液滴中的基因扩增，能够在各个液滴中得到细胞内的规定基因的扩增产物和细胞条形码的扩增产物。扩增例如可以包含25次循环、优选30次循环以上的扩增循环。接着，可以在各个液滴中连接细胞内的规定基因的扩增产物和细胞条形码的扩增产物(例如，参照图5)。连接例如可以通过将细胞条形码的引物之一和规定基因的引物之一设计成具有能够互相杂交的互补序列部分，在扩增反应(例如PCR反应)的过程中进行(例如参照图5的序列号4和5)。由此，能够对来自一个细胞的规定基因的扩增产物的分子各自赋予一种细胞条形码。

细胞条形码(Barcode)可以在中央具有细胞所固有的碱基序列{但是，也可以将特定编号的碱基序列在序列间设定为相同序列}，在两端具有用于扩增引物杂交的碱基序列。在一个方式中，用于扩增引物杂交的碱基序列可以为细胞条形码之间的共同序列。扩增细胞条形码的引物可以具有测序用衔接子序列和能够在基因扩增环境下与上述细胞条形码的一个末端杂交的碱基序列。该扩增细胞条形码的引物还可以具有用于识别样品的种别的索引序列。扩增细胞条形码的另一引物可以具有用于与规定基因连接的接头序列和能够在基因扩增环境下与上述细胞条形码的另一末端杂交的碱基序列。

扩增规定基因的引物可以具有用于与扩增细胞条形码的引物中所含的接头序列杂交的碱基序列和用于在基因扩增环境下与规定基因的扩增部位杂交的碱基序列。扩增规定基因的其它引物可以包含用于在基因扩增环境下与规定基因的扩增部位杂交的碱基序列和测序用衔接子序列。该扩增规定基因的其它引物还可以具有用于识别样品的种别的样品所固有的索引序列。

细胞条形码的扩增产物和规定基因的扩增产物具有相同的接头序列，因此在基因扩增中能够得到将细胞条形码的扩增产物和规定基因的扩增产物连接而得到的扩增产物。

测序用衔接子序列可以在两端包含用于测序前的桥式PCR的序列。测序用衔接子序列可以包含测序用引物的结合部位。测序用衔接子序列可以包含用于识别样品的种别的样品所固有的索引序列。桥式PCR为如下技术：对于固相化的两种寡DNA，杂交供于测序且在两端具有能够分别与上述两种寡DNA杂交的序列的DNA，在该状态下，通过PCR在固相表面上扩增DNA。

因此，在本发明中还提供一种液滴群，所述液滴群包含水性液滴，该液滴包含来自一个细胞的规定基因的扩增产物，上述规定基因的每一分子连接有该细胞所固有的一种细胞条形码。在该液滴群中，液滴各自包含来自不同的一个细胞的规定基因和该细胞所固有的一种细胞条形码{即，每个液滴包含不同的细胞条形码}。

如上所述，来自一个细胞的规定基因的每一分子连接有该细胞所固有的一种细胞条形码的连接物可以依次包含测序用衔接子序列、细胞条形码序列、接头序列、规定基因的全部或一部分碱基序列和测序用衔接子序列。该连接物还可以含有具有样品所固有的碱基序列的索引序列。索引序列可以包含在测序用衔接子序列、细胞条形码序列、接头序列、规定基因的全部或一部分碱基序列和测序用衔接子序列中的任意两者之间。索引序列可以替代地或追加地包含在测序用衔接子序列中。

在本发明中，能够制作来自一个细胞的规定基因的扩增产物的分子各自与每个细胞所固有的一种细胞条形码的扩增产物的连接物。在此，规定基因优选为一种，但是不限于一种，有时可以为多种。细胞条形码优选每个细胞为一种。

在本发明中，关于某连接物，将确定的规定基因的碱基序列和细胞条形码的碱基序列关联管理。根据该关联，能够推定连接有相同细胞条形码的规定基因来自相同细胞。因此，本发明的序列确定方法可以还包括：关于各连接物，得到确定的规定基因的碱基序列与包含细胞条形码的碱基序列的碱基序列的组合。

另外，本发明的序列确定方法可以还包括：推定为连接有相同细胞条形码的规定基因来自相同细胞。

在本发明的一个方式中，规定基因可以为微生物的内源基因，优选可以为在进化上广泛的种所共有的基因、例如持家基因。持家基因是能量代谢、细胞功能所必需的基因，是在所有细胞中表达或可能表达的基因。作为持家基因，没有特别限定，例如可以列举：核糖体RNA(rRNA，例如16S rRNA和23S rRNA)、存在于16S rRNA与23SrRNA之间的核糖体基因间转录间隔区(ribosomal intergenic transcribed spacers)(ITS)、推定ABC转运蛋白(abcZ)、腺苷酸激酶(adk)、莽草酸脱氢酶(aroE)、葡萄糖-6-磷酸脱氢酶(gdh)、单功能肽聚糖转葡糖基酶(mtg)、推定脱氢酶亚单元(pdhC)、磷酸葡萄糖变位酶(pgm)、菌毛蛋白合成的调控因子(regulator of pilin synthesis)(pilA)、脯氨酸亚氨基肽酶(pip)、多磷酸激酶(ppk)和3-磷酸丝氨酸转氨酶(serC)(参照Maiden et al.，PNAS，Vol.95，3140-3145，1998)。这些基因的序列可以用于微生物丛的分析。另外，在真菌的分析中，也可以使用18SrRNA。在规定基因为两种以上的基因的情况下，在适当的引物和反应条件下进行扩增反应，以使得各基因与细胞条形码连接。在本发明的方法中，为了根据规定基因的碱基序列分析细胞群，使用尽可能多的细胞所具有的基因作为规定基因是有利的。在本发明的一个方式中，规定基因可以为编码16S rRNA的基因。规定基因的碱基序列可以为该基因的全长或其部分序列。例如，在16S rRNA的情况下，进行测序的可以不是全长，可以设定为其一部分。16S rRNA的一部分可以设定为V3区域和V4区域。

在本发明中，规定基因只使用一种基因(或同源的基因组)即可，不需要使用两种以上的不同基因(或相互非同源的两个以上的基因组)。但是，规定基因可以为两种以上的不同基因(或相互非同源的两个以上的基因组)。

在本发明的序列确定方法中，测序可以通过破坏液滴并混合所有液滴中所含的溶液来进行。在本发明的序列确定方法中，测序可以使用本领域技术人员公知的方法实施。例如，测序可以使用下一代测序仪(例如，Illumina公司的MiSeq、HiSeq)并行地进行。像这样通过使用并行解读的测序仪，能够快速地分析数万～数亿的基因片段。在此情况下，如果测序需要，则本领域技术人员可以将测序用衔接子附加到连接物上，该工序是本领域技术人员公知的。

本发明的序列确定方法可以还包括在测序之前回收溶液的DNA的步骤。DNA的回收可以通过回收分别分离为液滴而含有的水相来进行。例如，DNA的回收可以通过如下方式进行：向所得到的液滴群中添加有机溶剂(例如氯仿等)并且优选还添加的水溶液(例如缓冲液，例如包含二价金属离子螯合剂(例如，Ca²⁺的螯合剂和Mg²⁺的螯合剂，例如，乙二胺四乙酸(EDTA))的Tris缓冲液、即Tris-EDTA缓冲液或TE溶液)，充分搅拌使水相与有机相分离，回收水相。由此，在油包水滴型粒子中，可以将在液滴的隔室中分别离散地存在的目标DNA(即，连接物)回收到水溶液中。在像这样得到的水溶液中，来自所含有的液滴的全部连接物在溶液中(为不具有由油形成的区划的溶液)混合存在(即，在液滴的各隔室中离散存在的连接物成为存在于一个溶液隔室中的状态)。如上所述，在测序中，由于能够并行地解读两个以上基因片段的碱基序列，因此混合存在有大量DNA的溶液适合于测序。

本发明的序列确定方法可以还包括在测序之前纯化DNA的步骤。DNA的纯化可以通过对由上述回收工序得到的水溶液进行凝胶过滤来进行。作为凝胶过滤，可以通过用于分离DNA扩增产物与其以外的溶液中的构成要素(例如，未连接的条形码扩增物、未用于扩增的引物、其它)而通常使用的方法，使用凝胶过滤柱等来进行。作为凝胶过滤柱，例如可以使用DNA纯化用凝胶过滤柱。另外，本发明的序列确定方法可以还包括利用露出羧基的柱或珠将溶液中所含的DNA纯化。在露出羧基的柱或珠上脱水合的DNA能够通过盐特异性地吸附，然后通过水合能够使DNA脱离柱。作为露出羧基的珠，例如可以使用Agencourt AMPure XP(贝克曼库尔特公司)等。

此外，在DNA扩增工序中，在使用具有标签的标签化引物(例如生物素化引物)进行DNA的扩增反应的情况下，DNA扩增产物结合有标签(例如生物素)。这样的带标签的DNA扩增产物可以利用连接有与标签结合的分子(例如，抗生物素蛋白、链霉抗生物素蛋白和中性抗生物素蛋白等标签结合分子)的柱、珠来浓缩或除去。特别是，本发明的序列确定方法在得到连接有细胞条形码和规定基因的产物的情况下，可以优选包含除去连接损坏的产物。即，可以将扩增细胞条形码的引物之一和扩增规定基因的引物之一设计成具有标签的引物并且具有互补的序列。即，可以仅对设计成具有互补序列的引物分别赋予标签。由此，如图5所示，细胞条形码的扩增产物和规定基因的扩增产物可以在与标签化的引物部分对应的区域相互连接。当进一步通过基因扩增对所得到的连接物进行扩增时，在连接物的扩增物中不含有标签，与此相对，连接损坏的扩增产物在其末端具有来自引物的标签。像这样，在一个方式中，在上述(B)中，扩增细胞条形码的两个引物中的一个、即具有与扩增规定基因的两个引物中的一个(该一个具有标签分子)互补的序列的引物具有标签分子。在细胞条形码和规定基因的扩增中，标签分子从细胞条形码和规定基因的连接物中丢失，标签分子仅在连接损坏的扩增物中残留。因此，连接损坏的扩增产物可以使用结合了标签结合分子的柱、珠，利用亲和性除去，由此能够以更高的纯度纯化连接物的扩增物。

因此，本发明的序列确定方法中，

在上述(B)中，细胞条形码的扩增产物具有来自第一引物的第一区域，规定基因的扩增产物具有来自第二引物的第二区域，第一区域和第二区域具有能够互相杂交的互补序列部分，上述第一引物和第二引物各自连接有一个以上的标签分子，该标签分子不包含在上述连接物中，并且，

在上述(B)中，还包括：从回收到水溶液中的连接物中将具有标签分子的扩增产物利用负载有对该标签分子具有亲和性的分子的柱或珠除去。由此，能够从所希望的连接物中分离具有标签分子的连接损坏的扩增产物。

在本发明的序列确定方法中可以包括删除测序质量低的碱基序列的区域。测序的质量例如可以通过根据Phred算法的质量得分(例如，phred质量得分，例如Q得分(Q＝-10log₁₀(e){在此，e为碱基识别错误的概率的推定值})来进行(参照Ewing et al.，GenomeRes.,8(3)：175-185，1998和Ewing and Green，Genome Res.,8(3)：186-194，1998)。如本领域技术人员为了减少测序的解读错误而广泛进行的那样，可以从分析中排除质量得分在一定阈值以下的序列。例如，可以从分析中排除Q得分为20以下、15以下或10以下的序列。

本发明的序列确定方法可以还包括：(C-1)根据细胞条形码的碱基序列对所确定的碱基序列进行聚类，得到两个以上第一簇。

在上述(C-1)中，“确定的碱基序列”可以为确定的规定基因的碱基序列与包含细胞条形码的碱基序列的碱基序列的组合。

根据所确定的细胞条形码的碱基序列对所确定的碱基序列进行聚类，不仅包括根据细胞条形码的碱基序列是否完全为相同序列来进行聚类，可以还包括将具有稍微差异的序列聚类为相同簇。将具有稍微差异的序列聚类为相同簇的理由是，在实验上在细胞条形码的扩增反应、测序中产生错误，被解读的碱基序列可能成为与原来的碱基序列不同的序列。但是，在扩增反应、测序中产生的错误在经验上是公知的，为了不根据与其对应的错误而将相同序列作为不同的序列来区别，将具有稍微差异的序列聚类为相同簇是有效的。

例如，当以所确定的细胞条形码的碱基序列完全相同的标准(距离0)进行聚类时，在不存在扩增错误、测序错误的情况下，来自一个细胞的碱基序列被准确地聚类为一个簇。因此，对于这样的情况没有问题。与此相对，当以所确定的细胞条形码的碱基序列完全相同的标准(距离0)进行聚类时，在存在扩增错误、测序错误的情况下，将来自一个细胞的碱基序列视为来自不同的细胞，可能会被错误地聚类为两个以上的簇。

理论上，在将具有n个碱基的附加、删除、缺失或插入(特别是得失位)的序列也聚类为相同簇的标准(距离为n，n可以为1～5的自然数)下，即使在由于扩增错误、测序错误而发生了n个以下的碱基的附加、删除、缺失或插入(特别是得失位)的情况下，也能够将来自一个细胞的碱基序列准确地聚类为一个簇。在此，如果是本领域技术人员，则可以根据扩增反应中的错误率、测序错误率适当地设定n。在将n设定得大的情况下，可以设计成细胞条形码在每个细胞中一定与n碱基有很大相同。在本发明的一个方式中，n可以设定为1。在本发明的其它方式中，n可以设定为2，在本发明的另外的其它方式中，n可以设定为3。通过将所确定的细胞条形码的碱基序列设计成每个细胞很大不同的序列，即使在发生了n个以下的碱基的附加、删除、缺失或插入(特别是得失位)的情况下，也能够确定具有该错误的碱基序列来自哪个细胞条形码。在聚类中，能够期待降低由这样的实验性错误造成的影响的效果。关于聚类，可以参考通过引用而将其整体并入本说明书中的WO2018/235938来实施。

由于细胞条形码对于各细胞是固有的序列，因此包含相同细胞条形码的连接物理论上应该只与来自相同细胞的规定基因连接。因此，根据相同细胞条形码的碱基序列，通过将所确定的碱基序列(包含细胞条形码和规定基因的扩增产物)进行聚类，能够确定来自相同细胞的规定基因。在细胞内仅存在一个规定基因的情况下，理论上，在上述(C-1)中得到的第一簇中，对于规定基因仅检测出一个序列。另一方面，在细胞内存在两个以上规定基因的情况下，理论上，在上述(C-1)中得到的第一簇可以包含与规定基因相关的两个以上的序列(旁系同源物)。因此，在进一步包含上述(C-1)的本发明的细胞群的分析方法中，能够检测在细胞群中存在具有规定基因的重复(拷贝或旁系同源物等)的细胞。

另外，在上述中，在本发明的方法中，理论上可以推定细胞数与细胞条形码的种类的数量或根据细胞条形码的碱基序列得到的簇数相等。因此，具有一个细胞中的规定基因的重复不影响要计算的细胞数的准确性的优点。

因此，本发明的细胞群中所含的基因序列的确定方法可以还包括：(D-1)由所得到的第一簇的数量推定细胞群中所含的细胞的数量或特定的具有规定基因的细胞的数量。

另外，在上述中，根据细胞条形码的碱基序列对所确定的碱基序列进行聚类，得到两个以上第一簇。与此相对，在以下的实施方式中，分析本发明的细胞群的方法可以包括根据所确定的规定基因的碱基序列对所确定的碱基序列进行聚类。

即，本发明的分析细胞群的方法可以还包括：(C-2)根据所确定的规定基因的碱基序列对所确定的碱基序列进行聚类，得到两个以上第二簇。

根据规定基因的碱基序列对所确定的碱基序列进行聚类，得到两个以上第二簇，这不仅可以包括根据是否完全相同的序列进行聚类，可以还包括将具有稍微差异的序列聚类为相同簇。将具有稍微差异的序列聚类为相同簇的理由在于，在实验上在细胞条形码的扩增反应、测序中序列有可能产生错误。

例如，当以确定的规定基因的碱基序列完全相同的标准(距离0)进行聚类时，在不存在扩增错误、测序错误的情况下，通过聚类得到的各簇准确地来自一种基因。另一方面，理论上，在将具有n个碱基的附加、删除、缺失或插入(特别是得失位)的序列也聚类为相同簇的标准下(距离为n，n可以为1～5的自然数)，即使在由于扩增错误、测序错误而发生了n个以下的碱基的附加、删除、缺失或插入(特别是得失位)的情况下，也能够将来自一种基因的序列聚类为相同簇。而且，在本发明的一个方式中，n可以设定为1。在本发明的其它方式中，n可以设定为2，在本发明的另外的其它方式中，n可以设定为3。在此，如果是本领域技术人员，则可以适当地设定n。所得到的簇数对应于规定基因的种类的数量。

并不是在所有的微生物中都掌握了规定基因的序列。但是，在本发明的序列确定方法中，细胞群可以含有未知的微生物。这是因为只要该未知的微生物具有能够与其它微生物区别的碱基序列的规定基因，就能够将该未知的微生物作为与已知微生物不同的微生物进行处理。

但是，在未知的微生物中，在规定基因的碱基序列与已知的规定基因的序列仅具有距离n以下的差异的情况下，在上述方法中，即使在未知的基因与已知的基因原本具有不同的碱基序列的情况下，也会被聚类为相同簇，有可能被推定为来自相同基因。

因此，上述(C-2)可以还包含进一步的工序：(C-2α)在某簇中，在含有与规定基因相关的不同的碱基序列的情况下，在该不同的碱基序列的一个位置上确定最丰富的碱基；确定第二丰富的碱基；在该位置上，在具有第二丰富的碱基的碱基序列的数量(即，读取序列数)相对于具有最丰富的碱基的碱基序列的数量(即，读取序列数)之比(Ratio2nd)为规定值以上的情况下，将具有最丰富的碱基的碱基序列和具有第二丰富的碱基的碱基序列聚类为不同的簇。由此，能够将分类为相同簇的碱基序列中的原本来自不同基因的碱基序列作为不同的碱基序列进行处理，由此通过(c-2)的工序能够降低不同基因被评价为相同的频率。

对于所有的碱基序列的差异，工序(C-2α)可以继续进行至Ratio2nd小于规定值为止。规定值例如可以为0.6以上、0.65以上、0.7以上、0.75以上或0.8以上的数字。这是因为，如果是真正存在的碱基序列，则应该包含在两个以上细胞中，可能以占据一定比例的方式检测出来。另一方面，由于错误的频率低，因此通过该评价能够区分错误和原本存在的序列。

在工序(C-2α)中，可以根据关于规定基因的碱基序列的质量得分对上述读取序列数进行加权。质量得分例如可以为可以根据Phred算法确定的得分、例如phred质量得分或者例如为Q得分。在质量得分小于规定值的情况下，可以进行低(例如，0)加权，在质量得分为规定值以上的情况下，可以进行高(例如，与得分的数值对应地)加权。如实施例的步骤3.2所述。

通过该工序，将具有最丰富的碱基的碱基序列作为该簇中的“代表性碱基序列”(RepSeq)。

对比不同的RepSeq，在发现碱基的偏移(位移)的情况下(即，当使碱基序列偏移时两个碱基序列一致的情况下)，将在更多的第一簇中发现的RepSeq作为母体，将更少的一者作为位移，删除发生了位移的碱基序列，能够推定为具有母体的碱基序列。此时，可以将发生了位移的碱基序列的计数(读取序列数)与作为母体的RepSeq的读取序列数相加。如实施例的步骤5所述。

在工序(C-2α)中可以还包括将仅在单一的读取序列中检测出的碱基序列作为错误而排除。

在从两个以上第一簇中检测出相同序列的情况下，该序列可能是真正存在的序列。因此，通过组合实施工序(C-1)和工序(C-2)，进一步提高碱基序列的确定精度。另外，当组合工序(C-1)和工序(C-2)时，能够确定在一个细胞中是否存在两个以上规定基因。

由此，在本发明中，(D-2)由所得到的第二簇的数量能够推定细胞群中所含的细胞的种类的数量(细胞群中含有几种细胞)。

因此，本发明的确定细胞群中所含的基因序列的方法可以还包括：(C-3)根据所确定的细胞条形码的碱基序列对所确定的碱基序列进行聚类，得到两个以上第一簇；并且根据所确定的规定基因的碱基序列对所确定的碱基序列进行聚类，得到两个以上第二簇。

在此的聚类的工序的详细情况及其效果如在上述(C-1)和(C-2)中说明的那样。在上述(C-3)中，可以对第一簇各自形成第二簇，也可以对第二簇各自形成第一簇。

本发明的确定细胞群中所含的基因序列的方法可以还包括：(D-3)根据所得到的细胞条形码的碱基序列和规定基因的碱基序列的组合的信息，由与被分类为至少存在一个的第二簇的规定基因的碱基序列连接的细胞条形码的碱基序列确定该规定基因的碱基序列被分类的第一簇，由该细胞条形码被分类的第一簇的数量推定被分类为该第二簇的细胞的数量。

在此，关于规定基因的碱基序列，对于距离n的两个碱基序列(例如，在序列的中心部具有一个丧失或缺失的差异(即，1-得失位)的两个碱基序列)，将被分类为更多的第一簇的碱基序列作为母体(即，将在更多数量的细胞中检测出的碱基序列作为母体)，将更少的一者作为1-得失位。在对母体的读取序列数比1-得失位多的第一簇的数量(No_mother)与母体的读取序列数比1-得失位的读取序列数少的第一簇的数量(No_1-得失位)进行比较，No_mother大于No_1-得失位的情况下，可以残留其母体与1-得失位的对。此外，在相对于包含母体和1-得失位这两者的第一簇的数量的、No_1-得失位的比小于规定值(例如，(No_1-得失位-3)/No_1-得失位)的情况下，可以残留母体与1-得失位的对。对于残留的母体与1-得失位的对，可以删除1-得失位，将1-得失位的读取序列数与母体的读取序列数相加。另外，在对于相同的1-得失位存在两种母体的情况下，可以对在更多的第一簇中发现的母体加上其读取序列数。另外，如果在没有母体的情况下存在仅检测出1-得失位的第一簇的情况下，在该簇中，可以将1-得失位的读取序列数作为母体的读取序列数。如实施例的步骤7所述。

此外，在基因扩增的过程中可能存在产生某一扩增产物与其它扩增产物连接的嵌合体分子的问题。在实施例中，显然在本发明的方法中，嵌合分子的生成比例极低，但本发明的方法可以还包括确定该嵌合分子的步骤。嵌合分子可以如下地确定。例如，在包含嵌合分子的第一簇的数量与仅包含嵌合分子(Total_N)而不包含亲本的第一簇的数量(N_d)之比(N_d/Total_N)之比为小于1的一定值以下的情况下，将该嵌合分子视为因错误而产生，可以从RepSeq中排除。如实施例的步骤8所述。

本发明的方法除了包括上述(C-2)以外，可以还包括制作基于细胞的操作分类单元(cOTU)。在细胞群中所含的微生物数量和种类不明确的情况多，进而，在存在未知的微生物的情况下，仅根据在数据库中登记的已知的基因序列信息，细胞群的基因序列的分析变得不充分。特别是，当基于规定基因的碱基序列而形成操作分类单元(OTU)时，对于规定基因，在某微生物种类中具有n个重复的情况下，该微生物种类的数量被计数为原来的n倍，产生误差。另外，在两个不同的微生物种类中，在一者具有碱基序列A和B且另一者具有A和C的情况下，当基于碱基序列而形成操作分类单元(OTU)时，OTU与A、B和C各自对应地形成3个，在与A的计数相应的细胞数产生误差。因此，在(C-4)中，为了降低具有基因重复的细胞包含在细胞群中时的计数的上述误差，根据RepSeq的信息制作cOTU。需要说明的是，cOTU是理论上按规定基因的碱基序列能够进行分类的微生物的分类单元，是对迄今为止只能按上位的分类群进行分类的微生物进行更详细分类的技术手段。这在包含未进行详细分类的微生物、未鉴定的微生物的细胞群的分析中特别有用。如果能够进行分类，则可以据此比较细胞群间的差异，是有利的。

cOTU的制作可以如下地进行。即，与现有方法同样地，可以将一个第二簇视为一个cOTU。但是，在本发明中，考虑到在相同细胞中包含两个以上第二簇，可以还包括将与相同细胞条形码连接的两个以上第二簇分类为一个cOTU。

即，本发明的方法例如除了包括上述(C-3)以外，可以还包括：(C-4)在被分类为相同第一簇的序列被分类为不同第二簇的情况下，将该第二簇分类为基于相同细胞的操作分类单元(cOTU，即相同细胞分类)。

在该cOTU的制作中可以还包括排除实验性错误(例如，在一个液滴中含有两个细胞进行分析，由此在一个第一簇中检测到来自两个细胞的规定基因的碱基序列)。

在存在两个与某细胞条形码序列连接的规定基因的碱基序列的情况下，在一个液滴中混入两个细胞的概率理论上遵循泊松分布。上述错误类型A被认为是依赖于液滴制作时的细胞浓度的错误，因此通过稀释液滴制作时的浓度(在实施例中使用了如在20％的液滴中含有细胞的浓度)，能够降低该错误的频率。另外，当两个碱基序列存在于不同的细胞中时，在操作中包含在一个液滴内的概率理论上遵循泊松分布。

在存在两个以上被赋予了一个细胞条形码的RepSeq(RepSeq可以为在上述步骤中除去各种错误后的序列，其是优选的)的情况下，将它们全部拾取(pickup)。含有两个RepSeq的液滴的数量表示为(Overlap)。来自不同细胞的两个RepSeq包含在一个液滴中的概率(Poission_Overlap)表示为(A×B×μ)/液滴总数{在此，细胞总数为包含细胞条形码的液滴的总数，A为包含一个RepSeq的液滴的数量，B为包含另一个RepSeq的液滴的数量，μ为用于PCR扩增效率、能够包含测序深度效果等的液滴中的检测效率的综合参数}。在此，

式：(Poission_Overlap)＝(A×B×μ)/液滴总数可以转换为

log₁₀(Poission_Overlap)＝log₁₀{(A×B×μ)/液滴总数}。

此外，上述式可以转换为

log₁₀(Poission_Overlap)＝log₁₀(A×B)-log₁₀(液滴总数/μ)。

在此，A和B可以实验性地测定，log₁₀(液滴总数/μ)在每次实验中可以为恒定的常数。因此，在将log₁₀(液滴总数/μ)设为常数OD时，上述式可以转换为：

log₁₀(Poission_Overlap)＝log₁₀(A×B)-OD。

这可以用y＝x-OD进行直线近似。可以对A和B假定各种整数来计算log₁₀(Poission_Overlap)。在现实的log₁₀(Overlap)的值在所计算的log₁₀(Poission_Overlap)的置信区间以外的情况下，可以推测两个碱基序列包含在一个细胞内。另外，在log₁₀(Poission_Overlap)的置信区间的内部的情况下，可以推测两个碱基序列各自包含在不同的细胞中。作为置信区间，例如可以使用单侧置信区间(例如，可以设定为95％以上、98％以上、99％以上或99.9％或其以上的置信区间)。由此，在统计学上用泊松分布不能说明的情况下，可以推定两个碱基序列包含在一个细胞内。或者，在统计学上可以用泊松分布说明时，可以推定两个碱基序列存在于不同的细胞中。

另外认为，理论上，相同微生物中的RepSeq的结果在不同样品中也是相同的。因此，即使在不同的样品中再现的情况下，也可以测定两个以上不同的细胞群样品，求出log₁₀(Overlap)的值在log₁₀(Poission_Overlap)的置信区间以外的样品数相对于包含两个RepSeq的样品数之比，在该比大于一定值的情况下(例如，一定值可以为0.4以上的数)，可以推定两个RepSeq来自一个细胞。

另外，可知被分类为相同第一簇的两个RepSeq存在于相同细胞内，因此这两个RepSeq可以分类为cOTU。由此，能够将第二簇重新分类为cOTU。

或者，在规定基因为16S rRNA的情况下，通过使用RDP分类进行分类、使RDP分类中的16S rRNA的训练组进行机器学习，能够制作具有最高得分的预测分类群，将其作为cOTU。需要说明的是，RDP分类为用于由根据核糖体数据库项目开发的16S rRNA的碱基序列识别微生物种类的工具。

另外，本发明的方法可以还包括根据由光学显微镜等的计数推定的细胞的总数对利用本发明的方法计算出的细胞的总数进行校正(或标准化)。通过对利用本发明的方法计算出的细胞的总数进行校正(或标准化)，能够提高细胞数(例如特定的簇的细胞数或特定的cOTU的细胞数)的预测精度。

本发明的方法能够用于进行两个不同的细胞群之间的比较。而且，本发明的方法可以还包括：(E)针对第一细胞群和与第一细胞群不同的第二细胞群各自推定细胞群中所含的(i)cOTU的数量和/或(ii)特定的cOTU中所含的细胞的数量，将针对第一细胞群推定的(i)cOTU的数量和/或(ii)特定的cOTU中所含的细胞的数量与针对第二细胞群推定的(i)cOTU的数量和/或(ii)特定的cOTU中所含的细胞的数量各自进行比较。

在上述(E)中，能够使要比较的细胞群的细胞数相等。在上述(E)中，通过在两个不同的细胞群之间比较cOTU的数量、各cOTU中所含的细胞的数量，还能够以cOTU的观点说明各细胞群的特征。

两个细胞群例如可以为在不同时间从相同对象的相同部位单离出的细胞群，可以为在相同时间从相同对象的不同部位单离出的细胞群，也可以为在相同时间从不同对象的相同部位单离出的细胞群。

在通过上述(E)比较在不同时间从相同对象的相同部位单离出的细胞群的情况下，以cOTU的观点对样品的获取时间的差异(例如健康状态的变迁、治疗前后的健康状态的差异、疾病、状态的发病、发展)进行说明。另外，在通过上述(E)比较在相同时间从相同对象的不同部位单离出的细胞群的情况下，以cOTU的观点说明获取部位的差异(例如，每个器官的细菌丛的差异)。另外，在通过上述(E)比较在相同时间从不同对象的相同部位单离出的细胞群的情况下，以cOTU的观点说明对象的差异(例如健康状态、性别、地域、人种等)。

本发明的方法可以还包括：(F)将针对第一细胞群推定的(i)cOTU的数量和(ii’)特定的cOTU中所含的细胞的数量与针对第二细胞群推定的(i)cOTU的数量和(ii’)特定的cOTU中所含的细胞的数量进行比较。

在上述(F)中，可以确定针对第一细胞群推定的cOTU的数量与针对第二细胞群推定的cOTU的数量之间的相关性。

在上述(F)中还可以比较针对第一细胞群推定的一个以上的特定的cOTU与针对对应于该一个以上的cOTU的第二细胞群推定的一个以上的cOTU。在此，从某细胞群推定的cOTU和从其它细胞群推定的cOTU是否对应，可以通过该cOTU中所含的全部碱基序列(或错误修正后的碱基序列)是否相同来确认。在上述(F)中，特别是可以确定各cOTU中所含的细胞数的增减与其它cOTU中所含的细胞数的增减是正相关、负相关还是不相关(相关弱)。由此，能够推定cOTU之间的网络。

或者，在群落生态学的领域中可以使用作为群间相似度指标的各种指标来比较细胞群(该细胞群包含两个以上cOTU分类群，针对各cOTU分类群确定细胞数)。例如，第一细胞群与第二细胞群的相似度可以以各cOTU中所含的细胞数之差的均方根(c.f.欧几里德距离)的形式求出。另外，第一细胞群与第二细胞群的相似度可以以各cOTU中所含的细胞数之差的绝对值之和(c.f.曼哈顿距离)的形式求出。这些数值的数字越大表示越不相似，在完全相同的情况下为0。Bray-Curtis不相似度(指数)为将曼哈顿距离标准化而得到的不相似度。在将第一细胞群的细胞组成设定为(X₁₁，…，X_1n)、将第二细胞群的细胞组成设定为(X₂₁，…，X_2n)时，Bray-Curtis指数由下式求出。

Bray-Curtis指数在两组完全不同的情况下为1，在完全一致时为0。像这样，由于是在不同的情况下被设计成变大的指数，因此有时被称为不相似度。Bray-Curtis指数可以使用统计处理程序(例如R的软件包vegan的函数，例如vedist函数)来计算。此外，相似度可以通过Morishita指数、Jaccard指数、Chao指数等在群体生物学领域中常用的评价指标来评价。对于所推定的相似度的标准偏差和置信区间，可以通过自举法等进行评价。

本发明的方法可以还包括(G)实施cOTU间的层次聚类。

层次聚类例如可以根据cOTU间的相关强度(例如斯皮尔曼的相关系数r)，通过本领域技术人员公知的方法进行。层次聚类还可以根据由r计算出的cOTU间的距离，通过本领域技术人员公知的方法进行。距离例如可以根据1-最小(│r’│)[r’∈(r-OCI,r+OCI)]{在此，OCI表示各r的90％单侧置信区间}来计算。层次聚类结果可以显示为系统树。这可以通过例如R的软件包hclust或pheatmap进行。另外，可以使用软件包igraph来图示皮尔逊的相关系数r为阈值(例如0.5以上或0.6以上等)以上的cOTU的网络。由此，能够根据两个以上细胞群中的cOTU的关系性来图示cOTU间的相关。

在cOTU与已知的微生物对应的情况下，可以明确已知的微生物间的相关，但即使cOTU与未知的微生物对应，也能够明确cOTU间的相关。在某cOTU与已知的微生物之一对应的情况下，能够明确已知的微生物与其它微生物(该其它微生物可以为未知，也可以为已知)的相关。另外，在相关的两个cOTU与已知的两个微生物对应的情况下，能够用于发现两个已知的微生物之间的新相关等。由此，在相关的n个cOTU与已知的n种微生物对应的情况下，能够发现n种已知微生物之间的新的相关。像这样，本发明的方法能够用于通过调查两个以上细胞群(例如，两个以上细菌丛)来确定微生物之间的相关。对象的健康状态可能与该对象具有的细菌丛有关。因此，通过进一步调查对象的健康状态与某cOTU的相关，即使cOTU自身为未知的微生物，也能够由与该未知的微生物对应的cOTU预测对象的健康状态{请注意，cOTU自身在不同的样品间也是共通的}。另外，除了对象的健康状态与某cOTU的相关以外，通过进一步调查和与该cOTU相关的其它cOTU的相关，能够期待提高来自cOTU的对象的健康状态的预测精度。

像这样，迄今为止以一个微生物只具有一个规定基因为前提进行分析，与此相对，在本发明中，提供即使在一个微生物具有两个以上规定基因的情况下也通过cOTU这一新的群的概念对其进行说明的方法。此外，通过对每个cOTU使用细胞条形码定性地计数细胞数，能够准确地计数各cOTU中所含的细胞。如果通过本发明的方法分析成为分析对象的细胞群，则能够确定内在的cOTU的种类和各cOTU中所含的细胞数。通过分析所获取的细胞群和cOTU的种类及各cOTU中所含的细胞数，针对包含未知的微生物的细胞群，也能够使用该未知微生物的信息进行更详细的细胞群的分析。

此外，本发明具有即使在基因的拷贝数根据细胞而不同的情况下分析精度也不会降低的优点。即，即使是相同种的微生物，也存在细胞内的基因拷贝数根据细胞而不同的情况。在这样的情况下，在以往的方法中，基因的拷贝数有可能影响细胞计数。在本发明的方法中，由于使用细胞条形码定性地计数细胞数，因此能够在不受细胞内的基因拷贝数影响的情况下进行细胞的计数。根据微生物的不同而释放影响环境的物质(例如毒物、增殖因子等)。准确地测定细胞的数量能够更准确地推定所释放的物质的量，能够拓宽基于该释放的物质量的数理建模的途径。

在本发明的方法中，要测序的基因可以为特定的一种基因，也可以为两个以上基因。在本发明的方法中，要测序的基因不必是全基因组。

另外，在现有方法中，例如在16S rRNA的分析中，对细胞群中所含的全部编码16SrRNA的基因的碱基序列进行测序，根据阈值对所得到的碱基序列进行分类。作为阈值，例如在一致性中设定为97％，将具有97％以上的一致性的基因视为相同基因来进行分析。但是，在这样的分析中，不同的种、不同的属、不同的科等的原本应该属于生物学上不同的分类群的微生物被认为是一个群。但是，在本发明的方法中，可以判别某个新的16S rRNA是真正新的、还是实验性错误所致的。例如，在两个以上细胞中发现的相同序列有可能是原本存在的序列，但可以通过细胞条形码对其进行确认。由此，在本发明的方法中，如果碱基序列不同，则可能成为不受碱基序列的相似度影响的评价方法。

实施例

在实施例中，制作由已知浓度的已知的细菌构成的模拟细菌丛(在此称为“模拟细胞群”)，验证测定系统，然后，调查实际的细菌丛(在此为盲肠的细菌丛)。

[方法]

模拟细胞群的准备

制备包含人肠内细菌株(ATCC29098、ATCC700926、DSM14469、JCM1297、JCM5824、JCM5827、JCM9498、JCM10188、JCM14656和JCM17463)的模拟细胞群⁹。将这些株的名称、供给源、培养基和培养条件示于表1。将培养菌用10％甘油保存在原来的培养基中，或者在磷酸缓冲生理盐水(PBS)中，在-80℃下保存至实验(表1)。JCM14656和DSM14469在培养之后，使用离心分离利用PBS清洗一次。将JCM10188在GAM琼脂(ニッスイ)上培养，收集细菌菌落，以3200rpm进行1分钟的涡旋，由此悬浮在PBS中(VORTEX GENE 2，Scientific Industries)。

利用PBS稀释10株，按照在II级生物安全柜内设定的浓度进行混合(表1)。接着在稀释或混合的各工序之后，以3200rpm进行1分钟的涡旋。将其称为该混合10株的“模拟细胞群”。模拟细胞群在-80℃下保存至实验。

[表1]

表1：株的名称、供给源、培养基和培养条件

上述表中的符号如下。

*利用显微镜图像测定的模拟细胞群形成中的添加浓度(平均值±s.d.,n＝5,个细胞/μL)。

**“+”：革兰氏阳性；“-”：革兰氏阴性。

#在-80℃、10％甘油下保存在培养基中。

##在-80℃下保存在磷酸缓冲生理盐水(PBS)中。

GAM，岐阜厌氧培养基(Gifu Anaerobic Medium)(ニッスイ)。

GAM Agar，改良GAM琼脂(Modified GAM Agar)(ニッスイ)

LB，Luria-Bertani(Nacalai Tesque)。

PYG，蛋白胨酵母葡萄糖(Peptone Yeast Glucose)，DSMZ培养基104。

ATCC培养基1249，硫酸盐还原剂的改良巴尔斯氏培养基(Modified Baar’smedium for sulfate reducers)。

利用显微镜图像测定细菌浓度

在显微镜下通过荧光成像测定各株的浓度。使用聚苯乙烯微球体(细菌计数试剂盒(Bacteria Counting Kit)，赛默飞世尔科技公司)测定荧光染色的细菌。使用碘化丙啶(赛默飞世尔科技公司)，在70℃下加热5分钟，将细菌染色。体积根据使用细菌计数室(SLGC)测定的微球体的浓度计算。对各菌株进行5次独立的测定；将这5次测定的平均浓度和标准偏差(以误差棒形式)用于计算模拟细胞群中的各菌株的浓度。

[表2]

表2：关于模拟细胞群的细胞计数和绝对浓度的设计

a、b、c通过重复进行3次取样而得到。

绝对浓度通过使用利用液滴数字PCR(ddPCR)测定的模拟细胞群的总浓度(94400个细胞/μL)，将由测序确定的原始计数值归一化而得到。

16S rRNA基因的桑格测序

使用2×KAPA HiFi Hot start ready mix(Roche)和引物F1-full-Fw/F3-full-Rv(表3)对各株的16S rRNA基因进行扩增。接着，将扩增的16S rRNA基因克隆到pCR-BluntII-TOPO载体中，使用ZeroBlunt TOPO PCR克隆试剂盒(Cloning Kit)(赛默飞世尔科技公司)在大肠杆菌(E.coli)中扩增。接着，将T7-启动子和SP6-启动子作为引物，从大肠杆菌的单一菌落分别扩增16S rRNA基因(表3)。最后，使用F2-Rv引物(表3)通过桑格测序(FASMAC)对从各菌落扩增的16S rRNA基因的V3-V4区域进行测序。

[表3]

表3：引物和条形码的序列

16SrRNA的测序法

简单进行说明，将模拟细胞群的细菌悬浮在PBS中，为了溶解细胞，连续供于溶菌酶、无色肽酶和蛋白酶K。接着，通过苯酚-氯仿提取而回收DNA。使用包含Illumina衔接子突出核苷酸序列(Illumina adapter overhang nucleotide sequence)(表3的CONV341F和CONV805R)的区域特异性引物，扩增16S rRNA基因的V3-V4区域。使用AMPure XP磁珠(贝克曼库尔特公司)将扩增产物纯化，并使用Nextera XT索引试剂盒v2(Illumina)进行索引化。在使用AMPure XP纯化后，利用TapeStation(Agilent)和用于Illumina的KAPA文库定量试剂盒(KAPA Library Quantification Kit for Illumina)(Kapa Biosystems)对合并的文库进行定性和定量。利用MiSeq平台(Illumina，2×300bp paired-end reads)对掺有20％PhiX control v3(Illumina)的改性文库进行测序。确认序列数据的质量，使用Trimmomatic版本0.38⁴⁷进行修剪。OTU使用Mothur版本1.35.1⁴⁸，以97％的一致性阈值进行聚类。选择各OTU中最丰富地存在的序列作为OTU的代表性序列(图1b)。

小鼠的准备

小鼠的处置全部根据理研的设施内动物实验委员会认可的规程，按照研究所的伦理指南实施。保持状态的小鼠如下。从CLEA Japan购买6周龄的C57BL6/J雄性小鼠，在取样前在相同笼子中喂食CE-2饲料(CLEA Japan)，由此在理研设施中维持3天。

小鼠盲肠内容物的采集

小鼠盲肠在七氟醚麻醉下，在颈椎脱臼后10分钟内通过手术取出。通过将不同部位的盲肠内容物(图2a)用已灭菌的剪刀切片而进行取样。取样过程在II级生物安全柜中在手术后10分钟内进行。将各小鼠的各部位的样品采集到DNA Lobind管(Eppendorf)中。在对照中使用2根空试管。样品的重量在采集到DNA Lobind管(全部样品在8.57～19.82mg的范围)中后立即测定。接着，使其分散在添加了各试样的PBS(每1mg为50μL)中，以3200rpm进行1分钟的涡旋，由此进行混合。悬浮试样在4℃下保存至之后的实验。

细胞外DNA的过滤

将小鼠盲肠试样稀释到每1mg盲肠内容物为1ml的PBS中，然后以3200rpm进行1分钟涡旋。在对照中，在空管中添加PBS。接着，使用0.22μm孔径的Ultrafree-MC离心过滤器(Centrifugal Filter)(Merck)，通过离心分离(10000g，10分钟，4℃)将稀释后的试样400μl过滤。向残留在膜上的试样中添加400μl新鲜的PBS，通过移液进行悬浮，然后将总量移至新的DNA Lobind管中。接着，将悬浮的试样以3200rpm进行1分钟的涡旋。在悬浮试样和通过过滤器的液体中所含的细胞外DNA在4℃下保存至之后的测定。需要说明的是，利用0.22μm的过滤器进行的DNA分离的适当性通过如下来确认：与使用孔径为0.1μm的过滤器的情况相比，通过过滤器的液体中的细胞外DNA的量大致一致，在通过过滤器的液体中未检测到细胞；由从过滤器过滤后的过滤器上回收的细菌量相等；以及从过滤器回收的细菌量与基于数字PCR的细菌数相关(参照图31)。

BarBIQ法

总浓度测定

细胞或细胞外16S rRNA基因的总浓度使用引物F1-Fw和F1-Rv(表3)并利用Droplet Digital^TMPCR(ddPCR)(Bio-Rad)进行测定。等摩尔混合后的4个细胞条形码模板(表3；含有24个随机碱基的各模板根据我们之前的文献²⁵设计，随机碱基的数量足以区分在单一的MiSeq测序操作中测定的各个细胞)的浓度也通过使用了引物NoBiotin-Link-barcode-F和P5-index-R1P-barcode-R(表3)的ddPCR进行测定。ddPCR根据QX200^TMddPCR^TMEvaGreen(商标)Supermix(Bio-Rad)的用户手册实施。

一步法的液滴扩增

为了制作测序文库，将合计约240000个细胞(或细胞外的16SrRNA基因的20000个拷贝)与包含等摩尔混合细胞条形码、引物(400nM P7-R2P-341F、400nM P5-index-R1P-R、10nM Biotin-link-805R和10nM Biotin-Link-F)、用于探针的ddPCR^TM Supermix(No dUTP)(Bio-Rad)、128单位的Platinum Taq(Invitrogen)和100nM NTP的溶液960μL进行混合。以3200rpm进行1分钟的涡旋，然后利用Bio-Rad液滴生成器将混合溶液封入液滴中，将30μl的混合溶液和80μl的用于探针的液滴生成油(Droplet Generation Oil for Probe)(Bio-Rad)加载到DG8^TM盒上的各通道中(对各试样使用32个通道)。为了测定模拟细胞群，将约600000个细胞与包含细胞条形码的约600000个拷贝、320单位的Platimum Taq和引物、dNTP、用于探针的ddPCR^TM Supermix(No dUTP)的2400μL溶液进行混合；接着，进行涡旋，然后使用每个试样为80个的通道将混合溶液封入液滴中。通过液滴中的一步法PCR生成用于Miseq测序的文库(95℃的5分钟；94℃的45秒和60℃的150秒的6次循环；94℃的25秒和60℃的80秒的49次循环；98℃的10分钟)。

文库的回收和纯化

使用氯仿回收通过液滴扩增技术生成的文库，将80μl的TE缓冲液(Invitrogen)和280μl的氯仿(Sigma)与从各DG8^TM盒(8孔)收集的液滴混合，然后移液10次，进行涡旋，直至水与有机相分离；在离心后(21900g，10分钟)，提取包含文库的水相的溶液。接着，通过使用了AMPure XP的珠纯化和使用了2％E-Gel^TM EX Agarose Gels(赛默飞世尔科技公司)的凝胶纯化，除去未连接的条形码扩增物、残留引物、回收溶液中的副产物等非靶DNA。然后，利用链霉抗生物素蛋白磁珠(NEB)除去生物素化的未结合的16S rRNA扩增物，利用引物Biotin-link-805R(图5)将未结合的16S rRNA扩增物进行生物素化²⁸。使用AMPure XP、凝胶和链霉抗生物素蛋白珠的纯化工序分别实施两次。最后，用DNA清洁和浓缩试剂盒(DNAClean and Concentrator Kit)(Zymo Research)将纯化的文库浓缩。通过Agilent 2100生物分析仪确认文库的质量，使用引物P1_qPCR_Fw和P2_qPCR_Rv(表3)并利用qPCR(KAPASYBR Fast qPCR试剂盒，Kapa Biosystems)测定浓度。根据各产品的用户指南实施使用AMPure XP、凝胶和链霉抗生物素蛋白珠的纯化工序的详细规程。

MiSeq测序

在MiSeq platform(MiSeq试剂盒v3，600次循环，Illumina)上，对于Read 1分配30次循环，对于Index 1分配295次循环，对于Index2分配8次循环，对于Read 2分配295次循环，对样品的文库进行双末端的测序(图5)。为了代替索引而读取16S rRNA序列，将Illumina Index 1测序引物替换为被命名为I1_primer(表3)的定制引物。为了保持用于测序的序列的不均匀性，将另外制作的添加/加入(某种物质)的对照(spike-in control)与试样一起测序(图18和图19)。更具体而言，细菌、细胞外的DNA或细胞条形码的总浓度按照QX200^TM ddPCR EvaGreen^TM Supermix(Bio-Rad)的指示，利用Droplet Digital^TM PCR(ddPCR)进行测定。对于细菌和细胞外DNA试样，使用将16S rRNA基因的V1-V2区域作为靶的引物、F1-Fw和F1-Rv或将16S rRNA基因的V3-V4区域作为靶的341F和805R(表3)。细胞条形码使用作为引物的Biotin-Link-barcode-F和P5-index-R1P-barcode-R(含有indexGTACTGAC)(表3)。将QX200^TM ddPCR^TM EvaGreen^TM Supermix、1μM引物、1μM dNTP和样品(多重稀释，1分钟3200rpm的涡旋)以30μl的容量进行混合，为了混合，利用移液管分注。接着，使用用于EvaGreen的液滴生成油(Droplet Generation Oil for EvaGreen)(Bio-Rad)、DG8^TM盒(Bio-Rad)和液滴生成器(Bio-Rad)将混合溶液封入液滴中。液滴PCR通过以下步骤实施。在初期变性中为95℃5分钟；在变性中为95℃45秒，在退火和伸长中为60℃150秒的6次循环；在变性中为95℃25秒和在退火和伸长中为60℃80秒的39次循环(F1-Fw和F1-Rv)或95℃25秒和在退火和伸长中为60℃80秒的34次循环(引物341F/805R)；在信号稳定化中为4℃5分钟和90℃5分钟。然后，利用QX200微滴分析仪(Droplet Reader)(Bio-Rad)测定液滴的荧光强度，根据利用软件QuantaSoft(Bio-Rad)得到的强度的双峰式分布的谷即阈值，确定阳性和阴性液滴数(图18a)。最后，样品的浓度根据阳性和阴性液滴的比率和样品的稀释率计算。

使用两个引物组、F1-Fw/F1-Rv和341F/805R对相同试样(从C57BL6/J雄性小鼠得到的盲肠试样)测定两细胞和细胞外的DNA的合计浓度，确认了两者的测定浓度一致。根据以下理由，在BarBIQ的细菌试样的浓度测定中使用引物F1-Fw/F1-Rv。

为了进行该比较，由于341F/805R(图18b)的情况下的阳性和阴性液滴的分布之间的明显的不明确分离，通过高斯拟合来确定阳性和阴性液滴的比例。通过R packagemixtool中的函数normalmixEM，使用4个高斯分布与强度分布的峰拟合(图18c)。简而言之，利用两个高斯分布的拟合可能是足够的，一个是针对阳性液滴，另一个是针对阴性液滴。但是，数据明显存在两个以上的高斯分布。因此，拟合了利用不同数量的高斯分布的强度分布。当使用4个以上的高斯分布(尝试了6个以下)时，可知阳性液滴的比例稳定(图18d)。这表明4个高斯分布足以说明强度分布。为了计算阳性液滴的比例，在该高斯分布的平均值大于强度双峰式分布的表观谷的情况下，以及在与阴性液滴相反的情况下，作为阳性液滴，假定拟合的高斯分布。最后，使用两个引物组在结果间比较阳性液滴的比例，发现它们对于细菌细胞和细胞外DNA试样这两者基本上没有差异(图18e)。使用引物F1-Fw/F1-Rv的阳性液滴和阴性液滴之间的分离比使用341F/805R(图18a、b)的分离明显得多，因此对于BarBIQ选择了F1-Fw/F1-Rv引物。

液滴制备时的细菌浓度和条形码浓度的调节

为了生成液滴，使用浓度为250个细胞/μl的细菌。该浓度由于一个液滴的体积约为0.8nl，因此约20％的液滴含有细菌。在该条件下，根据泊松分布，含有细菌的液滴的90％以上仅包含一个细菌，其它液滴包含两个以上细菌。

理论上，BarBIQ通过使用总浓度将由测序确定的各cOTU的比例浓度归一化来测定cOTU的绝对浓度，不同的细胞条形码浓度不改变各cOTU的比例浓度，因此细胞条形码的浓度对BarBIQ中的浓度测定没有影响。但是，更高浓度的细胞条形码产生更多的垃圾扩增子(junk amplicon)，这可能影响16S rRNA序列的鉴定。另一方面，低浓度的细胞条形码可能会降低细菌的检测效率。我们为了BarBIQ测定，使用100～250分子/μl范围的细胞条形码，其结果，8～20％的液滴包含条形码。只有包含细胞和条形码这两者的液滴被测序，因此预测最终3％～11％被测序。

根据这些浓度的细菌细胞的检测率在3％～11％的范围内。即使使用相同浓度的细胞条形码，不同试样的检测率也相差约3倍，这可能是由细胞条形码分子的低浓度的不稳定性引起的。由测序确定的cOTU计数在表示细胞的不同检测率的重复实验之间显示出良好的相关，因此表明检测率基本上不影响检测出的所有cOTU的比例浓度的测定(图15)。

BarBIQ测序的添加/加入(某种物质)的对照

如在扩增物测序⁵⁴中使用Phix经常进行的那样，为了避免测序中不均衡的碱基形式，将所设计的添加/加入(某种物质)的对照与文库混合，同时进行测序。将添加/加入(某种物质)的对照的制作的概况示于图20。首先，将包含174个和176个随机碱基的两个单链DNA(ssDNA)StdTarget1和StdTarget2通过T4 RNA连接酶(NEB)以400nM的浓度连接过夜，接着在65℃下进行15分钟的酶的变性工序。接着，使用包含由StdTarget1和2的连接产物单独设计的随机条形码(RandomBar_std1、RandomBar_std2、RandomBar_std3和RandomBar_std4；图16和表3)的四种不同的引物，通过伸长制作4种随机条形码模板，在15分钟的从90℃到室温的退火工序之后，使用Klenow聚合酶(NEB)进行伸长。在柱纯化后，使用4个不同的索引化引物(对于RandomBar_std2为Index_NSE 501，对于RandomBar_std3为Index_NSE502，对于RandomBar_std4为Index_NSE 505，对于RandomBar_std1为Index_NSE 506，图16和表3)和其它末端使用common primer std_R2，从通过最后的工序制作的伸长的模板扩增4种DNA产物。通过凝胶电泳将包含约600个碱基对的产物纯化。使用P1_qPCR_Fw和P2_qPCR_Rv引物再进行2次PCR，扩增更多的产物；通过凝胶电泳将来自PCR各轮的产物纯化。添加/加入(某种物质)的对照根据使用引物P1_qPCR_Fw和P2_qPCR_Rv通过qPCR测定的浓度，通过将这4种产物以相等的比例混合来制作。

当每个唯一条形码的读取序列数平均超过60时，各cOTU的数量饱和，因此确认到全测序实验中的测序深度对于数字计数是充分的(图28和34)。

数据处理的流水线

开发了用于处理通过鉴定Bar序列和cOTU(细胞类型)、定量各cOTU的测序得到的数据的流水线。流水线的主要策略示于图6，各步骤的详细情况如WO2018/235938A和以下所述。在原则上，来自MiSeq的读取序列首先使用细胞条形码(Read R1)²⁵进行聚类。接着，将连接在相同细胞条形码上的16S rRNA序列(Read I1和Read R2)根据它们的序列一致性进一步进行聚类。根据对各序列类型的读取序列数和它们的测序质量这两者，生成针对各聚类16S rRNA序列组的代表性序列(RepSeq)。根据各RepSeq的读取序列数和针对RepSeq的各序列类型的RepSeq的数量这两者，在两个以上步骤中进一步除去认为错误的RepSeq(参照WO2018/235938A和图6)。将独特的RepSeq序列类型命名为Bar序列。接着，根据相同液滴中的它们的共检测频率，将Bar序列聚类为cOTU。如果在相同液滴中频繁检测到两个以上Bar序列，则将它们视为来自相同细菌的两个以上16S rRNA基因，将它们聚类为单一的cOTU。接着，通过固有的细胞条形码的数量(即，条形码簇)对针对各cOTU的细胞数进行计数。各cOTU的绝对细胞浓度通过使用通过ddPCR测定的试样的总浓度将cOTU的测序中计数的细胞标准化来确定。此外，通过对照鉴定在取样和/或测定中污染的cOTU。

流水线的大部分用Perl(版本5.22.1)写成，其它利用软件实施。R(版本3.5.1)，核苷酸序列聚类器(版本0.0.7)²⁵，bwa(版本0.7.15)⁴⁹。将在本流水线中使用的Perl模块和R软件包列举在表4中。

[表4]

表4：在数据分析中使用的Perl的模块和R的软件包

/>

BarBIQ数据处理的详细情况

在我们的测序中，R1(30个碱基)为细胞条形码，I1(295个碱基)和R2(碱基)为16SrRNA序列，I2(8个碱基)为唯一标记各试样的索引。将3次测序操作全部总结在表4中。

步骤1：根据细胞条形码的聚类

关于细胞条形码(R1)的读取序列，除最初的低质量读取序列的缺失以外，按照以前的报告(WO2018/235938A)，根据序列进行聚类。首先，如广泛实施的那样⁴⁷，排除包含由4个连续的碱基构成的至少一个窗口的低质量的R1读取序列(其平均得分小于15)。测序运行1、2和3的读取序列的比例分别为0.23％、0.05％和0.06％，通过该过程而被排除。接着，为了下一步骤，选择与所设计的细胞条形码的最后4个固定碱基一致的R1读取序列。使用软件、核苷酸序列-聚类器²⁵将来自包含样品和添加/加入(某种物质)的对照这两者的相同测序运行的具有所有距离2的参数的R1读取序列进行聚类。虽然形成了不同的索引，但排除被聚类为相同簇的读取序列。将所得到的簇命名为BCluster。各读取序列具有两个16S rRNA序列(I1和R2)和细胞条形码(R1)(图6)。

步骤2：根据低质量的末端和读取序列I1和R2的引物部的修剪

在该阶段中，根据读取序列的质量和它们的引物部分，在一定的位置修剪所有读取序列的末端。Miseq测序中的读取序列的碱基的质量一般在读取序列的末端降低，在末端产生更多的错误⁵⁰。在数据处理的下一阶段，由于需要保持读取序列的长度相同，因此我们应用了均匀的阈值，通过一次测序操作对所有读取序列的末端进行了修剪。根据所有读取序列的平均质量来确定测序运行的修剪位置；对于选择修剪位置的规则而言，当连续的两个位置的平均质量的平均值开始低于25(可以使用连续的两个位置的平均质量的平均值来避免测序质量的偶发变化)时，从读取序列的头部选择最初的位置。在测序运行1中使用修剪位置231(I1)和194(R2)，在测序运行2中使用294(I1)和267(R2)，在测序运行3中使用271(I1)和237(R2)。此外，各读取序列的引物部分依赖于对于I1为21个碱基、对于R2为17个碱基的设计的引物的长度而被直接修剪。

步骤3：根据16S rRNA序列(I1和R2)的聚类

在该阶段中，实施根据16S rRNA序列(I1和R2)将各BCluster内的读取序列聚类的两个子步骤。

步骤3.1：根据置换距离的聚类

在步骤3.1中，使用软件核苷酸序列聚类器，将读取序列I1和R2根据它们之间的置换距离以距离3的参数进行聚类，将具有相同MiSeq ID的读取序列I1和R2进行物理连接，从而认为是单一的读取序列。

步骤3.2：根据读取序列的单一位置的聚类

步骤3.1由于整合了可能不是错误、而是真正的16S rRNA序列的非常类似的序列，因此使用追加的聚类步骤。对于由步骤3.1产生的各子簇，根据读取序列的特定的位置对读取序列再次进行聚类(所有读取序列利用第一碱基进行整理)。将该过程的逻辑图示于图20。对每个读取序列位置，计数包含碱基(A、T、C、G)种类的读取序列数，计算出包含第二丰富的碱基的读取序列数相对于包含第一丰富的碱基的读取序列数之比(命名为Ratio2nd)。此外，各读取序列的计数利用在该位置的碱基的测序的质量得分进行加权；对于规则而言，在得分小于15的情况下加权为0，在一者得分为15以上的情况下，以将该得分除以41而得到的得分进行加权。然后，选择所有位置中最高的Ratio2nd，与阈值0.75进行比较；在Ratio2nd≥0.75的情况下，将包含第二丰富的碱基的读取序列作为新的子簇从原来的子簇中分离。然后，通过相同的策略再次对两个新生成的子簇进行聚类，重复进行聚类，直至所有子簇的所有位置的Ratio2nd低于0.75。将最后的子簇命名为SCluster(图6)。液滴中的16S rRNA序列(来自相同细菌的两个以上16S rRNA序列)的扩增效率经常有偏差。因此，在此情况下的Ratio2nd可能小于0.75，但两者均为真正的16S rRNA序列。幸运的是，来自相同细菌的这些不同类型的序列(例如A和B)的扩增偏差(amplification bias)随机地发生。例如，由于有时序列A具有更多的读取序列，有时序列B具有更多的读取序列，因此这两个序列类型均可能从不同的液滴中鉴定出来，扩增偏差不影响细胞计数。但是，与使用更低的阈值的情况相比，在使用阈值0.75的情况下检测到两种序列类型的液滴的数量减少。这可能影响用于从相同细菌鉴定两个序列的步骤(参照步骤12)。另一方面，当使用低于0.75的阈值时，可能生成仅包含错误序列的子簇，在下一个过程中产生问题。因此，使用阈值0.75鉴定16S rRNA序列，但是在用相同液滴检测到来自相同细菌的两个序列的情况下，使用其它阈值0.1进行检测。由阈值0.1生成的数据仅用于检测来自相同细菌的两个以上16S rRNA序列，使用也利用阈值0.75鉴定出的16S rRNA序列。需要说明的是，由于在步骤3中仅考虑了置换错误，因此插入错误和缺失错误全部被聚类为SCluster，但是该流水线的副作用在下一步骤中进行解决。

步骤4：各SC簇的代表性序列(RepSeq)的制作

对于各SCluster，根据各碱基的测序质量得分和各类型的碱基的比例这两者生成相对于读取序列I1和R2这两者的代表性序列(RepSeq)。为了计算各类型的碱基的比率，用质量得分对各类型的碱基的读取序列数进行加权。在质量得分小于15的情况下，加权为0；在得分为15以上的情况下，以除以41而得到的得分进行加权。对于各个位置，使用第一丰富的碱基类型作为代表性碱基(图6)。由单一读取序列的SC簇生成的RepSeq由于错误风险高，因此在该阶段也除去了单一读取序列的RepSeq。各SCluster的读取序列数作为区分包含错误的错误的RepSeq与正确的RepSeq的重要信息而在下一阶段中使用。

步骤5：发生了位移的RepSeq的除去

在该阶段中，除去由在步骤2中在作为引物部分排除的读取序列的头部(I1为21个碱基，R2为17个碱基)产生的插入或缺失(indels)引起的错误型RepSeq。例如，假定BCluster x包含16S rRNA序列的读取序列，在其中的几个在头部具有两个缺失的情况下，在切取引物部分后产生两种读取序列(RepSeq i和j(在读取序列中有两个缺失))，RepSeqj应该从i的左向右位移两个碱基(图21)。将该错误型命名为发生了位移的RepSeq。

将步骤5的逻辑图示于图21，策略如下。a)找出在各BCluster中考虑的所有RepSeqs型对，一个RepSeq型为另一个RepSeq型的位移序列，仅选择该位移小于8个的RepSeq型对。b)对于发生了位移的RepSeq类型(A和B)的各对，将在更多的BCluster中鉴定的RepSeq类型作为母体(mother)，其它尽可能认为是位移。这是因为通常错误比正确的少。c)对于母体和发生了位移的各组，对母体的读取序列比位移多的BCluster的数量(No_mother)及其相反的事例(No_shift)进行计数；仅使用包含母体和位移这两者的BCluster；d)接着，由于错误比正确的少，因此当No_mother大于No_shift时，保存母体和位移。e)在伴随母体的BCluster中存在该位移的情况下，删除该BCluster的位移，对母体加上该位移的读取序列数(在下一步骤中使用了与母体有关的读取序列总数)，在不伴随母体的BCluster中存在位移的情况下，用位移替换母体(如果对于相同的位移存在两个以上的母体的情况下，选择在更多的BCluster中鉴定的母体)，使用将发生了位移的读取序列数用作与被置换的母体相关的读取序列数的规则，根据在d)中保存的母体与位移的对来除去位移。将I1和R2RepSeq独立地处理。

步骤6：I1与R2的RepSeq的连接

在该步骤中，I1 RepSeq和R2 RepSeq根据它们在它们的末端的重叠的序列而连接。V3-V4区域中的16S rRNA基因的长度分布依赖于Silva的数据库(v123.1)，大致在(＞99.9％)400bp～500bp的范围内(图22)，因此用于I1和R2这两者的读取序列的295个碱基的测序基本上在I1和R2的读取序列的各对的末端之间可以达到90个以上的重复碱基。但是，由于各读取序列末端的低测序质量(参照步骤2)，根据所实施的测序运行的最佳经验，能够用于数据处理的只有I1的约294个碱基和R2的约267个碱基。尽管如此，仍能够检测到60个以上的重复碱基。因此，为了得到V3-V4区域中的16S rRNA基因的全长，实施发现I1 RepSeq与R2 RepSeq之间的重复序列并将它们作为单一的RepSeq连接的步骤。但是，由于测序的质量不良，因此在测序运行1中，在I1中仅使用231个碱基，在R2中仅使用194个碱基，因此没有检测出重叠的序列，I1和R2的RepSeq未连接。一般而言，I1和R2这两者的RepSeq的末端存在的几个碱基有可能偶然相同。因此，可以认为，为了避免假的重叠，将I1 RepSeq和R2RepSeq这两者的末端的5个以上的相同碱基的阈值作为重叠使用。理论上，偶发重复的可能性为(1/4)^b，在此，b为重复的碱基的数量，5个碱基的事故重复的可能性为(1/4)⁵≤0.00098。

此外，在模拟细胞群和M0的数据中，所有偶发重复均为＜5个碱基(由于使用了短的读取序列，因此不能发现重复)。

重复部分的I1 RepSeq与R2 RepSeq之间的置换的差异由于读取序列末端部分的质量相对较低，因此即使很少也可能发生。因此，为了消除这些错误而应用了另一个处理。该策略中，a)在上述连接过程之后发现未连接的RepSeq。b)接着，利用相同BCluster内的其它RepSeq(分别直接比较I1和R2 RepSeq)比较各RepSeq，发现其一个碱基不同的RepSeq。c)在连接一个碱基差异的RepSeq的情况下，删除未连接的RepSeq，在连接的RepSeq上追加其读取序列。

步骤7：一个插入和缺失(1-indel)RepSeq的除去

在该步骤中，除去由读取序列的主要部分中{不在读取序列的头部(即，引物部分，参照步骤5)}的一个插入或缺失(1-indel)错误引起的错误类型的RepSeq。由于步骤3中的聚类仅根据上述的置换，因此将包含得失位的错误的读取序列全部分离，制作各个RepSeq。一般而言，在测序的读取序列的中间左右发生的得失位是非常罕见的(Schirmer M etal.，BMC Bioinformatics 2016；17：125)，因此在该阶段不仅考虑了1-indel，还考虑了在步骤9中伴随置换的两个碱基得失位和1-indel(后述)。

将步骤7的逻辑图示于图23。策略如下。a)在各BCluster中发现了所有具有1-indel差异的RepSeq类型的可能对。b)由于错误一般比正确的少，因此对于RepSeq类型(A和B)的各1-indel对，将在更多的BCluster中鉴定的RepSeq类型作为母体，其它认为是1-indel。c)对于母体和1-indel的各对，对母体的读取序列比1-indel(No_mother)多的BCluster的数量和其相反的事例(No_1-indel)进行计数；仅使用了包含母体和1-indel这两者的BCluster。d)当No_mother大于No_1-indel时，我们只残留其母体与1-indel的对。这是因为错误的读取序列一般比正确的少。e)计算包含具有可能性的1-indel以及其具有可能性的母体的BCluster的数量与包含可能的1-indel的全部BCluster的数量(No_1-indel)之比(Rs)，在条件语句Rs≤(No_1-indel-3)/No_1-indel为真的情况下，选择了可能的母体与1-indel的对。f)根据所选择的母体与1-indel的对，在母体和BCluster中存在1-indel的情况下，在该BCluster中删除1-indel，对母体加上1-indel的读取序列数(在下一步骤中，作为母体使用读取序列总数)，如果在不伴随母体的BCluster中存在1-indel的情况下，将1-indel的读取序列数置换为母体(在对于相同的1-indel具有两个以上母体的情况下，选择在更多的BCluster中鉴定的母体)，将1-indel的读取序列数用作与被置换的母体相关的读取序列数。

步骤8：嵌合体的除去

在该阶段，除去由嵌合体扩增产生的错误型RepSeq嵌合体。嵌合经常发生在PCR中，使产物更加复杂。特别是在16S rRNA扩增物的测定中，RepSeq嵌合经常发生²⁷。

将除去嵌合体的逻辑图示于图24，其策略如下。a)在各BCluster中，检查RepSeq类型(A、B、C)的所有可能顺序的嵌合体；A的头部与B的头部部分相同，A的其它部分(伴有B)与C的末端部分相同，并且在A的读取序列数不是3个中最大的情况下，将A认为是嵌合体，将B和C认为是该嵌合体的亲本。b)对于每个鉴定的嵌合体，对包含嵌合体的BCluster的数量(Total_No)和仅包含嵌合体但不包含亲本的BCluster的数量(No_d)进行计数。c)当条件语句Ratio_d(＝N_d/Total_No)≤0.1且Ratio_d≤1/Total_No为真时，从RepSeqs中排除嵌合体候选。

BarBIQ只具有1～5％的嵌合体，这远远低于通过以往的方法得到的结果(～70％)²⁷，可知通过该工序能够除去嵌合体。在BarBIQ中几乎不产生嵌合体的理由是条形码和测序衔接子通过在分开的空间(即，液滴)中的一步法扩增而附着在来自单一细菌的16S rRNA基因上，这表示来自不同细菌的16S rRNA扩增物未混合。即使在关于使用液滴和条形码的高通量16S rRNA基因测序的最近的研究(Borgstrom E et al.，Nat Commun 2015；6：7173和Sheth RU et al.，Nat Biotechnol 2019；37(8)：877-883)也未实施该方法。

步骤9：罕见的错误Repseq的除去

在该步骤中，除去如具有一个得失位和一个置换错误(命名为CaseA)、一个得失位和两个置换(命名为CaseB)和两个得失位(命名为CaseC)的RepSeq那样的高水平的错误。如已经提到的，由于通过在步骤3中的我们的聚类方法仅可能产生得失位的错误，因此在此考察的高水平的错误包含得失位。另一方面，更复杂的错误极少地发生并且在步骤10中被除去。

将步骤9的逻辑图示于图25，策略如下。a)将具有上述差异(CaseA、B、C)中的任一者的各BCluster的RepSeq类型的可能的对全部鉴定，b)比较各鉴定对的RepSeq的读取序列数。如果RepSeq(小型/大型)之间的读取序列数之比低于阈值0.2，则排除读取序列数少的RepSeq，将读取序列数追加到其它对中。

步骤10：低计数RepSeq的除去

大部分错误在上述步骤中被除去后，未知的RepSeq(与San序列不同)依然残留在模拟细胞群的数据中。但是，均为少数。因此，对每个残留的RepSeqs种类计数BCluster的数量。由于以低计数为原因的偏差大，因此对每个RepSeq类型使用根据取样的重复(基于不同取样的相同样品的测序)的平均计数。对于各重复，对于各RepSeq类型的计数，利用相对于在全部重复中最高的总计数的、全部RepSeq类型的总计数进行归一化。接着，从所有的重复实验计算各RepSeq类型的平均计数。对模拟细胞群进行3次取样，由3次重复实验得到平均计数。最后，在平均计数小于2的情况下，排除RepSeq类型。

在该步骤后，关于模拟细胞群的数据，除了San序列一致的RepSeqs类型以外，残留的RepSeq类型全部可以作为利用PCR的一个碱基错误(参照步骤11)或污染(参照步骤14)来合理地说明。

使用仅1次重复或2次重复进行试验，发现阈值＜6(1次重复)或阈值＜3(2次重复)对模拟细胞群数据起作用。但是，由于随机性，1次和2次取样有可能比3次取样风险高，因此作为在将1次和2次取样用于盲肠样品的情况下的阈值，分别使用＜10和＜5。

步骤11：一个碱基错误RepSeq的除去

在该阶段中，除去了被认为是由PCR产生的RepSeq类型的一个碱基错误。为了明确该RepSeq的特征，首先，将各San序列和具有一个碱基或0个碱基的差异的残留的RepSeq类型分类为组(关于该分析，参照保持了低计数RepSeq类型的、步骤10)。接着，绘制各组中的所有RepSeq类型的平均计数的分布(图26a)，计算出一个碱基不同的RepSeq类型的最高平均计数相对于相同组内的San-序列一致型RepSeq类型的平均计数之比(最高比率)(图26b)。我们发现了两个类别(图26b的类别1和2)：类别1为San-序列一致型RepSeq类型为1000计数以上的组，类别2为San-序列一致型RepSeq类型小于1000计数的组。关于类别1，一个碱基不同的RepSeq类型的最高平均数大于2，它们的最高比率在不同组间是一贯的。结论是这些一个碱基不同的RepSeq型可能是由PCR产生的错误。这是因为其它实际的16S rRNA序列的数量相对于实际的16S rRNA序列的数量之比通常在16S rRNA序列的各类型中是不同的。因此，使用一个碱基不同的RepSeq型的计数相对于San-序列一致型RepSeq型的计数之比小于1/400的阈值，应用除去这些RepSeq型的过程(图26b)。在实施仅1次重复的情况下，对数据使用1/100的阈值。在类别2中，一个碱基不同的RepSeq类型的最高平均计数在不同组间相似，＜2，这可能是由于这些16S rRNA序列的低浓度引起的，错误随机发生，所有的错误序列不一致。由于RepSeqs的低计数的风险高，因此在步骤10中排除RepSeq。在模拟细胞群数据中，如果仅显示一个碱基差异的两个RepSeq类型的计数数之间的比在1/50以上，则确认两者的RepSeq类型与San序列一致。但是，没有发现该比率在1/400～1/50范围内的例子。此外，在我们的模拟细胞群数据中检测到一个奇异的RepSeq类型。通过确认该序列，发现其与San序列JCM5824-A和JCM5824-B的中央一致，但比JCM5824-A/B的V3-V4区域的全长短得多。JCM5824-A/B的中央的6mer与用于扩增16S rRNA基因的正向引物的3’末端相同，该奇异序列总是与相同液滴中的JCM5824-A和/或JCM5824-B的全长V3-V4区域同时被检测出来，由于其计数常常非常稀少(在3次重复中为2/4/1)，因此该奇异的RepSeq型被解释为来自JCM5824的16S rRNA基因的非特异性扩增产物。但是，由于这种短的扩增产物在盲肠样本中没有发现，因此在我们的最终流水线中未包含用于检测这些短的扩增产物的任何步骤。在上述全部步骤后，将剩下的RepSeq类型(固有RepSeqs)命名为BarBIQ鉴定序列(Bar序列)，用各个ID编号进行标签化。

步骤12：将Bar序列聚类为cOTU

利用BarBIQ的大的优点，根据该阶段中的细胞条形码，从相同细菌中鉴定出两个以上16S rRNA序列。

为此，应该考虑两个可能性。一个可能性是相同液滴中的不同细菌的混入，另一个可能性是由于针对来自相同细菌细胞的不同序列的扩增偏差而只能检测出一个序列。在第一个情况下，依赖于泊松分布，在液滴发生中使用了低浓度的细菌，因此极为罕见。在第二个情况下，不受细菌浓度的影响。实验发现，通过将细菌数相对于液滴数的比率设定为20％，能够区分这两个可能性。

为了区分这两个可能性，我们检查了Bar序列的所有可能的对；对于各对(标记为BS_A和BS_B)，分别计数了包含这两者的液滴的数量(命名为Overlap)、仅包含BS_A的液滴的数量(命名为A)和仅包含BS_B的液滴的数量(命名为B)。这些计数根据使用上述步骤3.2的参数0.1处理而得到的数据。

理论上，当一对Bar序列来自不同的细菌的情况下，检测到两者的Bar序列的液滴的数量应该遵循泊松分布，并且同时检测出的液滴的推定数(命名为Poission_Overlap)可以如下地计算：

Poission_Overlap＝(A×B×μ)/液滴总数

{在此，液滴总数为包含细胞条形码的液滴的总数；μ是常数，是用于PCR扩增效率、可以包括测序深度效果等的液滴的检测效率的综合参数}。另一方面，如果Bar序列来自相同细菌，则检测到两者的Bar序列的液滴的数量将不遵循泊松分布。

接着，使用log₁₀转换将参数分为2项。

log₁₀(Poission_Overlap)＝log₁₀(A×B)-log₁₀(液滴总数/μ)

第1项的参数A和B能够从数据得到，但第2项的参数液滴总数和μ不能分别测定。假定μ对于不同的Bar序列对是相同的，并且假定log₁₀(液滴总数/μ)对于各实验的所有Bar序列对是恒定的；将这个术语命名为操作液滴(OD)。接着，使用模型y＝x-OD，将log₁₀(Poission_Overlap)相对于log₁₀(A×B)的运行中值进行拟合，推定OD。通常，在我们的数据中，大部分Bar序列对来自不同的细菌，它们的测定Overlap与理论上的Poission_Overlap相似。因此，使用log₁₀(Overlap)的运行中值{在此，运行中值为由一定大小的窗口a的区域中的中值、将该区域偏移一定大小的重叠b而进一步获取的中值和重复该操作而得到的另外的中值构成的中值的组，a＞b}模拟log₁₀(Poission_Overlap)的运行中值。log₁₀(Overlap)的运行中值根据log₁₀(A×B)以0.4的窗口和0.2的重叠求出，仅使用超过0的中值(图27a的红色的白圆)。

进行拟合而得到OD，然后对log₁₀(A×B)+OD用log₁₀(Overlap)对数据再次绘图(图27b)。这实际上是log₁₀(Overlaps)与log₁₀(Poission_Overlap)之间的关系。因此，对来自不同细菌的log₁₀(Overlap)的数据应该在y＝x的直线上。但是，数据由于噪声而广泛分布。

接着，进行模拟，推定log₁₀(Poission_Overlap)相对于log₁₀(A×B)+OD的不同值的可能分布。首先，确认到，对于A、B和OD的不同值，在log₁₀(A×B)+OD的值相同的情况下，log₁₀(Poission_Overlap)的分布稍有不同，在A与B相等的情况下，分布最宽；在log₁₀(A×B)+OD的不同值中，log₁₀(Poission_Overlap)的分布不同。因此，在1～1500的范围内，重复500000次针对A和B的各可能值(A＝B，整数)的log₁₀(Poission_Overlap)的分布和OD＝log₁₀(5000)的固定值而进行模拟。在此，在A＝B时，认为泊松分布最宽，即使在此情况下，也能够推定不遵循泊松分布的序列对是从不同的液滴得到的序列的可能性更高，因此在此以A＝B进行模拟。对于两个模拟数间的log₁₀(A×B)+OD的值，使用更高的接近模拟值的相同分布。然后，计算出各分布的单侧置信区间0.999(图27b的绿线)。

关于模拟细胞群的数据，来自相同细菌的Bar序列对的log₁₀(Overlap)的所有值均比上侧0.999的单侧置信区间(UP999)大，但来自不同细菌的对的值与单侧置信区间UP999相同或比其小(图27b，请注意由于检测效率不稳定，因此几个Bar序列对比下侧0.999单侧置信区间低，但对该目标没有影响)。该数据表明，当使用细菌数相对于液滴数的20％比时，来自相同细菌的对的log₁₀(Overlap)的值显著大于log₁₀(Poission_Overlap)，可以通过UP999容易地区别。

接着，使用与盲肠试样测定相同的方法分析M0数据。在UP999周边，在log₁₀(Overlap)的相对于log₁₀(A×B)+OD的曲线上没有发现明显的间隙(图27c)。为了发现盲肠试样的良好阈值，使用了根据公共数据库Silva的各Bar序列的映射信息。由于大部分Bar序列的名称不能根据数据库在种级别进行确定，有时甚至在更高级别也不能确定，因此只关注映射到不同名称的Bar序列。在M0数据的各取样重复实验中，映射到数据库中的不同名称的几个Bar序列对的log₁₀(Overlap)大于UP999(图27c的黑圆)。接着，通过另外2次取样调查这些Bar序列对，结果log₁₀(Overlap)的值全部比UP999低。在1次测定中有20000以上的Bar序列对，偏离0.999单侧置信区间是合理的，因此这些情况可能是由意外事件在统计学上产生的。

为了避免统计学上罕见的情况，使用两次以上重复实验来确定这两个Bar序列是否来自相同的细菌。理论上，相同细菌的Bar序列的结果在不同样品中应该是相同的，因此所有样品均可以用作此目的的重复。接着，使用来自小鼠Ma、Mb和Mc的盲肠的所有细胞样品，分析显示出Bar序列对的log₁₀(Overlap)大于UP999的样品数相对于检测到两个Bar序列的样品总数之比。将该比称为比率_阳性。使用比率而不是样品数是因为仅在样品的一部分中检测到一部分Bar序列，能够用于各Bar序列对的样品数量有可能不同。为了确保可靠性，仅使用在至少两个样品中检测出的Bar序列对。此外，一些样品发现OD的拟合不良，仅选择通过拟合得到的OD的标准误差小于0.08的样品。根据Bar序列的映射名称，映射到不同名称的所有Bar序列对的比率_阳性都低(图27d)，表明分布呈指数函数地衰减，仅在低可能性下发生。因此，使用比率_阳性＞0.5的阈值鉴定来自相同细菌的Bar序列对。

接着，根据来自相同细菌的鉴定的Bar序列对，将所有的Bar序列分类为组。各组可以具有一个Bar序列或两个以上Bar序列。我们将这些组命名为基于细胞的操作分类单元(cOTU)。如果该Bar序列和两个以上Bar序列中的至少一个来自相同的细菌，则该分类的策略将各个Bar序列归纳为组。在一些cOTU中，一些Bar序列对通过上述过程未被检测到，但认为这是由于在液滴包含两个以上序列的情况下检测效率低。

步骤13：各cOTU的计数细胞数

当在相同BCluster中检测出的RepSeq属于相同cOTU的情况下，视为单个细胞。接着，根据细胞条形码(BCluster的数量)计数各cOTU的细胞数。在步骤3.2中，将用参数0.75处理而得到的数据用于细胞数的计数。

步骤14：混入异物的cOTU的除去

在该阶段，根据对照除去混入异物的cOTU。为了鉴定混入异物的cOTU，使用模拟细胞群的对照样品M0或小鼠Ma、Mb和Mc的盲肠样品的空试管对照，在相同的条件下在相同的时间(数天)内测定。

用于检测混入异物的cOTU的策略如下：对于各对照，对在试样中鉴定的cOTU的BCluster的数量进行计数，将对照中的各cOTU的计数数与试样中的相同cOTU的计数数进行比较。在模拟细胞群的实验中，为了制备模拟细胞群和M0试样的文库，使用了不同数量的液滴，因此根据推定总液滴的数量也将计数归一化。在其它实验中，对照为空管，在所有实验中均使用相同数量的液滴，因此在计数中未应用标准化。

关于模拟细胞群，发现了3个不同的类别(I、II和III)(图28)。(I)对照(即M0)中的cOTU的计数比试样(即模拟细胞群)大得多，与San-序列不一致。(II)cOTU的数量在样品与对照之间是相等的(它们的平均±SD重复)，它们与San序列也不一致。(III)试样中的cOTU的数量远高于对照，它们与San序列一致。类别I是从对照到试样的交叉混入或者来自环境的混入细菌与对照中的细菌相同(因为我们使用了实际的样品作为模拟细胞群测定的对照)，而且该cOTU的序列与和试样中的San序列一致的Bar序列(≤86％的一致性)非常不同，无法作为嵌合体进行说明。这表明该cOTU不是由嵌合体引起的错误。类别II可以作为关于样品和对照这两者的来自环境的异物混入进行说明。因为它们的数量在不同的样品和对照中是相同的。对于类别I和类别II这两者，我们从样品中除去了cOTU。这是因为它们可能是来自环境或其它样品的异物混入。类别III有交叉异物混入的可能性，但从试样混入对照或者偶然从环境混入的细菌与试样中的细菌相同。在此情况下，将试样中的从该cOTU的计数中减去对照中的该cOTU的计数而得到的值用作试样中的该cOTU的最终细胞数。交叉异物混入的可能性仅在试样中的cOTU为高浓度的情况下产生，但混入异物的试样中的这些计数非常少。

关于小鼠Ma、Mb和Mc的数据，由于只对各试样进行一次测定，因此代替重复SD，使用计数的平方根作为根据泊松取样噪声的误差棒。

对于小鼠Ma、Mb和Mc的数据，使用两根空试管作为对照。在此情况下，两根试管为实验性重复而不是重复取样，不遵循泊松分布。另外，为了避免因重复次数少而引起的事故，对于对照，使用3.27×SD作为误差棒；此外，在3.27×SD小于计数的平均值的10％的情况下，使用平均值的10％作为误差棒。除去这些样品的混入异物的cOTU的规则如下。在对照的计数+误差棒高于样品的计数-误差棒的情况下，从样品中除去该cOTU，在对照的计数+误差棒低于样品的计数-误差棒的情况下，使用样品的计数-对照的计数作为样品的cOTU的最终计数。

混入异物的cOTU的细胞数为在模拟细胞群测定中检测出的总细胞数的约0.5％，在Ma、Mb和Mc的细胞试样测定中约为4％。

步骤15：细胞浓度的计算

各cOTU的绝对细胞浓度使用利用液滴数字PCR测定的总浓度，通过将在步骤13中得到的计数归一化而算出。

与16S rRNA基因数据库的比较

使用NCBI blast(版本2.7.1)⁵¹计算在3种公共数据库、GreenGene(发行13_5)¹⁰、Ribosomal Database Project(发行11.5)¹¹和Silva(发行131.1)¹²中鉴定的Bar序列与最接近的(即最高的一致性)16SrRNA基因之间的序列一致性。

根据RDP分类的分类学预测

根据使用自举截断50％³⁶的RDP分类得到的它们的Bar序列预测所鉴定的cOTU从门到属的分类。RDP分类利用16S rRNA训练组¹¹(https://rdp.cme.msu.edu/classifier/classifier.jsp)进行训练。对于包含两个以上Bar序列的cOTU，选择具有最高得分的预测分类群。

Bray-Curtis的不相似度

使用R软件包vegan的vegdist函数，根据细胞浓度计算各对的样品间的bray-Curtis的不相似度。使用R(版本3.5.1)和JupyterLab(版本0.34.9)实施后续的分析。

技术噪声的推定

在BarBIQ中测定的试样Ma^dist的技术重复中的cOTU的噪声通过比较从泊松分布得到的模拟噪声和cOTU技术噪声，主要从取样噪声中进行确认。为了排除技术重复中的来自不同的检测总细胞数的偏差，通过R软件包vegan中的使用功能稀释的二次取样，相对于重复中的最小总细胞数，将各重复的细胞数标准化。cOTU的噪声利用CV²进行定量，在此，CV表示在三次技术重复中的根据cOTU的归一化细胞数计算的系数的变动^52,53。根据作为试样中的给定的cOTU的平均细胞数的由泊松分布随机产生的三个数字(用于模拟三个技术重复)计算关于各cOTU的模拟Poisson噪声，进行两个模拟(1和2)。接着，对各cOTU计算出CV²的理论平均校正后残差^52,53。

R_mc＝log₁₀(CV²)-log₁₀(CV_Poisson ²)；

在此，CV_Poisson为根据泊松分布的针对规定的cOTU的理论CV。试样Ma^dist的全部R^mc的分布与模拟的分布一致，表明BarBIQ测定的技术噪声主要是由取样引起的(图7c、d)。

小鼠依赖性CV的置信区间推定

对于各cOTU，通过模拟推定3只小鼠(Ma^dist1、Mb^dist、Mc^dist或Ma^prox1、Mb^prox、Mc^prox)的远端或近端位置的细胞浓度的CV的95％置信区间。将模拟过程重复1000次，对于各时间，对于给出的cOTU，由3个模拟的细胞浓度得到CV。各模拟的浓度通过由泊松分布生成的随机数得到，其平均值为试样中的给出的cOTU的测序确定细胞数(即，Ma^dist1、Mb^dist、Mc^dist或Ma^prox1、Mb^prox、Mc^prox之一)，然后使用该试样的推定总浓度进行归一化。该推定总浓度为从正态分布中随机生成的，该正态分布的平均值为该样品的测定总浓度，其标准偏差为平均值的10.1％(10.1％为在关于重复过滤的5个独立实验中通过平均值标准化的最大标准偏差(10.1％)(图18))。各CV的95％置信区间由1000次模拟CV的分布得到。

修正细菌网络

通过统计软件包中的功能hclust来实施层次聚类(使用软件包pheatmap来绘制热图)。将用于聚类的距离定义为1-最小(│r’│)[r’∈(r-OCI,r+OCI)]，在此，OCI表示各r的90％单侧置信区间。通过完全连接法得到层次聚类的系统树。具体而言，求出所包含的所有cOTU间的皮尔逊的相关系数r。然后，根据上式确定某微生物与其它微生物的距离，根据该距离对cOTU进行聚类。聚类后的枝内的可能的cOTU对的距离比枝的高度低。各r的OCI通过模拟得到。将模拟过程重复1000次，对于试样Ma^dist1、Ma^prox1、Mb^dist、Mb^prox、Mc^dist和Mc^prox(该过程与上述CV置信区间的模拟相同)，在各时间随机生成各cOTU的细胞浓度，对各cOTU对计算皮尔逊的r。然后，从1000次模拟的模拟器的分布得到OCI。

使用软件包的igraph，通过力导引布局(force-directed layout)³⁹使关于通过阈值0.6得到的各SCBG的cOTU的网络可视化，使用大于0.9的r绘制网络中的分支(即，cOTU)的布局，使用软件包RColorBrewer，通过颜色梯度用线示出cOTU间的所有r。

使用软件包igraph通过力导引布局(Force-directed layout)使根据SCBG的各可能的对之间的SCBG间相关的SCBG的网络(R_inter)可视化。SCBG的布局根据大于0.7的R_inter来确定，SCBG间的所有R_inter均使用软件包RColorBrewer通过颜色梯度用线来绘制。使用R软件包stats中的功能Kruskal.test实施用于比较R_inter的平均值的Kruskal-Wallis检验。

实施例1：细菌丛中所含的细菌的单个细胞索引赋予(indexing)和单个RNA条形码赋予(Barcording)以及利用序列解读进行的细胞单位和分子数的计数

微生物相与宿主的相互作用与宿主的内稳态以及许多疾病^13-16有关。为了进一步且综合地理解微生物相与宿主的相互作用机理，不仅要研究微生物相，而且还要将微生物相和宿主这两者的代谢组学和/或转录组学等其它分析与微生物相的组成分析结合起来是重要的⁵。为此，需要根据通常可以使用的单位、例如每重量的细胞数和/或每体积的分子数的浓度测定。但是，在现有技术^6-8中难以测定细胞水平下的微生物相组成。此外，微生物丛包含来自两个以上细菌种类的庞大数量的细菌¹⁷。因此，需要具有高分类学分辨率的高通量细胞定量法。

根据使用了下一代测序技术的16S rRNA基因扩增物测序的高通量法，多年来对给定细胞群中的细菌多样性的研究做出了贡献^22,23。但是，以往的方法从纯化的大容量细菌基因组扩增16S rRNA基因，测定所扩增的分子数，因此基本上有以下的限制。

1)不同种在基因组上具有16S rRNA基因的不同的拷贝数，大部分种的拷贝数不明确，因此难以测定细胞数，难以比较不同种的细胞数；

2)16S rRNA序列的鉴定由于测序和扩增误差而不准确，导致低分类学分辨率。

实际上，测序错误使用分子条形码^24-26进行了修正，但主要由在序列扩增时产生的嵌合体生成引起的扩增错误还不能充分除去²⁷。

为了克服这些现有方法的限制，开发了准确的16S rRNA基因鉴定、伴随BarBIQ(图1a、图29)的细胞定量法。首先在缓冲液中制备试样，通过涡旋破坏块。接着，将细菌试样与包含细胞条形码^25,26、引物和DNA扩增用试剂的溶液混合，封入100μm尺寸的液滴中。根据条形码和细菌的浓度以及泊松分布调节它们的比例，以使得液滴的约4％具有单个细胞和单个细胞条形码(即DNA分子)这两者。为了之后的测序，将所扩增的条形码和测序衔接子与通过单步扩增而在液滴中扩增的16S rRNA基因(V3-V4区域，约450碱基)连接²⁸(图5)。在扩增后，切断液滴，将文库(连接的扩增子)纯化，使用高通量测序仪MiSeq对各个扩增分子的细胞条形码和16S rRNA序列这两者进行测序。我们分析了对条形码(即，细胞)的各序列类型进行测序的分子(即，读取序列)，根据其16S rRNA序列鉴定了各细胞的类型，对各细胞类型计数了细胞数(图6)。该分析也对基因组上具有两个以上16S rRNA测序型的细菌起作用。这是因为相同的细胞条形码与来自相同细胞的扩增的两个以上16S rRNA测序连接。最终，使用利用液滴数字PCR(参照“BarB1Q法”的项目)测定的相同试样的总浓度，将所测序的细胞数归一化，由此得到试样中的各细胞类型的细胞浓度。

BarBIQ与现有方法的本质差异为用于定义微生物相的组成的单位。在现有方法中，单位为操作分类单元(operational taxonomic unit，OTU)，这表示通过根据从大容量取样得到的序列的一致性进行聚类而基本上得到的类似的16S rRNA序列的组³⁰。但是，BarBIQ使用根据从各条形码化细胞鉴定的16S rRNA序列分类的细胞类型。为了区分本发明人的基于细胞的方法和使用OTU的现有方法，将在此得到的分类单元命名为“基于细胞的操作分类单元(cOTU)”。

首先，证实了BarBIQ作用于包含10种培养人肠内细菌株的模拟细胞群(表1)。发现来自包含通过BarBIQ鉴定的2对Bar序列的模拟细胞群的16个序列(Bar序列)各自具有一个碱基差(图1b)。

16个Bar序列全部与培养后的10株的通过桑格测序鉴定的16S rRNA序列(San序列)之一相同(图1b)。注意到一些San序列不是利用BarBIQ发现的，而是利用桑格测序仅从一个或两个细胞中检测出的。接着，根据细胞条形码从16个Bar-序列鉴定10个cOTU，分别与10株中的一个对应(图1b、图20～28)。与此相对，通过通常的方法测定相同的模拟细胞群，结果可知，12种代表性OTU序列中只有两种与San序列中的一个相同(图1b)。因此，BarBIQ具有用于16S rRNA序列鉴定的单碱基精度和分辨率。结论是在此实施的现有方法中不能执行。

接着，通过BarBIQ测定模拟细胞群中的各cOTU的浓度([C]_BarBIQ)(单位体积)。确认到利用BarBIQ测定的浓度与利用显微镜图像测定的它们的细胞浓度([C]_显微镜，图1c)一致。两个测定值间的皮尔逊积矩相关系数r(Pearson的r)为0.98。平均比([C]_BarBIQ/[C]_显微镜)为0.88，使用固定斜率1(R²＝0.95)，通过应用于对数刻度来确定。该结果表明，BarBIQ准确地测定了模拟细胞群中的各细菌(cOTU)的细胞浓度。

接着，我们将BarBIQ应用于来自小鼠盲肠的微生物丛。盲肠作为微生物发酵容器³¹发挥作用，经常被选为用于微生物丛疾病相关研究的取样场所^32,33。如最近报道³⁴那样，由于细胞外细菌DNA可能影响肠内微生物丛的定量，因此我们从盲肠样本中除去了细胞外DNA。

在来自共收容C57BL6/J雄性小鼠(Ma、Mb和Mc)的3只结肠-盲肠和小肠-盲肠两关节的两个位置(远端(dist)和近端(prox))调查微生物丛(图2a)。对从Ma的两个部位(对远位部位为Ma^dist1、Ma^dist2、Ma^dist3和对近端部位为Ma^prox1、Ma^prox2和Ma^prox3分别实施3次重复实验)提取的样品和其它(Mb^dist，Mb^prox，Mc^dist和Mc^prox)实施测定。对合计1.3×10⁵个细菌细胞进行计数，对包含730个Bar序列的604个cOTU进行鉴定。令人惊奇的是，所鉴定的230个Bar序列(730中的32％)尚未在广泛使用的三种公共数据库(GreenGene¹⁰，RibosomalDatabase Project¹¹，Silva¹²)中登记，与最近的登记序列的一致性为86.9～99.9％(图2b)。利用模拟细胞群明确了BarBIQ具有单碱基精度，因此得出结论是BarBIQ能够鉴定未知的16S rRNA序列。

接着，对于试样中的鉴定的各cOTU，如上所述地定量细胞浓度。首先，相同样品的技术性重复再现性高(Pearson的r≥0.982，图15)，确认了用于包含过滤工序的定量化的噪声主要是由取样引起的(图7的b-d)。接着，使用在全部样品中检测出的240cOTU，比较样品间的细胞浓度。我们发现样品的各对(即，不同位置和/或不同小鼠)的10～97cOTU(图2d、e和图16a-16c)的浓度不同。其差比取样噪声大，倍率变化大于2(偏离图2d、e和图16的置信区间，倍率变化为2倍以上的点；即被认为具有不同浓度的cOTU)，但其它143～230(240cOTU的60～96％)的浓度是一贯的(图3d、e和图16a～c的置信区间的范围或倍率变化小于2倍的点)。例如，当想要描述健康小鼠与疾病小鼠之间的差异时，一贯的细菌鉴定是不可缺少的。

为了定量各样品对的整体差异，根据240cOTU的细胞浓度实施了Bray-Curtis的不相似性(根据存在量的β的多样性)³⁵分析(图2f)。与上述观察结果一致，不同样品间的差异(图2f的不同部位的样品间和来自不同小鼠的样品间)显著大于来自Ma的重复实验(参照图2f的Ma^dist和Ma^prox)间的差异。此外，近端位置或不同位置(图2d的圆形符号)的来自不同小鼠的样品之间的异质性高于来自相同小鼠的不同位置或来自不同小鼠的远端位置(图2d的三角符号)的异质性。这些结果定量地分析了基于微生物丛的细胞的总体差异，暗示了来自相同小鼠或不同小鼠的远端和近端位置的微生物丛在整体上不同。

此外，对各个240cOTU研究了位置依赖性(根据采集场所的位置(即，远端和近端)的依赖性)和小鼠依赖性的浓度差这两者。首先，对Ma的各位置通过3次重复实验统计性地比较相同小鼠的不同位置间的cOTU浓度。13cOTU(240cOTU中的5％)显著不同(FDR＜0.05且倍率变化＞2)(图8)，最大倍率变化(根据重复实验的平均浓度)为4.1。

接着，通过计算各部位对cOTU的变异系数(CV，将3只的细胞浓度的标准偏差除以它们的平均值而得到的CV)，对3只小鼠的细胞浓度的一贯性进行定量(图3a)。我们比较了各cOTU的远端位置和近端位置之间的CV(图9a和9b)，发现了大部分cOTU的CV根据模拟的置信区间没有不同。有趣的是，同一属的cOTUs的一贯性(即CV)通常是不同的(图9a和9b)(着眼于由于来自公共数据库的信息有限，因此分类使用RDP分类³⁶由各cOTU的Bar-序列预测)。例如，梭菌XIVa属的cOTU的CV在两个位置在0.05～1.70的范围内变化(图3b)。有趣的是，报道了该属的某些种产生如作为盲肠³¹的主要功能的丁酸酯³⁷那样的短链脂肪酸。该发现暗示了，为了进一步理解细菌的生理学作用，需要比属水平更细的水平的细胞的定量、特别是cOTU水平的细胞的定量^37，38。

为了理解细胞间的关系，根据各cOTU对的相关探索细菌网络。与人类状态的迁移相关的相关细菌网络已经公开了多年。但是，迄今为止的网络分析基本上根据属级别或更高级别的OUT进行，即根据OUT进行而不是根据cOTU进行。在本实施例中，使用来自6个试样(Ma^dist1、Ma^prox1、Mb^dist、Mb^prox、Mc^dist和Mc^prox)的它们的测定浓度，对于通常检测的296cOTU的各对，以对数刻度计算皮尔逊的r，由此明确了根据细胞浓度的相关(图4a)。虽然未发现与大部分cOTU显示高相关的cOTU，但一些cOTU与其它一些cOTU强烈相关(图10)。

因此，我们根据具有可能性的所有cOTU对的距离进行层次聚类，使用│r│s发现了所有cOTU强烈相关的细菌群(strongly correlated bacterial groups；SCBGs)(图4b)。为了鉴定包含正和负的相关cOTU这两者的SCBG，使用│r│而不是r，这表示在此定义的SCBG为“关系组”。为了确保SCBGs的鉴定的可靠性，在│r│s的计算中考虑了模拟的误差。使用图4b的系统树上的以虚线的形式表示的阈值0.6，结果发现共计31个SCBG。将低于阈值且包含3个以上cOTU的枝定义为SCBG(图4b和图17)。对所得到的SCBG的特征进行了表征。SCBG中的cOTU的数量为3～19个，多种多样(图11c)，半数以上(16/31)包含正和负相关的cOTU(图4c和图12a～f)，各SCBG中的cOTU的平均存在量广泛分布(图4c和图11d)，SCBG中的存在量的最高差为230倍，在SCBG12(图11d)中观察到，(与图3c同样)各cOTG的分类学预测(图4c)分别为不同种(图4c和图13)。这些发现表明，即使在细菌属于不同的分类群或者其存在量不同的情况下，也有可能具有很强的关系。SCBG的数量和各SCBG中的cOTU的数量作为阈值的函数而变化(图11a和11b)，认为在此使用的阈值0.6为针对SCBG数量的过渡点(图11a)。为了定义SCBG，可以选择不同的阈值以使得在规定的试样中找到特定的特征。

为了评价全网络水平下的细菌微生物丛的特性，使用SCBG的可能的所有对调查了SCBG间的相关。将两个SCBG之间的SCBG间的相关R_inter定义为对于来自一对中的两个cOTU不同的SCBG的所有可能的cOTU对进行计算的│r│s的平均值(图4d)。首先，确认了所有R_inter基本上低于被定义为针对各SCBG内的所有可能的cOTU对计算的│r│s的平均值的、SCBG内的相关、R_inner(图14a)。接着，发现各SCBG与少数SCBG显示出相对高的相关。最后，对于各SCBG，计算SCBG和其它所有SCBG之间的R_inter的平均值，所有31个SCBG的平均值使用Kruskal-Wallis检验发现了没有显著性差异(卡方＝30，df＝29，p值＝0.41)(图14b)。这些发现表明，整个网络中的所有SCBG的平均特征并不明确。通过将疾病模型的细菌网络与健康小鼠的细菌网络进行比较，可以认为全细菌网络的分析例如对用于找出微生物丛中的疾病相关界标的特征是重要的。

进一步，进行以下的研究。

实验1.大肠试样的细分

尝试了将大肠细分，并且在可以识别的状态下分析被细分的各个片段的位置信息。具体而言，在杀死小鼠后立即摘除整个大肠，使其展开成直线状，拍摄记录各个大肠固体内容物的位置关系。保持将一个大肠固体内容物包在肠壁的状态，使用已灭菌的剪刀和已灭菌的镊子取出，将盲肠侧作为左侧放置在脑切片机(室町机械，MK-RC-01)的孔的中央(图39的图a)。此时，预先在脑切片机上标记，以使得能够识别盲肠侧(A)和肛门侧(E)。

接着，将高压蒸气灭菌后在50℃下保温的含有3％琼脂糖(Nacalai Tesque，01157-95)的1×TAE(Nacalai Tesque，32666-81)静静地注入(图39的图b)，在-20℃下静置30分钟，由此将大肠内容物包埋在琼脂糖凝胶中(图39的图c)。从-20℃的冷冻库中取出脑切片机，将灭菌后的剃刀刀片(室町机械，TCB-100)插入位于距大肠固体内容物的中央约1mm的左侧的脑切片机的槽以及位于其右侧的两个槽中(图39的图d)。由于此次使用的脑切片机的槽的宽度为1mm，因此通过该操作，从大肠内容物分割厚度为2mm的中央部分(以下称为C区域)。然后，将剃刀刀片分别插入位于距大肠固体内容物的左端和右端2mm以上且3mm以下的内侧的槽中(图39的图e)，分为盲肠侧前端部(以下称为A区域)和肛门侧前端部(以下称为E区域)。B区域(A区域与C区域之间)和D区域(C区域与E区域之间)的宽度根据大肠固体内容物整体的长度而变化。另外，根据肠试样的不同，内容物整体的长度短，B区域或D区域中的某一者脱落。最后，将剃刀刀片分别插入位于距大肠固体内容物的左端和右端1mm以上的外侧的槽中。通过将剃刀刀片从脑切片机中拔出，将含有各区域的大肠内容物的切片以附着在剃刀刀片上的状态取出，使用已灭菌的镊子将各区域的大肠内容物放入DNALobind管(Eppendorf，0030108051)中。将C区域从脑切片机中取出，然后放置在已灭菌的陪替氏培养皿上(图39的图f)，使用15号的已灭菌的金属针(武藏工程，SNA-15G-B)分成中心部分(以下称为CC区域)和周边部分(以下称为CO区域)，采集到DNA Lobind管中。对其它大肠固体内容物重复上述一系列操作。

其结果，可以将大肠固体内容物分割为A、B、CC、CO、D、E各区域(图39的图g)(其中，由于上述理由，有时B或D脱落)。

实验2.有无细菌对条形码序列的分配的影响的实验科学研究

在包含或不包含细菌细胞的条件下，使用ddPCR测定等摩尔混合的4个细胞条形码模板(以下称为等摩尔混合细胞条形码)的浓度。具体而言，首先，将QX200^TM ddPCR^TMEvaGreen Supermix(BioRad，#1864034)、1μM引物(NoBiotin-Link-barcode-F和P5-index-R1P-barcode-R)、0.1μM dNTP(New England BioLabs，N0447)、Platinum Taq DNA聚合酶(赛默飞世尔科技公司，10966034)和样品(等摩尔混合细胞条形码和由小鼠盲肠采集的细菌细胞、或仅等摩尔混合细胞条形码)以30μl的容量混合，分注到DG8盒(BioRad，#1864008)中。接着，使用用于EvaGreen的液滴生成油(Droplet Generation Oil for EvaGreen)(BioRad，#1864006)和液滴生成器(BioRad，#1864002JA)将混合溶液封入液滴中。

ddPCR通过以下步骤实施。

第一阶段；95℃5分钟

第二阶段；将95℃45秒和60℃150秒的重复进行6次循环

第三阶段：将95℃25秒和60℃80秒的重复进行39次循环

第四阶段：4℃5分钟和90℃5分钟

然后，通过QX200液滴阅读仪(Droplet Reader)(BioRad，#1864003JA)测定条形码的浓度。

结果显示，在包含或不包含细菌细胞的条件下，条形码浓度的测定值没有显著差异(参照图40)，细菌细胞的有无不影响条形码向液滴的分配比率。

实验3.ddPCR中的循环数的变更实验

确认了用于制作BarBIQ法的测序文库的PCR循环数足以使液滴中所含的细菌细胞的16S rRNA序列扩增。具体而言，首先，将QX200^TM ddPCR^TM EvaGreen Supermix、1μM引物(F1-Fw和F1-Rv)、0.1μM dNTP和样品(从小鼠盲肠采集的细菌细胞)以30μl的容量混合，分注到DG8盒中。

接着，使用用于EvaGreen的液滴生成油(Droplet Generation Oil forEvaGreen)和液滴生成器，将混合溶液封入液滴中。ddPCR除了第三阶段以外，在与上述实验2.相同的循环条件下实施。在第三阶段中，将循环数改变为0、10、20、30、39或49。然后，利用QX200液滴阅读仪测定液滴的荧光强度，根据利用软件QuantaSoft(BioRad，#1864011JA)得到的强度的双峰式分布的谷即阈值，确定阳性和阴性液滴。

结果显示，在第三阶段的循环数为30以上的条件下，阳性液滴和阴性液滴的强度分布明显分离(图41的图a)，阳性液滴在液滴整体中所占的比例为约14％，是恒定的(图41的图b)，用于制作BarBIQ法的测序文库的PCR循环数足以使液滴中所含的细菌细胞的16SrRNA序列扩增。

实验4.ddPCR的步骤时间的变更实验

确认了用于制作BarBIQ法的测序文库的初期变性的时间足以使液滴中所含的细菌细胞的16S rRNA序列扩增。具体而言，首先，将QX200^TM ddPCR^TM EvaGreen Supermix、1μM引物(F1-Fw和F1-Rv)、0.1μM dNTP和样品(从小鼠盲肠采集的细菌细胞)以30μl的容量混合，分注到DG8盒中。接着，使用用于EvaGreen的液滴生成油(Droplet Generation Oil forEvaGreen)和液滴生成器，将混合溶液封入液滴中。ddPCR除了第一阶段以外，在与上述实验2.相同的循环条件下实施。第一阶段将时间改变为0、5或10分钟。然后，利用QX200液滴阅读仪测定液滴的荧光强度，根据利用软件QuantaSoft的强度的双峰式分布的谷即阈值确定阳性和阴性液滴。

结果，即使改变第一阶段的时间，阳性液滴在液滴整体中所占的比例也不变化(图42)，可以认为用于制作BarBIQ法的测序文库的初期变性的时间足以使液滴中所含的细菌细胞的16S rRNA序列扩增。

目前，在基于16S rRNA基因的扩增产物的微生物丛的研究中，存在考虑绝对定量³、准确的测定⁴⁰、完全基因测序⁴¹和细菌-细菌相互作用的倾向⁴²。但是，这些仍然与细胞的定量无关。据我们所知，BarBIQ为能够以高通量方式进行细胞水平下的细菌微生物相的高分类学的分解组成的定量的最初的方法。此外，认为通过利用BarBIQ的未知的16SRNA序列的单碱基精度的无数据库的鉴定对于其它研究是有用的。例如，在想要了解新发现的细菌的局部存在时，可以通过使用由BarBIQ鉴定的16S rRNA序列设计荧光探针来进行FISH(荧光原位杂交)。

最近，提出了整合宏基因组学、转录组学、蛋白质组学、代谢组学等不同的宏组学数据集，使用这些数据集的进一步的计算模型作为用于微生物相功能的机理研究的有希望的方向⁵。在该方法中，由于细菌细胞不仅整合了明显不同的宏组学数据集，而且是用于其功能的基本单位，因此应该以细胞水平定义微生物相。由BarBIQ提供的基于微生物丛的细胞和不依赖于分类群的分析将微生物相的研究从目前的联合研究转移到所需的机理研究⁴⁴。

序列表

<110> 国立研究开发法人理化学研究所

<120> 细胞群的处理方法和细胞群中所含的基因的分析方法

<130> PR13-9018WO

<150> JP 2020-094141

<151> 2020-05-29

<160> 34

<170> PatentIn version 3.5

<210> 1

<211> 17

<212> DNA

<213> 人工序列

<220>

<223> 341F

<220>

<221> misc_feature

<222> (9)..(9)

<223> n为a、c、g或t

<400> 1

cctacgggng gcwgcag 17

<210> 2

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 805R

<400> 2

gactachvgg gtatctaatc c 21

<210> 3

<211> 74

<212> DNA

<213> 人工序列

<220>

<223> P7-R2P-341F

<220>

<221> misc_feature

<222> (66)..(66)

<223> n为a、c、g或t

<400> 3

caagcagaag acggcatacg agatgtgact ggagttcctt ggcacccgag aattccacct 60

acgggnggcw gcag 74

<210> 4

<211> 45

<212> DNA

<213> 人工序列

<220>

<223> 生物素-连接-805R

<220>

<221> modified_base

<222> (1)..(1)

<223> 用生物素修饰

<220>

<221> modified_base

<222> (28)..(28)

<223> 用生物素修饰

<400> 4

gctcctgcgt tcggatcgta gtcggactac hvgggtatct aatcc 45

<210> 5

<211> 44

<212> DNA

<213> 人工序列

<220>

<223> 生物素-连接-条形码-F

<220>

<221> modified_base

<222> (1)..(1)

<223> 用生物素修饰

<220>

<221> modified_base

<222> (31)..(31)

<223> 用生物素修饰

<400> 5

cgactacgat ccgaacgcag gagctcagcc tcgacagtcc agtg 44

<210> 6

<211> 70

<212> DNA

<213> 人工序列

<220>

<223> P5-索引-R1P-条形码-R

<220>

<221> misc_feature

<222> (30)..(37)

<223> n为a、c、g或t

<400> 6

aatgatacgg cgaccaccga gatctacacn nnnnnnnaca ctctttccct acacgacgct 60

cttccgatct 70

<210> 7

<211> 44

<212> DNA

<213> 人工序列

<220>

<223> 无生物素-连接-条形码

<400> 7

cgactacgat ccgaacgcag gagctcagcc tcgacagtcc agtg 44

<210> 8

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> F1-Fw

<400> 8

agrgtttgat ymtggctcag 20

<210> 9

<211> 17

<212> DNA

<213> 人工序列

<220>

<223> F1-Rv

<400> 9

ctggcacgda gttagcc 17

<210> 10

<211> 77

<212> DNA

<213> 人工序列

<220>

<223> F1-全长-Fw

<400> 10

caagcagaag acggcatacg agatgtgact ggagttcctt ggcacccgag aattccaagr 60

gtttgatymt ggctcag 77

<210> 11

<211> 46

<212> DNA

<213> 人工序列

<220>

<223> F3-全长-Rv

<400> 11

gctcctgcgt tcggatcgta gtcgtacggy taccttgtta cgactt 46

<210> 12

<211> 18

<212> DNA

<213> 人工序列

<220>

<223> T7-启动子

<400> 12

taatacgact cactatag 18

<210> 13

<211> 18

<212> DNA

<213> 人工序列

<220>

<223> SP6-启动子

<400> 13

atttaggtga cactatag 18

<210> 14

<211> 23

<212> DNA

<213> 人工序列

<220>

<223> F2-Rv

<400> 14

cttgtgcggg cccccgtcaa ttc 23

<210> 15

<211> 83

<212> DNA

<213> 人工序列

<220>

<223> 条形码-1

<220>

<221> misc_feature

<222> (23)..(26)

<223> n为a、c、g或t

<220>

<221> misc_feature

<222> (28)..(31)

<223> n为a、c、g或t

<220>

<221> misc_feature

<222> (33)..(36)

<223> n为a、c、g或t

<220>

<221> misc_feature

<222> (38)..(41)

<223> n为a、c、g或t

<220>

<221> misc_feature

<222> (43)..(50)

<223> n为a、c、g或t

<400> 15

tcagcctcga cagtccagtg acnnnntnnn ngnnnnannn ncnnnnnnnn agatcggaag 60

agcgtcgtgt agggaaagag tgt 83

<210> 16

<211> 83

<212> DNA

<213> 人工序列

<220>

<223> 条形码-2

<220>

<221> misc_feature

<222> (23)..(26)

<223> n为a、c、g或t

<220>

<221> misc_feature

<222> (28)..(31)

<223> n为a、c、g或t

<220>

<221> misc_feature

<222> (33)..(36)

<223> n为a、c、g或t

<220>

<221> misc_feature

<222> (38)..(41)

<223> n为a、c、g或t

<220>

<221> misc_feature

<222> (43)..(50)

<223> n为a、c、g或t

<400> 16

tcagcctcga cagtccagtg tgnnnnannn ncnnnntnnn ngnnnnnnnn agatcggaag 60

agcgtcgtgt agggaaagag tgt 83

<210> 17

<211> 83

<212> DNA

<213> 人工序列

<220>

<223> 条形码-3

<220>

<221> misc_feature

<222> (23)..(26)

<223> n为a、c、g或t

<220>

<221> misc_feature

<222> (28)..(31)

<223> n为a、c、g或t

<220>

<221> misc_feature

<222> (33)..(36)

<223> n为a、c、g或t

<220>

<221> misc_feature

<222> (38)..(41)

<223> n为a、c、g或t

<220>

<221> misc_feature

<222> (43)..(50)

<223> n为a、c、g或t

<400> 17

tcagcctcga cagtccagtg gannnncnnn nannnngnnn ntnnnnnnnn agatcggaag 60

agcgtcgtgt agggaaagag tgt 83

<210> 18

<211> 83

<212> DNA

<213> 人工序列

<220>

<223> 条形码-4

<220>

<221> misc_feature

<222> (23)..(26)

<223> n为a、c、g或t

<220>

<221> misc_feature

<222> (28)..(31)

<223> n为a、c、g或t

<220>

<221> misc_feature

<222> (33)..(36)

<223> n为a、c、g或t

<220>

<221> misc_feature

<222> (38)..(41)

<223> n为a、c、g或t

<220>

<221> misc_feature

<222> (43)..(50)

<223> n为a、c、g或t

<400> 18

tcagcctcga cagtccagtg ctnnnngnnn ntnnnncnnn nannnnnnnn agatcggaag 60

agcgtcgtgt agggaaagag tgt 83

<210> 19

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> P1_qPCR_Fw

<400> 19

aatgatacgg cgcaccaccg a 21

<210> 20

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> P2_qPCR_Rv

<400> 20

caagcagaag acggcatacg a 21

<210> 21

<211> 200

<212> DNA

<213> 人工序列

<220>

<223> StdTarget1

<220>

<221> misc_feature

<222> (27)..(200)

<223> n为a、c、g或t

<400> 21

gagttccttg gcacccgaga attccannnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 60

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 120

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 180

nnnnnnnnnn nnnnnnnnnn 200

<210> 22

<211> 200

<212> DNA

<213> 人工序列

<220>

<223> StdTarget2

<220>

<221> modified_base

<222> (1)..(1)

<223> 用磷酸盐修饰

<220>

<221> misc_feature

<222> (1)..(176)

<223> n为a、c、g或t

<400> 22

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 60

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 120

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnncgac 180

tacgatccga acgcaggagc 200

<210> 23

<211> 99

<212> DNA

<213> 人工序列

<220>

<223> RandomBar_std1

<220>

<221> misc_feature

<222> (27)..(34)

<223> n为a、c、g或t

<220>

<221> misc_feature

<222> (36)..(39)

<223> n为a、c、g或t

<220>

<221> misc_feature

<222> (41)..(44)

<223> n为a、c、g或t

<220>

<221> misc_feature

<222> (46)..(49)

<223> n为a、c、g或t

<220>

<221> misc_feature

<222> (51)..(54)

<223> n为a、c、g或t

<400> 23

ttccctacac gacgctcttc cgatctnnnn nnnncnnnnt nnnnannnng nnnnctcact 60

ggactgtcga ggctgagctc ctgcgttcgg atcgtagtc 99

<210> 24

<211> 99

<212> DNA

<213> 人工序列

<220>

<223> RandomBar_std2

<220>

<221> misc_feature

<222> (27)..(34)

<223> n为a、c、g或t

<220>

<221> misc_feature

<222> (36)..(39)

<223> n为a、c、g或t

<220>

<221> misc_feature

<222> (41)..(44)

<223> n为a、c、g或t

<220>

<221> misc_feature

<222> (46)..(49)

<223> n为a、c、g或t

<220>

<221> misc_feature

<222> (51)..(54)

<223> n为a、c、g或t

<400> 24

ttccctacac gacgctcttc cgatctnnnn nnnngnnnna nnnntnnnna nnnntgcact 60

ggactgtcga ggctgagctc ctgcgttcgg atcgtagtc 99

<210> 25

<211> 99

<212> DNA

<213> 人工序列

<220>

<223> RandomBar_std3

<220>

<221> misc_feature

<222> (27)..(34)

<223> n为a、c、g或t

<220>

<221> misc_feature

<222> (36)..(39)

<223> n为a、c、g或t

<220>

<221> misc_feature

<222> (41)..(44)

<223> n为a、c、g或t

<220>

<221> misc_feature

<222> (46)..(49)

<223> n为a、c、g或t

<220>

<221> misc_feature

<222> (51)..(54)

<223> n为a、c、g或t

<400> 25

ttccctacac gacgctcttc cgatctnnnn nnnntnnnnc nnnngnnnnc nnnngacact 60

ggactgtcga ggctgagctc ctgcgttcgg atcgtagtc 99

<210> 26

<211> 99

<212> DNA

<213> 人工序列

<220>

<223> RandomBar_std4

<220>

<221> misc_feature

<222> (27)..(34)

<223> n为a、c、g或t

<220>

<221> misc_feature

<222> (36)..(39)

<223> n为a、c、g或t

<220>

<221> misc_feature

<222> (41)..(44)

<223> n为a、c、g或t

<220>

<221> misc_feature

<222> (46)..(49)

<223> n为a、c、g或t

<220>

<221> misc_feature

<222> (51)..(54)

<223> n为a、c、g或t

<400> 26

ttccctacac gacgctcttc cgatctnnnn nnnnannnng nnnncnnnnt nnnnaccact 60

ggactgtcga ggctgagctc ctgcgttcgg atcgtagtc 99

<210> 27

<211> 70

<212> DNA

<213> 人工序列

<220>

<223> 索引_NSE501

<400> 27

aatgatacgg cgaccaccga gatctacact agatcgcaca ctctttccct acacgacgct 60

cttccgatct 70

<210> 28

<211> 70

<212> DNA

<213> 人工序列

<220>

<223> 索引_NSE502

<400> 28

aatgatacgg cgaccaccga gatctacacc tctctataca ctctttccct acacgacgct 60

cttccgatct 70

<210> 29

<211> 70

<212> DNA

<213> 人工序列

<220>

<223> 索引_NSE505

<400> 29

aatgatacgg cgaccaccga gatctacacg taaggagaca ctctttccct acacgacgct 60

cttccgatct 70

<210> 30

<211> 70

<212> DNA

<213> 人工序列

<220>

<223> 索引_NSE506

<400> 30

aatgatacgg cgaccaccga gatctacaca ctgcataaca ctctttccct acacgacgct 60

cttccgatct 70

<210> 31

<211> 57

<212> DNA

<213> 人工序列

<220>

<223> std_R2

<400> 31

caagcagaag acggcatacg agatgtgact ggagttcctt ggcacccgag aattcca 57

<210> 32

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> I1_引物

<400> 32

ctgagctcct gcgttcggat cgtagtcg 28

<210> 33

<211> 50

<212> DNA

<213> 人工序列

<220>

<223> CONV- 341F

<220>

<221> misc_feature

<222> (42)..(42)

<223> n为a、c、g或t

<400> 33

tcgtcggcag cgtcagatgt gtataagaga cagcctacgg gnggcwgcag 50

<210> 34

<211> 55

<212> DNA

<213> 人工序列

<220>

<223> CONV- 806R

<400> 34

gtctcgtggg ctcggagatg tgtataagag acaggactac hvgggtatct aatcc 55

Claims

1.一种细胞群的处理方法，其包括：

2.一种分析细胞群中所含的基因的碱基序列的方法，其包括：

3.如权利要求2所述的方法，其中，

在所述(B)中，细胞条形码的扩增产物具有来自第一引物的第一区域，规定基因的扩增产物具有来自第二引物的第二区域，第一区域和第二区域具有能够互相杂交的互补序列部分，所述第一引物和第二引物各自连接有一个以上的标签分子，该标签分子不包含在所述连接物中，并且，

在所述(B)中，还包括：从回收到水溶液中的连接物中将具有标签分子的扩增产物利用负载有对该标签分子具有亲和性的分子的柱或珠除去。

4.如权利要求2或3所述的方法，其中，还包括：

5.如权利要求4所述的方法，其中，还包括：

6.如权利要求2或3所述的方法，其中，还包括：

7.如权利要求6所述的方法，其中，还包括：

8.如权利要求2或3所述的方法，其中，还包括：

9.如权利要求8所述的方法，其中，还包括：

10.如权利要求8所述的方法，其中，还包括：

(C-4)在被分类为同一第一簇的序列被分类为不同第二簇的情况下，将该第二簇分类为同一基于细胞的操作分类单元(cOTU)。

11.如权利要求10所述的方法，其中，还包括：

12.如权利要求11所述的方法，其中，包括：

13.如权利要求1～12中任一项所述的方法，其中，细胞群为微生物丛。

14.如权利要求13所述的方法，其中，微生物丛为体内或体表的微生物丛。

15.如权利要求13所述的方法，其中，微生物丛为消化道内的微生物丛。

16.如权利要求11或12所述的方法，其中，第一细胞群和第二细胞群为从同一对象的不同部位获得的微生物丛。

17.如权利要求11或12所述的方法，其中，第一细胞群和第二细胞群为从不同对象的同一部位获得的微生物丛。

18.如权利要求11或12所述的方法，其中，第一细胞群和第二细胞群为在不同时间从同一对象的同一部位获得的微生物丛。

19.如权利要求1～18中任一项所述的方法，其中，细胞群包含未知的细胞。