CN110910950A

CN110910950A - 一种联合分析单细胞scRNA-seq和scATAC-seq的流程方法

Info

Publication number: CN110910950A
Application number: CN201911125922.4A
Authority: CN
Inventors: 蒋盛耀; 贾广帅; 孙钦艳; 周金明; 王静; 邝中雷
Original assignee: Guangzhou Jingyuan Biotechnology Co Ltd
Current assignee: Guangzhou Jingyuan Biotechnology Co Ltd
Priority date: 2019-11-18
Filing date: 2019-11-18
Publication date: 2020-03-24

Abstract

本发明公开了一种联合分析单细胞scRNA‑seq和scATAC‑seq的流程方法，包括scRNA‑seq分析、scATAC‑seq分析、scRNA‑seq和scATAC‑seq联合分析；本发明结构科学合理，使用安全方便，分析流程具有简便新颖性，先对scRNA‑seq数据做，基因差异分析和细胞聚类分析，再对scATAC‑seq数据做染色质可及性分析，转录因子的足迹分析和细胞聚类分析最后我们将两者数据通过coupledNMF联合分析，另外我们将coupledNMF原始要求输入五个文件简化为三个必须文件，简化操作流程，使之能够成为可操作运行的语言程序进行数据分析。

Description

一种联合分析单细胞scRNA-seq和scATAC-seq的流程方法

技术领域

本发明涉及单细胞技术领域，具体为一种联合分析单细胞scRNA-seq和scATAC-seq的流程方法。

背景技术

临床或实验研究中感兴趣的生物样本通常是不同类型细胞的异质混合物，组学研究对于细胞关键基因的挖掘和基因网络调控的深入分析具有重要作用，单细胞测序是对单个细胞进行大规模平行测序方法，是研究肿瘤异质性，免疫细胞群体和胚胎发育的优秀方法，为我们提供了最大的肿瘤组学测序平台，在解释涉及人类癌症遗传途径改变和早期胚胎发育方面发挥了重要作用；

单细胞RNA-seq测序在mRNA水平上获得细胞的基因表达谱,构建了新确定的亚型分类，使得以前未知的细胞亚型及其基因标志得到识别和表征，为病理机制的研究和疾病的诊断及治疗提供帮助，近期文献报道，采用单细胞RNA-Seq技术构建骨髓单核细胞的基因表达谱，比较捐献者与被捐献者的嵌合情况，绘制了在移植手术免疫过程中免疫细胞基因表达谱，并发现了新免疫细胞亚群，单细胞ATAC-seq测序在染色质水平上分析染色质的可及性，并绘制参与转录调控的转录因子调控网络，可揭示转录因子与反式作用元件的关系，这种基于高通量测序的开放染色质位点发掘分析可以在基因组水平上揭示不同的调控因子位点，打破单个基因上下游及染色体间的分析界线，对人类造血系统分化细胞类型中染色质可接近性进行scATAC-seq分析，构建造血细胞分化中染色质可接近性状态的变化轨迹并挖掘关键的转录调控因子，scRNA-seq和scATAC-seq的联合分析提供单细胞的基因动态和染色质可接近性状态的变化轨迹，在染色质水平和表达基因水平上全面解析基因转录调控的过程，尽管单细胞scRNA-seq和scATAC-seq的研究较多，但可用于scRNA-seq和scATAC-seq联合分析的方法较少，尤其是差异表达的mRNA与相应的转录调控因子的靶标位点及在染色质可及区域的对应关系的分析方法目前还没有出现。

发明内容

本发明提供一种联合分析单细胞scRNA-seq和scATAC-seq的流程方法，可以有效解决上述背景技术中提出scRNA-seq和scATAC-seq的联合分析提供单细胞的基因动态和染色质可接近性状态的变化轨迹，在染色质水平和表达基因水平上全面解析基因转录调控的过程，尽管单细胞scRNA-seq和scATAC-seq的研究较多，但可用于scRNA-seq和scATAC-seq联合分析的方法较少，尤其是单细胞分析中，scRNA-seq反映的是细胞质基质中mRNA水平，scATAC反应的是细胞核中染色质的可及性水平，两者在生理学上存在一定的时间差，用于统一差异表达的mRNA和染色质可及区域两者的分析方法仍有待研究。

为实现上述目的，本发明提供如下技术方案：一种联合分析单细胞scRNA-seq和scATAC-seq的流程方法，包括scRNA-seq分析、scATAC-seq分析、scRNA-seq和scATAC-seq联合分析；

所述scRNA-seq分析包括如下步骤：

A1、原始数据处理；

A2、差异分析和细胞聚类；

A3、TF的查找；

所述scATAC-seq分析包括如下步骤：

B1、原始数据处理；

B2、信号峰的位置和强度的寻找；

B3、相关性分析和差异分析；

B4、转录因子搜寻。

根据上述技术方案，所述步骤A1以测序得到的原始数据的fastq格式文件为输入文件进行原始数据处理。

根据上述技术方案，所述步骤A2将步骤A1所得的结果放置在一个文件夹中，进行读取，并用limma包进行计算，找出差异基因。

根据上述技术方案，所述步骤A3根据Trrust中转录因子与基因的对应关系网站将上述的差异基因回溯TF，找到调控差异基因的TF。

根据上述技术方案，所述步骤B1以测序得到的原始的fastq格式文件为输入文件进行原始数据预处理，将fastq文件的序列使用Bowtie2比对到hg38上，Bowtie2的预备设计参数为very-sensitive，比对完成后获得bam文件。

根据上述技术方案，所述步骤B2寻找每组样本中的ATAC-seq信号峰的位置，统计每个信号峰的范围内测序读长的数目，将每个样品与每一个信号峰处的信号强度列成矩阵，按照每行表示一个信号峰，每列表示一个样品，得到经过标准化后的表达矩阵。

根据上述技术方案，所述步骤B3中得到表达矩阵后，根据皮尔森计算方法，我们计算样本之间的相关性，得到了皮尔森相关系数，基于相关系数，对样本进行层次聚类绘制热图，得到表达矩阵文件后，使用DEseq2对数据进行差异分析，得到差异信号峰的数量，接着对数据进行对比，得出差异分析。

根据上述技术方案，所述步骤B4中对应的信号峰中，搜寻其中富集的转录因子。

根据上述技术方案，所述scRNA-seq和scATAC-seq联合分析包括如下步骤：单独分析scRNA-seq和scATAC-seq后，再使用皮尔森相关性分析能够对两种数据的共有的差异表达的基因或转录因子进行相关性分析。

根据上述技术方案，所述scRNA-seq和scATAC-seq联合分析采用耦合分析的方法进行分析数据。

与现有技术相比，本发明的有益效果：本发明结构科学合理，使用安全方便，分析流程具有简便新颖性，先对scRNA-seq数据做，基因差异分析和细胞聚类分析，再对scATAC-seq数据做染色质可及性分析，转录因子的足迹分析和细胞聚类分析最后我们将两者数据通过coupledNMF联合分析，另外我们将coupledNMF原始要求输入五个文件简化为三个必须文件，简化操作流程，使之能够成为可操作运行的语言程序进行数据分析。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

在附图中：

图1是本发明对人体病灶组织进行scRNA-seq和scATAC-seq测序，测序方法的比较、细胞聚类分析和细胞类群的鉴定示意图；

图2是本发明的scRNA-seq与scATAC-seq的cell type的PECA模型耦合后矩阵示意图；

图3本发明的Gene和accessible聚类分析耦合矩阵示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例：如图1所示，本发明提供技术方案，一种联合分析单细胞scRNA-seq和scATAC-seq的流程方法，包括scRNA-seq分析、scATAC-seq分析、scRNA-seq和scATAC-seq联合分析；

所述scRNA-seq分析包括如下步骤：

A1、原始数据处理；

A2、差异分析和细胞聚类；

A3、TF的查找；

所述scATAC-seq分析包括如下步骤：

B1、原始数据处理；

B2、信号峰的位置和强度的寻找；

B3、相关性分析和差异分析；

B4、转录因子搜寻。

根据上述技术方案，所述步骤A1以测序得到的原始数据的Fastq格式文件为输入文件进行原始数据处理，将fastq文件的序列使用CellRanger3.0.2软件的参数“cellranger count”运行数据，一步完成fastq数据的过滤和基因组的比对，得到三个文件“barcodes.tsv.gz”,“gene.tsv.gz”,“matrix.mtx.gz”，其中“barcodes.tsv.gz”是用来记录标签序列与细胞的对应关系，用来解释细胞；

相应的，“gene.tsv.gz”是用来注释基因的，“matrix.mtx.gz”是矩阵文件，表示不同的细胞中不同基因的数量，其中每行表示一个基因在不同的细胞中的表达值，每列表示一种细胞中的不同基因的表达值。

根据上述技术方案，所述步骤A2将步骤A1所得的结果放置在一个文件夹中，进行读取，并进行计算，找出差异基因，将这三个文件放在一个文件夹中，使用Seurat3.0这个R包中的参数“Read10X”读取这三个文件；

对矩阵数据进行质量控制(QualityControl，QC)，过滤掉总基因的计数(count)值低于200和高于2500，对线粒体中的count与总count的比值>5％会进行过滤；

总基因的count值低于200被认为这个并不是基因，应当被过滤掉，超过2500个count的被认为是多个细胞的基因总数，不属于单细胞测序结果的需求，也应该过滤掉，而线粒体中的count值越大说明细胞很可能发生凋亡过程，也不是属于选择范围；

使用LogNormaliza参数对数据进行对数计算，使用Scnorm这个R包中的分位数回归模型实现归一化，去除非实验误差的过程；

其中，Yi为因变量向量，Xi为自变量向量，β为系数变量，θ为回归方线、回归平面的表面或者数据点占总数据点的百分比，θ的取值范围为[0,1]。

使用“RunPCA”参数对数据进行线性化降维，并使用“FindClusters”指令对降维后的数据进行聚类分析，聚类方法为K-means；

具体为：K-means是一种动态迭代聚类算法，其中K表示类别(聚类的个数)，Means表示均值，K-Means利用数据点均值进行聚类，K-means算法开始执行之前需要给定参数K，确定数据集中簇的个数，然后确定K个类的质心，一般随机选取K个数据作为簇的初始质心，接着执行数据聚类进程，计算剩余数据点到初始簇质点的相似程度，该相似程度可以使用距离或其他数据属性特征，根据相似程度分配数据点到距离最近的簇中，接着重新计算当前簇中的所有数据点的均值，并依此均值作为簇的新质心，重复计算每个数据点到当前簇质心的距离，直到聚类中元素不再改变或是准则函数收敛到某一个值，算法结束迭代，根据网站Cellmarker对聚类的细胞群进行细胞类别的鉴定。

使用limma这个R包对聚类的基因进行差异分析，选用贝叶斯算法，按照q值<0.05和|LogFC|>1条件进行筛选，q值是概率值P值经过伪发现率(FalseDiscoveryRate，FDR)进行矫正之后的值，FC是foldchange，

其中，事件B_i的概率为P(B_i)，事件B_i已发生条件下事情A的概率为P(A/B_i)，事件A发生条件下B_i的概率为P(B_i/A)。

根据上述技术方案，所述步骤B1以测序得到的原始的fastq格式文件为输入文件进行原始数据预处理，将fastq文件的序列使用Bowtie2比对到hg38上，Bowtie2的预备设计参数为very-sensitive，比对完成后获得bam文件；

过滤除去线粒体基因，使用awk去除bam文件中回溯到线粒体DNA上的读长；

过滤除去PCR过程中的重复序列，使用Picard去除bam文件中的重复序列；

使用bedtools工具的“bamtobed”命令将bam文件转换成bed文件。

根据上述技术方案，所述步骤B2寻找每组样本中的ATAC-seq信号峰的位置，统计每个信号峰的范围内测序读长的数目，将每个样品与每一个信号峰处的信号强度列成矩阵，按照每行表示一个信号峰，每列表示一个样品，得到经过标准化后的表达矩阵；

使用macs2(版本号：MACS(2.1.2))寻找callingpeak，参数设置中使用“callpeak”选项的“nomodel--shift--100”参数，寻找每组样本中的ATAC-seq信号峰的位置，可以根据p值、q值参数筛选高质量的信号峰。

信号峰的强度，即统计每个信号峰的范围内测序读长的数目，使用samtools和bedtools计算得到信号峰中的信号强度，即读取峰值分数(Fractionofreadsinpeaksscore，FRiPscore)；

将每个样品与每一个信号峰处的信号强度列成矩阵，按照每行表示一个信号峰，每列表示一个样品，使用R包DESeq2中特有的标准化方法，参数为“rlogTransformation”，得到经过标准化后的表达矩阵。

根据上述技术方案，所述步骤B3中得到表达矩阵后，根据皮尔森计算方法，我们计算样本之间的相关性，得到了皮尔森相关系数，基于相关系数，对样本进行层次聚类绘制热图，得到表达矩阵文件后，使用DEseq2对数据进行差异分析，得到差异信号峰的数量，接着对数据进行对比，得出差异分析；

皮尔森算法公式如下：

其中

及δ_X分别是对X_i样本的标准分数、样本平均值和样本标准差；

得到表达矩阵文件后，使用DEseq2这个R包对数据进行差异分析，得到差异信号峰的数量；

贝叶斯公式：

其中，事件B_i的概率为P(B_i)，事件B_i已发生条件下事情A的概率为P(A/B_i)，事件A发生条件下B_i的概率为P(B_i/A)；

根据计算得到两组样本的差异分析，根据差异倍数的Log值(LogFC)，p值(p<0.05)及q(q<0.25)值，筛选出两组样本中信号强度具有显著性差异的信号峰；

将信号峰映射到表达矩阵中，并利用Cluster3.0的Neighbor-Joining法进行聚类，并用Figtree可视化软件进行可视化操作。

命令如下：

#参数解释

-命令文件findMotifsGenome.pl

-输入文件：用自己的输入文件名<HomerPeak/Positionsfile>，例如scATAC-Seq_H3K4Me3_1_homer.bed

-参考基因组：<genome>如hg19

-输出文件：<outputdirectory>给一个路径和输出文件的名字

-len：motif大小设置，默认8,10,12；越大需要的计算资源越多。

由于两者单独分析，聚类分析会出现不同的细胞类型，scATAC-seq和scRAN-seq数据并不总是具有类似的能力用于检测细胞类型，所以我们采用耦合分析的方法(couplednonnegativematrixfactorizations,CoupledNMF)进行分析数据，以这种方式系统地耦合两个集群过程scrna-seq样本中的细胞聚类同时也可以利用scatacseq样本中的信息。

首先完成scRNA-seq差异分析，即scRNAseq分析中的步骤B2，根据LogFC和p值或q值的阈值筛选到差异的基因，以细胞类型为列，以不同的Gene为行，构建基因表达矩阵，完成scATAC-seq的峰值差异分析，同理的方式筛选差异的峰值，以细胞类型为列，以不同的调控元件或mergedATAC的峰值区域作为行，构建矩阵；

如图2所示：根据上述技术方案，所述scRNA-seq和scATAC-seq联合分析采用耦合分析的方法进行分析数据；

使用pairedexpressionandchromatinaccessibility(PECA)模型将上述的scRNA-seq的表达矩阵和scATAC-seq矩阵构建回归模型分析：

g表示每一个基因，我们提取一组调节该基因的调节元件(Regulatoryelement,REs)，这些REs记录为Sg，Eg是目标基因的表达值，Oi表示REs的染色质可及性，agi表示使用PECA模型耦合后矩阵，

如图3所示：使用Coupledclusteringmodel软件的模型对上述经过回归后的矩阵进行迭代方式进行耦合，以获得更好的聚类分析结果，公式如下：

O＝W1H1:W1的第i列给出的平均值用于第i列聚类，而Hi的第j列分配给第j单元不同集群的权重用于不同的聚类，类似的，第二个样本的聚类可以通过因子分解E＝W2H2得到，数据测量的特征不同于第一种数据；

表示两种数据集双矩阵分解，A即是“耦合矩阵”，的构造是特定于应用程序的，但取决于以下假设：科学理解或先前的数据，可以确定一个样本中线性可预测的特征子集从另一个样本中测量的特征，在这种情况下，我们可以用A来表示线性预测运算符，λ1、λ2和μ是可变参数；

其中λ1和λ2取值范围是0.001,0.01,0.1,1,10,100,1000,10000。

最后应说明的是：以上所述仅为本发明的优选实例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种联合分析单细胞scRNA-seq和scATAC-seq的流程方法，其特征在于：包括scRNA-seq分析、scATAC-seq分析、scRNA-seq和scATAC-seq联合分析；

所述scRNA-seq分析包括如下步骤：

A1、原始数据处理；

A2、差异分析和细胞聚类；

A3、TF的查找；

所述scATAC-seq分析包括如下步骤：

B1、原始数据处理；

B2、信号峰的位置和强度的寻找；

B3、相关性分析和差异分析；

B4、转录因子搜寻。

2.根据权利要求1所述的一种联合分析单细胞scRNA-seq和scATAC-seq的流程方法，其特征在于，所述步骤A1以测序得到的原始数据的Fastq格式文件为输入文件进行原始数据处理。

3.根据权利要求1所述的一种联合分析单细胞scRNA-seq和scATAC-seq的流程方法，其特征在于，所述步骤A2将步骤A1所得的结果放置在一个文件夹中，进行读取，并用limma包进行计算，找出差异基因。

4.根据权利要求1所述的一种联合分析单细胞scRNA-seq和scATAC-seq的流程方法，其特征在于，所述步骤A3根据Trrust中转录因子与基因的对应关系网站将上述的差异基因回溯TF，找到调控差异基因的TF。

5.根据权利要求1所述的一种联合分析单细胞scRNA-seq和scATAC-seq的流程方法，其特征在于，所述步骤B1以测序得到的原始的fastq格式文件为输入文件进行原始数据预处理，将fastq文件的序列使用Bowtie2比对到hg38上，Bowtie2的预备设计参数为very-sensitive，比对完成后获得bam文件。

6.根据权利要求1所述的一种联合分析单细胞scRNA-seq和scATAC-seq的流程方法，其特征在于，所述步骤B2寻找每组样本中的ATAC-seq信号峰的位置，统计每个信号峰的范围内测序读长的数目，将每个样品与每一个信号峰处的信号强度列成矩阵，按照每行表示一个信号峰，每列表示一个样品，得到经过标准化后的表达矩阵。

7.根据权利要求1所述的一种联合分析单细胞scRNA-seq和scATAC-seq的流程方法，其特征在于，所述步骤B3中得到表达矩阵后，根据皮尔森计算方法，我们计算样本之间的相关性，得到了皮尔森相关系数，基于相关系数，对样本进行层次聚类绘制热图，得到表达矩阵文件后，使用DEseq2对数据进行差异分析，得到差异信号峰的数量，接着对数据进行对比，得出差异分析。

8.根据权利要求1所述的一种联合分析单细胞scRNA-seq和scATAC-seq的流程方法，其特征在于，所述步骤B4中对应的信号峰中，搜寻其中富集的转录因子。

9.根据权利要求1所述的一种联合分析单细胞scRNA-seq和scATAC-seq的流程方法，其特征在于，所述scRNA-seq和scATAC-seq联合分析包括如下步骤：单独分析scRNA-seq和scATAC-seq后，再使用皮尔森相关性分析能够对两种数据的共有的差异表达的基因或转录因子进行相关性分析。

10.根据权利要求9所述的一种联合分析单细胞scRNA-seq和scATAC-seq的流程方法，其特征在于，所述scRNA-seq和scATAC-seq联合分析采用耦合分析的方法进行分析数据。