CN110910950A - 一种联合分析单细胞scRNA-seq和scATAC-seq的流程方法 - Google Patents
一种联合分析单细胞scRNA-seq和scATAC-seq的流程方法 Download PDFInfo
- Publication number
- CN110910950A CN110910950A CN201911125922.4A CN201911125922A CN110910950A CN 110910950 A CN110910950 A CN 110910950A CN 201911125922 A CN201911125922 A CN 201911125922A CN 110910950 A CN110910950 A CN 110910950A
- Authority
- CN
- China
- Prior art keywords
- seq
- analysis
- scatac
- scrna
- cell
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 85
- 238000012174 single-cell RNA sequencing Methods 0.000 title claims abstract description 42
- 238000000034 method Methods 0.000 title claims abstract description 34
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 44
- 108091023040 Transcription factor Proteins 0.000 claims abstract description 16
- 102000040945 Transcription factor Human genes 0.000 claims abstract description 16
- 230000008569 process Effects 0.000 claims abstract description 14
- 239000011159 matrix material Substances 0.000 claims description 31
- 230000014509 gene expression Effects 0.000 claims description 22
- 238000012163 sequencing technique Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 7
- 238000010219 correlation analysis Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000001105 regulatory effect Effects 0.000 claims description 4
- 238000010220 Pearson correlation analysis Methods 0.000 claims description 3
- 238000013461 design Methods 0.000 claims description 3
- 210000004027 cell Anatomy 0.000 abstract description 43
- 108010077544 Chromatin Proteins 0.000 abstract description 14
- 210000003483 chromatin Anatomy 0.000 abstract description 14
- 239000000523 sample Substances 0.000 description 11
- 238000010168 coupling process Methods 0.000 description 7
- 238000005859 coupling reaction Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000008878 coupling Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- 238000013518 transcription Methods 0.000 description 4
- 230000035897 transcription Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 210000002865 immune cell Anatomy 0.000 description 3
- 108020004999 messenger RNA Proteins 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 108020005196 Mitochondrial DNA Proteins 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 2
- 238000003559 RNA-seq method Methods 0.000 description 2
- 108091081062 Repeated sequence (DNA) Proteins 0.000 description 2
- 238000007621 cluster analysis Methods 0.000 description 2
- 210000003470 mitochondria Anatomy 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000003908 quality control method Methods 0.000 description 2
- 102100030379 Acyl-coenzyme A synthetase ACSM2A, mitochondrial Human genes 0.000 description 1
- 235000008730 Ficus carica Nutrition 0.000 description 1
- 101100054737 Homo sapiens ACSM2A gene Proteins 0.000 description 1
- 230000006907 apoptotic process Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000012472 biological sample Substances 0.000 description 1
- 210000001185 bone marrow Anatomy 0.000 description 1
- 230000024245 cell differentiation Effects 0.000 description 1
- 239000002771 cell marker Substances 0.000 description 1
- 210000000349 chromosome Anatomy 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001086 cytosolic effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000008143 early embryonic development Effects 0.000 description 1
- 230000013020 embryo development Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 210000003958 hematopoietic stem cell Anatomy 0.000 description 1
- 210000000777 hematopoietic system Anatomy 0.000 description 1
- 239000008241 heterogeneous mixture Substances 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 238000002826 magnetic-activated cell sorting Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 210000005087 mononuclear cell Anatomy 0.000 description 1
- 238000011392 neighbor-joining method Methods 0.000 description 1
- 210000004940 nucleus Anatomy 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 108091008025 regulatory factors Proteins 0.000 description 1
- 102000037983 regulatory factors Human genes 0.000 description 1
- 230000007363 regulatory process Effects 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 238000002054 transplantation Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种联合分析单细胞scRNA‑seq和scATAC‑seq的流程方法,包括scRNA‑seq分析、scATAC‑seq分析、scRNA‑seq和scATAC‑seq联合分析;本发明结构科学合理,使用安全方便,分析流程具有简便新颖性,先对scRNA‑seq数据做,基因差异分析和细胞聚类分析,再对scATAC‑seq数据做染色质可及性分析,转录因子的足迹分析和细胞聚类分析最后我们将两者数据通过coupledNMF联合分析,另外我们将coupledNMF原始要求输入五个文件简化为三个必须文件,简化操作流程,使之能够成为可操作运行的语言程序进行数据分析。
Description
技术领域
本发明涉及单细胞技术领域,具体为一种联合分析单细胞scRNA-seq和scATAC-seq的流程方法。
背景技术
临床或实验研究中感兴趣的生物样本通常是不同类型细胞的异质混合物,组学研究对于细胞关键基因的挖掘和基因网络调控的深入分析具有重要作用,单细胞测序是对单个细胞进行大规模平行测序方法,是研究肿瘤异质性,免疫细胞群体和胚胎发育的优秀方法,为我们提供了最大的肿瘤组学测序平台,在解释涉及人类癌症遗传途径改变和早期胚胎发育方面发挥了重要作用;
单细胞RNA-seq测序在mRNA水平上获得细胞的基因表达谱,构建了新确定的亚型分类,使得以前未知的细胞亚型及其基因标志得到识别和表征,为病理机制的研究和疾病的诊断及治疗提供帮助,近期文献报道,采用单细胞RNA-Seq技术构建骨髓单核细胞的基因表达谱,比较捐献者与被捐献者的嵌合情况,绘制了在移植手术免疫过程中免疫细胞基因表达谱,并发现了新免疫细胞亚群,单细胞ATAC-seq测序在染色质水平上分析染色质的可及性,并绘制参与转录调控的转录因子调控网络,可揭示转录因子与反式作用元件的关系,这种基于高通量测序的开放染色质位点发掘分析可以在基因组水平上揭示不同的调控因子位点,打破单个基因上下游及染色体间的分析界线,对人类造血系统分化细胞类型中染色质可接近性进行scATAC-seq分析,构建造血细胞分化中染色质可接近性状态的变化轨迹并挖掘关键的转录调控因子,scRNA-seq和scATAC-seq的联合分析提供单细胞的基因动态和染色质可接近性状态的变化轨迹,在染色质水平和表达基因水平上全面解析基因转录调控的过程,尽管单细胞scRNA-seq和scATAC-seq的研究较多,但可用于scRNA-seq和scATAC-seq联合分析的方法较少,尤其是差异表达的mRNA与相应的转录调控因子的靶标位点及在染色质可及区域的对应关系的分析方法目前还没有出现。
发明内容
本发明提供一种联合分析单细胞scRNA-seq和scATAC-seq的流程方法,可以有效解决上述背景技术中提出scRNA-seq和scATAC-seq的联合分析提供单细胞的基因动态和染色质可接近性状态的变化轨迹,在染色质水平和表达基因水平上全面解析基因转录调控的过程,尽管单细胞scRNA-seq和scATAC-seq的研究较多,但可用于scRNA-seq和scATAC-seq联合分析的方法较少,尤其是单细胞分析中,scRNA-seq反映的是细胞质基质中mRNA水平,scATAC反应的是细胞核中染色质的可及性水平,两者在生理学上存在一定的时间差,用于统一差异表达的mRNA和染色质可及区域两者的分析方法仍有待研究。
为实现上述目的,本发明提供如下技术方案:一种联合分析单细胞scRNA-seq和scATAC-seq的流程方法,包括scRNA-seq分析、scATAC-seq分析、scRNA-seq和scATAC-seq联合分析;
所述scRNA-seq分析包括如下步骤:
A1、原始数据处理;
A2、差异分析和细胞聚类;
A3、TF的查找;
所述scATAC-seq分析包括如下步骤:
B1、原始数据处理;
B2、信号峰的位置和强度的寻找;
B3、相关性分析和差异分析;
B4、转录因子搜寻。
根据上述技术方案,所述步骤A1以测序得到的原始数据的fastq格式文件为输入文件进行原始数据处理。
根据上述技术方案,所述步骤A2将步骤A1所得的结果放置在一个文件夹中,进行读取,并用limma包进行计算,找出差异基因。
根据上述技术方案,所述步骤A3根据Trrust中转录因子与基因的对应关系网站将上述的差异基因回溯TF,找到调控差异基因的TF。
根据上述技术方案,所述步骤B1以测序得到的原始的fastq格式文件为输入文件进行原始数据预处理,将fastq文件的序列使用Bowtie2比对到hg38上,Bowtie2的预备设计参数为very-sensitive,比对完成后获得bam文件。
根据上述技术方案,所述步骤B2寻找每组样本中的ATAC-seq信号峰的位置,统计每个信号峰的范围内测序读长的数目,将每个样品与每一个信号峰处的信号强度列成矩阵,按照每行表示一个信号峰,每列表示一个样品,得到经过标准化后的表达矩阵。
根据上述技术方案,所述步骤B3中得到表达矩阵后,根据皮尔森计算方法,我们计算样本之间的相关性,得到了皮尔森相关系数,基于相关系数,对样本进行层次聚类绘制热图,得到表达矩阵文件后,使用DEseq2对数据进行差异分析,得到差异信号峰的数量,接着对数据进行对比,得出差异分析。
根据上述技术方案,所述步骤B4中对应的信号峰中,搜寻其中富集的转录因子。
根据上述技术方案,所述scRNA-seq和scATAC-seq联合分析包括如下步骤:单独分析scRNA-seq和scATAC-seq后,再使用皮尔森相关性分析能够对两种数据的共有的差异表达的基因或转录因子进行相关性分析。
根据上述技术方案,所述scRNA-seq和scATAC-seq联合分析采用耦合分析的方法进行分析数据。
与现有技术相比,本发明的有益效果:本发明结构科学合理,使用安全方便,分析流程具有简便新颖性,先对scRNA-seq数据做,基因差异分析和细胞聚类分析,再对scATAC-seq数据做染色质可及性分析,转录因子的足迹分析和细胞聚类分析最后我们将两者数据通过coupledNMF联合分析,另外我们将coupledNMF原始要求输入五个文件简化为三个必须文件,简化操作流程,使之能够成为可操作运行的语言程序进行数据分析。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
在附图中:
图1是本发明对人体病灶组织进行scRNA-seq和scATAC-seq测序,测序方法的比较、细胞聚类分析和细胞类群的鉴定示意图;
图2是本发明的scRNA-seq与scATAC-seq的cell type的PECA模型耦合后矩阵示意图;
图3本发明的Gene和accessible聚类分析耦合矩阵示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例:如图1所示,本发明提供技术方案,一种联合分析单细胞scRNA-seq和scATAC-seq的流程方法,包括scRNA-seq分析、scATAC-seq分析、scRNA-seq和scATAC-seq联合分析;
所述scRNA-seq分析包括如下步骤:
A1、原始数据处理;
A2、差异分析和细胞聚类;
A3、TF的查找;
所述scATAC-seq分析包括如下步骤:
B1、原始数据处理;
B2、信号峰的位置和强度的寻找;
B3、相关性分析和差异分析;
B4、转录因子搜寻。
根据上述技术方案,所述步骤A1以测序得到的原始数据的Fastq格式文件为输入文件进行原始数据处理,将fastq文件的序列使用CellRanger3.0.2软件的参数“cellranger count”运行数据,一步完成fastq数据的过滤和基因组的比对,得到三个文件“barcodes.tsv.gz”,“gene.tsv.gz”,“matrix.mtx.gz”,其中“barcodes.tsv.gz”是用来记录标签序列与细胞的对应关系,用来解释细胞;
相应的,“gene.tsv.gz”是用来注释基因的,“matrix.mtx.gz”是矩阵文件,表示不同的细胞中不同基因的数量,其中每行表示一个基因在不同的细胞中的表达值,每列表示一种细胞中的不同基因的表达值。
根据上述技术方案,所述步骤A2将步骤A1所得的结果放置在一个文件夹中,进行读取,并进行计算,找出差异基因,将这三个文件放在一个文件夹中,使用Seurat3.0这个R包中的参数“Read10X”读取这三个文件;
对矩阵数据进行质量控制(QualityControl,QC),过滤掉总基因的计数(count)值低于200和高于2500,对线粒体中的count与总count的比值>5%会进行过滤;
总基因的count值低于200被认为这个并不是基因,应当被过滤掉,超过2500个count的被认为是多个细胞的基因总数,不属于单细胞测序结果的需求,也应该过滤掉,而线粒体中的count值越大说明细胞很可能发生凋亡过程,也不是属于选择范围;
使用LogNormaliza参数对数据进行对数计算,使用Scnorm这个R包中的分位数回归模型实现归一化,去除非实验误差的过程;
其中,Yi为因变量向量,Xi为自变量向量,β为系数变量,θ为回归方线、回归平面的表面或者数据点占总数据点的百分比,θ的取值范围为[0,1]。
使用“RunPCA”参数对数据进行线性化降维,并使用“FindClusters”指令对降维后的数据进行聚类分析,聚类方法为K-means;
具体为:K-means是一种动态迭代聚类算法,其中K表示类别(聚类的个数),Means表示均值,K-Means利用数据点均值进行聚类,K-means算法开始执行之前需要给定参数K,确定数据集中簇的个数,然后确定K个类的质心,一般随机选取K个数据作为簇的初始质心,接着执行数据聚类进程,计算剩余数据点到初始簇质点的相似程度,该相似程度可以使用距离或其他数据属性特征,根据相似程度分配数据点到距离最近的簇中,接着重新计算当前簇中的所有数据点的均值,并依此均值作为簇的新质心,重复计算每个数据点到当前簇质心的距离,直到聚类中元素不再改变或是准则函数收敛到某一个值,算法结束迭代,根据网站Cellmarker对聚类的细胞群进行细胞类别的鉴定。
使用limma这个R包对聚类的基因进行差异分析,选用贝叶斯算法,按照q值<0.05和|LogFC|>1条件进行筛选,q值是概率值P值经过伪发现率(FalseDiscoveryRate,FDR)进行矫正之后的值,FC是foldchange,
其中,事件Bi的概率为P(Bi),事件Bi已发生条件下事情A的概率为P(A/Bi),事件A发生条件下Bi的概率为P(Bi/A)。
根据上述技术方案,所述步骤A3根据Trrust中转录因子与基因的对应关系网站将上述的差异基因回溯TF,找到调控差异基因的TF。
根据上述技术方案,所述步骤B1以测序得到的原始的fastq格式文件为输入文件进行原始数据预处理,将fastq文件的序列使用Bowtie2比对到hg38上,Bowtie2的预备设计参数为very-sensitive,比对完成后获得bam文件;
过滤除去线粒体基因,使用awk去除bam文件中回溯到线粒体DNA上的读长;
过滤除去PCR过程中的重复序列,使用Picard去除bam文件中的重复序列;
使用bedtools工具的“bamtobed”命令将bam文件转换成bed文件。
根据上述技术方案,所述步骤B2寻找每组样本中的ATAC-seq信号峰的位置,统计每个信号峰的范围内测序读长的数目,将每个样品与每一个信号峰处的信号强度列成矩阵,按照每行表示一个信号峰,每列表示一个样品,得到经过标准化后的表达矩阵;
使用macs2(版本号:MACS(2.1.2))寻找callingpeak,参数设置中使用“callpeak”选项的“nomodel--shift--100”参数,寻找每组样本中的ATAC-seq信号峰的位置,可以根据p值、q值参数筛选高质量的信号峰。
信号峰的强度,即统计每个信号峰的范围内测序读长的数目,使用samtools和bedtools计算得到信号峰中的信号强度,即读取峰值分数(Fractionofreadsinpeaksscore,FRiPscore);
将每个样品与每一个信号峰处的信号强度列成矩阵,按照每行表示一个信号峰,每列表示一个样品,使用R包DESeq2中特有的标准化方法,参数为“rlogTransformation”,得到经过标准化后的表达矩阵。
根据上述技术方案,所述步骤B3中得到表达矩阵后,根据皮尔森计算方法,我们计算样本之间的相关性,得到了皮尔森相关系数,基于相关系数,对样本进行层次聚类绘制热图,得到表达矩阵文件后,使用DEseq2对数据进行差异分析,得到差异信号峰的数量,接着对数据进行对比,得出差异分析;
皮尔森算法公式如下:
得到表达矩阵文件后,使用DEseq2这个R包对数据进行差异分析,得到差异信号峰的数量;
贝叶斯公式:
其中,事件Bi的概率为P(Bi),事件Bi已发生条件下事情A的概率为P(A/Bi),事件A发生条件下Bi的概率为P(Bi/A);
根据计算得到两组样本的差异分析,根据差异倍数的Log值(LogFC),p值(p<0.05)及q(q<0.25)值,筛选出两组样本中信号强度具有显著性差异的信号峰;
将信号峰映射到表达矩阵中,并利用Cluster3.0的Neighbor-Joining法进行聚类,并用Figtree可视化软件进行可视化操作。
根据上述技术方案,所述步骤B4中对应的信号峰中,搜寻其中富集的转录因子。
命令如下:
#参数解释
-命令文件findMotifsGenome.pl
-输入文件:用自己的输入文件名<HomerPeak/Positionsfile>,例如scATAC-Seq_H3K4Me3_1_homer.bed
-参考基因组:<genome>如hg19
-输出文件:<outputdirectory>给一个路径和输出文件的名字
-len:motif大小设置,默认8,10,12;越大需要的计算资源越多。
根据上述技术方案,所述scRNA-seq和scATAC-seq联合分析包括如下步骤:单独分析scRNA-seq和scATAC-seq后,再使用皮尔森相关性分析能够对两种数据的共有的差异表达的基因或转录因子进行相关性分析。
由于两者单独分析,聚类分析会出现不同的细胞类型,scATAC-seq和scRAN-seq数据并不总是具有类似的能力用于检测细胞类型,所以我们采用耦合分析的方法(couplednonnegativematrixfactorizations,CoupledNMF)进行分析数据,以这种方式系统地耦合两个集群过程scrna-seq样本中的细胞聚类同时也可以利用scatacseq样本中的信息。
首先完成scRNA-seq差异分析,即scRNAseq分析中的步骤B2,根据LogFC和p值或q值的阈值筛选到差异的基因,以细胞类型为列,以不同的Gene为行,构建基因表达矩阵,完成scATAC-seq的峰值差异分析,同理的方式筛选差异的峰值,以细胞类型为列,以不同的调控元件或mergedATAC的峰值区域作为行,构建矩阵;
如图2所示:根据上述技术方案,所述scRNA-seq和scATAC-seq联合分析采用耦合分析的方法进行分析数据;
使用pairedexpressionandchromatinaccessibility(PECA)模型将上述的scRNA-seq的表达矩阵和scATAC-seq矩阵构建回归模型分析:
g表示每一个基因,我们提取一组调节该基因的调节元件(Regulatoryelement,REs),这些REs记录为Sg,Eg是目标基因的表达值,Oi表示REs的染色质可及性,agi表示使用PECA模型耦合后矩阵,
如图3所示:使用Coupledclusteringmodel软件的模型对上述经过回归后的矩阵进行迭代方式进行耦合,以获得更好的聚类分析结果,公式如下:
O=W1H1:W1的第i列给出的平均值用于第i列聚类,而Hi的第j列分配给第j单元不同集群的权重用于不同的聚类,类似的,第二个样本的聚类可以通过因子分解E=W2H2得到,数据测量的特征不同于第一种数据;
表示两种数据集双矩阵分解,A即是“耦合矩阵”,的构造是特定于应用程序的,但取决于以下假设:科学理解或先前的数据,可以确定一个样本中线性可预测的特征子集从另一个样本中测量的特征,在这种情况下,我们可以用A来表示线性预测运算符,λ1、λ2和μ是可变参数;
其中λ1和λ2取值范围是0.001,0.01,0.1,1,10,100,1000,10000。
最后应说明的是:以上所述仅为本发明的优选实例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种联合分析单细胞scRNA-seq和scATAC-seq的流程方法,其特征在于:包括scRNA-seq分析、scATAC-seq分析、scRNA-seq和scATAC-seq联合分析;
所述scRNA-seq分析包括如下步骤:
A1、原始数据处理;
A2、差异分析和细胞聚类;
A3、TF的查找;
所述scATAC-seq分析包括如下步骤:
B1、原始数据处理;
B2、信号峰的位置和强度的寻找;
B3、相关性分析和差异分析;
B4、转录因子搜寻。
2.根据权利要求1所述的一种联合分析单细胞scRNA-seq和scATAC-seq的流程方法,其特征在于,所述步骤A1以测序得到的原始数据的Fastq格式文件为输入文件进行原始数据处理。
3.根据权利要求1所述的一种联合分析单细胞scRNA-seq和scATAC-seq的流程方法,其特征在于,所述步骤A2将步骤A1所得的结果放置在一个文件夹中,进行读取,并用limma包进行计算,找出差异基因。
4.根据权利要求1所述的一种联合分析单细胞scRNA-seq和scATAC-seq的流程方法,其特征在于,所述步骤A3根据Trrust中转录因子与基因的对应关系网站将上述的差异基因回溯TF,找到调控差异基因的TF。
5.根据权利要求1所述的一种联合分析单细胞scRNA-seq和scATAC-seq的流程方法,其特征在于,所述步骤B1以测序得到的原始的fastq格式文件为输入文件进行原始数据预处理,将fastq文件的序列使用Bowtie2比对到hg38上,Bowtie2的预备设计参数为very-sensitive,比对完成后获得bam文件。
6.根据权利要求1所述的一种联合分析单细胞scRNA-seq和scATAC-seq的流程方法,其特征在于,所述步骤B2寻找每组样本中的ATAC-seq信号峰的位置,统计每个信号峰的范围内测序读长的数目,将每个样品与每一个信号峰处的信号强度列成矩阵,按照每行表示一个信号峰,每列表示一个样品,得到经过标准化后的表达矩阵。
7.根据权利要求1所述的一种联合分析单细胞scRNA-seq和scATAC-seq的流程方法,其特征在于,所述步骤B3中得到表达矩阵后,根据皮尔森计算方法,我们计算样本之间的相关性,得到了皮尔森相关系数,基于相关系数,对样本进行层次聚类绘制热图,得到表达矩阵文件后,使用DEseq2对数据进行差异分析,得到差异信号峰的数量,接着对数据进行对比,得出差异分析。
8.根据权利要求1所述的一种联合分析单细胞scRNA-seq和scATAC-seq的流程方法,其特征在于,所述步骤B4中对应的信号峰中,搜寻其中富集的转录因子。
9.根据权利要求1所述的一种联合分析单细胞scRNA-seq和scATAC-seq的流程方法,其特征在于,所述scRNA-seq和scATAC-seq联合分析包括如下步骤:单独分析scRNA-seq和scATAC-seq后,再使用皮尔森相关性分析能够对两种数据的共有的差异表达的基因或转录因子进行相关性分析。
10.根据权利要求9所述的一种联合分析单细胞scRNA-seq和scATAC-seq的流程方法,其特征在于,所述scRNA-seq和scATAC-seq联合分析采用耦合分析的方法进行分析数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911125922.4A CN110910950A (zh) | 2019-11-18 | 2019-11-18 | 一种联合分析单细胞scRNA-seq和scATAC-seq的流程方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911125922.4A CN110910950A (zh) | 2019-11-18 | 2019-11-18 | 一种联合分析单细胞scRNA-seq和scATAC-seq的流程方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110910950A true CN110910950A (zh) | 2020-03-24 |
Family
ID=69816909
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911125922.4A Pending CN110910950A (zh) | 2019-11-18 | 2019-11-18 | 一种联合分析单细胞scRNA-seq和scATAC-seq的流程方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110910950A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111676299A (zh) * | 2020-07-30 | 2020-09-18 | 扬州大学 | 一种鉴定鸡囊胚配盘中细胞种类的方法 |
CN112992267A (zh) * | 2021-04-13 | 2021-06-18 | 中国人民解放军军事科学院军事医学研究院 | 一种单细胞的转录因子调控网络预测方法及装置 |
CN113257364A (zh) * | 2021-05-26 | 2021-08-13 | 南开大学 | 基于多目标进化的单细胞转录组测序数据聚类方法及系统 |
CN113643761A (zh) * | 2021-10-13 | 2021-11-12 | 苏州赛美科基因科技有限公司 | 一种用于解读二代测序结果所需数据的提取方法 |
WO2022188785A1 (zh) * | 2021-03-08 | 2022-09-15 | 中国科学院上海营养与健康研究所 | 融合深度学习模型的单细胞转录组计算分析方法和系统 |
CN116153404A (zh) * | 2023-02-28 | 2023-05-23 | 成都信息工程大学 | 一种单细胞ATAC-seq数据分析方法 |
EP4182468A4 (en) * | 2020-09-04 | 2023-12-27 | 10X Genomics, Inc. | SYSTEMS AND METHODS FOR IDENTIFYING CELL-ASSOCIATED BARCODES IN DATA WITH MULTIPLE GENOMIC FEATURES FROM SINGLE-CELL PARTITIONS |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150368694A1 (en) * | 2014-06-23 | 2015-12-24 | Yale University | Methods for closed chromatin mapping and dna methylation analysis for single cells |
US20180153922A1 (en) * | 2016-12-06 | 2018-06-07 | New York Society For The Ruptured And Crippled Maintaining The Hospital For Special Surgery | Inhibition of expansion and function of pathogenic age-associated b cells and use for the prevention and treatment of autoimmune disease |
CN109837335A (zh) * | 2019-03-20 | 2019-06-04 | 福建省农业科学院食用菌研究所(福建省蘑菇菌种研究推广站) | 一种联合ATAC-seq和RNA-seq筛选食药用菌功能基因的方法 |
CN109979538A (zh) * | 2019-03-28 | 2019-07-05 | 广州基迪奥生物科技有限公司 | 一种基于10x单细胞转录组测序数据的分析方法 |
-
2019
- 2019-11-18 CN CN201911125922.4A patent/CN110910950A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150368694A1 (en) * | 2014-06-23 | 2015-12-24 | Yale University | Methods for closed chromatin mapping and dna methylation analysis for single cells |
US20180153922A1 (en) * | 2016-12-06 | 2018-06-07 | New York Society For The Ruptured And Crippled Maintaining The Hospital For Special Surgery | Inhibition of expansion and function of pathogenic age-associated b cells and use for the prevention and treatment of autoimmune disease |
CN109837335A (zh) * | 2019-03-20 | 2019-06-04 | 福建省农业科学院食用菌研究所(福建省蘑菇菌种研究推广站) | 一种联合ATAC-seq和RNA-seq筛选食药用菌功能基因的方法 |
CN109979538A (zh) * | 2019-03-28 | 2019-07-05 | 广州基迪奥生物科技有限公司 | 一种基于10x单细胞转录组测序数据的分析方法 |
Non-Patent Citations (2)
Title |
---|
基迪奥生物: "1个半月48篇大文章:最新10X scATAC-seq技术介绍", pages 2 - 5 * |
方向东 等: "《R语言与Bioconductor生物信息学应用》", vol. 2017, 天津科技翻译出版社有限公司, pages: 055 - 056 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111676299A (zh) * | 2020-07-30 | 2020-09-18 | 扬州大学 | 一种鉴定鸡囊胚配盘中细胞种类的方法 |
EP4182468A4 (en) * | 2020-09-04 | 2023-12-27 | 10X Genomics, Inc. | SYSTEMS AND METHODS FOR IDENTIFYING CELL-ASSOCIATED BARCODES IN DATA WITH MULTIPLE GENOMIC FEATURES FROM SINGLE-CELL PARTITIONS |
WO2022188785A1 (zh) * | 2021-03-08 | 2022-09-15 | 中国科学院上海营养与健康研究所 | 融合深度学习模型的单细胞转录组计算分析方法和系统 |
CN112992267A (zh) * | 2021-04-13 | 2021-06-18 | 中国人民解放军军事科学院军事医学研究院 | 一种单细胞的转录因子调控网络预测方法及装置 |
CN112992267B (zh) * | 2021-04-13 | 2024-02-09 | 中国人民解放军军事科学院军事医学研究院 | 一种单细胞的转录因子调控网络预测方法及装置 |
CN113257364A (zh) * | 2021-05-26 | 2021-08-13 | 南开大学 | 基于多目标进化的单细胞转录组测序数据聚类方法及系统 |
CN113257364B (zh) * | 2021-05-26 | 2022-07-12 | 南开大学 | 基于多目标进化的单细胞转录组测序数据聚类方法及系统 |
CN113643761A (zh) * | 2021-10-13 | 2021-11-12 | 苏州赛美科基因科技有限公司 | 一种用于解读二代测序结果所需数据的提取方法 |
CN113643761B (zh) * | 2021-10-13 | 2022-01-18 | 苏州赛美科基因科技有限公司 | 一种用于解读二代测序结果所需数据的提取方法 |
CN116153404A (zh) * | 2023-02-28 | 2023-05-23 | 成都信息工程大学 | 一种单细胞ATAC-seq数据分析方法 |
CN116153404B (zh) * | 2023-02-28 | 2023-08-15 | 成都信息工程大学 | 一种单细胞ATAC-seq数据分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110910950A (zh) | 一种联合分析单细胞scRNA-seq和scATAC-seq的流程方法 | |
Baek et al. | Single-cell ATAC sequencing analysis: from data preprocessing to hypothesis generation | |
Mu et al. | Deciphering brain complexity using single-cell sequencing | |
CN112005306A (zh) | 选择、管理和分析高维数据的方法和系统 | |
CN104302781B (zh) | 一种检测染色体结构异常的方法及装置 | |
US20210332354A1 (en) | Systems and methods for identifying differential accessibility of gene regulatory elements at single cell resolution | |
Larsson et al. | Comparative microarray analysis | |
Hu et al. | Classifying the multi-omics data of gastric cancer using a deep feature selection method | |
CN115428088A (zh) | 用于基因表达和dna染色质可及性的联合交互式可视化的系统和方法 | |
CN112289376B (zh) | 一种检测体细胞突变的方法及装置 | |
CN117476101A (zh) | 一种多组学单细胞测序数据区分恶性细胞的方法、系统、设备和介质 | |
Shi et al. | Fundamental and practical approaches for single-cell ATAC-seq analysis | |
WO2012096015A1 (ja) | 核酸情報処理装置およびその処理方法 | |
Forsberg et al. | CLC Bio Integrated Platform for Handling and Analysis of Tag Sequencing Data | |
CN117457065A (zh) | 一种基于单细胞多组学数据识别表型相关细胞类型的方法和系统 | |
US20140019062A1 (en) | Nucleic Acid Information Processing Device and Processing Method Thereof | |
CN116072223A (zh) | 针对人源化动物单细胞转录组测序的非人细胞过滤系统 | |
CN115595370A (zh) | 一种用于非小细胞肺癌分型诊断的基因转录本标记物组合及分型诊断装置 | |
US20210324465A1 (en) | Systems and methods for analyzing and aggregating open chromatin signatures at single cell resolution | |
Shi et al. | scDA: Single cell discriminant analysis for single-cell RNA sequencing data | |
Harmanci et al. | scRegulocity: Detection of local RNA velocity patterns in embeddings of single cell RNA-Seq data | |
He et al. | Application of K-means clustering based on artificial intelligence in gene statistics of biological information engineering | |
Polioudakis et al. | A single cell transcriptomic analysis of human neocortical development | |
Kannan et al. | CAISC: A software to integrate copy number variations and single nucleotide mutations for genetic heterogeneity profiling and subclone detection by single-cell RNA sequencing | |
Mishra et al. | Probable Biomarker Identification Using Recursive Feature Extraction and Network Analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200324 |
|
RJ01 | Rejection of invention patent application after publication |