CN114708910A - 一种利用单细胞测序数据计算池测序中细胞亚群富集分数的方法 - Google Patents
一种利用单细胞测序数据计算池测序中细胞亚群富集分数的方法 Download PDFInfo
- Publication number
- CN114708910A CN114708910A CN202210177169.9A CN202210177169A CN114708910A CN 114708910 A CN114708910 A CN 114708910A CN 202210177169 A CN202210177169 A CN 202210177169A CN 114708910 A CN114708910 A CN 114708910A
- Authority
- CN
- China
- Prior art keywords
- cell
- sequencing
- single cell
- names
- expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012163 sequencing technique Methods 0.000 title claims abstract description 90
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000014509 gene expression Effects 0.000 claims abstract description 58
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 56
- 239000003550 marker Substances 0.000 claims abstract description 33
- 239000011159 matrix material Substances 0.000 claims abstract description 28
- 239000002299 complementary DNA Substances 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 8
- 239000000203 mixture Substances 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000000265 homogenisation Methods 0.000 claims description 4
- 108020005196 Mitochondrial DNA Proteins 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 239000012634 fragment Substances 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000003908 quality control method Methods 0.000 claims description 3
- 238000000926 separation method Methods 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000012408 PCR amplification Methods 0.000 claims description 2
- 238000012165 high-throughput sequencing Methods 0.000 claims description 2
- 238000002372 labelling Methods 0.000 claims description 2
- 238000002360 preparation method Methods 0.000 claims description 2
- 238000012847 principal component analysis method Methods 0.000 claims description 2
- 238000010839 reverse transcription Methods 0.000 claims description 2
- 229920002477 rna polymer Polymers 0.000 claims description 2
- 239000007787 solid Substances 0.000 claims description 2
- 230000000007 visual effect Effects 0.000 claims description 2
- 210000004027 cell Anatomy 0.000 description 123
- 206010028980 Neoplasm Diseases 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 238000011160 research Methods 0.000 description 3
- 206010061902 Pancreatic neoplasm Diseases 0.000 description 2
- 238000007792 addition Methods 0.000 description 2
- 210000003719 b-lymphocyte Anatomy 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 208000015486 malignant pancreatic neoplasm Diseases 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 201000002528 pancreatic cancer Diseases 0.000 description 2
- 208000008443 pancreatic carcinoma Diseases 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 210000004881 tumor cell Anatomy 0.000 description 2
- 238000003559 RNA-seq method Methods 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 239000002771 cell marker Substances 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 210000003850 cellular structure Anatomy 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 210000002308 embryonic cell Anatomy 0.000 description 1
- 210000002889 endothelial cell Anatomy 0.000 description 1
- 238000011223 gene expression profiling Methods 0.000 description 1
- 210000002865 immune cell Anatomy 0.000 description 1
- 230000036210 malignancy Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000001394 metastastic effect Effects 0.000 description 1
- 206010061289 metastatic neoplasm Diseases 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000035790 physiological processes and functions Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000004043 responsiveness Effects 0.000 description 1
- 210000000130 stem cell Anatomy 0.000 description 1
- 210000002536 stromal cell Anatomy 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/20—Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Genetics & Genomics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Organic Chemistry (AREA)
- Molecular Biology (AREA)
- Analytical Chemistry (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Microbiology (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Immunology (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及一种利用单细胞测序数据计算池测序中细胞亚群富集分数的方法,所述方法包括以下步骤:a)通过单细胞测序,建立Marker基因名,细胞亚群名的表达矩阵M;b)通过池测序,建立基因名,样本名的表达矩阵N;c)将所述Marker基因名,细胞亚群名的表达矩阵M中的Marker基因名比对至所述基因名,样本名的表达矩阵N,获取Marker基因名,样本名的表达矩阵N’;d)使用程序scFrac,以M,N’为输入,得到M中每个细胞亚群在N’的各个样本中所占的富集分数。本发明为寻找和解析细胞群样本内部的细胞亚群与临床意义之间的关联性提供了一种经济节约、准确可靠的方法。
Description
技术领域
本发明涉及物信息分析技术领域,具体地说,涉及一种利用单细胞测序数据计算池测序中细胞亚群富集分数的方法。
背景技术
肿瘤是一种包含多种细胞种类的病理组织。包括但不限于肿瘤细胞,免疫细胞,基质细胞,内皮细胞等。细胞组成的比例差异决定了肿瘤的恶性程度,转移能力,对治疗的反应性等。
单细胞转录组技术是结合细胞分离技术与二代测序技术的新兴技术手段。其主要特点为可获得单个细胞的基因表达谱,可在基因表达层面对细胞亚群分群,可以对不同的细胞群及其基因表达的差异,生理功能差异进行研究。可用于稀有细胞群的发现,鉴定。此技术尤其适合解析复杂细胞群,例如干细胞,胚胎细胞,肿瘤细胞的细胞种类构成。
池测序为传统的二代测序技术,针对细胞群进行测序,获得较为笼统,粗糙的细胞群的表达信息。其中非主要细胞群的表达信息往往被掩盖,很多重要信息,尤其是细胞构成的比例信息无法获得。
池测序由于发展时间长,成本低,对计算资源要求小的优势,有充足的数据资源可供获取,分析。目前较为知名的,肿瘤相关的池测序数据集包括TCGA,ICGC,GEO数据库,包含了成百上千例临床随访信息完善的池测序样本,为肿瘤研究提供了丰富的资源。
单细胞转录组测序虽然有分辨率高,可以解析样本内细胞组成等优势,但由于其成本高,发展时间较短,目前尚无包含临床信息的单细胞转录组测序的数据集。研究一种将单细胞测序对细胞组成的解析结果用于池测序,推测出池测序内细胞组成的富集分数的方法,从而结合两种测序的优势,对肿瘤研究有重要意义。
专利文献CN112700820A公开了一种基于单细胞转录组测序的细胞亚群注释方法,包括如下步骤:1)10x barcode UMI识别,2)比对基因组,3)基因表达谱,4)低质量细胞过滤和数据均一化,5)细胞群体聚类,6)Marker基因提取,7)细胞亚群注释。该发明解决了单细胞亚群注释的问题,使得单细胞测序数据在常规分析后,可以支持依据基因表达谱和/或细胞Marker基因进行细胞注释,实现了不同注释方法的有机结合,得到细胞类型的分布情况和相关信息。然而该文献涉及的是单细胞测序结果细胞群的注释,目前未见如本申请的利用单细胞测序数据来计算池测序中细胞亚群富集分数的方法。
发明内容
本发明的目的是针对现有技术中的不足,提供一种利用单细胞测序数据计算池测序中细胞亚群富集分数的方法。
本发明的再一的目的是,提供一种利用单细胞测序数据计算池测序中细胞亚群富集分数的系统。
为实现上述第一个目的,本发明采取的技术方案是:
一种利用单细胞测序数据计算池测序中细胞亚群富集分数的方法,包括以下步骤:
a)通过单细胞测序,建立Marker基因名,细胞亚群名的表达矩阵M;
b)通过池测序,建立基因名,样本名的表达矩阵N;
c)将所述Marker基因名,细胞亚群名的表达矩阵M中的Marker基因名比对至所述基因名,样本名的表达矩阵N,获取Marker基因名,样本名的表达矩阵N’;
d)使用程序scFrac,以M,N’为输入,得到M中每个细胞亚群在N’的各个样本中所占的富集分数。
作为本发明的一个优选例,步骤a所述的单细胞测序为单细胞转录组测序。
更优选地,所述单细胞转录组测序的方法选自Smart-seq、Smart-seq2、CEL-seq、CEL-seq2、Drop-seq、MARS-seq、MARS-seq2和SCRB-seq。
作为本发明的另一优选例,步骤a所述的单细胞测序采用的单细胞分离和标记平台为ChromiumTM系统、BD RhapsodyTM单细胞分析系统、单细胞测序解决方案、ICELL8单细胞系统或C1TM单细胞全自动制备系统。
作为本发明的另一优选例,步骤a所述的单细胞测序采用的单细胞高通量测序平台为illumina系列、BGISEQ系列、Roche 454、ABI solid或Ion Proton。
作为本发明的另一优选例,步骤a包括以下步骤:
a-1)10Xbarcode UMI识别:10X genomics平台建库测序的下机数据为fastq序列,包括barcode,UMI,mRNA序列三部分,使用软件cellranger count,通过barcode序列识别细胞,通过UMI序列对基因表达定量,通过3’端mRNA序列进行基因鉴定;
a-2)比对基因组:采取STAR算法,将fastq序列比对至参考基因组上,获得序列的基因信息,使用cellranger对基因的表达量进行定量;
a-3)低质量细胞过滤和均一化:基于细胞的基因表达量和线粒体DNA表达量对低质量细胞过滤,使用R语言的Seurat包,过滤细胞之后,再通过Seurat包的Normalization函数对表达量进行均一化;
a-4)细胞聚类:使用主成分分析方法对细胞表达谱降维,选取前10个主成分用于后续的聚类,使用临近算法对细胞进行聚类,使用Umap对细胞进行基于图论的可视化聚类,将KNN获得的聚类结果映射至Umap聚类结果上;
a-5)Marker基因提取:Seurat通过wilcox法比较检验不同细胞组成间的差异基因,其中表达较其他细胞群体显著上升的基因即为该细胞亚群的Marker基因;
a-6)建立Marker基因,目标细胞群表达矩阵M:将每个细胞亚群的Marker基因作为行名,每个单细胞作为列名,从单细胞测序数据中获得一表达矩阵M。
作为本发明的另一优选例,步骤b包括以下步骤:从组织提取全组织RNA,经过反转录为cDNA,片段化为cDNA片段,两端加引物,PCR扩增,测序,从illumina平台测序下机的数据包括fastq_1,fastq_2,经过fastq质控,STAR比对至参考基因组,htseq-count获取基因表达量,获取以基因为行名,样本为列名的池测序的表达矩阵N。
为实现上述第二个目的,本发明采取的技术方案是:
一种利用单细胞测序数据计算池测序中细胞亚群富集分数的系统,所述系统用于将单细胞测序建立的Marker基因名,细胞亚群名的表达矩阵M中的Marker基因名比对至池测序建立的基因名,样本名的表达矩阵N,进而获取Marker基因名,样本名的表达矩阵N’,最终获得M中每个细胞亚群在N’的各个样本中所占的富集分数。
本发明优点在于:
1、本发明提供了一种分析样本内部各细胞亚群所占比例的方法。大型临床队列的样本包含有丰富的生物信息,但单细胞测序价格昂贵,对取材要求高,导致样本例数纳入少,从而产生数据偏倚,也无法用单细胞测序技术探究其表达谱特征与细胞组分。而本发明可以利用池测序(如二代测序)价格低廉,标本处理要求低,技术成熟的优势,有机结合单细胞测序,能够更好的分析样本内部各细胞的生物学特征及比例,也可在池测序队列中验证和进一步探究单细胞测序的结果。尤其适合在大样本队列中寻找肿瘤内部的细胞亚群与临床意义之间的关联性。本发明的技术有助于减少前期的实验投入,节省科研经费的开支,有的放矢。
2、本发明利用机器学习的方式拟合得到一个包括单细胞测序和池测序的模型,该模型用于推断池测序中细胞比例具有准确度高的优势。
附图说明
附图1是实施例1的单细胞测序中的细胞聚类分析结果。
附图2是实施例1中单细胞测序所得的细胞亚群比例(a)与按本发明方法推测的细胞亚群比例(b)的比较。
附图3是实施例1中B细胞(a),Fibroblast细胞(b)经单细胞测序所得富集分数和按本发明方法推测的富集分数的相关性分析。
具体实施方式
下面结合附图对本发明提供的具体实施方式作详细说明。
实施例1在胰腺癌中利用单细胞测序数据计算池测序中细胞亚群富集分数
0、取15份新鲜的胰腺癌组织,平均分为两份,一份进行10X genomic单细胞测序,另外一份行RNAseq池测序。
1、10Xbarcode UMI识别:10X genomics平台建库测序的下机数据为fastq序列,包括barcode,UMI,mRNA序列三部分。使用软件cellranger count,通过barcode序列识别细胞,通过UMI序列对基因表达定量,通过3’端mRNA序列进行基因鉴定。
2、比对基因组:采取STAR算法,将fastq序列比对至参考基因组上,获得序列的基因信息。使用cellranger对基因的表达量进行定量。
3、低质量细胞过滤和均一化:基于细胞的基因表达量和线粒体DNA表达量对低质量细胞过滤。使用R语言的Seurat包,过滤细胞之后,再通过Seurat包的Normalization函数对表达量进行均一化。
4、细胞聚类:使用PCA(主成分分析)方法对细胞表达谱降维,选取前10个主成分用于后续的聚类。使用KNN(临近算法)对细胞进行聚类,使用Umap对细胞进行基于图论的可视化聚类。将KNN获得的聚类结果映射至Umap聚类结果上。(图1)
5、Marker基因提取:Seurat通过wilcox法比较检验不同细胞组成间的差异基因,其中表达较其他细胞群体显著上升的基因即为该细胞亚群的Marker基因。
6、建立Marker基因,目标细胞群表达矩阵M:将每个细胞亚群的Marker基因作为行名,每个单细胞作为列名,从单细胞测序数据中获得一表达矩阵M。
7、池测序:从组织提取全组织RNA,经过反转录为cDNA,片段化为cDNA片段,两端加引物,PCR扩增,测序。从illumina平台测序下机的数据包括fastq_1,fastq_2。经过fastq质控,STAR比对至参考基因组,htseq-count获取基因表达量,获取以基因为行名,样本为列名的池测序的表达矩阵N。
8、获取表达谱:将6中的Marker基因比对至7中的表达矩阵N,获取以Marker基因为行名,样本名为列名的表达谱N’。
9、使用程序scFrac获取细胞亚群的富集分数:使用程序scFrac,以M,N’为输入,得到M中每个细胞亚群在N’中所占的富集分数。
10、以条形图比较单细胞测序所得的细胞亚群比例(图2a)与经scFrac推测的细胞亚群比例(图2b),可见各个细胞比例较为接近。比较B细胞(图3a),Fibroblast细胞(图3b)在单细胞测序和池测序中经scFrac推测的富集分数的相关性,可见相关性较强。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明方法的前提下,还可以做出若干改进和补充,这些改进和补充也应视为本发明的保护范围。
Claims (8)
1.一种利用单细胞测序数据计算池测序中细胞亚群富集分数的方法,其特征在于,包括以下步骤:
a)通过单细胞测序,建立Marker基因名,细胞亚群名的表达矩阵M;
b)通过池测序,建立基因名,样本名的表达矩阵N;
c)将所述Marker基因名,细胞亚群名的表达矩阵M中的Marker基因名比对至所述基因名,样本名的表达矩阵N,获取Marker基因名,样本名的表达矩阵N’;
d)使用程序scFrac,以M,N’为输入,得到M中每个细胞亚群在N’的各个样本中所占的富集分数。
2.根据权利要求1所述的方法,其特征在于,步骤a所述的单细胞测序为单细胞转录组测序。
3.根据权利要求2所述的方法,其特征在于,所述单细胞转录组测序的方法选自Smart-seq、Smart-seq2、CEL-seq、CEL-seq2、Drop-seq、MARS-seq、MARS-seq2和SCRB-seq。
5.根据权利要求1所述的方法,其特征在于,步骤a所述的单细胞测序采用的单细胞高通量测序平台为illumina系列、BGISEQ系列、Roche 454、ABI solid或Ion Proton。
6.根据权利要求1所述的方法,其特征在于,步骤a包括以下步骤:
a-1)10Xbarcode UMI识别:10X genomics平台建库测序的下机数据为fastq序列,包括barcode,UMI,mRNA序列三部分,使用软件cellranger count,通过barcode序列识别细胞,通过UMI序列对基因表达定量,通过3’端mRNA序列进行基因鉴定;
a-2)比对基因组:采取STAR算法,将fastq序列比对至参考基因组上,获得序列的基因信息,使用cellranger对基因的表达量进行定量;
a-3)低质量细胞过滤和均一化:基于细胞的基因表达量和线粒体DNA表达量对低质量细胞过滤,使用R语言的Seurat包,过滤细胞之后,再通过Seurat包的Normalization函数对表达量进行均一化;
a-4)细胞聚类:使用主成分分析方法对细胞表达谱降维,选取前10个主成分用于后续的聚类,使用临近算法对细胞进行聚类,使用Umap对细胞进行基于图论的可视化聚类,将KNN获得的聚类结果映射至Umap聚类结果上;
a-5)Marker基因提取:Seurat通过wilcox法比较检验不同细胞组成间的差异基因,其中表达较其他细胞群体显著上升的基因即为该细胞亚群的Marker基因;
a-6)建立Marker基因,目标细胞群表达矩阵M:将每个细胞亚群的Marker基因作为行名,每个单细胞作为列名,从单细胞测序数据中获得一表达矩阵M。
7.根据权利要求1所述的方法,其特征在于,步骤b包括以下步骤:从组织提取全组织RNA,经过反转录为cDNA,片段化为cDNA片段,两端加引物,PCR扩增,测序,从illumina平台测序下机的数据包括fastq_1,fastq_2,经过fastq质控,STAR比对至参考基因组,htseq-count获取基因表达量,获取以基因为行名,样本为列名的池测序的表达矩阵N。
8.一种利用单细胞测序数据计算池测序中细胞亚群富集分数的系统,其特征在于,所述系统用于将单细胞测序建立的Marker基因名,细胞亚群名的表达矩阵M中的Marker基因名比对至池测序建立的基因名,样本名的表达矩阵N,进而获取Marker基因名,样本名的表达矩阵N’,最终获得M中每个细胞亚群在N’的各个样本中所占的富集分数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210177169.9A CN114708910B (zh) | 2022-02-24 | 2022-02-24 | 一种利用单细胞测序数据计算池测序中细胞亚群富集分数的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210177169.9A CN114708910B (zh) | 2022-02-24 | 2022-02-24 | 一种利用单细胞测序数据计算池测序中细胞亚群富集分数的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114708910A true CN114708910A (zh) | 2022-07-05 |
CN114708910B CN114708910B (zh) | 2024-05-14 |
Family
ID=82167436
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210177169.9A Active CN114708910B (zh) | 2022-02-24 | 2022-02-24 | 一种利用单细胞测序数据计算池测序中细胞亚群富集分数的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114708910B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115440303A (zh) * | 2022-11-03 | 2022-12-06 | 杭州联川生物技术股份有限公司 | 一种单细胞转录组低质量细胞过滤方法、介质和设备 |
CN116312786A (zh) * | 2023-02-08 | 2023-06-23 | 杭州联川生物技术股份有限公司 | 一种基于多组比较的单细胞表达模式差异评估方法 |
CN116564419A (zh) * | 2023-07-10 | 2023-08-08 | 新格元(南京)生物科技有限公司 | 一种空间转录组特征富集差异分析方法及其应用 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102899315A (zh) * | 2011-07-29 | 2013-01-30 | 江汉大学 | 一种隐性混合池测序基因克隆方法 |
CN106202995A (zh) * | 2016-07-13 | 2016-12-07 | 北京麦美瑞生物科技有限公司 | 小麦BSR‑Seq基因定位的方法 |
WO2017178345A1 (en) * | 2016-04-15 | 2017-10-19 | Koninklijke Philips N.V. | Sub-population detection and quantization of receptor-ligand states for characterizing inter-cellular communication and intratumoral heterogeneity |
CN110317856A (zh) * | 2018-03-28 | 2019-10-11 | 中国科学院上海生命科学研究院 | 基于表观组信息低成本组装解析生物核心基因组信息 |
-
2022
- 2022-02-24 CN CN202210177169.9A patent/CN114708910B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102899315A (zh) * | 2011-07-29 | 2013-01-30 | 江汉大学 | 一种隐性混合池测序基因克隆方法 |
WO2017178345A1 (en) * | 2016-04-15 | 2017-10-19 | Koninklijke Philips N.V. | Sub-population detection and quantization of receptor-ligand states for characterizing inter-cellular communication and intratumoral heterogeneity |
CN106202995A (zh) * | 2016-07-13 | 2016-12-07 | 北京麦美瑞生物科技有限公司 | 小麦BSR‑Seq基因定位的方法 |
CN110317856A (zh) * | 2018-03-28 | 2019-10-11 | 中国科学院上海生命科学研究院 | 基于表观组信息低成本组装解析生物核心基因组信息 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115440303A (zh) * | 2022-11-03 | 2022-12-06 | 杭州联川生物技术股份有限公司 | 一种单细胞转录组低质量细胞过滤方法、介质和设备 |
CN115440303B (zh) * | 2022-11-03 | 2023-02-10 | 杭州联川生物技术股份有限公司 | 一种单细胞转录组低质量细胞过滤方法、介质和设备 |
CN116312786A (zh) * | 2023-02-08 | 2023-06-23 | 杭州联川生物技术股份有限公司 | 一种基于多组比较的单细胞表达模式差异评估方法 |
CN116312786B (zh) * | 2023-02-08 | 2023-11-28 | 杭州联川生物技术股份有限公司 | 一种基于多组比较的单细胞表达模式差异评估方法 |
CN116564419A (zh) * | 2023-07-10 | 2023-08-08 | 新格元(南京)生物科技有限公司 | 一种空间转录组特征富集差异分析方法及其应用 |
CN116564419B (zh) * | 2023-07-10 | 2023-09-15 | 新格元(南京)生物科技有限公司 | 一种空间转录组特征富集差异分析方法及其应用 |
Also Published As
Publication number | Publication date |
---|---|
CN114708910B (zh) | 2024-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11837328B2 (en) | Methods and systems for detecting sequence variants | |
US11447828B2 (en) | Methods and systems for detecting sequence variants | |
US11211146B2 (en) | Methods and systems for aligning sequences | |
CN114708910A (zh) | 一种利用单细胞测序数据计算池测序中细胞亚群富集分数的方法 | |
US20190272891A1 (en) | Methods and systems for genotyping genetic samples | |
EP3053073B1 (en) | Methods and system for detecting sequence variants | |
US8895269B2 (en) | Gene expression profiling from FFPE samples | |
Kanke et al. | miRquant 2.0: an expanded tool for accurate annotation and quantification of microRNAs and their isomiRs from small RNA-sequencing data | |
CN109337997B (zh) | 一种山茶属多态性叶绿体基因组微卫星分子标记引物及筛选和甄别近缘种的方法 | |
CN111321209A (zh) | 一种用于循环肿瘤dna测序数据双端矫正的方法 | |
CN110970091B (zh) | 标签质控的方法及装置 | |
AU2010329825B2 (en) | RNA analytics method | |
CN111292806B (zh) | 一种利用纳米孔测序的转录组分析方法 | |
Forsberg et al. | CLC Bio Integrated Platform for Handling and Analysis of Tag Sequencing Data | |
CN115948521A (zh) | 一种检测非整倍体缺失染色体信息的方法 | |
US20200190567A1 (en) | Method For Detecting Activity Change Of Transposon In Plant Before And After Stress Treatment | |
CN114672574B (zh) | 与绵羊单胎产羔数相关的snp分子标记、引物组、试剂盒及检测方法和应用 | |
CN110684830A (zh) | 一种石蜡切片组织rna分析方法 | |
Sundarrajan et al. | Big Data and Transcriptomics | |
Sundarrajan et al. | 5 Big Data and | |
CN116875703A (zh) | 一种与犊牛生长发育相关的分子标记及其应用 | |
Skibbe et al. | Gene expression analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |