CN111863138A - 人子宫组织细胞组成分析模型及其建立方法和应用 - Google Patents

人子宫组织细胞组成分析模型及其建立方法和应用 Download PDF

Info

Publication number
CN111863138A
CN111863138A CN202010456839.1A CN202010456839A CN111863138A CN 111863138 A CN111863138 A CN 111863138A CN 202010456839 A CN202010456839 A CN 202010456839A CN 111863138 A CN111863138 A CN 111863138A
Authority
CN
China
Prior art keywords
cell
cells
data
human uterine
stroma
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010456839.1A
Other languages
English (en)
Inventor
邹晓晖
吴兵兵
李余
欧阳宏伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202010456839.1A priority Critical patent/CN111863138A/zh
Publication of CN111863138A publication Critical patent/CN111863138A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供一种人子宫组织细胞组成分析模型及其建立方法和应用,利用单细胞分析技术,分析了人子宫细胞亚群的组成及每个亚群的基因表达谱特征,进一步根据各个细胞亚群的基因表达谱特征,利用反卷积法计算出子宫组织细胞组成的分析模型,并且将这一模型用于分析人子宫疾病特异细胞亚群特征,从而发现与疾病相关的潜在靶点细胞。

Description

人子宫组织细胞组成分析模型及其建立方法和应用
技术领域
本发明属于生物信息技术领域,尤其是临床妇产科生殖检测领域,涉及一种基于人子宫单细胞图谱的细胞亚群特征、人子宫细胞类型组成分析方法,建立人子宫组织细胞组成分析模型的方法,以及该模型在人子宫疾病中发现疾病特异细胞亚群和疾病的靶点细胞方面的应用。
背景技术
人子宫组织是胚胎着床、发育关键脏器,一旦子宫功能失调,将导致女性不孕不育或流产,将整个家庭乃至社会产生严重影响。目前子宫相关疾病如反复丢失妊娠、反复植入失败、子宫内膜异位症等目前大都均无有效的治疗措施,究其原因是对子宫疾病病理了解不够深入。以往病理研究往往以整个组织作为一个整体研究疾病的发病病理机制,而子宫等复杂组织往往包含多种不同细胞类型(如上皮、血管等),以往(将组织作为一个整体)的检测方法、手段和思路,将掩盖组织内部的细胞异质性信息,如普通bulk转录组检测,仅能检测到被平均化后的整个子宫样本数据,而无法检测组织内部不同类型细胞异质性的信息,从而会掩盖或遗漏潜在的疾病特征信息。
发明内容
本发明利用单细胞分析技术,分析了人子宫细胞亚群的组成及每个亚群的基因表达谱特征,进一步根据各个细胞亚群的基因表达谱特征,利用反卷积法计算出子宫组织细胞组成的分析模型,并且将这一模型用于分析人子宫疾病特异细胞亚群特征,从而发现与疾病相关的潜在靶点细胞。
本发明首先提供了一种人子宫组织细胞组成分析模型的建立方法,包括下述步骤:
S1:收集不同周期的人子宫全层组织样本,将组织裂解成单细胞后进行单细胞捕获和单细胞测序,分析人子宫单细胞转录组数据获得人子宫单细胞的特征规律;
S2:对子宫单细胞测序数据进行数据标准化,选择表达量变异较大的基因,数据归一化,进而对数据进行主成分分析(PCA),筛选具有显著意义的主成分所包含的基因,对单细胞数据进行非监督性聚类,将数据聚类成不同的亚群,寻找每个亚群的特异表达标志物,获得人子宫图谱;
S3:根据人子宫图谱每个亚群的特异表达标志物作为基因集,利用反卷积算法(ssGSEA)建立人子宫组织细胞组成分析模型。
其中,所述步骤S1中,人子宫单细胞的特征规律包括人子宫组织中细胞亚群的种类、特征和每个亚群特异表达标志物。
其中,所述步骤S2中,对子宫单细胞测序数据进行数据标准化前包括对数据进行过滤的步骤,能够去除影响数据统计准确性的低质量数据。过滤的数据包括去除细胞中基因表达counts数(nCounts)、有表达的基因的数量(nFeature)、线粒体基因所占比例(percent.mt)中过高或过低的细胞;进一步的过滤数据标准包括:去除基因表达counts数(nCounts)大于60000的细胞,有表达的基因的数量(nFeature)小于500的细胞,去除线粒体基因所占比例(percent.mt)大于20%的细胞。
其中,所述步骤S2中,所述数据标准化用全局尺度归一化法“LogNormalize”;所述表达量变异较大的基因利用Seurat R包中FindVariableFeatures函数实现;所述数据归一化利用ScaleData函数对数据进行线性转换,给予每个基因相同的权重;通过umap/tSNE降维可视化对单细胞数据进行非监督性聚类。
其中,所述步骤S2中,获得的人子宫图谱包括上皮、基质、平滑肌、内皮、免疫细胞群;
上皮细胞包括5个特征亚群:
PROLIFERATIVE_EPITHELIA,
CILIATED_EPITHELIA,
SECRETORY_EPITHELIA,
ANTIGEN_PRESENTING_EPITHELIA,
EMT_EPITHELIA;
基质细胞包括5个特征亚群:
PROLIFERATIVE_STROMA,
SFRP4_STROMAINFLAMMATORY_STROMA,
DCN_STROMA,
SECRETORY_STROMA,
INFLAMMATORY_STROMA;
平滑肌细胞包括4个特征亚群:
ADIRF_VASCULAR_MUSCLE,
INFLAMMATORY_VASCULAR_MUSCLE,
DES_VASCULAR_MUSCLE,
SECRETORY_VASCULAR_MUSCLE;
内皮细胞包括2个特征亚群:
SECRETORY_ENDOTHELIA,
INFLAMMATORY_ENDOTHELIA;
免疫细胞包括2个特征亚群:
NK,
MACROPHAGE。
进一步,所述人子宫图谱中每个特征亚群的特异表达标志物筛选标准为:与其他亚群比较,该亚群中该基因表达量logfoldchange>0.5,具体如表1所示。
其中,所述步骤S3中,所述反卷积算法包括TIMER,ssGSEA,dtangle,DC3,DeconRNASeq,quanTIseq,EPIC,CIBERSORT等,反卷积算法建立的人子宫组织细胞组成分析模型将bulk子宫样本的转录组数据依据每个亚群的特异表达标志物数据(人子宫图谱)分解成该子宫样本中每个亚群百分比或相对含量数据。具体地,反卷积算法将每个样本看作是多种细胞类型的混合,采用线性回归拟合出每种细胞类型的组分和表达量与最终混合后的关系,最终推断出每一种细胞类型分数(百分比或相对含量),一般可以使用线性最小二乘回归(TIMER),约束最小二乘回归(quanTIseq and EPIC),ν-支持向量回归(CIBERSORT)等。
本发明还提供了一种人子宫组织细胞组成分析模型,所述分析模型为子宫样本中每个亚群百分比或相对含量数据,每个亚群具有特异表达标志物。
其中,每个亚群及其特异表达标志物包含于人子宫图谱中,人子宫图谱中再上下文中均具有详细说明。
进一步,人子宫组织细胞组成分析模型中,正常人子宫内膜中细胞组成随月经周期四个时间点:增生期(Proliferative)、早期分泌期(Early_secretory)、中期分泌期(Mid_secretory)、晚期分泌期(Late_secretory),包括五种动态变化模式:
第一种模式是该细胞亚群仅在增生期(Proliferative)比例最高,随后降低,这类细胞包含:PROLIFERATIVE_STROMA,SFRP4_STROMA两种基质细胞;
第二种模式是该细胞亚群从增生期(Proliferative)到分泌早期比例最高,随后逐渐降低,这类细胞包含:PROLIFERATIVE_EPITHELIA,CILIATED_EPITHELIA,SECRETORY_EPITHELIA,ANTIGEN_PRESENTING_EPITHELIA四种上皮细胞;
第三种模式是该细胞亚群从增生期、早期分泌期再到中期分泌期比例逐渐盛高,随后在晚期分泌期逐渐下降,这类细胞包含:炎症性基质细胞
INFLAMMATORY_STROMA和一种上皮细胞EMT_EPITHELIA;
第四种模式是该细胞亚群仅在分泌末期比例才逐渐达到最高,这类细胞包含:两种血管平滑肌细胞ADIRF_VASCULAR_MUSCLE,INFLAMMATORY_VASCULAR_MUSCLE,两种血管内皮细胞SECRETORY_ENDOTHELIA,INFLAMMATORY_ENDOTHELIA,两种基质细胞DCN_STROMA,SECRETORY_STROMA,两种免疫细胞NK,MACROPHAGE,共八种细胞。
第五种模式该细胞亚群的比例在整个月经周期中几乎保持不变,这类细胞包含:两种血管平滑肌细胞DES_VASCULAR_MUSCLE,SECRETORY_VASCULAR_MUSCLE。
本发明还提供了一种人子宫图谱,人子宫图谱包括上皮、基质、平滑肌、内皮、免疫细胞群;每个细胞群包含若干特征亚群,每个特征亚群具有特异表达标志物。
其中,每个特征亚群的特异表达标志物,与其他亚群比较,该亚群中该基因表达量logfoldchange>0.5。
其中,人子宫图谱中,
上皮细胞包括5个特征亚群:
PROLIFERATIVE_EPITHELIA,
CILIATED_EPITHELIA,
SECRETORY_EPITHELIA,
ANTIGEN_PRESENTING_EPITHELIA,
EMT_EPITHELIA;
基质细胞包括5个特征亚群:
PROLIFERATIVE_STROMA,
SFRP4_STROMAINFLAMMATORY_STROMA,
DCN_STROMA,
SECRETORY_STROMA,
INFLAMMATORY_STROMA;
平滑肌细胞包括4个特征亚群:
ADIRF_VASCULAR_MUSCLE,
INFLAMMATORY_VASCULAR_MUSCLE,
DES_VASCULAR_MUSCLE,
SECRETORY_VASCULAR_MUSCLE;
内皮细胞包括2个特征亚群:
SECRETORY_ENDOTHELIA,
INFLAMMATORY_ENDOTHELIA;
免疫细胞包括2个特征亚群:
NK,
MACROPHAGE;
每个特征亚群的特异表达标志物如表1所示。
本发明还提供了一种人子宫组织细胞组成分析模型在人子宫疾病中发现疾病特异细胞亚群和疾病的靶点细胞方面的应用。
其中,所述应用包括,利用人子宫组织细胞组成分析模型,分析临床子宫疾病样本bulk转录组数据,分析比较正常子宫组织样本和/或疾病样本中细胞组成显著增加或降低的细胞亚群,获得子宫疾病特异细胞亚群,作为临床子宫疾病的潜在靶细胞。
与现有技术相比,本发明的有益效果为:
本发明基于人子宫组织单细胞测序获得人子宫单细胞图谱(包括人子宫组织中细胞亚群的种类、特征和每个亚群特异表达标志物),建立人子宫组织细胞组成分析模型,应用于临床子宫正常或疾病样本,可用以发现正常或疾病人子宫的特异细胞亚群组成,为临床子宫疾病提供潜在的细胞靶点,作为疾病分析和诊断治疗的主要依据之一。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是基于人子宫单细胞图谱亚群的特征规律,利用反卷积算法建立能够估计人子宫组织细胞组成的分析模型的建立方法及分析策略图。
图2是对人子宫单细胞测序数据进行数据过滤、标准化前的每个细胞的基因表达量counts数(nCounts)、检测表达的基因数量(nFeature)、线粒体基因所占比例(percent.mt)数据图。
图3是对人子宫单细胞测序数据进行数据过滤、标准化后的每个细胞的基因表达量counts数(nCounts)、检测表达的基因数量(nFeature)、线粒体基因所占比例(percent.mt)数据图。
图4是前20各主成分每一个主成分的变异情况(standard deviation)。
图5是通过umap降维可视化,将数据聚类成不同的亚群。
图6每个亚群的特异表达标志物热图。
图7是基于建立的人子宫组织细胞组成分析模型,预测体外人子宫内膜上皮细胞随雌激素和孕激素(E2+P4)刺激下Bulk转录组数据集(GSE136795)中子宫不同功能性上皮细胞亚群(CILIATED_EPITHELIA,SECRETORY_EPITHELIA)的变化趋势。
图8计算得到正常人子宫内膜Bulk转录组数据集(GSE4888)中人子宫各亚群细胞组成比例示意图。其中,A为模式一,B为模式二,C为模式三,D为模式四,E为模式五。
图9计算得到反复丢失妊娠病人子宫内膜数据集(GSE65099)数据集中人子宫各亚群细胞组成比例及改变示意图。
具体实施方式
为了更好的理解本发明,以下实施例是以6个正常子宫样本为例,开展基于人子宫单细胞图谱特征,建立子宫组织细胞组成分析模型,并用以人子宫疾病特异细胞亚群检测、比较分析的示例说明。
需要说明的是,实施例不能作为对本发明保护范围的限制,本领域的技术人员理解,任何在本发明基础上所作的改进和变化都在本发明的保护范围之内。
实施例1:分析人子宫单细胞测序数据,获得人子宫单细胞的特征规律(包括人子宫组织中细胞亚群的种类、特征和每个亚群特异表达标志物)
1.临床样本的收集
正常人子宫样本从浙江大学医学院附属第一医院收集,样本收集的准入标准为:因宫颈癌或子宫肌瘤行子宫全切的子宫样本;患者无激素药物用药史或激素药物缓释相关手术史;取全切子宫的正常部位的全层子宫组织。共6例样本,增生期和分泌期子宫各3例。本研究符合医学伦理标准,并通过浙江大学医学院附属第一医院医学伦理委员会的审批。
样本在手术室采集后迅速转移至低温的L-DMEM(Gbico)溶液中,并迅速运送至实验室进行单细胞分离操作。
2.单细胞悬液制备
首先将采集的样本剪成1mm3大小的组织碎块,并用10倍体积的含有0.25%ColV(Gbico)和1.2U/ml的DispaseII(Sigma)的F12/DMEM(Gbico),于37℃对组织碎块进行消化2h,待组织碎块全部消化完全后,加入含有10%胎牛血清的F12/DMEM终止消化。通过40um细胞筛过滤组织消化液,该过程可将单个细胞的基质细胞和平滑肌细胞过滤到新的离心管,成片的上子宫内膜上皮细胞则保留在细胞筛滤膜上。反冲细胞筛将成片上皮细胞收集到另外新的离心管,加入5倍体积的TripLE(Gbico)对上皮细胞进行二次消化得到单个的上皮细胞。基质细胞和平滑肌细胞、上皮细胞的细胞消化悬液混合后再经过离心(500g、10min)收集单细胞。PBS清洗2次,最后将细胞重悬与0.5mlPBS中。
3.人子宫单细胞捕获及单细胞测序数据的获取为多个商业化公司(10X genomics公司、伯乐公司等)的常规单细胞建库测序服务,本研究选用10X genomics公司的ChromiumTM Single Cell 3'Reagent Kit v2方法对人子宫单细胞进行单细胞捕获、构建测序文库,利用Illumina的X10平台进行测序。
4.人子宫单细胞数据分析
(1)数据比对与质量控制
对于从测序仪获得的数据,首先利用cellranger软件将测序获得的fastq文件完成数据比对,将数据解析为基因-细胞表达矩阵,便于数据的进一步分析及可视化。然后利用Seurat R包对人子宫单细胞测序数据进行数据过滤、标准化,去除细胞中基因表达counts数(nCounts)、有表达的基因的数量(nFeature)、线粒体基因所占比例(percent.mt)中过高或过低的细胞,过滤数据前(图2)和过滤数据后(图3)对比图,去除标准为:去除基因表达counts数(nCounts)大于60000的细胞,有表达的基因的数量(nFeature)小于500的细胞,去除线粒体基因所占比例(percent.mt)大于20%的细胞。
(2)数据标准化及数据分析
在去除低质量的数据后,下一步是数据标准化。我们使用全局尺度归一化法“LogNormalize”,该方法将每个单元格的特征表达量除以总表达量,再乘以比例因子(默认为10000),然后对结果进行log变换。接下来选择表达量变异较大的基因,利用Seurat R包中FindVariableFeatures这个函数来实现计算,筛选出差异较大的前2000个基因作为后续的分析。在主成分分析(PCA)前,先利用ScaleData这一函数对数据进行线性转换,使得所有细胞的每个基因的平均表达量为0,方差为1,这样给予每个基因相同的权重,便于比较不同组之间特定基因的表达差异。接下来进行数据的主成分分析,选择前20个主成分,研究每个主成分的的变异情况(standard deviation)(图4),筛选具有显著意义的主成分。根据主成分的变异情况,我们选择前11个主成分对单细胞数据进行非监督性聚类,并通过UMAP降维可视化,从而将数据聚类成不同的主群,包括上皮、基质、平滑肌、内皮、免疫细胞群(图5),每个群具有特异表达标志物(图6)。每个群可以再细分成多个亚群,如上皮细胞可分为5个特征亚群:PROLIFERATIVE_EPITHELIA,CILIATED_EPITHELIA,SECRETORY_EPITHELIA,ANTIGEN_PRESENTING_EPITHELIA,EMT_EPITHELIA;基质细胞可分为5个特征亚群:PROLIFERATIVE_STROMA,SFRP4_STROMAINFLAMMATORY_STROMA,DCN_STROMA,SECRETORY_STROMA,INFLAMMATORY_STROMA;平滑肌细胞可分为4个特征亚群:ADIRF_VASCULAR_MUSCLE,INFLAMMATORY_VASCULAR_MUSCLE,DES_VASCULAR_MUSCLE,SECRETORY_VASCULAR_MUSCLE;内皮细胞可分为2个特征亚群:SECRETORY_ENDOTHELIA,INFLAMMATORY_ENDOTHELIA;免疫细胞可分为2个特征亚群:NK,MACROPHAGE。(图5)。每个亚群具有其各自的特征基因的表达,我们将每个特征亚群相对于其他亚群特异高表达的基因作为该亚群的特异表达标志物(表1),特异高表达的基因的比较标准为:与其他亚群比较,该亚群中该基因表达量logfoldchange>0.5。
实施例2:根据人子宫图谱每个亚群的特异表达标志物作为基因集,利用反卷积算法ssGSEA建立人子宫组织细胞组成分析模型。
根据每一群的top特征基因作为基因集(表1),本例利用GSVA程序包中的ssGSEA算法建立人子宫组织细胞组成分析模型。GSVA即基因集变异分析,是一种非参数的无监督分析方法。GSVA程序包是一个开源的R包,它为使用R语言来评估和分析芯片转录组的基因集富集结果提供了一体化的流程。GSVA程序包作为成熟的软件包可于开放的生信分析软件资源网站Bioconductor上下载安装(下载地址:http://www.bioconductor.org/packages/ release/bioc/html/GSVA.html)。
详细步骤如下:
##第一步:载入RStudio-1.1.383程序里面的提前安装的GSVA包,
library(GSVA)
##第二步:利用read_excel函数读取人子宫图谱每个亚群的特异表达标志物作为基因集命名为gene_set,excel表格中横坐标为各细胞亚群名称,每纵列即为各个亚群对应的标志基因名。
gene_set_gmt<-read_excel("表1-每个亚群的特异表达标志物基因列表.xlsx")
##导入拟分析的bulk样本的基因表达量数据,导入的txt文件中横坐标为样本名,纵坐标为基因名,横纵坐标对应的即为基因表达量。
library(monocle)
data<-read.table(file="GSE4888_data.txt",header=T,row.names=1)
##导入拟分析的bulk样本的分组信息,分组信息分两列,第一列列名为ID,对应样本名,第二列列名为group,即为各样本所在月经周期。
sample.sheet<-read.table(file="cluster.txt",header=T,row.names=1)
##导入拟分析的bulk样本的基因名信息,基因名信息分两列,第一列列名为Gene,对应各基因名,第二列列名为gene_short_name,对应各基因名。
gene.annotation<-read.table(file="gene_annonation.txt",header=T,row.names=1)
#第三步:利用载入monocle包创建拟分析的bulk样本基因表达数据集:如正常人子宫内膜不同月经周期bulk样本数据(如:GSE4888等)
cluster<-new("AnnotatedDataFrame",data=sample.sheet)
gene.name<-new("AnnotatedDataFrame",data=gene.annotation)
GSE4888<-newCellDataSet(as.matrix(data),phenoData=cluster,featureData=gene.name,expressionFamily=negbinomial.size())
##第四步:利用人子宫图谱亚群特异标志物数据集"gene_set_gmt"和拟分析的bulk样本基因表达数据集"GSE4888",运行GSVA程序做富集分析,获得bulk数据中各细胞亚群组成比例的分析结果“result”
result<-gsva(GSE4888,gene_set,method="ssgsea")
pheatmap::pheatmap(results)
##最后:输出“result”结果到txt文件
write.table(result,file="GSE4888_menstrual_cycle_ssgsea_results.txt")
##“result”结果得到各细胞亚群比例分数,即得到人子宫组织细胞组成分析模型。该分析模型为子宫样本中每个亚群百分比或相对含量数据,且每个亚群具有相应的特异表达标志物。
实施例3:利用体外人子宫内膜上皮细胞随雌、孕激素刺激下子宫不同成熟功能性上皮细胞亚群(CILIATED_EPITHELIA,SECRETORY_EPITHELIA)的变化,来验证本发明建立的人子宫组织细胞组成分析模型的准确性:
根据获得的每一群的top特征基因作为基因集,以及基于ssGSEA算法的人子宫组织细胞组成分析模型,计算体外人子宫内膜上皮细胞随雌激素和孕激素(E2+P4)刺激下Bulk转录组数据集(GSE136795)子宫不同成熟功能性上皮细胞亚群(CILIATED_EPITHELIA,SECRETORY_EPITHELIA)的变化趋势:
结果发现:对比对照未刺激组(control),在雌激素和孕激素(E2+P4)刺激下,功能性子宫上皮细胞亚群(CILIATED_EPITHELIA,SECRETORY_EPITHELIA)数量显著增多(P<0.0001)(图7)。
为了进一步验证该预测结果和预测模型的准确性,进一步查询同一实验研究中(doi:10.1073/pnas.1915389116)体外人子宫内膜上皮细胞随雌激素和孕激素(E2+P4)刺激下的单细胞数据,发现功能性子宫上皮细胞亚群(CILIATED_EPITHELIA,SECRETORY_EPITHELIA)数量也呈现显著增多趋势,与本模型预测的趋势一致(表2)。
实施例4:利用建立的人子宫组织细胞组成分析模型分析正常人子宫内膜不同亚群随月经周期(GSE4888)动态变化规律
根据获得的每一群的top特征基因作为基因集,以及基于ssGSEA算法的人子宫组织细胞组成分析模型,计算正常人子宫内膜Bulk转录组数据集(GSE4888)中人子宫各亚群细胞组成比例:
结果发现:正常人子宫内膜中细胞组成随月经周期四个时间点:增生期(Proliferative)、早期分泌期(Early_secretory)、中期分泌期(Mid_secretory)、晚期分泌期(Late_secretory)下变化,主要可分为五种动态变化模式(图8):
第一种模式是该细胞亚群仅在增生期(Proliferative)比例最高,随后降低,这类细胞包含:PROLIFERATIVE_STROMA,SFRP4_STROMA两种基质细胞;
第二种模式是该细胞亚群从增生期(Proliferative)到分泌早期比例最高,随后逐渐降低,这类细胞包含:PROLIFERATIVE_EPITHELIA,CILIATED_EPITHELIA,SECRETORY_EPITHELIA,ANTIGEN_PRESENTING_EPITHELIA四种上皮细胞;
第三种模式是该细胞亚群从增生期、早期分泌期再到中期分泌期比例逐渐盛高,随后在晚期分泌期逐渐下降,这类细胞包含:炎症性基质细胞(INFLAMMATORY_STROMA)和一种上皮(EMT_EPITHELIA);
第四种模式是该细胞亚群仅在分泌末期比例才逐渐达到最高,这类细胞包含:两种血管平滑肌细胞(ADIRF_VASCULAR_MUSCLE,INFLAMMATORY_VASCULAR_MUSCLE),两种血管内皮细胞(SECRETORY_ENDOTHELIA,INFLAMMATORY_ENDOTHELIA),两种基质细胞(DCN_STROMA,SECRETORY_STROMA),两种免疫细胞(NK,MACROPHAGE),共八种细胞。
第五种模式该细胞亚群的比例在整个月经周期中几乎保持不变,这类细胞包含:两种血管平滑肌细胞(DES_VASCULAR_MUSCLE,SECRETORY_VASCULAR_MUSCLE)。
实施例5:利用建立的人子宫组织细胞组成分析模型分析、比较反复丢失妊娠病人(repeated pregnancy loss,RPL)子宫内膜(GSE65099)中细胞亚群比例,并分析出正常子宫组织样本和疾病样本中细胞组成显著增加或降低的细胞亚群,获得子宫疾病特异细胞亚群。
利用每一群的top特征基因作为基因集,以及基于ssGSEA算法的人子宫组织细胞组成分析模型,计算反复丢失妊娠病人(repeated pregnancy loss,RPL)子宫内膜数据集(GSE65099)中人子宫各亚群细胞组成比例及改变,获得子宫疾病特异细胞亚群:
结果发现:与正常非反复丢失妊娠人群(non-RPL)子宫内膜比较,增殖型上皮(PROLIFERATIVE_E)和增殖型基质细胞(PROLIFERATIVE_S)在反复丢失妊娠病人(RPL)子宫内膜中数量降低;而炎症性基质细胞(INFLAMMATORY_S),炎症性血管平滑肌细胞(INFLAMMATORY_V)、NK和巨噬细胞(MACROPHAGE)免疫细胞等细胞亚群在反复丢失妊娠病人(RPL)子宫内膜中数量增加(附图8),提示这些比例升高的细胞类型是反复丢失妊娠病人(RPL)的疾病特异细胞亚群和疾病的潜在靶点细胞。
表1每个亚群的特异表达标志物基因列表
Figure BDA0002509678080000101
Figure BDA0002509678080000111
Figure BDA0002509678080000121
Figure BDA0002509678080000131
Figure BDA0002509678080000141
Figure BDA0002509678080000151
Figure BDA0002509678080000161
Figure BDA0002509678080000171
Figure BDA0002509678080000181
表2体外人子宫内膜上皮细胞随雌激素和孕激素(E2+P4)刺激下的单细胞数据中(doi:10.1073/pnas.1915389116)功能性子宫上皮细胞亚群(CILIATED_EPITHELIA,SECRETORY_EPITHELIA)的数量趋势结果。
细胞种类 Control(细胞占比) E2+P4(细胞占比)
SECRETORY_EPITHELIA 5.1% 17.6%
CILIATED_EPITHELIA 2.3% 20.4%
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种人子宫组织细胞组成分析模型的建立方法,包括下述步骤:
S1:收集不同周期的人子宫全层组织样本,将组织裂解成单细胞后进行单细胞捕获和单细胞测序,分析人子宫单细胞转录组数据获得人子宫单细胞的特征规律;
S2:对子宫单细胞测序数据进行数据标准化,选择表达量变异较大的基因,数据归一化,进而对数据进行主成分分析(PCA),筛选具有显著意义的主成分所包含的基因,对单细胞数据进行非监督性聚类,将数据聚类成不同的亚群,寻找每个亚群的特异表达标志物,获得人子宫图谱;
S3:根据人子宫图谱每个亚群的特异表达标志物作为基因集,利用反卷积算法(ssGSEA)建立人子宫组织细胞组成分析模型。
2.根据权利要求1所述的人子宫组织细胞组成分析模型的建立方法,其特征在于,所述步骤S1中,人子宫单细胞的特征规律包括人子宫组织中细胞亚群的种类、特征和每个亚群特异表达标志物。
3.根据权利要求1所述的人子宫组织细胞组成分析模型的建立方法,其特征在于,所述步骤S2中,对子宫单细胞测序数据进行数据标准化前包括对数据进行过滤的步骤,能够去除影响数据统计准确性的低质量数据。过滤的数据包括去除细胞中基因表达counts数(nCounts)、有表达的基因的数量(nFeature)、线粒体基因所占比例(percent.mt)中过高或过低的细胞。
进一步的过滤数据标准包括:去除基因表达counts数(nCounts)大于60000的细胞,有表达的基因的数量(nFeature)小于500的细胞,去除线粒体基因所占比例(percent.mt)大于20%的细胞。
4.根据权利要求1所述的人子宫组织细胞组成分析模型的建立方法,其特征在于,所述步骤S2中,所述数据标准化用全局尺度归一化法“LogNormalize”;所述表达量变异较大的基因利用Seurat R包中FindVariableFeatures函数实现;所述数据归一化利用ScaleData函数对数据进行线性转换,给予每个基因相同的权重;通过umap/tSNE降维可视化对单细胞数据进行非监督性聚类。
5.根据权利要求1所述的人子宫组织细胞组成分析模型的建立方法,其特征在于,所述步骤S2中,获得的人子宫图谱包括上皮、基质、平滑肌、内皮、免疫细胞群及各自的特征亚群;
上皮细胞包括5个特征亚群:
PROLIFERATIVE_EPITHELIA,
CILIATED_EPITHELIA,
SECRETORY_EPITHELIA,
ANTIGEN_PRESENTING_EPITHELIA,
EMT_EPITHELIA;
基质细胞包括5个特征亚群:
PROLIFERATIVE_STROMA,
SFRP4_STROMAINFLAMMATORY_STROMA,
DCN_STROMA,
SECRETORY_STROMA,
INFLAMMATORY_STROMA;
平滑肌细胞包括4个特征亚群:
ADIRF_VASCULAR_MUSCLE,
INFLAMMATORY_VASCULAR_MUSCLE,
DES_VASCULAR_MUSCLE,
SECRETORY_VASCULAR_MUSCLE;
内皮细胞包括2个特征亚群:
SECRETORY_ENDOTHELIA,
INFLAMMATORY_ENDOTHELIA;
免疫细胞包括2个特征亚群:
NK,
MACROPHAGE。
进一步,所述人子宫图谱中每个特征亚群的特异表达标志物筛选标准为:与其他亚群比较,该亚群中该基因表达量logfoldchange>0.5,具体如表1所示。
6.根据权利要求1所述的人子宫组织细胞组成分析模型的建立方法,其特征在于,所述步骤S3中,所述反卷积算法包括TIMER,ssGSEA,dtangle,DC3,DeconRNASeq,quanTIseq,EPIC,CIBERSORT,反卷积算法建立的人子宫组织细胞组成分析模型将bulk子宫样本的转录组数据依据每个亚群的特异表达标志物数据分解成该子宫样本中每个亚群百分比或相对含量数据。
具体地,反卷积算法将每个样本看作是多种细胞类型的混合,采用线性回归拟合出每种细胞类型的组分和表达量与最终混合后的关系,最终推断出每一种细胞类型组成分数,一般使用线性最小二乘回归(TIMER),约束最小二乘回归(quanTIseq and EPIC),ν-支持向量回归(CIBERSORT)。
7.一种人子宫组织细胞组成分析模型,所述分析模型为子宫样本中每个亚群百分比或相对含量数据,每个亚群具有特异表达标志物。
8.根据权利要求7所述的人子宫组织细胞组成分析模型,其特征在于,每个亚群及其特异表达标志物包含于人子宫图谱中;
进一步,人子宫组织细胞组成分析模型中,正常人子宫内膜中细胞组成随月经周期四个时间点:增生期(Proliferative)、早期分泌期(Early_secretory)、中期分泌期(Mid_secretory)、晚期分泌期(Late_secretory),包括五种动态变化模式:
第一种模式是该细胞亚群仅在增生期(Proliferative)比例最高,随后降低,这类细胞包含:PROLIFERATIVE_STROMA,SFRP4_STROMA两种基质细胞;
第二种模式是该细胞亚群从增生期(Proliferative)到分泌早期比例最高,随后逐渐降低,这类细胞包含:PROLIFERATIVE_EPITHELIA,CILIATED_EPITHELIA,SECRETORY_EPITHELIA,ANTIGEN_PRESENTING_EPITHELIA四种上皮细胞;
第三种模式是该细胞亚群从增生期、早期分泌期再到中期分泌期比例逐渐盛高,随后在晚期分泌期逐渐下降,这类细胞包含:炎症性基质细胞INFLAMMATORY_STROMA和一种上皮细胞EMT_EPITHELIA;
第四种模式是该细胞亚群仅在分泌末期比例才逐渐达到最高,这类细胞包含:两种血管平滑肌细胞ADIRF_VASCULAR_MUSCLE,INFLAMMATORY_VASCULAR_MUSCLE,两种血管内皮细胞SECRETORY_ENDOTHELIA,INFLAMMATORY_ENDOTHELIA,两种基质细胞DCN_STROMA,SECRETORY_STROMA,两种免疫细胞NK,MACROPHAGE,共八种细胞。
第五种模式该细胞亚群的比例在整个月经周期中几乎保持不变,这类细胞包含:两种血管平滑肌细胞DES_VASCULAR_MUSCLE,SECRETORY_VASCULAR_MUSCLE。
9.一种人子宫图谱,包括上皮、基质、平滑肌、内皮、免疫细胞群;每个细胞群包含若干特征亚群,每个特征亚群具有特异表达标志物。
10.根据权利要求9所述的人子宫图谱,其特征在于,每个特征亚群的特异表达标志物,与其他亚群比较,该亚群中该基因表达量logfoldchange>0.5;
其中,人子宫图谱中,
上皮细胞包括5个特征亚群:
PROLIFERATIVE_EPITHELIA,
CILIATED_EPITHELIA,
SECRETORY_EPITHELIA,
ANTIGEN_PRESENTING_EPITHELIA,
EMT_EPITHELIA;
基质细胞包括5个特征亚群:
PROLIFERATIVE_STROMA,
SFRP4_STROMAINFLAMMATORY_STROMA,
DCN_STROMA,
SECRETORY_STROMA,
INFLAMMATORY_STROMA;
平滑肌细胞包括4个特征亚群:
ADIRF_VASCULAR_MUSCLE,
INFLAMMATORY_VASCULAR_MUSCLE,
DES_VASCULAR_MUSCLE,
SECRETORY_VASCULAR_MUSCLE;
内皮细胞包括2个特征亚群:
SECRETORY_ENDOTHELIA,
INFLAMMATORY_ENDOTHELIA;
免疫细胞包括2个特征亚群:
NK,
MACROPHAGE;
每个特征亚群的特异表达标志物如表1所示。
11.一种人子宫组织细胞组成分析模型在人子宫疾病中发现疾病特异细胞亚群和疾病的靶点细胞方面的应用。
12.根据权利要求11所述的应用,其特征在于,所述应用包括,利用人子宫组织细胞组成分析模型,分析临床子宫疾病样本bulk转录组数据,分析比较正常子宫组织样本和/或疾病样本中细胞组成显著增加或降低的细胞亚群,获得子宫疾病特异细胞亚群,作为临床子宫疾病的潜在靶细胞。
CN202010456839.1A 2020-05-26 2020-05-26 人子宫组织细胞组成分析模型及其建立方法和应用 Pending CN111863138A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010456839.1A CN111863138A (zh) 2020-05-26 2020-05-26 人子宫组织细胞组成分析模型及其建立方法和应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010456839.1A CN111863138A (zh) 2020-05-26 2020-05-26 人子宫组织细胞组成分析模型及其建立方法和应用

Publications (1)

Publication Number Publication Date
CN111863138A true CN111863138A (zh) 2020-10-30

Family

ID=72985673

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010456839.1A Pending CN111863138A (zh) 2020-05-26 2020-05-26 人子宫组织细胞组成分析模型及其建立方法和应用

Country Status (1)

Country Link
CN (1) CN111863138A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112599199A (zh) * 2020-12-29 2021-04-02 上海派森诺生物科技股份有限公司 一种适用于10x单细胞转录组测序数据的分析方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1526070A (zh) * 2001-05-21 2004-09-01 通过对子宫内膜的月经组织(经期组织)的测试而确定子宫内膜状况的方法
CN108064314A (zh) * 2015-01-18 2018-05-22 加利福尼亚大学董事会 判定癌症状态之方法及系统
CN109055300A (zh) * 2018-08-15 2018-12-21 山西医科大学 人子宫内膜组织来源内皮祖细胞的分离培养方法
CN110423727A (zh) * 2019-07-09 2019-11-08 厦门大学附属第一医院 永生化子宫内膜异位症在位子宫内膜间质细胞构建和鉴定

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1526070A (zh) * 2001-05-21 2004-09-01 通过对子宫内膜的月经组织(经期组织)的测试而确定子宫内膜状况的方法
CN108064314A (zh) * 2015-01-18 2018-05-22 加利福尼亚大学董事会 判定癌症状态之方法及系统
CN109055300A (zh) * 2018-08-15 2018-12-21 山西医科大学 人子宫内膜组织来源内皮祖细胞的分离培养方法
CN110423727A (zh) * 2019-07-09 2019-11-08 厦门大学附属第一医院 永生化子宫内膜异位症在位子宫内膜间质细胞构建和鉴定

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
BINGBING WU ET AL.: "Cell atlas of human uterus", 《BIORXIV》, 19 February 2018 (2018-02-19), pages 2 - 15 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112599199A (zh) * 2020-12-29 2021-04-02 上海派森诺生物科技股份有限公司 一种适用于10x单细胞转录组测序数据的分析方法

Similar Documents

Publication Publication Date Title
Ace et al. Microarray profiling of progesterone-regulated endometrial genes during the rhesus monkey secretory phase
Wang et al. Automated quantitative RNA in situ hybridization for resolution of equivocal and heterogeneous ERBB2 (HER2) status in invasive breast carcinoma
CA3152591C (en) Lung cancer biomarkers and uses thereof
Katzorke et al. Diagnosis of endometrial-factor infertility: current approaches and new avenues for research
Rockett et al. Surrogate tissue analysis: monitoring toxicant exposure and health status of inaccessible tissues through the analysis of accessible tissues and cells
CN110042156A (zh) 一种判断子宫内膜容受性的方法及其应用
Zhang et al. Network‐based proteomic analysis for postmenopausal osteoporosis in Caucasian females
EP2924126B1 (en) Method for using microRNA (miRNA) for detection of endometriosis
WO2019246160A2 (en) Methods, compositions, and kits for assessing endometrial transformation
Prašnikar et al. Molecular signature of eutopic endometrium in endometriosis based on the multi-omics integrative synthesis
Zhou et al. EBF1-correlated long non-coding RNA transcript levels in 3rd trimester maternal blood and risk of spontaneous preterm birth
CN111863138A (zh) 人子宫组织细胞组成分析模型及其建立方法和应用
Li et al. Gradient boosting machine learning model for defective endometrial receptivity prediction by macrophage-endometrium interaction modules
Critchley et al. Gene expression profiling of mid to late secretory phase endometrial biopsies from women with menstrual complaint
Vallvé-Juanico et al. External validation of putative biomarkers in eutopic endometrium of women with endometriosis using NanoString technology
CN113512588B (zh) 用于骨肉瘤分型和评估骨肉瘤预后的基因及其应用
CN115261454A (zh) 一种新的let-7d-5p和miR-140-5p的生物标志物面板诊断方法
Saare et al. OMICs studies and endometriosis biomarker identification
CA3189254A1 (en) Compositions and methods of predicting time to onset of labor
CN113755570A (zh) 用于预测不明原因复发性流产的生物标志物及应用
DuPré et al. Involvement of fine particulate matter exposure with gene expression pathways in breast tumor and adjacent-normal breast tissue
CN113881768B (zh) 用于骨肉瘤分型和评估骨肉瘤预后的基因及其应用
CN115612740A (zh) 一组用于三阴性乳腺癌免疫组化分型的基因及其应用
CN109554490A (zh) 一种与复发性流产相关的微生物及其应用
WO2023102786A1 (zh) 基因标志物在预测孕妇早产风险中的应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination