CN117219172A - 三阴性乳腺癌肿瘤细胞通路分群方法、应用及系统 - Google Patents
三阴性乳腺癌肿瘤细胞通路分群方法、应用及系统 Download PDFInfo
- Publication number
- CN117219172A CN117219172A CN202311010900.XA CN202311010900A CN117219172A CN 117219172 A CN117219172 A CN 117219172A CN 202311010900 A CN202311010900 A CN 202311010900A CN 117219172 A CN117219172 A CN 117219172A
- Authority
- CN
- China
- Prior art keywords
- breast cancer
- negative breast
- data
- target
- triple negative
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 210000004881 tumor cell Anatomy 0.000 title claims abstract description 111
- 208000003721 Triple Negative Breast Neoplasms Diseases 0.000 title claims abstract description 98
- 208000022679 triple-negative breast carcinoma Diseases 0.000 title claims abstract description 97
- 230000037361 pathway Effects 0.000 title claims abstract description 89
- 238000000034 method Methods 0.000 title claims abstract description 63
- 210000004027 cell Anatomy 0.000 claims abstract description 74
- 238000012174 single-cell RNA sequencing Methods 0.000 claims abstract description 51
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 47
- 230000014509 gene expression Effects 0.000 claims abstract description 38
- 238000011282 treatment Methods 0.000 claims abstract description 35
- 238000012545 processing Methods 0.000 claims abstract description 29
- 230000004913 activation Effects 0.000 claims abstract description 25
- 238000004393 prognosis Methods 0.000 claims abstract description 17
- 238000012937 correction Methods 0.000 claims abstract description 4
- 206010028980 Neoplasm Diseases 0.000 claims description 30
- 210000002919 epithelial cell Anatomy 0.000 claims description 28
- 238000012163 sequencing technique Methods 0.000 claims description 20
- 239000011159 matrix material Substances 0.000 claims description 15
- 238000012216 screening Methods 0.000 claims description 12
- 230000000694 effects Effects 0.000 claims description 11
- 238000003908 quality control method Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 9
- 206010006187 Breast cancer Diseases 0.000 claims description 7
- 208000026310 Breast neoplasm Diseases 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 4
- 230000001225 therapeutic effect Effects 0.000 abstract description 2
- 238000004458 analytical method Methods 0.000 description 8
- 239000000126 substance Substances 0.000 description 8
- 230000008901 benefit Effects 0.000 description 6
- 230000035945 sensitivity Effects 0.000 description 6
- 230000031018 biological processes and functions Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 229940079593 drug Drugs 0.000 description 4
- 239000003814 drug Substances 0.000 description 4
- 102000005962 receptors Human genes 0.000 description 4
- 108020003175 receptors Proteins 0.000 description 4
- 230000004083 survival effect Effects 0.000 description 4
- 210000001519 tissue Anatomy 0.000 description 4
- 201000011510 cancer Diseases 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 239000003550 marker Substances 0.000 description 3
- 238000000585 Mann–Whitney U test Methods 0.000 description 2
- 230000002146 bilateral effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 102000015694 estrogen receptors Human genes 0.000 description 2
- 108010038795 estrogen receptors Proteins 0.000 description 2
- 210000002865 immune cell Anatomy 0.000 description 2
- 208000030776 invasive breast carcinoma Diseases 0.000 description 2
- 230000037353 metabolic pathway Effects 0.000 description 2
- 238000002493 microarray Methods 0.000 description 2
- 230000003990 molecular pathway Effects 0.000 description 2
- FAQDUNYVKQKNLD-UHFFFAOYSA-N olaparib Chemical compound FC1=CC=C(CC2=C3[CH]C=CC=C3C(=O)N=N2)C=C1C(=O)N(CC1)CCN1C(=O)C1CC1 FAQDUNYVKQKNLD-UHFFFAOYSA-N 0.000 description 2
- 229960000572 olaparib Drugs 0.000 description 2
- 239000000583 progesterone congener Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000019491 signal transduction Effects 0.000 description 2
- 238000003559 RNA-seq method Methods 0.000 description 1
- 210000001744 T-lymphocyte Anatomy 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 210000003719 b-lymphocyte Anatomy 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000003766 bioinformatics method Methods 0.000 description 1
- 230000004071 biological effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000002512 chemotherapy Methods 0.000 description 1
- 210000000349 chromosome Anatomy 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000034431 double-strand break repair via homologous recombination Effects 0.000 description 1
- 238000010201 enrichment analysis Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 210000002540 macrophage Anatomy 0.000 description 1
- 230000004879 molecular function Effects 0.000 description 1
- 230000009994 neurotransmitter pathway Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000002018 overexpression Effects 0.000 description 1
- 238000010837 poor prognosis Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000528 statistical test Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000005026 transcription initiation Effects 0.000 description 1
- 230000002103 transcriptional effect Effects 0.000 description 1
- 238000011269 treatment regimen Methods 0.000 description 1
- 230000009452 underexpressoin Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种三阴性乳腺癌细胞通路分群方法、应用及系统,该方法包括:获取多个目标样本的三阴性乳腺癌scRNA‑seq数据;对三阴性乳腺癌scRNA‑seq数据进行处理,获得目标肿瘤细胞的第一数据,对第一数据进行再次处理,得到单个目标肿瘤细胞的通路校正后富集分数;根据校正后富集分数,对目标肿瘤细胞进行分群,得到目标肿瘤细胞群;鉴定各个目标肿瘤细胞群的特征激活通路。通过该方法对三阴性乳腺癌肿瘤细胞进行分群,以获得不同基因通路表达模式的细胞群,并针对各群细胞的通路特征制定治疗方案,这对临床的个性化治疗和预后预测具有重要的参考价值。还公开了对应实施该方法的系统,以及该方法在寻找临床治疗靶点以及预测预后上的应用。
Description
技术领域
本发明涉及生物医药技术领域,具体涉及一种三阴性乳腺癌细胞通路分群方法、应用及系统。
背景技术
三阴性乳腺癌(Triple Negative Breast Cancer,TNBC)是以雌激素受体,孕激素受体和人类表皮生长因子受体状态均是阴性为特征的一类乳腺癌,约占所有浸润性乳腺癌的15-20%。三阴性乳腺癌好发于年轻女性,并呈现出进展迅速、侵袭性高的临床特征;由于缺乏有效的治疗靶点,三阴性乳腺癌的治疗以系统性化疗为主,且预后差,复发率高。后续研究发现,三阴性乳腺癌是一类具有高度异质性的恶性肿瘤,肿瘤间异质性导致患者间存在生存差异、且对治疗方案的敏感性不同。因此,对三阴性乳腺癌患者进一步分群,并寻找各群的临床治疗靶点,对改善患者预后至关重要。
单细胞转录组测序(single-cell RNA-sequencing,scRNA-seq)是一项能在单细胞水平进行无偏倚、高通量、高分辨率全转录组学分析的新技术。针对肿瘤组织等异质性高的样本,传统的高通量测序技术只能提供样本中所有细胞转录水平的平均值,但scRNA-seq可以精准描绘样本中每个细胞的转录组特征。目前,单细胞转录组测序技术是探究乳腺癌异质性的主要方法,该技术可以帮助我们了解乳腺肿瘤组织中不同类型细胞的转录组特征,解析肿瘤内异质性,并寻找潜在的临床治疗靶点。
现有研究表明,不同患者的肿瘤细胞单细胞转录组差异较大,兼具肿瘤内与肿瘤间异质性。肿瘤细胞的通路分型是一种基于各细胞基因通路表达模式对细胞进行分类的方法,可以将具有相似的信号通路激活、生物学活性和治疗敏感性的肿瘤细胞分为同一群。这种方法较基于基因表达的分类方法,不仅兼顾肿瘤间异质性与肿瘤内异质性,且具有更高的生物学稳定性和更好的性能。
目前,针对乳腺癌单细胞转录组测序数据的分析,多集中于T淋巴细胞、B淋巴细胞、巨噬细胞等免疫细胞,针对肿瘤细胞的分析较少。因此,建立一种三阴性乳腺癌细胞通路分群方法,揭示三阴性乳腺癌肿瘤细胞的肿瘤内与肿瘤间异质性,鉴定出具有相似的信号通路激活和治疗敏感性的肿瘤细胞群,对研究肿瘤细胞对药物治疗敏感性、寻找治疗靶点、预测患者临床预后具有重大意义。
发明内容
本发明提供一种三阴性乳腺癌细胞通路分群方法、应用及系统,通过该方法对三阴性乳腺癌肿瘤细胞进行分群,以获得不同基因通路表达模式的细胞群,并针对各群细胞的通路特征制定治疗方案,这对临床的个性化治疗和预后预测具有重要的参考价值。
为实现上述目的,本发明采取的技术方案为:
本发明一方面提供一种三阴性乳腺癌细胞通路分群方法,包括以下步骤:
获取多个目标样本的三阴性乳腺癌scRNA-seq数据;
对所述三阴性乳腺癌scRNA-seq数据进行处理,获得目标肿瘤细胞的第一数据,对所述第一数据进行再次处理,得到单个所述目标肿瘤细胞的通路校正后富集分数;
根据所述校正后富集分数,对所述目标肿瘤细胞进行分群,得到目标肿瘤细胞群;
鉴定各个目标肿瘤细胞群的特征激活通路。
进一步地,所述获取多个目标样本的三阴性乳腺癌scRNA-seq数据,具体为:
获取多个目标样本的三阴性乳腺癌scRNA-seq数据,所述三阴性乳腺癌scRNA-seq数据为三阴性乳腺癌scRNA-seq基因表达矩阵。
进一步地,所述对所述三阴性乳腺癌scRNA-seq数据进行处理,获得目标肿瘤细胞的第一数据,对所述第一数据进行处理,得到单个所述目标肿瘤细胞的通路校正后富集分数,包括以下步骤:
对所述三阴性乳腺癌scRNA-seq基因表达矩阵进行质量控制、数据过滤、数据合并、去除批次效应后,利用Garnett算法注释上皮细胞;
通过inferCNV算法评估所述上皮细胞的拷贝数变异,以区分正常上皮细胞与目标肿瘤细胞,提取所述肿瘤上皮细胞的第一数据;所述目标肿瘤细胞为肿瘤上皮细胞,所述第一数据为scRNA-seq基因表达矩阵;
对所述第一数据进行标准化,并将所述第一数据的基因表达值转换为排序;
从参考数据库中选取通路基因集,运用单细胞曼-惠特尼-威尔克森基因集检验计算单个所述目标肿瘤细胞的各通路校正后富集分数。
进一步地,所述对所述目标肿瘤细胞进行分群,得到目标肿瘤细胞群,包括以下步骤:
对每个所述目标样本进行一致性聚类,将每个目标样本分为多个亚群;
将所述亚群合并,并计算各个所述亚群之间的杰卡德距离;
根据所述杰卡德距离再次进行一致性聚类,通过Calinsky Criteria准则确定最佳聚类数,通过轮廓聚类检验聚类效果,将所述目标肿瘤细胞进行分群,得到目标肿瘤细胞群。
进一步地,所述鉴定各个目标肿瘤细胞群的特征激活通路,具体为:
将所述目标肿瘤细胞群采用双边曼-惠特尼-威尔克森检验,筛选出各个目标肿瘤细胞群较其他群的特征激活通路。
进一步地,所述对所述三阴性乳腺癌scRNA-seq基因表达矩阵进行质量控制,具体为:
通过数据筛选标准对所述三阴性乳腺癌scRNA-seq基因表达矩阵进行筛选,所述数据筛选标准包括:
(1)所述目标样本来自未接受治疗的患者;
(2)所述目标样本为未经过细胞分选的样本;
(3)所述目标样本的测序方法为10X genomics。
进一步地,所述三阴性乳腺癌scRNA-seq数据来自MsigDB数据库的C5本体基因集;
所述目标样本均从GEO数据库中下载,所述目标样本的三阴性乳腺癌scRNA-seq基因表达矩阵均进行质量控制。
本发明的第二方面,提供一种基于三阴性乳腺癌细胞通路分群方法在寻找临床治疗靶点以及预测预后上的应用,通过上述的三阴性乳腺癌细胞通路分群方法,构建肿瘤细胞分群signature,寻找临床治疗靶点、预测预后的模型。
本发明的第三方面,提供一种进行肿瘤细胞通路分群方法的系统,用于实施上述的三阴性乳腺癌细胞通路分群方法,所述系统包括:
测序数据获取模块,获取目标样本的三阴性乳腺癌单细胞转录组测序数据;
第一处理模块,用于对所述三阴性乳腺癌单细胞转录组测序进行处理,获得目标肿瘤细胞的第一数据,对所述第一数据进行再次处理,得到单个所述目标肿瘤细胞的通路校正后富集分数;
第二处理模块,用于根据所述校正后富集分数,对所述目标肿瘤细胞进行分群,得到目标肿瘤细胞群;
通路鉴定模块,用于鉴定各个目标肿瘤细胞群的特征激活通路,寻找临床治疗靶点。
本发明的第四方面,提供一种电子设备,包括处理器和存储器,所述存储器存储有多条指令,所述处理器用于读取所述指令并执行上述的肿瘤细胞通路分群方法。
与现有技术相比,本发明的有益效果是:
1.本发明提供了一种三阴性乳腺癌细胞通路分群方法,该方法针对三阴性乳腺癌scRNA-seq数据的肿瘤上皮细胞通路富集分群并鉴定各群的特征激活通路,从分子通路的层面系统性对肿瘤上皮细胞分群并描述,并针对不同分群分类而治,为三阴性乳腺癌的精准治疗提供新方法,具有转化价值;
2.本发明提供了一种基于三阴性乳腺癌细胞通路分群方法在寻找临床治疗靶点以及预测预后上的应用,通过上述的三阴性乳腺癌细胞通路分群方法,构建肿瘤细胞分群signature,寻找临床治疗靶点、预测预后的模型,对研究肿瘤细胞对药物治疗敏感性、寻找治疗靶点、预测患者临床预后具有重大意义;
3.本发明提供了一种进行肿瘤细胞通路分群方法的系统,用于实施上述的三阴性乳腺癌细胞通路分群方法,系统包括:测序数据获取模块,获取目标样本的三阴性乳腺癌单细胞转录组测序数据;第一处理模块,用于对所述三阴性乳腺癌单细胞转录组测序进行处理,获得目标肿瘤细胞的第一数据,对所述第一数据进行再次处理,得到单个所述目标肿瘤细胞的通路校正后富集分数;第二处理模块,用于根据所述校正后富集分数,对所述目标肿瘤细胞进行分群,得到目标肿瘤细胞群;通路鉴定模块,用于鉴定各个目标肿瘤细胞群的特征激活通路,寻找临床治疗靶点。通过该系统,可以实施上述的三阴性乳腺癌细胞通路分群方法。
附图说明
图1为本发明所述的三阴性乳腺癌细胞通路分群方法的流程示意图;
图2为本发明所述的进行肿瘤细胞通路分群方法的系统原理结构图;
图3本发明基于三阴性乳腺癌scRNA-seq数据的肿瘤细胞通路分群的技术路线图;
图4为本发明一个实施例中对目标肿瘤细胞的注释与分群图,其中A图为目标肿瘤细胞注释图,B图为七群目标肿瘤细胞的通路富集情况的tSNE降维图,C图展示各群目标肿瘤细胞的特征性激活通路图,D图展示各群目标肿瘤细胞的特征激活通路的Cytoscape富集结果图;
图5为本发明一个实施例中的目标肿瘤细胞分群效果图,其中A为一致性聚类提示聚类数为7类时聚类效果好;B为轮廓系数检验提示聚类数为7类时聚类效果好;C图提示所有目标样本中各肿瘤细胞群的占比;
图6为本发明一个实施例中寻找临床靶点与预后预测图,其中A为FUSCC TNBC队列中,PC3 signature与LSTm、LOH、HRD成正相关示意图;B为I-SPY2队列中,DOP治疗臂pCR组PC3 signature显著高于non-pCR组示意图;C为METABRIC队列中C5、C7 signature高低组的RFS生存曲线图;D为FUSCC队列中C5、C7 signature高低组的RFS生存曲线图;
图7为本发明一个实施例中电子设备结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,下面所描述的实施例是本申请的一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下结合附图提供的本申请实施例的详细描述旨在仅仅表示本申请的选定实施例,并非限制本申请要求保护的范围。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的其他所有实施例,都属于本申请保护的范围。
本发明中,术语“三阴性乳腺癌(Triple Negative Breast Cancer,TNBC)”是以雌激素受体,孕激素受体和人类表皮生长因子受体状态均是阴性为特征的一类乳腺癌,约占所有浸润性乳腺癌的15-20%。
术语“单细胞转录组测序(single-cell RNA-sequencing,scRNA-seq)”是一项能在单细胞水平进行无偏倚、高通量、高分辨率全转录组学分析的新技术。
术语“富集”表示差异基因或者差异物质中注释到某个代谢通路的基因或者物质数目在所有差异基因或者物质中的比例显著大于背景基因或物质中注释到某个代谢通路的基因或物质数目在所有背景基因或者物质中的比例。
术语“富集分数(Enrichment Score,ES)”反应基因集(比如某个通路内的基因集)成员s在排序基因集L(比如根据logFC排序的差异基因集,默认降序,所以上调基因在顶端)的两端富集的程度。富集得分ES最后定义为最大的peak值。正值ES表示基因集S在基因集L的顶部富集,负值ES表示基因集S在基因集L的底部富集。所以,富集分数是动态变化的。因为每个基因集的大小不同,而富集分数又和基因集大小有关,因此需要对其进行标准化(normalization),得到校正后富集分数(Normalized Enrichment Score,NES),校正后富集分数是个常数,用来比较表达数据集在不同功能基因数据集中的富集程度。
术语“Garnett算法”是基于细胞类型特定marker基因的一种可解释、分层标记语言。Garnett成功地分类了组织和整个有机体数据集中的细胞类型,以及跨物种的细胞类型。简单地说,Garnett算法将使用标记基因定义细胞类型的标记文件作为输入,并构建一个可以包含细胞子类型的细胞类型层次结构。接下来,Garnett通过比较细胞类型代表细胞,在从树的根开始的每个节点上使用弹性网络多项式回归(elastic net multinomialregression)来训练分类器.最后,Garnett分层地对所有细胞进行分类,并可选地提供第二种扩展的以聚类结果进行分类。
术语“inferCNV算法”是由Broad机构开发的比较权威的单细胞CNV分析工具,其分析思路为:在整个基因组范围内,将每个肿瘤细胞基因表达与平均表达或“正常”参考细胞基因表达对比,通过热图的形式展示每条染色体上的基因相对表达量。可以直观看出,相对于正常细胞来讲,肿瘤细胞基因组会发生大规模的过表达或者低表达。
术语“基因表达矩阵”的行代表一个基因在不同环境条件下或不同时间点的表达,列代表不同条件或样本下(如组织、实验条件、处理因素等)所有基因的表达情况,每个格子的数据表示特定的基因在特定的样本中的表达水平。
术语“一致性聚类”是一种为确定数据集中可能的聚类的数量和成员提供定量证据的方法,例如作为微阵列基因表达。这种方法在癌症基因组学中得到了广泛应用,在那里发现了新的疾病分子亚类。一致性聚类方法包括从一组项目中进行次抽样,例如微阵列,并确定特定簇计数(k)的簇。然后,对共识值,两个项目占在同一子样本中发生的次数中有相同的聚类,计算并存储在每个k的对称一致矩阵中。
术语“杰卡德距离(Jaccard Distance)”是用来衡量两个集合差异性的一种指标,它是杰卡德相似系数的补集,被定义为1减去Jaccard相似系数。而杰卡德相似系数(Jaccard similarity coefficient),也称杰卡德指数(Jaccard Index),是用来衡量两个集合相似度的一种指标。
术语“Calinski-Harabasz准则”有时称为方差比准则(VRC),它可以用来确定聚类的最佳K值。Calinski Harabasz指数定义为:
其中,K是聚类数,N是样本数,SSB是组与组之间的平方和误差,SSw是组内平方和误差。因此,如果SSw越小、SSB越大,那么聚类效果就会越好,即Calinsky criterion值越大,聚类效果越好。
术语“轮廓”指的是一种反映数据聚类结果一致性的方法,可以用于评估聚类后簇与簇之间的离散程度。轮廓的取值范围为,如果某一样本的轮廓接近1,则说明样本聚类结果合理;如果接近-1,则说明其更应该分类到其他的簇;如果轮廓近似为0,则说明该样本在两个簇的边界上。所有样本轮廓的均值称为聚类结果的轮廓系数(SilhouetteCoefficiency),是该聚类是否合理、有效的度量。
术语“曼-惠特尼-威尔克森检验”又称Mann-Whitney U检验是一种常见的统计测试,用于比较两个样本或群体。被用于许多领域,包括经济学、生物科学和流行病学。当你评估两个独立组之间的差异时,它特别有用,每个组中的个体数量少(通常少于30个),不是正态分布,而且数据是连续的。
术语“10x Genomics”作为单细胞转录组测序技术主流平台之一,能实现大规模的单细胞转录组测序,具有细胞通量高、细胞捕获率高、项目周期短等优点,并广泛应用于细胞异质性、免疫细胞群体检测及构建细胞图谱等研究。
实施例一
参阅图1、图3,本发明提供一种三阴性乳腺癌细胞通路分群方法,本实施例采用R软件(R software,http://www.R-project.org),搭载于Ubuntu16.04LTS系统(https://ubuntu.com/16-04)进行生物信息学分析,该方法包括以下步骤:
步骤101、获取多个目标样本的三阴性乳腺癌scRNA-seq数据。
本实施例中,目标样本为从GEO数据库(https://www.ncbi.nlm.nih.gov/geo/)选取并下载的3个三阴性乳腺癌scRNA-seq队列的29名患者。
步骤102、对所述三阴性乳腺癌scRNA-seq数据进行处理,获得目标肿瘤细胞的第一数据,对所述第一数据进行再次处理,得到单个所述目标肿瘤细胞的通路校正后富集分数。
步骤103、根据所述校正后富集分数,对所述目标肿瘤细胞进行分群,得到目标肿瘤细胞群;
步骤104、鉴定各个目标肿瘤细胞群的特征激活通路。
可选的,步骤101中,获取多个目标样本的三阴性乳腺癌scRNA-seq数据,具体为:
获取多个目标样本的三阴性乳腺癌scRNA-seq数据,所述三阴性乳腺癌scRNA-seq数据为三阴性乳腺癌scRNA-seq基因表达矩阵。
可选的,步骤102中,对所述三阴性乳腺癌scRNA-seq数据进行处理,获得目标肿瘤细胞的第一数据,对所述第一数据进行处理,得到单个所述目标肿瘤细胞的通路校正后富集分数,包括以下步骤:
步骤201、对所述三阴性乳腺癌scRNA-seq基因表达矩阵进行质量控制、数据过滤、数据合并、去除批次效应后,利用Garnett算法注释上皮细胞;
步骤202、通过inferCNV算法评估所述上皮细胞的拷贝数变异,以区分正常上皮细胞与目标肿瘤细胞,提取所述肿瘤上皮细胞的第一数据;所述目标肿瘤细胞为肿瘤上皮细胞,所述第一数据为scRNA-seq基因表达矩阵;
步骤203、对所述第一数据进行标准化,并将所述第一数据的基因表达值转换为排序;
步骤204、从参考数据库中选取通路基因集,运用单细胞曼-惠特尼-威尔克森基因集检验(single cell Mann-Whitney-Wilcoxon Gene Set test,scMWW-GST)计算单个所述目标肿瘤细胞的各通路校正后富集分数。
在步骤203中,将基因表达值转换为排序一般采用GSEA排序方法,GSEA排序方法的具体实现过程如下:首先,将基因表达谱数据按照基因的表达水平进行排序,然后将基因集合按照其与特定生物过程的相关性进行排序。接着,通过计算基因集合的富集分数,来确定基因集合与特定生物过程的相关性。最后,将基因集合按照其富集分数进行排序,从而找到与特定生物过程相关的基因集合。
上述29例目标样本的scRNA-seq数据经过细胞过滤、细胞注释后,提取31789个肿瘤上皮细胞(如图4A所示)。经过筛选后,从31789个肿瘤上皮细胞中保留8799条通路,计算单个所述目标肿瘤细胞的各通路校正后富集分数(Normalized Enrichment Score,NES),构成单细胞校正后富集分数(Normalized Enrichment Score,NES)矩阵,用于后续的肿瘤上皮细胞分群。
可选的,步骤103中,对所述目标肿瘤细胞进行分群,得到目标肿瘤细胞群,包括以下步骤:
步骤301、对每个所述目标样本进行一致性聚类,将每个目标样本分为多个亚群;
步骤302、将所述亚群合并,并计算各个所述亚群之间的杰卡德距离;
步骤303、根据所述杰卡德距离再次进行一致性聚类,通过Calinsky Criteria准则确定最佳聚类数,通过轮廓聚类检验聚类效果,将所述目标肿瘤细胞进行分群,得到目标肿瘤细胞群。
可选的,步骤104中,鉴定各个目标肿瘤细胞群的特征激活通路,具体为:
将所述目标肿瘤细胞群采用双边曼-惠特尼-威尔克森检验,筛选出各个目标肿瘤细胞群较其他群的特征激活通路。
计算各肿瘤上皮细胞的8799条通路的通路校正后富集分数(NormalizedEnrichment Score,NES)后,并基于此进行聚类分群,肿瘤上皮细胞被分为7群(如图4B,图5A、5B、5C所示),命名为C1、C2、C3、C4、C5、C6、C7。然后通过曼-惠特尼-威尔克森检验鉴定各群肿瘤上皮细胞的特征激活通路(logFoldChange>0.3,qValue<0.01),7群肿瘤上皮细胞分别有172、82、1164、48、37、112、503条特征激活通路,并对各群肿瘤上皮细胞排名前100的特征激活通路进行通路富集分析,发现C1亚群神经递质相关通路激活,C3亚群转录起始、延长、终止相关通路激活(如图4C、4D所示)。
可选的,步骤201中,对所述三阴性乳腺癌scRNA-seq基因表达矩阵进行质量控制,具体为:
通过数据筛选标准对所述三阴性乳腺癌scRNA-seq基因表达矩阵进行筛选,所述数据筛选标准包括:
(1)所述目标样本来自未接受治疗的患者;
(2)所述目标样本为未经过细胞分选的样本;
(3)所述目标样本的测序方法为10X genomics。
可选的,步骤101中,所述三阴性乳腺癌scRNA-seq数据来自MsigDB数据库的C5本体基因集。本实施例选取的基因集来自MsigDB数据库(https://www.gsea-msigdb.org)的C5本体基因集,包含肿瘤相关的分子功能、细胞组分和生物过程三个部分,经过筛选后,保留8799条通路,用于后续分析。
步骤101中,所述目标样本均从GEO数据库中下载,所述目标样本的三阴性乳腺癌scRNA-seq基因表达矩阵均进行质量控制。
本实施例中的数据来源:3个三阴性乳腺癌scRNA-seq队列的29名患者,均从GEO数据库(https://www.ncbi.nlm.nih.gov/geo/)下载。数据筛选标准为:(1)样本来自未接受治疗的患者;(2)未经过细胞分选的样本;(3)测序方法为10X genomics。
本实施例中采用的三阴性乳腺癌细胞通路分群方法,该方法针对三阴性乳腺癌scRNA-seq数据的肿瘤上皮细胞通路富集分群并鉴定各群的特征激活通路,从分子通路的层面系统性对肿瘤上皮细胞分群并描述,并针对不同分群分类而治,为三阴性乳腺癌的精准治疗提供新方法,具有转化价值。
实施例二
本发明实施例提供一种基于三阴性乳腺癌细胞通路分群方法寻找临床治疗靶点、预测预后的模型,本模型采用实施例1中的基于三阴性乳腺癌细胞通路分群方法,并据此构建肿瘤细胞分群signature。
本实施例的数据来源:(1)METABRIC队列:320例TNBC患者,从cBio-Portal forCancer Genomic(https://www.cbioportal.org/)数据库下载;(2)FUSCC队列:360例TNBC患者,从The National Omics Data Encyclopedia(NODE)(http://www.biosino.org/node)数据库下载;(3)I-SPY2队列:362例TNBC患者,从GEO(http://www.ncbi.nlm.nih.gov/geo/)数据库下载。
本实施例采用R软件(R software,http://www.R-project.org),具体分析方法如下:
本实施例采取实施例1中的基于三阴性乳腺癌细胞通路分群方法,用FindMarkers算法鉴定各群差异表达基因(logFoldChange>1,p<0.01),去除各群间重复的基因后,提取各群差异最大的50个基因构建分群特异性基因集,用于计算signature。
本实施例提取各队列的RNA-seq数据,基于分群特异性基因集,运用GSVA算法计算各样本的各群signature,并分析signature与生存预后的关系;分析signature得分高的样本的多组学特征,并根据此寻找治疗靶点。
本实施例中,FUSCC队列中,C3 signature得分与LSTm、LOH、HRD成正相关,提示C3signature得分高的患者同源重组修复缺陷(如图6A所示),I-SPY2队列验证C3 signature得分高的患者更易从奥拉帕尼获益(如图6B所示)。FUSCC和METABRIC队列中,均发现C5signature得分高患者RFS更差,C7 signature得分高的患者RFS更好(如图6C、6D所示)。
综上所述,本实施例采用的基于三阴性乳腺癌细胞通路分群方法在寻找临床治疗靶点以及预测预后上的应用,通过上述的三阴性乳腺癌细胞通路分群方法,构建肿瘤细胞分群signature,寻找临床治疗靶点、预测预后的模型,对研究肿瘤细胞对药物治疗敏感性、寻找治疗靶点、预测患者临床预后具有重大意义。
实施例三
参阅图2,本实施例提供一种进行肿瘤细胞通路分群方法的系统,用于实施上述的三阴性乳腺癌细胞通路分群方法,所述系统包括:
测序数据获取模块1,获取目标样本的三阴性乳腺癌单细胞转录组测序数据;
第一处理模块2,用于对所述三阴性乳腺癌单细胞转录组测序进行处理,获得目标肿瘤细胞的第一数据,对所述第一数据进行再次处理,得到单个所述目标肿瘤细胞的通路校正后富集分数;
第二处理模块3,用于根据所述校正后富集分数,对所述目标肿瘤细胞进行分群,得到目标肿瘤细胞群;
通路鉴定模块4,用于鉴定各个目标肿瘤细胞群的特征激活通路,寻找临床治疗靶点。
参阅图7,本发明还提供一种电子设备,包括处理器5和存储器6,所述存储器6存储有多条指令,所述处理器5用于读取所述指令并执行上述的肿瘤细胞通路分群方法。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点,对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这中叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (10)
1.三阴性乳腺癌细胞通路分群方法,其特征在于,包括以下步骤:
获取多个目标样本的三阴性乳腺癌scRNA-seq数据;
对所述三阴性乳腺癌scRNA-seq数据进行处理,获得目标肿瘤细胞的第一数据,对所述第一数据进行再次处理,得到单个所述目标肿瘤细胞的通路校正后富集分数;
根据所述校正后富集分数,对所述目标肿瘤细胞进行分群,得到目标肿瘤细胞群;
鉴定各个目标肿瘤细胞群的特征激活通路。
2.根据权利要求1所述的三阴性乳腺癌细胞通路分群方法,所述获取多个目标样本的三阴性乳腺癌scRNA-seq数据,其特征在于,具体为:
获取多个目标样本的三阴性乳腺癌scRNA-seq数据,所述三阴性乳腺癌scRNA-seq数据为三阴性乳腺癌scRNA-seq基因表达矩阵。
3.根据权利要求2所述的三阴性乳腺癌细胞通路分群方法,所述对所述三阴性乳腺癌scRNA-seq数据进行处理,获得目标肿瘤细胞的第一数据,对所述第一数据进行处理,得到单个所述目标肿瘤细胞的通路校正后富集分数,其特征在于,包括以下步骤:
对所述三阴性乳腺癌scRNA-seq基因表达矩阵进行质量控制、数据过滤、数据合并、去除批次效应后,利用Garnett算法注释上皮细胞;
通过inferCNV算法评估所述上皮细胞的拷贝数变异,以区分正常上皮细胞与目标肿瘤细胞,提取所述肿瘤上皮细胞的第一数据;所述目标肿瘤细胞为肿瘤上皮细胞,所述第一数据为scRNA-seq基因表达矩阵;
对所述第一数据进行标准化,并将所述第一数据的基因表达值转换为排序;
从参考数据库中选取通路基因集,运用单细胞曼-惠特尼-威尔克森检验计算单个所述目标肿瘤细胞的各通路校正后富集分数。
4.根据权利要求1-3任一所述的三阴性乳腺癌细胞通路分群方法,所述对所述目标肿瘤细胞进行分群,得到目标肿瘤细胞群,其特征在于,包括以下步骤:
对每个所述目标样本进行一致性聚类,将每个目标样本分为多个亚群;
将所述亚群合并,并计算各个所述亚群之间的杰卡德距离;
根据所述杰卡德距离再次进行一致性聚类,通过Calinsky Criteria准则确定最佳聚类数,通过轮廓聚类检验聚类效果,将所述目标肿瘤细胞进行分群,得到目标肿瘤细胞群。
5.根据权利要求4所述的三阴性乳腺癌细胞通路分群方法,所述鉴定各个目标肿瘤细胞群的特征激活通路,其特征在于,具体为:
将所述目标肿瘤细胞群采用曼-惠特尼-威尔克森检验,筛选出各个目标肿瘤细胞群较其他群的特征激活通路。
6.根据权利要求2或3所述的三阴性乳腺癌细胞通路分群方法,所述对所述三阴性乳腺癌scRNA-seq基因表达矩阵进行质量控制,其特征在于,具体为:
通过数据筛选标准对所述三阴性乳腺癌scRNA-seq基因表达矩阵进行筛选,所述数据筛选标准包括:
(1)所述目标样本来自未接受治疗的患者;
(2)所述目标样本为未经过细胞分选的样本;
(3)所述目标样本的测序方法为10X genomics。
7.根据权利要求5所述的三阴性乳腺癌细胞通路分群方法,其特征在于:
所述三阴性乳腺癌scRNA-seq数据来自MsigDB数据库的C5本体基因集;
所述目标样本均从GEO数据库中下载,所述目标样本的三阴性乳腺癌scRNA-seq基因表达矩阵均进行质量控制。
8.一种基于三阴性乳腺癌细胞通路分群方法在寻找临床治疗靶点以及预测预后上的应用,其特征在于,通过权利要求1-7任一所述的三阴性乳腺癌细胞通路分群方法,构建肿瘤细胞分群signature,寻找临床治疗靶点、预测预后的模型。
9.一种进行肿瘤细胞通路分群方法的系统,用于实施根据权利要求1-8任一所述的三阴性乳腺癌细胞通路分群方法,其特征在于,包括:
测序数据获取模块(1),获取目标样本的三阴性乳腺癌单细胞转录组测序数据;
第一处理模块(2),用于对所述三阴性乳腺癌单细胞转录组测序进行处理,获得目标肿瘤细胞的第一数据,对所述第一数据进行再次处理,得到单个所述目标肿瘤细胞的通路校正后富集分数;
第二处理模块(3),用于根据所述校正后富集分数,对所述目标肿瘤细胞进行分群,得到目标肿瘤细胞群;
通路鉴定模块(4),用于鉴定各个目标肿瘤细胞群的特征激活通路,寻找临床治疗靶点。
10.一种电子设备,其特征在于,包括处理器(5)和存储器(6),所述存储器(6)存储有多条指令,所述处理器(5)用于读取所述指令并执行如权利要求1-8任一所述的肿瘤细胞通路分群方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311010900.XA CN117219172A (zh) | 2023-08-11 | 2023-08-11 | 三阴性乳腺癌肿瘤细胞通路分群方法、应用及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311010900.XA CN117219172A (zh) | 2023-08-11 | 2023-08-11 | 三阴性乳腺癌肿瘤细胞通路分群方法、应用及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117219172A true CN117219172A (zh) | 2023-12-12 |
Family
ID=89047043
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311010900.XA Pending CN117219172A (zh) | 2023-08-11 | 2023-08-11 | 三阴性乳腺癌肿瘤细胞通路分群方法、应用及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117219172A (zh) |
-
2023
- 2023-08-11 CN CN202311010900.XA patent/CN117219172A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yao et al. | An integrated transcriptomic and epigenomic atlas of mouse primary motor cortex cell types | |
Nayak et al. | A hitchhiker's guide to single-cell transcriptomics and data analysis pipelines | |
US9898574B2 (en) | Method for determining the presence of disease | |
CN111913999B (zh) | 基于多组学与临床数据的统计分析方法、系统和存储介质 | |
Mukhopadhyay | Large-scale mode identification and data-driven sciences | |
CN108268752B (zh) | 一种染色体异常检测装置 | |
Pham et al. | Analysis of microarray gene expression data | |
CN113903398A (zh) | 肠癌早筛标志物、检测方法、检测装置以及计算机可读取介质 | |
CN111445991A (zh) | 一种基于细胞转录组数据进行临床免疫监测的方法 | |
KR20210110241A (ko) | 인간백혈구항원 하플로타입 기반 다중 분류 인공지능 모델을 이용한 면역항암제 적응증 및 반응 예측 시스템 및 방법 | |
Wang et al. | Poisson-based self-organizing feature maps and hierarchical clustering for serial analysis of gene expression data | |
Liu et al. | Cross-generation and cross-laboratory predictions of Affymetrix microarrays by rank-based methods | |
CN117219172A (zh) | 三阴性乳腺癌肿瘤细胞通路分群方法、应用及系统 | |
CN114974432A (zh) | 一种生物标志物的筛选方法及其相关应用 | |
CN115331812A (zh) | 一种浆液性卵巢癌预后标志物模型的建立和验证方法 | |
Castellanos-Garzón et al. | A clustering-based method for gene selection to classify tissue samples in lung cancer | |
KR20240046481A (ko) | 지문 분석을 이용하여 화합물을 생리학적 조건과 연관시키는 시스템 및 방법 | |
CN113981081A (zh) | 一种基于rna编辑水平的乳腺癌分子标志物及诊断模型 | |
CN113053456A (zh) | Aml患者免疫分型系统、aml患者预后评分模型及其构建方法 | |
CN111383708A (zh) | 基于化学基因组学的小分子靶标预测算法及其应用 | |
Blazadonakis et al. | Complementary gene signature integration in multiplatform microarray experiments | |
CN118313354B (zh) | 细胞亚群自动注释方法、计算机程序和存储介质 | |
Riccadonna et al. | Supervised classification of combined copy number and gene expression data | |
Gong et al. | BDLR: lncRNA identification using ensemble learning | |
Liu et al. | CAESAR: a cross-technology and cross-resolution framework for spatial omics annotation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |