CN117373534B - 一种三阴型乳腺癌预后风险评估系统 - Google Patents

一种三阴型乳腺癌预后风险评估系统 Download PDF

Info

Publication number
CN117373534B
CN117373534B CN202311341019.8A CN202311341019A CN117373534B CN 117373534 B CN117373534 B CN 117373534B CN 202311341019 A CN202311341019 A CN 202311341019A CN 117373534 B CN117373534 B CN 117373534B
Authority
CN
China
Prior art keywords
breast cancer
negative breast
gene
triple negative
cells
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311341019.8A
Other languages
English (en)
Other versions
CN117373534A (zh
Inventor
罗曼莉
林莉莉
张文达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen Memorial Hospital Sun Yat Sen University
Original Assignee
Sun Yat Sen Memorial Hospital Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen Memorial Hospital Sun Yat Sen University filed Critical Sun Yat Sen Memorial Hospital Sun Yat Sen University
Priority to CN202311341019.8A priority Critical patent/CN117373534B/zh
Publication of CN117373534A publication Critical patent/CN117373534A/zh
Application granted granted Critical
Publication of CN117373534B publication Critical patent/CN117373534B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Genetics & Genomics (AREA)
  • Biophysics (AREA)
  • Epidemiology (AREA)
  • Biotechnology (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Primary Health Care (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了一种三阴型乳腺癌预后风险评估系统,包括:基因信息获取模块以及评估模块;基因信息获取模块用于获取待检测患者所对应的选定基因对的基因表达信息;其中,所述选定基因对包括:GPI‑SRGN、ANKRD22‑PPDPF、ANKRD37‑CORO1A、ANKRD37‑GBP4、GBP4‑NFIC以及GBP5‑NFIC;评估模块用于根据所述选定基因对的基因表达信息以及预设的预后风险模型,确定所述待检测三阴型乳腺癌患者的预后风险评估结果。通过使用所述三阴型乳腺癌预后风险评估系统,仅需要计算每一位患者样本中的6个基因对的相对表达值,且将计算所得的值代入评分公式计算得到最终评分,即可有效预测三阴型乳腺癌患者预后风险高、低,辅助临床治疗决策个性化制定。

Description

一种三阴型乳腺癌预后风险评估系统
技术领域
本发明涉及计算机领域,尤其涉及一种三阴型乳腺癌预后风险评估系统。
背景技术
目前,三阴型乳腺癌的诊疗方案以化疗联合免疫治疗为主,而传统的肿瘤分级、分期评价方法存在肿瘤异质性、显微镜下形态学表现以及医师对诊断标准、异型性判读的主观性差异的问题;除此之外,PD-L1表达量与TMB作为免疫治疗疗效指标,仍存在阈值难于确定的问题。由此,开发一项基于全面解析三阴型乳腺癌肿瘤免疫微环境、高度客观、精确和可重复的疗效预测系统,是本发明所要解决的关键技术问题。
发明内容
本发明提供了一种三阴型乳腺癌预后风险评估系统,所述系统通过输入三阴型乳腺癌患者的基因对信息,即可通过计算得到所述患者的最终评分,进而预测三阴型乳腺癌患者的预后风险高、低,有效解决了以前人工诊断所出现的主观性差异问题,有助于辅助临床治疗决策的个性化制定。
本发明一实施例提供一种三阴型乳腺癌预后风险评估系统,包括:
基因信息获取模块以及评估模块;
所述基因信息获取模块,用于获取待检测患者所对应的选定基因对的基因表达信息;其中,所述选定基因对包括:GPI-SRGN、ANKRD22-PPDPF、ANKRD37-CORO1A、ANKRD37-GBP4、GBP4-NFIC以及GBP5-NFIC;
评估模块,用于根据所述选定基因对的基因表达信息以及预设的预后风险模型,确定所述待检测三阴型乳腺癌患者的预后风险评估结果;
其中,所述预后风险模型为:预后风险评分=PGPI-SRGN*a+PANKRD22-PPDPF*b+PANKRD37-CORO1A*c+PANKRD37-GBP4*d+PGBP4-NFIC*e+PGBP5-NFIC*f;
PA-B的数值根据A-B基因对的基因表达信息确定,当A基因相较于B基因为高表达时,PA-B=1,反之PA-B=0;其中,A-B基因对包括:GPI-SRGN、ANKRD22-PPDPF、ANKRD37-CORO1A、ANKRD37-GBP4、GBP4-NFIC以及GBP5-NFIC;
所述a、b、c、d、e、f为预设常数值;
进一步地,所述的一种三阴型乳腺癌预后风险评估系统,其特征在于,还包括:
亚群识别模块、基因对生成模块以及选定基因确定模块;
所述亚群识别模块,用于提取三阴型乳腺癌患者所对应的若干细胞亚群,并从所述细胞亚群中,识别出与三阴型乳腺癌生存结局事件(即死亡事件)的负相关亚群N群和正相关亚群P群;其中,N群细胞具有三阴型乳腺癌预后良好的生物学特征,P群细胞具有三阴型乳腺癌预后不良的生物学特征;
所述基因对生成模块,用于将N群和P群细胞的特征差异基因进行单因素分析,筛选出能表征三阴型乳腺癌的特征差异基因,并根据筛选后的特征差异基因组合成若干基因对;
所述选定基因确定模块,用于通过LASSO算法从所有基因对中筛选出所述选定基因对;
进一步地,所述的一种三阴型乳腺癌预后风险评估系统,其特征在于,亚群识别模块,提取三阴型乳腺癌患者所对应的若干细胞亚群,包括:
获取三阴型乳腺癌患者的scRNA-seq数据;
根据所述scRNA-seq数据提取出若干选定单细胞;其中,所述选定单细胞为基因数量大于第一预设数值、小于第二预设数值,且线粒体基因表达占比小于预设比值的细胞;
根据不同细胞类型的基因特征,将各所述选定单细胞分为若干细胞亚群;其中,所述细胞亚群包括:内皮细胞、上皮细胞、间充质细胞、髓细胞、T细胞、B细胞、浆母细胞以及肿瘤细胞;
进一步地,所述的一种三阴型乳腺癌预后风险评估系统,其特征在于,亚群识别模块,从所述细胞亚群中识别出与三阴型乳腺癌生存结局事件(即死亡事件)负相关亚群N群和正相关亚群P群,包括:
获取三阴型乳腺癌患者的metabric队列数据,并以所述metabric队列数据为训练集,通过scissor算法从所述细胞亚群中,识别出与三阴型乳腺癌生存结局事件(即死亡事件)负相关亚群N群和正相关亚群P群;
进一步地,所述的一种三阴型乳腺癌预后风险评估系统,其特征在于,基因对生成模块,将N群和P群细胞的特征差异基因进行单因素分析,筛选出能表征三阴型乳腺癌的特征差异基因,包括:
获取TCGA-BRCA队列数据、GSE135565队列数据及GSE103091队列数据;
通过对N群和P群细胞中的特征差异基因进行K-M曲线生存分析,在metabric队列、TCGA-BRCA队列、GSE135565队列及GSE103091队列中,筛选出在至少两个队列中同时表达为保护因素或危险因素的特征差异基因;
将所筛选出的特征差异基因作为能表征三阴型乳腺癌的特征差异基因;
进一步地,所述的一种三阴型乳腺癌预后风险评估系统,其特征在于,还包括:模型构建模块;
所述模型构建模块,用于根据GPI-SRGN、ANKRD22-PPDPF、ANKRD37-CORO1A、ANKRD37-GBP4、GBP4-NFIC、GBP5-NFIC进行多因素建模,生成所述预后风险模型;进一步地,所述的一种三阴型乳腺癌预后风险评估系统,其特征在于,还包括:模型验证模块;
所述模型验证模块,用于在所述预后风险模型建立后,对三阴型乳腺癌患者的不同亚组间总生存期、无病生存期和无转移生存期进行风险预测验证;以及同时通过预设的IMvigor210队列数据和预设的PRJEB23709队列数据验证所述预后风险模型对免疫治疗的预后风险预测能力。
通过实施本发明具有如下有益效果:
本发明建立了一种三阴型乳腺癌预后风险评估系统,通过获取待检测患者所对应的选定基因对的基因表达信息,将获取到的所述选定基因对GPI-SRGN、ANKRD22-PPDPF、ANKRD37-CORO1A、ANKRD37-GBP4、GBP4-NFIC、GBP5-NFIC的基因表达信息输入指预设的预后风险模型,进而确定所述待检测患者的三阴型乳腺癌预后风险评估结果,通过计算每一个患者样本中的6个基因对的值,并将计算所得的值代入评分公式计算得到最终评分,由此,本系统评分过程仅需要知道患者6个基因对的相对表达值,即可有效的预测三阴型乳腺癌患者的预后风险高、低。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种三阴型乳腺癌预后风险评估系统的结构示意图。
图2是本发明一实施例提供的一种三阴型乳腺癌预后风险评估系统的结构示意图。
图3是本发明一实施例提供的去除细胞碎片(基因数量<200)的流程示意图。
图4是本发明一实施例提供的去除黏连细胞(基因数量>5000)的流程示意图。
图5是本发明一实施例提供的去除线粒体基因(<20%)的流程示意图。
图6是本发明一实施例提供的一种三阴型乳腺癌预后风险评估系统中细胞标志性基因点图。
图7是本发明一实施例提供的一种三阴型乳腺癌预后风险评估系统中细胞注释UMAP图。
图8是本发明一实施例提供的一种三阴型乳腺癌预后风险评估系统中肿瘤细胞(非整倍体细胞)识别UMAP图。
图9是本发明一实施例提供的一种三阴型乳腺癌预后风险评估系统中细胞亚群注释UMAP图。
图10是本发明一实施例提供的一种三阴型乳腺癌预后风险评估系统中与生存结局事件相关的细胞亚群UMAP图。
图11是本发明一实施例提供的一种三阴型乳腺癌预后风险评估系统中与生存结局事件相关的细胞亚群组成柱状图。
图12是本发明一实施例提供的一种三阴型乳腺癌预后风险评估系统中与生存结局事件相关的两组细胞群差异基因火山图。
图13是本发明一实施例提供的一种三阴型乳腺癌预后风险评估系统中P群特征差异基因通路富集条形图以及K-M曲线。
图14是本发明一实施例提供的一种三阴型乳腺癌预后风险评估系统中N群特征差异基因通路富集以及K-M曲线。
图15是本发明一实施例提供的一种三阴型乳腺癌预后风险评估系统中基因对选定、模型风险验证示意图。
图16是本发明一实施例提供的一种三阴型乳腺癌预后风险评估系统中结构示意图。
图17是本发明一实施例提供的一种三阴型乳腺癌预后风险评估系统中结构示意图。
图18是本发明一实施例提供的一种三阴型乳腺癌预后风险评估系统中模型验证示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,是本发明一实施例提供的一种三阴型乳腺癌预后风险评估系统的结构示意图,包括:基因信息获取模块以及评估模块;
所述基因信息获取模块,用于获取待检测患者所对应的选定基因对的基因表达信息;其中,所述选定基因对包括:GPI-SRGN、ANKRD22-PPDPF、ANKRD37-CORO1A、ANKRD37-GBP4、GBP4-NFIC以及GBP5-NFIC;
所述评估模块,用于根据所述选定基因对的基因表达信息以及预设的预后风险模型,确定所述待检测患者的三阴型乳腺癌预后风险评估结果;
其中,所述预后风险模型为:预后风险评分=PGPI-SRGN*a+PANKRD22-PPDPF*b+PANKRD37-CORO1A*c+PANKRD37-GBP4*d+PGBP4-NFIC*e+PGBP5-NFIC*f;
PA-B的数值根据A-B基因对的基因表达信息确定,当A基因相较于B基因为高表达时,PA-B=1,反之PA-B=0;其中,A-B基因对包括:GPI-SRGN、ANKRD22-PPDPF、ANKRD37-CORO1A、ANKRD37-GBP4、GBP4-NFIC以及GBP5-NFIC;即,所述PGPI-SRGN的数值根据GPI-SRGN基因对的基因表达信息确定,当GPI相较于SRGN为高表达时,PGPI-SRGN=1,反之PGPI-SRGN=0;
所述PANKRD22-PPDPF的数值根据ANKRD22-PPDPF基因对的基因表达信息确定,当ANKRD22相较于PPDPF为高表达时,PANKRD22-PPDPF=1,反之PANKRD22-PPDPF=0;
所述PANKRD37-CORO1A的数值根据ANKRD37-CORO1A基因对的基因表达信息确定,当ANKRD37相较于CORO1A为高表达时,PANKRD37-CORO1A=1,反之PANKRD37-CORO1A=0;
所述PANKRD37-GBP4的数值根据ANKRD37-GBP4基因对的基因表达信息确定,当ANKRD37相较于GBP4为高表达时,PANKRD37-GBP4=1,反之PANKRD37-GBP4=0;
所述PGBP4-NFIC的数值根据GBP4-NFIC基因对的基因表达信息确定,当GBP4相较于NFIC为高表达时,PGBP4-NFIC=1,反之PGBP4-NFIC=0;
所述PGBP5-NFIC的数值根据GBP5-NFIC基因对的基因表达信息确定,当GBP5相较于NFIC为高表达时,PGBP5-NFIC=1,反之PGBP5-NFIC=0;
所述a、b、c、d、e、f为预设常数值;
在一个优选地实施例中,所述a的预设常数值为-0.32420、b的预设常数值为0.26906、c的预设常数值为-0.24898、d的预设常数值为-0.13128、e的预设常数值为0.02603、f的预设常数值为0.4581;
参见图2,是本发明一实施例提供的一种三阴型乳腺癌预后风险评估系统的结构示意图。
在一个优选地实施例中,所述的三阴型乳腺癌预后风险评估系统还包括:亚群识别模块、基因对生成模块以及选定基因确定模块;
所述亚群识别模块,用于提取三阴型乳腺癌患者所对应的若干细胞亚群,并从所述细胞亚群中,识别出与三阴型乳腺癌生存相关的负相关亚群N群和正相关亚群P群;其中,N群细胞具有三阴型乳腺癌预后良好的生物学特征,P群细胞具有三阴型乳腺癌预后不良的生物学特征;
所述基因对生成模块,用于将N群和P群细胞的特征差异基因进行单因素分析,筛选出能表征三阴型乳腺癌的特征差异基因,并根据筛选后的特征差异基因组合成预后相关基因对;
所述选定基因确定模块,通过LASSO算法从预后相关基因对中筛选出所述选定基因对。
在一个优选地实施例中,所述亚群识别模块用于提取三阴型乳腺癌患者所对应的若干细胞亚群,包括:获取三阴型乳腺癌患者的scRNA-seq数据;根据所述scRNA-seq数据提取出若干选定单细胞;其中,所述选定单细胞为基因数量大于第一预设数值、小于第二预设数值,且线粒体基因表达占比小于预设比值的细胞;根据不同细胞类型的基因特征,将各所述选定单细胞分为若干细胞亚群;其中,所述细胞亚群包括:内皮细胞、上皮细胞、间充质细胞、髓细胞、T细胞、B细胞、浆母细胞以及肿瘤细胞。
示意性的,如图3所示,所述第一预设数值为200;如图4所示,所述第二预设数值为5000;如图5所示,所述预设比值为20%。
示意性的,在根据不同细胞类型的基因特征将各所述选定单细胞分为若干细胞亚群时,需要根据不同细胞的标志物进行来标注细胞类型,如图6细胞标志性基因点图与图7细胞注释UMAP图所示,B细胞的标志物为CD79A、MS4A1、CD19;内皮细胞的标志物为CDH5、PECAM1、VWF;上皮细胞的标志物为EPCAM、KRT19、KRT18;间充质细胞的标志物为DCN、LUM、PDGFRB;髓细胞的标志物为LYZ、CD68、C1QB;T细胞的标志物为CD2、CD3D、CD3E;浆母细胞的标志物为JCHAIN、IGHG4、IGHG3;根据上述不同细胞类型的不同标志物,将各所述选定单细胞分为若干细胞亚群;
此外,由于肿瘤细胞基因具有非整倍体的特征,因此需要采用copykat算法来识别出肿瘤细胞,图8为肿瘤细胞(非整倍体细胞)识别UMAP图;
具体地,提取三阴型乳腺癌患者所对应的若干细胞亚群的过程为:S1、获取10例三阴型乳腺癌患者的scRNA-seq数据;S2、需要去除所述10例三阴型乳腺癌患者的scRNA-seq数据中基因数量小于200的细胞碎片、基因数量大于5000的黏连细胞以及线粒体基因表达比例超过20%的细胞,从而获得有价值的40795个单细胞;S3、使用Seurat R软件包中的FindClusters函数确认单元簇的数量,并将分辨率设置为0.5从而获得清晰的单细胞影像;S4、通过FindMarkers功能寻找不同亚群之间的差异表达基因后,使用FindAllMarkers功能识别不同细胞类型的特定特征基因。
图9为亚群识别模块识别出共注释出的8个细胞亚群。
在一个优选地实施例中,所述亚群识别模块还用于从所述细胞亚群中识别出与三阴型乳腺癌生存结局事件(即死亡事件)负相关亚群N群和正相关亚群P群,包括:获取三阴型乳腺癌患者的metabric队列数据,并以所述metabric队列数据为训练集,通过scissor算法从所述细胞亚群中,识别出与三阴型乳腺癌生存结局事件(即死亡事件)负相关亚群N群和正相关亚群P群。
示意性的,参见图10,此图为通过所述scissor算法可从scRNA-seq数据中识别出与生存结局事件(即死亡事件)最相关的细胞亚群UMAP图;
具体地,参见图11,与生存结局事件(即死亡事件)相关的细胞亚群组成柱状图表示:与生存结局事件正相关亚群(即P群)集中在恶性肿瘤细胞、间质细胞;与生存结局事件负相关亚群(即N群)集中在髓系细胞、淋巴细胞;并通过FindMarker算法识别出P群与N群之间的特征基因,其识别结果如图12所示;
在识别出P群与N群之间的特征基因后,进一步通过ssGSEA算法评估metabric队列数据中P群与N群细胞的通路富集水平;
具体地,参见图13,发现P群细胞高表达的下调基因通路主要富集在糖代谢通路,P53通路和EMT通路等;
同样地,参见图14,发现N群细胞高表达的上调基因通路主要富集在干扰素通路,NF-KB信号通路,炎症信号通路;
最后进行K-M生存分析验证,参见图13,发现当三阴型乳腺癌患者表现出具有P群细胞生物特征时,总生存期的风险比(HR)=0.67、95%置信区间(CI)为0.49-0.92以及P=0.012,此时预后不良;参见图14,发现当三阴型乳腺癌患者表现出具有N群细胞生物特征时,总生存期的风险比(HR)=1.85、95%置信区间(CI)为1.32-2.60以及P=0.0003,此时预后良好,由此确认N群细胞具有三阴型乳腺癌预后良好的生物学特征,而P群细胞具有三阴型乳腺癌预后不良的生物学特征。
在一个优选地实施例中,所述基因对生成模块用于将N群和P群细胞的特征差异基因进行单因素分析,筛选出能表征三阴型乳腺癌的特征差异基因,包括:获取TCGA-BRCA队列数据、GSE135565队列数据及GSE103091队列数据;通过对N群和P群细胞中的特征差异基因进行K-M曲线生存分析,在metabric队列、TCGA-BRCA队列、GSE135565队列及GSE103091队列中,筛选出在至少两个队列中同时表达为保护因素或危险因素的特征差异基因;将所筛选出的特征差异基因作为能表征三阴型乳腺癌的特征差异基因。
示意性的,所述在metabric队列、TCGA-BRCA队列、GSE135565队列及GSE103091队列中筛选出能表征三阴型乳腺癌的特征差异基因的过程具体为:在所述四个队列中筛选至少在两个队列中有生存意义的特征差异基因,共筛选出57个特征差异基因;去掉两个在不同队列中存在相反生存意义的特征差异基因,由此余下55个特征差异基因。
具体地,参见图15A,是本发明一实施例提供的57个特征差异基因在metabric队列、TCGA-BRCA队列、GSE135565队列及GSE103091队列中的预测生存意义,其中图中深灰色标识为保护因素,浅灰色标识为危险因素;如15A中的基因ANKRD22所示,其在metabric队列与GSE103091队列均表示为深灰色,即,在metabric队列与GSE103091队列两个队列中均为保护因素,由此可以确认所述基因能作为能表征三阴型乳腺癌的特征差异基因;
同样地,如图15A中的基因C1orf54所示,其在metabric队列中表示为绿色、在TCGA-BRCA队列中表示为浅灰色,即,在metabric队列标识为保护因素、在TCGA-BRCA队列标识为危险因素,因此其在两个队列中存在相反生存意义,由此可以确认所述基因无法作为能表征三阴型乳腺癌的特征差异基因。
在一个优选地实施例中,将所述55个特征差异基因通过两两配对的方式构成1485个基因对;对所述1485个基因对进一步筛选,去除75%以上样本是固定值的基因对和生存无意义的基因对,筛选得到122个基因对;
参见图15B,是本发明一实施例中LASSO算法筛选最重要的基因对的流程示意图。
在一个优选地实施例中,所述选定基因确定模块通过LASSO算法从筛选所得的122个基因对中进一步筛选出所述选定基因;最后,通过采用LASSO算法进一步筛选,将最终筛选得到的GPI-SRGN、ANKRD22-PPDPF、ANKRD37-CORO1A、ANKRD37-GBP4、GBP4-NFIC、GBP5-NFIC6个基因对作为能表征三阴型乳腺癌的特征差异基因。
参见图16,是本发明一实施例提供的另一种三阴型乳腺癌预后风险评估系统的结构示意图。
在一个优选地实施例中,所述的三阴型乳腺癌预后风险评估系统,还包括:模型构建模块;所述模型构建模块用于根据GPI-SRGN、ANKRD22-PPDPF、ANKRD37-CORO1A、ANKRD37-GBP4、GBP4-NFIC、GBP5-NFIC进行多因素建模,生成所述预后风险模型;
在一个优选地实施例中,在所述多因素建模进行之前,需要对训练集中对各个基因对进行预后风险预测分析验证,如图15C所示,验证结果表明单个基因对无法独立区分三阴型乳腺癌患者的预后风险,即,P>0.05,由此采用多因素建模。
示意性的,预后风险模型生成后,需要对所述预后风险模型的总生存期预测效能进行验证:通过对所述预后风险模型与肿瘤分析(stage)、PD-L1表达量及TMB进行预后风险预测比较,从而得到ROC曲线。
参见图15D,是本申请一实施例提供的预后风险模型、肿瘤分析(stage)、PD-L1表达量及TMB的预测效能ROC曲线,由图可知,预后风险模型对TNBC患者的总生存期预测效能显著高于肿瘤分析(stage)、PD-L1表达量及TMB。
参见图17,是本发明一实施例提供的另一种三阴型乳腺癌预后风险评估系统的结构示意图。
在一个优选地实施例中,所述的一种三阴型乳腺癌预后风险评估系统,还包括:模型验证模块;所述模型验证模块用于在所述预后风险模型建立后,对三阴型乳腺癌患者的不同亚组间总生存期、无病生存期和无转移生存期进行风险预测验证;以及同时通过预设的IMvigor210队列数据和预设的PRJEB23709队列数据验证所述预后风险模型对免疫治疗的预后风险预测能力。
示意性的,需要对所建立的预后风险模型进行生存分析验证,通过对metabric队列、TCGA-BRCA队列、GSE135565队列及GSE103091队列中三阴型乳腺癌患者的总生存期、无病生存期和无转移生存期进行风险预测验证;以及,通过IMvigor210队列和PRJEB23709队列验证该风险模型对免疫治疗的预后风险进行预测能力。
具体地,参见图18A,为预后风险模型对metabric队列、TCGA-BRCA队列、GSE135565队列及GSE103091队列三阴型乳腺癌患者的总生存期、无病生存期和无转移生存期的生存分析验证汇总森林图,可以发现,预后风险模型在metabric队列、TCGA-BRCA队列、GSE135565队列及GSE103091队列中,对三阴型乳腺癌患者的总生存期、无病生存期和无转移生存期进行预后风险预测验证;由图18B总生存期的生存分析验证K-M曲线可得,总生存期的风险比(HR)=0.52、95%置信区间(CI)为0.40-0.68以及P<0.0001;由图18C无病生存期的生存分析验证K-M曲线可得,无病生存期的风险比(HR)=0.46、95%置信区间(CI)为0.33-0.66以及P<0.0001;由图18D无转移生存期的生存分析验证K-M曲线可得,无转移生存期的风险比(HR)=0.17、95%置信区间(CI)为0.08-0.37以及P=0.0060,由此,该预后风险模型能够有效的预测三阴型乳腺癌患者的预后风险。
具体地,由于目前公开数据库中并未有三阴型乳腺癌患者接受免疫治疗队列,故采用IMvigor210队列以及PRJEB23709队列代替进行验证,由图18E所示,IMvigor210队列接受免疫治疗实体瘤患者的总生存期生存分析验证K-M曲线可得,IMvigor210队列中总生存期的风险比(HR)=0.65、95%置信区间(CI)为0.49-0.86以及P=0.0021;由图18F所示,PRJEB23709队列接受免疫治疗实体瘤患者的总生存期生存分析验证K-M曲线可得,PRJEB23709队列中总生存期的风险比(HR)=0.32、95%置信区间(CI)为0.16-0.63以及P=0.0006,由此,该预后风险模型能够有效的预测接受免疫治疗的实体瘤患者的预后风险。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (6)

1.一种三阴型乳腺癌预后风险评估系统,其特征在于,包括:亚群识别模块、基因对生成模块、选定基因确定模块、基因信息获取模块以及评估模块;
所述亚群识别模块,用于提取三阴型乳腺癌患者所对应的若干细胞亚群,并从所述细胞亚群中,识别出与三阴型乳腺癌生存结局事件(即死亡事件)的负相关亚群N群和正相关亚群P群;其中,N群细胞具有三阴型乳腺癌预后良好的生物学特征,P群细胞具有三阴型乳腺癌预后不良的生物学特征;
所述基因对生成模块,用于将N群和P群细胞的特征差异基因进行单因素分析,筛选出能表征三阴型乳腺癌的特征差异基因,并根据筛选后的特征差异基因组合成若干基因对;
所述选定基因确定模块,用于通过LASSO算法从所有基因对中筛选出所述选定基因对;
所述基因信息获取模块,用于获取待检测患者所对应的选定基因对的基因表达信息;其中,所述选定基因对包括:GPI-SRGN、ANKRD22-PPDPF、ANKRD37-CORO1A、ANKRD37-GBP4、GBP4-NFIC以及GBP5-NFIC;
所述评估模块,用于根据所述选定基因对的基因表达信息以及预设的预后风险模型,确定所述待检测患者的三阴型乳腺癌预后风险评估结果;
其中,所述预后风险模型为:预后风险评分=PGPI-SRGN*a+PANKRD22-PPDPF*b+PANKRD37-CORO1A*c+PANKRD37-GBP4*d+PGBP4-NFIC*e+PGBP5-NFIC*f;
PA-B的数值根据A-B基因对的基因表达信息确定,当A基因相较于B基因为高表达时,PA-B=1,反之PA-B=0;其中,A-B基因对包括:GPI-SRGN、ANKRD22-PPDPF、ANKRD37-CORO1A、ANKRD37-GBP4、GBP4-NFIC以及GBP5-NFIC;
所述a、b、c、d、e、f为预设常数值。
2.如权利要求1所述的一种三阴型乳腺癌预后风险评估系统,其特征在于,亚群识别模块,提取三阴型乳腺癌患者所对应的若干细胞亚群,包括:
获取三阴型乳腺癌患者的scRNA-seq数据;
根据所述scRNA-seq数据提取出若干选定单细胞;其中,所述选定单细胞为基因数量大于第一预设数值、小于第二预设数值,且线粒体基因表达占比小于预设比值的细胞;
根据不同细胞类型的基因特征,将各所述选定单细胞分为若干细胞亚群;其中,所述细胞亚群包括:内皮细胞、上皮细胞、间充质细胞、髓细胞、T细胞、B细胞、浆母细胞以及肿瘤细胞。
3.如权利要求2所述的一种三阴型乳腺癌预后风险评估系统,其特征在于,亚群识别模块,从所述细胞亚群中识别出与三阴型乳腺癌生存结局事件(即死亡事件)的负相关亚群N群和正相关亚群P群,包括:
获取三阴型乳腺癌患者的metabric队列数据,并以所述metabric队列数据为训练集,通过scissor算法从所述细胞亚群中,识别出与三阴型乳腺癌生存结局事件(即死亡事件)的负相关亚群N群和正相关亚群P群。
4.如权利要求3所述的一种三阴型乳腺癌预后风险评估系统,其特征在于,基因对生成模块,将N群和P群细胞的特征差异基因进行单因素分析,筛选出能表征三阴型乳腺癌的特征差异基因,包括:
获取TCGA-BRCA队列数据、GSE135565队列数据及GSE103091队列数据;
通过对N群和P群细胞中的特征差异基因进行K-M曲线生存分析,在metabric队列、TCGA-BRCA队列、GSE135565队列及GSE103091队列中,筛选出在至少两个队列中同时表达为保护因素或危险因素的特征差异基因;
将所筛选出的特征差异基因作为能表征三阴型乳腺癌的特征差异基因。
5.如权利要求4所述的一种三阴型乳腺癌预后风险评估系统,其特征在于,还包括:模型构建模块;
所述模型构建模块,用于根据GPI-SRGN、ANKRD22-PPDPF、ANKRD37-CORO1A、ANKRD37-GBP4、GBP4-NFIC、GBP5-NFIC进行多因素建模,生成所述预后风险模型。
6.如权利要求5所述的一种三阴型乳腺癌预后风险评估系统,其特征在于,还包括:模型验证模块;
所述模型验证模块,用于在所述预后风险模型建立后,对三阴型乳腺癌患者的不同亚组间总生存期、无病生存期和无转移生存期进行风险预测验证;以及同时通过预设的IMvigor210队列数据和预设的PRJEB23709队列数据验证所述预后风险模型对免疫治疗的预后风险预测能力。
CN202311341019.8A 2023-10-17 2023-10-17 一种三阴型乳腺癌预后风险评估系统 Active CN117373534B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311341019.8A CN117373534B (zh) 2023-10-17 2023-10-17 一种三阴型乳腺癌预后风险评估系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311341019.8A CN117373534B (zh) 2023-10-17 2023-10-17 一种三阴型乳腺癌预后风险评估系统

Publications (2)

Publication Number Publication Date
CN117373534A CN117373534A (zh) 2024-01-09
CN117373534B true CN117373534B (zh) 2024-04-30

Family

ID=89405424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311341019.8A Active CN117373534B (zh) 2023-10-17 2023-10-17 一种三阴型乳腺癌预后风险评估系统

Country Status (1)

Country Link
CN (1) CN117373534B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108475300A (zh) * 2015-10-26 2018-08-31 塞弗欧米公司 利用癌症患者的基因组碱基序列突变信息和生存信息的定制型药物选择方法及系统
CN110993104A (zh) * 2019-12-03 2020-04-10 中国医科大学附属第一医院 肿瘤患者生存期预测系统
CN112735537A (zh) * 2021-03-02 2021-04-30 郑州大学 一种新的脑胶质瘤分子分型方法
CN113174439A (zh) * 2021-03-30 2021-07-27 中国医学科学院肿瘤医院 一种基于免疫基因对评分体系在预测非小细胞肺癌患者免疫治疗效果中的应用
CN114496066A (zh) * 2022-04-13 2022-05-13 南京墨宁医疗科技有限公司 一种三阴性乳腺癌预后的基因模型的构建方法及其应用
CN116013525A (zh) * 2023-01-06 2023-04-25 中国人民解放军军事科学院军事医学研究院 一种基于铁死亡特征构建的结直肠癌预后模型及其构建方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108475300A (zh) * 2015-10-26 2018-08-31 塞弗欧米公司 利用癌症患者的基因组碱基序列突变信息和生存信息的定制型药物选择方法及系统
CN110993104A (zh) * 2019-12-03 2020-04-10 中国医科大学附属第一医院 肿瘤患者生存期预测系统
CN112735537A (zh) * 2021-03-02 2021-04-30 郑州大学 一种新的脑胶质瘤分子分型方法
CN113174439A (zh) * 2021-03-30 2021-07-27 中国医学科学院肿瘤医院 一种基于免疫基因对评分体系在预测非小细胞肺癌患者免疫治疗效果中的应用
CN114496066A (zh) * 2022-04-13 2022-05-13 南京墨宁医疗科技有限公司 一种三阴性乳腺癌预后的基因模型的构建方法及其应用
CN116013525A (zh) * 2023-01-06 2023-04-25 中国人民解放军军事科学院军事医学研究院 一种基于铁死亡特征构建的结直肠癌预后模型及其构建方法

Also Published As

Publication number Publication date
CN117373534A (zh) 2024-01-09

Similar Documents

Publication Publication Date Title
JP2021118689A (ja) 疾患の不均一性を特徴づけるための転移性疾患における、循環腫瘍細胞(ctc)の単一細胞ゲノムプロファイリング
CN111128385B (zh) 一种用于食管鳞癌的预后预警系统及其应用
CN111676288B (zh) 用于预测肺腺癌患者预后的系统及其应用
CN105219844A (zh) 一种谱筛查十一种疾病的基因标志物组合、试剂盒以及疾病风险预测模型
CN113234829B (zh) 结肠癌预后评估基因集及其构建方法
CN115410713A (zh) 一种基于免疫相关基因的肝细胞癌预后风险预测模型构建
CN101194166A (zh) 有关乳癌分类的材料和方法
CN115631857A (zh) 甲状腺癌cd8+t细胞免疫相关基因预后预测模型
JP2016073287A (ja) 腫瘍特性及びマーカーセットの同定のための方法、腫瘍分類、並びに癌のマーカーセット
CN112831562A (zh) 一种用于预测肝癌患者切除术后复发风险的生物标志物组合、试剂盒
CN108603233A (zh) 转移性疾病中循环肿瘤细胞(ctc)的单细胞基因组图谱分析以表征疾病异质性
JP2020522697A (ja) 転移性疾患における、循環腫瘍細胞(ctc)の単一細胞特徴づけに基づく治療を検出する方法
CN116206681A (zh) 一种免疫浸润细胞模型的预后基因对价值评价方法
CN113584175A (zh) 一组评估肾乳头状细胞癌进展风险的分子标记及其筛选方法和应用
CN116259360B (zh) 肺腺癌中高增殖肿瘤亚群的鉴别及特征基因集与应用
CN117558345A (zh) 一种评估乳腺癌患者cd8阳性t细胞抗肿瘤免疫的多基因模型及其构建方法
CN117373534B (zh) 一种三阴型乳腺癌预后风险评估系统
Mitchell et al. Inter-platform comparability of microarrays in acute lymphoblastic leukemia
Reduzzi et al. Development of a protocol for single-cell analysis of circulating tumor cells in patients with solid tumors
Wilmott et al. Tumour procurement, DNA extraction, coverage analysis and optimisation of mutation-detection algorithms for human melanoma genomes
CN113782087B (zh) 一种慢性淋巴细胞白血病sscr风险模型及其建立方法和应用
US20170183738A1 (en) Process, Apparatus or System and Kit for Classification of Tumor Samples of Unknown and/or Uncertain Origin and Use of Genes of the Group of Biomarkers
CN113053456A (zh) Aml患者免疫分型系统、aml患者预后评分模型及其构建方法
Cao et al. Predicting tumor immune microenvironment and checkpoint therapy response of head & neck cancer patients from blood immune single-cell transcriptomics
CN116403648B (zh) 一种基于多维分析建立的小细胞肺癌免疫新分型方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant