CN113628679A - 一种三阴乳腺癌预后预测装置、预测模型及其构建方法 - Google Patents

一种三阴乳腺癌预后预测装置、预测模型及其构建方法 Download PDF

Info

Publication number
CN113628679A
CN113628679A CN202110929154.9A CN202110929154A CN113628679A CN 113628679 A CN113628679 A CN 113628679A CN 202110929154 A CN202110929154 A CN 202110929154A CN 113628679 A CN113628679 A CN 113628679A
Authority
CN
China
Prior art keywords
breast cancer
negative breast
prediction model
prognosis
gene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110929154.9A
Other languages
English (en)
Inventor
贾永峰
刘霞
康畅元
施琳
云芬
梁俊青
陈永霞
安彦榕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
People's Hospital Affiliated To Inner Mongolia Medical University (tumor Hospital Of Inner Mongolia Autonomous Region)
Original Assignee
People's Hospital Affiliated To Inner Mongolia Medical University (tumor Hospital Of Inner Mongolia Autonomous Region)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by People's Hospital Affiliated To Inner Mongolia Medical University (tumor Hospital Of Inner Mongolia Autonomous Region) filed Critical People's Hospital Affiliated To Inner Mongolia Medical University (tumor Hospital Of Inner Mongolia Autonomous Region)
Priority to CN202110929154.9A priority Critical patent/CN113628679A/zh
Publication of CN113628679A publication Critical patent/CN113628679A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Public Health (AREA)
  • Biotechnology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Pathology (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种三阴乳腺癌预后预测模型构建方法,包括以下步骤:实现三阴乳腺癌样本原始基因表达数据和相应的临床生存数据的收集,并实现基因表达数据的标准化处理后,获得基因表达矩阵;获取三阴乳腺癌独立的成癌特异基因,并获取此类基因表达量;从获取的独立的成癌特异基因中筛选出构建预后预测模型的参数并获取对应的回归系数,所述参数为多个基因类型;基于筛选出的基因,根据其表达量和对应的回归系数,计算风险评分,得到三阴乳腺癌预后预测模型。本发明构建的三阴乳腺癌预后预测模型,实现了三阴乳腺癌患者预后的风险分层,显著地将高低风险的患者分开,进而可以预测三阴乳腺癌的临床结果,指导个体化治疗,具有较高的临床应用价值。

Description

一种三阴乳腺癌预后预测装置、预测模型及其构建方法
技术领域
本发明涉及医疗领域,具体涉及一种三阴乳腺癌预后预测装置、预测模型及其构建方法。
背景技术
乳腺癌具有多种生物学行为、临床病理特点和分子特征各不相同的差异。根据临床诊断标记的差异将乳腺癌分为不同的分子亚型,包括管腔A型(1uminal subtype A)、管腔B/C型(1uminal subtype B/C)、正常乳腺样型(normal breast— like subtype)、HER一2过表达型(HER一2 over— expression subtype)以及基底细胞样型(basal—likesubtypel),不同亚型乳腺癌的临床特点、治疗反应性和预后均存在明显差异。
三阴性乳腺癌(tripie—negative breast cancer,TNBC)是乳腺癌中的一种临床病理类型,表现为雌激素受体(estrogen receptor,ER)、孕激素受体(progesteronereceptor,PR)和HER2/neu均无表达或呈低表达。它与基底细胞样型呈一定的交叉关系,大约有80%~90%的三阴性乳腺癌属于基底细胞样乳腺癌,也有少数的基底细胞样乳腺癌表达激素受体。
由于此类型乳腺癌缺乏有效的内分泌治疗和抗HER2/neu靶向治疗,临床上大多采用常规治疗手段,肿瘤具有局部复发和远处转移快,病死率高,预后差,治疗效果不佳的特点。且此类型的预后与肿瘤大小记忆淋巴结状况关系不大,复发相对迅速,1-3年是复发高峰。其组织学特征为导管基底样细胞来源,肿瘤的侵袭能力强,远处转移的风险性高,内脏转移几率较骨转移高,脑转移发生率也较高,3年之内为转移高峰,之后转移风险可能会有所下降,但其预后仍较差,死亡风险较高。对于三阴乳癌的治疗来说,一般综合性治疗比较常见,即运用临床的专业治疗同时在生活中进行辅助。近年来ICB治疗有了新的发展,虽对治疗三阴乳腺癌有一定效果,但从长期角度来讲仍不乐观。三阴乳腺癌的死亡风险比其他类型的乳腺癌要高很多。
发明内容
本发明的目的在于提供一种三阴乳腺癌预后预测装置、预测模型及其构建方法,从分子病理学角度和基因组学水平实现了三阴乳腺癌患者预后的风险分层,显著地将高低风险的患者分开,进而可以预测三阴乳腺癌的临床结果,指导个体化治疗,具有较高的临床应用价值。
为实现上述目的,本发明采取的技术方案为:
一种三阴乳腺癌预后预测模型构建方法,包括以下步骤:
S1、实现三阴乳腺癌样本原始基因表达数据和相应的临床生存数据的收集,并实现基因表达数据的标准化处理后,获得基因表达矩阵;
S2、获取三阴乳腺癌独立的成癌特异基因,并获取此类基因表达量;
S3、从获取的独立的成癌特异基因中筛选出构建预后预测模型的参数并获取对应的回归系数,所述参数为多个基因类型;
S4、基于筛选出的基因,根据其表达量和对应的回归系数,计算风险评分,得到三阴乳腺癌预后预测模型。
进一步地,所述步骤S1中, 基于UCSC-TCGA数据库实现三阴乳腺癌样本原始基因表达数据和相应的临床生存数据的收集,在收集过程中需去除临床数据不完整和总生存时间小于一个月的样本数据。
进一步地,所述步骤S3具体包括如下步骤:
S31、首先筛取成癌特异基因中的蛋白通路核心基因,然后实现蛋白通路核心基因的单因素COX分析,筛选与临床预后相关的预后核心基因;
S32、以筛选所得的预后核心基作为建立三阴乳腺癌独立的临床预测模型的参数,采用LASSO回归算法并采用交叉验证法根据方差最小确定最优调整参数λ,从而确定用于构建预测模型的最优变量;所述LASSO回归算法具体为:LASSO目标函数=残差平方和+λ*系数的绝对值之和,公式表达为:
Figure 935476DEST_PATH_IMAGE001
其中,loss(w)是LASSO目标函数,yj是n*1观测向量,xji为预测变量,即预后核心基因,wi是系数;用交叉验证方法确定最优调整参数λ。
进一步地,所述的构建预后预测模型的参数包括ARL9,NCCRP1,SBSN,RERG,TPSB2,TPSAB1,C15orf59,GPR158,SRRM3,PSORS1C2,DSC2,SEPT3,PTPRN2,ALX3,KLHDC7A。
进一步地,所述三阴乳腺癌预后预测模型基于循环COX建立,具体表示为:I=∑F*C;其中,I为风险评分,F为各模型基因的相对比值,C为各模型基因对应的回归系数。
本发明还提供了一种三阴乳腺癌预后预测模型,该模型采用上述的构建方法构建而成。
本发明还提供了一种三阴乳腺癌预后预测装置,基于上述的三阴乳腺癌预后预测模型实现,包括数据收集模块、模型基因类型分析模块、参数筛选模块、预后模型构建模块以及预测输出模块;所述数据收集模块用于收集三阴乳腺癌样本原始基因表达数据和相应的临床生存数据,并对收集的数据进行预处理和标准化;所述模型基因类型分析模块用于获取肿瘤组织内模型基因并计算各模型基因的相对比值;所述参数筛选模块用于从模型基因类型中筛选出用于构建预后预测模型的参数并获取相对应的回归系数;所述预后模型构建模块用于根据被选为参数的模型基因类型的相对比值及其对应的回归系数,计算风险评分,构建三阴乳腺癌预后预测模型;所述预测输出模块用于通过最大选择等级统计确定cutoff值,将得到的风险评分与cutoff值进行比较,输出被测患者的风险值。
进一步地,所述输出被测患者的风险值具体为,小于或等于cutoff值,被测患者属于低风险,大于cutoff值,被测患者属于高风险。
本发明具有以下有益效果:
1)、本发明基于分子病理学角度和基因组学水平构建三阴乳腺癌预后预测模型,实现了三阴乳腺癌患者预后的风险分层,显著地将高低风险的患者分开,进而可以预测三阴乳腺癌的临床结果,指导个体化治疗,具有较高的临床应用价值;
2)、本发明找到与三阴乳腺癌生存相关的模型基因亚型,并建立了这些模型基因亚型和生存时间之间的预后模型;
3)、本发明建立的模型是从开源的公共数据库中下载三阴乳腺癌患者的基因表达数据和临床数据,解决了样品收集难,测序费用高,以及对病人随访的问题。
具体实施方式
为了使本发明的目的及优点更加清楚明白,以下结合实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例1
一种三阴乳腺癌预后预测模型构建方法,包括以下步骤:
S1、实现三阴乳腺癌样本原始基因表达数据和相应的临床生存数据的收集,并实现基因表达数据的标准化处理后,获得基因表达矩阵;具体的,基于UCSC-TCGA数据库实现三阴乳腺癌样本原始基因表达数据和相应的临床生存数据的收集,在收集过程中需去除临床数据不完整和总生存时间小于一个月的样本数据;
S2、获取三阴乳腺癌独立的成癌特异基因,并获取此类基因表达量;
S3、从获取的独立的成癌特异基因中筛选出构建预后预测模型的参数并获取对应的回归系数,所述参数为多个基因类型,包括ARL9,NCCRP1,SBSN,RERG,TPSB2,TPSAB1,C15orf59,GPR158,SRRM3,PSORS1C2,DSC2,SEPT3,PTPRN2,ALX3,KLHDC7A;
S31、首先筛取成癌特异基因中的蛋白通路核心基因,然后实现蛋白通路核心基因的单因素COX分析,筛选与临床预后相关的预后核心基因;S32、以筛选所得的预后核心基作为建立三阴乳腺癌独立的临床预测模型的参数,采用LASSO回归算法并采用交叉验证法根据方差最小确定最优调整参数λ,从而确定用于构建预测模型的最优变量;
所述LASSO回归算法具体为:LASSO目标函数=残差平方和+λ*系数的绝对值之和,公式表达为:
Figure 2789DEST_PATH_IMAGE002
其中,loss(w)是LASSO目标函数,yj是n*1观测向量,xji为预测变量,即预后核心基因,wi是系数;用交叉验证方法确定最优调整参数λ;
S4、基于筛选出的基因,根据其表达量和对应的回归系数,计算风险评分,得到三阴乳腺癌预后预测模型。所述三阴乳腺癌预后预测模型基于循环COX建立,具体表示为:I=∑F*C;
其中,I为风险评分,F为各模型基因的相对比值,C为各模型基因对应的回归系数。
实施例2
一种三阴乳腺癌预后预测模型,该模型采用实施例1所述的构建方法构建而成。
实施例3
一种三阴乳腺癌预后预测装置,基于实施例2所述的三阴乳腺癌预后预测模型实现,包括数据收集模块、模型基因类型分析模块、参数筛选模块、预后模型构建模块以及预测输出模块;
所述数据收集模块用于收集三阴乳腺癌样本原始基因表达数据和相应的临床生存数据,并对收集的数据进行预处理和标准化;所述模型基因类型分析模块用于获取肿瘤组织内模型基因并计算各模型基因的相对比值;所述参数筛选模块用于从模型基因类型中筛选出用于构建预后预测模型的参数并获取相对应的回归系数;所述预后模型构建模块用于根据被选为参数的模型基因类型的相对比值及其对应的回归系数,计算风险评分,构建三阴乳腺癌预后预测模型;所述预测输出模块用于通过最大选择等级统计确定cutoff值,将得到的风险评分与cutoff值进行比较,输出被测患者的风险值。
进一步地,所述输出被测患者的风险值具体为,小于或等于cutoff值,被测患者属于低风险,大于cutoff值,被测患者属于高风险。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种三阴乳腺癌预后预测模型构建方法,其特征在于:包括以下步骤:
S1、实现三阴乳腺癌样本原始基因表达数据和相应的临床生存数据的收集,并实现基因表达数据的标准化处理后,获得基因表达矩阵;
S2、获取三阴乳腺癌独立的成癌特异基因,并获取此类基因表达量;
S3、从获取的独立的成癌特异基因中筛选出构建预后预测模型的参数并获取对应的回归系数,所述参数为多个基因类型;
S4、基于筛选出的基因,根据其表达量和对应的回归系数,计算风险评分,得到三阴乳腺癌预后预测模型。
2.如权利要求1所述的一种三阴乳腺癌预后预测模型构建方法,其特征在于:所述步骤S1中, 基于UCSC-TCGA数据库实现三阴乳腺癌样本原始基因表达数据和相应的临床生存数据的收集,在收集过程中需去除临床数据不完整和总生存时间小于一个月的样本数据。
3.如权利要求1所述的一种三阴乳腺癌预后预测模型构建方法,其特征在于:所述步骤S3具体包括如下步骤:
S31、首先筛取成癌特异基因中的蛋白通路核心基因,然后实现蛋白通路核心基因的单因素COX分析,筛选与临床预后相关的预后核心基因;
S32、以筛选所得的预后核心基作为建立三阴乳腺癌独立的临床预测模型的参数,采用LASSO回归算法并采用交叉验证法根据方差最小确定最优调整参数λ,从而确定用于构建预测模型的最优变量;
所述LASSO回归算法具体为:LASSO目标函数=残差平方和+λ*系数的绝对值之和,公式表达为:
Figure 305946DEST_PATH_IMAGE001
其中,loss(w)是LASSO目标函数,yj是n*1观测向量,xji为预测变量,即预后核心基因,wi是系数;用交叉验证方法确定最优调整参数λ。
4.如权利要求1所述的一种三阴乳腺癌预后预测模型构建方法,其特征在于:所述的构建预后预测模型的参数包括ARL9,NCCRP1,SBSN,RERG,TPSB2,TPSAB1,C15orf59,GPR158,SRRM3,PSORS1C2,DSC2,SEPT3,PTPRN2,ALX3,KLHDC7A。
5.如权利要求1所述的一种三阴乳腺癌预后预测模型构建方法,其特征在于:所述三阴乳腺癌预后预测模型基于循环COX建立,具体表示为:I=∑F*C;其中,I为风险评分,F为各模型基因的相对比值,C为各模型基因对应的回归系数。
6.一种三阴乳腺癌预后预测模型,其特征在于:该模型采用如权利要求1-5任一项所述的构建方法构建而成。
7.一种三阴乳腺癌预后预测装置,其特征在于:基于权利要求6所述的三阴乳腺癌预后预测模型实现,包括数据收集模块、模型基因类型分析模块、参数筛选模块、预后模型构建模块以及预测输出模块;所述数据收集模块用于收集三阴乳腺癌样本原始基因表达数据和相应的临床生存数据,并对收集的数据进行预处理和标准化;所述模型基因类型分析模块用于获取肿瘤组织内模型基因并计算各模型基因的相对比值;所述参数筛选模块用于从模型基因类型中筛选出用于构建预后预测模型的参数并获取相对应的回归系数;所述预后模型构建模块用于根据被选为参数的模型基因类型的相对比值及其对应的回归系数,计算风险评分,构建三阴乳腺癌预后预测模型;所述预测输出模块用于通过最大选择等级统计确定cutoff值,将得到的风险评分与cutoff值进行比较,输出被测患者的风险值。
8.如权利要求7所述的一种三阴乳腺癌预后预测装置,其特征在于:所述输出被测患者的风险值具体为,小于或等于cutoff值,被测患者属于低风险,大于cutoff值,被测患者属于高风险。
CN202110929154.9A 2021-08-13 2021-08-13 一种三阴乳腺癌预后预测装置、预测模型及其构建方法 Pending CN113628679A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110929154.9A CN113628679A (zh) 2021-08-13 2021-08-13 一种三阴乳腺癌预后预测装置、预测模型及其构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110929154.9A CN113628679A (zh) 2021-08-13 2021-08-13 一种三阴乳腺癌预后预测装置、预测模型及其构建方法

Publications (1)

Publication Number Publication Date
CN113628679A true CN113628679A (zh) 2021-11-09

Family

ID=78385305

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110929154.9A Pending CN113628679A (zh) 2021-08-13 2021-08-13 一种三阴乳腺癌预后预测装置、预测模型及其构建方法

Country Status (1)

Country Link
CN (1) CN113628679A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114496066A (zh) * 2022-04-13 2022-05-13 南京墨宁医疗科技有限公司 一种三阴性乳腺癌预后的基因模型的构建方法及其应用
CN116913479A (zh) * 2023-09-13 2023-10-20 西南石油大学 一种确定实施pmrt的三阴性乳腺癌患者的方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114496066A (zh) * 2022-04-13 2022-05-13 南京墨宁医疗科技有限公司 一种三阴性乳腺癌预后的基因模型的构建方法及其应用
CN116913479A (zh) * 2023-09-13 2023-10-20 西南石油大学 一种确定实施pmrt的三阴性乳腺癌患者的方法及装置
CN116913479B (zh) * 2023-09-13 2023-12-29 西南石油大学 一种确定实施pmrt的三阴性乳腺癌患者的方法及装置

Similar Documents

Publication Publication Date Title
CN109872772B (zh) 利用权重基因共表达网络挖掘结直肠癌放疗特异性基因的方法
CN113628679A (zh) 一种三阴乳腺癌预后预测装置、预测模型及其构建方法
US20200210852A1 (en) Transcriptome deconvolution of metastatic tissue samples
DE202019005627U1 (de) Methylierungsmarker und gezielte Methylierungssondenpanels
CN112542247B (zh) 乳腺癌新辅助化疗后病理学完全缓解概率预测方法及系统
CN111028223A (zh) 一种微卫星不稳定肠癌能谱ct碘水图影像组学特征处理方法
Tomita et al. Predicting oncogene mutations of lung cancer using deep learning and histopathologic features on whole-slide images
Walsh et al. Decoding the tumor microenvironment with spatial technologies
Romero-Arias et al. Model for breast cancer diversity and spatial heterogeneity
CN113870951A (zh) 一种用于预测头颈部鳞状细胞癌免疫亚型的预测系统
Kram et al. Mapping and genome sequence analysis of chromosome 5 regions involved in bladder cancer progression
Cheng et al. Prediction of egfr mutation status in lung adenocarcinoma using multi-source feature representations
CN111583992B (zh) Rna水平融合基因突变导致肿瘤的负荷分析系统和方法
CN115762796A (zh) 目标模型的获取方法、预后评估值确定方法、装置、设备及介质
CN113192553B (zh) 基于单细胞转录组测序数据预测细胞空间关系的方法
WO2021142625A1 (zh) 基于单细胞转录组测序数据预测细胞空间关系的方法
CN112396616A (zh) 一种基于组织形态分析的骨肉瘤复发风险预测模型
US11535896B2 (en) Method for analysing cell-free nucleic acids
Nakada et al. A study of tumor heterogeneity in a case with breast cancer
CN112592978A (zh) 检测遗传标志物的物质在制备风险预警及早期诊断直肠癌试剂盒中的用途
DE112018006190T5 (de) Subtypisierung von tnbc und methoden
Karschnia et al. OS07. 6. A Extent of resection in glioblastoma: refinement and prognostic validation of a classification system from the RANO resect group
Fine et al. Integration of Biodynamic Imaging and RNA-seq classifies chemotherapy response in canine diffuse large B-cell lymphoma
CN116453594A (zh) 基因共表达状态的量化分析方法及装置、设备和介质
Zhang Bayesian Integrative Analysis Of Omics Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination