CN114891887A - 一种三阴性乳腺癌预后基因标志物筛选的方法 - Google Patents

一种三阴性乳腺癌预后基因标志物筛选的方法 Download PDF

Info

Publication number
CN114891887A
CN114891887A CN202210521515.0A CN202210521515A CN114891887A CN 114891887 A CN114891887 A CN 114891887A CN 202210521515 A CN202210521515 A CN 202210521515A CN 114891887 A CN114891887 A CN 114891887A
Authority
CN
China
Prior art keywords
gene
prognostic
prognosis
screening
genes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210521515.0A
Other languages
English (en)
Inventor
万金平
吴晓明
胡曦
宋佳霖
张虎勤
马欣越
王溢文
陶语漳
杜建强
李梓萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202210521515.0A priority Critical patent/CN114891887A/zh
Publication of CN114891887A publication Critical patent/CN114891887A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/20Screening of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/118Prognosis of disease development
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Pathology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • General Physics & Mathematics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Organic Chemistry (AREA)
  • Public Health (AREA)
  • Wood Science & Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Zoology (AREA)
  • Biochemistry (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Immunology (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Analysis (AREA)
  • Analytical Chemistry (AREA)
  • Library & Information Science (AREA)
  • Mathematical Optimization (AREA)
  • Genetics & Genomics (AREA)
  • Operations Research (AREA)
  • Hospice & Palliative Care (AREA)
  • Primary Health Care (AREA)
  • Oncology (AREA)
  • Epidemiology (AREA)

Abstract

本发明公开了一种三阴性乳腺癌预后基因标志物筛选的方法,运用三阴性乳腺癌的基因表达数据,获取与细胞增殖标志物互作的基因,并借助单因素Cox回归来筛选预后相关基因,本发明利用最小最大凹惩罚的Cox回归方法构建预后风险评估模型,获得了能够预测和评估三阴性乳腺癌风险的预后基因标志物和预后评估方法。本发明中提出了针对高异质性疾病三阴性乳腺癌预后标志物基因识别技术,可在临床上运用推广。

Description

一种三阴性乳腺癌预后基因标志物筛选的方法
技术领域
本发明属于高通量技术和肿瘤预后风险基因标志物筛选方面的应用,本发明以筛选预后基因标志物及区分预测患者分层效果为目的,具体涉及一种三阴性乳腺癌预后基因标志物筛选的方法。
背景技术
乳腺癌是危害女性健康的恶性肿瘤之一,其新发病例和死亡率均居于前列,具有发病率高、病因不明、早期症状不明显,具有转移能力,诊断过程中存在远处转移的患者预后最差等特点,对女性的生命健康、家庭经济负担以及社会经济都产生了不良影响。乳腺癌是一种具有高度异质性的恶性疾病,它的分子分型包括:管腔A型(Luminal A)、管腔B型(Luminal B)、Her-2过表达型(Her2-overexpression)、基底样型(Basal-like,BLBC)和正常样型(Normal-like)。其中基底样型的大部分是三阴性乳腺癌(Triple-negative breastcancer,TNBC),且占据乳腺癌患者的10%-20%。三阴性乳腺癌的标志物识别在于:雌激素受体(estrogen receptor,ER)、孕激素受体(progesterone receptor,PR)以及人表皮生长因子受体-2(Human epidermal growth factor receptor-2,Her2)的缺乏。目前乳腺癌的治疗较多采用传统的保守治疗,早期乳腺癌通常会采用保乳手术和放射治疗,而晚期乳腺癌更具有侵袭性,需要诱导化疗后切除乳房,但肿瘤易发生远处转移和复发。因此对三阴性乳腺癌的内部分子机制的研究显得及其有意义,准确鉴别出三阴性乳腺癌的亚型对进一步了解三阴性乳腺癌的生物特征、临床表现和个性化治疗来说都具有十分重要的研究价值和应用前景。
KI67是用于评估肿瘤增殖情况的分子标志物,与细胞周期进程密切相关:在有丝分裂的S期、G2期和M期在细胞中累积,同时乳腺癌划分亚型也使用到了KI67指标,表明细胞增殖指标作为预后和预测标志物的重要性。由于阳性KI67的评估根据经验丰富的临床专家评估并给定相应百分比,但经验评估依旧存在一定偏差,使用表达KI67的基因MKI67构建分子分型指标并筛选预后基因标志物,通过表征细胞扩增能力的基因对疾病进行分型。在临床中,患者的分层及标志物筛选有利于进一步了解疾病、探索对患者“分类而治,精准治疗”的方案。
互作数据库(Biological General Repository for Interactionh Datasets,BioGRID:https://thebiogrid.org)主要记录整理了蛋白、遗传和化学互作的数据,其中存储了大量可靠的已知相互作用,可用于构建复杂网络,协助医学工作者研究人类健康和疾病,数据库中包含的所有内容都有生物医学文献的实验证据支持。本发明筛选与细胞增殖标志物互作的基因就来源于此公开数据库。
随着高通量基因组测序技术的快速发展,测序成本下降的同时,测序深度和测序质量也在不断提升,全基因组测序为从遗传信息角度挖掘疾病的发生发展机制提供了有效信息。借助生物信息手段将大数据蕴含的生物密码进行解析并转换成可靠的具有临床指导价值的成果,生物信息数据的挖掘和应用对疾病的治疗有突出作用。
Cox回归模型主要用于肿瘤及慢性疾病的预后分析,可用于连续的独立因素对生存时间及状态的影响。对多个因素逐一进行单因素Cox回归分析的目的在于筛选与目的变量相关的变量因素子集,在筛选过程中单因素Cox回归能分析带有截尾生存时间的资料,并且生存资料不受估计资料的生存分布类型控制,基于以上特征,Cox回归模型被大量运用在医学分析领域。
特征选择被用于评估出输入变量与目标变量之间的关联,用于筛选变量进而选择出预测变量最相关的子集。LASSO回归被视为最常用的去除变量之间的多重共线性问题的变量选择方法,其将模型中绝对值较小的系数压缩为0,从而达到参数评估和变量选择的目的,但缺陷在于在压缩过程中绝对值较大的系数也会被压缩从而使模型出现偏差。光滑切片绝对偏差惩罚SCAD函数出现解决了这一问题,后来通过了MM算法解决了变量筛选出模型后不能进入的问题。最小最大凹惩罚模型即MCP,该模型则是在SCAD的基础之上简化模型但保留了其特性对变量进行筛选。
发明内容
针对上述研究现状,本发明的目的在于提供用于具有异质性的疾病的分类方法和治疗标志物,用于在异质性较高的三阴性乳腺癌患者中进行预后分层和预后基因标志物筛选,解决由于靶标不明确而难于治疗的难题,划分亚组和精准靶标以提高治疗有效性,亦可减少过度治疗。
本发明提供一种三阴性乳腺癌预后基因标志物筛选的方法,具体包括以下步骤:
步骤一,从样本的测序数据中计算得出目标样本的所有基因表达量,过滤表达量低的基因,同一基因名称各个不同转录本表达量相加,来表示该基因的表达量。
步骤二,获取与细胞增殖标志物MKI67基因相互作用的基因,并通过单因素Cox回归方法筛选出可能与生存预后相关的基因作为目标基因集,所述与增殖标志物相互作用基因来自在生物数据库BioGRID。
步骤三,为进一步筛选出预后相关的更加核心的基因组,对步骤二获取的目标基因集使用基于MCP的Cox回归模型,同时也从中获得预后基因标志物相对应的风险系数,通过预后基因标志物表达量数据及预后基因标志物的系数共同构建预后风险评估公式。
利用预后风险评估公式计算患者预后风险得分,根据预后风险得分将患者分为预后低风险组和预后高风险组,生存分析验证筛选预后基因标志物的有效性。
优选地,步骤一所述的计算基因表达量首先利用BWA将RNA-seq数据比对到人类参考基因组上,sambamba用于过滤重复、未比对以及多重比对的片段,接着featurecounts工具被用于转录组的定量,GenomicFeatures包中的exonsBy函数计算基因长度后得到基因的FPKM值,以其表示各个基因的表达水平。
优选地,步骤二所述的单因素Cox回归筛选可能与生存预后相关的基因中,获取每个目标样本的生存资料,所述生存资料包括:每个样本对应的生存时间与生存状态,回归分析的P值计算方法选择likelihood-p筛选,阈值设置为P<0.05。
优选地,步骤三所述的为进一步筛选特征出对预后有影响的基因并获得每个基因在预后中贡献的权重,最小最大凹惩罚使用ncvreg包中的cv.ncvsurv函数进行系数的压缩,参数选择MCP惩罚。
优选地,步骤四所述的计算各样本风险得分并为患者划分预后风险组,计算得到的惩罚系数与每个样本的对应基因表达量的乘积加和构建预后风险评估公式,利用survival包中的surv_cutpoint函数获得最佳截断值,最佳截断值对样本进行分层,其中预后风险得分≤最佳截断值的样本被划分为预后低风险组,预后风险得分>最佳截断值的样本被划分为预后高风险组,survival包中的survfit函数和ggsurvplot函数比较两组之间的生存状态差异,所得P值<0.05为两组之间存在显著差异。
本发明具备以下效果:
本发明利用三阴性乳腺癌的转录组测序数据识别出对三阴性乳腺癌的细胞增殖以及预后有关的标志物,并利用标志物进行预后分层,通过生存分析验证预后分层的有效性;本发明提出了创新点,即研究同时具备与细胞增殖标志物互作与预后相关两个条件的基因,在确定为三阴性乳腺癌预后标志物后用于对病患分层,提出的分层指标进一步丰富了临床上用于分类而治的新思路;同时,由于筛选出用于构建预后风险评估公式的基因数目相对较少,因此降低了检测阶段的花费,可在临床运用上进一步推广,同时也成为在临床上对预后低风险组和高风险组提出针对性治疗的辅助手段;最终识别的预后基因标志物是与细胞增殖能力相关的基因,能够辅助研发人员针对这些基因开发出控制癌细胞增殖的新药物对TNBC患者进行治疗,同时也能够将该方法拓展到其它恶性肿瘤的研究中,为恶性肿瘤的药物研发提供新的方向。
附图说明
图1为三阴性乳腺癌预后基因标志物筛选方法的流程示意图;
图2为三阴性乳腺癌预后基因标志物筛选及预后分层的具体实施流程示意图;
图3为MCP构建预后风险评估公式执行交叉验证;
图4为预后分层各层次样本密度分布图及最佳截断值的选择统计图;
图5为预后高风险组和预后低风险组Kaplan-Meier生存分析图。
具体实施方式
为了解决恶性肿瘤在治疗过程中由于病患群体间存在异质性和靶标不精准而使得治疗效果不佳的问题,希望对患者进行预后评估和分层并探寻出每个层次的特征,分类而治和精准治疗的思想化解了传统的群体治疗方式致使预后差的技术难题。本发明实施例提供了一种三阴性乳腺癌预后基因标志物的筛选和疾病分层的方法,所述方法包括:筛选出对三阴性乳腺癌预后以及细胞增殖能力相关的基因集;根据筛选出的目标基因集构建的预后风险评估公式并获取每个病患的预后风险得分,预后风险得分用于对三阴性乳腺癌患者分层,分为预后高风险组和预后低风险组。整体方案的具体流程示意图如图1所示。
通过附图对本发明的技术方案做进一步的详细说明:
图1是三阴性乳腺癌预后基因标志物筛选方法的流程示意图,主要包括基因表达量的获取、细胞扩增标志物互作基因的获得、预后基因标志物的筛选、通过基于MCP的Cox回归模型构建预后风险评估公式并计算预后风险得分及患者的预后分层。
图2是利用三阴性乳腺癌的测序数据进行预后分层和预后标志物筛选实施过程中的细节展现,包含从测序数据中计算基因表达量、获取细胞扩增标志物互作基因、筛选细胞扩增标志物互作基因中具有预后作用的基因、预后分层及验证分类公式有效性五个过程。
图3是交叉验证获得构建预后风险评估模型的变量数目及对应模型,横轴为每个预后风险评估模型纳入的变量数目及λ值,纵轴为交叉验证的错误率,错误率最小的模型是最优构建预后风险得分公式的预后风险评估模型。
图4是根据预后风险得分的分布示意和最佳截断值的计算过程,其中上图的横坐标表示连续变量预后风险得分,纵坐标代表样本的密度分布,最佳截断值对样本进行划分,得到落在每个预后风险分数区间内的样本密度分布情况,其中也展示了预后分层的两个组中样本量差异;下图的横坐标依旧是预后风险得分,纵坐标为计算的标准化统计值,该算法是将每个预后风险分数分别设置为阈值划分组别,并通过划分的两个组计算出一个标准化统计量,统计量代表着两组间的差异情况,最终得到每个预后风险分数作为阈值划分组后计算的对应标准化统计量,其中最大的统计量则作为最佳截断值,由此获得样本划分类别的数值。
图5是根据预后风险得分对患者预后分层的Kaplan-Meier生存分析曲线,横坐标为生存时间,纵坐标为生存概率。曲线中下降缓慢的一组为生存期较长生存率较高的一组,说明该组预后风险较低;曲线下降程度较大的一组为生存期短生存率低的一组,说明该组预后风险高。
本实施例提供一种三阴性乳腺癌预后基因标志物筛选的方法的运用,最终获取了构建TNBC预后风险评估公式的预后基因标志物,分别为ATRIP、KNOP1、LDHA、METTL13、PAPD5、PAXBP1、PTCD3、U2AF2八个基因。本实施例在整体流程的框架下展开,具体细节如图2所示,主要方法包括:
1、计算基因表达量
本步骤中,在筛选构建预后风险评估公式所需基因前,首先需要计算出患者群体的各个基因表达量数据信息,具体计算方法如下:
利用序列比对BWA(Burrows-Wheeler Aligner)的MEM算法将获取的所有三阴性乳腺癌样本的全转录组测序序列比对到人类的参考基因组上,接着利用samtools工具完成SAM格式到BAM格式的转换。其中样本的RNA-seq序列数据下载于NCBI(https://www.ncbi.nlm.nih.gov/sra),数据集中包括504名2007年7月-2014年12月在复旦大学附属上海癌症中心(Fudan University Shanghai Cancer Center,FUSCC)接受乳腺外科治疗的TNBC病患,样本由原发性肿瘤组织和血液样本组成,除了测序数据之外,含有临床信息的数据也被下载,临床随访数据涉及352个与全转录组测序数据相匹配的斌人信息,包括:无复发生存时间、无复发生存状态、肿瘤大小、手术治疗方式及阳性淋巴结数目等重要的有效统计数据。同时用于比对的人类参考基因组序列的FASTA文件以及人类基因组注释GTF文件也来自于NCBI,选用hg38参考基因组。
在比对到参考基因组上之后,对未比对序列、多重比对序列以及重复序列需进行过滤,这里使用sambamba达到这一目的。接下来使用featurecount工具计算比对到对应的每个基因上的fragments数目,其中featurecount计算程序来源于subread程序包。
最后对得到的fragments计数数据进行FPKM归一化处理以得到每个病人样本的所有测序覆盖到的基因的定量数据,具体计算过程如下:
根据注释文件利用编程语言R中的GenomicFeatures包中的exonsBy函数计算每个基因上的所有外显子的起始位点和终止位点,以此得到所有外显子长度的。
最后根据FPKM的计算公式得到基因的归一化处理结果,每个样本的各个基因的FPKM值用于表示后续分析的基因表达量数据,以此去除了基因长度和测序深度的影响。FPKM被定义为:每千个碱基的转录每百万映射读取的片段数,根据统计的片段矩阵、基因长度以及比对到基因组总片段数计算归一化后的基因表达水平,计算如公式一所示:
Figure BDA0003643658670000061
其中F表示比对到该基因的fragments总数;L表示该基因所有外显子长度总和;N表示匹配到该基因组的总fragments数。
在计算得到所有样本的所有基因表达量之后,为缩小样本间基因表达量差距但需要保持基因间表达量值的相对距离不发生改变,接下来对表达量进行进一步的标准化处理。
具体地,所有样本的表达量取以2为底的对数处理,以此将表达量数值缩小至一定的范围内,在此之前,为避免在一些患者中检测到未表达的基因以及极少表达的基因取对数时出现结果为负无穷和负数的现象,在不影响表达量的总体分布分析的情况下对所有样本的所有基因表达量数值统一进行加1处理;之后进一步的处理过程为样本间同一基因的标准化处理,即所有样本的同一基因为一组数据,该组数据中每个病人的该基因表达量减去该组表达量数值均值,结果再除以该组表达量数值的标准差,计算如公式二所示。选择R语言中的scale函数进行计算,这是一种在数值中心化后再除以标准差的方法,最终获得一组数值在0附近,方差为1的基因表达信息以此对数据进行缩放。
Figure BDA0003643658670000062
其中,FPKMni为标准化过的该基因FPKM值,FPKMi为该病人该基因的FPKM值,mean(FPKM)为该基因在所有病患中FPKM值的平均值,sd(FPKM)为利用所有病患的该基因的FPKM值计算出标准差。
2、获取细胞增殖标志物互作基因
获取所需的标准化过TNBC患者的表达量信息和随访信息之后,进一步提取与细胞扩增标志物相关的基因。在肿瘤指标检测中的其中一个指标为Ki67,其能够用于鉴别处于分裂时期的细胞比例,Ki67标记率高的样本肿瘤细胞的增殖能力也相对较强,预后相对较差,表达该抗原的基因MKI67并与其相关的基因被认为对肿瘤的预后有贡献,因此,获取与细胞增殖标志物相互作用基因的表达量数据进行进一步的分析,具体如下:
利用BioGRID数据库下载与MKI67基因互作的基因集列表,挑取出具有基因名称的列表,并利用R语言的基础命令排除重复出现的基因形成每个基因名称唯一的新基因集,然后将得到的基因集与FUSCC数据集中基因名称进行匹配,在互作基因集中未出现的基因联合NCBI官网查询此基因的别名,通过别名再次匹配FUSCC TNBC数据集中的基因名称,至此筛选出所有与扩增标志物MKI67互作的基因。最终得到476个与基因MKI67互作的基因,加上扩增标志物MKI67基因用于下一步分析的有477个基因。
最后通过每位TNBC患者的表达数据集抽取出与扩增标志物互作基因的基因表达量信息,以便后续分析使用。
3、筛选细胞标志物互作且有预后作用的基因
获得与MKI67基因互作的基因集之后,接着筛选同时满足与MKI67基因互作且与预后相关两个条件的基因,进行特征选择分析,筛选出对预后有贡献的基因。在此使用单因素Cox回归的方法,利用单因素Cox回归模型挑选预后基因。
具体地,生存信息利用survival包中的Surv函数构建生存数据对象,其中生存信息包括:每位TNBC病患临床随访的生存时间以及生存状态,生存时间为无复发生存时间(Relapse-Free Survival,RFS),被定义为患者完全缓解时到患者首次局部、区域或远端侵袭性转移复发、以任何原因死亡或随访截止的时间;生存状态由数值“0”和“1”组成,即被标记为0的样本为在随访结束时依旧存活的患者,而被标为1的样本则是在随访截至之前未能存活下来的患者。
接着,结合构建的生存数据对象,使用R包survival中的coxph函数进行回归分析,将与扩增标志物MKI67基因互作的基因单独作为一个因素纳入回归模型中进行拟合,并提取计算出的每个基因对应的likelihood-p。
最后利用第一筛选条件挑选出对TNBC预后有影响的基因,至此,在FUSCC的TNBC数据集中共得到与预后相关的基因32个如表1所示,其中第一筛选条件设置为P<0.05,即P<0.05时具有统计学意义。与预后相关且与MKI67基因互作的32个基因名称列表如下:
表1 FUSCC TNBC中与扩增标志物MKI67基因互作及预后相关的基因
Figure BDA0003643658670000081
4、患者预后分层
根据获得的扩增标志物互作基因和预后相关基因,下一步对此基因集构建预后风险评估公式,并为每个样本计算预后风险得分,以评估筛选的预后基因标志物的有效性。在此选用R包ncvreg中的cv.ncvsurv函数,模型惩罚方式选择最小最大凹惩罚MCP方法。具体如下:
这里,先挑选所有样本与MKI67基因互作及具有预后贡献的基因的表达量数据,即32个基因对应的所有样本的表达量,并获取所有样本构建的生存数据对象,基因的表达水平与生存数据对象共同满足了最小最大凹惩罚Cox回归模型的所需数据集。
接下来,基于MCP的Cox回归模型对与MKI67互作及预后相关的基因进行构建预后风险评估公式,具体地,利用ncvsurv包中的cv.ncvsurv函数对所选出的基因表达水平及生存数据对象进行预后风险评估模型的构建,为解决在系数压缩过程中较大的系数被压缩使得预后风险评估模型出现偏差的问题,惩罚参数采用MCP方法。如图3所示,为了评估模的预测准确性,执行了交叉验证。
随着MCP的Cox回归模型对各个因素系数的收缩,对预后贡献突出的基因系数被保留,系数收缩至0的因素被剔除参与预后风险评估模型的构建,最终保留8个预后基因标志物用于构建预后风险评估公式,分别是:ATRIP、KNOP1、LDHA、METTL13、PAPD5、PAXBP1、PTCD3、U2AF2。
最后利用8个基因构建预后风险评估公式。匹配8个预后基因标志物在所有样本中对应的表达量,最小最大凹惩罚的Cox回归模型计算出的预后基因标志物的系数用于表示构建公式中所占比重,基因表达量信息与系数做矩阵相乘计算,即使用各个样本的每个基因系数与该基因表达量相乘,然后每个基因的乘积做加和处理,以此得到各个患者的预后风险得分。具体预后风险得分计算如公式三所示:
riskscore=(-0.08066567)*ATRIP+0.62438558*KNOP1+0.42998045*LDHA+(-0.64895377)*METTL13+(0.02456758)*PAPD5+0.01029721*PAXBP1+0.35394749*PTCD3+(-0.36885638)*U2AF2 公式三
其中ATRIP、KNOP1、LDHA、METTL13、PAPD5、PAXBP1、PTCD3、U2AF2均表示该基因的表达水平。上述基因及其功能如表2所示:
表2风险预后基因及其功能
Figure BDA0003643658670000091
最后,利用预后风险得分对患者进行预后分层,通过最佳截断值进行划分,预后风险得分≤最佳截断值被划分为预后低风险组,而预后风险得分>最佳截断值的样本群体则被划分为预后高风险组,其中最佳截断值的判定选用的是survival包中的surv_cutpoint函数,具体如下:
利用FUSCC TNBC患者的生存状态、生存时间及预后风险得分数据,结合surv_cutpoint函数计算得出最佳阈值为0.4857975,通过最佳阈值对样本进行分层,预后高风险组和低风险组的数量分布如图4所示,其中预后高风险组的样本数量少于低风险组;接着通过survival包中的surv_categorize函数将各个样本划分为高低风险组,分别标记为“高”和“低”,最佳阈值作为截断值,预后评估得分小于等于最佳阈值的样本标记为预后低风险组,同时,预后评估得分大于最佳阈值的样本标记为预后高风险组。由此得出,FUSCC TNBC患者中255名病患被划为预后低风险组,剩余的97名患者则被划分为预后高风险组。
5、生存分析验证分类公式及预后基因标志物的有效性
最后为验证预后风险评估公式对样本划分及预后基因标志物筛选的准确度,我们利用survival包以及survminer包对预后高低两个风险组进行Kaplan-Meier生存分析,以此观察计算的预后风险得分是否能将样本区分开来。
这里,首先利用survfit及Surv函数对生存时间及数据集的生存状态构建生存数据对象,其中使用预后风险分组作为分类变量;接着利用ggsurvplot函数对生存数据对象进行可视化,如图5所示,生存曲线横坐标表示观察时间,纵坐标表示生存率。本实施案例利用大量样本分析可见,预后低风险组的死亡率在任何时间都比预后高风险组低,这与计算的预后风险分数概念相符;预后风险得分较高的样本群体生存率也比较差,且生存曲线未出现交叉的情况,分类效果较好;且P值远小于0.05表明根据构建的预后风险得分分组是致使两条生存曲线之间的差异具有统计学意义的原因,预后风险得分具有较好的分类效果,能够很好的对患者进行预后分层,说明通过该发明筛选出的三阴性乳腺癌预后基因标志物非常有效,有利于进一步对两个层次患者筛选出的预后基因标志物展开进一步研究辅助TNBC的治疗与诊断。此处的生存分析得出的P值做为第二判定条件,当P<0.05时可说明分类器能够通过预后风险得分将样本分开。

Claims (8)

1.一种三阴性乳腺癌预后基因标志物筛选的方法,其特征在于,包括以下步骤:
(1)基因表达量的计算
基于转录组测序数据对基因进行定量,采用各转录本的FPKM表征基因表达量,对这些基因表达量进行对数转换和标准化处理,并去除在所有样本中表达量低的基因;
(2)扩增标志物相互作用基因筛选
选用同常见扩增标志物相互作用的基因,扩增标志物选择MKI67基因,通过数据库查询获取与该标志物相互作用的其它基因,并提取这些基因的表达量数据,完成初步筛选;
(3)预后基因标志物的筛选
选用单因素Cox回归作为单因素特征选择方法,进行预后基因的筛选;通过最小最大凹惩罚函数对单因素Cox回归选择的预后基因构建预后风险评估模型,用于解决数据中的多重共线性问题,对系数进行压缩,完成预后基因的进一步筛选,同时获得了预后基因标志物及预后基因标志物在预后风险评估模型中的系数,完成了预后基因标志物的筛选。
2.根据权利要求1所述的一种三阴性乳腺癌预后基因标志物筛选的方法,其特征在于,对步骤(3)中预后基因标志物的验证方法,通过预后基因标志物的系数及与其对应的基因表达量乘积在样本内的加和的方式构建预后风险评估公式,利用预后风险评估公式计算预后风险得分,判断每个患者的预后风险得分是否超过最佳分层截断值,对患者进行预后分层,最佳分层截断值的选取使用最佳截断值方法,当患者的预后风险得分小于等于最佳分层截断值时,病患被划分为预后低风险组,当患者的预后风险得分大于最佳分层截断值时,患者被划分为预后高风险组,根据预后高低风险组的分组情况对样本进行生存分析,当生存分析的P值小于0.05时,则说明筛选的预后基因标志物有效且与预后相关。
3.根据权利要求1所述的一种三阴性乳腺癌预后基因标志物筛选的方法,其特征在于,所述步骤(1)中,衡量表达量低的基因是基因表达量为0的样本占所有样本量百分之三十,表达量低的基因将被剔除。
4.根据权利要求1所述的一种三阴性乳腺癌预后基因标志物筛选的方法,其特征在于,步骤(2)中的扩增标志物选择为表达增殖细胞抗原KI67的MKI67基因,KI67通常用于评估肿瘤细胞的增殖情况,同MKI67相互作用的基因筛选是利用生物数据库BioGRID。
5.根据权利要求1所述的一种三阴性乳腺癌预后基因标志物筛选的方法,其特征在于,步骤(3)中的单因素Cox回归分析通过R语言的survival包中的coxph函数来实现,其中基因的p值筛选利用likelihood-p进行筛选。
6.根据权利要求1所述的一种三阴性乳腺癌预后基因标志物筛选的方法,其特征在于,步骤(3)当中的最小最大凹惩罚构建预后风险评估模型的,通过利用R语言程序中ncvreg包的cv.ncvsurv函数完成,其中惩罚方式选用最小最大凹惩罚;最小最大凹惩罚是一种一开始惩罚率与LASSO相同,但随着系数绝对值的增加,惩罚率将被缓慢的放宽至零的回归方法。
7.根据权利要求1所述的一种三阴性乳腺癌预后基因标志物筛选的方法,其特征在于,所述步骤(3)中完成预后基因的进一步筛选,即系数为0的基因被认为对预后的影响较小,筛选预后基因系数为非零的基因作为预后基因标志物,完成预后基因标志物的筛选。
8.根据权利要求2所述的一种三阴性乳腺癌预后基因标志物筛选的方法,其特征在于,最佳截断值法与生存分析,通过survival包中的surv_cutpoint函数实现最佳截断值的选取,survminer包中的survfit函数和ggsurvplot函数共同完成生存验证。
CN202210521515.0A 2022-05-13 2022-05-13 一种三阴性乳腺癌预后基因标志物筛选的方法 Pending CN114891887A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210521515.0A CN114891887A (zh) 2022-05-13 2022-05-13 一种三阴性乳腺癌预后基因标志物筛选的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210521515.0A CN114891887A (zh) 2022-05-13 2022-05-13 一种三阴性乳腺癌预后基因标志物筛选的方法

Publications (1)

Publication Number Publication Date
CN114891887A true CN114891887A (zh) 2022-08-12

Family

ID=82722625

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210521515.0A Pending CN114891887A (zh) 2022-05-13 2022-05-13 一种三阴性乳腺癌预后基因标志物筛选的方法

Country Status (1)

Country Link
CN (1) CN114891887A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115424669A (zh) * 2022-08-18 2022-12-02 南方医科大学南方医院 一种基于lr评分的三阴性乳腺癌疗效及预后评估模型
CN115478106A (zh) * 2022-08-18 2022-12-16 南方医科大学南方医院 一种基于lr对对三阴性乳腺癌进行分型的方法及其应用
CN116312802A (zh) * 2023-02-01 2023-06-23 中国医学科学院肿瘤医院 一种三阴性乳腺癌预后特征基因的筛选方法及其应用
CN116844638A (zh) * 2023-06-08 2023-10-03 上海信诺佰世医学检验有限公司 一种基于高通量转录组测序的儿童急性白血病分型系统及方法
CN117368476A (zh) * 2023-09-25 2024-01-09 西安交通大学医学院第一附属医院 七种代谢标志物的检测试剂在制备乳腺癌诊断和预后产品中的应用

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115424669A (zh) * 2022-08-18 2022-12-02 南方医科大学南方医院 一种基于lr评分的三阴性乳腺癌疗效及预后评估模型
CN115478106A (zh) * 2022-08-18 2022-12-16 南方医科大学南方医院 一种基于lr对对三阴性乳腺癌进行分型的方法及其应用
CN116312802A (zh) * 2023-02-01 2023-06-23 中国医学科学院肿瘤医院 一种三阴性乳腺癌预后特征基因的筛选方法及其应用
CN116312802B (zh) * 2023-02-01 2023-11-28 中国医学科学院肿瘤医院 一种特征基因trim22用于制备调控乳腺癌相关基因表达的试剂的应用
CN116844638A (zh) * 2023-06-08 2023-10-03 上海信诺佰世医学检验有限公司 一种基于高通量转录组测序的儿童急性白血病分型系统及方法
CN117368476A (zh) * 2023-09-25 2024-01-09 西安交通大学医学院第一附属医院 七种代谢标志物的检测试剂在制备乳腺癌诊断和预后产品中的应用
CN117368476B (zh) * 2023-09-25 2024-03-08 西安交通大学医学院第一附属医院 七种代谢标志物的检测试剂在制备乳腺癌诊断和预后产品中的应用

Similar Documents

Publication Publication Date Title
CN114891887A (zh) 一种三阴性乳腺癌预后基因标志物筛选的方法
CN112048559B (zh) 基于m6A相关的IncRNA网络胃癌预后的模型构建及临床应用
US8165973B2 (en) Method of identifying robust clustering
CN111128299B (zh) 一种结直肠癌预后显著相关ceRNA调控网络的构建方法
CN112951327B (zh) 药物敏感预测方法、电子设备及计算机可读存储介质
CN110714078B (zh) 一种用于ii期结直肠癌复发预测的标记基因及应用
CN113517073B (zh) 肺癌手术后生存率预测模型构建方法和预测模型系统
CN110423816A (zh) 乳腺癌预后量化评估系统及应用
CN112626218A (zh) 一种用于预测胰腺癌转移风险的基因表达分类器、体外诊断试剂盒
JP2022524484A (ja) がん患者の生存率を予測する方法
CN114203256B (zh) 基于微生物丰度的mibc分型及预后预测模型构建方法
CN115482880A (zh) 一种头颈鳞癌糖酵解相关基因预后模型及构建方法和应用
CN115631857A (zh) 甲状腺癌cd8+t细胞免疫相关基因预后预测模型
CN112382341B (zh) 一种用于鉴定食管鳞癌预后相关的生物标志物的方法
KR101990430B1 (ko) 암의 재발 예후 예측을 위한 바이오마커 발굴 시스템 및 방법
CN113436673A (zh) 一种用于肝癌预后预测的分子标志物及其应用
Yang et al. An integrated model of clinical information and gene expression for prediction of survival in ovarian cancer patients
CN116525005A (zh) 巨噬细胞标记基因在肝癌预后中的应用及其风险评估模型
CN110570951A (zh) 构建乳腺癌新辅助化疗疗效分类模型的方法
CN116153387A (zh) 一种肺鳞癌患者总体生存率预后模型及应用
CN112746108B (zh) 用于肿瘤预后分层评估的基因标志物、评估方法及应用
CN114267411A (zh) Dtc预后标志物及其应用、dtc预后评估模型的构建方法
KR20220133516A (ko) 인공지능 기반 무세포 dna의 종양 유래 변이 검출 방법 및 이를 이용한 암 조기 진단 방법
CN116403648B (zh) 一种基于多维分析建立的小细胞肺癌免疫新分型方法
CN117577300A (zh) Mibc多组学分子分型方法及预测系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination