CN112382341B - 一种用于鉴定食管鳞癌预后相关的生物标志物的方法 - Google Patents

一种用于鉴定食管鳞癌预后相关的生物标志物的方法 Download PDF

Info

Publication number
CN112382341B
CN112382341B CN202011292536.7A CN202011292536A CN112382341B CN 112382341 B CN112382341 B CN 112382341B CN 202011292536 A CN202011292536 A CN 202011292536A CN 112382341 B CN112382341 B CN 112382341B
Authority
CN
China
Prior art keywords
gene expression
biomarkers
esophageal squamous
candidate
squamous carcinoma
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011292536.7A
Other languages
English (en)
Other versions
CN112382341A (zh
Inventor
齐义军
李孟祥
陈攀
刘轲
冯笑山
高社干
焦叶林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
First Affiliated Hospital of Henan University of Science and Technology
Original Assignee
First Affiliated Hospital of Henan University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by First Affiliated Hospital of Henan University of Science and Technology filed Critical First Affiliated Hospital of Henan University of Science and Technology
Priority to CN202011292536.7A priority Critical patent/CN112382341B/zh
Publication of CN112382341A publication Critical patent/CN112382341A/zh
Application granted granted Critical
Publication of CN112382341B publication Critical patent/CN112382341B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6809Methods for determination or identification of nucleic acids involving differential detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/118Prognosis of disease development
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Genetics & Genomics (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Analytical Chemistry (AREA)
  • Medical Informatics (AREA)
  • Zoology (AREA)
  • Theoretical Computer Science (AREA)
  • Wood Science & Technology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Microbiology (AREA)
  • Data Mining & Analysis (AREA)
  • Oncology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Hospice & Palliative Care (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本申请涉及生物技术领域,具体公开了一种用于鉴定食管鳞癌预后相关的生物标志物的方法、计算机可读存储介质以及食管鳞癌预后相关的生物标志物,该方法包括:获取经筛选得到的至少两个所述生物标志物;对至少两个所述生物标志物进行独立验证;验证至少两个所述生物标志物在高风险组样本和低风险组样本的预后预测能力;考察单个所述生物标志物以及至少两个所述生物标志物结合的预后预测能力。通过上述方式,使得预后预测结果的可信程度更高,且预后预测结果准确率更高。

Description

一种用于鉴定食管鳞癌预后相关的生物标志物的方法
技术领域
本申请涉及生物技术领域,特别涉及一种用于鉴定食管鳞癌预后相关的生物标志物的方法、计算机可读存储介质以及食管鳞癌预后相关的生物标志物。
背景技术
癌症是一种对人类危害极大的疾病,根据相关流行病学资料显示,每年大约会有1100万新发癌症。而在诸多癌症之中,食管癌发病率在所有恶性肿瘤中位居第八位,死亡率位居第六位,全球每年约有45000 人罹患该病。与西方国家多为食管腺癌不同的是,食管鳞状细胞癌((esophageal squamous cell carcinoma,ESCC),以下简称食管鳞癌或 ESCC)在我国占食管癌总体发病率的95%以上。食管鳞癌目前主要的治疗手段为外科手术、放射治疗和化学治疗。虽然近十余年来,虽然食管鳞癌的综合治疗手段不断进步,但其预后仍不甚理想,目前其五年总体生存率仅为15%-25%。
本申请发明人在长期研究过程中,发现由于肿瘤的分子异质性、标本来源、组织处理、检测技术、数据分析等方面的差异,不同临床研究之间的低重复性是现有研究中面临的最大挑战。因此,探索和研究食管鳞癌预后的生物标志物,建立相对准确的预后预测模型,在我国有着极为特殊的临床意义。
发明内容
鉴于现有技术中肿瘤的分子异质性、标本来源、组织处理、检测技术、数据分析等方面的差异以及不同临床实验结果可重复性低的问题,本申请提供一种用于鉴定食管鳞癌预后相关的生物标志物的方法、计算机可读存储介质以及食管鳞癌预后相关的生物标志物。
第一方面,本申请提供了一种用于鉴定食管鳞癌预后相关的生物标志物的方法,所述方法包括:获取经筛选得到的至少两个所述生物标志物;对至少两个所述生物标志物进行独立验证;验证至少两个所述生物标志物在高风险组样本和低风险组样本的预后预测能力;考察单个所述生物标志物以及至少两个所述生物标志物结合的预后预测能力。
第二方面,本申请提供了一种计算机可读存储介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现前述方法。
第三方面,本申请提供了一种食管鳞癌预后相关的生物标志物,所述生物标志物经过如前述方法验证得到;所述生物标志物包括SFN和 CCND1,所述SFN和所述CCND1为基因转录谱mRNA或其表达的蛋白。
本申请的优点和有益效果:区别于现有技术,本申请通过获取经筛选得到的食管鳞癌预后相关的生物标志物,考察单个生物标志物以及至少两个生物标志物结合的预后预测能力,通过多种方法的验证,使得上述生物标志物的预后预测结果的可信程度更高,且预后预测结果准确率更高。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
图1是本申请食管鳞癌预后相关的生物标志物的筛选方法第一实施例的流程示意图;
图2是本申请食管鳞癌预后相关的生物标志物的筛选方法第二实施例的流程示意图;
图3是本申请食管鳞癌预后相关的生物标志物的筛选方法第三实施例的流程示意图;
图4是本申请食管鳞癌预后相关的生物标志物的筛选方法第四实施例的流程示意图;
图5是本申请食管鳞癌预后相关的生物标志物的筛选方法第五实施例的流程示意图;
图6是16个候选分子的交互作用网络图;
图7是5种分类器算法中的5个优选分子的交集示意图;
图8是17个候选分子在Cox比例风险回归模型中作为优选分子的概率图;
图9是本申请用于鉴定食管鳞癌预后相关的生物标志物的方法第一实施例的流程示意图;
图10是本申请用于鉴定食管鳞癌预后相关的生物标志物的方法第二实施例的流程示意图;
图11是本申请用于鉴定食管鳞癌预后相关的生物标志物的方法第三实施例的流程示意图;
图12是本申请用于鉴定食管鳞癌预后相关的生物标志物的方法第四实施例的流程示意图;
图13是SFN在179例基因表达谱样本(GEO编号为GSE53625) 中的生存分析结果;
图14是CCND1在179例基因表达谱样本(GEO编号为GSE53625) 中的生存分析结果;
图15是SFN在89例独立实验样本中的生存分析结果;
图16是CCND1在89例独立实验样本中的生存分析结果;
图17是SFN、CCND1以及两者结合在179例基因表达谱样本(编号为GSE53625)中的预后预测能力ROC曲线图;
图18是SFN、CCND1以及两者结合在89例独立实验样本中的预后预测能力ROC曲线图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请的描述中,需要说明的是,术语“上”、“下”、“内”和“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本申请的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接连接,也可以通过中间媒介间接连接,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。
本申请提供了一种用于鉴定食管鳞癌预后相关的生物标志物的方法,需要说明的是,生物标志物是指与疾病相关的分子,例如生物标志物可以是与食管鳞癌的存在、阶段、预后等相关的分子,具体的,食管鳞癌生物标志物可以包括在食管鳞癌受试者中有差异表现的蛋白(例如全长多肽、剪接变体、翻译后修饰多肽等)以及基因产物的片段及相应多核苷酸序列,如mRNA、DNA等。
如图1所示,该方法包括以下步骤:
S10:根据食管鳞癌的标识信息检索生物信息数据库,以获取与食管鳞癌关联的a个候选分子。
具体地,该生物信息数据库包括中英文学术数据库,具体可以包括中国知网数据库、万方数据库、Web of Science、NCBI数据库。从上述中英文学术数据库中检索到与ESCC相关的文献,并整理得到与ESCC 关联的48个候选分子,具体请见表1。
表1与ESCC关联的48个候选分子
Figure RE-GDA0002898609820000051
S20:获取a个候选分子的基因表达值。
具体地,获取上述与ESCC关联的48个候选分子的基因表达值。
S30:根据基因表达值,构建a个候选分子的交互作用网络。
具体地,利用软件工具NetBox构建a个候选分子的交互作用网络。
NetBox是基于Java的开发的一款软件工具,可用于执行人类蛋白互作网络的分析。该工具基于人类互作网络(human interaction network, HIN),该网络由四个数据源组成:HPRD、Reactome、NCI-Nature PID 数据库以及MSKCC Cancer Cell MaP,能够通过某种计算将基因连接成网络,并识别显著的“linker”基因,同时将网络划分成模块。
S40:基于交互作用网络对多个候选分子进行第一次筛选,以过滤部分候选分子,并保留符合预设条件的b个候选分子,其中,b<a。
基于NetBox软件构建多个候选分子的交互作用网络,其中,交互作用网络的参数包括:最短路径(shortest Path threshold)=1,P值(P value threshold)<0.05,过滤掉48个候选分子中交互作用小于预设值的候选分子,进而得到满足交互作用网络参数的17个候选分子,具体请见表2。
表2交互作用等于或小于预设值17个候选分子
CCNA2 CD44 MDM2 TRAM1 RRM2B
CCND1 EGFR MLH1 RAC3 SFN
BRCA1 CDKN2A PTGS2 PIK3CA TP53
VEGFA RAD51
需要说明的是,在将17个候选分子输入STRING (https://string-db.org/)网站后,且设置分子间关系得分0.7后,将与其他候选分子联系不强的候选分子过滤掉后,得到如图6所示的16个候选分子。
S50:基于预后预测模型以及Cox比例风险回归模型,对第一次筛选后保留的b个候选分子进行第二次筛选,得到c个优选分子,其中,c <b。
具体而言,将17个候选分子做随机组合,得到217-1=131071个候选分子组合,基于预后预测模型以及Cox比例风险回归模型对上述 131071个候选分子组合进行筛选,得到优选的若干个候选分子组合,统计17个候选分子在若干个候选分子组合中的出现频率,选出出现频率最高的c个优选分子。
S60:从c个优先分子筛选出食管鳞癌预后相关的生物标志物。
具体地,将上述步骤S50中筛选得到的c个优先分子,进一步筛选出食管鳞癌预后相关的生物标志物。
区别于现有技术,本申请从生物信息数据库中获取与食管鳞癌关联的候选分子,基本囊括了所有与食管鳞癌关联的候选分子。同时,本申请基于候选分子的交互作用网络对多个候选分子进行第一次筛选,以过滤部分候选分子,并基于预后预测模型以及Cox比例风险回归模型,对第一次筛选后保留的候选分子进行第二次筛选,以得到优选分子,进而从优先分子筛选出食管鳞癌预后相关的生物标志物,通过多种模型进行分类筛选,使得筛选结果的可信程度更高,且筛选结果准确率更高。
如图2所示,在一实施例中,步骤S20包括包括以下步骤:
S21:获取GEO数据库(Gene Expression Omnibus database)中的若干对基因表达谱,每对基因表达谱包括食管鳞癌组织样本的基因表达谱和癌旁组织样本的基因表达谱。
具体地,本步骤中从GEO数据库(https://www.ncbi.nlm.nih.gov/geo/) 检索出同一食管鳞状细胞癌患者队列的分子芯片(GEO编号为 GSE53625)数据信息,并从该分子芯片数据信息中提取了179对来自同一食管鳞癌患者的食管鳞癌组织样本的基因表达谱和癌旁组织样本的基因表达谱,即179例基因表达谱样本。
S22:将芯片平台的基因探针序列比对到人类参考基因组(GRCh37),以对芯片平台进行重新注释。
具体地,芯片平台具体为微阵列芯片平台GPL18109,采用基于序列相似性的基因注释方法,,使用Gencode数据库中的人类参考基因组(GRCh37)作为基因组注释文件,利用Gencode和SeqMap将芯片平台的基因探针序列比对到人类参考基因组(GRCh37),从而完成对该芯片平台的重新注释。
S23:根据重新注释后的芯片平台从若干对基因表达谱中提取出对应的a个候选分子的基因表达值。
具体地,根据重新注释后的芯片平台在步骤S21的GEO数据库的基因表达谱(GEO编号为GSE53625)进行检索,进而提取出对应的上述48个候选因子的基因表达值。
在一实施例中,上述步骤S23中的每个候选分子的基因表达值为对应的食管鳞癌组织样本的基因表达值与癌旁组织样本的基因表达值之间的差值。
具体而言,食管鳞癌组织样本的基因表达值与癌旁组织样本的基因表达值之间的差值作为候选分子的基因表达值,并将该候选分子的基因表达值作为后续所有计算工作的输入数据。
如图3所示,在一实施例中,在步骤S50之前,该方法还包括:
S70:对第一次筛选后保留的b个候选分子做随机组合,得到m个候选分子组合。
对表2中的17个候选分子做随机组合,得到217-1=131071个候选分子组合。
S80:采用多种分类器算法分别对应m个候选分子组合构造m个模型。
其中,分类器算法至少包括:逻辑回归算法(Logistic Regression, LR)、支持向量机算法(Support Vector Machine,SVM)、人工神经网络算法(Artificial NeuralNetwork,ANN)、随机森林算法(Random Forest, RF)以及极端梯度提升算法(eXtremeGradient Boosting,XGBoost)。
其中,LR、SVM以及ANN为弱分类器算法,RF、XGBoost为强分类器算法。采用上述5种分类器算法分别对应上述131071个候选分子组合构造出131071个模型。
S90:获取训练样本集和测试样本集,其中,训练样本集包括e对基因表达谱,测试样本集为包括剩余的f对基因表达谱。
具体地,将步骤S21中的179例基因表达谱样本分为训练样本集和测试样本集,其中训练样本集包括134例基因表达谱样本,测试样本集包括剩余的45例基因表达谱样本。
S100:以生存期是否大于预设时间作为标签,并采用交叉验证和参数寻优的方法,根据训练样本集对m个模型进行训练,得到各种分类器算法中n个模型质量参数最好的候选模型。
具体地,对上述131071个模型,分别利用交叉验证的方法在训练样本集(134例基因表达谱样本)中,进行参数寻优并建立模型。其中,当模型质量参数为受试者工作特征曲线下面积(Area Under Receiver Operating Characteristic Curve,AUC)时,如果某模型的AUC大于AUC 的平均值,则将该模型确定为模型质量参数最好的候选模型,由此,得到各种分类器算法中的n个候选模型,其中,1000<n<131071,且n 为整数。
S110:对于每个候选模型,将测试样本集中的每对基因表达谱输入候选模型,得到各种分类器算法中p个模型质量参数最好的预后预测模型。
当模型质量参数为受试者工作特征曲线下面积(Area Under ReceiverOperating Characteristic Curve,AUC)时,按质量参数的降序排列,将AUC排列在前1000位的候选模型确定为各种分类器算法中的预后预测模型,即得到1000个质量参数最好的预后预测模型。
如图4所示,在一实施例中,步骤S50包括:
S51:统计p个预后预测模型所对应的p个候选分子组合中每个候选分子出现的次数,选取出现次数最多的c个候选分子作为优选分子。
具体地,统计上述1000个质量参数最好的预后预测模型所对应的 1000个候选分子组合中每个候选分子的出现概率,选取各个分类器算法中出现概率最大的5个候选分子作为对应分类器算法的优选分子,具体请见表3和图8。
表3各个分类器算法的优选分子
Figure RE-GDA0002898609820000091
步骤S60包括:
S61:取所有分类器算法中的c个优先分子的交集,以筛选出食管鳞癌预后相关的生物标志物。
具体地,如图7所示,在5种分类器算法(LR、SVM、ANN、RF、 XGBoost)中,LR筛选出了2个其它四种分类器算法均未筛选出优选分子:TP53和EGFR;SVM筛选出了1个其它四种分类器算法均未筛选出优选分子:TRAM1;ANN筛选出了1个其它四种分类器算法均未筛选出优选分子:CCND1;LR与RF均筛选出了1个其它三种分类器算法均未筛选出优选分子:RAC3;RF与ANN均筛选出了1个其它三种分类器算法均未筛选出优选分子:MDM2;RF与XGBoost均筛选出了 1个其它三种分类器算法均未筛选出优选分子:PIK3CA;XGBoost与 SVM均筛选出了1个其它三种分类器算法均未筛选出优选分子: VEGFA;SVM、ANN、RF、XGBoost均筛选出了LR未筛选出优选分子:PTGS2;LR、SVM、ANN、XGBoost均筛选出了RF未筛选出优选分子:CD44;而上述5种分类器算法均筛选出同一优选分子:SFN。因此,确定SFN为食管鳞癌预后相关的生物标志物。
如图5所示,在另一实施例中,步骤S50包括:
S52:对应m个候选分子组合构造m个Cox比例风险回归模型。
对表2中的17个候选分子做随机组合,得到217-1=131071个候选分子组合,对应131071个候选分子组合构造131071个Cox比例风险回归(Cox ProPortional Hazards,CoxPH)模型模型。
S53:将训练样本集和测试样本集中的每个基因表达数据集输入m 个Cox比例风险回归模型,得到满足“特征系数不为零假设检验中 P<0.05”的q个优选Cox比例风险回归模型。
S54:统计q个优选Cox比例风险回归模型所对应的q个优选分子组合中每个候选分子出现的次数,选取出现次数最多的c个候选分子作为优选分子。
具体地,为了充分利用样本随访信息,对上述131071个候选分子组合,建立Cox比例风险回归模型。并在训练样本集和测试样本集中筛选出满足“特征系数不为零假设检验中P<0.05”的候选分子组合作为优选分子组合,然后统计每个分子在优选分子组合中出现的次数,出现次数最多的5个候选分子作为Cox比例风险回归模型的优选分子。
步骤S60包括:
S62:取c个优先分子中的最优分子作为食管鳞癌预后相关的生物标志物。
具体而言,如图8所示,17个候选分子在Cox比例风险回归模型中作为优选分子的概率,其中,概率最高的为CCND1。因此,确定CCND1 为食管鳞癌预后相关的生物标志物。
经过上述步骤,最终确定SFN和CCND1为食管鳞癌预后相关的生物标志物。
进一步地,基于独立验证实验,在若干例基因表达谱样本样本中做独立验证。以磷酸甘油醛脱氢酶为内参,对SFN和CCND1分别进行精确定量PCR实验和相对定量PCR实验,检测SFN和CCND1在食管鳞癌组织样本和癌旁组织样本中的基因表达值,计算SFN和CCND1在食管鳞癌组织样本和癌旁组织样本中的基因表达值的差值或基因表达值的差异倍数。以SFN和CCND1为因素做生存分析,并将SFN和CCND1 结合做预后预测。
此外,本申请实施例还提出一种食管鳞癌预后相关的生物标志物,生物标志物由如上所述的食管鳞癌预后相关的生物标志物的筛选方法筛选得到。
具体地,生物标志物包括SFN和CCND1,SFN和CCND1为基因转录谱mRNA或其表达的蛋白。
此外,本申请实施例还提出一种食管鳞癌预后相关的生物标志物的方法,如图9所示,该方法包括:
S120:获取经筛选得到的至少两个生物标志物。
具体地,至少两个生物标志物为经过上述筛选方法得到的SFN和 CCND1。
S130:对至少两个生物标志物进行独立验证。
S140:验证至少两个生物标志物在高风险组样本和低风险组样本的预后预测能力。
S150:考察单个生物标志物以及至少两个生物标志物结合的预后预测能力。
具体地,基于独立验证实验,在若干例基因表达谱样本样本中做独立验证。以磷酸甘油醛脱氢酶为内参,对SFN和CCND1分别进行精确定量PCR实验和相对定量PCR实验,检测SFN和CCND1在食管鳞癌组织样本和癌旁组织样本中的基因表达值,计算SFN和CCND1在食管鳞癌组织样本和癌旁组织样本中的基因表达值的差值或基因表达值的差异倍数。以基因表达值为因素做生存分析,并将SFN和CCND1结合做预后预测。
区别于现有技术,本申请通过获取经筛选得到的食管鳞癌预后相关的生物标志物,考察单个生物标志物以及至少两个生物标志物结合的预后预测能力,通过多种方法的验证,使得上述生物标志物的预后预测结果的可信程度更高,且预后预测结果准确率更高。
如图10所示,在一实施例中,上述步骤S130包括:
S131:获取独立验证样本,独立验证样本包括食管鳞癌组织样本和癌旁组织样本。
具体的,独立验证样本包括89例同一食管鳞癌患者的食管鳞癌组织样本和癌旁组织样本。
S132:以磷酸甘油醛脱氢酶为内参,对至少两个生物标志物分别进行精确定量PCR实验和相对定量PCR实验。
S133:根据2-ΔΔCT方法,检测至少两个生物标志物在食管鳞癌组织样本和癌旁组织样本中的基因表达值,计算至少两个生物标志物在食管鳞癌组织样本和癌旁组织样本中的基因表达值的差值或差异倍数。
S134:以基因表达值为因素做生存分析,并将至少两个生物标志物结合做预后预测。
如图11所示,在一实施例中,上述步骤S140包括:
S141:获取GEO数据库中的若干对基因表达谱,每对基因表达谱包括食管鳞癌组织样本的基因表达谱和癌旁组织样本的基因表达谱。
S142:根据生物标志物的基因表达值的差值,将全部基因表达谱分为高风险组样本和低风险组样本。
S143:采用Kaplan-Meier生存分析和Log-rank检验,明确生物标志物的表达水平与食管鳞癌预后之间的关系,其中Kaplan-Meier生存分析和Log-rank检验以“P<0.05”作为差异有统计学意义的阈值。
具体地,基于步骤S21获得的GEO数据库中的基因表达谱(编号为GSE53625)对SFN和CCND1做单因素生存分析。根据SFN的基因表达值的差值将上述基因表达谱分成高风险(High)组、低风险(Low) 组,其Kaplan-Meier生存分析表明:高风险组、低风险组的中位生存期分别为25.5个月、>60个月,Log-rank检验表明,两组生存时间有显著的统计学差异(P=0.002,见图13),SFN表达高有利于对长期生存。同样地,根据CCND1表达差值将上述基因表达谱分为高风险(High)组、低风险(Low)组,生存分析得高风险组、低风险组的中位生存期分别为23.1个月、>60个月,两组生存期有显著的统计学差异(P=0.0029,见图14),CCND1表达低有利于长期生存。
为验证SFN和CCND1的预后预测能力,在步骤S131中获取的89 例食管鳞癌样本中进行独立实验。通过绝对定量PCR实验,根据SFN 的基因表达值的表达差异倍数将上述89例食管鳞癌样本分为高风险 (High)组、低风险(Low)组,经Kaplan-Meier生存分析表明:高风险组的中位生存期为32.5个月,低风险组的中位生存期为57个月, Log-rank检验表明,两组生存时间有显著的统计学差异(P=0.011,见图 15),基因表达高有利于长期生存。对于CCND1,通过相对定量qRT-PCR 实验验证。根据CCND1的基因表达值的表达差异倍数将上述89例食管鳞癌样本分为高风险(High)组、低风险(Low)组,经Kaplan-Meier 生存分析表明:高风险组的中位生存期为36.5个月,低风险组的中位生存期为78个月,两组生存时间有显著的统计学差异(P=0.0091,见图 16),表达低有利于长期生存。
如图12所示,在一实施例中,步骤S150包括:
S151:基于上述基因表达谱和独立验证样本,进行受试者工作特征曲线绘制,并计算受试者工作特征曲线的下面积AUC。
S152:根据受试者工作特征曲线的下面积AUC确定单个生物标志物以及至少两个生物标志物结合的预后预测能力。
具体地,为考察SFN、CCND1以及两者结合的预后预测能力,基于步骤S21获得的GEO数据库中的基因表达谱(编号为GSE53625)和步骤S131中获取的89例独立实验样本进行ROC曲线绘制,并计算曲线下面积AUC。
结果如下:在基因表达谱(编号为GSE53625)中SFN、CCND1以及两者结合的AUC值分别为0.64、0.61和0.69(见图17)。而在89例独立实验样本中SFN、CCND1以及两者结合的AUC值分别为0.65、0.59 和0.68(见图18)。综上可得,SFN、CCND1基因结合的预后预测能力优于单个SFN或CCND1的预后预测能力。
需要说明的是,本申请的方法均在R版本3.6.3中进行。
此外,本申请实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上实施例的食管鳞癌预后相关的生物标志物的筛选方法的步骤。
终上所述,本申请从生物信息数据库中获取与食管鳞癌关联的候选分子,基本囊括了所有与食管鳞癌关联的候选分子。同时,本申请基于候选分子的交互作用网络对多个候选分子进行第一次筛选,以过滤部分候选分子,并基于预后预测模型以及Cox比例风险回归模型,并对第一次筛选后保留的候选分子进行第二次筛选,以得到优选分子,进而从优先分子筛选出食管鳞癌预后相关的生物标志物,通过多种模型进行分类筛选,使得筛选结果的可信程度更高,且筛选结果准确率更高。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (7)

1.一种用于鉴定食管鳞癌预后相关的生物标志物的方法,其特征在于,所述方法包括:
获取经筛选得到的至少两个所述生物标志物;
对至少两个所述生物标志物进行独立验证;
验证至少两个所述生物标志物在高风险组样本和低风险组样本的预后预测能力;
考察单个所述生物标志物以及至少两个所述生物标志物结合的预后预测能力;
所述获取经筛选得到的至少两个所述生物标志物包括:
根据所述食管鳞癌的标识信息检索生物信息数据库,以获取与所述食管鳞癌关联的a个候选分子;
获取a个所述候选分子的基因表达值;
根据所述基因表达值,构建a个所述候选分子的交互作用网络;
基于所述交互作用网络对多个候选分子进行第一次筛选,以过滤部分所述候选分子,并保留符合预设条件的b个所述候选分子,其中,b<a;
对第一次筛选后保留的b个所述候选分子做随机组合,得到m个候选分子组合;
采用多种分类器算法分别对应m个所述候选分子组合构造m个模型,其中,所述分类器算法至少包括:逻辑回归(LR)算法、支持向量机(SVM)算法、人工神经网络(ANN)算法、随机森林(RF)算法以及极端梯度提升(XGBoost)算法;
获取训练样本集和测试样本集,其中,所述训练样本集为基因表达谱中的一部分基因表达数据集,所述测试样本集为所述基因表达谱中剩余的所述基因表达数据集;
以生存期是否大于预设时间作为标签,并采用交叉验证和参数寻优的方法,根据训练样本集对m个所述模型进行训练,得到各种所述分类器算法中n个模型质量参数最好的候选模型;
对于每个候选模型,将所述测试样本集中的每个所述基因表达数据集输入所述候选模型,得到各种所述分类器算法中p个模型质量参数最好的预后预测模型;
基于预后预测模型以及Cox比例风险回归模型,对第一次筛选后保留的b个所述候选分子进行第二次筛选,得到c个优选分子,其中,c<b;
从c个优先分子筛选得到所述食管鳞癌预后相关的生物标志物。
2.根据权利要求1所述的方法,其特征在于,所述对至少两个所述生物标志物进行独立验证包括:
获取独立验证样本,所述独立验证样本包括食管鳞癌组织样本和癌旁组织样本;
以磷酸甘油醛脱氢酶为内参,对至少两个所述生物标志物分别进行精确定量PCR实验和相对定量PCR实验;
根据2-ΔΔCT方法,检测至少两个所述生物标志物在所述食管鳞癌组织样本和所述癌旁组织样本中的基因表达值,计算至少两个所述生物标志物在所述食管鳞癌组织样本和所述癌旁组织样本中的所述基因表达值的差值或差异倍数;
以所述基因表达值为因素做生存分析,并将至少两个所述生物标志物结合做预后预测。
3.根据权利要求2所述的方法,其特征在于,所述验证至少两个所述生物标志物在高风险组样本和低风险组样本的预后预测能力包括:
获取GEO数据库中的若干对基因表达谱,每对所述基因表达谱包括食管鳞癌组织样本的基因表达谱和癌旁组织样本的基因表达谱;
根据所述生物标志物的所述基因表达值的差值,将全部所述基因表达谱分为所述高风险组样本和所述低风险组样本;
采用Kaplan-Meier生存分析和Log-rank检验,明确所述生物标志物的表达水平与食管鳞癌预后之间的关系,其中所述Kaplan-Meier生存分析和所述Log-rank检验以“P<0.05”作为差异有统计学意义的阈值。
4.根据权利要求3所述的方法,其特征在于,所述考察单个所述生物标志物以及至少两个所述生物标志物结合的预后预测能力包括:
基于所述基因表达谱和所述独立验证样本,进行受试者工作特征曲线绘制,并计算所述受试者工作特征曲线的下面积AUC;
根据所述受试者工作特征曲线的下面积AUC确定单个所述生物标志物以及至少两个所述生物标志物结合的预后预测能力。
5.根据权利要求1所述的方法,其特征在于,所述验证方法均在R版本3.6.3中进行。
6.根据权利要求4所述的方法,其特征在于,
当所述模型质量参数为受试者工作特征曲线的下面积(AUC)时,将AUC大于AUC的平均值的n个所述模型确定为各种所述分类器算法中模型质量参数最好的所述候选模型;
当所述模型质量参数为受试者工作特征曲线的下面积(AUC)时,按降序排列,将AUC最大的p个所述候选模型确定为各种所述分类器算法中模型质量参数最好的所述预后预测模型。
7.一种计算机可读存储介质,其特征在于,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现权利要求1-6任一项所述的方法。
CN202011292536.7A 2020-11-18 2020-11-18 一种用于鉴定食管鳞癌预后相关的生物标志物的方法 Active CN112382341B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011292536.7A CN112382341B (zh) 2020-11-18 2020-11-18 一种用于鉴定食管鳞癌预后相关的生物标志物的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011292536.7A CN112382341B (zh) 2020-11-18 2020-11-18 一种用于鉴定食管鳞癌预后相关的生物标志物的方法

Publications (2)

Publication Number Publication Date
CN112382341A CN112382341A (zh) 2021-02-19
CN112382341B true CN112382341B (zh) 2023-05-26

Family

ID=74584114

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011292536.7A Active CN112382341B (zh) 2020-11-18 2020-11-18 一种用于鉴定食管鳞癌预后相关的生物标志物的方法

Country Status (1)

Country Link
CN (1) CN112382341B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113777311B (zh) * 2021-09-16 2023-08-01 郑州大学 一种用于食管鳞癌辅助诊断的elisa试剂盒
CN113823356B (zh) * 2021-09-27 2024-05-28 电子科技大学长三角研究院(衢州) 一种甲基化位点识别方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2898091A1 (en) * 2012-09-21 2015-07-29 Institut National de la Sante et de la Recherche Medicale (INSERM) Methods for predicting multiple myeloma treatment response
CN106893784A (zh) * 2017-05-02 2017-06-27 北京泱深生物信息技术有限公司 用于预测肝癌预后的lncRNA标志物
CN108531604A (zh) * 2018-06-07 2018-09-14 浙江省人民医院 一种非编码RNA分子lnc-DC在预测乳腺癌预后中的应用
CN108866185A (zh) * 2017-05-16 2018-11-23 肿瘤学风险公司 用于预测癌症患者中的药物响应性的方法
EP3428647A1 (en) * 2017-07-12 2019-01-16 Consejo Superior de Investigaciones Científicas (CSIC) Expression signature for glioma diagnosis and/or prognosis in a subject
CN109897899A (zh) * 2019-03-01 2019-06-18 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) 一种用于局部晚期食管鳞癌预后判断的标志物及其应用
CN111575376A (zh) * 2020-05-14 2020-08-25 复旦大学附属肿瘤医院 一组用于评估肾透明细胞癌预后的联合基因组及其应用
CN111676288A (zh) * 2020-06-19 2020-09-18 中国医学科学院肿瘤医院 用于预测肺腺癌患者预后的系统及其应用

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2898091A1 (en) * 2012-09-21 2015-07-29 Institut National de la Sante et de la Recherche Medicale (INSERM) Methods for predicting multiple myeloma treatment response
CN106893784A (zh) * 2017-05-02 2017-06-27 北京泱深生物信息技术有限公司 用于预测肝癌预后的lncRNA标志物
CN108866185A (zh) * 2017-05-16 2018-11-23 肿瘤学风险公司 用于预测癌症患者中的药物响应性的方法
EP3428647A1 (en) * 2017-07-12 2019-01-16 Consejo Superior de Investigaciones Científicas (CSIC) Expression signature for glioma diagnosis and/or prognosis in a subject
CN108531604A (zh) * 2018-06-07 2018-09-14 浙江省人民医院 一种非编码RNA分子lnc-DC在预测乳腺癌预后中的应用
CN109897899A (zh) * 2019-03-01 2019-06-18 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) 一种用于局部晚期食管鳞癌预后判断的标志物及其应用
CN111575376A (zh) * 2020-05-14 2020-08-25 复旦大学附属肿瘤医院 一组用于评估肾透明细胞癌预后的联合基因组及其应用
CN111676288A (zh) * 2020-06-19 2020-09-18 中国医学科学院肿瘤医院 用于预测肺腺癌患者预后的系统及其应用

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Prediction of Survival Time of Patients With Esophageal Squamous Cell Carcinoma Based on Univariate Analysis and ASSA-BP Neural Network;Yanfeng Wang等;《IEEE Access 》;20201001;第181127-181136页 *
食管癌术后预后模型建立及辅助治疗的临床研究;邓玮;《中国博士学位论文全文数据库》;20200215;第1-104页 *

Also Published As

Publication number Publication date
CN112382341A (zh) 2021-02-19

Similar Documents

Publication Publication Date Title
US11621080B2 (en) Methods and machine learning systems for predicting the likelihood or risk of having cancer
US11164655B2 (en) Systems and methods for predicting homologous recombination deficiency status of a specimen
JP2022521492A (ja) 相同組換え欠損を推定するための統合された機械学習フレームワーク
CN112086129B (zh) 预测肿瘤组织cfDNA的方法及系统
US20160110496A1 (en) Methods for Classifying Samples Based on Network Modularity
US20180166170A1 (en) Generalized computational framework and system for integrative prediction of biomarkers
CN108021788B (zh) 基于细胞游离dna的深度测序数据提取生物标记物的方法和装置
CN112397153A (zh) 一种用于预测食管鳞癌预后的生物标志物的筛选方法
CN112382341B (zh) 一种用于鉴定食管鳞癌预后相关的生物标志物的方法
CN115315749A (zh) 一种尿沉渣基因组dna的分类方法、装置和用途
KR20190085667A (ko) 무세포 dna를 포함하는 샘플에서 순환 종양 dna를 검출하는 방법 및 그 용도
CN115144599B (zh) 蛋白组合在制备对儿童甲状腺癌进行预后分层的试剂盒中的用途及其试剂盒、系统
CN111833963A (zh) 一种cfDNA分类方法、装置和用途
CN112831562A (zh) 一种用于预测肝癌患者切除术后复发风险的生物标志物组合、试剂盒
CN114373548A (zh) 一种基于代谢基因建立的胰腺癌预后风险预测方法和装置
US20240194294A1 (en) Artificial-intelligence-based method for detecting tumor-derived mutation of cell-free dna, and method for early diagnosis of cancer, using same
CN115831232A (zh) 一种癌症原发灶溯源方法、装置、系统及存储介质
KR20220160805A (ko) 조직 특이적 조절지역의 무세포 dna 분포를 이용한 인공지능 기반 암 조기진단 방법
Liu et al. Differentially expressed mutant genes reveal potential prognostic markers for lung adenocarcinoma
WO2023102786A1 (zh) 基因标志物在预测孕妇早产风险中的应用
CN117976060A (zh) 基于外周血的基因风险评分模型构建方法
CN111718997A (zh) 一种特征mRNA表达谱组合及胃癌早期预测方法
Mirsadeghi et al. A post-method condition analysis of using ensemble machine learning for cancer prognosis and diagnosis: a systematic review
CN113593648A (zh) 基于自噬相关lncRNA模型的乳腺癌预后评估方法及系统
CN117153392A (zh) 一种胃癌预后预测的标志物、评估模型及其构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant