CN113096730B - 一种鼻咽癌分子分型的预测系统 - Google Patents

一种鼻咽癌分子分型的预测系统 Download PDF

Info

Publication number
CN113096730B
CN113096730B CN202110362236.XA CN202110362236A CN113096730B CN 113096730 B CN113096730 B CN 113096730B CN 202110362236 A CN202110362236 A CN 202110362236A CN 113096730 B CN113096730 B CN 113096730B
Authority
CN
China
Prior art keywords
type
prediction model
molecular typing
nasopharyngeal carcinoma
molecular
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110362236.XA
Other languages
English (en)
Other versions
CN113096730A (zh
Inventor
陈明远
林美
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202110362236.XA priority Critical patent/CN113096730B/zh
Publication of CN113096730A publication Critical patent/CN113096730A/zh
Application granted granted Critical
Publication of CN113096730B publication Critical patent/CN113096730B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Genetics & Genomics (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种肿瘤分子分型预测技术领域,尤指一种鼻咽癌分子分型的预测系统,包括步骤:S1、收集X例鼻咽癌转录组表达矩阵及临床数据;S2、提取鼻咽癌不同分子亚型基因表达特征,检测差异表达基因;S3、选取构建分子分型预测模型的特征;S4、选取X*2/3例患者为训练集,剩下的X*1/3例患者为验证集;S5、根据选取的患者编码,将转录组表达矩阵拆分,列名为基因名的训练矩阵及验证矩阵;S6、构建备选预测模型;S7、以75%样本作为训练集进行交叉验证;S8、绘制受试者工作特征曲线验证其准确性,最终确定预测模型;本发明建立可应用于临床的鼻咽癌分子分型预测系统,指导临床精准个体化治疗,对鼻咽癌患者进行分子分型,可预测患者疗效,指导临床用药。

Description

一种鼻咽癌分子分型的预测系统
技术领域
本发明涉及一种肿瘤分子分型预测技术领域,尤指一种鼻咽癌分子分型的预测系统。
背景技术
鼻咽癌是一种鼻咽上皮来源的恶性肿瘤,高发于东南亚,特别是我国华南地区;在高发区,鼻咽癌分化程度低,对放射线敏感,治疗方法首选放射治疗。目前早期鼻咽癌治疗主要为单纯放疗,而中晚期鼻咽癌治疗模式混杂,包括同时期放化疗、诱导化疗联合同时期放化疗、辅助化疗联合放疗、靶向治疗联合同时期放化疗等。根据国际权威肿瘤治疗指南NCCN指南,鼻咽癌诊疗依据主要为粗放式的临床分期,但除此以外缺乏临床可用的分子分型系统。
鼻咽癌存在异质性,即使同一分期内,不同患者对同一治疗手段的敏感性不同,所以常规根治性治疗后,仍然有30~40%的患者会经历复发或转移,而不同基因表达及免疫微环境组成是导致鼻咽癌异质性的主要原因。除临床分期外,我们亟需能反映肿瘤基因特征及免疫微环境特征的分子分型辅助指导临床精准治疗。2017年,张力教授团队通过对鼻咽癌原发灶进行传统转录组测序,基于多个基因表达特征,提出了鼻咽癌三个分子亚型,其中I型鼻咽癌免疫微环境中缺乏效应免疫细胞,肿瘤增殖特征明显高于II型及III型患者,无进展生存率最差,为高危患者。然而,该分子分型提出后并未应用于临床,一是因为缺乏能准确预测患者分型的预测模型,二是因为该分子分型与患者预后关系仍未在其他队列得到验证。因此,我们需要拟基于不同鼻咽癌分子亚型的基因表达特征,建立临床可用的能准确预测患者分子分型的预测模型,预测患者预后,进而指导临床精准治疗。
目前,患者的风险分层主要是根据临床TNM分期或单一的标志物,例如按照血浆中EB病毒DNA拷贝数的数目多少将患者分为高危及低危患者,但是目前该技术仍存在缺点:基于临床分期或单一分子标志物的分层诊疗系统较为粗糙,同一分级内存在大量遗传异质性个体,未能准确预测患者预后,指导临床精准治疗;同时目前仍缺乏可应用于临床的分子分型模型。
发明内容
为解决上述问题,本发明旨在公开一种肿瘤分子分型预测技术领域,尤指一种鼻咽癌分子分型的预测系统。
为实现上述目的,本发明采用的技术方案是:
一种鼻咽癌分子分型的预测系统,其特征在于,所述的预测系统工作时包括以下步骤:
S1、收集X例鼻咽癌转录组表达矩阵及临床数据;
S2、提取鼻咽癌I型、II型、III型三种不同分子亚型基因表达特征,I、II、III型病例数目分别为a、b、c个,且步骤S1的X=a+b+c;其中I型为高增殖能力及低免疫细胞浸润型,而III型为低增殖能力及高免疫细胞浸润型,II型则介于两者之间;分别检测I型和II型,I型和III型以及II型和III型的差异表达基因;
S3、将各分子分型的基因表达特征选取为构建分子分型预测模型的特征,其中I、II、III型基因表达特征数目分别为d、e、f个,且d+e+f=Y;
S4、载入“mlbench”R包,以患者编码为唯一识别,随机选取X*2/3例患者为训练集,剩下的X*1/3例患者为验证集;
S5、根据选取的患者编码,使用“match”函数将转录组表达矩阵拆分为行名为患者编码,列名为基因名的训练矩阵及验证矩阵,分别存入“train”及“validation”变量中;
S6、载入“caret”R包,使用训练矩阵及对应的分子分型标签,构建备选预测模型;
S7、为防止预测模型过拟合,使用least-group out方法以75%样本作为训练集进行交叉验证,以准确性作为标准自动挑选分子分型预测模型;
S8、使用构建的分子预测模型预测验证集患者的分子分型,并与实际情况进行对比,绘制受试者工作特征曲线验证其准确性,最终确定预测模型。
优选地,步骤S2中,使用秩和检验分别检测不同亚型的差异表达基因。
优选地,步骤S3中选取构建子分型预测模型特征时,在有标签的训练集中使用随机森林算法构建分子分型预测模型。
优选地,步骤S6中,构建备选预测模型时,利用train函数,设定算法为随机森林,迭代100次。
优选地,步骤S8中,利用predict函数使用构建的分子预测模型。
优选地,步骤S8中,确定预测模型时,将预测模型保存为“Rdata”形式。
本发明的有益效果体现在:本发明建立可应用于临床的鼻咽癌分子分型预测系统,指导临床精准个体化治疗,对鼻咽癌患者进行分子分型,可预测患者疗效,指导临床用药。本发明基于基因表达谱,提取鼻咽癌各分子亚型的基因表达特征;基于基因表达特征即基因群构建鼻咽癌分子分型预测模型,以及验证构建的鼻咽癌分子分型模型的准确性。
本发明通过鼻咽癌不同分子亚型基因表达特征,在有标签的训练集中使用随机森林算法构建分子分型预测模型,将模型应用于验证集,绘制受试者工作特征曲线验证其准确性,最终确定预测鼻咽癌分子分型的模型,指导临床精准个体化治疗,提高鼻咽癌整体疗效。
附图说明
图1为本发明预测系统的步骤流程图。
图2为受试者工作特征曲线,验证本发明预测模型的效能。
图3为统计的各分子分型预测可能性。
图4为预测的不同分子亚型生存曲线及对应风险比(HR)。
具体实施方式
下面结合附图详细说明本发明的具体实施方式:
一种鼻咽癌分子分型的预测系统,其特征在于,所述的预测系统工作时包括以下步骤:
S1、收集X例鼻咽癌转录组表达矩阵及临床数据;
S2、提取鼻咽癌I型、II型、III型三种不同分子亚型基因表达特征,I、II、III型病例数目分别为a、b、c个,本实施例中,a=21,b=31,c=61,且步骤S1的X=a+b+c=113;其中I型为高增殖能力及低免疫细胞浸润型,而III型为低增殖能力及高免疫细胞浸润型,II型则介于两者之间;使用秩和检验分别检测I型和II型,I型和III型以及II型和III型的差异表达基因并取交集,使用Kruskal-Wallis检验及bonferroni检验校正P值以在三组间验证差异表达基因可靠性,最终的基因表达特征见表1;
S3、将各分子分型的基因表达特征选取为构建分子分型预测模型的特征,其中I、II、III型基因表达特征数目分别为d、e、f个,本实施例中,d=60,e=226,f=17,且d+e+f=Y=303;在有标签的训练集中使用随机森林算法构建分子分型预测模型;
S4、载入“mlbench”R包,以患者编码为唯一识别,随机选取X*2/3例患者为训练集,剩下的X*1/3例患者为验证集;
S5、根据选取的患者编码,使用“match”函数将转录组表达矩阵拆分为行名为患者编码,列名为基因名的训练矩阵及验证矩阵,分别存入“train”及“validation”变量中;
S6、载入“caret”R包,使用训练矩阵及对应的分子分型标签,构建备选预测模型,构建备选预测模型时,利用train函数,设定算法为随机森林,迭代100次;
S7、为防止预测模型过拟合,使用least-group out方法以75%样本作为训练集进行交叉验证,以准确性作为主要标准自动挑选分子分型预测模型;
S8、利用predict函数使用构建的分子预测模型预测验证集患者的分子分型,并与实际情况进行对比,绘制受试者工作特征曲线验证其准确性(图2),最终确定预测模型,将预测模型保存为“Rdata”形式。
收集23例初治鼻咽癌的组织标本作为外部验证集,进行传统RNA-seq测序,使用STAR软件对原始数据进行比对,并使用RSEM进行表达定量,得到行名为患者编码,列名为基因名表达矩阵,加载构建的分子分型预测模型,使用predict函数将上述构建模型应用于外部验证集,依据推测的可能性发现其中17.4%(4)为I型,30.4%(7)为II型,52.2%(12)为III型。统计预测可能性,与预期相符,I型患者I型预测可能性最高,II型患者II型预测可能性最高,III型患者III型预测可能性最高(图3),进行生存分析发现,与训练集及验证集一致,I型患者生存预后最差(图4)
表1
Figure GDA0003445710800000061
Figure GDA0003445710800000071
Figure GDA0003445710800000081
Figure GDA0003445710800000091
Figure GDA0003445710800000101
Figure GDA0003445710800000111
Figure GDA0003445710800000121
Figure GDA0003445710800000131
以上所述,仅是本发明的较佳实施例,并非对本发明的技术范围作任何限制,本行业的技术人员,在本技术方案的启迪下,可以做出一些变形与修改,凡是依据本发明的技术实质对以上的实施例所作的任何修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (6)

1.一种鼻咽癌分子分型的预测系统,其特征在于,所述的预测系统工作时包括以下步骤:
S1、收集X例鼻咽癌转录组表达矩阵及临床数据;
S2、提取鼻咽癌I型、II型、III型三种不同分子亚型基因表达特征,I、II、III型病例数目分别为a、b、c个,且步骤S1的X=a+b+c;其中I型为高增殖能力及低免疫细胞浸润型,而III型为低增殖能力及高免疫细胞浸润型,II型则介于两者之间;分别检测I型和II型,I型和III型以及II 型和III型的差异表达基因;
S3、将各分子分型的基因表达特征选取为构建分子分型预测模型的特征,其中I、II、III型基因表达特征数目分别为d、e、f个,且d+e+f=Y;
S4、 载入“mlbench”R 包,以患者编码为唯一识别,随机选取X*2/3例患者为训练集,剩下的X*1/3例患者为验证集;
S5、根据选取的患者编码,使用“match”函数将转录组表达矩阵拆分为行名为患者编码,列名为基因名的训练矩阵及验证矩阵,分别存入“train”及“validation”变量中;
S6、载入“caret”R包,使用训练矩阵及对应的分子分型标签,构建备选预测模型;
S7、使用least-group out 方法以75%样本作为训练集进行交叉验证,以准确性作为标准自动挑选分子分型预测模型;
S8、使用构建的分子预测模型预测验证集患者的分子分型,并与实际情况进行对比,绘制受试者工作特征曲线验证其准确性,最终确定预测模型。
2.根据权利要求1所述的一种鼻咽癌分子分型的预测系统,其特征在于,步骤S2中,使用秩和检验分别检测I型和II型,I型和III型以及II 型和III型不同亚型的差异表达基因。
3.根据权利要求1所述的一种鼻咽癌分子分型的预测系统,其特征在于,步骤S3中选取构建子分型预测模型特征时,在有标签的训练集中使用随机森林算法构建分子分型预测模型。
4.根据权利要求1所述的一种鼻咽癌分子分型的预测系统,其特征在于,步骤S6中,构建备选预测模型时,利用train函数,设定算法为随机森林,迭代100次。
5.根据权利要求1所述的一种鼻咽癌分子分型的预测系统,其特征在于,步骤S8中,利用predict函数使用构建的分子预测模型。
6.根据权利要求1所述的一种鼻咽癌分子分型的预测系统,其特征在于,步骤S8中,确定预测模型时,将预测模型保存为“Rdata”形式。
CN202110362236.XA 2021-04-02 2021-04-02 一种鼻咽癌分子分型的预测系统 Active CN113096730B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110362236.XA CN113096730B (zh) 2021-04-02 2021-04-02 一种鼻咽癌分子分型的预测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110362236.XA CN113096730B (zh) 2021-04-02 2021-04-02 一种鼻咽癌分子分型的预测系统

Publications (2)

Publication Number Publication Date
CN113096730A CN113096730A (zh) 2021-07-09
CN113096730B true CN113096730B (zh) 2022-02-25

Family

ID=76673823

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110362236.XA Active CN113096730B (zh) 2021-04-02 2021-04-02 一种鼻咽癌分子分型的预测系统

Country Status (1)

Country Link
CN (1) CN113096730B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113903400A (zh) * 2021-10-29 2022-01-07 复旦大学附属华山医院 免疫相关疾病分子分型和亚型分类器的分类方法、系统
CN114694748B (zh) * 2022-02-22 2022-10-28 中国人民解放军军事科学院军事医学研究院 一种基于预后信息与强化学习的蛋白质组学分子分型方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006091776A2 (en) * 2005-02-25 2006-08-31 The Brigham And Women's Hospital, Inc. Biomarkers for predicting prostate cancer progression
US10446272B2 (en) * 2009-12-09 2019-10-15 Veracyte, Inc. Methods and compositions for classification of samples
GB201120711D0 (en) * 2011-12-01 2012-01-11 Univ Erasmus Medical Ct Method for classifying tumour cells
US11208697B2 (en) * 2017-01-20 2021-12-28 Decipher Biosciences, Inc. Molecular subtyping, prognosis, and treatment of bladder cancer
AU2020274091A1 (en) * 2019-05-14 2021-12-09 Tempus Ai, Inc. Systems and methods for multi-label cancer classification
CN110564853A (zh) * 2019-08-21 2019-12-13 上海交通大学医学院附属新华医院 调查肺癌临床病理与基因表达之间关系的方法
CN110468207B (zh) * 2019-09-02 2021-03-23 北京师范大学 基于Taqman低密度芯片的胶质瘤EM/PM分子分型方法及其应用
CN112111576A (zh) * 2020-09-29 2020-12-22 杨帆 用于筛查鼻咽癌的方法及应用

Also Published As

Publication number Publication date
CN113096730A (zh) 2021-07-09

Similar Documents

Publication Publication Date Title
Hansen et al. BSmooth: from whole genome bisulfite sequencing reads to differentially methylated regions
Habermann et al. Stage‐specific alterations of the genome, transcriptome, and proteome during colorectal carcinogenesis
CN113096730B (zh) 一种鼻咽癌分子分型的预测系统
Tinker et al. The challenges of gene expression microarrays for the study of human cancer
Sanz-Pamplona et al. Clinical value of prognosis gene expression signatures in colorectal cancer: a systematic review
Chen et al. Transcriptomic analyses identify key differentially expressed genes and clinical outcomes between triple-negative and non-triple-negative breast cancer
JP2022521492A (ja) 相同組換え欠損を推定するための統合された機械学習フレームワーク
Velmahos et al. Using deep learning to identify bladder cancers with FGFR‐activating mutations from histology images
CN111128385B (zh) 一种用于食管鳞癌的预后预警系统及其应用
Huang et al. Molecular portrait of breast cancer in C hina reveals comprehensive transcriptomic likeness to C aucasian breast cancer and low prevalence of luminal A subtype
US20220136063A1 (en) Method of predicting survival rates for cancer patients
Wang et al. A novel multidimensional signature predicts prognosis in hepatocellular carcinoma patients
CN108256289A (zh) 一种基于目标区域捕获测序基因组拷贝数变异的方法
CN109988708B (zh) 一种用于对患有结肠直肠癌的患者进行分型的系统
MX2011004589A (es) Metodos para ensamblar paneles de lineas de celulas de cancer para uso para probar la eficiencia de una o mas composiciones farmaceuticas.
Wang et al. Identification of key genes and prognostic value analysis in hepatocellular carcinoma by integrated bioinformatics analysis
CN115141887A (zh) 基于分泌细胞富集特征的结肠癌预后及辅助化疗获益的评分模型、构建方法及应用
Moosavi et al. De novo transcriptomic subtyping of colorectal cancer liver metastases in the context of tumor heterogeneity
CN109929934B (zh) 免疫相关基因在结直肠癌预后的试剂盒和系统中的应用
Liu et al. A Nomogram Based on a Three‐Gene Signature Derived from AATF Coexpressed Genes Predicts Overall Survival of Hepatocellular Carcinoma Patients
Bicciato et al. A computational procedure to identify significant overlap of differentially expressed and genomic imbalanced regions in cancer datasets
Singh et al. TuBA: tunable biclustering algorithm reveals clinically relevant tumor transcriptional profiles in breast cancer
Hobbs et al. Biostatistics and bioinformatics in clinical trials
Delmonico et al. Expression concordance of 325 novel RNA biomarkers between data generated by NanoString nCounter and Affymetrix GeneChip
US20240068041A1 (en) Free dna-based disease prediction model and construction method therefor and application thereof

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant