CN113096730B

CN113096730B - 一种鼻咽癌分子分型的预测系统

Info

Publication number: CN113096730B
Application number: CN202110362236.XA
Authority: CN
Inventors: 陈明远; 林美
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-04-02
Filing date: 2021-04-02
Publication date: 2022-02-25
Anticipated expiration: 2041-04-02
Also published as: CN113096730A

Abstract

本发明涉及一种肿瘤分子分型预测技术领域，尤指一种鼻咽癌分子分型的预测系统，包括步骤：S1、收集X例鼻咽癌转录组表达矩阵及临床数据；S2、提取鼻咽癌不同分子亚型基因表达特征，检测差异表达基因；S3、选取构建分子分型预测模型的特征；S4、选取X*2/3例患者为训练集，剩下的X*1/3例患者为验证集；S5、根据选取的患者编码，将转录组表达矩阵拆分，列名为基因名的训练矩阵及验证矩阵；S6、构建备选预测模型；S7、以75%样本作为训练集进行交叉验证；S8、绘制受试者工作特征曲线验证其准确性，最终确定预测模型；本发明建立可应用于临床的鼻咽癌分子分型预测系统，指导临床精准个体化治疗，对鼻咽癌患者进行分子分型，可预测患者疗效，指导临床用药。

Description

一种鼻咽癌分子分型的预测系统

技术领域

本发明涉及一种肿瘤分子分型预测技术领域，尤指一种鼻咽癌分子分型的预测系统。

背景技术

鼻咽癌是一种鼻咽上皮来源的恶性肿瘤，高发于东南亚，特别是我国华南地区；在高发区，鼻咽癌分化程度低，对放射线敏感，治疗方法首选放射治疗。目前早期鼻咽癌治疗主要为单纯放疗，而中晚期鼻咽癌治疗模式混杂，包括同时期放化疗、诱导化疗联合同时期放化疗、辅助化疗联合放疗、靶向治疗联合同时期放化疗等。根据国际权威肿瘤治疗指南NCCN指南，鼻咽癌诊疗依据主要为粗放式的临床分期，但除此以外缺乏临床可用的分子分型系统。

鼻咽癌存在异质性，即使同一分期内，不同患者对同一治疗手段的敏感性不同，所以常规根治性治疗后，仍然有30～40％的患者会经历复发或转移，而不同基因表达及免疫微环境组成是导致鼻咽癌异质性的主要原因。除临床分期外，我们亟需能反映肿瘤基因特征及免疫微环境特征的分子分型辅助指导临床精准治疗。2017年，张力教授团队通过对鼻咽癌原发灶进行传统转录组测序，基于多个基因表达特征，提出了鼻咽癌三个分子亚型，其中I型鼻咽癌免疫微环境中缺乏效应免疫细胞，肿瘤增殖特征明显高于II型及III型患者，无进展生存率最差，为高危患者。然而，该分子分型提出后并未应用于临床，一是因为缺乏能准确预测患者分型的预测模型，二是因为该分子分型与患者预后关系仍未在其他队列得到验证。因此，我们需要拟基于不同鼻咽癌分子亚型的基因表达特征，建立临床可用的能准确预测患者分子分型的预测模型，预测患者预后，进而指导临床精准治疗。

目前，患者的风险分层主要是根据临床TNM分期或单一的标志物，例如按照血浆中EB病毒DNA拷贝数的数目多少将患者分为高危及低危患者，但是目前该技术仍存在缺点：基于临床分期或单一分子标志物的分层诊疗系统较为粗糙，同一分级内存在大量遗传异质性个体，未能准确预测患者预后，指导临床精准治疗；同时目前仍缺乏可应用于临床的分子分型模型。

发明内容

为解决上述问题，本发明旨在公开一种肿瘤分子分型预测技术领域，尤指一种鼻咽癌分子分型的预测系统。

为实现上述目的，本发明采用的技术方案是：

一种鼻咽癌分子分型的预测系统，其特征在于，所述的预测系统工作时包括以下步骤：

S1、收集X例鼻咽癌转录组表达矩阵及临床数据；

S2、提取鼻咽癌I型、II型、III型三种不同分子亚型基因表达特征，I、II、III型病例数目分别为a、b、c个，且步骤S1的X＝a+b+c；其中I型为高增殖能力及低免疫细胞浸润型，而III型为低增殖能力及高免疫细胞浸润型，II型则介于两者之间；分别检测I型和II型，I型和III型以及II型和III型的差异表达基因；

S3、将各分子分型的基因表达特征选取为构建分子分型预测模型的特征，其中I、II、III型基因表达特征数目分别为d、e、f个，且d+e+f＝Y；

S4、载入“mlbench”R包，以患者编码为唯一识别，随机选取X*2/3例患者为训练集，剩下的X*1/3例患者为验证集；

S5、根据选取的患者编码，使用“match”函数将转录组表达矩阵拆分为行名为患者编码，列名为基因名的训练矩阵及验证矩阵，分别存入“train”及“validation”变量中；

S6、载入“caret”R包，使用训练矩阵及对应的分子分型标签，构建备选预测模型；

S7、为防止预测模型过拟合，使用least-group out方法以75％样本作为训练集进行交叉验证，以准确性作为标准自动挑选分子分型预测模型；

S8、使用构建的分子预测模型预测验证集患者的分子分型，并与实际情况进行对比，绘制受试者工作特征曲线验证其准确性，最终确定预测模型。

优选地，步骤S2中，使用秩和检验分别检测不同亚型的差异表达基因。

优选地，步骤S3中选取构建子分型预测模型特征时，在有标签的训练集中使用随机森林算法构建分子分型预测模型。

优选地，步骤S6中，构建备选预测模型时，利用train函数，设定算法为随机森林，迭代100次。

优选地，步骤S8中，利用predict函数使用构建的分子预测模型。

优选地，步骤S8中，确定预测模型时，将预测模型保存为“Rdata”形式。

本发明的有益效果体现在：本发明建立可应用于临床的鼻咽癌分子分型预测系统，指导临床精准个体化治疗，对鼻咽癌患者进行分子分型，可预测患者疗效，指导临床用药。本发明基于基因表达谱，提取鼻咽癌各分子亚型的基因表达特征；基于基因表达特征即基因群构建鼻咽癌分子分型预测模型，以及验证构建的鼻咽癌分子分型模型的准确性。

本发明通过鼻咽癌不同分子亚型基因表达特征，在有标签的训练集中使用随机森林算法构建分子分型预测模型，将模型应用于验证集，绘制受试者工作特征曲线验证其准确性，最终确定预测鼻咽癌分子分型的模型，指导临床精准个体化治疗，提高鼻咽癌整体疗效。

附图说明

图1为本发明预测系统的步骤流程图。

图2为受试者工作特征曲线，验证本发明预测模型的效能。

图3为统计的各分子分型预测可能性。

图4为预测的不同分子亚型生存曲线及对应风险比(HR)。

具体实施方式

下面结合附图详细说明本发明的具体实施方式：

S1、收集X例鼻咽癌转录组表达矩阵及临床数据；

S2、提取鼻咽癌I型、II型、III型三种不同分子亚型基因表达特征，I、II、III型病例数目分别为a、b、c个，本实施例中，a＝21,b＝31,c＝61，且步骤S1的X＝a+b+c＝113；其中I型为高增殖能力及低免疫细胞浸润型，而III型为低增殖能力及高免疫细胞浸润型，II型则介于两者之间；使用秩和检验分别检测I型和II型，I型和III型以及II型和III型的差异表达基因并取交集，使用Kruskal-Wallis检验及bonferroni检验校正P值以在三组间验证差异表达基因可靠性，最终的基因表达特征见表1；

S3、将各分子分型的基因表达特征选取为构建分子分型预测模型的特征，其中I、II、III型基因表达特征数目分别为d、e、f个，本实施例中，d＝60,e＝226,f＝17，且d+e+f＝Y＝303；在有标签的训练集中使用随机森林算法构建分子分型预测模型；

S6、载入“caret”R包，使用训练矩阵及对应的分子分型标签，构建备选预测模型，构建备选预测模型时，利用train函数，设定算法为随机森林，迭代100次；

S7、为防止预测模型过拟合，使用least-group out方法以75％样本作为训练集进行交叉验证，以准确性作为主要标准自动挑选分子分型预测模型；

S8、利用predict函数使用构建的分子预测模型预测验证集患者的分子分型，并与实际情况进行对比，绘制受试者工作特征曲线验证其准确性(图2)，最终确定预测模型，将预测模型保存为“Rdata”形式。

收集23例初治鼻咽癌的组织标本作为外部验证集，进行传统RNA-seq测序，使用STAR软件对原始数据进行比对，并使用RSEM进行表达定量，得到行名为患者编码，列名为基因名表达矩阵，加载构建的分子分型预测模型，使用predict函数将上述构建模型应用于外部验证集，依据推测的可能性发现其中17.4％(4)为I型，30.4％(7)为II型，52.2％(12)为III型。统计预测可能性，与预期相符，I型患者I型预测可能性最高，II型患者II型预测可能性最高，III型患者III型预测可能性最高(图3)，进行生存分析发现，与训练集及验证集一致，I型患者生存预后最差(图4)

表1

以上所述，仅是本发明的较佳实施例，并非对本发明的技术范围作任何限制，本行业的技术人员，在本技术方案的启迪下，可以做出一些变形与修改，凡是依据本发明的技术实质对以上的实施例所作的任何修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种鼻咽癌分子分型的预测系统，其特征在于，所述的预测系统工作时包括以下步骤：

S1、收集X例鼻咽癌转录组表达矩阵及临床数据；

S2、提取鼻咽癌I型、II型、III型三种不同分子亚型基因表达特征，I、II、III型病例数目分别为a、b、c个，且步骤S1的X=a+b+c；其中I型为高增殖能力及低免疫细胞浸润型，而III型为低增殖能力及高免疫细胞浸润型，II型则介于两者之间；分别检测I型和II型，I型和III型以及II 型和III型的差异表达基因；

S3、将各分子分型的基因表达特征选取为构建分子分型预测模型的特征，其中I、II、III型基因表达特征数目分别为d、e、f个，且d+e+f=Y；

S4、载入“mlbench”R 包，以患者编码为唯一识别，随机选取X*2/3例患者为训练集，剩下的X*1/3例患者为验证集；

S7、使用least-group out 方法以75%样本作为训练集进行交叉验证，以准确性作为标准自动挑选分子分型预测模型；

2.根据权利要求1所述的一种鼻咽癌分子分型的预测系统，其特征在于，步骤S2中，使用秩和检验分别检测I型和II型，I型和III型以及II 型和III型不同亚型的差异表达基因。

3.根据权利要求1所述的一种鼻咽癌分子分型的预测系统，其特征在于，步骤S3中选取构建子分型预测模型特征时，在有标签的训练集中使用随机森林算法构建分子分型预测模型。

4.根据权利要求1所述的一种鼻咽癌分子分型的预测系统，其特征在于，步骤S6中，构建备选预测模型时，利用train函数，设定算法为随机森林，迭代100次。

5.根据权利要求1所述的一种鼻咽癌分子分型的预测系统，其特征在于，步骤S8中，利用predict函数使用构建的分子预测模型。

6.根据权利要求1所述的一种鼻咽癌分子分型的预测系统，其特征在于，步骤S8中，确定预测模型时，将预测模型保存为“Rdata”形式。