CN111081317A

CN111081317A - 一种基于基因谱的乳腺癌淋巴结转移预测方法及预测系统

Info

Publication number: CN111081317A
Application number: CN201911256705.9A
Authority: CN
Inventors: 张海霞; 李云鹤; 袁东风
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2020-04-28
Anticipated expiration: 2039-12-10
Also published as: CN111081317B

Abstract

本发明涉及一种基于基因谱的乳腺癌淋巴结转移预测方法及预测系统，属于数据模型预测技术领域，包括步骤如下：进入GEO平台，选择数据集，获得样本，包括RNA数据及临床数据；(2)数据预处理：将获得的样本分为有淋巴结转移和无淋巴结转移两类，(3)特征选择步骤：选择在有淋巴结转移和无淋巴结转移的样本中表现差异的差异基因，利用机器学习方法挑选基因特征；(4)预测步骤：通过至少两个方法训练预测模型，并测试不同预测模型的准确率，选择以步骤(3)所得差异基因为特征输入得到的预测准确率最高的模型。本发明利用TCGA数据库，设计了准确率高的特征选择方法，进而提高了预测的准确率，预测准确率可达97％。

Description

一种基于基因谱的乳腺癌淋巴结转移预测方法及预测系统

技术领域

本发明涉及一种基于基因表达谱和机器学习方法的乳腺癌淋巴结转移预测方法及预测系统，属于数据模型预测技术领域。

背景技术

根据国家癌症研究中心《2018年全球癌症统计数据》显示，乳腺癌高居全球女性癌症发病率和死亡率的榜首。而癌症死亡率高的主要原因则是癌细胞的转移，因此在早期精确的确定转移指标可以有效的增加患者的存活率。

近年来，测序技术飞速发展，也广泛应用到了科学研究之中，GEO数据库全称GENEEXPRESSION OMNIBUS，是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库。它创建于2000年，收录了世界各国研究机构提交的高通量基因表达数据，也就是说只要是目前已经发表的论文，论文中涉及到的基因表达检测的数据都可以通过这个数据库中找到。

其中，MicroRNAs(miRNAs)是在真核生物中发现的一类内源性的具有调控功能的非编码RNA，其大小长约20-25个核苷酸。miRNA在肿瘤发生发展、生物发育、器官形成、病毒防御、表观调控以及代谢等方面起着极其重要的调控作用，并且，已经证实MiRNA的表达在乳腺癌中有重要的调控作用。通过对miRNA基因组的基因表达量的分析可以识别基因活动的模式，这些基因活动可以对进展进行评估。

随着大数据的高速发展，使机器学习技术应用在预测等方面成为可能。大多数乳腺癌患者具有高复发风险，因此在治疗后提供辅助全身治疗。然而，具有相似临床表现和病理的乳腺肿瘤患者通常具有非常不同的治疗反应和结果。同时，如果没有早期精确的转移指标，后续容易发生相当大的过度治疗。因此，利用机器学习可以在大量基因表达谱基础上总结出肿瘤病变的一些规律，以便接下来开展更有针对性的治疗。

发明内容

针对现有技术的不足，本发明提供一种基于基因谱的乳腺癌淋巴结转移预测方法及预测系统。

本发明的技术方案如下：

一种基于基因谱的乳腺癌淋巴结转移预测方法，包括步骤如下：

(1)进入GEO平台，选择数据集，获得样本，包括RNA数据及临床数据；

(2)数据预处理：将获得的样本分为有淋巴结转移和无淋巴结转移两类，

(3)特征选择步骤：选择在有淋巴结转移和无淋巴结转移的样本中表现差异的差异基因，利用机器学习方法挑选基因特征；

(4)预测步骤：通过至少两个方法训练预测模型，并测试不同预测模型的准确率，选择以步骤(3)所得差异基因为特征输入得到的预测准确率最高的模型。

优选的，步骤(1)中，进入GEO(Gene Expression Omnibus)平台，选择GSE17705数据集，下载后缀为.txt.gz的文件，其中包含一定数量样本的RNA数据及临床数据，从中提取到四类可用的信息：基因名称、normalized_read_count值、distant relapse(1＝dr,0censored)、nodal status(0＝negative,1＝positive,na＝not applicable)。

优选的，步骤(2)的具体步骤为：对于获取到的数据集，首先从中选取nodalstatus值作为标签，将样本被分为有淋巴结转移和无淋巴结转移两类；

其次需要将数据集中提供的Ensemble ID转换成HUGO ID，方便后面的计算，转换过程通过调用R语言中的biomaRt包及synapseclient包实现；

数据集中包含有六万多条基因表达量数据，数据量比较大，处理耗时，因此剔除掉表达量中“0”的数量超过100个的基因，这些基因应该对分类指导意义不大；

选取normalized_read_count值作为特征值，这样所有特征都是numerical数据，标准化numerical数据，把numerical数据给放在一个标准分布(-1，1)内，让数据点更平滑，更便于计算，加速收敛。

优选的，步骤(3)的具体步骤为：

①对经过步骤(2)处理后得到的数据进行差异表达分析：将RNA表达量数据归一化，即min-max标准化，对原始数据的线性变换，使结果落到[0,1]区间，转换函数如下：

其中max为样本数据的最大值，min为样本数据的最小值，从而避免单个数据过大或过小，使其符合正态分布，并进行以二为底的对数转换，绘制出基因火山图，查看整体分布情况；

②挑选出差异基因：利用R语言的stattest函数把fold change和P-value结合在一起进行筛选，所述fold change为基因表达值的差异倍数，也就是差异倍数的变化，假设A基因表达值为1，B基因表达值为3，那么B基因的表达就是A基因的3倍，所述P-value为差异基因的显著性，是一种概率，用来判断假设是否成立的依据；

筛选出p值小于0.01，log₂FC值大于8的差异基因，根据先验研究表明，满足这些条件的基因具有显著差异，在有淋巴结转移和无淋巴结转移的样本中分别表现为上调和下调，上调就是基因转录成mRNA时受到正向调控，促进表达。下调是受到抑制，表达量减少；

③对差异基因进行层次聚类分析，确认该差异基因是否能分开有淋巴结转移和无淋巴结转移两类不同的样本：用R语言的gplots包中的heatmap绘制基因和样本的层次聚类查看差异表达信息，所述基因为通过步骤(3)的步骤②挑选出的差异基因，所述样本为步骤(2)中挑选出的有淋巴节转移和无淋巴结转移两类样本，能明显看出两类不同样本在筛选出的基因上有明显差异表达。以横轴表示样本，纵轴表示基因，聚类后就可呈现出一定的模式出来。如果在有淋巴结转移样本和无淋巴结转移样本中间画一个竖线，很明显能看到有淋巴结转移样本富集在一起，无淋巴结转移样本也富集在一起，则表明筛选出来的差异基因可以非常准确的把这两组不同的样本显著的分开，挑选的差异基因准确；本步骤③目的就是观察挑选出的差异基因是否能准确，即能否把两类样本区分开。如果挑选的差异基因准确，进行下一步步骤④验证，如果挑选不准确，则返回步骤②改变筛选值；

④差异基因功能分析：通过步骤(3)的步骤③的差异分析，我们可以知道不同分组间是否存在差异，存在差异的是哪些基因。再进一步，需要探究这些基因的表达量出现差异是由哪些生物学过程介导的。进行GO功能注释和KEGG通路富集分析，富集是将基因根据一些先验的知识(也就是常见的注释)进行分类的过程，这里主要使用工具为分析网站，所述分析网站为David：做基因注释和功能富集分析的网站；使用通过步骤(3)的步骤②得到的差异基因数据集，将差异基因按照在两类样本中的差异表达程度排序，然后检验差异基因集合是否在这个排序表的顶端或者底端富集；基因集合富集分析检测基因集合而不是单个基因的表达变化，因此可以包含这些细微的表达变化，预期得到更为理想的结果。如果富集，进入步骤⑤，如果不富集，返回步骤②改变筛选值；

⑤利用机器学习方法挑选基因特征：在通过差异基因的筛选之后，通过机器学习的方法，使用过滤式的特征选择来挑选出更为稳健的基因特征；

进行ReliefF特征选择，给每个基因特征赋予一个得分，根据得分，对基因的重要性进行排序，通过自上而下的包裹式方法，从排序列表的前两个特征开始，一次添加10％的特征，在每个增量中使用LOPOCV，即一对交叉验证来评估训练样本分类的准确度，找到准确度最高时对应的特征数量，所述准确度为使用该数量的基因特征时、预测的样本种类为实际所属样本种类的个数除以预测样本种类的总个数所得到的百分比，即预测的样本种类为实际所属样本种类的个数/预测样本种类的总个数*100％。我们有几百条特征，但是我们不清楚这些特征是不是都对我们的预测有帮助，因此，通过对特征数量的遍历，找到使用多少条特征的时候得到的预测效果最好。

本发明利用了机器学习方法挑选基因特征。根据调研文献及观察实验结果，发现差异基因作为特征并不能完全得到较好的分类结果，有些差异基因并不适合作为特征，因此在通过差异基因的筛选之后，需要通过机器学习的方法，使用过滤式的特征选择来挑选出更为稳健的基因特征。

步骤(4)的具体步骤为：

①在临床数据中，共选取了distant relapse和nodal status两项，首先利用卡方检验来比较两个因素是否相关，即乳腺癌的复发性是否与淋巴结的转移性相关。卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度，实际观测值与理论推断值之间的偏离程度就决定卡方值的大小，卡方值越大，越不符合；卡方值越小，偏差越小，越趋于符合，若两个值完全相等时，卡方值就为0，表明理论值完全符合；卡方检验分析有一些应用条件，这里我们的分析情况是四格表：两行两列，在不同的条件下要使用不同的检验。两类独立样本比较可分为以下三种情况：

1.所有的理论样本数T≥5并且总样本数量n≥40，用Pearson卡方进行检验；共有乳腺癌复发-淋巴结转移、乳腺癌未复发-淋巴结转移、乳腺癌复发-淋巴结未转移、乳腺癌未复发-淋巴结未转移、这四种情况，每种情况的理论上样本值都大于5，即理论数T>5，总样本量n即步骤(1)中提到的样本数量，如298例乳腺癌样本；

2.如果理论样本数T＜5但T≥1,并且总样本数量n≥40，用连续性校正的卡方进行检验；

3.如果有理论样本数T＜1或总样本数量n＜40，则用Fisher’s检验；

如果检验结果证实两个因素相关，进入步骤②，如果不相关，返回步骤①改变检验方法；

②将经过步骤(3)中的步骤②处理得到的数据分为训练集和测试集，其中取20％作为测试集，80％作为训练集，采用十折交叉验证；

③将步骤(4)中的步骤②步得到的训练集数据分别通过SVM、随机森林、逻辑回归方法进行训练，从而训练出初步的乳腺癌淋巴结转移性预测模型，采用步骤(4)中的步骤②步得到的测试集对前述三种预测模型进行测试，模型直接输出准确率，最终选择针对nodalstatus这一指标以差异基因为特征输入得到的预测准确率最高的模型。

一种基于基因谱的乳腺癌淋巴结转移的预测系统，包括数据预处理模块、特征处理模块、训练验证模块，所述数据预处理模块用于从GEO平台获取样本数据集、并对样本数据进行预处理，所述样本数据集包括RNA数据及临床数据，所述预处理包括样本分类、数据转换、数据标准化；所述特征处理模块用于在数据预处理模块处理后的数据中挑选差异基因、并利用机器学习方法挑选基因特征；所述训练验证模块包括至少两个预测模型，训练验证模块用于将差异基因为特征输入预测模型中训练得到的预测准确率最高的预测模型。

本发明的有益效果在于：

本发明在进行数据集的划分时，选用“nodal status”为标签，即淋巴结的转移性，通过淋巴结来预测转移性，是可靠的，在淋巴结转移时进行预测，可以较早的发现肿瘤的转移，从而为后续达到较好的治疗效果提供参考。

本发明利用TCGA数据库，设计了准确率高的特征选择方法，进而提高了预测的准确率，本发明的预测准确率可达97％。利用基因表达谱与机器学习结合的方法对乳腺癌的淋巴结转移进行预测，是对精准模型的具体应用，有利于尽早发现病情，后续采取有针对性的手段，同时避免了后续过度治疗的发生。

附图说明

图1是根据本发明实施例的基于基因表达谱的乳腺癌淋巴结转移预测方法流程图。

具体实施方式

下面通过实施例并结合附图对本发明做进一步说明，但不限于此。

实施例1：

一种基于基因谱的乳腺癌淋巴结转移预测方法，根据本发明实施例，基于基因表达谱与机器学习方法相结合的乳腺癌淋巴结转移预测方法，利用基因表达谱及临床数据，最终确定预测乳腺癌淋巴结转移的模型。

如图1所示，(1)进入GEO平台，获取RNA数据及临床数据，进入GEO(GeneExpression Omnibus)平台，选择GSE17705数据集，下载后缀为.txt.gz的文件，其中包含298个乳腺癌样本的RNA数据及临床数据，从中提取到四类可用的信息：基因名称、normalized_read_count值、distant relapse(1＝dr,0censored)、nodal status(0＝negative,1＝positive,na＝not applicable)。

(2)数据预处理：对于获取到的数据集，选取nodal status值作为标签，根据nodalstatus值将样本分为有淋巴结转移和无淋巴结转移两类，其次将基因名称进行转换，将数据集中提供的Ensemble ID转换成HUGO ID，方便后面的计算，该过程通过调用R中的biomaRt包及synapseclient包实现。为了节省运算量，剔除掉表达量中“0”的数量超过100的基因。选取normalized_read_count值作为特征值，标准化numerical数据，把源数据给放在一个标准分布(-1，1)内。

(3)特征选择步骤：进行了差异基因的miRNA的分析。

其中max为样本数据的最大值，min为样本数据的最小值，从而避免单个数据过大或过小，使其符合正态分布，并进行以二为底的对数转换，可绘制出基因火山图，查看整体分布情况，通过火山图判断出存在具有显著差异的基因。

②挑选出差异基因：利用R语言的stattest函数把fold change和P-value结合在一起进行筛选，所述fold change为基因表达值的差异倍数，也就是差异倍数的变化，假设A基因表达值为1，B基因表达值为3，那么B基因的表达就是A基因的3倍，所述P-value为差异基因的显著性，是一种概率，用来判断假设是否成立的依据；筛选出p值小于0.01，log₂FC值大于8的差异基因。根据先验研究表明，满足这些条件的基因具有显著差异，在有淋巴结转移和无淋巴结转移的样本中分别表现为上调和下调，上调就是基因转录成mRNA时受到正向调控，促进表达。下调是受到抑制，表达量减少。

③对差异基因进行层次聚类分析，确认该差异基因是否能分开有淋巴结转移和无淋巴结转移两类不同的样本：用R语言的gplots包中的heatmap绘制基因和样本的层次聚类查看差异表达信息，所述基因为通过步骤(3)的步骤②挑选出的差异基因，所述样本为步骤(2)中挑选出的有淋巴节转移和无淋巴结转移两类样本，能明显看出两类不同样本在筛选出的基因上有明显差异表达。以横轴表示样本，纵轴表示基因，聚类后就呈现出一定的模式出来。如果在有淋巴结转移样本和无淋巴结转移样本中间画一个竖线，很明显能看到有淋巴结转移样本富集在一起，无淋巴结转移样本也富集在一起，则表明筛选出来的差异基因可以非常准确的把这两组不同的样本显著的分开，挑选的差异基因准确；本步骤③目的就是观察挑选出的差异基因是否能准确，即能否把两类样本区分开。如果挑选的差异基因准确，进行步骤④验证，如果挑选不准确，则返回步骤②改变筛选值；

进行ReliefF特征选择，给每个基因特征赋予一个得分，根据得分，对基因的重要性进行排序，通过自上而下的包裹式方法，从排序列表的前两个特征开始，一次添加10％的特征，在每个增量中使用LOPOCV，即一对交叉验证来评估训练样本分类的准确度，找到准确度最高时对应的特征数量，所述准确度的判断为使用该数量的基因特征时、预测的样本种类为实际所属样本种类的个数除以预测样本种类的总个数所得到的百分比。我们有几百条特征，但是我们不清楚这些特征是不是都对我们的预测有帮助，因此，通过对特征数量的遍历，找到使用多少条特征的时候得到的预测效果最好。

(4)预测步骤：

1.所有的理论样本数T≥5并且总样本数量n≥40，用Pearson卡方进行检验；共有乳腺癌复发-淋巴结转移、乳腺癌未复发-淋巴结转移、乳腺癌复发-淋巴结未转移、乳腺癌未复发-淋巴结未转移、这四种情况，每种情况的理论上样本值都大于5，即理论数T>5，总样本量n即步骤(1)中提到的298例乳腺癌样本；

完成模型的构建。输入新的基因的表达量，可预测出乳腺癌淋巴结是否转移。

实施例2：

Claims

1.一种基于基因谱的乳腺癌淋巴结转移预测方法，其特征在于，包括步骤如下：

2.根据权利要求1所述的基于基因谱的乳腺癌淋巴结转移预测方法，其特征在于，步骤(1)中，进入GEO平台，选择数据集，下载后缀为.txt.gz的文件，其中包含一定数量样本的RNA数据及临床数据，从中提取到四类可用的信息：基因名称、normalized_read_count值、distant relapse、nodal status。

3.根据权利要求1所述的基于基因谱的乳腺癌淋巴结转移预测方法，其特征在于，步骤(2)的具体步骤为：对于获取到的数据集，首先从中选取nodal status值作为标签，将样本被分为有淋巴结转移和无淋巴结转移两类；

其次需要将数据集中提供的Ensemble ID转换成HUGO ID，转换过程通过调用R语言中的biomaRt包及synapseclient包实现；

剔除掉表达量中“0”的数量超过100个的基因；

选取normalized_read_count值作为特征值，这样所有特征都是numerical数据，标准化numerical数据，把numerical数据给放在一个标准分布(-1，1)内。

4.根据权利要求1所述的基于基因谱的乳腺癌淋巴结转移预测方法，其特征在于，步骤(3)的具体步骤为：

其中max为样本数据的最大值，min为样本数据的最小值，使其符合正态分布，并进行以二为底的对数转换，绘制出基因火山图，查看整体分布情况；

②挑选出差异基因：利用R语言的stattest函数把fold change和P-value结合在一起进行筛选，所述fold change为基因表达值的差异倍数，所述P-value为差异基因的显著性，是一种概率，用来判断假设是否成立的依据；

筛选出p值小于0.01，log₂FC值大于8的差异基因；

③对差异基因进行层次聚类分析，确认该差异基因是否能分开有淋巴结转移和无淋巴结转移两类不同的样本：用R语言的gplots包中的heatmap绘制基因和样本的层次聚类查看差异表达信息，所述基因为通过步骤(3)的步骤②挑选出的差异基因，所述样本为步骤(2)中挑选出的有淋巴节转移和无淋巴结转移两类样本，如果在有淋巴结转移样本和无淋巴结转移样本中间画一个竖线，有淋巴结转移样本富集在一起，无淋巴结转移样本也富集在一起，则表明筛选出来的差异基因可以非常准确的把这两组不同的样本显著的分开，挑选的差异基因准确；如果挑选的差异基因准确，进行下一步步骤④验证，如果挑选不准确，则返回步骤②改变筛选值；

④差异基因功能分析：进行GO功能注释和KEGG通路富集分析，富集是将基因根据一些先验的知识进行分类的过程，使用工具为分析网站，所述分析网站为David：做基因注释和功能富集分析的网站；使用通过步骤(3)的步骤②得到的差异基因数据集，将差异基因按照在两类样本中的差异表达程度排序，然后检验差异基因集合是否在这个排序表的顶端或者底端富集；如果富集，进入下一步步骤⑤，如果不富集，返回步骤②改变筛选值；

⑤利用机器学习方法挑选基因特征：

进行ReliefF特征选择，给每个基因特征赋予一个得分，根据得分，对基因的重要性进行排序，通过自上而下的包裹式方法，从排序列表的前两个特征开始，一次添加10％的特征，在每个增量中使用LOPOCV，即一对交叉验证来评估训练样本分类的准确度，找到准确度最高时对应的特征数量，所述准确度为使用该数量的基因特征时、预测的样本种类为实际所属样本种类的个数除以预测样本种类的总个数所得到的百分比。

5.根据权利要求1所述的基于基因谱的乳腺癌淋巴结转移预测方法，其特征在于，步骤(4)的具体步骤为：

①在临床数据中，共选取了distant relapse和nodal status两项，首先利用卡方检验来比较两个因素是否相关，卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度，实际观测值与理论推断值之间的偏离程度就决定卡方值的大小，卡方值越大，越不符合；卡方值越小，偏差越小，越趋于符合，若两个值完全相等时，卡方值就为0，表明理论值完全符合；两类独立样本比较分为以下三种情况：

1.所有的理论样本数T≥5并且总样本数量n≥40，用Pearson卡方进行检验；

如果检验结果证实两个因素相关，进入下一步步骤(4)的步骤②，如果不相关，返回步骤(4)的步骤①改变检验方法；

③将步骤(4)中的步骤②步得到的训练集数据分别通过SVM、随机森林、逻辑回归方法进行训练，从而训练出初步的乳腺癌淋巴结转移性预测模型，采用步骤(4)中的步骤②步得到的测试集对前述三种预测模型进行测试，模型输出准确率，最终选择针对nodal status这一指标以差异基因为特征输入得到的预测准确率最高的模型。

6.一种基于基因谱的乳腺癌淋巴结转移预测系统，其特征在于，包括数据预处理模块、特征处理模块、训练验证模块，所述数据预处理模块用于从GEO平台获取样本数据集、并对样本数据进行预处理，所述样本数据集包括RNA数据及临床数据，所述预处理包括样本分类、数据转换、数据标准化；所述特征处理模块用于在数据预处理模块处理后的数据中挑选差异基因、并利用机器学习方法挑选基因特征；所述训练验证模块包括至少两个预测模型，训练验证模块用于将差异基因为特征输入预测模型中训练得到的预测准确率最高的预测模型。