CN115985503B

CN115985503B - 基于集成学习的癌症预测系统

Info

Publication number: CN115985503B
Application number: CN202310267344.8A
Authority: CN
Inventors: 周永; 付锦涛; 李林涛; 郑德生; 刘建超; 温冬; 田序伟; 尚小磊; 李晓瑜
Original assignee: Southwest Petroleum University
Current assignee: Southwest Petroleum University
Priority date: 2023-03-20
Filing date: 2023-03-20
Publication date: 2023-07-21
Anticipated expiration: 2043-03-20
Also published as: CN115985503A

Abstract

本发明公开了一种基于集成学习的癌症预测系统，属于生物科学领域，包括：特征提取模块，用于对研究数据集中的样本进行特征提取，研究数据集包括病患的生活习惯样本、环境因素样本、体检报告样本；训练优化模块，用于对分类器进行训练，并在模型训练过程中对支持向量机参数进行优化，进而得到基分类器；集成模块，用于将完成训练的多个基分类器进行集成，得到用于对癌症发病风险进行预测的异态分类器。本发明对研究数据集中样本特征进行提取，提取的病理特征能够充分显示出与癌症肿瘤发生的潜在联系，并进行基分类器的优化，最终搭建用于对癌症发病风险进行预测的异态分类器，以此大大提升分类器的预测准确度。

Description

基于集成学习的癌症预测系统

技术领域

本发明涉及生物科学领域，尤其涉及一种基于集成学习的癌症预测系统。

背景技术

癌症作为当前医学领域最难克服的疾病之一，已经有了很长的研究历史。而随着计算机科学技术的不断发展，采用大数据来分析当前医学领域的大量病患数据已经成为了当前研究的主流。而在如今的数据挖掘研究当中，采用各类机器学习算法对大数据进行切分处理，提取关键特征数据并搭建数学模型也成为了最为热门的方法之一；在更深层次的研究当中，计算机根据医学C-T图像对患癌的病人图片进行深度学习挖掘，通过搭建人工神经网络来学习癌症病理特征的分布以及肿瘤构成形状，通过研究反馈给医生，并做出更加准确的医疗判断。机器学习当中经典的分类预测模型包括决策树、支持向量机等算法，能够准确对病理数据进行分析。深度学习中的人工神经网络，自适应神经网络等算法能够搭建更加复杂的肿瘤分析网络完成更加深度的分析，得到更细致的分析结论。在生物科学研究领域，对于生物基因的研究也促进了癌症诱导因素的分析发展，而当前的研究当中主要是对可表达蛋白质对生物的影响，以及编码类基因对癌症细胞构成研究。

在计算机领域，通过经典的机器学习算法进行大数据的分类预测在股票领域、房地产领域都取得了可观的效果，然而上述算法由于数据的局限性普适度不高，直接将其思想分析癌症肿瘤数据不能取得好的预测分析效果。深度学习方法由于其复杂的网络结构只能对医学图像进行深度分析，且对算力要求高，难以实现。在医学研究领域，通常对病患的数据分析采用传统的统计学进行分析归类，该类数学方法计算复杂度大，计算量大，根据研究结果，传统的医学方法分析并不能提供给医生实质性的做出医学判断的数据支持。总结其缺陷与不足可以分为以下几点：

（1）当前传统的机器学习分类预测方法提取的病理特征不能充分显示出与胃癌肿瘤发生的潜在联系，导致预测准确率低；

（2）自适应神经网络等深度学习算法搭建要求高的计算性能，难以普及在医学的常规研究当中，只能分析特定的医学C-T图像。

发明内容

本发明的目的在于克服现有技术的问题，提供了一种基于集成学习的癌症预测系统。

本发明的目的是通过以下技术方案来实现的：一种基于集成学习的癌症预测系统，系统具体包括：

特征提取模块，用于对研究数据集中的样本进行特征提取，研究数据集包括病患的生活习惯样本、环境因素样本、体检报告样本；

训练优化模块，用于将特征提取模块提取的特征信息作为输入数据集，对分类器进行训练，并在模型训练过程中对支持向量机参数进行优化，进而得到基分类器；

集成模块，用于将完成训练的多个基分类器进行集成，得到用于对癌症发病风险进行预测的异态分类器。

在一示例中，所述特征提取模块基于Relief算法对研究数据集中的样本进行特征提取。

在一示例中，所述特征提取模块进行特征提取包括：

基于Relief算法对研究数据集中的样本进行特征提取得到初始相关性排序数据集；

采用局部加权聚类算法对初始相关性排序数据集中样本进行聚类分析，进而将高影响度特征聚类为高相关度聚类组，并将与高影响度特征产生相关的中影响度及低影响度的特征也聚类为高相关度聚类组，将高相关度聚类组作为输入数据集。

在一示例中，所述采用局部加权聚类算法对初始相关性排序数据集中样本进行聚类分析包括：

基于熵准则进行聚类不确定性估计；

搭建局部加权法细化协关联矩阵；

进行局部加权证据积累；同时，进行局部加权图划分；

输出共识聚类分组，得到高相关度聚类组。

在一示例中，所述搭建局部加权法细化协关联矩阵前还包括：

衡量聚类相对于M个基聚类集合的不确定性，得到集合驱动聚类索引；

在局部加权图划分中，根据集合驱动聚类索引值确定节点链路间的权重值。

在一示例中，所述系统还包括参数优化模块，用于优化支持向量机参数，包括：

采用粒子群算法优化支持向量机参数，进而得到最优支持向量机基分类器。

在一示例中，所述系统还包括训练模块，用于对多个基分类器进行训练。

在一示例中，所述基于集成模块将多个基分类器进行集成包括：

将基分类器通过参数变化的融合方式集成为XGBoost的同态集成分类器；

比较各类同态集成分类器的错误率；

根据错误率的高低赋予不同权重；

将同态分类器进行集成，最终合并搭建异态集成分类器。

需要进一步说明的是，上述各示例对应的技术特征可以相互组合或替换构成新的技术方案。

与现有技术相比，本发明有益效果是：

1.在一示例中，本发明研究数据集包括生活习惯样本、环境因素样本、体检报告样本，对上述样本特征进行提取，提取的病理特征能够充分显示出与癌症肿瘤发生的潜在联系，并进行基分类器的优化，最终搭建用于对癌症发病风险进行预测的异态分类器，以此大大提升分类器的预测准确度，提升了对癌症发病倾向探究效率。同时，本发明算法实现计算复杂度低，无需搭建复杂的人工神经网络，也无需对庞大数据集进行高梯度的计算，对计算机硬件的要求较低，易于在医学领域复现。

2.在一示例中，通过Relief算法进行样本特征提取，能够根据病人的生活习惯、环境因素、体检报告等数据进行类近邻的差异度分析，并根据特征之间的差异度进行权重赋值，再根据赋值权重的大小对样本与胃癌相关度进行排序，最终获取到与癌症相关度最高的初步样本特征，以此保证癌症发病风险预测的准确度。

3.在一示例中，采用局部加权聚类的方法对初始提取排序后的胃癌数据集进行聚类分析，将与高影响度特征产生相关的中影响度及低影响度的特征也聚类为高相关度聚类组，考虑了中影响度以及部分低影响度但与高影响度特征的产生密切相关病理特征，即实现了对高影响度特征的补充，充分挖掘出与癌症相关度高的病例特征，为后续风险预测提供了可靠的数据支撑。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细的说明，此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，在这些附图中使用相同的参考标号来表示相同或相似的部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本发明一示例中的聚类分析方法流程图；

图2为本发明癌症预测系统优选示例对应的执行过程图；

图3为本发明胃癌预测中粒子群优化算法计算最优分布点结论图；

图4为本发明胃癌预测中异态分类模型设置图；

图5为本发明胃癌预测中分类模型分类效果实验结果图；

图6为本发明胃癌预测中异态分类模型的性能仿真图；

图7为本发明胃癌预测中各分类模型的癌症预测性能实验结果图。

具体实施方式

下面结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，属于“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方向或位置关系为基于附图所述的方向或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，使用序数词 (例如，“第一和第二”、“第一至第四”等 )是为了对物体进行区分，并不限于该顺序，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，属于“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

在一示例中，一种基于集成学习的癌症预测系统，该预测系统包括特征提取模块、训练优化模块和集成模块。其中，特征提取模块用于对研究数据集中的样本进行特征提取，研究数据集包括病患的生活习惯样本、环境因素样本、体检报告样本。通过对生活习惯样本、环境因素样本、体检报告样本进行癌症的相关度分析，提取与癌症相关度高的特征样本数据，能够能够更加准确地研究胃癌发病因素原因。

训练优化模块，用于将特征提取模块提取的特征信息作为输入数据集，对分类器进行训练，即根据分类器的预测结果，不断优化调整支持向量机参数（适应度函数），当然，该训练过程还可进一步优化惩罚因子C1、惩罚因子C2、高斯核函数中的核参数等参数，以提高分类器的预测精度，直至得到满足用户目标精度的基分类器。

集成模块，用于将完成训练的多个基分类器进行集成，具体基于CHH混合学习模型实现基分类器的集成，即采用将同态集成学习及异态集成学习进行融合，进而得到用于对癌症发病风险进行预测的异态分类器。

本示例中，本发明研究数据集包括生活习惯样本、环境因素样本、体检报告样本，对上述样本特征进行提取，提取的病理特征能够充分显示出与癌症肿瘤发生的潜在联系，并进行基分类器的优化，最终搭建用于对癌症发病风险进行预测的异态分类器，突破了传统生物科学研究框架，以此大大提升分类器的预测准确度，提升了对癌症发病倾向探究效率，能够全方位对病患身体状况分析做出诠释，实现更科学准确的癌症患病风险研究。同时，本发明算法实现计算复杂度低，无需搭建复杂的人工神经网络，也无需对庞大数据集进行高梯度的计算，对计算机硬件的要求较低，易于在医学领域复现。同时通过修改图像数据集的录入方式也能实现深度学习对图像进行分析，且实验效率与最终结果相较于深度学习各类神经网络都有更大的提升。

另外，本发明系统采用的数据处理方法泛化能力强，能够对各类癌症数据进行处理分析，适用于当前医学环境中的各类癌症预测以及其他复杂的复杂疾病的预测研究，如乳腺癌、肺癌等癌症的预测研究。

在一示例中，特征提取模块基于Relief算法对研究数据集中的样本进行特征提取。具体地，通过计算一个数据样本当中的各类样本的差异度，在差异度计算的过程当中，包括同类的邻居样本数据和另类的特征样本数据。其中，同类的邻居样本数据指该样本所表达的特征与该邻居样本拥有相似的类标签并因此间距较小，另类的特征样本数据表示同该样本中的特征具有不相似的类标签。随后再根据差异度的大小来计算判断出在该样本当中不同类型的样本的区分能力。

进一步地，Relief特征选择算法当中的实验计算部分具有特殊定义：在数据集当中某些样本特征在邻居样本之间差异较小，但在另类紧邻样本之间差异却很大，由此便认为该特征样本变量在不同类别的样本之间具有强区分能力，依据此计算方式，根据样本的特征变量区分邻居样本的能力，给每个特征赋予权重值，根据这些权重值对数据特征集进行排序，由此根据最初预定的样本的属性权重阈值来规定最终的病理特征。

进一步地，基于Relief算法对研究数据集中的样本进行特征提取具体包括：

设置样本数据集为，其中k表示数据集含有k条数据，每条数据包含了p个特征向量，设置，其中，数据集中的特征值可以为离散型或连续型数据，的类标签表示的，类标签的集合为，特征样本与在特征上具有如下定义：

对于离散型的特征：

对于连续型的特征：

其中，diff表示表示计算两个特征样本之间的差异度，便于根据样本差异度设置样本关系权重；与表示原始病患数据集中特征t的最大值和最小值；i，j为编号。

实验伊始，Relief算法从设置的病理数据中随机选取一个样本，再从肿瘤与非肿瘤病理样本中分别取出一个样本，得到的样本距离最近。根据公式继续更新特征 t 的权重，进而实现根据赋值权重的大小对样本与胃癌相关度进行排序，最终获取到与癌症相关度最高的初步样本特征，具体权重更新计算式为：

其中，表示与样本相同类型的样本；h表示随机选取样本的次数；表示与样本存在差异的样本。

本示例中，通过Relief算法进行样本特征提取，能够根据病人的生活习惯、环境因素、体检报告等数据进行类近邻的差异度分析，并根据特征之间的差异度进行权重赋值，再根据赋值权重的大小对样本与胃癌相关度进行排序，最终获取到与癌症相关度最高的初步样本特征，进而形成初始相关性排序数据集，以此保证癌症发病风险预测的准确度。

在一示例中，特征提取模块进行特征提取包括：

具体地，当前研究中对样本的特征提取仅采用相关度计算方法，根据计算样本特征之间的相似度作为样本数据集构建的主要依据，此种特征提取方式将导致样本数据集中于癌症高影响度的特征中，而忽视了中影响度以及部分低影响度但与高影响度特征的产生密切相关病理特征。需要说明的是，高影响度、中影响度、低影响度根据对癌症发病率影响程度进行划分，如某一特征引发癌症发病风险的几率大于50%为高影响度特征，30%-50%为中影响度特征，15%-30%为高低度特征。为了解决该问题，本示例提出了一种特征提取与特征聚类的方法，对初始病理数据进行Relief算法进行特征提取获得初始相关性排序数据集，再对获取的数据集采用局部加权聚类的方法对初始提取排序后的胃癌数据集进行聚类分析，将聚类结果分为2组：高相关度聚类组以及低相关度聚类组，采用局部加权聚类的方法能够将Relief算法提取的排序数据集进行聚类分析，该聚类方法能够将胃癌影响特征进行分组聚类，将高影响度特征聚为高相关度聚类组，部分与高影响度特征产生相关的中影响度及低影响度的特征也聚为高相关度聚类组，剩余的特征数据认定为低相关度聚类组，考虑了中影响度以及部分低影响度但与高影响度特征的产生密切相关病理特征，即实现了对高影响度特征的补充，充分挖掘出与癌症相关度高的病例特征，为后续风险预测提供了可靠的数据支撑。

在一示例中，如图1所示，采用局部加权聚类算法对初始相关性排序数据集中样本进行聚类分析包括：

（1）基于熵准则进行聚类不确定性估计；具体地，为了评估每个聚类的可靠性，需借助整个集合中的聚类标签引入熵的概念，熵表示与随机变量相关的不确定性的度量。每个集群是一组数据对象。根据Relief算法提取的初始数据集，确定集合，对于需要获取的聚类分组设置为，基于集合进行分簇，其中，基聚类定义为：

其中，p(a,b)表示计算聚类分组的概率，获取聚类交集并根据其类别数量确定聚类分组的联合概率；表示在中的集群数量；表示中的第j个聚类；表示计算两个集合(或集群)的交集；表示中输出对象的数量。

（2）搭建局部加权法细化协关联矩阵，以反映两个物体在集成中被分组到同一个簇中的次数。具体地，对于集合：

其中，A表示协关联矩阵；表示矩阵元素； M表示基聚类个数；表示根据样本对象与样本对象之间的数量关系，若作为对比的样本对象属性相同，则设置为0；若不同，则对其进行加1计算，循环比对所有样本类信息，最终得到矩阵关联权值；表示聚类所属的对象；表示Reilef算法提取的初始数据集DataSet的第 j个数据对象。

（3）进行局部加权证据积累；同时，进行局部加权图划分；具体地，局部加权证据积累以相似度矩阵为输入，迭代合并区域，得到树状图，即聚类的层次表示。利用矩阵作为初始相似度矩阵S：

其中表示矩阵中的项，N个原始病理特征数据对象被视为N个初始区域；初始区域的集合表示如下：

其中，表示初始病理特征对象集的划分区域；表示第i类病理特征对象的划分区域；表示数据集DataSet的第i个数据对象；由此表示中的第i个区域，每个初始区域只包含一个数据对象。

进一步地，在局部加权图划分过程中，为了构造二部图，将聚类和对象都作为图节点；当且仅当一个节点是数据对象，另一个节点是包含该数据对象的集群时，两个节点之间存在链路。给定对象和集群，且，它们之间的链路权重根据历史经验确定或者均分确定，局部加权二部图定义为：

其中的节点集，表示节点之间的连接。

（4）输出共识聚类分组，得到高相关度聚类组。局部加权二部图被划分为一定数量的不相交节点集。将同一段内的对象节点视为一个聚类，将聚类结果分为2组：高相关度聚类组以及低相关度聚类组。

在一示例中，搭建局部加权法细化协关联矩阵前还包括：

进行集合驱动的聚类有效性评价，即衡量聚类相对于M个基聚类集合的不确定性，得到集合驱动聚类索引；在得到聚类集合中每个聚类的不确定性(或熵)后，通过考虑聚类相对于集合的不确定性来衡量聚类的可靠性。对于给定的具有M个基聚类的集合，定义一个聚类的集合驱动聚类索引(ECI)为：

其中，表示调整聚类不确定性对索引影响的参数。

在局部加权图划分中，根据集合驱动聚类索引值确定节点链路间的权重值。具体地，给定对象和集群，且，它们之间的链路权重由的ECI值决定，即链路的权重与其所连接的集群的可靠性相关。因此，加入 ECI测度后，二部图不仅考虑了对象与聚类之间的隶属关系，还反映了集合中的局部可靠度，即聚类的可靠度。此时，两个节点和之间的链路权值定义为：

其中，、为数据集、集合中的数据对象。

在一示例中，参数优化模块优化支持向量机参数具体为：

采用粒子群算法优化支持向量机参数，进而得到最优支持向量机基分类器。具体地，粒子群算法是模拟蜂群行为的一种优化算法，蜂群大小也是衡量算法效率的重要指标。在标准的粒子群算法中，群大小指的是粒子的数量。在多群粒子群优化算法中，群的大小不仅仅是粒子的数量，群的数量也是群大小的一个重要特征，具体实现方式为：

在根据胃癌特征维度确定的搜索空间的D维上初始化一个具有随机位置和速度的粒子的总体数组；

对于每个高相关性病理特征粒子，在D个变量中求出所需的优化适应度函数；

将粒子的适应度评价与最优适应度进行比较，如果当前值优于，就将设置为当前的粒子适应度，设置值等于D维空间中粒子位置；

找出到目前为止最邻近粒子，并将其索引赋给变量g。

改变粒子的速度和位置具体通过下式进行计算：

其中表示均匀分布在中的随机数向量，在每次迭代和每个粒子中随机生成；符号表示组件式的乘法；表示当前粒子的位置；表示上一个最优粒子的位置；表示最优速度。如果满足某个条件(通常是足够好的适应度或最大迭代次数)，则退出循环。采用粒子群优化算法获得的3个不同的SVM支持向量机基本分类器训练t次后的t 个实验基本分类器。

作为一选项，可采用梯度下降法对支持向量机参数进行优化。

进一步地，还包括对申请惩罚因子C1、惩罚因子C2以及高斯核函数中的核参数进行更新，具体包括：

1. 首先训练癌症数据集，并将其进行标准化处理；

2. 初始化参数设置，C1=0.2,C2=0.5；

3. 设置适应度值输出分类精度得分，返回比较分类结果和实际测得值；

4. 设置全局极值，支持向量机核函数gamma以及惩罚参数C；

5. 参数gamma和惩罚参数C以实数向量的形式进行编码作为粒子群算法PSO的粒子的位置；

6. 初始化粒子位置，进行迭代；

7. 个体极值等于最初位置，计算个体极值的适应度值，计算全局极值的适应度值，迭代次数设置为n_iterations=10，种群大小设置为n_particles=50，对每个粒子进行循环；

8. 每个粒子的适应度值等于适应度函数（每个粒子的具体位置），每个粒子的适应度值与其个体极值的适应度值作比较，若更优，则个体极值更新后的每个粒子的个体极值与全局极值比较，若更优，则更新全局极值；

9. 更新速度和位置，更新后新粒子的具体位置；

10. 最终输出在癌症最相关特征数据集下分类器的最优参数，将最优参数代入基分类器进行优化。

在一示例中，系统还包括训练模块，在搭建最优支持向量机基分类器基础上，用于对多个基分类器进行训练，得到的同态分类器作为第一层标准分类器。

在一示例中，将第一层初始分类器再采用Boost算法进行异态集成，即将同态集成学习及异态集成学习进行融合得到二层标准分类器，由此搭建完成胃癌发病倾向分析模型，具体包括：

基于集成模块将多个基分类器进行集成包括：

比较多类同态集成分类器的错误率；

根据错误率的高低赋予不同权重；

将同态分类器进行集成，最终合并搭建异态集成分类器。

将上述示例进行组合，得到本发明基于集成学习的癌症预测系统的优选示例，系统包括特征提取模块、训练优化模块、训练模块和集成模块。此时，如图2所示，本发明各模块相互配合执行癌症风险预测包括以下步骤：

先通过特征提取模块基于Relief算法对病患数据集中的胃癌相关度高的特征样本进行提取，再通过训练优化模块优化支持向量机并将优化后的分类器作为集成的基础分类器，通过训练模块对多个基础分类器进行训练后，集成模块基于boost分类算法的异态集成后能够得到更高的分类预测准确率的异态集成分类器，在癌症预测中能够以更小复杂度实现癌症发病风险预测，并根据癌症相关度最高特征自动计算模型的最优参数，相较于当前的癌症分析方式，具有更高的执行准确率以及智能分析。

为说明本发明技术方案的技术效果，将本发明优选示例对应的基于集成学习的癌症预测系统、以及优选示例对应的非编码基因异常表达分析系统应用至胃癌研究领域。

首先，对数据集进行设置。本示例采取的实验数据集来自于某肿瘤医院提供的胃癌病例对照组的样本。在样本数据集中包含了病人的血生化数据，其中风险数据的指标包含：铁元素、胆红素、蛋白、丙氨酸氨基转移酶等在内的39个风险元素。此外，样本中还提供了风险人群的调查问卷信息，在该问卷信息中包含了对受访人员的生活环境、饮食习惯、身体状况等信息进行统计，最终采取了饮食习惯、胃溃疡患病情况、胃肠上皮化生、胃粘膜异型增生等102类病理特征，经过数据处理后，获得了1492名人员的数据集统计信息。

再基于Relief特征提取算法对原始数据集进行病理特征样本的相关性进行了分析，得到了包括残胃、胃黏膜异型增生、幽门螺旋杆菌感染在内的20个与胃癌强相关性病理特征。

基分类器的选择中，采用网格搜索与交叉验证对支持向量机进行参数调整测试，后续按照粒子群算法对其进行优化，得到在Relief算法提取的数据集上取得最好效果的分类器，粒子群优化算法计算最优分布点结论如附图3所示，经计算得到最优参数分布：gamma为0.06, C为8.69。

对计算获取的最优支持向量机分类器采用CHH算法进行集成，获得最终分类器，模型设置如附图4所示。对分类器进行训练并进行评估，选取1190条病理样本数据作为训练集，选取300条病理数据作为测试集，并在包括决策树分类（Decision Tree,DT）、支持向量机算法（Support Vector Machine,SVM）、逻辑回归分类（Logistic Regression,LR）、反向传播神经网络（backpropagation neural network,BNN）、梯度提升算法（GradientBoosting,GB）在内的5种分类算法进行实验比对，在测试集上进行实验验证，从得到实验信息中分析发现本文提出的基于CHH算法的分类预测模型中预测值与真值重叠率高，实现的预测准确率最高，分类效果最好，实验结果如附图5所示。需要说明的是，图5仅为实验结果示意图，并不用于限定本申请保护范围。

根据评估原则，本发明采用的评估方法选取了比对模型准确率、召回率以及精准度衡量指标，对比结果如附图6所示。根据图6可以看出，本发明系统相较于现有分类方法，在模型准确率、召回率以及精准度均有较大提升。

为进一步证明本文实验的有效性，ROC曲线进行验证，通过ROC曲线下面积AUC值衡量分类器的性能优劣，根据混淆矩阵确定ROC曲线，并评价各分类模型的癌症预测能力，实验效果如附图7及表1所示：

根据图7可知，本发明算法实验结果对应的曲线位于最上方，具有良好的癌症预测能力。需要说明的是，图7仅为实验结果示意图，并不用于限定本申请保护范围。同时，根据表1可知，本发明基于Relief特征选择的CHH集成算法能够得到最好的胃癌预测效果，在提取的病理特征数据中本申请CHH算法在准确率上比经典机器学习算法至少高出5%，准确率接近90%，且对庞大的医疗数据集处理有效，极大的提升了胃癌的发病倾向探究效率，且普适度高，对其他的癌症研究也能得到高准确率的效果。

以上具体实施方式是对本发明的详细说明，不能认定本发明的具体实施方式只局限于这些说明，对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演和替代，都应当视为属于本发明的保护范围。

Claims

1.一种基于集成学习的癌症预测系统，其特征在于：系统包括：

特征提取模块，用于对研究数据集中的样本进行特征提取，研究数据集包括病患的生活习惯样本、环境因素样本和体检报告样本；

集成模块，用于将完成训练的多个基分类器进行集成，得到用于对癌症发病风险进行预测的异态分类器；

所述特征提取模块基于Relief算法对研究数据集中的样本进行特征提取，包括：

设置样本数据集为，其中k表示数据集含有k条数据，每条数据包含了p个特征向量，设置/>，其中1≤i≤k，数据集中的特征值为离散型或连续型数据，S _i的类标签表示的/>，类标签的集合为/>，特征样本S _i与特征样本S _j在特征t上具有如下定义：

对于离散型的特征：

；

对于连续型的特征：

；

其中，diff表示计算两个特征样本之间的差异度，进而根据样本差异度设置样本关系权重；与/>表示原始病患数据集中特征t的最大值和最小值，且1≤t≤p；i，j为编号，且1≤i≠j≤k；

Relief算法从设置的病理数据中随机选取一个样本S _i，再从肿瘤与非肿瘤病理样本中分别取出一个样本，得到的样本距离S _i最近；根据权重更新计算式继续更新特征 t 的权重，进而实现根据赋值权重的大小对样本与胃癌相关度进行排序，最终获取与癌症相关度最高的初步样本特征，具体权重更新计算式为：

；

其中，表示与样本S _i相同类型的样本；h表示随机选取样本的次数；表示与样本S _i存在差异的样本。

2.根据权利要求1所述基于集成学习的癌症预测系统，其特征在于：所述特征提取模块进行特征提取包括：

3.根据权利要求2所述基于集成学习的癌症预测系统，其特征在于：所述采用局部加权聚类算法对初始相关性排序数据集中样本进行聚类分析包括：

基于熵准则进行聚类不确定性估计；

搭建局部加权法细化协关联矩阵；

进行局部加权证据积累；同时，进行局部加权图划分；

输出共识聚类分组，得到高相关度聚类组。

4.根据权利要求3所述基于集成学习的癌症预测系统，其特征在于：所述搭建局部加权法细化协关联矩阵前还包括：

5.根据权利要求1所述基于集成学习的癌症预测系统，其特征在于：所述对支持向量机参数进行优化包括：

6.根据权利要求1所述基于集成学习的癌症预测系统，其特征在于：所述系统还包括训练模块，用于对多个基分类器进行训练。

7.根据权利要求1所述基于集成学习的癌症预测系统，其特征在于：基于集成模块将多个基分类器进行集成包括：

比较各类同态集成分类器的错误率；

根据错误率的高低赋予不同权重；

将同态分类器进行集成，最终合并搭建异态集成分类器。