CN116313111A

CN116313111A - 基于组合模型的乳腺癌风险预测方法、系统、介质、设备

Info

Publication number: CN116313111A
Application number: CN202310214620.4A
Authority: CN
Inventors: 杨怀洲; 罗天
Original assignee: Xian Shiyou University
Current assignee: Xian Shiyou University
Priority date: 2023-03-08
Filing date: 2023-03-08
Publication date: 2023-06-23

Abstract

本发明构建了一种基于组合模型的乳腺癌风险预测方法，其包括步骤1：输入数据，训练集数据下分别训练SVM模型和Logistic模型。步骤2：得到两种单一预测模型的权重。步骤3：构建最优权重下两种模型的组合模型。本发明所提方法对比单一模型的预测结果而言，其通过集成信息可以分散单个预测特有的不确定性从而减少总体不确定性，且SVM模型和Logistic模型具有一定互补性且都可以解决非线性问题，最终能够提高预测的准确性，从而证明了本发明所提组合模型的高精度和高稳定性。

Description

基于组合模型的乳腺癌风险预测方法、系统、介质、设备

技术领域

本发明涉及机器学习技术领域，具体涉及一种基于组合模型的乳腺癌风险预测方法、系统、介质、设备。

背景技术

乳腺癌是女性最为常见的恶性肿瘤，近年来发病率也日益增高，因此建立合理有效的乳腺癌风险预测模型十分重要。当前，已经有许多乳腺癌风险预测的计算模型被提出，例如乳腺和卵巢疾病发病率分析及携带者风险评分(BOADICEA)，乳腺癌易感基因风险预测模型(BRCAPRO)，乳腺癌风险评估工具(BCRAT)和国际乳腺癌干预研究模型(IBIS)。同时也有许多研究是基于传统的回归方法或者是基于单一的机器学习模型。

机器学习是当下研究热点，其理论方法已经应用于解决日常问题和相关科学领域中具有很高复杂度的问题，目前，机器学习已经被应用于医学的各个方面，甚至某些具体实施应用已经在各大医院内使用，辅助医生诊断，提高效率，对疾病预测的准确率得到极大提升。

在乳腺癌预测研究中，Delen在2005年使用神经网络和随机森林以及常见的Logistic回归进行数据集开发，采用了10折交叉验证，发现了随机森林的准确率最高，神经网络次之，此次利用机器学习的大胆尝试，为研究乳腺癌预测方法提供了新的思路和方向。此后，有研究人员在此基础上，尝试研究采用BP算法、C5决策树和Logistic回归的方法建立预测模型，进行了预测结果解释，发现三种模型在预测性能上没有显著差异，可以根据不同的需求和突出的属性数据差异，来分析各个因素对患者的愈后影响。近年来，国内各大医院学者以及相关研究人员对于乳腺癌患病的风险预测愈发重视，有人提出，将深度学习应用于集成了多种不同机器学习模型的整体方法，也有人利用决策树、神经网络和逻辑回归分别建立了危险因素预测模型，对于三种模型进行了比较分析和统计学评价，总体而言，三种模型差异表现并不显著，未能表现出何种模型能达到特别好的预测效果。

由此可以看出，单一模型的预测未能显著区分各个模型的优劣，只能用于针对不同情况下选择更适用的模型。因此，为了构建具有更高准确率的乳腺癌风险预测模型，需要在单一算法的基础上构建组合模型，提高预测准确度。

发明内容

针对上述存在的问题，本发明提供了一种基于组合模型的乳腺癌风险预测方法，提高乳腺癌风险预测的准确率。

实现本发明目的的技术解决方案为：

一种基于组合模型的乳腺癌风险预测方法，其特征在于，包括以下步骤：

步骤1：输入乳腺癌病例数据集，对数据集进行预处理，并将预处理后的数据集划分为训练集与测试集；

步骤2：构建SVM模型和logistic模型并在训练集上进行训练；

步骤3：分别获取SVM模型和logistic模型的不同权重组合，构建SVM-logistic并行组合模型；

步骤4：选择最优权重下的SVM-logistic并行组合模型；

步骤5：通过步骤4建立的SVM-logistic并行组合模型对输入的乳腺癌病人的病理进行乳腺癌风险预测，并输出预测结果。

进一步地，步骤1的预处理步骤包括：

步骤11：将输入的乳腺癌病例数据集中的变量进行划分，将其划分为离散变量和连续变量，对于连续变量采用优化离散的方式进行等距离散，并通过基尼系数、卡方指标、信息增益进行数据检验；

步骤12：对数据集中的数据进行清洗；

步骤13：通过KNN补缺法，采用缺省值填补缺失值；

步骤14：通过箱线图来检测异常值，剔除超过正常范围的值；

步骤15：进行数据标准化处理；

步骤16：将处理完的数据集划分为训练集与测试集，且训练集与测试集占比为3：1。

进一步地，步骤2的具体操作步骤包括：

步骤21：对预处理后的数据集进行共线性分析，判断变量之间的相关性，若相关性大于预设值则进行逐步回归；若相关性小，则通过方差膨胀因子继续判断共线性的可能性，若方差膨胀因子大于预设值则再进行逐步回归；

所述方差膨胀因子VIF的计算公式为：

其中，R_i为解释变量与其他解释变量的复相关系数；

步骤22：完成共线性分析后，在所述训练集上进行Logistic回归建模构建logistic模型，以AIC准则作为评价利用step函数对Logistic模型进行逐步回归；

步骤23：选择径向基核函数RBF，并选取具有代表性的值进行10折交叉验证，根据准确度确定最佳的惩罚因子和gamma，从而构建支持向量机SVM模型；

步骤24：通过混淆矩阵和ROC曲线的AUC值再进一步结合准确率，精确率与召回率分别对建立的SVM模型和Logistic模型进行评估，直至AUC值达到80％以上；

步骤25：在训练集上对logistic模型和SVM模型进行训练。

进一步地，步骤3的具体操作步骤包括：

步骤31：计算SVM模型通过sigmoid进行转换后的后验概率P：

其中，f为决策值，A、B为根据最大似然法计算出来的参数值；

步骤32：基于Logistic回归误差平方和

和SVM模型的误差平方和/>

计算相关系数ρ和γ：

其中，y_ij表示第i类分类器的第j个样本预测值；

步骤33：基于

ρ和γ，分别利用最小方差法、加权投票法和最小二乘法计算两种模型结合的不同权重组合：

1)最小方差法计算权重公式：

2)最小二乘法计算权重公式：

3)加权投票法计算权重公式：

其中，P_i代表分类模型的正确率。

进一步地，步骤4的具体操作步骤包括：

步骤41：设定分类阈值为0.5；

步骤42：比较步骤33中不同权重组合1)-3)下的SVM模型和logistic模型的准确率，精确率以及召回率，并同时比较ROC曲线下的AUC值的大小，再通过混淆矩阵和auc值的优劣得到最优权重，最终选出当前最优权重下的SVM-logistic并行组合模型。

一种基于组合模型的乳腺癌风险预测系统，其特征在于，包括数据预处理模块、单一模型构建和训练模块、并行组合模型建立模块、最优组合模型选择模块以及风险预测模块；

所述数据预处理模块，用于输入乳腺癌病例数据集，对数据集进行预处理，并将预处理后的数据集划分为训练集与测试集；

所述单一模型构建和训练模块，用于构建SVM模型和logistic模型并在训练集上进行训练；

所述并行组合模型建立模块，用于分别获取SVM模型和logistic模型的不同权重组合，构建SVM-logistic并行组合模型；

所述最优组合模型选择模块，用于选择最优权重下的SVM-logistic并行组合模型；

所述风险预测模块，用于通过建立的SVM-logistic并行组合模型对输入的乳腺癌病人的病理进行乳腺癌风险预测，并输出预测结果。

一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一项所述的基于组合模型的乳腺癌风险预测方法中的步骤。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-5中任一项所述的基于组合模型的乳腺癌风险预测方法中的步骤。

有益效果：

本发明所提组合模型相较单一机器学习模型而言，SVM模型预测精度高，但稳定性差，Logistic模型的预测精度低，稳定性好，解释性更强，而本发明将二者结合可以互相弥补不足。同时二者都可以处理非线性问题，可以解决其输出变量为二分类问题，其中一个属于统计法，另一个属于非统计法，故而本发明结合二者的优点，实现互补进行改进，通过改进的组合模型可以得到更好的预测效果，保持较高的预测精度。

附图说明

图1为基于SVM-Logistic并行组合模型的构建流程图；

图2为SVM-Logistic并行组合模型的ROC曲线。

具体实施方式

为了使本领域的普通技术人员能更好的理解本发明的技术方案，下面结合附图和实施例对本发明的技术方案做进一步的描述。

本发明公开了一种如图1所示的基于SVM-Logistic并行组合模型的构建方法，其包括如下步骤：

步骤1：输入训练集分别训练SVM模型和logistic模型。

步骤2：得到两种单一预测模型的权重。

步骤3：构建最优权重下两种模型的组合模型。

进一步的，所述步骤1的具体步骤包括：

步骤11：对于数据集的变量描述划分好离散变量和连续变量。数据当中有部分属性变量是连续变量，但是连续的程度有较大断层现象，因此通过SPSS软件将这些变量根据情况实现等距离散，等频离散和优化离散，但是本方法的数据最佳适用于优化离散的方式，通过基尼系数、卡方指标、信息增益进行数据检验。

步骤12：对数据集进行清洗预处理；填补缺失值，最好采用KNN补缺法，采用缺省值填补缺失值；识别异常值，通过箱线图的方式来检测异常值，超过正常范围的值将其剔除；数据标准化，保证数值特别大的特征在数据分析中影响不会过于突出从而导致较小数值特征的影响微乎其微；切分训练集与测试集占比为3：1。

步骤13：在建立Logistic模型之前，对于步骤12预处理后的数据集进行共线性分析，若变量间的相关性很大，则认为存在多重共线性，采用逐步回归的方式解决多重共线性；反之变量间相关性很小，不一定能排除共线性的可能性，需要进一步通过方差膨胀因子判断，所述方差膨胀因子(VIF)的计算公式为：

其中，R_i为解释变量与其他解释变量的复相关系数，VIF越大，表示共线性严重，表明了自变量间相关性越大，反之，则越小。

步骤14：对所划分的训练集进行Logistic回归建模之后，利用step函数对Logistic模型进行逐步回归，并采用AIC(Akaike Information Criterion，赤池信息量准则)准则作为评价准则避免其过拟合，保证模型的复杂程度。

步骤15：建立SVM模型，在三种核函数中确定RBF核函数。因为相较于其他二者，RBF在解决非线性问题方面具有较好效果，且需要的参数相对较少，主要是gamma以及惩罚因子C，为了确保该模型的建立准确性，使用因子分析提取主成分，避免过拟合现象的产生，且保证不会过于加剧计算时间，并选取具有代表性的值进行10折交叉验证，根据准确度确定最佳的惩罚因子和gamma，最终建立SVM模型。

步骤16：通过混淆矩阵和ROC(Receiver Operating Characteristic Curve，接受者操作特性曲线)曲线的AUC值来对SVM模型和Logistic模型进行进一步评估，通过混淆矩阵可以直观地看出分类结果预测值(即是否患有乳腺癌预测值)与真实值的差异，再根据准确率，精确率与召回率，反映出SVM模型和Logistic模型的改进方向，同时判断构建的SVM模型优劣，进一步调整SVM模型；

如果AUC(Area Under Curve，定义为ROC曲线下的面积)值达到80％以上，则判定两个预测模型的建立具有较好的效果，在测试集上验证模型的准确率，保证接下来的并行组合模型无误。

进一步的，所述步骤2的具体步骤包括：

步骤21：计算SVM模型通过sigmoid进行转换后的后验概率，计算公式如下：

上式中f为决策值，A、B为根据最大似然法计算出来的参数值；

步骤22：通过计算得到Logistic回归误差平方和

SVM模型的误差平方和/>

(

均通过现有技术中已公开的公式计算)并通过下式计算相关系数ρ和γ：

其中，y_ij表示第i类分类器的第j个样本预测值；

且当-1<ρ<γ时候，模型优于单一模型，趋向-1则模型表现更好，ρ<γ<1，趋向1则模型表现更好，让ρ＝γ，说明组合模型不如单一模型；

步骤23：分别利用最小方差法、加权投票法和最小二乘法计算两种模型得到的不同权重，构建并行组合模型；

1)最小方差法计算权重公式：

2)最小二乘法计算权重公式：

3)加权投票法计算权重公式：

其中，P_i代表分类模型的正确率。

进一步的，通过混淆矩阵和auc值的优劣来得到最优权重，再构建最优权重下两种模型的组合模型的具体步骤包括：

步骤31：初步设定分类阈值为0.5，前后波动为0.05，在所述测试集上进行比较测试，观察模型的预测效果以及变化，确定最终阈值仍然为0.5最佳。

步骤32：比较步骤23中各个方法下得到的各自权重组合下的组合模型的准确率，精确率以及召回率，同时比较ROC曲线下的AUC值的大小，最终选出最优权重下SVM模型和logistic模型的并行组合模型。

实施例

本实施例的实验数据来自美国国家癌症研究所的SEER数据库，其中收集了大部分北美洲人口的癌症诊断，治疗与生存数据，是一个重要的基于人群的资源，用于研究跨人口统计学特征的病理诊断。具体包括了年龄，乳腺癌家族史，初潮年龄，初产年龄，BMI，绝经年龄，哺乳史，乳腺癌活检情况，长期不良情绪，被动吸烟史。一共收集到了近五年来各个种族的6032组训练数据，每组数据的当中的非核心影响因素采取默认数值计算，乳腺癌家族史默认为无，被动吸烟史的为小于一周；通过箱线图识别过于异常的数值，年龄小于14岁和大于90岁将被剔除；通过调整阈值的方式处理不平衡数据，对于初潮年龄的正常范围为12到14岁，正常绝经年龄为45到55岁。最后数据标准化，保证数值特别大的特征在数据分析中影响不会过于突出从而导致较小数值特征的影响微乎其微，公式如下：

上式中

表示x_i的均值，/>

表示x_i的标准差。

切分训练集与测试集占比为3：1。

然后建立Logistic模型，通过方差膨胀因子取其倒数得到关联容忍度的值进行多重共线性分析，以保证特征变量之间的相互独立。之后在先前划分的训练集上进行Logistic回归建模，将其所有作为输入变量进行初步建模，利用R语言的step函数在AIC准则下来对模型进行逐步回归，通过标准误，p值，卡方，ROC曲线等信息判断模型的优劣程度。

之后建立SVM模型，分析数据，保证其能满足Mercer条件，反映数据的分布特征，最终确定RBF(RadialBasisFunction，径向基函数)核函数，惩罚因子C与gamma是建立模型两大关键参数，为了保证建立的模型有所优劣对比，惩罚因子C选择1、50、150其中一个，gamma在0.01、0.1、1选择进行，两两配对9种搭配分析最终的准确度，使用因子分析提取主成分，为了避免过拟合现象的产生，且保证不会过于加剧计算时间，选取具有代表性的值进行10折交叉验证，建立SVM模型。

之后通过混淆矩阵和ROC曲线的AUC值来对SVM模型和Logistic模型进行进一步评估，如果AUC值达到80％以上，判定两个预测模型的建立具有较好的效果，验证模型的准确率，保证接下来的并行组合模型无误。

最终，计算得到的Logistic回归误差平方和

SVM模型的误差平方和/>

相关系数ρ和γ，发现ρ＜γ＜1，到此可以初步判断组合模型的效果要优于单一模型。利用最小方差法、加权投票法和最小二乘法计算两种模型的到的不同权重w₁，w₂与组合模型的误差平方和/>

观察其/>

要远小于单一模型，进一步表示了组合模型效果更佳。之后暂且确定分类阈值为0.5，前后波动为0.05，测试集上进行最终测试比较，观察模型的预测效果以及变化，确定最终阈值仍然为0.5最佳，比较不同权重下组合模型的准确率，精确率以及召回率，同时比较ROC曲线下的AUC值的大小，最终选出最优权重下SVM模型和logistic模型的并行组合模型。

表1单一模型和组合模型性能比较

模型	Accuracy	Precision	Recall	F1	AUC
						SVM	79.54％	81.96％	90.56％	0.872	0.845
Logistic	78.14％	79.56％	91.13％	0.860	0.842
						并行模型	80.37％	82.32％	92.11％	0.882	0.859

本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。尽管参照前述实施例对本发明专利进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。