CN110738362A

CN110738362A - 一种基于改进的多元宇宙算法构建预测模型的方法

Info

Publication number: CN110738362A
Application number: CN201910942225.1A
Authority: CN
Inventors: 陈慧灵; 刘佳慧; 傅航飞; 乔雪婷; 赵学华; 刘国民; 罗云纲; 汪鹏君
Original assignee: Wenzhou University
Current assignee: Wenzhou University
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2020-01-31

Abstract

本发明提供一种基于改进的多元宇宙算法构建预测模型的方法，包括获取样本数据并对所获取到的样本数据进行归一化处理；利用基于改进的多元宇宙算法优化支持向量机的惩罚因子C和核宽γ；基于所获得的惩罚因子C和核宽γ，利用所归一化处理后的数据来构建预测模型，并基于所构建的预测模型对待分类样本进行分类和预测。实施本发明，通过基于改进的多元宇宙算法来优化SVM的惩罚因子和核宽，可有效提升算法的收敛速度和收敛精度，提升算法逃脱局部最优解的能力，找到更优的全局近似最优解。

Description

一种基于改进的多元宇宙算法构建预测模型的方法

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于改进的多元宇宙算法(CSAMVO)算法构建预测模型的方法。

背景技术

众所周知，科学技术日益表现出交叉和渗透的特征，特别是计算机科学技术改变了人类生产与生活方式。大数据应用的领域也越来越广，因此对大数据的分类及预测等处理提出了新的挑战，尤其是元启发式优化算法用于大数据的分类及预测中。

支持向量机(SVM)常用于构建预测模型来对数据进行分析，该支持向量机(SVM)最常用的两种参数优化方法包括网格搜索和梯度下降。在第一种参数优化方法中，网格搜索是一种穷举搜索方法，它一般是通过设置合理的区间上下限和间隔步长对指定参数空间进行划分，然后对每个网格节点代表的参数组合进行训练和预测，将这些预测结果中取值最高的一组参数作为最终SVM模型的最佳参数。该方法虽然在一定程度上能保证得到给定参数空间内最优的参数组合，然而随着参数空间增大，其搜索效率会大大降低，特别是设置合理的区间和间隔步长值往往非常困难，从而大大降低了其可行性，而且模型也非常容易陷入局部最优值；在第二种参数优化方法中，梯度下降方法虽然能克服网格搜索方法的缺陷，但是它对初始值非常敏感，特别是初始参数设置离最优解非常远的时候，模型很容易收敛到局部最优解。

近年来，由于元启发式的搜索算法凭借其独特的全局寻优能力而受到了学术和工业界的广泛关注，它们被普遍认为比传统寻优方法具有更大的机会找到全局最优解，因此提出多种基于元启发式算法的SVM训练算法来处理参数优化问题。

SVM在具体应用时，其性能主要受包括线性核函数、多项式核函数、径向基(RBF)核函数和sigmoid核函数等核函数影响，一般情况下选择基于RBF核函数的SVM。RBF核SVM主要涉及两个重要的参数C和γ。C是惩罚因子，它用于控制对错分样本惩罚的程度，起到控制训练误差和模型复杂度之间平衡的作用；C值越小，则对数据中误判样本的惩罚也越小，使得训练误差变大，因此结构风险也变大。相反，C值越大，对错分样本的约束程度就越大，这样会导致模型虽然对训练数据的误判率很低，但整体的泛化能力却很差，容易出现“过拟合”现象。参数γ代表RBF核函数中的核宽，它决定了核函数的宽度，直接影响SVM的性能。如果γ取得不恰当，SVM很难获得预期的学习效果。γ值太小会导致过拟合，γ值太大会使SVM的判别函数过于平缓。所以惩罚因子C和核宽γ从不同的角度影响着SVM的分类超平面。在实际应用中，它们取值过大或过小都会使SVM的泛化性能变差。

但是，采用现有的元启发式的搜索算法来处理SVM参数优化问题，还有待进一步提升算法的收敛速度和收敛精度，提升算法逃脱局部最优解的能力，从而找到更优的全局近似最优解。

发明内容

本发明实施例所要解决的技术问题在于，提供一种基于改进的多元宇宙算法构建预测模型的方法，通过基于改进的多元宇宙算法(CSAMVO)来优化SVM的惩罚因子和核宽，可有效提升算法的收敛速度和收敛精度，提升算法逃脱局部最优解的能力，找到更优的全局近似最优解。

为了解决上述技术问题，本发明实施例提供了一种基于改进的多元宇宙算法构建预测模型的方法，所述方法包括以下步骤：

步骤S1、获取样本数据并对所获取到的样本数据进行归一化处理；

步骤S2、利用基于改进的多元宇宙算法优化支持向量机的惩罚因子C和核宽γ，具体为：

步骤S2.1、参数初始化；其中，初始化的参数包括：最大迭代次数L、当前迭代次数l、宇宙个数N、宇宙上边界ub、宇宙下边界lb、最优宇宙Ubest、最佳适应度fitness、C的搜索空间[Cmin，Cmax]和γ的搜索空间[γmin，γmax]；

步骤S2.2、随机初始化n个宇宙的位置，并采用如下公式(1)和(2)将每一个宇宙的位置映射到指定的搜索范围内，得到n个宇宙的位置U_i＝(U_i，1，U_i，2)；

U_i，1＝(C_max-C_min)*r+C_min (1)；

U_i，2＝(γ_max-γ_min)*r+γ_min (2)；

其中，r为[0，1]之间的随机小数；C_i表示宇宙i在当前位置时的C值，γ_i表示宇宙i在当前位置时的γ值；i＝1，2，...，n；搜索范围为惩罚系数C的搜索范围[C_min，C_max]和核宽γ的搜索范围[γ_min，γ_max]；C_max为惩罚系数最大值，C_min为惩罚系数最大值，γ_max为核宽最小值，γ_min为核宽最大值；

步骤S2.3、对每个宇宙U_i均计算其适应度f_i，并将每个宇宙i的适应度f_i由大到小排序后，筛选出n个宇宙中适应度大于最优宇宙Ubest的适应度且适应度为最大的宇宙，将最优宇宙Ubest替换成当前所筛选出适应度最大的宇宙，且进一步将当前宇宙位置赋值给最佳宇宙位置Best_pos；

其中，每个宇宙i的适应度f_i是基于宇宙i当前位置的C和γ值，其根据公式(3)以内部K折交叉验证策略计算出支持向量机的准确度ACC；

其中，acck表示每一折数据上计算获得的准确度；

步骤S2.4、将所有宇宙的适应度由大到小进行排序，并让所有宇宙的位置按照对应排序后的适应度大小进行调整，且待所有宇宙的位置调整完成后，根据公式(4)，重新计算出每个宇宙的新位置，以及进一步对每个已有新位置的宇宙均重新计算其适应度；

其中，U_i为所有宇宙的位置调整完成后的第i个宇宙的位置，U_i+1为宇宙位置U_i重新计算出的新位置，l为当前迭代次数，rand为0～1之间的随机数；

步骤S2.5、将适应度排序后的宇宙标准化，并利用数学方法模拟宇宙中的白洞及黑洞，且进一步根据公式(5)利用轮盘赌算法搜寻白洞出现的位置；

其中，为第i个宇宙的第j个参数；Ui表示第i个宇宙；NI(UI)为i个宇宙的标准化膨胀率；r1为0～1之间的随机数；为由轮盘赌算法选择的第k个宇宙的第j个参数；

步骤S2.6、假设虫洞隧道总是建立在一个宇宙和迄今为止形成的最好的宇宙之间，找到最优宇宙Ubest的最佳位置Best_pos，并按公式(6)继续更新宇宙位置；

其中，Xj为迄今为止形成的最好宇宙的第j个参数；TDR为固定的系数；WEP为固定的系数；lb_j为第j个变量的下界；ub_j为第j个变量的上界；r2、r3、r4均为[0，1]之间的随机数；

步骤S2.7、判断是否超过最大迭代次数L；若否，则跳转至步骤S2.3；若是，则执行下一步骤S2.8；

步骤S2.8、输出最优宇宙Ubest的最佳位置Best_pos及其对应的适应度，即最优的惩罚因子C和核宽γ值；

步骤S3、基于所获得的惩罚因子C和核宽γ，利用所归一化处理后的数据来构建下述公式(7)所示的预测模型，并基于所构建的预测模型对待分类样本进行分类和预测；其中，K(●)采用公式(8)所示；x_j表示第j个归一化处理后的样本数据；x_i(i＝1...l)表示训练样本；y_i(i＝1...l)表示训练样本对应的标签，y_i＝1代表正类样本，y_i＝-1代表负类样本；b为阈值；α_i是拉格朗日系数；

K(x_i,x_j)＝exp(-r||x_i-x_j||²) (8)。

其中，所述步骤S2.3还进一步包括以下步骤：

引入模拟退火机制，提高宇宙搜索深度，扩大宇宙位置更新范围，该步骤具体包括：

步骤S2.3.1、获取当前更新后的宇宙及其适应度，利用公式(9)计算是否需要再更新的概率：

式中，e是自然对数，e(i)、e(j)分别表示i状态和j状态下固体的内能，ΔE＝E(j)-E(i)表示内能增量，k是玻尔齐默常数。

步骤S2.3.2、若步骤S2.3.1更新概率达到退火条件，则转到步骤S2.3首部继续更新；若不满足退火条件，则结束退火步骤S2.3.1，根据公式(3)以内部K折交叉验证策略计算出支持向量机的准确度ACC。

其中，在所述步骤S2.6和所述步骤S2.7之间，还进一步包括以下步骤：

采用混沌映射函数对宇宙位置进行混沌扰动处理，输出最优宇宙Ubest的最佳位置Best_pos，具体包括：

步骤S4.1、获取适应度最高的宇宙位置，然后利用公式(10)产生Logistic混沌变量C_i；

C_i+1＝μ*C*(1-C_i)i＝1，…，K(10)；

其中，μ为混沌映射函数的控制参量，当μ＝4时，Logistic映射处于完全混沌状态，C_i为(0，1)内均匀分布的随机数，且C_i≠0.25，0.5，0.75，1；K为混沌序列长度且K＝N；

步骤S4.2、通过公式(11)，将混沌变量C_i映射成为定义域[lb，ub]内的混沌向量C′_i；

C′_i＝lb+C_i*(ub-lb)i＝1，…，K(11)；

步骤S4.3、利用公式(12)，将混沌向量C′_i与最优宇宙位置线性组合，生成候选向量宇宙位置U′_best；

其中，rand为[0，1]之间的随机数；

步骤S4.4、如果U'_best的适应度优于U_best，则将T_i记录为U_best，局部搜索结束；否则，

如果混沌序列长度达到K，则局部搜索也结束；如果混沌序列长度小于K，则跳到步骤S4.1继续执行。

实施本发明实施例，具有如下有益效果：

本发明在多元宇宙算法(CSAMVO)优化过程中的合适位置加入模拟退火机制、混沌扰动机制来实现SVM的惩罚因子C和核宽γ编码为个体位置优化，并在优化过程中采用K折交叉验证，防止多元宇宙算法陷入局部极值，能够获取更高效精准的智能模型，不仅增加种群多样性，增强算法的搜索能力，还能防止算法陷入局部最优，快速找到全局最优解，从而能得到更准确的预测效果并更有效地辅助决策者进行科学合理的决策。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，根据这些附图获得其他的附图仍属于本发明的范畴。

图1为本发明实施例提供的基于改进的多元宇宙算法构建预测模型的方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述。

如图1所示，为本发明实施例中，提出的一种基于改进的多元宇宙算法构建预测模型的方法，所述方法包括以下步骤：

步骤S1：获取样本数据并对所获取到的样本数据进行归一化处理；

具体过程为，样本数据来源于多种不同领域，可根据实际需要进行设计，如医疗领域、金融领域等，数据属性类别分为数据属性和类别属性。如针对乳腺癌疾病的数据单个样本属性，该数据属性值分为两大类即数据属性X₁-X₉表示了针对乳腺癌疾病的相关医学病理方面的属性，X₁₀表示了该数据样本的类别：即是否患乳腺癌疾病，若样本患病：值为1，若样本健康：值为-1；又如，针对企业破产风险预测数据单个样本属性分布，会有X₁-X_n个这样的相关金融指标如负债率、资产总额等属性指标，则X_n+1也是类别标签：即该企业在两年内是否有破产风险的存在，若有破产风险标签为1，没有破产风险标签为-1。

为了便于数据处理，会对所获取到的样本数据进行归一化处理。

U_i，1＝(C_max-C_min)*r+C_min (1)；

U_i，2＝(γ_max-γ_min)*r+γ_min (2)；

步骤S2.3、对每个宇宙U_i均计算其适应度f_i，并将每个宇宙i的适应度f_i由大到小排序后，筛选出n个宇宙中适应度大于最优宇宙Ubest的适应度且适应度为最大的宇宙，将最优宇宙Ubest替换成当前所筛选出适应度最大的宇宙，且进一步将当前宇宙位置赋值给最佳位置Best_pos；

其中，acck表示每一折数据上计算获得的准确度；

其中，为第i个宇宙的第j个参数；Ui表示第i个宇宙；NI(UI)为i个宇宙的标准化膨胀率；r1为0～1之间的随机数；

为由轮盘赌算法选择的第k个宇宙的第j个参数；

应当说明的是，利用数学方法模拟宇宙中的白洞、黑洞(白洞释放物质，黑洞吸收物质，虫洞转移物质)，并根据轮盘赌算法搜寻白洞出现的位置，为了保持宇宙的多样性和进行开发，我们认为每一个宇宙都有虫洞，可以随机地通过空间传送物体，从而可以根据宇宙的适应度随机交换白洞及黑洞；

步骤S2.6、假设虫洞隧道总是建立在一个宇宙和迄今为止形成的最好的宇宙之间(为了给每个宇宙提供局部变化的空间，并且有很高的概率利用虫洞来提高膨胀率)，找到最优宇宙Ubest的最佳位置Best_pos，并按公式(6)继续更新宇宙位置；

K(x_i,x_j)＝exp(-r||x_i-x_j||²) (8)。

在本发明实施例中，引入模拟退火机制，提高宇宙搜索深度，因此在步骤S2.3和步骤S2.4之间，还进一步包括以下步骤：采用模拟退火策略扩大宇宙位置更新范围，该步骤具体包括：

同时，在最优宇宙评估阶段加入了混沌局部搜索机制，降低寻找最优宇宙时陷入局部最优的可能性，扩大了最优宇宙搜索范围，因此在步骤S2.6和步骤S2.7之间，还进一步包括以下步骤：采用混沌映射函数对宇宙位置进行混沌扰动处理，输出最优宇宙Ubest的最佳位置Best_pos，该步骤具体包括：

C_i+1＝μ*C*(1-C_i)i＝1，…，K(10)；

C′_i＝lb+C_i*(ub-lb)i＝1，…，K(11)；

其中，rand为[0，1]之间的随机数；

步骤S4.4、如果U′_best的适应度优于U_best，则将T_i记录为U_best，局部搜索结束；否则，

在本发明实施例中，对基于改进的多元宇宙算法构建预测模型的方法的应用场景做进一步说明：

采用乳腺癌数据作为样本数据，样本集合这样表示：(x_i，y_i)，i＝1......699，其中‘x_i’表示9维的特征向量，y是值为1或-1的样本标签，‘1’代表该样本是患乳腺癌，‘-1’代表该患者是健康的。

首先，将待实验样本数据各个特征属性值进行标准化，利用公式

对样本数据进行标准化，其中S_i代表样本中的属性的特征原始值，S′_i是S_i由公式所得到的标准化后的值，S_min表示对应的样本数据中的最小值，S_max表示对应的样本数据中的最大值；

随后，利用基于改进的多元宇宙算法优化支持向量机的惩罚系数C和核宽γ，且在内部采用K折交叉策略进行优化(即将导入模型的样本进行K折切割，每一次都以其中的K-1折作为训练数据，且在训练的同时采用改进的多元宇宙算法对于其中两个关键性的参数进行优化，期望获得最佳的智能分类模型，模型构建好后，在用剩余的数据作为测试数据，对于构建的智能决策模型的性能进行评估)。简而言之，就是针对不同的智能分类决策问题，我们需要采用具有全局搜索能力的改进的多元宇宙算法去实现构造出针对此类问题最佳的分类决策模型，当然如之前论述：惩罚系数C和核宽γ是对该模型的性能具有重要的影响，也就是说，这两个参数的好坏将直接影响决策模型的性能的好坏，所以在此我们提出改进的多元宇宙算法去完成对这两个参数的选择，不仅改善了传统算法，跳出了局部极值点，也在一定程度上提高了算法的收敛速度和精度。

输入训练样本(xi，yi)，且依据Largrange对偶问题优化的问题变为：

然后对于以上的优化问题采用改进的多元宇宙算法对C和γ(是径向基核函数参数核宽K(x_i,x_j)＝exp(-γ||x_i-x_j||²))进行优化，并求解出最优解的值为：

a^*＝(a₁ ^*,a₂ ^*,...,a^* ₆₉₉)^T

则有如下解：

那么最终的最优分类超平面函数为：

实施本发明实施例，具有如下有益效果：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，所述的存储介质，如ROM/RAM、磁盘、光盘等。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于改进的多元宇宙算法构建预测模型的方法，其特征在于，所述方法包括以下步骤：

步骤S1、取样本数据并对所获取到的样本数据进行归一化处理；

步骤S2.2、随机初始化n个宇宙的位置，并采用如下公式(1)和(2)将每一个宇宙的位置映射到指定的搜索范围内，得到n个宇宙的位置U_i＝(U_i,1,U_i,2)；

U_i,1＝(C_max-C_min)*r+C_min (1)；

U_i,2＝(γ_max-γ_min)*r+γ_min (2)；

其中，r为[0,1]之间的随机小数；C_i表示宇宙i在当前位置时的C值，γ_i表示宇宙i在当前位置时的γ值；i＝1,2,...,n；搜索范围为惩罚系数C的搜索范围[C_min，C_max]和核宽γ的搜索范围[γ_min，γ_max]；C_max为惩罚系数最大值，C_min为惩罚系数最大值，γ_max为核宽最小值，γ_min为核宽最大值；

步骤S2.3、对每个宇宙U_i均计算其适应度f_i，并将每个宇宙i的适应度f_i由大到小排序后，筛选出n个宇宙中适应度大于最优宇宙Ubest的适应度，且适应度为最大的宇宙，将最优宇宙Ubest替换成当前所筛选出适应度最大的宇宙，且进一步将当前宇宙位置赋值给最佳宇宙位置Best_pos；

其中，acck表示每一折数据上计算获得的准确度；

其中，

为第i个宇宙的第j个参数；Ui表示第i个宇宙；NI(UI)为i个宇宙的标准化膨胀率；r1为0～1之间的随机数；为由轮盘赌算法选择的第k个宇宙的第j个参数；

步骤S2.6、假设虫洞隧道总是建立在一个宇宙和迄今为止形成的最好宇宙之间，找到最优宇宙Ubest的最佳位置Best_pos，并按公式(6)继续更新宇宙位置；

步骤S2.8、输出最优宇宙Ubest的位置Best_pos及其对应的适应度，即最优的惩罚因子C和核宽γ值；

步骤S3、基于所获得的惩罚因子C和核宽γ，利用所归一化处理后的数据来构建下述公式(7)所示的预测模型，并基于所构建的预测模型对待分类样本进行分类和预测；其中，K(·)采用公式(8)所示；x_j表示第j个归一化处理后的样本数据；x_i(i＝1...l)表示训练样本；y_i(i＝1...l)表示训练样本对应的标签，y_i＝1代表正类样本，y_i＝-1代表负类样本；b为阈值；α_i是拉格朗日系数；

K(x_i,x_j)＝exp(-r||x_i-x_j||²) (8)。

2.如权利要求1所述的基于改进的多元宇宙算法构建预测模型的方法，其特征在于，所述步骤S2.3还进一步包括以下步骤：

式中，e是自然对数，e(i)、e(j)分别表示i状态和j状态下固体的内能，ΔE＝E(j)-E(i)表示内能增量，k是玻尔齐默常数；

3.如权利要求1所述的基于改进的多元宇宙算法构建预测模型的方法，其特征在于，在所述步骤S2.6和所述步骤S2.7之间，还进一步包括以下步骤：

C_i+1＝μ*C*(1-C_i) i＝1,…,K (10)；

其中，μ为混沌映射函数的控制参量，当μ＝4时，Logistic映射处于完全混沌状态，C_i为(0,1)内均匀分布的随机数，且C_i≠0.25,0.5,0.75,1；K为混沌序列长度且K＝N；

步骤S4.2、通过公式(11)，将混沌变量C_i映射成为定义域[lb,ub]内的混沌向量C′_i；

C′_i＝lb+C_i*(ub-lb)i＝1,…,K (11)；

步骤S4.3、利用公式(12)，将混沌向量C′_i与最优宇宙位置线性组合，生成候选向量宇宙位置U'_best；

其中，rand为[0，1]之间的随机数；