CN109447272A

CN109447272A - 一种基于最大中心互相关熵准则的极限学习机方法

Info

Publication number: CN109447272A
Application number: CN201811151632.2A
Authority: CN
Inventors: 陈霸东; 王鑫; 王飞; 杜少毅; 任鹏举
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2018-09-29
Filing date: 2018-09-29
Publication date: 2019-03-08

Abstract

本发明公开了一种基于最大中心互相关熵准则的极限学习机方法，先让系统输入训练数据通过基于最大中心互相关熵准则的极限学习机模型，采用较大的核宽，得到模型的输出，让系统的实际输出和模型输出做差值运算，得到模型的误差，用误差的均值或中值作为核的中心，利用最大中心互相关熵准则，利用不动点迭代权重向量，当迭代多次收敛以后，利用得到的权重向量求得模型的输出。本发明具有良好的普适性，适合应用于非高斯系统或信号处理过程，具有同时满足高精度和参数选取迅速的性能，解决了最小均方误差准则下对非高斯噪声的不鲁棒和最大互相关熵准则下的在非零均值噪声下精度不理想且核宽由交叉验证选取较为耗时的问题。

Description

一种基于最大中心互相关熵准则的极限学习机方法

技术领域

本发明属于鲁棒机器学习领域，涉及一种基于最大中心互相关熵准则的极限学习机方法。

背景技术

基于最大互相关熵准则的机器学习模型是近年来发展起来的鲁棒学习方法。它具有很强的鲁棒性和适应性，因此在工程实际中，尤其在信息处理技术中有望得到广泛应用。

任何一个实际的信息处理过程都具有不同程度的不确定性，这些不确定性有时表现在过程内部，有时表现在过程外部。从过程内部来讲，描述研究对象即信息动态过程的数学模型的结构和参数是设计者事先并不一定能确切知道的。作为外部环境对信息过程的影响，可以等效地用扰动来表示。这些扰动通常是不可测的，它们可能是确定性的，也可能是随机的。此外，还有一些测量噪音，也以不同的途径影响信息过程。这些扰动和噪声的统计特性常常是未知的。面对这些客观存在的各式各样的不确定性，如何综合处理该信息过程，并使得某一些指定的性能指标达到最优或近似最优，这就是鲁棒学习所要解决的问题。

因为数学上的简便处理，以及计算复杂度的考虑，最小均方误差准则已经被广泛运用到机器学习领域。但是，线性的均方误差机器学习方法通常在线性高斯噪声情况下较为理想，而在大多数实际应用中面对的系统或者信息过程都是非高斯情况，这时最小均方误差代价函数的机器学习方法效果就不是很理想了。

近期黄广斌等人提出了一种新的单隐层前馈网络学习方法(SLFNs)，称为极限学习机(ELM)。值得注意的是，连接输入层和隐藏层的权重以及偏置项都是随机初始化的。然后，连接隐藏层和输出层的权重可以通过基于Moore-Penrose广义逆的最小二乘法直接确定。因此，ELM的训练速度非常快，这是该方法的主要优点。ELM已广泛应用于人脸识别、图像处理、文本分类、时间序列预测和非线性模型识别等。但是，ELM存在以下两个局限性。

1)当训练集中存在噪声或异常值时，ELM可能产生较差的泛化性能。原因在于均方误差(MSE)准则假定了误差为高斯分布。但是，这种假设并不总是适用于现实世界。

2)ELM中使用的原始最小平方值对噪声或异常值的存在十分敏感。这些异常的样本可能会歪曲最小二乘分析的结果。

近年来出现了许多ELM的变形，黄等人为我们提供了详细的调查研究，还提出了一些新的ELM改进模型。王等人提出了一种名为EELM的改进算法。EELM可以保证隐层输出矩阵的列满秩，而传统的ELM有时无法满足。通过引入遗忘机制，赵等人提出了一种名为FOS-ELM的新型在线序列ELM，与在线序列ELM系统相比，该系统的训练时间更短，准确度更高。最近，Santamaria等人提出了相关熵的定义和性质。均方误差(MSE)是一种全局相似性度量，而相关熵是一种局部相似性度量。由于其灵活性，相关熵已成功用于设计不同的成本函数。Jeong等人通过使用相关熵将最小平均相关能量(MACE)扩展到其相应的非线性版本。此外，他们证实了相比于线性MACE，相关熵MACE更能抵抗失真并具有更多的泛化和抗扰能力。刘等人利用相关熵构造用于训练线性回归模型的目标函数。他们主要证明了在含噪声的回归实例中最大相熵准则优于均方误差和最小误差熵。然而，它们的线性回归器的系数通过基于梯度的优化方法来更新，这是非常耗时的。

最大互相关熵准则对于非高斯的噪声数据能够提供一个较为鲁棒的优化准则。样本通过学习模型，利用模型输出与期望输出计算互相关熵，进而将其作为代价函数运用到模型训练。和最小均方误差准则相比，最大互相关熵准则在处理冲击非高斯噪声污染的数据时，通常具有更好的性能。然而，基于最大互相关熵准则的学习模型迭代的初始误差比较大时，会导致方法的精度难以到达理想效果。

发明内容

本发明的目的在于克服上述现有技术的缺点，提供一种基于最大中心互相关熵准则的极限学习机方法，并采取了新的核宽选取方法代替原有交叉验证方法，具有同时满足精度高和运行时间短的特点。

为达到上述目的，本发明采用以下技术方案予以实现：

一种基于最大中心互相关熵准则的极限学习机方法，包括以下步骤：

先让系统输入训练数据x(n)通过基于最大中心互相关熵准则的极限学习机模型，采用较大的核宽，得到模型的输出y(n)，让系统的实际输出d(n)和模型输出y(n)做差值运算，得到模型的误差e(n)，用误差的均值或中值作为核的中心，利用最大中心互相关熵准则，利用不动点迭代权重向量β(n)，当迭代多次收敛以后，利用得到的权重向量β(n)求得模型的输出y(n)。

具体包括以下步骤：

步骤1：已知N个任意不同的样本其中x_P∈R^d，t_p∈R^m；具有N_h个隐藏单元的标准单隐层前馈网络的输出矢量和激活函数f(·)数学表示如下：

其中，w_j是连接第j个隐藏层单元与输入单元的权向量，b_j是第j个隐藏层单元对应的偏置项，w_j·x_p表示w_j和x_p的内积，β_j是连接第j个隐藏层单元和所有输出单元的权向量，y_p表示单隐层前馈网络对于第p个输入向量x_p的输出；

步骤2：非线性系统转换为线性系统：

Y＝Hβ (2)

其中：

其中，为隐藏层的输出矩阵，β为连接隐藏层和输出层的权重矩阵，Y为输出层的输出矩阵，T为目标输出矩阵，因此，连接隐藏层和输出层的权重矩阵通过求解下式来确定：

其中，||·||_F表示斐波那契范数；

式(3)通过如下方式求解：

其中，为Moore-Penrose广义逆；有几种不同的方法来确定当H^TH是非奇异的时，正交投影法可以用来计算

中心互相关熵ELM权重矩阵通过求解下式来确定：

式(6)通过如下方式求解：

步骤3：选取核宽：

先选取一个核宽，通过中心互相关熵ELM得到一组误差，由误差的中位数得到互相关熵中心c，根据这组误差的分布来选择一个与之最为接近的损失函数：

式(8)等价于：

选取一个σ的集合，来求得式(9)的近似最优值。

中心互相关熵准则算法代价函数为

中心互相关熵准则算法代价函数的核宽σ选取为与误差分布最为接近的代价函数所对应的核宽。

与现有技术相比，本发明具有以下有益效果：

由于传统的最小均方误差准则下的学习方法在非高斯噪声情况下不具有普遍的良好性能；而原始的最大互相关熵准则下的学习方法又存在非零均值噪声下精度不理想且核宽由交叉验证选取较为耗时这两个指标的缺点。本发明提出基于最大中心互相关熵准则的极限学习机方法，该方法具有良好的普适性，适合应用于非高斯系统或信号处理过程，具有同时满足高精度和参数选取迅速的性能，解决了最小均方误差准则下对非高斯噪声的不鲁棒和最大互相关熵准则下的在非零均值噪声下精度不理想且核宽由交叉验证选取较为耗时的问题，具有较为重要的研究意义和广泛的工程应用价值。

具体实施方式

下面结合实施例对本发明做进一步详细描述：

对于ELM，连接输入层和隐藏层的权重以及偏置项的初始化是随机，而连接隐藏层和输出层的权重是通过分析确定的。因此，这种方法的学习速度比传统的基于梯度下降的学习方法的学习速度快得多。

本发明基于最大中心互相关熵准则的极限学习机方法，包括以下步骤：

已知N个任意不同的样本其中x_P∈R^d，t_p∈R^m。具有N_h个隐藏单元的标准单隐层前馈网络(SLFN)的输出矢量和激活函数f(·)数学表示如下：

其中，w_j是连接第j个隐藏层单元与输入单元的权向量，b_j是第j个隐藏层单元对应的偏置项，w_j·x_p表示w_j和x_p的内积，β_j是连接第j个隐藏层单元和所有输出单元的权向量，y_p表示单隐层前馈网络对于第p个输入向量x_p的输出。

对于ELM，连接输入单元和隐藏单元的权重以及偏置项是随机生成的，而非通过调整得到。如此，非线性系统可以转换为线性系统：

Y＝Hβ (2)

其中：

此外，为隐藏层的输出矩阵，β为连接隐藏层和输出层的权重矩阵，Y为输出层的输出矩阵，T为目标输出矩阵，因此，连接隐藏层和输出层的权重矩阵可以通过求解下式来确定。

其中，||·||_F表示斐波那契范数。

式(3)可以通过如下方式求解：

其中，为Moore-Penrose广义逆。有几种不同的方法来确定当H^TH是非奇异的时，正交投影法可以用来计算

然而，仍然存在一些不足限制ELM的进一步发展，例如训练样本中噪声不一定高斯分布，则原来的最小二乘解将对噪声敏感。

本文提出基于最大中心互相关熵熵准则的极限学习机训练算法并进行仿真验证。算法在实际数据集和人造数据集上的性能测试。

中心互相关熵ELM权重矩阵可以通过求解下式来确定

式(6)可以通过如下方式求解：

除交叉验证选取核宽的方式以外，本文提出一种选取核宽的新方法，具体实施步骤如下，

先选取一个较大的核宽，通过中心互相关熵ELM得到一组误差，由误差的中位数得到互相关熵中心c，根据这组误差的分布来选择一个与之最为接近的损失函数。

式(8)等价于：

我们选取一个σ的集合，来求得式(9)的近似最优值。

人造数据集产生方式为y_i＝w₁x_1i+w₂x_2i+ρ_i，其中w₁＝1，w₂＝2。输入x_1i，x_2i在[0,1]中均匀产生。并选择400个数据用来训练，100个作为测试数据。并进行50次实验，计算测试精度的均值和标准差。ρ_i为噪声，第一组形式为ρ_i＝(1-g_i)O_1i+g_iO_2i，g_i服从二项分布，且Pr{g_i＝1}＝p₁，Pr{g_i＝0}＝1-p₁(0≤p₁≤1)。O_1i，O_2i为高斯噪声其均值分别为-1,1，标准差为0.5，p₁＝0.3。第二组形式与第一组相同，O_1i，O_2i为高斯噪声其均值为1，标准差分别为1，10，p₂＝0.1。第三组采用自由度为4的卡方分布的噪声。表1为四种算法的性能比较。MCC为原始最大相关熵代价函数且核宽由交叉验证选取，MCCC为最大中心互相关熵代价函数核宽由交叉验证选取，MCC-S为采用了新的核宽选取方式的最大相关熵代价函数，MCCC-S为采用了新的核宽选取方式的最大中心互相关熵代价函数。由表1可知，核宽由交叉验证选取的最大中心互相关熵代价函数实验结果精度较高，采用新的核宽选取方式算法的精度虽然低一些，但是在运行时间上要相比于交叉验证快很多。

表1四种算法性能比较

在实际数据实验中，我们采用UCI数据库中的一些回归数据集并使用ELM来验证新方法的性能。表2中给出了不同数据集的细节描述。表3给出了四种方法的参数。表4为实验性能比较结果。由表4可知，采用核宽由交叉验证选取的最大中心互相关熵代价函数的ELM实验结果精度较高，采用新的核宽选取方式ELM算法的精度与交叉验证方法的差别不大，但是在运行时间上要相比于交叉验证快很多。

表2.数据集描述

表3.四种方法参数设置

表4.四种方法的性能比较

本发明基于最大中心互相关熵准则的极限学习机方法，采用最大中心互相关熵准则，其代价函数的核宽度通过选取为与误差分布最为接近的代价函数所对应的核宽，用来更新权重向量β(n+1)，以此来得到理想的输出y(n)；

所述极限学习机方法具体步骤如下：

中心互相关熵准则算法代价函数为核中心c，取值为训练模型误差的中值或均值。中心互相关熵准则算法代价函数的核宽σ选取为与误差分布最为接近的代价函数所对应的核宽。通过不动点迭代调整学习模型的权重向量β(n)，通过不断迭代，得到学习模型效果较优的权重向量β(n)。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种基于最大中心互相关熵准则的极限学习机方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于最大中心互相关熵准则的极限学习机方法，其特征在于，具体包括以下步骤：

步骤2：非线性系统转换为线性系统：

Y＝Hβ (2)

其中：

其中，||·||_F表示斐波那契范数；

式(3)通过如下方式求解：

中心互相关熵ELM权重矩阵通过求解下式来确定：

式(6)通过如下方式求解：

步骤3：选取核宽：

式(8)等价于：

选取一个σ的集合，来求得式(9)的近似最优值。

3.根据权利要求1或2所述的基于最大中心互相关熵准则的极限学习机方法，其特征在于，中心互相关熵准则算法代价函数为

4.根据权利要求3所述的基于最大中心互相关熵准则的极限学习机方法，其特征在于，中心互相关熵准则算法代价函数的核宽σ选取为与误差分布最为接近的代价函数所对应的核宽。