CN110110754B

CN110110754B - 基于代价局部泛化误差的不平衡问题的分类方法

Info

Publication number: CN110110754B
Application number: CN201910267769.2A
Authority: CN
Inventors: 吴永贤; 刘政锡; 张建军
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-04-03
Filing date: 2019-04-03
Publication date: 2022-03-29
Anticipated expiration: 2039-04-03
Also published as: CN110110754A

Abstract

本发明公开了基于代价局部泛化误差的不平衡问题的分类方法，包括以下步骤：对数据的每维特征进行归一化处理；根据数据集的统计学规律，计算不同类别样本的错分代价；构建代价敏感多层感知器神经网络模型；针对每一个样本，计算其局部泛化误差对应的随机敏感度(ST‑SM)；结合代价敏感以及局部泛化误差的随机敏感度完成模型训练。本发明在规避数据层面的方法对数据集分布过多影响的劣势的情况下，有效地结合局部泛化误差对泛化能力的提升上的优势和基于算法层面的方法更快的训练、测试时间的优势，提升了不平衡数据集分类的稳定性和各个类别的分类结果的准确度，得出了更合理的分类决策边界。

Description

基于代价局部泛化误差的不平衡问题的分类方法

技术领域

本发明涉及数据集不平衡分类的领域，具体涉及基于代价局部泛化误差的不平衡问题的分类方法。

背景技术

随着计算机科学技术的发展，机器学习在众多的领域中都表现出了极为重要的作用。近年来，而不平衡的数据集的情况在大多数领域中都不容忽视，也成为了机器学习发展的一项阻碍。如体检中，健康的人群的数目一般是大于实际是病人的人数。如果把健康的人错分类成了生病的人，只需要人工再检测一次就能判定；但是，如果忽视了病人的疾病，会导致病人不能收到及时的治疗。普通的机器学习都是认为数据集分布是平衡的，并且错分的损失也是相同的。因此，不平衡数据集问题的最基本的根源在样本分布的不平衡程度会影响普通的机器学习结果，导致距离真实的结论越来越远。

现有的解决不平衡数据集的方法有，基于数据层面的方法，基于算法层面的方法和混合方法。但是基于数据层面的方法，比如重采样，会生成大量的少数类的未知样本或者是删除大量多数类的已知样本，从而可能影响数据集全局的分布规律，除此之外，采样的随机性与带来的全局影响给分类的结果带来了不确定性；而混合方法则多是考虑到单个分类器的局限性，结合集成学习的思想，运用集成学习的优势来得到比单个分类器更好地分类结果，单个分类器甚至可以使用基本的机器学习模型就可以做到，但是缺点在于，集成学习导致训练、测试的速度降低。相反，基于算法层面的方法，比如代价敏感学习，有较快的速度，但是在分类决策边界附近的泛化能力很差，特别是对于少数类样本的数据量不足的情况，分类器难以学习到少数类样本的分布规律，同样也有可能不能训练得到稳定的分类结果。

更进一步地，训练一个神经网络的最终目的是获得一个泛化能力足够优秀的模型，为了实现这样的想法，有学者提出了局部泛化误差模型可以适用于径向基神经网络和多层感知器神经网络。这是一种带有基于数据层面的方法思想的算法，但是与基于数据层面的方法不同的是，局部泛化误差仅仅依靠在当前样本点的周围很小的邻域内生成未知样本，来预测或是模拟当前样本点的输出的波动，不会影响全局的数据分布的规律。因此，局部泛化误差模型不会过分地影响数据的分布规律。另外，局部泛化误差模型只在当前样本很小的邻域内生成随机样本，因为其涉及的空间足够小，所以带来的随机的不确定性相对于重采样的方法来说更小。但是，局部泛化误差目前仅仅用于了普通的神经网络的任务，即数据集是平衡的，并且不同类别的错分的代价是相同的例子中，对于其扩展到不平衡数据集的例子还很少。

现阶段，对于多层感知器神经网络，使用的权值更新的方法，或者说是优化迭代的方法多是反向传播算法，反向传播算法在很多神经网络的训练情况下有了不错的表现。但是反向传播算法有一个缺点，数据的输入的先后顺序对模型训练的结果有很大的影响，先输入的数据相比于后输入的数据，对模型的影响一般来说更小。因此，在不平衡数据集的问题中，少数类样本和多数类样本输入的先后顺序将直接影响模型训练的结果。

发明内容

鉴于以上内容，有必要提供一种能够提高不平衡数据集分类的结果的正确率，降低整体的错分代价，具有较好的鲁棒性，有效改进现有的分类方法对于不平衡数据集的缺点的分类方法。同时考虑到反向传播算法在不平衡数据集问题中应用的局限性，需要一种新的方法来完成优化迭代的任务。

本发明的目的至少通过如下技术方案之一实现。

一种基于代价局部泛化误差的不平衡问题的分类方法，包括以下步骤：

步骤1：对数据的每维特征进行归一化处理；

步骤2：根据电离层数据集的统计学规律，计算不同类别样本的错分代价；所述电离层数据集的单个样本是一个总共包括34维的向量，包括区分不同的电离层的各项特征；

步骤3：构建代价敏感多层感知器神经网络模型；

步骤4：针对每一个样本，计算其局部泛化误差对应的随机敏感度(ST-SM)；

步骤5：结合代价敏感以及局部泛化误差的随机敏感度完成模型训练；

步骤6：将未电离层知样本直接输入训练好的模型，通过模型后，将最后的输出根据阈值，分成正类或是负类，得出分类决策边界；

步骤7：根据电离层的数据集，使用不平衡数据集通用的Gmean衡量模型的分类结果。

更进一步地，所述步骤2中的代价计算方式通过统计二类问题中多数类样本和少数类样本的数据量，完成代价参数λ的计算，即：

其中，N₁是少数类样本的数据量，N₂是多数类样本的数据量；总的样本数目表示为N。

更进一步地，所述步骤3中代价敏感多层感知器神经网络的构建为：设定网络的结构为3层，即一层输入层、一层具有h个隐藏层神经元的隐藏层、一层1个神经元的输出层，其中，输入层神经元的个数与输入的数据的维度一样，这里用n表示电离层数据的输入的样本的特征的数目，则，神经网络的定义如下：

其中，w_s、w_st、以及φ(·)分别表示从第s个隐藏层神经元到唯一的输出层神经元的权值，从第t个输入层神经元到第s个隐藏层神经元的权值以及激活函数，x(t)是样本x的第t维特征；

代价体现在对神经网络权值优化迭代时的误差的表示，采用如下形式：

C＝C₁+C₂

其中，C是神经网络的错分总的代价，C₁是少数类样本的错分总代价，C₂是多数类样本的错分总代价，λ是代价参数，e_k和e_q是分别是少数类样本和多数类样本的训练误差。

更进一步地，所述步骤4中对于局部泛化误差的随机敏感度的计算用来表示网络模型的泛化误差，具体包括：

为了计算随机敏感度，定义一个Q邻域用来模拟当前样本x_k周围的未知样本，k表示数据集中的第k个已知样本，其中的未知样本可以表示为：

S_Q(x_k)＝{x|x＝x_k+Δx}

其中

Δx＝{Δx(1),Δx(2),...,Δx(n)}|Δx(i)|＜Q i＝1,2,...,n

表示未知样本距离当前样本的欧式距离；其中n是输入数据样本的维度；

在邻域中，采用哈尔顿序列模拟生成N_H＝50个随机的未知样本，并计算随机敏感度

其中Δx_j指的是已知样本x_k周围的邻域内生成的未知样本点与当前已知样本点x_k的距离向量；f(·)指的是神经网络的方程；

最终将随机敏感度表示的泛化误差与神经网络的训练误差结合起来，即：

其中，f(x_k)是当前已知样本x_k通过神经网络之后的输出，y_k表示当前样本的真是输出，

表示当前样本的随机敏感度。

更进一步地，步骤5利用改进的L-M算法完成神经网络的训练：

对电离层(ionosphere)的数据任意一个特征维度是n的输入样本的特征向量，将神经网络中的权值和偏置合在一起构成一个n+1维的向量表示w_input＝[w_input(1),w_input(2),...,w_input(n+1)]；其中方括号中表示权值与偏置向量中，神经网络的输入层与隐藏层的每一条权值的连接线上的权值或是偏置的值；

对于包含h个神经元的隐藏层，其与输出层包括权值与偏置共同构成了一个h+1维的向量表示成w＝[w(1),w(2),...,w(h+1)]；其中，方括号中表示隐藏层与输出层的每一条权值的连线上的权值或偏置的值，由于L-M方法在训练隐藏层神经元与输出层神经元之间的权值和偏置，以及隐藏层神经元与输入层神经元之间的权值和偏置的学习过程类似，所以只详细说明在输出层神经元与最后一层隐藏层神经元之间的训练方法。设定神经网络的误差函数为e(w)；

首先根据牛顿法，写出公式：

Δw＝-[G(w)]^-1g(w)

其中，G(w)以及g(w)分别表示神经网络的误差关于w的海森矩阵(HessianMatrix)和梯度。参考神经网络的总的代价的形式，将上式中的海森矩阵和梯度向量写成：

G(w)＝λG₁(w)+(1-λ)G₂(w)

g(w)＝λg₁(w)+(1-λ)g₂(w)

其中G₁(w)和g₁分别表示正类样本的海森矩阵和梯度，而G₂(w)和g₂则分别表示负类样本的海森矩阵和梯度；海森矩阵的计算方式：

对于余项：

其中，下标i和j表示余项的矩阵中，第i行，第j列的元素，e_k是训练误差和泛化误差的结合，w(i)指的是单个连线上的权值；

J_l(w)表示雅可比矩阵，计算方式如下：

S_l(w)的值因为太小，为了简化计算的复杂度，可以将其省略掉，海森矩阵的求解方式仅与雅可比矩阵有关，可以写成：

梯度，同样可以使用雅克比矩阵来进行计算：

最后带入牛顿法的公式：

w_new＝w_old-[G(w_old)+μI]^-1g(w_old)

其中，w_new和w_old分别表示本次迭代过程中，优化迭代开始前以及优化迭代结束后的权值与偏置的值；I指的是单位矩阵，而μ是一个正实数，并且在训练过程中进行调整来拟合不同大小的局部区域上的神经网络函数方程；

训练优化迭代的过程可以详细解释如下，对于神经网络的总代价C，在经过公式完成一次优化迭代得到w_new之后，C的值减小了，μ的值将会除以一个事先选择好的参数β，更新权值与偏置的结果，并且开始下一次优化迭代；如果C的值在一次优化迭代后反而增大了，那么μ的值将会乘上一个β，仍然使用w_old的权值与偏置的值，重新进行本次迭代，直到神经网络总代价C的结果开始下降；如此往复完成训练的过程。

本发明结合了基于数据层面的方法以及基于算法层面的方法，同时利用局部泛化误差与普通的基于数据层面的方法的不同，即其生成的未知样本仅仅预测当前样本的输出波动，不会影响全局的数据分布特性，在规避数据层面的方法对数据集分布过多影响的劣势的情况下，有效地结合局部泛化误差对泛化能力的提升上的优势和基于算法层面的方法更快的训练、测试时间的优势，提升了不平衡数据集分类的稳定性和各个类别的分类结果的准确度，得出了更合理的分类决策边界。

附图说明

图1是本发明的基于代价局部泛化误差的不平衡问题的分类方法的总体流程图；

图2是本发明的训练算法LM算法的单次迭代的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限制本发明的应用范围，另外，以下若有未特别详细说明的过程或符号，均是本领域技术人员可参照现有技术实现或理解的。

如图1所示，是本发明基于代价局部泛化误差的不平衡问题的分类方法较佳实施例的流程图。对于任意的输入数据，首先通过one-hot编码将数据中的文字特征转换成数值的形式；其次，对输入的数据进行归一化，将输入向量的每一维的特征的值域限定在[-1,1]的区间上。

为了进行具体的说明，使用的数据是UCI的公开数据进行说明，ionosphere(电离层)数据集。该数据集的单个样本是一个总共包括34维的向量，包括区分不同的电离层的各项特征。其中，包括有126个少数类样本，以及255个多数类的样本。

接着，所述步骤2中的代价计算方式通过统计二类问题中多数类样本和少数类样本的数据量，完成代价参数λ的计算，即：

其中，N₁是少数类样本的数据量即126，N₂是多数类样本的数据量即255。通过上式，可以计算得到λ＝0.359总的样本数目表示为N为381，即有：

N＝N₁+N₂

进一步地，完成对所述步骤3中代价敏感多层感知器神经网络的构建。设定网络的结构为3层，即一层输入层、一层隐藏层、一层1个神经元的输出层。其中，神经网络的定义如下：

其中，w_s、w_st、以及φ(·)分别表示从第s个隐藏层神经元到唯一的输出层神经元的权值，从第t个输入层神经元到第s个隐藏层神经元的权值以及激活函数，x(t)是样本x的第t维特征，在这里，可以设定n＝34为ionosphere数据的输入的样本的特征的数目(或称为维度大小)，h＝5是隐藏层神经元的数目。代价体现在对神经网络权值优化迭代时的误差的表示，采用如下形式：

C＝C₁+C₂

其中，

其中，C是神经网络的错分总的代价，C₁是少数类样本的错分总代价，C₂是多数类样本的错分总代价，λ是代价参数且为0.359，e_k和e_q是分别是少数类样本和多数类样本的训练误差。

进一步地，所述步骤4中对于局部泛化误差的随机敏感度的计算用来表示网络模型的泛化误差。为了计算随机敏感度，定义一个Q＝0.2的邻域用来模拟当前样本x_k周围的未知样本，其中的未知样本可以表示为：

S_Q(x_k)＝{x|x＝x_k+Δx}

其中

Δx＝{Δx(1),Δx(2),...,Δx(n)}|Δx(i)|＜Q i＝1,2,...,n

表示未知样本距离当前样本的欧式距离。

在邻域中，采用哈尔顿序列随机模拟生成N_H＝50个随机的未知样本，并计算随机敏感度

进一步地，步骤5利用改进的L-M算法完成神经网络的训练。如图2所示。

对于任意一个特征维度是n的输入样本的特征向量，将神经网络中的权值和偏置合在一起构成一个n+1维的向量表示w_input＝[w_input(1),w_input(2),...,w_input(n+1)]。对于包含h个神经元的隐藏层，其与输出层包括权值与偏置共同构成了一个h+1维的向量表示成w＝[w(1),w(2),...,w(h+1)]。由于L-M方法在训练隐藏层神经元与输出层神经元之间的权值和偏置，以及隐藏层神经元与输入层神经元之间的权值和偏置的学习过程类似，所以只详细说明在输出层神经元与最后一层隐藏层神经元之间的训练方法。设定神经网络的误差函数为e(w)。

首先根据牛顿法，写出公式：

Δw＝-[G(w)]^-1g(w)

G(w)＝λG₁(w)+(1-λ)G₂(w)

g(w)＝λg₁(w)+(1-λ)g₂(w)

其中G₁和g₁分别表示正类样本的海森矩阵和梯度，而G₂和g₂则分别表示负类样本的海森矩阵和梯度。海森矩阵的计算方式：

对于余项：

J_l(w)表示雅可比矩阵，计算方式如下：

梯度，同样可以使用雅克比矩阵来进行计算：

最后带入牛顿法的公式：

w_new＝w_old-[G(w_old)+μI]^-1g(w_old)

其中，w_new和w_old分别表示本次迭代过程中，优化迭代开始前以及优化迭代结束后的权值与偏置的值。I指的是单位矩阵，而μ是一个正实数，并且在训练过程中进行调整来拟合不同大小的局部区域上的神经网络函数方程。

训练优化迭代的过程可以详细解释如下，最开始，为ionosphere的数据随机一组权值和偏置的组合，并且设定，随机值满足均值为1方差为0.1的正态分布。如此，可以通过使用这一组权值和偏置求得神经网络的第一次的输出，以及网络的代价C。

对于神经网络的总代价C，在经过公式完成一次优化迭代得到w_new之后，C的值减小了，μ的值(初始化为0.1)将会除以一个事先选择好的参数β，β初始化为10，更新权值与偏置的结果，并且开始下一次优化迭代；如果C的值在一次优化迭代后反而增大了，那么μ的值将会乘上一个β，仍然使用w_old的权值与偏置的值，重新进行本次迭代，直到神经网络总代价C的结果开始下降。如此往复完成训练的过程。

经过上述过程，可以完成一次输出层神经元与输入层神经元之间的权值的一次训练的迭代，接着，可以按照与上面相同的公式，完成输入层神经元和隐藏层神经元之间的权值的一次训练。最终，在神经网络停止下降或是网络的总体误差足够小的时候，停止迭代即完成了神经网络的训练。对于未知样本，将可以直接输入神经网络，通过网络后，将最后的输出根据阈值0，分成正类或是负类，即分别是少数类或是多数类，大于0的作为少数类样本，而小于0的作为多数类样本。

经过10次完全不同的实验，根据电离层ionosphere的数据集，使用不平衡数据集通用的Gmean来衡量模型的结果，Gmean的计算方法如下：

其中a⁺和a^-分别表示分类器对正类样本的分类的正确率和对负类样本的正确率，即TPR和TNR。

同时比较了现有的几种比较出色的不平衡数据集的实验结果，即RBoost、SMTTL、CSMLP，可以得到如下表的结果，其中LGEM是本发明提出的方法：

	RBoost	SMTTL	CSMLP	LGEM
					Ionosphere(电离层)	88.03±3.98*	85.78±4.53*	87.62±3.67*	92.25±4.12

其中的数值表示10次实验的Gmean的平均值和方差。由上表可以看出，本发明提出的方法给ionosphere(电离层)的数据提供了更出色的结果，相较于其他的方法有更高的Gmean的值。其中*表示通过了95％的置信度测试，说明本发明提出的方法相对于其他方法的数值结果有更加显著的提升。本发明提出的方法，通过模拟训练集样本周围的邻域内未知样本点，将未知的模型的样本输出的波动带入进了训练的过程中，从而达到了提升模型的泛化能力的效果，也就是说，更进一步优化了模型在未知样本上的表现，从而获得了更佳的分类结果。

Claims

1.一种基于代价局部泛化误差的不平衡问题的分类方法，其特征在于，包括以下步骤：

步骤1：对数据的每维特征进行归一化处理；

步骤3：构建代价敏感多层感知器神经网络模型；所述代价敏感多层感知器神经网络的构建为：设定网络的结构为3层，即一层输入层、一层具有h个隐藏层神经元的隐藏层、一层1个神经元的输出层，其中，输入层神经元的个数与输入的数据的维度一样，这里用n表示电离层数据的输入的样本的特征的数目，则神经网络的定义如下：

C＝C₁+C₂

其中，C是神经网络的错分总的代价，C₁是少数类样本的错分总代价，C₂是多数类样本的错分总代价，λ是代价参数，e_k和e_q是分别是少数类样本和多数类样本的训练误差，N₁是少数类样本的数据量，N₂是多数类样本的数据量；

步骤5：结合代价敏感以及局部泛化误差的随机敏感度完成模型训练；利用改进的L-M算法完成神经网络的训练：

对于包含h个神经元的隐藏层，其与输出层包括权值与偏置共同构成了一个h+1维的向量表示成w＝[w(1),w(2),...,w(h+1)]；其中，方括号中表示隐藏层与输出层的每一条权值的连线上的权值或偏置的值，由于L-M方法在训练隐藏层神经元与输出层神经元之间的权值和偏置，以及隐藏层神经元与输入层神经元之间的权值和偏置的学习过程类似，所以只详细说明在输出层神经元与最后一层隐藏层神经元之间的训练方法；设定神经网络的误差函数为e(w)；

首先根据牛顿法，写出公式：

Δw＝-[G(w)]^-1g(w)

其中，G(w)以及g(w)分别表示神经网络的误差关于w的海森矩阵(Hessian Matrix)和梯度；参考神经网络的总的代价的形式，将上式中的海森矩阵和梯度向量写成：

G(w)＝λG₁(w)+(1-λ)G₂(w)

g(w)＝λg₁(w)+(1-λ)g₂(w)

对于余项：

J_l(w)表示雅可比矩阵，计算方式如下：

S_l(w)的值因为太小，为了简化计算的复杂度，将其省略掉，海森矩阵的求解方式仅与雅可比矩阵有关，写成：

梯度，同样使用雅克比矩阵来进行计算：

最后带入牛顿法的公式：

w_new＝w_old-[G(w_old)+μI]^-1g(w_old)

训练优化迭代的过程详细解释如下，对于神经网络的总代价C，在经过公式完成一次优化迭代得到w_new之后，C的值减小了，μ的值将会除以一个事先选择好的参数β，更新权值与偏置的结果，并且开始下一次优化迭代；如果C的值在一次优化迭代后反而增大了，那么μ的值将会乘上一个β，仍然使用w_old的权值与偏置的值，重新进行本次迭代，直到神经网络总代价C的结果开始下降；如此往复完成训练的过程；

2.如权利要求1所述的基于代价局部泛化误差的不平衡问题的分类方法，其特征在于，所述步骤2中的代价计算方式通过统计二类问题中多数类样本和少数类样本的数据量，完成代价参数λ的计算，即：

3.如权利要求1所述的基于代价局部泛化误差的不平衡问题的分类方法，其特征在于，所述步骤4中对于局部泛化误差的随机敏感度的计算用来表示网络模型的泛化误差，具体包括：

为了计算随机敏感度，定义一个Q邻域用来模拟当前样本x_k周围的未知样本，k表示数据集中的第k个已知样本，其中的未知样本表示为：

S_Q(x_k)＝{x|x＝x_k+Δx}

其中

Δx＝{Δx(1),Δx(2),...,Δx(n)} |Δx(i)|＜Q i＝1,2,...,n

表示当前样本的随机敏感度。