CN110110754B - 基于代价局部泛化误差的不平衡问题的分类方法 - Google Patents

基于代价局部泛化误差的不平衡问题的分类方法 Download PDF

Info

Publication number
CN110110754B
CN110110754B CN201910267769.2A CN201910267769A CN110110754B CN 110110754 B CN110110754 B CN 110110754B CN 201910267769 A CN201910267769 A CN 201910267769A CN 110110754 B CN110110754 B CN 110110754B
Authority
CN
China
Prior art keywords
neural network
sample
cost
samples
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910267769.2A
Other languages
English (en)
Other versions
CN110110754A (zh
Inventor
吴永贤
刘政锡
张建军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201910267769.2A priority Critical patent/CN110110754B/zh
Publication of CN110110754A publication Critical patent/CN110110754A/zh
Application granted granted Critical
Publication of CN110110754B publication Critical patent/CN110110754B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Neurology (AREA)
  • Complex Calculations (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于代价局部泛化误差的不平衡问题的分类方法,包括以下步骤:对数据的每维特征进行归一化处理;根据数据集的统计学规律,计算不同类别样本的错分代价;构建代价敏感多层感知器神经网络模型;针对每一个样本,计算其局部泛化误差对应的随机敏感度(ST‑SM);结合代价敏感以及局部泛化误差的随机敏感度完成模型训练。本发明在规避数据层面的方法对数据集分布过多影响的劣势的情况下,有效地结合局部泛化误差对泛化能力的提升上的优势和基于算法层面的方法更快的训练、测试时间的优势,提升了不平衡数据集分类的稳定性和各个类别的分类结果的准确度,得出了更合理的分类决策边界。

Description

基于代价局部泛化误差的不平衡问题的分类方法
技术领域
本发明涉及数据集不平衡分类的领域,具体涉及基于代价局部泛化误差的不平衡问题的分类方法。
背景技术
随着计算机科学技术的发展,机器学习在众多的领域中都表现出了极为重要的作用。近年来,而不平衡的数据集的情况在大多数领域中都不容忽视,也成为了机器学习发展的一项阻碍。如体检中,健康的人群的数目一般是大于实际是病人的人数。如果把健康的人错分类成了生病的人,只需要人工再检测一次就能判定;但是,如果忽视了病人的疾病,会导致病人不能收到及时的治疗。普通的机器学习都是认为数据集分布是平衡的,并且错分的损失也是相同的。因此,不平衡数据集问题的最基本的根源在样本分布的不平衡程度会影响普通的机器学习结果,导致距离真实的结论越来越远。
现有的解决不平衡数据集的方法有,基于数据层面的方法,基于算法层面的方法和混合方法。但是基于数据层面的方法,比如重采样,会生成大量的少数类的未知样本或者是删除大量多数类的已知样本,从而可能影响数据集全局的分布规律,除此之外,采样的随机性与带来的全局影响给分类的结果带来了不确定性;而混合方法则多是考虑到单个分类器的局限性,结合集成学习的思想,运用集成学习的优势来得到比单个分类器更好地分类结果,单个分类器甚至可以使用基本的机器学习模型就可以做到,但是缺点在于,集成学习导致训练、测试的速度降低。相反,基于算法层面的方法,比如代价敏感学习,有较快的速度,但是在分类决策边界附近的泛化能力很差,特别是对于少数类样本的数据量不足的情况,分类器难以学习到少数类样本的分布规律,同样也有可能不能训练得到稳定的分类结果。
更进一步地,训练一个神经网络的最终目的是获得一个泛化能力足够优秀的模型,为了实现这样的想法,有学者提出了局部泛化误差模型可以适用于径向基神经网络和多层感知器神经网络。这是一种带有基于数据层面的方法思想的算法,但是与基于数据层面的方法不同的是,局部泛化误差仅仅依靠在当前样本点的周围很小的邻域内生成未知样本,来预测或是模拟当前样本点的输出的波动,不会影响全局的数据分布的规律。因此,局部泛化误差模型不会过分地影响数据的分布规律。另外,局部泛化误差模型只在当前样本很小的邻域内生成随机样本,因为其涉及的空间足够小,所以带来的随机的不确定性相对于重采样的方法来说更小。但是,局部泛化误差目前仅仅用于了普通的神经网络的任务,即数据集是平衡的,并且不同类别的错分的代价是相同的例子中,对于其扩展到不平衡数据集的例子还很少。
现阶段,对于多层感知器神经网络,使用的权值更新的方法,或者说是优化迭代的方法多是反向传播算法,反向传播算法在很多神经网络的训练情况下有了不错的表现。但是反向传播算法有一个缺点,数据的输入的先后顺序对模型训练的结果有很大的影响,先输入的数据相比于后输入的数据,对模型的影响一般来说更小。因此,在不平衡数据集的问题中,少数类样本和多数类样本输入的先后顺序将直接影响模型训练的结果。
发明内容
鉴于以上内容,有必要提供一种能够提高不平衡数据集分类的结果的正确率,降低整体的错分代价,具有较好的鲁棒性,有效改进现有的分类方法对于不平衡数据集的缺点的分类方法。同时考虑到反向传播算法在不平衡数据集问题中应用的局限性,需要一种新的方法来完成优化迭代的任务。
本发明的目的至少通过如下技术方案之一实现。
一种基于代价局部泛化误差的不平衡问题的分类方法,包括以下步骤:
步骤1:对数据的每维特征进行归一化处理;
步骤2:根据电离层数据集的统计学规律,计算不同类别样本的错分代价;所述电离层数据集的单个样本是一个总共包括34维的向量,包括区分不同的电离层的各项特征;
步骤3:构建代价敏感多层感知器神经网络模型;
步骤4:针对每一个样本,计算其局部泛化误差对应的随机敏感度(ST-SM);
步骤5:结合代价敏感以及局部泛化误差的随机敏感度完成模型训练;
步骤6:将未电离层知样本直接输入训练好的模型,通过模型后,将最后的输出根据阈值,分成正类或是负类,得出分类决策边界;
步骤7:根据电离层的数据集,使用不平衡数据集通用的Gmean衡量模型的分类结果。
更进一步地,所述步骤2中的代价计算方式通过统计二类问题中多数类样本和少数类样本的数据量,完成代价参数λ的计算,即:
Figure GDA0002897091200000031
其中,N1是少数类样本的数据量,N2是多数类样本的数据量;总的样本数目表示为N。
更进一步地,所述步骤3中代价敏感多层感知器神经网络的构建为:设定网络的结构为3层,即一层输入层、一层具有h个隐藏层神经元的隐藏层、一层1个神经元的输出层,其中,输入层神经元的个数与输入的数据的维度一样,这里用n表示电离层数据的输入的样本的特征的数目,则,神经网络的定义如下:
Figure GDA0002897091200000032
其中,ws、wst、以及φ(·)分别表示从第s个隐藏层神经元到唯一的输出层神经元的权值,从第t个输入层神经元到第s个隐藏层神经元的权值以及激活函数,x(t)是样本x的第t维特征;
代价体现在对神经网络权值优化迭代时的误差的表示,采用如下形式:
C=C1+C2
Figure GDA0002897091200000033
Figure GDA0002897091200000034
其中,C是神经网络的错分总的代价,C1是少数类样本的错分总代价,C2是多数类样本的错分总代价,λ是代价参数,ek和eq是分别是少数类样本和多数类样本的训练误差。
更进一步地,所述步骤4中对于局部泛化误差的随机敏感度的计算用来表示网络模型的泛化误差,具体包括:
为了计算随机敏感度,定义一个Q邻域用来模拟当前样本xk周围的未知样本,k表示数据集中的第k个已知样本,其中的未知样本可以表示为:
SQ(xk)={x|x=xk+Δx}
其中
Δx={Δx(1),Δx(2),...,Δx(n)}|Δx(i)|<Q i=1,2,...,n
表示未知样本距离当前样本的欧式距离;其中n是输入数据样本的维度;
在邻域中,采用哈尔顿序列模拟生成NH=50个随机的未知样本,并计算随机敏感度
Figure GDA0002897091200000041
Figure GDA0002897091200000042
其中Δxj指的是已知样本xk周围的邻域内生成的未知样本点与当前已知样本点xk的距离向量;f(·)指的是神经网络的方程;
最终将随机敏感度表示的泛化误差与神经网络的训练误差结合起来,即:
Figure GDA0002897091200000043
其中,f(xk)是当前已知样本xk通过神经网络之后的输出,yk表示当前样本的真是输出,
Figure GDA0002897091200000044
表示当前样本的随机敏感度。
更进一步地,步骤5利用改进的L-M算法完成神经网络的训练:
对电离层(ionosphere)的数据任意一个特征维度是n的输入样本的特征向量,将神经网络中的权值和偏置合在一起构成一个n+1维的向量表示winput=[winput(1),winput(2),...,winput(n+1)];其中方括号中表示权值与偏置向量中,神经网络的输入层与隐藏层的每一条权值的连接线上的权值或是偏置的值;
对于包含h个神经元的隐藏层,其与输出层包括权值与偏置共同构成了一个h+1维的向量表示成w=[w(1),w(2),...,w(h+1)];其中,方括号中表示隐藏层与输出层的每一条权值的连线上的权值或偏置的值,由于L-M方法在训练隐藏层神经元与输出层神经元之间的权值和偏置,以及隐藏层神经元与输入层神经元之间的权值和偏置的学习过程类似,所以只详细说明在输出层神经元与最后一层隐藏层神经元之间的训练方法。设定神经网络的误差函数为e(w);
首先根据牛顿法,写出公式:
Δw=-[G(w)]-1g(w)
其中,G(w)以及g(w)分别表示神经网络的误差关于w的海森矩阵(HessianMatrix)和梯度。参考神经网络的总的代价的形式,将上式中的海森矩阵和梯度向量写成:
G(w)=λG1(w)+(1-λ)G2(w)
g(w)=λg1(w)+(1-λ)g2(w)
其中G1(w)和g1分别表示正类样本的海森矩阵和梯度,而G2(w)和g2则分别表示负类样本的海森矩阵和梯度;海森矩阵的计算方式:
Figure GDA0002897091200000051
对于余项:
Figure GDA0002897091200000052
其中,下标i和j表示余项的矩阵中,第i行,第j列的元素,ek是训练误差和泛化误差的结合,w(i)指的是单个连线上的权值;
Jl(w)表示雅可比矩阵,计算方式如下:
Figure GDA0002897091200000061
Sl(w)的值因为太小,为了简化计算的复杂度,可以将其省略掉,海森矩阵的求解方式仅与雅可比矩阵有关,可以写成:
Figure GDA0002897091200000062
梯度,同样可以使用雅克比矩阵来进行计算:
Figure GDA0002897091200000063
最后带入牛顿法的公式:
wnew=wold-[G(wold)+μI]-1g(wold)
其中,wnew和wold分别表示本次迭代过程中,优化迭代开始前以及优化迭代结束后的权值与偏置的值;I指的是单位矩阵,而μ是一个正实数,并且在训练过程中进行调整来拟合不同大小的局部区域上的神经网络函数方程;
训练优化迭代的过程可以详细解释如下,对于神经网络的总代价C,在经过公式完成一次优化迭代得到wnew之后,C的值减小了,μ的值将会除以一个事先选择好的参数β,更新权值与偏置的结果,并且开始下一次优化迭代;如果C的值在一次优化迭代后反而增大了,那么μ的值将会乘上一个β,仍然使用wold的权值与偏置的值,重新进行本次迭代,直到神经网络总代价C的结果开始下降;如此往复完成训练的过程。
本发明结合了基于数据层面的方法以及基于算法层面的方法,同时利用局部泛化误差与普通的基于数据层面的方法的不同,即其生成的未知样本仅仅预测当前样本的输出波动,不会影响全局的数据分布特性,在规避数据层面的方法对数据集分布过多影响的劣势的情况下,有效地结合局部泛化误差对泛化能力的提升上的优势和基于算法层面的方法更快的训练、测试时间的优势,提升了不平衡数据集分类的稳定性和各个类别的分类结果的准确度,得出了更合理的分类决策边界。
附图说明
图1是本发明的基于代价局部泛化误差的不平衡问题的分类方法的总体流程图;
图2是本发明的训练算法LM算法的单次迭代的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限制本发明的应用范围,另外,以下若有未特别详细说明的过程或符号,均是本领域技术人员可参照现有技术实现或理解的。
如图1所示,是本发明基于代价局部泛化误差的不平衡问题的分类方法较佳实施例的流程图。对于任意的输入数据,首先通过one-hot编码将数据中的文字特征转换成数值的形式;其次,对输入的数据进行归一化,将输入向量的每一维的特征的值域限定在[-1,1]的区间上。
为了进行具体的说明,使用的数据是UCI的公开数据进行说明,ionosphere(电离层)数据集。该数据集的单个样本是一个总共包括34维的向量,包括区分不同的电离层的各项特征。其中,包括有126个少数类样本,以及255个多数类的样本。
接着,所述步骤2中的代价计算方式通过统计二类问题中多数类样本和少数类样本的数据量,完成代价参数λ的计算,即:
Figure GDA0002897091200000071
其中,N1是少数类样本的数据量即126,N2是多数类样本的数据量即255。通过上式,可以计算得到λ=0.359总的样本数目表示为N为381,即有:
N=N1+N2
进一步地,完成对所述步骤3中代价敏感多层感知器神经网络的构建。设定网络的结构为3层,即一层输入层、一层隐藏层、一层1个神经元的输出层。其中,神经网络的定义如下:
Figure GDA0002897091200000081
其中,ws、wst、以及φ(·)分别表示从第s个隐藏层神经元到唯一的输出层神经元的权值,从第t个输入层神经元到第s个隐藏层神经元的权值以及激活函数,x(t)是样本x的第t维特征,在这里,可以设定n=34为ionosphere数据的输入的样本的特征的数目(或称为维度大小),h=5是隐藏层神经元的数目。代价体现在对神经网络权值优化迭代时的误差的表示,采用如下形式:
C=C1+C2
其中,
Figure GDA0002897091200000082
Figure GDA0002897091200000083
其中,C是神经网络的错分总的代价,C1是少数类样本的错分总代价,C2是多数类样本的错分总代价,λ是代价参数且为0.359,ek和eq是分别是少数类样本和多数类样本的训练误差。
进一步地,所述步骤4中对于局部泛化误差的随机敏感度的计算用来表示网络模型的泛化误差。为了计算随机敏感度,定义一个Q=0.2的邻域用来模拟当前样本xk周围的未知样本,其中的未知样本可以表示为:
SQ(xk)={x|x=xk+Δx}
其中
Δx={Δx(1),Δx(2),...,Δx(n)}|Δx(i)|<Q i=1,2,...,n
表示未知样本距离当前样本的欧式距离。
在邻域中,采用哈尔顿序列随机模拟生成NH=50个随机的未知样本,并计算随机敏感度
Figure GDA0002897091200000091
Figure GDA0002897091200000092
最终将随机敏感度表示的泛化误差与神经网络的训练误差结合起来,即:
Figure GDA0002897091200000093
进一步地,步骤5利用改进的L-M算法完成神经网络的训练。如图2所示。
对于任意一个特征维度是n的输入样本的特征向量,将神经网络中的权值和偏置合在一起构成一个n+1维的向量表示winput=[winput(1),winput(2),...,winput(n+1)]。对于包含h个神经元的隐藏层,其与输出层包括权值与偏置共同构成了一个h+1维的向量表示成w=[w(1),w(2),...,w(h+1)]。由于L-M方法在训练隐藏层神经元与输出层神经元之间的权值和偏置,以及隐藏层神经元与输入层神经元之间的权值和偏置的学习过程类似,所以只详细说明在输出层神经元与最后一层隐藏层神经元之间的训练方法。设定神经网络的误差函数为e(w)。
首先根据牛顿法,写出公式:
Δw=-[G(w)]-1g(w)
其中,G(w)以及g(w)分别表示神经网络的误差关于w的海森矩阵(HessianMatrix)和梯度。参考神经网络的总的代价的形式,将上式中的海森矩阵和梯度向量写成:
G(w)=λG1(w)+(1-λ)G2(w)
g(w)=λg1(w)+(1-λ)g2(w)
其中G1和g1分别表示正类样本的海森矩阵和梯度,而G2和g2则分别表示负类样本的海森矩阵和梯度。海森矩阵的计算方式:
Figure GDA0002897091200000101
对于余项:
Figure GDA0002897091200000102
Jl(w)表示雅可比矩阵,计算方式如下:
Figure GDA0002897091200000103
Sl(w)的值因为太小,为了简化计算的复杂度,可以将其省略掉,海森矩阵的求解方式仅与雅可比矩阵有关,可以写成:
Figure GDA0002897091200000104
梯度,同样可以使用雅克比矩阵来进行计算:
Figure GDA0002897091200000105
最后带入牛顿法的公式:
wnew=wold-[G(wold)+μI]-1g(wold)
其中,wnew和wold分别表示本次迭代过程中,优化迭代开始前以及优化迭代结束后的权值与偏置的值。I指的是单位矩阵,而μ是一个正实数,并且在训练过程中进行调整来拟合不同大小的局部区域上的神经网络函数方程。
训练优化迭代的过程可以详细解释如下,最开始,为ionosphere的数据随机一组权值和偏置的组合,并且设定,随机值满足均值为1方差为0.1的正态分布。如此,可以通过使用这一组权值和偏置求得神经网络的第一次的输出,以及网络的代价C。
对于神经网络的总代价C,在经过公式完成一次优化迭代得到wnew之后,C的值减小了,μ的值(初始化为0.1)将会除以一个事先选择好的参数β,β初始化为10,更新权值与偏置的结果,并且开始下一次优化迭代;如果C的值在一次优化迭代后反而增大了,那么μ的值将会乘上一个β,仍然使用wold的权值与偏置的值,重新进行本次迭代,直到神经网络总代价C的结果开始下降。如此往复完成训练的过程。
经过上述过程,可以完成一次输出层神经元与输入层神经元之间的权值的一次训练的迭代,接着,可以按照与上面相同的公式,完成输入层神经元和隐藏层神经元之间的权值的一次训练。最终,在神经网络停止下降或是网络的总体误差足够小的时候,停止迭代即完成了神经网络的训练。对于未知样本,将可以直接输入神经网络,通过网络后,将最后的输出根据阈值0,分成正类或是负类,即分别是少数类或是多数类,大于0的作为少数类样本,而小于0的作为多数类样本。
经过10次完全不同的实验,根据电离层ionosphere的数据集,使用不平衡数据集通用的Gmean来衡量模型的结果,Gmean的计算方法如下:
Figure GDA0002897091200000111
其中a+和a-分别表示分类器对正类样本的分类的正确率和对负类样本的正确率,即TPR和TNR。
同时比较了现有的几种比较出色的不平衡数据集的实验结果,即RBoost、SMTTL、CSMLP,可以得到如下表的结果,其中LGEM是本发明提出的方法:
RBoost SMTTL CSMLP LGEM
Ionosphere(电离层) 88.03±3.98* 85.78±4.53* 87.62±3.67* 92.25±4.12
其中的数值表示10次实验的Gmean的平均值和方差。由上表可以看出,本发明提出的方法给ionosphere(电离层)的数据提供了更出色的结果,相较于其他的方法有更高的Gmean的值。其中*表示通过了95%的置信度测试,说明本发明提出的方法相对于其他方法的数值结果有更加显著的提升。本发明提出的方法,通过模拟训练集样本周围的邻域内未知样本点,将未知的模型的样本输出的波动带入进了训练的过程中,从而达到了提升模型的泛化能力的效果,也就是说,更进一步优化了模型在未知样本上的表现,从而获得了更佳的分类结果。

Claims (3)

1.一种基于代价局部泛化误差的不平衡问题的分类方法,其特征在于,包括以下步骤:
步骤1:对数据的每维特征进行归一化处理;
步骤2:根据电离层数据集的统计学规律,计算不同类别样本的错分代价;所述电离层数据集的单个样本是一个总共包括34维的向量,包括区分不同的电离层的各项特征;
步骤3:构建代价敏感多层感知器神经网络模型;所述代价敏感多层感知器神经网络的构建为:设定网络的结构为3层,即一层输入层、一层具有h个隐藏层神经元的隐藏层、一层1个神经元的输出层,其中,输入层神经元的个数与输入的数据的维度一样,这里用n表示电离层数据的输入的样本的特征的数目,则神经网络的定义如下:
Figure FDA0003461949740000011
其中,ws、wst、以及φ(·)分别表示从第s个隐藏层神经元到唯一的输出层神经元的权值,从第t个输入层神经元到第s个隐藏层神经元的权值以及激活函数,x(t)是样本x的第t维特征;
代价体现在对神经网络权值优化迭代时的误差的表示,采用如下形式:
C=C1+C2
Figure FDA0003461949740000012
Figure FDA0003461949740000013
其中,C是神经网络的错分总的代价,C1是少数类样本的错分总代价,C2是多数类样本的错分总代价,λ是代价参数,ek和eq是分别是少数类样本和多数类样本的训练误差,N1是少数类样本的数据量,N2是多数类样本的数据量;
步骤4:针对每一个样本,计算其局部泛化误差对应的随机敏感度(ST-SM);
步骤5:结合代价敏感以及局部泛化误差的随机敏感度完成模型训练;利用改进的L-M算法完成神经网络的训练:
对电离层(ionosphere)的数据任意一个特征维度是n的输入样本的特征向量,将神经网络中的权值和偏置合在一起构成一个n+1维的向量表示winput=[winput(1),winput(2),...,winput(n+1)];其中方括号中表示权值与偏置向量中,神经网络的输入层与隐藏层的每一条权值的连接线上的权值或是偏置的值;
对于包含h个神经元的隐藏层,其与输出层包括权值与偏置共同构成了一个h+1维的向量表示成w=[w(1),w(2),...,w(h+1)];其中,方括号中表示隐藏层与输出层的每一条权值的连线上的权值或偏置的值,由于L-M方法在训练隐藏层神经元与输出层神经元之间的权值和偏置,以及隐藏层神经元与输入层神经元之间的权值和偏置的学习过程类似,所以只详细说明在输出层神经元与最后一层隐藏层神经元之间的训练方法;设定神经网络的误差函数为e(w);
首先根据牛顿法,写出公式:
Δw=-[G(w)]-1g(w)
其中,G(w)以及g(w)分别表示神经网络的误差关于w的海森矩阵(Hessian Matrix)和梯度;参考神经网络的总的代价的形式,将上式中的海森矩阵和梯度向量写成:
G(w)=λG1(w)+(1-λ)G2(w)
g(w)=λg1(w)+(1-λ)g2(w)
其中G1(w)和g1分别表示正类样本的海森矩阵和梯度,而G2(w)和g2则分别表示负类样本的海森矩阵和梯度;海森矩阵的计算方式:
Figure FDA0003461949740000021
对于余项:
Figure FDA0003461949740000031
其中,下标i和j表示余项的矩阵中,第i行,第j列的元素,ek是训练误差和泛化误差的结合,w(i)指的是单个连线上的权值;
Jl(w)表示雅可比矩阵,计算方式如下:
Figure FDA0003461949740000032
Sl(w)的值因为太小,为了简化计算的复杂度,将其省略掉,海森矩阵的求解方式仅与雅可比矩阵有关,写成:
Figure FDA0003461949740000033
梯度,同样使用雅克比矩阵来进行计算:
Figure FDA0003461949740000034
最后带入牛顿法的公式:
wnew=wold-[G(wold)+μI]-1g(wold)
其中,wnew和wold分别表示本次迭代过程中,优化迭代开始前以及优化迭代结束后的权值与偏置的值;I指的是单位矩阵,而μ是一个正实数,并且在训练过程中进行调整来拟合不同大小的局部区域上的神经网络函数方程;
训练优化迭代的过程详细解释如下,对于神经网络的总代价C,在经过公式完成一次优化迭代得到wnew之后,C的值减小了,μ的值将会除以一个事先选择好的参数β,更新权值与偏置的结果,并且开始下一次优化迭代;如果C的值在一次优化迭代后反而增大了,那么μ的值将会乘上一个β,仍然使用wold的权值与偏置的值,重新进行本次迭代,直到神经网络总代价C的结果开始下降;如此往复完成训练的过程;
步骤6:将未电离层知样本直接输入训练好的模型,通过模型后,将最后的输出根据阈值,分成正类或是负类,得出分类决策边界;
步骤7:根据电离层的数据集,使用不平衡数据集通用的Gmean衡量模型的分类结果。
2.如权利要求1所述的基于代价局部泛化误差的不平衡问题的分类方法,其特征在于,所述步骤2中的代价计算方式通过统计二类问题中多数类样本和少数类样本的数据量,完成代价参数λ的计算,即:
Figure FDA0003461949740000041
其中,N1是少数类样本的数据量,N2是多数类样本的数据量;总的样本数目表示为N。
3.如权利要求1所述的基于代价局部泛化误差的不平衡问题的分类方法,其特征在于,所述步骤4中对于局部泛化误差的随机敏感度的计算用来表示网络模型的泛化误差,具体包括:
为了计算随机敏感度,定义一个Q邻域用来模拟当前样本xk周围的未知样本,k表示数据集中的第k个已知样本,其中的未知样本表示为:
SQ(xk)={x|x=xk+Δx}
其中
Δx={Δx(1),Δx(2),...,Δx(n)} |Δx(i)|<Q i=1,2,...,n
表示未知样本距离当前样本的欧式距离;其中n是输入数据样本的维度;
在邻域中,采用哈尔顿序列模拟生成NH=50个随机的未知样本,并计算随机敏感度
Figure FDA0003461949740000042
Figure FDA0003461949740000051
其中Δxj指的是已知样本xk周围的邻域内生成的未知样本点与当前已知样本点xk的距离向量;f(·)指的是神经网络的方程;
最终将随机敏感度表示的泛化误差与神经网络的训练误差结合起来,即:
Figure FDA0003461949740000052
其中,f(xk)是当前已知样本xk通过神经网络之后的输出,yk表示当前样本的真是输出,
Figure FDA0003461949740000053
表示当前样本的随机敏感度。
CN201910267769.2A 2019-04-03 2019-04-03 基于代价局部泛化误差的不平衡问题的分类方法 Active CN110110754B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910267769.2A CN110110754B (zh) 2019-04-03 2019-04-03 基于代价局部泛化误差的不平衡问题的分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910267769.2A CN110110754B (zh) 2019-04-03 2019-04-03 基于代价局部泛化误差的不平衡问题的分类方法

Publications (2)

Publication Number Publication Date
CN110110754A CN110110754A (zh) 2019-08-09
CN110110754B true CN110110754B (zh) 2022-03-29

Family

ID=67485121

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910267769.2A Active CN110110754B (zh) 2019-04-03 2019-04-03 基于代价局部泛化误差的不平衡问题的分类方法

Country Status (1)

Country Link
CN (1) CN110110754B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111178897B (zh) * 2019-12-18 2023-08-08 浙江大学 在不平衡数据上快速特征学习的代价敏感的动态聚类方法
US20210241101A1 (en) * 2020-02-04 2021-08-05 Dsp Group Ltd. Post-training Control of the Bias of Neural Networks
CN112182257A (zh) * 2020-08-26 2021-01-05 合肥三恩信息科技有限公司 一种基于神经网络的人工智能数据清洗方法
CN112926727B (zh) * 2021-02-10 2024-02-27 北京工业大学 一种单隐层ReLU神经网络局部极小值的求解方法
CN113076438B (zh) * 2021-04-28 2023-12-15 华南理工大学 一种不平衡数据集下基于多数类转化为少数类的分类方法
CN113627485A (zh) * 2021-07-10 2021-11-09 南京理工大学 基于admm的不平衡大数据分布式分类方法
CN115374859A (zh) * 2022-08-24 2022-11-22 东北大学 一种针对非平衡、多类别的复杂工业数据的分类方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102402690A (zh) * 2011-09-28 2012-04-04 南京师范大学 基于直觉模糊集成的数据分类方法与系统
WO2017111835A1 (en) * 2015-12-26 2017-06-29 Intel Corporation Binary linear classification
CN107133626A (zh) * 2017-05-10 2017-09-05 安徽大学 一种基于部分平均随机优化模型的医学影像分类方法
CN107545275A (zh) * 2017-07-27 2018-01-05 华南理工大学 重采样与代价敏感学习融合的不平衡数据集成分类方法
CN108345904A (zh) * 2018-01-26 2018-07-31 华南理工大学 一种基于随机敏感度采样的不平衡数据的集成学习算法
CN108846380A (zh) * 2018-04-09 2018-11-20 北京理工大学 一种基于代价敏感卷积神经网络的人脸表情识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102402690A (zh) * 2011-09-28 2012-04-04 南京师范大学 基于直觉模糊集成的数据分类方法与系统
WO2017111835A1 (en) * 2015-12-26 2017-06-29 Intel Corporation Binary linear classification
CN107133626A (zh) * 2017-05-10 2017-09-05 安徽大学 一种基于部分平均随机优化模型的医学影像分类方法
CN107545275A (zh) * 2017-07-27 2018-01-05 华南理工大学 重采样与代价敏感学习融合的不平衡数据集成分类方法
CN108345904A (zh) * 2018-01-26 2018-07-31 华南理工大学 一种基于随机敏感度采样的不平衡数据的集成学习算法
CN108846380A (zh) * 2018-04-09 2018-11-20 北京理工大学 一种基于代价敏感卷积神经网络的人脸表情识别方法

Also Published As

Publication number Publication date
CN110110754A (zh) 2019-08-09

Similar Documents

Publication Publication Date Title
CN110110754B (zh) 基于代价局部泛化误差的不平衡问题的分类方法
CN108231201B (zh) 一种疾病数据分析处理模型的构建方法、系统及应用方法
CN108399163B (zh) 结合词聚合与词组合语义特征的文本相似性度量方法
Ramezani et al. A novel hybrid intelligent system with missing value imputation for diabetes diagnosis
CN105184103B (zh) 基于病历数据库的虚拟名医系统
Kusy et al. Weighted probabilistic neural network
CN108447057B (zh) 基于显著性和深度卷积网络的sar图像变化检测方法
Gustafsson et al. Comparison and validation of community structures in complex networks
KR20190021471A (ko) 인공신경망을 이용한 위암의 예후 예측 방법, 장치 및 프로그램
CN108804677A (zh) 结合多层级注意力机制的深度学习问题分类方法及系统
CN109299462A (zh) 基于多维卷积特征的短文本相似度计算方法
CN110674846A (zh) 基于遗传算法和k-means聚类的不平衡数据集过采样方法
US20070294067A1 (en) Prediction of estrogen receptor status of breast tumors using binary prediction tree modeling
Dunkler et al. Statistical analysis principles for Omics data
CN109935337A (zh) 一种基于相似性度量的病案查找方法及系统
Zhou et al. Personal credit default prediction model based on convolution neural network
Chen et al. Classifying microscopic images as acute lymphoblastic leukemia by Resnet ensemble model and Taguchi method
CN112333652B (zh) Wlan室内定位方法、装置及电子设备
CN111124489A (zh) 一种基于bp神经网络的软件功能点数估算方法
CN109671468A (zh) 一种特征基因选择及癌症分类方法
Utomo et al. Best-parameterized sigmoid elm for benign and malignant breast cancer detection
CN115083511A (zh) 基于图表示学习与注意力的外围基因调控特征提取方法
Marneni et al. Analysis of Covid-19 using machine learning techniques
Tang et al. Least squares regression methods for clustered ROC data with discrete covariates
Soave et al. Regularized regression for two phase failure time studies

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant