CN112580785B - 基于三支决策的神经网络拓扑结构优化方法 - Google Patents

基于三支决策的神经网络拓扑结构优化方法 Download PDF

Info

Publication number
CN112580785B
CN112580785B CN202011506747.6A CN202011506747A CN112580785B CN 112580785 B CN112580785 B CN 112580785B CN 202011506747 A CN202011506747 A CN 202011506747A CN 112580785 B CN112580785 B CN 112580785B
Authority
CN
China
Prior art keywords
neural network
hidden layer
decision
weight
threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011506747.6A
Other languages
English (en)
Other versions
CN112580785A (zh
Inventor
成淑慧
武优西
邢欢
马鹏飞
孟玉飞
杨克帅
王珍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hebei University of Technology
Original Assignee
Hebei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hebei University of Technology filed Critical Hebei University of Technology
Priority to CN202011506747.6A priority Critical patent/CN112580785B/zh
Publication of CN112580785A publication Critical patent/CN112580785A/zh
Application granted granted Critical
Publication of CN112580785B publication Critical patent/CN112580785B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及基于三支决策的神经网络拓扑结构优化方法,针对经验公式法确定神经网络的隐藏层结点数目,缺乏一定的理论支撑且算法的准确率不高而提出。这是首次将三支决策理论应用到确定神经网络的隐藏层结点数目的问题。首先,初始化一个隐藏层结点,利用Focal loss损失函数和Adam算法实现神经网络的学习过程;然后,针对神经网络训练阶段的错分样本,使用三支决策理论,在最小决策风险损失的情况下,将其划分至不同的域,并采取相应的策略;最后,当边界域不为空集时,依次增加神经网络的隐藏层结点数目,直至边界域是空集时,停止模型的增长,从而确定神经网络的拓扑结构,同时提高了神经网络的预测精确度。

Description

基于三支决策的神经网络拓扑结构优化方法
技术领域
本发明属于机器学习领域,设计一种基于三支决策的神经网络拓扑结构优化方法,该方法能自适应寻找神经网络隐藏层结点数目,从而实现拓扑结构优化。
背景技术
神经网络是机器学习的常用算法之一,是一种模仿生物神经网络结构和功能的数学模型。网络结构是设计神经网络算法的关键所在,旨在获得尽可能简单的结构,同时增强网络的泛化能力,提高算法的性能。例如,单隐藏层前馈神经网络是神经网络及其衍生算法中结构最简单的网络,仅仅由输入层、一个隐藏层和输出层构成,此时网络的计算能力主要取决于隐藏层,包括隐藏层的结点数目和激活函数的类型等。一旦确定网络隐藏层的结点数目,单隐藏层前馈神经网络的拓扑结构、表征能力等随之确定。
目前,确定隐藏层的结点数目是默认使用经验公式:
Figure BDA0002845142410000011
m=log2n;
Figure BDA0002845142410000012
Figure BDA0002845142410000013
其中m为隐藏层的结点数目,n为输入层的结点数目,l为输出层的结点数目,α∈(1,10)。使用经验公式缺乏一定的理论支撑,有时网络的准确率等性能未必达到要求。
根据网络生长方式的不同,当前有关网络拓扑结构的研究主要有增长型神经网络、修剪型神经网络和启发式神经网络。在增长型神经网络中,考虑到数据集中难分的样本,仅仅通过增加隐藏层的结点数目或隐藏层的层数实现对数据集的划分,大规模地增加了模型的复杂度,更重要的是,降低了模型的高效性。
基于此,有必要设计一种新的增长型网络拓扑结构优化方法解决上述问题,不仅要在神经网络的隐藏层结点选择上有一定的理论支撑,同时还要不影响神经网络算法本身的复杂度,期望一定程度上能提高神经网络的准确率等性能。
发明内容
本发明的目的是提供一种基于三支决策的神经网络拓扑结构优化方法,该方法能够确定神经网络隐藏层结点数目,为优化网络拓扑结构提供一定的理论支撑,同时能提高神经网络的准确率等性能。
为实现上述发明目的,本发明提供了一种基于三支决策的神经网络拓扑结构优化方法,首先,初始化一个隐藏层结点,利用Focal loss函数和Adam算法实现神经网络的学习过程;然后,针对神经网络训练阶段的错分样本,使用三支决策理论,在最小决策风险损失的情况下,将样本划分至不同的域,并采取相应的策略;最后,当边界域不为空集时,依次增加神经网络的隐藏层结点数目,直至边界域是空集时,停止模型的增长,从而确定神经网络的拓扑结构。该方法的具体步骤是:
步骤1:初始化参数
选择激活函数类型(Sigmoid函数类、Relu函数类)和不同激活函数下初始化参数服从的分布(均匀分布、正态分布)、神经网络的权重w和偏置b、Focal Loss函数的聚焦参数θ等。
步骤2:确定神经网络类型,设置一个隐藏层结点,在训练集和验证集上实现神经网络的学习过程,确定在最优权重和最优偏置下训练集中的错分样本
步骤2-1:神经网络的前向学习过程
选定激活函数和相应地参数初始化方法后,将激活函数作用于训练集上,获得神经网络算法的预测值,并计算神经网络的Focal loss值、准确率、加权F1-score值;
步骤2-2:神经网络的误差反向传播过程
采用Adam算法优化神经网络的权重和偏置,包括输入层和隐藏层之间的权重和偏置、隐藏层到输出层之间的权重和偏置,在每次更新权重和偏置参数后,计算验证集上的神经网络的准确率,并获得在验证集上表现最优的权重wbest和偏置bbest
步骤2-3:在最优权重和偏置下,再次计算训练集的准确率、加权F1-score值,获得训练集中的错分样本,所有错分样本构成错分样本集,其中错分样本是指在最优权重和偏置下经过当前神经网络输出仍未正确分类的样本,错分样本集是指所有错分样本构成的集合。
步骤3:在错分样本集上实现三支决策的学习过程
步骤3-1:采用Kmeans++算法对错分样本集进行离散化处理,直到所有数据均为整型数据;
步骤3-2:计算条件属性(即样本实例)的等价类和决策属性(即标签)的等价类,由此求得样本属于某标签的条件概率P,X为决策属性的等价类即类别标签,[x]为样本等价类;这里的样本是指初始时为步骤2的神经网络处理后的错分样本,之后为三支决策划分后属于BND域中的样本;
步骤3-3:初始化三支决策的阈值(α,β,γ),通过条件概率和阈值,根据等距离缩放原则,构建阈值参数组合,阈值参数组合按照下式进行构建;
(1)当P(X|[x])=0时,由于三支决策的阈值需要满足0<β<γ<α<1的大小关系,而当条件概率替换α(β)时,会造成P(X|[x])=α(β)=0的情形,这与阈值满足的大小关系是相矛盾的,因此,当条件概率替换α(β)时要保留原阈值参数;
(α′,β,γ)=(α,β,γ)
(α,β′,γ)=(α,β,γ)
(α,β,γ′)=(α-β,0*,γ-β)
(2)当P(X|[x])=1时,
Figure BDA0002845142410000021
Figure BDA0002845142410000022
Figure BDA0002845142410000023
(3)当0<P(X|[x])<1时,
Figure BDA0002845142410000024
Figure BDA0002845142410000025
Figure BDA0002845142410000031
其中,P是步骤3-2求得的条件概率,“’”’的含义是利用条件概率替代该位置原阈值后的参数取值,如(α′,β,γ)表示利用步骤3-2求得的条件概率仅代替原α值后的阈值参数,以此类推;“*”表示不取到该值,且为0~1之间的数,如0*表示不为0,但接近于0,可以取为0.0001;
步骤3-4:对于初始给定的阈值参数按照步骤3-3的相应公式获得所有的阈值参数组合,再对阈值参数组合进行筛选,只保留具有唯一性的阈值参数组合,最后计算保留的所有参数组合下的决策风险损失,输出最小决策风险损失对应的最佳阈值(α′,β′,γ′);
根据Bayes决策理论,构建三支决策理论的风险损失函数RiskTWD,按照风险损失函数计算所有参数组合下的决策风险损失:
Figure BDA0002845142410000032
其中,Pi是求得的条件概率不小于阈值α的概率值,i∈(1,r),其中r是求得的条件概率中不小于阈值α的概率个数;Pj是求得的条件概率不大于阈值β的概率值,j∈(1,s),其中s是求得的条件概率中不大于阈值α的概率个数;Pk是求得的条件概率大于阈值β且小于阈值α的概率值,k∈(1,t),其中t是求得的条件概率中大于阈值β且小于阈值α的概率个数;
根据Bayes决策准则,需要选择期望损失最小的行动集作为最佳行动方案,则最优分类决策规则为
(P)若P(X|[x])≥α′,则x∈POS(X);
(B)若β′<P(X|[x])<α′,则x∈BND(X);
(N)若P(X|[x])≤β′,则x∈NEG(X)。
于是,基于决策粗糙集的三支决策语义可以描述为
规则(P)表示:将[x]划分到X的正域中,表示接受该决策;
规则(B)表示:将[x]划分到X的边界域中,此时需收集更多信息以便做出正确决策;
规则(N)表示:将[x]划分到X的负域中,表示拒绝该决策;
步骤3-5:根据条件概率和阈值参数之间的关系,将样本划分到不同的域:POS正域、BND边界域、NEG负域,采取相对应的不同策略:接受该标签、延迟决策、拒绝该标签;
步骤3-6:当
Figure BDA0002845142410000033
时,再添加一个隐藏层结点数目,并转至步骤3-2,对BND中的元素重新划分等价类,重新计算条件概率等操作;当
Figure BDA0002845142410000034
时,输出神经网络的隐藏层结点数目。
步骤4:在确定神经网络中隐藏层结点数目后,计算输入层到隐藏层、隐藏层到输出层的权重和偏置,从而确定神经网络的拓扑结构。
计算加权后的权重wbest和偏置bbest,以权重wbest的计算过程为例,计算公式如下:
Figure BDA0002845142410000041
其中,当j=1时,
Figure BDA0002845142410000042
为神经网络中由输入层到隐藏层之间的最优权重,
Figure BDA0002845142410000043
为第i次向神经网络中添加的由输入层到隐藏层之间的权重;同理,当j=2时,
Figure BDA0002845142410000044
为神经网络中由隐藏层到输出层之间的最优权重,
Figure BDA0002845142410000045
为第i次向神经网络中添加的由隐藏层到输出层之间的权重;σi是第i次添加隐藏层结点后学习到网络的结点权重时处理的样本量在总训练集的占例,且
Figure BDA0002845142410000046
N为添加隐藏层结点的次数。
对上述优化后的神经网络结构在测试集上进行测试,直接使用步骤4输出的权重wbest和偏置bbest计算的优化后的神经网络结构的预测标签,输出测试集上的Focal loss值、准确率、加权F1-score值。所述神经网络结构为SFNN、FNN、NN等。
本发明在确定最佳阈值的过程中还可以采用以下方式:步骤3-3中进行阈值参数构建时,对于初始给定的阈值参数,根据等距缩放原则,替换后的相应阈值中有“*’的公式直接用获得的数字替代,即能取到该值,其他上述步骤3-3的相应公式获得所有的阈值参数组合,再对阈值参数组合进行筛选,只保留具有唯一性的阈值参数组合,即筛去重复的组合,针对所保留的参数组合按照阈值满足的条件0<β<γ<α<1,调整阈值参数组合,最后计算调整后的所有参数组合下的决策风险损失,输出最小决策风险损失对应的最佳阈值(α′,β′,γ′)。
与现有技术相比,本发明的有益效果包括:使用三支决策理论优化神经网络的拓扑结构,本方法改变了神经网络隐藏层结点数目的计算方式,利用三支决策的BND域指导神经网络隐藏层结点数目的学习,BND域起到神经网络对难分样本的延迟决策的作用,在BND是非空集的情况下,通过依次增加隐藏层结点数目的方式,使网络有充分的信息进一步划分样本,直至BND域为空集为止。
与经验公式相对比,本发明针对神经网络隐藏层的结点数目问题,利用三支决策思想动态地寻找网络的结点数目,期望达到优化网络结构的目的,会使得隐藏层结点数目的计算得到一定的理论支撑,使用本发明的方法得到的隐藏层结点数目更少,表明本发明得到的网络结构更紧凑。同时,通过和支持向量机、随机森林等其他机器学习算法的对比,本发明得到的网络准确率方面提高了约4%。
本发明提出的三支决策神经网络算法是对神经网络中未正确分类的样本进行延迟决策,通过添加BND域进行延迟决策,此时需要考虑添加隐藏层结点这一额外的信息来支撑算法的进一步决策,相应地,于是在网络结构中再添加一个隐藏层结点,直至满足BND域为空集,停止网络中隐藏层结点的增长。在一定程度上能解决神经网络分类难度不均衡问题,因此,本发明的方法无论在神经网络的结构优化程度上还是在准确率上,均有良好的表现力。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为单隐含层前馈神经网络拓扑结构图;
图2为神经网络学习流程图;
图3为三支决策学习流程图;
图4为本发明三支决策神经网络模型流程图。
具体实施方式
为了更加清楚地介绍本发明的实施过程和本发明相对于经验公式和其他经典机器学习算法的优点,下面将结合附图与具体实施实例对本发明进行详细描述。
本发明的创新点为:(1)使用三支决策思想优化SFNN的拓扑结构问题,并提出了高效的算法TWD-SFNN;(2)该算法首先设置一个隐藏层结点,使用三支决策理论的阈值对数据进行划分,最后在边界域是非空集的条件下,三支决策模型将继续处理难分的样本,并逐个增加隐藏层结点数目,直至BND域是空集为止。
本发明提供了一种基于三支决策的神经网络拓扑结构优化方法,首先,初始化一个隐藏层结点,利用Focal loss函数值和Adam算法实现神经网络的学习过程。然后,针对神经网络训练阶段的错分样本,使用三支决策理论,在最小决策风险损失的情况下,将其划分至不同的域,并采取相应的策略。最后,当BND域不为空集时,依次增加神经网络的隐藏层结点数目,直至BND域是空集时,停止模型的增长,从而确定神经网络的拓扑结构。
本发明的具体实例方法如下:
步骤1:初始化参数
给定一个n维属性值的数据集(即数据集的特征数目),将其按照8∶1∶1的比例将其划分为训练样本集Training dataset、验证集Validating dataset和测试集Testingdataset;假设三个数据集的实例个数分别为m1,m2,m3,则令Training dataset的实例为TrainX,大小为(m1,n),令Validating dataset的实例为ValidateX,大小为(m2,n),令Testing dataset的实例为TestX,大小为(m3,n);假设数据集的标签个数为c,记为Label={l1,l2,…,lc},则Training dataset的标签为TrainY,大小为(m1,1),令Validatingdataset的标签为ValidateY,大小为(m2,1),Testing dataset的标签为TestY,大小为(m3,1)。
神经网络的隐藏层结点数目初始化为1,输入层到隐藏层之间的连接权重初始化为
Figure BDA0002845142410000051
Figure BDA0002845142410000052
输入层到隐藏层之间的偏置初始化为
Figure BDA0002845142410000053
其中n是数据集的特征数目,隐藏层到输出层之间的连接权重初始化为
Figure BDA0002845142410000054
隐藏层到输出层之间的偏置初始化为
Figure BDA0002845142410000055
Figure BDA0002845142410000056
为例,上角标(1)代表输入层到隐藏层,下角标1代表添加的第1个隐藏层结点所对应的权重参数。
神经网络的激活函数有6种可能性,包含3种Relu函数类和3种Sigmoid函数类,分别为Relu函数、Leaky Relu函数、Selu函数、Tanh函数、Sigmoid函数和Swish函数。在不同的激活函数下,神经网络初始化参数服从分布有2种可能性,分别为均匀分布和正态分布。
步骤2:设置一个隐藏层结点,在训练集上实现神经网络的学习过程
步骤2-1:神经网络的前向学习过程
假设激活函数选择Relu函数,在Relu函数下选择参数初始化时服从均匀分布,则在激活函数的作用下,获得训练集上的神经网络算法的预测标签,计算神经网络的Focalloss函数值,计算公式如下所示:
Figure BDA0002845142410000061
其中,
Figure BDA0002845142410000062
是模型预测值;δ为类别的权重参数,θ是聚焦参数,且θ≥0。
并返回神经网络算法的准确率、加权F1-score值。
步骤2-2:神经网络的误差反向传播过程
采用Adam算法优化神经网络的权重和偏置,包括输入层和隐藏层之间的权重和偏置、隐藏层到输出层之间的权重和偏置。以权重的更新过程为例,利用Adam算法优化参数的计算公式如下所示:
Vdw (l)=ρ1*Vdw (l-1)+(1-ρ1)*dw(l)
Sdw (l)=ρ2*Vdw (l-1)+(1-ρ2)*(dw(l))2
在神经网络训练前期,梯度的权值之和比较小,需要将权值之和修正为1,于是,偏差修正公式:
Figure BDA0002845142410000063
Figure BDA0002845142410000064
Figure BDA0002845142410000065
其中,Vdw (l)和Sdw (l)分别表示Focal loss函数第l时刻关于参数w的一阶动量估计和二阶动量估计;
Figure BDA0002845142410000066
Figure BDA0002845142410000067
分别表示Focal loss函数第l时刻关于参数w的一阶动量的偏差修正和二阶动量的偏差修正;w(l)表示第l时刻的权重更新值;μ为学习率;ρ1是一阶动量估计的指数衰减率,ρ2是二阶动量估计的指数衰减率;τ是一个非常小的数字,起到在实施中防止被0划分的作用。
需要说明的是,Adam算法关于偏置向量b的参数优化过程与上述公式类似,只需将其替换成Focal loss函数第l时刻关于参数b的一阶动量估计和二阶动量估计以及Focalloss函数第l时刻关于参数b的一阶动量的偏差修正和二阶动量的偏差修正。
每次更新权重和偏置参数后,计算验证集上的神经网络的准确率,并返回在验证集上表现最优的权重wbest和偏置bbest
步骤2-3:在最优权重和最优偏置参数下,再次计算训练集的准确率、加权F1-score值:
基于混淆矩阵的Weighted-F1的计算公式如下:
Figure BDA0002845142410000071
其中,|·|代表统计的样本数量;|U|是数据集的样本容量,且
Figure BDA0002845142410000072
Figure BDA0002845142410000073
Figure BDA0002845142410000074
其中,Precisionq是第q个类别的准确率,Recallq是第q个类别的召回率,TP是模型将正例标签预测为正例的样本量,FP是模型将负例标签预测为正例的样本量,FN是模型将正例标签预测为负例的样本量,Q是分类的标签数目,如在二分类问题中Q=2。分子的取值越大,代表模型的预测结果越接近于数据集的真实值,意味着模型的分类效果越好。
在计算训练集的准确率、加权F1-score值后,返回训练集中的错分样本。
步骤3:在错分样本集上实现三支决策的学习过程
步骤3-1:采用Kmeans++算法进行离散化处理,直到所有数据均为整型数据;
步骤3-2:获得在条件属性(即样本实例)的等价类和决策属性(即标签)的等价类两者的基础上的条件概率,计算公式如下:
Figure BDA0002845142410000075
其中|*|是元素的个数,[x]为特征描述x的等价类。
假设数据集是二分类问题,即标签取值为{+1}或{-1},训练集的样本大小为(m1,n),标签大小为(m1,1),首先针对样本和标签分别划分等价类,即元素相同的样本(或标签)被划分至同一个集合中,不同的集合构成样本(或标签)的等价类[x](或{+1}、{-1})。比如等价类[x]的元素个数为s,{+1}等价类和[x]等价类的交集中共有的元素个数为t,则等价类[x]中的样本x属于{+1}的条件概率是
Figure BDA0002845142410000076
步骤3-3:初始化三支决策的阈值参数,根据步骤3-2的条件概率,构建阈值参数组合;这里初始化阈值参数为(α,β,γ)=(0.9,0.1,0.5),于是阈值参数的更新过程如下所示:
(1)当计算的条件概率P(X|[x])=0时,
(α′,β,γ)=(0.9,0.1,0.5)
(α,β′,γ)=(0.9,0.1,0.5)
(α,β,γ′)=(0.8,0,0.4)
(2)当计算的条件概率P(X|[x])=1时,
(α′,β,γ)=(1,0.1111,0.5556)
(α,β′,γ)=(1,0.1111,0.5556)
(3)当计算的条件概率
Figure BDA0002845142410000081
因为
Figure BDA0002845142410000082
所以(α,β′,γ)=(1,0.7,0.85);
因为
Figure BDA0002845142410000083
所以(α,β,γ′)=(1,0.4,0.7);
阈值参数的构建过程更新完毕。
步骤3-4:对阈值参数组合进行筛选,只保留具有唯一性的阈值参数组合,并计算参数组合下的决策风险损失,输出最小决策风险损失对应的最佳阈值(α′,β′,γ′);
例如,对步骤3-3中更新参数组合进行筛选,则候选阈值参数组合分别为(0.9,0.1,0.5)、(0.8,0,0.4)、(1,0.1111,0.5556)、(1,0.7,0.85)、(1,0.4,0.7)。
针对这5组参数组合,首先根据阈值满足的条件0<β<γ<α<1,调整阈值参数组合分别为(0.9,0.1,0.5)、(0.8,0.0001,0.4)、(0.9999,0.1111,0.5556)、(0.9999,0.7,0.85)、(0.9999,0.4,0.7)。不失一般性,假设ε=1,根据公式
Figure BDA0002845142410000084
假设现有一个50条样本的二分类数据集,属于标签{+1}的条件概率分别取值{0.1,0.4,0.9},所对应的样本个数分别为{10,25,15},在阈值参数(0.9,0.1,0.5)下求得
RiskTWD=15×0.1+10×1×0.1+25×(0.1×0.6+0.1×0.4)=5
以此类推,其他四组阈值参数的风险损失值分别为6.5135,4,3.7232,5.1426,再筛选出最小的阈值风险3.7232,则最小决策风险损失对应的最佳阈值(α′,β′,γ′)=(0.9999,0.7,0.85)。
步骤3-5:根据条件概率和阈值参数之间的关系,将样本划分到不同的域:POS正域、BND边界域、NEG负域,采取相对应的不同策略:接受该标签、延迟决策、拒绝该标签;
由步骤3-4中的例子得知,在条件概率{0.1,0.4,0.9}和阈值参数(0.9999,0.7,0.85)下,有0个样本被划分到POS域中,表示预测标签为{+1}的样本有0个;属于有35个样本被划分到NEG域中,表示预测标签为{-1}的样本有35个;有15个样本被划分到BND域,表示既不能判定为{+1}又不能判定为{-1}的样本有15个。因此,下一步需要增加更多的信息,则再添加一个隐藏层结点数目,并转至步骤3-2,进一步划分属于BND域中的样本,直至BND域是空集为止,所有的样本均被划分为{+1}或{-1}。
步骤3-6:当
Figure BDA0002845142410000085
时,再添加一个隐藏层结点数目,并转至步骤3-2;当
Figure BDA0002845142410000086
时,输出神经网络的隐藏层结点数目;
步骤4:在确定神经网络中隐藏层结点数目后计算输入层到隐藏层、隐藏层到输出层的权重和偏置,从而确定神经网络的拓扑结构。
计算加权后的权重wbest和偏置bbest,以权重wbest(包括由输入层到隐藏层之间的最优权重、由隐藏层到输出层之间的最优权重)的计算过程为例,计算公式如下:
Figure BDA0002845142410000091
其中,当j=1时,
Figure BDA0002845142410000092
为神经网络中由输入层到隐藏层之间的最优权重,
Figure BDA0002845142410000093
为第i次向神经网络中添加的由输入层到隐藏层之间的权重;同理,当j=2时,
Figure BDA0002845142410000094
为神经网络中由隐藏层到输出层之间的最优权重,
Figure BDA0002845142410000095
为第i次向神经网络中添加的由隐藏层到输出层之间的权重;σi是第i次添加隐藏层结点后学习到网络的结点权重时处理的样本量在总训练集的占例,且
Figure BDA0002845142410000096
N为添加隐藏层结点的次数。
对上述优化后的神经网络结构在测试集上进行测试,直接使用步骤4输出的权重wbest和偏置bbest计算的优化后的神经网络结构的预测标签,输出测试集上的Focal loss值、准确率、加权F1-score值。
实施例1
本实施例是基于三支决策的神经网络结构优化方法,用于Online NewsPopularity数据的分类中,具体过程是:
步骤1:初始化参数
对二分类共有39797条的数据集Online News Popularity,按照8∶1∶1的比例将其划分为大小为(31837,61)的训练集、大小为(3980,61)验证集和大小为(3980,61)测试集;选择激活函数为Swish函数和初始化参数服从正态分布的情形,并初始化神经网络的权重和偏置。
步骤2:本实施例中神经网络结构为SFNN,设置一个隐藏层结点,在训练集上实现神经网络的学习过程
步骤2-1:神经网络的前向学习过程
在激活函数为Swish函数和初始化参数服从正态分布的情形下,获得训练集上的神经网络算法的预测标签,计算并返回网络的Focal loss值、准确率、加权F1-score值;
步骤2-2:神经网络的误差反向传播过程
采用Adam算法优化神经网络的权重和偏置,包括输入层和隐藏层之间的权重和偏置、隐藏层到输出层之间的权重和偏置;
每次更新权重和偏置参数后,计算验证集上的神经网络的准确率,并返回在验证集上表现最优的权重wbest和偏置bbest
步骤2-3:在最优权重和最优偏置参数下,再次计算训练集的准确率、加权F1-score值:
在计算训练集的准确率、加权F1-score值后,返回训练集中的错分样本。
步骤3:在错分样本集上实现三支决策的学习过程
步骤3-1:采用Kmeans++算法进行离散化处理,直到所有数据均为整型数据;
步骤3-2:获得在条件属性(即样本实例)的等价类和决策属性(即标签)的等价类两者的基础上的条件概率;
步骤3-3:初始化三支决策的阈值参数,根据步骤3-2的条件概率,构建阈值参数组合;
步骤3-4:对阈值参数组合进行筛选,只保留具有唯一性的阈值参数组合,并计算参数组合下的决策风险损失,输出最小决策风险损失对应的最佳阈值(α′,β′,γ′);
步骤3-5:根据条件概率和阈值参数之间的关系,将样本划分到不同的域:POS正域、BND边界域、NEG负域,采取相对应的不同策略:接受该标签、延迟决策、拒绝该标签;
步骤3-6:当
Figure BDA00028451424100001010
时,再添加一个隐藏层结点数目,并转至步骤3;当
Figure BDA00028451424100001011
时,转至步骤4。
步骤4:计算加权后的权重和偏置,以权重wbest的计算过程为例,计算公式如下:
Figure BDA0002845142410000101
其中,当j=1时,
Figure BDA0002845142410000102
为神经网络中由输入层到隐藏层之间的最优权重,
Figure BDA0002845142410000103
为第i次向神经网络中添加的由输入层到隐藏层之间的权重;同理,当j=2时,
Figure BDA0002845142410000104
为神经网络中由隐藏层到输出层之间的最优权重,
Figure BDA0002845142410000105
为第i次向神经网络中添加的由隐藏层到输出层之间的权重;σi是第i次添加隐藏层结点后学习到网络的结点权重时处理的样本量在总训练集的占例,且
Figure BDA0002845142410000106
N为添加隐藏层结点的次数。偏置bbest也按照上述方式类似获得。
步骤5:在测试集上,最优的权重wbest和偏置bbest计算TWD-SFNN算法的预测标签,返回测试集上的Focal loss值、准确率、加权F1-score值。
本发明的模型和神经网络的隐藏层结点数目使用经验公式法相比,无论是在模型的准确率方面,还是在优化网络拓扑结构上,均有良好的表现力。Online News Popularity数据集的实验结果见表1。在m1-SFNN算法,m2-SFNN算法和m3-SFNN算法中,
Figure BDA0002845142410000107
m2=log2n;
Figure BDA0002845142410000108
其中mi为前馈神经网络算法的隐藏层的结点数目,n为输入层的结点数目,l为输出层的结点数目,α=2。
表1.TWD-SFNN算法与经验公式法、其他机器学习算法的对比实验
Figure BDA0002845142410000109
其中,“-”表示对应算法不需要该参数描述。
由表1知,TWD-SFNN算法在Online News Popularity数据集上的准确率高、网络结构紧凑,相较其他算法具有更显著的表现力。
实施例2
本实施例将基于三支决策的神经网络结构优化方法应用在医疗图像分类、垃圾邮件过滤等与分类相关的研究领域,进而提高分类的准确率。
本发明未述及之处适用于现有技术。

Claims (2)

1.一种基于三支决策的神经网络结构优化方法,其特征在于,该方法包括以下内容:
初始化一个隐藏层结点,利用Focal loss函数和Adam算法实现神经网络的学习过程;
针对神经网络训练阶段的错分样本,使用三支决策理论,在最小决策风险损失的情况下,将样本划分至不同的域,并采取相应的策略,当边界域不为空集时,依次增加神经网络的隐藏层结点数目,直至边界域是空集时,停止模型的增长,获得神经网络的隐藏层结点数目;
在确定神经网络中隐藏层结点数目后,计算输入层到隐藏层、隐藏层到输出层的权重和偏置,从而确定神经网络的拓扑结构;
该优化方法用于Online News Popularity数据的分类中,具体过程是:
步骤1:初始化参数
对二分类共有39797条的数据集Online News Popularity,按照8∶1∶1的比例将其划分为大小为(31837,61)的训练集、大小为(3980,61)验证集和大小为(3980,61)测试集;选择激活函数为Swish函数和初始化参数服从正态分布的情形,并初始化神经网络的权重和偏置;
步骤2:神经网络结构为SFNN,设置一个隐藏层结点,在训练集上实现神经网络的学习过程
步骤2-1:神经网络的前向学习过程
在激活函数为Swish函数和初始化参数服从正态分布的情形下,获得训练集上的神经网络算法的预测标签,计算并返回网络的Focal loss值、准确率、加权F1-score值;
步骤2-2:神经网络的误差反向传播过程
采用Adam算法优化神经网络的权重和偏置,包括输入层和隐藏层之间的权重和偏置、隐藏层到输出层之间的权重和偏置;
每次更新权重和偏置参数后,计算验证集上的神经网络的准确率,并返回在验证集上表现最优的权重wbest和偏置bbest
步骤2-3:在最优权重和最优偏置参数下,再次计算训练集的准确率、加权F1-score值:
在计算训练集的准确率、加权F1-score值后,返回训练集中的错分样本;所有错分样本构成错分样本集,其中错分样本是指在最优权重和偏置下经过当前神经网络输出仍未正确分类的样本,错分样本集是指所有错分样本构成的集合
步骤3:在错分样本集上实现三支决策的学习过程
步骤3-1:采用Kmeans++算法进行离散化处理,直到所有数据均为整型数据;
步骤3-2:获得在样本实例的等价类和标签的等价类两者的基础上的条件概率;数据集是二分类问题,即标签取值为{+1}或{-1},首先针对样本和标签分别划分等价类,即元素相同的样本或标签被划分至同一个集合中,不同的集合构成样本或标签的等价类[x];
步骤3-3:初始化三支决策的阈值参数(α,β,γ),根据步骤3-2的条件概率,构建阈值参数组合;构建阈值参数组合为;
(1)当P(X|[x])=0时,由于三支决策的阈值需要满足0<β<γ<α<1的大小关系,而当条件概率替换α(β)时,会造成P(X|[x])=α(β)=0的情形,这与阈值满足的大小关系是相矛盾的,因此,当条件概率替换α(β)时要保留原阈值参数;
(α′,β,γ)=(α,β,γ)
(α,β′,γ)=(α,β,γ)
(α,β,γ′)=(α-β,0*,γ-β)
(2)当P(X|[x])=1时,
Figure FDA0003499289210000021
Figure FDA0003499289210000022
Figure FDA0003499289210000023
(3)当0<P(X|[x])<1时,
Figure FDA0003499289210000024
Figure FDA0003499289210000025
Figure FDA0003499289210000026
其中,P是步骤3-2求得的条件概率,“’”的含义是根据等距离缩放原则替换后的相应阈值,“*”表示不取到该值,且为0~1之间的数;
步骤3-4:对阈值参数组合进行筛选,只保留具有唯一性的阈值参数组合,并计算参数组合下的决策风险损失,输出最小决策风险损失对应的最佳阈值(α′,β′,γ′);
计算决策风险损失;
根据Bayes决策理论,构建三支决策理论的风险损失函数:
Figure FDA0003499289210000027
s.t.0<β<γ<α<1,ε≥1
其中,Pi是求得的条件概率不小于阈值α的概率值,i∈(1,r),其中r是求得的条件概率中不小于阈值α的概率个数;Pj是求得的条件概率不大于阈值β的概率值,j∈(1,s),其中s是求得的条件概率中不大于阈值α的概率个数;Pk是求得的条件概率大于阈值β且小于阈值α的概率值,k∈(1,t),其中t是求得的条件概率中大于阈值β且小于阈值α的概率个数;
根据Bayes决策准则,需要选择期望损失最小的行动集作为最佳行动方案,则最优分类决策规则为
(P)若P(X|[x])≥α′,则x∈POS(X);
(B)若β′<P(X|[x])<α′,则x∈BND(X);
(N)若P(X|[x])≤β′,则x∈NEG(X);
于是,基于决策粗糙集的三支决策语义可以描述为规则(P)表示:若在[x]的描述下,X发生的概率大于阈值α,将[x]划分到X的正域中,表示接受该决策;
规则(B)表示:若在[x]的描述下,X发生的概率介于阈值α和β之间,将[x]划分到X的边界域中,此时决策依据不足,需收集更多信息以便做出正确决策;
规则(N)表示:若在[x]的描述下,x发生的概率小于阈值β,将[x]划分到X的负域中,表示拒绝该决策;
步骤3-5:根据条件概率和阈值参数之间的关系,将样本划分到不同的域:POS正域、BND边界域、NEG负域,采取相对应的不同策略:接受该标签、延迟决策、拒绝该标签;
步骤3-6:当
Figure FDA0003499289210000031
时,再添加一个隐藏层结点数目,并转至步骤3;当
Figure FDA0003499289210000032
时,转至步骤4;
步骤4:在确定神经网络中隐藏层结点数目后,计算输入层到隐藏层、隐藏层到输出层的权重和偏置,从而确定神经网络的拓扑结构;
计算加权后的权重wbest和偏置bbest,以权重wbest的计算过程为例,计算公式是:
Figure FDA0003499289210000033
其中,当j=1时,
Figure FDA0003499289210000034
为神经网络中由输入层到隐藏层之间的最优权重,
Figure FDA0003499289210000035
为第i次向神经网络中添加的由输入层到隐藏层之间的权重;同理,当j=2时,
Figure FDA0003499289210000036
为神经网络中由隐藏层到输出层之间的最优权重,
Figure FDA0003499289210000037
为第i次向神经网络中添加的由隐藏层到输出层之间的权重;σi是第i次添加隐藏层结点后学习到网络的结点权重时处理的样本量在总训练集的占例,且
Figure FDA0003499289210000038
N为添加隐藏层结点的次数,偏置bbest也按照上述方式类似获得;
步骤5:在测试集上,最优的权重wbest和偏置bbest计算TWD-SFNN算法的预测标签,返回测试集上的Focal loss值、准确率、加权F1-score值。
2.根据权利要求1所述的方法,其特征在于,该方法用于分类的数据集中。
CN202011506747.6A 2020-12-18 2020-12-18 基于三支决策的神经网络拓扑结构优化方法 Active CN112580785B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011506747.6A CN112580785B (zh) 2020-12-18 2020-12-18 基于三支决策的神经网络拓扑结构优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011506747.6A CN112580785B (zh) 2020-12-18 2020-12-18 基于三支决策的神经网络拓扑结构优化方法

Publications (2)

Publication Number Publication Date
CN112580785A CN112580785A (zh) 2021-03-30
CN112580785B true CN112580785B (zh) 2022-04-05

Family

ID=75136705

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011506747.6A Active CN112580785B (zh) 2020-12-18 2020-12-18 基于三支决策的神经网络拓扑结构优化方法

Country Status (1)

Country Link
CN (1) CN112580785B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113111979B (zh) * 2021-06-16 2021-09-07 上海齐感电子信息科技有限公司 模型训练方法、图像检测方法及检测装置
CN113312852B (zh) * 2021-06-28 2022-10-21 南京玻璃纤维研究设计院有限公司 一种基于神经网络算法预测玻璃介电损耗的方法
CN116452320B (zh) * 2023-04-12 2024-04-30 西南财经大学 一种基于持续学习的信用风险预测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104965787A (zh) * 2015-07-06 2015-10-07 南京航空航天大学 一种基于三支决策的两阶段软件缺陷预测方法
CN109101108A (zh) * 2018-07-25 2018-12-28 重庆邮电大学 基于三支决策优化智能座舱人机交互界面的方法及系统
CN109816022A (zh) * 2019-01-29 2019-05-28 重庆市地理信息中心 一种基于三支决策与cnn的图像识别方法
CN111008649A (zh) * 2019-11-13 2020-04-14 华南理工大学 一种基于三支决策的缺陷检测数据集预处理方法
CN111241987A (zh) * 2020-01-08 2020-06-05 同济大学 基于代价敏感的三支决策的多目标模型视觉追踪方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104965787A (zh) * 2015-07-06 2015-10-07 南京航空航天大学 一种基于三支决策的两阶段软件缺陷预测方法
CN109101108A (zh) * 2018-07-25 2018-12-28 重庆邮电大学 基于三支决策优化智能座舱人机交互界面的方法及系统
CN109816022A (zh) * 2019-01-29 2019-05-28 重庆市地理信息中心 一种基于三支决策与cnn的图像识别方法
CN111008649A (zh) * 2019-11-13 2020-04-14 华南理工大学 一种基于三支决策的缺陷检测数据集预处理方法
CN111241987A (zh) * 2020-01-08 2020-06-05 同济大学 基于代价敏感的三支决策的多目标模型视觉追踪方法

Also Published As

Publication number Publication date
CN112580785A (zh) 2021-03-30

Similar Documents

Publication Publication Date Title
CN112580785B (zh) 基于三支决策的神经网络拓扑结构优化方法
Gu et al. Improving NSGA-III algorithms with information feedback models for large-scale many-objective optimization
Sahmoud et al. A memory-based NSGA-II algorithm for dynamic multi-objective optimization problems
JP6646234B2 (ja) プログラム生成装置、プログラム生成方法および生成プログラム
Barros et al. Evolutionary model trees for handling continuous classes in machine learning
WO2022227217A1 (zh) 文本分类模型的训练方法、装置、设备及可读存储介质
CN112149760A (zh) 一种基于异类类内超平面的模糊支持向量机设计方法
CN112348571A (zh) 基于销售预测系统的组合模型销售预测方法
Ganepola et al. Automating generative adversarial networks using neural architecture search: A review
Boruah et al. Transparent rule generator random forest (TRG-RF): an interpretable random forest
Song et al. Online ADMM-based extreme learning machine for sparse supervised learning
Tsai New feature selection and voting scheme to improve classification accuracy
Roshan et al. Development of ensemble learning classification with density peak decomposition-based evolutionary multi-objective optimization
Liu et al. An intelligence optimized rolling grey forecasting model fitting to small economic dataset
CN115599918A (zh) 一种基于图增强的互学习文本分类方法及系统
Nikolaou et al. Calibrating AdaBoost for asymmetric learning
US20210365617A1 (en) Design and optimization algorithm utilizing multiple networks and adversarial training
Abdelsalam et al. POLYBiNN: Binary inference engine for neural networks using decision trees
CN115049006A (zh) 基于自适应前馈神经网络的通信信号识别方法和系统
CN113722439A (zh) 基于对抗性类别对齐网络的跨领域情感分类方法及系统
Niu et al. Imbalance data classification based on belief function theory
Li et al. Design of adaptive fuzzy model for classification problem
Kumar et al. Cluster-than-label: Semi-supervised approach for domain adaptation
Hulley et al. Evolving classifiers: Methods for incremental learning
Macaš et al. Particle swarm optimisation of multiple classifier systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant