CN113240025B - 一种基于贝叶斯神经网络权重约束的图像分类方法 - Google Patents

一种基于贝叶斯神经网络权重约束的图像分类方法 Download PDF

Info

Publication number
CN113240025B
CN113240025B CN202110560871.9A CN202110560871A CN113240025B CN 113240025 B CN113240025 B CN 113240025B CN 202110560871 A CN202110560871 A CN 202110560871A CN 113240025 B CN113240025 B CN 113240025B
Authority
CN
China
Prior art keywords
neural network
parameter
weight
training
theta
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110560871.9A
Other languages
English (en)
Other versions
CN113240025A (zh
Inventor
姜书艳
孙召曦
许怡楠
黄乐天
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202110560871.9A priority Critical patent/CN113240025B/zh
Publication of CN113240025A publication Critical patent/CN113240025A/zh
Application granted granted Critical
Publication of CN113240025B publication Critical patent/CN113240025B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biomedical Technology (AREA)
  • Algebra (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于贝叶斯神经网络权重约束的图像分类方法,包括以下步骤:S1:采集待处理图像数据集,将待处理图像数据集划分为训练集和测试集;S2:搭建贝叶斯神经网络;S3:训练贝叶斯神经网络,对贝叶斯神经网络的权重参数进行衰减;S4:提取贝叶斯神经网络各层的权重参数,若贝叶斯神经网络的分类性能达到设定阈值且各层的权重参数分布位于设定期望阈值内,则完成对贝叶斯神经网络的权重约束;否则返回步骤S3,继续训练贝叶斯神经网络;S5:对待处理图像数据集进行分类。本发明在贝叶斯神经网络的训练阶段使用L2正则化,以改变网络权重参数的分布,将其约束至较小的范围。

Description

一种基于贝叶斯神经网络权重约束的图像分类方法
技术领域
本发明属于神经网络技术领域,具体涉及一种基于贝叶斯神经网络权重约束的图像分类方法。
背景技术
贝叶斯神经网络(BNNs)的各个权值与阈值都以随机分布的形式来表示,是一个服从于后验随机分布的随机数,即在神经网络模型中引入贝叶斯推理算法。考虑贝叶斯神经网络的硬件实现,为降低实现权值与阈值的随机分布而引入额外的硬件开销,一种可行的方案为:利用随机计算的固有误差特性,产生满足网络每次运算中随机性的预定分布。由于随机计算所表示的数值范围有限,通常需要施加很大的缩放比例系数将表示的数值限制在固定范围内,这会引入大量误差。因此,搭建并训练得到性能表现良好的贝叶斯神经网络,获得数值范围更小的权重参数,是有效实现基于随机计算的贝叶斯神经网络推理的前提。
面向传统神经网络,进行权重约束的目的是降低模型的复杂程度,减少模型对训练数据的过度拟合。为取得数值范围更小的权重参数,可采取的方法主要包括:使用不同训练算法、设置较小的权重初始值、进行L2正则化等。面向贝叶斯神经网络,上述权重约束方法中,选取不同的训练算法、以及设置较小的权重初始值,能够一定程度上改变和缩小权重参数的数值范围,但其约束范围有限。L2正则化的方法相当于在原始损失函数中加入惩罚项,对复杂度高的模型进行“惩罚”,有效减小权重参数的分布范围。该方法通常用于减轻模型的过拟合,由于贝叶斯神经网络自身具有减轻过拟合现象的作用,因而未应用于贝叶斯神经网络的训练过程。
发明内容
本发明的目的是为了解决权重约束的问题,提出了一种基于贝叶斯神经网络权重约束的图像分类方法。
本发明的技术方案是:一种基于贝叶斯神经网络权重约束的图像分类方法包括以下步骤:
S1:采集待处理图像数据集,将待处理图像数据集划分为训练集和测试集,并对其进行数据增强的预处理操作;
S2:根据预处理后的待处理图像数据集,搭建用于图像分类任务的贝叶斯神经网络;
S3:基于变分推理方法,利用训练集训练贝叶斯神经网络,使用L2正则化对贝叶斯神经网络的权重参数进行衰减,实现对贝叶斯神经网络的初步权重约束,并评估初步权重约束后的贝叶斯神经网络的分类性能;
S4:基于测试集,提取初步权重约束后的贝叶斯神经网络各层的权重参数,若初步权重约束后的贝叶斯神经网络的分类性能达到设定阈值且各层的权重参数分布位于设定期望阈值内,则完成对贝叶斯神经网络的权重约束;否则返回步骤S3,继续训练贝叶斯神经网络并进行权重约束;
S5:利用权重约束后的贝叶斯神经网络对待处理图像数据集进行分类。
进一步地,步骤S2中,搭建贝叶斯神经网络的方法为:根据待处理数据集的数据量与复杂度,定义网络结构,具体包括:设定贝叶斯神经网络的输入层和输出层节点数,设定隐含层数量及其节点数,设定激活函数。
进一步地,步骤S3包括以下子步骤:
S31:假设变分后验分布为高斯分布,变分参数为θ=(μ,ρ),其中,μ表示均值参数,ρ表示标准差参数;
S32:从高斯分布(μ,ρ)中采样得到贝叶斯神经网络权重参数w的样本;
S33:基于变分推理方法,寻找使后验分布
Figure BDA0003073223410000031
和可变分布q(w|θ)之间的KL散度最小的新变分参数θ*,
Figure BDA0003073223410000032
表示训练集数据;
S34:利用蒙特卡罗法,将求解新变分参数θ*的过程转化为目标函数的形式,并记为贝叶斯神经网络的初始损失函数J0
S35:将L2范数作为约束条件,在初始损失函数J0中添加约束项Ω(θ),得到损失函数
Figure BDA0003073223410000033
S36:利用梯度下降法,训练贝叶斯神经网络,迭代更新变分参数θ,直至贝叶斯神经网络的整体误差小于阈值或达到预定的迭代次数,取得新变分参数θ*的集合;
S37:基于训练获得的新变分参数θ*,获得基于L2正则化训练后贝叶斯神经网络的权重参数w*,实现对贝叶斯神经网络的初步权重约束。
进一步地,步骤S32中,贝叶斯神经网络权重参数w的样本通过采样单位高斯分布ε~N(0,1),按均值参数μ进行平移,并按非负的标准差参数σ进行缩放获得,其计算公式为:
Figure BDA0003073223410000034
其中,
Figure BDA0003073223410000035
表示逐点乘法,σ=log(1+exp(ρ)),log(·)表示对数运算,exp(·)表示指数运算;
所述步骤S33中,新变分参数θ*的计算公式为:
Figure BDA0003073223410000036
其中,argminθ表示变分参数θ取最小值运算,DKL表示KL散度,
Figure BDA0003073223410000037
表示后验分布,q(w|θ)表示可变分布;
所述步骤S34中,贝叶斯神经网络的初始损失函数J0的计算公式为:
Figure BDA0003073223410000038
其中,f(w,θ)表示目标函数的表达形式,log(·)表示对数运算,
Figure BDA0003073223410000041
表示训练集数据。P(w)表示权重参数w的先验分布,
Figure BDA0003073223410000042
表示给定权重参数w后训练数据
Figure BDA0003073223410000043
的似然分布。
步骤S35中,约束项Ω(θ)的表达式为:
Figure BDA0003073223410000044
其中,θi为变分参数θ的各个分量;
损失函数
Figure BDA0003073223410000045
的表达式为:
Figure BDA0003073223410000046
其中,λ表示正则化系数。
进一步地,步骤S36中,对贝叶斯神经网络进行训练的具体方法为:设置学习率α、正则化系数λ和迭代次数,迭代更新变分参数θ,并利用损失函数
Figure BDA0003073223410000047
评估贝叶斯神经网络的分类性能,直至贝叶斯神经网络的误差小于阈值或达到预定的迭代次数,取得新变分参数θ*的集合,迭代公式为:
μ←μ(1-λα)-αΔμ
ρ←ρ(1-λα)-αΔρ
其中,μ表示均值参数,Δμ表示均值参数μ的梯度,ρ表示标准差参数,Δρ表示标准差参数ρ的梯度,
Figure BDA0003073223410000048
进一步地,步骤S37中,基于L2正则化训练后贝叶斯神经网络的权重参数w*的获取方式为:基于新变分参数θ*=(μ*,ρ*),采样单位高斯分布ε~N(0,1),按新均值参数μ*进行平移,并按非负的新标准差参数σ*进行缩放,其计算公式为:
Figure BDA0003073223410000049
其中,
Figure BDA00030732234100000410
表示逐点乘法,σ*=log(1+exp(ρ*)),log(·)表示对数运算,exp(·)表示指数运算,ρ*表示新标准差参数。
本发明的有益效果是:本发明在贝叶斯神经网络的训练阶段使用L2正则化,以改变网络权重参数的分布,将其约束至较小的范围,便于以随机计算的方式进行网络推理,便于进行后续处理。
附图说明
图1为图像分类方法的流程图;
图2为本发明实施例中不使用L2正则化训练所得的贝叶斯神经网络各层权重参数分布图;
图3为本发明实施例中使用L2正则化训练所得的贝叶斯神经网络各层权重参数分布图。
具体实施方式
下面结合附图对本发明的实施例作进一步的说明。
如图1所示,本发明提供了一种基于贝叶斯神经网络权重约束的图像分类方法,包括以下步骤:
S1:采集待处理图像数据集,将待处理图像数据集划分为训练集和测试集,并对其进行数据增强的预处理操作;
S2:根据预处理后的待处理图像数据集,搭建用于图像分类任务的贝叶斯神经网络;
S3:基于变分推理方法,利用训练集训练贝叶斯神经网络,使用L2正则化对贝叶斯神经网络的权重参数进行衰减,实现对贝叶斯神经网络的初步权重约束,并评估初步权重约束后的贝叶斯神经网络的分类性能;
S4:基于测试集,提取初步权重约束后的贝叶斯神经网络各层的权重参数,若初步权重约束后的贝叶斯神经网络的分类性能达到设定阈值且各层的权重参数分布位于设定期望阈值内,则完成对贝叶斯神经网络的权重约束;否则返回步骤S3,继续训练贝叶斯神经网络并进行权重约束;
S5:利用权重约束后的贝叶斯神经网络对待处理图像数据集进行分类。
在本发明实施例中,步骤S2中,搭建贝叶斯神经网络的方法为:根据待处理数据集的数据量与复杂度,定义网络结构,具体包括:设定贝叶斯神经网络的输入层和输出层节点数,设定隐含层数量及其节点数,设定激活函数。
在本发明实施例中,步骤S3包括以下子步骤:
S31:假设变分后验分布为高斯分布,变分参数为θ=(μ,ρ),其中,μ表示均值参数,ρ表示标准差参数;
S32:从高斯分布(μ,ρ)中采样得到贝叶斯神经网络权重参数w的样本;
S33:基于变分推理方法,寻找使后验分布
Figure BDA0003073223410000061
和可变分布q(w|θ)之间的KL散度最小的新变分参数θ*,
Figure BDA0003073223410000062
表示训练集数据;
S34:利用蒙特卡罗法,将求解新变分参数θ*的过程转化为目标函数的形式,并记为贝叶斯神经网络的初始损失函数J0
S35:将L2范数作为约束条件,在初始损失函数J0中添加约束项Ω(θ),得到损失函数
Figure BDA0003073223410000063
S36:利用梯度下降法,训练贝叶斯神经网络,迭代更新变分参数θ,直至贝叶斯神经网络的整体误差小于阈值或达到预定的迭代次数,取得新变分参数θ*的集合;
S37:基于训练获得的新变分参数θ*,获得基于L2正则化训练后贝叶斯神经网络的权重参数w*,实现对贝叶斯神经网络的初步权重约束。
在本发明实施例中,步骤S32中,贝叶斯神经网络权重参数w的样本通过采样单位高斯分布ε~N(0,1),按均值参数μ进行平移,并按非负的标准差参数σ进行缩放获得,其计算公式为:
Figure BDA0003073223410000071
其中,
Figure BDA0003073223410000072
表示逐点乘法,σ=log(1+exp(ρ)),log(·)表示对数运算,exp(·)表示指数运算;
所述步骤S33中,新变分参数θ*的计算公式为:
Figure BDA0003073223410000073
其中,argminθ表示变分参数θ取最小值运算,DKL表示KL散度,
Figure BDA0003073223410000074
表示后验分布,q(w|θ)表示可变分布;
步骤S34中,贝叶斯神经网络的初始损失函数J0的计算公式为:
Figure BDA0003073223410000075
其中,f(w,θ)表示目标函数的表达形式,log(·)表示对数运算,
Figure BDA0003073223410000076
表示训练集数据。P(w)表示权重参数w的先验分布,
Figure BDA0003073223410000077
表示给定权重参数w后训练数据
Figure BDA0003073223410000078
的似然分布。
步骤S35中,约束项Ω(θ)的表达式为:
Figure BDA0003073223410000079
其中,θi为变分参数θ的各个分量;
损失函数
Figure BDA00030732234100000710
的表达式为:
Figure BDA00030732234100000711
其中,λ表示正则化系数。
在本发明实施例中,步骤S36中,对贝叶斯神经网络进行训练的具体方法为:设置学习率α、正则化系数λ和迭代次数,迭代更新变分参数θ,并利用损失函数
Figure BDA00030732234100000712
评估贝叶斯神经网络的分类性能,直至贝叶斯神经网络的误差小于阈值或达到预定的迭代次数,取得新变分参数θ*的集合,迭代公式为:
μ←μ(1-λα)-αΔμ
ρ←ρ(1-λα)-αΔρ
其中,μ表示均值参数,Δμ表示均值参数μ的梯度,ρ表示标准差参数,Δρ表示标准差参数ρ的梯度,
Figure BDA0003073223410000081
在本发明实施例中,步骤S37中,基于L2正则化训练后贝叶斯神经网络的权重参数w*的获取方式为:基于新变分参数θ*=(μ*,ρ*),采样单位高斯分布ε~N(0,1),按新均值参数μ*进行平移,并按非负的新标准差参数σ*进行缩放,其计算公式为:
Figure BDA0003073223410000082
其中,
Figure BDA0003073223410000083
表示逐点乘法,σ*=log(1+exp(ρ*)),log(·)表示对数运算,exp(·)表示指数运算,ρ*表示新标准差参数。
以对MNIST数据集进行图像分类的贝叶斯神经网络为例,对本发明的技术方案进行描述。
(1)将贝叶斯神经网络应用于MNIST手写数字图片数据集的分类任务,MNIST数据集包含60000张训练样本与10000张测试样本,并对其进行预处理操作;
(2)搭建用于MNIST数据集分类任务的贝叶斯神经网络。设置网络的输入神经元个数为手写体数字图像的像素数据28*28,输出神经元个数为对输入图片内容的判断分类结果10。考虑分类任务的复杂程度较低,因而使用单隐含层的贝叶斯神经网络,设置隐含层神经元个数为500,选择线性整流单元ReLU作为激活函数。该例中,贝叶斯神经网络的结构与使用的训练参数如表1和表2所示。
(3)假设变分后验分布为高斯分布,指定其变分参数为θ=(μ,ρ),μ表示均值参数,ρ表示标准差参数,从中采样得到权重参数w的样本:
Figure BDA0003073223410000084
其中,
Figure BDA0003073223410000085
表示逐点乘法,μ表示均值参数,σ表示非负的标准差参数,σ=log(1+exp(ρ)),log(·)表示对数运算,exp(·)表示指数运算。
(4)基于变分推理的方法,获取最使先验分布P(w)与可变分布q(w|θ)间的KL散度最小的分布参数θ。在此条件下,贝叶斯神经网络的损失函数J0为:
Figure BDA0003073223410000091
其中,f(w,θ)表示目标函数的表达形式,log(·)表示对数运算,
Figure BDA0003073223410000092
表示训练集数据。P(w)表示权重参数w的先验分布,
Figure BDA0003073223410000093
表示给定权重参数w后训练数据
Figure BDA0003073223410000094
的似然分布,q(w∣θ)表示由变分参数θ控制的权重参数w的可变分布。
(5)在原损失函数中添加约束项,以L2范数作为约束条件:
Figure BDA0003073223410000095
设置正则化系数为λ,则加入L2正则项后的损失函数
Figure BDA0003073223410000096
为:
Figure BDA0003073223410000097
(6)以梯度下降法对贝叶斯神经网络进行优化,使用单独的小批量数据,来加快推理速度。设置学习率α、正则化系数λ和迭代次数,迭代更新变分参数θ,并利用损失函数
Figure BDA0003073223410000098
评估贝叶斯神经网络的分类性能,直至贝叶斯神经网络的误差小于阈值或达到预定的迭代次数,取得新变分参数θ*的集合,迭代公式的表达式为:
μ←μ(1-λα)-αΔμ
ρ←ρ(1-λα)-αΔρ
其中,μ表示均值参数,Δμ表示均值参数μ的梯度,ρ表示标准差参数,Δρ表示标准差参数ρ的梯度,
Figure BDA0003073223410000099
(7)基于训练获得的新变分参数θ*=(μ*,ρ*),获得基于L2正则化训练后贝叶斯神经网络的权重参数w*:
Figure BDA00030732234100000910
其中,
Figure BDA00030732234100000911
表示逐点乘法,σ*=log(1+exp(ρ*)),log(·)表示对数运算,exp(·)表示指数运算,μ*表示新均值参数,ρ*表示新标准差参数。
(8)使用贝叶斯神经网络对测试集进行预测。对于给定输入,对权重参数进行多次随机采样,求取多个采样网络输出值的平均值作为最终的预测结果。评估贝叶斯神经网络的分类性能,并提取网络各层的权重参数。若网络分类性能达到设定阈值且各层的权重参数分布位于设定期望阈值内,则完成对贝叶斯神经网络的权重约束;否则返回继续训练贝叶斯神经网络,调节正则化系数λ来控制正则化作用的强弱程度,以进行权重约束。
表1
Figure BDA0003073223410000101
表2
Figure BDA0003073223410000102
此例中,不使用L2正则化训练所得的贝叶斯神经网络各层权重参数分布如图2所示,使用L2正则化训练所得的贝叶斯神经网络各层权重参数分布如图3所示。由仿真结果易知:使用L2正则化进行网络训练,所得权重参数的分布范围更小。
本发明的工作原理及过程为:本发明所提供的方法,在贝叶斯神经网络的训练过程中,为原始损失函数添加L2正则化项,实现对网络权重的有效约束。通过调节正则化系数λ来控制正则化作用的强弱程度,实现对原最优解对应的各个参数不同比例的放缩,将其约束至期望的较小范围之内。由此,为实现贝叶斯神经网络的权重参数与随机计算的兼容奠定基础。
该方法中,正则化系数λ基于其他已确定的贝叶斯神经网络训练参数选取,首先对λ赋初值(如λ=1.0)。贝叶斯神经网络的训练过程中,获取损失函数值与准确率信息,确定L2正则化操作对于模型的作用情况。在添加L2正则化作为约束项的条件下,若权重参数的分布位于设定期望阈值内,则完成对贝叶斯神经网络的权重约束;否则返回继续训练贝叶斯神经网络,将正则化系数λ增大或者减小10倍进行粗调节。找到合适的数量级之后,进一步细调节,反复实施上述过程,在不改变贝叶斯神经网络预测准确率的同时,有效约束其权重参数至更小范围。
本发明的有益效果为:本发明在贝叶斯神经网络的训练阶段使用L2正则化,以改变网络权重参数的分布,将其约束至较小的范围,便于以随机计算的方式进行网络推理,便于进行后续处理。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (4)

1.一种基于贝叶斯神经网络权重约束的图像分类方法,其特征在于,包括以下步骤:
S1:采集待处理图像数据集,将待处理图像数据集划分为训练集和测试集,并对其进行数据增强的预处理操作;
S2:根据预处理后的待处理图像数据集,搭建用于图像分类任务的贝叶斯神经网络;
S3:基于变分推理方法,利用训练集训练贝叶斯神经网络,使用L2正则化对贝叶斯神经网络的权重参数进行衰减,实现对贝叶斯神经网络的初步权重约束,并评估初步权重约束后的贝叶斯神经网络的分类性能;
S4:基于测试集,提取初步权重约束后的贝叶斯神经网络各层的权重参数,若初步权重约束后的贝叶斯神经网络的分类性能达到设定阈值且各层的权重参数分布位于设定期望阈值内,则完成对贝叶斯神经网络的权重约束;否则返回步骤S3,继续训练贝叶斯神经网络并进行权重约束;
S5:利用权重约束后的贝叶斯神经网络对待处理图像数据集进行分类;
所述步骤S3包括以下子步骤:
S31:假设变分后验分布为高斯分布,变分参数为θ=(μ,ρ),其中,μ表示均值参数,ρ表示标准差参数;
S32:从高斯分布(μ,ρ)中采样得到贝叶斯神经网络权重参数w的样本;
S33:基于变分推理方法,寻找使后验分布
Figure FDA0003722169880000011
和可变分布q(w|θ)之间的KL散度最小的新变分参数θ*,
Figure FDA0003722169880000012
表示训练集数据;
S34:利用蒙特卡罗法,将求解新变分参数θ*的过程转化为目标函数的形式,并记为贝叶斯神经网络的初始损失函数J0
S35:将L2范数作为约束条件,在初始损失函数J0中添加约束项Ω(θ),得到损失函数
Figure FDA0003722169880000021
S36:利用梯度下降法,训练贝叶斯神经网络,迭代更新变分参数θ,直至贝叶斯神经网络的整体误差小于阈值或达到预定的迭代次数,取得新变分参数θ*的集合;
S37:基于训练获得的新变分参数θ*,获得基于L2正则化训练后贝叶斯神经网络的权重参数w*,实现对贝叶斯神经网络的初步权重约束;
所述步骤S32中,贝叶斯神经网络权重参数w的样本通过采样单位高斯分布ε~N(0,1),按均值参数μ进行平移,并按非负标准差参数σ进行缩放获得,其计算公式为:
Figure FDA0003722169880000029
其中,
Figure FDA00037221698800000210
表示逐点乘法,σ=log(1+exp(ρ)),log(·)表示对数运算,exp(·)表示指数运算;
所述步骤S33中,新变分参数θ*的计算公式为:
Figure FDA0003722169880000022
其中,argminθ表示变分参数θ取最小值运算,DKL表示KL散度,
Figure FDA0003722169880000023
表示后验分布,q(w|θ)表示可变分布;
所述步骤S34中,贝叶斯神经网络的初始损失函数J0的计算公式为:
Figure FDA0003722169880000024
其中,f(w,θ)表示目标函数的表达形式,log(·)表示对数运算,
Figure FDA0003722169880000025
表示训练集数据,P(w)表示权重参数w的先验分布,
Figure FDA0003722169880000026
表示给定权重参数w后训练数据
Figure FDA0003722169880000027
的似然分布;
所述步骤S35中,约束项Ω(θ)的表达式为:
Figure FDA0003722169880000028
其中,θi为变分参数θ的各个分量;
损失函数
Figure FDA0003722169880000031
的表达式为:
Figure FDA0003722169880000032
其中,λ表示正则化系数。
2.根据权利要求1所述的基于贝叶斯神经网络权重约束的图像分类方法,其特征在于,所述步骤S2中,搭建贝叶斯神经网络的方法为:根据待处理数据集的数据量与复杂度,定义网络结构,具体包括:设定贝叶斯神经网络的输入层和输出层节点数,设定隐含层数量及其节点数,设定激活函数。
3.根据权利要求1所述的基于贝叶斯神经网络权重约束的图像分类方法,其特征在于,所述步骤S36中,对贝叶斯神经网络进行训练的具体方法为:设置学习率α、正则化系数λ和迭代次数,迭代更新变分参数θ,并利用损失函数
Figure FDA0003722169880000035
评估贝叶斯神经网络的分类性能,直至贝叶斯神经网络的误差小于阈值或达到预定的迭代次数,取得新变分参数θ*的集合,迭代公式为:
μ←μ(1-λα)-αΔμ
ρ←ρ(1-λα)-αΔρ
其中,μ表示均值参数,Δμ表示均值参数μ的梯度,ρ表示标准差参数,Δρ表示标准差参数ρ的梯度。
4.根据权利要求1所述的基于贝叶斯神经网络权重约束的图像分类方法,其特征在于,所述步骤S37中,基于L2正则化训练后贝叶斯神经网络的权重参数w*的获取方式为:基于新变分参数θ*=(μ*,ρ*),采样单位高斯分布ε~N(0,1),按新均值参数μ*进行平移,并按非负的新标准差参数σ*进行缩放,其计算公式为:
Figure FDA0003722169880000033
其中,
Figure FDA0003722169880000034
表示逐点乘法,σ*=log(1+exp(ρ*)),log(·)表示对数运算,exp(·)表示指数运算,ρ*表示新标准差参数。
CN202110560871.9A 2021-05-19 2021-05-19 一种基于贝叶斯神经网络权重约束的图像分类方法 Active CN113240025B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110560871.9A CN113240025B (zh) 2021-05-19 2021-05-19 一种基于贝叶斯神经网络权重约束的图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110560871.9A CN113240025B (zh) 2021-05-19 2021-05-19 一种基于贝叶斯神经网络权重约束的图像分类方法

Publications (2)

Publication Number Publication Date
CN113240025A CN113240025A (zh) 2021-08-10
CN113240025B true CN113240025B (zh) 2022-08-12

Family

ID=77138259

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110560871.9A Active CN113240025B (zh) 2021-05-19 2021-05-19 一种基于贝叶斯神经网络权重约束的图像分类方法

Country Status (1)

Country Link
CN (1) CN113240025B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008008142A2 (en) * 2006-07-12 2008-01-17 Kofax Image Products, Inc. Machine learning techniques and transductive data classification
CN109409614A (zh) * 2018-11-16 2019-03-01 国网浙江瑞安市供电有限责任公司 一种基于贝叶斯正则化神经网络的电力负荷预测方法
CN109902801A (zh) * 2019-01-22 2019-06-18 华中科技大学 一种基于变分推理贝叶斯神经网络的洪水集合预报方法
CN112801204A (zh) * 2021-02-09 2021-05-14 中国人民解放军国防科技大学 基于自动神经网络的具有终身学习能力的高光谱分类方法
CN112819523A (zh) * 2021-01-29 2021-05-18 上海数鸣人工智能科技有限公司 结合内/外积特征交互和贝叶斯神经网络的营销预测方法
CN113516170A (zh) * 2021-05-19 2021-10-19 电子科技大学 基于贝叶斯神经网络随机加法饱和结构的图像分类方法
CN113516171A (zh) * 2021-05-19 2021-10-19 电子科技大学 基于贝叶斯神经网络随机加法分解结构的图像分类方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7788292B2 (en) * 2007-12-12 2010-08-31 Microsoft Corporation Raising the baseline for high-precision text classifiers
CN108537102B (zh) * 2018-01-25 2021-01-05 西安电子科技大学 基于稀疏特征与条件随机场的高分辨sar图像分类方法
CN109145832A (zh) * 2018-08-27 2019-01-04 大连理工大学 基于dsfnn与非局部决策的极化sar图像半监督分类方法
CN111723674B (zh) * 2020-05-26 2022-08-05 河海大学 基于马尔科夫链蒙特卡洛与变分推断的半贝叶斯深度学习的遥感图像场景分类方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008008142A2 (en) * 2006-07-12 2008-01-17 Kofax Image Products, Inc. Machine learning techniques and transductive data classification
CN109409614A (zh) * 2018-11-16 2019-03-01 国网浙江瑞安市供电有限责任公司 一种基于贝叶斯正则化神经网络的电力负荷预测方法
CN109902801A (zh) * 2019-01-22 2019-06-18 华中科技大学 一种基于变分推理贝叶斯神经网络的洪水集合预报方法
CN112819523A (zh) * 2021-01-29 2021-05-18 上海数鸣人工智能科技有限公司 结合内/外积特征交互和贝叶斯神经网络的营销预测方法
CN112801204A (zh) * 2021-02-09 2021-05-14 中国人民解放军国防科技大学 基于自动神经网络的具有终身学习能力的高光谱分类方法
CN113516170A (zh) * 2021-05-19 2021-10-19 电子科技大学 基于贝叶斯神经网络随机加法饱和结构的图像分类方法
CN113516171A (zh) * 2021-05-19 2021-10-19 电子科技大学 基于贝叶斯神经网络随机加法分解结构的图像分类方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
An improved RBM based on Bayesian Regularization;Guangyuan Pan等;《2014 International Joint Conference on Neural Networks (IJCNN)》;20140904;第2935-2939页 *
Doherty功放的贝叶斯正则化神经网络逆向建模研究;南敬昌等;《计算机工程与科学》;20180815;第40卷(第8期);第1496-1502页 *
L1 L2正则化及贝叶斯解释;缄默笔记;《https://blog.csdn.net/hong__fang/article/details/78281200》;20171019;第1页 *
Neural Network based Seizure Detection System using Raw EEG Data;Letian Huang等;《2016 International SoC Design Conference (ISOCC)》;20161229;第211-212页 *
基于特征加权贝叶斯神经网络的微博异常账号检测;王峥等;《计算机与数字工程》;20181120;第46卷(第11期);第43-48页 *
基于贝叶斯卷积神经网络与数据增强的SAR图像目标分类方法;涂豫;《探测与控制学报》;20201226;第42卷(第6期);第43-48页 *

Also Published As

Publication number Publication date
CN113240025A (zh) 2021-08-10

Similar Documents

Publication Publication Date Title
CN109886498B (zh) 一种基于特征选择的emd-gru短期电力负荷预测方法
CN110909926A (zh) 基于tcn-lstm的太阳能光伏发电预测方法
CN110809772A (zh) 用于改进机器学习模型的优化的系统和方法
CN107729999A (zh) 考虑矩阵相关性的深度神经网络压缩方法
US20190311258A1 (en) Data dependent model initialization
CN110929836B (zh) 神经网络训练及图像处理方法和装置、电子设备、介质
Dudul Prediction of a Lorenz chaotic attractor using two-layer perceptron neural network
CN112183742A (zh) 基于渐进式量化和Hessian信息的神经网络混合量化方法
CN113011487B (zh) 一种基于联合学习与知识迁移的开放集图像分类方法
US20200134429A1 (en) Computer architecture for multiplier-less machine learning
CN112949610A (zh) 一种基于降噪算法的改进Elman神经网络的预测方法
CN112988548A (zh) 一种基于降噪算法的改进Elman神经网络的预测方法
CN111461445A (zh) 短期风速预测方法、装置、计算机设备及存储介质
CN113627597A (zh) 一种基于通用扰动的对抗样本生成方法及系统
CN113240025B (zh) 一种基于贝叶斯神经网络权重约束的图像分类方法
Rossi et al. Theoretical properties of projection based multilayer perceptrons with functional inputs
CN114830137A (zh) 用于生成预测模型的方法和系统
Xiao et al. Predict stock prices with ARIMA and LSTM
CN116415177A (zh) 一种基于极限学习机的分类器参数辨识方法
CN114444654A (zh) 一种面向nas的免训练神经网络性能评估方法、装置和设备
Luo et al. Image classification with a MSF dropout
Manga et al. Hyperparameter Tuning of Identity Block Uses an Imbalance Dataset with Hyperband Method
CN114419341A (zh) 一种基于迁移学习改进的卷积神经网络图像识别方法
Zhang et al. Contraction of a quasi-Bayesian model with shrinkage priors in precision matrix estimation
Soujanya et al. A CNN based approach for handwritten character identification of Telugu guninthalu using various optimizers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant