CN111160488A - 融合注意力选择机制的CondenseNet算法 - Google Patents

融合注意力选择机制的CondenseNet算法 Download PDF

Info

Publication number
CN111160488A
CN111160488A CN202010002106.0A CN202010002106A CN111160488A CN 111160488 A CN111160488 A CN 111160488A CN 202010002106 A CN202010002106 A CN 202010002106A CN 111160488 A CN111160488 A CN 111160488A
Authority
CN
China
Prior art keywords
layer
network
feature
feature matrix
condensenet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010002106.0A
Other languages
English (en)
Inventor
屈景怡
赵娅倩
贾云飞
陈敏
杨俊�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Civil Aviation University of China
Original Assignee
Civil Aviation University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Civil Aviation University of China filed Critical Civil Aviation University of China
Priority to CN202010002106.0A priority Critical patent/CN111160488A/zh
Publication of CN111160488A publication Critical patent/CN111160488A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种融合注意力选择机制的CondenseNet算法,包括通过m个网络结构块对卷积神经网络中的数据进行特征提取,每个结构块包含n组完整的特征变换层,数据通过每一层特征变换层得到相对应的特征矩阵;将m个网络结构块级联连接,通过网络结构块的数据经过特征提取得到最终的特征矩阵;将上述得到的特征矩阵计算网络训练的损失值;计算各层误差项和权值梯度;根据损失值判断网络是否收敛,如不收敛,依据权值梯度调整卷积神经网络初始化参数重新进行训练,如已收敛则输出网络训练结果。本发明所述的融合注意力选择机制的CondenseNet算法,高效利用多维特征信息,增强深层网络的学习和表达能力,提高分类准确率。

Description

融合注意力选择机制的CondenseNet算法
技术领域
本发明属于深度学习以及大数据技术领域,尤其是涉及一种融合注意力选择机制的CondenseNet算法。
背景技术
面对海量、高维的大样本数据,深度学习因其快速、准确、智能的强大优势,在计算机视觉、自然语言处理领域成为炙手可热的处理问题方法,近几年随着相关技术的创新,深度学习领域不断取得突破性进展,学者们先后通过增加网络深度来提升网络性能;优化网络结构来提升网络准确率与网络适用性,但是传统的卷积神经网络结构搭建的深度学习网络随着层数的增加精度会达到饱和,甚至降低,梯度消失现象愈发明显,从而导致网络无法训练,而采用更好的网络初始化参数和更高效的激励函数也无法从根本上解决网络训练问题。
文献“Huang G,Liu S,Van der Maaten L,et al.CondenseNet:An EfficientDenseNet using Learned Group Convolutions[C].Proceedings of the IEEEConference on Computer Vision and Pattern Recognition,2018:2752-2761.”中提出一种新型的网络结构,即CondenseNet(An Efficient DenseNet using Learned GroupConvolutions),文章从特征图入手,通过对特征图的极致利用使网络达到更好的效果和更少的参数,CondenseNet在保证网络中间层与层之间最大程度的信息传输前提下,直接将所有的层连接起来,即每一层的输入来自前面所有层的输出,使得网络更窄的同时减少参数,减轻梯度消失现象,有效抑制过拟合,减少计算量。但是采用稠密连接的层连接方式必然带来的一个问题是网络的冗余连接以及大量的占用内存。文献“Woo S,Park J,Lee JY,etal.CBAM:Convolutional block attention module[C].Proceedings of the EuropeanConference on Computer Vision(ECCV),Munich,Germany,2018:3-19.”中提出一种全新的特征重标定机制,即CBAM(Convolutional Block Attention Module),这种机制显式地建模特征通道与空间通道之间的相互依赖关系,通过学习的方式来自动获取到每个特征通道的重要程度,依照重要程度去提升有用的特征并抑制对当前任务作用不大的特征。如果能将上述两种极具优势的高性能网络融合创新,取其精华,去其糟粕,既可以在加深网络深度的同时消除梯度消失现象,减少参数,深度挖掘数据特征,同时又可以在空间维度的方面着手增加可自动学习的特征重标定机制,自适应的重新校准通道的特征响应,将会得到一种准确率更高、适应性更强、网络性能更优的深度学习算法。
发明内容
有鉴于此,本发明旨在提出一种融合注意力选择机制的CondenseNet算法,以提供一种准确率高、适应性强、网络性能优的深度学习算法。
为达到上述目的,本发明的技术方案是这样实现的:
一种融合注意力选择机制的CondenseNet算法,包括按顺序进行的下列步骤:步骤一:通过m个网络结构块对卷积神经网络中的数据进行特征提取,每个结构块包含n组完整的特征变换层,每个特征变换层包含1个1×1学习卷积层、1个3×3分组卷积层以及一个CBAM模块,数据通过每一层特征变换层得到相对应的特征矩阵;
步骤二:将m个网络结构块级联连接,n组特征变换层堆叠,每层网络采用稠密连接的方式连接到后续所有层,通过网络结构块的数据经过特征提取得到最终的特征矩阵;
步骤三:将上述步骤二得到的最终特征矩阵进行全局平均池化并输入全连接层变为一维特征矩阵,并利用softmax分类器对一维特征矩阵进行分类,计算此次网络训练的损失值;
步骤四:利用误差反向传播算法进行梯度计算,计算各层误差项和权值梯度;
步骤五:根据步骤三中所得损失值判断网络是否收敛,如不收敛,依据步骤四中权值梯度调整卷积神经网络初始化参数重新进行训练,如已收敛则输出网络训练结果。
进一步的,所述步骤一的具体方法为:将数据输入到网络结构块中,通过第一个特征变换层,分别对数据进行卷积操作,每个卷积层的输入是上一个卷积层的输出,随后输入一个CBAM模块,实现特征重标定,最后输出特征矩阵。
进一步的,所述步骤二的具体方法为:在单个结构块中与每个结构块之间,每层网络采用稠密连接的方式;在单个结构块中,通过第1层特征变换层经过特征提取到的特征矩阵依次输入到第2个、第3个、第4个、一直到第n层特征变换层中;通过第2层特征变换层经过特征提取到的特征矩阵依次输入到第3个、第4个、第5个、一直到第n层特征变换层中,通过m个网络结构块的数据得到最终的特征矩阵。
进一步的,所述步骤三的具体方法为:首先,对最终特征矩阵进行全局平均池化,使用和最终特征矩阵大小一致的滤波器计算特征矩阵中数据的平均值;然后,输入全连接层,全连接层中每个神经元分别对全局平均池化后的特征矩阵中的数据进行非线性变换得到一维特征矩阵;最后,将一维特征矩阵输入softmax分类器进行分类。
进一步的,所述步骤三中计算此次网络训练的损失值的方法是:首先,计算每个类别j出现的概率p(y=j|x);然后用hθ(x)表示q个输出概率,则函数为:
Figure BDA0002353868940000041
其中,hθ(x)表示卷积神经网络的输出,i为样本序号,θ为模型参数,
Figure BDA0002353868940000042
为归一化因子;
最后使用交叉熵作为损失函数计算损失值,其表达式为:
Figure BDA0002353868940000043
其中
Figure BDA0002353868940000044
表示损失值,1{y(i)=j}表示当y(i)=j时值为1,否则为0,r为样本数。
进一步的,所述步骤四的具体方法为:首先,根据softmax分类器结果计算最后一层损失值并作为最后一层的误差项;然后,利用误差反向传播算法的链式法则计算各层误差项,第m个结构块的误差项等于第m+1个结构块的误差项乘以两者之间与卷积层相连的权重矩阵;
利用公式
Figure BDA0002353868940000045
计算对应隐藏层的梯度值,其中,J表示该层损失值,
Figure BDA0002353868940000046
表示第l层第j个特征矩阵到l层第i个特征矩阵的连接权重,
Figure BDA0002353868940000047
表示第l个卷积层的第j个特征矩阵的误差项,
Figure BDA0002353868940000048
表示第l-1层第i个特征矩阵。
进一步的,所述步骤五的具体方法为:首先,将分类结果和实际值比对并计算差值而作为损失值;然后将损失值和实现设定的分类阈值做比较,如小于分类阈值则判定网络收敛,否则不收敛;最后,如收敛输出网络结果,当判定为不收敛时,则根据步骤四中所得权值梯度调整卷积神经网络初始化参数按照以下公式更新权值梯度,并重新训练网络。
Figure BDA0002353868940000051
W(t+1)=W(t)+V(t+1)
式中t表示迭代次数,V(t)是动量项,μ为动量因子,它决定了历史权重修正量对本次权重修正的贡献大小;η为学习率;λ为权重衰减系数,W表示卷积神经网络初始化参数。
相对于现有技术,本发明所述的融合注意力选择机制的CondenseNet算法具有以下优势:
(1)本发明所述的融合注意力选择机制的CondenseNet算法,通过融合两种不同网络的优势性能,既缓解了因网络加深而导致的梯度消失现象,又通过特征重标定策略,高效利用多维特征信息,增强深层网络的学习和表达能力,提高分类准确率。
(2)本发明所述的融合注意力选择机制的CondenseNet算法,采用性能更优的卷积神经网络,在加深网络深度的同时消除梯度消失现象,减少参数,有效抑制过拟合,深度挖掘数据特征。
(3)本发明所述的融合注意力选择机制的CondenseNet算法,在空间维度与通道维度的方面增加可自动学习的特征重标定机制,自适应的重新校准通道的特征响应,实现重新标定特征权重,进一步提高网络性能。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例所述的融合注意力选择机制的CondenseNet算法训练方法流程图;
图2为本发明实施例所述的网络结构块图;
图3为本发明实施例所述的CBAM模块计算单元图;
图4为本发明实施例所述的网络反向传播训练过程;
图5为本发明实施例所述的融合注意力选择机制卷积CBAM-CondenseNet的性能图;
图6为本发明实施例所述的融合注意力选择机制卷积CondenseNet的性能图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以通过具体情况理解上述术语在本发明中的具体含义。
下面将参考附图并结合实施例来详细说明本发明。
名词解释
CondenseNet:Convolutional Block Attention Module-An EfficientDenseNet using Learned Group Convolutions,一种深度学习算法。
融合注意力选择机制的CondenseNet算法,如图1至图6所示,包括按顺序进行的下列步骤:1)通过m个网络结构块对卷积神经网络中的数据进行特征提取,每个结构块包含n组完整的特征变换层,每个特征变换层包含1个1×1可学习卷积层、1个3×3分组卷积层以及一个CBAM模块,数据通过每一层特征变换层得到相对应的特征矩阵;
通过m个网络结构块对卷积神经网络中的数据进行特征提取,数据通过每一层特征变换层得到相对应的特征矩阵的方法是:首先,将数据输入到网络结构块中,通过第一个特征变换层,即通过1个1×1的卷积层、1个3×3的卷积层,分别对数据进行卷积操作,每个卷积层的输入是上一个卷积层的输出,随后输入一个CBAM模块,实现特征重标定,最后输出特征矩阵。融合注意力选择机制卷积CondenseNet网络结构块详见图2。深层的融合注意力选择机制卷积CondenseNet通过上述特征变换层堆叠以及多个结构块之间的级联实现。在单个结构块中,第L层网络对应的经过卷积变换后的非线性特征映射U可由(1)式计算:
Figure BDA0002353868940000081
式中,[X0X1…XL-1]表示将第0,…,L-1层的输出矩阵进行通道合并,WL-1和WL依次表示1×1,3×3卷积权值矩阵,BN(·)表示对每个隐藏层的输出数据进行批归一化处理,f(·)表示ReLU激活函数,
Figure BDA0002353868940000082
表示卷积操作。
CBAM模块这一计算单元设计在每个3×3卷积层后,结构图详见图3。为了建模特征通道间的相互依赖关系,提出在空间维度上使用全局最大池化和全局平均池化将信息压缩为一个信道描述符,并标定压缩操作中聚合的权重矩阵;在上述操作的基础上建模像素点之间的重要程度,在通道维度上使用全局最大池化和全局平均池化得到2个不同的信道描述符,并按其通道维度将2个信道描述符合并,之后使用一个包含单个卷积核的隐藏层对特征映射进行卷积操作,生成最终的权重标定。对于一个中间层的输入特征矩阵F∈RC×H×W,CBAM经过1维通道压缩操作并与输入的特征矩阵相乘得到F′∈RC×H×W,随后经过2维空间压缩操作计算的空间权值矩阵得到F′∈RC×H×W,计算公式如下:
Figure BDA0002353868940000083
F″=Ms(F′)⊙F′ (3)
其中,
Figure BDA0002353868940000084
分别表示输入的特征矩阵,经过通道注意力选择的特征映射,经过空间注意力选择的特征映射,
Figure BDA0002353868940000085
分别表示通道压缩权值矩阵,空间压缩权值矩阵。
2)m个网络结构块级联连接,n组特征变换层堆叠,每层网络采用稠密连接的方式连接到后续所有层,通过网络结构块的数据经过特征提取得到最终的特征矩阵;
具体方法为:首先,在单个结构块中与每个结构块之间,每层网络采用稠密连接的方式,在单个结构块中,通过第1层特征变换层经过特征提取到的特征矩阵依次输入到第2个、第3个、第4个、一直到第n层特征变换层中;通过第2层特征变换层经过特征提取到的特征矩阵依次输入到第3个、第4个、第5个、一直到第n层特征变换层中,连接方式可见图2,通过m个网络结构块的数据得到最终的特征矩阵。
3)将上述步骤2)得到的最终特征矩阵进行全局平均池化并输入全连接层变为一维特征矩阵,并利用softmax分类器对一维特征矩阵进行分类,计算此次网络训练的损失值;
具体方法为:首先,对最终特征矩阵进行全局平均池化,使用和最终特征矩阵大小一致的滤波器计算特征矩阵中数据的平均值;然后,输入全连接层,全连接层中每个神经元分别对全局平均池化后的特征矩阵中的数据进行非线性变换得到一维特征矩阵;最后,将一维特征矩阵输入softmax分类器进行分类。
将上述步骤2)得到的最终特征矩阵进行全局平均池化并输入全连接层,可得特征维度为(1×1)×q的特征矩阵,使用softmax分类器对其分类,其中,q为分类类别数,对于每类有r个样本的集合可以表示为{(x(1),y(1)),(x(2),y(2)),...(x(r),y(r))},y(r)∈{1,2,…,q}。
计算此次网络训练的损失值的方法是:首先,计算每个类别j出现的概率p(y=j|x);然后用hθ(x)表示q个输出概率,则函数为:
Figure BDA0002353868940000101
其中,hθ(x)表示卷积神经网络的输出,i为样本序号,θ为模型参数,
Figure BDA0002353868940000102
为归一化因子;
最后使用交叉熵作为损失函数计算损失值,其表达式为:
Figure BDA0002353868940000103
其中
Figure BDA0002353868940000104
表示损失值,1{y(i)=j}表示当y(i)=j时值为1,否则为0,r为样本数。
4)利用误差反向传播算法进行梯度计算,计算各层误差项和权值梯度;
具体方法为:首先,根据softmax分类器结果计算最后一层损失值并作为最后一层的误差项;然后,利用误差反向传播算法的链式法则计算各层误差项,第m个结构块的误差项等于第m+1个结构块的误差项乘以两者之间与卷积层相连的权重矩阵;
利用公式
Figure BDA0002353868940000105
计算对应隐藏层的梯度值,其中,J表示该层损失值,
Figure BDA0002353868940000106
表示第l层第j个特征矩阵到l层第i个特征矩阵的连接权重,
Figure BDA0002353868940000107
表示第l个卷积层的第j个特征矩阵的误差项,
Figure BDA0002353868940000108
表示第l-1层第i个特征矩阵。
BP算法将训练样本的误差信息传回到隐藏层,实现隐藏层之间的权重矩阵的不断更新迭代,直至网络收敛。网络的反向传播训练过程如图4。在单个网络结构块中,各隐藏层的误差项计算如下:
Figure BDA0002353868940000111
Figure BDA0002353868940000112
Figure BDA0002353868940000113
δk7=δk8*Wk8 (9)
Figure BDA0002353868940000114
Figure BDA0002353868940000115
dk4=dk5*Wk5 (12)
dk3=dk4*Wk4+dk8*Wn5+dk5*Wn4 (13)
Figure BDA0002353868940000116
Figure BDA0002353868940000117
其中,dk1,dk2,L,dk10分别表示两个结构块内对应各个层的误差项,Uk1,Uk2,L,Uk10为各层的输出特征映射,Wn5表示K3层与k5层之间的权重矩阵,
Figure BDA0002353868940000118
表示损失函数J对最后一层网络输出特征映射的导数,*表示把卷积操作
Figure BDA0002353868940000119
中的卷积核进行翻转。CBAM-CondenseNet网络的第一个隐藏层的梯度值可表示为公式(16)
Figure BDA00023538689400001110
其中,Wn1,Wn2,Wn3分别表示K3层,K5层,K8层与第一层之间的权重矩阵,A0表示输入特征矩阵。
5)根据步骤3)中所得损失值判断网络是否收敛,如不收敛,依据步骤4)中权值梯度调整卷积神经网络初始化参数,重新进行训练,如已收敛则输出网络训练结果。
具体方法为:首先,将分类结果和实际值比对并计算差值而作为损失值;然后将损失值和实现设定的分类阈值做比较,如小于分类阈值则判定网络收敛,否则不收敛;最后,如收敛输出网络结果,当判定为不收敛时,则根据步骤4)中所得权值梯度调整卷积神经网络初始化参数按照以下公式更新权值梯度,并重新训练网络。
Figure BDA00023538689400001111
W(t+1)=W(t)+V(t+1) (18)
式中t表示迭代次数,V(t)是动量项,μ为动量因子,它决定了历史权重修正量对本次权重修正的贡献大小;η为学习率;λ为权重衰减系数,W表示卷积神经网络初始化参数。
本发明通过融合两种不同网络的优势性能,既缓解了因网络加深而导致的梯度消失现象,又通过特征重标定策略,高效利用多维特征信息,增强深层网络的学习和表达能力,提高分类准确率。从测试结果可知,随着卷积神经网络深度的增加,分类正确率提高,详见图5。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.融合注意力选择机制的CondenseNet算法,其特征在于:包括按顺序进行的下列步骤:
步骤一:通过m个网络结构块对卷积神经网络中的数据进行特征提取,每个结构块包含n组完整的特征变换层,每个特征变换层包含1个1×1学习卷积层、1个3×3分组卷积层以及一个CBAM模块,数据通过每一层特征变换层得到相对应的特征矩阵;
步骤二:将m个网络结构块级联连接,n组特征变换层堆叠,每层网络采用稠密连接的方式连接到后续所有层,通过网络结构块的数据经过特征提取得到最终的特征矩阵;
步骤三:将上述步骤二得到的最终特征矩阵进行全局平均池化并输入全连接层变为一维特征矩阵,并利用softmax分类器对一维特征矩阵进行分类,计算此次网络训练的损失值;
步骤四:利用误差反向传播算法进行梯度计算,计算各层误差项和权值梯度;
步骤五:根据步骤三中所得损失值判断网络是否收敛,如不收敛,依据步骤四中权值梯度调整卷积神经网络初始化参数重新进行训练,如已收敛则输出网络训练结果。
2.根据权利要求1所述的融合注意力选择机制的CondenseNet算法,其特征在于:所述步骤一的具体方法为:将数据输入到网络结构块中,通过第一个特征变换层,分别对数据进行卷积操作,每个卷积层的输入是上一个卷积层的输出,随后输入一个CBAM模块,实现特征重标定,最后输出特征矩阵。
3.根据权利要求1所述的融合注意力选择机制的CondenseNet算法,其特征在于:所述步骤二的具体方法为:在单个结构块中与每个结构块之间,每层网络采用稠密连接的方式;在单个结构块中,通过第1层特征变换层经过特征提取到的特征矩阵依次输入到第2个、第3个、第4个、一直到第n层特征变换层中;通过第2层特征变换层经过特征提取到的特征矩阵依次输入到第3个、第4个、第5个、一直到第n层特征变换层中,通过m个网络结构块的数据得到最终的特征矩阵。
4.根据权利要求1所述的融合注意力选择机制的CondenseNet算法,其特征在于:所述步骤三的具体方法为:首先,对最终特征矩阵进行全局平均池化,使用和最终特征矩阵大小一致的滤波器计算特征矩阵中数据的平均值;然后,输入全连接层,全连接层中每个神经元分别对全局平均池化后的特征矩阵中的数据进行非线性变换得到一维特征矩阵;最后,将一维特征矩阵输入softmax分类器进行分类。
5.根据权利要求1所述的融合注意力选择机制的CondenseNet算法,其特征在于:所述步骤三中计算此次网络训练的损失值的方法是:首先,计算每个类别j出现的概率p(y=j|x);然后用hθ(x)表示q个输出概率,则函数为:
Figure FDA0002353868930000021
其中,hθ(x)表示卷积神经网络的输出,i为样本序号,θ为模型参数,
Figure FDA0002353868930000022
为归一化因子;
最后使用交叉熵作为损失函数计算损失值,其表达式为:
Figure FDA0002353868930000031
其中
Figure FDA0002353868930000037
表示损失值,1{y(i)=j}表示当y(i)=j时值为1,否则为0,r为样本数。
6.根据权利要求1所述的融合注意力选择机制的CondenseNet算法,其特征在于:所述步骤四的具体方法为:首先,根据softmax分类器结果计算最后一层损失值并作为最后一层的误差项;然后,利用误差反向传播算法的链式法则计算各层误差项,第m个结构块的误差项等于第m+1个结构块的误差项乘以两者之间与卷积层相连的权重矩阵;
利用公式
Figure FDA0002353868930000032
计算对应隐藏层的梯度值,其中,J表示该层损失值,
Figure FDA0002353868930000033
表示第l层第j个特征矩阵到l层第i个特征矩阵的连接权重,
Figure FDA0002353868930000034
表示第l个卷积层的第j个特征矩阵的误差项,
Figure FDA0002353868930000035
表示第l-1层第i个特征矩阵。
7.根据权利要求1所述的融合注意力选择机制的CondenseNet算法,其特征在于:所述步骤五的具体方法为:首先,将分类结果和实际值比对并计算差值而作为损失值;然后将损失值和实现设定的分类阈值做比较,如小于分类阈值则判定网络收敛,否则不收敛;最后,如收敛输出网络结果,当判定为不收敛时,则根据步骤四中所得权值梯度调整卷积神经网络初始化参数按照以下公式更新权值梯度,并重新训练网络。
Figure FDA0002353868930000036
W(t+1)=W(t)+V(t+1)
式中t表示迭代次数,V(t)是动量项,μ为动量因子,它决定了历史权重修正量对本次权重修正的贡献大小;η为学习率;λ为权重衰减系数,W表示卷积神经网络初始化参数。
CN202010002106.0A 2020-01-02 2020-01-02 融合注意力选择机制的CondenseNet算法 Pending CN111160488A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010002106.0A CN111160488A (zh) 2020-01-02 2020-01-02 融合注意力选择机制的CondenseNet算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010002106.0A CN111160488A (zh) 2020-01-02 2020-01-02 融合注意力选择机制的CondenseNet算法

Publications (1)

Publication Number Publication Date
CN111160488A true CN111160488A (zh) 2020-05-15

Family

ID=70561174

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010002106.0A Pending CN111160488A (zh) 2020-01-02 2020-01-02 融合注意力选择机制的CondenseNet算法

Country Status (1)

Country Link
CN (1) CN111160488A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112180318A (zh) * 2020-09-28 2021-01-05 深圳大学 声源波达方向估计模型训练和声源波达方向估计方法
CN112216271A (zh) * 2020-10-11 2021-01-12 哈尔滨工程大学 一种基于卷积块注意机制的视听双模态语音识别方法
CN113554151A (zh) * 2021-07-07 2021-10-26 浙江工业大学 一种基于卷积层间关系的注意力机制方法
CN113570035A (zh) * 2021-07-07 2021-10-29 浙江工业大学 一种利用多层卷积层信息的注意力机制方法
WO2022100607A1 (zh) * 2020-11-13 2022-05-19 华为技术有限公司 一种神经网络结构确定方法及其装置
CN117574961A (zh) * 2024-01-15 2024-02-20 成都信息工程大学 一种将适配器注入预训练模型的参数高效化方法和装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112180318A (zh) * 2020-09-28 2021-01-05 深圳大学 声源波达方向估计模型训练和声源波达方向估计方法
CN112180318B (zh) * 2020-09-28 2023-06-27 深圳大学 声源波达方向估计模型训练和声源波达方向估计方法
CN112216271A (zh) * 2020-10-11 2021-01-12 哈尔滨工程大学 一种基于卷积块注意机制的视听双模态语音识别方法
CN112216271B (zh) * 2020-10-11 2022-10-14 哈尔滨工程大学 一种基于卷积块注意机制的视听双模态语音识别方法
WO2022100607A1 (zh) * 2020-11-13 2022-05-19 华为技术有限公司 一种神经网络结构确定方法及其装置
CN113554151A (zh) * 2021-07-07 2021-10-26 浙江工业大学 一种基于卷积层间关系的注意力机制方法
CN113570035A (zh) * 2021-07-07 2021-10-29 浙江工业大学 一种利用多层卷积层信息的注意力机制方法
CN113554151B (zh) * 2021-07-07 2024-03-22 浙江工业大学 一种基于卷积层间关系的注意力机制方法
CN113570035B (zh) * 2021-07-07 2024-04-16 浙江工业大学 一种利用多层卷积层信息的注意力机制方法
CN117574961A (zh) * 2024-01-15 2024-02-20 成都信息工程大学 一种将适配器注入预训练模型的参数高效化方法和装置
CN117574961B (zh) * 2024-01-15 2024-03-22 成都信息工程大学 一种将适配器注入预训练模型的参数高效化方法和装置

Similar Documents

Publication Publication Date Title
CN111160488A (zh) 融合注意力选择机制的CondenseNet算法
CN110472817B (zh) 一种结合深度神经网络的XGBoost集成信用评价系统及其方法
CN111696101A (zh) 一种基于SE-Inception的轻量级茄科病害识别方法
CN110766063B (zh) 基于压缩激励和紧密连接卷积神经网络的图像分类方法
CN112465120A (zh) 一种基于进化方法的快速注意力神经网络架构搜索方法
CN110135460B (zh) 基于vlad卷积模块的图像信息强化方法
CN112087447B (zh) 面向稀有攻击的网络入侵检测方法
CN112784913A (zh) 一种基于图神经网络融合多视图信息的miRNA-疾病关联预测方法及装置
CN112115967B (zh) 一种基于数据保护的图像增量学习方法
CN112464004A (zh) 一种多视角深度生成图像聚类方法
CN113159067A (zh) 一种基于多粒度局部特征软关联聚合的细粒度图像辨识方法及装置
CN113240683A (zh) 基于注意力机制的轻量化语义分割模型构建方法
CN116469561A (zh) 一种基于深度学习的乳腺癌生存预测方法
CN114566277A (zh) 一种基于联邦元学习的罕见疾病分类方法
Zhu et al. Loan default prediction based on convolutional neural network and LightGBM
CN117727464A (zh) 基于医疗多视图疾病预测模型的训练方法及设备
CN113011091A (zh) 一种自动分组的多尺度轻量型深度卷积神经网络优化方法
CN114265954B (zh) 基于位置与结构信息的图表示学习方法
CN115661498A (zh) 一种自优化单细胞聚类方法
CN115438784A (zh) 一种用于混合位宽超网络的充分训练方法
CN115348182A (zh) 一种基于深度堆栈自编码器的长期频谱预测方法
CN115062754A (zh) 一种基于优化胶囊的雷达目标识别方法
CN112465054A (zh) 一种基于fcn的多变量时间序列数据分类方法
CN114201118B (zh) 一种基于光盘库的存储方法及系统
CN114610950B (zh) 一种图网络节点表示方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200515

RJ01 Rejection of invention patent application after publication