CN112949841B - 一种基于Attention的CNN神经网络的行人重识别方法 - Google Patents

一种基于Attention的CNN神经网络的行人重识别方法 Download PDF

Info

Publication number
CN112949841B
CN112949841B CN202110519950.5A CN202110519950A CN112949841B CN 112949841 B CN112949841 B CN 112949841B CN 202110519950 A CN202110519950 A CN 202110519950A CN 112949841 B CN112949841 B CN 112949841B
Authority
CN
China
Prior art keywords
attention
channel
tensor
matrix
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110519950.5A
Other languages
English (en)
Other versions
CN112949841A (zh
Inventor
李学生
刘炜
徐奇伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Delu Power Technology Chengdu Co ltd
Original Assignee
Delu Power Technology Chengdu Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Delu Power Technology Chengdu Co ltd filed Critical Delu Power Technology Chengdu Co ltd
Priority to CN202110519950.5A priority Critical patent/CN112949841B/zh
Publication of CN112949841A publication Critical patent/CN112949841A/zh
Application granted granted Critical
Publication of CN112949841B publication Critical patent/CN112949841B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于Attention的CNN神经网络的训练方法。通过本发明,在行人重识别任务中,对Channel Attention和Spatial Attention进行融合,使两种Attention机制实现了深度并行计算:在计算Channel Attention的期间引入空间信息,同时在计算Spatial Attention的过程中加入通道信息。通过这种方式,提升了在图像分类问题上的准确率。以ResNet‑18结构为Baseline,通过此注意力机制方法,相较传统单Attention方法,准确率有0.3%的提升。

Description

一种基于Attention的CNN神经网络的行人重识别方法
技术领域
本发明涉及神经网络领域,尤其涉及一种基于Attention的CNN神经网络的行人重识别方法。
背景技术
传统的CV方向的神经网络通常由负责特征提取的主干网络Backbone、图像预处理和距离度量Metric等部分组成。Attention是神经网络中的一种优化方案。最初起源于NLP领域,后来逐渐被应用到CV方向。
SA的通常步骤为:对输入的三通道张量沿Channel维度进行Global AveragePooling,将三维张量压缩为二维平面张量TH,W。随后对TH,W做flatten运算,将其铺展为一个一维张量THW。通过一个或多个线性层(或全连接层,与线性层是同一概念的不同表述方式。下文都使用线性层)及激活函数(常取线性修正单元ReLU,双曲正切函数,或者Sigmoid函数)提取空间像素之间的非线性关系后,得到一个新的一维张量(T′)HW。该新张量通常是经过Sigmoid函数处理,每一个分量都在0到1之间的新张量。将该新的一维张量(T′)HWresize回二维,变成(T′)H,W后,与原本的特征图FC,H,W做点乘。称新张量(T′)H,W为此处得到的空间注意力描述矩阵。
CA的通常步骤为:对输入的三通道张量沿空间维度进行Global AveragePooling,将三维张量压缩为一维张量TC。随后TC通过一个或多个线性层及激活函数提取空间像素之间的非线性关系后,得到一个新的一维张量(T′)C。该新张量通常是经过Sigmoid函数处理,每一个分量都在0到1之间的新张量。将该新的一维张量与原本的特征图FC,H,W做点乘。称新张量(T′)C为此处得到的通道注意力描述向量。
但是,两种Attention模块都是直接将张量进行平均池化降维。这种处理方式直接抹杀了被收缩维度的特征分布信息。因而,GAP的降维方式中损失了一部分特征的分布信息。
发明内容
针对上述问题,本发明提供一种基于Attention的CNN神经网络的行人重识别方法,用于解决上述问题。
本发明通过以下技术方案实现:
一种基于Attention的CNN神经网络的行人重识别方法,包括以下步骤:
S1.创建两个权重矩阵
Figure GDA0003136669160000021
并通过遵从高斯分布的随机数对矩阵元素进行初始化,其中,所述
Figure GDA0003136669160000022
表示CWCA中的一个权重矩阵,矩阵高C行,宽
Figure GDA0003136669160000023
列;所述
Figure GDA0003136669160000024
表示CWSA中的一个权重矩阵,矩阵高H*W行,矩阵宽
Figure GDA0003136669160000025
列;其中,r表示衰减因子,H和W分别表示特征图的高和宽,所述r为正整数;
S2.创建一个CWCA模块和一个CWSA模块,其中,CWCA模块接收两个输入变量:FC,H,W
Figure GDA0003136669160000026
CWSA模块接收两个输入变量:FC,H,W
Figure GDA0003136669160000027
其中FC,H,W表示特征图,C、H和W分别表示特征图的通道数、高和宽,所述
Figure GDA0003136669160000028
表示CWCA中的一个权重矩阵,矩阵高C行,宽
Figure GDA0003136669160000029
列;所述
Figure GDA00031366691600000210
表示CWSA中的一个权重矩阵,矩阵高H*W行,矩阵宽
Figure GDA00031366691600000211
列;
S3.将用于特征提取的主干网络的FC,H,W和步骤S1中创建的两个权重矩阵对应输入至步骤S2创建的两个模块,得到两个模块的通道注意力值AC与空间注意力值AS,其中,通过调整,所述AC被调整为
Figure GDA00031366691600000212
所述AS被调整为
Figure GDA00031366691600000213
其中FC,H,W表示特征图,C、H和W分别表示特征图的通道数、高和宽,
Figure GDA00031366691600000214
表示,该通道注意力值是一个张量,该张量有4个维度,每个维度的尺寸分别为:B、C、1和1,
Figure GDA00031366691600000215
表示,该空间注意力值是一个张量,该张量有4个维度,每个维度的尺寸分别为B、1、H和W,其中B表示神经网络训练中一个训练批中所含的图像数量;
S4.将AC与AS与FC,H,W做点乘,得到新的特征图
Figure GDA00031366691600000216
S5.将
Figure GDA00031366691600000217
送入后续的网络中,继续进行训练;
S6.在一轮训练结束后,在反向传播中更新
Figure GDA00031366691600000218
Figure GDA00031366691600000219
S7.重复步骤S2,直至训练结束;
其中,所述创建一个CWCA模块和一个CWSA模块,具体为:将SA和CA中的GAP和FC互换位置,得到两个模块中各自产生的一个权重矩阵。
进一步的,所述步骤S2具体包括以下子步骤:
S201.计算GAP和FC,具体计算公式如下:
Figure GDA0003136669160000031
其中,所述H表示特征图的高,W表示特征图的宽,F表示卷积神经网络的特征图,i和i是求和操作所需要的序号,·表示“忽略”,即除了i,i之外的其他维度不需要操作;
FC(V)=WFCV=WFC(v1,v2,...,vn)T (2);
其中,所述T表示张量,WFC表示FC的权重矩阵,V表示向量,v表示向量的分量,v的下角标1,2,……,n表示向量V的第1,2,……,n维分量;
S202.将CA模块进行公式化,具体计算过程如下:
Figure GDA0003136669160000032
其中,CA()表示通道注意力机制算子,σ(T)表示Sigmoid函数,FC()表示线性层运算算子,ReLU()表示线性激活函数,GAP()表示二维全局平均池化算子,F是特征图,C表示特征图的通道数,W1是内层FC层的权重矩阵,W2是外层FC层的权重矩阵,H表示特征图的高度,W表示特征图宽度,C表示特征图通道数,Fi,j,k表示特征图上第k个通道上,高为i宽为j的点的值,i,j和k是求和操作所需要的序号,i对应高,j对应宽,k对应通道数,wk是第k个通道对应的权重,该处
Figure GDA0003136669160000033
是求平均数的过程;
S203.将GAP与FC运算交换,具体计算过程如下:
Figure GDA0003136669160000034
Figure GDA0003136669160000041
其中,所述CA()表示通道注意力机制算子,F表示特征图,σ(T)表示Sigmoid函数,W2是外层FC层的权重矩阵,ReLU()表示线性激活函数,C表示特征图的通道数,k是对通道进行加权求和时使用的序号,H表示特征图的高度,W表示特征图宽度,wk是第k个通道对应的权重,Fi,j,k表示特征图上第k个通道上,高为i宽为j的点的值;
S204.通过内层运算
Figure GDA0003136669160000042
得到空间上的激活映射图,用于指示该输入图像在空间上的响应情况,生成该响应情况的权重矩阵记为WCA
S205.通过省略Flatten以及Resize,得到简化的SA公式,其中,所述Flatten表示将张量展开为向量,所述Resize表示交换张量的维度、调整张量的结构,具体公式如下:
Figure GDA0003136669160000043
其中,SA()表示空间注意力机制算子,σ(T)表示Sigmoid函数,FC()表示线性层运算算子,ReLU()表示线性激活函数,GAP()表示一维全局平均池化算子,F是特征图,C表示特征图的通道数,W3是内层FC层的权重矩阵,W4是外层FC层的权重矩阵,H表示特征图的高度,W表示特征图宽度,C表示特征图通道数,Fi,k表示特征图上第k个通道上,坐标为i的点,i和k是求和操作所需要的序号,i对应被resize成一维向量的二维空间张量的某一个点i,k对应通道数,wi是第i个空间点对应的权重,该处
Figure GDA0003136669160000044
是求平均数的过程;
S206.将GAP与FC运算交换,具体计算公式如下:
Figure GDA0003136669160000045
其中,SA()表示空间注意力机制算子,σ(T)表示Sigmoid函数,ReLU()表示线性激活函数,C表示特征图的通道数,W4是外层FC层的权重矩阵,H表示特征图的高度,W表示特征图宽度,C表示特征图通道数,Fi,k表示特征图上第k个通道上,坐标为i的点,i和k是求和操作所需要的序号,i对应被resize成一维向量的二维空间张量的某一个点i,k对应通道数,wi是第i个空间点对应的权重;
S207.通过内层运算
Figure GDA0003136669160000051
得到通道上的激活映射图,用于指示该输入图像在通道上的响应情况;生成该响应情况的权重矩阵记为WSA
S208.通过用WCA和WSA,将空间注意力与通道注意力中的GAP修饰为加权平均,得到CWCA和CWSA。
进一步的,所述CWCA,具体公式如下:
Figure GDA0003136669160000052
其中,CWCA()是本发明所发明的交叉注意力机制的通道注意力机制模块,σ(T)表示Sigmoid函数,W2是外层FC层的权重矩阵,ReLU()表示线性激活函数,C表示特征图的通道数,H表示特征图的高度,W表示特征图宽度,C表示特征图通道数,Fi,j,k表示特征图上第k个通道上,高坐标为i,宽坐标为i的点,i和k是求和操作所需要的序号,i对应被resize成一维向量的二维空间张量的某一个点i,k对应通道数,wk是第k个通道的权重值,(wSA)i,j表示空间注意力权重矩阵WSA的第i行j列元。
进一步的,所述CWSA,具体公式如下:
Figure GDA0003136669160000053
其中,CWSA()是本发明所发明的交叉注意力机制的空间注意力机制模块,σ(T)表示Sigmoid函数,W4是外层FC层的权重矩阵,ReLU()表示线性激活函数,C表示特征图的通道数,H表示特征图的高度,W表示特征图宽度,Fi,k表示特征图上第k个通道,i对应被resize成一维向量的二维空间张量的某一个点i,wi是第i个点的权重值,(wCA)k表示通道注意力权重矩阵WCA的第k个通道的权重。
进一步的,所述SA由Attention-fusion,GAP,Conv2d,Sigmoid四层组成。
进一步的,所述CA由Attention-fusion,GAP,Conv2d,Sigmoid四层组成。
本发明的有益效果:通过本发明,在行人重识别任务中,对Channel Attention和Spatial Attention进行融合,使两种Attention机制实现了深度并行计算:在计算ChannelAttention的期间引入空间信息,同时在计算Spatial Attention的过程中加入通道信息。通过这种方式,提升了在图像分类问题上的准确率。以ResNet-18结构为Baseline,通过此注意力机制方法,相较传统单Attention方法,准确率有0.3%的提升。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的方法流程框图;
图2是本申请实施例提供的CV中Attention结构示意图;
图3是本申请实施例提供的CA模块的结构示意图;
图4是本申请实施例提供的CWA模块的结构示意图;
图5是本申请实施例提供的一种终端设备的结构示意图;
图6是本申请实施例提供的一种用于实现一种基于Attention的CNN神经网络的行人重识别方法的产品的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例1
如图1,本实施了提出了一种基于Attention的CNN神经网络的行人重识别方法,其特征在于,包括以下步骤:
S1.创建两个权重矩阵
Figure GDA0003136669160000061
并通过遵从高斯分布的随机数对矩阵元素进行初始化,其中,所述
Figure GDA0003136669160000062
表示CWCA中的一个权重矩阵,矩阵高C行,宽
Figure GDA0003136669160000063
列;所述
Figure GDA0003136669160000071
表示CWSA中的一个权重矩阵,矩阵高H*W行,矩阵宽
Figure GDA0003136669160000072
列;其中,r表示衰减因子,所述r为正整数;
S2.创建一个CWCA模块和一个CWSA模块,其中,CWCA模块接收两个输入变量:FC,H,W和
Figure GDA0003136669160000073
CWSA模块接收两个输入变量:FC,H,W
Figure GDA0003136669160000074
S3.将用于特征提取的主干网络的FC,H,W和步骤S1中创建的两个权重矩阵对应输入至步骤S2创建的两个模块,得到两个模块的通道注意力值AC与空间注意力值AS,其中,通过调整,所述AC被调整为
Figure GDA0003136669160000075
所述AS被调整为
Figure GDA0003136669160000076
S4.将AC与AS与FC,H,W做点乘,得到新的特征图
Figure GDA0003136669160000077
S5.将
Figure GDA0003136669160000078
送入后续的网络中,继续进行训练;
S6.在一轮训练结束后,在反向传播中更新
Figure GDA0003136669160000079
Figure GDA00031366691600000710
S7.重复步骤S2,直至训练结束;
其中,所述创建一个CWCA模块和一个CWSA模块,具体为:将SA和CA中的GAP和FC互换位置,得到两个模块中各自产生的一个权重矩阵。
进一步的,所述步骤S2具体包括以下子步骤:
S201.计算GAP和FC,具体计算公式如下:
Figure GDA00031366691600000711
其中,所述H表示特征图的高,W表示特征图的宽,F表示卷积神经网络的特征图,i和j是求和操作所需要的序号,·表示“忽略”,即除了i,j之外的其他维度不需要操作,公式(3)中的GAP(F)与公式(1)中的GAP(F)一致,所以公式(1)中通过·连表示公式(3)中的k;
FC(V)=WFCV=WFC(v1,v2,...,vn)T (2);
其中,所述T表示张量,WFC表示FC的权重矩阵,V表示向量,v表示向量的分量v的下角标1,2,……,n表示向量V的第1,2,……,n维分量;
S202.将CA模块进行公式化,具体计算过程如下:
Figure GDA0003136669160000081
其中,CA()表示通道注意力机制算子,σ(T)表示Sigmoid函数,FC()表示线性层运算算子,ReLU()表示线性激活函数,GAP()表示二维全局平均池化算子,F是特征图,C表示特征图的通道数,W1是内层FC层的权重矩阵,W2是外层FC层的权重矩阵,H表示特征图的高度,W表示特征图宽度,C表示特征图通道数,Fi,j,k表示特征图上第k个通道上,高为i宽为j的点的值,i,j和k是求和操作所需要的序号,i对应高,j对应宽,k对应通道数,wk是第k个通道对应的权重,该处
Figure GDA0003136669160000082
是求平均数的过程;
S203.将GAP与FC运算交换,具体计算过程如下:
Figure GDA0003136669160000083
其中,所述CA()表示通道注意力机制算子,F表示特征图,σ(T)表示Sigmoid函数,ReLU()表示线性激活函数,C表示特征图的通道数,k是对通道进行加权求和时使用的序号,H表示特征图的高度,W表示特征图宽度,wk是第k个通道对应的权重,Fi,j,k表示特征图上第k个通道上,高为i宽为j的点的值。
S204.通过内层运算
Figure GDA0003136669160000084
得到空间上的激活映射图,用于指示该输入图像在空间上的响应情况,生成该响应情况的权重矩阵记为WCA
S205.通过省略Flatten以及Resize,得到简化的SA公式,其中,所述Flatten表示将张量展开为向量,所述Resize表示交换张量的维度、调整张量的结构,具体公式如下:
Figure GDA0003136669160000085
Figure GDA0003136669160000091
其中,SA()表示空间注意力机制算子,σ(T)表示Sigmoid函数,FC()表示线性层运算算子,ReLU()表示线性激活函数,GAP()表示一维全局平均池化算子,F是特征图,C表示特征图的通道数,W3是内层FC层的权重矩阵,W4是外层FC层的权重矩阵,H表示特征图的高度,W表示特征图宽度,C表示特征图通道数,Fi,k表示特征图上第k个通道上,坐标为i的点,i和k是求和操作所需要的序号,i对应被resize成一维向量的二维空间张量的某一个点i,k对应通道数,Wi是第i个空间点对应的权重,该处
Figure GDA0003136669160000092
是求平均数的过程;
S206.将GAP与FC运算交换,具体计算公式如下:
Figure GDA0003136669160000093
其中,SA()表示空间注意力机制算子,σ(T)表示Sigmoid函数,ReLU()表示线性激活函数,C表示特征图的通道数,W4是外层FC层的权重矩阵,H表示特征图的高度,W表示特征图宽度,C表示特征图通道数,Fi,k表示特征图上第k个通道上,坐标为i的点,i和k是求和操作所需要的序号,i对应被resize成一维向量的二维空间张量的某一个点i,k对应通道数,wi是第i个空间点对应的权重;
S207.通过内层运算
Figure GDA0003136669160000094
得到通道上的激活映射图,用于指示该输入图像在通道上的响应情况;生成该响应情况的权重矩阵记为WSA
S208.通过用WCA和WSA,将空间注意力与通道注意力中的GAP修饰为加权平均,得到CWCA和CWSA。
进一步的,所述CWCA,具体公式如下:
Figure GDA0003136669160000095
其中,CWCA()是本发明所发明的交叉注意力机制的通道注意力机制模块,σ(T)表示Sigmoid函数,ReLU()表示线性激活函数,C表示特征图的通道数,H表示特征图的高度,W表示特征图宽度,C表示特征图通道数,Fi,j,k表示特征图上第k个通道上,高坐标为i,宽坐标为j的点,i和k是求和操作所需要的序号,i对应被resize成一维向量的二维空间张量的某一个点i,k对应通道数,wk是第k个通道的权重值,(wSA)i,j表示空间注意力权重矩阵WSA的第i行j列元。
进一步的,所述CWSA,具体公式如下:
Figure GDA0003136669160000101
其中,CWSA()是本发明所发明的交叉注意力机制的空间注意力机制模块,σ(T)表示Sigmoid函数,ReLU()表示线性激活函数,C表示特征图的通道数,H表示特征图的高度,W表示特征图宽度,Fi,k表示特征图上第k个通道,i对应被resize成一维向量的二维空间张量的某一个点i,wi是第i个点的权重值,(wCA)k表示通道注意力权重矩阵WCA的第k个通道的权重。
进一步的,所述SA由Attention-fusion,GAP,Conv2d,Sigmoid四层组成。
进一步的,所述CA由Attention-fusion,GAP,Conv2d,Sigmoid四层组成。
具体的,本实施例的具体实施原理流程如下:
传统的CV方向的神经网络通常由负责特征提取的主干网络Backbone、图像预处理和距离度量Metric等部分组成。Attention是神经网络中的一种优化方案。最初起源于NLP领域,后来逐渐被应用到CV方向。Attention在CV中,传统的应用方法有Spatial Attention(SA),以及Channel Attention(CA)两种常见形式。其中SA方式的网络结构如图2SpatialAttention Branch所示,CA方式的网络结构如图2Channel Attention Branch所示。
SA的通常步骤为:对输入的三通道张量沿Channel维度进行Global AveragePooling,将三维张量压缩为二维平面张量TH,W。随后对TH,W做flatten运算,将其铺展为一个一维张量THW。通过一个或多个线性层(或全连接层,与线性层是同一概念的不同表述方式。下文都使用线性层)及激活函数(常取线性修正单元ReLU,双曲正切函数,或者Sigmoid函数)提取空间像素之间的非线性关系后,得到一个新的一维张量(T′)HW。该新张量通常是经过Sigmoid函数处理,每一个分量都在0到1之间的新张量。将该新的一维张量(T′)HWresize回二维,变成(T′)H,W后,与原本的特征图FC,H,W做点乘。称新张量(T′)H,W为此处得到的空间注意力描述矩阵。
CA的通常步骤为:对输入的三通道张量沿空间维度进行Global AveragePooling,将三维张量压缩为一维张量TC。随后TC通过一个或多个线性层及激活函数提取空间像素之间的非线性关系后,得到一个新的一维张量(T′)C。该新张量通常是经过Sigmoid函数处理,每一个分量都在0到1之间的新张量。将该新的一维张量与原本的特征图FC,H,W做点乘。称新张量(T′)C为此处得到的通道注意力描述向量。
一步的,在SE中提出的Channel Attention网络结构(下称CA模块)如图3所示。通过图3得到,CA模块由5层组成:GAP,FC,ReLU,FC,Sigmoid组成。有GAP和FC直接相邻的设计。仿照CA模块可以设计出类似的SA模块。
一种神经网络可视化方法(CAM)中提出,线性层和池化层的运算本身都是线性运算,可交换。将两者交换,则可以得到神经网络的类激活映射图(Class ActivationMapping,CAM)。该图可反映,一张图像经过神经网络处理后,哪一部分的空间特征对图像分类的帮助更大。
观察CA模块与SA模块,在这两个Attention模块中,同样存在着Pooling和FC直接相邻的设计。因而就可以考虑,将SA和CA中的GAP和FC互换位置,得到两个模块中各自产生的一个权重矩阵。详细的数学推导如下所示:
GAP的计算公式为:
Figure GDA0003136669160000111
FC的计算公式为:FC(V)=WV=W(v1,v2,...,vn)T,则
Figure GDA0003136669160000112
Figure GDA0003136669160000113
因而,CA模块可以被公式化为:
Figure GDA0003136669160000114
Figure GDA0003136669160000121
参考CAM中的方法,将GAP与FC运算交换,得到:
Figure GDA0003136669160000122
则内层运算
Figure GDA0003136669160000123
将得到空间上的激活映射图,可以指示该输入图像在空间上的响应情况。生成该响应情况的权重矩阵记为WCA
类似的,SA模块可以被公式化为:
Figure GDA0003136669160000124
为了方便起见,省略Flatten以及Resize,则可得到简化的SA公式:
Figure GDA0003136669160000125
参考CAM中的方法,将GAP与FC运算交换,得到:
Figure GDA0003136669160000126
则内层运算将
Figure GDA0003136669160000127
得到通道上的激活映射图,可以指示该输入图像在通道上的响应情况。生成该响应情况的权重矩阵记为。
于是,可利用WCA和WSA,将空间注意力与通道注意力中的GAP修饰为加权平均,并将新得到的通道注意力机制命名为Cross Weighted Channel Attention module(CWCA),新得到的空间注意力机制命名为Cross Weighted Spatial Attention module(CWSA):
Figure GDA0003136669160000131
以及
Figure GDA0003136669160000132
上述模块为Cross Weighted Attention module(CWA)。CWA的结构示意图如图4所示。
本实施例的硬件环境:
GPU Nvidia GeForce RTX 2080Ti 1张,
软件环境:
Linux Ubuntu 18.04.2 LTS;
Python 3.6.5;
Pytorch 1.6.1;
Torchvision 0.7.0;
Backbone:ImageNet Pretrained ResNet-18;
Benchmark:CIFAR-10。
通过本实施例,在通用目标检测任务中,在CIFAR-10数据集上,准确率达到91.1%。相较于Baseline的90.4%,单独使用CA模块的90.7%,以及单独使用SA的90.9%来说,有最多可达0.7%的提升。
本实施例中用到的符号列表及缩写如下所述:
{x|f(x)}:满足约束条件f(x)的x的集合;
A:注意力权值张量;
B:一个batch的数量;
C:特征图的通道数;
H:特征图的高;
W:特征图的宽;
IC,H,W神经网络的维度为C,H,W三维度的图像张量;
F:卷积神经网络的特征图Feature map;
C′:输入图像通道数;
H′:输入图像高;
W′:输入图像的宽;
FC,H,W:通道数、高、宽为C,H,W的特征图;
x:图像上某一点的横坐标,
Figure GDA0003136669160000141
y:图像上某一点的纵坐标,
Figure GDA0003136669160000142
Flatten:将张量展开为向量;
Resize:交换张量的维度,或是调整张量的结构;
∑:求和;
Figure GDA0003136669160000143
维度为C的向量,每个分量用vi表示;
Re L U(T):线性激活函数;
σ(T):Sigmoid函数;
T:张量;
O:函数输出/神经网络某一层的输出;
W:权重矩阵;
Figure GDA0003136669160000144
CWSA中的一个权重矩阵,矩阵高H*W行,宽
Figure GDA0003136669160000145
列;
r:注意力模块中的衰减因子,是个正整数,通常取1、2、4或者8;
Figure GDA0003136669160000146
CWCA中的一个权重矩阵,矩阵高C行,宽
Figure GDA0003136669160000147
列;
i,j,k:序号标志;
CA:通道注意力Channel Attention;
SA:空间注意力Spatial Attention;
CAM:类激活映射Class Activation Mapping;
GAP:全局平均池化,Global Average Pooling;
GMP:全局最大池化,Global Max Pooling;
CWA:交叉加权注意力机制,Cross Weighted Attention;
FC:线性层、全连接层,Full Connection;
CV:计算机视觉,Computer Vision;
NLP:自然语言处理,NaturalLanguage Processing;
规定大写字母表示一个张量或一个向量,如张量T,向量V。小写字母表示张量或向量的一个分量,如v是向量V的分量,而小写字母的下角标表示其坐标信息,如vi表示向量V的第i个分量。
一个变量的上角标Tb表示该变量的维度信息,下角标表示其名字,如
Figure GDA0003136669160000151
表示,权重矩阵W是SA模块的第一个权重矩阵,是一个HW*HW维度的二维张量。HW,HW表示二维张量的两个维度;r表示在权重矩阵中需要的衰减因子。
如果存在一个模块名为M,则用该模块处理输入变量T记为M(T)。
标量是零维张量,向量是一维张量,矩阵是二维张量,输入图像是三维张量,神经网络的一个mini-batch是四维张量。当谈论张量的一般运算性质时使用“张量”进行描述,而当涉及到矩阵运算及性质时,通常使用“矩阵”或者“权重矩阵”描述。
实施例2
本实施例提出一种基于Attention的CNN神经网络的行人重识别的终端设备,如图5,终端设备200包括至少一个存储器210、至少一个处理器220以及连接不同平台系统的总线230。
存储器210可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)211和/或高速缓存存储器212,还可以进一步包括只读存储器(ROM)213。
其中,存储器210还存储有计算机程序,计算机程序可以被处理器220执行,使得处理器220执行本申请实施例中上述任一项一种基于Attention的CNN神经网络的行人重识别方法,其具体实现方式与上述实施例中记载的实施方式、所达到的技术效果一致,部分内容不再赘述。存储器210还可以包括具有一组(至少一个)程序模块215的程序/实用工具214,这样的程序模块包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
相应的,处理器220可以执行上述计算机程序,以及可以执行程序/实用工具214。
总线230可以为表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。
终端设备200也可以与一个或多个外部设备240例如键盘、指向设备、蓝牙设备等通信,还可与一个或者多个能够与该终端设备200交互的设备通信,和/或与使得该终端设备200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口250进行。并且,终端设备200还可以通过网络适配器260与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器260可以通过总线230与终端设备200的其它模块通信。应当明白,尽管图中未示出,可以结合终端设备200使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。
实施例3
本实施例提出一种基于Attention的CNN神经网络的行人重识别的计算机可读存储介质,所述计算机可读存储介质上存储有指令,该指令被处理器执行时实现上述任一的一种基于Attention的CNN神经网络的行人重识别方法。其具体实现方式与上述实施例中记载的实施方式、所达到的技术效果一致,部分内容不再赘述。
图6示出了本实施例提供的用于实现上述方法的程序产品300,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品300不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。程序产品300可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,程序设计语言包括面向对象的程序设计语言诸如Java、C++等,还包括常规的过程式程序设计语言诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
本申请从使用目的上,效能上,进步及新颖性等观点进行阐述,其设置有的实用进步性,已符合专利法所强调的功能增进及使用要件,本申请以上的说明及附图,仅为本申请的较佳实施例而已,并非以此局限本申请,因此,凡一切与本申请构造,装置,特征等近似、雷同的,即凡依本申请专利申请范围所作的等同替换或修饰等,皆应属本申请的专利申请保护的范围之内。

Claims (6)

1.一种基于Attention的CNN神经网络的行人重识别方法,其特征在于,行人重识别任务中,对CA和SA进行融合,使两种Attention机制进行深度并行计算:在计算CA的期间引入空间信息,同时在计算SA的过程中加入通道信息,其中,具体包括以下步骤:
S1.创建两个权重矩阵
Figure FDA0003735296390000011
并通过遵从高斯分布的随机数对矩阵元素进行初始化,其中,所述
Figure FDA0003735296390000012
表示CWCA中的一个权重矩阵,矩阵高C行,宽
Figure FDA0003735296390000013
列;所述
Figure FDA0003735296390000014
表示CWSA中的一个权重矩阵,矩阵高H*W行,矩阵宽
Figure FDA0003735296390000015
列;其中,r表示衰减因子,C、H和W分别表示特征图的通道数、高和宽,所述r为正整数,CA表示通道注意力机制算子,SA表示空间注意力机制算子,CWCA表示交叉注意力机制的通道注意力机制模块,CWSA表示交叉注意力机制的空间注意力机制模块;
S2.创建一个CWCA模块和一个CWSA模块,其中,CWCA模块接收两个输入变量:FC,H,W
Figure FDA0003735296390000016
CWSA模块接收两个输入变量:FC,H,W
Figure FDA0003735296390000017
其中FC,H,W表示特征图,所述
Figure FDA0003735296390000018
为通过内层运算
Figure FDA0003735296390000019
得到空间上的激活映射图,用于指示输入图像在空间上的响应情况,通过激活映射图,得到对图像分类帮助更大的空间特征;矩阵高C行,宽
Figure FDA00037352963900000110
列,所述
Figure FDA00037352963900000111
为通过内层运算
Figure FDA00037352963900000112
得到通道上的激活映射图,用于指示输入图像在通道上的响应情况,通过激活映射图,得到对图像分类帮助更大的空间特征,矩阵高H*W行,矩阵宽
Figure FDA00037352963900000113
列;所述wk是第k个通道对应的权重,Fi,j,k表示特征图上第k个通道上,高为i宽为j的点的值;Fi,k表示特征图上第k个通道上,坐标为i的点;
S3.将用于特征提取的主干网络的FC,H,W和步骤S1中创建的两个权重矩阵对应输入至步骤S2创建的两个模块,得到两个模块的通道注意力值AC与空间注意力值AS,其中,通过调整,所述AC被调整为
Figure FDA00037352963900000114
所述AS被调整为
Figure FDA00037352963900000115
Figure FDA00037352963900000116
表示通道注意力值是一个张量,张量有4个维度,每个维度的尺寸分别为:B、C、1和1,
Figure FDA00037352963900000117
表示空间注意力值是一个张量,张量有4个维度,每个维度的尺寸分别为B、1、H和W,其中B表示神经网络训练中一个训练批中所含的图像数量;
S4.将AC与AS与FC,H,W做点乘,得到新的特征图
Figure FDA0003735296390000021
S5.将
Figure FDA0003735296390000022
送入后续的网络中,继续进行训练;
S6.在一轮训练结束后,在反向传播中更新
Figure FDA0003735296390000023
Figure FDA0003735296390000024
S7.重复步骤S2,直至训练结束;
其中,所述创建一个CWCA模块和一个CWSA模块,具体为:将SA和CA中的GAP和FC互换位置,得到两个模块中各自产生的一个权重矩阵。
2.根据权利要求1所述的一种基于Attention的CNN神经网络的行人重识别方法,其特征在于,所述步骤S2具体包括以下子步骤:
S201.计算GAP和FC,具体计算公式如下:
Figure FDA0003735296390000025
其中,所述H表示特征图的高,W表示特征图的宽,F表示卷积神经网络的特征图,i和j是求和操作所需要的序号,·表示“忽略”,即除了i,j之外的其他维度不需要操作,用于表达更一般的情况,通过·代替第三维度和可能存在的更多维度;
FC(V)=WFCV=WFC(v1,v2,...,vn)T (2);
其中,所述T表示张量,WFC表示FC的权重矩阵,V表示向量,v表示向量的分量,v的下角标1,2,……,n表示向量V的第1,2,……,n维分量;
S202.将CA模块进行公式化,具体计算过程如下:
Figure FDA0003735296390000026
Figure FDA0003735296390000031
其中,CA()表示通道注意力机制算子,σ(T)表示Sigmoid函数,FC()表示线性层运算算子,ReLU()表示线性激活函数,GAP()表示二维全局平均池化算子,F是特征图,W1是内层FC层的权重矩阵,W2是外层FC层的权重矩阵,i,j和k是求和操作所需要的序号,i对应高,j对应宽,k对应通道数,wk是第k个通道对应的权重,
Figure FDA0003735296390000032
是求平均数的过程;
S203.将GAP与FC运算交换,具体计算过程如下:
Figure FDA0003735296390000033
S204.通过内层运算
Figure FDA0003735296390000034
得到空间上的激活映射图,用于指示输入图像在空间上的响应情况,生成响应情况的权重矩阵记为WCA
S205.通过省略Flatten以及Resize,得到简化的SA公式,其中,所述Flatten表示将张量展开为向量,所述Resize表示交换张量的维度、调整张量的结构,具体公式如下:
Figure FDA0003735296390000035
其中,SA()表示空间注意力机制算子,W3是内层FC层的权重矩阵,W4是外层FC层的权重矩阵,i和k是求和操作所需要的序号,i对应被resize成一维向量的二维空间张量的某一个点i,k对应通道数,wi是第i个空间点对应的权重,
Figure FDA0003735296390000036
是求平均数的过程;
S206.将GAP与FC运算交换,具体计算公式如下:
Figure FDA0003735296390000037
S207.通过内层运算
Figure FDA0003735296390000041
得到通道上的激活映射图,用于指示输入图像在通道上的响应情况;生成响应情况的权重矩阵记为WSA
S208.通过用WCA和WSA,将空间注意力与通道注意力中的GAP修饰为加权平均,得到CWCA和CWSA。
3.根据权利要求1或2所述的一种基于Attention的CNN神经网络的行人重识别方法,其特征在于,所述CWCA,具体公式如下:
Figure FDA0003735296390000042
其中,CWCA()表示交叉注意力机制的通道注意力机制模块,(wSA)i,j表示空间注意力权重矩阵WSA的第i行j列元。
4.根据权利要求1或2所述的一种基于Attention的CNN神经网络的行人重识别方法,其特征在于,所述CWSA,具体公式如下:
Figure FDA0003735296390000043
其中,CWSA()表示交叉注意力机制的空间注意力机制模块,(WCA)k表示通道注意力权重矩阵WCA的第k个通道的权重。
5.根据权利要求1所述的一种基于Attention的CNN神经网络的行人重识别方法,其特征在于,所述SA由Attention-fusion,GAP,Conv2d,Sigmoid四层组成。
6.根据权利要求1所述的一种基于Attention的CNN神经网络的行人重识别方法,其特征在于,所述CA由Attention-fusion,GAP,Conv2d,Sigmoid四层组成。
CN202110519950.5A 2021-05-13 2021-05-13 一种基于Attention的CNN神经网络的行人重识别方法 Active CN112949841B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110519950.5A CN112949841B (zh) 2021-05-13 2021-05-13 一种基于Attention的CNN神经网络的行人重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110519950.5A CN112949841B (zh) 2021-05-13 2021-05-13 一种基于Attention的CNN神经网络的行人重识别方法

Publications (2)

Publication Number Publication Date
CN112949841A CN112949841A (zh) 2021-06-11
CN112949841B true CN112949841B (zh) 2022-08-16

Family

ID=76233799

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110519950.5A Active CN112949841B (zh) 2021-05-13 2021-05-13 一种基于Attention的CNN神经网络的行人重识别方法

Country Status (1)

Country Link
CN (1) CN112949841B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023042377A1 (ja) * 2021-09-17 2023-03-23 日本電信電話株式会社 学習装置、変換装置、学習方法及びプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020244774A1 (en) * 2019-06-07 2020-12-10 Leica Microsystems Cms Gmbh A system and method for training machine-learning algorithms for processing biology-related data, a microscope and a trained machine learning algorithm
AU2020103715A4 (en) * 2020-11-27 2021-02-11 Beijing University Of Posts And Telecommunications Method of monocular depth estimation based on joint self-attention mechanism
CN112489098A (zh) * 2020-12-09 2021-03-12 福建农林大学 一种基于空间通道注意力机制神经网络的图像匹配方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9965705B2 (en) * 2015-11-03 2018-05-08 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (ABC-CNN) for visual question answering
US10089556B1 (en) * 2017-06-12 2018-10-02 Konica Minolta Laboratory U.S.A., Inc. Self-attention deep neural network for action recognition in surveillance videos
CN109544524B (zh) * 2018-11-15 2023-05-23 中共中央办公厅电子科技学院 一种基于注意力机制的多属性图像美学评价系统
CN110070073A (zh) * 2019-05-07 2019-07-30 国家广播电视总局广播电视科学研究院 基于注意力机制的全局特征和局部特征的行人再识别方法
US11361470B2 (en) * 2019-05-09 2022-06-14 Sri International Semantically-aware image-based visual localization
JP7542802B2 (ja) * 2019-07-25 2024-09-02 学校法人中部大学 ニューラルネットワークを用いた画像認識装置および画像認識装置に用いられるプログラム
CN110610129A (zh) * 2019-08-05 2019-12-24 华中科技大学 一种基于自注意力机制的深度学习人脸识别系统及方法
CN110991362A (zh) * 2019-12-06 2020-04-10 西安电子科技大学 一种基于注意力机制的行人检测模型
CN111553205B (zh) * 2020-04-12 2022-11-15 西安电子科技大学 无车牌信息车辆重识别方法、系统、介质、视频监控系统
CN111639692B (zh) * 2020-05-25 2022-07-22 南京邮电大学 一种基于注意力机制的阴影检测方法
CN112307958B (zh) * 2020-10-30 2023-06-23 河北工业大学 基于时空外观运动注意力网络的微表情识别方法
CN112733590A (zh) * 2020-11-06 2021-04-30 哈尔滨理工大学 一种基于二阶混合注意力的行人重识别方法
CN112200161B (zh) * 2020-12-03 2021-03-02 北京电信易通信息技术股份有限公司 一种基于混合注意力机制的人脸识别检测方法
CN112766279B (zh) * 2020-12-31 2023-04-07 中国船舶重工集团公司第七0九研究所 一种基于联合注意力机制的图像特征提取方法
CN112784764B (zh) * 2021-01-27 2022-07-12 南京邮电大学 一种基于局部与全局注意力机制的表情识别方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020244774A1 (en) * 2019-06-07 2020-12-10 Leica Microsystems Cms Gmbh A system and method for training machine-learning algorithms for processing biology-related data, a microscope and a trained machine learning algorithm
AU2020103715A4 (en) * 2020-11-27 2021-02-11 Beijing University Of Posts And Telecommunications Method of monocular depth estimation based on joint self-attention mechanism
CN112489098A (zh) * 2020-12-09 2021-03-12 福建农林大学 一种基于空间通道注意力机制神经网络的图像匹配方法

Also Published As

Publication number Publication date
CN112949841A (zh) 2021-06-11

Similar Documents

Publication Publication Date Title
US11501415B2 (en) Method and system for high-resolution image inpainting
CN101253493B (zh) 在图形处理单元上训练卷积神经网络
CN107622302B (zh) 用于卷积神经网络的超像素方法
CN108280451B (zh) 语义分割及网络训练方法和装置、设备、介质
CN110163205B (zh) 图像处理方法、装置、介质和计算设备
Zheng Gradient descent algorithms for quantile regression with smooth approximation
WO2020074989A1 (en) Data representation for dynamic precision in neural network cores
CN112446888B (zh) 图像分割模型的处理方法和处理装置
CN112990219A (zh) 用于图像语义分割的方法和装置
CN112949841B (zh) 一种基于Attention的CNN神经网络的行人重识别方法
CN112883818A (zh) 文本图像识别方法、系统、设备及存储介质
CN115937409A (zh) 反视觉智能的对抗攻击纹理生成方法
CN115115784A (zh) 一种三维人脸重建模型训练方法、系统及可读存储介质
US10824920B2 (en) Method and apparatus for recognizing video fine granularity, computer device and storage medium
CN110580726A (zh) 基于动态卷积网络的自然场景下人脸素描生成模型及方法
CN114092773A (zh) 信号处理方法、信号处理装置、电子设备及存储介质
CN111340182B (zh) 一种输入特征逼近的低复杂度cnn训练方法与装置
CN117593616A (zh) 基于广谱相关性融合网络的目标跟踪方法、装置、设备
US20240233073A9 (en) Method, device, and computer program product for image processing
EP4220557A1 (en) Method and computer program product for determining a pose of a body model in 3d space
CN114359905B (zh) 一种文本识别方法、装置、电子设备及存储介质
US20210256388A1 (en) Machine-Learned Models Featuring Matrix Exponentiation Layers
CN114581676B (zh) 特征图像的处理方法、装置和存储介质
US20230117227A1 (en) High-dimensional transfer learning
CN115082295B (zh) 一种基于自注意力机制的图像编辑方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant