CN112949841B - 一种基于Attention的CNN神经网络的行人重识别方法 - Google Patents
一种基于Attention的CNN神经网络的行人重识别方法 Download PDFInfo
- Publication number
- CN112949841B CN112949841B CN202110519950.5A CN202110519950A CN112949841B CN 112949841 B CN112949841 B CN 112949841B CN 202110519950 A CN202110519950 A CN 202110519950A CN 112949841 B CN112949841 B CN 112949841B
- Authority
- CN
- China
- Prior art keywords
- attention
- channel
- tensor
- matrix
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 32
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 21
- 230000007246 mechanism Effects 0.000 claims abstract description 36
- 238000004364 calculation method Methods 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 14
- 239000011159 matrix material Substances 0.000 claims description 81
- 230000006870 function Effects 0.000 claims description 41
- 230000004913 activation Effects 0.000 claims description 35
- 238000010586 diagram Methods 0.000 claims description 30
- 239000013598 vector Substances 0.000 claims description 30
- 230000004044 response Effects 0.000 claims description 18
- 238000013507 mapping Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 15
- 238000012935 Averaging Methods 0.000 claims description 7
- 238000009826 distribution Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 5
- 230000003213 activating effect Effects 0.000 claims 1
- 238000003860 storage Methods 0.000 description 13
- 238000011176 pooling Methods 0.000 description 12
- 238000003058 natural language processing Methods 0.000 description 5
- 238000005303 weighing Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012937 correction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000010304 firing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- -1 tensor T Substances 0.000 description 1
- 238000007794 visualization technique Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于Attention的CNN神经网络的训练方法。通过本发明,在行人重识别任务中,对Channel Attention和Spatial Attention进行融合,使两种Attention机制实现了深度并行计算:在计算Channel Attention的期间引入空间信息,同时在计算Spatial Attention的过程中加入通道信息。通过这种方式,提升了在图像分类问题上的准确率。以ResNet‑18结构为Baseline,通过此注意力机制方法,相较传统单Attention方法,准确率有0.3%的提升。
Description
技术领域
本发明涉及神经网络领域,尤其涉及一种基于Attention的CNN神经网络的行人重识别方法。
背景技术
传统的CV方向的神经网络通常由负责特征提取的主干网络Backbone、图像预处理和距离度量Metric等部分组成。Attention是神经网络中的一种优化方案。最初起源于NLP领域,后来逐渐被应用到CV方向。
SA的通常步骤为:对输入的三通道张量沿Channel维度进行Global AveragePooling,将三维张量压缩为二维平面张量TH,W。随后对TH,W做flatten运算,将其铺展为一个一维张量THW。通过一个或多个线性层(或全连接层,与线性层是同一概念的不同表述方式。下文都使用线性层)及激活函数(常取线性修正单元ReLU,双曲正切函数,或者Sigmoid函数)提取空间像素之间的非线性关系后,得到一个新的一维张量(T′)HW。该新张量通常是经过Sigmoid函数处理,每一个分量都在0到1之间的新张量。将该新的一维张量(T′)HWresize回二维,变成(T′)H,W后,与原本的特征图FC,H,W做点乘。称新张量(T′)H,W为此处得到的空间注意力描述矩阵。
CA的通常步骤为:对输入的三通道张量沿空间维度进行Global AveragePooling,将三维张量压缩为一维张量TC。随后TC通过一个或多个线性层及激活函数提取空间像素之间的非线性关系后,得到一个新的一维张量(T′)C。该新张量通常是经过Sigmoid函数处理,每一个分量都在0到1之间的新张量。将该新的一维张量与原本的特征图FC,H,W做点乘。称新张量(T′)C为此处得到的通道注意力描述向量。
但是,两种Attention模块都是直接将张量进行平均池化降维。这种处理方式直接抹杀了被收缩维度的特征分布信息。因而,GAP的降维方式中损失了一部分特征的分布信息。
发明内容
针对上述问题,本发明提供一种基于Attention的CNN神经网络的行人重识别方法,用于解决上述问题。
本发明通过以下技术方案实现:
一种基于Attention的CNN神经网络的行人重识别方法,包括以下步骤:
S1.创建两个权重矩阵并通过遵从高斯分布的随机数对矩阵元素进行初始化,其中,所述表示CWCA中的一个权重矩阵,矩阵高C行,宽列;所述表示CWSA中的一个权重矩阵,矩阵高H*W行,矩阵宽列;其中,r表示衰减因子,H和W分别表示特征图的高和宽,所述r为正整数;
S2.创建一个CWCA模块和一个CWSA模块,其中,CWCA模块接收两个输入变量:FC,H,W和CWSA模块接收两个输入变量:FC,H,W和其中FC,H,W表示特征图,C、H和W分别表示特征图的通道数、高和宽,所述表示CWCA中的一个权重矩阵,矩阵高C行,宽列;所述表示CWSA中的一个权重矩阵,矩阵高H*W行,矩阵宽列;
S3.将用于特征提取的主干网络的FC,H,W和步骤S1中创建的两个权重矩阵对应输入至步骤S2创建的两个模块,得到两个模块的通道注意力值AC与空间注意力值AS,其中,通过调整,所述AC被调整为所述AS被调整为其中FC,H,W表示特征图,C、H和W分别表示特征图的通道数、高和宽,表示,该通道注意力值是一个张量,该张量有4个维度,每个维度的尺寸分别为:B、C、1和1,表示,该空间注意力值是一个张量,该张量有4个维度,每个维度的尺寸分别为B、1、H和W,其中B表示神经网络训练中一个训练批中所含的图像数量;
S7.重复步骤S2,直至训练结束;
其中,所述创建一个CWCA模块和一个CWSA模块,具体为:将SA和CA中的GAP和FC互换位置,得到两个模块中各自产生的一个权重矩阵。
进一步的,所述步骤S2具体包括以下子步骤:
S201.计算GAP和FC,具体计算公式如下:
其中,所述H表示特征图的高,W表示特征图的宽,F表示卷积神经网络的特征图,i和i是求和操作所需要的序号,·表示“忽略”,即除了i,i之外的其他维度不需要操作;
FC(V)=WFCV=WFC(v1,v2,...,vn)T (2);
其中,所述T表示张量,WFC表示FC的权重矩阵,V表示向量,v表示向量的分量,v的下角标1,2,……,n表示向量V的第1,2,……,n维分量;
S202.将CA模块进行公式化,具体计算过程如下:
其中,CA()表示通道注意力机制算子,σ(T)表示Sigmoid函数,FC()表示线性层运算算子,ReLU()表示线性激活函数,GAP()表示二维全局平均池化算子,F是特征图,C表示特征图的通道数,W1是内层FC层的权重矩阵,W2是外层FC层的权重矩阵,H表示特征图的高度,W表示特征图宽度,C表示特征图通道数,Fi,j,k表示特征图上第k个通道上,高为i宽为j的点的值,i,j和k是求和操作所需要的序号,i对应高,j对应宽,k对应通道数,wk是第k个通道对应的权重,该处是求平均数的过程;
S203.将GAP与FC运算交换,具体计算过程如下:
其中,所述CA()表示通道注意力机制算子,F表示特征图,σ(T)表示Sigmoid函数,W2是外层FC层的权重矩阵,ReLU()表示线性激活函数,C表示特征图的通道数,k是对通道进行加权求和时使用的序号,H表示特征图的高度,W表示特征图宽度,wk是第k个通道对应的权重,Fi,j,k表示特征图上第k个通道上,高为i宽为j的点的值;
S205.通过省略Flatten以及Resize,得到简化的SA公式,其中,所述Flatten表示将张量展开为向量,所述Resize表示交换张量的维度、调整张量的结构,具体公式如下:
其中,SA()表示空间注意力机制算子,σ(T)表示Sigmoid函数,FC()表示线性层运算算子,ReLU()表示线性激活函数,GAP()表示一维全局平均池化算子,F是特征图,C表示特征图的通道数,W3是内层FC层的权重矩阵,W4是外层FC层的权重矩阵,H表示特征图的高度,W表示特征图宽度,C表示特征图通道数,Fi,k表示特征图上第k个通道上,坐标为i的点,i和k是求和操作所需要的序号,i对应被resize成一维向量的二维空间张量的某一个点i,k对应通道数,wi是第i个空间点对应的权重,该处是求平均数的过程;
S206.将GAP与FC运算交换,具体计算公式如下:
其中,SA()表示空间注意力机制算子,σ(T)表示Sigmoid函数,ReLU()表示线性激活函数,C表示特征图的通道数,W4是外层FC层的权重矩阵,H表示特征图的高度,W表示特征图宽度,C表示特征图通道数,Fi,k表示特征图上第k个通道上,坐标为i的点,i和k是求和操作所需要的序号,i对应被resize成一维向量的二维空间张量的某一个点i,k对应通道数,wi是第i个空间点对应的权重;
S208.通过用WCA和WSA,将空间注意力与通道注意力中的GAP修饰为加权平均,得到CWCA和CWSA。
进一步的,所述CWCA,具体公式如下:
其中,CWCA()是本发明所发明的交叉注意力机制的通道注意力机制模块,σ(T)表示Sigmoid函数,W2是外层FC层的权重矩阵,ReLU()表示线性激活函数,C表示特征图的通道数,H表示特征图的高度,W表示特征图宽度,C表示特征图通道数,Fi,j,k表示特征图上第k个通道上,高坐标为i,宽坐标为i的点,i和k是求和操作所需要的序号,i对应被resize成一维向量的二维空间张量的某一个点i,k对应通道数,wk是第k个通道的权重值,(wSA)i,j表示空间注意力权重矩阵WSA的第i行j列元。
进一步的,所述CWSA,具体公式如下:
其中,CWSA()是本发明所发明的交叉注意力机制的空间注意力机制模块,σ(T)表示Sigmoid函数,W4是外层FC层的权重矩阵,ReLU()表示线性激活函数,C表示特征图的通道数,H表示特征图的高度,W表示特征图宽度,Fi,k表示特征图上第k个通道,i对应被resize成一维向量的二维空间张量的某一个点i,wi是第i个点的权重值,(wCA)k表示通道注意力权重矩阵WCA的第k个通道的权重。
进一步的,所述SA由Attention-fusion,GAP,Conv2d,Sigmoid四层组成。
进一步的,所述CA由Attention-fusion,GAP,Conv2d,Sigmoid四层组成。
本发明的有益效果:通过本发明,在行人重识别任务中,对Channel Attention和Spatial Attention进行融合,使两种Attention机制实现了深度并行计算:在计算ChannelAttention的期间引入空间信息,同时在计算Spatial Attention的过程中加入通道信息。通过这种方式,提升了在图像分类问题上的准确率。以ResNet-18结构为Baseline,通过此注意力机制方法,相较传统单Attention方法,准确率有0.3%的提升。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的方法流程框图;
图2是本申请实施例提供的CV中Attention结构示意图;
图3是本申请实施例提供的CA模块的结构示意图;
图4是本申请实施例提供的CWA模块的结构示意图;
图5是本申请实施例提供的一种终端设备的结构示意图;
图6是本申请实施例提供的一种用于实现一种基于Attention的CNN神经网络的行人重识别方法的产品的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例1
如图1,本实施了提出了一种基于Attention的CNN神经网络的行人重识别方法,其特征在于,包括以下步骤:
S1.创建两个权重矩阵并通过遵从高斯分布的随机数对矩阵元素进行初始化,其中,所述表示CWCA中的一个权重矩阵,矩阵高C行,宽列;所述表示CWSA中的一个权重矩阵,矩阵高H*W行,矩阵宽列;其中,r表示衰减因子,所述r为正整数;
S3.将用于特征提取的主干网络的FC,H,W和步骤S1中创建的两个权重矩阵对应输入至步骤S2创建的两个模块,得到两个模块的通道注意力值AC与空间注意力值AS,其中,通过调整,所述AC被调整为所述AS被调整为
S7.重复步骤S2,直至训练结束;
其中,所述创建一个CWCA模块和一个CWSA模块,具体为:将SA和CA中的GAP和FC互换位置,得到两个模块中各自产生的一个权重矩阵。
进一步的,所述步骤S2具体包括以下子步骤:
S201.计算GAP和FC,具体计算公式如下:
其中,所述H表示特征图的高,W表示特征图的宽,F表示卷积神经网络的特征图,i和j是求和操作所需要的序号,·表示“忽略”,即除了i,j之外的其他维度不需要操作,公式(3)中的GAP(F)与公式(1)中的GAP(F)一致,所以公式(1)中通过·连表示公式(3)中的k;
FC(V)=WFCV=WFC(v1,v2,...,vn)T (2);
其中,所述T表示张量,WFC表示FC的权重矩阵,V表示向量,v表示向量的分量v的下角标1,2,……,n表示向量V的第1,2,……,n维分量;
S202.将CA模块进行公式化,具体计算过程如下:
其中,CA()表示通道注意力机制算子,σ(T)表示Sigmoid函数,FC()表示线性层运算算子,ReLU()表示线性激活函数,GAP()表示二维全局平均池化算子,F是特征图,C表示特征图的通道数,W1是内层FC层的权重矩阵,W2是外层FC层的权重矩阵,H表示特征图的高度,W表示特征图宽度,C表示特征图通道数,Fi,j,k表示特征图上第k个通道上,高为i宽为j的点的值,i,j和k是求和操作所需要的序号,i对应高,j对应宽,k对应通道数,wk是第k个通道对应的权重,该处是求平均数的过程;
S203.将GAP与FC运算交换,具体计算过程如下:
其中,所述CA()表示通道注意力机制算子,F表示特征图,σ(T)表示Sigmoid函数,ReLU()表示线性激活函数,C表示特征图的通道数,k是对通道进行加权求和时使用的序号,H表示特征图的高度,W表示特征图宽度,wk是第k个通道对应的权重,Fi,j,k表示特征图上第k个通道上,高为i宽为j的点的值。
S205.通过省略Flatten以及Resize,得到简化的SA公式,其中,所述Flatten表示将张量展开为向量,所述Resize表示交换张量的维度、调整张量的结构,具体公式如下:
其中,SA()表示空间注意力机制算子,σ(T)表示Sigmoid函数,FC()表示线性层运算算子,ReLU()表示线性激活函数,GAP()表示一维全局平均池化算子,F是特征图,C表示特征图的通道数,W3是内层FC层的权重矩阵,W4是外层FC层的权重矩阵,H表示特征图的高度,W表示特征图宽度,C表示特征图通道数,Fi,k表示特征图上第k个通道上,坐标为i的点,i和k是求和操作所需要的序号,i对应被resize成一维向量的二维空间张量的某一个点i,k对应通道数,Wi是第i个空间点对应的权重,该处是求平均数的过程;
S206.将GAP与FC运算交换,具体计算公式如下:
其中,SA()表示空间注意力机制算子,σ(T)表示Sigmoid函数,ReLU()表示线性激活函数,C表示特征图的通道数,W4是外层FC层的权重矩阵,H表示特征图的高度,W表示特征图宽度,C表示特征图通道数,Fi,k表示特征图上第k个通道上,坐标为i的点,i和k是求和操作所需要的序号,i对应被resize成一维向量的二维空间张量的某一个点i,k对应通道数,wi是第i个空间点对应的权重;
S208.通过用WCA和WSA,将空间注意力与通道注意力中的GAP修饰为加权平均,得到CWCA和CWSA。
进一步的,所述CWCA,具体公式如下:
其中,CWCA()是本发明所发明的交叉注意力机制的通道注意力机制模块,σ(T)表示Sigmoid函数,ReLU()表示线性激活函数,C表示特征图的通道数,H表示特征图的高度,W表示特征图宽度,C表示特征图通道数,Fi,j,k表示特征图上第k个通道上,高坐标为i,宽坐标为j的点,i和k是求和操作所需要的序号,i对应被resize成一维向量的二维空间张量的某一个点i,k对应通道数,wk是第k个通道的权重值,(wSA)i,j表示空间注意力权重矩阵WSA的第i行j列元。
进一步的,所述CWSA,具体公式如下:
其中,CWSA()是本发明所发明的交叉注意力机制的空间注意力机制模块,σ(T)表示Sigmoid函数,ReLU()表示线性激活函数,C表示特征图的通道数,H表示特征图的高度,W表示特征图宽度,Fi,k表示特征图上第k个通道,i对应被resize成一维向量的二维空间张量的某一个点i,wi是第i个点的权重值,(wCA)k表示通道注意力权重矩阵WCA的第k个通道的权重。
进一步的,所述SA由Attention-fusion,GAP,Conv2d,Sigmoid四层组成。
进一步的,所述CA由Attention-fusion,GAP,Conv2d,Sigmoid四层组成。
具体的,本实施例的具体实施原理流程如下:
传统的CV方向的神经网络通常由负责特征提取的主干网络Backbone、图像预处理和距离度量Metric等部分组成。Attention是神经网络中的一种优化方案。最初起源于NLP领域,后来逐渐被应用到CV方向。Attention在CV中,传统的应用方法有Spatial Attention(SA),以及Channel Attention(CA)两种常见形式。其中SA方式的网络结构如图2SpatialAttention Branch所示,CA方式的网络结构如图2Channel Attention Branch所示。
SA的通常步骤为:对输入的三通道张量沿Channel维度进行Global AveragePooling,将三维张量压缩为二维平面张量TH,W。随后对TH,W做flatten运算,将其铺展为一个一维张量THW。通过一个或多个线性层(或全连接层,与线性层是同一概念的不同表述方式。下文都使用线性层)及激活函数(常取线性修正单元ReLU,双曲正切函数,或者Sigmoid函数)提取空间像素之间的非线性关系后,得到一个新的一维张量(T′)HW。该新张量通常是经过Sigmoid函数处理,每一个分量都在0到1之间的新张量。将该新的一维张量(T′)HWresize回二维,变成(T′)H,W后,与原本的特征图FC,H,W做点乘。称新张量(T′)H,W为此处得到的空间注意力描述矩阵。
CA的通常步骤为:对输入的三通道张量沿空间维度进行Global AveragePooling,将三维张量压缩为一维张量TC。随后TC通过一个或多个线性层及激活函数提取空间像素之间的非线性关系后,得到一个新的一维张量(T′)C。该新张量通常是经过Sigmoid函数处理,每一个分量都在0到1之间的新张量。将该新的一维张量与原本的特征图FC,H,W做点乘。称新张量(T′)C为此处得到的通道注意力描述向量。
一步的,在SE中提出的Channel Attention网络结构(下称CA模块)如图3所示。通过图3得到,CA模块由5层组成:GAP,FC,ReLU,FC,Sigmoid组成。有GAP和FC直接相邻的设计。仿照CA模块可以设计出类似的SA模块。
一种神经网络可视化方法(CAM)中提出,线性层和池化层的运算本身都是线性运算,可交换。将两者交换,则可以得到神经网络的类激活映射图(Class ActivationMapping,CAM)。该图可反映,一张图像经过神经网络处理后,哪一部分的空间特征对图像分类的帮助更大。
观察CA模块与SA模块,在这两个Attention模块中,同样存在着Pooling和FC直接相邻的设计。因而就可以考虑,将SA和CA中的GAP和FC互换位置,得到两个模块中各自产生的一个权重矩阵。详细的数学推导如下所示:
因而,CA模块可以被公式化为:
参考CAM中的方法,将GAP与FC运算交换,得到:
类似的,SA模块可以被公式化为:
为了方便起见,省略Flatten以及Resize,则可得到简化的SA公式:
参考CAM中的方法,将GAP与FC运算交换,得到:
于是,可利用WCA和WSA,将空间注意力与通道注意力中的GAP修饰为加权平均,并将新得到的通道注意力机制命名为Cross Weighted Channel Attention module(CWCA),新得到的空间注意力机制命名为Cross Weighted Spatial Attention module(CWSA):
以及
上述模块为Cross Weighted Attention module(CWA)。CWA的结构示意图如图4所示。
本实施例的硬件环境:
GPU Nvidia GeForce RTX 2080Ti 1张,
软件环境:
Linux Ubuntu 18.04.2 LTS;
Python 3.6.5;
Pytorch 1.6.1;
Torchvision 0.7.0;
Backbone:ImageNet Pretrained ResNet-18;
Benchmark:CIFAR-10。
通过本实施例,在通用目标检测任务中,在CIFAR-10数据集上,准确率达到91.1%。相较于Baseline的90.4%,单独使用CA模块的90.7%,以及单独使用SA的90.9%来说,有最多可达0.7%的提升。
本实施例中用到的符号列表及缩写如下所述:
{x|f(x)}:满足约束条件f(x)的x的集合;
A:注意力权值张量;
B:一个batch的数量;
C:特征图的通道数;
H:特征图的高;
W:特征图的宽;
IC,H,W神经网络的维度为C,H,W三维度的图像张量;
F:卷积神经网络的特征图Feature map;
C′:输入图像通道数;
H′:输入图像高;
W′:输入图像的宽;
FC,H,W:通道数、高、宽为C,H,W的特征图;
Flatten:将张量展开为向量;
Resize:交换张量的维度,或是调整张量的结构;
∑:求和;
Re L U(T):线性激活函数;
σ(T):Sigmoid函数;
T:张量;
O:函数输出/神经网络某一层的输出;
W:权重矩阵;
i,j,k:序号标志;
CA:通道注意力Channel Attention;
SA:空间注意力Spatial Attention;
CAM:类激活映射Class Activation Mapping;
GAP:全局平均池化,Global Average Pooling;
GMP:全局最大池化,Global Max Pooling;
CWA:交叉加权注意力机制,Cross Weighted Attention;
FC:线性层、全连接层,Full Connection;
CV:计算机视觉,Computer Vision;
NLP:自然语言处理,NaturalLanguage Processing;
规定大写字母表示一个张量或一个向量,如张量T,向量V。小写字母表示张量或向量的一个分量,如v是向量V的分量,而小写字母的下角标表示其坐标信息,如vi表示向量V的第i个分量。
一个变量的上角标Tb表示该变量的维度信息,下角标表示其名字,如表示,权重矩阵W是SA模块的第一个权重矩阵,是一个HW*HW维度的二维张量。HW,HW表示二维张量的两个维度;r表示在权重矩阵中需要的衰减因子。
如果存在一个模块名为M,则用该模块处理输入变量T记为M(T)。
标量是零维张量,向量是一维张量,矩阵是二维张量,输入图像是三维张量,神经网络的一个mini-batch是四维张量。当谈论张量的一般运算性质时使用“张量”进行描述,而当涉及到矩阵运算及性质时,通常使用“矩阵”或者“权重矩阵”描述。
实施例2
本实施例提出一种基于Attention的CNN神经网络的行人重识别的终端设备,如图5,终端设备200包括至少一个存储器210、至少一个处理器220以及连接不同平台系统的总线230。
存储器210可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)211和/或高速缓存存储器212,还可以进一步包括只读存储器(ROM)213。
其中,存储器210还存储有计算机程序,计算机程序可以被处理器220执行,使得处理器220执行本申请实施例中上述任一项一种基于Attention的CNN神经网络的行人重识别方法,其具体实现方式与上述实施例中记载的实施方式、所达到的技术效果一致,部分内容不再赘述。存储器210还可以包括具有一组(至少一个)程序模块215的程序/实用工具214,这样的程序模块包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
相应的,处理器220可以执行上述计算机程序,以及可以执行程序/实用工具214。
总线230可以为表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。
终端设备200也可以与一个或多个外部设备240例如键盘、指向设备、蓝牙设备等通信,还可与一个或者多个能够与该终端设备200交互的设备通信,和/或与使得该终端设备200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口250进行。并且,终端设备200还可以通过网络适配器260与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器260可以通过总线230与终端设备200的其它模块通信。应当明白,尽管图中未示出,可以结合终端设备200使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。
实施例3
本实施例提出一种基于Attention的CNN神经网络的行人重识别的计算机可读存储介质,所述计算机可读存储介质上存储有指令,该指令被处理器执行时实现上述任一的一种基于Attention的CNN神经网络的行人重识别方法。其具体实现方式与上述实施例中记载的实施方式、所达到的技术效果一致,部分内容不再赘述。
图6示出了本实施例提供的用于实现上述方法的程序产品300,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品300不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。程序产品300可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,程序设计语言包括面向对象的程序设计语言诸如Java、C++等,还包括常规的过程式程序设计语言诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
本申请从使用目的上,效能上,进步及新颖性等观点进行阐述,其设置有的实用进步性,已符合专利法所强调的功能增进及使用要件,本申请以上的说明及附图,仅为本申请的较佳实施例而已,并非以此局限本申请,因此,凡一切与本申请构造,装置,特征等近似、雷同的,即凡依本申请专利申请范围所作的等同替换或修饰等,皆应属本申请的专利申请保护的范围之内。
Claims (6)
1.一种基于Attention的CNN神经网络的行人重识别方法,其特征在于,行人重识别任务中,对CA和SA进行融合,使两种Attention机制进行深度并行计算:在计算CA的期间引入空间信息,同时在计算SA的过程中加入通道信息,其中,具体包括以下步骤:
S1.创建两个权重矩阵并通过遵从高斯分布的随机数对矩阵元素进行初始化,其中,所述表示CWCA中的一个权重矩阵,矩阵高C行,宽列;所述表示CWSA中的一个权重矩阵,矩阵高H*W行,矩阵宽列;其中,r表示衰减因子,C、H和W分别表示特征图的通道数、高和宽,所述r为正整数,CA表示通道注意力机制算子,SA表示空间注意力机制算子,CWCA表示交叉注意力机制的通道注意力机制模块,CWSA表示交叉注意力机制的空间注意力机制模块;
S2.创建一个CWCA模块和一个CWSA模块,其中,CWCA模块接收两个输入变量:FC,H,W和CWSA模块接收两个输入变量:FC,H,W和其中FC,H,W表示特征图,所述为通过内层运算得到空间上的激活映射图,用于指示输入图像在空间上的响应情况,通过激活映射图,得到对图像分类帮助更大的空间特征;矩阵高C行,宽列,所述为通过内层运算得到通道上的激活映射图,用于指示输入图像在通道上的响应情况,通过激活映射图,得到对图像分类帮助更大的空间特征,矩阵高H*W行,矩阵宽列;所述wk是第k个通道对应的权重,Fi,j,k表示特征图上第k个通道上,高为i宽为j的点的值;Fi,k表示特征图上第k个通道上,坐标为i的点;
S3.将用于特征提取的主干网络的FC,H,W和步骤S1中创建的两个权重矩阵对应输入至步骤S2创建的两个模块,得到两个模块的通道注意力值AC与空间注意力值AS,其中,通过调整,所述AC被调整为所述AS被调整为 表示通道注意力值是一个张量,张量有4个维度,每个维度的尺寸分别为:B、C、1和1,表示空间注意力值是一个张量,张量有4个维度,每个维度的尺寸分别为B、1、H和W,其中B表示神经网络训练中一个训练批中所含的图像数量;
S7.重复步骤S2,直至训练结束;
其中,所述创建一个CWCA模块和一个CWSA模块,具体为:将SA和CA中的GAP和FC互换位置,得到两个模块中各自产生的一个权重矩阵。
2.根据权利要求1所述的一种基于Attention的CNN神经网络的行人重识别方法,其特征在于,所述步骤S2具体包括以下子步骤:
S201.计算GAP和FC,具体计算公式如下:
其中,所述H表示特征图的高,W表示特征图的宽,F表示卷积神经网络的特征图,i和j是求和操作所需要的序号,·表示“忽略”,即除了i,j之外的其他维度不需要操作,用于表达更一般的情况,通过·代替第三维度和可能存在的更多维度;
FC(V)=WFCV=WFC(v1,v2,...,vn)T (2);
其中,所述T表示张量,WFC表示FC的权重矩阵,V表示向量,v表示向量的分量,v的下角标1,2,……,n表示向量V的第1,2,……,n维分量;
S202.将CA模块进行公式化,具体计算过程如下:
其中,CA()表示通道注意力机制算子,σ(T)表示Sigmoid函数,FC()表示线性层运算算子,ReLU()表示线性激活函数,GAP()表示二维全局平均池化算子,F是特征图,W1是内层FC层的权重矩阵,W2是外层FC层的权重矩阵,i,j和k是求和操作所需要的序号,i对应高,j对应宽,k对应通道数,wk是第k个通道对应的权重,是求平均数的过程;
S203.将GAP与FC运算交换,具体计算过程如下:
S205.通过省略Flatten以及Resize,得到简化的SA公式,其中,所述Flatten表示将张量展开为向量,所述Resize表示交换张量的维度、调整张量的结构,具体公式如下:
其中,SA()表示空间注意力机制算子,W3是内层FC层的权重矩阵,W4是外层FC层的权重矩阵,i和k是求和操作所需要的序号,i对应被resize成一维向量的二维空间张量的某一个点i,k对应通道数,wi是第i个空间点对应的权重,是求平均数的过程;
S206.将GAP与FC运算交换,具体计算公式如下:
S208.通过用WCA和WSA,将空间注意力与通道注意力中的GAP修饰为加权平均,得到CWCA和CWSA。
5.根据权利要求1所述的一种基于Attention的CNN神经网络的行人重识别方法,其特征在于,所述SA由Attention-fusion,GAP,Conv2d,Sigmoid四层组成。
6.根据权利要求1所述的一种基于Attention的CNN神经网络的行人重识别方法,其特征在于,所述CA由Attention-fusion,GAP,Conv2d,Sigmoid四层组成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110519950.5A CN112949841B (zh) | 2021-05-13 | 2021-05-13 | 一种基于Attention的CNN神经网络的行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110519950.5A CN112949841B (zh) | 2021-05-13 | 2021-05-13 | 一种基于Attention的CNN神经网络的行人重识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112949841A CN112949841A (zh) | 2021-06-11 |
CN112949841B true CN112949841B (zh) | 2022-08-16 |
Family
ID=76233799
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110519950.5A Active CN112949841B (zh) | 2021-05-13 | 2021-05-13 | 一种基于Attention的CNN神经网络的行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112949841B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023042377A1 (ja) * | 2021-09-17 | 2023-03-23 | 日本電信電話株式会社 | 学習装置、変換装置、学習方法及びプログラム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020244774A1 (en) * | 2019-06-07 | 2020-12-10 | Leica Microsystems Cms Gmbh | A system and method for training machine-learning algorithms for processing biology-related data, a microscope and a trained machine learning algorithm |
AU2020103715A4 (en) * | 2020-11-27 | 2021-02-11 | Beijing University Of Posts And Telecommunications | Method of monocular depth estimation based on joint self-attention mechanism |
CN112489098A (zh) * | 2020-12-09 | 2021-03-12 | 福建农林大学 | 一种基于空间通道注意力机制神经网络的图像匹配方法 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9965705B2 (en) * | 2015-11-03 | 2018-05-08 | Baidu Usa Llc | Systems and methods for attention-based configurable convolutional neural networks (ABC-CNN) for visual question answering |
US10089556B1 (en) * | 2017-06-12 | 2018-10-02 | Konica Minolta Laboratory U.S.A., Inc. | Self-attention deep neural network for action recognition in surveillance videos |
CN109544524B (zh) * | 2018-11-15 | 2023-05-23 | 中共中央办公厅电子科技学院 | 一种基于注意力机制的多属性图像美学评价系统 |
CN110070073A (zh) * | 2019-05-07 | 2019-07-30 | 国家广播电视总局广播电视科学研究院 | 基于注意力机制的全局特征和局部特征的行人再识别方法 |
US11361470B2 (en) * | 2019-05-09 | 2022-06-14 | Sri International | Semantically-aware image-based visual localization |
JP7542802B2 (ja) * | 2019-07-25 | 2024-09-02 | 学校法人中部大学 | ニューラルネットワークを用いた画像認識装置および画像認識装置に用いられるプログラム |
CN110610129A (zh) * | 2019-08-05 | 2019-12-24 | 华中科技大学 | 一种基于自注意力机制的深度学习人脸识别系统及方法 |
CN110991362A (zh) * | 2019-12-06 | 2020-04-10 | 西安电子科技大学 | 一种基于注意力机制的行人检测模型 |
CN111553205B (zh) * | 2020-04-12 | 2022-11-15 | 西安电子科技大学 | 无车牌信息车辆重识别方法、系统、介质、视频监控系统 |
CN111639692B (zh) * | 2020-05-25 | 2022-07-22 | 南京邮电大学 | 一种基于注意力机制的阴影检测方法 |
CN112307958B (zh) * | 2020-10-30 | 2023-06-23 | 河北工业大学 | 基于时空外观运动注意力网络的微表情识别方法 |
CN112733590A (zh) * | 2020-11-06 | 2021-04-30 | 哈尔滨理工大学 | 一种基于二阶混合注意力的行人重识别方法 |
CN112200161B (zh) * | 2020-12-03 | 2021-03-02 | 北京电信易通信息技术股份有限公司 | 一种基于混合注意力机制的人脸识别检测方法 |
CN112766279B (zh) * | 2020-12-31 | 2023-04-07 | 中国船舶重工集团公司第七0九研究所 | 一种基于联合注意力机制的图像特征提取方法 |
CN112784764B (zh) * | 2021-01-27 | 2022-07-12 | 南京邮电大学 | 一种基于局部与全局注意力机制的表情识别方法及系统 |
-
2021
- 2021-05-13 CN CN202110519950.5A patent/CN112949841B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020244774A1 (en) * | 2019-06-07 | 2020-12-10 | Leica Microsystems Cms Gmbh | A system and method for training machine-learning algorithms for processing biology-related data, a microscope and a trained machine learning algorithm |
AU2020103715A4 (en) * | 2020-11-27 | 2021-02-11 | Beijing University Of Posts And Telecommunications | Method of monocular depth estimation based on joint self-attention mechanism |
CN112489098A (zh) * | 2020-12-09 | 2021-03-12 | 福建农林大学 | 一种基于空间通道注意力机制神经网络的图像匹配方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112949841A (zh) | 2021-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11501415B2 (en) | Method and system for high-resolution image inpainting | |
CN101253493B (zh) | 在图形处理单元上训练卷积神经网络 | |
CN107622302B (zh) | 用于卷积神经网络的超像素方法 | |
CN108280451B (zh) | 语义分割及网络训练方法和装置、设备、介质 | |
CN110163205B (zh) | 图像处理方法、装置、介质和计算设备 | |
Zheng | Gradient descent algorithms for quantile regression with smooth approximation | |
WO2020074989A1 (en) | Data representation for dynamic precision in neural network cores | |
CN112446888B (zh) | 图像分割模型的处理方法和处理装置 | |
CN112990219A (zh) | 用于图像语义分割的方法和装置 | |
CN112949841B (zh) | 一种基于Attention的CNN神经网络的行人重识别方法 | |
CN112883818A (zh) | 文本图像识别方法、系统、设备及存储介质 | |
CN115937409A (zh) | 反视觉智能的对抗攻击纹理生成方法 | |
CN115115784A (zh) | 一种三维人脸重建模型训练方法、系统及可读存储介质 | |
US10824920B2 (en) | Method and apparatus for recognizing video fine granularity, computer device and storage medium | |
CN110580726A (zh) | 基于动态卷积网络的自然场景下人脸素描生成模型及方法 | |
CN114092773A (zh) | 信号处理方法、信号处理装置、电子设备及存储介质 | |
CN111340182B (zh) | 一种输入特征逼近的低复杂度cnn训练方法与装置 | |
CN117593616A (zh) | 基于广谱相关性融合网络的目标跟踪方法、装置、设备 | |
US20240233073A9 (en) | Method, device, and computer program product for image processing | |
EP4220557A1 (en) | Method and computer program product for determining a pose of a body model in 3d space | |
CN114359905B (zh) | 一种文本识别方法、装置、电子设备及存储介质 | |
US20210256388A1 (en) | Machine-Learned Models Featuring Matrix Exponentiation Layers | |
CN114581676B (zh) | 特征图像的处理方法、装置和存储介质 | |
US20230117227A1 (en) | High-dimensional transfer learning | |
CN115082295B (zh) | 一种基于自注意力机制的图像编辑方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |