CN112949841B

CN112949841B - 一种基于Attention的CNN神经网络的行人重识别方法

Info

Publication number: CN112949841B
Application number: CN202110519950.5A
Authority: CN
Inventors: 李学生; 刘炜; 徐奇伟
Original assignee: Delu Power Technology Chengdu Co ltd
Current assignee: Delu Power Technology Chengdu Co ltd
Priority date: 2021-05-13
Filing date: 2021-05-13
Publication date: 2022-08-16
Anticipated expiration: 2041-05-13
Also published as: CN112949841A

Abstract

本发明公开了一种基于Attention的CNN神经网络的训练方法。通过本发明，在行人重识别任务中，对Channel Attention和Spatial Attention进行融合，使两种Attention机制实现了深度并行计算：在计算Channel Attention的期间引入空间信息，同时在计算Spatial Attention的过程中加入通道信息。通过这种方式，提升了在图像分类问题上的准确率。以ResNet‑18结构为Baseline，通过此注意力机制方法，相较传统单Attention方法，准确率有0.3%的提升。

Description

一种基于Attention的CNN神经网络的行人重识别方法

技术领域

本发明涉及神经网络领域，尤其涉及一种基于Attention的CNN神经网络的行人重识别方法。

背景技术

传统的CV方向的神经网络通常由负责特征提取的主干网络Backbone、图像预处理和距离度量Metric等部分组成。Attention是神经网络中的一种优化方案。最初起源于NLP领域，后来逐渐被应用到CV方向。

SA的通常步骤为：对输入的三通道张量沿Channel维度进行Global AveragePooling，将三维张量压缩为二维平面张量T^H，W。随后对T^H，W做flatten运算，将其铺展为一个一维张量T^HW。通过一个或多个线性层(或全连接层，与线性层是同一概念的不同表述方式。下文都使用线性层)及激活函数(常取线性修正单元ReLU，双曲正切函数，或者Sigmoid函数)提取空间像素之间的非线性关系后，得到一个新的一维张量(T′)^HW。该新张量通常是经过Sigmoid函数处理，每一个分量都在0到1之间的新张量。将该新的一维张量(T′)^HWresize回二维，变成(T′)^H，W后，与原本的特征图F^C，H，W做点乘。称新张量(T′)^H，W为此处得到的空间注意力描述矩阵。

CA的通常步骤为：对输入的三通道张量沿空间维度进行Global AveragePooling，将三维张量压缩为一维张量T^C。随后T^C通过一个或多个线性层及激活函数提取空间像素之间的非线性关系后，得到一个新的一维张量(T′)^C。该新张量通常是经过Sigmoid函数处理，每一个分量都在0到1之间的新张量。将该新的一维张量与原本的特征图F^C，H，W做点乘。称新张量(T′)^C为此处得到的通道注意力描述向量。

但是，两种Attention模块都是直接将张量进行平均池化降维。这种处理方式直接抹杀了被收缩维度的特征分布信息。因而，GAP的降维方式中损失了一部分特征的分布信息。

发明内容

针对上述问题，本发明提供一种基于Attention的CNN神经网络的行人重识别方法，用于解决上述问题。

本发明通过以下技术方案实现：

一种基于Attention的CNN神经网络的行人重识别方法，包括以下步骤：

S1.创建两个权重矩阵

并通过遵从高斯分布的随机数对矩阵元素进行初始化，其中，所述

表示CWCA中的一个权重矩阵，矩阵高C行，宽

列；所述

表示CWSA中的一个权重矩阵，矩阵高H*W行，矩阵宽

列；其中，r表示衰减因子，H和W分别表示特征图的高和宽，所述r为正整数；

S2.创建一个CWCA模块和一个CWSA模块，其中，CWCA模块接收两个输入变量：F^C，H，W和

CWSA模块接收两个输入变量：F^C，H，W和

其中F^C，H，W表示特征图，C、H和W分别表示特征图的通道数、高和宽，所述

表示CWCA中的一个权重矩阵，矩阵高C行，宽

列；所述

表示CWSA中的一个权重矩阵，矩阵高H*W行，矩阵宽

列；

S3.将用于特征提取的主干网络的F^C，H，W和步骤S1中创建的两个权重矩阵对应输入至步骤S2创建的两个模块，得到两个模块的通道注意力值A_C与空间注意力值A_S，其中，通过调整，所述A_C被调整为

所述A_S被调整为

其中F^C，H，W表示特征图，C、H和W分别表示特征图的通道数、高和宽，

表示，该通道注意力值是一个张量，该张量有4个维度，每个维度的尺寸分别为：B、C、1和1，

表示，该空间注意力值是一个张量，该张量有4个维度，每个维度的尺寸分别为B、1、H和W，其中B表示神经网络训练中一个训练批中所含的图像数量；

S4.将A_C与A_S与F^C，H，W做点乘，得到新的特征图

S5.将

送入后续的网络中，继续进行训练；

S6.在一轮训练结束后，在反向传播中更新

和

S7.重复步骤S2，直至训练结束；

其中，所述创建一个CWCA模块和一个CWSA模块，具体为：将SA和CA中的GAP和FC互换位置，得到两个模块中各自产生的一个权重矩阵。

进一步的，所述步骤S2具体包括以下子步骤：

S201.计算GAP和FC，具体计算公式如下：

其中，所述H表示特征图的高，W表示特征图的宽，F表示卷积神经网络的特征图，i和i是求和操作所需要的序号，·表示“忽略”，即除了i，i之外的其他维度不需要操作；

FC(V)＝W_FCV＝W_FC(v₁，v₂，...，v_n)^T (2)；

其中，所述T表示张量，W_FC表示FC的权重矩阵，V表示向量，v表示向量的分量，v的下角标1，2，……，n表示向量V的第1，2，……，n维分量；

S202.将CA模块进行公式化，具体计算过程如下：

其中，CA()表示通道注意力机制算子，σ(T)表示Sigmoid函数，FC()表示线性层运算算子，ReLU()表示线性激活函数，GAP()表示二维全局平均池化算子，F是特征图，C表示特征图的通道数，W₁是内层FC层的权重矩阵，W₂是外层FC层的权重矩阵，H表示特征图的高度，W表示特征图宽度，C表示特征图通道数，F_i，j，k表示特征图上第k个通道上，高为i宽为j的点的值，i，j和k是求和操作所需要的序号，i对应高，j对应宽，k对应通道数，w_k是第k个通道对应的权重，该处

是求平均数的过程；

S203.将GAP与FC运算交换，具体计算过程如下：

其中，所述CA()表示通道注意力机制算子，F表示特征图，σ(T)表示Sigmoid函数，W₂是外层FC层的权重矩阵，ReLU()表示线性激活函数，C表示特征图的通道数，k是对通道进行加权求和时使用的序号，H表示特征图的高度，W表示特征图宽度，w_k是第k个通道对应的权重，F_i，j，k表示特征图上第k个通道上，高为i宽为j的点的值；

S204.通过内层运算

得到空间上的激活映射图，用于指示该输入图像在空间上的响应情况，生成该响应情况的权重矩阵记为W_CA；

S205.通过省略Flatten以及Resize，得到简化的SA公式，其中，所述Flatten表示将张量展开为向量，所述Resize表示交换张量的维度、调整张量的结构，具体公式如下：

其中，SA()表示空间注意力机制算子，σ(T)表示Sigmoid函数，FC()表示线性层运算算子，ReLU()表示线性激活函数，GAP()表示一维全局平均池化算子，F是特征图，C表示特征图的通道数，W₃是内层FC层的权重矩阵，W₄是外层FC层的权重矩阵，H表示特征图的高度，W表示特征图宽度，C表示特征图通道数，F_i，k表示特征图上第k个通道上，坐标为i的点，i和k是求和操作所需要的序号，i对应被resize成一维向量的二维空间张量的某一个点i，k对应通道数，w_i是第i个空间点对应的权重，该处

是求平均数的过程；

S206.将GAP与FC运算交换，具体计算公式如下：

其中，SA()表示空间注意力机制算子，σ(T)表示Sigmoid函数，ReLU()表示线性激活函数，C表示特征图的通道数，W₄是外层FC层的权重矩阵，H表示特征图的高度，W表示特征图宽度，C表示特征图通道数，F_i，k表示特征图上第k个通道上，坐标为i的点，i和k是求和操作所需要的序号，i对应被resize成一维向量的二维空间张量的某一个点i，k对应通道数，w_i是第i个空间点对应的权重；

S207.通过内层运算

得到通道上的激活映射图，用于指示该输入图像在通道上的响应情况；生成该响应情况的权重矩阵记为W_SA；

S208.通过用W_CA和W_SA，将空间注意力与通道注意力中的GAP修饰为加权平均，得到CWCA和CWSA。

进一步的，所述CWCA，具体公式如下：

其中，CWCA()是本发明所发明的交叉注意力机制的通道注意力机制模块，σ(T)表示Sigmoid函数，W₂是外层FC层的权重矩阵，ReLU()表示线性激活函数，C表示特征图的通道数，H表示特征图的高度，W表示特征图宽度，C表示特征图通道数，F_i，j，k表示特征图上第k个通道上，高坐标为i，宽坐标为i的点，i和k是求和操作所需要的序号，i对应被resize成一维向量的二维空间张量的某一个点i，k对应通道数，w_k是第k个通道的权重值，(w_SA)i，j表示空间注意力权重矩阵W_SA的第i行j列元。

进一步的，所述CWSA，具体公式如下：

其中，CWSA()是本发明所发明的交叉注意力机制的空间注意力机制模块，σ(T)表示Sigmoid函数，W₄是外层FC层的权重矩阵，ReLU()表示线性激活函数，C表示特征图的通道数，H表示特征图的高度，W表示特征图宽度，F_i，k表示特征图上第k个通道，i对应被resize成一维向量的二维空间张量的某一个点i，w_i是第i个点的权重值，(w_CA)_k表示通道注意力权重矩阵W_CA的第k个通道的权重。

进一步的，所述SA由Attention-fusion，GAP，Conv2d，Sigmoid四层组成。

进一步的，所述CA由Attention-fusion，GAP，Conv2d，Sigmoid四层组成。

本发明的有益效果：通过本发明，在行人重识别任务中，对Channel Attention和Spatial Attention进行融合，使两种Attention机制实现了深度并行计算：在计算ChannelAttention的期间引入空间信息，同时在计算Spatial Attention的过程中加入通道信息。通过这种方式，提升了在图像分类问题上的准确率。以ResNet-18结构为Baseline，通过此注意力机制方法，相较传统单Attention方法，准确率有0.3％的提升。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的方法流程框图；

图2是本申请实施例提供的CV中Attention结构示意图；

图3是本申请实施例提供的CA模块的结构示意图；

图4是本申请实施例提供的CWA模块的结构示意图；

图5是本申请实施例提供的一种终端设备的结构示意图；

图6是本申请实施例提供的一种用于实现一种基于Attention的CNN神经网络的行人重识别方法的产品的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例1

如图1，本实施了提出了一种基于Attention的CNN神经网络的行人重识别方法，其特征在于，包括以下步骤：

S1.创建两个权重矩阵

表示CWCA中的一个权重矩阵，矩阵高C行，宽

列；所述

表示CWSA中的一个权重矩阵，矩阵高H*W行，矩阵宽

列；其中，r表示衰减因子，所述r为正整数；

S2.创建一个CWCA模块和一个CWSA模块，其中，CWCA模块接收两个输入变量：FC，H，W和

CWSA模块接收两个输入变量：F^C，H，W和

所述A_S被调整为

S4.将A_C与A_S与F^C，H，W做点乘，得到新的特征图

S5.将

送入后续的网络中，继续进行训练；

S6.在一轮训练结束后，在反向传播中更新

和

S7.重复步骤S2，直至训练结束；

进一步的，所述步骤S2具体包括以下子步骤：

S201.计算GAP和FC，具体计算公式如下：

其中，所述H表示特征图的高，W表示特征图的宽，F表示卷积神经网络的特征图，i和j是求和操作所需要的序号，·表示“忽略”，即除了i，j之外的其他维度不需要操作，公式(3)中的GAP(F)与公式(1)中的GAP(F)一致，所以公式(1)中通过·连表示公式(3)中的k；

FC(V)＝W_FCV＝W_FC(v₁，v₂，...，v_n)^T (2)；

其中，所述T表示张量，W_FC表示FC的权重矩阵，V表示向量，v表示向量的分量v的下角标1，2，……，n表示向量V的第1，2，……，n维分量；

S202.将CA模块进行公式化，具体计算过程如下：

是求平均数的过程；

S203.将GAP与FC运算交换，具体计算过程如下：

其中，所述CA()表示通道注意力机制算子，F表示特征图，σ(T)表示Sigmoid函数，ReLU()表示线性激活函数，C表示特征图的通道数，k是对通道进行加权求和时使用的序号，H表示特征图的高度，W表示特征图宽度，w_k是第k个通道对应的权重，F_i，j，k表示特征图上第k个通道上，高为i宽为j的点的值。

S204.通过内层运算

是求平均数的过程；

S206.将GAP与FC运算交换，具体计算公式如下：

S207.通过内层运算

进一步的，所述CWCA，具体公式如下：

其中，CWCA()是本发明所发明的交叉注意力机制的通道注意力机制模块，σ(T)表示Sigmoid函数，ReLU()表示线性激活函数，C表示特征图的通道数，H表示特征图的高度，W表示特征图宽度，C表示特征图通道数，F_i，j，k表示特征图上第k个通道上，高坐标为i，宽坐标为j的点，i和k是求和操作所需要的序号，i对应被resize成一维向量的二维空间张量的某一个点i，k对应通道数，w_k是第k个通道的权重值，(w_SA)_i，j表示空间注意力权重矩阵W_SA的第i行j列元。

进一步的，所述CWSA，具体公式如下：

其中，CWSA()是本发明所发明的交叉注意力机制的空间注意力机制模块，σ(T)表示Sigmoid函数，ReLU()表示线性激活函数，C表示特征图的通道数，H表示特征图的高度，W表示特征图宽度，F_i，k表示特征图上第k个通道，i对应被resize成一维向量的二维空间张量的某一个点i，w_i是第i个点的权重值，(w_CA)_k表示通道注意力权重矩阵W_CA的第k个通道的权重。

具体的，本实施例的具体实施原理流程如下：

传统的CV方向的神经网络通常由负责特征提取的主干网络Backbone、图像预处理和距离度量Metric等部分组成。Attention是神经网络中的一种优化方案。最初起源于NLP领域，后来逐渐被应用到CV方向。Attention在CV中，传统的应用方法有Spatial Attention(SA)，以及Channel Attention(CA)两种常见形式。其中SA方式的网络结构如图2SpatialAttention Branch所示，CA方式的网络结构如图2Channel Attention Branch所示。

一步的，在SE中提出的Channel Attention网络结构(下称CA模块)如图3所示。通过图3得到，CA模块由5层组成：GAP，FC，ReLU，FC，Sigmoid组成。有GAP和FC直接相邻的设计。仿照CA模块可以设计出类似的SA模块。

一种神经网络可视化方法(CAM)中提出，线性层和池化层的运算本身都是线性运算，可交换。将两者交换，则可以得到神经网络的类激活映射图(Class ActivationMapping，CAM)。该图可反映，一张图像经过神经网络处理后，哪一部分的空间特征对图像分类的帮助更大。

观察CA模块与SA模块，在这两个Attention模块中，同样存在着Pooling和FC直接相邻的设计。因而就可以考虑，将SA和CA中的GAP和FC互换位置，得到两个模块中各自产生的一个权重矩阵。详细的数学推导如下所示：

GAP的计算公式为：

FC的计算公式为：FC(V)＝WV＝W(v₁，v₂，...，v_n)^T，则

因而，CA模块可以被公式化为：

参考CAM中的方法，将GAP与FC运算交换，得到：

则内层运算

将得到空间上的激活映射图，可以指示该输入图像在空间上的响应情况。生成该响应情况的权重矩阵记为W_CA。

类似的，SA模块可以被公式化为：

为了方便起见，省略Flatten以及Resize，则可得到简化的SA公式：

参考CAM中的方法，将GAP与FC运算交换，得到：

则内层运算将

得到通道上的激活映射图，可以指示该输入图像在通道上的响应情况。生成该响应情况的权重矩阵记为。

于是，可利用W_CA和W_SA，将空间注意力与通道注意力中的GAP修饰为加权平均，并将新得到的通道注意力机制命名为Cross Weighted Channel Attention module(CWCA)，新得到的空间注意力机制命名为Cross Weighted Spatial Attention module(CWSA)：

以及

上述模块为Cross Weighted Attention module(CWA)。CWA的结构示意图如图4所示。

本实施例的硬件环境：

GPU Nvidia GeForce RTX 2080Ti 1张，

软件环境：

Linux Ubuntu 18.04.2 LTS；

Python 3.6.5；

Pytorch 1.6.1；

Torchvision 0.7.0；

Backbone：ImageNet Pretrained ResNet-18；

Benchmark：CIFAR-10。

通过本实施例，在通用目标检测任务中，在CIFAR-10数据集上，准确率达到91.1％。相较于Baseline的90.4％，单独使用CA模块的90.7％，以及单独使用SA的90.9％来说，有最多可达0.7％的提升。

本实施例中用到的符号列表及缩写如下所述：

{x|f(x)}：满足约束条件f(x)的x的集合；

A：注意力权值张量；

B：一个batch的数量；

C：特征图的通道数；

H：特征图的高；

W：特征图的宽；

I^C，H，W神经网络的维度为C，H，W三维度的图像张量；

F：卷积神经网络的特征图Feature map；

C′：输入图像通道数；

H′：输入图像高；

W′：输入图像的宽；

F^C，H，W：通道数、高、宽为C，H，W的特征图；

x：图像上某一点的横坐标，

y：图像上某一点的纵坐标，

Flatten：将张量展开为向量；

Resize：交换张量的维度，或是调整张量的结构；

∑：求和；

维度为C的向量，每个分量用v_i表示；

Re L U(T)：线性激活函数；

σ(T)：Sigmoid函数；

T：张量；

O：函数输出/神经网络某一层的输出；

W：权重矩阵；

CWSA中的一个权重矩阵，矩阵高H*W行，宽

列；

r：注意力模块中的衰减因子，是个正整数，通常取1、2、4或者8；

CWCA中的一个权重矩阵，矩阵高C行，宽

列；

i，j，k：序号标志；

CA：通道注意力Channel Attention；

SA：空间注意力Spatial Attention；

CAM：类激活映射Class Activation Mapping；

GAP：全局平均池化，Global Average Pooling；

GMP：全局最大池化，Global Max Pooling；

CWA：交叉加权注意力机制，Cross Weighted Attention；

FC：线性层、全连接层，Full Connection；

CV：计算机视觉，Computer Vision；

NLP：自然语言处理，NaturalLanguage Processing；

规定大写字母表示一个张量或一个向量，如张量T，向量V。小写字母表示张量或向量的一个分量，如v是向量V的分量，而小写字母的下角标表示其坐标信息，如v_i表示向量V的第i个分量。

一个变量的上角标T^b表示该变量的维度信息，下角标表示其名字，如

表示，权重矩阵W是SA模块的第一个权重矩阵，是一个HW*HW维度的二维张量。HW，HW表示二维张量的两个维度；r表示在权重矩阵中需要的衰减因子。

如果存在一个模块名为M，则用该模块处理输入变量T记为M(T)。

标量是零维张量，向量是一维张量，矩阵是二维张量，输入图像是三维张量，神经网络的一个mini-batch是四维张量。当谈论张量的一般运算性质时使用“张量”进行描述，而当涉及到矩阵运算及性质时，通常使用“矩阵”或者“权重矩阵”描述。

实施例2

本实施例提出一种基于Attention的CNN神经网络的行人重识别的终端设备，如图5，终端设备200包括至少一个存储器210、至少一个处理器220以及连接不同平台系统的总线230。

存储器210可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)211和/或高速缓存存储器212，还可以进一步包括只读存储器(ROM)213。

其中，存储器210还存储有计算机程序，计算机程序可以被处理器220执行，使得处理器220执行本申请实施例中上述任一项一种基于Attention的CNN神经网络的行人重识别方法，其具体实现方式与上述实施例中记载的实施方式、所达到的技术效果一致，部分内容不再赘述。存储器210还可以包括具有一组(至少一个)程序模块215的程序/实用工具214，这样的程序模块包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

相应的，处理器220可以执行上述计算机程序，以及可以执行程序/实用工具214。

总线230可以为表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。

终端设备200也可以与一个或多个外部设备240例如键盘、指向设备、蓝牙设备等通信，还可与一个或者多个能够与该终端设备200交互的设备通信，和/或与使得该终端设备200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口250进行。并且，终端设备200还可以通过网络适配器260与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器260可以通过总线230与终端设备200的其它模块通信。应当明白，尽管图中未示出，可以结合终端设备200使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。

实施例3

本实施例提出一种基于Attention的CNN神经网络的行人重识别的计算机可读存储介质，所述计算机可读存储介质上存储有指令，该指令被处理器执行时实现上述任一的一种基于Attention的CNN神经网络的行人重识别方法。其具体实现方式与上述实施例中记载的实施方式、所达到的技术效果一致，部分内容不再赘述。

图6示出了本实施例提供的用于实现上述方法的程序产品300，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品300不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。程序产品300可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，程序设计语言包括面向对象的程序设计语言诸如Java、C++等，还包括常规的过程式程序设计语言诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

本申请从使用目的上，效能上，进步及新颖性等观点进行阐述，其设置有的实用进步性，已符合专利法所强调的功能增进及使用要件，本申请以上的说明及附图，仅为本申请的较佳实施例而已，并非以此局限本申请，因此，凡一切与本申请构造，装置，特征等近似、雷同的，即凡依本申请专利申请范围所作的等同替换或修饰等，皆应属本申请的专利申请保护的范围之内。

Claims

1.一种基于Attention的CNN神经网络的行人重识别方法，其特征在于，行人重识别任务中，对CA和SA进行融合，使两种Attention机制进行深度并行计算：在计算CA的期间引入空间信息，同时在计算SA的过程中加入通道信息，其中，具体包括以下步骤：

S1.创建两个权重矩阵

表示CWCA中的一个权重矩阵，矩阵高C行，宽

列；所述

表示CWSA中的一个权重矩阵，矩阵高H*W行，矩阵宽

列；其中，r表示衰减因子，C、H和W分别表示特征图的通道数、高和宽，所述r为正整数，CA表示通道注意力机制算子，SA表示空间注意力机制算子，CWCA表示交叉注意力机制的通道注意力机制模块，CWSA表示交叉注意力机制的空间注意力机制模块；

S2.创建一个CWCA模块和一个CWSA模块，其中，CWCA模块接收两个输入变量：F^C,H,W和

CWSA模块接收两个输入变量：F^C,H,W和

其中F^C,H,W表示特征图，所述

为通过内层运算

得到空间上的激活映射图，用于指示输入图像在空间上的响应情况，通过激活映射图，得到对图像分类帮助更大的空间特征；矩阵高C行，宽

列，所述

为通过内层运算

得到通道上的激活映射图，用于指示输入图像在通道上的响应情况，通过激活映射图，得到对图像分类帮助更大的空间特征，矩阵高H*W行，矩阵宽

列；所述w_k是第k个通道对应的权重，F_i,j,k表示特征图上第k个通道上，高为i宽为j的点的值；F_i,k表示特征图上第k个通道上，坐标为i的点；

S3.将用于特征提取的主干网络的F^C,H,W和步骤S1中创建的两个权重矩阵对应输入至步骤S2创建的两个模块，得到两个模块的通道注意力值A_C与空间注意力值A_S，其中，通过调整，所述A_C被调整为

所述A_S被调整为

表示通道注意力值是一个张量，张量有4个维度，每个维度的尺寸分别为：B、C、1和1，

表示空间注意力值是一个张量，张量有4个维度，每个维度的尺寸分别为B、1、H和W，其中B表示神经网络训练中一个训练批中所含的图像数量；

S4.将A_C与A_S与F^C,H,W做点乘，得到新的特征图

S5.将

送入后续的网络中，继续进行训练；

S6.在一轮训练结束后，在反向传播中更新

和

S7.重复步骤S2，直至训练结束；

2.根据权利要求1所述的一种基于Attention的CNN神经网络的行人重识别方法，其特征在于，所述步骤S2具体包括以下子步骤：

S201.计算GAP和FC，具体计算公式如下：

其中，所述H表示特征图的高，W表示特征图的宽，F表示卷积神经网络的特征图，i和j是求和操作所需要的序号，·表示“忽略”，即除了i，j之外的其他维度不需要操作，用于表达更一般的情况，通过·代替第三维度和可能存在的更多维度；

FC(V)＝W_FCV＝W_FC(v₁,v₂,...,v_n)^T (2)；

其中，所述T表示张量，W_FC表示FC的权重矩阵，V表示向量，v表示向量的分量，v的下角标1,2，……，n表示向量V的第1,2，……，n维分量；

S202.将CA模块进行公式化，具体计算过程如下：

其中，CA()表示通道注意力机制算子，σ(T)表示Sigmoid函数，FC()表示线性层运算算子，ReLU()表示线性激活函数，GAP()表示二维全局平均池化算子，F是特征图，W₁是内层FC层的权重矩阵，W₂是外层FC层的权重矩阵，i，j和k是求和操作所需要的序号，i对应高，j对应宽，k对应通道数，w_k是第k个通道对应的权重，