CN113392740B - 一种基于双重注意力机制的行人重识别系统 - Google Patents
一种基于双重注意力机制的行人重识别系统 Download PDFInfo
- Publication number
- CN113392740B CN113392740B CN202110618743.5A CN202110618743A CN113392740B CN 113392740 B CN113392740 B CN 113392740B CN 202110618743 A CN202110618743 A CN 202110618743A CN 113392740 B CN113392740 B CN 113392740B
- Authority
- CN
- China
- Prior art keywords
- layer
- convolutional
- attention mechanism
- convolution
- size
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明属于图像处理技术领域,具体涉及一种基于双重注意力机制的行人重识别系统;在strongbaseline网络中引入注意力机制,包含通道注意力机制和空间注意力机制,其中通道注意力机制可以通过空间维度上进行压缩促进模型以专注于关键通道;空间注意力机制可以通过聚合所有通道的类似特征来突出语义像素;注意机制的本质是强调对学习目标有用的重要位置,并通过将权重系数分配给图像特征信息来抑制无关信息;将注意力机制插入到人员重识别模型中,减小相机角度、身体姿势的变化、身体未对齐和图片多样化等问题,在不显著增加计算量和参数量的前提下能提升网络模型的特征提取能力,提升网络性能。
Description
技术领域
本发明属于图像处理技术领域,具体涉及一种基于双重注意力机制的行人重识别系统。
背景技术
近年来,研究者对人物重识别(Person re-identification)进行了广泛的研究,人重新识别旨在验证非重叠摄像机捕获的图像序列中的行人身份,在公共安全视频监控中有许多应用,对安全和刑事调查具有巨大的现实意义。近年来,随着深度学习的发展,卷积神经网络已成功用于人物重识别。当背景相对简单并且情况相对固定时,这些方法取得了良好的结果。然而,在许多现实生活场景中,情况通常更复杂,由于存在视野变化,如空间未对齐,背景干扰和行人姿势改变,人物重识别是一个具有挑战性的任务。传统的卷积神经网络不能自适应地关注特征图的有用通道和区域,这限制了行人重识别的准确性。
发明内容
针对现有技术的不足,为了获得更高的准确性,本发明提出一种基于双重注意力机制的行人重识别系统,具有通道和空间双重注意力机制,专注于重要的特征和抑制不必要的特征,在不显著增加计算量和参数量的前提下能提升网络模型的特征提取能力。
本发明采用如下技术方案:
一种基于双重注意力机制的行人重识别系统,在strongbaseline网络中引入注意力机制,包含通道注意力机制和空间注意力机制,其中通道注意力机制可以通过空间维度上进行压缩促进模型以专注于关键通道;空间注意力机制可以通过聚合所有通道的类似特征来突出语义像素;注意机制的本质是强调对学习目标有用的重要位置,并通过将权重系数分配给图像特征信息来抑制无关信息。
一种基于双重注意力机制的行人重识别系统,在strongbaseline网络基础上插入双重注意力机制模块;其中具体结构如下:
第一层为卷积层,第二层为归一化层,第三层为激活函数层,第四层为池化,接下来是Stage结构,包含Stage1、Stage2、Stage3、Stage4;其中:
在Stage1的Conv Block中第一分支的第三层后面插入双重注意力机制模块,在Stage1的每个Identity Block中第三卷积层后面插入双重注意力机制模块;
在Stage2的Conv Block中第一分支的第三层后面插入双重注意力机制模块,在Stage2的每个Identity Block中第三卷积层后面插入双重注意力机制模块;
在Stage3的Conv Block中第一分支的第三层后面插入双重注意力机制模块,在Stage3的每个Identity Block中第三卷积层后面插入双重注意力机制模块;
在Stage4的Conv Block中第一分支的第三层后面插入双重注意力机制模块,在Stage4的每个Identity Block中第三卷积层后面插入双重注意力机制模块;
最后依次为池化层、归一化层、全连接层和SoftMax分类器。
所述双重注意力机制模块中通道注意力机制的构建具体步骤为:
步骤三:将经过多层感知器MLP得到的两个通道注意力图进行对应元素相加,再经过激活函数,其中激活函数采用Sigmoid激活函数,得到最终的通道注意力机制Mc(F),将Mc(F)作用于特征图F得到最终的通道注意力图F’。
所述双重注意力机制模块中空间注意力机制构建具体步骤为:
步骤二:对于拼接后的特征图,经过卷积核大小为7*7的卷积层,生成空间注意力机制Ms(F’),将Ms(F’)作用于特征图F’得到最终的空间注意力图F”。
所述一种基于双重注意力机制的行人重识别系统,其具体结构为:
第一层为卷积层,卷积核数量为64,每个卷积核大小为7*7,第二层为归一化层,第三层为激活函数层,其中激活函数采用Relu激活函数,第四层为池化层,采用最大值池化,池化大小为3*3;
接下来是Stage结构,包含Stage1、Stage2、Stage3、Stage4;其中:
Stage1由Conv Block和2个Identity Block组成,其中Conv Block包含两个分支,第一个分支的第一层为卷积层,卷积核数量为64,每个卷积核大小为1*1,第二层为卷积层,卷积核数量为64,每个卷积核大小为3*3,第三层为卷积层,卷积核数量为256,每个卷积核大小为1*1,将双重注意力机制模块插入该层后面,第二个分支为一层卷积层,卷积核数量为256,每个卷积核大小为1*1;每个分支的每个卷积层后都加入BN层,将得到的特征图进行融合,得到新的输入特征图;Identity Block的第一层为卷积层,卷积核数量为64,每个卷积核大小为1*1,第二层为卷积层,卷积核数量为64,每个卷积核大小为3*3,第三层为卷积层,卷积核数量为256,每个卷积核大小为1*1,且每个卷积层后都加入BN层;将双重注意力机制模块插入每个Identity Block的第三层后面,将该Identity Block的特征图与上一个Block特征进行融合,得到新的输入特征图;
Stage2由Conv Block和3个Identity Block组成,其中Conv Block包含两个分支,第一个分支的第一层为卷积层,卷积核数量为128,每个卷积核大小为1*1,第二层为卷积层,卷积核数量为128,每个卷积核大小为3*3,第三层为卷积层,卷积核数量为512,每个卷积核大小为1*1,将双重注意力机制模块插入该层后面,第二个分支为一层卷积层,卷积核数量为512,每个卷积核大小为1*1;每个分支的每个卷积层后都加入BN层,将特征图进行融合,得到新的输入特征图;Identity Block的第一层为卷积层,卷积核数量为128,每个卷积核大小为1*1,第二层为卷积层,卷积核数量为128,每个卷积核大小为3*3,第三层为卷积层,卷积核数量为512,每个卷积核大小为1*1,且每个卷积层后都加入BN层;将双重注意力机制模块插入每个Identity Block层的第三层后面,将该Identity Block的特征图与上一个Block特征进行融合,得到新的输入特征图;
Stage3由Conv Block和5个Identity Block组成,其中Conv Block包含两个分支,第一个分支的第一层为卷积层,卷积核数量为256,每个卷积核大小为1*1,第二层为卷积层,卷积核数量为256,每个卷积核大小为3*3,第三层为卷积层,卷积核数量为1024,每个卷积核大小为1*1,将双重注意力机制模块插入该层后面,第二个分支为一层卷积层,卷积核数量为1024,每个卷积核大小为1*1;每个分支的每个卷积层后都加入BN层,将两个分支的特征图进行融合,得到新的输入特征图;Identity Block的第一层为卷积层,卷积核数量为256,每个卷积核大小为1*1,第二层为卷积层,卷积核数量为256,每个卷积核大小为3*3,第三层为卷积层,卷积核数量为1024,每个卷积核大小为1*1,且每个卷积层后都加入BN层;将双重注意力机制模块插入每个Identity Block层的第三层后面,将该Identity Block的特征图与上一个Block特征进行融合,得到新的输入特征图;
Stage4由Conv Block和2个Identity Block组成,其中Conv Block包含两个分支,第一个分支的第一层为卷积层,卷积核数量为512,每个卷积核大小为1*1,第二层为卷积层,卷积核数量为512,每个卷积核大小为3*3,第三层为卷积层,卷积核数量为2048,每个卷积核大小为1*1,将双重注意力机制模块插入该层后面,第二个分支为一层卷积层,卷积核数量为2048,每个卷积核大小为1*1;每个分支的每个卷积层后都加入BN层,将两个分支的特征图进行融合,得到新的输入特征图;Identity Block的第一层为卷积层,卷积核数量为512,每个卷积核大小为1*1,第二层为卷积层,卷积核数量为512,每个卷积核大小为3*3,第三层为卷积层,卷积核数量为2048,每个卷积核大小为1*1,且每个卷积层后都加入BN层;将双重注意力机制模块插入每个Identity Block层的第三层后面,将该Identity Block的特征图与上一个Block特征进行融合,得到新的输入特征图;
将得到的特征图依次经过池化层、归一化层、全连接层和SoftMax分类器,SoftMax分类器根据特征进行分类,获得图像所属类别。
所述池化层采用全局平均池化,池化大小为3*3。
所述一种基于双重注意力机制的行人重识别系统的训练过程如下:
步骤一,获取公开的行人重识别数据集,并将数据集中的图片尺寸进行归一化操作,使得每张图片的像素尺寸均为256*128;
步骤二,采用ImageNet预训练网络参数初始化基于双重注意力机制的行人重识别系统中strongbaseline网络的参数,引入的双重注意力机制模块则随机初始化参数;
步骤三,将经步骤一处理后的数据集作为训练集输入基于双重注意力机制的行人重识别系统,并让该系统采用反向传播算法和随机梯度下降方法学习训练集中每个行人的特征,最后通过mAP和Rank1这两个指标来评估该系统在行人重识别中的有效性,当mAP和Rank1同时达到最优值时,得到训练好的系统。
本发明的有益效果:
本发明结合行人中识别模型和注意力机制,将注意力机制插入到人员重识别模型中,减小相机角度、身体姿势的变化、身体未对齐和图片多样化等问题,在不显著增加计算量和参数量的前提下能提升网络模型的特征提取能力,提升网络性能,更准确识别出相同类别的行人,更好的辅助安全和刑事调查等其他领域。
附图说明
图1是本发明系统的结构示意图;
图2是本发明双重注意力机制模块结构示意图;
图3是本发明通道注意力机制的示意图;
图4是本发明空间注意力机制的示意图。
具体实施方式
本发明基于双重注意力机制的行人重识别算法,是在一种strongbaseline网络中插入注意力机制模块,包含通道注意力机制和空间注意力机制,将注意力图和输入特征图相乘,进行自适应特征细化,其中:
通道注意力机制利用特征的通道间关系,生成通道注意图即权重,对经过卷积得到的特征图的每一层,乘以不同的权重,表示该层表示的特征对于关键信息的关联程度和重要程度,相应的,权重越大,表示该层表示的信息对于关键信息越重要,关联程度越高;权重越小,表示该层表示的信息对于关键信息越不重要,得到每一维的权重,对应乘到不同通道的值上,得到新的特征。
空间注意力机制利用特征间的空间关系生成空间注意图,通过注意力机制,更关注的是位置特性,将原始图片中的空间信息通过空间转换模块,变换到另一个空间中并保留关键信息。
一种基于双重注意力机制的行人重识别系统,在strongbaseline网络基础上插入双重注意力机制模块;其中具体结构如下:
第一层为卷积层,第二层为归一化层,第三层为激活函数层,第四层为池化,接下来是Stage结构,包含Stage1、Stage2、Stage3、Stage4;其中:
在Stage1的Conv Block中第一分支的第三层后面插入双重注意力机制模块,在Stage1的每个Identity Block中第三卷积层后面插入双重注意力机制模块;
在Stage2的Conv Block中第一分支的第三层后面插入双重注意力机制模块,在Stage2的每个Identity Block中第三卷积层后面插入双重注意力机制模块;
在Stage3的Conv Block中第一分支的第三层后面插入双重注意力机制模块,在Stage3的每个Identity Block中第三卷积层后面插入双重注意力机制模块;
在Stage4的Conv Block中第一分支的第三层后面插入双重注意力机制模块,在Stage4的每个Identity Block中第三卷积层后面插入双重注意力机制模块;
最后依次为池化层、归一化层、全连接层和SoftMax分类器。
将得到的特征图依次经过池化层、归一化层、全连接层和SoftMax分类器,SoftMax分类器根据特征对行人类别进行分类。
所述双重注意力机制模块中通道注意力机制的构建具体步骤为:
步骤三:将经过多层感知器MLP得到的两个通道注意力图进行对应元素相加,再经过激活函数,其中激活函数采用Sigmoid激活函数,得到最终的通道注意力机制Mc(F),将Mc(F)作用于特征图F得到最终的通道注意力图F’。
所述双重注意力机制模块中空间注意力机制构建具体步骤为:
步骤二:对于拼接后的特征图,经过卷积核大小为7*7的卷积层生成空间注意力机制Ms(F’),将Ms(F’)作用于特征图F’得到最终的空间注意力图F”。
未经过通道注意力机制的特征图为F,F经过通道注意力机制后得到F’,F’经过空间注意力机制后得到F”。
所述一种基于双重注意力机制的行人重识别系统,有2个基本的block,一个是Identity Block,输入和输出的维度是一样的,所以可以串联多个;另外一个基本block是Conv Block,输入和输出的维度不一样,不能连续串联,其具体结构为:
第一层为卷积层,卷积核数量为64,每个卷积核大小为7*7,第二层为归一化层,第三层为激活函数层,其中激活函数采用Relu激活函数,第四层为池化层,采用最大值池化,池化大小为3*3;
接下来是Stage结构,包含Stage1、Stage2、Stage3、Stage4;其中:
Stage1由Conv Block和2个Identity Block组成,其中Conv Block包含两个分支,第一个分支的第一层为卷积层,卷积核数量为64,每个卷积核大小为1*1,第二层为卷积层,卷积核数量为64,每个卷积核大小为3*3,第三层为卷积层,卷积核数量为256,每个卷积核大小为1*1,将双重注意力机制模块插入该层后面,第二个分支为一层卷积层,卷积核数量为256,每个卷积核大小为1*1;每个分支的每个卷积层后都加入BN层,将得到的两个分支的特征图进行融合,得到新的输入特征图;Identity Block的第一层为卷积层,卷积核数量为64,每个卷积核大小为1*1,第二层为卷积层,卷积核数量为64,每个卷积核大小为3*3,第三层为卷积层,卷积核数量为256,每个卷积核大小为1*1,且每个卷积层后都加入BN层;将双重注意力机制模块插入每个Identity Block的第三层后面,将该Identity Block的特征图与上一个Block特征进行融合,得到新的输入特征图;
第一个Identity Block是与上一个Conv Block特征进行融合,第二个IdentityBlock是与上一个Identity Block特征进行融合;
Stage2由Conv Block和3个Identity Block组成,其中Conv Block包含两个分支,第一个分支的第一层为卷积层,卷积核数量为128,每个卷积核大小为1*1,第二层为卷积层,卷积核数量为128,每个卷积核大小为3*3,第三层为卷积层,卷积核数量为512,每个卷积核大小为1*1,将双重注意力机制模块插入该层后面,第二个分支为一层卷积层,卷积核数量为512,每个卷积核大小为1*1;每个分支的每个卷积层后都加入BN层,将两个分支的特征图进行融合,得到新的输入特征图;Identity Block的第一层为卷积层,卷积核数量为128,每个卷积核大小为1*1,第二层为卷积层,卷积核数量为128,每个卷积核大小为3*3,第三层为卷积层,卷积核数量为512,每个卷积核大小为1*1,且每个卷积层后都加入BN层;将双重注意力机制模块插入每个Identity Block层的第三层后面,将该Identity Block的特征图与上一个Block特征进行融合,得到新的输入特征图;
Stage3由Conv Block和5个Identity Block组成,其中Conv Block包含两个分支,第一个分支的第一层为卷积层,卷积核数量为256,每个卷积核大小为1*1,第二层为卷积层,卷积核数量为256,每个卷积核大小为3*3,第三层为卷积层,卷积核数量为1024,每个卷积核大小为1*1,将双重注意力机制模块插入该层后面,第二个分支为一层卷积层,卷积核数量为1024,每个卷积核大小为1*1;每个分支的每个卷积层后都加入BN层,将两个分支的特征图进行融合,得到新的输入特征图;Identity Block的第一层为卷积层,卷积核数量为256,每个卷积核大小为1*1,第二层为卷积层,卷积核数量为256,每个卷积核大小为3*3,第三层为卷积层,卷积核数量为1024,每个卷积核大小为1*1,且每个卷积层后都加入BN层;将双重注意力机制模块插入每个Identity Block层的第三层后面,将该Identity Block的特征图与上一个Block特征进行融合,得到新的输入特征图;
Stage4由Conv Block和2个Identity Block组成,其中Conv Block包含两个分支,第一个分支的第一层为卷积层,卷积核数量为512,每个卷积核大小为1*1,第二层为卷积层,卷积核数量为512,每个卷积核大小为3*3,第三层为卷积层,卷积核数量为2048,每个卷积核大小为1*1,将双重注意力机制模块插入该层后面,第二个分支为一层卷积层,卷积核数量为2048,每个卷积核大小为1*1;每个分支的每个卷积层后都加入BN层,将两个分支的特征图进行融合,得到新的输入特征图;Identity Block的第一层为卷积层,卷积核数量为512,每个卷积核大小为1*1,第二层为卷积层,卷积核数量为512,每个卷积核大小为3*3,第三层为卷积层,卷积核数量为2048,每个卷积核大小为1*1,且每个卷积层后都加入BN层;将双重注意力机制模块插入每个Identity Block层的第三层后面,将该Identity Block的特征图与上一个Block特征进行融合,得到新的输入特征图;
将得到的特征图依次经过池化层、归一化层、全连接层和SoftMax分类器,SoftMax分类器根据特征进行分类,获得图像所属类别。
所述池化层采用全局平均池化,池化大小为3*3。
所述一种基于双重注意力机制的行人重识别系统的训练过程如下:
步骤一,获取公开的行人重识别数据集,并将数据集中的图片尺寸进行归一化操作,使得每张图片的像素尺寸均为256*128;
行人重识别数据集里面是不同的行人的照片,用不同编号表示不同行人类别,每个行人又有多张不同照片;
步骤二,采用ImageNet预训练网络参数(是公知的一个.pth类型的文件,参数都是预训练好的,下载之后直接使用)初始化基于双重注意力机制的行人重识别系统中strongbaseline网络的参数,引入的双重注意力机制模块则随机初始化参数;
步骤三,将经步骤一处理后的数据集作为训练集输入基于双重注意力机制的行人重识别系统,并让该系统采用反向传播算法和随机梯度下降方法学习训练集中每个行人的特征,最后通过mAP和Rank1这两个指标来评估该系统在行人重识别中的有效性,当mAP和Rank1同时达到最优值时,得到训练好的系统。
本发明通过mAP和Rank1指标来评估该模型在行人重识别任务中的有效性,设置1000个epoch训练模型,当训练到660个epoch时,mAP和Rank1达到最优值,得到训练好的模型,其中loss采用Triplet loss、center loss和ID loss。
整个过程是模型优化的过程,目的是要得到一个效果好的模型。这个模型优化的过程需要用到反向传播算法和梯度下降方法,模型训练的时候会算出一个loss值,根据前向传播的Loss值的大小,来进行反向传播迭代更新每一层的权重,反向传播根据loss值来不断优化模型,使模型找到很好的参数。
实施例2
如图1所示,所述双重注意力机制的行人重识别系统,是在strongbaseline基础上插入注意力机制模块。双重注意力机制的行人重识别模型有2个基本的block,一个是Identity Block,输入和输出的维度是一样的,所以可以串联多个;另外一个基本block是Conv Block,输入和输出的维度不一样,不能连续串联,其具体结构为:
第一层为卷积层,卷积核数量为64,每个卷积核大小为7*7,第二层为归一化层,第三层激活函数层,其中激活函数采用Relu激活函数,第四层为池化层,采用最大值池化,池化大小为3*3;
接下来是Stage结构,包含Stage1、Stage2、Stage3、Stage4。
Stage1由Conv Block和2个Identity Block组成,其中Conv Block包含两个分支,第一个分支的第一层为卷积层,卷积核数量为64,每个卷积核大小为1*1,第二层为卷积层,卷积核数量为64,每个卷积核大小为3*3,第三层为卷积层,卷积核数量为256,每个卷积核大小为1*1,将双重注意力机制模块插入该层后面,第二个分支为一层卷积层,卷积核数量为256,每个卷积核大小为1*1,每个分支的每个卷积层后都加入BN层,将得到的两个分支的特征图进行融合,得到新的输入特征图。其中Identity Block的第一层为卷积层,卷积核数量为64,每个卷积核大小为1*1,第二层为卷积层,卷积核数量为64,每个卷积核大小为3*3,第三层为卷积层,卷积核数量为256,每个卷积核大小为1*1,且每个卷积层后都加入BN层;将双重注意力机制模块插入每个Identity Block层的第三层后面,将该分支的特征图与上一个Block特征进行融合,得到新的输入特征图;
Stage2由Conv Block和3个Identity Block组成,其中Conv Block包含两个分支,第一个分支的第一层为卷积层,卷积核数量为128,每个卷积核大小为1*1,第二层为卷积层,卷积核数量为128,每个卷积核大小为3*3,第三层为卷积层,卷积核数量为512,每个卷积核大小为1*1,将双重注意力机制模块插入该层后面,第二个分支为一层卷积层,卷积核数量为512,每个卷积核大小为1*1,每个分支的每个卷积层后都加入BN层,将两个分支的特征图进行融合,得到新的输入特征图。其中Identity Block的第一层为卷积层,卷积核数量为128,每个卷积核大小为1*1,第二层为卷积层,卷积核数量为128,每个卷积核大小为3*3,第三层为卷积层,卷积核数量为512,每个卷积核大小为1*1,每个卷积层后都加入BN层;将双重注意力机制模块插入每个Identity Block层的第三层后面,将该分支的特征图与上一个Block特征进行融合,得到新的输入特征图;
Stage3由Conv Block和5个Identity Block组成,其中Conv Block包含两个分支,第一个分支的第一层为卷积层,卷积核数量为256,每个卷积核大小为1*1,第二层为卷积层,卷积核数量为256,每个卷积核大小为3*3,第三层为卷积层,卷积核数量为1024,每个卷积核大小为1*1,将双重注意力机制模块插入该层后面,第二个分支为一层卷积层,卷积核数量为1024,每个卷积核大小为1*1,每个分支的每个卷积层后都加入BN层,将两个分支的特征图进行融合,得到新的输入特征图。其中Identity Block的第一层为卷积层,卷积核数量为256,每个卷积核大小为1*1,第二层为卷积层,卷积核数量为256,每个卷积核大小为3*3,第三层为卷积层,卷积核数量为1024,每个卷积核大小为1*1,每个卷积层后都加入BN层;将双重注意力机制模块插入每个Identity Block层的第三层后面,将该分支的特征图与上一个Block特征进行融合,得到新的输入特征图;
Stage4由Conv Block和2个Identity Block组成,其中Conv Block包含两个分支,第一个分支的第一层为卷积层,卷积核数量为512,每个卷积核大小为1*1,第二层为卷积层,卷积核数量为512,每个卷积核大小为3*3,第三层为卷积层,卷积核数量为2048,每个卷积核大小为1*1,将双重注意力机制模块插入该层后面,第二个分支为一层卷积层,卷积核数量为2048,每个卷积核大小为1*1,每个分支的每个卷积层后都加入BN层,将两个分支的特征图进行融合,得到新的输入特征图。其中Identity Block的第一层为卷积层,卷积核数量为512,每个卷积核大小为1*1,第二层为卷积层,卷积核数量为512,每个卷积核大小为3*3,第三层为卷积层,卷积核数量为2048,每个卷积核大小为1*1,每个卷积层后都加入BN层;将双重注意力机制模块插入每个Identity Block层的第三层后面,将该分支的特征图与上一个Block特征进行融合,得到新的输入特征图;
将得到的特征图依次经过池化层,采用全局平均池化,池化大小为3*3;归一化层;网络最后采用全连接层的深度卷积方式提取图像特征,得到维度特征后使用SoftMax分类器,根据特征进行分类,获得图像类别。
所述双重注意力机制的行人重识别算法训练过程如下:
步骤一,获取公开的行人重识别数据集,将图片尺寸进行归一化操作,使得每张图片的像素尺寸均为256*128;
步骤二,采用ImageNet预训练网络参数初始化双重注意力机制的行人重识别模型参数,引入的注意力机制模块随机初始化参数;
步骤三,将数据集输入双重注意力机制的行人重识别模型进行训练,让双重注意力机制的行人重识别模型学习训练集中每个行人的特征,训练双重注意力机制的行人重识别采用反向传播算法和随机梯度下降方法,根据前向传播的Loss值的大小,来进行反向传播迭代更新每一层的权重。本发明通过mAP和Rank1来评估该模型在行人重识别任务中的有效性,设置1000个epoch训练模型,当训练到660个epoch时,mAP和Rank1达到最优值,得到训练好的模型,其中loss采用Triplet loss、center loss和ID loss。
如图2所示双重注意力机制模块,首先将strongbaseline网络每个block提取的特征F在空间维度上进行压缩,压缩采用全局最大池化和全局平均池化,得到两个一维矢量以后再进行操作,得到通道注意力Mc,将F与Mc融合为特征F′。将F′在在通道上进行压缩,压缩采用全局最大池化和全局平均池化,得到两个一维矢量以后再进行操作,得到通道注意力Ms,将F′与Ms融合为特征F″。将F″与F结合,得到最终特征。全局平均池化对特征图上的每一个像素点都有反馈,而全局最大池化在进行梯度反向传播计算时,只在特征图中响应最大的地方有梯度的反馈,能作为全局平均池化的一个补充。
如图3所示,通道注意力机制结构图,所述通道注意力机制构建具体步骤为:
步骤三:将经过MLP得到的两个通道注意力图进行对应元素相加,经过激活函数,其中激活函数采用Sigmoid激活函数,得到最终的通道注意力机制Mc(F),将Mc(F)作用于特征图F得到最终的通道注意力图F’,公式表示如下:
其中最终的通道注意力机制Mc(F)表示如下:
如图4所示,空间注意力机制结构图,所述空间注意力机制构建具体步骤为:
步骤二:对于拼接后的特征图,经过7*7的卷积层生成空间注意力机制Ms(F’),将Ms(F’)作用于特征图F’得到最终的空间注意力图F”。
公式表示如下:
其中空间注意力机制Ms(F’)表示如下:
本发明研究通道之间的关系和空间位置之间的关系,将它们与关注网络相结合,专注于重要的特征和抑制不必要的特征,在公开行人重识别数据集上进行了验证,该系统可以有效匹配到相同行人,在不显著增加计算量和参数量的前提下能提升网络模型的特征提取能力,模型泛化能力和推广能力可靠性较强。
Claims (4)
1.一种基于双重注意力机制的行人重识别系统,其特征在于,在strongbaseline网络基础上插入双重注意力机制模块;其中具体结构如下:
第一层为卷积层,第二层为归一化层,第三层为激活函数层,第四层为池化,接下来是Stage结构,包含Stage1、Stage2、Stage3、Stage4;其中:
在Stage1的Conv Block中第一分支的第二层后面插入双重注意力机制模块,在Stage1的每个Identity Block中第三卷积层后面插入双重注意力机制模块;
在Stage2的Conv Block中第一分支的第三层后面插入双重注意力机制模块,在Stage2的每个Identity Block中第三卷积层后面插入双重注意力机制模块;
在Stage3的Conv Block中第一分支的第三层后面插入双重注意力机制模块,在Stage3的每个Identity Block中第三卷积层后面插入双重注意力机制模块;
在Stage4的Conv Block中第一分支的第三层后面插入双重注意力机制模块,在Stage4的每个Identity Block中第三卷积层后面插入双重注意力机制模块;
最后依次为池化层、归一化层、全连接层和SoftMax分类器;
所述一种基于双重注意力机制的行人重识别系统,其具体结构为:
第一层为卷积层,卷积核数量为64,每个卷积核大小为7*7,第二层为归一化层,第三层为激活函数层,其中激活函数采用Relu激活函数,第四层为池化层,采用最大值池化,池化大小为3*3;
接下来是Stage结构,包含Stage1、Stage2、Stage3、Stage4;其中:
Stage1由Conv Block和2个Identity Block组成,其中Conv Block包含两个分支,第一个分支的第一层为卷积层,卷积核数量为64,每个卷积核大小为1*1,第二层为卷积层,卷积核数量为64,每个卷积核大小为3*3,第三层为卷积层,卷积核数量为256,每个卷积核大小为1*1,将双重注意力机制模块插入该层后面,第二个分支为一层卷积层,卷积核数量为256,每个卷积核大小为1*1;每个分支的每个卷积层后都加入BN层,将得到的特征图进行融合,得到新的输入特征图;Identity Block的第一层为卷积层,卷积核数量为64,每个卷积核大小为1*1,第二层为卷积层,卷积核数量为64,每个卷积核大小为3*3,第三层为卷积层,卷积核数量为256,每个卷积核大小为1*1,且每个卷积层后都加入BN层;将双重注意力机制模块插入每个Identity Block的第三层后面,将该Identity Block的特征图与上一个Block特征进行融合,得到新的输入特征图;
Stage2由Conv Block和3个Identity Block组成,其中Conv Block包含两个分支,第一个分支的第一层为卷积层,卷积核数量为128,每个卷积核大小为1*1,第二层为卷积层,卷积核数量为128,每个卷积核大小为3*3,第三层为卷积层,卷积核数量为512,每个卷积核大小为1*1,将双重注意力机制模块插入该层后面,第二个分支为一层卷积层,卷积核数量为512,每个卷积核大小为1*1;每个分支的每个卷积层后都加入BN层,将特征图进行融合,得到新的输入特征图;Identity Block的第一层为卷积层,卷积核数量为128,每个卷积核大小为1*1,第二层为卷积层,卷积核数量为128,每个卷积核大小为3*3,第三层为卷积层,卷积核数量为512,每个卷积核大小为1*1,且每个卷积层后都加入BN层;将双重注意力机制模块插入每个Identity Block层的第三层后面,将该Identity Block的特征图与上一个Block特征进行融合,得到新的输入特征图;
Stage3由Conv Block和5个Identity Block组成,其中Conv Block包含两个分支,第一个分支的第一层为卷积层,卷积核数量为256,每个卷积核大小为1*1,第二层为卷积层,卷积核数量为256,每个卷积核大小为3*3,第三层为卷积层,卷积核数量为1024,每个卷积核大小为1*1,将双重注意力机制模块插入该层后面,第二个分支为一层卷积层,卷积核数量为1024,每个卷积核大小为1*1;每个分支的每个卷积层后都加入BN层,将两个分支的特征图进行融合,得到新的输入特征图;Identity Block的第一层为卷积层,卷积核数量为256,每个卷积核大小为1*1,第二层为卷积层,卷积核数量为256,每个卷积核大小为3*3,第三层为卷积层,卷积核数量为1024,每个卷积核大小为1*1,且每个卷积层后都加入BN层;将双重注意力机制模块插入每个Identity Block层的第三层后面,将该Identity Block的特征图与上一个Block特征进行融合,得到新的输入特征图;
Stage4由Conv Block和2个Identity Block组成,其中Conv Block包含两个分支,第一个分支的第一层为卷积层,卷积核数量为512,每个卷积核大小为1*1,第二层为卷积层,卷积核数量为512,每个卷积核大小为3*3,第三层为卷积层,卷积核数量为2048,每个卷积核大小为1*1,将双重注意力机制模块插入该层后面,第二个分支为一层卷积层,卷积核数量为2048,每个卷积核大小为1*1;每个分支的每个卷积层后都加入BN层,将两个分支的特征图进行融合,得到新的输入特征图;Identity Block的第一层为卷积层,卷积核数量为512,每个卷积核大小为1*1,第二层为卷积层,卷积核数量为512,每个卷积核大小为3*3,第三层为卷积层,卷积核数量为2048,每个卷积核大小为1*1,且每个卷积层后都加入BN层;将双重注意力机制模块插入每个Identity Block层的第三层后面,将该Identity Block的特征图与上一个Block特征进行融合,得到新的输入特征图;
将得到的特征图依次经过池化层、归一化层、全连接层和SoftMax分类器,SoftMax分类器根据特征对行人类别进行分类,获得图像所属类别;
所述一种基于双重注意力机制的行人重识别系统的训练过程如下:
步骤一,获取公开的行人重识别数据集,并将数据集中的图片尺寸进行归一化操作,使得每张图片的像素尺寸均为256*128;
步骤二,采用ImageNet预训练网络参数初始化基于双重注意力机制的行人重识别系统中strongbaseline网络的参数,引入的双重注意力机制模块则随机初始化参数;
步骤三,将经步骤一处理后的数据集作为训练集输入基于双重注意力机制的行人重识别系统,并让该系统采用反向传播算法和随机梯度下降方法学习训练集中每个行人的特征,最后通过mAP和Rank1这两个指标来评估该系统在行人重识别中的有效性,当mAP和Rank1同时达到最优值时,得到训练好的系统。
2.根据权利要求1所述的一种基于双重注意力机制的行人重识别系统,其特征在于,所述双重注意力机制模块中通道注意力机制的构建具体步骤为:
步骤三:将经过多层感知器MLP得到的两个通道注意力图进行对应元素相加,再经过激活函数,其中激活函数采用Sigmoid激活函数,得到最终的通道注意力机制Mc(F),将Mc(F)作用于特征图F得到最终的通道注意力图F’。
4.根据权利要求3所述的一种基于双重注意力机制的行人重识别系统,其特征在于,所述池化层采用全局平均池化,池化大小为3*3。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110618743.5A CN113392740B (zh) | 2021-06-03 | 2021-06-03 | 一种基于双重注意力机制的行人重识别系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110618743.5A CN113392740B (zh) | 2021-06-03 | 2021-06-03 | 一种基于双重注意力机制的行人重识别系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113392740A CN113392740A (zh) | 2021-09-14 |
CN113392740B true CN113392740B (zh) | 2022-06-28 |
Family
ID=77618038
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110618743.5A Active CN113392740B (zh) | 2021-06-03 | 2021-06-03 | 一种基于双重注意力机制的行人重识别系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113392740B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116580428A (zh) * | 2023-07-11 | 2023-08-11 | 中国民用航空总局第二研究所 | 一种基于多尺度通道注意力机制的行人重识别方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670555A (zh) * | 2018-12-27 | 2019-04-23 | 吉林大学 | 基于深度学习的实例级行人检测和行人重识别系统 |
CN110070073A (zh) * | 2019-05-07 | 2019-07-30 | 国家广播电视总局广播电视科学研究院 | 基于注意力机制的全局特征和局部特征的行人再识别方法 |
CN110110642A (zh) * | 2019-04-29 | 2019-08-09 | 华南理工大学 | 一种基于多通道注意力特征的行人重识别方法 |
KR102187302B1 (ko) * | 2020-01-13 | 2020-12-04 | 서강대학교 산학협력단 | 보행자 패션 정보를 이용한 보행자 검색 시스템 및 보행자 검색 방법 |
CN112069920A (zh) * | 2020-08-18 | 2020-12-11 | 武汉大学 | 基于属性特征驱动聚类的跨域行人重识别方法 |
CN112733590A (zh) * | 2020-11-06 | 2021-04-30 | 哈尔滨理工大学 | 一种基于二阶混合注意力的行人重识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3706034A1 (en) * | 2019-03-06 | 2020-09-09 | Robert Bosch GmbH | Movement prediction of pedestrians useful for autonomous driving |
-
2021
- 2021-06-03 CN CN202110618743.5A patent/CN113392740B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670555A (zh) * | 2018-12-27 | 2019-04-23 | 吉林大学 | 基于深度学习的实例级行人检测和行人重识别系统 |
CN110110642A (zh) * | 2019-04-29 | 2019-08-09 | 华南理工大学 | 一种基于多通道注意力特征的行人重识别方法 |
CN110070073A (zh) * | 2019-05-07 | 2019-07-30 | 国家广播电视总局广播电视科学研究院 | 基于注意力机制的全局特征和局部特征的行人再识别方法 |
KR102187302B1 (ko) * | 2020-01-13 | 2020-12-04 | 서강대학교 산학협력단 | 보행자 패션 정보를 이용한 보행자 검색 시스템 및 보행자 검색 방법 |
CN112069920A (zh) * | 2020-08-18 | 2020-12-11 | 武汉大学 | 基于属性特征驱动聚类的跨域行人重识别方法 |
CN112733590A (zh) * | 2020-11-06 | 2021-04-30 | 哈尔滨理工大学 | 一种基于二阶混合注意力的行人重识别方法 |
Non-Patent Citations (4)
Title |
---|
An Attention-Driven Two-Stage Clustering Method for Unsupervised Person Re-identification;Zilong Ji等;《European Conference on Computer Vision》;20201103;第20-36页 * |
Person Re-Identification Based on Attention Mechanism and Context Information Fusion;Shengbo Chen等;《Future Internet》;20210313;第13卷(第3期);第1-15页 * |
基于注意力机制的行人重识别研究;李聪;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20210115;第I138-1545页 * |
深度双重注意力的生成与判别联合学习的行人重识别;张晓艳等;《光电工程》;20210515;第48卷(第5期);第57-65页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113392740A (zh) | 2021-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108520535B (zh) | 基于深度恢复信息的物体分类方法 | |
CN110188795B (zh) | 图像分类方法、数据处理方法和装置 | |
CN112446270A (zh) | 行人再识别网络的训练方法、行人再识别方法和装置 | |
CN112801015B (zh) | 一种基于注意力机制的多模态人脸识别方法 | |
CN108985252B (zh) | 改进的脉冲深度神经网络的图像分类方法 | |
CN110222718B (zh) | 图像处理的方法及装置 | |
CN112800894A (zh) | 一种基于时空流间注意力机制的动态表情识别方法及系统 | |
CN108154133B (zh) | 基于非对称联合学习的人脸画像-照片识别方法 | |
CN110390308B (zh) | 一种基于时空对抗生成网络的视频行为识别方法 | |
CN110781736A (zh) | 基于双流网络将姿态和注意力相结合的行人重识别方法 | |
KR101910089B1 (ko) | 멀티 모달의 상관관계를 이용한 동영상 특징 벡터 추출 방법 및 시스템 | |
CN113920581A (zh) | 一种时空卷积注意力网络用于视频中动作识别的方法 | |
CN111797882A (zh) | 图像分类方法及装置 | |
CN112183240A (zh) | 一种基于3d时间流和并行空间流的双流卷积行为识别方法 | |
CN115424331A (zh) | 基于全局和局部注意力机制的人脸亲属关系特征提取验证方法 | |
CN113361549A (zh) | 一种模型更新方法以及相关装置 | |
CN112446835A (zh) | 图像恢复方法、图像恢复网络训练方法、装置和存储介质 | |
CN114694089A (zh) | 一种新型的多模态融合的行人重识别算法 | |
CN113505719A (zh) | 基于局部-整体联合知识蒸馏算法的步态识别模型压缩系统及方法 | |
CN113392740B (zh) | 一种基于双重注意力机制的行人重识别系统 | |
CN113269099B (zh) | 基于图匹配的异构无人系统下车辆重新识别方法 | |
CN114882537A (zh) | 一种基于神经辐射场的手指新视角图像生成方法 | |
CN113763417B (zh) | 一种基于孪生网络和残差结构的目标跟踪方法 | |
WO2022246612A1 (zh) | 活体检测方法、活体检测模型的训练方法及其装置和系统 | |
US11881020B1 (en) | Method for small object detection in drone scene based on deep learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |