CN113158905A - 一种基于注意力机制的行人重识别方法 - Google Patents
一种基于注意力机制的行人重识别方法 Download PDFInfo
- Publication number
- CN113158905A CN113158905A CN202110441436.4A CN202110441436A CN113158905A CN 113158905 A CN113158905 A CN 113158905A CN 202110441436 A CN202110441436 A CN 202110441436A CN 113158905 A CN113158905 A CN 113158905A
- Authority
- CN
- China
- Prior art keywords
- feature
- network
- pedestrian
- features
- attention mechanism
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000007246 mechanism Effects 0.000 title claims abstract description 48
- 230000008447 perception Effects 0.000 claims abstract description 22
- 230000004927 fusion Effects 0.000 claims abstract description 18
- 230000001965 increasing effect Effects 0.000 claims abstract description 7
- 238000004140 cleaning Methods 0.000 claims abstract description 4
- 230000002708 enhancing effect Effects 0.000 claims abstract description 4
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 16
- 239000013598 vector Substances 0.000 claims description 16
- 238000012512 characterization method Methods 0.000 claims description 14
- 238000005457 optimization Methods 0.000 claims description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 8
- 230000003287 optical effect Effects 0.000 claims description 7
- 210000002569 neuron Anatomy 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 230000002238 attenuated effect Effects 0.000 claims description 3
- 230000002902 bimodal effect Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000007499 fusion processing Methods 0.000 claims description 3
- 230000002779 inactivation Effects 0.000 claims description 3
- 230000002401 inhibitory effect Effects 0.000 claims description 3
- 238000005728 strengthening Methods 0.000 claims description 3
- 238000013461 design Methods 0.000 abstract description 11
- 238000011176 pooling Methods 0.000 description 19
- 238000012544 monitoring process Methods 0.000 description 14
- 230000000694 effects Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 7
- 230000000007 visual effect Effects 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 6
- 230000004913 activation Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 230000002829 reductive effect Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 2
- 238000012938 design process Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 239000012466 permeate Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于注意力机制的行人重识别方法,其特征在于,包括如下步骤:准备数据集,数据清洗、预处理以及数据增强;特征提取器的设计;特征优化器的设计;特征融合器的设计;特征分类器的设计;注意力机制在通道域上的设计;注意力机制在空间域上的设计;合成网络对输入数据进行训练;在上下文感知的基础上增加模态之间的特征感知,学习得到不同特征间的关联权重参数值,从而提高特征的有效区分能力;该方法达不仅较好地保留了低质量图像的细节信息,还提升了特征的表征能力,增强了网络行人识别任务的判别能力。
Description
技术领域
本发明涉及目标检测技术领域,尤其涉及一种基于注意力机制的 行人重识别方法。
背景技术
现代社会高速发展,社会安防措施和人们的安全意识与日俱增, 监控技术的应用也渗透进生活的各个方面,不管是在人群密集的场所, 还是在需要安保的场所,一般监控都是全方位覆盖。在监控领域,计 算机通过监控摄像头来获取巨量的视觉信息,同时利用相关算法来完 成识别任务。目标检测算法用于定位和识别监控视频中的行人、机动 车、非机动车等目标。通过该算法完成监控任务,包括监控目标跟踪、 行为识别和重识别等。考虑到单个摄像头覆盖范围有限,可以将多个 摄像头联动,组合实现对目标跨摄像头的跟踪,行人重识别技术是实 现多摄像头跟踪的重要技术之一。
行人重识别技术用于识别不同视角下、不同监控拍摄的特定行人, 给定由某个监控捕获的特定目标的图像,行人重识别系统在其他监控 中重新识别该对象。表现出不同摄像头拍摄同一个目标的差异情况以 及拍摄不同目标时在视觉上表现相似的情况,不同监控拍摄得到的画 面可能存在光线、视角、姿态等变化以及遮挡等问题,不同摄像头由 于视角和拍摄时间不同导致得到的相同目标的图像也存在明显区别; 有时,因为不同目标由于存在某种相似性也会干扰行人重识别系统的 判断,此时同一个监控中的不同行人对象也在视觉分布上具有相似性。
行人重识别的研究可以追溯到多摄像头追踪研究分支,在早期, 行人重识别任务的模型基于多摄像头间使用几何校正,1997年提出 贝叶斯公式,该公式用来估计出现在给定摄像头中的行人为其他摄像 头所拍摄行人的后验概率。模型使用的特征为多态时空特征,包括颜 色,车辆的长、宽、高,速度以及观察到的时间等。2005年研究人 员正式提出行人重识别这个概念,对一个离开拍摄区域,一段时间后 又重新回到原拍摄视野的行人目标进行重新识别,假设每个被观测对 象都存在唯一的潜在标签,定义一种描述动态贝叶斯网络编码标签和 所拍摄特征间关系的概率模型。在深度学习未引入行人重识别之前, 传统的行人重识别方法大致分为两大类:使用手工特征以及度量学习。 2014年深度学习首次引入到行人重识别领域,Yi等人使用孪生网络 判定监控图像中是否为同一个目标。在最近几年的研究中,基于深度 学习的行人重识别方法在某些方面重新开始使用手工特征。例如Li等人从图像块中提取局部颜色特征,之后使用分层高斯方法对特征执 行聚类操作来获得空间信息。除此之外,手工选择特征时还可以选择 使用基于属性的特征,基于属性的特征具有更强鲁棒性。Liu等人在 无监督方法中使用一般属性的手工特征来获取行人目标原型,根据原 型自适应学习得到不同行人目标相应的权重值。在手动提取特征的行 人重识别系统中,由于视觉特征这类手工属性具有高维的特点,无法 在不断变化的样本中捕捉得到不变的因子,因此不同的距离度量方式 产生不同的性能表现。在行人重识别领域,广泛使用的是基于全局监 督的度量学习,全局度量学习的目标是最小化同类对象特征向量之间 的距离,最大化异类对象特征向量之间的距离,广泛使用的度量方式 是马氏距离。在研究初期,基于深度学习的行人重识别方法的最大瓶 颈在于训练数据匮乏。目前基于卷积神经网络的行人重识别方法一般 选择使用孪生模型,但是孪生网络存在的问题是在网络训练过程中可 能仅学习到图像对或者三元图像的标签信息,不能充分利用行人目标 的注释信息,学习到的特征表征可能存在偏差。行人重识别任务需要 关注不同尺度的特征,2017年,Li等人使用膨胀率不同的膨胀卷积 提取多尺度特征后实现行人重识别任务;2018年,Song等人为了解 决行人重识别背景杂乱,将行人掩码信息引入行人重识别任务中,根 据二值掩码,移除杂乱的背景,将人体目标从整张图像中分割出来, 从而完成行人重识别任务。
虽然行人重识别领域经历了多轮的技术更迭,但是仍然存在一些 亟待解决的问题,第一点,由于摄像机得到的监控视频流无法表现出 序列特征的相关性,因此视频特征的重要性也无法得到有效区分,在 行人重识别任务中影响了目标特征的表征效果;第二点,从不同维度 描述监控图像时,缺乏从跨维度、跨模态的全局视野去捕捉更具整体 判别效果的关键特征。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于注意力机 制的行人重识别方法。
本发明的目的通过下述技术方案实现:
一种基于注意力机制的行人重识别方法,该方法主要包括如下具 体步骤:
S1、准备数据集,数据清洗、预处理以及数据增强;
S2、特征提取器的设计;
S3、特征优化器的设计;
S4、特征融合器的设计;
S5、特征分类器的设计;
S6、注意力机制在通道域上的设计;
S7、注意力机制在空间域上的设计;
S8、合成网络对输入数据进行训练。
进一步地,所述步骤S1还包括:对收集到的数据样本进行清洗 以及预处理,把图像序列以及光流序列全部缩小到128×256大小, 然后以0.2的概率进行水平翻转来增强训练集。
进一步地,所述步骤S2还包括:特征提取器提取模态的基本特 征,光流输入模态经过特征提取器后获得特征X和特征F,然后输入 到特征优化器进行后续处理,在提取特征时,通过叠加神经网络来增 加网络深度,实现远距离的信息提取任务,越高层的卷积神经网络层 具有更大的感受野,从而可以捕获更多图像特征信息。
进一步地,所述步骤S3还包括:在网络架构中,所述特征优化 器通过神经元的串联结构来捕捉视频序列流中的上下文信息,在感知 信息的监督下,采用门结构的形式来学习权重参数,对模态数据进行 优化处理,具体表现为:模态每一帧的信息都具有前后相邻帧中的连 续信息以及模态的全局感知能力。
进一步地,所述步骤S4还包括:特征融合器将特征优化器的输 出特征沿着通道方向进行融合处理,得到整个视频段的最终表征向量, 将得到的特征加权拼接,特征融合器采用改进后的残差网络,不同层 的特征具有不同的图像信息表征能力,在低维阶段,输出特征图中缺 乏语义信息,在高维阶段,输出特征图具有更多上下文信息及语义信 息。
进一步地,所述步骤S5还包括:特征分类器的输入为特征融合 器输出的表征向量,传送到全连接层用于分类,最终实现行人重识别 的任务。
进一步地,所述步骤S6还包括:通道注意力建模出不同通道即 不同特征图之间的联系,通过网络学习自动获取每个特征通道的重要 程度,最后再为每个通道赋予相应的权重系数,借助权重参数来强化 重要特征以及抑制无关特征。
进一步地,所述步骤S7还包括:空间注意力机制嵌入到原始网 络中,计算每个位置单独的特征时需要对所有位置执行加权的操作, 从而建立起多帧特征间的联系,每个分支的基础特征分别利用自注意 力进行全局优化,利用帧级优化的特征生成全局注意力掩码,使得段 级的特征优化具有双模态的全局感知信息。
进一步地,所述步骤S8还包括:在网络的实际训练过程中,根 据以ResNet50为基础提取网络的ImageNet预训练模型对本发明中构 建的网络进行参数初始化,采用批量梯度下降进行训练,其中batch size的大小设置为8,在训练过程中随机失活率设置为0.5,学习率 初始值设置为0.001,学习率每经过10个epoch就衰减10%。
与现有技术相比,本发明还具有以下优点:
(1)本发明所提供的基于注意力机制的行人重识别方法与传统 技术相比实践条件更宽松且性能更优越,本发明提出的算法不仅达到 了很好的图像增强效果,同时也较好地保留了低质量图像的细节信息; 传统的注意力机制通过全局平均池化计算出一个权值系数,然后利用 该系数对原始输入特征图执行统一缩放的操作,全局平均池化在二维 空间层面上对输入张量进行分解,浓缩为单个系数值,可能导致空间 细节信息的缺失,而且只基于通道操作,可能忽略掉空间中的关键信 息。本发明构建的模型生成带有多模态全局感知效果的权重矩阵,相 比过去用于行人重识别任务的网络具有提升全局特征的优化效果,网 络各层的特征在视频表征上互补,因此增强了网络最终行人识别的判 别能力。
(2)本发明所提供的基于注意力机制的行人重识别方法通过神 经元的串联结构来捕捉序列上下文的联系,在上下文感知的基础上增 加模态间的特征感知,学习不同特征之间的关联权重,提高特征的有 效区分能力。
附图说明
图1是本发明所提供的基于注意力机制的行人重识别方法的流 程图;
图2是本发明所提供的网络模型的整体架构示意图;
图3是本发明所提供的空间注意力机制嵌入到网络后的示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明确,以下参照 附图并举实施例对本发明作进一步说明。
以下首先就本发明的技术术语进行解释与说明:
感受野:感受野表示输入空间中一个特定CNN特征的范围区域。 一个特征的感受野可以采用区域的中心位置和特征大小进行描述。 CNN中每层的Feature Map上的像素点在原始图像中映射的区域大小, 相当于高层的特征图中的像素点受原图多大区域的影响。
上采样:上采样又称为放大图像或图像插值,主要目的是放大原 图像,从而可以显示在更高分辨率的显示设备上。图像放大几乎都是 采用内插值方法,即在原有图像像素的基础上在像素点之间采用合适 的插值算法插入新的元素。
下采样:即缩小图像,主要目的有两个:使得图像符合显示区域 的大小以及生成对应图像的缩略图。
数据增强:图像增强的方式有很多,如裁剪、翻转、旋转、缩放、 扭曲等几何变换,还有像素扰动、添加噪声、光照调节、对比度调节、 样本加和或插值、分割补丁等。数据增强可以提高模型性能,原因在 于:增强的样本和原来的样本存在强相关性,数据增强扩充了数据集, 并且可以带来某种正则化作用,因为模型会更集中地观测数据总的普 遍模式,而消除了某些和普遍模式无关的数据,进而可以减小模型的 结构风险。
卷积层:是深度学习提取特征的基本网络层,卷积是一种过滤器, 是通过矩阵之间对应元素相乘并累加的结果,迭代移动的矩阵称为卷 积核,卷积核一般是较小的矩阵,因此卷积具有局部性,迭代地对图 像特征矩阵进行卷积操作,可以得到矩阵的局部感知和局部特征;除 此之外,卷积核具有共享参数的作用,所以在训练过程中减少参数量。
池化层:增加模型感受野的关键层,池化是一种局部区域特征描 述的方式,将局部特征融合得到一个特征值作为整个局部的表征,分 为最大池化和平均池化,体现在RoIPooling中;全局平均池化指的是 将最后一层网络层得到的每个通道特征图平均池化得到通道的特征, 每个通道特征代表模型提取出的一个图形信号分量,在网络设计时把 全局平均池化层取代全连接层是一个常用技巧。
激活函数层:卷积核池化都是线性操作,所以需要激活函数来进 行非线性地变换,使得网络能够去拟合非线性的环境。其中激活函数 sigmoid还可以用于模型特征图归一化,是常见的归一化函数。
全连接层:每个神经元都与上层所有神经元紧密相连,对上一层 网络的特征加权,从而将特征空间线性映射到样本空间,全连接层可 以看做是分类器,缺点是全连接设计导致参数量巨大;因为全连接还 具有关联通道特征的作用,所以也会使用在网络设计时的注意力机制 中。
循环神经网络:在时序上传递的网络,与全连接网络和卷积神经 网络是完全不同的设计架构。循环神经网络的前向传播计算需要综合 当前节点的输入和上一隐藏层的值,反向传播时也是类似的。
卷积神经网络:由卷积层、池化层、激活函数层、全连接层等相 关网络层构建得到,通过网络层的堆叠设计,网络模型感受野的增加, 提取图像的下层特征、中层特征以及上层特征,实现图像表征。
实施例一
如图1至图3所示,本实施例公开了一种基于注意力机制的行人 重识别方法,包括如下具体实施步骤:
S1、准备数据集,数据清洗、预处理以及数据增强;在网上筛选 两个摄像头的视频序列监控数据,收集了其中200个用户实例,得到 的视频序列有400份。
模型的整体架构设计,主要包括四个模块:特征提取器、特征优 化器、特征融合器、特征分类器。除了基础架构外,还要在结构中引 入注意力机制,注意力机制的引入需要结合两个模态,一个是基于通 道域的模态,另一个是基于空间域的模态,之所以考虑两个模态是因 为在不同模态上具有不同表征。注意力机制是模型设计中最重要的部 分,许多功能的实现都与注意力机制相耦合。
S2、特征提取器的设计;视频流相较于图像数据而言,具有更丰 富的特征信息,但同时引入的冗余信息也会增加,所以需要在设计特 征提取器时考虑降低网络中的特征冗余程度。
S3、特征优化器的设计;在网络架构中,借助神经元串联的结构 设计来捕捉视频序列流中的上下文信息。
S4、特征融合器的设计;将低维和高维上不同表征的特征相融合。
S5、特征分类器的设计;
S6、注意力机制在通道域上的设计;输入是特征融合器输出的表 征向量,传送到全连接层用于分类,最终实现了行人重识别的任务。
S7、注意力机制在空间域上的设计;通道注意力将一个通道内的 信息直接进行全局处理,忽略空间上的信息交换。
注意力机制在空间域上的设计,空间注意力通过学习视觉特征的 全局相关性,辅助完成时空特征的区分任务。
S8、合成网络对输入数据进行训练;用合成网络训练预处理后的 数据集,训练过程中使用ResNet50作为基础网络的ImageNet预训练 模型。
步骤S1还包括:对收集到的数据样本进行清洗以及预处理,把 图像序列以及光流序列全部缩小到128×256大小,然后以0.2的概 率进行水平翻转来增强训练集。
注意力机制的本质是通过网络自主学习得到一组权重系数,以动 态加权的方式来强调输入中感兴趣的区域,同时抑制输入中不相关的 背景区域;注意力机制分为两类:强注意力和软注意力;强注意力是 一种随机的预测,注重的是动态变化,并且是不可微的,所以使用场 景受到限制;软注意力是可微的,基于梯度下降法训练的神经网络中 可以获得软注意力,正因为软注意力是可微的,所以在使用场景上相 对不会受到限制。软注意力按照不同维度,例如通道、空间、时间等, 将软注意力分为通道注意力、空间注意力以及自注意力。
步骤S2还包括:视频流相较于图像数据而言,具有更丰富的特 征信息,但也会在网络中引入过多的冗余信息,所以需要在设计特征 提取器时考虑降低网络中特征信息的冗余程度。特征提取器提取模态 的基本特征,光流输入模态经过特征提取器后获得特征X和F,然后 输入到特征优化器进行后续的处理操作。在提取特征时,通过叠加神 经网络来增加网络深度,实现长远距离的信息提取任务,越高层的卷 积神经网络层具有更大的感受野,从而可以捕获更多图像特征信息。 在进行特征提取时,卷积神经网络的窗口滑动过程没有先后顺序,不 同卷积核的卷积过程相互独立。视频流相对于图像数据来说信息更丰富,但同时在视频的单个序列中也会存在过多的冗余信息,所以特征 提取器在提取特征时需要聚焦于关键帧,降低信息冗余度,在相似特 征中保留一个特征即可。
步骤S3还包括:特征优化器由两个对称的注意力模块而构成, 根据全局注意力感知方式,由帧级优化特征生成权重掩码,对原始基 础特征的变换进行加权,得到对应模态的优化特征。特征优化器通过 神经元的串联结构来捕捉视频序列流中的上下文联系,在感知信息的 监督下,采用门结构的形式来学习权重参数,对模态数据进行特征的 优化操作,使得模态每一帧信息中都具有前后相邻帧中的连续信息以 及模态的全局感知能力。
步骤S4还包括:特征融合器是将特征优化器的输出特征图沿通 道方向进行融合处理,得到整个视频段的最终表征向量。在特征融合 网络的设计过程中,考虑了多种设计方案,第一种方案是把每个分支 网络输出特征向量的权重值均设置为1,即平均分配重要程度,然后 再送入后续网络中进行训练,模型自适应学习得到各自真实权重值; 第二种方案是手动设置每个分支网络输出特征向量融合时的权重值, 然后再送入后续网络,在训练过程中进行参数的微调;本发明在设计 网络过程或者采用第二种特征加权拼接方式,特征融合器由改进后的 52层残差网络构成,不同网络层的特征具有不同的图像信息表征能力,在低维阶段,由于感受野比较小,所以输出特征图缺乏语义信息, 在高维阶段,感受野较大,此时网络输出特征图具有了更多的上下文 信息以及语义信息。
步骤S5还包括:特征分类器的输入是特征融合器输出的表征向 量,传送到全连接层用于分类,最终实现了行人重识别任务。
步骤S6还包括:通道注意力建模出不同通道即不同特征图之间 的联系,网络自适应学习获取每个特征通道的重要程度,为每个通道 赋予不同的权重系数,借助权重参数强化重要特征以及抑制无关特征。 SENet网络借助特征重标定自适应调整通道之间的特征响应,SENet 网络结构中对输入图像先降维再升维,利用两个多层感知机学习不同 通道间的联系,当前每个特征图都与其他特征图交互,属于密集型连 接。基础卷积网络提取特征,随着网络层数高度增加,输出通道数也 会增加,每个通道都可以看做是图像信号的部分分量,即图像的某个 特征,最后经过全局平均池化操作得到基础的特征表征。在输出的每 个特征通道上设置参数,通过附加不同参数引入相应的监督信息,实 现在特征通道上对注意力加权的操作。可以将全局平均池化操作泛化 表示为2维的离散余弦变换,借助离散余弦变换在模型中引入更多频 率分量,通过频域来弥补现有通道注意力方法中特征信息不足的缺点, 每个特征通道图都等效于输入图片在不同卷积核上对应的不同分量。
从特征通道本身出发,不同特征表示不同信息,全局平均池化这 类操作极大抑制图像特征的多样性,全局平均池化操作等价于离散余 弦变换的最低频率分量,若在网络设计过程中仅使用全局平均池化操 作,则会忽略输入图像中大量有用的频率分量,导致输出特征图中信 息丰富度不理想。
步骤S7还包括:空间注意力机制嵌入到网络中,在每个位置上 执行加权的操作来获取每个位置单独的特征,从而建立起多帧特征间 的联系。每个分支网络的基础特征利用自注意力机制进行全局优化的 操作,利用帧级优化的特征生成全局注意力掩码,从而在段级特征上 具有双模态的全局感知。空间注意力机制提升输入图像关键区域的特 征表示,将原始图像中的空间信息通过空间转换模块变换到另一个空 间域并保留关键信息,在每个位置生成权重掩膜,执行加权操作后输 出,从而增强输入中的感兴趣区域以及弱化背景区域。CBAM在通道 注意力机制的基础上,在原始网络中引入空间注意力模块,该模块在 通道上执行全局平均池化操作以及全局最大池化操作,两个操作分别 输出代表不同信息的特征图,将输出特征图合并,再借助具有较大感 受野的7×7卷积核来执行特征融合的操作,最后输入sigmoid激活 函数层,生成权重图并且与原始输入特征图相叠加,空间注意力机制 针对每个通道中的特征都做相同程度的处理,在处理过程中忽略通道 之间的交互,增强了原始输入中目标区域的特征。
步骤S8还包括:网络实际训练过程中,根据ResNet50为基础特 征提取网络的ImageNet预训练模型对本发明中构建的网络进行参数 初始化,网络训练时采用批量梯度下降算法,其中batch size设置 为8,训练过程中随机失活率设置为0.5,学习率初始值为0.001, 学习率每经过10个epoch就衰减10%。
本发明的工作过程和原理是:本发明提供了一种基于注意力机制 的行人重识别方法,针对仍然在行人重识别领域尚未解决的两大问题, 包括不能完整获取监控视频流序列的特征相关性,以至于无法准确得 到目标特征的表征效果;以及缺少基于维度和模态的全局视野去捕捉 更具有整体判别效果的关键特征。本发明构建出的模型从帧级别上得 到一个上下文感知模块以及一个多模态感知的特征优化网络结构,模 型采用卷积神经网络提取基础特征,通过循环神经网络实现特征间的 串联,除此之外,引入自注意力机制到行人重识别的双流网络上,双 流段级注意力感知网络通过上一阶段的帧级优化特征生成关联权重 掩码,获取多模态的感知信息。本发明构建的网络架构从两个级别上 对视频双流特征进行了优化,监控视频流在帧级别和段级别的特征沿 通道融合,输出视频流的最终表征,提升网络的整体表达能力。
本发明设计的模型是一种基于注意力机制学习视频段特征关联 的监督学习模型,基于双流基础,考虑视频段不同特征间的关联关系, 区分每帧视频中不同特征的重要性,通过空间注意力机制学习基于段 的特征,与传统空间注意力机制区别在于,本发明通过帧优化特征生 成注意力权重,使得视频段的全局感知具有多模态的监督信息。本发 明构建的网络生成携带多模态全局感知效果的权重矩阵,相比过去用 于行人重识别任务的网络,本发明构建的网络中各层特征在视频表征 上互补,因此增强了网络行人重识别的判别能力。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不 受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下 所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都 包含在本发明的保护范围之内。
Claims (9)
1.一种基于注意力机制的行人重识别方法,其特征在于,包括如下步骤:
S1、准备数据集,数据清洗、预处理以及数据增强;
S2、特征提取器的设计;
S3、特征优化器的设计;
S4、特征融合器的设计;
S5、特征分类器的设计;
S6、注意力机制在通道域上的设计;
S7、注意力机制在空间域上的设计;
S8、合成网络对输入数据进行训练。
2.根据权利要求1所述的基于注意力机制的行人重识别方法,其特征在于,所述步骤S1还包括:对收集到的数据样本进行清洗以及预处理,把图像序列以及光流序列全部缩小到128×256大小,然后以0.2的概率进行水平翻转来增强训练集。
3.根据权利要求1所述的基于注意力机制的行人重识别方法,其特征在于,所述步骤S2还包括:特征提取器提取模态的基本特征,光流输入模态经过特征提取器后获得特征X和特征F,然后输入到特征优化器进行后续处理,在提取特征时,通过叠加神经网络来增加网络深度,实现远距离的信息提取任务,越高层的卷积神经网络层具有更大的感受野,从而可以捕获更多图像特征信息。
4.根据权利要求1所述的基于注意力机制的行人重识别方法,其特征在于,所述步骤S3还包括:在网络架构中,所述特征优化器通过神经元的串联结构来捕捉视频序列流中的上下文信息,在感知信息的监督下,采用门结构的形式来学习权重参数,对模态数据进行优化处理,具体表现为:模态每一帧的信息都具有前后相邻帧中的连续信息以及模态的全局感知能力。
5.根据权利要求1所述的基于注意力机制的行人重识别方法,其特征在于,所述步骤S4还包括:特征融合器将特征优化器的输出特征沿着通道方向进行融合处理,得到整个视频段的最终表征向量,将得到的特征加权拼接,特征融合器采用改进后的残差网络,不同层的特征具有不同的图像信息表征能力,在低维阶段,输出特征图中缺乏语义信息,在高维阶段,输出特征图具有更多上下文信息及语义信息。
6.根据权利要求1所述的基于注意力机制的行人重识别方法,其特征在于,所述步骤S5还包括:特征分类器的输入为特征融合器输出的表征向量,传送到全连接层用于分类,最终实现行人重识别的任务。
7.根据权利要求1所述的基于注意力机制的行人重识别方法,其特征在于,所述步骤S6还包括:通道注意力建模出不同通道即不同特征图之间的联系,通过网络学习自动获取每个特征通道的重要程度,最后再为每个通道赋予相应的权重系数,借助权重参数来强化重要特征以及抑制无关特征。
8.根据权利要求1所述的基于注意力机制的行人重识别方法,其特征在于,所述步骤S7还包括:空间注意力机制嵌入到原始网络中,计算每个位置单独的特征时需要对所有位置执行加权的操作,从而建立起多帧特征间的联系,每个分支的基础特征分别利用自注意力进行全局优化,利用帧级优化的特征生成全局注意力掩码,使得段级的特征具有双模态的全局感知信息。
9.根据权利要求1所述的基于注意力机制的行人重识别方法,其特征在于,所述步骤S8还包括:在网络的实际训练过程中,根据以ResNet50为基础提取网络的ImageNet预训练模型对本发明中构建的网络进行参数初始化,采用批量梯度下降进行训练,其中batch size的大小设置为8,在训练过程中随机失活率设置为0.5,学习率初始值设置为0.001,学习率每经过10个epoch就衰减10%。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110441436.4A CN113158905A (zh) | 2021-04-23 | 2021-04-23 | 一种基于注意力机制的行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110441436.4A CN113158905A (zh) | 2021-04-23 | 2021-04-23 | 一种基于注意力机制的行人重识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113158905A true CN113158905A (zh) | 2021-07-23 |
Family
ID=76869866
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110441436.4A Pending CN113158905A (zh) | 2021-04-23 | 2021-04-23 | 一种基于注意力机制的行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113158905A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113657355A (zh) * | 2021-10-20 | 2021-11-16 | 之江实验室 | 一种融合分割信息的全局局部感知行人重识别方法 |
CN114283486A (zh) * | 2021-12-20 | 2022-04-05 | 北京百度网讯科技有限公司 | 图像处理、模型训练、识别方法、装置、设备及存储介质 |
CN114663974A (zh) * | 2022-03-14 | 2022-06-24 | 南京邮电大学 | 一种融入位置感知注意力的行人重识别方法 |
CN116340849A (zh) * | 2023-05-17 | 2023-06-27 | 南京邮电大学 | 一种基于度量学习的非接触式跨域人体活动识别方法 |
CN116503914A (zh) * | 2023-06-27 | 2023-07-28 | 华东交通大学 | 行人重识别方法、系统、可读存储介质及计算机设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109472248A (zh) * | 2018-11-22 | 2019-03-15 | 广东工业大学 | 一种行人重识别方法、系统及电子设备和存储介质 |
CN112307958A (zh) * | 2020-10-30 | 2021-02-02 | 河北工业大学 | 基于时空外观运动注意力网络的微表情识别方法 |
JP6830707B1 (ja) * | 2020-01-23 | 2021-02-17 | 同▲済▼大学 | ランダムバッチマスクとマルチスケール表現学習を融合した人物再同定方法 |
-
2021
- 2021-04-23 CN CN202110441436.4A patent/CN113158905A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109472248A (zh) * | 2018-11-22 | 2019-03-15 | 广东工业大学 | 一种行人重识别方法、系统及电子设备和存储介质 |
JP6830707B1 (ja) * | 2020-01-23 | 2021-02-17 | 同▲済▼大学 | ランダムバッチマスクとマルチスケール表現学習を融合した人物再同定方法 |
CN112307958A (zh) * | 2020-10-30 | 2021-02-02 | 河北工业大学 | 基于时空外观运动注意力网络的微表情识别方法 |
Non-Patent Citations (2)
Title |
---|
L. WU等: "Where-and-When to Look: Deep Siamese Attention Networks for Video-Based Person Re-Identification", 《TRANSACTIONS ON MULTIMEDIA》, vol. 21, no. 6, pages 1412 - 1424 * |
林文根: "基于双流多级注意力感知优化的视频行人重识别研究", 《中国优秀硕士学位论文全文数据库:信息科技辑》, no. 2, pages 1 - 100 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113657355A (zh) * | 2021-10-20 | 2021-11-16 | 之江实验室 | 一种融合分割信息的全局局部感知行人重识别方法 |
CN114283486A (zh) * | 2021-12-20 | 2022-04-05 | 北京百度网讯科技有限公司 | 图像处理、模型训练、识别方法、装置、设备及存储介质 |
CN114663974A (zh) * | 2022-03-14 | 2022-06-24 | 南京邮电大学 | 一种融入位置感知注意力的行人重识别方法 |
CN116340849A (zh) * | 2023-05-17 | 2023-06-27 | 南京邮电大学 | 一种基于度量学习的非接触式跨域人体活动识别方法 |
CN116340849B (zh) * | 2023-05-17 | 2023-08-15 | 南京邮电大学 | 一种基于度量学习的非接触式跨域人体活动识别方法 |
CN116503914A (zh) * | 2023-06-27 | 2023-07-28 | 华东交通大学 | 行人重识别方法、系统、可读存储介质及计算机设备 |
CN116503914B (zh) * | 2023-06-27 | 2023-09-01 | 华东交通大学 | 行人重识别方法、系统、可读存储介质及计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zheng et al. | A novel background subtraction algorithm based on parallel vision and Bayesian GANs | |
Li et al. | In ictu oculi: Exposing ai generated fake face videos by detecting eye blinking | |
CN113158905A (zh) | 一种基于注意力机制的行人重识别方法 | |
CN111950649B (zh) | 基于注意力机制与胶囊网络的低照度图像分类方法 | |
WO2019136591A1 (zh) | 基于弱监督时空级联神经网络的显著目标检测方法及系统 | |
Ji et al. | Semi-supervised adversarial monocular depth estimation | |
CN108062525B (zh) | 一种基于手部区域预测的深度学习手部检测方法 | |
CN110580472B (zh) | 一种基于全卷积网络和条件对抗网络的视频前景检测方法 | |
CN114332053B (zh) | 一种多模态两阶段无监督视频异常检测方法 | |
Li et al. | Video frame prediction by deep multi-branch mask network | |
CN110097028B (zh) | 基于三维金字塔图像生成网络的人群异常事件检测方法 | |
CN111639571B (zh) | 基于轮廓卷积神经网络的视频动作识别方法 | |
CN113449660A (zh) | 基于自注意增强的时空变分自编码网络的异常事件检测方法 | |
KR102309111B1 (ko) | 딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 시스템 및 탐지 방법 | |
García-González et al. | Background subtraction by probabilistic modeling of patch features learned by deep autoencoders | |
CN113763417A (zh) | 一种基于孪生网络和残差结构的目标跟踪方法 | |
CN117274885B (zh) | 一种人脸伪造视频检测方法 | |
CN116824641B (zh) | 姿态分类方法、装置、设备和计算机存储介质 | |
Kalshetty et al. | Abnormal event detection model using an improved ResNet101 in context aware surveillance system | |
CN115187621A (zh) | 融合注意力机制的U-Net医学影像轮廓自动提取网络 | |
Yang et al. | A review on infrared and visible image fusion algorithms based on neural networks | |
Xia et al. | Unsupervised optical flow estimation with dynamic timing representation for spike camera | |
Liang et al. | Coarse-to-fine foreground segmentation based on co-occurrence pixel-block and spatio-temporal attention model | |
CN115147450B (zh) | 基于运动帧差图像的移动目标检测方法及检测装置 | |
Amshavalli et al. | Real-time institution video data analysis using fog computing and adaptive background subtraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |