CN112784648B

CN112784648B - 一种优化视频行人重识别系统特征提取的方法及装置

Info

Publication number: CN112784648B
Application number: CN201911092071.8A
Authority: CN
Inventors: 李厚强; 周文罡; 李星泽
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2019-11-07
Filing date: 2019-11-07
Publication date: 2022-09-06
Anticipated expiration: 2039-11-07
Also published as: CN112784648A

Abstract

本发明公开了一种优化视频行人重识别系统特征提取的方法及装置，方法包括：构建输入视频片段，对于两个特征使用关系模块，计算两个向量间的关系向量信息；对于N个特征，使用全局关系向量模块整合每个特征和N个特征之间的关系向量，得到全局关系向量；对输入视频片段中的每张图像，通过卷积神经网络和关系引导的空间注意力模块组成的空域特征提取器，输出图像的特征向量；对于一个含T帧图像的输入视频片段，使用关系引导的时域特征精炼模块将图像的特征融合成视频的特征；使用交叉熵损失函数和自适应权重三元组损失函数作为优化函数，对网络参数进行优化。本发明能够在空域上能关注更多有区分性的区域，在时域上能精炼各个图像的特征。

Description

一种优化视频行人重识别系统特征提取的方法及装置

技术领域

本发明涉及视频行人重识别系统技术领域，尤其涉及一种优化视频行人重识别系统特征提取的方法及装置。

背景技术

行人重识别的目的是通过计算机设计一定的算法，匹配多个摄像头拍摄的行人的图像，并且在大多数情况下，这些相机的视野是不重叠的。这项研究在视频监控，公共安全，智慧城市等领域有着重要的应用前景，例如跟踪嫌疑犯，在公共场所寻人，用户轨迹与行为分析等等。

由于视角、光照和行人姿态的变化，以及模糊、遮挡和背景等因素的影响，这一任务具有很大的挑战性。根据数据类型是图像还是视频，行人重识别进一步分为两个子任务，基于图像的行人重识别和基于视频的行人重识别。相比于图像，视频序列可以在很长的时间内包含丰富的上下文信息。此外，视频中还可能包含干净和信息丰富的内容，从而降低噪音对系统性能的影响。

视频行人重识别系统主要分为两个部分，分别是图像上空域特征提取模块和视频内时域特征融合模块。空域特征提取模块提取图像的具有区分性的关键视觉信息，将图像转化为数字化的特征表达。时域特征融合模块负责对视频中图像的特征进行时域上的建模，并将其融合成固定长度的特征表达。

在现有的视频行人重识别方法中，基于深度神经网络的方法取得了很好的结果。基于深度神经网络的行人重识别方法通常由特征提取模块和特征融合模块组成。特征提取模块，通常采用卷积神经网络(Convolutional Neural Network，CNN)提取图像的特征表达。特征融合模块，有多种时域建模的方法，如循环神经网络(RecurrentNeural Network，RNN)，递归精炼单元(Refining RecurrentUnit，RRU)，区域质量评价网络(Region-basedQuality Estimation Network，RQEN)和多尺度三维卷积网络(Multi-scale 3DConvolution Network，M3D)，将视频内多帧图像的特征融合成一个视频的特征表达。

由此可以看出，现有的特征提取模块通常采用卷积神经网络学习空域注意力。卷积网络对局部的信息进行处理，缺乏对空域整体信息的建模，因此不能很好的促使系统关注更具区分性的前景区域。现有的特征融合模块采用时域卷积操作或循环神经网络，这些模块更多关注短时的信息，没有充分利用数据间的长时依赖，缺乏对时域整体信息的建模，以及对时域特征的有效精炼。

发明内容

有鉴于此，本发明提供了一种优化视频行人重识别系统特征提取的方法，能够对整体的信息进行建模，使优化视频行人重识别系统能在空域上关注更多有区分性的区域，在时域上能精炼各个图像的特征，从而提高优化视频行人重识别系统的性能。

本发明提供了一种优化视频行人重识别系统特征提取的方法，包括：

构建输入视频片段；

对于两个特征使用关系模块，计算两个向量间的关系向量信息；

对于N个特征，使用全局关系向量模块整合每个特征和N个特征之间的关系向量，得到全局关系向量；

对所述输入视频片段中的每张图像，通过卷积神经网络和关系引导的空间注意力模块组成的空域特征提取器，输出图像的特征向量；

对于一个含T帧图像的输入视频片段，使用关系引导的时域特征精炼模块将图像的特征融合成视频的特征；

使用交叉熵损失函数和自适应权重三元组损失函数作为优化函数，对网络参数进行优化。

优选地，所述构建输入视频片段包括：

在一个拥有L帧的视频中随机采样T帧图像，构成一个输入视频片段。

优选地，所述对于两个特征使用关系模块，计算两个向量间的关系向量信息，包括：

分别通过全连接层、批归一化和线性整流函数对两个特征进行降维；

计算两个特征的逐元素差；

基于所述逐元素差，通过一个全连接层、批归一化和线性整流函数得到两个向量间的关系向量。

优选地，所述对所述输入视频片段中的每张图像，通过卷积神经网络和关系引导的空间注意力模块组成的空域特征提取器，输出图像的特征向量，包括：

对所述输入视频片段中的每张图像，通过卷积神经网络提取图像的特征图；

基于所述特征图，通过关系引导的空间注意力模块学习空间的注意力，提取出图像的特征向量。

一种优化视频行人重识别系统特征提取的装置，包括：

构建模块，用于构建输入视频片段；

关系模块，用于对于两个特征计算两个向量间的关系向量信息；

全局关系向量模块，用于对于N个特征整合每个特征和N个特征之间的关系向量，得到全局关系向量；

通过卷积神经网络和关系引导的空间注意力模块组成的空域特征提取器，用于对所述输入视频片段中的每张图像输出图像的特征向量；

关系引导的时域特征精炼模块，用于对于一个含T帧图像的输入视频片段将图像的特征融合成视频的特征；

优化模块，用于使用交叉熵损失函数和自适应权重三元组损失函数作为优化函数，对网络参数进行优化。

优选地，所述构建模块在执行构建输入视频片段时，具体用于：

优选地，所述关系模块在执行对于两个特征计算两个向量间的关系向量信息时，具体用于：

计算两个特征的逐元素差；

优选地，所述通过卷积神经网络和关系引导的空间注意力模块组成的空域特征提取器在执行对所述输入视频片段中的每张图像输出图像的特征向量时，具体用于：

综上所述，本发明公开了一种优化视频行人重识别系统特征提取的方法，包括：构建输入视频片段，对于两个特征使用关系模块，计算两个向量间的关系向量信息；对于N个特征，使用全局关系向量模块整合每个特征和N个特征之间的关系向量，得到全局关系向量；对输入视频片段中的每张图像，通过卷积神经网络和关系引导的空间注意力模块组成的空域特征提取器，输出图像的特征向量；对于一个含T帧图像的输入视频片段，使用关系引导的时域特征精炼模块将图像的特征融合成视频的特征；使用交叉熵损失函数和自适应权重三元组损失函数作为优化函数，对网络参数进行优化。本发明能够对整体的信息进行建模，使优化视频行人重识别系统能在空域上关注更多有区分性的区域，在时域上能精炼各个图像的特征，从而提高优化视频行人重识别系统的性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明公开的一种优化视频行人重识别系统特征提取的方法实施例1的方法流程图；

图2为本发明公开的关系模块(RM)和全局关系向量模块(GRV)的结构图；

图3为本发明公开的关系引导的空间注意力模块的结构图；

图4为本发明公开的关系引导的时域特征精炼模块的结构图；

图5为本发明公开的一种优化视频行人重识别系统特征提取的装置实施例1的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，为本发明公开的一种优化视频行人重识别系统特征提取的方法实施例1的方法流程图，所述方法可以包括以下步骤：

S101、构建输入视频片段；

首先，在一个拥有L帧的视频中随机采样T帧图像，构成一个输入视频片段。每批数据由P个不同的人且每个人K个不同的输入视频片段组成。

S102、对于两个特征使用关系模块，计算两个向量间的关系向量信息；

如图2所示，对于两个特征f₁,f₂，使用关系模块(Relation Module，RM)计算两个向量间的关系向量信息。

首先，计算两个嵌入特征的逐元素差，

其中θ,

是两个嵌入函数，由全连接层(Fully Connected Layer，FC)、批归一化(Batch Normalization，BN)和线性整流函数(Rectified Linear Unit，ReLU)组成，即：

θ(f₁)＝ReLU(BN(W_θf₂)),

其中

将原特征的通道数由C降维成C/r₁，然后通过一个全连接层、批归一化和线性整流函数得到关系向量r_1,2：

r_1,2＝RM(f₁,f₂)＝ReLU(BN(Wf_diff)),

其中

最终输出特征向量的维度为C/r₂。

S103、对于N个特征，使用全局关系向量模块整合每个特征和N个特征之间的关系向量，得到全局关系向量；

如图2所示，对于N个特征

使用全局关系向量模块(Global RelationVector，GRV)整合每个特征f_i和N个特征之间的关系向量，得到全局关系向量

其中r_i,_j＝RM(f_i,f_j)为关系模块计算两个特征间的关系向量，Concat表示将多个向量拼接成一个向量，全局关系向量的维度为NC/r₂。

S104、对输入视频片段中的每张图像，通过卷积神经网络和关系引导的空间注意力模块组成的空域特征提取器，输出图像的特征向量；

如图3所示，对每张图像，通过卷积神经网络提取图像的特征图

其中C、H、W分别表示特征图的通道数、高度和宽度。再通过关系引导的空间注意力模块，学习空间的注意力，提取图像的特征向量f。特征图包含N(N＝H×W)个不同的空间位置。调整特征图X的维度为

其中

表示在第i个位置的特征向量。使用全局关系向量模块计算出的每个位置的特征向量与所有特征间的全局关系向量

将全局关系向量与原特征向量拼接在一起，并通过全连接层、批归一化层和S型函数(Sigmoid)将其映射为注意力分数a_i：

其中

和原特征向量

有相同的维度，a_i表示第i个特征每个通道的重要性。因此每张图像的特征向量f:

S105、对于一个含T帧图像的输入视频片段，使用关系引导的时域特征精炼模块将图像的特征融合成视频的特征；

如图4所示，对于一个含T帧图像的输入视频片段，使用关系引导的时域特征精炼模块将图像的特征

融合成视频的特征

使用全局关系向量模块计算出的每帧的特征f_t和所有帧特征之间的全局关系向量

将全局关系向量与原特征向量拼接在一起，并通过全连接层和批归一化层将其映射为精炼后的特征：

其中

和原特征向量f_t有相同的维度，

表示f_t精炼后的特征。视频的特征

为：

S106、使用交叉熵损失函数和自适应权重三元组损失函数作为优化函数，对网络参数进行优化。

最后，使用交叉熵损失函数和自适应权重三元组损失函数作为优化函数，对网络参数进行优化。至此，优化完成，得到最终的行人重识别系统。

综上所述，本发明在空间上能关注整体的信息，从而使得特征提取模块能更好的提取有区分性的前景区域的信息。在时域上，能够使得每张图像的特征之间相互补充与促进，从而得到精炼后的视频特征表达。对整个神经网络进行端到端的优化，使得多个模块可以更好的耦合，进一步优化了系统的识别率。

如图5所示，为本发明公开的一种优化视频行人重识别系统特征提取的装置的结构示意图，所述装置可以包括：

构建模块51，用于构建输入视频片段；

关系模块52，用于对于两个特征计算两个向量间的关系向量信息；

首先，计算两个嵌入特征的逐元素差，

其中θ,

θ(f₁)＝ReLU(BN(W_θf₂)),

其中

r_1,2＝RM(f₁,f₂)＝ReLU(BN(Wf_diff)),

其中

最终输出特征向量的维度为C/r₂。

全局关系向量模块53，用于对于N个特征整合每个特征和N个特征之间的关系向量，得到全局关系向量；

如图2所示，对于N个特征

通过卷积神经网络541和关系引导的空间注意力模块542组成的空域特征提取器54，用于对所述输入视频片段中的每张图像输出图像的特征向量；

其中

其中

和原特征向量

关系引导的时域特征精炼模块55，用于对于一个含T帧图像的输入视频片段将图像的特征融合成视频的特征；

融合成视频的特征

其中

和原特征向量f_t有相同的维度，

表示f_t精炼后的特征。视频的特征

为：

优化模块56，用于使用交叉熵损失函数和自适应权重三元组损失函数作为优化函数，对网络参数进行优化。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。