CN116416649A

CN116416649A - 一种基于多尺度分辨率对齐的视频行人重识别方法

Info

Publication number: CN116416649A
Application number: CN202310407317.6A
Authority: CN
Inventors: 路小波; 冉智丹; 刘维
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2023-04-14
Filing date: 2023-04-14
Publication date: 2023-07-11

Abstract

本发明公开了一种基于多尺度分辨率对齐的视频行人重识别方法，包括：构造多尺度的行人视频片段；将不同尺度的视频片段输入到有层次的多分支网络中提取特征；将各个尺度分支输出的特征图在时间维度上连接起来，并利用全局平均池化层来生成最终的视频级特征向量；构造交叉熵损失、三元组损失和相互信息损失来优化多分支网络；重复执行前述步骤直至模型收敛；训练结束之后，利用多分支网络从多尺度的行人视频片段中提取特征向量，并计算待检索行人视频片段的特征向量与候选行人视频片段的特征向量间的欧式距离，最终按照欧式距离从小到大进行排序得到行人重识别结果。本发明充分利用不同空间尺度的行人视频片段中的有效信息，有效提升了识别准确率。

Description

一种基于多尺度分辨率对齐的视频行人重识别方法

技术领域

本发明属于模式识别和图像检索领域，更具体地涉及一种基于多尺度分辨率对齐的视频行人重识别方法。

背景技术

基于视频的行人重识别旨在从多个摄像机中检索出同一关键目标的视频片段。视频行人重识别技术在越来越多的监控相关应用中发挥着至关重要的作用。近年来，基于图像的行人重识别在方法和数据集方面都取得了较大进展。相关的研究大多将注意力放在从单一图像中学习可辨别特征。当关键目标被遮挡或出现较大的视觉外观变化时，基于图像的重识别性能会受到限制。相比之下，通过将多帧视频序列作为输入，基于视频的重识别可以利用更丰富的外观和时间信息。

受益于深度卷积神经网络的发展，视频重识别方法取得了令人振奋的进展。然而，大多数现有的基于视频的模型仅在单一空间尺度上处理关键目标的外表信息。这忽略了行人视频是在多种尺度下获取的事实。

现有的多尺度特征表示学习方法可以别分为两类：

(1)用多尺度卷积流学习特征。

该方法将所有输入图像调整为固定的分辨率，并将其送入到一个具有不同分辨率水平的过滤器的同一网络中。但这种设计忽略了其它不同尺度的潜在有用信息。

(2)从多尺度输入中学习特征。

该方法采用多分支网络从不同尺度的输入中学习特征。这类方法学习到的特征试图做到尺度不变，即输入对象的尺度变化被特征中的尺度变化所抵消。这样一来，实现跨尺度的信息交互并非易事，因为不同尺度分支在相同网络阶段中的特征空间分辨率是不同的。

发明内容

针对上述问题，本发明设计了一种有层次的多分支网络，此网络可以实现尺度间的特征分辨率匹配，以实现跨分支的信息交互，充分利用了不同空间尺度的行人视频片段中的有效信息，从而有效地提升了视频重识别的准确率。

为了达到上述目的，本发明提供如下技术方案：

一种基于多尺度分辨率对齐的视频行人重识别方法，包括以下步骤：

S1、构造多尺度的行人视频片段；

S2、将不同尺度的视频片段输入到有层次的多分支网络中提取特征；

S3、将各个尺度分支输出的特征图在时间维度上连接起来，并利用全局平均池化层来生成最终的视频级特征向量；

S4、构造交叉熵损失、三元组损失和互信息损失来优化多分支网络；

S5、重复执行步骤S1-S4，直至模型收敛；

S6、训练结束之后，利用多分支网络从多尺度的行人视频片段中提取特征向量，并计算待检索行人视频片段的特征向量与候选行人视频片段的特征向量间的欧式距离，最终按照欧式距离从小到大进行排序得到行人重识别结果。

进一步的，所述的步骤S1具体过程如下：

S11、从每个视频序列中随机抽取4帧来形成一个原始的输入视频片段；

S12、将输入视频片段中的图像调整为固定大小；

S13、根据原始输入视频片段来构造多尺度的行人视频片段

其中V_s表示原始输入视频片段V的下采样版本，s表示尺度分支的索引号。

进一步的，所述的步骤S2过程如下：

S21、构造多分支网络，网络包含三个前馈子网络分支

其中B_s负责处理对应的视频片段V_s，B₀的骨干网络为ResNet-50的四个网络阶段，即Stage₁～Stage₄，每个网络阶段由多个残差块组成，B₁的骨干网络为ResNet-50的后三个网络阶段，即Stage₂～Stage₄，B₂的骨干网络为ResNet-50的后两个网络阶段，即Stage₃～Stage₄；

S22、在多分支网络中的第二个和第三个网络阶段中集成两个空间信息交互模块和一个多尺度时间信息交互模块，其中，空间信息交互模块的具体计算过程为：

其中，

和/>

表示卷积操作，/>

和/>

表示矩阵维度变换操作，X_si表示输入到空间信息模块中的视频特征图，E₁，E₂和E₃表示空间信息模块中间产生的特征图，Y_si表示空间信息模块输出的特征图；多尺度时间信息交互模块的具体计算过程为：

X_msti＝[X₀，X₁，X₂]

其中，

和/>

表示卷积操作，/>

和/>

表示矩阵维度变换操作，X₀，X₁和X₂表示三个尺度分支中空间大小相同的特征图，[·]表示时间维度上的连接，X_msti表示输入到多尺度时间信息交互模块中的视频特征图，Z₁，Z₂和Z₃表示多尺度时间信息交互模块中间产生的特征图，Y_msti表示空间信息模块输出的特征图；

S23、将多尺度的行人视频片段输入到多分支网络中提取特征，具体过程为：

其中，Conv_s表示来自对应分支B_s的卷积块，

表示分支B_s中网络阶段Stag e_s+l提取的中间视频特征图，l表示特征图的索引号。

进一步的，所述的步骤S2中，不同尺度分支在同一网络阶段的特征图具有相同的空间大小。

进一步的，所述的步骤S3过程如下：

S31、将三个尺度分支输出的特征图在时间维度上连接起来：

其中，

表示第一个分支的输出特征图，/>

表示第二个分支的输出特征图，/>

表示第三个分支的输出特征图，F_all是一个大小为C×12×H×W的张量，C表示张量的通道数，H表示张量的高，W表示张量的宽；

S32、利用全局平均池化层来生成最终的视频级特征向量：

其中，F_output表示最终的视频级特征向量，f_i，j，k表示F_all在(j，k，i)位置的向量，j，k，i分别表示三维坐标的X值，Y值和Z值。

进一步的，所述的步骤S4中构造损失函数来优化多分支网络，损失函数如下：

其中，

表示总体的损失函数，/>

表示交叉熵损失函数，/>

表示三元组损失函数，/>

表示互信息损失函数，λ₁和λ₂表示调节参数。

与现有技术相比，本发明具有如下优点和有益效果：

(1)本发明提出了一种基于视频的行人重识别框架，该框架从具有不同空间分辨率的输入视频片段中学习有辨别性和鲁棒性的视频特征表示，有效提高了视频行人重识别的准确率。

(2)本发明提出了一种有层次的多分支网络，该网络实现了尺度间的特征大小匹配，从而实现分支间的信息交互。

(3)本发明设计了空间信息交互模块和多尺度时间信息交互模块，这两个模块实现了多个特定尺度分支间的空间和时间的信息交互。

附图说明

图1为本发明方法的流程图；

图2是本发明的多分支网络的示意图；

图3是本发明的空间信息交互模块和多尺度时间信息交互模块的示意图。

具体实施方式

以下将结合具体实施例对本发明提供的技术方案进行详细说明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

本实施例提供一种基于多尺度分辨率对齐的视频行人重识别方法，其流程如图1所示，该方法具体实现包括以下步骤：

S1、构造多尺度的行人视频片段，具体包括如下子步骤：

S11、从相机拍摄的每个视频序列中随机抽取4帧来形成一个原始的输入视频片段。

S12、将所有桢图像的分辨率调整为256像素×128像素。

S13、根据原始输入视频片段来构造多尺度的行人视频片段

其中，V_s表示原始输入视频片段V的下采样版本，s表示尺度分支的索引号，V₀中的图像分辨率为256像素×128像素，V₁中的图像分辨率为128像素×64像素，V₂中的图像分辨率为64像素×32像素。

S2、将不同尺度的视频片段输入到有层次的多分支网络中提取特征，具体包括如下子步骤：

S21、构造多分支网络，网络包含三个前馈子网络分支

其中B_s负责处理对应的视频片段V_s，B₀的骨干网络为ResNet-50的四个网络阶段，即Stage₁～Stage₄，每个网络阶段由多个残差块组成，B₁的骨干网络为ResNet-50的后三个网络阶段，即Stage₂～Stage₄，B₂的骨干网络为ResNet-50的后两个网络阶段，即Stage₃～Stage₄。

S22、参考图2和图3(图2中画出了第三个网络阶段多个交互模块架构图，本发明分支网络中第二个网络阶段架构与第三个网络阶段相同)，在多分支网络中的第二个和第三个网络阶段中集成两个空间信息交互模块和一个多尺度时间信息交互模块，其中，空间信息交互模块的具体计算过程为：

其中，

和/>

表示卷积操作，/>

和/>

表示矩阵维度变换操作，X_si表示输入到空间信息模块中的视频特征图，E₁，E₂和E₃表示空间信息模块中间产生的特征图，Y_si表示空间信息模块输出的特征图。多尺度时间信息交互模块的具体计算过程为：

X_msti＝[X₀，X₁，X₂]

其中，

和/>

表示卷积操作，/>

和/>

表示矩阵维度变换操作，X₀，X₁和X₂表示三个尺度分支中空间大小相同的特征图，[·]表示时间维度上的连接，X_msti表示输入到多尺度时间信息交互模块中的视频特征图，Z₁，Z₂和Z₃表示多尺度时间信息交互模块中间产生的特征图，Y_msti表示空间信息模块输出的特征图。

本发明中，不同尺度分支在同一网络阶段的特征图具有相同的空间大小，比如0号分支中第三网络阶段输出的特征图和1号分支中第三网络阶段输出的特征图。

其中，Conv_s表示来自对应分支B_s的卷积块，

表示分支B_s中网络阶段Stage_s+l提取的中间视频特征图，l表示特征图的索引号。

S3、将各个尺度分支输出的特征图在时间维度上连接起来，并利用全局平均池化层来生成最终的视频级特征向量，具体包括如下子步骤：

S31、将三个尺度分支输出的特征图在时间维度上连接起来：

其中，

表示第一个分支的输出特征图，/>

表示第二个分支的输出特征图，/>

S32、利用全局平均池化层来生成最终的视频级特征向量：

其中，F_output表示最终的视频级特征向量，f_i，j，k表示F_all在(j，k，i)位置的向量，j，k，i分别表示三维坐标的X值，Y值和Z值；

S4、构造损失函数来优化多分支网络；

其中，

表示总体的损失函数，/>

表示交叉熵损失函数，/>

表示三元组损失函数，/>

表示互信息损失函数，λ₁和λ₂表示调节参数；

S5、重复执行步骤S1-S4，直至模型收敛；

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以上技术特征任意组合所组成的技术方案。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。