CN114724182A

CN114724182A - 基于时序补偿引导的强化学习图像-视频行人重识别方法

Info

Publication number: CN114724182A
Application number: CN202210362412.4A
Authority: CN
Inventors: 查正军; 刘嘉威; 吴蔚
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2022-04-07
Filing date: 2022-04-07
Publication date: 2022-07-08
Anticipated expiration: 2042-04-07
Also published as: CN114724182B

Abstract

本发明公开了一种基于时序补偿引导的强化学习图像‑视频行人重识别方法，包括：1、构建序列特征提取网络；2、将行人视频与图像输入序列特征提取网络，提取由时序补偿的视频特征、图像特征，计算身份损失和三元组损失对网络参数进行更新；3、基于强化学习理论构建序列决策模块网络，设计奖励

计算该模块中的actor网络和critic网络的损失以更新网络参数；4、根据图像查询库和视频待检索库的行人特征计算相似度矩阵，获得检索结果。本发明利用强化学习理论动态地选择所必需行人视频帧数，能降低行人视频中冗余信息和噪声对网络的干扰，从而在使用较少的帧数情况下实现高效、准确地行人图像‑视频匹配。

Description

基于时序补偿引导的强化学习图像-视频行人重识别方法

技术领域

本发明涉及行人重识别场景，具体而言是一种基于时序信息补偿引导的强化学习图像- 视频跨模态行人重识别方法。

背景技术

行人重识别(Person Re-Identification)旨在从多个不同的相机视图中识别目标行人身份。该技术在智能监控系统，行为分析和人机交互等诸多领域中拥有的巨大潜力，近年来引起了越来越多的关注。由于背景杂乱，部分遮挡，拍摄角度、照明和身体姿势变化等因素，行人重识别非常具有挑战性。现有的大多数方法主要关注基于图像或视频的单模态行人重识别，即基于图像-图像或视频-视频的行人匹配技术，极大地限制了行人重识别在很多实际场景中的应用。这就引出了图像-视频跨模态行人重识别(Image-to-Video Person Re-Identification)。该任务的目标在于给定一张行人图像，从多个不同的相机视图中识别与检索包含同一行人身份的视频。相较于基于图像或视频的单模态行人重识别而言，该任务的主要难点在于需要解决图像和视频之间信息不对等问题。视频中蕴含大量空间和时间信息而图像中只含有空间信息，这使视频和图像在特征空间存在巨大的差异，难以衡量图像特征和视频特征的相似度，导致图像-视频跨模态行人检索性能不足以支撑实际场景的应用落地。为此，视频和图像信息不对等问题成为图像-视频行人重识别技术亟待解决的关键。

为解决上述问题，现有图像-视频行人重识别方法主要分为两大类：1)利用距离度量方法将图像和视频特征投影同一特征空间；2)利用知识蒸馏方法使图像特征提取网络具备视频特征提取网络学习时序信息的能力。两者均将图像-视频行人重识别视作跨模态检索任务，驱使网络模型从视频和图像中学习相似的特征表达，忽略了视频和图像之间由于时空信息不对等问题引起的巨大差异。第二类方法还需要分别构建图像特征提取网络与视频特征提取网络，极大程度上提高了网络模型的复杂度。此外，视频序列通常包含大量冗余的外观信息和噪声，而现有的两类方法直接从所有视频帧中提取特征，未考虑噪声和冗余信息对网络模型造成的影响，导致视频特征表达的鲁棒性和有效性不如人意。

发明内容

本发明是为了解决上述现有技术存在的不足之处，提出一种基于时序补偿引导的强化学习图像-视频行人重识别方法，以期能减少视频序列中时空冗余信息与噪声的干扰，从而实现从图像到视频的行人匹配以达到高效、精确的身份识别。

本发明为达到上述发明目的，采用如下技术方案：

本发明一种基于时序补偿引导的强化学习图像-视频行人重识别方法的特点在于，包括如下步骤：

步骤一、行人数据收集和预处理：

分别采集不同场景的行人视频数据并逐帧使用行人检测方法和尺寸归一化法进行预处理，获得训练数据集

其中，x′_i表示第i段行人视频，且第i段行人视频x′_i所包含的帧数为t_i，即

表示第i段行人视频x′_i内第t帧图像，y′_i表示第i段行人视频x′_i对应的行人身份ID，且

m表示任意一个行人的身份ID，

表示训练数据集中D的身份ID数量；N表示训练数据集D中的行人视频的数量；

步骤二、构建批处理视频数据：

步骤2.1、从所述训练数据集D中随机采集p个行人身份ID，且根据每个行人身份ID分别随机选取n段相应行人身份ID的行人视频，再从每段行人视频中采样T帧图像，从而由p×n段视频序列构成当前批的处理数据

其中，x_j表示批处理数据X中时间长度为T的第j段视频，且

表示第j段视频x_j中的第t帧图像，y_j表示批处理数据X中第j段视频x_j中对应的行人身份ID；

步骤2.2、构建以ResNet-50深度学习网络为基础的序列特征提取网络；

所述ResNet-50深度学习网络包括5个阶段，其中，第1个阶段Stage 0由一个卷积核为 k₁×k₁的卷积层，一个批量归一化处理层和一个ReLU激活函数层构成，其余4个阶段均由 Bottleneck模块组成；第2个阶段Stage 1包含3个Bottleneck模块，剩下3个阶段分别包括 4个、6个、3个Bottleneck模块，每个Bottleneck模块由S个卷积层组成，每个卷积层后均连接一个批量归一化处理层和一个ReLU激活函数层；其中第s个卷积层的卷积核为K_s×K_s；

所述序列特征提取模块包含一个由ResNet-50网络前四个阶段构成的基础特征提取模块，一个多头注意力模块及T个补偿残差检测器；

其中，所述多头注意力模块包含两个卷积层，每个补充残差检测器包含一个由ResNet- 50网络第五阶段构造的补偿特征学习模块；

步骤2.3、将当前批的处理数据X中的第j段视频x_j输入所述序列特征提取网络，经过所述基础特征提取模块的处理后，得到第j个基础特征

表示第j段视频x_j中的第 t帧图像

对应的基础特征；

当t＝1时，第t帧图像

对应的基础特征

经过第t个补偿残差检测模块的提取后，得到第t帧图像

对应的特征

并令第t帧图像

对应的包含时序补偿信息的序列特征

其中，

表示前t-1帧图像对应的包含时序补偿信息的序列特征，且

当t≥2时，前t-1帧图像对应的序列特征

经由卷积核为1×1的降维卷积层和一个多头注意力模块的处理后，获得前t-1帧图像对应的维度为k²×c的显著性特征

其中， k²表示显著区域的数量；

在第t个补偿残差检测器中，将显著性特征

作为维度为k×k×c的卷积核，并与第t 帧基础特征

进行卷积学习后获取前t-1帧图像对应的显著性特征

在第t帧图像

上对应的显著区域的掩图

并利用式(1)得到第t帧图像

蕴含的补偿残差信息

所述补偿残差信息

经过第t个补偿特征学习模块的处理后得到补偿特征

将

与前t-1帧对应的包含时序补偿信息的序列特征

相加后获得前t帧对应的包含时序补偿信息的序列特征

第j段视频x_j的所有帧图像对应的包含时序补偿信息的序列特征

经过一个时空平均池化层后输出第j个特征集合

从而得到当前批的处理数据X的特征集合

其中，

表示第j段视频x_j的前t帧图像提取的含时序补偿信息的序列特征向量；

步骤2.4、构建由actor网络和critic网络组成的智能体，并作为序列决策模块网络；其中， critic网络包括三个全连接层，actor网络包括三个全连接层和一个Sigmoid函数层；

步骤2.4.1、从当前批的处理数据X中获取与行人视频x_j不同的行人视频x′_j，行人视频x′_j对应行人ID为y′_j，将行人视频x′_j中的第一帧记为行人图像I_i，行人图像I_i经过所述序列特征提取网络后得到对应的图像特征向量v′_i；

步骤2.4.2、在t时刻将第j段行人视频x_j中第t帧图像

对应的基础特征

经池化层后获得基础特征向量

步骤2.4.3、第j段行人视频x_j中前t帧图像

对应的包含时序补偿信息的序列特征、第 t帧图像

对应的基础特征向量

以及图像I_i对应的图像特征向量v′_i输入所述actor网络中进行运算，并输出t时刻的动作a_t，且a_t∈(0，1)；若a_t≥0.5，则将

为第j段行人视频x_j对应的视频特征向量

若a_t＜0.5，则将t+1赋值给t后，返回步骤2.4.2顺序执行；

步骤三、使用行人重识别损失更新序列特征提取网络：

步骤3.1、所述序列特征向量

经过一个全连接层的分类处理后，输出的结果再经过 Softmax函数后得到对应行人身份ID的分类概率

其中，

表示行人视频x_j每一帧被为正确行人身份ID为y_j的概率集合，且

表示行人视频x_j中第t帧被分类为正确行人身份ID y_j的概率，利用式(2)计算身份损失函数L_ide：

步骤3.2、利用式(3)计算当前批的处理数据X的三元组损失L_tri：

式(3)中，ρ是边距参数，[*]₊＝max(*，0)表示取最大值函数，

表示第j段视频x_j中前 t帧序列特征向量，

表示当前批的处理数据X中与第j段视频x_j所对应的行人身份ID相同的正样本视频x_p中前t帧图像对应的序列特征向量，y_p表示行人视频x_p对应的行人身份ID，

表示当前批的处理数据X中与第j段视频x_j所对应的行人身份ID不同的负样本视频x_e中前 t帧图像对应的序列特征向量，y_e表示行人视频x_e对应的行人身份ID；

步骤3.3、利用式(4)计算当前批的处理数据X的行人重识别损失L_re-id：

L_re-id＝L_ide+L_tri (4)

步骤3.4、基于所述训练数据集，使用Adam优化策略对序列特征提取网络进行训练优化，直至网络损失函数L_re-id收敛为止，从而得到最优的序列特征提取网络；

步骤四、使用强化学习损失更新所述序列决策模块网络：

步骤4.1、利用式(5)构建t时刻奖励

式(5)中，β为超参，

表示在t时刻根据actor网络选择动作设置对应的奖励，r₀表示固定奖励参数；

若a_t≥0.5，则在两种情况下判定为正确，并按式(5)计算奖励

1)图像I_i与视频x_j对应同一行人身份ID，且v′_i与

的相似度比之前所有的相似度大；2)图像I_i与视频x_j对应不同行人身份ID，且v′_i与

的相似度比之前所有相似度小；其余情况判定为错误，并按式(5)计算奖励

若a_t＜0.5，则计算

与v′_i的相似度，并按式(5)计算奖励

将t+1赋值给t，并使用 actor网络中重新进行判定；

步骤4.2、利用式(6)和式(7)分别计算actor网络的损失函数L_act和critic网络的损失函数 L_crt：

式(6)和式(7)中，

代表actor网络输出，C(*)代表critic网络输出，|*|表示求绝对值， ||*||²表示平方差函数；

步骤4.3、基于所述训练数据集，使用Adam优化策略对序列决策模块网络的actor网络和critic网络进行交替训练，直至损失函数L_act和L_crt收敛为止，从而得到最优的序列决策模块网络；

步骤五、检索过程：

步骤5.1、按照步骤一的方式构建视频查询库和视频待检索库，并取视频查询库内所有视频的第一帧构成图像查询库，将图像查询库和视频待检索库分别记作query和gallery，并一起输入最优的序列特征提取网络和最优的序列决策模块网络对应的actor网络中进行处理，从而由actor网络输出视频待检索库gallery的对应的视频特征

由序列特征提取网络输出图像查询库query对应的图像特征

其中，

表示图像查询库query 中的第q个查询图像对应的特征，N_q表示查询图像中的数量，

表示视频待检索库 gallery中的第g个视频对应的特征，N_g表示视频待检索库gallery中的视频数量；

步骤5.2、根据图像特征

和视频特征

计算相似度矩阵，并将相似度矩阵逐行降序排序输出得到最终的检索结果。

与现有技术相比，本发明的有益效果在于：

1、本发明首次将图像-视频跨模态行人重识别任务视为点到集的匹配问题，通过序列特征提取网络学习视频帧间的互补信息，增强了视频特征表达，利用强化学习理论构造了根据行人查询图像内容，动态地选择所需视频帧数的智能体，极大地提高了图像-视频行人检索的效率和准确率。

2、本发明将点到集的匹配问题建模为马尔可夫过程，基于强化学习理论设计了一个 actor-critic智能体(称为序列决策模块网络)，并设计特定的奖励机制，促使模型能根据不同的行人查询图像，自适应地从全部视频帧选择合适的帧数，累积充分的时序补偿区分线索，从而提升了图像-视频行人检索的效率，同时避免了额外视频帧内噪声的引入，获得更为可靠的视频行人特征。

3、本发明使用序列特征提取网络可动态抑制连续视频帧内已激活的显著信息，深入挖掘视频帧间未探索的、潜在的互补线索，避免了视频内蕴含的大量时空冗余信息对网络造成干扰，从而提高了视频特征的鲁棒性以及图像-视频行人检索的准确率。

附图说明

图1为本发明方法的流程图。

具体实施方式

本实施例中，一种基于时序信息补偿引导的强化学习图像-视频行人重识别方法，是为了解决视频和图像之间由于时空信息不对等差异问题，该方法将图像-视频跨模态行人检索视为点到集的匹配问题，深入挖掘视频序列所蕴含的互补信息，减少视频序列中时空冗余信息与噪声的干扰，利用强化学习理论根据行人查询图像内容动态地使用较少的视频帧数，累积充分的时序补偿区分线索，完成从图像到视频的行人匹配，实现高效、精确的身份识别。

参照图1，具体地说，包括如下步骤：

步骤一、行人数据收集和预处理：

m表示任意一个行人的身份ID，

表示训练数据集中D的身份ID数量；N表示训练数据集D中的行人视频的数量；本实施例中， N＝8298，

t_i平均值为61.5。

步骤二、构建批处理视频数据：

步骤2.1、从训练数据集D中随机采集p个行人身份ID，且根据每个行人身份ID分别随机选取n段相应行人身份ID的行人视频，再从每段行人视频中采样T帧图像，从而由p×n段视频序列构成当前批的处理数据

其中，x_j表示批处理数据X中时间长度为 T的第j段视频，且

表示第j段视频x_j中的第t帧图像，y_j表示批处理数据X中第j段视频x_j中对应的行人身份ID；本实施例中，p＝4，n＝4，T＝6。

ResNet-50深度学习网络包括5个阶段，其中，第1个阶段Stage 0由一个卷积核为k₁×k₁的卷积层，一个批量归一化处理层和一个ReLU激活函数层构成，其余4个阶段均由Bottleneck模块组成；第2个阶段Stage 1包含3个Bottleneck模块，剩下3个阶段分别包括4个、6个、3个Bottleneck模块，每个Bottleneck模块由S个卷积层组成，每个卷积层后均连接一个批量归一化处理层和一个ReLU激活函数层；其中第s个卷积层的卷积核为K_s×K_s；本实施例中，k₁＝7，S＝3，K₁＝1，K₂＝3，K₃＝1；

序列特征提取模块包含一个由ResNet-50网络前四个阶段构成的基础特征提取模块，一个多头注意力模块及T个补偿残差检测器；本实施例中，T＝6；

其中，多头注意力模块包含两个卷积层，每个补充残差检测器包含一个由ResNet-50网络第五阶段构造的补偿特征学习模块；本实施例中，T个补偿残差检测器中的补偿特征学习模块均为ResNet-50网络的第五阶段，为减少网络参数量，其T个补偿残差检测器的前两个 Bottleneck模块的参数共享，最后一个Bottleneck模块的参数各不相同。不同补偿特征学习模块用于挖掘不同帧内的互补信息，对其进行累计能够获取更为有效的行人特征。当构建序列特征提取模块用于提取行人查询图像对应的特征时，仅使用基础特征提取模块和第一个补偿残差检测器，避免了针对图像和视频数据需要搭建不同的网络，极大程度地降低了网络的复杂度。

步骤2.3、将当前批的处理数据X中的第j段视频x_j输入序列特征提取网络，经过基础特征提取模块的处理后，得到第j个基础特征

表示第j段视频x_j中的第t帧图像

对应的基础特征；

当t＝1时，第t帧图像

对应的基础特征

经过第t个补偿残差检测模块的提取后，得到第t帧图像

对应的特征

并令第t帧图像

对应的包含时序补偿信息的序列特征

其中，

表示前t-1帧图像对应的包含时序补偿信息的序列特征，且

当t≥2时，前t-1帧图像对应的序列特征

其中， k²表示显著区域的数量；本实例中k＝3，c＝1024；

在第t个补偿残差检测器中，将显著性特征

作为维度为k×k×c的卷积核，并与第t 帧基础特征

进行卷积学习后获取前t-1帧图像对应的显著性特征

在第t帧图像

上对应的显著区域的掩图

并利用式(1)得到第t帧图像

蕴含的补偿残差信息

补偿残差信息

经过第t个补偿特征学习模块的处理后得到补偿特征

将

与前t-1帧对应的包含时序补偿信息的序列特征

相加后获得前t帧对应的包含时序补偿信息的序列特征

经过一个时空平均池化层后输出第j个特征集合

从而得到当前批的处理数据X的特征集合

其中，

表示第j段视频x_j的前t帧图像提取的含时序补偿信息的序列特征向量；本实例中，当k＝1时，

可以被视作大小为1×1×c的卷积核，将

与

卷积等价于计算

中每个特征向量与

之间的相似度。

步骤2.4、构建由actor网络和critic网络组成的智能体，被称为序列决策模块网络。其中，critic网络包括三个全连接层，actor网络含三个全连接层和一个Sigmoid函数层；本实例中，actor网络用于判断是否需要视频序列中下一帧的互补信息辅助识别，从而决定最终行人视频对应的特征表达，critic网络用于预测状态动作值；

步骤2.4.1、从当前批的处理数据X中获取与行人视频x_j不同的行人视频x′_j，行人视频x′_j对应行人ID为y′_j，将行人视频x′_j中的第一帧记为行人图像I_i，行人图像I_i经过序列特征提取网络后得到对应的图像特征向量v′_i；

步骤2.4.2、在t时刻将第j段行人视频x_j中第t帧图像

对应的基础特征

经池化层后获得基础特征向量

步骤2.4.3、第j段行人视频x_j中前t帧图像

对应的包含时序补偿信息的序列特征、第t帧图像

对应的基础特征向量

以及图像I_i对应的图像特征向量v′_i输入actor网络中进行运算，并输出t时刻的动作a_t，且a_t∈(0，1)；若a_t≥0.5，则将

为第j段行人视频x_j对应的视频特征向量

若a_t＜0.5，则将t+1赋值给t后，返回步骤2.4.2顺序执行；视频特征向量

由agent根据视频x_j中前t帧图像

对应的包含时序补偿信息的序列特征，第t帧图像

对应的基础特征向量

以及图像I_i对应的图像特征向量v′_i确定；

步骤三、使用行人重识别损失更新序列特征提取网络：

步骤3.1、序列特征向量

经过一个全连接层的分类处理后，输出的结果再经过Softmax函数后得到对应行人身份ID的分类概率

其中，

式(3)中，ρ是边距参数，[*]₊＝max(*，0)表示取最大值函数，

表示第j段视频x_j中前 t帧序列特征向量，

L_re-id＝L_ide+L_tri (4)

该损失函数能够驱使序列特征提取网络中每个补偿残差检测器都能从视频各帧内学习鲁棒的互补信息。

步骤3.4、基于训练数据集，使用Adam优化策略对序列特征提取网络进行训练优化，直至网络损失函数L_re-id收敛为止，从而得到最优的序列特征提取网络；

步骤四、使用强化学习损失更新序列决策模块网络：

步骤4.1、利用式(5)构建t时刻奖励

式(5)中，β为超参，

表示在t时刻根据actor网络选择动作设置对应的奖励，r₀表示固定奖励参数；本实施例中，β＝1.9，r₀＝1.0；

若a_t≥0.5，则在两种情况下判定为正确，并按式(5)计算奖励

1)图像I_i与视频x_j对应同一行人身份ID，且v′_i与

若a_t＜0.5，则计算

与v′_i的相似度，并按式(5)计算奖励

将t+1赋值给t，并使用 actor网络中重新进行判定；

式(6)和式(7)中，

步骤4.3、基于训练数据集，使用Adam优化策略对序列决策模块网络的actor网络和 critic网络进行交替训练，直至损失函数L_act和L_crt收敛为止，从而得到最优的序列决策模块网络；

步骤五、检索过程：

由序列特征提取网络输出图像查询库query对应的图像特征

其中，

表示视频待检索库 gallery中的第g个视频对应的特征，N_g表示视频待检索库gallery中的视频数量；本实施例中，N_q＝1980，N_g＝10200；

步骤5.2、根据图像特征

和视频特征

Claims

1.一种基于时序补偿引导的强化学习图像-视频行人重识别方法，其特征在于，包括如下步骤：

步骤一、行人数据收集和预处理：

其中，x'_i表示第i段行人视频，且第i段行人视频x'_i所包含的帧数为t_i，即

表示第i段行人视频x'_i内第t帧图像，y'_i表示第i段行人视频x'_i对应的行人身份ID，且

m表示任意一个行人的身份ID，

步骤二、构建批处理视频数据：

其中，x_j表示批处理数据X中时间长度为T的第j段视频，且

所述ResNet-50深度学习网络包括5个阶段，其中，第1个阶段Stage 0由一个卷积核为k₁×k₁的卷积层，一个批量归一化处理层和一个ReLU激活函数层构成，其余4个阶段均由Bottleneck模块组成；第2个阶段Stage 1包含3个Bottleneck模块，剩下3个阶段分别包括4个、6个、3个Bottleneck模块，每个Bottleneck模块由S个卷积层组成，每个卷积层后均连接一个批量归一化处理层和一个ReLU激活函数层；其中第s个卷积层的卷积核为K_s×K_s；

其中，所述多头注意力模块包含两个卷积层，每个补充残差检测器包含一个由ResNet-50网络第五阶段构造的补偿特征学习模块；