CN110110601B

CN110110601B - 基于多时空注意力模型的视频行人重识别方法及装置

Info

Publication number: CN110110601B
Application number: CN201910273362.0A
Authority: CN
Inventors: 张斯尧; 谢喜林; 王思远; 黄晋; 蒋杰; 张�诚
Original assignee: Shenzhen Jiuling Software Technology Co ltd
Current assignee: Shenzhen Jiuling Software Technology Co ltd
Priority date: 2019-04-04
Filing date: 2019-04-04
Publication date: 2023-04-25
Anticipated expiration: 2039-04-04
Also published as: CN110110601A

Abstract

本发明公开一种基于多时空注意力模型的视频行人重识别方法及装置，该算法首先利用多空间注意力模型来定位判别视频图像行人区域；再结合时间注意力模型来计算由每个空间注意力模型提取的特征的聚合表示，并进行行人重识别损失函数补偿；最后将待识别图像的特征向量与有效地理区域范围内的视频图像的行人的特征向量对比，搜索出相似度最高的行人目标图像并输出最终重识别匹配结果。本发明算法能解决针对实际过程中，行人视频图像成像质量差，细节显示不清楚，行人部分有用信息被遮挡而特征提取困难导致的视频监控系统重识别准确率不高等问题，并使算法满足实时性需求。

Description

基于多时空注意力模型的视频行人重识别方法及装置

技术领域

本发明涉及计算机视觉领域，具体涉及一种基于多时空注意力模型的视频行人重识别方法及装置。

背景技术

随着人工智能、计算机视觉和硬件技术的不断发展，视频图像处理技术已经广泛应用于智能城市系统中。

行人重识别(Person Re-identification)也称行人再识别，简称为Re-ID。是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。在监控视频中，由于相机分辨率和拍摄角度的缘故，通常无法得到质量非常高的人脸图片。当人脸识别失效的情况下，Re-ID就成为了一个非常重要的替代品技术。Re-ID有一个非常重要的特性就是跨摄像头，所以检索出不同摄像头下的相同行人图片就成为了Re-ID的关键。

大多现存的解决视频行人重识别问题的方法是把每一帧编码成一个向量，然后对所有的帧向量进行聚合得到视频序列的特征嵌入。在实践中，行人经常被部分遮挡，这样就破坏了提取的特征。并且基于视频的行人重识别Re-ID，如果全部利用所有的帧，会因为有很多质量不好的图片(遮挡，光照等因素)对深度学习出来的特征影响很大。从而影响行人重识别的准确率，增加系统的计算量的同时使系统鲁棒性也变差。

针对这些问题，本发明提出一种基于多时空注意力模型的视频图像行人重识别算法。本发明算法能够自动地使用视频序列中条件最好的帧中的路径学到面部、躯干以及身体其他部分的特征，能够很好地对抗遮挡和不对齐，有效提取所有帧中的有用信息，能够很好的提高行人重识别系统在复杂条件下的重识别准确率、并提高系统的鲁棒性。

发明内容

本发明的主要目的是提供一种基于多时空注意力模型的视频行人重识别方法及装置，旨在目前视频行人识别系统在实践时，行人经常被部分遮挡，这样就破坏了提取的特征，并且基于视频的行人重识别Re-ID，如果全部利用所有的帧，会因为有很多质量不好的图片(遮挡，光照等因素)对深度学习出来的特征影响很大，从而影响行人重识别的准确率，增加系统的计算量的同时使系统鲁棒性也变差的问题。

为实现上述目的，本发明提供一种基于多时空注意力模型的视频行人重识别方法，包括以下步骤：

S1基于多空间注意力模型来定位判别视频图像行人区域；

S2基于时间注意力模型来计算由每个空间注意力模型提取的特征的聚合表示，并将聚合表示连接成最终的特征向量；

S3根据步骤S1和S2获取待识别图像的特征向量，将待识别图像的特征向量与有效地理区域范围内的视频图像的行人的特征向量对比，搜索出相似度最高的行人目标图像并输出最终重识别匹配结果。

优选地，步骤S1包括：

S1.1用约束随机抽样策略进行视频图像采样；

S1.2利用采样的视频图像训练多空间注意力模型来定位判别视频图像行人区域。

优选地，步骤S1.1包括：

给定一个输入视频V，将其按照相等时间划分为N个块：{C_n},n＝1...N，从每个块Cn中随机地对图像In进行采样，视频由有序的一组采样帧表示{I_n},n＝1...N。

优选地，步骤S1.2包括：

从每个采样图像中提取特征，将N张图片送入预训练的ResNet50得到N×2048×8×4的特征图，并将每张图划分为32个2048维的空间特征{f_n,l},l＝1,L，其中L＝32，对于每个空间注意力模块，将2048×32的空间特征图经过一个d个神经元的fc+ReLU降维得到d×32，然后再经过一个神经元的fc得到1×32＝32个e(n,k,l)；

将一张图32个空间向量经过下面的softmax得到32个空间向量的权重，每个空间向量权重表示为S_n,k,l表示第n帧、第k个空间注意力模块、第l个空间向量的权重，S_n,k成为第k个空间注意力模块的感受野，具体公式如下：

根据L个权重对L个空间特征进行加权求和，得到了第n帧、第k个空间注意力模块的特征X_n,k：

获取得到视频序列的N×K×D的空间注意力输出图。

优选地，步骤S1.2还包括：

利用海林格距离来计算s_n,i和s_n,j的相似性，其定义为：

在对s_n,i和s_n,j之间的距离进行最大化的条件下，每个图像的感受野冗余的正则项是：

其中，

||·||F表示矩阵的Frobenius范数，I是K维单位矩阵，该正则项Q将乘以一个系数，并添加到训练模型中的原始OIM损失中。

优选的，步骤S2包括：

将N×K×D特征图经过一个神经元的fc得到N×K的，然后再在时域N上Softmax得到N×K的时域权重，t_n,k表示对于第K个空间注意力模块，第n帧感受野特征的权重，其公式如下：

然后时序注意力模型被运用在每个成分上使用加权平均：

最终的判别性的区域的特征为：

将这些聚合表示连接成最终的特征向量：x＝[x₁,...,x_K]。

优选的，步骤S3中通过以下公式计算相似度：

为实现上述目的，本发明提供一种计算机装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如上述任一项所述的基于多时空注意力模型的视频行人重识别方法的步骤。

本发明提出的基于多时空注意力模型的视频行人重识别方法，能够自动地使用视频序列中条件最好的帧中的路径学到面部、躯干以及身体其他部分的特征，能够很好地对抗遮挡和不对齐，有效提取所有帧中的有用信息，能够很好的提高行人重识别系统在复杂条件下的重识别准确率、并提高系统的鲁棒性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1是本发明一实施例所述的算法流程图；

图2是本发明一实施例所述整体算法整体网络结构图；

图3是本发明一实施例所述多空间注意力模型的可视化图像结果；

图4是本发明一实施例所述时域注意力的可视化结果图像。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明算法的流程图如图1所示，整体网络结构图如图2所示。

本发明本发明提出的基于多时空注意力模型的视频行人重识别方法具体包括以下步骤：

S1基于多空间注意力(spatial attention)模型来定位判别视频图像行人区域；

S1.1用约束随机抽样策略进行视频图像采样；

本发明提出一种约束的随机采样策略以期能够获得原始数据好的特征表达，该方法能够利用整个视频序列的视觉信息，同时避免连续帧之间的冗余，其具体如下：

给定一个输入视频V，将其按照相等时间划分为N个块：{C_n}，n＝1...N，从每个块Cn中随机地对图像In进行采样，即每个块中随机选择1张图片，然后，视频由有序的一组采样帧表示{I_n}，n＝1...N，完成视频随机采样。

S1.2训练多空间注意力模型来定位判别视频图像行人区域；

本发明算法采用ResNet-50 CNN结构作为基础模型，用于从每个采样图像中提取特征，将N张图片送入预训练的ResNet50得到N×2048×8×4的特征图，对于每张图，划分为32个2048维的空间特征{f_n,l},l＝1,L，其中L＝32，对于每个空间注意力模块，将2048x32的空间特征图经过一个d个神经元的fc+ReLU降维(D＝2048,d＝256)得到d×32，然后再经过一个神经元的fc得到1×32＝32个e(n,k,l)，这一过程用数学表达式如下：

where w′_s,k∈R^d,W_s,k∈R^d×D,b_s,k∈R^dandb″_s,k∈R

然后将一张图32个空间向量经过下面的softmax得到32个空间向量的权重，每个空间向量权重表示为S_n,k,l表示第n帧、第k个空间注意力模块、第l个空间向量的权重，S_n,k成为第k个空间注意力模块的感受野，具体公式如下：

然后根据L个权重对L个空间特征进行加权求和(如下式)，得到了第n帧、第k个空间注意力模块的特征X_n,k：

这样就得到了视频序列的N×K×D的空间注意力输出图。

S1.3对处理过后的视频图像进行多样性正则化；

通常来说如果不提供约束，仅仅用一个OIM损失(类似于Softmax损失)，会导致训练模型退化，使得多个空间注意力模型结果检测人体相同的部位，为了提供约束使多空间注意力模型关注不同的部位，考虑到每个空间注意力模块的感受野S_n,k具有概率解释(Softmax将其映射到0-1之间)，采用了一个惩罚项，用来衡量不同感受野之间的重叠，计算来两个注意力向量S_n,1和S_n,j的重叠区域，利用海林格(Hellinger)距离来计算s_n,i和s_n,j的相似性，其定义为：

因为

为了确保感受野的多样性，需要最大化s_n,i和s_n,j之间的距离，这相当于最小化：

1-H²(s_n,i,s_n,j)

其中：

每个图像的感受野冗余的正则项是：

其中||·||F表示矩阵的Frobenius范数，I是K维单位矩阵，该正则项Q将乘以一个系数，并添加到原始OIM loss中。

处理后的可视化结果图像如图3所示，本发明算法通常能够关注到大的且不重叠的对判别有利的区域。

S2基于时域注意力(temporal attention)模型来计算由每个空间注意力模型提取的特征的聚合表示，并进行行人重识别损失函数(Loss)补偿。

为了关注到更多细粒度的信息，本发明算法采用了N×K个权重、每帧视频的每个空间感受野一个单独权重的时域注意力方法，具体实现上，将N×K×D特征图经过一个神经元的fc得到N×K的，然后再在时域N上Softmax得到N×K的时域权重，t_n,k表示对于第K个空间注意力模块，第n帧感受野特征的权重，

其公式如下：

然后时序注意力模型被运用在每个成分上使用加权平均：

最终的判别性的区域的特征为：

然后将这些聚合表示连接成最终的特征向量，该特征向量表示整个视频中行人可用的所有信息：

x＝[x₁,...,x_K]

最后，因为通常情况下一般的行人重识别算法使用多类的softmax作为目标损失，但因为样本数量少于训练中的个体数量，因此网络更新可能存在误差，所以本发明算法采用了OIM loss(Online Instance Mathing loss function)，OIM loss使用一个存储了之前训练集中所有行人特征的查找表，在前向过程中，每个批次中的样本利用了之前所有行人特征计算分类可能性，OIM loss被证明在行人重识别任务中比Softmax loss更有效。

处理后的可视化结果图像如图4所示，实际过程中，时域注意力相比于平庸化的时域平均，能够有选择地关注到无遮挡空间注意力区域。

S3将待识别图像的特征向量与有效地理区域范围内的视频图像的行人的特征向量对比，搜索出相似度最高的行人目标图像并输出最终重识别匹配结果。

相似度计算通常采用余弦距离计算，余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小，相比距离度量，余弦相似度更加注重两个向量在方向上的差异，而非距离或长度上，公式如下：

计算得到的数值越小，则相似度越高，结合输出最终重识别系统模型。

按照上述方法，按要求搜索出top1、top5、top100等的行人重识别图像，将最终重识别的结果输出。

将本发明中提出的方法实际上可嵌入FPGA实现，运用于具有实时的行人重识别的系统中。

本发明还提供一种计算机装置，在一实施例中，该计算机装置包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一实施例中的基于多时空注意力模型的视频行人重识别方法的步骤。可以理解，该计算机装置可以为电视、IPAD、PC、手机等。

本领域技术人员将清楚本发明的范围不限制于以上讨论的示例，有可能对其进行若干改变和修改，而不脱离所附权利要求书限定的本发明的范围。尽管己经在附图和说明书中详细图示和描述了本发明，但这样的说明和描述仅是说明或示意性的，而非限制性的。本发明并不限于所公开的实施例。

在本说明书的描述中，参考术语“一实施例”、“另一实施例”、“其他实施例”、或“第一实施例～第X实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料、方法步骤或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种基于多时空注意力模型的视频行人重识别方法，其特征在于，包括以下步骤：

S1基于多空间注意力模型来定位判别视频图像行人区域；

S3根据步骤S1和S2获取待识别图像的特征向量，将待识别图像的特征向量与有效地理区域范围内的视频图像的行人的特征向量对比，搜索出相似度最高的行人目标图像并输出最终重识别匹配结果；步骤S1包括：

S1.1用约束随机抽样策略进行视频图像采样；

S1.2利用采样的视频图像训练多空间注意力模型来定位判别视频图像行人区域；步骤S1.1包括：

给定一个输入视频V，将其按照相等时间划分为N个块：{C_n},n＝1...N，从每个块Cn中随机地对图像In进行采样，视频由有序的一组采样帧表示{I_n},n＝1...N；步骤S1.2包括：

从每个采样图像中提取特征，将N张图片送入预训练的ResNet50得到N×2048×8×4的特征图，并将每张图划分为32个2048维的空间特征{f_n,l},l＝1,L，其中L＝32，对于每个空间注意力模块，将2048×32的空间特征图经过一个d个神经元的fc+ReLU降维得到d×32，然后再经过一个神经元的f_c得到1×32＝32个e(n,k,l)；