CN112183338B

CN112183338B - 一种基于视频的烟雾场景下人的再识别方法、系统及终端

Info

Publication number: CN112183338B
Application number: CN202011040081.XA
Authority: CN
Inventors: 荆晓远; 程立; 姚永芳; 孔晓辉; 王许辉; 黄鹤
Original assignee: Guangdong University of Petrochemical Technology
Current assignee: Guangdong University of Petrochemical Technology
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2021-06-15
Anticipated expiration: 2040-09-28
Also published as: CN112183338A

Abstract

本发明属于人物识别技术领域，公开了一种基于视频的烟雾场景下人的再识别方法、系统及终端，构建对称非局部编解码K估计网络模型对视频进行去雾处理；构建判别网络模型，并基于构建的判别网络模型估计输入的视频是正常视频还是去雾子网络生成的无雾视频；构建非局部双注意人物重识别子网络模型，对人物进行重识别。本发明能够解视频中人物再识别有雾导致再识别困难的问题。本发明能够良好的在有雾视频中完成人物重识别。本发明整个流程是端到端的设计，能够更简单的被使用。本发明是一个基于视频的烟雾场景下人的再识别技术，能够完成端到端的判别，并且能够良好的完成人物重识别。

Description

一种基于视频的烟雾场景下人的再识别方法、系统及终端

技术领域

本发明属于人物识别技术领域，尤其涉及一种基于视频的烟雾场景下人的再识别方法、系统及终端。

背景技术

目前，基于视频的人员再识别许多安全关键应用的关键任务，如自动视频监视和取证。基于视频的人像识别的任务是从大量人像中匹配人像，近年来得到了广泛的研究，但是这项任务仍然具有挑战性，因为拍摄的人视频质量低，姿势变化，相机的视角和杂乱的背景。

空气中的霾、雾、烟和其他小颗粒物的存在会使大气中的光散射，从而大大降低了人的图像或视频的可见度。这些模糊人失去了对比度和色彩逼真度。人们还可以观察到，在这些雾霾的人像框中，很多对人的重新身份很重要的细节，比如衣服、鞋子的纹理信息，也会丢失。此外，由于每个帧中的许多细节都被雾模糊，因此在多个连续帧中存在的局部短期快速变化信息变得难以捕捉，这是基于视频的人的身份识别的一个关键特征。有雾视频中重要信息的丢失，导致有雾视频提供的特征信息与正常人视频之间存在较大差距。这种特征信息的严重不对称性进一步加剧了将正常人视频(probe)与有雾视频进行匹配时的身份识别困难。

通过上述分析，现有技术存在的问题及缺陷为：现有技术还没有针对有雾视频人物再识别的相关研究。

现有技术本不能很好完成端到端的判别，人物重识别准确效果差。

解决以上问题及缺陷的难度为：

如何在有雾的情况下进行人物再识别，并且保证人物再识别的精度。

解决以上问题及缺陷的意义为：

能够在有雾的场景下依旧能够进行人物再识别，并且精度损失不大。

发明内容

针对现有技术存在的问题，本发明提供了一种基于视频的烟雾场景下人的再识别方法、系统及终端。

本发明是这样实现的，一种基于视频的烟雾场景下人的再识别方法，所述基于视频的烟雾场景下人的再识别方法包括：

步骤一，构建对称非局部编解码K估计网络模型对视频进行去雾处理；

步骤二，构建判别网络模型，并基于构建的判别网络模型估计输入的视频是正常视频还是去雾子网络生成的无雾视频；

步骤三，构建非局部双注意人物重识别子网络模型，对人物进行重识别。

进一步，步骤一中，所述构建对称非局部编解码K估计网络模型对视频进行去雾处理包括：

(1)建立非局部残差块；将建立的非局部残差块作为编码器和解码器，建立编码结构和解码结构；

(2)建立RNN层学习每个有雾视频的相邻帧中包含的时间一致性信息；

(3)对整个对称非局部编解码K估计网络结构进行连接：通过编码器的非局部残差块和镜像解码器非局部残差块建立一个残差连接，进行整个对称非局部编解码K估计网络结构连接。

进一步，步骤(1)中，所述非局部残差块由典型的残差单元，一个上下采样层和一个非局部块组成。

进一步，步骤(2)中，所述建立RNN层学习每个有雾视频的相邻帧中包含的时间一致性信息包括：

对于编码器的输出

其中i表示第i个行人，h表示输入雾化视频，he表示编码器输出结果；特征映射

首先使用完全连接的层FC^E被重塑并投影到一组特征向量中:

然后通过求解公式

其中

来学习

中存在的全局长期时间一致性信息；时间步骤t的输出

是当前时间步骤t的信息

和上一时间步骤的记忆

的线性组合；最后，使用完全连接层FC^E的一个镜像FC^D将每个

投影成

的相同形状大小。

进一步，步骤二中，所述判别网络模型包括：

所述判别网络模型由三个步长为2的卷积层组成，每个卷积层后接一个批规范化层和一个带泄露修正线性单元；将上述特征将应用到全连接层和sigmoid函数层；同时采用二元交叉熵函数作为判别子网络的损失，定义如下：

其中，H表示去雾子网，D表示鉴别器网；h(x_i,t)表示有雾视频的第t帧第i个行人对应的判别器网络的输出，T表示视频中包含的帧的数目；且y_i,t＝[0,1]是x_i,t的标签，y_i,t＝0表示输入x_i,t是无雾帧，y_i,t＝1表示输入x_i,t是正常帧。

进一步，步骤三中，构建非局部双注意人物重识别子网络模型，对人物进行重识别包括：

1)建立三维运动信息捕捉；

2)建立中级特征学习，将几个非局部剩余块堆叠起来，每个块后面跟着一个下采样层，形成中间层特征提取器；在中层特征抽取器的最后，应用一个完全连接的层和一个脱落层将空间特征映射到一个特征向量中；其中，对于每个帧x_i,t，中级特征提取器的输入是3D运动信息捕获模块生成的特征映射，输出是特征向量d_i,t；

3)建立长期依赖性学习：应用RNN层提取每个特征向量集d_i＝d_(i，1)…d_(i,T)，其中i表示第i个行人，T表示视频的长度；

4)建立自我和协作注意模块；建立协作注意模块；

5)对于每对视频特征向量

制定暹罗网络训练目标函数。

进一步，步骤3)中，所述应用RNN层提取每个特征向量集包括：

RNN层通过以下操作学习d_i中存在的全局长期时间依赖：o(i，t)＝W_kd_(i,t)+W_lr_(i,t-1)其中r_t＝tanh(o_(i,t))，时间步骤t处的输出o(i,t)是时间步骤t处非局部剩余块的输出d_(i,t)和上一时间步骤的存储器r_(i,t-1)的线性组合。

进一步，步骤4)中，所述建立自我和协作注意模块包括：

4.1)对帧特征向量集O_i＝{o_(i,1),o_(i,2)…o_(i,T)}均值池化，在时间维度上对O_i＝o_(i,1)…o_(i,T)执行均值池化，表示为：

4.2)通过对o_i中的每个o_(i,t)应用一个完全连接的层进行所有帧向量O_i＝{o_(i,1),o_(i,2)…o_(i,T)}到权重空间的映射；其中，每个o_(i,t)的完全连接层的输出是标量值

4.3)将所有

标准化，使用softmax层：

4.4)获得表示整个视频序列的特征向量：

进一步，步骤4)中，所述建立协作注意模块包括：

f_i ^P表示自我注意机制模型对应的第i帧视频的输出，

表示与第j标识的视频帧集相对应的RNN层的输出；

其中

表示

和f_i ^P之间的欧几里德距离；

基于下式计算相似性得分：

得到视频

相对于探测器视频

的协作视频表示：

进一步，步骤5)中，所述制定暹罗网络训练目标函数包括：

所述暹罗网络训练目标函数如下：

其中，m是边距；

将标准交叉熵损失应用于特征向量

其公式如下：

其中，

C表示训练集中包含的标识数，F C表示完全连接的层，W_b和W_c分别表示softmax权重矩阵W；

则，总体训练目标函数G，如下所示：

本发明另一目的在于提供一种基于视频的烟雾场景下人的再识别系统，包括：

估计网络模型构建模块，用于构建对称非局部编解码K估计网络模型对视频进行去雾处理；

判别网络模型构建模块，用于基于构建的判别网络模型估计输入的视频是正常视频还是去雾子网络生成的无雾视频；

非局部双注意人物重识别子网络模型构建模块，用于对人物进行重识别。

本发明另一目的在于提供一种基于视频的人像识别终端，所述基于视频的人像识别终端搭载控制器，所述控制器执行如下步骤：

构建对称非局部编解码K估计网络模型对视频进行去雾处理；

构建判别网络模型，并基于构建的判别网络模型估计输入的视频是正常视频还是去雾子网络生成的无雾视频；

构建非局部双注意人物重识别子网络模型，对人物进行重识别。

本发明另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

步骤1，构建对称非局部编解码K估计网络模型对视频进行去雾处理；

步骤2，构建判别网络模型，并基于构建的判别网络模型估计输入的视频是正常视频还是去雾子网络生成的无雾视频；

步骤3，构建非局部双注意人物重识别子网络模型，对人物进行重识别。

本发明另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

结合上述的所有技术方案，本发明所具备的优点及积极效果为：本发明能够解视频中人物再识别有雾导致再识别困难的问题。本发明能够良好的在有雾视频中完成人物重识别。本发明整个流程是端到端的设计，能够更简单的被使用。本发明是一个基于视频的烟雾场景下人的再识别技术，能够完成端到端的判别，并且能够良好的完成人物重识别。

本发明减少雾霾对行人模糊视频特征的负面影响，提高有雾视频人物再识别的性能。

与现有技术比较结果如下：

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于视频的烟雾场景下人的再识别的原理图。

图2是本发明实施例提供的基于视频的烟雾场景下人的再识别的流程图。

图3是本发明实施例提供的非局部残差块结构图。

图4是本发明实施例提供的对称非局部编解码K估计网络结构图。

图5是本发明实施例提供的基于视频的烟雾场景下人的再识别网络结构图。

图6是本发明实施例提供的模拟雾霾中的人物序列示例效果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种基于视频的烟雾场景下人的再识别方法，下面结合附图对本发明作详细的描述。

如图1-图2所示，本发明实施例提供的基于视频的烟雾场景下人的再识别方法包括：

S101，构建对称非局部编解码K估计网络模型对视频进行去雾处理；

S102，构建判别网络模型，并基于构建的判别网络模型估计输入的视频是正常视频还是去雾子网络生成的无雾视频；

S103，构建非局部双注意人物重识别子网络模型，对人物进行重识别。

步骤S101中，本发明实施例提供的构建对称非局部编解码K估计网络模型对视频进行去雾处理包括：

步骤(1)中，，本发明实施例提供的非局部残差块由典型的残差单元，一个上下采样层和一个非局部块组成。

步骤(2)中，本发明实施例提供的建立RNN层学习每个有雾视频的相邻帧中包含的时间一致性信息包括：

对于编码器的输出

首先使用完全连接的层FC^E被重塑并投影到一组特征向量中:

然后通过求解公式

其中

来学习

中存在的全局长期时间一致性信息；时间步骤t的输出

是当前时间步骤t的信息

和上一时间步骤的记忆

投影成

的相同形状大小。

步骤S102中，本发明实施例提供的判别网络模型包括：

步骤S103中，本发明实施例提供的构建非局部双注意人物重识别子网络模型，对人物进行重识别包括：

1)建立三维运动信息捕捉；

3)建立长期依赖性学习：应用RNN层提取每个特征向量集d_i＝d_(i,1)…d_(i,T)，其中i表示第i个行人，T表示视频的长度；

4)建立自我和协作注意模块；建立协作注意模块；

5)对于每对视频特征向量

制定暹罗网络训练目标函数。

步骤3)中，本发明实施例提供的应用RNN层提取每个特征向量集包括：

RNN层通过以下操作学习d_i中存在的全局长期时间依赖：o(i,t)＝W_kd_(i,t)+W_lr_(i，t-1)其中r_t＝tanh(o_(i,t))，时间步骤t处的输出o(i，t)是时间步骤t处非局部剩余块的输出d_(i，t)和上一时间步骤的存储器r_(i，t-1)的线性组合。

步骤4)中，本发明实施例提供的建立自我和协作注意模块包括：

4.1)对帧特征向量集O_i＝{o_(i,1)，o_(i，2)…o_(i，T)}均值池化，在时间维度上对O_i＝o_(i，1)…o_(i，T)执行均值池化，表示为：

4.2)通过对o_i中的每个o_(i，t)应用一个完全连接的层进行所有帧向量O_i＝{o_(i，1)，o_(i，2)…o_(i，T)}到权重空间的映射；其中，每个o_(i，t)的完全连接层的输出是标量值

4.3)将所有

标准化，使用softmax层：

4.4)获得表示整个视频序列的特征向量：

步骤4)中，本发明实施例提供的建立协作注意模块包括：

f_i ^P表示自我注意机制模型对应的第i帧视频的输出，

表示与第j标识的视频帧集相对应的RNN层的输出；

其中

表示

和f_i ^P之间的欧几里德距离；

基于下式计算相似性得分：

得到视频

相对于探测器视频

的协作视频表示：

步骤5)中，本发明实施例提供的制定暹罗网络训练目标函数包括：

所述暹罗网络训练目标函数如下：

其中，m是边距；

将标准交叉熵损失应用于特征向量

其公式如下：

其中，

则，总体训练目标函数G，如下所示：

本发明还提供一种基于视频的烟雾场景下人的再识别系统，包括：

下面结合具体实施例对本发明的技术方案作进一步说明。

实施例：

本发明的基于视频的烟雾场景下人的再识别网络结构图如图5所示，具体实施如下：

步骤1中建立对称非局部编解码K估计网络进行视频去雾，具体按照下述步骤进行：

步骤1.1,建立非局部残差块。基于残差网络和非局部神经网络的成功，本发明将它们结合起来构造一个非局部残差块。每个非局部残差块由典型的残差单元，一个上下采样层和一个非局部块组成，其具体结构如图3表示(非局部残差块)，将非局部残差块作为编码器和解码器，建立编码结构和解码结构。

步骤1.2，建立RNN层学习每个有雾视频的相邻帧中包含的时间一致性信息。对于编码器的输出

其中i表示第i个行人，h表示输入雾化视频，he表示编码器输出结果。特征映射

首先使用完全连接的层FC^E被重塑并投影到一组特征向量中:

然后本发明可以通过求解公式

其中

来学习

中存在的全局长期时间一致性信息。时间步骤t的输出

是当前时间步骤t的信息

和上一时间步骤的记忆

的线性组合。最后，使用完全连接层FC^E的一个镜像FC^D将每个

投影成

的相同形状大小。

步骤1.3，完成整个对称非局部编解码K估计网络结构连接。编码器的非局部残差块和镜像解码器非局部残差块建立一个残差连接，通过残差连接，编码器中每个非局部块的响应可以直接传播到解码器中相应的镜像非局部块，包括正向和反向。本发明相信编码器和解码器之间的跳跃连接可以使K的估计更加容易和准确。整个对称非局部编解码K估计网络结构如图4所示。

步骤2中建立判别网络来估计输入的视频是正常视频还是去雾子网络生成的无雾视频，判别网络由三个步长为2的卷积层组成，每个卷积层后接一个批规范化层(Batchnorm)和一个带泄露修正线性单元(LeakyRelu)。最后，在计算损失之前，这些特征将应用到全连接层和sigmoid函数层。本发明采用二元交叉熵函数作为判别子网络的损失，定义如下：

其中

其中H表示去雾子网，D表示鉴别器网。h(x_i,t)是有雾视频的第t帧第i个行人对应的判别器网络的输出，T是视频中包含的帧的数目。其中y_i,t＝[0,1]是x_i,t的标签，其中，y_i,t＝0表示输入x_i,t是无雾帧，y_i,t＝1表示输入x_i,t是正常帧。

步骤3中建立非局部双注意人物重识别子网络进行人物重识别，具体按照下述步骤进行；

步骤3.1，建立三维运动信息捕捉。由于每个行人通常都有一些独特的局部短期快速变化运动，短期快速变化的运动信息是基于视频的人的身份识别任务的一个非常重要的特征，三维卷积运算被证明是从视频序列中提取短期快速变化的运动信息的一种强有力的技术。为此，本发明在人物重识别子网的首先采用了几个3D卷积层来探索这个特性。三维卷积层的输入是一个立方体，它可以通过将多个相邻的帧叠加在一起而形成。然后应用3D核函数与立方体卷积。三维核生成的每个特征映射都连接到前一层的多个相邻帧上；

步骤3.2，建立中级特征学习。为了学习每个帧的一个强大的中间层特征表示，本发明将几个非局部剩余块堆叠起来，每个块后面跟着一个下采样层，形成中间层特征提取器。在中层特征抽取器的最后，本发明应用一个完全连接的层和一个脱落层将空间特征映射到一个特征向量中。注意，对于每个帧x_i,t，中级特征提取器的输入是3D运动信息捕获模块生成的特征映射，输出是特征向量d_i,t；

步骤3.3，建立长期依赖性学习。为了进一步模拟行人视频中存在的全局长期时间依赖关系，本发明应用RNN层提取每个特征向量集d_i＝d_(i,1)…d_(i,T)，其中i表示第i个行人，T表示视频的长度。RNN层可以通过以下操作学习d_i中存在的全局长期时间依赖：o(i，t)＝W_kd_(i，t)+W_lr_(i，t-1)其中r_t＝tanh(o_(i,t))，时间步骤t处的输出o(i，t)是时间步骤t处非局部剩余块的输出d_(i，t)和上一时间步骤的存储器r_(i，t-1)的线性组合。

步骤3.4，建立自我和协作注意模块，为了用一个特征向量表示整个视频序列，本发明对帧特征向量集O_i＝{o_(i,1)，o_(i,2)…o_(i,T)}均值池化，在时间维度上对O_i＝o_(i,1)…o_(i，T)执行的均值池化操作可以表示为：

加权求和机制是一种对所有帧向量根据每一帧的重要性求和的池化方法。为了执行加权和运算，本发明首先映射所有帧向量O_i＝{o_(i，1)，o_(i，2)…o_(i，T)}到权重空间。这可以简单地通过对o_i中的每个o_(i，t)应用一个完全连接的层来实现。注意，每个o_(i，t)的完全连接层的输出是标量值

然后本发明把所有

标准化，使用softmax层：

最后，可以获得表示整个视频序列的特征向量：

步骤3.5，建立协作注意模块。设f_i ^P表示自我注意机制模型对应的第i帧视频的输出，

表示与第j标识的视频帧集相对应的RNN层的输出。

其中

表示

和f_i ^P之间的欧几里德距离。本发明计算相似性得分如下：

最后，本发明可以得到视频

相对于探测器视频

的协作视频表示：

步骤3.6，对于每对视频特征向量

本发明可以制定暹罗网络训练目标函数如下：

其中m是边距，这意味着如果负对

已经被m分隔开。本发明还将标准交叉熵损失应用于特征向量

其公式如下：

其中

这里C是训练集中包含的标识数，F C是指完全连接的层，W_b和W_c分别是指softmax权重矩阵W。最后，本发明重写总体训练目标函数G，如下所示：

本实施例将本发明的方法在iLIDS-VID、PRID 2011和MARS数据集上与几种最先进的基于视频的人的身份识别方法进行比较，来评估本发明的性能，比较结果如表1所示。从表1可以看出，在对比的所有方法中，本发明方法的识别准确率最高，识别准确率已经达到了领域先进水平。

表1本发明与最先进的基于视频的人的身份识别方法结果表

模拟雾霾中的人物序列示例中如图6。

在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上；术语“上”、“下”、“左”、“右”、“内”、“外”、“前端”、“后端”、“头部”、“尾部”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”等仅用于描述目的，而不能理解为指示或暗示相对重要性。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于视频的烟雾场景下人的再识别方法，其特征在于，所述基于视频的烟雾场景下人的再识别方法包括：

构建对称非局部编解码K估计网络模型对视频进行去雾处理；

构建非局部双注意人物重识别子网络模型，对人物进行重识别；包括：

1)建立三维运动信息捕捉；

2)建立中级特征学习，将几个非局部剩余块堆叠起来，每个块后面跟着一个下采样层，形成中间层特征提取器；在中层特征抽取器的最后，应用一个完全连接的层和一个脱落层将空间特征映射到一个特征向量中；其中，对于每个帧x_i，t，中级特征提取器的输入是3D运动信息捕获模块生成的特征映射，输出是特征向量d_i，t；

3)建立长期依赖性学习：应用RNN层提取每个特征向量集d_i＝d_(i，1)...d_(i，T)，其中i表示第i个行人，T表示视频的长度；

4)建立自我和协作注意模块；建立协作注意模块；

5)对于每对视频特征向量