CN112183338B - 一种基于视频的烟雾场景下人的再识别方法、系统及终端 - Google Patents

一种基于视频的烟雾场景下人的再识别方法、系统及终端 Download PDF

Info

Publication number
CN112183338B
CN112183338B CN202011040081.XA CN202011040081A CN112183338B CN 112183338 B CN112183338 B CN 112183338B CN 202011040081 A CN202011040081 A CN 202011040081A CN 112183338 B CN112183338 B CN 112183338B
Authority
CN
China
Prior art keywords
video
network model
local
layer
constructing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011040081.XA
Other languages
English (en)
Other versions
CN112183338A (zh
Inventor
荆晓远
程立
姚永芳
孔晓辉
王许辉
黄鹤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Petrochemical Technology
Original Assignee
Guangdong University of Petrochemical Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Petrochemical Technology filed Critical Guangdong University of Petrochemical Technology
Priority to CN202011040081.XA priority Critical patent/CN112183338B/zh
Publication of CN112183338A publication Critical patent/CN112183338A/zh
Application granted granted Critical
Publication of CN112183338B publication Critical patent/CN112183338B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/34Smoothing or thinning of the pattern; Morphological operations; Skeletonisation

Abstract

本发明属于人物识别技术领域,公开了一种基于视频的烟雾场景下人的再识别方法、系统及终端,构建对称非局部编解码K估计网络模型对视频进行去雾处理;构建判别网络模型,并基于构建的判别网络模型估计输入的视频是正常视频还是去雾子网络生成的无雾视频;构建非局部双注意人物重识别子网络模型,对人物进行重识别。本发明能够解视频中人物再识别有雾导致再识别困难的问题。本发明能够良好的在有雾视频中完成人物重识别。本发明整个流程是端到端的设计,能够更简单的被使用。本发明是一个基于视频的烟雾场景下人的再识别技术,能够完成端到端的判别,并且能够良好的完成人物重识别。

Description

一种基于视频的烟雾场景下人的再识别方法、系统及终端
技术领域
本发明属于人物识别技术领域,尤其涉及一种基于视频的烟雾场景下人的再识别方法、系统及终端。
背景技术
目前,基于视频的人员再识别许多安全关键应用的关键任务,如自动视频监视和取证。基于视频的人像识别的任务是从大量人像中匹配人像,近年来得到了广泛的研究,但是这项任务仍然具有挑战性,因为拍摄的人视频质量低,姿势变化,相机的视角和杂乱的背景。
空气中的霾、雾、烟和其他小颗粒物的存在会使大气中的光散射,从而大大降低了人的图像或视频的可见度。这些模糊人失去了对比度和色彩逼真度。人们还可以观察到,在这些雾霾的人像框中,很多对人的重新身份很重要的细节,比如衣服、鞋子的纹理信息,也会丢失。此外,由于每个帧中的许多细节都被雾模糊,因此在多个连续帧中存在的局部短期快速变化信息变得难以捕捉,这是基于视频的人的身份识别的一个关键特征。有雾视频中重要信息的丢失,导致有雾视频提供的特征信息与正常人视频之间存在较大差距。这种特征信息的严重不对称性进一步加剧了将正常人视频(probe)与有雾视频进行匹配时的身份识别困难。
通过上述分析,现有技术存在的问题及缺陷为:现有技术还没有针对有雾视频人物再识别的相关研究。
现有技术本不能很好完成端到端的判别,人物重识别准确效果差。
解决以上问题及缺陷的难度为:
如何在有雾的情况下进行人物再识别,并且保证人物再识别的精度。
解决以上问题及缺陷的意义为:
能够在有雾的场景下依旧能够进行人物再识别,并且精度损失不大。
发明内容
针对现有技术存在的问题,本发明提供了一种基于视频的烟雾场景下人的再识别方法、系统及终端。
本发明是这样实现的,一种基于视频的烟雾场景下人的再识别方法,所述基于视频的烟雾场景下人的再识别方法包括:
步骤一,构建对称非局部编解码K估计网络模型对视频进行去雾处理;
步骤二,构建判别网络模型,并基于构建的判别网络模型估计输入的视频是正常视频还是去雾子网络生成的无雾视频;
步骤三,构建非局部双注意人物重识别子网络模型,对人物进行重识别。
进一步,步骤一中,所述构建对称非局部编解码K估计网络模型对视频进行去雾处理包括:
(1)建立非局部残差块;将建立的非局部残差块作为编码器和解码器,建立编码结构和解码结构;
(2)建立RNN层学习每个有雾视频的相邻帧中包含的时间一致性信息;
(3)对整个对称非局部编解码K估计网络结构进行连接:通过编码器的非局部残差块和镜像解码器非局部残差块建立一个残差连接,进行整个对称非局部编解码K估计网络结构连接。
进一步,步骤(1)中,所述非局部残差块由典型的残差单元,一个上下采样层和一个非局部块组成。
进一步,步骤(2)中,所述建立RNN层学习每个有雾视频的相邻帧中包含的时间一致性信息包括:
对于编码器的输出
Figure BDA0002706375920000021
其中i表示第i个行人,h表示输入雾化视频,he表示编码器输出结果;特征映射
Figure BDA0002706375920000022
首先使用完全连接的层FCE被重塑并投影到一组特征向量中:
Figure BDA0002706375920000023
然后通过求解公式
Figure BDA0002706375920000024
其中
Figure BDA0002706375920000031
来学习
Figure BDA0002706375920000032
中存在的全局长期时间一致性信息;时间步骤t的输出
Figure BDA0002706375920000033
是当前时间步骤t的信息
Figure BDA0002706375920000034
和上一时间步骤的记忆
Figure BDA0002706375920000035
的线性组合;最后,使用完全连接层FCE的一个镜像FCD将每个
Figure BDA0002706375920000036
投影成
Figure BDA0002706375920000037
的相同形状大小。
进一步,步骤二中,所述判别网络模型包括:
所述判别网络模型由三个步长为2的卷积层组成,每个卷积层后接一个批规范化层和一个带泄露修正线性单元;将上述特征将应用到全连接层和sigmoid函数层;同时采用二元交叉熵函数作为判别子网络的损失,定义如下:
Figure BDA0002706375920000038
Figure BDA0002706375920000039
其中,H表示去雾子网,D表示鉴别器网;h(xi,t)表示有雾视频的第t帧第i个行人对应的判别器网络的输出,T表示视频中包含的帧的数目;且yi,t=[0,1]是xi,t的标签,yi,t=0表示输入xi,t是无雾帧,yi,t=1表示输入xi,t是正常帧。
进一步,步骤三中,构建非局部双注意人物重识别子网络模型,对人物进行重识别包括:
1)建立三维运动信息捕捉;
2)建立中级特征学习,将几个非局部剩余块堆叠起来,每个块后面跟着一个下采样层,形成中间层特征提取器;在中层特征抽取器的最后,应用一个完全连接的层和一个脱落层将空间特征映射到一个特征向量中;其中,对于每个帧xi,t,中级特征提取器的输入是3D运动信息捕获模块生成的特征映射,输出是特征向量di,t
3)建立长期依赖性学习:应用RNN层提取每个特征向量集di=d(i,1)…d(i,T),其中i表示第i个行人,T表示视频的长度;
4)建立自我和协作注意模块;建立协作注意模块;
5)对于每对视频特征向量
Figure BDA00027063759200000310
制定暹罗网络训练目标函数。
进一步,步骤3)中,所述应用RNN层提取每个特征向量集包括:
RNN层通过以下操作学习di中存在的全局长期时间依赖:o(i,t)=Wkd(i,t)+Wlr(i,t-1)其中rt=tanh(o(i,t)),时间步骤t处的输出o(i,t)是时间步骤t处非局部剩余块的输出d(i,t)和上一时间步骤的存储器r(i,t-1)的线性组合。
进一步,步骤4)中,所述建立自我和协作注意模块包括:
4.1)对帧特征向量集Oi={o(i,1),o(i,2)…o(i,T)}均值池化,在时间维度上对Oi=o(i,1)…o(i,T)执行均值池化,表示为:
Figure BDA0002706375920000041
4.2)通过对oi中的每个o(i,t)应用一个完全连接的层进行所有帧向量Oi={o(i,1),o(i,2)…o(i,T)}到权重空间的映射;其中,每个o(i,t)的完全连接层的输出是标量值
Figure BDA0002706375920000042
4.3)将所有
Figure BDA0002706375920000043
标准化,使用softmax层:
Figure BDA0002706375920000044
4.4)获得表示整个视频序列的特征向量:
Figure BDA0002706375920000045
进一步,步骤4)中,所述建立协作注意模块包括:
fi P表示自我注意机制模型对应的第i帧视频的输出,
Figure BDA0002706375920000046
表示与第j标识的视频帧集相对应的RNN层的输出;
Figure BDA0002706375920000047
其中
Figure BDA0002706375920000048
表示
Figure BDA0002706375920000049
和fi P之间的欧几里德距离;
基于下式计算相似性得分:
Figure BDA00027063759200000410
得到视频
Figure BDA00027063759200000411
相对于探测器视频
Figure BDA00027063759200000412
的协作视频表示:
Figure BDA00027063759200000413
进一步,步骤5)中,所述制定暹罗网络训练目标函数包括:
所述暹罗网络训练目标函数如下:
Figure BDA00027063759200000414
其中,m是边距;
将标准交叉熵损失应用于特征向量
Figure BDA00027063759200000415
其公式如下:
Figure BDA00027063759200000416
其中,
Figure BDA00027063759200000417
C表示训练集中包含的标识数,F C表示完全连接的层,Wb和Wc分别表示softmax权重矩阵W;
则,总体训练目标函数G,如下所示:
Figure BDA0002706375920000051
本发明另一目的在于提供一种基于视频的烟雾场景下人的再识别系统,包括:
估计网络模型构建模块,用于构建对称非局部编解码K估计网络模型对视频进行去雾处理;
判别网络模型构建模块,用于基于构建的判别网络模型估计输入的视频是正常视频还是去雾子网络生成的无雾视频;
非局部双注意人物重识别子网络模型构建模块,用于对人物进行重识别。
本发明另一目的在于提供一种基于视频的人像识别终端,所述基于视频的人像识别终端搭载控制器,所述控制器执行如下步骤:
构建对称非局部编解码K估计网络模型对视频进行去雾处理;
构建判别网络模型,并基于构建的判别网络模型估计输入的视频是正常视频还是去雾子网络生成的无雾视频;
构建非局部双注意人物重识别子网络模型,对人物进行重识别。
本发明另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
步骤1,构建对称非局部编解码K估计网络模型对视频进行去雾处理;
步骤2,构建判别网络模型,并基于构建的判别网络模型估计输入的视频是正常视频还是去雾子网络生成的无雾视频;
步骤3,构建非局部双注意人物重识别子网络模型,对人物进行重识别。
本发明另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
步骤1,构建对称非局部编解码K估计网络模型对视频进行去雾处理;
步骤2,构建判别网络模型,并基于构建的判别网络模型估计输入的视频是正常视频还是去雾子网络生成的无雾视频;
步骤3,构建非局部双注意人物重识别子网络模型,对人物进行重识别。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明能够解视频中人物再识别有雾导致再识别困难的问题。本发明能够良好的在有雾视频中完成人物重识别。本发明整个流程是端到端的设计,能够更简单的被使用。本发明是一个基于视频的烟雾场景下人的再识别技术,能够完成端到端的判别,并且能够良好的完成人物重识别。
本发明减少雾霾对行人模糊视频特征的负面影响,提高有雾视频人物再识别的性能。
与现有技术比较结果如下:
Figure BDA0002706375920000061
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的基于视频的烟雾场景下人的再识别的原理图。
图2是本发明实施例提供的基于视频的烟雾场景下人的再识别的流程图。
图3是本发明实施例提供的非局部残差块结构图。
图4是本发明实施例提供的对称非局部编解码K估计网络结构图。
图5是本发明实施例提供的基于视频的烟雾场景下人的再识别网络结构图。
图6是本发明实施例提供的模拟雾霾中的人物序列示例效果图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种基于视频的烟雾场景下人的再识别方法,下面结合附图对本发明作详细的描述。
如图1-图2所示,本发明实施例提供的基于视频的烟雾场景下人的再识别方法包括:
S101,构建对称非局部编解码K估计网络模型对视频进行去雾处理;
S102,构建判别网络模型,并基于构建的判别网络模型估计输入的视频是正常视频还是去雾子网络生成的无雾视频;
S103,构建非局部双注意人物重识别子网络模型,对人物进行重识别。
步骤S101中,本发明实施例提供的构建对称非局部编解码K估计网络模型对视频进行去雾处理包括:
(1)建立非局部残差块;将建立的非局部残差块作为编码器和解码器,建立编码结构和解码结构;
(2)建立RNN层学习每个有雾视频的相邻帧中包含的时间一致性信息;
(3)对整个对称非局部编解码K估计网络结构进行连接:通过编码器的非局部残差块和镜像解码器非局部残差块建立一个残差连接,进行整个对称非局部编解码K估计网络结构连接。
步骤(1)中,,本发明实施例提供的非局部残差块由典型的残差单元,一个上下采样层和一个非局部块组成。
步骤(2)中,本发明实施例提供的建立RNN层学习每个有雾视频的相邻帧中包含的时间一致性信息包括:
对于编码器的输出
Figure BDA0002706375920000081
其中i表示第i个行人,h表示输入雾化视频,he表示编码器输出结果;特征映射
Figure BDA0002706375920000082
首先使用完全连接的层FCE被重塑并投影到一组特征向量中:
Figure BDA0002706375920000083
然后通过求解公式
Figure BDA0002706375920000084
其中
Figure BDA0002706375920000085
来学习
Figure BDA0002706375920000086
中存在的全局长期时间一致性信息;时间步骤t的输出
Figure BDA0002706375920000087
是当前时间步骤t的信息
Figure BDA0002706375920000088
和上一时间步骤的记忆
Figure BDA0002706375920000089
的线性组合;最后,使用完全连接层FCE的一个镜像FCD将每个
Figure BDA00027063759200000810
投影成
Figure BDA00027063759200000811
的相同形状大小。
步骤S102中,本发明实施例提供的判别网络模型包括:
所述判别网络模型由三个步长为2的卷积层组成,每个卷积层后接一个批规范化层和一个带泄露修正线性单元;将上述特征将应用到全连接层和sigmoid函数层;同时采用二元交叉熵函数作为判别子网络的损失,定义如下:
Figure BDA00027063759200000812
Figure BDA00027063759200000813
其中,H表示去雾子网,D表示鉴别器网;h(xi,t)表示有雾视频的第t帧第i个行人对应的判别器网络的输出,T表示视频中包含的帧的数目;且yi,t=[0,1]是xi,t的标签,yi,t=0表示输入xi,t是无雾帧,yi,t=1表示输入xi,t是正常帧。
步骤S103中,本发明实施例提供的构建非局部双注意人物重识别子网络模型,对人物进行重识别包括:
1)建立三维运动信息捕捉;
2)建立中级特征学习,将几个非局部剩余块堆叠起来,每个块后面跟着一个下采样层,形成中间层特征提取器;在中层特征抽取器的最后,应用一个完全连接的层和一个脱落层将空间特征映射到一个特征向量中;其中,对于每个帧xi,t,中级特征提取器的输入是3D运动信息捕获模块生成的特征映射,输出是特征向量di,t
3)建立长期依赖性学习:应用RNN层提取每个特征向量集di=d(i,1)…d(i,T),其中i表示第i个行人,T表示视频的长度;
4)建立自我和协作注意模块;建立协作注意模块;
5)对于每对视频特征向量
Figure BDA0002706375920000091
制定暹罗网络训练目标函数。
步骤3)中,本发明实施例提供的应用RNN层提取每个特征向量集包括:
RNN层通过以下操作学习di中存在的全局长期时间依赖:o(i,t)=Wkd(i,t)+Wlr(i,t-1)其中rt=tanh(o(i,t)),时间步骤t处的输出o(i,t)是时间步骤t处非局部剩余块的输出d(i,t)和上一时间步骤的存储器r(i,t-1)的线性组合。
步骤4)中,本发明实施例提供的建立自我和协作注意模块包括:
4.1)对帧特征向量集Oi={o(i,1),o(i,2)…o(i,T)}均值池化,在时间维度上对Oi=o(i,1)…o(i,T)执行均值池化,表示为:
Figure BDA0002706375920000092
4.2)通过对oi中的每个o(i,t)应用一个完全连接的层进行所有帧向量Oi={o(i,1),o(i,2)…o(i,T)}到权重空间的映射;其中,每个o(i,t)的完全连接层的输出是标量值
Figure BDA0002706375920000093
4.3)将所有
Figure BDA0002706375920000094
标准化,使用softmax层:
Figure BDA0002706375920000095
4.4)获得表示整个视频序列的特征向量:
Figure BDA0002706375920000096
步骤4)中,本发明实施例提供的建立协作注意模块包括:
fi P表示自我注意机制模型对应的第i帧视频的输出,
Figure BDA0002706375920000097
表示与第j标识的视频帧集相对应的RNN层的输出;
Figure BDA0002706375920000098
其中
Figure BDA0002706375920000099
表示
Figure BDA00027063759200000910
和fi P之间的欧几里德距离;
基于下式计算相似性得分:
Figure BDA00027063759200000911
得到视频
Figure BDA00027063759200000912
相对于探测器视频
Figure BDA00027063759200000913
的协作视频表示:
Figure BDA00027063759200000914
步骤5)中,本发明实施例提供的制定暹罗网络训练目标函数包括:
所述暹罗网络训练目标函数如下:
Figure BDA0002706375920000101
其中,m是边距;
将标准交叉熵损失应用于特征向量
Figure BDA0002706375920000102
其公式如下:
Figure BDA0002706375920000103
其中,
Figure BDA0002706375920000104
C表示训练集中包含的标识数,F C表示完全连接的层,Wb和Wc分别表示softmax权重矩阵W;
则,总体训练目标函数G,如下所示:
Figure BDA0002706375920000105
本发明还提供一种基于视频的烟雾场景下人的再识别系统,包括:
估计网络模型构建模块,用于构建对称非局部编解码K估计网络模型对视频进行去雾处理;
判别网络模型构建模块,用于基于构建的判别网络模型估计输入的视频是正常视频还是去雾子网络生成的无雾视频;
非局部双注意人物重识别子网络模型构建模块,用于对人物进行重识别。
下面结合具体实施例对本发明的技术方案作进一步说明。
实施例:
本发明的基于视频的烟雾场景下人的再识别网络结构图如图5所示,具体实施如下:
步骤1中建立对称非局部编解码K估计网络进行视频去雾,具体按照下述步骤进行:
步骤1.1,建立非局部残差块。基于残差网络和非局部神经网络的成功,本发明将它们结合起来构造一个非局部残差块。每个非局部残差块由典型的残差单元,一个上下采样层和一个非局部块组成,其具体结构如图3表示(非局部残差块),将非局部残差块作为编码器和解码器,建立编码结构和解码结构。
步骤1.2,建立RNN层学习每个有雾视频的相邻帧中包含的时间一致性信息。对于编码器的输出
Figure BDA0002706375920000111
其中i表示第i个行人,h表示输入雾化视频,he表示编码器输出结果。特征映射
Figure BDA0002706375920000112
首先使用完全连接的层FCE被重塑并投影到一组特征向量中:
Figure BDA0002706375920000113
然后本发明可以通过求解公式
Figure BDA0002706375920000114
其中
Figure BDA0002706375920000115
来学习
Figure BDA0002706375920000116
中存在的全局长期时间一致性信息。时间步骤t的输出
Figure BDA0002706375920000117
是当前时间步骤t的信息
Figure BDA0002706375920000118
和上一时间步骤的记忆
Figure BDA0002706375920000119
的线性组合。最后,使用完全连接层FCE的一个镜像FCD将每个
Figure BDA00027063759200001110
投影成
Figure BDA00027063759200001111
的相同形状大小。
步骤1.3,完成整个对称非局部编解码K估计网络结构连接。编码器的非局部残差块和镜像解码器非局部残差块建立一个残差连接,通过残差连接,编码器中每个非局部块的响应可以直接传播到解码器中相应的镜像非局部块,包括正向和反向。本发明相信编码器和解码器之间的跳跃连接可以使K的估计更加容易和准确。整个对称非局部编解码K估计网络结构如图4所示。
步骤2中建立判别网络来估计输入的视频是正常视频还是去雾子网络生成的无雾视频,判别网络由三个步长为2的卷积层组成,每个卷积层后接一个批规范化层(Batchnorm)和一个带泄露修正线性单元(LeakyRelu)。最后,在计算损失之前,这些特征将应用到全连接层和sigmoid函数层。本发明采用二元交叉熵函数作为判别子网络的损失,定义如下:
Figure BDA00027063759200001112
其中
Figure BDA00027063759200001113
其中H表示去雾子网,D表示鉴别器网。h(xi,t)是有雾视频的第t帧第i个行人对应的判别器网络的输出,T是视频中包含的帧的数目。其中yi,t=[0,1]是xi,t的标签,其中,yi,t=0表示输入xi,t是无雾帧,yi,t=1表示输入xi,t是正常帧。
步骤3中建立非局部双注意人物重识别子网络进行人物重识别,具体按照下述步骤进行;
步骤3.1,建立三维运动信息捕捉。由于每个行人通常都有一些独特的局部短期快速变化运动,短期快速变化的运动信息是基于视频的人的身份识别任务的一个非常重要的特征,三维卷积运算被证明是从视频序列中提取短期快速变化的运动信息的一种强有力的技术。为此,本发明在人物重识别子网的首先采用了几个3D卷积层来探索这个特性。三维卷积层的输入是一个立方体,它可以通过将多个相邻的帧叠加在一起而形成。然后应用3D核函数与立方体卷积。三维核生成的每个特征映射都连接到前一层的多个相邻帧上;
步骤3.2,建立中级特征学习。为了学习每个帧的一个强大的中间层特征表示,本发明将几个非局部剩余块堆叠起来,每个块后面跟着一个下采样层,形成中间层特征提取器。在中层特征抽取器的最后,本发明应用一个完全连接的层和一个脱落层将空间特征映射到一个特征向量中。注意,对于每个帧xi,t,中级特征提取器的输入是3D运动信息捕获模块生成的特征映射,输出是特征向量di,t
步骤3.3,建立长期依赖性学习。为了进一步模拟行人视频中存在的全局长期时间依赖关系,本发明应用RNN层提取每个特征向量集di=d(i,1)…d(i,T),其中i表示第i个行人,T表示视频的长度。RNN层可以通过以下操作学习di中存在的全局长期时间依赖:o(i,t)=Wkd(i,t)+Wlr(i,t-1)其中rt=tanh(o(i,t)),时间步骤t处的输出o(i,t)是时间步骤t处非局部剩余块的输出d(i,t)和上一时间步骤的存储器r(i,t-1)的线性组合。
步骤3.4,建立自我和协作注意模块,为了用一个特征向量表示整个视频序列,本发明对帧特征向量集Oi={o(i,1),o(i,2)…o(i,T)}均值池化,在时间维度上对Oi=o(i,1)…o(i,T)执行的均值池化操作可以表示为:
Figure BDA0002706375920000121
加权求和机制是一种对所有帧向量根据每一帧的重要性求和的池化方法。为了执行加权和运算,本发明首先映射所有帧向量Oi={o(i,1),o(i,2)…o(i,T)}到权重空间。这可以简单地通过对oi中的每个o(i,t)应用一个完全连接的层来实现。注意,每个o(i,t)的完全连接层的输出是标量值
Figure BDA0002706375920000122
然后本发明把所有
Figure BDA0002706375920000123
标准化,使用softmax层:
Figure BDA0002706375920000124
最后,可以获得表示整个视频序列的特征向量:
Figure BDA0002706375920000125
步骤3.5,建立协作注意模块。设fi P表示自我注意机制模型对应的第i帧视频的输出,
Figure BDA0002706375920000131
表示与第j标识的视频帧集相对应的RNN层的输出。
Figure BDA0002706375920000132
其中
Figure BDA0002706375920000133
表示
Figure BDA0002706375920000134
和fi P之间的欧几里德距离。本发明计算相似性得分如下:
Figure BDA0002706375920000135
Figure BDA0002706375920000136
最后,本发明可以得到视频
Figure BDA0002706375920000137
相对于探测器视频
Figure BDA0002706375920000138
的协作视频表示:
Figure BDA0002706375920000139
步骤3.6,对于每对视频特征向量
Figure BDA00027063759200001310
本发明可以制定暹罗网络训练目标函数如下:
Figure BDA00027063759200001311
其中m是边距,这意味着如果负对
Figure BDA00027063759200001312
已经被m分隔开。本发明还将标准交叉熵损失应用于特征向量
Figure BDA00027063759200001313
其公式如下:
Figure BDA00027063759200001314
其中
Figure BDA00027063759200001315
这里C是训练集中包含的标识数,F C是指完全连接的层,Wb和Wc分别是指softmax权重矩阵W。最后,本发明重写总体训练目标函数G,如下所示:
Figure BDA00027063759200001316
本实施例将本发明的方法在iLIDS-VID、PRID 2011和MARS数据集上与几种最先进的基于视频的人的身份识别方法进行比较,来评估本发明的性能,比较结果如表1所示。从表1可以看出,在对比的所有方法中,本发明方法的识别准确率最高,识别准确率已经达到了领域先进水平。
表1本发明与最先进的基于视频的人的身份识别方法结果表
Figure BDA0002706375920000141
模拟雾霾中的人物序列示例中如图6。
在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上;术语“上”、“下”、“左”、“右”、“内”、“外”、“前端”、“后端”、“头部”、“尾部”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”等仅用于描述目的,而不能理解为指示或暗示相对重要性。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

Claims (8)

1.一种基于视频的烟雾场景下人的再识别方法,其特征在于,所述基于视频的烟雾场景下人的再识别方法包括:
构建对称非局部编解码K估计网络模型对视频进行去雾处理;
构建判别网络模型,并基于构建的判别网络模型估计输入的视频是正常视频还是去雾子网络生成的无雾视频;
构建非局部双注意人物重识别子网络模型,对人物进行重识别;包括:
1)建立三维运动信息捕捉;
2)建立中级特征学习,将几个非局部剩余块堆叠起来,每个块后面跟着一个下采样层,形成中间层特征提取器;在中层特征抽取器的最后,应用一个完全连接的层和一个脱落层将空间特征映射到一个特征向量中;其中,对于每个帧xi,t,中级特征提取器的输入是3D运动信息捕获模块生成的特征映射,输出是特征向量di,t
3)建立长期依赖性学习:应用RNN层提取每个特征向量集di=d(i,1)...d(i,T),其中i表示第i个行人,T表示视频的长度;
4)建立自我和协作注意模块;建立协作注意模块;
5)对于每对视频特征向量
Figure FDA0003054990300000011
制定暹罗网络训练目标函数;
步骤3)中,所述应用RNN层提取每个特征向量集包括:
RNN层通过以下操作学习di中存在的全局长期时间依赖:o(i,t)=Wkd(i,t)+Wlr(i,t-1)其中rt=tanh(o(i,t)),时间步骤t处的输出o(i,t)是时间步骤t处非局部剩余块的输出d(i,t)和上一时间步骤的存储器r(i,t-1)的线性组合;
步骤4)中,所述建立自我和协作注意模块包括:
4.1)对帧特征向量集Oi={o(i,1),o(i,2)...o(i,T)}均值池化,在时间维度上对Oi=o(i,1)…o(i,T)执行均值池化,表示为:
Figure FDA0003054990300000012
4.2)通过对oi中的每个o(i,t)应用一个完全连接的层进行所有帧向量Oi={o(i,1),o(i,2)...o(i,T)}到权重空间的映射;其中,每个o(i,t)的完全连接层的输出是标量值
Figure FDA0003054990300000021
4.3)将所有
Figure FDA0003054990300000022
标准化,使用softmax层:
Figure FDA0003054990300000023
4.4)获得表示整个视频序列的特征向量:
Figure FDA0003054990300000024
步骤4)中,所述建立协作注意模块包括:
Figure FDA0003054990300000025
表示自我注意机制模型对应的第i帧视频的输出,
Figure FDA0003054990300000026
表示与第j标识的视频帧集相对应的RNN层的输出;
Figure FDA0003054990300000027
其中
Figure FDA0003054990300000028
表示
Figure FDA0003054990300000029
Figure FDA00030549903000000210
之间的欧几里德距离;
基于下式计算相似性得分:
Figure FDA00030549903000000211
得到视频
Figure FDA00030549903000000212
相对于探测器视频
Figure FDA00030549903000000213
的协作视频表示:
Figure FDA00030549903000000214
步骤5)中,所述制定暹罗网络训练目标函数包括:
所述暹罗网络训练目标函数如下:
Figure FDA00030549903000000215
其中,m是边距;
将标准交叉熵损失应用于特征向量
Figure FDA00030549903000000216
其公式如下:
Figure FDA00030549903000000217
其中,
Figure FDA00030549903000000218
C表示训练集中包含的标识数,F C表示完全连接的层,Wb和Wc分别表示softmax权重矩阵W;
则,总体训练目标函数G,如下所示:
Figure FDA00030549903000000219
2.如权利要求1所述基于视频的烟雾场景下人的再识别方法,其特征在于,所述构建对称非局部编解码K估计网络模型对视频进行去雾处理包括:
(1)建立非局部残差块;将建立的非局部残差块作为编码器和解码器,建立编码结构和解码结构;
(2)建立RNN层学习每个有雾视频的相邻帧中包含的时间一致性信息;
(3)对整个对称非局部编解码K估计网络结构进行连接:通过编码器的非局部残差块和镜像解码器非局部残差块建立一个残差连接,进行整个对称非局部编解码K估计网络结构连接。
3.如权利要求2所述基于视频的烟雾场景下人的再识别方法,其特征在于,步骤(1)中,所述非局部残差块由典型的残差单元,一个上下采样层和一个非局部块组成;
步骤(2)中,所述建立RNN层学习每个有雾视频的相邻帧中包含的时间一致性信息包括:
对于编码器的输出
Figure FDA0003054990300000031
其中i表示第i个行人,h表示输入雾化视频,he表示编码器输出结果;特征映射
Figure FDA0003054990300000032
首先使用完全连接的层FCE被重塑并投影到一组特征向量中:
Figure FDA0003054990300000033
然后通过求解公式
Figure FDA0003054990300000034
其中
Figure FDA0003054990300000035
来学习
Figure FDA0003054990300000036
中存在的全局长期时间一致性信息;时间步骤t的输出
Figure FDA0003054990300000037
是当前时间步骤t的信息
Figure FDA0003054990300000038
和上一时间步骤的记忆
Figure FDA0003054990300000039
的线性组合;最后,使用完全连接层FCE的一个镜像FCD将每个
Figure FDA00030549903000000310
投影成
Figure FDA00030549903000000311
的相同形状大小。
4.如权利要求1所述基于视频的烟雾场景下人的再识别方法,其特征在于,所述判别网络模型包括:
所述判别网络模型由三个步长为2的卷积层组成,每个卷积层后接一个批规范化层和一个带泄露修正线性单元;将上述特征将应用到全连接层和sigmoid函数层;同时采用二元交叉熵函数作为判别子网络的损失,定义如下:
Figure FDA00030549903000000312
Figure FDA00030549903000000313
其中,H表示去雾子网,D表示鉴别器网;h(xi,t)表示有雾视频的第t帧第i个行人对应的判别器网络的输出,T表示视频中包含的帧的数目;且yi,t=[0,1]是xi,t的标签,yi,t=0表示输入xi,t是无雾帧,yi,t=1表示输入xi,t是正常帧。
5.一种执行权利要求1~4任意一项所述基于视频的烟雾场景下人的再识别方法的再识别系统,其特征在于,所述再识别系统包括:
估计网络模型构建模块,用于构建对称非局部编解码K估计网络模型对视频进行去雾处理;
判别网络模型构建模块,用于基于构建的判别网络模型估计输入的视频是正常视频还是去雾子网络生成的无雾视频;
非局部双注意人物重识别子网络模型构建模块,用于对人物进行重识别。
6.一种基于视频的人像识别终端,其特征在于,所述基于视频的人像识别终端搭载控制器,所述控制器执行权利要求1~4任意一项所述基于视频的烟雾场景下人的再识别方法,包括如下步骤:
构建对称非局部编解码K估计网络模型对视频进行去雾处理;
构建判别网络模型,并基于构建的判别网络模型估计输入的视频是正常视频还是去雾子网络生成的无雾视频;
构建非局部双注意人物重识别子网络模型,对人物进行重识别。
7.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1~4任意一项所述基于视频的烟雾场景下人的再识别方法,包括如下步骤:
步骤1,构建对称非局部编解码K估计网络模型对视频进行去雾处理;
步骤2,构建判别网络模型,并基于构建的判别网络模型估计输入的视频是正常视频还是去雾子网络生成的无雾视频;
步骤3,构建非局部双注意人物重识别子网络模型,对人物进行重识别。
8.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行权利要求1~4任意一项所述基于视频的烟雾场景下人的再识别方法,包括如下步骤:
步骤1,构建对称非局部编解码K估计网络模型对视频进行去雾处理;
步骤2,构建判别网络模型,并基于构建的判别网络模型估计输入的视频是正常视频还是去雾子网络生成的无雾视频;
步骤3,构建非局部双注意人物重识别子网络模型,对人物进行重识别。
CN202011040081.XA 2020-09-28 2020-09-28 一种基于视频的烟雾场景下人的再识别方法、系统及终端 Active CN112183338B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011040081.XA CN112183338B (zh) 2020-09-28 2020-09-28 一种基于视频的烟雾场景下人的再识别方法、系统及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011040081.XA CN112183338B (zh) 2020-09-28 2020-09-28 一种基于视频的烟雾场景下人的再识别方法、系统及终端

Publications (2)

Publication Number Publication Date
CN112183338A CN112183338A (zh) 2021-01-05
CN112183338B true CN112183338B (zh) 2021-06-15

Family

ID=73944679

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011040081.XA Active CN112183338B (zh) 2020-09-28 2020-09-28 一种基于视频的烟雾场景下人的再识别方法、系统及终端

Country Status (1)

Country Link
CN (1) CN112183338B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113034445B (zh) * 2021-03-08 2022-11-11 桂林电子科技大学 一种基于UNet3+的多尺度连接图像去雾算法
CN113569657A (zh) * 2021-07-05 2021-10-29 浙江大华技术股份有限公司 一种行人重识别方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017175231A1 (en) * 2016-04-07 2017-10-12 Carmel Haifa University Economic Corporation Ltd. Image dehazing and restoration
CN109272455A (zh) * 2018-05-17 2019-01-25 西安电子科技大学 基于弱监督生成对抗网络的图像去雾方法
CN111383192A (zh) * 2020-02-18 2020-07-07 清华大学 一种融合sar的可见光遥感图像去雾方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190294931A1 (en) * 2018-03-26 2019-09-26 Artomatix Ltd. Systems and Methods for Generative Ensemble Networks
CN109493303B (zh) * 2018-05-30 2021-08-17 湘潭大学 一种基于生成对抗网络的图像去雾方法
US11034357B2 (en) * 2018-09-14 2021-06-15 Honda Motor Co., Ltd. Scene classification prediction
CN110503053B (zh) * 2019-08-27 2022-07-08 电子科技大学 基于循环卷积神经网络的人体动作识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017175231A1 (en) * 2016-04-07 2017-10-12 Carmel Haifa University Economic Corporation Ltd. Image dehazing and restoration
CN109272455A (zh) * 2018-05-17 2019-01-25 西安电子科技大学 基于弱监督生成对抗网络的图像去雾方法
CN111383192A (zh) * 2020-02-18 2020-07-07 清华大学 一种融合sar的可见光遥感图像去雾方法

Also Published As

Publication number Publication date
CN112183338A (zh) 2021-01-05

Similar Documents

Publication Publication Date Title
CN110427877B (zh) 一种基于结构信息的人体三维姿态估算的方法
CN111325794B (zh) 一种基于深度卷积自编码器的视觉同时定位与地图构建方法
CN111190981B (zh) 一种三维语义地图的构建方法、装置、电子设备及存储介质
Trumble et al. Deep autoencoder for combined human pose estimation and body model upscaling
CN110135249B (zh) 基于时间注意力机制和lstm的人体行为识别方法
CN112766160A (zh) 基于多级属性编码器和注意力机制的人脸替换方法
CN110503680A (zh) 一种基于非监督的卷积神经网络单目场景深度估计方法
CN114863573B (zh) 一种基于单目rgb-d图像的类别级6d姿态估计方法
CN109086659B (zh) 一种基于多模道特征融合的人体行为识别方法和装置
CN110555481A (zh) 一种人像风格识别方法、装置和计算机可读存储介质
CN112163498B (zh) 前景引导和纹理聚焦的行人重识别模型建立方法及其应用
CN112183338B (zh) 一种基于视频的烟雾场景下人的再识别方法、系统及终端
CN112530019A (zh) 三维人体重建方法、装置、计算机设备和存储介质
WO2021218238A1 (zh) 图像处理方法和图像处理装置
CN114937083B (zh) 一种应用于动态环境的激光slam系统及方法
CN112329525A (zh) 一种基于时空图卷积神经网络的手势识别方法和装置
CN111046734A (zh) 基于膨胀卷积的多模态融合视线估计方法
CN112528902B (zh) 一种基于3d人脸模型的视频监控动态人脸识别方法及装置
CN112836625A (zh) 人脸活体检测方法、装置、电子设备
CN113449691A (zh) 一种基于非局部注意力机制的人形识别系统及方法
CN113743544A (zh) 一种跨模态神经网络构建方法、行人检索方法及系统
CN115330950A (zh) 基于时序上下文线索的三维人体重建方法
CN112906520A (zh) 一种基于姿态编码的动作识别方法及装置
CN113160278A (zh) 一种场景流估计、场景流估计模型的训练方法和装置
CN114663880A (zh) 基于多层级跨模态自注意力机制的三维目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant