CN110390308A

CN110390308A - 一种基于时空对抗生成网络的视频行为识别方法

Info

Publication number: CN110390308A
Application number: CN201910682423.9A
Authority: CN
Inventors: 曾焕强; 林溦; 曹九稳; 朱建清; 陈婧; 张联昌
Original assignee: Huaqiao University
Current assignee: Huaqiao University
Priority date: 2019-07-26
Filing date: 2019-07-26
Publication date: 2019-10-29
Anticipated expiration: 2039-07-26
Also published as: CN110390308B

Abstract

本发明涉及一种基于时空对抗生成网络的视频行为识别方法，包括：基于空域对抗生成网络提取输入的包含人类行为的视频的空间特征，基于时域对抗生成网络提取输入的包含人类行为的视频的时间特征，将空间对抗生成网络和时间对抗生成网络提取的两个维度特征进行拼接，得到时空融合特征，通过SVM支持向量机对融合后的特征向量进行分类，从而识别出视频行为。本发明基于时空生成对抗网络，充分考虑其学习特性、视频特点和人类动作特征，有效地结合人类行为特征提取视频中所包含的主要时空特征信息进行融合，基于时空特征信息之间的互补性获得更有表征能力的时空特征，从而对输入视频做出准确的行为识别。

Description

一种基于时空对抗生成网络的视频行为识别方法

技术领域

本发明涉及计算机视觉和模式识别领域，特别是指一种基于时空对抗生成网络的视频行为识别方法。

背景技术

近年来，随着现实生活中图像视频数据爆炸性地增长，完全依靠人工处理海量视觉信息数据成为几乎不可能完成的任务，而依靠计算机去模拟人类视觉完成目标跟踪、目标检测和行为识别等任务的计算机视觉成为学术界的研究热点。其中，视频行为识别在人机交互、智能监控视频系统、视频检索等智能安防、智慧生活等场景中有极大的应用需求，但由于遮挡、角度变化、场景分析等实际难题，准确地识别视频中的人物行为并做出相应的分析仍是一个具有挑战性的问题。

随着深度学习方法的发展和计算能力的大幅度提高，深度学习技术在视频行为识别相关领域也取得了一些突破，但依旧处于起步阶段。深度学习最显著的优点在于可以通过自主训练学习视频特征。因此，基于深度学习的知识来构建深度神经网络框架并对视频中人物的行为类别进行识别，具有重要的理论意义和应用价值。

发明内容

本发明的主要目的在于克服现有技术中的缺陷，提出一种基于时空对抗生成网络的视频行为识别方法。该方法利用生成对抗网络的强学习能力，有效扩充学习样本，从而具有较高的视频行为识别能力。

本发明采用如下技术方案：

一种基于时空对抗生成网络的视频行为识别方法，其特征在于，包括：

1)从视频序列中提取关键帧和光流图；

2)将关键帧送入生成空域对抗网络GAN1的生成器模型G1和判别器模型D1进行训练，直至模型收敛；将光流图送入时域生成对抗网络GAN2的生成器模型G2和判别器模型D2进行训练，直至模型收敛；

3)再次将关键帧和光流图分别送入训练好的判别器模型D1和判别器模型D2，并将输出展平成一维向量，得到视频序列的空域特征和时域特征；

4)对得到的空域特征和时域特征进行拼接，送入支持向量机SVM进行训练和分类，得到视频行为识别结果。

优选的，通过帧间差分法提取视频序列的关键帧。

优选的，通过密集光流法提取视频序列的光流图。

由上述对本发明的描述可知，与现有技术相比，本发明具有如下有益效果：

本发明构建了一种基于时空对抗生成网络的视频行为识别方法，通过时空生成对抗网络有效地结合行为特征分别从空域和时域提取视频中所包含的空域特征信息和时域特征信息并进行融合，基于时空特征信息之间的互补性获得更有表征能力的特征，送入SVM支持向量机对输入视频做出准确的行为识别。

附图说明

图1是本发明的流程示意图。

以下结合附图和具体实施例对本发明作进一步详述。

具体实施方式

以下通过具体实施方式对本发明作进一步的描述。

本发明为了解决现有技术的行为识别方法大多仍是需要对数据集进行标记和现有数据库尺度的不足，提供一种基于时空对抗生成网络的视频行为识别方法，如图1所示，本发明方法包括特征提取过程和识别过程，具体步骤如下：

特征提取过程：

1)从视频序列中提取关键帧和光流图。该关键帧作为空域生成对抗网络的输入，该光流图作为时域生成对抗网络的输入。

具体的，本发明通过帧间差分法提取所述视频序列的关键帧。帧间差分法指的是利用前后两帧图像相减之后获得的差值图像平均像素强度来度量变化大小，通过划定一个窗口大小，在一个窗口内变化最大的前后两帧图像，提取后一帧作为关键帧。

通过密集光流法提取视频序列的光流图。

2)将关键帧送入空域生成对抗网络GAN1的生成器模型G1和判别器模型D1进行训练，直至模型收敛，得到基于关键帧的训练完成的判别器D1。将光流图送入时域生成对抗网络GAN2的生成器模型G2和判别器模型D2进行训练，直至模型收敛，得到基于光流图的训练完成的判别器D2。

生成对抗网络中，通过生成器生成尽量真实的图片，判别器尽量做到能够正确识别输入的图像是否真实，生成器和判别器相互对抗，从而对生成对抗网络模型的参数进行优化。

生成器模型由六层反卷积层组成，判别器模型由六层卷积层组成，判别器模型的倒数三层图像特征分别经过4×4最大池化、2×2最大池化和原样输出后进行拼接，再做展平操作形成一维特征向量作为多特征层。通过判断输入图像是否真实输出感知损失Perceptual Loss，返回训练判别器；利用输入“真”图像关键帧和生成器生成的“假”图像各自得到的多特征层之间的特征相似度输出特征匹配损失Feature Matching Loss，返回训练生成器。通过反复训练与调整参数，得到训练完成的已收敛的判别器。

其中感知损失Perceptual Loss的计算方法如下：

其中，z表示输入的随机高斯噪声，p(z)表示输入噪声z的分布，G(z)表示输入噪声z的生成器G输出的生成图像，D()表示判别器D判断输入图像是否真实的概率，表示从已知的噪声分布p(z)中取得的样本。

特征匹配损失Feature Matching Loss的计算方法如下：

其中，p_data(x)表示真实图像数据分布，表示直接从训练数据x中取得的真实样本，f(x)表示判别器D多特征层的输出特征。

3)再次将关键帧和光流图分别送入训练好的判别器模型D1和判别器模型D2，并将输出展平成一维向量，得到视频序列的空域特征和时域特征。

输入n张图片，判别器的输出将展平为n×14336的特征向量。输入关键帧给特征提取过程中训练完成的判别器D1，得到n×14336维的空域特征；输入光流图给特征提取过程中训练完成的判别器D2，得到n×14336维的时域特征。

识别过程：

1)对得到的空域特征和时域特征进行拼接，送入支持向量机SVM进行训练和分类，得到输入视频的行为识别结果。

上述仅为本发明的具体实施方式，但本发明的设计构思并不局限于此，凡利用此构思对本发明进行非实质性的改动，均应属于侵犯本发明保护范围的行为。

Claims

1.一种基于时空对抗生成网络的视频行为识别方法，其特征在于，包括：

1)从视频序列中提取关键帧和光流图；

2)将关键帧送入空域生成对抗网络GAN1的生成器模型G1和判别器模型D1进行训练，直至模型收敛；将光流图送入时域生成对抗网络GAN2的生成器模型G2和判别器模型D2进行训练，直至模型收敛；

3)再次将关键帧和光流图分别送入训练好的判别器模型D1和判别器模型D2，分别提取并将输出展平成一维向量，得到视频序列的空域间特征和时域间特征；

2.如权利要求1所述的一种基于时空对抗生成网络的视频行为识别方法，其特征在于，通过帧间差分法提取所述视频序列的关键帧。

3.如权利要求1所述的一种基于时空对抗生成网络的视频行为识别方法，其特征在于，通过密集光流方法提取视频序列的光流图。