CN114926761B

CN114926761B - 一种基于时空平滑特征网络的动作识别方法

Info

Publication number: CN114926761B
Application number: CN202210517629.8A
Authority: CN
Inventors: 张洪超; 单震
Original assignee: Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Current assignee: Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Priority date: 2022-05-13
Filing date: 2022-05-13
Publication date: 2023-09-05
Anticipated expiration: 2042-05-13
Also published as: CN114926761A

Abstract

本发明提供一种基于时空平滑特征网络的动作识别方法，属于计算机视觉技术领域，网络模型通过服务器读取视频数据，对读取的视频进行预处理，进行等间隔的分帧，使用动作检测器，对视频信息进行特征提取，使用时空平滑特征融合方法，对时间域与空间域的特征进行平滑处理，完成特征提取，使用深度学习的方法，对特征进行综合分析，判断目标动作。可以在提升性能的同时，充分挖掘视频每帧之间的关系特征，准确的检测待目标动作。

Description

一种基于时空平滑特征网络的动作识别方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于时空平滑特征网络的动作识别方法。

背景技术

随着视频获取设备和网络的发展，从视频信息中分析和理解人体动作变得越来越重要。人体动作识别应用于视频监控、自动视频标签和人机交互等多个领域，然而使用机器识别人类动作是一项具有挑战性的任务。因为定义人类动作比理解要难的多。定义人类动作需要综合运用多个学科的知识，这给动作识别带来很大的挑战。根据实现的方法来分类，可以把人体动作识别分为基于单帧图像的动作识别和基于视频的动作识别。相比于基于视频的识别，基于单帧图像的识别优势在于图像更容易获得，可是由于图像没有时间信息识别起来更加困难，并且也更容易出现误判。而基于视频的动作识别能够有效的获取视频中的时间和空间信息，这在很大程度上提高了识别的准确率，又因为它的强拓展性和高灵活度，基于视频的动作识别成为研究的主要方向。

现有的基于视频的动作识别方法主要有基于特征提取的动作识别方法和基于深度学习的动作识别方法。传统基于特征提取的动作识别方法主要靠一些经典的人为设计特征来提取运动特征，再由分类器分类或进行模板匹配。人工设计特征数据预处理复杂，而深度学习模型具有自适应学习特征、数据预处理简单等优点。

现在的方法多是通过深度学习的方法进行特征提取，但是采用二维卷积神经网络的方法缺少对时间域特征的提取，采用三维卷积神经网络的方法存在过拟合，参数量过大的问题。因此，结合深度学习与计算机视觉的方法，构建一种更便利的动作识别方法是非常必要的。

发明内容

为了解决以上技术问题，本发明提供了一种基于时空平滑特征网络的动作识别方法。结合深度学习与计算机视觉的方法，利用三维卷积与时空平滑特征融合技术，解决目前动作识别网络中，二维卷积神经网络的方法缺少对时间域特征的提取，三维卷积神经网络的方法存在过拟合，参数量过大的问题，实现高效的动作识别。

本发明的技术方案是：

一种基于时空平滑特征网络的动作识别方法，

包括：

1)通过服务器读取视频数据，

2)对读取的视频进行预处理，

3)对视频信息进行特征提取，

进一步的，

使用深度学习的方法，对特征进行综合分析，判断目标动作；

最后进行反馈结果。

再进一步的，

把视频输入进行分帧，并进行特征提取。

对读取的视频进行预处理，进行等间隔的分帧，对于每一秒钟的视频，等时间距提取10张图片。

利用动作检测器，对视频信息进行特征提取，采用C3D模型提取特征。

使用时空平滑特征融合方法，对时间域与空间域的特征进行平滑处理，完成特征提取。

对时间域与空间域得特征进行平滑处理，采用3D均值池化得到均值信息，然后原始信息与均值信息进行差值计算得到差异性信息，对于每个均值进行随机高斯分布乘积，最后与差异性信息进行相融合得到变换后的时空平滑特征融合信息。

利用softmax分类器对得到的特征进行分析判别得到目标动作。

本发明的有益效果是

1、适用于多个复杂场景下的动作识别；

2、提高了目前基于视频的动作识别的识别效率；

3、解决了二维卷积神经网络缺少对时间域特征的提取、三维卷积神经网络的方法过拟合，参数量过大的问题

4、避免了人工手动识别对于动作的难定义性。

附图说明

图1是C3D特征提取网络架构示意图；

图2是时空平滑特征融合示意图；

图3是整体流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种基于时空平滑特征网络的动作识别方法，(1)整体思路包括：

(A)从服务器中读取要识别的视频数据。

(B)把视频输入进行分帧，依次输入C3D网络模型中进行特征提取

(C)对于C3D网络中提取的特征的信息，采用3D均值池化得到均值信息，然后原始信息与均值信息进行差值计算得到差异性信息r，对于每个均值进行随机高斯分布乘积，最后与差异性信息r进行相融合得到变换后的时空平滑特征融合信息。

(2)实现内容：

(A)对服务器中待检测的视频进行预处理，进行等间隔的分帧。

(B)使用动作检测器，对视频信息进行特征提取，使用时空特征融合方法，对视频信息进行时间域与空间域特征融合，完成特征提取。

(C)使用softmax分类器，对特征进行综合分析，判断目标动作。

(D)将结果进行反馈。

本发明的结合三维卷积与时空平滑特征。该方法适用与多个复杂场景下的动作识别，可以在提升性能的同时，充分挖掘视频每帧之间的关系特征，准确的检测待目标动作。

网络模型通过服务器读取视频数据，对读取的视频进行预处理，进行等间隔的分帧，使用动作检测器，对视频信息进行特征提取，使用时空平滑特征融合方法，对时间域与空间域的特征进行平滑处理，完成特征提取，使用深度学习的方法，对特征进行综合分析，判断目标动作。

利用动作检测器，对视频信息进行特征提取，采用C3D模型提取特征，模型结构如图1。

对时间域与空间域得特征进行平滑处理，采用3D均值池化得到均值信息，然后原始信息与均值信息进行差值计算得到差异性信息r，对于每个均值进行随机高斯分布乘积，最后与差异性信息r进行相融合得到变换后的时空平滑特征融合信息。如图2所示。

利用softmax分类器对得到的特征进行分析判别得到目标动作。

以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种基于时空平滑特征网络的动作识别方法，其特征在于，

包括：

1）通过服务器读取视频数据，

2）对读取的视频进行预处理，

3）对视频信息进行特征提取；

最后进行反馈结果；

把视频输入进行分帧，并进行特征提取；

对读取的视频进行预处理，进行等间隔的分帧，对于每一秒钟的视频，等时间距提取10张图片；

利用动作检测器，对视频信息进行特征提取，采用C3D模型提取特征；

使用时空平滑特征融合方法，对时间域与空间域的特征进行平滑处理，完成特征提取；

2.根据权利要求1所述的方法，其特征在于，

利用softmax分类器对得到的特征进行分析判别得到目标动作。