CN114155480A

CN114155480A - 一种低俗动作识别方法

Info

Publication number: CN114155480A
Application number: CN202210123623.2A
Authority: CN
Inventors: 王金水
Original assignee: Beijing Zhishi Digital Technology Development Co ltd
Current assignee: Beijing Zhishi Digital Technology Development Co ltd
Priority date: 2022-02-10
Filing date: 2022-02-10
Publication date: 2022-03-08

Abstract

本发明实施例公开了一种低俗动作识别方法，包括以下步骤S1、判断需要检测的视频是否为短视频，如判断结果为是，则进行下一步，如判断结果为否，则自动将需要检测的视频自动等分切割成若干个片段后，进行下一步；S2、从所述若干个片段的每个片段中均抽取预设帧数的图像，得到图像帧序列；S3、将所述图像帧序列带入到训练模型进行处理后输出表观时序信息；S4、将所述表观时序信息进行处理后输出特征向量；S5、将所述特征向量与预设的向量阈值对比，判断是否为低俗视频，实现对视频、直播等内容及时高效、省时省力的监测。

Description

一种低俗动作识别方法

技术领域

本发明实施例涉及基于深度学习的动作识别技术领域，具体涉及一种低俗动作识别方法。

背景技术

随着移动互联网高速的发展，网络视听数据的呈现爆发式增长，每天都有各种形式的视听内容被制作、传播，如长视频、短视频、直播等。其中直播内容更是实时性较高，内容量较大，对内容监管排查带来巨大挑战。而且直播监管行业存在的普遍问题就是平台多、数据量大、人工审核成本高、效率低，正是由于这种种原因，大量的低俗不雅视频出现在我们的网络环境中，而通过人力不能够及时的发现这种低俗内容，并对其施以监管，使其严重危害青少年的身心健康。

随着人工智能技术的发展，深度学习通过在大量视频数据集上进行训练获得了远超传统识别方法的效果。然而，考虑到设备的功耗、存储成本等因素，基于视频的人体动作分析与识别对实时性、速度有着很高的要求。

在视频动作检测任务中，有两种非常重要的特征：表观特征(appearance)和时序特征(dynamics)。一个视频动作检测系统的性能很大程度上取决于它是否提取并利用好了这两种特征。但是提取这两种特征并不那么容易，会遇到各种编码视频流，以及视频内容的形变、视角转换、运动模糊等因素的影响，严重影响了识别模型的准确性和时效性。

发明内容

为此，本发明实施例提供一种低俗动作识别方法，以解决现有技术中识别模型的准确性和时效性较低的问题。

为了实现上述目的，本发明实施例提供如下技术方案：

根据本发明实施例的第一方面，一种低俗动作识别方法，包括以下步骤

S1、判断需要检测的视频是否为短视频，如判断结果为是，则进行下一步，如判断结果为否，则自动将需要检测的视频自动等分切割成若干个片段后，进行下一步；

S2、从所述若干个片段的每个片段中均抽取预设帧数的图像，得到图像帧序列；

S3、将所述图像帧序列带入到训练模型进行处理后输出表观时序信息；

S4、将所述表观时序信息进行处理后输出特征向量；

S5、将所述特征向量与预设的向量阈值对比，判断是否为低俗视频。

进一步地，在步骤S3之前还需要对所述图像帧序列中的图像进行处理，具体包括：

判断所述图像帧序列中的图像的分辨率是否大于预设的分辨率阈值，如是，则进行下一步，如否，则对所述图像帧序列中的图像进行处理后进行下一步。

进一步地，所述对所述图像帧序列中的图像进行处理，具体包括：

对所述图像进行直方图修正处理；

对所述图像进行均值滤波处理；

对所述图像进行掩码匹配处理。

进一步地，所述将所述图像帧序列带入到训练模型进行处理后输出表观时序信息，具体包括：

将所述图像帧序列输入到卷积神经网络模型中，输出特征图；

将所述特征图按指定方向进行水平移动和上下交互。

进一步地，所述将所述表观时序信息进行处理后输出特征向量，具体包括：

将所述表观时序信息输入至双向长短时记忆网络模型中并对每帧的时序信息进行线性加权，得到特征向量。

进一步地，预设有一和所述需要检测的视频维度相同的容器，当所述需要检测的视频进入到GPU计算前，将所述需要监测的视频暂存在所述容器中。

进一步地，所述自动将需要检测的视频自动等分切割成若干个片段，具体包括：

对所述容器进行切片操作；

进一步地，从所述若干个片段的每个片段中均抽取预设帧数的图像，具体包括：

将切片依次遍历作为网络输入。

根据本发明实施例的第二方面，一种基于深度学习的智能AI低俗动作识别模型的训练方法，具体包括：

对需要检测的视频进行截帧操作；

将识别为截帧操作后的视频动作作为低俗数据；

将除低俗数据外的数据作为正常数据；

以9:1的比例划分训练集和验证集。

本发明实施例具有如下优点：将任意视频流作为网络模型的输入，进行抽帧操作，检测帧率图片，最后推理得到视频中是否存在低俗动作以及该动作出现的时间，实现对视频、直播等内容及时高效、省时省力的监测，同时使用直方图修正使图像成像均匀、均值滤波使图像平滑，掩码匹配法实现锐化相结合的策略，大大减少视频模糊的影响；在视频流进入到 GPU 计算之前，会先存放到指定的容器中，后按规则取出，在不增加内存消耗的基础上，支持任意长度视频输入；且对暂存容器进行切片操作，将切片依次遍历作为网络输入，输出预测的类别信息和切片索引的时间信息，结果整合实现动作检测。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。

图1为本发明实施例提供的一种低俗动作识别方法的模型训练图；

图2为本发明实施例提供的一种低俗动作识别方法的视频监测方法图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例：一种低俗动作识别方法，如图1所示，在识别视频之前需要先对模型进行训练，在本实施例中，训练模型首先要确定动作分类标准，人工审查低俗视频，将视频按内容进行标签分类，然后将视频切割为指定长度的视频片段，然后用分类处理后的视频片段训练获得网络模型，训练模型具体的策略配置：采用Momentum优化算法训练，在普通的梯度下降法中引入指数加权移动平均，即定义一个动量（梯度的指数加权移动平均值），然后使用该值代替原来的梯度方向来更新，其中momentum=0.9；采用 L2_Decay，在训练初始阶段，由于权重处于随机初始化状态，损失函数下降较快，设置一个较大的学习率。在训练后期，由于权重已经接近最优值，较大的学习率无法进一步寻找最优值，设置一个较小的学习率，权重衰减系数1e-4；损失函数的值沿着梯度的方向呈下降趋势，然后，如果梯度（偏导数）很大话，就会出现函数值跳来跳去，收敛不到最值的情况。对此，采用全局梯度裁剪，对梯度的 L2范数进行裁剪，即对所有参数偏导数的平方和再开平方，让

，

，设定裁剪阈值为c，

，当

大于c时，

，当

小于等于c时：g不变。其中

是一个标量，类似于学习率α，此处裁剪系数为 20.0；以 Normal的正太分布初始化FC层的权重，以常数0初始化 FC 层的偏置。

具体的，在本实施例中，首先对低俗动作视频进行截帧，将其中连续性的低俗动作作为低俗数据，正常行为作为normal数据。再以9：1的比例划分训练集和验证集。实际训练时，若直接将一个视频片段作为输入训练模型，一个批次的时间大约为四十到五十分钟之间，若使用预处理对视频截连续帧再进行训练，则一个批次的训练时间大约为十五到二十分钟之间，gpu的利用率达到90~100%，速度提升1.5倍，本项目的训练数据视频大小9.0G、视频截帧图片大小75G，饱和大概在50个iter左右，每个iter输出的评估指标在验证集上top1-top5的准确率。

在进行模型训练之后，开始进行视频识别过程，参照图2所示，具体包括以下步骤：

S2、从若干个片段的每个片段中均抽取预设帧数的图像，得到图像帧序列；

S3、将图像帧序列带入到训练模型进行处理后输出表观时序信息；

S4、将表观时序信息进行处理后输出特征向量；

S5、将特征向量与预设的向量阈值对比，判断是否为低俗视频。

具体的，首先模型推理时，会通过视频解码初始化一个和视频维度相同的容器，对输入的视频流的类别进行识别，判断需要检测的视频是否为短视频，如为短视频，可直接进行下一步处理，如果为非短视频，即长视频，则对暂存容器进行切片操作；

之后判断图像帧序列中的图像的分辨率是否大于预设的分辨率阈值，如是，则进行下一步，如否，则对图像帧序列中的图像进行处理，本申请中，对图像使用直方图修正使图像成像均匀，即确定图像的灰度级，如果是彩色，则将其转换为灰度图像；统计每一个灰度在原始图像上的像素所占总体的比例；计算直方图概率的累加值，直到最后一个灰度级；根据公式求取像素映射关系，找到原图像与均衡化灰度图像的对应关系，对原图进行操作，将每个像素映射成新的像素、使用均值滤波处理使图像平滑，即对目标像素及周边像素取平均值后再填会目标像素来实现滤波处理、使用掩码匹配法，即对每个像素点根据周围的像素点做一个加权平均，处理实现锐化相结合的数据增强策略，进而实现对图像模糊矫正。

进行处理后的图像依次遍历输入至训练好的卷积神经网络中，得到指定维度的特征图，此时的特征图是 2D 卷积结果（

,其中N是批处理大小，C是通道数， H和W是空间分辨率），缺乏空间上地时序信息。因此，本申请借鉴 TSM 模型的思想，将特征图通道按指定方向进行水平移动，在不增加计算量的前提下，进行上下文交互，得到指定维度的表观时序信息（

,其中N是批处理大小，C是通道数，T是时间维， H和W是空间分辨率）

将上一步得到的表观时序信息（

,其中N是批处理大小，C 是通道数，T是时间维，H和W是空间分辨率），输入带有注意力机制的双向长短时记忆网络，将每帧特征看作每个时刻输入，每个时刻的隐藏状态输出都有一个自适应权重，通过线性加权的方式得到最终特征向量（

，N为动作类别个数），实现表观信息与时序信息的融合，得到动作检测目标信息，在对比特征向量，来判断是否含有低俗信息。

将任意视频流作为网络模型的输入，进行抽帧操作，检测帧率图片，最后推理得到视频中是否存在低俗动作以及该动作出现的时间，实现对视频、直播等内容及时高效、省时省力的监测，同时使用直方图修正使图像成像均匀、均值滤波使图像平滑，掩码匹配法实现锐化相结合的策略，大大减少视频模糊的影响；在视频流进入到 GPU 计算之前，会先存放到指定的容器中，后按规则取出，在不增加内存消耗的基础上，支持任意长度视频输入；且对暂存容器进行切片操作，将切片依次遍历作为网络输入，输出预测的类别信息和切片索引的时间信息，结果整合实现动作检测。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所作的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种低俗动作识别方法，其特征是：包括以下步骤

S4、将所述表观时序信息进行处理后输出特征向量；

2.根据权利要求1所述的一种低俗动作识别方法，其特征是：在步骤S3之前还需要对所述图像帧序列中的图像进行处理，具体包括：

3.根据权利要求2所述的一种低俗动作识别方法，其特征是：所述对所述图像帧序列中的图像进行处理，具体包括：

对所述图像进行直方图修正处理；

对所述图像进行均值滤波处理；

对所述图像进行掩码匹配处理。

4.根据权利要求1所述的一种低俗动作识别方法，其特征是：所述将所述图像帧序列带入到训练模型进行处理后输出表观时序信息，具体包括：

将所述特征图按指定方向进行水平移动和上下交互。

5.根据权利要求1所述的一种低俗动作识别方法，其特征是：所述将所述表观时序信息进行处理后输出特征向量，具体包括：

6.根据权利要求1所述的一种低俗动作识别方法，其特征是：预设有一和所述需要检测的视频维度相同的容器，当所述需要检测的视频进入到GPU计算前，将所述需要监测的视频暂存在所述容器中。

7.根据权利要求6所述的一种低俗动作识别方法，其特征是：所述自动将需要检测的视频自动等分切割成若干个片段，具体包括：

对所述容器进行切片操作。

8.根据权利要求7所述的一种低俗动作识别方法，其特征是：从所述若干个片段的每个片段中均抽取预设帧数的图像，具体包括：

将切片依次遍历作为网络输入。

9.一种低俗动作识别模型的训练方法，其特征是：具体包括：

对需要检测的视频进行截帧操作；

将识别为截帧操作后的视频动作作为低俗数据；

将除低俗数据外的数据作为正常数据；

以9:1的比例划分训练集和验证集。