CN110309720A

CN110309720A - 视频检测方法、装置、电子设备和计算机可读介质

Info

Publication number: CN110309720A
Application number: CN201910446514.2A
Authority: CN
Inventors: 杨洋
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2019-05-27
Filing date: 2019-05-27
Publication date: 2019-10-08

Abstract

本申请实施例公开了视频检测方法、装置、电子设备和计算机可读介质。所述方法的实施例包括：对直播视频数据进行预处理，生成帧序列；依次对该帧序列中的相邻帧进行差分运算，基于差分运算结果，确定该帧序列中的候选帧，以构成候选帧序列；基于预先训练的至少一个检测模型，检测该候选帧序列中的目标帧，其中，该目标帧中的人体对象的行为类别为目标行为类别。该实施方式提高了视频检测速度。

Description

视频检测方法、装置、电子设备和计算机可读介质

技术领域

本申请实施例涉及计算机技术领域，具体涉及视频检测方法、装置、电子设备和计算机可读介质。

背景技术

在视频直播场景中，通常存在一些占比较少但又比较具有吸引力的环节，例如主播跳舞的环节。若将这些环节快速检测出来，则具备很强的用户价值和商业价值。

相关的检测方式，通常是采用基于图片的行为类别检测技术，直接对直播视频中的帧中的人体对象进行行为类别检测，从而识别出对应有指定行为(例如跳舞行为)的帧。然而，这种方式需要逐一确定各帧中的人体对象的行为类别，数据计算量较大，导致在直播场景中，无法满足实时性要求。

发明内容

本申请实施例提出了视频检测方法、装置、电子设备和计算机可读介质，以解决现有技术中采用基于图片的行为类别检测技术检测对直播视频中的帧进行检测所导致的检测速度较慢、无法满足检测的实时性的技术问题。

第一方面，本申请实施例提供了一种视频检测方法，该方法包括：对直播视频数据进行预处理，生成帧序列；依次对帧序列中的相邻帧进行差分运算，基于差分运算结果，确定帧序列中的候选帧，以构成候选帧序列；基于预先训练的至少一个检测模型，检测候选帧序列中的目标帧，其中，目标帧中的人体对象的行为类别为目标行为类别。

在一些实施例中，至少一个检测模型包括行为类别检测模型，行为类别检测模型用于检测图像中的人体对象的行为类别是否为目标行为类别；以及基于预先训练的至少一个检测模型，检测候选帧序列中的目标帧，包括：将候选帧序列中的候选帧输入至行为类别检测模型，确定所输入的候选帧中的人体对象的行为类别是否为目标行为类别；将属于目标行为类别的候选帧确定为目标帧。

在一些实施例中，至少一个检测模型还包括光流预测模型，光流预测模型用于预测两图像的光流图；以及在将候选帧序列中的候选帧输入至行为类别检测模型之前，基于预先训练的至少一个检测模型，检测候选帧序列中的目标帧，还包括：将候选帧序列输入至光流预测模型，得到候选帧序列中的相邻候选帧的光流图；确定所得到的各光流图的像素分布是否满足预设条件；从候选帧序列中，删除不满足预设条件的光流图对应的候选帧；将删除不满足预设条件的光流图对应的候选帧后的候选帧序列，作为待输入至行为类别检测模型的候选帧序列。

在一些实施例中，行为类别检测模型通过如下步骤训练得到：获取样本集，其中，样本集中的样本包括图像样本和标注信息，标注信息用于指示图像样本中的人体对象的行为类别是否为目标行为类别；将样本集中的图像样本作为三维卷积神经网络的输入，将所输入的图像样本对应的标注信息作为三维卷积神经网络的输出，利用机器学习方法，训练得到行为类别检测模型。

在一些实施例中，对直播视频数据进行预处理，生成帧序列，包括：对直播视频数据进行抽帧；将所抽取的各帧缩放至目标尺寸；依次将缩放后的帧进行汇总，生成帧序列。

在一些实施例中，依次对帧序列中的相邻帧进行差分运算，基于差分运算结果，确定帧序列中的候选帧，以构成候选帧序列，包括：依次对帧序列中的相邻帧进行差分运算，生成差分图像序列；分别对差分图像序列中的各差分图像的像素值进行归一化；分别确定归一化后的各差分图像的像素平均值，作为差分数值；将差分数值大于或等于预设阈值的差分图像对应的目标帧中的帧确定为候选帧，以构成候选帧序列。

在一些实施例中，对所检测出的目标帧进行整合，生成目标行为视频片段，包括：按照时间顺序对所检测出的目标帧进行合并，生成初始视频；对初始视频进行平滑处理，生成目标行为视频片段。

在一些实施例中，在检测候选帧序列中的目标帧之后，该方法还包括：对所检测出的目标帧进行整合，生成目标行为视频片段。

在一些实施例中，目标行为类别为舞蹈类。

第二方面，本申请实施例提供了一种视频检测装置，该装置包括：预处理单元，被配置成对直播视频数据进行预处理，生成帧序列；差分运算单元，被配置成依次对帧序列中的相邻帧进行差分运算，基于差分运算结果，确定帧序列中的候选帧，以构成候选帧序列；确定单元，被配置成基于预先训练的至少一个检测模型，检测候选帧序列中的目标帧，其中，目标帧中的人体对象的行为类别为目标行为类别。

在一些实施例中，至少一个检测模型包括行为类别检测模型，行为类别检测模型用于检测图像中的人体对象的行为类别是否为目标行为类别；以及确定单元，包括：行为类别确定模块，被配置成将候选帧序列中的候选帧输入至行为类别检测模型，确定所输入的候选帧中的人体对象的行为类别是否为目标行为类别；目标帧确定模块，被配置成将属于目标行为类别的候选帧确定为目标帧。

在一些实施例中，至少一个检测模型还包括光流预测模型，光流预测模型用于预测两图像的光流图；以及确定单元，还包括：光流图预测模块，被配置成将候选帧序列输入至光流预测模型，得到候选帧序列中的相邻候选帧的光流图；条件判别模块，被配置成确定所得到的各光流图的像素分布是否满足预设条件；删除模块，被配置成从候选帧序列中，删除不满足预设条件的光流图对应的候选帧；输入模块，被配置成将删除不满足预设条件的光流图对应的候选帧后的候选帧序列，作为待输入至行为类别检测模型的候选帧序列。

在一些实施例中，预处理单元，包括：抽帧模块，被配置成对直播视频数据进行抽帧；缩放模块，被配置成将所抽取的各帧缩放至目标尺寸；汇总模块，被配置成依次将缩放后的帧进行汇总，生成帧序列。

在一些实施例中，差分运算单元，包括：差分运算模块，被配置成依次对帧序列中的相邻帧进行差分运算，生成差分图像序列；归一化模块，被配置成分别对差分图像序列中的各差分图像的像素值进行归一化；差分数值确定模块，被配置成分别确定归一化后的各差分图像的像素平均值，作为差分数值；候选帧确定模块，被配置成将差分数值大于或等于预设阈值的差分图像对应的目标帧中的帧确定为候选帧，以构成候选帧序列。

在一些实施例中，上述生成单元进一步被配置成：按照时间顺序对所检测出的目标帧进行合并，生成初始视频；对初始视频进行平滑处理，生成目标行为视频片段。

在一些实施例中，该装置还包括：生成单元，被配置成对所检测出的目标帧进行整合，生成目标行为视频片段。

在一些实施例中，目标行为类别为舞蹈类。

第三方面，本申请实施例提供了一种一种电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如上述第一方面中任一实施例的方法。

第四方面，本申请实施例提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一方面中任一实施例的方法。

本申请实施例提供的视频检测方法和装置，通过对直播视频数据进行预处理，从而生成帧序列；而后依次对帧序列中的相邻帧进行差分运算，以便基于差分运算结果，确定帧序列中的候选帧，从而构成候选帧序列；最后基于预先训练的至少一个检测模型，检测候选帧序列中的、人体对象的行为类别为目标行为类别的目标帧。由此，可以利用差分运算结果以及检测模型，依次对帧序列中的帧进行过滤，确定出目标帧。从而无需对帧序列中的每一帧都进行行为类别检测，提高了视频检测速度，满足了对直播视频检测的实时性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是根据本申请的视频检测方法的一个实施例的流程图；

图2是根据本申请的视频检测方法的又一个实施例的流程图；

图3是根据本申请的视频检测方法的一个应用场景的示意图；

图4是根据本申请的视频检测装置的一个实施例的结构示意图；

图5是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了根据本申请的视频检测方法的一个实施例的流程100。该视频检测方法，包括以下步骤：

步骤101，对直播视频数据进行预处理，生成帧序列。

在本实施例中，视频检测方法的执行主体(例如用于进行图像处理的服务器)可以对直播视频数据进行预处理，生成帧序列。此处，直播视频数据可以是用户在视频直播过程中通过终端设备上传给上述执行主体的视频数据。

实践中，用户可以利用终端设备进行视频直播。终端设备可以将直播所生成的视频数据实时地上传至上述执行主体。

此处，上述执行主体可以利用各种方式进行上述直播视频数据的预处理。作为示例，预处理方式可以包括但不限于以下至少一项：抽帧、缩放、去噪、亮度调整等。

在本实施例的一些可选的实现方式中，上述执行主体可以按照如下步骤对直播视频数据进行预处理，生成帧序列：

第一步，对直播视频数据进行抽帧。此处，可以利用各种方式进行抽帧。作为示例，可以每隔指定的帧数，抽取一帧(例如每隔5帧抽取1帧)。作为又一示例，可以每秒钟均匀抽取指定帧数(例如每秒均匀抽取5帧)。

第二步，将所抽取的各帧缩放至目标尺寸。例如，将各帧缩放为256×256分辨率的大小。

第三步，依次将缩放后的帧进行汇总，生成帧序列。这里，由于视频中的帧均对应有时间戳，因此，帧序列中的帧的顺序，可以是按照时间戳所指示的时间由先到后的顺序。

步骤102，依次对帧序列中的相邻帧进行差分运算，基于差分运算结果，确定帧序列中的候选帧，以构成候选帧序列。

在本实施例中，上述执行主体可以依次对帧序列中的相邻帧进行差分运算，基于差分运算结果，确定帧序列中的候选帧，以构成候选帧序列。这里，对相邻帧进行差分运算，可以是把该相邻帧的同一位置的像素值相减，得到各位置的像素值的差值的过程。

实践中，在镜头静止的情况下，当某一组相邻帧中的人体对象移动时，则这两个帧之间会出现较为明显的差别，差分运算结果所得到的像素值的差值的总和较大。当某一组相邻帧中的人体对象未发生移动，则通常这两个帧的像素基本相同，差分运算结果所得到的像素值的差值的总和很小。由此，可以根据差分运算结果所得到的像素值的差值的大小，确定两帧中的人体对象是否发生移动。因此，在进行差分运算后，上述执行主体可以根据差分运算结果，确定人体对象发生移动的帧，作为上述帧序列中的候选帧，以构成候选帧序列。

在本实施例的一些可选的实现方式中，上述执行主体可以按照如下步骤生成候选帧序列：

第一步，依次对上述帧序列中的相邻帧进行差分运算，生成差分图像序列。此处，可以将差分运算所得到的各个位置的像素值的差值作为图像的相应位置的像素值，由此所得到的该图像，即为差分图像。由于帧序列中存在多组相邻帧，因此，将各相邻帧的差分图像依次汇总，即可生成差分图像序列。

第二步，分别对上述差分图像序列中的各差分图像的像素值进行归一化。此处，对于每一个差分图像，可以采用各种现有的归一化方式，将该差分图像中的各个像素值转换为位于数值区间[0,1]的数。由此，可方便为后续进行数据的计算和比较提供方便。

第三步，分别确定归一化后的上述各差分图像的像素平均值，作为差分数值。此处，对于每一个差分图像，可以将该差分图像的中的归一化后的各像素值的平均值作为该差分图像的差分数值。由此，可得到各个差分图像的差分数值。

第四步，将差分数值大于或等于预设阈值(例如0.05)的差分图像对应的上述目标帧中的帧确定为候选帧，以构成候选帧序列。所述预设阈值的大小可以根据需要而预先设置，此处不作限定。

步骤103，基于预先训练的至少一个检测模型，检测候选帧序列中的目标帧。

在本实施例中，上述执行主体可以基于预先训练的至少一个检测模型，检测候选帧序列中的目标帧。其中，目标帧中的人体对象的行为类别为目标行为类别。上述目标行为类别可以根据需要来设定。例如，若需要从上述直播视频数据中检测出跳舞片段，则该目标行为类别为舞蹈类。若需要从上述直播视频数据中检测出跑步片段，则该目标行为类别为跑步类。

这里，检测模型可以是用于检测图像中的人体对象的行为类别的模型，也可以是用于检测图像中的人体对象的行为类别是否为上述目标行为类别的模型，还可以是用于筛选出不包含行为类别为上述目标行为类别的帧的模型。上述至少一个检测模型中的各检测模型均可以是通过机器学习方法训练所得到的。具体地，可以使用样本集，利用有监督方式对现有的模型结构进行训练。训练后所得到的模型，即为检测模型。不同的检测模型可以使用不同的样本集进行训练，由此可以得到具有不同功能的检测模型。

在本实施例的一些可选的实现方式中，上述至少一个检测模型可以包括行为类别检测模型。上述行为类别检测模型可以用于检测图像中的人体对象的行为类别是否为上述目标行为类别。此时，上述执行主体可以按照如下步骤确定目标帧：首先，将上述候选帧序列中的候选帧输入至上述行为类别检测模型，确定所输入的候选帧中的人体对象的行为类别是否为上述目标行为类别。之后，将属于上述目标行为类别的候选帧确定为目标帧。

需要说明的是，上述行为类别检测模型可以是利用机器学习方法，基于样本集(包含视频样本和用于指示人体对象区域的位置的标注)，对现有的模型进行有监督训练得到的。上述模型可以卷积神经网络(Convolutional Neural Network，CNN)。上述卷积神经网络可以采用各种现有的具有分类功能的神经网络结构(例如DenseBox、VGGNet、ResNet、SegNet等)。需要说明的是，上述机器学习方法、有监督训练方法是目前广泛研究和应用的公知技术，在此不再赘述。

可选的，上述实现方式中的行为类别检测模型可以通过如下步骤训练得到：首先，获取样本集。其中，上述样本集中的样本可以包括图像样本和标注信息。上述标注信息可以用于指示上述图像样本中的人体对象的行为类别是否为目标行为类别。之后，将上述样本集中的图像样本作为三维卷积神经网络(3Dimensions Convolutional Neural Network，3D CNN)的输入，将所输入的图像样本对应的标注信息作为上述三维卷积神经网络的输出，利用机器学习方法，训练得到行为类别检测模型。这里，三维卷积神经网络的结构可以采用ResNet-50-3D结构。

在本实施例的一些可选的实现方式中，上述至少一个检测模型还可以包括光流预测模型。上述光流预测模型用于预测两图像的光流图。实践中，光流预测模型可以使用神经光流网络(FlowNet)训练得到。上述神经光流网络是一种用卷积网络实现光流预测的神经网络。此时，在将上述候选帧序列中的候选帧输入至上述行为类别检测模型之前，上述执行主体还可以执行如下步骤：

第一步，将上述候选帧序列输入至上述光流预测模型，得到上述候选帧序列中的相邻候选帧的光流图。

第二步，确定所得到的各光流图的像素分布是否满足预设条件。这里，预设条件可以根据需要预先设定。例如，当帧中呈现由跳舞动作时，通常两帧间的运动信息位于一个矩形范围内。并且，该矩形的宽高比通常在数值区间(0,1)之间。因此，若需要从上述直播视频数据中检测出跳舞片段，则可以将预设条件设定为：光流图中的像素分布满足运动信息在宽高比位于数值区间(0,1)的矩形范围内。若某一光流图不满足该预设条件，则可以确定该光流图中的运动信息不明显，或者存在大面积的相机运动，而不是跳舞动作。

第三步，从上述候选帧序列中，删除不满足上述预设条件的光流图对应的候选帧。由此，可以将不存在跳舞动作以及相机运动时所采集的帧进行删除，减少了数据量，提高了检测精度。

第四步，将删除不满足上述预设条件的光流图对应的候选帧后的候选帧序列，作为待输入至上述行为类别检测模型的候选帧序列。由此，可排除相机运动时所采集的帧，有助于提高视频的检测效率。

在本实施例的一些可选的实现方式中，上述目标行为类别可以是舞蹈类。

在本实施例的一些可选的实现方式中，在检测上述候选帧序列中的目标帧之后，上述执行主体还可以对所检测出的目标帧进行整合(例如合并、平滑等处理)，生成目标行为视频片段。由此，可以从上述直播视频数据中提取出呈现由目标行为的视频片段。实践中，在生成目标行为视频片段之后，还可以进行上述目标行为视频片段的推送等操作，以方便用户点击和观看。

本申请的上述实施例提供的方法，通过对直播视频数据进行预处理，从而生成帧序列；而后依次对上述帧序列中的相邻帧进行差分运算，以便基于差分运算结果，确定上述帧序列中的候选帧，从而构成候选帧序列；最后基于预先训练的至少一个检测模型，检测上述候选帧序列中的、人体对象的行为类别为目标行为类别的目标帧。由此，可以利用差分运算结果以及检测模型，依次对帧序列中的帧进行过滤，确定出目标帧。从而无需对帧序列中的每一帧都进行行为类别检测，提高了视频检测速度，满足了对直播视频检测的实时性。同时，多种过滤方式依次执行，相较于仅仅采用单一的行为类别识别的方式，提高了检测的准确性。

进一步参考图2，其示出了视频检测方法的又一个实施例的流程200。该视频检测方法的流程200，包括以下步骤：

步骤201，对直播视频数据进行预处理，生成帧序列。

在本实施例中，视频检测方法的执行主体(例如用于进行图像处理的服务器)可以首先对直播视频数据进行抽帧。此处，可以每秒钟均匀抽取指定帧数(例如每秒均匀抽取5帧)。而后，可以将所抽取的各帧缩放至目标尺寸。例如，将各帧缩放为256×256分辨率的大小。最后，可以依次将缩放后的帧进行汇总，生成帧序列。

步骤202，依次对帧序列中的相邻帧进行差分运算，基于差分运算结果，确定帧序列中的候选帧，以构成候选帧序列。

在本实施例中，上述执行主体可以首先依次对上述帧序列中的相邻帧进行差分运算，生成差分图像序列。此处，可以将差分运算所得到的各个位置的像素值的差值作为图像的相应位置的像素值，由此所得到的该图像，即为差分图像。由于帧序列中存在多组相邻帧，因此，将各相邻帧的差分图像依次汇总，即可生成差分图像序列。

而后，上述执行主体可以分别对上述差分图像序列中的各差分图像的像素值进行归一化，将该差分图像中的各个像素值转换为位于数值区间[0,1]的数。

之后，上述执行主体可以分别确定归一化后的上述各差分图像的像素平均值，作为差分数值。此处，对于每一个差分图像，可以将该差分图像的中的归一化后的各像素值的平均值作为该差分图像的差分数值。由此，可得到各个差分图像的差分数值。

最后，可以将差分数值大于或等于预设阈值(例如0.05)的差分图像对应的上述目标帧中的帧确定为候选帧，以构成候选帧序列。

步骤203，将候选帧序列输入至预先训练的光流预测模型，得到候选帧序列中的相邻候选帧的光流图。

在本实施例中，上述执行主体可以将候选帧序列输入至预先训练的光流预测模型，得到候选帧序列中的相邻候选帧的光流图。上述光流预测模型可以用于预测两图像的光流图。实践中，光流预测模型可以使用神经光流网络(FlowNet)训练得到。上述神经光流网络是一种用卷积网络实现光流预测的神经网络。

步骤204，确定所得到的各光流图的像素分布是否满足预设条件。

在本实施例中，上述执行主体可以确定所得到的各光流图的像素分布是否满足预设条件。这里，预设条件可以根据需要预先设定。例如，当帧中呈现由跳舞动作时，通常两帧间的运动信息位于一个矩形范围内。并且，该矩形的宽高比通常在数值区间(0,1)之间。因此，若需要从上述直播视频数据中检测出跳舞片段，则可以将预设条件设定为：光流图中的像素分布满足运动信息在宽高比位于数值区间(0,1)的矩形范围内。若某一光流图不满足该预设条件，则可以确定该光流图中的运动信息不明显，或者存在大面积的相机运动，而不是跳舞动作。

步骤205，从候选帧序列中，删除不满足预设条件的光流图对应的候选帧。

在本实施例中，上述执行主体可以从上述候选帧序列中，删除不满足上述预设条件的光流图对应的候选帧。由此，可以将不存在跳舞动作以及相机运动时所采集的帧进行删除，减少了数据量，提高了检测精度。

步骤206，将候选帧序列中的候选帧输入至预先训练的行为类别检测模型，确定所输入的候选帧中的人体对象的行为类别是否为目标行为类别。

在本实施例中，上述执行主体可以将候选帧序列(此处为删除不满足上述预设条件的光流图对应的候选帧后的候选帧序列)中的候选帧输入至预先训练的行为类别检测模型，得到所输入的候选帧中的人体对象的行为类别是否为目标行为类别。其中，上述行为类别检测模型可以用于检测图像中的人体对象的行为类别是否为上述目标行为类别。

在本实施例中，上述目标行为类别可以是舞蹈类。

此处，行为类别检测模型可以通过如下步骤训练得到：首先，获取样本集。其中，上述样本集中的样本可以包括图像样本和标注信息。上述标注信息可以用于指示上述图像样本中的人体对象的行为类别是否为目标行为类别。之后，将上述样本集中的图像样本作为三维卷积神经网络(3Dimensions Convolutional Neural Network，3D CNN)的输入，将所输入的图像样本对应的标注信息作为上述三维卷积神经网络的输出，利用机器学习方法，训练得到行为类别检测模型。这里，三维卷积神经网络的结构可以采用ResNet-50-3D结构。

步骤207，将属于目标行为类别的候选帧确定为目标帧。

在本实施例中，上述执行主体可以将属于上述目标行为类别(即舞蹈类)的候选帧确定为目标帧。

步骤208，对所确定出的目标帧进行整合，生成目标行为视频片段。

在本实施例中，上述执行主体可以对所检测出的目标帧进行整合(例如合并、平滑等处理)，生成目标行为视频片段。由此，可以从上述直播视频数据中提取出呈现由目标行为的视频片段。

可选的，可以首先按照时间顺序对所检测出的目标帧进行合并，生成初始视频。而后，可以利用各种现有视频平滑处理方式，对所述初始视频进行平滑处理，生成目标行为视频片段。从而，可以提高所生成的目标行为视频片段的连贯性。

实践中，在生成目标行为视频片段之后，还可以进行上述目标行为视频片段的推送等操作，以方便用户点击和观看。

从图2中可以看出，与图1对应的实施例相比，本实施例中的视频检测方法的流程200涉及了对在利用差分运算得到候选帧序列后，首先利用光流预测模型预测候选帧序列中的各相邻帧的光流图，基于光流图对候选帧进行过滤，而后利用行为类别检测模型对剩余候选帧进行跳舞行为的检测的步骤。由此，依次基于差分运算、光流预测、行为类别分析进行目标帧识别，提高了识别精度。同时，先进行差分运算、光流预测，可排除运动信息不明显的帧和相机运动时所采集的帧，从而提高了视频的检测效率。此外，利用光流预测模型进行光流图预测，而非进行光流计算确定光流图，减少了数据运算量，进一步提升了检测速度。

继续参见图3，图3是根据本实施例的视频检测方法的一个应用场景的示意图。在图3的应用场景中，需要从直播视频中检测出主播跳舞的画面(即目标帧)，并将目标帧整合成舞蹈行为视频片段。执行视频检测方法的电子设备中可以存储有预先训练的光流预测模型和行为类别检测模型。

上述电子设备在得到直播视频后，可以首先对直播视频数据进行预处理，生成帧序列。而后依次对帧序列中的相邻帧进行差分运算，基于差分运算结果，确定帧序列中的候选帧，以构成候选帧序列。

接着，可以将候选帧序列输入至预先训练的光流预测模型，得到候选帧序列中的相邻候选帧的光流图。确定所得到的各光流图的像素分布是否满足预设条件。从候选帧序列中，删除不满足预设条件的光流图对应的候选帧。

接着，可以将删除不满足预设条件的光流图对应的候选帧后的候选帧序列中的候选帧输入至预先训练的行为类别检测模型，确定所输入的候选帧中的人体对象的行为类别是否为舞蹈类。将属于舞蹈类的候选帧确定为目标帧。

最后，可以对所确定出的目标帧进行整合，生成舞蹈行为视频片段。

进一步参考图4，作为对上述各图所示方法的实现，本申请提供了一种视频检测装置的一个实施例，该装置实施例与图1所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图4所示，本实施例所述的视频检测装置400包括：预处理单元401，被配置成对直播视频数据进行预处理，生成帧序列；差分运算单元402，被配置成依次对上述帧序列中的相邻帧进行差分运算，基于差分运算结果，确定上述帧序列中的候选帧，以构成候选帧序列；确定单元403，被配置成基于预先训练的至少一个检测模型，检测上述候选帧序列中的目标帧，其中，上述目标帧中的人体对象的行为类别为目标行为类别。

在本实施例的一些可选的实现方式中，上述至少一个检测模型可以包括行为类别检测模型。上述行为类别检测模型用于检测图像中的人体对象的行为类别是否为上述目标行为类别。上述确定单元403可以包括行为类别确定模块4031和目标帧确定模块4032。其中，上述行为类别确定模块可以被配置成将上述候选帧序列中的候选帧输入至上述行为类别检测模型，确定所输入的候选帧中的人体对象的行为类别是否为上述目标行为类别。上述目标帧确定模块可以被配置成将属于上述目标行为类别的候选帧确定为目标帧。

在本实施例的一些可选的实现方式中，上述至少一个检测模型还可以包括光流预测模型。上述光流预测模型可以用于预测两图像的光流图。上述确定单元403还可以包括光流图预测模块4033、条件判别模块4034、删除模块4035和输入模块4036。其中，上述光流图预测模块可以被配置成将上述候选帧序列输入至光流预测模型，得到上述候选帧序列中的相邻候选帧的光流图。上述条件判别模块可以被配置成确定所得到的各光流图的像素分布是否满足预设条件。上述删除模块可以被配置成从上述候选帧序列中，删除不满足上述预设条件的光流图对应的候选帧。输入模块4036，被配置成将删除不满足所述预设条件的光流图对应的候选帧后的候选帧序列，作为待输入至所述行为类别检测模型的候选帧序列

在本实施例的一些可选的实现方式中，上述行为类别检测模型可以通过如下步骤训练得到：获取样本集，其中，上述样本集中的样本包括图像样本和标注信息，上述标注信息用于指示上述图像样本中的人体对象的行为类别是否为目标行为类别；将上述样本集中的图像样本作为三维卷积神经网络的输入，将所输入的图像样本对应的标注信息作为上述三维卷积神经网络的输出，利用机器学习方法，训练得到行为类别检测模型。

在本实施例的一些可选的实现方式中，上述预处理单元401可以包括抽帧模块4011、缩放模块4012和汇总模块4013。其中，上述抽帧模块可以被配置成对直播视频数据进行抽帧。上述缩放模块可以被配置成将所抽取的各帧缩放至目标尺寸。上述汇总模块可以被配置成依次将缩放后的帧进行汇总，生成帧序列。

在本实施例的一些可选的实现方式中，上述差分运算单元402可以包括差分运算模块4021、归一化模块4022、差分数值确定模块4023和候选帧确定模块4024。其中，上述差分运算模块可以被配置成依次对上述帧序列中的相邻帧进行差分运算，生成差分图像序列。上述归一化模块可以被配置成分别对上述差分图像序列中的各差分图像的像素值进行归一化。上述差分数值确定模块可以被配置成分别确定归一化后的上述各差分图像的像素平均值，作为差分数值。上述候选帧确定模块可以被配置成将差分数值大于或等于预设阈值的差分图像对应的上述目标帧中的帧确定为候选帧，以构成候选帧序列。

在本实施例的一些可选的实现方式中，该装置还可以包括生成单元404。其中，上述生成单元可以被配置成对所检测出的目标帧进行整合，生成目标行为视频片段。

在本实施例的一些可选的实现方式中，所述生成单元404进一步被配置成：按照时间顺序对所检测出的目标帧进行合并，生成初始视频；对初始视频进行平滑处理，生成目标行为视频片段。

在本实施例的一些可选的实现方式中，上述目标行为类别为舞蹈类。

本申请的上述实施例提供的装置，通过预处理单元401对直播视频数据进行预处理，从而生成帧序列；而后差分运算单元402依次对上述帧序列中的相邻帧进行差分运算，以便基于差分运算结果，确定上述帧序列中的候选帧，从而构成候选帧序列；最后确定单元403基于预先训练的至少一个检测模型，确定出上述候选帧序列中的目标帧。这里，上述目标帧中的人体对象的行为类别为目标行为类别。由此，可以利用差分运算结果以及检测模型，依次对帧序列中的帧进行过滤，确定出目标帧。从而无需对帧序列中的每一帧都进行行为类别检测，提高了视频检测速度，满足了对直播视频检测的实时性。同时，多种过滤方式依次执行，相较于仅仅采用单一的行为类别识别的方式，提高了检测的准确性。

下面参考图5，其示出了适于用来实现本申请实施例的电子设备的计算机系统500的结构示意图。图5示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图5所示，计算机系统500包括中央处理单元(CPU)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有系统500操作所需的各种程序和数据。CPU501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括预处理单元、差分运算单元和确定单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，预处理单元还可以被描述为“对直播视频数据进行预处理，生成帧序列的单元”。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时，使得该装置：对直播视频数据进行预处理，生成帧序列；依次对该帧序列中的相邻帧进行差分运算，基于差分运算结果，确定该帧序列中的候选帧，以构成候选帧序列；基于预先训练的至少一个检测模型，检测该候选帧序列中的目标帧，其中，该目标帧中的人体对象的行为类别为目标行为类别。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种视频检测方法，其特征在于，所述方法包括：

对直播视频数据进行预处理，生成帧序列；

依次对所述帧序列中的相邻帧进行差分运算，基于差分运算结果，确定所述帧序列中的候选帧，以构成候选帧序列；

基于预先训练的至少一个检测模型，检测所述候选帧序列中的目标帧，其中，所述目标帧中的人体对象的行为类别为目标行为类别。

2.根据权利要求1所述的视频检测方法，其特征在于，所述至少一个检测模型包括行为类别检测模型，所述行为类别检测模型用于检测图像中的人体对象的行为类别是否为所述目标行为类别；以及

所述基于预先训练的至少一个检测模型，检测所述候选帧序列中的目标帧，包括：

将所述候选帧序列中的候选帧输入至所述行为类别检测模型，确定所输入的候选帧中的人体对象的行为类别是否为所述目标行为类别；

将属于所述目标行为类别的候选帧确定为目标帧。

3.根据权利要求2所述的视频检测方法，其特征在于，所述至少一个检测模型还包括光流预测模型，所述光流预测模型用于预测两图像的光流图；以及

在所述将所述候选帧序列中的候选帧输入至所述行为类别检测模型之前，所述基于预先训练的至少一个检测模型，检测所述候选帧序列中的目标帧，还包括：

将所述候选帧序列输入至所述光流预测模型，得到所述候选帧序列中的相邻候选帧的光流图；

确定所得到的各光流图的像素分布是否满足预设条件；

从所述候选帧序列中，删除不满足所述预设条件的光流图对应的候选帧；

将删除不满足所述预设条件的光流图对应的候选帧后的候选帧序列，作为待输入至所述行为类别检测模型的候选帧序列。

4.根据权利要求2所述的视频检测方法，其特征在于，所述行为类别检测模型通过如下步骤训练得到：

获取样本集，其中，所述样本集中的样本包括图像样本和标注信息，所述标注信息用于指示所述图像样本中的人体对象的行为类别是否为目标行为类别；

将所述样本集中的图像样本作为三维卷积神经网络的输入，将所输入的图像样本对应的标注信息作为所述三维卷积神经网络的输出，利用机器学习方法，训练得到行为类别检测模型。

5.根据权利要求1所述的视频检测方法，其特征在于，所述对直播视频数据进行预处理，生成帧序列，包括：

对直播视频数据进行抽帧；

将所抽取的各帧缩放至目标尺寸；

依次将缩放后的帧进行汇总，生成帧序列。

6.根据权利要求1所述的视频检测方法，其特征在于，所述依次对所述帧序列中的相邻帧进行差分运算，基于差分运算结果，确定所述帧序列中的候选帧，以构成候选帧序列，包括：

依次对所述帧序列中的相邻帧进行差分运算，生成差分图像序列；

分别对所述差分图像序列中的各差分图像的像素值进行归一化；

分别确定归一化后的所述各差分图像的像素平均值，作为差分数值；

将差分数值大于或等于预设阈值的差分图像对应的所述目标帧中的帧确定为候选帧，以构成候选帧序列。

7.根据权利要求1所述的视频检测方法，其特征在于，在所述检测所述候选帧序列中的目标帧之后，所述方法还包括：

对所检测出的目标帧进行整合，生成目标行为视频片段。

8.根据权利要求7所述的视频检测方法，其特征在于，所述对所检测出的目标帧进行整合，生成目标行为视频片段，包括：

按照时间顺序对所检测出的目标帧进行合并，生成初始视频；

对所述初始视频进行平滑处理，生成目标行为视频片段。

9.据权利要求1-8之一所述的视频检测方法，其特征在于，所述目标行为类别为舞蹈类。

10.一种视频检测装置，其特征在于，所述装置包括：

预处理单元，被配置成对直播视频数据进行预处理，生成帧序列；

差分运算单元，被配置成依次对所述帧序列中的相邻帧进行差分运算，基于差分运算结果，确定所述帧序列中的候选帧，以构成候选帧序列；

确定单元，被配置成基于预先训练的至少一个检测模型，检测所述候选帧序列中的目标帧，其中，所述目标帧中的人体对象的行为类别为目标行为类别。

11.根据权利要求10所述的视频检测装置，其特征在于，所述至少一个检测模型包括行为类别检测模型，所述行为类别检测模型用于检测图像中的人体对象的行为类别是否为所述目标行为类别；以及

所述确定单元，包括：

行为类别确定模块，被配置成将所述候选帧序列中的候选帧输入至所述行为类别检测模型，确定所输入的候选帧中的人体对象的行为类别是否为所述目标行为类别；

目标帧确定模块，被配置成将属于所述目标行为类别的候选帧确定为目标帧。

12.根据权利要求11所述的视频检测装置，其特征在于，所述至少一个检测模型还包括光流预测模型，所述光流预测模型用于预测两图像的光流图；以及

所述确定单元，还包括：

光流图预测模块，被配置成将所述候选帧序列输入至所述光流预测模型，得到所述候选帧序列中的相邻候选帧的光流图；

条件判别模块，被配置成确定所得到的各光流图的像素分布是否满足预设条件；

删除模块，被配置成从所述候选帧序列中，删除不满足所述预设条件的光流图对应的候选帧；

输入模块，被配置成将删除不满足所述预设条件的光流图对应的候选帧后的候选帧序列，作为待输入至所述行为类别检测模型的候选帧序列。

13.根据权利要求10所述的视频检测装置，其特征在于，所述差分运算单元，包括：

差分运算模块，被配置成依次对所述帧序列中的相邻帧进行差分运算，生成差分图像序列；

归一化模块，被配置成分别对所述差分图像序列中的各差分图像的像素值进行归一化；

差分数值确定模块，被配置成分别确定归一化后的所述各差分图像的像素平均值，作为差分数值；

候选帧确定模块，被配置成将差分数值大于或等于预设阈值的差分图像对应的所述目标帧中的帧确定为候选帧，以构成候选帧序列。

14.根据权利要求10-13之一所述的视频检测装置，其特征在于，所述目标行为类别为舞蹈类。

15.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。

16.一种计算机可读介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-9中任一所述的方法。