CN115205202A

CN115205202A - 视频检测方法、装置、设备及存储介质

Info

Publication number: CN115205202A
Application number: CN202210539695.5A
Authority: CN
Inventors: 徐海良; 高金楠; 李瑶
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2022-05-17
Filing date: 2022-05-17
Publication date: 2022-10-18

Abstract

本公开关于一种视频检测方法、装置、设备及存储介质，该方法通过通过从待检测视频中获取至少一个视频帧图像；对所述视频帧图像进行区域检测，获得多个第一候选区域图像；调用局部表征模型对所述视频帧图像以及每个第一候选区域图像进行处理，获得每个第一候选区域图像对应的局部特征信息；基于预设对象库，对所述局部特征信息进行检测，获得所述待检测视频的检测结果；所述预设对象库中存储至少一种限制性对象对应的对象特征信息，所述对象特征信息通过所述局部表征模型进行处理得到；所述检测结果包括用于指示所述待检测视频是否包括所述限制性对象。从而提高视频检测效率和可靠性，同时检测具有可扩展性。

Description

视频检测方法、装置、设备及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种视频检测方法、装置、设备及存储介质。

背景技术

随着互联网技术的发展，用户可以通过网络平台进行视频分享。而为了保证分享内容的安全性，避免包含限制性内容(例如违规标志等)的视频在网络平台内的传播，通常需要事先对视频进行人工审核。

相关技术中，为了减少人工审核的工作量以及提高审核准确性，通常会对待分享的视频进行机器检测，以给审核人员提供额外的审核辅助信息，例如可以告知审核人员视频内存在某种违规标志等。然而，目前针对视频的限制性内容的检测方式，普遍存在检测耗时高，检测可靠性较低以及检测可扩展性不高等至少一种问题。

发明内容

本公开提供一种视频检测方法、装置、设备及存储介质，以至少解决相关技术中至少一种问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种视频检测方法，包括：

从待检测视频中获取至少一个视频帧图像；

对所述视频帧图像进行区域检测，获得多个第一候选区域图像；每个所述第一候选区域图像包括一个待检测对象；

调用局部表征模型对所述视频帧图像以及每个第一候选区域图像进行处理，获得每个所述第一候选区域图像对应的局部特征信息；

基于预设对象库，对所述局部特征信息进行检测，获得所述待检测视频的检测结果；所述预设对象库中存储至少一种限制性对象对应的对象特征信息，所述对象特征信息通过所述局部表征模型进行处理得到；所述检测结果包括用于指示所述待检测视频是否包括所述限制性对象。

在一可选实施方式中，所述对所述视频帧图像进行区域检测，获得多个第一候选区域图像包括：

对所述视频帧图像进行图像分块处理，获得具有至少一个尺寸维度的多个图像块；所述多个图像块中至少两个图像块存在像素重叠；

基于每个图像块的属性信息，对多个所述图像块进行基于像素维度的合并处理，获得多个第一候选区域图像。

在一可选实施方式中，所述局部表征模型包括第一子网络和第二子网络，所述调用局部表征模型对所述视频帧图像以及每个第一候选区域图像进行处理，获得每个第一候选区域图像对应的局部特征信息包括：

将所述视频帧图像输入所述第一子网络，通过所述第一子网络对所述视频帧图像进行特征提取，获得所述视频帧图像对应的图像特征图；

将所述第一候选区域图像和所述图像特征图输入所述第二子网络，通过所述第二子网络将所述第一候选区域图像映射至所述图像特征图，获得每个第一候选区域图像对应的局部特征信息。

在一可选实施方式中，所述基于预设对象库，对所述局部特征信息进行检测，获得所述待检测视频的检测结果包括：

获取预设对象库；

计算所述预设对象库中存储的每种限制性对象对应的对象特征信息，与所述局部特征信息的相似度；

基于相似度计算结果和预设相似度阈值，获得所述待检测视频的检测结果。

在一可选实施方式中，所述基于相似度计算结果和预设相似度阈值，获得所述待检测视频的检测结果包括：

从所述相似度计算结果中确定最大相似度值；

在所述最大相似度值大于或等于所述预设相似度阈值的情况下，确定用于指示所述待检测视频包含限制性对象的检测结果。

在一可选实施方式中，所述方法还包括：

获取包含目标限制性对象的目标图像；

对所述目标图像进行区域检测，获得多个第二候选区域图像；

调用所述局部表征模型对所述目标图像以及每个第二候选区域图像进行处理，获得每个第二候选区域图像对应的对象特征信息；

基于用于指示所述目标图像中目标限制性对象的像素集合，以及每个第二候选区域图像对应的像素集合，从多个第二候选区域图像中确定用于表征所述目标限制性对象的目标候选区域图像；

基于所述目标候选区域图像对应的对象特征信息，构建所述预设对象库。

在一可选实施方式中，所述局部表征模型的训练方法包括：

获取训练样本集，所述训练样本集包括多个样本图像、以及每个样本图像中各候选区域样本图像对应的目标样本对象信息；

调用初始局部表征模型中的第一子网络对每个样本图像进行处理，获得每个所述样本图像对应的图像样本特征图；

调用所述初始局部表征模型中的第二子网络，将所述候选区域样本图像映射至所述图像样本特征图，获得每个所述候选区域样本图像对应的局部样本特征信息；

调用区域还原网络，对每个所述候选区域样本图像对应的局部样本特征信息进行处理，获得每个所述候选区域样本图像对应的目标局部样本特征信息；所述目标局部样本特征信息与所述目标样本对象信息对应的图像像素尺寸相同；

基于所述目标局部样本特征信息与对应的所述目标样本对象信息，确定目标损失；

基于所述目标损失对所述初始局部表征模型和所述区域还原网络进行训练，得到所述局部表征模型。

在一可选实施方式中，所述获取训练样本集包括：

获取多个初始样本图像；

对每个所述初始样本图像进行图像尺寸调整，获得具有预设图像尺寸的多个样本图像；

对每个所述样本图像进行区域检测，获得多个候选区域样本图像；每个所述候选区域样本图像包括一个目标样本对象；

对每个所述候选区域样本图像进行像素缩放处理，获得各所述候选区域样本图像对应的目标样本对象信息；

基于所述多个样本图像、以及各所述候选区域样本图像对应的目标样本对象信息，构建所述训练样本集。

根据本公开实施例的第二方面，提供一种视频检测装置，包括：

第一获取模块，被配置为执行从待检测视频中获取至少一个视频帧图像；

第二获取模块，被配置为执行对所述视频帧图像进行区域检测，获得多个第一候选区域图像；每个所述第一候选区域图像包括一个候选对象；

第三获取模块，被配置为执行调用局部表征模型对所述视频帧图像以及每个所述第一候选区域图像进行处理，获得每个第一候选区域图像对应的局部特征信息；

检测模块，被配置为执行基于预设对象库，对所述局部特征信息进行检测，获得所述待检测视频的检测结果；所述预设对象库中存储至少一种限制性对象对应的对象特征信息，所述对象特征信息通过所述局部表征模型进行处理得到；所述检测结果包括用于指示所述待检测视频是否包括所述限制性对象。

在一可选实施方式中，所述第二获取模块包括：

第一获取子模块，被配置为执行对所述视频帧图像进行图像分块处理，获得具有至少一个尺寸维度的多个图像块；所述多个图像块中至少两个图像块存在像素重叠；

合并子模块，被配置为执行基于每个图像块的属性信息，对多个所述图像块进行基于像素维度的合并处理，获得多个第一候选区域图像。

在一可选实施方式中，所述局部表征模型包括第一子网络和第二子网络，所述第三获取模块包括：

第二获取子模块，被配置为执行调将所述视频帧图像输入所述第一子网络，通过所述第一子网络对所述视频帧图像进行特征提取，获得所述视频帧图像对应的图像特征图；

第三获取子模块，被配置为执行将所述第一候选区域图像和所述图像特征图输入所述第二子网络，通过所述第二子网络将所述第一候选区域图像映射至所述图像特征图，获得每个第一候选区域图像对应的局部特征信息。

在一可选实施方式中，所述检测模块包括：

第四获取子模块，被配置为执行获取预设对象库；

计算子模块，被配置为执行计算所述预设对象库中存储的每种限制性对象对应的对象特征信息，与所述局部特征信息的相似度；

检测子模块，被配置为执行基于相似度计算结果和预设相似度阈值，获得所述待检测视频的检测结果。

在一可选实施方式中，所述检测子模块包括：

确定单元，被配置为执行从所述相似度计算结果中确定最大相似度值；

检测单元，被配置为执行在所述最大相似度值大于或等于所述预设相似度阈值的情况下，确定用于指示所述待检测视频包含限制性对象的检测结果。

在一可选实施方式中，所述装置还包括库构建模块，被配置为执行：

获取包含目标限制性对象的目标图像；

在一可选实施方式中，所述装置还包括：

样本获取模块，被配置为执行获取训练样本集，所述训练样本集包括多个样本图像、以及每个样本图像中各候选区域样本图像对应的目标样本对象信息；

第一处理模块，被配置为执行调用初始局部表征模型中的第一子网络对每个样本图像进行处理，获得每个所述样本图像对应的图像样本特征图；

第二处理模块，被配置为执行调用所述初始局部表征模型中的第二子网络，将所述候选区域样本图像映射至所述图像样本特征图，获得每个所述候选区域样本图像对应的局部样本特征信息；

还原模块，被配置为执行调用区域还原网络，对每个所述候选区域样本图像对应的局部样本特征信息进行处理，获得每个所述候选区域样本图像对应的目标局部样本特征信息；所述目标局部样本特征信息与所述目标样本对象信息对应的图像像素尺寸相同；

损失计算模块，被配置为执行基于所述目标局部样本特征信息与对应的所述目标样本对象信息，确定目标损失；

训练模块，被配置为执行基于所述目标损失对所述初始局部表征模型和所述区域还原网络进行训练，得到所述局部表征模型。

在一可选实施方式中，所述样本获取模块具体被配置为执行：

获取多个初始样本图像；

根据本公开实施例的第三方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如上述中任一实施方式所述的视频检测方法。

根据本公开实施例的第四方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如上述任一实施方式所述的视频检测方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序被处理器执行时实现上述任一种实施方式中提供的视频检测方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开实施例通过从待检测视频中获取至少一个视频帧图像；对所述视频帧图像进行区域检测，获得多个第一候选区域图像，每个第一候选区域图像包括一个待检测对象；调用局部表征模型对所述视频帧图像以及每个第一候选区域图像进行处理，获得每个第一候选区域图像对应的局部特征信息；基于预设对象库，对所述局部特征信息进行检测，获得所述待检测视频的检测结果；所述预设对象库中存储至少一种限制性对象对应的对象特征信息，所述对象特征信息通过所述局部表征模型进行处理得到；所述检测结果包括用于指示所述待检测视频是否包括所述限制性对象。由于结合预设对象库和局部表征模型所处理得到的每个候选区域图像对应的局部特征信息进行视频检测，该局部特征信息具有尺寸和旋转不变性，捕获了视频帧图像中的待检测对象的基本属性，视频检测耗时少，检测可靠性高，同时针对新的限制性内容，无需更新局部表征模型，检测具有可扩展性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本公开的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种应用视频检测方法的系统的架构图。

图2是根据一示例性实施例示出的一种视频检测方法的流程图。

图3是根据一示例性实施例示出的一种视频检测方法的流程图。

图4是根据一示例性实施例示出的一种视频检测方法的流程图。

图5是根据一示例性实施例示出的一种视频检测方法的流程图。

图6是根据一示例性实施例示出的一种视频检测方法的流程图。

图7是根据一示例性实施例示出的一种视频检测方法的部分过程图。

图8是根据一示例性实施例示出的一种视频检测装置框图。

图9是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

需要说明的是，本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

图1是根据一示例性实施例示出的一种应用视频检测方法的系统的架构图，参见图1，该架构图可以包括终端10和服务器20。

其中，终端10可以是但不限于为智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能可穿戴设备、数字助理、增强现实设备、虚拟现实设备等设备。

服务器20可以为终端10提供视频检测服务。仅作为示例，服务器20可以是但不限于为独立的服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间服务、域名服务、安全服务、以及大数据和人工智能平台等基础云计算服务的云服务器等中一种或多种。该终端10与服务器20之间可以通过有线或无线通信方式进行直接或间接地连接，本公开实施例在此不作限制。

需要说明的是，本公开的应用视频检测方法的系统的架构图并不限于此，还可以包括比图1的数量更多或更少的设备，本公开实施例在此不作限制。

本公开实施例提供的视频检测方法，可以由视频检测装置来执行，该视频检测装置可以是硬件形式或软件形式集成在终端或服务器设备中，可以由服务器单独执行实现，或者可以由终端和服务器协同执行实现。

图2是根据一示例性实施例示出的一种视频检测方法的流程图。如图2所示，视频检测方法可以应用于电子设备，以该电子设备为上述实施环境示意图中服务器为例进行说明，包括以下步骤。

在步骤S201中，从待检测视频中获取至少一个视频帧图像。

其中，待检测视频可以是需要进行检测的待分享视频。该待分享视频可以是短视频、长视频、直播视频等，本公开对此不作具体限定。每个待检测视频可以包括多个帧图像，获取至少一个视频帧图像可以包括以下至少一种实现方式：可以是从待检测视频中抽取间隔预设时间间隔(例如N秒)对应的帧图像，也可以是从待检测视频中抽取关键帧对应的帧图像等。其中，N可以为正整数，或者其他能够实现的数值。

在步骤S203中，对所述视频帧图像进行区域检测，获得多个第一候选区域图像。

其中，每个所述第一候选区域图像包括一个待检测对象。每个第一候选区域图像中的图像属性信息至少部分相同。该图像属性信息可以包括但不限于为颜色、纹理、像素值等。示例性的，每个第一候选区域图像的像素点的颜色、纹理等至少一种是一致的，也即获取的各第一候选区域图像可能对应一个具有含义的待检测对象，该待检测对象可以是物体、限制性对象(例如违规标志)等。

可选地，服务器可以通过区域检测算法对视频帧图像进行区域检测，获得多个第一候选区域图像。其中，该区域检测算法可以包括BING算法、基于无监督的语义分割算法等至少一种。

在一可选实施方式中，如图3所示，所述对所述视频帧图像进行区域检测，获得多个第一候选区域图像包括：

在步骤S301中，对所述视频帧图像进行图像分块处理，获得具有至少一个尺寸维度的多个图像块；所述多个图像块中至少两个图像块存在像素重叠。

可选地，服务器可以对视频帧图像进行图像分块处理，获得一系列具有层级关系的多个图像块，不同的图像块之间可以存在像素重叠部分，即多个图像块中至少两个图像块存在像素重叠。多个图像块可以是至少一个尺度维度的，不同的两个图像块的的块尺寸大小可以不同，也可以相同。

在步骤S303中，基于每个图像块的属性信息，对多个所述图像块进行基于像素维度的合并处理，获得多个第一候选区域图像。

可选地，图像块的属性信息是表征图像块自身特性的信息。该属性信息可以包括但不限于颜色、纹理、尺寸、距离远近等。服务器可以基于每个图像块的属性信息，分层次的将颜色、纹理、尺寸、距离远近等至少一个图像块进行基于像素维度的块合并处理，获得多个第一候选区域图像。每个第一候选区域图像可以至少包括区域位置信息、待检测对象的像素集合这两个属性。示例性的，该第一候选区域图像可以是用矩形框将待检测对象围起来的图像，该待检测对象的像素集合可以是待检测对象的全部像素点的集合。

在步骤S205中，调用局部表征模型对所述视频帧图像以及每个所述第一候选区域图像进行处理，获得每个所述第一候选区域图像对应的局部特征信息。

可选地，局部表征模型可以是事先通过训练样本集训练得到。该训练样本集包括多个样本图像、以及每个样本图像中各候选区域样本图像对应的目标样本对象信息。至于局部表征模型的训练过程将在后文进行描述。

其中，局部特征信息用于表征每个第一候选区域图像的特征数据。仅作为示例，该局部特征信息可以包括局部特征向量。

在一可选实施方式中，如图4所示，所述局部表征模型包括第一子网络和第二子网络。此时，所述调用局部表征模型对所述视频帧图像以及每个第一候选区域图像进行处理，获得每个第一候选区域图像对应的局部特征信息包括：

在步骤S401中，将所述视频帧图像输入所述第一子网络，通过所述第一子网络对所述视频帧图像进行特征提取，获得所述视频帧图像对应的图像特征图。

可选地，服务器将视频帧图像输入局部表征模型中的第一子网络，该第一子网络可以包括但不限于例如VGG、Resnet等至少一种深度学习网络，通过该第一子网络对视频帧图像进行特征提取处理，获得视频帧图像对应的图像特征图。

仅作为示例，在输入至局部表征模型之前，可以将获取的视频帧图像进行像素缩放处理，将其尺寸固定缩放到高和宽均为608像素。若获取的视频帧图像是长方形，则可以先在尺寸不够的维度(例如宽度或长度)上使用像素值为零进行填充，将其扩展为正方形，即扩展后的视频帧图像的宽度和长度相等。接着，将其进行尺寸缩放调整处理。经调整后的视频帧图像的尺寸为608*608*3，其中，“608*608”是调整后的视频帧图像的像素尺寸，“3”是分别对应RGB通道。然后，将经调整后的视频帧图像输入至局部表征模型中的第一子网络进行特征提取，得到视频帧图像对应的图像特征图。图像特征图是用于表征整个视频帧图像的特征信息，该图像特征图的尺寸可以是19*19*32，其中“19*19”是图像特征图的像素尺寸，“32”是图像特征图的通道数。

在步骤S403中，将所述第一候选区域图像和所述图像特征图输入所述第二子网络，通过所述第二子网络将所述第一候选区域图像映射至所述图像特征图，获得每个第一候选区域图像对应的局部特征信息。

可选地，服务器可以将第一候选区域图像和图像特征图输入第二子网络，基于每个第一候选区域图像在视频帧图像中的区域位置信息，通过第二子网络将每个第一候选区域图像映射至视频帧图像对应的图像特征图上，从特征图上采用类似插值算法提取出固定尺寸的特征，也即通过该第二子网络进行线性插值池化处理，分别得到一个固定尺寸的区域特征图，将每个第一候选区域图像对应的区域特征图作为每个第一候选区域图像对应的局部特征信息。

仅作为示例，若视频帧图像对应的图像特征图的尺寸为19*19*32，则该图像特征图的一个像素对应经调整后的视频帧图像(608*608*3)的一个32*32*3大小的区域。遍历每个第一候选区域图像，将每个第一候选区域图像对应的区域特征向量输入局部表征模型中的第二子网络，将每个第一候选区域图像分割为固定数量(例如3*3)的区域子块，每个区域子块保留浮点数的边界，利用线性插值算法对每个区域子块进行处理，并分别计算每个区域子块映射至图像特征图对应的位置值，得到每个第一候选区域图像对应的区域特征图(例如3*3*32尺寸)，将每个第一候选区域图像对应的区域特征图作为每个第一候选区域图像对应的局部特征信息。

上述实施例，通过局部表征模型中的第一子网络和第二子网络，并结合视频帧图像中每个第一候选区域图像的区域位置信息，使得获取的第一候选区域图像对应的局部特征信息包含更丰富的区域特征信息，提高局部特征信息的特征表征的准确性，进而利于提高后续的视频检测的准确性。

在步骤S207中，基于预设对象库，对所述局部特征信息进行检测，获得所述待检测视频的检测结果。

其中，所述预设对象库中存储至少一种限制性对象对应的对象特征信息，所述对象特征信息通过所述局部表征模型进行处理得到；所述检测结果包括用于指示所述待检测视频是否包括该限制性对象。该限制性对象可以包括例如违规标志、违规图案等至少一种违规内容。

在一可选实施方式中，如图5所示，所述基于预设对象库，对所述局部特征信息进行检测，获得所述待检测视频的检测结果包括：

在步骤S501中，获取预设对象库。

可选地，所述获取预设对象库可以包括：获取包含目标限制性对象的目标图像；对所述目标图像进行区域检测，获得多个第二候选区域图像；调用所述局部表征模型对所述目标图像以及每个第二候选区域图像进行处理，获得每个第二候选区域图像对应的对象特征信息；基于用于指示所述目标图像中目标限制性对象的像素集合，以及每个第二候选区域图像对应的像素集合，从多个第二候选区域图像中确定用于表征所述目标限制性对象的目标候选区域图像；基于所述目标候选区域图像对应的对象特征信息，构建该预设对象库。

在实际应用中，对于包含目标限制性对象的目标图像，可以对目标图像进行区域检测，获得多个第二候选区域图像。接着，调用训练的局部表征模型对所述目标图像以及每个第二候选区域图像进行处理，获得每个第二候选区域图像对应的对象特征信息。示例性的，若经过局部表征模型处理得到的3*3*32的特征图，可以将3*3*32的特征图线性映射至288维的局部表征向量，该局部表征向量用于表征该目标限制性对象的特征信息。之后，计算用于指示所述目标图像中目标限制性对象的像素集合，以及每个第二候选区域图像对应的像素集合之间的像素重叠度，若像素重叠度大于预设重叠度阈值，从多个第二候选区域图像中确定用于表征所述目标限制性对象的目标候选区域图像，则目标限制性对象可以通过该目标候选区域图像对应的对象特征信息进行表示，并将目标候选区域图像对应的对象特征信息加入到预设对象库中，以此类推，构建预设对象库。

由于预设对象库中仅包括目标候选区域图像对应的对象特征信息，添加新增的限制性对象对应的对象特征信息到预设对象库中与局部表征模型的训练过程是相互独立的，故而在存在新的限制性对象的情况下，无需重新训练模型，不仅检测效率高，而且检测扩展性强。

在步骤S503中，计算所述预设对象库中存储的每种限制性对象对应的对象特征信息，与所述局部特征信息的相似度。

可选地，若预设对象库中存储的对象特征信息是特征向量，可以将局部特征信息也进行线性映射至相同维度的特征向量，例如两者均是288维的特征向量。接着，采用通用的相似度计算算法，对调整后的特征向量进行向量相似度计算，得到两者的相似度计算结果。

在步骤S505中，基于相似度计算结果和预设相似度阈值，获得所述待检测视频的检测结果。

在步骤S5051中，从所述相似度计算结果中确定最大相似度值；

在步骤S5053中，在所述最大相似度值大于或等于所述预设相似度阈值的情况下，确定用于指示所述待检测视频包含限制性对象的检测结果。

可选地，以限制性对象为违规标志为例，对于新上传的一个短视频，我们可以每秒抽取1帧，然后对每帧图像执行违规标志的检测操作。具体地，对于一帧图像，首先使用选择搜索算法提取候选区域，然后执行局部表征模型，计算每个候选区域的局部表征向量。每一个候选区域的局部表征向量都跟预设对象库中的违规标志的局部表征向量计算相似度(例如L2距离或者余弦相似度等)，从而得到与该候选区域相似度最高的违规标志。如果最高的相似度大于给定的阈值，即可表示该帧图像检测出违规标志。根据检测的违规标志结果，可以给审核员相应的审核提示。

其中，最高相似度违规标志的计算，可以使用近邻检索算法，由于近邻检索算法的检索速度快，因此违规标志的匹配性能是可以在短时间计算完成。此外，在进行检测过程中，还可以获取各候选区域图像的区域尺寸信息，根据各候选区域图像的尺寸信息来过滤一些区域尺寸信息不满足限制性对象的预设尺寸条件的候选区域图像。以限制性对象为违规标志为例，该预设尺寸条件可以包括预设尺寸范围，根据违规标志的预设尺寸范围，将在图像中不满足该预设尺寸范围的的候选区域图像进行过滤，即可以过滤一些区域尺寸太小或者太大的候选区域图像，如此避免无效的相似度计算操作，提高图像检测的效率。

在一可选实施方式中，如图6和图7所示，所述局部表征模型的训练方法包括：

在步骤S601中，获取训练样本集，所述训练样本集包括多个样本图像、以及每个样本图像中各候选区域样本图像对应的目标样本对象信息。

在一可选实施方式中，所述获取训练样本集包括：

获取多个初始样本图像；

对每个所述样本图像进行区域检测，获得多个所述候选区域样本图像；每个所述候选区域样本图像包括一个目标样本对象；

基于所述多个样本图像、以及各所述候选区域样本图像对应的目标样本对象信息，构建训练样本集。

可选地，对于一张初始样本图像，可以将其尺寸固定缩放到预设图像尺寸，例如将其尺寸固定缩放到高和宽均为608像素。若获取的初始样本图像是长方形，则可以先在尺寸不够的维度(例如宽度或长度)上使用像素值为零进行填充，将其扩展为正方形，即扩展后的初始样本图像的宽度和长度相等。然后，将扩展后的初始样本图像进行图像尺寸调整处理，得到具有预设图像尺寸(例如608*608*3)的多个样本图像。

接着，采用上述相同的区域检测算法对每个样本图像进行区域检测，获得多个候选区域样本图像；每个候选区域样本图像包括一个目标样本对象。每个候选区域样本图像中的图像属性信息至少部分相同。该图像属性信息可以包括但不限于为颜色、纹理、像素值等。示例性的，每个候选区域样本图像的像素点的颜色、纹理等至少一种是一致的，也即获取的各候选区域样本图像对应一个经核验的目标样本对象，该目标样本对象可以是物体、限制性对象(例如违规标志)等。

接着，对每个候选区域样本图像进行像素缩放处理，获得各候选区域样本图像对应的目标样本对象信息。示例性的，可以对每个候选区域样本图像进行像素缩放处理，例如将每个候选区域样本图像中的目标样本对象，在宽度维度和长度维度进行像素等比例缩放，得到目标图像，缩放后的每个目标图像的图像尺寸是相同的，可以将该目标图像作为各候选区域样本图像对应的目标样本对象信息，从而基于多个样本图像、以及各候选区域样本图像对应的目标样本对象信息，构建得到训练样本集。

需要说明的是，在进行像素缩放时，仅针对每个候选区域框内的目标样本对象对应的目标像素集合进行像素缩放，对候选区域样本图像中的其他不在该目标像素集合内的像素，可以填充为零。

可选地，在进行像素缩放时，需保证每个候选区域缩放后不失真，例如缩放后的目标图像的图像尺寸为96*96*3，其中“96*96”是目标图像的像素尺寸，“3”是分别对应RG B通道。而候选区域样本图像是长方形，则可以先在尺寸不够的维度(例如宽度或长度)上使用像素值为零进行填充，将其扩展为正方形，即扩展后的候选区域样本图像的宽度和长度相等，接着再针对扩展后的候选区域样本图像进行该像素缩放处理。

上述实施例，通过对获取的每个初始样本图像进行图像尺寸调整和区域检测，获得多个候选区域样本图像；每个候选区域样本图像包括一个目标样本对象；对每个候选区域样本图像进行像素缩放处理，获得各候选区域样本图像对应的目标样本对象信息；以基于多个样本图像、以及各候选区域样本图像对应的目标样本对象信息，构建训练样本集。如此，通过提前对训练样本集中的样本图像进行处理，减少后续训练过程中对训练样本集的计算量，提高模型训练效率。

在步骤S603中，调用初始局部表征模型中的第一子网络对每个样本图像进行处理，获得每个所述样本图像对应的图像样本特征图。

可选地，在训练阶段，可以通过深度学习网络(例如VGG、Resnet等)，为每个样本图像计算出一张图像样本特征图。示例性的，图像样本特征图的尺寸可以是19*19*32，其中，19*19是图像样本特征图的尺寸，32是图像样本特征图的通道数。

在步骤S605中，调用所述初始局部表征模型中的第二子网络，将所述候选区域样本图像映射至所述图像样本特征图，获得每个所述候选区域样本图像对应的局部样本特征信息。

可选地，由于一张样本图像上存在较多的候选区域，训练时我们针对一张图像随机挑选32个候选区域，作为一个批次(Batch)，作为神经网络中每次权重更新使用的样本。对于一个批次的每个候选区域，我们将其映射到特征图上。这里特征图(19*19*32)的一个像素对应输入图像(608*608*3)的32*32*3的区域，然后计算出该候选区域的特征向量(3*3*32)。

在步骤S607中，调用区域还原网络，对每个所述候选区域样本图像对应的局部样本特征信息进行处理，获得每个所述候选区域样本图像对应的目标局部样本特征信息；所述目标局部样本特征信息与所述目标样本对象信息对应的图像像素尺寸相同。

可选地，将每个候选区域样本图像对应的局部样本特征信息输入至区域还原网络，通过该区域还原网络将每个候选区域样本图像对应的局部样本特征信息进行信息还原，使得还原后所得的目标局部样本特征信息与目标样本对象信息对应的图像像素尺寸相同。

示例性的，如图7所示，该区域还原网络可以包括若6个卷积层和5个上采样层，其中，每个卷积层的卷积核的大小为3*3，输出通道为256；每个上采样层的采样比例为放大2倍，输出通道为256。通过该区域还原网络实现上采样处理，将尺寸为3*3*32的局部样本特征信息放大32倍后，得到尺寸为96*96*3的特征图，将该特征图作为对应的目标局部样本特征信息，还原后所得的目标局部样本特征信息与目标样本对象信息对应的图像像素尺寸均为96*96*3，其中“96*96”是图像的像素尺寸，“3”是分别对应RGB通道。如此便于学习局部样本特征信息与每个候选区域样本图像的映射关系，使得该局部样本特征信息能够表征候选区域的目标样本对象的基本信息(颜色、纹理、比例等)。

在步骤S609中，基于所述目标局部样本特征信息与对应的所述目标样本对象信息，确定目标损失。

可选地，由于目标局部样本特征信息与对应的所述目标样本对象信息对应的图像像素尺寸相同，可以目标局部样本特征信息对应的特征图与目标样本对象信息对应的图像，分别在RGB三个通道上对应的图像上，可以将计算得到的像素维度的误差作为目标损失。示例性的，可以计算各图对应位置的像素点的像素值的均方误差，将这三个通道上各像素点对应的均分误差的和值，作为目标损失Loss。

在步骤S611中，基于所述目标损失对所述初始局部表征模型和所述区域还原网络进行训练，得到所述局部表征模型。

可选地，在确定了目标损失之后，可以利用该目标损失进行反向传播，对初始局部表征模型和区域还原网络进行训练，直至达到训练结束条件，将训练结束的初始局部表征模型，作为该局部表征模型。

上述实施例，调用初始局部表征模型中的第一子网络对每个样本图像进行处理，获得每个所述样本图像对应的图像样本特征图；并调用初始局部表征模型中的第二子网络，将候选区域样本图像映射至所述图像样本特征图，获得每个候选区域样本图像对应的局部样本特征信息；再调用区域还原网络，对每个候选区域样本图像对应的局部样本特征信息进行处理，获得每个候选区域样本图像对应的目标局部样本特征信息；该目标局部样本特征信息与目标样本对象信息对应的图像像素尺寸相同，并基于目标局部样本特征信息与对应的目标样本对象信息所确定的目标损失来进行模型训练。便于学习局部样本特征信息与每个候选区域样本图像的映射关系，使得该局部样本特征信息能够表征候选区域的目标样本对象的基本信息(颜色、纹理、比例等)，提高模型训练效率和模型预测结果的准确性，进而提高视频检测准确性。

本公开实施例通过从待检测视频中获取至少一个视频帧图像；对所述视频帧图像进行区域检测，获得多个第一候选区域图像；调用局部表征模型对所述视频帧图像以及每个第一候选区域图像进行处理，获得每个第一候选区域图像对应的局部特征信息；基于预设对象库，对所述局部特征信息进行检测，获得所述待检测视频的检测结果；所述预设对象库中存储至少一种限制性对象对应的对象特征信息，所述对象特征信息通过所述局部表征模型进行处理得到；所述检测结果包括用于指示所述待检测视频是否包括限制性对象。由于结合预设对象库和局部表征模型所处理得到的每个候选区域图像对应的局部特征信息进行视频检测，该局部特征信息具有尺寸和旋转不变性，捕获了视频帧图像中的待检测对象的基本属性，视频检测耗时少，检测可靠性高，同时针对新的限制性内容，无需更新局部表征模型，检测具有可扩展性。

图8是根据一示例性实施例示出的一种视频检测装置框图。参照图8，该装置应用于第一服务节点，包括：

第一获取模块810，被配置为执行从待检测视频中获取至少一个视频帧图像；

第二获取模块820，被配置为执行对所述视频帧图像进行区域检测，获得多个第一候选区域图像；每个所述第一候选区域图像包括一个候选对象；

第三获取模块830，被配置为执行调用局部表征模型对所述视频帧图像以及每个所述第一候选区域图像进行处理，获得每个第一候选区域图像对应的局部特征信息；

检测模块840，被配置为执行基于预设对象库，对所述局部特征信息进行检测，获得所述待检测视频的检测结果；所述预设对象库中存储至少一种限制性对象对应的对象特征信息，所述对象特征信息通过所述局部表征模型进行处理得到；所述检测结果包括用于指示所述待检测视频是否包括所述限制性对象。

在一可选实施方式中，所述第二获取模块包括：

在一可选实施方式中，所述检测模块包括：

第四获取子模块，被配置为执行获取预设对象库；

在一可选实施方式中，所述检测子模块包括：

获取包含目标限制性对象的目标图像；

在一可选实施方式中，所述装置还包括：

获取多个初始样本图像；

关于上述实施例中的方法，其中各步骤的具体方式已经在前述方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图9是根据一示例性实施例示出的一种电子设备的框图。参照图9，电子设备包括处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为执行存储器上所存放的指令时，实现上述实施例中任一视频检测方法的步骤。

该电子设备可以终端、服务器或者类似的运算装置，以该电子设备是服务器为例，图9是根据一示例性实施例示出的一种用于推荐内容确定或推荐的电子设备的框图，该电子设备1000可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Processing Units，CPU)1010(处理器1010可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1030，一个或一个以上存储应用程序1023或数据1022的存储介质1020(例如一个或一个以上海量存储设备)。其中，存储器1030和存储介质1020可以是短暂存储或持久存储。存储在存储介质1020的程序可以包括一个或一个以上模块，每个模块可以包括对电子设备中的一系列指令操作。更进一步地，中央处理器1010可以设置为与存储介质1020通信，在电子设备1000上执行存储介质1020中的一系列指令操作。

电子设备1000还可以包括一个或一个以上电源1060，一个或一个以上有线或无线网络接口1050，一个或一个以上输入输出接口1040，和/或，一个或一个以上操作系统1021，例如Windows Server，Mac OS X，Unix,Linux，FreeBSD等等。

输入输出接口1040可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括电子设备1000的通信供应商提供的无线网络。在一个实例中，输入输出接口1040包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个示例性实施例中，输入输出接口1040可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

本领域普通技术人员可以理解，图9所示的结构仅为示意，其并不对上述电子设备的结构造成限定。例如，电子设备1000还可包括比图9中所示更多或者更少的组件，或者具有与图9所示不同的配置。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器，上述指令可由电子设备1000的处理器执行以完成上述方法。可选地，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机存储介质，当计算机存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述任一种实施方式中提供的方法的步骤。

在示例性实施例中，还提供了一种计算机程序产品，该计算机程序产品包括计算机程序/指令，该所述计算机程序/指令被处理器执行时实现上述任一种实施方式中提供的方法。可选地，该计算机程序存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得该电子设备执行上述任一种实施方式中提供的方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频检测方法，其特征在于，包括：

从待检测视频中获取至少一个视频帧图像；

2.根据权利要求1所述的方法，其特征在于，所述对所述视频帧图像进行区域检测，获得多个第一候选区域图像包括：

3.根据权利要求1所述的方法，其特征在于，所述局部表征模型包括第一子网络和第二子网络，所述调用局部表征模型对所述视频帧图像以及每个第一候选区域图像进行处理，获得每个第一候选区域图像对应的局部特征信息包括：

4.根据权利要求1所述的方法，其特征在于，所述基于预设对象库，对所述局部特征信息进行检测，获得所述待检测视频的检测结果包括：

获取预设对象库；

5.根据权利要求4所述的方法，其特征在于，所述基于相似度计算结果和预设相似度阈值，获得所述待检测视频的检测结果包括：

从所述相似度计算结果中确定最大相似度值；

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取包含目标限制性对象的目标图像；

7.一种视频检测装置，其特征在于，包括：

8.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的视频检测方法。

9.一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至6中任一项所述的视频检测方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的视频检测方法。