CN105844238A

CN105844238A - 视频鉴别方法及系统

Info

Publication number: CN105844238A
Application number: CN201610168258.1A
Authority: CN
Inventors: 刘阳; 白茂生; 魏伟; 李兴玉
Original assignee: LeTV Cloud Computing Co Ltd
Current assignee: LeTV Cloud Computing Co Ltd
Priority date: 2016-03-23
Filing date: 2016-03-23
Publication date: 2016-08-10
Also published as: WO2017161756A1

Abstract

本发明提供一种视频鉴别方法，包括：对已知类型的多幅图像进行预处理，所述预处理至少包括数据增广；将预处理后的多幅图像输入到卷积神经网络中利用鉴别模型进行类型鉴别训练，根据类型鉴别结果和所述已知类型优化所述鉴别模型；获取待鉴别图像；利用所述卷积神经网络中的优化后的鉴别模型对所述多幅待鉴别图像进行鉴别。本发明还提供一种视频鉴别系统。本发明通过增广的鉴别训练，增强了卷积神经网络的模型的泛化能力；通过将视频处理成图像，利用卷积神经网络进行鉴别，提高了视频鉴别的准确率和速度。

Description

视频鉴别方法及系统

技术领域

本发明实施例涉及信息安全技术领域，尤其涉及一种视频鉴别方法及系统。

背景技术

随着计算机硬件及互联网大数据的快速发展，互联网中视频数量呈现出爆炸式增长的态势。这其中存在着大量冗余、重复、侵犯知识产权、血腥、暴力、恐怖或淫秽等非法视频内容。

目前，人们可以利用计算机替代人类完成一些视觉识别任务。例如人们可以利用计算机完成监控系统的智能监视，还可以利用计算机完成视频内容的识别与审核等。通常，利用计算机替代人类完成视频鉴别和审核需要创建复杂的计算模型，进行大批量数据的运算。由于创建的计算模型不佳和运算误差累积，这会导致计算机识别错误或者识别缓慢的情况出现，无法满足人们对精确度和及时性的要求。

发明内容

本发明实施例提供一种视频鉴别方法及系统，用以解决现有技术中识别准确度低，容错能力和泛化能力差等问题。

本发明实施例提供一种视频鉴别方法，该方法包括：

对已知类型的多幅图像进行预处理，所述预处理至少包括数据增广；

将预处理后的多幅图像输入到卷积神经网络中利用鉴别模型进行类型鉴别训练，根据类型鉴别结果和所述已知类型优化所述鉴别模型；

获取多幅待鉴别图像；

利用所述卷积神经网络中的优化后的鉴别模型对所述多幅待鉴别图像进行鉴别。

本发明实施例提供一种视频鉴别系统，该系统包括：

图像预处理单元，用于对已知类型的多幅图像进行预处理，所述预处理至少包括数据增广；

图像鉴别训练单元，用于将预处理后的图像输入到卷积神经网络中利用鉴别模型进行类型鉴别训练，根据类型鉴别结果和所述已知类型优化所述鉴别模型；

待鉴别图像获取单元，用于获取多幅待鉴别图像；

图像鉴别单元，用于利用所述卷积神经网络中的优化后的鉴别模型对所述多幅待鉴别图像进行鉴别。

由于卷积神经网络存在自己学习的功能，随着其泛化能力的增强，利用深层次的神经网络进行目标的识别与分类的精度也会随之不断的增强，因此，本发明将卷神经网络作为识别的主要工具，通过增广的图像鉴别训练，增强了卷积神经网络的模型的泛化能力。相比于传统的复杂的计算识别模型来说，卷积神经网络及其模型运用起来更加简单高效。同时通过利用上述优化后的卷积神经网络进行鉴别，提高了视频鉴别的准确率和速度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为根据本发明一个实施例的视频鉴别方法流程图；

图2为根据本发明一个实施例的获取多幅待鉴别图像流程图；

图3(a)为根据本发明一个实施例的数据增广过程中图像旋转45度、裁剪和放大处理的示意图；

图3(b)为根据本发明一个实施例的将一幅图像增广为八幅图像的示意图；

图4为根据本发明一个实施例的生成低亮度图像的流程图；

图5为根据本发明一个实施例的获取多幅待鉴别图像的流程图；

图6为根据本发明一个实施例的视频鉴别系统结构示意图；

图7为根据本发明一个实施例的待鉴别图像生成单元的结构图。

具体实施例

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，视频鉴别方法可以包括如下步骤：

步骤11：对已知类型的多幅图像进行预处理，所述预处理至少包括数据增广；

步骤12：将预处理后的多幅图像输入到卷积神经网络中利用鉴别模型进行类型鉴别训练，根据类型鉴别结果和所述已知类型优化所述鉴别模型；

步骤13：获取多幅待鉴别图像，其中，待鉴别图像的幅数可以按实际情况确定为一幅或者多幅；

步骤14：利用所述卷积神经网络中的优化后的鉴别模型对所述待鉴别图像进行鉴别。

本实施例可以用于鉴别冗余、重复、侵犯知识产权、血腥、暴力、恐怖或淫秽等非法视频内容。

如图2所示，获取待鉴别图像(即图1中步骤13)可以包括：

步骤131：提取待鉴别视频中的第一数量的关键图像帧；

步骤132：将所述第一数量(例如X1)与设定的阈值(例如Y)进行比较，确定第二数量(例如X2)的关键图像帧；

步骤133：对所述第二数量的关键图像帧进行解码，生成一系列图像；

步骤134：基于所述一系列图像进行归一化处理以生成多幅待鉴别图像。

为了使卷积神经网络能够应对视频的鉴别任务，本发明实施例通过提取视频的一定数量的关键图像帧，并对关键图像帧的数量设定阈值，满足条件的视频图像帧才进行解码和后续的鉴别。本发明实施例在保证了图像帧质量(关键帧)的前提下，减少图像帧的数量，降低的数据运算量，减少了数据运算时间，降低了处理器的运算负荷，使得硬件成本较低的配置也能承担视频鉴别的任务。

在一些实施例中，视频鉴别方法可以包括：

步骤11’：获取待鉴别图像；

步骤12’：将预处理后的图像批量输入到卷积神经网络中利用鉴别模型进行鉴别，并根据鉴别结果更新鉴别模型；

步骤13’：利用更新后的鉴别模型进行下一轮待鉴别视频的鉴别。

在一些实施例中，获取待鉴别图像(步骤11’)可以包括：

步骤111’：提取待鉴别视频中的第一数量的关键图像帧；

步骤112’：将所述第一数量与设定的阈值进行比较，确定第二数量的关键图像帧；

步骤113’：对所述第二数量的关键图像帧进行解码，生成一系列图像；

步骤114’：对所述一系列图像进行预处理，所述预处理包括数据增广和逐图像均值消减。

由此，本实施例可以增强鉴别模型的不断的自我学习、自我更新，可以进一步提高后期的鉴别准确度。

为了提高卷积神经网络中鉴别模型的泛化能力，对鉴别模型进行训练，从而增加图片识别的精度，本实施例对图片进行了有效的数据增广。数据增广例如包括旋转、随机裁剪、缩放或颜色抖动等。其中，申请人发现，等角度旋转相比于水平及垂直方向上的翻转而言，泛化能力和准确性更强。

为了能够形象的体现图像的方向且说理简单，下面在图3(a)和图3(b)中以竖直向上的箭头的图像1为例，具体说明对该图像进行数据增广的实现方式。

如图3(a)所示，首先将图像1(其尺寸与显示频的尺寸相匹配)顺时针旋转45度得到图像a。显然，图像a的尺寸与显示屏不再匹配。为了将图像a的尺寸统一为与显示屏相匹配的尺寸，且最大限度的保护信息的完整性，本实施例在图像a中裁剪出图像b，然后，再将图像b放大为图像2。

由此，本实施例通过旋转、裁剪和放大处理，将图像1增广为图像2，且有效的保存了有效信息(通常屏幕中间的信息是有效信息，例如竖直向上的箭头)。

同理，如图3(b)所示，将图2顺时针旋转45度，再通过上述的裁剪和放大处理后，可以将图像1增广为图像3。当然也可以直接将图像1顺时针旋转90度后，再通过裁剪和放大处理，将图像1增广为图像3。

本实施例使用等角度旋转、裁剪和缩放的方式，对原始关键图像(图像1)逆时针或者顺时针每次旋转45度，在完成一周360度的旋转处理后，可以分别得到图像2、图像3、图像4、图像5、图像6、图像7和图像8。此时，一张原始图像，就可以变成了八张图像，大幅度增加了图像的数据量，增强了模型的泛化能力，进而提高了卷积神经网络训练模型的准确度。

本实施例可以对卷积神经网络模型进行训练，以增强其泛化能力和鲁棒性。再利用训练之后的模型对图像进行批量识别，可以提高视频鉴别的准确率，并能加快了视频鉴别速度。

在本实施例中，对卷积神经网络模型进行训练可以采用数据增广的方式(该数据增广的操作也可以在训练之前完成)。数据增广方式可以包括等角度旋转、裁剪和缩放等。

其中，为了进一步提高卷积神经网络训练模型的泛化能力，可以通过减小旋转角度来增加增广的数据量。例如，将角度由45度调整为10度，这样一张原始图像，之前只能增广为8幅图像，而现在却能增广为36幅图像，这样可以增加数据量，提高卷积神经网络训练模型的泛化能力，进而会提高后期图像识别的精度，但是这样做会增加数据运算量，导致训练的时间增长。

同理，可以通过增大旋转角度来减少增广的数据量。例如，将角度由45度调整为90度，这样一张原始图像，之前可以增广为8幅图像，而现在却只能增广为4幅图像，虽然训练的速度会有所提高，但这会影响卷积神经网络训练模型的泛化能力，进而会影响后期视频鉴别的准确度。

由此，经过大量的试验数据证明，旋转的角度为45度时，训练的时间和视频鉴别的精度会达到相对平衡的优化效果。

图4为根据本发明一个实施例的生成低亮度图像的流程图。数据增广还包括图像亮度处理，本实施例中，针对需要鉴别视频中是否包含色情内容的要求，可以在训练样本(即已知类型的图像，例如针对色情内容，训练样本就是色情图片)中，人为增加一些亮度较低的样本图像(由于关于色情的视频内容通常在昏暗的环境下，所以图像的亮度较低)。亮度较低的样本图像是由现有样本的副本通过降低图像的亮度处理生成的。如图4所示，图像亮度处理包括：

步骤41：获取多幅图像的每幅图像像素的灰度值ga(i)，(i＝1、2、3…n)。

例如，10幅图像通过45度等角度旋转后可以形成80幅图像。统计第1至80幅图像的灰度值ga(1)、ga(2)……ga(80)。

步骤42：根据多幅图像的每幅图像像素的灰度值，确定多幅图像的灰度均值ga。

步骤43：将所述各个灰度值分别与所述灰度均值进行比较，当存在某一灰度值大于所述灰度均值时，针对所述某一灰度值所对应的图像，生成亮度较低的图像副本。

具体的，确定所有图像(例如80幅)的灰度均值ga的计算公式可以如下：

g a = \frac{1}{n} Σ_{i = 0}^{n - 1} 0.299 * R_{i} + 0.587 * G_{i} + 0.114 * B_{i}

其中，n是样本图像总数，Ri、Gi、Bi分别为当前样本图像r、g、b分量值。其中Ri、Gi、Bi为二维矩阵，其大小分别对应图像的长和宽。需要分别对矩阵的每个元素进行处理，即对图像的每个像素点进行处理。

在本实施例中，图像变换公式如下所示：

\{\begin{matrix} R_{i} = 255 * {(\frac{R_{i}}{255})}^{2} \\ G_{i} = 255 * {(\frac{G_{i}}{255})}^{2} \\ B_{i} = 255 * {(\frac{B_{i}}{255})}^{2} \end{matrix}

经过上述处理后，增加了与亮度较高的图像样本对应的亮度低的样本，一方面丰富了样本总数，另一方面也增加了卷积神经网络最终模型的泛化能力和鲁棒性，提高了后期的视频鉴别的准确度。

当然，上述方法还可以根据所有图像像素点的灰度值来先统计所有图像的灰度均值，然后再计算各个图像的灰度均值，也可以达到本发明的目的，只是，运算时间比上述方式要长。

在一些实施例中，预处理还包括：逐图像均值消减(例如对图像的R、G和B的数值进行消减)或者利用颜色抖动(color jitter)的方法对图像做进一步预处理。这样做便于数据加工和处理(可以是归一化数据处理方式)，加快视频鉴别的速度。

如图5所示，本实施例的提取待鉴别视频中的第一数量的关键图像帧的步骤(即图2中步骤131)可以包括如下步骤：

步骤1311：提取待鉴别视频的多幅图像帧。

步骤1312：从多幅图像帧中筛选出第一数量的关键图像帧。

本实施例中的视频是由一系列图像帧组成。如果视频帧率为25fps，那么每秒钟的视频就有25张图片。如果视频时长很长，那么该视频包含的图像帧的数量就会非常巨大。本实施例通过从提取的待鉴别视频的多幅图像帧中筛选出第一数量的关键图像帧(包含完整、清晰的图像信息)，使得筛选出的关键图像帧不仅能够很好的适用于检测任务，提高检测准确度，减少检测时间，而且便于后续的图像鉴别处理。

具体的，在一些实施例中，为了控制关键帧数量，防止一些全I帧(MPEG编码中的内部编码帧，代表一个完整的画面)的视频含有过多的关键帧影响检测速度，本实施例限制了最大关键帧数量。为了提高视频鉴别的精度和减少鉴别的时间，本发明实施例参考大量的实验数据(例如鉴别速度和鉴别时间)，阈值Y优选为5000。

具体的，如果本实施例中的X1取值1000时，此时X1≤Y，说明X1没有超出阈值范围，那么，X2的值也取1000，此时，可以对提取的待鉴别视频中的1000张的关键图像帧进行全部解码。

如果X1取值为20000时，此时X1>Y时，说明X1已经超出阈值范围，这会影响视频审核的速度。因此，确定X2为X1的N分之一，以使所述第二数量小于或者等于所述阈值，其中，N为大于或者等于二的整数。N在具体取值时，可以按运算的精度或者时间要求，进行自定义。例如，N取10时，只需要对待鉴别视频中的20000张的关键图像帧中的2000张图像帧进行解码。

由此，本实施例通过设定阈值，对需要解码的关键图像帧进行数量控制，在尽量多的提取样本(关键图像帧)的前提下，防止因样本数量增多带来的鉴别速度下降的问题。当然，如果硬件配置较高，处理器运算速度较快时，可以将阈值设置得足够大，以提高视频鉴别准确度。

在一些实施例中，归一化处理包括对所述一系列图像进行逐图像均值消减。

在一些实施例中，可以通过将解码的图像进行缓存，然后对批量的图像进行并行检测，来提高了视频检测的速度。

具体的，在进行批量检测时，首先提取视频一定数量(batch_size)的关键帧、之后将这批关键帧送入卷积神经网络模型进行检测。在检测的同时，多线程并行地准备下一批关键帧，这样可以大幅度节省时间。此外，当最后一批关键帧数量不足时(即最后一批关键帧数量小于batch_size时)，不足的部分可以用纯黑色图像补齐。

如图6所示，视频鉴别系统可以包括：图像预处理单元、图像鉴别训练单元、待鉴别图像获取单元和图像鉴别单元。其中：

图像预处理单元用于对已知类型的多幅图像进行预处理，所述预处理至少包括数据增广。

图像鉴别训练单元用于将预处理后的图像输入到卷积神经网络中利用鉴别模型进行类型鉴别训练，根据类型鉴别结果和所述已知类型优化所述鉴别模型。

待鉴别图像获取单元用于获取多幅待鉴别图像。

图像鉴别单元用于利用所述卷积神经网络中的优化后的鉴别模型对所述多幅待鉴别图像进行鉴别。

在一些实施例中，所述待鉴别图像获取单元可以包括：关键图像帧提取模块、关键图像帧确定模块、图像解码模块和待鉴别图像生成模块。其中：

关键图像帧提取模块用于提取待鉴别视频中的第一数量的关键图像帧。

关键图像帧确定模块用于将所述第一数量与设定的阈值进行比较，确定第二数量的关键图像帧。

图像解码模块用于对所述第二数量的关键图像帧进行解码，生成一系列图像。

待鉴别图像生成模块用于基于所述一系列图像进行归一化处理以生成待鉴别图像。

在一些实施例中，所述数据增广至少包括：等角度旋转，较佳的，所述等角度为45度。

在一些实施例中，所述数据增广还包括图像亮度处理，所述图像亮度处理包括：

获取所述多幅图像的每幅图像像素的灰度值；

根据所述多幅图像的每幅图像像素的灰度值，确定所述多幅图像的灰度均值；

将所述各个灰度值分别与所述灰度均值进行比较，当存在某一灰度值大于所述灰度均值时，针对所述某一灰度值所对应的图像，生成亮度较低的图像副本。

在一些实施例中，所述预处理还包括逐图像均值消减。

在一些实施例中，关键图像帧提取单元用于提取待鉴别视频的多幅图像帧；以及从所述多幅图像帧中筛选出第一数量的关键图像帧。

在一些实施例中，关键图像帧确定单元用于：

当所述比较模块判定所述第一数量小于或者等于设定的阈值时，所述确定模块确定第二数量为第一数量；以及

当所述比较模块判定所述第一数量大于设定的阈值时，所述确定模块确定第二数量为第一数量的N分之一，以使所述第二数量小于或者等于所述阈值，其中，N为大于或者等于二的整数。

在一些实施例中，归一化处理包括逐图像均值消减。

由于上述实施例的视频鉴别系统与视频鉴别方法的功能相对应，在此，不再赘述视频鉴别系统与视频鉴别方法相关的内容。本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施例的描述，本领域的技术人员可以清楚地了解到各实施例可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种视频鉴别方法，包括：

获取待鉴别图像；

利用所述卷积神经网络中的优化后的鉴别模型对所述待鉴别图像进行鉴别。

2.根据权利要求1所述的方法，其中，所述数据增广至少包括：等角度旋转。

3.根据权利要求2所述的方法，其中，所述等角度为45度。

4.根据权利要求2所述的方法，其中，所述数据增广还包括图像亮度处理，所述图像亮度处理包括：

获取所述多幅图像的每幅图像像素的灰度值；

5.根据权利要求1所述的方法，其中，所述预处理还包括：逐图像均值消减。

6.根据权利要求1-5中任一项所述的方法，其中，所述获取多幅待鉴别图像包括：

提取待鉴别视频中的第一数量的关键图像帧；

将所述第一数量与设定的阈值进行比较，确定第二数量的关键图像帧；

对所述第二数量的关键图像帧进行解码，生成一系列图像；

基于所述一系列图像进行归一化处理以生成多幅待鉴别图像。

7.根据权利要求6所述的方法，其中，所述提取待鉴别视频中的第一数量的关键图像帧包括：

提取待鉴别视频的多幅图像帧；

从所述多幅图像帧中筛选出第一数量的关键图像帧。

8.根据权利要求6所述的方法，其中，所述将所述第一数量与设定的阈值进行比较，确定第二数量的关键图像帧包括：

当所述第一数量小于或者等于设定的阈值时，确定第二数量为第一数量；

当所述第一数量大于设定的阈值时，确定第二数量为第一数量的N分之一，以使所述第二数量小于或者等于所述阈值，其中，N为大于或者等于二的整数。

9.根据权利要求6所述的方法，其中，所述归一化处理包括：逐图像均值消减。

10.一种视频鉴别系统，包括：

待鉴别图像获取单元，用于获取待鉴别图像；

图像鉴别单元，用于利用所述卷积神经网络中的优化后的鉴别模型对所述待鉴别图像进行鉴别。

11.根据权利要求10所述的系统，其中，所述数据增广至少包括：等角度旋转。

12.根据权利要求11所述的系统，其中，所述等角度为45度。

13.根据权利要求11所述的系统，其中，所述数据增广还包括图像亮度处理，所述图像亮度处理包括：

获取所述多幅图像的每幅图像像素的灰度值；

14.根据权利要求10所述的系统，其中，所述预处理还包括：逐图像均值消减。

15.根据权利要求10-14中任一项所述的系统，其中，所述待鉴别图像获取单元包括：

关键图像帧提取模块，用于提取待鉴别视频中的第一数量的关键图像帧；

关键图像帧确定模块，用于将所述第一数量与设定的阈值进行比较，确定第二数量的关键图像帧；

图像解码模块，用于对所述第二数量的关键图像帧进行解码，生成一系列图像；

待鉴别图像生成模块，用于基于所述一系列图像进行归一化处理以生成待鉴别图像。

16.根据权利要求15所述的系统，其中，所述关键图像帧提取单元用于：

提取待鉴别视频的多幅图像帧；以及

从所述多幅图像帧中筛选出第一数量的关键图像帧。

17.根据权利要求15所述的系统，其中，所述关键图像帧确定单元用于：

18.根据权利要求15所述的系统，其中，所述归一化处理包括：逐图像均值消减。