CN113505680B

CN113505680B - 基于内容的高时长复杂场景视频不良内容检测方法

Info

Publication number: CN113505680B
Application number: CN202110747446.0A
Authority: CN
Inventors: 赵宏; 王奡隆; 张陈鹏; 党育; 杨策; 赵凡; 胡质彬; 倪志敏
Original assignee: Lanzhou University of Technology
Current assignee: Lanzhou University of Technology
Priority date: 2021-07-02
Filing date: 2021-07-02
Publication date: 2022-07-15
Anticipated expiration: 2041-07-02
Also published as: CN113505680A

Abstract

本发明公开了基于内容的高时长复杂场景视频不良内容检测方法，包括步骤：构造高低分辨率特征图融合单元模块，构造多分辨率图像预处理网络；将视频数据进行标注后处理为合适的训练格式；搭建低延迟复杂场景分割网络；使用处理后的视频数据集进行训练，得到低延迟复杂场景分割模型；使用低延迟复杂场景分割模型和双进程调度方案，对视频进行视频缩略和重点位置标注；构建时域和空间域分离进行卷积的S3D‑G网络；训练得到视频分类网络模型；将处理后的缩略视频输入视频分类网络模型中进行视频分类。本发明克服了现有技术中处理高分辨率复杂场景变化的长视频效率低下、对硬件要求高、延迟高的弊端。

Description

基于内容的高时长复杂场景视频不良内容检测方法

技术领域

本发明涉及视频内容审核方法，尤其涉及基于内容的高时长复杂场景视频不良内容检测方法。

背景技术

互联网技术和自媒体的快速发展给人们的工作和生活带来了诸多便利，然而，网络视频资源共享为人们提供便利的同时，一些恐暴、色情等不良视频严重危害青少年的身心健康。我国《宪法》《未成年人保护法》等对不良视频内容明文禁止。这使得视频审核技术成为了各大视频网站不可或缺的一种重要技术，引起了广泛关注。

现有的视频审核方法多采用人工方法，而视频审核员在审核时往往效率低下。而一些无需人工介入的智能识别方法，如传统血腥检测方法，或神经网络等深度学习方法，却多用于短视频。这是因为短视频往往具有低分辨率，短时长等特点，这些特点使得传统方法特别适用于短视频，却难以适用于自然拍摄的长视频。

然而很多暴力，血腥的场面，如车祸现场，往往多见于百万像素甚至更高分辨率，超过30分钟的高时长自然视频中，而非短视频。如1000×1000像素，时长大于30分钟的街道摄像头拍摄的街景视频，或监控视频。在这种场景下，现有的视频审核方法用时极长，消耗计算资源巨大，难以进行。

发明内容

为克服现有百万级别分辨率，时长大于30分钟的，含有复杂场景变化的视频审核方法高度依赖人工，用时长，消耗计算资源巨大等不足，本发明提出基于内容的高时长复杂场景视频不良内容检测方法，进行高效地智能地审核。

本发明的技术方案是这样实现的，基于内容的高时长复杂场景视频不良内容检测方法，包括步骤：

S1：构造高低分辨率特征图融合单元模块，使用所述高低分辨率特征图融合单元模块构造多分辨率图像预处理网络；

S2：将百万像素级视频数据进行标注，输入所述多分辨率图像预处理网络，处理为合适的训练格式；

S3：搭建低延迟复杂场景分割网络，所述低延迟复杂场景分割网络包括基础网络、关键帧选取模块和特征传播模块，其中所述基础网络使用经过预训练的ResNet-101，所述特征传播模块包括权值预测器模块和随空间变化的卷积方法；

S4：使用步骤S2中处理后的视频数据集对所述低延迟复杂场景分割网络进行训练，得到低延迟复杂场景分割模型；

S5：使用所述低延迟复杂场景分割模型和双进程调度方案，对百万级别分辨率、时长大于30分钟且含有复杂场景变化的视频进行视频缩略和重点位置标注；

S6：构建时域和空间域分离进行卷积的S3D-G网络；

S7：使用数据集对所述时域和空间域分离进行卷积的S3D-G网络进行训练，得到视频分类网络模型；

S8：将步骤S5处理后的缩略视频输入所述视频分类网络模型中进行视频分类。

进一步地，步骤S1中所述多分辨率图像预处理网络的构造包括步骤:

S11：构造高低分辨率特征图融合单元模块，所述高低分辨率特征图融合单元模块需要2个输入：特征映射1，用F₁表示，特征映射2，用F₂表示；所述高低分辨率特征图融合单元模块内部包含一个上采样模块，一个膨胀卷积模块，两个批处理归一化层，一个求和层和一个Relu层；

S12：构造多分辨率图像预处理网络。

进一步地，步骤S3中所述的低延迟复杂场景分割网络的搭建包括步骤:

S31：基础网络的搭建，基础网络使用经过预训练的ResNet-101，网络从帧中提取视觉特征，将模型分为了两部分，下部和上部，其中下部用S_L表示，上部用S_H表示，来自S_L的低级特性用于选择关键帧和控制高级特性的传播方式；

S32：关键帧选取模块的搭建，对于每个时间步骤T，即一个新的帧，卷积神经网络较低部分的层S_L首先计算低层特征F_L ^T，基于每个之前关键帧的较低层特征F_L ^K和F_L ^T，框架会决定是否设置I^T为一个新的关键帧，这取决于此帧与前一个关键帧的偏离程度，如果偏离程度小，说明这是一个重复帧，如果偏离程度大，则这是一个关键帧，通过利用较低层特征来推断一个新帧是否为关键帧，不论其是否为关键帧，都计算其高层特征，特别地，当新帧不被认定为关键帧时，通过之前的关键帧，使用随空间变化的卷积方式来得到当前帧的高层特征，而不是通过其高层部分直接计算其高层特征，初始化此算法的方式是通过给定第一帧的高层和低层特征，在之后的每个时间T，都会自动计算；

S33：特征传播模块的搭建，设计一个卷积核权重预测器，同时接受两帧的低层特征F_L ^T，其由神经网络较低部分的层S_L计算得出，然后在所有位置产生卷积核，其由三个卷积层和Relu层交叉在一起，所述卷积核权重预测器的输出结果是H_K ²×H×K，其中H和K是帧的长宽，而H_K ²会被变形为H_K×H_K，经过一个Softmax层之后变成卷积核的标准化权重，经过Softmax是为了让每一个卷积核的权重之和为1。

进一步地，步骤S5中所述的使用低延迟复杂场景分割模型和双进程调度方案，包含步骤：

S51：双进程调度方案的使用，推断一帧为关键帧之后，再计算后面的帧的高层特征时，使用两个进程，进程一通过特征传播来计算高层特征，而后台进程二使用此帧I^T自身特征，从基础网络下部S_L到上部S_H，逐层传播计算高层特征；

S52：视频缩略和重点位置标注，使用步骤S4中得到的模型对原视频进行缩略和重点位置标注。

进一步地，步骤S6中所述的构建时域和空间域分离进行卷积的S3D-G网络包括步骤：

S61：构造BasicConv3d模块；

S62：构造SepConv3d卷积层模块；

S63：构造Mixed-3d卷积模块；

S64：构造S3D-G网络，所述S3D-G网络是基于I3D网络结构改良的S3D-G模型，所述I3D网络是双流膨胀3D卷积网络。

进一步地，步骤S7中所述数据集为已标注的视频数据集，所述已标注的视频数据集为二分类视频数据集：有不良内容和无不良内容，或四分类视频数据集：血腥视频、暴力视频、涉政视频和色情视频。

本发明的有益效果在于，与现有技术相比，本发明丰富了长视频审核的手段，可以针对百万像素级分辨率的且时长大于30分钟的自然视频，尤其是带有复杂场景变化的长视频进行不良内容检测，克服了以往方法处理高分辨率复杂场景变化的长视频效率低下、对硬件要求高、延迟高的弊端。

附图说明

图1是本发明基于内容的高时长复杂场景视频不良内容检测方法流程示意图；

图2是本发明中多分辨率图像预处理网络设计图；

图3是本发明中高低分辨率特征图融合单元设计图；

图4是本发明中CNN高低层分界示意图；

图5是本发明中低延迟复杂场景分割网络设计图；

图6是应用本发明进行不良内容检测的流程示意图；

图7是本发明中BasicConv3d模块设计图；

图8是本发明中SepConv3d模块设计图；

图9是本发明中Mixed-3d模块设计图；

图10是本发明中S3D-G网络结构设计图。。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1，本发明基于内容的高时长复杂场景视频不良内容检测方法，包括步骤：

S6：构建时域和空间域分离进行卷积的S3D-G网络；

在步骤S1中，构造高低分辨率特征图融合单元模块，使用所述高低分辨率特征图融合单元模块构造多分辨率图像预处理网络，包括步骤S11和步骤S12。

S11：构造高低分辨率特征图融合单元模块。

请参见图2，所述高低分辨率特征图融合单元模块需要2个输入，分别是：特征映射1，用F₁表示，特征映射2，用F₂表示。其中F₁大小是C₁×H₁×W₁，F₂大小是C₂×H₂×W₂，H代表特征图高度，W代表特征图宽度，C代表特征图数量。

所述高低分辨率特征图融合单元模块内部包含一个上采样模块，一个膨胀卷积模块，两个批处理归一化层，一个求和层，一个Relu层。

由于F₁的分辨率是F₂的二分之一，因此使用上采样率为2的双线性插值法，构建上采样层对输入F₁进行两倍上采样。紧接着使用膨胀卷积，卷积核大小为C₃×3×3，使用膨胀卷积对上采样层得到的结果进行细化，扩张率设置为2。膨胀卷积将原始中心像素和其临近的像素点的特征信息相结合，保持参数个数不变的情况下增大了卷积核的感受野，而越大的感受野包含越多的上下文信息，减少了模型参数，加快了速度。

对于另一个输入F₂，利用卷积核大小C₃×1×1的投影卷积方法来对F₂进行卷积，使其在经过此卷积层处理后，和F₁具有相同的通道数，便于以后合并。

将F₁，F₂经过处理后的特征各自经过一个批处理的归一化层，对特征进行归一化。再将F₁，F₂输入求和层和一个Relu层，得到融合特征F₂’，其大小为C₃×H₂×W₂。

至此，高低分辨率特征图融合单元构造完毕，对于任意输入F₁，F₂，此单元输出融合后的特征F₂’，通过此高低分辨率特征图融合单元，可以对不同分辨率的特征图进行融合，输出融合后的新特征图。

S12：构造多分辨率图像预处理网络。

请参见图3，针对于视频中任意一帧的一张图像，由于是自然图像，未经过压缩，因此具有分辨率高的特点，本发明的一个实施例中中应用图像的分辨率选择1000×1000。此全分辨率图像用Img表示。

全分辨率的输入图像Img输入多分辨率图像预处理网络中后，按照2和4的因子进行降采样，形成中分辨率和低分辨率分支的双分支输入，降采样因子为2的中分辨率图像用Img2表示，降采样因子为4的低分辨率图像用Img4表示。

本发明针对高分辨率图像进行处理时，为了克服以往的经典深度学习模型在处理高分辨率图像时十分费时的困难，我们使用低分辨率输入img4进行语义提取。如图3中所示，中分辨率图像Img2和低分辨率图像Img4所经过的卷积层使用的卷积核共享权值，在之后的训练中共同训练。

使用低分辨率图像Img4进行语义信息提取的具体方法是，将Img4经过3个卷积层，一个膨胀卷积层和一个减少特征图数量的卷积层，之后送入高低分辨率特征图融合单元进行特征融合。经过如此处理可以快速得到语义信息，但弊端在于，其同时也会降低分割质量。因此本发明应用中分辨率和高分辨率分支的中分辨率图像Img2和高分辨率图像Img，帮助对粗糙的预测结果进行细化和恢复。

使用低分辨率图像Img4进行语义信息的提取，尽管生成了模糊而粗糙的边界，但是仍然获取了原图像大多数语义信息。这是因为尽管图像Img4分辨率低，但是卷积层数量深，而越深的卷积层越能提取到语义信息。而低分辨率分支的输出和中分辨率分支的输出通过高低分辨率特征图融合单元进行融合，再和高分辨率分支的输出相融合，既获取了语义信息，又得到了较为精准的边界，兼顾语义信息和边界信息。

其中，高分辨率分支卷积神经网络的权值可以适当降低，因为低分辨率分支已经获取到了足够的语义信息，降低权值可以使得高分辨率分支起到辅助作用，而不会影响到低分辨率分支的输出结果，导致模型效果降低。

步骤S2中所述的将视频数据集经标注的图像经过多分辨率图像预处理网络处理为合适的训练格式，其中视频数据集的图像数据使用Img表示。将Img传入S1所述的多分辨率图像预处理网络，通过步骤S11和S12所述的方法，处理成为合适格式的视频数据集图像，用ImgS表示。

具体实现方法为，将视频数据集用Vid表示，将视频Vid切分成一个一个独立的帧，每切分出一帧Img，则将其传入S1所述的多分辨率图像预处理网络，将其按照S12所述的方法，处理为三种不同的分辨率Img，Img2和Img4，并按照S1中搭建好的网络得到输出ImgS。传出的输出大小为C_S×H_S×W_S，其中H_S和W_S是ImgS的长和宽，Cs是ImgS的特征图数量。

步骤S3中所述的低延迟复杂场景分割网络的搭建包括步骤S31、S32和S33。

S31：基础网络的搭建。

基础网络使用经过预训练的ResNet-101，用Model表示。Model从帧中提取视觉特征。Model被分为了两部分，下部和上部，其中下部用S_L表示，上部用S_H表示。从低层特征S_L提取出来的特征为F_L，从高层特征S_H提取出来的特征为F_H。来自S_L的低层特征将用于选择关键帧和控制高级特性的传播方式。之所以使用低层特征进行操作，而不使用高层特征，是因为，低层特征只需要从深度卷积的浅层提取特征，具有速度快的优势，如果使用高层特征去进行同样的计算，会导致效率极其低下，因为高层特征需要从深度卷积的深层提取特征，属于暴力计算。

若想通过特征传播的方式对低层特征加以利用，其关键在于到底应该固定哪些帧，针对这个关键帧选取的问题，需要搭建关键帧选取模块。

S32：关键帧选取模块的搭建。

请参见图4，任何一个深层的卷积神经网络都分为若干层，在训练的过程中数据从第一层输入，逐层抽象。因此按照抽象程度将一个完整的卷积神经网络从正中一层切割为两部分，神经网络较低部分的层为S_L，较高部分的层为S_H。由S_L计算出来的低层特征为F_L ^T，由S_H计算出来的高层特征为F_H ^T。

对于每个时间步骤T，或者说一个新的帧，卷积神经网络较低部分的层S_L首先计算低层特征F_L ^T。基于每个之前关键帧的较低层特征F_L ^K和F_L ^T，框架会决定是否设置I^T为一个新的关键帧，具体的操作方法取决于此帧与前一个关键帧的偏离程度，如果偏离程度小，说明这是一个重复帧，如果偏离程度大，则这是一个关键帧。

定义“偏移程度”的一种做法是计算两幅图像的曼哈顿距离，但针对于百万像素级的图像，此做法效率低下。此处使用的方法是，复用多分辨率图像预处理网络的输出结果，即由网络提取出的低层部分S_L计算出的低层特征F_L。使用这种复用方法的好处在于：

(1)复用之前的结果，模型效率大大提升；

(2)深度卷积神经网络的浅层信息含有丰富的图像信息，适合于判断两帧的图像像素偏移程度。

通过利用较低层特征F_L来推断一个新帧是否为关键帧，不论其是否为关键帧，都计算其高层特征F_H，特别的，当其不被认定为为关键帧时，通过之前的关键帧，使用随空间变化的卷积的方式来得到当前帧的高层特征，而不是通过其高层部分直接计算高层特征。因此在一个完整视频中，只有被选定成为关键帧的帧才使用高层部分计算，或者说暴力计算。而通过巧妙的选定阈值，可以手动决定在一个视频中，到底有百分之几的帧需要被选定为关键帧。不被选定的非关键帧通过特征传播的方式计算特征。

在视频快速变化时更频繁地选择关键帧，而在观察到的场景稳定时减少计算量，不仅可以在处理相对静止场景的视频时产生良好的效果，还可以应对复杂的场景。

关键帧选取模块的原理是：判断是否选择一帧作为新的关键帧的一个自然标准是其分割图与前一关键帧的偏移。这个偏移量可以定义为语义标签不同像素的比例。直观的来看，一个大的偏差意味着重大的变化，因此此处应当设置一个新的关键帧。

然而，获取上文所述的“偏移量”，或者说两帧语义标签的差别，需要计算当前帧的分割图，此处使用低级特征来预测。具体而言，根据对若干数据集进行的研究表明低层特征的差异与偏差值之间存在很强的相关性。低级特征差异大，则语义差异也相对较大。

其中Model包括两个卷积核，256通道，一个全局池化层和一个全连接层。在运行时，当时间步骤参数取为T时，我们使用该网络来预测低级特征提取后与前一关键帧的偏差。

当此关键帧选取模块选取一帧为关键帧之后，为每个T时间的帧进行计算，和之前关键帧之间的差距，发现这个差距总在不断变大，当过了几帧之后，这个差距将大于一个我们认为设定的阈值，而本发明应用的此阈值设置为0.2，差距超过0.2意味着我们可以选取此帧为一个新关键帧，并使用较高层S_H计算其高层特征F_H。

本发明关键帧选取模块的初始化此算法是，通过给定第一帧的高层和低层特征，在之后的每个时间T，都会自动计算。

S33：特征传播模块的搭建。

设计一个卷积核权重预测器，它是一个小网络，同时接受两帧的低层特征F_L ^T，其由神经网络较低部分的层S_L计算得出，然后在所有位置产生卷积核。

这个网络由三个卷积层和Relu层交叉在一起。

这个网络输出的结果是H_K ²×H×K，其中H和K就是帧的长宽，而H_K ²会被变形为H_K×H_K。经过一个Softmax层之后变成卷积核的标准化权重，经过Softmax是为了让每一个卷积核的权重之和为1。

当一个帧不被选为关键帧时，其高层特征由前一个关键帧传播而来。对于高层特征图来讲，每个特征点捕捉到的实际上是一片相邻区域的视觉模式，而不是单独的一个点。一个线性组合可能可以提供更大的范围，更准确的表达传播。

其中，空间变化的卷积具体实现方式如下，请参见图5：

场景上的不同位置有着不同的动作模式，因此需要不同的权重进行传播。使用随空间变化的卷积来对某点相邻区域的线性组合进行表示，卷积核随空间不同位置的变化而变化。

设卷积核的大小为H_K×H_K，然后从前一个关键帧的高级特征F_H ^K到当前帧表示如公式(1)所示：

这里

F_H ^T(l,i,j)是第l条通道在F_H ^T中(i,j)处的特征取值，W_ij ^(K,T)是一个H×H的卷积核，用于计算从F_H ^K传播到F_H ^T时在(i,j)处的特征取值。请注意，卷积核值将为相邻不同位置分配权重值，这些权重取决于此特征的位置(i,j)，但在所有通道中共享。

此方法的核心之处在于如何获得随空间变化的核W_ij ^(K,T)。同样，本发明应用低级特征来解决这个问题，提出权重预测器模块。

本发明特征传播模块的权重预测器具体的实现方式如下:

权重预测器是一个小网络，同时接受两帧的低级特征，然后在所有位置产生卷积核。其由三个卷积层和一个Relu层交叉在一起。

此网络输出的结果格式是H_K ²×H×K，其中H和K是帧的长和宽，设置这两个参数，而不是单纯的输出H_K ²，是因为要为一帧上不同的位置都设计一个卷积核)，而H_K ²会被重塑为H_K×H_K，经过一个Softmax层之后变成卷积核的标准化权重，经过Softmax是为了让每一个卷积核的权重之和为1。

通过使用底层特征决定卷积核权重，使得内核不仅对不同位置有适应性，而且对帧的内容也有适应性，从而获得了强大的表达能力。

使用S31，S32，S33所述的方法搭建低延迟复杂场景分割网络，其中，具体的模型Model运作的方式如下，请参见图5：

对于每个时间步骤T，即一个新的帧，首先使用Model较浅层网络部分S_L计算其特征F_L ^T，此特征为低层特征。基于每个之前关键帧的较低层特征F_L ^K和F_L ^T，此网络会决定是否设置I^T为一个新的关键帧，这取决于此帧与前一个关键帧的偏离程度，如果偏离程度小，说明这是一个重复帧，如果偏离程度大，则这是一个关键帧。如果选择设置其为新关键帧，则会将F_L ^T送进网络高层部分S_H，并基于高层S_H计算高层特征F_H ^T，由于是关键帧，因此此处使用暴力计算。如果不选择设置其为新关键帧，则它们将通过使用随空间变化的卷积从F_H ^K传播而得到高层特征F_H ^T。将F_L ^T送进一个权重预测器，由此得到一组卷积核，利用它们通过随空间变化的卷积来传播上一个关键帧的高层特征。高层特征可以通过逐像素分类方法得出分割图。

通过利用较低层特征来推断一个新帧是否为关键帧，不论其是否为关键帧，都计算其高层特征，特别的，当其不被认定为为关键帧时，通过之前的关键帧，使用随空间变化的卷积的方式来得到当前帧的高层特征，而不是通过其高层部分直接计算高层特征。

因此低层特征占比多，高层特征占比少，通过结合权重预测器和随空间变化的卷积的方式来计算高层特征F_H ^T，要比通过低层特征F_L ^T直接送进高层S_H来暴力计算高层特征F_H ^T的代价要小太多。

使用这种传播方案可以在距离关键帧10帧之内保持相当高的精度，具有可以处理复杂场景变化的优势。

使用步骤S31，S32和S33所述的方法搭建低延迟复杂场景分割网络，其中，具体的模型Model运作的方式如下：

请参见图6，在步骤S4中，所述的使用经多分辨率图像预处理网络处理后的视频数据集，对低延迟复杂场景分割网络进行训练，得到低延迟复杂场景分割模型。具体实现方法为：

视频数据集处理后的输出ImgS大小为C_S×H_S×W_S，其中H_S和W_S是ImgS的长和宽，C_S是ImgS的特征图数量。

步骤S3所述的低延迟复杂场景分割网络的低层S_L是神经网络低层特征，其接受的数据是H_INPUT×W_INPUT×C_INPUT，其中H_INPUT和W_INPUT分别是传入特征图的长和宽，即ImgS分辨率大小的一帧的长和宽，C_INPUT是输入特征图的数量。

而H_INPUT，W_INPUT和C_INPUT允许输入的数据格式刚好等同于H_S，W_S和C_S，将原始数据传入步骤S4所述的分割网络，使用S3所述的具体的Model运作方式对模型进行训练，得到低延迟复杂场景分割模型，用LCSSCM表示。

在步骤S5中，所述的使用低延迟复杂场景语义分割模型和一种双进程调度方案，对百万像素级的，包含复杂场景变化的，时长大于30分钟的视频进行视频缩略和重点位置标注。包含步骤S51和S52。

S51：双进程调度方案的使用。

本发明的模型使用双进程调度方案，具体实施方式如下：

推断一帧为关键帧之后，再计算后面的帧的高层特征时，使用两个进程，进程一通过特征传播来计算高层特征，而后台进程二是通过S_H来计算高层特征，由于使用暴力计算，进程二速度慢于进程一，但是精度较高。

进程一计算出来之后先保存在缓存中，暂时使用，等到进程二计算出来之后，逐步替换缓存中的低精度信息。使用双进程方式进行调度，在使用进程一最大程度保证模型效率高，延迟低的同时，使用进程二，用多进程的方式对进程一的低精度粗糙结果进行弥补和恢复。

S52：视频缩略和重点位置标注。

对于百万像素级复杂场景变化的长视频不良内容检测，本发明的一个实施例中处理的视频主要集中在街道摄像头拍摄下的街景视频，或者其他有人类，车辆，轨道，护栏，电线杆，隧道的视频。这类视频由于属于大范围，自然视频，因此具有分辨率高，场景变化复杂等特点。

其中最有可能出现暴力，血腥等不良信息的位置集中在人类，车辆，电线杆，护栏，火车轨道等位置，因此通过步骤S1到S4所述之方法对视频进行缩略，并在缩略后的视频上标注可能含有不良信息的时间点和具体位置。

具体实施方式如下：

步骤S4所述的低延迟复杂场景分割模型，用LCSSCM表示，输入到模型中待处理的百万像素级分辨率复杂场景变化高时长自然视频用Vid表示。

Vid输入到LCSSCM模型中，输出一个经缩略的视频SkeletonizedVid，并标注重点位置。具体的缩略方法是，Vid被LCSSCM认定为存在人类，车辆，电线杆，护栏，火车轨道等可能存在暴力，血腥等不良内容所在的帧被提取出来，重新合并成一个缩略视频，并将此视频传入S6中，进行视频分类。

重点位置的标注指的是，如果经缩略的视频SkeletonizedVid中，经LCSSCM模型认定，在同一时刻情况下，场景十分复杂。如同一帧中存在过多的人类，或者过多的车辆时。则使用LCSSCM模型的语义信息和分割信息对复杂场景下的多个人类，多个车辆等位置进行边缘标注。

步骤S6中所述的构建时域和空间域分离进行卷积的S3D-G网络包括步骤S61、S62、S63和S64。

S61：构造BasicConv3d模块。

请参见图7，该BasicConv3d模块作为后续所需要的必要组件需要优先构建，其参数将在后续步骤确定。此BasicConv3d模块由三个部分构成：一层3d卷积层、一层3d BatchNormalization层、ReLU激活函数层，其中padding默认为0。

S62：构造SepConv3d卷积层模块。

请参见图8，该SepConv3d卷积层模块作为后续所需要的必要组件，需要优先构建，其参数将在后续步骤确定。此SepConv3d模块由三个部分构成:一层卷积核为1×k×k的卷积层、一层3d Batch Normalization层、ReLU激活函数层、一层卷积核为k×1×1的卷积层、一层3d Batch Normalization层、ReLU激活函数层。上述k为后续需要确定的参数，且两层卷积层中的k为同一参数。

S63：构建Mixed-3d卷积模块。

Miexed-3d卷积层由四部分构成，请参见图9：

第一部分：一层BasicConv3d层，其中BasicConv3d层参数为(输入，输出，卷积核大小，步长)，其中卷积核大小为1，步长为1。

第二部分：一层BasicConv3d层，一层SepConv3d卷积层，其中BasicConv3d层参数为(输入，输出，卷积核大小，步长)，其中卷积核大小为1，步长为1，SepConv3d卷积层参数为(输入，输出，卷积核大小，步长，填充)，其中卷积核大小为3，步长为1，填充为1。

第三部分：一层BasicConv3d层，一层SepConv3d卷积层，其中BasicConv3d层参数为(输入，输出，卷积核大小，步长)，其中卷积核大小为1，步长为1，SepConv3d卷积层参数为(输入，输出，卷积核大小，步长，填充)，其中卷积核大小为3，步长为1，填充为1。

第四部分：一层最大池化层，一层，其中最大池化层参数为(卷积核大小，步长，填充)其中步长为1，填充为1，BasicConv3d层参数为(输入，输出，卷积核大小，步长)，其中卷积核大小为1，步长为1。

将输入通过第一部分获得X₀，通过第二部分获得X₁，通过第三部分获得X₂，通过第四部分获得X₃。将X₀，X₁，X₂，X₃进行拼接获得最后输出output。

网络结构中的Miexed-3d卷积层每一层的输入输出都不一样，因此在S64中Miexed-3d卷积层会加上后缀，以突出其的不同。

S64：构造S3D-G网络。

请参见图10，我们的模型时基于I3D网络结构改良的S3D-G模型，I3D模型是双流膨胀3D卷积网络，在ImageNet上训练好的深度结构网络可以用于其他任务，同时随着深度结构的改进，效果也越来越好。

而S3D-G模型是在I3D的基础上结合Top-Heavy结构以及采用了时域和空间域分离进行卷积。

第一层：SepConv3d卷积层，SepConv3d卷积层参数格式为(输入，输出，卷积核，步长，填充)，其中步长为2，填充为3。

第二层：最大池化层，参数格式为(卷积核大小，步长，填充)，其中步长为(1，2，2)，填充为(0，1，1)。

第三层：BasicConv3d卷积层，参数格式为(输入，输出，卷积核，步长)，其中卷积核大小为1，步长为1。

第四层：SepConv3d卷积层，SepConv3d卷积层参数格式为(输入，输出，卷积核，步长，填充)，其中步长为1，填充为1。

第五层：最大池化层，参数格式为(卷积核大小，步长，填充)，其中步长为(1，2，2)填充为(0，1，1)。

第六层:：Mixed-3d卷积层命名为Miexed-3d-3a。

第七层：Mixed-3d卷积层命名为Miexed-3d-3b。

第八层：最大池化层，参数格式为(卷积核大小，步长，填充)，其中步长为(2，2，2)填充为(1，1，1)。

第九层：Mixed-3d卷积层命名为Miexed-3d-4a。

第十层：Mixed-3d卷积层命名为Miexed-3d-4b。

第十一层：Mixed-3d卷积层命名为Miexed-3d-4c。

第十二层：Mixed-3d卷积层命名为Miexed-3d-4d。

第十三层：Mixed-3d卷积层命名为Miexed-3d-4e。

第十四层：最大池化层，参数格式为(卷积核大小，步长，填充)，其中步长为(2，2，2)填充为(0，0，0)。

第十五层：Mixed-3d卷积层命名为Miexed-3d-5a。

第十六层；Mixed-3d卷积层命名为Miexed-3d-5b。

第十七层：平均池化层，参数为(卷积核大小，步长)。

第十八层；dropout层。

第十九层：全连接层，num_classes参数设置为为2，即二分类，在本发明的应用场景中，即分别为存在不良信息和不存在不良信息。

如S61到S64所述的S3D-G网络结构，与传统C3D与I3D模型比较，采用了时域和空间域分离进行卷积：SepConv3d卷积层，结合了I3D的特点：Miexed-3d卷积层，且采用Top-Heavy的结构，即先进行2d卷积再进行3d卷积，该方法能够提升模型速度，因此S3D-G模型能够在提升精度的基础上，减少训练时间，且模型尺寸更小。

在步骤S8中所述的使用由S5对长时间视频视频进行视频缩略和重点位置标注输出的缩略视频输入S3D-G网络中获得对长时间视频视频的分类。

在S3D-G网络中加载由步骤S7获得的视频分类网络模型，将由步骤S5中获得的对长时间视频视频进行视频缩略和重点位置标注输出的缩略视频输入进S3D-G网络中，获得缩略视频的视频分类，分别为“存在不良信息”和“不存在不良信息”两种类别。

一旦模型认为输入视频存在不良信息，在获得分类结果的同时获得的还有，在输入视频上可能存在违规的时间位置标注和空间位置标注，大大降低了审核难度，加快了视频审核的速度，减少了人工审核时对关键信息遗漏的可能性。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.基于内容的高时长复杂场景视频不良内容检测方法，其特征在于，包括步骤：

S3：搭建低延迟复杂场景分割网络，所述低延迟复杂场景分割网络包括基础网络、关键帧选取模块和特征传播模块，其中所述基础网络使用经过预训练的ResNet-101，所述特征传播模块包括权值预测器模块和随空间变化的卷积方法，其中所述的低延迟复杂场景分割网络的搭建包括步骤:

S33：特征传播模块的搭建，设计一个卷积核权重预测器，同时接受两帧的低层特征F_L ^T，其由神经网络较低部分的层S_L计算得出，然后在所有位置产生卷积核，其由三个卷积层和Relu层交叉在一起，所述卷积核权重预测器的输出结果是H_K ²×H×K，其中H和K是帧的长宽，而H_K ²会被变形为H_K×H_K，经过一个Softmax层之后变成卷积核的标准化权重，经过Softmax是为了让每一个卷积核的权重之和为1；

S5：使用所述低延迟复杂场景分割模型和双进程调度方案，对百万级别分辨率、时长大于30分钟且含有复杂场景变化的视频进行视频缩略和重点位置标注，其中所述双进程调度方案为：推断一帧为关键帧之后，再计算后面的帧的高层特征时，使用两个进程，进程一通过特征传播来计算高层特征，而后台进程二使用此帧I^T自身特征，从基础网络下部S_L到上部S_H，逐层传播计算高层特征；

S6：构建时域和空间域分离进行卷积的S3D-G网络；

2.如权利要求1所述的基于内容的高时长复杂场景视频不良内容检测方法，其特征在于，步骤S1中所述多分辨率图像预处理网络的构造包括步骤:

S12：构造多分辨率图像预处理网络。

3.如权利要求1所述的基于内容的高时长复杂场景视频不良内容检测方法，其特征在于，步骤S5中所述的使用低延迟复杂场景分割模型和双进程调度方案，包含步骤：视频缩略和重点位置标注，使用步骤S4中得到的模型对原视频进行缩略和重点位置标注。

4.如权利要求1所述的基于内容的高时长复杂场景视频不良内容检测方法，其特征在于，步骤S6中所述的构建时域和空间域分离进行卷积的S3D-G网络包括步骤：

S61：构造BasicConv3d模块；

S62：构造SepConv3d卷积层模块；

S63：构造Mixed-3d卷积模块；

5.如权利要求1所述的基于内容的高时长复杂场景视频不良内容检测方法，其特征在于，步骤S7中所述数据集为已标注的视频数据集，所述已标注的视频数据集为二分类视频数据集：有不良内容和无不良内容，或四分类视频数据集：血腥视频、暴力视频、涉政视频和色情视频。