CN117541969A

CN117541969A - 一种基于语义和图像增强的色情视频检测方法

Info

Publication number: CN117541969A
Application number: CN202410028136.7A
Authority: CN
Inventors: 梁刚; 曾军皓; 柏锦涵; 王鹏程; 许春; 赵奎; 杨进
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2024-01-09
Filing date: 2024-01-09
Publication date: 2024-02-09
Anticipated expiration: 2044-01-09
Also published as: CN117541969B

Abstract

本发明公开了一种基于语义和图像增强的色情视频检测方法，不仅在面对较暗光照、添加噪声和背景复杂的视频中保持较好的检测精度，而且充分考虑了检测效率，降低了检测时延；包括下述步骤：将目标视频输入关键帧抽取模块中，综合使用预采样、图像熵、密度聚类和局部帧差分处理技术，获得关键帧集合；图像增强模块利用光照增强和生成对抗网络技术，分别从抗暗光干扰和抗噪声干扰两方面增强关键帧集合中的关键帧，得到经过去噪处理的关键帧；采用YOLOv5目标检测网络构建的语义增强模块定位经过去噪处理的关键帧中人体目标；使用MobileNetV3图像分类网络构建的色情检测模块，在引入特征融合与注意力机制的情况下进行色情视频和正常视频的分类。

Description

一种基于语义和图像增强的色情视频检测方法

技术领域

本发明涉及网络内容安全技术等领域，具体的说，是一种基于语义和图像增强的色情视频检测方法。

背景技术

随着移动通信技术的发展和高速互联网的普及，网络视频已经成为人们一种重要的生活和娱乐方式。作为一种流行的媒体形式，网络视频平台的活跃用户数量和受欢迎程度呈现连年增长趋势，网络视频平台用户已经占整体网民的九成以上。此外，为了更加直观地传递信息，增强吸引力和影响力，越来越多的广告和新闻内容开始采用视频形式，加速了网络视频在传统行业中的流行和普及。然而，网络视频的快速增长和流行也带来了一些严峻的问题，其中最重要的问题之一是色情信息以网络视频的形式迅速传播蔓延，对网络环境和用户体验造成严重的负面影响。由于网络视频数据体量庞大，并且色情视频会对审核者造成巨大心理和生理压力，仅靠人工对视频进行准确高效的色情视频检测变得愈发困难。

因此，为了检测和过滤网络视频中的色情内容，阻断色情视频的传播，并维护网络生态的清朗和用户的良好体验，研究人员设计和开发了基于人体皮肤、基于手工特征、基于深度学习的色情检测方法，但这些方法仍然在关键帧抽取、色情语义理解、对光照变化和对抗性扰动的鲁棒性等方面存在明显的不足，具体可以归纳如下：

1、出于逃避和混淆的目的，在某些色情视频中，色情帧呈现“全局稀疏，局部聚集”的分布特点。由于色情帧中的内容变化极多（背景和表情），并且许多色情动作与正常动作十分相似（如色情舞蹈和正常舞蹈），使得一些色情帧仅仅在小部分区域与正常帧有差异。而现有色情检测方法往往选择通用的关键帧抽取方法，对色情帧的分布特征和色情内容的固有特点的认识不足，导致抽取效率较低，容易遗漏色情帧，降低视频检测效率和准确率，难以应用于色情视频检测场景中。

2、现有工作往往侧重于对特征提取和特征融合网络进行改进，对模型的鲁棒性缺乏必要的关注，检测结果对光照变化和微小对抗性扰动较为敏感。为了逃避现有方法的检测，色情视频可能在暗光环境下拍摄，通过生成阴影和改变皮肤颜色，影响皮肤区域的检测。此外，微小对抗性扰动被刻意添加到视频中，它们在不影响语义表达的情况下，破坏了帧中的重要细节(模糊敏感器官纹理和淡化前景与背景的边缘)。然而，现有方法未考虑模型对光照变化和对抗性扰动的鲁棒性，导致模型表征能力不足，误报率和漏报率较高。

3、现有主流色情视频检测方法利用卷积神经网络提取特征，通过逐层堆积的卷积层，将局部区域的低级特征进行组合，获得较为复杂和抽象的图像表示，从而帮助检测模型理解帧中复杂的结构与内容。然而，卷积层固有的平移不变性造成了空间信息的丢失，限制了网络捕获全局特征，无法准确感知图像帧的语义。因此，现有方法在面对具有复杂背景(与皮肤颜色相近的沙滩和麦田，与敏感器官相似的香蕉和茄子)的视频时，难以区分背景与前景，导致对图像帧的语义信息表征不足，误报率较高。

发明内容

本发明的目的在于提供一种基于语义和图像增强的色情视频检测方法，将色情检测任务分为关键帧抽取、图像增强、语义增强和色情检测四个阶段；该方法不仅在面对较暗光照、添加噪声和背景复杂的视频中保持较好的检测精度，而且充分考虑了检测效率，降低了检测时延。

本发明通过下述技术方案实现：一种基于语义和图像增强的色情视频检测方法，该方法通过具有关键帧抽取模块、图像增强模块、语义增强模块和色情检测模块四个模块的色情视频检测模型完成，包括下述步骤：

1）将目标视频输入关键帧抽取模块中，综合使用预采样、图像熵、密度聚类和局部帧差分多种轻量处理技术，逐步减少冗余，获得了紧凑浓缩且具有代表性的关键帧集合；其中，在关键帧抽取模块中，包含预采样、信息帧抽取、代表帧抽取和关键帧抽取四个阶段。预采样阶段用于抽取固定比例（比如20%）的视频帧数量，减少数据量并提高后续处理效率，形成候选关键帧集合；信息帧抽取阶段通过计算帧熵值并与时序信息关联分析，快速筛选出包含重要信息或特殊意义的帧，增强关键帧集合的信息表达能力；代表帧抽取阶段引入了密度聚类，通过帧的分布密度和邻域关系划分簇，选取少量具有代表性的关键帧；关键帧抽取阶段利用局部差分技术保持对帧间微小细节差异的敏感，设置阈值过滤筛除语义冗余帧，获得数量较少、具有高代表性和低冗余性的关键帧集合。

2）经步骤1）后，图像增强模块利用光照增强和生成对抗网络（GAN）技术，分别从抗暗光干扰和抗噪声干扰两方面增强关键帧集合中的关键帧，得到经过去噪处理的关键帧，进而提高下游模型的检测准确率。通过引入基于深度曲线估计的光照增强模型，该模型对关键帧不同区域进行不同程度的光照增强；通过基于GAN构建压缩-重建网络，该网络对关键帧实现了能够抵抗噪声干扰的图像重建；在图像增强模块中，本发明针对给色情检测准确率带来较大影响的暗光和噪声扰动问题，分别引入光照增强与图像重建技术，改善图像光照条件，消除图像中的微小噪声，从而综合提高关键帧的质量。具体来说，本发明提出了一种基于深度曲线估计的光照增强方法，该方法使用深度神经网络来拟合图像光照增强所需参数矩阵的映射关系。通过神经网络映射得到最佳的光照增强拟合曲线，该方法自适应地调整了不同区域的像素值，减少了光照对检测的影响。本发明还采用了一种基于生成对抗网络（GAN）的压缩-重建网络，利用对抗损失和内容损失，以帮助生成器去除图像噪声干扰。

3）采用YOLOv5目标检测网络构建的语义增强模块定位经过去噪处理的关键帧中的人体目标，并根据YOLOv5目标检测网络输出的人体位置坐标信息，裁剪得到关键帧中包含人体的矩形区域；在语义增强模块中，本发明提出使用基于目标检测的语义增强方法增强色情相关语义信息的表达，该方法使用目标检测网络YOLOv5准确定位人体目标，进而裁剪人体目标，区分前景与背景信息，以增强色情相关语义信息的表达；根据人体目标的坐标信息进行等比例裁剪时，在减少背景干扰的同时增强人体相关语义信息，减少下游检测模型的误检。

4）使用MobileNetV3图像分类网络构建的色情检测模块，在引入特征融合与注意力机制的情况下进行色情视频和正常视频的分类；特征融合与注意力机制的引入增强了模型对关键特征的学习能力，可以对色情和正常图像之间的微小差异具有较强的感知能力，且推理速度较快，实现了色情检测的低延时和高准确率的目标。

进一步为更好地实现本发明所述的一种基于语义和图像增强的色情视频检测方法，特别采用下述设置方式：所述步骤1）包括下述具体步骤：

1.1）输入的目标视频首先被转换为视频帧集合，通过预采样从视频帧集合选择帧，形成候选关键帧集合；

1.2）通过计算候选关键帧集合中的视频帧的图像熵，并分析时间-信息量曲线，挑选出曲线上的极大值点和极小值点对应的视频帧，得到信息帧集合；

1.3）对信息帧集合中的视频帧计算邻域密度和相对距离，完成密度聚类，从中选取固定比例（比如70%）的视频帧，构建代表帧集合；

1.4）计算代表帧集合中图像的局部差分值，将差分值与阈值（优选设定为30）比较，移除小于阈值的视频帧，得到关键帧集合。

进一步为更好地实现本发明所述的一种基于语义和图像增强的色情视频检测方法，特别采用下述设置方式：所述步骤2）包括下述具体步骤：

2.1）获取光照增强曲线：通过逐通道输入关键帧集合中关键帧到图像增强模块的深度曲线估计网络，利用深度神经网络来拟合图像光照增强所需参数的映射关系，以获得不同通道不同阶段的光照增强曲线；

2.2）增强关键帧光照：利用步骤2.1）中获得的光照增强曲线，通过深度曲线估计网络逐通道逐阶段地对关键帧集合中的关键帧进行光照增强操作，生成经过光照增强后的关键帧；

2.3）采用生成对抗网络技术构建基于生成对抗网络的压缩-重建网络；

2.4）去除关键帧噪声扰动：将经过光照增强后的关键帧输入到压缩-重建网络，去除图像噪声并获取生成器的输出，从而获得经过去噪处理的关键帧。

进一步为更好地实现本发明所述的一种基于语义和图像增强的色情视频检测方法，特别采用下述设置方式：所述步骤2.3）包括下述具体步骤：

2.3.1）在大规模图像分类数据集ImageNet中获取原始图像，并添加高斯噪声来生成噪声图像集；

2.3.2）使用自动编码器（AutoEncoder）构建生成器，并基于Resnet50网络构建判定器；其中，自动编码器包含编码器和解码器两部分，在编码器部分，特征图的尺寸逐渐缩小，同时通道数逐渐增加，以避免细节丢失，解码器通过逐步还原特征图的信息来重建原始输入，是编码器的逆过程；

2.3.3）对生成器和判定器进行训练：在训练过程中，将原始图像和经过生成器压缩-重建处理的噪声图像共同输入到判定器中，并通过最小化内容损失和对抗性损失来优化生成器和判定器的参数，最终训练得到压缩-重建网络。

进一步为更好地实现本发明所述的一种基于语义和图像增强的色情视频检测方法，特别采用下述设置方式：所述步骤3）包括下述具体步骤：

3.1）使用Letterbox技术，将经过去噪处理的关键帧裁剪到固定尺寸，并在原始图像的宽高比例与目标尺寸不一致时，通过填充边框来确保图像的原始纵横比不变；

3.2）通过YOLOv5目标检测网络，对步骤3.1）所得的关键帧进行人体检测，生成每个检测到的人体区域的置信度分数和位置坐标信息；

3.3）经步骤3.2）后，对于置信度小于阈值的关键帧，判定为正常关键帧；对于置信度大于阈值的关键帧，根据输出的人体位置坐标信息，裁剪出包含人体的矩形区域，并将其再次裁剪至固定大小。

进一步为更好地实现本发明所述的一种基于语义和图像增强的色情视频检测方法，特别采用下述设置方式：所述步骤4）包括下述步骤：

4.1）对使用MobileNetV3图像分类网络构建的色情检测模块进行模型训练；

4.2）将步骤3）所得输入到训练好后的色情检测模块中进行正常视频和色情视频的分类。

进一步为更好地实现本发明所述的一种基于语义和图像增强的色情视频检测方法，特别采用下述设置方式：所述4.1）包括下述具体步骤：

4.1.1）通过在大规模图像分类数据集ImageNet上对色情检测模型MobileNetV3进行预训练，学习通用的特征表示；

4.1.2）采用随机旋转和添加噪声的方法来扩充训练数据集（NPDI色情数据集和NSFW色情数据集），以增加其多样性和复杂性；

4.1.3）使用图像增强模块和语义增强模块来分别增强训练数据集；

4.1.4）使用处理后的训练数据集来微调色情检测模块。

进一步为更好地实现本发明所述的一种基于语义和图像增强的色情视频检测方法，特别采用下述设置方式：所述步骤4.2）具体为：将步骤3）所得的关键帧输入到训练好的色情检测模块，根据输出分数判定该关键帧的分类结果：如果目标视频的任意关键帧被判定为色情，则目标视频被分类为色情视频；仅当目标视频的所有关键帧被判定为正常，目标视频被分类为正常视频。

本发明与现有技术相比，具有以下优点及有益效果：

针对现有方法采用通用关键帧抽取方法进行视频帧抽取，导致抽取的关键帧集合中缺少色情帧、降低检测效率和准确率的问题，本发明提出了一种面向色情视频检测场景的关键帧抽取方法，将关键帧抽取分为预采样阶段（通过提取固定比例的视频帧，有效减少了后续处理的计算成本）、信息帧抽取阶段、代表帧抽取阶段和关键帧抽取阶段四个阶段，充分考虑色情帧在内容和分布上的特点，保证对色情帧的提取，提高关键帧集合的代表性和区分性。

针对现有色情检测方法未充分考虑检测绕过问题，使得模型对光照变化和对抗性扰动的鲁棒性不足，导致误检率和漏检率较高的问题，本发明引入深度曲线估计网络ZeroDCE增强光照，通过对关键帧进行多次自适应光照增强，避免过曝和欠曝，显著减弱了暗光对特征抽取的负面影响，促使皮肤区域颜色恢复正常状态，从而确保皮肤特征提取不受影响。此外，本发明引入基于生成对抗网络的压缩-重建网络（用于将带有微小扰动的图像重建为清晰的关键帧，以避免微小扰动对色情检测结果的影响）增强关键帧，通过对图像进行编码和解码，保留关键帧中的主要细节，消除对抗性扰动。两种图像增强方式相互结合，改善图像质量，进而确保了下游检测模型获得鲁棒的特征表示，降低漏报率和误检率。

针对现有检测方法语义感知能力差，常常混淆背景与前景，导致误报率较高的问题，本发明提出了一种基于目标检测的语义增强方法，该方法利用目标检测网络YOLOv5，准确定位并裁剪关键帧中的人体目标，减少无关背景信息的干扰，增强对人体相关语义信息的感知能力，强化敏感纹理和人体姿势等关键特征的表达，进而凸显与色情相关的关键语义信息，降低检测方法的误报率。

本发明在信息帧和代表帧抽取阶段不仅大大减少了关键帧数量，并且保证了信息的完整性和代表性。最后，运用局部差分技术维持了对帧间微小细节差异的敏感性，以筛除语义冗余帧，最终获得紧凑而具有高度代表性的关键帧集合。

本发明提出了一种基于目标检测的语义增强方法，通过使用YOLOv5网络检测并裁剪关键帧中人体部分，强调对于色情检测极为重要的人体相关语义信息，弱化无关背景信息，提高色情检测准确率。

附图说明

图1为关键帧抽取流程图。

图2为基于深度曲线估计的光照增强方法流程图。

图3为基于生成对抗网络的压缩-重建网络结构图。

图4为基于目标检测的语义增强方法流程图。

图5为MobileNetV3图像分类网络结构图。

具体实施方式

下面结合实施例对本发明作进一步地详细说明，但本发明的实施方式不限于此。

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。因此，以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

实施例1：

一种基于语义和图像增强的色情视频检测方法，将色情检测任务分为关键帧抽取、图像增强、语义增强和色情检测四个阶段；该方法不仅在面对较暗光照、添加噪声和背景复杂的视频中保持较好的检测精度，而且充分考虑了检测效率，降低了检测时延；该方法通过具有关键帧抽取模块、图像增强模块、语义增强模块和色情检测模块四个模块的色情视频检测模型完成，包括下述步骤：

实施例2：

本实施例是在上述实施例的基础上进一步优化，与前述技术方案相同之处在此不再赘述，进一步为更好地实现本发明所述的一种基于语义和图像增强的色情视频检测方法，特别采用下述设置方式：所述步骤1）包括下述具体步骤：

实施例3：

本实施例是在上述任一实施例的基础上进一步优化，与前述技术方案相同之处在此不再赘述，进一步为更好地实现本发明所述的一种基于语义和图像增强的色情视频检测方法，特别采用下述设置方式：所述步骤2）包括下述具体步骤：

2.3）采用生成对抗网络技术构建基于生成对抗网络的压缩-重建网络，包括下述具体步骤：

实施例4：

本实施例是在上述任一实施例的基础上进一步优化，与前述技术方案相同之处在此不再赘述，进一步为更好地实现本发明所述的一种基于语义和图像增强的色情视频检测方法，特别采用下述设置方式：所述步骤3）包括下述具体步骤：

3.3）经步骤3.2）后，对于置信度小于阈值（Threshold=0.5）的关键帧，判定为正常关键帧；对于置信度大于阈值（Threshold=0.5）的关键帧，根据输出的人体位置坐标信息，裁剪出包含人体的矩形区域，并将其再次裁剪至固定大小。

实施例5：

本实施例是在上述任一实施例的基础上进一步优化，与前述技术方案相同之处在此不再赘述，进一步为更好地实现本发明所述的一种基于语义和图像增强的色情视频检测方法，特别采用下述设置方式：所述步骤4）包括下述步骤：

4.1）对使用MobileNetV3图像分类网络构建的色情检测模块进行模型训练，包括下述具体步骤：

4.1.4）使用处理后的训练数据集来微调色情检测模块；

4.2）将步骤3）所得输入到训练好后的色情检测模块中进行正常视频和色情视频的分类，具体为：将步骤3）所得的关键帧输入到训练好的色情检测模块，根据输出分数判定该关键帧的分类结果：如果目标视频的任意关键帧被判定为色情，则目标视频被分类为色情视频；仅当目标视频的所有关键帧被判定为正常，目标视频被分类为正常视频。

实施例6：

一种基于语义和图像增强的色情视频检测方法，将色情视频检测任务分为关键帧抽取、图像增强、语义增强和色情检测四个阶段，通过具有关键帧抽取模块、图像增强模块、语义增强模块和色情检测模块四个模块的色情视频检测模型完成。

其中，关键帧抽取流程如图1所示，关键帧抽取模块具体实施方法如下：

视频预采样：

步骤101：使用OpenCV工具包读取待处理的视频（目标视频），并分割成连续的视频帧序列；

步骤102：基于原始视频帧序列F，提取首帧f ₁，并按照固定的间隔选取视频帧，构建候选关键帧集合CF。原始视频中原始视频帧序列F和候选关键帧集合CF表示如公式（1）-（2）所示，其中N为视频总帧数，i为设定的抽取间隔，f _m代表帧序号为m的帧；

计算图像熵：

步骤103：对候选关键帧集合CF中的每一帧，将视频帧统一转换到HSV色彩空间，RGB色彩空间到HSV色彩空间的转换公式如公式（3）-（11），其中R、G和B为初始像素值，R′、G′和B′为归一化后的像素值，H、S和V分别为转换后的色调、饱和度和明度值，C _max和C _min分别为像素值归一化后的最大值和最小值；

根据帧序号和熵值，将帧序列映射为时间-信息量曲线：

步骤104：在HSV色彩空间中计算图像熵，量化每一帧的信息量，并依据视频帧序号和帧熵值将视频帧映射为二维空间中的时间-信息量曲线。将H、S和V三个通道的像素值分别划分为16、8和8个等级，分通道计算图像熵然后相加得到HSV图像熵，HSV图像熵计算表达式如公式（12）-（15）所示，其中，E _h (f)，E _s (f)和E _v (f)分别表示帧f在H、S和V通道的熵，p _hi (f)，p _si (f)和p _vi (f)分别表示帧f在H、S和V通道的归一化颜色分布直方图中的第i个值，E(f)表示帧f的HSV熵；

选取时间-信息量曲线中的极值点的对应帧，帧集合精简为CK ₁：

步骤105：选择时间-信息量曲线上的极大值和极小值点，选取极值点对应的帧构成帧集合CK ₁，极值点P _extreme定义公式如（15）所示，其中f _i是采样后的候选关键帧集合CF中的第i帧；

计算每一帧的邻域密度：

步骤106：对于帧集合CK ₁，计算每一帧的邻域密度ρ，邻域密度计算公式如（17）所示，其中ρ _Pi代表帧f _i的邻域密度，P _i和P _j分别代表帧f _i和帧f _j在二维空间中对应的点，P _i和P _j均属于极值点集合P _extreme，d _PiPj代表P _i和P _j两点间距离，d _c是可以设定的超参数；

计算每一帧的相对距离：

步骤107：在计算邻域密度的基础上，通过公式（18）计算每一帧的相对距离δ，其中，δ _Pi代表帧f _i的相对距离，ρ _Pi和ρ _Pj分别代表帧f _i和帧f _j的邻域密度，P _j∈{P _j|ρ _Pj＞ρ _Pi}代表点P _j是满足相对距离大于P _i的集合中的元素，d _PiPj代表P _i和P _j两点间距离；

按相对距离降序选取固定比例的帧，帧集合精简为CK ₂：

步骤108：在计算相对距离的基础上，按相对距离从大到小的顺序对帧进行排序，选择出相对距离前p*n大的帧构成帧集合CK ₂，其中p为预先设定的比例值（0.7），n为帧集合CK ₁中的总帧数；

将CK ₂按帧序号的大小进行排序：

步骤109：将代表帧集合中的帧按照帧序号从小到大的顺序重新排列；

计算当前帧与前一帧的局部差分值：

步骤110：除首帧外，将每一帧统一划分为3×3个图像块，分别计算每个图像块与前一帧图像块的差分值，选择9个图像块差分值中的最大值作为该帧的局部差分值，图像块和帧的差分计算公式如（19）-（20），其中w和h分别代表图像块的长和宽，f _i，k(x，y)表示第i帧第k个图像块中坐标(x，y)的像素点强度，D _k(f _i)代表第i帧中第k个图像块的差分值，D(f _i)代表第i帧的局部差分值；

步骤111：将首帧放入关键帧集合中，其余帧通过预设的阈值T进行筛选，筛除差分值不大于阈值T的帧，保留的帧与首帧共同构成关键帧集合。

图像增强模块的具体实施方法如下：

步骤201：获取光照增强曲线：将关键帧集合中每一个关键帧图像的R、G、B三通道作为输入，输入到深度曲线估计网络，得到R、G、B三通道8次迭代增强所需的光照增强曲线；

步骤202：增强关键帧光照：将获得的光照增强曲线应用于关键帧集合，对其中的关键帧进行光照增强，基于深度曲线估计的光照增强方法如图2所示，光照增强公式如（21）所示，其中x代表像素位置标号，I(x)代表像素值，LE _n [I(x)]和LE _n-1 [I(x)]分别代表第n轮和第n-1轮迭代中像素值I(x)的光照增强结果，A _n (x)代表第n轮迭代中对应像素位置x的光照增强参数；

/>

步骤203：构建基于生成对抗网络的压缩-重建网络：首先，使用AutoEncoder结构来搭建生成器，使用ResNet50网络作为判定器；然后，在训练过程中，损失函数除开传统的对抗性损失，还添加了保证图像内容细节不丢失的内容损失（MSE损失和SSIM损失）；最后，本实施例为损失函数添加了动态权重系数，帮助生成器专注于完成去噪而不是蒙蔽判定器。基于生成对抗网络的压缩-重建网络架构如图3所示，其中Encoder和Decoder分别代表AutoEncoder结构中的编码器和解码器，训练目标函数公式如（22）所示，损失函数公式如（23）-（26）所示，其中D和G分别代表判定器和生成器，x和z分别代表真实和噪声数据，x~ p _data (x)和z~p _z (z)分别代表数据x和z分别符合p _data (x)分布和p _z (z)分布，I代表输入图像，I _m,n代表图像I中坐标(m,n)的像素值，w和h代表当前图像的宽度和高度，μ _x 、μ _y分别代表图像x和y的像素平均值，σ _x 、σ _y分别代表图像x和y像素方差，σ _xy代表图像x与y之间的协方差，c ₁ 、 c ₂ 、k ₁ 和k ₂是可以调整的超参数，n和N分别代表当前训练轮数和总训练轮数；

步骤204：去除关键帧噪声扰动：将步骤202中增强后的关键帧输入生成器，将生成器中输出作为去除噪声扰动后的关键帧。

基于目标检测的语义增强方法流程如图4所示：

步骤301：使用Letterbox技术，将经过去噪处理的关键帧裁剪至指定大小（640×640），裁剪前后内容长宽比保持不变，多余部分填充灰色像素值（127.5）。Letterbox裁剪公式如下，其中，w和h为原始图像长宽，W和H为指定的缩放长宽，和/>为缩放后的图像长宽，dw和dh为填充的边框尺寸；

步骤302：将经过裁剪处理的关键帧输入YOLOv5模型，从而获取多组人体区域目标的位置信息，每组信息都包含一个置信度分数和位置坐标信息；

步骤303：筛选出步骤302中置信度低于设定阈值（Threshold=0.5）的人体目标，并依据这些人体目标的位置信息，裁剪出关键帧中包含人体的最小矩形区域，随后通过Letterbox技术将裁剪后的图像调整至固定大小（448×448）以进行下一步处理。包含人体的最小矩形区域裁剪公式如（32）-（35）所示，其中，xl _i、yl _i、xr _i和yr _i分别为第i组位置信息中的左上顶点横坐标、左上顶点纵坐标、右下顶点横坐标和右下顶点纵坐标，xl、yl、xr和yr为裁剪区域的坐标位置信息，conf _i代表第i组位置信息的置信度，Threshold为置信度阈值，i∈{i | conf _i ≥Threshold}代表i是满足conf _i大于Threshold的集合中的元素；

色情检测模块的具体实施方法如下：

步骤401：训练色情图像检测模型。采用MobileNetV3分类网络作为色情图像检测模型，MobileNetV3图像分类网络结构如图5所示，其中，1×1 Conv和3×3 Conv分别代表卷积核大小为1×1和3×3的卷积层，BN代表批标准化层，H-Swish代表采用H-Swish函数的激活层，Bottleneck代表多个卷积层构成的瓶颈层，AvgPool代表平均池化层。首先使用ImageNet数据集对模型进行预训练（lr=0.001），不采用任何数据增强方式；然后，冻结骨干网络，替换全连接层，并在NSFW色情数据集上微调模型（lr=0.0001），同时采用随机旋转、添加噪声等数据增强方式扩充训练数据集，从而训练出一个检测准确且抗过拟合的色情图像检测模型。

步骤402：色情视频检测。MobileNetV3色情检测模型训练完毕后，将其应用于经过图像增强模块和语义增强模块处理的关键帧，根据模型输出的敏感分数是否大于敏感度阈值（nsfw_threshold=0.8）来对关键帧进行分类。如果关键帧的分类结果均为正常，则视频检测结果为正常；否则，检测结果为色情。

以上所述，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化，均落入本发明的保护范围之内。

Claims

1.一种基于语义和图像增强的色情视频检测方法，其特征在于：包括下述步骤：

1）将目标视频输入关键帧抽取模块中，综合使用预采样、图像熵、密度聚类和局部帧差分处理技术，逐步减少冗余，获得了紧凑浓缩且具有代表性的关键帧集合；

2）经步骤1）后，图像增强模块利用光照增强和生成对抗网络技术，分别从抗暗光干扰和抗噪声干扰两方面增强关键帧集合中的关键帧，得到经过去噪处理的关键帧；

3）采用基于YOLOv5目标检测网络构建的语义增强模块定位经过去噪处理的关键帧中的人体目标，并根据YOLOv5目标检测网络输出的人体位置坐标信息，裁剪得到关键帧中包含人体的矩形区域；

4）使用MobileNetV3图像分类网络构建的色情检测模块，在引入特征融合与注意力机制的情况下进行色情视频和正常视频的分类。

2.根据权利要求1所述的一种基于语义和图像增强的色情视频检测方法，其特征在于：所述步骤1）包括下述具体步骤：

1.3）对信息帧集合中的视频帧计算邻域密度和相对距离，完成密度聚类，从中选取固定比例的视频帧，构建代表帧集合；

1.4）计算代表帧集合中图像的局部差分值，将差分值与阈值比较，移除小于阈值的视频帧，得到关键帧集合。

3.根据权利要求1所述的一种基于语义和图像增强的色情视频检测方法，其特征在于：所述步骤2）包括下述具体步骤：

2.1）通过逐通道输入关键帧集合中关键帧到图像增强模块的深度曲线估计网络，并利用深度神经网络来拟合图像光照增强所需参数的映射关系，以获得不同通道不同阶段的光照增强曲线；

2.2）利用步骤2.1）中获得的光照增强曲线，通过深度曲线估计网络逐通道逐阶段地对关键帧集合中的关键帧进行光照增强操作，生成经过光照增强后的关键帧；

2.4）将经过光照增强后的关键帧输入到压缩-重建网络，去除图像噪声并获取生成器的输出，从而获得经过去噪处理的关键帧。

4.根据权利要求3所述的一种基于语义和图像增强的色情视频检测方法，其特征在于：所述步骤2.3）包括下述具体步骤：

2.3.2）使用自动编码器构建生成器，并基于Resnet50网络构建判定器；

2.3.3）对生成器和判定器进行训练：将原始图像和经过生成器压缩-重建处理的噪声图像共同输入到判定器中，并通过最小化内容损失和对抗性损失来优化生成器和判定器的参数，最终训练得到压缩-重建网络。

5.根据权利要求1所述的一种基于语义和图像增强的色情视频检测方法，其特征在于：所述步骤3）包括下述具体步骤：

6.根据权利要求1所述的一种基于语义和图像增强的色情视频检测方法，其特征在于：所述步骤4）包括下述步骤：

7.根据权利要求6所述的一种基于语义和图像增强的色情视频检测方法，其特征在于：所述4.1）包括下述具体步骤：

4.1.2）采用随机旋转和添加噪声的方法来扩充训练数据集；

4.1.4）使用处理后的训练数据集来微调色情检测模块。

8.根据权利要求6所述的一种基于语义和图像增强的色情视频检测方法，其特征在于：所述步骤4.2）具体为：将步骤3）所得的关键帧输入到训练好的色情检测模块，根据输出分数判定该关键帧的分类结果：如果目标视频的任意关键帧被判定为色情，则目标视频被分类为色情视频；仅当目标视频的所有关键帧被判定为正常，目标视频被分类为正常视频。