CN114666571A - 视频敏感内容检测方法及系统 - Google Patents
视频敏感内容检测方法及系统 Download PDFInfo
- Publication number
- CN114666571A CN114666571A CN202210214422.3A CN202210214422A CN114666571A CN 114666571 A CN114666571 A CN 114666571A CN 202210214422 A CN202210214422 A CN 202210214422A CN 114666571 A CN114666571 A CN 114666571A
- Authority
- CN
- China
- Prior art keywords
- video
- detected
- sensitive content
- quality
- compressed domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 150
- 238000000034 method Methods 0.000 claims abstract description 64
- 238000012549 training Methods 0.000 claims description 59
- 230000004927 fusion Effects 0.000 claims description 28
- 238000013441 quality evaluation Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 13
- 238000001303 quality assessment method Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 2
- 238000012545 processing Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 12
- 239000013598 vector Substances 0.000 description 12
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N17/00—Diagnosis, testing or measuring for television systems or their details
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/44—Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明提供一种视频敏感内容检测方法及系统,该方法包括:对待检测视频执行解码方法的部分步骤,提取所述待检测视频的压缩域信息;根据所述压缩域信息判断所述待检测视频的质量是否合格;在所述待检测视频的质量不合格的情况下,确定所述待检测视频中不存在敏感内容;在所述待检测视频的质量合格的情况下,根据所述压缩域信息对所述待检测视频进行敏感内容检测,确定所述待检测视频中是否存在敏感内容。本发明降低了敏感内容检测的资源消耗,提高检测效率和检测准确率。
Description
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种视频敏感内容检测方法及系统。
背景技术
在视频安全领域,敏感内容检测是最为关键的工作。现有的方法,都是先将一段视频,进行全解码,得到N帧RGB图像帧。然后以这N帧RGB图像作为输入,进行敏感内容检测。例如,使用训练好的深度学习网络进行敏感内容检测,利用分类器判断N帧图像中是否有敏感内容。
这类方法有两个明显的缺点:第一,该方法需要对每个视频进行全解码,视频全解码对于计算资源和计算时间要求很高。因此,这类方法很难在端侧设备运行,另外在云端也难以处理海量的视频数据,很难规模化;第二,此类方法对于低质量视频的泛化能力较差,对于肉眼难以辨别内容的低质量视频,该类方法大概率会将其划分为敏感视频,从而造成大量的误检测和误报警,影响性能。
发明内容
本发明提供一种视频敏感内容检测方法及系统,用以解决现有技术中视频敏感内容检测消耗资源大,效率低,错误率高的缺陷,实现降低视频敏感内容检测的资源消耗和错误率,提高检测效率。
本发明提供一种视频敏感内容检测方法,包括:
对待检测视频执行解码方法的部分步骤,提取所述待检测视频的压缩域信息;
根据所述压缩域信息判断所述待检测视频的质量是否合格;
在所述待检测视频的质量不合格的情况下,确定所述待检测视频中不存在敏感内容;
在所述待检测视频的质量合格的情况下,根据所述压缩域信息对所述待检测视频进行敏感内容检测,确定所述待检测视频中是否存在敏感内容。
根据本发明提供的一种视频敏感内容检测方法,所述根据所述压缩域信息判断所述待检测视频的质量是否合格,包括:
将所述压缩域信息分别输入视频质量评估模型的不同分支;
根据所有分支的输出,确定所述待检测视频的质量是否合格;
其中,所述视频质量评估模型以样本视频的压缩域信息为样本,以所述样本视频的质量实际是否合格为标签进行训练获取。
根据本发明提供的一种视频敏感内容检测方法,所述将所述压缩域信息分别输入视频质量评估模型的不同分支,之前还包括:
将所述样本视频的压缩域信息分别输入所述视频质量评估模型的不同分支,对每个分支的输出进行二分类,确定所述样本视频的质量是否合格;
将所述样本视频对于每个分支的二分类结果和所述样本视频的标签进行对比,根据对比结果对每个分支进行预训练;
将所述样本视频的压缩域信息分别输入预训练后的不同分支,根据所有分支的输出进行融合,对融合结果进行二分类,确定所述待检测视频的质量是否合格;
将所述融合结果的二分类结果和所述样本视频的标签进行对比,根据对比结果对所述视频质量评估模型进行训练。
根据本发明提供的一种视频敏感内容检测方法,所述根据所述压缩域信息对所述待检测视频进行敏感内容检测,确定所述待检测视频中是否存在敏感内容,包括:
将所述待检测视频的压缩域信息分别输入敏感内容检测模型的不同分支;
根据所有分支的输出,确定所述待检测视频中是否存在敏感内容;
其中,所述敏感内容检测模型以样本视频的压缩域信息为样本,以所述样本视频中是否存在敏感内容为标签进行训练获取。
根据本发明提供的一种视频敏感内容检测方法,所述将所述待检测视频的压缩域信息分别输入敏感内容检测模型的不同分支,之前还包括:
将所述样本视频的压缩域信息分别输入所述敏感内容检测模型的不同分支,对每个分支的输出进行二分类,确定所述样本视频中是否存在敏感内容;
将所述样本视频对于每个分支的二分类结果和所述样本视频的标签进行对比,根据对比结果对每个分支进行预训练;
使用两个超参数对预训练后的敏感内容检测模型进行训练;其中,一个所述超参数用于控制所述敏感内容检测模型的检测速度,另一个所述超参数用于控制所述敏感内容检测模型的检测精度。
根据本发明提供的一种视频敏感内容检测方法,使用两个超参数对预训练后的敏感内容检测模型进行训练的损失函数为:
其中,为所述损失函数的值,和为所述两个超参数,为影响
所述敏感内容检测模型的检测速度的损失函数,为影响所述敏感内容检测模型的检测
精度的损失函数,为所述敏感内容检测模型的权重,根据预训练后所述分支的输
出或预训练后所述分支的中间层的输出确定,根据使用两个超参数对敏感内容检测
模型训练的过程中分支的输出或分支的中间层的输出确定。
本发明还提供一种视频敏感内容检测系统,包括:
提取模块,用于对待检测视频执行解码方法的部分步骤,提取所述待检测视频的压缩域信息;
判断模块,用于根据所述压缩域信息判断所述待检测视频的质量是否合格;
检测模块,用于在所述待检测视频的质量不合格的情况下,确定所述待检测视频中不存在敏感内容;在所述待检测视频的质量合格的情况下,根据所述压缩域信息对所述待检测视频进行敏感内容检测,确定所述待检测视频中是否存在敏感内容。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述视频敏感内容检测方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述视频敏感内容检测方法的步骤。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述视频敏感内容检测方法的步骤。
本发明提供的一种视频敏感内容检测方法及系统,通过对待检测视频进行部分解码,根据解码得到的压缩域信息判断待检测视频的质量是否合格,仅对质量合格的待检测视频进行敏感内容检测,一方面,对大部分视频只需要进行部分解码,降低了资源消耗,提高了检测效率;另一方面,对质量不合格的视频不进行内容检测,降低了敏感内容检测的误检率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的视频敏感内容检测方法的流程示意图之一;
图2是本发明提供的视频敏感内容检测方法的流程示意图之二;
图3是本发明提供的视频敏感内容检测系统的结构示意图;
图4是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1描述本发明的视频敏感内容检测方法,该方法包括:步骤101,对待检测视频执行解码方法的部分步骤,提取所述待检测视频的压缩域信息;
本实施例不受具体的硬件平台和编程语言的限制,用任何语言,例如C++和Python,都可以实现本实施例描述的方法。本实施例的实现环境实际不受硬件和环境限制。可选地,采用一台3.2GHz 64核中央处理器和64G字节内存的服务器,网络的训练和推理过程在Pytorch框架下实现,整个网络的训练和测试均采用多个Tesla A100 GPU并行处理。在视频压缩域信息组抽取的工作程序编写上采用C++语言实现。
其中,待检测视频为需要进行敏感内容检测的视频。编写程序对待检测视频执行解码方法中的部分步骤,即对待检测视频进行不完全解码,使得根据解码的内容可以提取到待检测视频的压缩域信息即可。例如本实施例中对待检测视频进行不完全解码的耗时是对其完全解码得到所有RGB图像帧的耗时的1/10。
以FFmpeg为基础框架,对其中的H265码流的解码方式进行研究和调整。主要研究其中I帧解码、熵解码、反量化以及反DCT(Discrete Cosine Transform,离散余弦变换)等步骤。通过对以上步骤的研究,修改H265解码框架,去除多余的步骤,使得H265框架可以高效输出所需的压缩域信息。为了进一步提升解码效率,采用C++和Python混合编译的方式来完成。
可选地,压缩域信息包括视频的关键帧I帧、运动矢量信息和残差信息。其中,关键帧I帧包含待检测视频中最为关键的RGB空间信息,但是I帧十分稀疏,约占待检测视频总帧数的1/10。运动矢量信息MV包含待检测视频的运动信息,即关键帧到关键帧视频内容随时间的变化过程。残差信息R包含每帧中运动主体的轮廓和边界信息。{I,MV,R}为待检测视频的压缩域信息数组,构成多模态信息。
另外,还可提取待检测视频的音频信息,由于音频解码的速度比视频解码的速度快很多,因此对待检测视频的音频进行全解码,得到音频信息V,将{I,MV,R,V}作为待检测视频的多模态信息。
步骤102,根据所述压缩域信息判断所述待检测视频的质量是否合格;
根据待检测视频的多模态信息判断待检测视频的质量是否合格,本实施例不限于具体的判断方法。
步骤103,在所述待检测视频的质量不合格的情况下,确定所述待检测视频中不存在敏感内容;
如果待检测视频的质量不合格,容易误判为待检测视频中存在敏感内容,即使待检测视频中存在敏感内容,由于视频质量不合格影响力较小,因此直接确定待检测视频中没有敏感内容。从而筛选掉质量不合格的待检测视频,降低误检测率,进而降低人工审核的工作量。
在所述待检测视频的质量合格的情况下,根据所述压缩域信息对所述待检测视频进行敏感内容检测,确定所述待检测视频中是否存在敏感内容。
如果待检测视频的质量合格,则进一步基于待检测视频的压缩域信息对待检测视频进行敏感内容检测。
可选地,如果检测出待检测视频中无敏感内容,则获知待检测视频是安全的,无需进行进一步判断;如果检测出待检测视频中存在敏感内容,则为了降低误判率,可对待检测视频进行全解码,基于待检测视频的RGB信息对待检测视频再次进行敏感内容检测,获取最终的检测结果。完整的流程示意图如图2所示。如果最终检测到待检测视频中存在敏感内容,则进行风险预警,要求人工进行审核判断。
基于压缩域信息{I,MV,R,V}进行第一阶段的敏感内容检测,这一步由于解码时间较短,可以快速完成。如果这一阶段检测出视频中无敏感内容,则无需进行进一步判断;反之,如果检测到视频有敏感内容,则对视频进行全解码得到RGB信息,基于RGB信息进行第二阶段的敏感内容检测,并得到结果。
根据视频内容进行两阶段自适应敏感内容检测,大部分安全视频只需要基于待检测视频的压缩域信息进行第一阶段的压缩域敏感内容检测,只有小部分可能不安全的视频需要进行全解码。由于压缩域信息提取的效率比RGB信息高,提升了敏感内容检测的效率,结合二阶段的RGB敏感内容检测模型,整体的准确度也有保障,做到耗时和精确度的折中,适用于海量视频的敏感内容检测。
本实施例通过对待检测视频进行部分解码,根据解码得到的压缩域信息判断待检测视频的质量是否合格,仅对质量合格的待检测视频进行敏感内容检测,一方面,对大部分视频只需要进行部分解码,降低了资源消耗,提高了检测效率;另一方面,对质量不合格的视频不进行内容检测,降低了敏感内容检测的误检率。
在上述实施例的基础上,本实施例中所述根据所述压缩域信息判断所述待检测视频的质量是否合格,包括:将所述压缩域信息分别输入视频质量评估模型的不同分支;
传统的视频质量评估模型单独根据视频的RGB信息进行评估,而本实施例使用多模态信息{I,MV,R,V}进行评估,因此传统的视频质量评估模型不再适用。
针对新的输入信息,为每类输入信息设计一个分支。可选地,本实施例中的视频质量评估模型包括I分支、MV分支、R分支、V分支和多模态信息融合模块。本实施例对分支的数量不作限定。
其中,I分支用于处理待检测视频的关键帧I帧信息,格式为RGB图像,即I分支的输入为每个I帧的3通道RGB图像,输出为I帧的特征图谱。I分支的网络结构可为ResNet、InceptionNet、DenseNet或ViT等。可选地,I分支的网络结构采用ResNet34结构,兼顾网络性能和运行效率。
MV分支用于处理待检测视频的运动矢量信息,输入为多张2通道的运动矢量图像,输出为对应的特征图谱。2通道图像包括x方向的运动矢量图像和y方向的运动矢量图像。其网络结构可以是ResNet、InceptionNet、DenseNet或ViT等。可选地,MV分支采用ResNet18结构,因为运动矢量的输入分辨率较小,采用ResNet18已经可以达到较好的性能。
R分支用于处理待检测视频中主体对象的轮廓和边界信息。输入为多张2通道的残差图像,输出为对应的特征图谱。2通道图像包括x方向的残差图像和y方向的残差图像。其网络结构可以是ResNet、InceptionNet、DenseNet或ViT等。可选地,R分支的网络结构采用ResNet18结构,因为残差的输入分辨率较小,采用ResNet18已经可以达到较好的性能。
V分支用于处理待检测视频的音频信息。输入为音频序列,输出为对应的音频特征序列。其网络结构为FSMN(Feedforward Sequential Memory Networks,前馈序列记忆神经网络)或RNN(Recurrent Neural Network,循环神经网络)等。可选地,V分支的网络结构采用FSMN结构,因为音频信号处理复杂度低,选用性能较好的网络结构。
根据所有分支的输出,确定所述待检测视频的质量是否合格;
多模态信息融合模块的输入为四个分支的输出,多模态信息融合模块的输出为视频的质量得分,范围为0至100,质量得分越高表示视频质量越好。根据质量得分得到二分类结果,即待检测视频的质量是否合格。可将四个分支的输入进行拼接后再进行分类。多模态信息融合模块的网络结构可为Transformer,因为Transformer可以以同样的格式处理视频信息和音频信息。可选地,多模态信息融合模块包含6个残差模块,每个残差模块包含两个3*3的卷积层,用于对多模态信息进行融合。
其中,所述视频质量评估模型以样本视频的压缩域信息为样本,以所述样本视频的质量实际是否合格为标签进行训练获取。
视频质量评估模型需要大量的训练样本来实现预期的功能。可从网络上爬取视频,然后结合人工标注,标注样本视频是否为低质量视频,是否包含敏感内容,得到训练数据集。由于低质量视频的占比比较低,通过一个高通滤波器对视频进行滤波,将高质量的视频处理成低质量的视频,从而扩充训练的样本。
视频质量评估模型训练完成后,使用训练好的视频质量评估模型对待检测视频进行无参考视频质量评估。只有质量合格的待检测视频才需要进行敏感内容检测。
本实施例通过先将压缩域信息分别输入视频质量评估模型的不同分支,在浅层进行独立学习,然后在深层进行融合,最后针对输入得到待检测视频的质量分类结果,提高质量分类的准确性。
在上述实施例的基础上,本实施例中所述将所述压缩域信息分别输入视频质量评估模型的不同分支,之前还包括:将所述样本视频的压缩域信息分别输入所述视频质量评估模型的不同分支,对每个分支的输出进行二分类,确定所述样本视频的质量是否合格;将所述样本视频对于每个分支的二分类结果和所述样本视频的标签进行对比,根据对比结果对每个分支进行预训练;
由于视频质量评估模型的输入包含多模态信息,网络结构复杂,直接对整个模型进行训练收敛慢,泛化性能差。因此本实施例采用采用单模态预训练和多模态融合的训练方法。
在单模态预训练中,对于每个分支,根据每个分支的输出单独进行质量分类,根据分类结果的正确率对每个分支的参数进行调整,直到每个分支收敛,实现对每个分支单独进行二分类预训练。以I分支为例,将I帧输入到ResNet34网络中,并使用CrossEntropyLoss进行二分类训练,0类表示质量不合格,1类表示质量合格。
将所述样本视频的压缩域信息分别输入预训练后的不同分支,根据所有分支的输出进行融合,对融合结果进行二分类,确定所述待检测视频的质量是否合格;将所述融合结果的二分类结果和所述样本视频的标签进行对比,根据对比结果对所述视频质量评估模型进行训练。
在多模态融合训练中,将多模态信息输入预训练后的分支中,将所有分支的输出输入到多模态信息融合模块中,对整个视频质量评估模型进行联合优化,实现对各分支的参数继续进行微调。在优化过程中,视频质量评估模型不同部分的学习率不同。可选地,使用CrossEntropyLoss对整个视频质量评估模型进行二分类训练,0类表示质量不合格,1类表示质量合格。
在上述各实施例的基础上,本实施例中所述根据所述压缩域信息对所述待检测视频进行敏感内容检测,确定所述待检测视频中是否存在敏感内容,包括:将所述待检测视频的压缩域信息分别输入敏感内容检测模型的不同分支;
如果待检测视频的质量合格,先使用基于压缩域的敏感内容检测模型进行检测。
基于压缩域的敏感内容检测模型包括I分支、MV分支、R分支、V分支和多模态信息融合模块。
其中,I分支用于处理待检测视频的关键帧I帧信息,格式为RGB图像,即I分支的输入为每个I帧的3通道RGB图像,输出为I帧的特征图谱。3通道为图像的R、G和B通道。I分支的网络结构可为ResNet、InceptionNet、DenseNet或ViT等。可选地,I分支采用ResNet34结构,兼顾网络性能和运行效率。
MV分支用于处理待检测视频的运动矢量信息,输入为多张2通道的运动矢量图像,输出为对应的特征图谱。2通道图像包括x方向的运动矢量图像和y方向的运动矢量图像。其网络结构可以是ResNet、InceptionNet、DenseNet或ViT等。可选地,MV分支的网络结构采用ResNet18结构,因为运动矢量信息的输入分辨率较小,采用ResNet18已经可以达到较好的性能。
R分支用于处理待检测视频中主体对象的轮廓和边界信息。输入为多张2通道的残差图像,输出为对应的特征图谱。2通道图像包括x方向的残差图像和y方向的残差图像。其网络结构可以是ResNet、InceptionNet、DenseNet或ViT等。可选地,R分支的网络结构采用ResNet18结构,因为残差的输入分辨率较小,采用ResNet18已经可以达到较好的性能。
V分支用于处理待检测视频的音频信息。输入为音频序列,输出为对应的音频特征序列。其网络结构为FSMN或RNN等。可选地,V分支的网络结构采用FSMN结构,因为音频信号处理复杂度低,选用性能较好的网络结构。
根据所有分支的输出,确定所述待检测视频中是否存在敏感内容;
多模态信息融合模块的输入为四个分支的输出,多模态信息融合模块的输出为的输出为视频包含敏感内容的概率。根据概率得到二分类结果,即待检测视频中是否存在敏感内容。可将四个分支的输入进行拼接后再进行分类。多模态信息融合模块的网络结构可为Transformer,因为Transformer可以以同样的格式处理视频信息和音频信息。可选地,多模态信息融合模块包含6个残差模块,每个残差模块包含两个3*3的卷积层,用于对多模态信息进行融合。
其中,所述敏感内容检测模型以样本视频的压缩域信息为样本,以所述样本视频中是否存在敏感内容为标签进行训练获取。
可选地,在使用基于压缩域的敏感内容检测模型检测出待检测视频中不存在敏感内容的情况下,确定待检测视频中不存在敏感内容;在检测出待检测视频中存在敏感内容的情况下,继续使用基于RGB信息的敏感内容检测模型对待检测视频进行进一步检测,将进一步检测的结果作为待检测视频的最终检测结果。
基于RGB信息的敏感内容检测模型包括RGB分支、V分支和多模态信息融合模块。其中,RGB分支用于处理RGB信息,格式为待检测视频全解码得到的RGB图像,即输入为待检测视频的多张3通道RGB图像,输出为对应的特征图谱。其网络结构可以是ResNet、InceptionNet、DenseNet或ViT等。可选地,RGB分支采用ResNet34。
V分支用于处理待检测视频的音频信息。输入为音频序列,输出为对应的音频特征序列。其网络结构为FSMN或RNN等。可选地,V分支的网络结构采用FSMN结构,因为音频信号处理复杂度低,选用性能较好的网络结构。
多模态信息融合模块的输入为RGB分支和V分支的输出,输出为二分类结果,即待检测视频是否包含敏感内容。网络结构可为Transformer,因为Transformer可以以同样的格式处理视频和音频信息。可选地,采用ViT(Vision Transformer,视觉转换器)。
在上述实施例的基础上,本实施例中所述将所述待检测视频的压缩域信息分别输入敏感内容检测模型的不同分支,之前还包括:将所述样本视频的压缩域信息分别输入所述敏感内容检测模型的不同分支,对每个分支的输出进行二分类,确定所述样本视频中是否存在敏感内容;将所述样本视频对于每个分支的二分类结果和所述样本视频的标签进行对比,根据对比结果对每个分支进行预训练;
在使用基于压缩域的敏感内容检测模型进行敏感内容检测之前,先对该模型进行训练。训练过程为:首先对每个分支单独进行预训练;然后设置超参数ALPHA和BETA,将整个基于压缩域的敏感内容检测模型进行联合训练,得到最终的基于压缩域的敏感内容检测模型。
使用两个超参数对预训练后的敏感内容检测模型进行训练;其中,一个所述超参数用于控制所述敏感内容检测模型的检测速度,另一个所述超参数用于控制所述敏感内容检测模型的检测精度。
基于压缩域的敏感内容检测模型还包括超网络模块,用于对整个基于压缩域的敏感内容检测模型进行联合训练。该模块的输入为两个超参数,以及基于压缩域的敏感内容检测模型中所有分支和多模态信息融合模块调整前的权重,输出为基于压缩域的敏感内容检测模型中所有分支和多模态信息融合模块调整后的权重。
基于压缩域的敏感内容检测模型的一个超参数为ALPHA,用于控制模型速度,该输入越大模型速度越快;另一个超参数为BETA,用于控制模型精度,该输入越大模型精度越高。即通过元学习的方式控制基于压缩域的敏感内容检测模型中所有分支和多模态信息融合模块的网络结构,使得其在训练结束后能够达到由两个超参数控制的精度和速度折中。完成训练后,使用该模型对质量合格的待检测视频进行敏感内容检测。
在使用基于RGB信息的敏感内容检测模型进行敏感内容检测之前,先对该模型进行训练。训练过程为:首先对每个分支单独进行预训练;然后设置超参数ALPHA和BETA,将整个基于RGB信息的敏感内容检测模型进行联合训练,得到最终的基于压缩域的敏感内容检测模型。
基于RGB信息的敏感内容检测模型还包括超网络模块,用于对整个基于RGB信息的敏感内容检测模型进行联合训练。该模块的输入为两个超参数,以及基于RGB信息的敏感内容检测模型中所有分支和多模态信息融合模块调整前的权重,输出为基于RGB信息的敏感内容检测模型中所有分支和多模态信息融合模块调整后的权重。
基于RGB信息的敏感内容检测模型的一个超参数为ALPHA,用于控制模型速度,该输入越大模型速度越快;另一个超参数为BETA,用于控制模型精度,该输入越大模型精度越高。即通过元学习的方式控制基于RGB信息的敏感内容检测模型中所有分支和多模态信息融合模块的网络结构,使得其在训练结束后能够达到由两个超参数控制的精度和速度折中。完成训练后,使用该模型对一阶段检测出敏感内容的视频进行全解码后继续进行二阶段检测。
本实施例在训练过程中引入元学习的自适应模型训练架构,使得敏感内容检测模型在同样准确度的情况下,速度明显提升,或者在同样速度的情况下,准确度明显提升。同时,速度和精度的折衷可以根据用户的需求在训练阶段进行自适应的调整,相比传统的模型和方法更加灵活。
在上述实施例的基础上,本实施例中使用两个超参数对预训练后的敏感内容检测模型进行训练的损失函数为:
其中,为所述损失函数的值,和为所述两个超参数,为影响
所述敏感内容检测模型的检测速度的损失函数,为影响所述敏感内容检测模型的检测
精度的损失函数,为所述敏感内容检测模型的权重,根据预训练后所述分支的输
出或预训练后所述分支的中间层的输出确定,根据使用两个超参数对敏感内容检测
模型训练的过程中分支的输出或分支的中间层的输出确定。
对基于压缩域信息和基于RGB信息的敏感内容检测模型进行训练使用的损失函数公式相同。
下面对本发明提供的视频敏感内容检测系统进行描述,下文描述的视频敏感内容检测系统与上文描述的视频敏感内容检测方法可相互对应参照。
如图3所示,该系统包括提取模块301、判断模块302和检测模块303,其中:
提取模块301用于对待检测视频执行解码方法的部分步骤,提取所述待检测视频的压缩域信息;
判断模块302用于根据所述压缩域信息判断所述待检测视频的质量是否合格;
检测模块303用于在所述待检测视频的质量不合格的情况下,确定所述待检测视频中不存在敏感内容;在所述待检测视频的质量合格的情况下,根据所述压缩域信息对所述待检测视频进行敏感内容检测,确定所述待检测视频中是否存在敏感内容。
本实施例通过对待检测视频进行部分解码,根据解码得到的压缩域信息判断待检测视频的质量是否合格,仅对质量合格的待检测视频进行敏感内容检测,一方面,对大部分视频只需要进行部分解码,降低了资源消耗,提高了检测效率;另一方面,对质量不合格的视频不进行内容检测,降低了敏感内容检测的误检率。
图4示例了一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行视频敏感内容检测方法,该方法包括:对待检测视频执行解码方法的部分步骤,提取所述待检测视频的压缩域信息;根据所述压缩域信息判断所述待检测视频的质量是否合格;在所述待检测视频的质量不合格的情况下,确定所述待检测视频中不存在敏感内容;在所述待检测视频的质量合格的情况下,根据所述压缩域信息对所述待检测视频进行敏感内容检测,确定所述待检测视频中是否存在敏感内容。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的视频敏感内容检测方法,该方法包括:对待检测视频执行解码方法的部分步骤,提取所述待检测视频的压缩域信息;根据所述压缩域信息判断所述待检测视频的质量是否合格;在所述待检测视频的质量不合格的情况下,确定所述待检测视频中不存在敏感内容;在所述待检测视频的质量合格的情况下,根据所述压缩域信息对所述待检测视频进行敏感内容检测,确定所述待检测视频中是否存在敏感内容。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的视频敏感内容检测方法,该方法包括:对待检测视频执行解码方法的部分步骤,提取所述待检测视频的压缩域信息;根据所述压缩域信息判断所述待检测视频的质量是否合格;在所述待检测视频的质量不合格的情况下,确定所述待检测视频中不存在敏感内容;在所述待检测视频的质量合格的情况下,根据所述压缩域信息对所述待检测视频进行敏感内容检测,确定所述待检测视频中是否存在敏感内容。
以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种视频敏感内容检测方法,其特征在于,包括:
对待检测视频执行解码方法的部分步骤,提取所述待检测视频的压缩域信息;
根据所述压缩域信息判断所述待检测视频的质量是否合格;
在所述待检测视频的质量不合格的情况下,确定所述待检测视频中不存在敏感内容;
在所述待检测视频的质量合格的情况下,根据所述压缩域信息对所述待检测视频进行敏感内容检测,确定所述待检测视频中是否存在敏感内容。
2.根据权利要求1所述的视频敏感内容检测方法,其特征在于,所述根据所述压缩域信息判断所述待检测视频的质量是否合格,包括:
将所述压缩域信息分别输入视频质量评估模型的不同分支;
根据所有分支的输出,确定所述待检测视频的质量是否合格;
其中,所述视频质量评估模型以样本视频的压缩域信息为样本,以所述样本视频的质量实际是否合格为标签进行训练获取。
3.根据权利要求2所述的视频敏感内容检测方法,其特征在于,所述将所述压缩域信息分别输入视频质量评估模型的不同分支,之前还包括:
将所述样本视频的压缩域信息分别输入所述视频质量评估模型的不同分支,对每个分支的输出进行二分类,确定所述样本视频的质量是否合格;
将所述样本视频对于每个分支的二分类结果和所述样本视频的标签进行对比,根据对比结果对每个分支进行预训练;
将所述样本视频的压缩域信息分别输入预训练后的不同分支,根据所有分支的输出进行融合,对融合结果进行二分类,确定所述待检测视频的质量是否合格;
将所述融合结果的二分类结果和所述样本视频的标签进行对比,根据对比结果对所述视频质量评估模型进行训练。
4.根据权利要求1-3任一所述的视频敏感内容检测方法,其特征在于,所述根据所述压缩域信息对所述待检测视频进行敏感内容检测,确定所述待检测视频中是否存在敏感内容,包括:
将所述待检测视频的压缩域信息分别输入敏感内容检测模型的不同分支;
根据所有分支的输出,确定所述待检测视频中是否存在敏感内容;
其中,所述敏感内容检测模型以样本视频的压缩域信息为样本,以所述样本视频中是否存在敏感内容为标签进行训练获取。
5.根据权利要求4所述的视频敏感内容检测方法,其特征在于,所述将所述待检测视频的压缩域信息分别输入敏感内容检测模型的不同分支,之前还包括:
将所述样本视频的压缩域信息分别输入所述敏感内容检测模型的不同分支,对每个分支的输出进行二分类,确定所述样本视频中是否存在敏感内容;
将所述样本视频对于每个分支的二分类结果和所述样本视频的标签进行对比,根据对比结果对每个分支进行预训练;
使用两个超参数对预训练后的敏感内容检测模型进行训练;其中,一个所述超参数用于控制所述敏感内容检测模型的检测速度,另一个所述超参数用于控制所述敏感内容检测模型的检测精度。
7.一种视频敏感内容检测系统,其特征在于,包括:
提取模块,用于对待检测视频执行解码方法的部分步骤,提取所述待检测视频的压缩域信息;
判断模块,用于根据所述压缩域信息判断所述待检测视频的质量是否合格;
检测模块,用于在所述待检测视频的质量不合格的情况下,确定所述待检测视频中不存在敏感内容;在所述待检测视频的质量合格的情况下,根据所述压缩域信息对所述待检测视频进行敏感内容检测,确定所述待检测视频中是否存在敏感内容。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述视频敏感内容检测方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述视频敏感内容检测方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述视频敏感内容检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210214422.3A CN114666571A (zh) | 2022-03-07 | 2022-03-07 | 视频敏感内容检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210214422.3A CN114666571A (zh) | 2022-03-07 | 2022-03-07 | 视频敏感内容检测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114666571A true CN114666571A (zh) | 2022-06-24 |
Family
ID=82027569
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210214422.3A Pending CN114666571A (zh) | 2022-03-07 | 2022-03-07 | 视频敏感内容检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114666571A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116778376A (zh) * | 2023-05-11 | 2023-09-19 | 中国科学院自动化研究所 | 内容安全检测模型训练方法、检测方法和装置 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101448176A (zh) * | 2008-12-25 | 2009-06-03 | 华东师范大学 | 一种基于视频特征的流视频质量评估方法 |
CN102572502A (zh) * | 2010-12-17 | 2012-07-11 | 北京东方文骏软件科技有限责任公司 | 一种用于视频质量评价的关键帧的选取方法 |
CN105357526A (zh) * | 2015-11-13 | 2016-02-24 | 西安交通大学 | 基于压缩域的考虑场景分类的手机足球视频质量评估装置和方法 |
US20170185841A1 (en) * | 2015-12-29 | 2017-06-29 | Le Holdings (Beijing) Co., Ltd. | Method and electronic apparatus for identifying video characteristic |
CN109151479A (zh) * | 2018-08-29 | 2019-01-04 | 南京邮电大学 | 基于h.264压缩域模式和空时特征的显著度提取方法 |
CN111493935A (zh) * | 2020-04-29 | 2020-08-07 | 中国人民解放军总医院 | 基于人工智能的超声心动图自动预测识别方法及系统 |
CN111523511A (zh) * | 2020-05-08 | 2020-08-11 | 中国科学院合肥物质科学研究院 | 一种用于枸杞采收夹持装置的视频图像枸杞枝条检测方法 |
CN112215908A (zh) * | 2020-10-12 | 2021-01-12 | 国家计算机网络与信息安全管理中心 | 面向压缩域的视频内容比对系统、优化方法、比对方法 |
CN112990273A (zh) * | 2021-02-18 | 2021-06-18 | 中国科学院自动化研究所 | 面向压缩域的视频敏感人物识别方法、系统及设备 |
CN113283282A (zh) * | 2021-03-10 | 2021-08-20 | 北京工业大学 | 一种基于时域语义特征的弱监督时序动作检测方法 |
CN113573044A (zh) * | 2021-01-19 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 视频数据处理方法、装置、计算机设备及可读存储介质 |
CN113850242A (zh) * | 2021-11-30 | 2021-12-28 | 北京中超伟业信息安全技术股份有限公司 | 一种基于深度学习算法的仓储异常目标检测方法及系统 |
-
2022
- 2022-03-07 CN CN202210214422.3A patent/CN114666571A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101448176A (zh) * | 2008-12-25 | 2009-06-03 | 华东师范大学 | 一种基于视频特征的流视频质量评估方法 |
CN102572502A (zh) * | 2010-12-17 | 2012-07-11 | 北京东方文骏软件科技有限责任公司 | 一种用于视频质量评价的关键帧的选取方法 |
CN105357526A (zh) * | 2015-11-13 | 2016-02-24 | 西安交通大学 | 基于压缩域的考虑场景分类的手机足球视频质量评估装置和方法 |
US20170185841A1 (en) * | 2015-12-29 | 2017-06-29 | Le Holdings (Beijing) Co., Ltd. | Method and electronic apparatus for identifying video characteristic |
CN109151479A (zh) * | 2018-08-29 | 2019-01-04 | 南京邮电大学 | 基于h.264压缩域模式和空时特征的显著度提取方法 |
CN111493935A (zh) * | 2020-04-29 | 2020-08-07 | 中国人民解放军总医院 | 基于人工智能的超声心动图自动预测识别方法及系统 |
CN111523511A (zh) * | 2020-05-08 | 2020-08-11 | 中国科学院合肥物质科学研究院 | 一种用于枸杞采收夹持装置的视频图像枸杞枝条检测方法 |
CN112215908A (zh) * | 2020-10-12 | 2021-01-12 | 国家计算机网络与信息安全管理中心 | 面向压缩域的视频内容比对系统、优化方法、比对方法 |
CN113573044A (zh) * | 2021-01-19 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 视频数据处理方法、装置、计算机设备及可读存储介质 |
CN112990273A (zh) * | 2021-02-18 | 2021-06-18 | 中国科学院自动化研究所 | 面向压缩域的视频敏感人物识别方法、系统及设备 |
CN113283282A (zh) * | 2021-03-10 | 2021-08-20 | 北京工业大学 | 一种基于时域语义特征的弱监督时序动作检测方法 |
CN113850242A (zh) * | 2021-11-30 | 2021-12-28 | 北京中超伟业信息安全技术股份有限公司 | 一种基于深度学习算法的仓储异常目标检测方法及系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116778376A (zh) * | 2023-05-11 | 2023-09-19 | 中国科学院自动化研究所 | 内容安全检测模型训练方法、检测方法和装置 |
CN116778376B (zh) * | 2023-05-11 | 2024-03-22 | 中国科学院自动化研究所 | 内容安全检测模型训练方法、检测方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109409222B (zh) | 一种基于移动端的多视角人脸表情识别方法 | |
CN108491817B (zh) | 一种事件检测模型训练方法、装置以及事件检测方法 | |
CN110956225B (zh) | 一种违禁品检测方法及系统、一种计算设备及存储介质 | |
US20220019805A1 (en) | Video watermark identification method and apparatus, device, and storage medium | |
US10776662B2 (en) | Weakly-supervised spatial context networks to recognize features within an image | |
CN111160350A (zh) | 人像分割方法、模型训练方法、装置、介质及电子设备 | |
CN112149651B (zh) | 一种基于深度学习的人脸表情识别方法、装置及设备 | |
CN112381763A (zh) | 一种表面缺陷检测方法 | |
CN112580458A (zh) | 人脸表情识别方法、装置、设备及存储介质 | |
CN114463759A (zh) | 一种基于无锚框算法的轻量化文字检测方法及装置 | |
CN110930378A (zh) | 基于低数据需求的肺气肿影像处理方法及系统 | |
CN113239869A (zh) | 基于关键帧序列和行为信息的两阶段行为识别方法及系统 | |
CN111325766A (zh) | 三维边缘检测方法、装置、存储介质和计算机设备 | |
He et al. | What catches the eye? Visualizing and understanding deep saliency models | |
CN112700432A (zh) | 一种基于异常合成与分解的纹理表面缺陷检测方法与系统 | |
CN114666571A (zh) | 视频敏感内容检测方法及系统 | |
CN111901594A (zh) | 面向视觉分析任务的图像编码方法、电子设备及介质 | |
Singh et al. | CNN based approach for traffic sign recognition system | |
CN112818840A (zh) | 无人机在线检测系统和方法 | |
CN112884721A (zh) | 一种异常检测方法、系统及计算机可读存储介质 | |
CN116704267A (zh) | 一种基于改进yolox算法的深度学习3d打印缺陷检测方法 | |
Liu et al. | A dual-branch balance saliency model based on discriminative feature for fabric defect detection | |
EP3588441A1 (en) | Imagification of multivariate data sequences | |
CN115311544A (zh) | 一种水下鱼类目标检测方法及装置 | |
Lan et al. | Multi-temporal change detection based on deep semantic segmentation networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |