CN113505247B - 基于内容的高时长视频色情内容检测方法 - Google Patents

基于内容的高时长视频色情内容检测方法 Download PDF

Info

Publication number
CN113505247B
CN113505247B CN202110747290.6A CN202110747290A CN113505247B CN 113505247 B CN113505247 B CN 113505247B CN 202110747290 A CN202110747290 A CN 202110747290A CN 113505247 B CN113505247 B CN 113505247B
Authority
CN
China
Prior art keywords
video
network
content
classification
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110747290.6A
Other languages
English (en)
Other versions
CN113505247A (zh
Inventor
赵宏
张陈鹏
王奡隆
常有康
党育
赵凡
胡质彬
倪志敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lanzhou University of Technology
Original Assignee
Lanzhou University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lanzhou University of Technology filed Critical Lanzhou University of Technology
Priority to CN202110747290.6A priority Critical patent/CN113505247B/zh
Publication of CN113505247A publication Critical patent/CN113505247A/zh
Application granted granted Critical
Publication of CN113505247B publication Critical patent/CN113505247B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于内容的高时长视频色情内容检测方法,包括步骤:构建时域和空间域分离进行卷积的S3D‑G网络;训练得到视频分类网络模型;将处理后的缩略视频输入视频分类网络模型中进行视频分类;构造文本情感分类网络,使用数据集对此文本情感分类网络进行训练,得到评论色情内容分类模型;对原视频附带的评论文本进行分类,并记录结果;构造图像分类网络,使用数据集对此图像分类网络进行训练,得到封面色情内容分类模型;对原视频附带的封面图像进行分类,并记录结果;针对于原视频的视频、封面、评论的结果进行综合评定。本发明克服了现有技术中处理高分辨率变化的长视频效率低下、对硬件要求高、延迟高的弊端。

Description

基于内容的高时长视频色情内容检测方法
技术领域
本发明涉及视频内容审核方法,尤其涉及基于内容的高时长视频色情内容检测方法。
背景技术
互联网技术和自媒体的快速发展给人们的工作和生活带来了诸多便利,然而,网络视频资源共享为人们提供便利的同时,一些恐暴、色情等不良视频严重危害青少年的身心健康。我国《宪法》《未成年人保护法》等对不良视频内容明文禁止。这使得视频审核技术成为了各大视频网站不可或缺的一种重要技术,引起了广泛关注。
现有的视频审核方法多采用人工方法,而视频审核员在审核时往往效率低下。而一些无需人工介入的智能识别方法,如传统色情检测方法,或神经网络等深度学习方法,却多用于短视频。这是因为短视频往往具有低分辨率,短时长等特点,这些特点使得传统方法特别适用于短视频,却难以适用于自然拍摄的长视频。
然而很多含有不良信息的场景,往往多见于百万像素甚至更高分辨率,超过30分钟的高时长自然视频中,现有的视频审核方法用时极长,消耗计算资源巨大,难以进行。
发明内容
为克服现有百万级别分辨率,时长大于30分钟的视频审核方法高度依赖人工,用时长,消耗计算资源巨大等不足,本发明提出基于内容的高时长视频色情内容检测方法,进行高效地智能地审核。
本发明的技术方案是这样实现的,基于内容的高时长视频色情内容检测方法,包括步骤:
S1:构造高低分辨率特征图融合单元模块,使用所述高低分辨率特征图融合单元模块构造多分辨率图像预处理网络;
S2:将百万像素级视频数据进行标注,输入所述多分辨率图像预处理网络,处理为合适的训练格式;
S3:搭建低延迟分割网络,所述低延迟分割网络包括基础网络、关键帧选取模块和特征传播模块,其中所述基础网络使用经过预训练的ResNet-101,所述特征传播模块包括权值预测器模块和随空间变化的卷积方法;
S4:使用步骤S2中处理后的视频数据集对所述低延迟分割网络进行训练,得到低延迟分割模型;
S5:使用所述低延迟分割模型和双进程调度方案,对百万级别分辨率、时长大于30分钟的视频进行视频缩略和重点位置标注;
S6:构建时域和空间域分离进行卷积的S3D-G网络;
S7:使用数据集对所述时域和空间域分离进行卷积的S3D-G网络进行训练,得到视频分类网络模型;
S8:将步骤S5处理后的缩略视频输入步骤S7视频分类网络模型中进行视频分类,保存结果;
S9:构造文本情感分类网络,使用数据集对此文本情感分类网络进行训练,得到评论色情内容分类模型;
S10:使用步骤S9中所述的评论色情内容分类模型对原视频附带的评论文本进行分类,并记录结果;
S11:构造图像分类网络,使用数据集对此图像分类网络进行训练,得到封面色情内容分类模型;
S12:使用步骤S11中所述的封面色情内容分类模型对原视频附带的封面图像进行分类,并记录结果;
S13:使用步骤S8、S10、S12中所记录的色情内容评定结果,针对于原视频的视频、封面、评论进行综合评定。
进一步地,步骤S1中所述多分辨率图像预处理网络的构造包括步骤:
S101:构造高低分辨率特征图融合单元模块,所述高低分辨率特征图融合单元模块需要2个输入:特征映射1,用F1表示,特征映射2,用F2表示;所述高低分辨率特征图融合单元模块内部包含一个上采样模块,一个膨胀卷积模块,两个批处理归一化层,一个求和层和一个Relu层;
S102:构造多分辨率图像预处理网络。
进一步地,步骤S3中所述的低延迟分割网络的搭建包括步骤:
S31:基础网络的搭建,基础网络使用经过预训练的ResNet-101,网络从帧中提取视觉特征,将模型分为了两部分,下部和上部,其中下部用SL表示,上部用SH表示,来自SL的低级特性用于选择关键帧和控制高级特性的传播方式;
S32:关键帧选取模块的搭建,对于每个时间步骤T,即一个新的帧,卷积神经网络较低部分的层SL首先计算低层特征FL T,基于每个之前关键帧的较低层特征FL K和FL T,框架会决定是否设置IT为一个新的关键帧,这取决于此帧与前一个关键帧的偏离程度,如果偏离程度小,说明这是一个重复帧,如果偏离程度大,则这是一个关键帧,通过利用较低层特征来推断一个新帧是否为关键帧,不论其是否为关键帧,都计算其高层特征,特别地,当新帧不被认定为关键帧时,通过之前的关键帧,使用随空间变化的卷积方式来得到当前帧的高层特征,而不是通过其高层部分直接计算其高层特征,初始化此算法的方式是通过给定第一帧的高层和低层特征,在之后的每个时间T,都会自动计算;
S33:特征传播模块的搭建,设计一个卷积核权重预测器,同时接受两帧的低层特征FL T,其由神经网络较低部分的层SL计算得出,然后在所有位置产生卷积核,其由三个卷积层和Relu层交叉在一起,所述卷积核权重预测器的输出结果是HK 2×H×W,其中H和W是帧的长宽,而HK 2会被变形为HK×HK,经过一个Softmax层之后变成卷积核的标准化权重,经过Softmax是为了让每一个卷积核的权重之和为1。
进一步地,步骤S5中所述的使用低延迟分割模型和双进程调度方案,包含步骤:
S51:双进程调度方案的使用,推断一帧为关键帧之后,再计算后面的帧的高层特征时,使用两个进程,进程一通过特征传播来计算高层特征,而后台进程二使用此帧IT自身特征,从基础网络下部SL到上部SH,逐层传播计算高层特征;
S52:视频缩略和重点位置标注,使用步骤S4中得到的模型对原视频进行缩略和重点位置标注。
进一步地,步骤S6中所述的构建时域和空间域分离进行卷积的S3D-G网络包括步骤:
S61:构造BasicConv3d模块;
S62:构造SepConv3d卷积层模块;
S63:构造Mixed-3d卷积模块;
S64:构造S3D-G网络,所述S3D-G网络是基于I3D网络结构改良的S3D-G模型,所述I3D网络是双流膨胀3D卷积网络。
进一步地,步骤S7中所述数据集为已标注的视频数据集,所述已标注的视频数据集为二分类视频数据集:有色情内容和无色情内容。
进一步地,S8所述的缩略视频输入所述视频分类网络模型中进行视频分类,并记录结果包括步骤:
S81:步骤S5处理后的缩略视频输入步骤S7视频分类网络模型中进行视频分类,并记录结果。
进一步地,S9中所述的评论色情内容分类模型包括步骤:
S91:构造文本情感分类网络,所述的文本情感分类网络指的是长短时记忆网络;
S92:带标注语料数据集的收集,构造词向量。其中分类类别定为两类,分别为有色情内容和无色情内容。
S93:使用S92中所述的数据集对长短时记忆网络模型进行训练,得到评论色情内容分类模型。
进一步地,S10中所所述的评论色情内容分类模型对原视频附带的评论文本进行分类,并记录结果,包括步骤:
S101:将原视频附带的评论文本输入步骤S9中模型进行分类,并记录结果。
进一步地,S11中所述的构造图像分类网络包括步骤:
S111:将原视频附带的评论文本输入步骤S9中模型进行分类,并记录结果;
S112:构造图像分类网络,所述的图像分类网络指的是Resnet34网络;
S113:带标签的数据集的收集,其中分类类别定为两类,分别为有色情内容和无色情内容;
S114:使用S112中所述的数据集对Resnet34网络模型进行训练,得到色情图像分类模型。
进一步地,S12中所述的封面色情内容分类模型对原视频附带的封面图像进行分类包括步骤:
S121:使用步骤S11中所述的封面色情内容分类模型对封面图像进行分类,并记录结果。
进一步地,S13所述的色情内容综合评定结果包括步骤:
S131:将步骤S8,S10,S12中所记录的结果进行计算获得针对于原视频的视频、封面、评论的综合评定。
本发明的有益效果在于,与现有技术相比,本发明丰富了长视频审核的手段,可以针对百万像素级分辨率的且时长大于30分钟的自然视频,尤其是长视频进行色情内容检测,克服了以往方法处理高分辨率变化的长视频效率低下、对硬件要求高、延迟高的弊端。
附图说明
图1是本发明基于内容的高时长视频色情内容检测方法流程示意图;
图2是本发明中多分辨率图像预处理网络设计图;
图3是本发明中高低分辨率特征图融合单元设计图;
图4是本发明中CNN高低层分界示意图;
图5是本发明中低延迟分割网络设计图;
图6是应用本发明进行色情内容检测的流程示意图;
图7是本发明中BasicConv3d模块设计图;
图8是本发明中SepConv3d模块设计图;
图9是本发明中Mixed-3d模块设计图;
图10是本发明中S3D-G网络结构设计图;
图11是本发明中长短时记忆网络细胞内部结构示意图;
图12是本发明中长短时记忆网络结构示意图;
图13是本发明中Resnet34网络残差单元结构图;
图14是本发明中Resnet34网络结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,本发明基于内容的高时视频色情内容检测方法,包括步骤:
S1:构造高低分辨率特征图融合单元模块,使用所述高低分辨率特征图融合单元模块构造多分辨率图像预处理网络;
S2:将百万像素级视频数据进行标注,输入所述多分辨率图像预处理网络,处理为合适的训练格式;
S3:搭建低延迟分割网络,所述低延迟分割网络包括基础网络、关键帧选取模块和特征传播模块,其中所述基础网络使用经过预训练的ResNet-101,所述特征传播模块包括权值预测器模块和随空间变化的卷积方法;
S4:使用步骤S2中处理后的视频数据集对所述低延迟分割网络进行训练,得到低延迟分割模型;
S5:使用所述低延迟分割模型和双进程调度方案,对百万级别分辨率、时长大于30分钟且含有变化的视频进行视频缩略和重点位置标注;
S6:构建时域和空间域分离进行卷积的S3D-G网络;
S7:使用数据集对所述时域和空间域分离进行卷积的S3D-G网络进行训练,得到视频分类网络模型;
S8:将步骤S5处理后的缩略视频输入步骤S7视频分类网络模型中进行视频分类,保存结果;
S9:构造文本情感分类网络,使用数据集对此文本情感分类网络进行训练,得到评论色情内容分类模型;
S10:使用步骤S9中所述的评论色情内容分类模型对原视频附带的评论文本进行分类,并记录结果;
S11:构造图像分类网络,使用数据集对此图像分类网络进行训练,得到封面色情内容分类模型;
S12:使用步骤S11中所述的封面色情内容分类模型对原视频附带的封面图像进行分类,并记录结果;
S13:使用步骤S8、S10、S12中所记录的色情内容评定结果,针对于原视频的视频、封面、评论进行综合评定。
在步骤S1中,构造高低分辨率特征图融合单元模块,使用所述高低分辨率特征图融合单元模块构造多分辨率图像预处理网络,包括步骤S11和步骤S12。
S11:构造高低分辨率特征图融合单元模块。
请参见图2,所述高低分辨率特征图融合单元模块需要2个输入,分别是:特征映射1,用F1表示,特征映射2,用F2表示。其中F1大小是C1×H1×W1,F2大小是C2×H2×W2,H代表特征图高度,W代表特征图宽度,C代表特征图数量。
所述高低分辨率特征图融合单元模块内部包含一个上采样模块,一个膨胀卷积模块,两个批处理归一化层,一个求和层,一个Relu层。
由于F1的分辨率是F2的二分之一,因此使用上采样率为2的双线性插值法,构建上采样层对输入F1进行两倍上采样。紧接着使用膨胀卷积,卷积核大小为C3×3×3,使用膨胀卷积对上采样层得到的结果进行细化,扩张率设置为2。膨胀卷积将原始中心像素和其临近的像素点的特征信息相结合,保持参数个数不变的情况下增大了卷积核的感受野,而越大的感受野包含越多的上下文信息,减少了模型参数,加快了速度。
对于另一个输入F2,利用卷积核大小C3×1×1的投影卷积方法来对F2进行卷积,使其在经过此卷积层处理后,和F1具有相同的通道数,便于以后合并。
将F1,F2经过处理后的特征各自经过一个批处理的归一化层,对特征进行归一化。再将F1,F2输入求和层和一个Relu层,得到融合特征F2’,其大小为C3×H2×W2
至此,高低分辨率特征图融合单元构造完毕,对于任意输入F1,F2,此单元输出融合后的特征F2’,通过此高低分辨率特征图融合单元,可以对不同分辨率的特征图进行融合,输出融合后的新特征图。
S12:构造多分辨率图像预处理网络。
请参见图3,针对于视频中任意一帧的一张图像,由于是自然图像,未经过压缩,因此具有分辨率高的特点,本发明的一个实施例中中应用图像的分辨率选择1000×1000。此全分辨率图像用Img表示。
全分辨率的输入图像Img输入多分辨率图像预处理网络中后,按照2和4的因子进行降采样,形成中分辨率和低分辨率分支的双分支输入,降采样因子为2的中分辨率图像用Img2表示,降采样因子为4的低分辨率图像用Img4表示。
本发明针对高分辨率图像进行处理时,为了克服以往的经典深度学习模型在处理高分辨率图像时十分费时的困难,我们使用低分辨率输入img4进行语义提取。如图3中所示,中分辨率图像Img2和低分辨率图像Img4所经过的卷积层使用的卷积核共享权值,在之后的训练中共同训练。
使用低分辨率图像Img4进行语义信息提取的具体方法是,将Img4经过3个卷积层,一个膨胀卷积层和一个减少特征图数量的卷积层,之后送入高低分辨率特征图融合单元进行特征融合。经过如此处理可以快速得到语义信息,但弊端在于,其同时也会降低分割质量。因此本发明应用中分辨率和高分辨率分支的中分辨率图像Img2和高分辨率图像Img,帮助对粗糙的预测结果进行细化和恢复。
使用低分辨率图像Img4进行语义信息的提取,尽管生成了模糊而粗糙的边界,但是仍然获取了原图像大多数语义信息。这是因为尽管图像Img4分辨率低,但是卷积层数量深,而越深的卷积层越能提取到语义信息。而低分辨率分支的输出和中分辨率分支的输出通过高低分辨率特征图融合单元进行融合,再和高分辨率分支的输出相融合,既获取了语义信息,又得到了较为精准的边界,兼顾语义信息和边界信息。
其中,高分辨率分支卷积神经网络的权值可以适当降低,因为低分辨率分支已经获取到了足够的语义信息,降低权值可以使得高分辨率分支起到辅助作用,而不会影响到低分辨率分支的输出结果,导致模型效果降低。
步骤S2中所述的将视频数据集经标注的图像经过多分辨率图像预处理网络处理为合适的训练格式,其中视频数据集的图像数据使用Img表示。将Img传入S1所述的多分辨率图像预处理网络,通过步骤S11和S12所述的方法,处理成为合适格式的视频数据集图像,用ImgS表示。
具体实现方法为,将视频数据集用Vid表示,将视频Vid切分成一个一个独立的帧,每切分出一帧Img,则将其传入S1所述的多分辨率图像预处理网络,将其按照S12所述的方法,处理为三种不同的分辨率Img,Img2和Img4,并按照S1中搭建好的网络得到输出ImgS。传出的输出大小为CS×HS×WS,其中HS和WS是ImgS的长和宽,Cs是ImgS的特征图数量。
步骤S3中所述的低延迟分割网络的搭建包括步骤S31、S32和S33。
S31:基础网络的搭建。
基础网络使用经过预训练的ResNet-101,用Model表示。Model从帧中提取视觉特征。Model被分为了两部分,下部和上部,其中下部用SL表示,上部用SH表示。从低层特征SL提取出来的特征为FL,从高层特征SH提取出来的特征为FH。来自SL的低层特征将用于选择关键帧和控制高级特性的传播方式。之所以使用低层特征进行操作,而不使用高层特征,是因为,低层特征只需要从深度卷积的浅层提取特征,具有速度快的优势,如果使用高层特征去进行同样的计算,会导致效率极其低下,因为高层特征需要从深度卷积的深层提取特征,属于暴力计算。
若想通过特征传播的方式对低层特征加以利用,其关键在于到底应该固定哪些帧,针对这个关键帧选取的问题,需要搭建关键帧选取模块。
S32:关键帧选取模块的搭建。
请参见图4,任何一个深层的卷积神经网络都分为若干层,在训练的过程中数据从第一层输入,逐层抽象。因此按照抽象程度将一个完整的卷积神经网络从正中一层切割为两部分,神经网络较低部分的层为SL,较高部分的层为SH。由SL计算出来的低层特征为FL T,由SH计算出来的高层特征为FH T
对于每个时间步骤T,或者说一个新的帧,卷积神经网络较低部分的层SL首先计算低层特征FL T。基于每个之前关键帧的较低层特征FL K和FL T,框架会决定是否设置IT为一个新的关键帧,具体的操作方法取决于此帧与前一个关键帧的偏离程度,如果偏离程度小,说明这是一个重复帧,如果偏离程度大,则这是一个关键帧。
定义“偏移程度”的一种做法是计算两幅图像的曼哈顿距离,但针对于百万像素级的图像,此做法效率低下。此处使用的方法是,复用多分辨率图像预处理网络的输出结果,即由网络提取出的低层部分SL计算出的低层特征FL。使用这种复用方法的好处在于:
(1)复用之前的结果,模型效率大大提升;
(2)深度卷积神经网络的浅层信息含有丰富的图像信息,适合于判断两帧的图像像素偏移程度。
通过利用较低层特征FL来推断一个新帧是否为关键帧,不论其是否为关键帧,都计算其高层特征FH,特别的,当其不被认定为为关键帧时,通过之前的关键帧,使用随空间变化的卷积的方式来得到当前帧的高层特征,而不是通过其高层部分直接计算高层特征。因此在一个完整视频中,只有被选定成为关键帧的帧才使用高层部分计算,或者说暴力计算。而通过巧妙的选定阈值,可以手动决定在一个视频中,到底有百分之几的帧需要被选定为关键帧。不被选定的非关键帧通过特征传播的方式计算特征。
在视频快速变化时更频繁地选择关键帧,而在观察到的场景稳定时减少计算量,不仅可以在处理相对静止场景的视频时产生良好的效果,还可以应对复杂的场景。
关键帧选取模块的原理是:判断是否选择一帧作为新的关键帧的一个自然标准是其分割图与前一关键帧的偏移。这个偏移量可以定义为语义标签不同像素的比例。直观的来看,一个大的偏差意味着重大的变化,因此此处应当设置一个新的关键帧。
然而,获取上文所述的“偏移量”,或者说两帧语义标签的差别,需要计算当前帧的分割图,此处使用低级特征来预测。具体而言,根据对若干数据集进行的研究表明低层特征的差异与偏差值之间存在很强的相关性。低级特征差异大,则语义差异也相对较大。
其中Model包括两个卷积核,256通道,一个全局池化层和一个全连接层。在运行时,当时间步骤参数取为T时,我们使用该网络来预测低级特征提取后与前一关键帧的偏差。
当此关键帧选取模块选取一帧为关键帧之后,为每个T时间的帧进行计算,和之前关键帧之间的差距,发现这个差距总在不断变大,当过了几帧之后,这个差距将大于一个我们认为设定的阈值,而本发明应用的此阈值设置为0.2,差距超过0.2意味着我们可以选取此帧为一个新关键帧,并使用较高层SH计算其高层特征FH
本发明关键帧选取模块的初始化此算法是,通过给定第一帧的高层和低层特征,在之后的每个时间T,都会自动计算。
S33:特征传播模块的搭建。
设计一个卷积核权重预测器,它是一个小网络,同时接受两帧的低层特征FL T,其由神经网络较低部分的层SL计算得出,然后在所有位置产生卷积核。
这个网络由三个卷积层和Relu层交叉在一起。
这个网络输出的结果是HK 2×H×W,其中H和W就是帧的长宽,而HK 2会被变形为HK×HK。经过一个Softmax层之后变成卷积核的标准化权重,经过Softmax是为了让每一个卷积核的权重之和为1。
当一个帧不被选为关键帧时,其高层特征由前一个关键帧传播而来。对于高层特征图来讲,每个特征点捕捉到的实际上是一片相邻区域的视觉模式,而不是单独的一个点。一个线性组合可能可以提供更大的范围,更准确的表达传播。
其中,空间变化的卷积具体实现方式如下,请参见图5:
场景上的不同位置有着不同的动作模式,因此需要不同的权重进行传播。使用随空间变化的卷积来对某点相邻区域的线性组合进行表示,卷积核随空间不同位置的变化而变化。
设卷积核的大小为HK×HK,然后从前一个关键帧的高级特征FH K到当前帧表示如公式(1)所示:
Figure GDA0003593636940000121
这里
Figure GDA0003593636940000122
FH T(l,i,j)是第l条通道在FH T中(i,j)处的特征取值,Wij (K,T)是一个H×H的卷积核,用于计算从FH K传播到FH T时在(i,j)处的特征取值。请注意,卷积核值将为相邻不同位置分配权重值,这些权重取决于此特征的位置(i,j),但在所有通道中共享。
此方法的核心之处在于如何获得随空间变化的核Wij (K,T)。同样,本发明应用低级特征来解决这个问题,提出权重预测器模块。
本发明特征传播模块的权重预测器具体的实现方式如下:
权重预测器是一个小网络,同时接受两帧的低级特征,然后在所有位置产生卷积核。其由三个卷积层和一个Relu层交叉在一起。
此网络输出的结果格式是HK 2×H×W,其中H和W是帧的长和宽,设置这两个参数,而不是单纯的输出HK 2,是因为要为一帧上不同的位置都设计一个卷积核),而HK 2会被重塑为HK×HK,经过一个Softmax层之后变成卷积核的标准化权重,经过Softmax是为了让每一个卷积核的权重之和为1。
通过使用底层特征决定卷积核权重,使得内核不仅对不同位置有适应性,而且对帧的内容也有适应性,从而获得了强大的表达能力。
使用S31,S32,S33所述的方法搭建低延迟分割网络,其中,具体的模型Model运作的方式如下,请参见图5:
对于每个时间步骤T,即一个新的帧,首先使用Model较浅层网络部分SL计算其特征FL T,此特征为低层特征。基于每个之前关键帧的较低层特征FL K和FL T,此网络会决定是否设置IT为一个新的关键帧,这取决于此帧与前一个关键帧的偏离程度,如果偏离程度小,说明这是一个重复帧,如果偏离程度大,则这是一个关键帧。如果选择设置其为新关键帧,则会将FL T送进网络高层部分SH,并基于高层SH计算高层特征FH T,由于是关键帧,因此此处使用暴力计算。如果不选择设置其为新关键帧,则它们将通过使用随空间变化的卷积从FH K传播而得到高层特征FH T。将FL T送进一个权重预测器,由此得到一组卷积核,利用它们通过随空间变化的卷积来传播上一个关键帧的高层特征。高层特征可以通过逐像素分类方法得出分割图。
通过利用较低层特征来推断一个新帧是否为关键帧,不论其是否为关键帧,都计算其高层特征,特别的,当其不被认定为为关键帧时,通过之前的关键帧,使用随空间变化的卷积的方式来得到当前帧的高层特征,而不是通过其高层部分直接计算高层特征。
因此低层特征占比多,高层特征占比少,通过结合权重预测器和随空间变化的卷积的方式来计算高层特征FH T,要比通过低层特征FL T直接送进高层SH来暴力计算高层特征FH T的代价要小太多。
使用这种传播方案可以在距离关键帧10帧之内保持相当高的精度,具有可以处理变化的优势。
使用步骤S31,S32和S33所述的方法搭建低延迟分割网络,其中,具体的模型Model运作的方式如下:
对于每个时间步骤T,即一个新的帧,首先使用Model较浅层网络部分SL计算其特征FL T,此特征为低层特征。基于每个之前关键帧的较低层特征FL K和FL T,此网络会决定是否设置IT为一个新的关键帧,这取决于此帧与前一个关键帧的偏离程度,如果偏离程度小,说明这是一个重复帧,如果偏离程度大,则这是一个关键帧。如果选择设置其为新关键帧,则会将FL T送进网络高层部分SH,并基于高层SH计算高层特征FH T,由于是关键帧,因此此处使用暴力计算。如果不选择设置其为新关键帧,则它们将通过使用随空间变化的卷积从FH K传播而得到高层特征FH T。将FL T送进一个权重预测器,由此得到一组卷积核,利用它们通过随空间变化的卷积来传播上一个关键帧的高层特征。高层特征可以通过逐像素分类方法得出分割图。
通过利用较低层特征来推断一个新帧是否为关键帧,不论其是否为关键帧,都计算其高层特征,特别的,当其不被认定为为关键帧时,通过之前的关键帧,使用随空间变化的卷积的方式来得到当前帧的高层特征,而不是通过其高层部分直接计算高层特征。
因此低层特征占比多,高层特征占比少,通过结合权重预测器和随空间变化的卷积的方式来计算高层特征FH T,要比通过低层特征FL T直接送进高层SH来暴力计算高层特征FH T的代价要小太多。
使用这种传播方案可以在距离关键帧10帧之内保持相当高的精度,具有可以处理复杂场景变化的优势。
请参见图6,在步骤S4中,所述的使用经多分辨率图像预处理网络处理后的视频数据集,对低延迟分割网络进行训练,得到低延迟分割模型。具体实现方法为:
视频数据集处理后的输出ImgS大小为CS×HS×WS,其中HS和WS是ImgS的长和宽,CS是ImgS的特征图数量。
步骤S3所述的低延迟分割网络的低层SL是神经网络低层特征,其接受的数据是HINPUT×WINPUT×CINPUT,其中HINPUT和WINPUT分别是传入特征图的长和宽,即ImgS分辨率大小的一帧的长和宽,CINPUT是输入特征图的数量。
而HINPUT,WINPUT和CINPUT允许输入的数据格式刚好等同于HS,WS和CS,将原始数据传入步骤S4所述的分割网络,使用S3所述的具体的Model运作方式对模型进行训练,得到低延迟分割模型,用LCSSCM表示。
在步骤S5中,所述的使用低延迟语义分割模型和一种双进程调度方案,对百万像素级的,包含变化的,时长大于30分钟的视频进行视频缩略和重点位置标注。包含步骤S51和S52。
S51:双进程调度方案的使用。
本发明的模型使用双进程调度方案,具体实施方式如下:
推断一帧为关键帧之后,再计算后面的帧的高层特征时,使用两个进程,进程一通过特征传播来计算高层特征,而后台进程二是通过SH来计算高层特征,由于使用暴力计算,进程二速度慢于进程一,但是精度较高。
进程一计算出来之后先保存在缓存中,暂时使用,等到进程二计算出来之后,逐步替换缓存中的低精度信息。使用双进程方式进行调度,在使用进程一最大程度保证模型效率高,延迟低的同时,使用进程二,用多进程的方式对进程一的低精度粗糙结果进行弥补和恢复。
S52:视频缩略和重点位置标注。
对于百万像素级变化的长视频色情内容检测,本发明的一个实施例中处理的视频主要集中用户上传视频中。这类视频由于属于大范围,自然视频,因此具有分辨率高,场景变化复杂等特点。
其中最有可能出现色情等不良信息的位置较为分散,因此通过步骤S1到S4所述之方法对视频进行缩略,并在缩略后的视频上标注可能含有色情信息的时间点和具体位置。
具体实施方式如下:
步骤S4所述的低延迟分割模型,用LCSSCM表示,输入到模型中待处理的百万像素级分辨率高时长自然视频用Vid表示。
Vid输入到LCSSCM模型中,输出一个经缩略的视频SkeletonizedVid,并标注重点位置。具体的缩略方法是,Vid被LCSSCM认定为存在色情等不良内容所在的帧被提取出来,重新合并成一个缩略视频,并将此视频传入S6中,进行视频分类。
重点位置的标注指的是,如果经缩略的视频SkeletonizedVid中,经LCSSCM模型认定,在同一时刻情况下,场景十分复杂。如同一帧中存在过多的人类,或者过多的车辆时。则使用LCSSCM模型的语义信息和分割信息对复杂场景下的多个人类,多个车辆等位置进行边缘标注。
步骤S6中所述的构建时域和空间域分离进行卷积的S3D-G网络包括步骤S61、S62、S63和S64。
S61:构造BasicConv3d模块。
请参见图7,该BasicConv3d模块作为后续所需要的必要组件需要优先构建,其参数将在后续步骤确定。此BasicConv3d模块由三个部分构成:一层3d卷积层、一层3d BatchNormalization层、ReLU激活函数层,其中padding默认为0。
S62:构造SepConv3d卷积层模块。
请参见图8,该SepConv3d卷积层模块作为后续所需要的必要组件,需要优先构建,其参数将在后续步骤确定。此SepConv3d模块由三个部分构成:一层卷积核为1×k×k的卷积层、一层3d Batch Normalization层、ReLU激活函数层、一层卷积核为k×1×1的卷积层、一层3d Batch Normalization层、ReLU激活函数层。上述k为后续需要确定的参数,且两层卷积层中的k为同一参数。
S63:构建Mixed-3d卷积模块。
Miexed-3d卷积层由四部分构成,请参见图9:
第一部分:一层BasicConv3d层,其中BasicConv3d层参数为(输入,输出,卷积核大小,步长),其中卷积核大小为1,步长为1。
第二部分:一层BasicConv3d层,一层SepConv3d卷积层,其中BasicConv3d层参数为(输入,输出,卷积核大小,步长),其中卷积核大小为1,步长为1,SepConv3d卷积层参数为(输入,输出,卷积核大小,步长,填充),其中卷积核大小为3,步长为1,填充为1。
第三部分:一层BasicConv3d层,一层SepConv3d卷积层,其中BasicConv3d层参数为(输入,输出,卷积核大小,步长),其中卷积核大小为1,步长为1,SepConv3d卷积层参数为(输入,输出,卷积核大小,步长,填充),其中卷积核大小为3,步长为1,填充为1。
第四部分:一层最大池化层,一层,其中最大池化层参数为(卷积核大小,步长,填充)其中步长为1,填充为1,BasicConv3d层参数为(输入,输出,卷积核大小,步长),其中卷积核大小为1,步长为1。
将输入通过第一部分获得X0,通过第二部分获得X1,通过第三部分获得X2,通过第四部分获得X3。将X0,X1,X2,X3进行拼接获得最后输出output。
网络结构中的Miexed-3d卷积层每一层的输入输出都不一样,因此在S64中Miexed-3d卷积层会加上后缀,以突出其的不同。
S64:构造S3D-G网络。
请参见图10,我们的模型时基于I3D网络结构改良的S3D-G模型,I3D模型是双流膨胀3D卷积网络,在ImageNet上训练好的深度结构网络可以用于其他任务,同时随着深度结构的改进,效果也越来越好。
而S3D-G模型是在I3D的基础上结合Top-Heavy结构以及采用了时域和空间域分离进行卷积。
第一层:SepConv3d卷积层,SepConv3d卷积层参数格式为(输入,输出,卷积核,步长,填充),其中步长为2,填充为3。
第二层:最大池化层,参数格式为(卷积核大小,步长,填充),其中步长为(1,2,2),填充为(0,1,1)。
第三层:BasicConv3d卷积层,参数格式为(输入,输出,卷积核,步长),其中卷积核大小为1,步长为1。
第四层:SepConv3d卷积层,SepConv3d卷积层参数格式为(输入,输出,卷积核,步长,填充),其中步长为1,填充为1。
第五层:最大池化层,参数格式为(卷积核大小,步长,填充),其中步长为(1,2,2)填充为(0,1,1)。
第六层::Mixed-3d卷积层命名为Miexed-3d-3a。
第七层:Mixed-3d卷积层命名为Miexed-3d-3b。
第八层:最大池化层,参数格式为(卷积核大小,步长,填充),其中步长为(2,2,2)填充为(1,1,1)。
第九层:Mixed-3d卷积层命名为Miexed-3d-4a。
第十层:Mixed-3d卷积层命名为Miexed-3d-4b。
第十一层:Mixed-3d卷积层命名为Miexed-3d-4c。
第十二层:Mixed-3d卷积层命名为Miexed-3d-4d。
第十三层:Mixed-3d卷积层命名为Miexed-3d-4e。
第十四层:最大池化层,参数格式为(卷积核大小,步长,填充),其中步长为(2,2,2)填充为(0,0,0)。
第十五层:Mixed-3d卷积层命名为Miexed-3d-5a。
第十六层;Mixed-3d卷积层命名为Miexed-3d-5b。
第十七层:平均池化层,参数为(卷积核大小,步长)。
第十八层;dropout层。
第十九层:全连接层,num_classes参数设置为为2,即二分类,在本发明的应用场景中,即分别为存在色情信息和不存在色情信息。
如S61到S64所述的S3D-G网络结构,与传统C3D与I3D模型比较,采用了时域和空间域分离进行卷积:SepConv3d卷积层,结合了I3D的特点:Miexed-3d卷积层,且采用Top-Heavy的结构,即先进行2d卷积再进行3d卷积,该方法能够提升模型速度,因此S3D-G模型能够在提升精度的基础上,减少训练时间,且模型尺寸更小。
在步骤S8中,将步骤S5处理后的缩略视频输入步骤S7视频分类网络模型中进行视频分类,保存结果,包括步骤S81。
S81:使用由S5对长时间视频视频进行视频缩略和重点位置标注输出的缩略视频输入S3D-G网络中获得对长时间视频视频的分类,并记录结果X8(1表示含有色情内容,0表示不含)。
在步骤S9中,构造文本情感分类网络,使用数据集对此文本情感分类网络进行训练,得到评论色情内容分类模型,包括步骤S91,S92,S93。
S91:构造文本情感分类网络,所述的文本情感分类网络指的是长短时记忆网络。请参见图11,长短时记忆网络细胞内部结构示意图。其中X代表输入向量,C代表从当前细胞中得到的记忆,σ代表Sigmoid函数,×代表元素级别的乘积,C’代表从前一个细胞中得到的记忆,H代表当前细胞的输出,Tanh代表双曲正切函数,+代表元素级别的加和与拼接,H’代表前一个细胞的输出。请参见图12,长短时记忆网络结构示意图。一整个长短时记忆网络是一系列统一结构的循环体,或者说,将多个图11所示的网络副本线性叠加,即得到完整的长短时记忆网络架构。
S92:带标注语料数据集的收集,构造词向量。词向量模型基于一种假设,即词汇和它的上下文构成一个象,当从语料库当中学习到相识或相近的象时,他们在语义上总是相识的。词向量具体的搭建方法是,从收集到的语料库中,可以把对文本内容的处理简化为k维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。其中分类类别定为两类,分别为有色情内容和无色情内容。
S93:使用S92中所述的数据集对长短时记忆网络模型进行训练,得到评论色情内容分类模型。模型训练完毕之后,输入一段文本,输出结果是判断特定文本是否含有色情内容。
在步骤S10中,使用步骤S9中所述的评论色情内容分类模型对原视频附带的评论文本进行分类,并记录结果,包括步骤S101:将原视频附带的评论文本输入步骤S9中模型进行分类,并记录分类结果X10(1表示含有色情内容,0表示不含)。
在步骤S11中,构造图像分类网络,使用数据集对此图像分类网络进行训练,得到封面色情内容分类模型,包括步骤S111,S112,S113。
S111:构造图像分类网络,所述的图像分类网络指的是Resnet34网络。请参见图13和图14,图13是Resnet34网络残差单元结构图,图14是Resnet34网络结构示意图。在图13中,X代表输入向量,输出为H(x),该残差单元中采用了捷径连接的方式,能够保持在后续的层次中不会造成精度的下降,捷径连接可以是将输入的X直接传到输出作为初始的结果,即为H(x)=F(x)+x,ReLu为线性修正单元。基于上述公式,使得后续的学习目标变为将残差F逼近于零,使得H(x)=x防止网络出现退化,精度下降。请参见图14,Resnet34网络结构示意图。其中实线连接表示为:通道相同时,采用计算方式为H(x)=F(x)+x。其中虚线连接表示为:通道不相同时,采用计算方式为H(x)=F(x)+W(x),其中W是卷积操作,用来调整x维度,使其与F一致。
S112:带标签的数据集的收集,其中分类类别定为两类,分别为有色情内容和无色情内容。数据集构建原则:1、色情图像的确认应该基于某种标准判断,明确其界限;2、图像的丰富度应该较高,不能局限于某一类型;3、两类图像数量应该差别不大,且数量不易过少;4、测试集图像不应于训练集图像有重合。
S113:使用S112中所述的数据集对Resnet34网络模型进行训练,必要的时候可以进行数据增强,得到封面色情内容分类模型。模型训练完毕之后,输入若干图像,输出结果是判断特定图像是否含有色情内容。
在步骤S12中,使用步骤S11中所述的封面色情内容分类模型对原视频附带的封面图像进行分类,并记录结果,包括步骤S121:调用S11中所述的封面色情内容分类模型,将原视频附带的封面图像输入进封面色情内容分类模型,获得分类结果,并保存结果X12(1表示含有色情内容,0表示不含)。
在步骤S13中,使用步骤S8、S101、S121中所记录的色情内容评定结果,针对于原视频的视频、封面、评论进行综合评定,包括步骤S131:将步骤S8、S10、S12中所保存的结果,根据公式Y=2X8+X10+X12进行计算获得针对于原视频的视频、封面、评论进行综合评定,若Y≥2则含有色情内容,反之则不含有。
在S3D-G网络中加载由步骤S7获得的视频分类网络模型,将由步骤S5中获得的对长时间视频视频进行视频缩略和重点位置标注输出的缩略视频输入进S3D-G网络中,获得缩略视频的视频分类,分别为“存在色情信息”和“不存在色情信息”两种类别。
一旦模型认为输入视频存在色情信息,在获得分类结果的同时获得的还有,在输入视频上可能存在违规的时间位置标注和空间位置标注,大大降低了审核难度,加快了视频审核的速度,减少了人工审核时对关键信息遗漏的可能性。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (7)

1.基于内容的高时长视频色情内容检测方法,其特征在于,包括步骤:
S1:构造高低分辨率特征图融合单元模块,使用所述高低分辨率特征图融合单元模块构造多分辨率图像预处理网络;
S2:将百万像素级视频数据进行标注,输入所述多分辨率图像预处理网络,处理为合适的训练格式;
S3:搭建低延迟分割网络,所述低延迟分割网络的搭建包括步骤:
S31:基础网络的搭建,基础网络使用经过预训练的ResNet-101,网络从帧中提取视觉特征,将模型分为了两部分,下部和上部,其中下部用SL表示,上部用SH表示,来自SL的低级特性用于选择关键帧和控制高级特性的传播方式;
S32:关键帧选取模块的搭建,对于每个时间步骤T,即一个新的帧,卷积神经网络较低部分的层SL首先计算低层特征FL T,基于每个之前关键帧的较低层特征FL K和FL T,框架会决定是否设置IT为一个新的关键帧,这取决于此帧与前一个关键帧的偏离程度,如果偏离程度小,说明这是一个重复帧,如果偏离程度大,则这是一个关键帧,通过利用较低层特征来推断一个新帧是否为关键帧,不论其是否为关键帧,都计算其高层特征,特别地,当新帧不被认定为关键帧时,通过之前的关键帧,使用随空间变化的卷积方式来得到当前帧的高层特征,而不是通过其高层部分直接计算其高层特征,初始化此算法的方式是通过给定第一帧的高层和低层特征,在之后的每个时间T,都会自动计算;
S33:特征传播模块的搭建,设计一个卷积核权重预测器,同时接受两帧的低层特征FL T,其由神经网络较低部分的层SL计算得出,然后在所有位置产生卷积核,其由三个卷积层和Relu层交叉在一起,所述卷积核权重预测器的输出结果是HK 2×H×W,其中H和W是帧的长宽,而HK 2会被变形为HK×HK,经过一个Softmax层之后变成卷积核的标准化权重,经过Softmax是为了让每一个卷积核的权重之和为1;
S4:使用步骤S2中处理后的视频数据集对所述低延迟分割网络进行训练,得到低延迟分割模型;
S5:使用所述低延迟分割模型和双进程调度方案,对百万级别分辨率、时长大于30分钟的视频进行视频缩略和重点位置标注;
S6:构建时域和空间域分离进行卷积的S3D-G网络;
S7:使用数据集对所述时域和空间域分离进行卷积的S3D-G网络进行训练,得到视频分类网络模型;
S8:将步骤S5处理后的缩略视频输入步骤S7视频分类网络模型中进行视频分类,保存结果;
S9:构造文本情感分类网络,使用数据集对此文本情感分类网络进行训练,得到评论色情内容分类模型;
S10:使用步骤S9中所述的评论色情内容分类模型对原视频附带的评论文本进行分类,并记录结果;
S11:构造图像分类网络,使用数据集对此图像分类网络进行训练,得到封面色情内容分类模型;
S12:使用步骤S11中所述的封面色情内容分类模型对原视频附带的封面图像进行分类,并记录结果;
S13:使用步骤S8、S10、S12中所记录的色情内容评定结果,针对于原视频的视频、封面、评论进行综合评定。
2.如权利要求1所述的基于内容的高时长视频色情内容检测方法,其特征在于,步骤S1中所述多分辨率图像预处理网络的构造包括步骤:
S11:构造高低分辨率特征图融合单元模块,所述高低分辨率特征图融合单元模块需要2个输入:特征映射1,用F1表示,特征映射2,用F2表示;所述高低分辨率特征图融合单元模块内部包含一个上采样模块,一个膨胀卷积模块,两个批处理归一化层,一个求和层和一个Relu层;
S12:构造多分辨率图像预处理网络。
3.如权利要求1所述的基于内容的高时长视频色情内容检测方法,其特征在于,步骤S5中所述的使用低延迟分割模型和双进程调度方案,包含步骤:
S51:双进程调度方案的使用,推断一帧为关键帧之后,再计算后面的帧的高层特征时,使用两个进程,进程一通过特征传播来计算高层特征,而后台进程二使用此帧IT自身特征,从基础网络下部SL到上部SH,逐层传播计算高层特征;
S52:视频缩略和重点位置标注,使用步骤S4中得到的模型对原视频进行缩略和重点位置标注。
4.如权利要求1所述的基于内容的高时长视频色情内容检测方法,其特征在于,步骤S7中所述数据集为已标注的视频数据集,所述已标注的视频数据集为二分类视频数据集:有色情内容和无色情内容。
5.如权利要求1所述的基于内容的高时长视频色情内容检测方法,其特征在于,步骤S8所述的缩略视频输入所述视频分类网络模型中进行视频分类,并记录结果包括步骤:
S81:步骤S5处理后的缩略视频输入步骤S7视频分类网络模型中进行视频分类,并记录结果。
6.如权利要求1所述的基于内容的高时长视频色情内容检测方法,其特征在于,步骤S9中所述的评论色情内容分类模型包括步骤:
S91:构造文本情感分类网络,所述的文本情感分类网络指的是长短时记忆网络;
S92:带标注语料数据集的收集,构造词向量,其中分类类别定为两类,分别为有色情内容和无色情内容;
S93:使用S92中所述的数据集对长短时记忆网络模型进行训练,得到评论色情内容分类模型。
7.如权利要求1所述的基于内容的高时长视频色情内容检测方法,其特征在于,步骤S11中所述的构造图像分类网络包括步骤:
S111:构造图像分类网络,所述的图像分类网络指的是Resnet34网络;
S112:带标签的数据集的收集,其中分类类别定为两类,分别为有色情内容和无色情内容;
S113:使用S112中所述的数据集对Resnet34网络模型进行训练,得到色情图像分类模型。
CN202110747290.6A 2021-07-02 2021-07-02 基于内容的高时长视频色情内容检测方法 Active CN113505247B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110747290.6A CN113505247B (zh) 2021-07-02 2021-07-02 基于内容的高时长视频色情内容检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110747290.6A CN113505247B (zh) 2021-07-02 2021-07-02 基于内容的高时长视频色情内容检测方法

Publications (2)

Publication Number Publication Date
CN113505247A CN113505247A (zh) 2021-10-15
CN113505247B true CN113505247B (zh) 2022-06-07

Family

ID=78009642

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110747290.6A Active CN113505247B (zh) 2021-07-02 2021-07-02 基于内容的高时长视频色情内容检测方法

Country Status (1)

Country Link
CN (1) CN113505247B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117593596B (zh) * 2024-01-19 2024-04-16 四川封面传媒科技有限责任公司 一种敏感信息检测方法、系统、电子设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581434A (zh) * 2020-04-29 2020-08-25 北京达佳互联信息技术有限公司 视频服务提供方法、装置、电子设备和存储介质
CN112396106A (zh) * 2020-11-18 2021-02-23 腾讯科技(深圳)有限公司 内容识别方法、内容识别模型训练方法及存储介质
CN112818843A (zh) * 2021-01-29 2021-05-18 山东大学 基于通道注意力导向时间建模的视频行为识别方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120275511A1 (en) * 2011-04-29 2012-11-01 Google Inc. System and method for providing content aware video adaptation
CN109886085A (zh) * 2019-01-03 2019-06-14 四川弘和通讯有限公司 基于深度学习目标检测的人群计数方法
US11544590B2 (en) * 2019-07-12 2023-01-03 Adobe Inc. Answering questions during video playback
CN112819422A (zh) * 2020-12-31 2021-05-18 浪潮云信息技术股份公司 在线教学平台及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581434A (zh) * 2020-04-29 2020-08-25 北京达佳互联信息技术有限公司 视频服务提供方法、装置、电子设备和存储介质
CN112396106A (zh) * 2020-11-18 2021-02-23 腾讯科技(深圳)有限公司 内容识别方法、内容识别模型训练方法及存储介质
CN112818843A (zh) * 2021-01-29 2021-05-18 山东大学 基于通道注意力导向时间建模的视频行为识别方法及系统

Also Published As

Publication number Publication date
CN113505247A (zh) 2021-10-15

Similar Documents

Publication Publication Date Title
CN111210443B (zh) 基于嵌入平衡的可变形卷积混合任务级联语义分割方法
CN111428088A (zh) 视频分类方法、装置及服务器
CN111489287A (zh) 图像转换方法、装置、计算机设备和存储介质
CN111160350B (zh) 人像分割方法、模型训练方法、装置、介质及电子设备
CN111523410A (zh) 一种基于注意力机制的视频显著性目标检测方法
CN111242844B (zh) 图像处理方法、装置、服务器和存储介质
CN110751649B (zh) 视频质量评估方法、装置、电子设备及存储介质
CN113487618B (zh) 人像分割方法、装置、电子设备及存储介质
CN113762138B (zh) 伪造人脸图片的识别方法、装置、计算机设备及存储介质
CN114549913B (zh) 一种语义分割方法、装置、计算机设备和存储介质
CN110852199A (zh) 一种基于双帧编码解码模型的前景提取方法
CN113486890A (zh) 基于注意力特征融合和空洞残差特征增强的文本检测方法
Zhang et al. Training efficient saliency prediction models with knowledge distillation
CN111914734A (zh) 面向短视频场景的主题情感分析方法
CN114693929A (zh) 一种rgb-d双模态特征融合的语义分割方法
CN113936235A (zh) 一种基于质量评估的视频显著性目标检测方法
CN114155371A (zh) 基于通道注意力与金字塔卷积融合的语义分割方法
CN111967399A (zh) 一种基于改进的Faster RCNN行为识别方法
CN113505247B (zh) 基于内容的高时长视频色情内容检测方法
CN113420179B (zh) 基于时序高斯混合空洞卷积的语义重构视频描述方法
CN113079420A (zh) 视频生成方法、装置、电子设备及计算机可读存储介质
CN116980541B (zh) 视频编辑方法、装置、电子设备以及存储介质
CN114443916B (zh) 一种面向试验数据的供需匹配方法及系统
CN114882405B (zh) 一种基于时空双流金字塔网络架构的视频显著性检测方法
CN110969187B (zh) 一种图谱迁移的语义分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant