CN111523399A - 敏感视频检测及装置 - Google Patents

敏感视频检测及装置 Download PDF

Info

Publication number
CN111523399A
CN111523399A CN202010245347.8A CN202010245347A CN111523399A CN 111523399 A CN111523399 A CN 111523399A CN 202010245347 A CN202010245347 A CN 202010245347A CN 111523399 A CN111523399 A CN 111523399A
Authority
CN
China
Prior art keywords
sensitive
video
detected
loss
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010245347.8A
Other languages
English (en)
Inventor
邓卉
田泽康
危明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ysten Technology Co ltd
Original Assignee
Ysten Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ysten Technology Co ltd filed Critical Ysten Technology Co ltd
Priority to CN202010245347.8A priority Critical patent/CN111523399A/zh
Publication of CN111523399A publication Critical patent/CN111523399A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明为了解决敏感视频检测识别率较差的问题,提供一种敏感视频检测方法,包括的步骤:获取待检测视频,从所述待检测视频中抽取待检测帧;使用深度学习模型中的敏感图片分类网络计算所述待检测帧属于敏感图片的概率;判定所述概率大于阈值时,则判定所述待检测视频为敏感视频;判定所述概率小于等于阈值时,按固定时间间隔T,抽取待检测视频下一帧作为待检测帧,重复上述步骤,直至待检测视频被检测完;其中,所述深度学习模型包括骨干网络、敏感图片分类网络、敏感身体区域检测网络、人体姿态估计网络;所述深度学习模型的损失函数包括敏感身体部位检测损失,敏感图片分类损失以及人体姿态估计的损失。同时提供了相应的装置、设备和介质。

Description

敏感视频检测及装置
技术领域
本发明属于图像处理技术领域,具体而言,涉及一种敏感视频检测方法、检测装置、计算机可读介质及电子设备。
背景技术
随着科技的发展进步,互联网也成为人们日常生活和工作中离不开的工具,它在给人们带来生活方便、处理事务高效的同时,也会成为一些不法分子的有利工具,利用其传播和散延一些不良信息,如黄色图片、影视等。因此,对图片、影视进行检测,判断是否为色情内容并禁止其在网络传播显得尤为重要。
随着深度学习技术在越来越多的任务中所取得的突破性进展,基于深度学习的机器检测也在不断突破传统基于肤色等特征的检测模型的成果,呈现出令人耳目一新的硕果。
目前基于深度学习的检测模型在敏感图片识别任务存在如下缺点:
1.主要从图像整体判定内容是否敏感,而忽略了一些有高鉴别力的局部区域(比如裸体,身体敏感部位)。
2.现有的技术无法解决图像中存在敏感区域大小各异情况下的分类问题。
3.现有的技术对人体非裸露仅有不良姿势的图片无法识别。
发明内容
本发明为了解决上述现有技术的缺点,提出了一种包含敏感图片分类、敏感身体部位检测、和人体姿态估计三种网络的检测模型。通过添加敏感身体部位和人体姿态信息来增强网络基础特征的提取,得到更丰富的特征(backbone提取的特征),从而增强敏感图片分类的效果。具体地,本发明实施例第一方面提供了一种敏感视频检测方法,包括如下步骤:
S110、获取待检测视频,从所述待检测视频中抽取待检测帧;
S120、使用深度学习模型中的敏感图片分类网络计算所述待检测帧属于敏感图片的概率;
S130、判定所述概率大于阈值时,则判定所述待检测视频为敏感视频;
S140、判定所述概率小于等于阈值时,按固定时间间隔T,抽取待检测视频下一帧作为待检测帧,重复执行步骤S120至步骤S140,直至待检测视频被检测完;
其中,所述深度学习模型包括骨干网络、与所述骨干网络连接的敏感图片分类网络、与所述骨干网络连接的敏感身体区域检测网络、与所述骨干网络连接的人体姿态估计网络;所述深度学习模型的损失函数包括敏感身体部位检测损失,敏感图片分类损失以及人体姿态估计的损失。
进一步地,还包括如下步骤:
S150、当所述待检测视频的所有待检测帧的概率小于等于阈值时,则判定所述待检测视频为非敏感视频。
进一步地,所述深度学习模型的损失函数表达如下:
Figure BDA0002433839920000021
其中,
Ldet-cls(ri,ri *)=-ri **(1-ri)γ*log(ri)
Figure BDA0002433839920000022
Figure BDA0002433839920000023
Figure BDA0002433839920000024
ri代表预测属于第i类敏感身体部位的概率,ti=(tx,ty,tw,th)代表预测的回归框的四个点的位置,pj代表图像属于第j类(敏感,普通)的概率,ptk代表预测的姿态的关键点的坐标。ri *
Figure BDA0002433839920000025
则代表对应的真实值。Ndet,λ,α和β则是各类loss的权重。
进一步地,训练所述深度学习模型采用如下数据集:敏感图片分类数据集、敏感部位检测数据集和人体姿态估计数据集;其中,所述敏感图片分类数据集包括,普通图片、敏感图片,所述普通图片中含有性感图片,所述性感图片作为困难样本;所述敏感部位检测数据集包括:标记了人体的关键敏感部位的敏感图片。
进一步地,所述敏感图片分类网络将所述骨干网络的最后一层作为输入,通过多层卷积以及对全局均值池化后连接到全连接层,对图像进行二分类。
进一步地,所述骨干网络采用如下:ResNet、VGGNet、GoogleNet、Wide ResNet、DenseNet中的任意一种;所述敏感身体区域检测网络包括特征金字塔网络FPN和RetinaNet。
进一步地,所述敏感身体部位检测损失包括分类部分损失和回归检测框部分损失,所述分类部分损失可采用交叉熵损失,所述回归检测框部分损失采用:smoothL1Loss、L2Loss、L1Loss中任一种;所述人体姿态估计的损失采用L2损失;所述敏感图片分类损失采用:softmax loss、center loss、focal loss、marginal loss中任一种。
本发明第二方面,提供了一种敏感视频检测装置,包括:
初始化模块,用于获取待检测视频,从所述待检测视频中抽取待检测帧;
概率计算模块,用于使用深度学习模型中的敏感图片分类网络计算所述待检测帧属于敏感图片的概率;
敏感视频判定模块,用于判定所述概率大于阈值时,则判定所述待检测视频为敏感视频;
循环模块,用于判定所述概率小于等于阈值时,按固定时间间隔T,抽取待检测视频下一帧作为待检测帧,重复调用所述概率计算模块、所述敏感视频判定模块和所述循环模块,直至待检测视频被检测完;
其中,所述深度学习模型包括骨干网络、与所述骨干网络连接的敏感图片分类网络、与所述骨干网络连接的敏感身体区域检测网络、与所述骨干网络连接的人体姿态估计网络;所述深度学习模型的损失函数包括敏感身体部位检测损失,敏感图片分类损失以及人体姿态估计的损失。
本发明第三方面,提供了一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一所述的方法。
本发明第四方面,提供了一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现上述任一所述的方法。
本发明实施例通过添加敏感身体部位和人体姿态信息来增强网络基础特征的提取,得到更丰富的特征(backbone提取的特征),从而增强敏感图片分类的效果。可适用于图片、视频、直播流的检测。
附图说明
通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,在附图中:
图1为本发明一些实例中的敏感视频检测方法、提取装置运行的系统架构示意图;
图2为本发明一些实例中的敏感视频检测方法中模型训练的流程事宜图;
图3为本发明一些实施例中的敏感视频检测方法中所用到检测模型示意图;
图4为本发明一些实施例中的敏感视频检测方法中模型预测的流程示意图;
图5为本发明另一些实施例中的敏感视频检测方法中流程示意图;
图6为本发明一些实施例中的基于上述附图中的敏感视频检测方法所实现的敏感视频检测装置的系统示意图;
图7为本发明一些实施例中敏感视频检测方法或者提取装置运行的计算机系统结构示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了可以应用本申请实施例的敏感视频检测方法或敏感视频检测装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送数据(例如视频)等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如视频播放软件、视频处理类应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有显示屏并且支持数据传输的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的视频提供支持的后台服务器。后台服务器可以对接收到的图像处理请求等数据进行分析等处理,并将处理结果(例如对视频进行分割后得到的视频片段或其他数据)反馈给与其通信连接的电子设备(例如终端设备)。
需要说明的是,本申请实施例所提供的敏感视频检测方法可以由服务器105执行,相应地,敏感视频检测装置可以设置于服务器105中。此外,本申请实施例所提供的敏感视频检测方法也可以由终端设备101、102、103执行,相应地,敏感视频检测装置也可以设置于终端设备101、102、103中。
需要说明的是,服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。当敏感视频检测方法运行于其上的电子设备不需要与其他电子设备进行数据传输时,该系统架构可以仅包括用于分割视频方法运行于其上的电子设备(例如终端设备101、102、103或服务器105)。
图2、图4示出了依照本发明实施例的一种敏感视频检测算法的一般流程,图3示出了本申请实施例中所用到深度网络模型,所述检测方法具体步骤包括模型训练部分和模型预测部分。
对于模型训练部分,步骤如下:
S11、准备数据集。
本发明实施例准备了三类数据集。第一类为敏感图片分类数据集。该数据集中有普通图片和黄色图片两类样本。另外,搜集了一部分性感图片作为困难样本加入训练数据集的普通样本类别中。
第二类为敏感部位检测数据集。本申请实施例标记了敏感图片中人体的一些关键部位。
第三类为人体姿态估计数据集。
S12、准备深度学习模型。
如图3所示,本申请实施例设计的检测模型包含敏感图片分类(ScNet)、敏感身体区域检测(SpNet)和人体姿态估计(PoseNet)三种网络。本申请实施例使用ResNet作为骨干网(Backbone),在其后面接了敏感图片分类、敏感区域检测和人体姿态估计三个头网络(head)。其中,敏感身体区域检测网络(SpNet)使用了特征金字塔网络(FPN)与RetinaNet。敏感图片分类网络(ScNet)将骨干网络的最后一层feature map作为输入,通过多层卷积以及对全局均值池化后连接到全连接层,对图像进行二分类。人体姿态估计(PoseNet)则采用文献(Bin Xiao,Haiping Wu,and Yichen Wei.Simple Baselines for Human PoseEstimation and Tracking.ECCV 2018)中的方法,在backbone后面接多个反卷积层,以此估计人体姿态的关键点。
该模型通过添加敏感身体部位和人体姿态信息来增强backbone提取的特征,从而增强敏感图片分类的效果。
鉴于设计的检测模型包含敏感图片分类(ScNet)、敏感身体区域检测(SpNet)和人体姿态估计(PoseNet)三种网络,本申请实施例定义loss由三部分组成,模型Loss定义如下:
Ltotal=Ldet+Lcls+Lpose
总的损失函数包含敏感身体部位检测损失,敏感图片分类损失以及人体姿态估计的损失。其中敏感身体部位检测的分类部分采用交叉熵损失、回归检测框部分采用smoothL1Loss;敏感图片分类采用交叉熵损失;而人体姿态估计对估计的人体姿态的关键点采用L2损失。
具体的,
Figure BDA0002433839920000061
其中,
Ldet-cls(ri,ri *)=-ri **(1-ri)γ*log(ri)
Figure BDA0002433839920000071
Figure BDA0002433839920000072
Figure BDA0002433839920000073
ri代表预测属于第i类敏感身体部位的概率,ti=(tx,ty,tw,th)代表预测的回归框的四个点的位置,pj代表图像属于第j类(敏感,普通)的概率,ptk代表预测的姿态的关键点的坐标。ri *
Figure BDA0002433839920000074
则代表对应的真实值。Ndet,λ,α和β则是各类loss的权重。
S13、训练检测模型。
由于包含敏感图片分类、敏感身体区域检测和人体姿态估计三种网络,检测网络的训练采用多任务学习的方法。
模型预测部分,其主要步骤如图4所示:
一、抽取视频某一帧。
二、使用深度学习模型中的敏感图片分类网络预测该帧属于色情图片的概率。
三、判定该帧属于色情内容的概率,如果概率值大于阈值,则判定该视频为色情视频。否则按固定时间间隔T,抽取视频下一帧,计算下一帧属于色情内容的概率。直至计算完所有的帧。时间间隔T,例如为10秒或者20秒。
需要说明的是,基于深度学习的检测模型的骨干网络(Backbone):不限于残差网络ResNet、VGGNet、GoogleNet、Wide ResNet、DenseNet等网络结构。基于深度学习的检测模型中分类问题的损失函数(loss):不限于softmax loss、center loss、focal loss、marginal loss等损失函数。基于深度学习的检测模型中回归问题的损失函数(loss):不限于smoothL1Loss、L2Loss、L1Loss等网络结构。
本发明实施例中的敏感视频检测方法,将敏感身体区域检测和人体姿态估计加入到网络中,由此骨干网络在训练的时候将会考虑到身体区域检测姿态估计的损失,增强了骨干网络提取的特征,从而增强敏感图片分类的效果。
本发明的另一些实施例如图5所示,提供了一种敏感视频检测方法,包括如下步骤:
S110、获取待检测视频,从所述待检测视频中抽取待检测帧;
S120、使用深度学习模型中的敏感图片分类网络计算所述待检测帧属于敏感图片的概率;
S130、判定所述概率大于阈值时,则判定所述待检测视频为敏感视频;
S140、判定所述概率小于等于阈值时,按固定时间间隔T,抽取待检测视频下一帧作为待检测帧,重复执行步骤S120至步骤S140,直至待检测视频被检测完;
其中,所述深度学习模型包括骨干网络、与所述骨干网络连接的敏感图片分类网络、与所述骨干网络连接的敏感身体区域检测网络、与所述骨干网络连接的人体姿态估计网络;所述深度学习模型的损失函数包括敏感身体部位检测损失,敏感图片分类损失以及人体姿态估计的损失。
进一步地,还包括如下步骤:
S150、当所述待检测视频的所有待检测帧的概率小于等于阈值时,则判定所述待检测视频为非敏感视频。
进一步地,所述深度学习模型的损失函数表达如下:
Figure BDA0002433839920000081
其中,
Ldet-cls(ri,ri *)=-ri **(1-ri)γ*log(ri)
Figure BDA0002433839920000082
Figure BDA0002433839920000083
Figure BDA0002433839920000084
ri代表预测属于第i类敏感身体部位的概率,ti=(tx,ty,tw,th)代表预测的回归框的四个点的位置,pj代表图像属于第j类(敏感,普通)的概率,ptk代表预测的姿态的关键点的坐标。ri *
Figure BDA0002433839920000091
则代表对应的真实值。Ndet,λ,α和β则是各类loss的权重。
进一步地,训练所述深度学习模型采用如下数据集:敏感图片分类数据集、敏感部位检测数据集和人体姿态估计数据集;其中,所述敏感图片分类数据集包括,普通图片、敏感图片,所述普通图片中含有性感图片,所述性感图片作为困难样本;所述敏感部位检测数据集包括:标记了人体的关键敏感部位的敏感图片。
进一步地,所述敏感图片分类网络将所述骨干网络的最后一层作为输入,通过多层卷积以及对全局均值池化后连接到全连接层,对图像进行二分类。
进一步地,所述骨干网络采用如下:ResNet、VGGNet、GoogleNet、Wide ResNet、DenseNet中的任意一种;所述敏感身体区域检测网络包括特征金字塔网络FPN和RetinaNet。
进一步地,所述敏感身体部位检测损失包括分类部分损失和回归检测框部分损失,所述分类部分损失可采用交叉熵损失,所述回归检测框部分损失采用:smoothL1Loss、L2Loss、L1Loss中任一种;所述人体姿态估计的损失采用L2损失;所述敏感图片分类损失采用:softmax loss、center loss、focal loss、marginal loss中任一种。
本发明实施例通过添加敏感身体部位和人体姿态信息来增强网络基础特征的提取,得到更丰富的特征(backbone提取的特征),从而增强敏感图片分类的效果。可适用于图片、视频、直播流的检测。
基于上述的敏感视频检测方法,本发明另外一些实施例如图6所示,提供了一种敏感视频检测装置100,包括:
初始化模块110,用于获取待检测视频,从所述待检测视频中抽取待检测帧;
概率计算模块120,用于使用深度学习模型中的敏感图片分类网络计算所述待检测帧属于敏感图片的概率;
敏感视频判定模块130,用于判定所述概率大于阈值时,则判定所述待检测视频为敏感视频;
循环模块140,用于判定所述概率小于等于阈值时,按固定时间间隔T,抽取待检测视频下一帧作为待检测帧,重复调用所述概率计算模块120、所述敏感视频判定模块130和所述循环模块140,直至待检测视频被检测完;
其中,所述深度学习模型包括骨干网络、与所述骨干网络连接的敏感图片分类网络、与所述骨干网络连接的敏感身体区域检测网络、与所述骨干网络连接的人体姿态估计网络;所述深度学习模型的损失函数包括敏感身体部位检测损失,敏感图片分类损失以及人体姿态估计的损失。
上述各个模块的具体执行步骤在敏感视频检测方法中对应的步骤中已进行详细叙述,在此不做过多赘述。
下面参考图7,其示出了适于用来实现本申请实施例的控制设备的计算机系统800的结构示意图。图7示出的控制设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图7所示,计算机系统800包括中央处理单元(CPU)801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中,还存储有系统800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时,执行本申请的方法中限定的上述功能。
需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,所述程序设计语言包括面向目标的程序设计语言—诸如Python、Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括获取单元、分割单元、确定单元和选择单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,获取单元还可以被描述为“获取待处理绘本图像的单元”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取待检测视频,从所述待检测视频中抽取待检测帧;使用深度学习模型中的敏感图片分类网络计算所述待检测帧属于敏感图片的概率;判定所述概率大于阈值时,则判定所述待检测视频为敏感视频;判定所述概率小于等于阈值时,按固定时间间隔T,抽取待检测视频下一帧作为待检测帧,重复执行上述步骤,直至待检测视频被检测完;其中,所述深度学习模型包括骨干网络、与所述骨干网络连接的敏感图片分类网络、与所述骨干网络连接的敏感身体区域检测网络、与所述骨干网络连接的人体姿态估计网络;所述深度学习模型的损失函数包括敏感身体部位检测损失,敏感图片分类损失以及人体姿态估计的损失。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (10)

1.一种敏感视频检测方法,其特征在于,包括如下步骤:
S110、获取待检测视频,从所述待检测视频中抽取待检测帧;
S120、使用深度学习模型中的敏感图片分类网络计算所述待检测帧属于敏感图片的概率;
S130、判定所述概率大于阈值时,则判定所述待检测视频为敏感视频;
S140、判定所述概率小于等于阈值时,按固定时间间隔T,抽取待检测视频下一帧作为待检测帧,重复执行步骤S120至步骤S140,直至待检测视频被检测完;
其中,所述深度学习模型包括骨干网络、与所述骨干网络连接的敏感图片分类网络、与所述骨干网络连接的敏感身体区域检测网络、与所述骨干网络连接的人体姿态估计网络;所述深度学习模型的损失函数包括敏感身体部位检测损失,敏感图片分类损失以及人体姿态估计的损失。
2.根据权利要求1所述的敏感视频检测方法,其特征在于,还包括如下步骤:
S150、当所述待检测视频的所有待检测帧的概率小于等于阈值时,则判定所述待检测视频为非敏感视频。
3.根据权利要求1或2所述的敏感视频检测方法,其特征在于,所述深度学习模型的损失函数表达如下:
Figure FDA0002433839910000011
其中,
Figure FDA0002433839910000012
Figure FDA0002433839910000013
Figure FDA0002433839910000014
Figure FDA0002433839910000015
ri代表预测属于第i类敏感身体部位的概率,ti=(tx,ty,tw,th)代表预测的回归框的四个点的位置,pj代表图像属于第j类的概率,ptk代表预测的姿态的关键点的坐标,ri *
Figure FDA0002433839910000021
则代表对应的真实值;Ndet,λ,α和β则是各类loss的权重。
4.根据权利要求1或2所述的敏感视频检测方法,其特征在于,训练所述深度学习模型采用如下数据集:敏感图片分类数据集、敏感部位检测数据集和人体姿态估计数据集;其中,所述敏感图片分类数据集包括,普通图片、敏感图片,所述普通图片中含有性感图片,所述性感图片作为困难样本;所述敏感部位检测数据集包括:标记了人体的关键敏感部位的敏感图片。
5.根据权利要求1或2所述的敏感视频检测方法,其特征在于,所述敏感图片分类网络将所述骨干网络的最后一层作为输入,通过多层卷积以及对全局均值池化后连接到全连接层,对图像进行二分类。
6.根据权利要求1或2所述的敏感视频检测方法,其特征在于,所述骨干网络采用如下:ResNet、VGGNet、GoogleNet、Wide ResNet、DenseNet中的任意一种;所述敏感身体区域检测网络包括特征金字塔网络FPN和RetinaNet。
7.根据权利要求5所述的敏感视频检测方法,其特征在于,所述敏感身体部位检测损失包括分类部分损失和回归检测框部分损失,所述分类部分损失可采用交叉熵损失,所述回归检测框部分损失采用:smoothL1Loss、L2Loss、L1Loss中任一种;所述人体姿态估计的损失采用L2损失;所述敏感图片分类损失采用:softmax loss、center loss、focal loss、marginal loss中任一种。
8.一种敏感视频检测装置,其特征在于,包括:
初始化模块,用于获取待检测视频,从所述待检测视频中抽取待检测帧;
概率计算模块,用于使用深度学习模型中的敏感图片分类网络计算所述待检测帧属于敏感图片的概率;
敏感视频判定模块,用于判定所述概率大于阈值时,则判定所述待检测视频为敏感视频;
循环模块,用于判定所述概率小于等于阈值时,按固定时间间隔T,抽取待检测视频下一帧作为待检测帧,重复调用所述概率计算模块、所述敏感视频判定模块和所述循环模块,直至待检测视频被检测完;
其中,所述深度学习模型包括骨干网络、与所述骨干网络连接的敏感图片分类网络、与所述骨干网络连接的敏感身体区域检测网络、与所述骨干网络连接的人体姿态估计网络;所述深度学习模型的损失函数包括敏感身体部位检测损失,敏感图片分类损失以及人体姿态估计的损失。
9.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN202010245347.8A 2020-03-31 2020-03-31 敏感视频检测及装置 Pending CN111523399A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010245347.8A CN111523399A (zh) 2020-03-31 2020-03-31 敏感视频检测及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010245347.8A CN111523399A (zh) 2020-03-31 2020-03-31 敏感视频检测及装置

Publications (1)

Publication Number Publication Date
CN111523399A true CN111523399A (zh) 2020-08-11

Family

ID=71901314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010245347.8A Pending CN111523399A (zh) 2020-03-31 2020-03-31 敏感视频检测及装置

Country Status (1)

Country Link
CN (1) CN111523399A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111985419A (zh) * 2020-08-25 2020-11-24 腾讯科技(深圳)有限公司 视频处理方法及相关设备
CN112765402A (zh) * 2020-12-31 2021-05-07 北京奇艺世纪科技有限公司 一种敏感信息识别方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106060653A (zh) * 2016-06-08 2016-10-26 武汉鸿瑞达信息技术有限公司 一种对互联网视频直播中的不雅动作过滤的方法
CN109145979A (zh) * 2018-08-15 2019-01-04 上海嵩恒网络科技股份有限公司 敏感图像鉴定方法及终端系统
CN110472532A (zh) * 2019-07-30 2019-11-19 中国科学院深圳先进技术研究院 一种视频对象行为识别方法和装置
CN110555417A (zh) * 2019-09-06 2019-12-10 福建中科亚创动漫科技股份有限公司 一种基于深度学习的视频图像识别系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106060653A (zh) * 2016-06-08 2016-10-26 武汉鸿瑞达信息技术有限公司 一种对互联网视频直播中的不雅动作过滤的方法
CN109145979A (zh) * 2018-08-15 2019-01-04 上海嵩恒网络科技股份有限公司 敏感图像鉴定方法及终端系统
CN110472532A (zh) * 2019-07-30 2019-11-19 中国科学院深圳先进技术研究院 一种视频对象行为识别方法和装置
CN110555417A (zh) * 2019-09-06 2019-12-10 福建中科亚创动漫科技股份有限公司 一种基于深度学习的视频图像识别系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
FENG CHENG等: "A global and local context integration DCNN for adult image classification" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111985419A (zh) * 2020-08-25 2020-11-24 腾讯科技(深圳)有限公司 视频处理方法及相关设备
CN112765402A (zh) * 2020-12-31 2021-05-07 北京奇艺世纪科技有限公司 一种敏感信息识别方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
TWI773189B (zh) 基於人工智慧的物體檢測方法、裝置、設備及儲存媒體
US10943145B2 (en) Image processing methods and apparatus, and electronic devices
CN109948507B (zh) 用于检测表格的方法和装置
WO2020000879A1 (zh) 图像识别方法和装置
CN111523566A (zh) 目标视频片段定位方法和装置
CN108229418B (zh) 人体关键点检测方法和装置、电子设备、存储介质和程序
CN109583389B (zh) 绘本识别方法及装置
WO2022105019A1 (zh) 一种车辆卡口设备抓拍质量评估方法、装置及可读介质
CN109389096B (zh) 检测方法和装置
CN111209431A (zh) 一种视频搜索方法、装置、设备及介质
CN113569740B (zh) 视频识别模型训练方法与装置、视频识别方法与装置
CN113436100B (zh) 用于修复视频的方法、装置、设备、介质和产品
CN112650875A (zh) 房产图片验证方法、装置、计算机设备及存储介质
CN110209658B (zh) 数据清洗方法和装置
CN110020658B (zh) 一种基于多任务深度学习的显著目标检测方法
EP3471018B1 (en) Method and apparatus for evaluating illumination condition in face image
CN114663952A (zh) 对象分类方法、深度学习模型的训练方法、装置和设备
CN114612743A (zh) 深度学习模型的训练方法、目标对象识别方法和装置
CN112949767A (zh) 样本图像增量、图像检测模型训练及图像检测方法
CN111523399A (zh) 敏感视频检测及装置
CN112766284A (zh) 图像识别方法和装置、存储介质和电子设备
CN113222921A (zh) 一种图像处理方法及系统
CN113643260A (zh) 用于检测图像质量的方法、装置、设备、介质和产品
CN110895811A (zh) 一种图像篡改检测方法和装置
CN114663871A (zh) 图像识别方法、训练方法、装置、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200811

WD01 Invention patent application deemed withdrawn after publication