CN113298791A - 一种基于深度学习的混合卡通的图像检测方法 - Google Patents

一种基于深度学习的混合卡通的图像检测方法 Download PDF

Info

Publication number
CN113298791A
CN113298791A CN202110601966.0A CN202110601966A CN113298791A CN 113298791 A CN113298791 A CN 113298791A CN 202110601966 A CN202110601966 A CN 202110601966A CN 113298791 A CN113298791 A CN 113298791A
Authority
CN
China
Prior art keywords
picture
image
cartoon
training
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110601966.0A
Other languages
English (en)
Inventor
郑炎
陈耿生
郑行涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Fufu Information Technology Co Ltd
Original Assignee
China Telecom Fufu Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Fufu Information Technology Co Ltd filed Critical China Telecom Fufu Information Technology Co Ltd
Priority to CN202110601966.0A priority Critical patent/CN113298791A/zh
Publication of CN113298791A publication Critical patent/CN113298791A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于深度学习的混合卡通的图像检测方法,首先准备图片样本,准备多种类型的图像,定义五个分类标签卡分别对应不同数值;样本按比例分隔为训练集与测试集,然后对图片缩放到AxB大小,并转为AxBx3的矩阵;将对应的标签分别转为one‑hot编码形式,通过特征提取层将矩阵转为多维的向量然后接256隐藏层的全连接层以及Dropout层;接上5个输出神经元的全连接层,使用softmax作为激活函数并采用交叉熵为目标损失函数,经由adam优化器进行损失优化后得到最优模型;将待检测的图像输入到训练出检测不良图像的模型中输出多个分类的概率分布,然后转换为实际的标签值。本发明不依赖任何用户行为数据,可以检测任何来源的图像。

Description

一种基于深度学习的混合卡通的图像检测方法
技术领域
本发明涉及人工智能,尤其涉及一种基于深度学习的混合卡通的图像检测方法。
背景技术
传统的不良图片的检测方法有以下几种:
1.皮肤区域检测法:该方法主要是采取对像素的颜色通道根据皮肤颜色区间进行划定,然后进行统计。对统计后的值进行阈值判定,大于阈值的认为是不良图像。这种方法简单粗暴,但是误判率很高。很容易将黑白的不良图片误判为正常,而像证件照这种脸部在图像占比较高的图片误判为不良。
2.指纹检测比对法:该方法是在已有不良图片库的基础上,通过与库里的不良图片的指纹码做比较,来检测出不良图片。比较常用的指纹码像MD5这种方式检测效率很高,所以被百度网盘使用。用户上传图片文件的时候会与被其他用户举报过的图片的MD5值进行比对,比对的MD5值一致的就会被判定为不良。不良的误判率很低几乎为零,但是漏判率很高,图片文件被篡改一个字节,都会绕过不良的判断,所以更不能应对分辨率不同的情况。所以出现了一种改良后的算法,具体是通过将图片经过缩放到一个相同的像素大小比如16x16,然后通过卷积的方式算出一个16x16的特征矩阵,然后通过与不良图像库里的图片比对特征差,差值越小则相似度越高。但是这种方式还是需要海量的不良图片特征库作为基础,对于与库里的图片完全不同的图像无能为力。
3.数据挖掘法:该方法是通过上传用户积累的历史行为进行数据挖掘,少数不良图片上传者与大部分正常用户在行为上往往会有很大的不同。利用这点对用户的行为进行聚类分析,从而分析得到用户的行为分类。然后根据用户的行为来鉴别其上传的图片是否是不良。这种方案需要从海量用户历史行为的数据中进行分析,对数据需要多维度进行分析,从大局上来看是属于比较可行的方案,但是如果对于给定的单张图片进行检测就无能为力。
4.基于特征与机器学习的检测法:该方法需要人工对不良图像进行特征分析并得到特征规则。然后对于输入的图片通过特征规则提取特征信息。然后交与传统的机器学习分类器,比如SVM进行分类。最后根据分类结果鉴别出是否是不良图片。这种方式虽然比起第一种的皮肤区域检测法来说准确率会有较大的提升,也弥补了MD5检测法对于图片检测容错的无能为力,也解决了数据挖掘方式对于海量用户历史行为的依赖。但是由于不是端到端的学习模式,所以这种方法也有比较明显的缺点。第一,需要耗费大量的人工时间进行特征提取。第二,由于特征提取的好坏很大程度影响了不良图像检测的准确率,所以对于特征提取的人员需要更加专业的技术知识。
所以不同于文字鉴黄,图像鉴黄目前仍大量依赖人工不良检测师,一方面存在审核标准的主观误差,另一方面也不利于人工不良检测师这一职业人员的长期心理健康。
发明内容
本发明的目的在于提供一种基于深度学习的混合卡通的图像检测方法。
本发明采用的技术方案是:
一种基于深度学习的混合卡通的图像检测方法,具体包括以下步骤:
S1,训练模型:将大量标记好标签的图片样本喂给深度神经网络模型训练出检测不良图像的模型,具体步骤如下:
S1-1,首先准备图片样本,准备多种类型的图像,
S1-2,定义五个分类标签卡通正常(drawings)、卡通不良(hentai)、正常(neutral)不良(porn)和性感(sexy)分别对应值0、1、2、3和4;
S1-3,样本按比例分隔为训练集与测试集,然后对图片缩放到AxB大小,并转为AxBx3的矩阵;
S1-4,将对应的标签分别转为one-hot编码形式,即向量的值是标签值所对应的下标位的值为1,其余为0;
S1-5,通过inception-v3的特征提取层将矩阵转为多维(18432维)的向量然后接上256个隐藏层的全连接层;
S1-6,训练的过程加入Dropout层以在训练过程中随机抛弃一部分的神经元,使其暂时不参与训练,从而降低过拟合;
S1-7,接上5个输出神经元的全连接层,同时使用softmax作为激活函数采用交叉熵为目标损失函数,经由adam优化器进行损失优化后得到最优模型;
S2,预测图像:用训练好的模型来做分类预测的任务了,将待检测的图像输入到训练出检测不良图像的模型中输出多个分类的概率分布,然后转换为实际的标签值。
进一步地,作为一种较优实施方式,S1-1中每一种类型图像各10000张。
进一步地,作为一种较优实施方式,S1-3中的样本按照7:3切分训练集与测试集。
进一步地,作为一种较优实施方式,S1-3中的图片缩放到150x150大小,并转为150x150x3的矩阵。
进一步地,作为一种较优实施方式,S1-5中全连接层前的特征提取神经网络结构为:将多层的卷积层接入包含一个以上神经元的全连接层,再接入与卷积层相同层数的反卷积层。
本发明采用以上技术方案,将大量标记好标签的图片样本喂给深度神经网络模型,利用梯度下降法来减小预测值与目标值的误差,从而训练出能够自动检测不良图像的模型。不会受到图片皮肤的颜色以及皮肤颜色像素在图片像素占比的多少的影响。对比传统的不良图像检测能够很大程度提高不良图像检测的准确率,能够检测出不同皮肤颜色、分辨率、图像风格以及从未在互联网出现过的不良图片,同时节省大量人工分析特征的成本。本发明适用于所有需要进行低俗图片检测的需求场景,以及通过替换训练样本,可以进行其它类型的图像分类检测。
附图说明
以下结合附图和具体实施方式对本发明做进一步详细说明;
图1为本发明实施例2采用多分类处理方法的流程示意图。
图2为本发明一种基于深度学习的混合卡通的图像检测方法的图片样本处理流程示意图;
图3为本发明一种基于深度学习的混合卡通的图像检测方法的图片映射到二维空间示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图对本申请实施例中的技术方案进行清楚、完整地描述。
如图1至图3之一所示,本发明公开了一种基于深度学习的混合卡通的图像检测方法,将大量标记好标签的图片样本喂给深度神经网络模型,利用梯度下降法来减小预测值与目标值的误差,从而训练出能够自动检测不良图像的模型。
如图2所示,首先准备图片样本。图片样本由正常图片(里面包含现实的图像与卡通的图像),性感图片,与不良图片(包含有现实不良图像与卡通不良图像)组成共50000张,每一种类型图像各差不多10000张。样本按照7:3切分训练集与测试集。然后对图片进行缩放到150x150大小,并转为150x150x3的矩阵(图片为RGB三通道)。
搭建特征提取的神经网络层。对于图像特征的提取,可以选择使用的迁移模型有inception,resnet,vgg16等,本发明之前使用过vgg16和inception-v3,感觉inception-v3的效果比vgg16好一些。
对于不良图像检测任务有两种理解思路:
第一种针对常规不含卡通的真人图像的情形:如图2所示,采用的特征提取神经网络结构将多层的卷积层接入包含一个以上神经元的全连接层,再接入与卷积层相同层数的反卷积层。针对该模型给定一张图像,如果这张图片是不良的话,告诉模型输出的值为1,性感的话输出值为0.5,正常的话就是0。那么这样的话,可以把检测不良图像的问题转变成一个回归问题。即给定一张图片,模型输出一个0到1的值。输出值越接近1,图片的倾向越偏向于不良。反之,越接近0,则输入的图片越有可能是正常的。这种思路与市面上一些不良图像检测接口最后给出的图像不良评分的思路有些类似。按照这种思路,对正常→性感→不良采取的是一种连续的输出分布,只需要人为的定义不良,性感,正常的阈值区间划分比如(0.7,1]之间认为是不良,(0.4,0.7]认为是性感,[0,0.4]认为是正常。在保证样本质量以及数量与合理的阈值划分的情况下,如果训练样本和测试样本在只有真人的图片情况下准确率可以达到91.78%左右,可以用于生产环境使用。但是现在网络上有很多不良卡通的传播,把不良卡通的图片作为训练样本和测试样本参与实验,准确率会降到60%以下,这样的话是无法满足生产环境需要的。
针对上面卡通不良图片加入影响到检测的识别效果,主要的问题在于卡通风格与真实的图像风格之间存在较大的差异,所以由卷积层提取出的特征在空间分布上差异较大。模型的输入值与输出值都是经过相同维度缩放后的图片矩阵。
50000张图片喂给模型进行训练后,裁剪掉上采样层。然后用通过输入图片得到全连接层的两个神经元输出(分别作为点的坐标X和Y),然后将这些图片映射到二维空间上的情况如图3所示。从图3中可以看出porn(不良),neutral(正常),sexy(性感),drawings(卡通正常),hentai(卡通不良)的二维平面分布。其中hentai和porn,drawings与neutral都处在异或关系。这样的话使用回归输出后的结果按照区间划分,无法将hentai与porn,drawings与neutral划分到同一个区间内。这就导致了采用回归的方式虽然可以很好的区分真人的不良和正常图片,但是当把训练集加入卡通不良和卡通正常图片重新训练后得到的效果却达不到理想的效果。
第二种针对混合卡通、真人的图像情形:由于实施例1的回归方式没办法分开异或关系的hentai和porn,drawings与neutral,所以本发明换了一个思路,改用了多分类问题的解决思路。就是在第一种方法的基础上将最后的全连接单输出层改为全连接层加softmax(用于处理多分类的问题)激活函数。同时训练的样本标签全部转为one-hot编码形式。采用交叉熵为目标损失函数,经由adam优化器进行损失优化。
如图1所示,具体做法是先定义好五个分类标签drawings(卡通正常),hentai(卡通不良),neutral(正常),porn(不良),sexy(性感)分别对应值0,1,2,3,4。然后将对应的标签分别转为one-hot编码形式,即向量的值是标签值所对应的下标位的值为1,其余为0。例如:2的one-hot编码为[0,0,1,0,0]。然后重新定义模型,将inception-v3的特征提取层后先将矩阵转为18432维的向量然后接上256个隐藏层的全连接层。同时为了防止过拟合,在训练的过程加入dropout(在训练过程中随机抛弃一部分的神经元,使其暂时不参与训练,从而降低过拟合)。模型的最后由于是5分类的问题,所以再接上5个输出神经元的全连接层,同时使用softmax作为激活函数。
Layer(type) Output Shape Param#
inception_v3(Model) (None,3,3,2048) 21802784
flatten_1(Flatten) (None,18432) 0
dense_1(Dense) (None,256) 4718848
dropout_1(Dropout) (None,256) 0
dense_2(Dense) (None,5) 1285
表1:模型的具体结构
模型的具体结构如表1所示,接下去就是训练模型,训练模型的过程与第一种类似,只是采用的目标损失函数由原来求解回归问题的均方差改为交叉熵。
经过实验采用第二种方法以后准确率不会因为加入卡通样本而导致下降。经过测试,测试数据集的正确率在93.63%左右,可以满足生产环境要求。
本发明不需要海量的图片特征库,也不会因为图片文件的内容的细微或者分辨率的不同而导致图片检测失败。而比较数据挖掘的方式,本发明不依赖任何用户行为数据,可以检测任何来源的图像。和基于特征与机器学习的检测方法相比这种基于深度学习的方式不但准确率更高,而且由于是端到端的学习模式,由神经网络通过梯度下降的方式自我调整神经网络的权重,从而学习到卷积层的特征提取规则。所以比起基于特征与机器学习的检测方法节省了大量特征规则分析的人力成本。
本发明采用以上技术方案,将大量标记好标签的图片样本喂给深度神经网络模型,利用梯度下降法来减小预测值与目标值的误差,从而训练出能够自动检测不良图像的模型。不会受到图片皮肤的颜色以及皮肤颜色像素在图片像素占比的多少的影响。对比传统的不良图像检测能够很大程度提高不良图像检测的准确率,能够检测出不同皮肤颜色、分辨率、图像风格以及从未在互联网出现过的不良图片,同时节省大量人工分析特征的成本。本发明适用于所有需要进行低俗图片检测的需求场景,以及通过替换训练样本,可以进行其它类型的图像分类检测。
显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

Claims (5)

1.一种基于深度学习的混合卡通的图像检测方法,其特征在于:其包括以下步骤:
S1,训练模型:将大量标记好标签的图片样本喂给深度神经网络模型训练出检测不良图像的模型,具体步骤如下:
S1-1,首先准备图片样本,准备多种类型的图像,
S1-2,定义五个分类标签卡通正常、卡通不良、正常、不良和性感分别对应值0、1、2、3和4;
S1-3,样本按比例分隔为训练集与测试集,然后对图片缩放到AxB大小,并转为AxBx3的矩阵;
S1-4,将对应的标签分别转为one-hot编码形式,即向量的值是标签值所对应的下标位的值为1,其余为0;
S1-5,通过inception-v3的特征提取层将矩阵转为多维的向量然后接上256个隐藏层的全连接层;
S1-6,训练的过程加入Dropout 层以在训练过程中随机抛弃一部分的神经元,使其暂时不参与训练,从而降低过拟合;
S1-7,接上5个输出神经元的全连接层,同时使用softmax作为激活函数采用交叉熵为目标损失函数,经由adam优化器进行损失优化后得到最优模型;
S2,预测图像:用训练好的模型来做分类预测的任务了,将待检测的图像输入到训练出检测不良图像的模型中输出多个分类的概率分布,然后转换为实际的标签值。
2.根据权利要求1所述的一种基于深度学习的混合卡通的图像检测方法,其特征在于:S1-1中每一种类型图像各10000张。
3.根据权利要求1所述的一种基于深度学习的混合卡通的图像检测方法,其特征在于:S1-3中的样本按照7:3切分训练集与测试集。
4.根据权利要求1所述的一种基于深度学习的混合卡通的图像检测方法,其特征在于:S1-3中的图片缩放到150x150大小,并转为150x150x3的矩阵。
5.根据权利要求1所述的一种基于深度学习的混合卡通的图像检测方法,其特征在于:S1-5中全连接层前的神经网络结构为:将多层的卷积层接入包含一个以上神经元的全连接层,再接入与卷积层相同层数的反卷积层。
CN202110601966.0A 2021-05-31 2021-05-31 一种基于深度学习的混合卡通的图像检测方法 Pending CN113298791A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110601966.0A CN113298791A (zh) 2021-05-31 2021-05-31 一种基于深度学习的混合卡通的图像检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110601966.0A CN113298791A (zh) 2021-05-31 2021-05-31 一种基于深度学习的混合卡通的图像检测方法

Publications (1)

Publication Number Publication Date
CN113298791A true CN113298791A (zh) 2021-08-24

Family

ID=77326400

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110601966.0A Pending CN113298791A (zh) 2021-05-31 2021-05-31 一种基于深度学习的混合卡通的图像检测方法

Country Status (1)

Country Link
CN (1) CN113298791A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508650A (zh) * 2018-10-23 2019-03-22 浙江农林大学 一种基于迁移学习的树种识别方法
AU2019100354A4 (en) * 2019-04-04 2019-05-16 Chen, Mingjie Mr An animal image search system based on convolutional neural network
US20200143248A1 (en) * 2017-07-12 2020-05-07 Tencent Technology (Shenzhen) Company Limited Machine learning model training method and device, and expression image classification method and device
CN112613536A (zh) * 2020-12-08 2021-04-06 燕山大学 一种基于smote和深度学习的近红外光谱柴油牌号识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200143248A1 (en) * 2017-07-12 2020-05-07 Tencent Technology (Shenzhen) Company Limited Machine learning model training method and device, and expression image classification method and device
CN109508650A (zh) * 2018-10-23 2019-03-22 浙江农林大学 一种基于迁移学习的树种识别方法
AU2019100354A4 (en) * 2019-04-04 2019-05-16 Chen, Mingjie Mr An animal image search system based on convolutional neural network
CN112613536A (zh) * 2020-12-08 2021-04-06 燕山大学 一种基于smote和深度学习的近红外光谱柴油牌号识别方法

Similar Documents

Publication Publication Date Title
CN106599854B (zh) 基于多特征融合的人脸表情自动识别方法
CN113887459B (zh) 一种基于改进Unet++的露天矿区采场变化区域检测方法
CN109753950B (zh) 动态人脸表情识别方法
CN105184226A (zh) 数字识别方法和装置及神经网络训练方法和装置
CN106815492A (zh) 一种用于16SrRNA基因的细菌群落组成和多样性分析的自动化方法
CN111652273B (zh) 一种基于深度学习的rgb-d图像分类方法
CN108764361B (zh) 基于集成学习的游梁式抽油机示功图的工况识别方法
CN115375690B (zh) 一种舌象腐腻苔分类识别方法
CN111523421A (zh) 基于深度学习融合各种交互信息的多人行为检测方法及系统
CN112990220B (zh) 一种图像中目标文本智能识别方法及系统
CN111896495A (zh) 基于深度学习与近红外光谱太平猴魁产地甄别方法及系统
CN112102322A (zh) 一种基于多模态U-Net的断层识别方法
CN110751191A (zh) 一种图像的分类方法及系统
CN103366373B (zh) 基于模糊相容图的多时相遥感影像变化检测方法
CN110874576B (zh) 一种基于典型相关分析融合特征的行人再识别方法
CN110852292A (zh) 一种基于跨模态多任务深度度量学习的草图人脸识别方法
CN111199538B (zh) 一种针对多层压缩感知图像的隐私保护度评价方法
CN113284563A (zh) 一种蛋白质质谱定量分析结果的筛选方法及系统
CN114065798A (zh) 基于机器识别的视觉识别方法及装置
CN113705310A (zh) 特征学习的方法、目标物体的识别方法和对应装置
CN117173147A (zh) 钢带加工用表面处理设备及其方法
CN113298791A (zh) 一种基于深度学习的混合卡通的图像检测方法
Vilasini et al. Deep Learning Techniques to Detect Learning Disabilities Among children using Handwriting
CN111353443B (zh) 一种基于跨视图核协同表示的行人再识别方法
CN117727053B (zh) 一种多类别汉字单样本字体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination