CN112508094A

CN112508094A - 垃圾图片的识别方法、装置及设备

Info

Publication number: CN112508094A
Application number: CN202011418624.7A
Authority: CN
Inventors: 张伟望; 刘炎; 覃建策; 田本真; 陈邦忠
Original assignee: Perfect World Beijing Software Technology Development Co Ltd
Current assignee: Perfect World Beijing Software Technology Development Co Ltd
Priority date: 2020-07-24
Filing date: 2020-07-24
Publication date: 2021-03-16
Anticipated expiration: 2040-07-24
Also published as: CN111738357B; CN112508094B; CN111738357A

Abstract

本申请公开了一种垃圾图片的识别方法、装置及设备，涉及图像识别技术领域。其中方法包括：首先基于确定的深度学习模型，选取前预设数量层参数作为基础网络，并在基础网络之后构建浅层分类网络；然后冻结基础网络的参数，利用垃圾图片训练集训练浅层分类网络；若根据浅层分类网络训练更新后的参数判定网络收敛，则解冻基础网络的参数，并利用小于预设阈值的学习率，对基础网络和浅层分类网络的所有参数进行预设个数的全量数据的训练，以调整基础网络之前冻结的参数，得到目标深度学习模型；最后利用目标深度学习模型进行图片分类，以确定待识别图片是否为垃圾图片。本申请可自动化实现垃圾图片的分类识别，可提高垃圾图片的识别效率和准确率。

Description

垃圾图片的识别方法、装置及设备

本申请是2020年7月24日提交中国专利局、申请号为202010720028.8、名称为“垃圾图片的识别方法、装置及设备”的中国专利申请的分案申请。

技术领域

本申请涉及图像识别技术领域，尤其是涉及到一种垃圾图片的识别方法、装置及设备。

背景技术

随着网络信息的爆炸式增长，各个来源的图片数据也越来越多，而不符合法律法规、不适宜互联网环境的图片也随之出现，为了维护绿色纯净的互联网环境，图片反垃圾的工作也变得尤为重要。

图片反垃圾主要应用在头像审核、互联网术语(User Generated Content，UGC)审核、即时通讯，以及其他上传、发布、展示图片的场景里。目前，可通过人工逐一审核的方式，进而找到这些垃圾图片。然而这种人工审核的方式效率较低，并且会耗费大量的人力成本。

发明内容

有鉴于此，本申请提供了一种垃圾图片的识别方法、装置及设备，主要目的在于改善目前人工审核垃圾图片的方式效率较低，会耗费大量人力成本的技术问题。

依据本申请的一个方面，提供了一种垃圾图片的识别方法，该方法包括：

基于确定的深度学习模型，选取前预设数量层参数作为基础网络，并在所述基础网络之后构建浅层分类网络，不同的垃圾图片类型各自对应一个独立参数的浅层分类网络；

冻结所述基础网络的参数，并利用垃圾图片训练集，训练所述浅层分类网络，以更新所述浅层分类网络对应的参数，其中每个浅层分类网络都由各自对应垃圾图片类型的训练集进行训练；

若根据所述浅层分类网络训练更新后的参数判定网络收敛，则解冻所述基础网络的参数，并利用小于预设阈值的学习率，对所述基础网络和所述浅层分类网络的所有参数进行预设个数的全量数据的训练，以调整所述基础网络之前冻结的参数，得到目标深度学习模型；

根据待识别图片的图片特征，利用所述目标深度学习模型进行图片分类，以确定所述待识别图片是否为垃圾图片。

依据本申请的另一方面，提供了一种垃圾图片的识别装置，该装置包括：

构建模块，用于基于确定的深度学习模型，选取前预设数量层参数作为基础网络，并在所述基础网络之后构建浅层分类网络，不同的垃圾图片类型各自对应一个独立参数的浅层分类网络；

训练模块，用于冻结所述基础网络的参数，并利用垃圾图片训练集，训练所述浅层分类网络，以更新所述浅层分类网络对应的参数，其中每个浅层分类网络都由各自对应垃圾图片类型的训练集进行训练；

分类模块，用于根据待识别图片的图片特征，利用所述目标深度学习模型进行图片分类，以确定所述待识别图片是否为垃圾图片。

依据本申请又一个方面，提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述垃圾图片的识别方法。

依据本申请再一个方面，提供了一种垃圾图片的识别设备，包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述垃圾图片的识别方法。

借由上述技术方案，本申请提供的一种垃圾图片的识别方法、装置及设备，与目前人工审核垃圾图片的方式相比，本申请可自动化实现垃圾图片的识别，首先基于确定的深度学习模型,选取前预设数量层参数作为基础网络，并在该基础网络之后构建浅层分类网络，不同的垃圾图片类型各自对应一个独立参数的浅层分类网络，这样在利用垃圾图片训练集训练包含基础网络和浅层分类网络的目标深度学习模型后，可使用该目标深度学习模型根据待识别图片的图片特征，快速准确地进行精细化的图片分类，进而根据分类结果，确定该待识别图片是否为垃圾图片。整个过程可自动化实现，可提高垃圾图片的识别效率和准确率，并且可大大减少在此方面审核的人力成本的耗费。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1示出了本申请实施例提供的一种垃圾图片的识别方法的流程示意图；

图2示出了本申请实施例提供的另一种垃圾图片的识别方法的流程示意图；

图3示出了本申请实施例提供的目标MobileNet模型的模型结构示意图；

图4示出了本申请实施例提供的目标MobileNet模型的整体架构设计示意图；

图5示出了本申请实施例提供的图片反垃圾方案的整体架构和流程示意图；

图6示出了本申请实施例提供的一种垃圾图片的识别装置的结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

针对改善目前人工审核垃圾图片的方式效率较低，会耗费大量人力成本的技术问题。本实施例提供了一种垃圾图片的识别方法，如图1所示，该方法包括：

101、基于确定的深度学习模型，选取前预设数量层参数作为基础网络，并在基础网络之后构建浅层分类网络。

其中，为了节省训练效率和时间，上述确定深度学习模型可以是利用图片集预训练的深度学习模型，所述图片集可以是包含不同的图片样本数据的通用的图片集或者针对垃圾图片分类的特定图片集。例如，图片集可选用ImageNet数据集，该ImageNet数据集是目前深度学习图像领域应用得非常多的一个领域，关于图像分类、定位、检测等研究工作大多基于此数据集展开。ImageNet数据集文档详细，有专门的团队维护，使用非常方便，在计算机视觉领域研究论文中应用非常广。ImageNet数据集有1400多万幅图片，涵盖2万多个类别；其中有超过百万的图片有明确的类别标注和图像中物体位置的标注。通过该图片集预训练得到的深度学习模型，由于包含大量可用的样本图片特征，为模型改造前提供良好的基础，不但可提升改造后模型的训练效率，而且还可提高后续利用改造后的模型实现垃圾图片分类的准确性。除此之外，上述确定的深度学习模型还可以是未经过预训练的模型等，具体可根据实际需求进行选择设定等。

对于本实施例的执行主体可为垃圾图片识别的装置或设备，可配置在客户端侧或者服务端侧。本实施例具体可使用多种可选的深度学习模型，如Inception模型、MobileNet模型等。以选用MobileNet模型为例，该MobileNet模型的主要优势在于，一方面其模型参数量少运算速度快，可以减小服务器端延时，增加检测的每秒查询率(Query Per Second，QPS)。另一方面由于MobileNet的保存模型非常小，约为5MB左右，可以很方便的部署在移动端侧(如手机端、平板电脑的客户端侧等)，也就是可以在移动端进行离线的图片检测。如内置在游戏的APP中，在用户上传图片之前就对其进行检测和拦截，进一步减少服务器压力，可以无限的增加检测能力。

例如，以MobileNetV3-Large模型为例，使用ImageNet数据集进行预训练，得到预训练的MobileNet模型。后续可对该预训练的MobileNet模型进行改造，选取前预设数量层参数作为基础网络，并在基础网络之后构建浅层分类网络。

其中，不同的垃圾图片类型各自对应一个独立参数的浅层分类网络。浅层分类网络中结构包括了卷积层及全连结层。这些浅层分类网络相当于可分别针对各自对应垃圾图片类型进行分类的分类模型，这些分类模型可都共用一个共同的基础网络。例如，首先加载预训练MobileNet模型的前n层参数，作为基础网络，然后在第n层之后构建浅层分类网络，具体针对多种不良的垃圾图片类型(如包含影响用户心理健康的因素的图片类型、包含影响治安的因素的图片类型、包含敏感话题信息的图片、以及含有广告信息的图片类型等)，分别构建各自对应的浅层分类网络，以便分别进行相应分类。

本实施例基于预训练的MobileNet模型进行改造，重新选择了合适的损失函数(LOSS)、激活函数和优化器，改写网络的最后几层进行迁移学习。在保持大于一定阈值的准确率的情况下，将模型文件进行压缩，以适合移动端使用，如压缩到9MB左右大小，CPU环境下内存占用可减少80％，耗时也可减少70％。

102、冻结基础网络的参数，并利用垃圾图片训练集，训练浅层分类网络，以更新浅层分类网络对应的参数。

其中，其中，每个浅层分类网络都有各自对应垃圾图片类型的训练集进行训练。垃圾图片训练集中可包含不同的样本垃圾图片特征(如图片中图案、色彩、线条形状等图片内容特征)，以及每个样本垃圾图片特征对应的标签(如垃圾类型A、B、C、D等标签)。本实施例中可利用垃圾图片训练集，训练包含基础网络和浅层分类网络的目标深度学习模型，具体可执行步骤102至103所示的过程。

103、若根据浅层分类网络训练更新后的参数判定网络收敛，则解冻基础网络的参数，并利用小于预设阈值的学习率，对基础网络和浅层分类网络的所有参数进行预设个数的全量数据的训练，以调整基础网络之前冻结的参数，得到目标深度学习模型。

本实施例中通过这种先冻结基础网络再训练浅层分类网络，然后再解冻冻结的基础网络，对整体网络的所有参数进行几个全量数据的训练方式，在保证后续模型分类结果准确计算的前提下，可大大提升模型训练的效率。

例如，可针对不同的垃圾图片类型，分别采用对应的垃圾图片训练集，训练基础网络和对应的浅层分类网络，最终得到可进行多种不良的垃圾图片类型分类的目标MobileNet模型，即该目标MobileNet模型包含多个小的分类模型(如垃圾类型A分类模型、垃圾类型B分类模型、垃圾类型C分类模型、垃圾类型D分类模型等)。

104、获取待识别图片的图片特征并将图片特征输入到目标深度学习模型中进行图片分类，得到第一分类结果。

对于本实施例，由于基础网络为各个分类模型(如垃圾类型A分类模型、垃圾类型B分类模型、垃圾类型C分类模型、垃圾类型D分类模型等)共同的基础网络，因此在基础网络根据待识别图片的图片特征计算出结果后，可将结果分发给这些分类模型，每个分类模型根据该结果进一步计算得出各自对应的分类结果，最后所有分类结果进行汇总输出，得到该待识别图片的类型，如是否为垃圾图片的类型，进而确定该待识别图片是否违规。例如，提取图片1中图案、色彩、线条形状等图片内容特征，经过目标MobileNet模型的图片分类，得出图片1为垃圾类型A或垃圾类型B的图片，则确定图片1为垃圾图片。

为了进一步确定待识别图片的图片分类结果，如果待识别图片中还存在人脸特征和/或文字特征时，还可根据人脸特征和/或文字特征进行图片分类，然后再结合目标深度学习模型的分类结果进行融合来综合判定待识别图片的分类结果，具体可执行步骤105至107所示的过程。

105、获取待识别图片对应的人脸特征并利用分类器进行图片分类，得到第二分类结果。

106、获取待识别图片对应的文字特征并利用分类模型进行图片分类，得到第三分类结果。

107、融合第一分类结果、第二分类结果和第三分类结果，确定待识别图片的图片分类结果。

本实施例提供的垃圾图片的识别方法，与目前通过人工裁剪图像边框的方式相比，与目前人工审核垃圾图片的方式相比，本实施例可自动化实现垃圾图片的识别，首先基于图片集预训练的深度学习模型,选取前预设数量层参数作为基础网络，并在该基础网络之后构建浅层分类网络，不同的垃圾图片类型各自对应一个独立参数的浅层分类网络，这样在利用垃圾图片训练集训练包含基础网络和浅层分类网络的目标深度学习模型后，可使用该目标深度学习模型根据待识别图片的图片特征，快速准确地进行精细化的图片分类，进而根据分类结果，确定该待识别图片是否为垃圾图片。并且如果待识别图片中还存在人脸特征和/或文字特征时，还可根据人脸特征和/或文字特征进行图片分类，然后再结合目标深度学习模型的分类结果进行融合来综合判定待识别图片的分类结果。本实施例整个过程可自动化实现，可提高垃圾图片的识别效率和准确率，并且可大大减少在此方面审核的人力成本的耗费。

进一步的，作为上述实施例具体实施方式的细化和扩展，为了完整说明本实施例的实施方式，本实施例还提供了另一种垃圾图片的识别方法，如图2所示，该方法包括：

201、获取确定的深度学习模型。

例如，以上述确定的深度学习模型为利用图片集预训练的深度学习模型为例，本实施例可首先获取使用ImageNet数据集预训练的MobileNet模型。

202、基于确定的深度学习模型，选取前预设数量层参数作为基础网络，并在基础网络之后构建浅层分类网络。

其中，前预设数量层可以选择前15层、16层、17层或者其他层数等，需要说明的是，前预设数量层用于划分基础网络和浅层分类网络，以便后续执行先冻结部分层网络，训练其他层网络的过程(具体可执行步骤203至204所示的过程)，所以前预设数量层设置越大，后续模型训练的效率越快；而前预设数量层设置越小，后续训练得到的模型的分类结果越精确。因此本实施例中的前预设数量层，可根据实际应用当中模型训练效率以及模型分类结果精确度的需求进行预先设定。为了便于理解，后面以前16层网络进行模型构建的方式为例进行说明，例如，首先加载预训练MobileNet模型的前16层参数，然后在16层以后构建浅层分类网络。

203、在目标深度学习模型训练时，冻结基础网络的参数，并利用垃圾图片训练集，训练浅层分类网络，以更新浅层分类网络对应的参数。

其中，每个浅层分类网络都由各自对应垃圾图片类型的训练集进行训练。例如，先冻结预训练的MobileNet模型部分的参数(如前16层的基础网络的)，并在垃圾图片的训练集(如垃圾类型A的图片集、垃圾类型B的图片集等)上训练浅层分类网络(即只更新该部分网络的参数，而不动前16层网络的参数)。

对于使用垃圾图片训练集进行模型训练的过程，如果单纯的使用原始的图片数据集进行训练会存在一些问题。如首先由于原始数据集的数量不足，会导致训练得到的模型的泛化能力比较差，模型的识别效果也会打折扣。其次，模型很容易遭到一些变异图片的攻击。以包含影响用户心理健康的因素的图片检测为例，当模型能识别一张彩色的该类型图片时，还应该意识到该类型图片还有可能是一张黑白图片，有可能被调整了色彩(如RGB互换)，也有可能进行了旋转，还有可能进行了变形和遮挡等等。那么对于人类来说，不管图片进行了这些操作中的哪个，都不会改变图片的实质内容，即实质还是一张很可能会影响用户心理健康的图片。

为了解决上述问题，可选的，在使用垃圾图片训练集的原始数据集进行模型训练之前，还需要对该原始数据集进行数据增强工作(也称数据集扩充)，相应的，本实施例方法还可包括：首先获取垃圾图片的基础数据集(即原始数据集)；然后利用图片增强算法，对基础数据集中的至少一张图片进行变换，其中图片增强算法至少包括缩放，剪切，旋转，遮挡，斜切，仿射变换，扭曲变换，通道互换，黑白化中的一个或多个的组合；最后利用变换后得到的图片扩充基础数据集，得到模型训练所使用的垃圾图片训练集。

例如，对于垃圾图片的基础数据集中的至少一张输入图片，随机选取一种或几种图片增强算法的组合对其进行变换，并把变换后的结果存储为新的数据集。其中数据增强的算法包括但不限于：缩放，剪切，旋转，遮挡，斜切，仿射变换，扭曲变换，通道互换，黑白化等等。通过这种可选方式，可有效扩充垃圾图片的训练集，增加模型的泛化能力，提高模型识别的精确度，使得训练得到的目标深度学习模型不容易遭到一些变异图片的攻击。

本实施例方法也相当于提出一种基于机器学习的图片反垃圾方案，是个持续迭代的工作，需要线上数据的反馈以迭代模型。在图片反垃圾的图像识别分类模块中，也尝试过采用目标检测等方式，对违规内容进行检测，如果出于标注图片获取成本等考虑，也可采用图像分类的方式。同时，新出现的数据在加入训练集时，往往还需要同时加入对应的负样本，让机器准确地总结出特征。相应可选的，本实施例方法还可包括：更新垃圾图片训练集(如每小时、每日进行自动更新等)，其中新出现的样本数据在加入训练集时，加入对应的负样本数据。然后利用更新后的垃圾图片训练集，训练深度学习模型，以实现模型更新。

例如，将包含红色背景、黄色五角星等内容的图片加入包含影响治安的因素的图片数据集时，机器容易把红色与黄色搭配的图片分为该包含影响治安的因素的图片类别，而加入一些“西红柿炒鸡蛋”的照片作为负样本，就可以减少这样的误判。此外，为了帮助机器更好的区分类别，还可以把图片分类类别扩充到了更多类别(如扩充到11类等)，然后再对结果做融合等。

204、若根据浅层分类网络训练更新后的参数判定网络收敛，则解冻基础网络的参数，并利用小于预设阈值的学习率，对基础网络和浅层分类网络的所有参数进行预设个数的全量数据的训练，以调整基础网络之前冻结的参数，得到目标深度学习模型。

例如，训练得到的目标MobileNet模型的结构如图3所示。在先冻结基础网络部分的参数，训练浅层分类网络直至网络收敛之后，解冻前16层网络，设定较小的学习率，对所有参数进行几个epoch(即全量数据)的训练，调整冻结参数。这一过程对精确率和召回率的提升很明显，可以认为是“深度调优”finetune。

本实施例中训练得到的目标深度学习模型相当于包含有多个小的分类模型(如垃圾类型A分类模型、垃圾类型B分类模型、垃圾类型C分类模型、垃圾类型A分类模型等)。所以在训练目标深度学习模型时，可分别使用不同垃圾图片类型各自对应的垃圾图片训练集进行模型训练。例如，基于垃圾类型A图片训练集，训练垃圾类型A分类网络的分类模型；以及基于垃圾类型B图片训练集，训练垃圾类型B分类网络的分类模型；以及基于垃圾类型C图片训练集，训练垃圾类型C分类网络的分类模型；以及基于垃圾类型D图片训练集，训练垃圾类型D分类网络的分类模型等。如图4所示，为目标MobileNet模型的整体架构设计示意图，其中这四个分类模型分别对应一个独立参数的浅层分类网络，并且这四个分类模型都公用一个共同的MobileNet基础网络(如MobileNetV3前16层预训练)，因此当有一些业务同时需要进行垃圾类型A、和/或垃圾类型B、和/或垃圾类型C、和/或垃圾类型D的过滤时，那么基础网络部分不需要重复计算。

而关于上述可选方式中的“深度调优”的改进，在网络收敛之后，会解冻基础网络(前16层网络)的参数，进行整体参数的调整。那么对于四个分类模型，在调整完成之后，其所对应基础模型就会各不相同，所以会影响上述共用公共基础网络的实现过程。为了解决这一问题，可选的，步骤204中解冻基础网络的参数，并利用小于预设阈值的学习率，对基础网络和浅层分类网络的所有参数进行预设个数的全量数据的训练，具体可包括：每次随机选取各个垃圾图片类型的训练集中的预置数量样本图片，通过各自对应的浅层分类网络进行计算；然后将计算得到的损失函数(LOSS)误差反馈给基础网络进行修正参数，使得各个垃圾图片类型的训练集对基础网络的影响是相同的。

例如，在实际的深度优化过程中，四个分类网络的数据集要同时参与其中。具体实现方法可为每次随机选取四个数据集(垃圾类型A图片数据集、垃圾类型B图片数据集、垃圾类型C图片数据集、垃圾类型D图片数据集)中的100张图片，通过对应的浅层分类网络进行计算，并将计算得到的LOSS误差反馈给基础网络来修正参数。这期间要进行数据集的均衡，使得四个数据集对基础网络的影响是相同的。

示例性的，将计算得到的损失函数误差反馈给所述基础网络进行修正参数，使得各个垃圾图片类型的训练集对基础网络的影响是相同的，具体可包括：对各个垃圾图片类型的训练集中目标样本图片被选取的概率乘以修正系数，所述修正系数与所述目标样本图片所在训练集所对应的图片数量的倒数成正比。例如，对每个数据集中图片被选取到的概率乘上一个修正系数，该修正系数与该数据集所对应所有图片数量的倒数成正比。也就是说数据集越大所对应的选取概率就越低。

通过应用上述可选方式，可使得目标深度学习模型包含的各个小的分类模型都共用一个共同的深度学习基础网络，进而使得后续在待识别图片同时进行多分类时，基础网络部分不需要重复计算，可提高模型预测的效率。

进一步的，为了提高模型训练效率，可选的，利用垃圾图片训练集，训练包含基础网络和浅层分类网络的目标深度学习模型，具体还可包括：将垃圾图片训练集中垃圾图片样本特征在基础网络中对应的计算结果提前计算并存储；然后在训练目标深度学习模型(或者单独训练浅层分类网络)时，读取存储的对应计算结果，作为各个浅层分类网络共用的基础网络的输出结果。

例如，由于模型前16层参数(基础网络部分的参数)固定，所以这16层的计算结果是固定的，对于同一张图片不用重复计算。其中前16层的输出成为bottleneck，可将待训练的所有图片所对应的bottleneck提前计算出来并存储。训练时直接读取对应的bottleneck参数作为前16层的输出，从而跳过了大量参数网络的计算，可以将模型训练时间缩减到20％，从而大大提升模型训练的效率。

205、接收待识别图片的识别指令，根据待识别图片的图片特征，利用目标深度学习模型进行图片分类，以确定待识别图片是否为垃圾图片。

在本实施例中，当需要对待识别图片进行垃圾图片识别时，可触发相应的识别指令。然后根据待识别图片的图片特征，利用训练达标(符合测试预期)的目标深度学习模型进行图片分类，进而根据分类结果，确定待识别图片是否为垃圾图片。可很好的应用到头像审核、UGC审核、即时通讯，以及其他上传、发布、展示图片的场景里，从而可提高工作效率。

示例性的，步骤205具体可包括：首先获取待识别图片的图片特征并将待识别图片的图片特征输入到目标深度学习模型中，获取图片特征对应存储的基础网络计算结果；然后将基础网络计算结果分发到各个浅层分类网络中分别进行图片分类；最后通过融合各个浅层分类网络得到的图片分类结果，得到待识别图片的图片分类结果。

例如，如图4所示，将图片B的图片特征输入到目标MobileNet模型中，在MobileNet前16层基础网络计算出bottleneck结果后，将结果分发给四个小的分类模型，每个分类模型得出各自的分类结果，最后所有结果进行汇总输出，进而得到最终图片是否违规的评判。如模型输出图片B为垃圾类型A图片的概率a、为垃圾类型B图片的概率b、为垃圾类型C图片的概率c、以及为垃圾类型D图片的概率d。然后从这些概率值对应的分类中获取概率值大于一定阈值的分类，或者最大概率值对应的一个分类，即为该图片B的分类结果。

通过上述利用目标深度学习模型实现图片自动化分类的过程，可准确快速进行垃圾图片的识别，与目前人工审核垃圾图片的方式相比，可提高垃圾图片的识别效率和准确率，并且可大大减少人力成本的耗费。

为了进一步的提高垃圾图片的识别精确率，本实施例方法除了利用上述目标深度学习模型进行识别分类以外，还可结合图片中的人脸特征和/或文字特征等综合进行判断该图片是否为垃圾图片。相应的，步骤205具体还可包括：将待识别图片的图片特征输入到目标深度学习模型中进行图片分类，得到第一分类结果；若该图片特征中存在人脸特征，则通过识别人脸特征进行图片分类，得到第二分类结果；若该图片特征中存在文字特征，则通过识别文字特征进行图片分类，得到第三分类结果；最后通过融合第一分类结果、和/或第二分类结果、和/或第三分类结果，确定待识别图片的图片分类结果。

例如，目前图片反垃圾主要分为多个方面：即多个不良的垃圾图片类型检测。如对于包含广告信息的垃圾类型的检测，则可通过图片内容、二维码和文本内容等对广告内容进行检测。

本可选实施例的图片反垃圾方法，可主要基于深度学习实现，由多个模型组成，其整体架构和流程如图5示例所示。获取待识别的图片之后，先对图片进行预处理(缩放、白化等操作)，然后根据业务方配置的检测规则确定流程：所有规则都需要经过图像分类模型进行评判，得到其每个分类的得分；如果规则中含有需进行人脸检测的规则，比如垃圾类型A检测和垃圾类型B检测，则依次经过人脸检测、人脸编码、人脸识别模型，对图片中的人脸进行识别；如果规则中包含需要进行文字识别的规则，还可以经过文本检测和文本识别模型，对图片中的文字进行识别，再经过文本反垃圾系统判断文本内容类别。最后将多个检测得分进行融合，得到最终的分类和得分。

例如，如图5所示，待识别的图片经过图像预处理之后，在利用图像分类模型(即上述目标MobileNet模型)进行分类时，可分类得出人类标签(human)的概率为0.92、广告标签(advertisement)的概率为0.13、其他标签的概率为0.00…。若以最大概率值对应的一个分类结果作为输出，则此处的结果表明该图片为人类标签(human)的概率为0.92。其中MobileNet模型相比于其他模型(如Inception，其具有网络结构参数很多，计算量较大，在没有GPU加速的情况下检测耗时较长等缺点)，在模型大小、推断耗时等方面更为出色。本实施例从压缩模型的大小、减少推断的耗时入手，重新选取和设计了网络结构。最终选择了Mobilenet作为基础，训练一个多标签分类器。基于预训练的Mobilenet模型进行改造，重新选择了合适的损失函数、激活函数和优化器，改写网络的最后几层，进行迁移学习。

可选的，通过识别人脸特征进行图片分类，得到第二分类结果，具体可包括：首先获取人脸特征对应的人脸编码向量；然后根据人脸编码向量，利用分类器进行分类，得到第二分类结果，其中该分类器是预先根据敏感人物和正常人各角度面部照片的人脸编码向量训练得到的。例如，该分类器可使用支持向量机(Support Vector Machine，SVM)分类器、决策树分类器等。

例如，本实施例可基于基于FaceNet的人脸编码和基于SVM的人脸识别分类器识别图片中的人脸特征进行图片分类，当业务方配置的过滤规则包含敏感人物检测时，图片就会经过人脸检测和编码，得到图中每张人脸的编码向量，然后经过一个SVM分类器来识别是否为敏感人物。这个SVM分类器的训练过程，是利用预先收集的敏感人物各角度的面部照片，以及大量普通人的面部照片，经过编码之后得到的向量作为输入，在高维平面上计算出每位敏感人物以及普通人脸之间的分界线。从而在预测的时候，根据图片人脸的编码向量，可以快速得到其所在的分类和得分。如图5所示，最后可得到图片为正常图片(normal)的概率为0.95。

此外，若考虑方案的通用性，可以在图片不包含人脸特征时利用预设的人脸特征对应的人脸编码向量作为对应的图片分类的输入以得到第二分类结果，或者以预定的输出(例如图片为正常图片的概率为1)作为第二分类结果，以参与后续的分类结果融合。

可选的，通过识别文字特征进行图片分类，得到第三分类结果，具体可包括：首先获取文字特征对应的文字内容；然后将文字内容与不同垃圾图片类型分别对应的预设关键词进行匹配，以得到第三分类结果。

例如，本实施例可基于Pixel Link实现的文本检测模型与基于CRNN实现的文字识别技术构成分类模型，实现上述识别文字特征进行图片分类的过程。如图5所示，经过文字识别得到图片中的文字为“略略略”，进而通过文字分类得到该图片为正常图片(normal)的概率为0.98。

此外，若考虑方案的通用性，可以在图片不包含文字特征时利用预设的特征作为文字特征进行图片分类以得到第三分类结果，或者以预定的输出(例如图片为正常图片的概率为1)作为第三分类结果，以参与后续的分类结果融合。

通过上述三种方式可得到分别对应的分类结果，最后可将分类结果进行融合汇总，确定该图片最准确的图片分类。进一步的，为了提高整体判断的准确性，可选的，通过融合上述第一分类结果、和/或第二分类结果、和/或第三分类结果，确定待识别图片的图片分类结果，具体可包括：将第一分类结果、和/或第二分类结果、和/或第三分类结果进行加权求和，得到待识别图片的图片分类结果。例如，上述三种方式都各自对应的权重，各自的权重大小可根据每种分类方式的测试准确率来设定，即测试准确率越高的其对应权重越大，测试准确率越低的其对应权重越小。通过这种加权求和的方式，最终确定图片的分类结果，可同时考虑每种分类方式的测试准确性，可得到更为准确的图片分类结果。例如，如图5所示，经过加权求和平均的计算，最终计算得到该图片为正常图片(normal)的概率为0.96，最终可确定该图片为正常图片，非垃圾图片。

需要说明的是，除了加权求和的方式以外，本实施例还可利用投票表决、选概率大于一定阈值的分类结果等方式，进行分类结果融合，具体可根据实际分类需求确定。

此外，还可以用模型融合方法融合分类结果，例如用多层感知机(MultilayerPerceptron，MLP)、支持向量机(Support Vector Machine，SVM)或逻辑回归(LogisticRegression，LR)的方式进行，对于MLP方式而言，可以使用一个浅层的神经网络进行分类结果的融合，其中第一层为输入层，长度为3，以三个分类模型得到的正常图片概率作为输入，其中1表示正常图片，0表示违规图片，0.5则表示无法根据该模型确定图片性质。第二层为隐藏层，长度为6，使用relu为激活函数，第三层为输出层长度为1，使用sigmoid作为激活函数。优化函数选择Adam,训练的batch size设置为32。最终输出为0-1的数值，表示该图片为正常图片的概率，一般可以设置为若输出数值大于0.5表示待分类图片为正常图片，小于0.5表示待分类图片为违规图片(垃圾图片)，其中0.5为预设的阈值，最终可以基于对于精确率和召回率的不同需求进行调整。例如，当需要更高违规图片(垃圾图片)识别的精确率时，则调低阈值，需要更高的违规图片(垃圾图片)的召回率时，则调高阈值。

使用SVM作为模型融合方式时，需要在融合模型中添加软间隔参数ξ的方式防止模型过拟合，该参数大小需要根据具体业务图片数据集调整，在该实例中可以设置ξ为0.1，最终得到结果为0-1的数值，具体融合的处理方式与上述示例类似。

而让机器来识别违规图片，机器有时也会存在一定的误差性。进一步可选的，在通过融合第一分类结果、和/或第二分类结果、和/或第三分类结果，确定待识别图片的图片分类结果之后，本实施例方法还包括：若根据待识别图片的图片分类结果判定所述待识别图片为疑似垃圾图片，则将待识别图片发送给审核模块进行审核。

例如，本实施例会根据最终的得分将图片分为“通过”、“嫌疑”和“不通过”，而“嫌疑”的部分尽可能转入人工处理模块，从而保证整体分类准确率的同时，大大减少人工审核的工作量，以低成本的方式维持一个绿色纯净的互联网环境。

本实施例提供的垃圾图片的识别方法，与目前人工审核垃圾图片的方式相比，本实施例可自动化实现垃圾图片的识别，可提高垃圾图片的识别效率和准确率，并且可大大减少在此方面审核的人力成本的耗费。

进一步的，作为图1和图2所示方法的具体实现，本实施例提供了一种垃圾图片的识别装置，如图6所示，该装置包括：构建模块31、训练模块32、分类模块33。

构建模块31，可用于基于确定的深度学习模型，选取前预设数量层参数作为基础网络，并在所述基础网络之后构建浅层分类网络，不同的垃圾图片类型各自对应一个独立参数的浅层分类网络；

训练模块32，可用于冻结所述基础网络的参数，并利用垃圾图片训练集，训练所述浅层分类网络，以更新所述浅层分类网络对应的参数，其中每个浅层分类网络都由各自对应垃圾图片类型的训练集进行训练；若根据所述浅层分类网络训练更新后的参数判定网络收敛，则解冻所述基础网络的参数，并利用小于预设阈值的学习率，对所述基础网络和所述浅层分类网络的所有参数进行预设个数的全量数据的训练，以调整所述基础网络之前冻结的参数，得到目标深度学习模型；

分类模块33，可用于获取待识别图片的图片特征并将所述图片特征输入到所述目标深度学习模型中进行图片分类，得到第一分类结果；获取所述待识别图片对应的人脸特征并利用分类器进行图片分类，得到第二分类结果；获取所述待识别图片对应的文字特征并利用分类模型进行图片分类，得到第三分类结果；融合所述第一分类结果、所述第二分类结果和所述第三分类结果，确定所述待识别图片的图片分类结果。

在具体的应用场景中，所述训练模块32，具体还可用于每次随机选取各个垃圾图片类型的训练集中的预置数量样本图片，通过各自对应的浅层分类网络进行计算；将计算得到的损失函数误差反馈给所述基础网络进行修正参数，使得各个垃圾图片类型的训练集对所述基础网络的影响是相同的。

在具体的应用场景中，所述训练模块32，具体还可用于对各个垃圾图片类型的训练集中目标样本图片被选取的概率乘以修正系数，所述修正系数与所述目标样本图片所在训练集所对应的图片数量的倒数成正比。

在具体的应用场景中，所述训练模块32，具体还可用于将所述所述垃圾图片训练集中各个垃圾图片样本特征在所述基础网络中对应的计算结果提前计算并存储；在训练所述目标深度学习模型(或单独训练前侧分类网络)时，读取存储的对应计算结果，作为各个浅层分类网络共用的所述基础网络的输出结果。

在具体的应用场景中，所述分类模块33，具体可用于获取所述待识别图片的所述图片特征并将所述图片特征输入到所述目标深度学习模型中，获取所述图片特征对应存储的基础网络计算结果；将所述基础网络计算结果分发到各个浅层分类网络中分别进行图片分类；通过融合各个浅层分类网络得到的图片分类结果，得到所述待识别图片的第一分类结果。

在具体的应用场景中，本装置还可包括：获取模块、变换模块和扩充模块；所述获取模块，可用于获取垃圾图片的基础数据集；所述变换模块，可用于利用图片增强算法，对所述基础数据集中的至少一张图片进行变换，其中所述图片增强算法至少包括缩放，剪切，旋转，遮挡，斜切，仿射变换，扭曲变换，通道互换，黑白化中的一个或多个的组合；所述扩充模块，可用于利用变换后得到的图片扩充所述基础数据集，得到所述垃圾图片训练集。

在具体的应用场景中，本装置还包括：更新模块，可用于更新所述垃圾图片训练集，其中新出现的样本数据在加入训练集时，加入对应的负样本数据。

在具体的应用场景中，所述分类模块33，具体还可用于获取所述人脸特征对应的人脸编码向量；根据所述人脸编码向量，利用分类器进行分类，得到所述第二分类结果，所述分类器是预先根据敏感人物和正常人各角度面部照片的人脸编码向量训练得到的。

此外，若考虑方案的通用性，所述分类模块33具体还可用于在图片不包含人脸特征时利用预设的人脸特征对应的人脸编码向量作为对应的图片分类的输入以得到第二分类结果，或者以预定的输出(例如图片为正常图片的概率为1)作为第二分类结果，以参与后续的分类结果融合。

在具体的应用场景中，所述分类模块33，具体还可用于利用分类模型获取所述文字特征对应的文字内容；将所述文字内容与不同垃圾图片类型分别对应的预设关键词进行匹配，以得到所述第三分类结果。

此外，若考虑方案的通用性，所述分类模块33具体还可用于在图片不包含文字特征时利用预设的特征作为文字特征进行图片分类以得到第三分类结果，或者以预定的输出(例如图片为正常图片的概率为1)作为第三分类结果，以参与后续的分类结果融合。

在具体的应用场景中，所述分类模块33，具体还可用于将所述第一分类结果、和/或所述第二分类结果、和/或所述第三分类结果进行加权求和，得到所述待识别图片的图片分类结果。

此外，所述分类模块33还可以利用模型融合方法融合分类结果，例如用多层感知机(Multilayer Perceptron，MLP)、支持向量机(Support Vector Machine，SVM)或逻辑回归(Logistic Regression，LR)的方式进行，对于MLP方式而言，可以使用一个浅层的神经网络进行分类结果的融合，其中第一层为输入层，长度为3，以三个分类模型得到的正常图片概率作为输入，其中1表示正常图片，0表示违规图片，0.5则表示无法根据该模型确定图片性质。第二层为隐藏层，长度为6，使用relu为激活函数，第三层为输出层长度为1，使用sigmoid作为激活函数。优化函数选择Adam,训练的batch size设置为32。最终输出为0-1的数值，表示该图片为正常图片的概率，一般可以设置为若输出数值大于0.5表示待分类图片为正常图片，小于0.5表示待分类图片为违规图片(垃圾图片)，其中0.5为预设的阈值，最终可以基于对于精确率和召回率的不同需求进行调整。例如，当需要更高违规图片(垃圾图片)识别的精确率时，则调低阈值，需要更高的违规图片(垃圾图片)的召回率时，则调高阈值。

在具体的应用场景中，本装置还包括：发送模块，可用于若根据待识别图片的图片分类结果判定所述待识别图片为疑似垃圾图片，则将所述待识别图片发送给审核模块进行审核。

需要说明的是，本实施例提供的一种垃圾图片的识别装置所涉及各功能单元的其它相应描述，可以参考图1和图2中的对应描述，在此不再赘述。

基于上述如图1和图2所示方法，相应的，本实施例还提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述如图1和图2所示的垃圾图片的识别方法。

基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施场景的方法。

基于上述如图1和图2所示的方法，以及图6所示的虚拟装置实施例，为了实现上述目的，本申请实施例还提供了一种垃圾图片的识别设备，具体可以为个人计算机、笔记本电脑、智能手机、服务器、或其他网络设备等，该设备包括存储介质和处理器；存储介质，用于存储计算机程序；处理器，用于执行计算机程序以实现上述如图1和图2所示的垃圾图片的识别方法。

可选的，上述实体设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency，RF)电路，传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等，可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)等。

本领域技术人员可以理解，本实施例提供的上述实体设备结构并不构成对该实体设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述实体设备硬件和软件资源的程序，支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信，以及与信息处理实体设备中其它硬件和软件之间通信。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现，也可以通过硬件实现。通过应用本实施例的方案，与目前人工审核垃圾图片的方式相比，本实施例可自动化实现垃圾图片的识别，可提高垃圾图片的识别效率和准确率，并且可大大减少在此方面审核的人力成本的耗费。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种垃圾图片的识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述解冻所述基础网络的参数，并利用小于预设阈值的学习率，对所述基础网络和所述浅层分类网络的所有参数进行预设个数的全量数据的训练，具体包括：

每次随机选取各个垃圾图片类型的训练集中的预置数量样本图片，通过各自对应的浅层分类网络进行计算；

将计算得到的损失函数误差反馈给所述基础网络进行修正参数，使得各个垃圾图片类型的训练集对所述基础网络的影响是相同的。

3.根据权利要求2所述的方法，其特征在于，所述将计算得到的损失函数误差反馈给所述基础网络进行修正参数，使得各个垃圾图片类型的训练集对所述基础网络的影响是相同的，具体包括：

对各个垃圾图片类型的训练集中目标样本图片被选取的概率乘以修正系数，所述修正系数与所述目标样本图片所在训练集所对应的图片数量的倒数成正比。

4.根据权利要求1所述的方法，其特征在于，所述利用垃圾图片训练集，训练所述浅层分类网络，以更新所述浅层分类网络对应的参数，具体还包括：

将所述垃圾图片训练集中垃圾图片样本特征在所述基础网络中对应的计算结果提前计算并存储；

在训练所述浅层分类网络时，读取存储的对应计算结果，作为各个浅层分类网络共用的所述基础网络的输出结果。

5.根据权利要求1所述的方法，其特征在于，所述根据待识别图片的图片特征，利用所述目标深度学习模型进行图片分类，具体包括：

将所述图片特征输入到所述目标深度学习模型中，获取所述图片特征对应的基础网络计算结果；

将所述基础网络计算结果分发到各个浅层分类网络中分别进行图片分类；

通过融合各个浅层分类网络得到的图片分类结果，得到所述待识别图片的图片分类结果。

6.根据权利要求1所述的方法，其特征在于，在所述冻结所述基础网络的参数，并利用垃圾图片训练集，训练所述浅层分类网络之前，所述方法还包括：

获取垃圾图片的基础数据集；

利用图片增强算法，对所述基础数据集中的至少一张图片进行变换，其中所述图片增强算法至少包括缩放，剪切，旋转，遮挡，斜切，仿射变换，扭曲变换，通道互换，黑白化中的一个或多个的组合；

利用变换后得到的图片扩充所述基础数据集，得到所述垃圾图片训练集。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

更新所述垃圾图片训练集，其中新出现的样本数据在加入训练集时，加入对应的负样本数据。

8.根据权利要求1所述的方法，其特征在于，所述根据待识别图片的图片特征，利用所述目标深度学习模型进行图片分类，具体包括：

将所述图片特征输入到所述目标深度学习模型中进行图片分类，得到第一分类结果；

若所述待识别图片中存在人脸特征，则获取所述待识别图片对应的人脸特征并利用分类器进行图片分类，得到第二分类结果；

若所述待识别图片中存在文字特征，则获取所述待识别图片对应的文字特征并利用分类模型进行图片分类，得到第三分类结果；

通过融合所述第一分类结果、和/或所述第二分类结果、和/或所述第三分类结果，确定所述待识别图片的图片分类结果。

9.根据权利要求8所述的方法，其特征在于，所述获取所述待识别图片对应的人脸特征并利用分类器进行图片分类，得到第二分类结果，具体包括：

获取所述人脸特征对应的人脸编码向量；

根据所述人脸编码向量，利用分类器进行分类，得到所述第二分类结果，所述分类器是预先根据敏感人物和正常人各角度面部照片的人脸编码向量训练得到的。

10.根据权利要求8所述的方法，其特征在于，获取所述待识别图片对应的文字特征并利用分类模型进行图片分类，得到第三分类结果，具体包括：

利用分类模型获取所述文字特征对应的文字内容；

将所述文字内容与不同垃圾图片类型分别对应的预设关键词进行匹配，以得到所述第三分类结果。

11.根据权利要求8所述的方法，其特征在于，通过融合所述第一分类结果、和/或所述第二分类结果、和/或所述第三分类结果，确定所述待识别图片的图片分类结果，具体包括：

以所述第一分类结果、所述第二分类结果和所述第三分类结果作为多层感知机MLP模型的输入，根据所述MLP模型的输出确定所述待识别图片的图片分类结果。

12.一种垃圾图片的识别装置，其特征在于，包括：

13.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法。

14.一种垃圾图片的识别设备，包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法。