CN113627498B

CN113627498B - 人物丑化图像识别和模型训练方法与装置

Info

Publication number: CN113627498B
Application number: CN202110854800.XA
Authority: CN
Inventors: 唐胜; 万大千; 曹娟; 李锦涛
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2021-07-28
Filing date: 2021-07-28
Publication date: 2024-03-12
Anticipated expiration: 2041-07-28
Also published as: CN113627498A

Abstract

本发明公开了一种人物丑化图像识别模型训练方法，包括以下步骤：将真实图像样本输入到丑化分类器中进行训练以使该其具有图像分类和图像特征提取的功能；冻结该丑化分类器的网络参数并将其作为图像特征提取器，将噪声和该真实图像样本输入到分类有益生成对抗网络进行训练以使其具有生成合成图像样本的功能；将该分类有益生成对抗网络生成的合成图像样本输入到该丑化分类器中进行进一步训练，得到该丑化分类器即为该人物丑化图像识别模型。

Description

人物丑化图像识别和模型训练方法与装置

技术领域

本发明涉及深度学习和计算机视觉领域，特别涉及一种人物丑化图像识别方法与装置、模型训练方法与装置、电子设备及存储介质。

背景技术

近年来，随着互联网和通信技术的飞速发展，网络中传播的内容也不再只局限于文字，以图像形式存在的信息数量呈指数增长，例如微博日均的图片量约达900万张。在当今开放的互联网环境下，人物图像可被大肆传播。在如此海量的人物图像中，不乏网民通过图像编辑等方式创造一些人物丑化图像。然而，人物丑化图像有可能包含关于某人物的不良信息，从而给社会或者个人造成不良影响。因此，人物丑化图像识别技术是用于判断人物图像是否被丑化的关键技术，在保护网民名誉、净化网络环境等方面都具有广泛的应用价值。本发明提出的技术方案能够快速自动识别互联网中的人物图像是否被丑化，为图像清除等后续处理提供技术支持。

目前，人物丑化图像识别技术主要分为两大类：基于手工特征的人物丑化图像识别方法和基于深度学习的人物丑化图像识别方法。

其中，基于手工特征的人物丑化图像识别方法利用手工定义的图像特征判断输入的人物图像的类别标签，即正常或丑化。由于基于手工特征的人物丑化图像识别方法存在特征定义工程难度大、模型表达能力弱的问题。而基于深度学习的人物丑化图像识别方法能自动地学习和提取人物丑化图像的强特征，从而实现更加准确的分类效果。基于深度学习的人物丑化图像识别方法主要利用丑化分类器提取输入的人物图像的深度特征，进而判断输入的人物图像对该人物来说是丑化还是正常。但是，在丑化分类器的训练过程中，由于互联网中的人物丑化图像数量有限且质量不高，所以难以收集足够的训练数据，最终导致丑化分类器容易存在过拟合、泛化性能有限的问题。

发明内容

为了解决上述问题，本发明的主要目的在于提出基于分类有益生成对抗网络(Beneficial To Classifier Generative Adversarial Network，BC-GAN)的人物丑化图像识别方法与装置、模型训练方法与装置、电子设备及存储介质，能够有效提升丑化分类器的泛化性能。

为了实现上述目的，本发明提出一种人物丑化图像识别模型训练方法，包括：步骤1，将真实图像样本输入到丑化分类器中进行训练以使该其具有图像分类和图像特征提取的功能；步骤2，冻结该丑化分类器的网络参数并将其作为图像特征提取器，将噪声和该真实图像样本输入到分类有益生成对抗网络进行训练以使其具有生成合成图像样本的功能；步骤3，将该分类有益生成对抗网络生成的合成图像样本输入到该丑化分类器中进行进一步训练，得到该丑化分类器即为该人物丑化图像识别模型。

上述的人物丑化图像识别模型训练方法，其中，在该步骤1中，该丑化分类器使用网络判断结果与真实值的交叉熵作为损失函数。

上述的人物丑化图像识别模型训练方法，其中，该步骤2包括：步骤21，将该噪声和该真实图像样本输入到该分类有益生成对抗网络的生成器中进行训练以生成该合成图像样本；步骤22，冻结该丑化分类器的网络参数并将其作为图像特征提取器提取该合成图像样本的图像特征；步骤23，将该合成图像样本输入到该分类有益生成对抗网络的判别器中进行训练，并且该判别器根据提取的该图像特征将该合成图像样本判别为真实图像样本或者合成图像样本。

上述的人物丑化图像识别模型训练方法，其中，在该步骤21中，训练该合成器的损失函数为：

其中，G表示生成器，D表示判别器，表示判别器D中的合成图像样本真伪分类任务,x表示输入的真实图像样本，p_d(x，y)表示真实数据分布，z代表噪声，p_z(z)表示噪声图像样本分布，y_i表示输入的真实图像样本的类别标签，y_f表示输入的真实图像样本的真伪标签，F表示图像特征提取器，α表示ControlLoss的系数，ControlLoss表示生成控制损失，

ontrolLoss＝(Mean_{label＝正常}(fake_img_f)-Mean_{label＝正常}(real_img_f))²+(Mean_{label＝丑化}(fake_img_f)-Mean_{label＝丑化}(real_img_f))²

fake-img-f表示合成图像样本的图像特征，real-img-f表示真实图像样本的图像特征，Mean表示取均值操作，label表示真实图像样本或合成图像样本的标签。

上述的人物丑化图像识别模型训练方法，其中，在该步骤23中，训练该判别器的损失函数为：

其中，G表示生成器，D表示判别器，表示判别器中的合成图像样本真伪分类任务，x表示输入的真实图像样本，p_d(x，y)表示真实数据分布，z表示噪声，p_z(z)表示噪声分布，y_f表示输入的真实图像样本的真伪标签，F表示图像特征提取器。

为了实现上述目的，本发明还提出一种人物丑化图像识别模型训练装置，，包括：分类器第一训练单元，用于将真实图像样本输入到丑化分类器中进行训练以使该其具有图像分类和图像特征提取的功能；对抗网络训练单元，用于冻结该丑化分类器的网络参数并将其作为图像特征提取器，将噪声和该真实图像样本输入到分类有益生成对抗网络进行训练以使其具有生成合成图像样本的功能；分类器第二训练单元，用于将该分类有益生成对抗网络生成的合成图像样本输入到该丑化分类器中进行进一步训练，得到该丑化分类器即为该人物丑化图像识别模型。

上述的人物丑化图像识别模型训练装置，其中，该对抗网络训练单元包括：合成器训练子单元，用于将该噪声和该真实图像样本输入到该分类有益生成对抗网络的生成器中进行训练以生成该合成图像样本；图像特征提取子单元，用于冻结该丑化分类器的网络参数并将其作为图像特征提取器提取该合成图像样本的图像特征；判别器训练子单元，用于将该合成图像样本输入到该分类有益生成对抗网络的判别器中进行训练，并且该判别器根据提取的该图像特征将该合成图像样本判别为真实图像样本或者合成图像样本。

为了实现上述目的，本发明还提出一种人物丑化图像识别方法，包括：步骤4，将待识别人物图像输入到使用上述的人物丑化图像识别模型训练方法训练得到该丑化分类器中以识别该待识别人物图像是否丑化。

为了实现上述目的，本发明还提出一种人物丑化图像识别装置，包括：人物丑化图像识别模型，通过上述的人物丑化图像识别模型训练方法训练得到。

为了实现上述目的，本发明还提出一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，实现上述的人物丑化图像识别模型训练方法和/或上述的人物丑化图像识别方法。

为了实现上述目的，本发明还提出一种电子设备，包括：处理器和存储器，所述存储器内存储有可在所述处理器运行的计算机程序，当所述计算机程序被所述处理器执行时，实现上述的人物丑化图像识别模型训练方法和/或上述的人物丑化图像识别方法。

由以上方案可知，本发明的优点在于：

丑化分类器的作用在于判断输入的人物图像是否被丑化，分类有益生成对抗网络能够生成满足生成控制损失函数且能被丑化分类器正确识别的合成图像样本，使用合成图像样本对丑化分类器进一步训练能够有效提升其泛化性能；同时，在训练过程中，分类有益生成对抗网络和丑化分类器同时训练、交替优化，整个训练过程属于端到端。

附图说明

图1为本发明一实施例的人物丑化图像识别模型训练方法的流程图。

图2为本发明一实施例的人物丑化图像识别模型训练方法的框架图。

图3为本发明一实施例的分类有益生成对抗网络的框架图。

图4为本发明一实施例的人物丑化图像识别模型训练装置的模块图。

图5为本发明一实施例的人物丑化图像识别方法的流程图。

图6为本发明一实施例的人物丑化图像识别装置的模块图。

图7为本发明一实施例的的电子设备的示意图。

具体实施方式

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

参见图1及图2所示，本发明的实施例提出一种人物丑化图像识别模型训练方法，包括：

步骤S10，将真实图像样本输入到丑化分类器C中进行训练以使该其具有图像分类和图像特征提取的功能；

步骤S20，冻结该丑化分类器C的网络参数并将其作为图像特征提取器，将噪声和该真实图像样本输入到分类有益生成对抗网络BC-GAN进行训练以使其具有生成合成图像样本的功能；

步骤S30，将该分类有益生成对抗网络BC-GAN生成的合成图像样本输入到该丑化分类器C中进行进一步训练，得到该丑化分类器C即为该人物丑化图像识别模型。

丑化分类器C的任务是提取输入的人物图像的特征信息并给出类别标签，即判断输入的人物图像对于该人物是丑化还是正常。丑化分类器C的输入例如是互联网中的人物图像。在本实施例中，丑化分类器C的网络结构采用了18层残差网络(Resnet18)，并且使用残差网络在大规模图像分类数据集上预训练的参数对其进行初始化；另有丑化分类器C使用网络判断结果与真实值的交叉熵作为损失函数。同时，为了解决正负样本不平衡的问题，也为了获得较大的梯度，加快优化速度，在交叉熵上为每个类别添加一个与样本数量成反比的权重。

分类有益生成对抗网络BC-GAN的目标是生成能够提升丑化分类器C的泛化性能的新数据，而生成不是真实感强的新数据，即合成图像样本。参见图3所示，分类有益生成对抗网络BC-GAN包括生成器G和判别器D。结合图3所示，人物丑化图像识别模型训练方法的步骤S20包括以下步骤：

步骤S21，将该噪声和该真实图像样本输入到该分类有益生成对抗网络BC-GAN的生成器G中进行训练以生成该合成图像样本；

步骤22，冻结该丑化分类器C的网络参数并将其作为图像特征提取器提取该合成图像样本的图像特征；

步骤23，将该合成图像样本输入到该分类有益生成对抗网络BC-GAN的判别器D中进行训练，并且该判别器D根据提取的该图像特征将该合成图像样本判别为真实图像样本或者合成图像样本。

因此，生成器G的目标是生成提升分类器D泛化性能的合成图像样本。为了实现这个目标，生成器G生成的新样本(合成图像样本)需要实现以下三个目标：(1)判别器D不能从特征角度判断输入图像样本的来源；(2)合成图像样本能被丑化分类器C正确的分类；(3)合成图像样本满足生成控制损失函数ControlLoss。从上述三个目标来看，分类有益生成对抗网络BC-GAN结合了对抗损失、分类损失和生成控制损失三部分损失函数来指导生成器G的训练。

其中，生成器G为了欺骗判别器D将合成图像样本分类为真实样本以及能够被丑化分类器C正确分类所使用的损失函数如下：

其中，G表示生成器，D表示判别器，表示判别器D中的合成图像样本真伪分类任务，x表示输入的真实图像样本，p_d(x，y)表示真实数据分布，z代表噪声，p_z(z)表示噪声图像样本分布，y_i表示输入的真实图像样本的类别标签，y_f表示输入的真实图像样本的真伪标签，F表示图像特征提取器，α表示ControlLoss的系数，ControlLoss表示生成控制损失，

ontrolLoss＝(Mean_{label＝正常}(fake_img_f-Mean_{label＝正常}(real_img_f))²+(Mean_{label＝丑化}(fake_img_f)-Mean_{label＝丑化}(real_img_f))²

其中，判别器D的目标是从特征角度判断输入的图像样本来自于合成图像样本还是真实图像样本。在训练分类有益生成对抗网络BC-GAN的过程中，冻结丑化分类器C的网络参数并且将其作为图像特征提取器。因此，判别器D的输入是由丑化分类器C提取的合成图像样本的图像特征。

判别器D的损失函数和原始GAN的损失函数类似，区别在于判别器D的损失函数多了图像特征提取步骤，损失函数公式如下：

另外，在本实施例中，分类有益生成对抗网络BC-GAN的生成器G和判别器D均采用了多层感知机的网络结构，其网络参数使用均值为0，方差为0.02的正态分布进行初始化，分类有益生成对抗网络BC-GAN均采用随机梯度下降法对网络参数进行优化。

在训练过程中，丑化分类器C和分类有益生成对抗网络BC-GAN采用交替优化的方式，每个Batch的训练过程如图2所示：(1)将真实图像样本输入到丑化分类器C进行训练，使丑化分类器C具有分类和提取图像特征的能力；(2)冻结丑化分类器C的网络参数并将其作为图像特征提取器，使用噪声和真实图像样本训练分类有益生成对抗网络BC-GAN，使其具有合成新数据(合成图像样本)的能力；(3)生成器G生成一组合成图像样本输入到丑化分类器C中，对其进一步训练，以提升其泛化性能。

参见图4所示，基于相同的发明构思，本发明的实施例还提出一种人物丑化图像识别模型训练装置100，其包括：

分类器第一训练单元110，用于将真实图像样本输入到丑化分类器C中进行训练以使该其具有图像分类和图像特征提取的功能；

对抗网络训练单元120，用于冻结该丑化分类器C的网络参数并将其作为图像特征提取器，将噪声和该真实图像样本输入到分类有益生成对抗网络BC-GAN进行训练以使其具有生成合成图像样本的功能；

分类器第二训练单元130，用于将该分类有益生成对抗网络BC-GAN生成的合成图像样本输入到该丑化分类器C中进行进一步训练，得到该丑化分类器C即为该人物丑化图像识别模型。

于一实施例中，上述的人物丑化图像识别模型训练装置100的该对抗网络训练单元120包括：

合成器训练子单元121，用于将该噪声和该真实图像样本输入到该分类有益生成对抗网络BC-GAN的生成器G中进行训练以生成该合成图像样本；

图像特征提取子单元122，用于冻结该丑化分类器C的网络参数并将其作为图像特征提取器提取该合成图像样本的图像特征；

判别器训练子单元123，用于将该合成图像样本输入到该分类有益B生成对抗网络C-GAN的判别器D中进行训练，并且该判别器D根据提取的该图像特征将该合成图像样本判别为真实图像样本或者合成图像样本。

通过上述方式完成了对人物丑化图像识别模型的训练，下面对该模型的应用进行说明。

参见图5所示，本发明的实施例提出一种人物丑化图像识别方法，其包括：

步骤S40，将待识别人物图像输入到使用上述实施例的方法训练得到该丑化分类器中以识别该待识别人物图像是否丑化。

参见图6所示，基于同样的发明构思，本发明的实施例提出一种人物丑化图像识别装置200，其包括：

人物丑化图像识别模型210，通过上述实施例的方法训练得到。

需要说明的是，所属领域的技术人员可以清楚地了解，为描述的方便和简洁，上述描述的方法、装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

参见图7所示，基于相同的发明构思，本发明的实施例还提出一种电子设备300，在本实施例中，电子设备300例如为，但不限于个人计算机(PC)、智能手机、平板电脑、个人数字助理(Personal DigitalAssistant，PDA)、移动上网设备(Mobile Internet Device，MID)等。另外，电子设备300包括处理器310和存储器320；处理器310与存储器320为直接或间接地电性连接，以实现数据的传输或交互。人物丑化图像识别模型训练装置100和/或人物丑化图像识别装置200包括至少一个可以软件或固件(Firmware)的形式存储在存储器320中或固化在电子设备300的操作系统(Operating System，OS)中的软件模块。处理器310用于执行存储器320中存储的可执行模块，例如，人物丑化图像识别模型训练装置100包括的软件功能模块及计算机程序等，以实现人物丑化图像识别模型训练方法，抑或是，人物丑化图像识别装置200包括的软件功能模块及计算机程序等，以实现人物丑化图像识别方法。处理器310在接收到执行指令后，执行计算机程序。

基于相同的发明构思，本发明的实施例还提出一种计算机可读存储介质，其上存储有计算机程序，计算机程序在被处理器执行时，实现上述实施例中提出的人物丑化图像识别模型训练方法或者人物丑化图像识别方法。所述存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

综上，为了验证本发明所提技术方案的有效性，在特定人物数据集上进行实验验证。特定人物数据集由某一特定人物图像构成，其图像例如来源有百度、谷歌、推特和脸书等国内外知名搜索网站及社交媒体。数据集分为丑化和正常两个类别，其中训练集包含889张图像，验证集包含300张图像，测试集包含300张图像。训练时，特定人物数据集的图像尺寸设置为128*128，并对所有输入图像做归一化处理。在本次实验中，使用准确率(Accuracy)、精确率(Precision)、召回率(Recall)和F1-Score作为评价指标。

为了验证本发明提出技术方案的有效性，本实验将其与其他现有方法进行对比，采取的基准方法有以下几种：(1)单纯使用ResNet18；(2)Dropout+L2正则化；(3)数据增强，包括水平翻转、垂直翻转、旋转和HSV及对比度变化；(4)分类器辅助生成对抗网络(AC-GAN)。

首先在特定人物数据集上进行了实验，实验结果如表1所示。在实验过程中如果只使用ResNet18作为分类器不采取任何防范过拟合的措施，模型在第10个epoch时已经出现过拟合问题，最终模型对训练集准确率为100％，对测试集准确率只有87.67％。而在ResNet18基础上使用Dropout+L2正则化或数据增强等传统解决过拟合方法之后性能指标仅有小幅度提升，两者准确率分别提升了0.67％和1％。基于分类器辅助生成对抗网络(AC-GAN)的方法较传统方法提升明显，准确率提升了3.67％。本发明提出的技术方案取得了最佳效果，准确率提升了5.33％。此实验结果验证了使用分类有益生成对抗网络生成的新样本能提升丑化分类器的泛化性能。

表1

另外，本发明所提出的生成控制损失的目标使同一类别的合成图像与真实图像在特征空间上距离尽可能远，以达到扩充分类器特征空间的目的。为了验证生成控制损失的有效性，本实验在特定人物数据集进行了消融实验，实验结果如表2所示。从实验结果中可以看到去除生成控制损失之后模型的识别准确率下降了1.33％，此实验结果说明了生成控制损失的有效性。

表2

当然，本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种人物丑化图像识别模型训练方法，其特征在于，包括：

步骤1，将真实图像样本输入到丑化分类器中进行训练以使其具有图像分类和图像特征提取的功能；

步骤2，冻结该丑化分类器的网络参数并将其作为图像特征提取器，将噪声和该真实图像样本输入到分类有益生成对抗网络进行训练以使其具有生成合成图像样本的功能；步骤3，将该分类有益生成对抗网络生成的合成图像样本输入到该丑化分类器中进行进一步训练，得到该丑化分类器即为该人物丑化图像识别模型，该分类有益生成对抗网络和该丑化分类器同时训练、交替优化；

该步骤2包括：

步骤21，将该噪声和该真实图像样本输入到该分类有益生成对抗网络的生成器中进行训练以生成该合成图像样本；

步骤22，冻结该丑化分类器的网络参数并将其作为图像特征提取器提取该合成图像样本的图像特征；

步骤23，将该合成图像样本输入到该分类有益生成对抗网络的判别器中进行训练，并且该判别器根据提取的该图像特征将该合成图像样本判别为真实图像样本或者合成图像样本。

2.如权利要求1所述的人物丑化图像识别模型训练方法，其特征在于，在该步骤1中，该丑化分类器使用网络判断结果与真实值的交叉熵作为损失函数。

3.如权利要求1所述的人物丑化图像识别模型训练方法，其特征在于，在该步骤21中，训练该生成器的损失函数为：

其中，G表示生成器，D表示判别器，表示判别器D中的合成图像样本真伪分类任务,x表示输入的真实图像样本，p_d(x,y)表示真实数据分布，z代表噪声，p_z(z)表示噪声分布，y_i表示输入的真实图像样本的类别标签，y_f表示输入的真实图像样本的真伪标签，F表示图像特征提取器，α表示ControlLoss的系数，ControlLoss表示生成控制损失，

ControlLoss＝(Mean_{label＝正常}(fake_img_f)-Mean_{label＝正常}(real_img_f))²+(Mean_{label＝丑化}(fake_img_f)-Mean_{label＝丑化}(real_img_f))²

4.如权利要求1所述的人物丑化图像识别模型训练方法，其特征在于，在该步骤23中，训练该判别器的损失函数为：

其中，G表示生成器，D表示判别器，表示判别器中的合成图像样本真伪分类任务，x表示输入的真实图像样本，p_d(x,y)表示真实数据分布，z表示噪声，p_z(z)表示噪声分布，y_f表示输入的真实图像样本的真伪标签,F表示图像特征提取器。

5.一种人物丑化图像识别模型训练装置，其特征在于，包括：

分类器第一训练单元，用于将真实图像样本输入到丑化分类器中进行训练以使其具有图像分类和图像特征提取的功能；

对抗网络训练单元，用于冻结该丑化分类器的网络参数并将其作为图像特征提取器，将噪声和该真实图像样本输入到分类有益生成对抗网络进行训练以使其具有生成合成图像样本的功能；

分类器第二训练单元，用于将该分类有益生成对抗网络生成的合成图像样本输入到该丑化分类器中进行进一步训练，得到该丑化分类器即为该人物丑化图像识别模型，该分类有益生成对抗网络和该丑化分类器同时训练、交替优化；

该对抗网络训练单元包括：

生成器训练子单元，用于将该噪声和该真实图像样本输入到该分类有益生成对抗网络的生成器中进行训练以生成该合成图像样本；

图像特征提取子单元，用于冻结该丑化分类器的网络参数并将其作为图像特征提取器提取该合成图像样本的图像特征；

判别器训练子单元，用于将该合成图像样本输入到该分类有益生成对抗网络的判别器中进行训练，并且该判别器根据提取的该图像特征将该合成图像样本判别为真实图像样本或者合成图像样本。

6.一种人物丑化图像识别方法，其特征在于，包括：

步骤4，将待识别人物图像输入到使用权利要求1-4任一所述的方法训练得到该丑化分类器中以识别该待识别人物图像是否丑化。

7.一种人物丑化图像识别装置，其特征在于，包括：

人物丑化图像识别模型，通过如权利要求1-4任一所述的方法训练得到。

8.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1-4任一所述的方法和/或如权利要求6所述的方法。

9.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器内存储有可在所述处理器运行的计算机程序，当所述计算机程序被所述处理器执行时，实现如权利要求1-4任一所述的方法和/或如权利要求6所述的方法。