CN111753918B

CN111753918B - 一种基于对抗学习的去性别偏见的图像识别模型及应用

Info

Publication number: CN111753918B
Application number: CN202010619858.1A
Authority: CN
Inventors: 陈晋音; 陈治清; 郑海斌; 徐思雨; 缪盛欢; 徐国宁
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2024-02-23
Anticipated expiration: 2040-06-30
Also published as: CN111753918A

Abstract

本发明公开了一种基于对抗学习的去性别偏见的图像识别模型及应用，包括：(1)准备第三样本集，不包含性别标签的第一样本集，只有性别标签的第二样本集；(2)构建包含特征提取器和分类器的图像分类网络，以第一样本集来优化网络参数；(3)构建包括参数确定的特征提取器和对抗学习器的对抗学习网络，以第二样本集来优化对抗学习器的网络参数；(4)构建包括特征提取器、分类器、参数确定的对抗学习器的训练体系，(5)以分类器的目标任务损失和对抗学习器的去除性别偏见损失之和作为训练体系的总损失，根据第三样本集，利用该总损失对训练体系进行训练，当训练结束后，提取参数确定的特征提取器和分类器作为图像识别模型。

Description

一种基于对抗学习的去性别偏见的图像识别模型及应用

技术领域

本发明属于图像识别领域，具体涉及一种基于对抗学习的去性别偏见的图像识别模型及应用。

背景技术

深度学习主要是凭借其强大的特征提取与拟合能力来学习样本数据的内在规律，使得机器能够模仿人类思维，自动做出决策，因此解决了人类社会很多复杂的问题，并被广泛应用于各个领域，如图像识别、机器翻译、语音识别、自然语言处理、推荐系统、生物信息、目标检测与识别等。随着研究者们的不懈努力，深度学习技术日益成熟，这对改善和提高人们的生活水平具有深远的意义。

虽然深度学习在实际应用中取得了很大的进展，然而最新的一些研究表明，先进的深度学习模型存在不公平的偏见，这是因为深度学习模型也会对一些无关的特征很敏感，并且其决策往往会依赖于这种错误的特征关联，这种偏见可能表现在：当模型在预测一张图片中的人物性别时，模型的决策可能会更多依赖于无关的人物背景信息，从而导致错误的决策。因此，当这种存在偏见的深度学习模型反应在识别或检测含有人的图像时，可能会造成许多负面影响和社会危害，例如，软件工程师在图像搜索结果中男性的代表性过高，可能会造成性别歧视；在自动驾驶中检测行人时，不同肤色的行人识别率是不一样的，可能会对生命造成威胁。

研究者对于减轻和防止深度学习模型在决策时产生偏见的工作主要基于三个方面：(1)通过对数据集进行预处理来消除样本数据集中存在的偏见，从而防止深度学习模型在训练时获得不必要的偏见。(2)直接对深度学习模型进行修改来消除模型中存在的偏见。(3)对深度学习模型进行公平性的评估。虽然这些方法对于防止深度学习模型在决策时产生偏见都是有效的，但是最新的研究表明，深度学习模型会放大样本数据集中存在的偏见，同时研究还表明直接对深度学习模型进行修改来消除模型中存在的偏见比对数据集进行预处理更有效。

目前通过直接修改深度学习模型来防止偏见的方法大多数是通过对抗学习在原来深度学习模型的参数上进行小规模的修改，即在第二次训练时加入产生偏见的损失分数来降低模型在决策时的偏见程度。然而，通过这类方法训练的到的深度学习模型中，大部分参数的空间分布是基于第一次训练得到的，而这些参数和深度学习模型产生偏见具有很大的关联。虽然经过第二次训练，模型的参数有了一定的改变，但是这并不能改变第一次训练得到的参数的空间分布对最终模型的影响。

鉴于深度学习模型存在上述的偏见问题，以及目前对于防止这种偏见的研究所存在的局限性，研究一种基于对抗学习的无偏模型训练方法，生成没有偏见的深度学习模型具有极其重要的理论与实践意义。

发明内容

为了解决模型的性别偏见问题，本发明提供了一种基于对抗学习的去性别偏见的图像识别模型及应用。将性别偏见看作是一种攻击扰动，通过消除这种扰动，降低图像识别模型对无关特征的敏感度，进一步保证图像识别模型做出决策的公平性。

本发明的技术方案为：

第一方面，一种基于对抗学习的去性别偏见的图像识别模型的构建方法，包括以下步骤：

(1)准备包含人类信息的COCO子数据集作为第一样本集，并为第一样本集中的图像添加性别标签，该性别标签与图像形成第二样本集，将第一样本集和性别标签形成第三样本集；

(2)构建并训练图像分类网络，该图像分类网络包括第一特征提取器和由至少2层全连接层和组成的第一分类器，训练时，以第一样本集对图像分类网络进行训练，优化图像分类网络的网络参数；

(3)构建并训练对抗学习网络，该对抗学习网络包括经过步骤(2)训练后参数确定的第一特征提取器和由卷积层和全连接层组成的对抗学习器，训练时，以第二样本集对对抗学习网络进行训练，优化对抗学习器的网络参数；

(4)构建图像识别模型的训练体系，该训练体系包括第二特征提取器、第二分类器以及经步骤(3)训练参数确定的对抗学习器，第二特征提取器的输出分别输入至对抗学习器和第二分类器，其中，第二特征提取器、第二分类器与步骤(2)中训练前图像分类网络中的第一特征提取器和第一分类器的结构相同；

(5)以分类器的目标任务损失和对抗学习器的去除性别偏见损失之和作为训练体系的总损失，根据第三样本集，利用该总损失对训练体系进行训练，当训练结束后，提取参数确定的第二特征提取器和第二分类器作为图像识别模型。

第二方面，一种去性别偏见的图像识别模型，所述图像识别模型通过上述基于对抗学习的去性别偏见的图像识别模型的构建方法获得。

第三方面，一种去性别偏见的图像识别方法，包括以下步骤：

(a)利用上述基于对抗学习的去性别偏见的图像识别模型的构建方法构建参数确定的图像识别模型；

(b)将待识别图像输入至步骤(a)构建的图像识别模型中，经过计算输出去性别偏见的图像识别结果。

与现有技术相比，本发明具有的有益效果为：

本发明通过将图像识别模型中存在的偏见看成是对该图像识别模型的一种攻击，通过构造一个对抗学习网络来计算偏见的损失函数分数，与原始目标任务的损失函数分数进行叠加后作为总的损失函数来训练图像识别模型，从而降低图像识别模型对无关特征的敏感度，进一步保证深度学习模型做出决策的公平性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是本发明实施例提供的基于对抗学习的去性别偏见的图像识别模型的构建方法的流程图；

图2是本发明实施例提供的训练体系的结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

如图1所示，实施例提供了一种基于对抗学习的去性别偏见的图像识别模型的构建方法，包括以下步骤：

步骤1，构建第三样本集、不包含性别标签的第一样本集和仅包含性别标签的第二样本集。

针对图像识别任务，将把图像识别模型在做出决策时，受到无关但敏感特征的影响，并且其决策可能会会依赖于这种错误的特征关联的现象定义为模型的偏见行为，本发明实施例主要以性别偏见为主。认为性别标签是图像识别模型无关但敏感的特征，在其它标签的预测任务中，虽然不包括性别预测，但性别特征可能会影响其它分类任务，从而使深度学习产生性别歧视，即图像识别模型存在偏见。这种性别偏见会影响图像识别模型的识别结果，因此需要进行去性别偏见。

实施例中，以包含人的COCO子数据集作为第一样本集，并为第一样本集中的图像添加性别标签，该性别标签与图像形成第二样本集，将第一样本集和性别标签形成第三样本集。第一样本集中包括图像和图像的原始标签，第三样本集中包含图像，原始标签和性别标签。

第一样本集可以再分成训练集和测试集，用于图像分类网络的训练。第二样本集可以再分成训练集和测试集，用于对抗学习网络的训练。第三样本集用于训练体系的训练，以获得图像识别模型。以上第三样本集、第一样本集和第二样本集在作为训练样本输入网络之前，均需要进行归一化预处理。

步骤2，构建并训练图像分类网络。

实施例中，图像分类网络包括第一特征提取器和由至少2层全连接层和组成的第一分类器，其中，第一特征提取器用于提取输入样本图像的图像特征，第一分类器用于根据图像特征进行图像的分类，以识别图像中的内容。训练时，以第一样本集对图像分类网络进行训练，优化图像分类网络的网络参数。

具体地，第一特征提取器采用预训练的ResNet-50模型；预训练的ResNet-50模型是指研究人员经过训练以执行大量数据上的特定任务，在训练结束时结果比较好的一组权重值。在本发明中，ResNet-50模型的输入是COCO样本图像，输出是样本图像的特征分布，使用ResNet-50模型可以降低深度学习模型的训练时间。

第一分类器包括4层全连接层，全连接层采用ReLU函数，其输入为ResNet-50模型的输出，即样本图像的特征分布；还包括一个输出层，输出层采用logits层，经过softmax函数得到图像标签预测的概率分布。

训练图像分类网络时，训练参数Batch大小设为32，epoch最大值设为50；以第一样本集的训练集作为图像分类网络的输入，以输入图像的预测标签值与真实标签值的交叉熵作为损失函数，利用损失函数更新图像分类网络的网络参数。训练一段时间后，采用第一样本集的测试集对分类器进行测试，使其达到预设的分类准确率。

步骤3，构建并训练对抗学习网络。

实施例中，对抗学习网络包括经过步骤(2)训练后参数确定的第一特征提取器和由卷积层和全连接层组成的对抗学习器，其中，第一特征提取器用于提取输入样本图像的图像特征，对抗学习器用于识别样本图像的性别。训练时，以第二样本集对对抗学习网络进行训练，优化对抗学习器的网络参数。

具体地，对抗学习器包括3个卷积层和4个全连接层，全连接层采用ReLU函数，其输入是ResNet-50模型的输出，即样本数据的特征分布，还包括一个输出层，输出层采用logits层，经过softmax函数得到图像性别预测的概率分布。

训练对抗学习网络时，训练参数Batch大小设为32，epoch最大值设为70；以第二样本集的训练集作为图像分类网络的输入，以输入图像的预测性别标签值与真实性别标签值的交叉熵作为损失函数，利用损失函数更新对抗学习器的网络参数。训练一段时间后，采用第二样本集的测试集对对抗学习器进行测试，使其达到预设的分类准确率。

步骤4，构建图像识别模型的训练体系。

实施例中，图像识别模型的训练体系包括第二特征提取器、第二分类器以及经步骤(3)训练参数确定的对抗学习器，第二特征提取器的输出分别输入至对抗学习器和分类器，其中，训练体系中的第二特征提取器、第二分类器与步骤(2)中训练前图像分类网络中的第一特征提取器和第一分类器的结构相同。也就是说训练体系中的对抗学习器的网络参数是确定的，在训练的过程中不再改变；第二特征提取器和第二分类器的网络参数在训练过程中是需要经过样本图像进行优化的。

步骤5，构建总损失，并根据总损失对图像识别模型的训练体系进行训练，以获得图像识别模型。

实施例中，以分类器的目标任务损失和对抗学习器的去除性别偏见损失之和作为训练体系的总损失，根据第三样本集，利用该总损失对训练体系进行训练，当训练结束后，提取参数确定的第二特征提取器和第二分类器作为图像识别模型。

具体地，训练体系的总损失Loss为：

Loss＝Loss_Y+Loss_Adv (1)

Loss_Y为目标任务损失，计算公式为：

其中，i为样本图像的索引，x_i为不含性别标签的样本图像，N为样本图像总数，c₁(x_i)为样本图像x_i输入至网络参数经训练确定的图像分类网络后，图像分类网络的输出矩阵，c₂(x_i)为样本图像x_i输入至训练体系中第二特征提取器、第二分类器后，第二分类器的输出矩阵，k为输出矩阵c₂(x_i)或的c₁(x_i)维度，在计算目标任务的损失函数Loss_Y时，为了直接将图像分类网络中的第一分类器对于目标任务的学习知识迁移到训练体系中第二分类器中，采用软标签c₁(x_i)替代样本图像x_i的真实标签。

Loss_Adv为去除性别偏见损失，计算公式为：

Loss_Adv＝-λ∑L(adv(h_i),Z_i) (3)

λ是用于调节去除性别偏见损失占比的超参数，Z_i是样本图像x_i的真实性别标签，h_i是样本图像x_i输入至训练体系中特征提取器后输出的特征向量；L(adv(h_i),Z_i)表示h_i输入至对抗学习器输出的性别预测值adv(h_i)与的真实性别标签Z_i的交叉熵。

在对训练体系训练时，设置批次Batch大小设为32，训练最大迭代次数设为50；分类器的网络参数采用Adam优化器进行更新，Adam优化器参数中，学习率alpha设置为0.001，第一次估计的指数衰减率beta1设为0.9，第二次估计的指数衰减率beta2设为0.999，模糊因子epsilon设为10^-8；将第三样本集中的图像输入至训练体系的第二特征提取器中，根据总损失函数更新训练体系中第二特征提取器、第二分类器的网络参数，训练结束后，取参数确定的第二特征提取器和第二分类器作为图像识别模型。

步骤6，评价图像识别模型的去性别偏见性能

在获得图像识别模型后，还对图像识别模型进行去性别偏见性能的评价，当图像识别模型的去性别偏见性能不满足要求时，继续利用训练体系对图像识别模型进行训练；

具体去性别偏见性能的评价过程为：

利用公式(4)计算图像识别模型的去性别偏见性能值β：

其中，Z_i是样本图像x_i的真实性别标签，adv(h_i)为h_i输入至对抗学习器输出的性别预测值，h_i是样本图像x_i输入至第二特征提取器后输出的特征向量，i为样本图像的索引，n为样本图像的总个数，当adv(h_i)等于Z_i时，f(adv(h_i)＝＝Z_i)取值为1，当adv(h_i)不等于Z_i时，f(adv(h_i)＝＝Z_i)取值为0；

当去性别偏见性能值β越接近于1，表示图像识别模型的去性别偏见性能越好，当去性别偏见性能值β小于阈值时，则认为图像识别模型的去性别偏见性能不满足要求。

实施例还提供了一种去性别偏见的图像识别模型，所述图像识别模型通过上述基于对抗学习的去性别偏见的图像识别模型的构建方法获得。

实施例还提供了一种去性别偏见的图像识别方法，包括以下步骤：

上述基于对抗学习的去性别偏见的图像识别模型的构建方法，采用一种基于对抗学习的策略，提出了一种新的无偏模型训练框架，通过对抗学习网络来获得样本数据在图像识别模型中的偏见损失函数，通过模型知识迁移和对抗学习的训练方法，能够生成无偏见的图像识别模型，不仅保证了原始目标分类任务的性能，也降低了图像识别对无关特征的敏感度，从而进一步保证深度学习模型在做出决策时的公平性；本发明采用ResNet-50预训练模型作为底层模型，降低了图像识别模型的训练时间。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于对抗学习的去性别偏见的图像识别模型的构建方法，其特征在于，包括以下步骤：

(2)构建并训练图像分类网络，该图像分类网络包括第一特征提取器和由至少2层全连接层组成的第一分类器，训练时，以第一样本集对图像分类网络进行训练，优化图像分类网络的网络参数；

(5)以第二分类器的目标任务损失和对抗学习器的去除性别偏见损失之和作为训练体系的总损失，根据第三样本集，利用该总损失对训练体系进行训练，当训练结束后，提取参数确定的第二特征提取器和第二分类器作为图像识别模型；

其中，训练体系的总损失Loss为：

Loss＝Loss_Y+Loss_Adv (1)

Loss_Y为目标任务损失，计算公式为：

Loss_Adv为去除性别偏见损失，计算公式为：

Loss_Adv＝-λ∑L(adv(h_i),Z_i) (3)

其中，i为样本图像的索引，x_i为不含性别标签的样本图像，N为样本图像总数，c₁(x_i)为样本图像x_i输入至网络参数经训练确定的图像分类网络后，图像分类网络的输出矩阵，c₂(x_i)为样本图像x_i输入至训练体系中第二征提取器、第二分类器后，第二分类器的输出矩阵，k为输出矩阵c₂(x_i)或c₁(x_i)的维度，λ是用于调节去除性别偏见损失占比的超参数，Z_i是样本图像x_i的真实性别标签，h_i是样本图像x_i输入至训练体系中第二特征提取器后输出的特征向量；L(adv(h_i),Z_i)表示h_i输入至对抗学习器输出的性别预测值adv(h_i)与的真实性别标签Z_i的交叉熵。

2.如权利要求1所述的基于对抗学习的去性别偏见的图像识别模型的构建方法，其特征在于，所述第一特征提取器采用预训练的ResNet-50模型；所述第一分类器包括4层全连接层，全连接层采用ReLU函数，其输入为ResNet-50模型的输出；还包括一个输出层，输出层采用logits层，经过softmax函数得到图像标签预测的概率分布。

3.如权利要求1或2所述的基于对抗学习的去性别偏见的图像识别模型的构建方法，其特征在于，训练图像分类网络时，训练参数Batch大小设为32，epoch最大值设为50；以输入图像的预测标签值与真实标签值的交叉熵作为损失函数，利用损失函数更新图像分类网络的网络参数。

4.如权利要求1所述的基于对抗学习的去性别偏见的图像识别模型的构建方法，其特征在于，所述对抗学习器包括3个卷积层和4个全连接层，全连接层采用ReLU函数，还包括一个输出层，输出层采用logits层，经过softmax函数得到图像性别预测的概率分布。

5.如权利要求1所述的基于对抗学习的去性别偏见的图像识别模型的构建方法，其特征在于，训练对抗学习网络时，训练参数Batch大小设为32，epoch最大值设为70；以输入图像的预测性别标签值与真实性别标签值的交叉熵作为损失函数，利用损失函数更新对抗学习器的网络参数。

6.如权利要求1所述的基于对抗学习的去性别偏见的图像识别模型的构建方法，其特征在于，在对训练体系训练时，设置Batch大小设为32，训练最大迭代次数设为50；分类器的网络参数采用Adam优化器进行更新，Adam优化器参数中，学习率alpha设置为0.001，第一次估计的指数衰减率beta1设为0.9，第二次估计的指数衰减率beta2设为0.999，模糊因子epsilon设为10^-8；将第三样本集中的图像输入至训练体系的第二特征提取器中，根据总损失函数更新训练体系中第二特征提取器、第二分类器的网络参数，训练结束后，取参数确定的第二特征提取器和第二分类器作为图像识别模型。

7.如权利要求1所述的基于对抗学习的去性别偏见的图像识别模型的构建方法，其特征在于，在获得图像识别模型后，还对图像识别模型进行去性别偏见性能的评价，当图像识别模型的去性别偏见性能不满足要求时，继续利用训练体系对图像识别模型进行训练；

具体去性别偏见性能的评价过程为：

利用公式(4)计算图像识别模型的去性别偏见性能值β：

8.一种去性别偏见的图像识别模型，其特征在于，所述图像识别模型通过如权利要求1～7任一项所述的基于对抗学习的去性别偏见的图像识别模型的构建方法获得。

9.一种去性别偏见的图像识别方法，其特征在于，包括以下步骤：

(a)利用权利要求1～7任一项所述的基于对抗学习的去性别偏见的图像识别模型的构建方法构建参数确定的图像识别模型；