CN113298254A

CN113298254A - 面向深度迁移学习的去偏方法及其装置

Info

Publication number: CN113298254A
Application number: CN202110649889.6A
Authority: CN
Inventors: 陈晋音; 陈奕芃; 陈一鸣
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2021-08-24

Abstract

本发明公开了一种面向深度迁移学习的去偏方法及其装置，包括：获取源域数据集和目标域数据集，提取类别标签和敏感属性标签；构建全连接神经网络作为迁移模型的教师模型，采用源域数据集优化教师模型的网络参数；固定参数优化的教师模型的前n层全连接层的网络参数作为特征提取器，并在教师模型的最后一层添加m层全连接层，形成迁移模型的学生模型，采用目标域数据集优化学生模型的网络参数；在参数优化的学生模型的特征提取器的输出添加注意力机制层，用于从特征提取器中的输出特征中提取敏感属性并确定敏感属性的权重；将敏感属性对应的特征向量与其他特征向量进行正交操作，以去除深度迁移学习的敏感属性带来的偏见，以实现预测结果的公平。

Description

面向深度迁移学习的去偏方法及其装置

技术领域

本发明属于深度学习公平性领域，具体涉及一种面向深度迁移学习的去偏方法及其装置。

背景技术

为了获得更高的性能，深度学习模型变得越来越复杂。然而，从头训练这些复杂的模型需要大量的训练数据和计算资源。通常情况下，单个研究人员和小公司无法负担如此多的资源。

为了解决这一问题，研究者们提出了迁移学习。总体思路是让领先的公司从用户那里收集大量数据，并利用大量计算资源对复杂的深度学习模型进行预训练；然后，将预先训练好的模型发布给下游应用程序。到那时，个人研究人员和小公司不再需要从头开始训练他们复杂的深度学习模型。相反，他们可以使用预先训练的模型作为起点，并使用本地数据集定制他们自己的应用程序。一般来说，在迁移学习中，预先训练的模型被称为教师模型，下游模型被称为学生模型。

然而，迁移学习中预先训练的教师模型可能存在偏见，并将这种偏见传递并影响到下游的学生模型，例如，在在线广告中，所谓的预测供应商通过向广告商出售其预测(例如，某人X可能对产品Y感兴趣)获得利润，而数据所有者通过向预测供应商出售预测有用的数据集获得利润。因为预测供应商寻求最大化预测的准确性，它可能(有意或无意)使预测不公平地偏向某些群体或个人。

鉴于针对现有的迁移模型去偏方法的局限性以及迁移学习偏见存在的客观性，研究一种面向迁移学习的去偏方法。

发明内容

本发明的目的是提供一种面向迁移学习的去偏方法。通过引入注意力机制和正交化操作对模型进行去偏，从而实现模型预测结果的公平。

本发明实现上述发明目的所采用的技术方案如下：

第一方面，一种面向深度迁移学习的去偏方法，包括以下步骤：

获取源域数据集和目标域数据集，提取类别标签和敏感属性标签；

构建全连接神经网络作为迁移模型的教师模型，采用源域数据集优化教师模型的网络参数；

固定参数优化的教师模型的前n层全连接层的网络参数不变作为特征提取器，并在教师模型的最后一层添加m层全连接层，形成迁移模型的学生模型，采用目标域数据集优化学生模型的网络参数；

在参数优化的学生模型的特征提取器的输出添加注意力机制层，用于从特征提取器中的输出特征中提取敏感属性并确定敏感属性的权重；

将敏感属性对应的特征向量与其他特征向量进行正交操作，以去除深度迁移学习的敏感属性带来的偏见。

其中，源域数据集采用Credit数据集，目标域数据集采用Census数据集，敏感属性为性别属性。

优选地，所述类别标签采用one-hot编码。

优选地，所述教师模型采用由5层全连接层组成的全连接层神经网络，n为3，m为2。

优选地，所述教师模型采用SoftMax为激活函数对数据进行分类识别，训练过程的损失函数均使用交叉熵损失函数。

优选地，所述学生模型采用SoftMax为激活函数对数据进行分类识别，训练过程的损失函数均使用交叉熵损失函数。

优选地，迁移模型训练结束后，利用测试集测试迁移模型的公平性，其机会平等的公式为：

其中

表示迁移模型的预测的分类结果，Y和y为真实分类标签，A为敏感属性，当上式的左右两边的结果相等或相近时则认为模型达到了去偏效果。

第二方面，一种面向深度迁移学习的去偏装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，其特征在于，所述计算机处理器执行所述计算机程序时实现上述面向深度迁移学习的去偏方法。

本发明的有益效果主要表现在：通过对迁移模型中引入注意力机制确定敏感属性的权重，提高了模型的可解释性；引入正交化操作对迁移模型进行去偏。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是一实施例提供的迁移模型的结构示意图；

图2是一实施例提供的面向深度迁移学习的去偏方法的流程图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

参照图1～图2，实施例提供的一种面向迁移学习的去偏方法，步骤如下：

步骤1，数据预处理。

实施例中，采用Credit数据集作为向迁移学习的去偏方法的源域数据集。Credit数据集是UCI数据库中的信用数据集，它的预测任务是将按一组属性描述的人员分类为良好或不良信用风险。Credit数据集包含1000个人员的样本信息，每个个体的样本属性包括现有支票账户、信用记录、储蓄账户/债券和房屋等，样本属性中还包括敏感属性，例如，属性9为性别。Credit数据集用20个特征来对每个个体进行描述，从而预测个体的信用风险为良好还是不良。然而，经过调查研究发现，Credit数据集中对性别这一敏感属性存在偏见，其中男性相比女性而言更容易被归类为信用风险良好。

采用Census数据集作为面向迁移学习的去偏方法的目标域数据集。Census数据集是UCI数据库中的人口普查数据集，是由Barry Becker从1994年的人口普查数据库中进行的预测任务是确定一个人的年收入是否超过50K。Census数据集包含48842个人员的样本信息，每个个体的样本属性包括现有年龄、工作类别、教育程度等，样本属性中还包括敏感属性，例如，属性10为性别。Census数据集用14个特征来对每个个体进行描述，从而预测一个人的年收入是否超过50K。然而，经过调查研究发现，Census数据集中对性别这一敏感属性存在偏见，其中男性相比女性而言更容易被归类为“高收入”人群。

本发明是面向迁移学习的去偏方法，因此在数据集预处理中需要将源域和目标域中的数据集进行对齐操作，也就是需要源域和目标域的数据集维度一致，才能进行迁移操作。源域数据集Credit的维度为20，目标域数据集Census的维度为14，因此对目标域数据集Census插入6个全部为0的列，使源域和目标域数据集都为20维，从而进行迁移操作。

对齐操作结束后，进行数据集的划分，具体包括：Census数据集由40000多个样本构成，本发明以5：1的比例划分训练集和测试集。

预处理过程还需要提取类别标签以及敏感属性标签。Credit数据集中每个样本有20个类别属性，在其中属性9性别为敏感属性，对数据的类别进行one-hot编码，获取对应的类别标签序列。在本发明中，将性别作为敏感属性，Credit数据集中将男性和女性分为：男性(离异/分居)、女性(离异/分居/已婚)、男性(单身)、男性(已婚/丧偶)和女性(单身)。属性为“男性”或者“女性”我们认为它是敏感的，并对其进行二值化处理，敏感属性为“男性”被编码为1，敏感属性为“女性”被编码为0。

Census数据集中每个样本有14个类别属性，其中属性10性别为敏感属性，将“男性”编码为1，“女性”编码为0。

因此，迁移模型的源域数据集采用Credit数据集，目标域数据集采用Census数据集，其中源域和目标域中都将“性别”作为敏感属性。

步骤2，构建及训练迁移模型。

迁移学习是将“知识”从预先训练的模式(教师模式)转移到新模式(学生模式)的有效途径。从教师模式向学生模式的转变有两种途径。一种是特征提取器，它冻结教师模型的前K层，训练学生模型的输出层。另一种是微调，即使用教师模型的参数作为初始化，然后利用学生模型的数据集对模型进行微调。

本发明中迁移模型采用第一种方式：特征提取器。学生模型冻结了教师模型的前K层，其中K≤N-1，并将其作为特征提取器。然后，学生模型使用反向传播来更新其他层的参数使用他们的本地数据集。

具体地，构建全连接神经网络用来训练源域数据集Credit，全连接神经网络为5层，每层的神经元个数分别为64、32、16、8、2。全连接层使用SoftMax为激活函数对数据进行分类识别，训练过程的损失函数均使用交叉熵损失函数(categorical_crossentropy)，优化器使用Adam。经过此训练得到教师模型Amodel。

然后将得到的Amodel前三层冻结，在Amodel后再加两层网络用来训练目标域数据集Census，全连接层使用SoftMax为激活函数对数据进行分类识别，训练过程的损失函数均使用交叉熵损失函数(categorical_crossentropy)，优化器使用Adam。经过此训练得到学生模型Bmodel。

步骤3，迁移模型的去偏处理。

在Bmodel的特征层后加入注意力机制，也就是Attention层，Attention机制即注意力机制，本发明在迁移模型中引入了注意力机制，它能对输入的数据提取特征信息，寻找对输出结果影响较大的敏感属性，引入Attention机制不但能够显著的提升迁移模型的性能，还可以观察到输入数据中的信息是如何影响到最后的输出的，有助于更好的理解模型内部的运行机制，提高模型的可解释性。

然后将Attention层中得到的敏感属性权重较大的样本进行去偏，也就将敏感属性的特征向量与其他属性进行正交，以此得到迁移模型，消除敏感属性的影响，从而达到去偏的效果。

步骤4，测试迁移模型的公平性。

实施例中，将划分的测试集输入到迁移模型中进行测试，当测试集的测试结果满足公平性评估指标机会平等时，则认为迁移模型经过训练后达到了公平。

机会平等的公式为：

其中

表示模型预测，A为敏感属性，当上式的左右两边的结果相等或相近时则认为模型达到了去偏效果。

实施例还提供了一种面向深度迁移学习的去偏装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，所述计算机处理器执行所述计算机程序时实现上述面向深度迁移学习的去偏方法，具体包括：

步骤1，数据预处理；

步骤2，构建及训练迁移模型；

步骤3，迁移模型的去偏处理；

步骤4，测试迁移模型的公平性。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种面向深度迁移学习的去偏方法，其特征在于，包括以下步骤：

2.如权利要求1所述的面向深度迁移学习的去偏方法，其特征在于，源域数据集采用Credit数据集，目标域数据集采用Census数据集，敏感属性为性别属性。

3.如权利要求1所述的面向深度迁移学习的去偏方法，其特征在于，所述类别标签采用one-hot编码。

4.如权利要求1所述的面向深度迁移学习的去偏方法，其特征在于，所述教师模型采用由5层全连接层组成的全连接层神经网络，n为3，m为2。

5.如权利要求1所述的面向深度迁移学习的去偏方法，其特征在于，所述教师模型采用SoftMax为激活函数对数据进行分类识别，训练过程的损失函数均使用交叉熵损失函数。

6.如权利要求1所述的面向深度迁移学习的去偏方法，其特征在于，所述学生模型采用SoftMax为激活函数对数据进行分类识别，训练过程的损失函数均使用交叉熵损失函数。

7.如权利要求1所述的面向深度迁移学习的去偏方法，其特征在于，迁移模型训练结束后，利用测试集测试迁移模型的公平性，其机会平等的公式为：

其中

8.一种面向深度迁移学习的去偏装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，其特征在于，所述计算机处理器执行所述计算机程序时实现权利要求1～7任一项所述的面向深度迁移学习的去偏方法。