CN114462466A

CN114462466A - 一种面向深度学习的数据去偏方法

Info

Publication number: CN114462466A
Application number: CN202111479738.7A
Authority: CN
Inventors: 陈晋音; 陈一鸣; 陈奕芃
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-12-06
Filing date: 2021-12-06
Publication date: 2022-05-10

Abstract

本发明公开了一种面向深度学习的数据去偏方法，首先构建原始样本数据集，并对原始数据集进行预处理。再构建并训练用于消除偏见的对抗式生成网络模型，并计算对抗网络模型的损失函数。然后训练对抗网络模型，学习原始样本数据集中与敏感性相关的偏见信息。再构建权重矩阵，利用权重矩阵针对学习到的偏见信息相关程度赋予不同的权重以消除偏见信息，得到已经经过偏见消除的数据集，并且将该已经消除偏见的数据集用于后续的训练过程，以提高后续深度学习模型分类的准确性。本发明方法使得输入的原始样本数据集中与敏感属性有关的偏见信息被消除以提高分类结果的公平性，同时也保证了分类主任务的精度不会受到显著影响。

Description

一种面向深度学习的数据去偏方法

技术领域

本发明属于深度学习领域，具体涉及一种基于面向深度学习的数据去偏方法。

背景技术

深度学习技术以及使用深度学习技术搭建的人工智能模型具备比较强的自主学习能力，将具备这种能力的产品落地也即使用了深度学习技术的人工智能模型，各种人工智能落地项目帮助人们在生产生活中做出多样化以及复杂化的决策，并且将很多人力无法完成的问题简单化，因此人工智能技术也广泛应用于人们生产生活的方方面面，比如智慧医疗、自然语言处理、图像识别、广告精准投放、信贷发放决策、智慧教育以及刑事司法领域等，并且人工智能技术在这些领域也发挥了良好的效果，带来了良好的经济效益和社会效益。随着研究人员的研究不断深入，以及针对人工智能技术的不断创新，使得深度学习模型的性能不断提高同时算法复杂度不断下降，以深度学习为代表的人工智能技术已经逐步渗透进人们生活的方方面面。

然而最新的研究表明，虽然应用深度学习技术可以帮助人们获得更为精准的预测和分类结果以及为决策提供强有力的技术支撑，但是，深度学习模型在进行自动决策的时候可能存在偏见，这种偏见可能表现在：在进行信贷发放决策时，使用深度学习模型的决策结果中，客户的授信额度可能会随着地域和客户的受教育程度而不一样，来自地域偏僻的以及受教育程度不高的客户获得的授信额度相对较低。因此，在一些重要的场合，决策者不能过分依赖深度学习模型的结果做出参考，如果最终决策者坚持这样做，那么导致的后果会使得决策机构处于高风险的环境中，比如会面临社会舆论的指责等。由于人工智能技术在面对各种偏见时并没有良好的偏见消除措施，并且会持续将数据中的偏见特征代入后续的决策结果中，造成持续影响。由于人工智能是整个时代科技发展的趋势，并且由于深度学习导致的偏见问题已经渗透至人们生产生活的各个领域，因此研究面向深度学习的数据去偏方法显得尤为重要。

导致深度学习模型存在偏见的主要原因是用于深度模型训练的原始样本数据集本身就带有偏见，并且深度学习模型在训练阶段会学习这种偏见，在推理阶段会将这种偏见放大，给最终结果带来不良影响。基于此原因，目前业内对消除深度学习模型带有的偏见问题的研究主要集中在对原始样本数据进行预处理以达到消除偏见的目的，然而现有的面向深度学习的偏见消除方法中，仅仅针对原始样本数据中由敏感属性引起的偏见进行偏见消除，而忽略了由于属性之间的关联作用导致非敏感属性的数据也会带有偏见信息。在生产环境中，原始样本数据中的偏见信息并不仅仅来源于包含敏感属性的数据，不同属性之间的关联性也会导致包含非敏感属性的数据带有偏见信息，现有的去偏方法并没有很好的处理这一点，而是单一的针对包含敏感属性的数据进行去偏，因此训练得到的模型只能消除一部分偏见，总体效果仍然不理想。

鉴于深度学习模型存在上述的偏见问题以及现有的偏见消除方法的局限性，研究一种面向深度学习的数据去偏方法，生成一个纯净且无偏的深度学习模型对指导人们生产生活具有极其重要的理论意义和现实意义。

发明内容

本发明的目的是提供一种基于生成式对抗网络模型的去偏方法，将模型的公平性损失和精度损失两种损失函数结合起来作为该深度学习模型总损失函数，利用对抗性编码方式消除原始样本数据中的偏见信息从而生成去偏数据集，并且通过使生成器和判别器进行交替对抗训练以减少生成的无偏数据信息的损失，从而在保证主任务精度不会明显下降的情况下达到消除原始样本数据中偏见消除的目的。

为实现上述发明目的，本发明提供以下技术方案：一种面向深度学习的数据去偏方法，包括以下步骤：

(1)获取原始数据，并对原始数据包含的类别属性进行标记；根据标记的类别属性得到原始样本数据集；

(2)构建用于偏见消除的对抗网络模型，并计算对抗网络模型的损失函数；

(3)训练步骤(2)构建的对抗网络模型，利用步骤(2)计算的损失函数通过对抗式的训练不断进行迭代，学习原始样本数据集中与敏感属性相关的偏见信息；

(4)将步骤(3)生成的去偏数据集输入对抗网络模型进行分类训练；

(5)构建权重矩阵，根据步骤(3)中的训练结果利用权重矩阵针对学习到的偏见信息相关程度赋予不同的权重以消除偏见信息；

(6)以权重矩阵的形式导出已经经过偏见消除的数据集，并且将该已经消除偏见的数据集用于继续训练对抗网络模型。

进一步地，所述步骤(2)具体为：所述对抗网络模型包括分类器、判别器和自编码器；

所述作用于分类器的损失函数为L_C：

式中，

记录了分类器输出的分类结果，Y_i代表实际的分类结果；

所述作用于判别器的损失函数为L_D：

其中，

为判别器输出的预测结果，g_i为实际结果；

所述作用于自编码器的损失函数为L_A：

其中，S指代原始样本数据中带有敏感属性标签的数据，λ为权重。

进一步地，所述步骤(3)具体为：训练步骤(2)构建的对抗网络模型，在模型训练时，判别器D和自编码器A之间进行交替对抗式训练，利用损失函数为L_C和损失函数为L_D同时更新两者优化目标，判别器D通过自编码器A的输出更新自身特征提取方向，自编码器A输出对抗式编码结构被判别器D损失函数L_D有效限制，学习得到原始样本数据集中与敏感属性相关的偏见信息，得到去偏数据集。

进一步地，所述权重矩阵为一个m×n的矩阵，其中，m是数据集总样本数，n是前一步的自编码器提取的特征总数目。

进一步地，所述步骤(4)具体为：对抗网络模型训练完毕后，在后续分类的过程中，将该权重矩阵给不同属性赋值的不同权重对应作用于原始数据集，从而消除敏感属性之间相关联的偏见信息。

与现有技术相比，本发明具有的有益效果至少包括：本发明提供的面向深度学习的数据去偏方法，通过构建以自编码器为核心的对抗式生成网络深度学习模型，在确定了敏感属性的前提下，通过不断进行对抗式训练迭代，提升了深度学习模型分类的公平性同时保证了主任务的精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的面向深度学习的数据去偏方法的流程示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

深度学习模型带有偏见会导致深度学习模型在学习和推理阶段时受到某一类或者某几类属性的影响，使得其分类结果带有歧视性，会针对弱势群体、少数群体等带有明显的歧视性的情况，其中，影响深度学习模型的分类结果的属性即为敏感属性，这些敏感属性可能是地域以及性别等因素。为了解决深度学习模型存在偏见问题导致在现实生活中给个人以及社会群体带来负面的影响。本实施例提供了一种面向深度学习的数据去偏方法，如图1所示，该面向深度学习的数据去偏方法包括以下步骤：

(1)构建原始样本数据集，并对数据进行预处理，具体为：

获取原始数据，并对原始数据包含的类别属性进行标记，所述类别属性包括任务属性、敏感属性以及非敏感属性；根据标记的类别属性构建原始样本数据集；

本发明实施例选择的数据集是一个带有敏感属性的文本数据集，例如Adult数据集，将其中的一个属性作为敏感属性，例如性别。其他标签中选一个作为任务标签，该任务标签可以是收入等。

(2)构建并训练用于消除偏见的对抗式生成网络模型，并计算对抗网络模型各部分的损失函数；

本实施例中构建的深度学习模型包括以自编码器为核心的对抗式生成网络，本发明的去偏方法依靠对抗式训练生成损失函数为自编码器结构提供优化方向，因此损失函数的设定将直接影响最终在数据集上的偏见效果。所述对抗网络模型包括分类器、判别器和自编码器。所述分类器、判别器和自编码器各自需要一个损失函数更新其优化方向。包括作用于分类器的损失函数为L_C，作用于判别器的损失函数为L_D，作用于自编码器的损失函数为L_A。各损失函数的计算具体为：

作用于分类器的损失函数为L_C用来优化分类器准确率，

记录了分类器输出的分类结果， Y_i代表实际的分类结果。

作用于判别器的损失函数为L_D促进判别器提高其判断准确性，判别器试图预测数据集是否经过自编码器去偏处理，

为判别器输出的预测结果，g_i为实际结果。

在自编码器A上，引入对抗式训练和去偏过程两部分损失函数L_A。L_A的作用一方面在数据集上保留足够的信息量用于主任务，另一方面引入去偏过程中的公平性损失以期望优化去偏任务性能，S指代原始样本数据中带有敏感属性标签的数据。

其中，第一项

基于人口均等的公平性定义，使分类结果与敏感属性尽可能不相关，消除敏感信息。第二项

试图增加作用于判别器的损失函数L_D，和判别器D进行对抗式的训练，在博弈过程中向保留信息量方向优化。第二项

额外增加了λ权重，调整两部分优化方向优先度。

所述人口均等公平性定义具体为：设S表示敏感属性，X表示数据集除敏感属性外属性特征，Y为实际分类结果标签，结果标签分为正负两类y∈{y⁺,y^-}，

为预测的标签结果，取决于

和X，M表示数据集所有特征，其中S和Y为二值变量。分类器模型在通过原始数据集(X,S,Y)训练后，得到的分类预测结果

若满足

则分类器被认为满足人口均等。其中敏感属性变量的二值被分为S＝s⁺特权组及S＝s^-普通组。人口均等的公平性定义表示分类结果与敏感属性无关，优化方向上着重于整体的公平，属于群体公平定义，满足数据群体公平上去偏的要求。

(3)训练步骤(2)构建的对抗网络模型，通过对抗式的训练不断进行迭代，学习原始样本数据集中与敏感属性相关的偏见信息，生成去偏数据集；具体为：学习原始数据中与性别等敏感属性相关的数据中存在的内在规律，直接将这些与敏感属性相关的数据输入进深度学习模型进行训练会导致深度学习模型在决策中会针对弱势群体以及少数族裔产生不利于他们群体的决策结果，从而带来了偏见并且导致了社会歧视。

在模型训练时，在判别器D和自编码器A之间进行交替对抗式训练，利用步骤(2)计算的损失函数分别同时更新两者优化目标，判别器D通过自编码器A的输出更新自身特征提取方向，自编码器A输出对抗式编码结构被判别器D损失函数L_D有效限制，学习得到原始样本数据集中与敏感属性相关的偏见信息，得到去偏数据集。

其中，自编码器和判别器之间的博弈过程可以看成是一对零和博弈，其中自编码器A的优化目标如下：

其中，x表示原始数据，x^*表示去偏处理后的数据，P(x^*)表示生成去偏数据的分布，D(x) 表示判别器输出结果。

判别器D的任务是准确判别输入类型，即判别器通过自编码器的输出来更新自身特征提取方向。判别器D试图预测数据集是否经过自编码器进行了去偏处理，给出的输出结果是

实际结果为g，而判别器的损失函数L_D的目的是促进提高判别器判断的准确性，因此有了后面的L_D损失函数，通过使用L_D损失函数的数据是由自编码器输出的。

其中，P_r(x)表示判别结果的分布，在对抗式训练过程中，综合优化目标如下：

自编码器的期望是向最小化方向优化，判别器的期望是向最大化方向优化，即判别器D通过自编码器A的输出更新自身特征提取方向，自编码器A输出对抗式编码结构被判别器D进行限制。因此，完整的训练过程通过自编码器和判别器以及分类器的交替训练，逐个逐次更新优化方向。

(4)将步骤(3)生成的去偏数据集输入对抗网络模型进行分类训练。

分类器C参与交替迭代训练，优化分类性能，具体地：在交替训练过程中，去偏数据集输入进分类器C进行一轮数据分类训练，再将去偏数据集和原始数据集分别送入判别器作为一轮判别训练，在最后的自编码器训练过程中，输入原始数据集，优化方向结合另外两个结构的本轮训练结果，被整合进自编码器的损失函数L_A中，用以更新自编码器的偏见信息特征提取能力。三个训练过程作为一轮训练，并且自定义选择合适的总训练轮数进行训练。

(5)构建权重矩阵，根据步骤(4)中的训练结果利用权重矩阵针对学习到的偏见信息相关程度赋予不同的权重以消除偏见信息。

权重矩阵包含针对数据集所包含的属性包含不同的权重赋值，该权重矩阵是一个m×n的矩阵，其中，m指的是数据集总样本数，n指的是前一步的自编码器提取的特征总数目。在模型训练完毕后，后续分类的过程中，将该权重矩阵给不同属性赋值的不同权重对应作用于原始数据集，从而消除敏感属性之间相关联的偏见信息。

(6)在模型训练完成后，以权重矩阵的形式导出已经经过偏见消除的数据集，并且将该已经消除偏见的数据集用于后续的训练过程，以提高后续深度学习模型分类的准确性。

所述导出的权重矩阵在作用于数据集后，该数据集中与敏感属性有关的偏见信息被消除，同时保留了足够的信息量以供消除偏见的对抗式生成网络模型学习以完成分类的任务，以此提高数据集的公平性，并减少对准确性的负面影响。

综上所述，本发明提供的一种面向深度学习的数据去偏方法，提出了一种新的无偏见深度学习模型的训练方法，通过结合模型主任务分类精度损失函数以及公平性损失函数，利用对抗式编码来消除偏见信息，生成已经去除偏见的数据集，并且通过生成器与判别器的交替训练，尽可能使得主任务的精度不显著降低，在保证主任务性能的同时提高分类结果的公平性，为研究消除深度学习模型偏见提供指导。本发明利用对抗式生成网络的交替博弈的训练方法，更新数据集特征的提取方向以优化深度学习模型的学习到的特征，使得输入的原始样本数据集中与敏感属性有关的偏见信息被消除以提高分类结果的公平性，同时也保证了分类主任务的精度不会受到显著影响。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种面向深度学习的数据去偏方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的面向深度学习的数据去偏方法，其特征在于，所述步骤(2)具体为：所述对抗网络模型包括分类器、判别器和自编码器；

所述作用于分类器的损失函数为L_C：

式中，

记录了分类器输出的分类结果，Y_i代表实际的分类结果；

所述作用于判别器的损失函数为L_D：

其中，

为判别器输出的预测结果，g_i为实际结果；

所述作用于自编码器的损失函数为L_A：

3.根据权利要求1所述的面向深度学习的数据去偏方法，其特征在于，所述步骤(3)具体为：训练步骤(2)构建的对抗网络模型，在模型训练时，判别器D和自编码器A之间进行交替对抗式训练，利用损失函数为L_C和损失函数为L_D同时更新两者优化目标，判别器D通过自编码器A的输出更新自身特征提取方向，自编码器A输出对抗式编码结构被判别器D损失函数L_D有效限制，学习得到原始样本数据集中与敏感属性相关的偏见信息，得到去偏数据集。

4.根据权利要求1所述的面向深度学习的数据去偏方法，其特征在于，所述权重矩阵为一个m×n的矩阵，其中，m是数据集总样本数，n是前一步的自编码器提取的特征总数目。

5.根据权利要求1所述的面向深度学习的数据去偏方法，其特征在于，所述步骤(4)具体为：对抗网络模型训练完毕后，在后续分类的过程中，将该权重矩阵给不同属性赋值的不同权重对应作用于原始数据集，从而消除敏感属性之间相关联的偏见信息。