CN113392934A

CN113392934A - 一种面向深度学习的偏见数据平衡方法及装置

Info

Publication number: CN113392934A
Application number: CN202110776803.6A
Authority: CN
Inventors: 陈晋音; 陈一鸣; 陈奕芃
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-07-09
Filing date: 2021-07-09
Publication date: 2021-09-14

Abstract

本发明公开一种面向深度学习的偏见数据平衡方法，包括：筛选数据集中的偏见属性数据为第一样本集；构建决策模型，包括编码器，中间特征层，解码器和分类器，所述编码器对输入样本集降维压缩得到第二样本集，中间特征层对第二样本集进行特征提取得到样本集特征，并将样本集特征分别输入至解码器和分类器，解码器用于基于样本集特征进行决策得到第一决策结果，分类器用于基于带有偏见属性的样本集特征进行决策得到第二决策结果；利用第一样本集训练决策模型，在训练时，通过第一损失函数的正向梯度和第二损失函数的负向梯度的反向传播调整决策模型的参数，训练结束时确定最终决策模型；该方法能够正确客观公正的作出决策。

Description

一种面向深度学习的偏见数据平衡方法及装置

技术领域

本发明属于深度学习领域，具体涉及一种面向深度学习的偏见数据平衡方法及装置。

背景技术

深度学习以人工神经网络研究为基础，通过组合低层特征形成更加抽象的高层表示属性类别或者特征，以发现数据的分布式特征表示。深度学习模型也凭借其所具备的强大的特征提取能力和数据特征拟合能力被广泛应用于人们生产生活的传统以及非传统领域，包括交通调度领域、计算机视觉领域、安防领域、刑事司法领域、自然语言语音处理领域、生物信息领域以及金融领域等。

虽然在实际的生成生活环境下应用深度学习技术可以帮助人们获得更为准确的预测结果以及更强有力的决策支持，但是深度学习领域最新的学术研究表明，由于深度学习模型的整个生命周期和应用过程，包括进行预测以及提供决策建议，高度依赖数据，也即输入进深度学习模型的原始样本数据集会在很大程度上影响深度学习模型的预测结果性能和提供决策建议的可靠性、有效性以及在现实生产生活环境中执行的可行性。

早先就有研究人员发表文章表明，深度学习模型的预测准确度以及所提供的决策建议的可靠性、有效性以及可行性极易受到原始样本数据的影响，也即深度学习模型所使用的原始样本数据集中包含的部分属性所关联的数据样本会在较大程度上影响深度学习模型的预测准确度和提供决策建议的可靠性、有效性以及在现实生产生活环境中执行的可行性。这些对深度学习模型造成较大影响的属性被称为敏感属性，原始样本数据集中存在的带有敏感属性的数据会导致深度学习模型给出错误的预测结果并且提供了错误的决策建议。如果应用于深度学习模型训练的原始样本数据中包含较多关联了偏见属性的数据，那么该深度学习模型训练好后会带有偏见。

导致深度学习模型带有偏见的主要原因是训练深度模型所使用的原始样本数据集中部分数据与偏见属性相关联，导致深度模型在决策时偏向某一敏感属性的特定类。

鉴于深度学习模型存在的容易被原始样本数据误导，导致训练好的深度学习模型带有偏见从而影响决策公平性，研究一种面向深度学习模型的偏见数据平衡方法，帮助深度学习模型做出正确客观公正的决策结果以及助力深度学习技术在人们生产生活中的应用具有极其重要的理论意义和现实意义。

发明内容

本发明提供一种面向深度学习模型的偏见数据平衡方法，该方法能够正确客观公正的作出决策。

一种面向深度学习模型的偏见数据平衡方法，包括：

S1：获得UCI Adult数据集，筛选UCI Adult数据集中的偏见属性数据并标记作为第一样本集；

S2：构建决策模型，包括编码器，中间特征层，解码器和分类器，所述编码器用于对输入样本集降维压缩得到第二样本集，中间特征层用于对第二样本集进行特征提取得到样本集特征，并将样本集特征分别输入至解码器和分类器，解码器用于基于样本集特征进行决策得到第一决策结果，分类器用于基于带有偏见属性的样本集特征进行决策得到第二决策结果；

S3：利用第一样本集训练决策模型，在训练时，以样本集特征与第一决策结果的二范数的平方作为决策任务的第一损失函数，以样本集特征与第二决策结果的二范数的平方作为去偏见任务的第二损失函数，通过第一损失函数的正向梯度和第二损失函数的负向梯度的反向传播调整决策模型的参数，训练结束时确定最终决策模型；

S4：应用时，将待测数据集输入至决策模型中，经计算得到公正准确的决策结果。

利用分类器的负向梯度和解码器的正向梯度对编码器的反向梯度传播来完成决策模型的参数调整，达到去偏的目的，同时准确高效作出决策判断的目的。

对所述的UCI Adult数据集进行清洗，删除缺失条目，在众多标签中筛选偏见属性标签并进行标记构建第一样本集。

UCI数据集是美国加州大学欧文分校提出的一种适合模式识别和机器学习方向的开源数据集，很多学者选择使用UCI上的数据集来验证自己所提算法的正确性，其中的Adult数据集包括数据量(Number of Instances)或称实例数，表示数据集有多少行数据，具体包括：

属性数(Number of Attributes)：表示数据集每行有多少个特征属性，决定了数据集复杂程度。

属性信息(Attribute Information)：这里介绍了数据集的分类类别，及每个属性表示的意义。例如上图数据集中介绍了成年人收入的两种分类类别：>50K,<＝50K，属性情况：年龄、工作类别、教育程度等14个属性。

是否缺失数据(Missing Values)：这体现了数据集中是否有某些数据缺失，如有缺失，则应特别注意在数据处理时需要补充数据或删除无效数据。

属性类型(Attribute Characteristics)：一般有Categorical(类别型),Integer(整数型),Real(实数型)这三种。值得注意的是，如果这一栏中有Categorical型表示该数据集中可能会包含字符串，处理数据时需要用对应数字代替。

所述的解码器解压得到的解压数据与第一样本集进行比较，通过反向传播误差确定决策模型中的分类器和解码器的权重。

所述的第一损失函数为：

Loss_m1＝||x'-x||²

所述的第二损失函数为

Loss_m2＝||x'-S||²

其中，x'为样本集特征，x为第一决策结果，S为第二决策结果，对第一损失函数进行正向梯度以准确预测结果，对第二损失函数进行反向梯度以达到模型去偏目的。

所述的第一损失函数的正向梯度为：

所述的第二损失函数的负向梯度为：

所述的决策模型的总体梯度为：

w_D为解码器的权重，w_C为分类器的权重。

对解码器的损失函数正向梯度，使得损失函数最终收敛，使得决策模型能够高效的作出决策，对分类器的损失函数负向梯度，使得损失函数不再收敛，使得决策模型能够避免偏见属性对最终决策的影响，提供决策结果的准确性。

将第二样本集输入中间特征层之前，通过引入线性因子，基于偏见属性的类别数量比例，对第二样本集中的偏见属性的类别数量进行平衡。

对第二样本集中的偏见属性的类别数量进行平衡的线性组合式为：

其中，α和β均为线性因子，α和β均为大于0且小于1的值，且α+β＝1，h(·)为第二样本集，A为偏见属性，偏见属性A的分类数量分别记为m和n，α和β的取值比例设为n:m，且对n和m进行归一化，以满足n+m＝1。

通过平衡偏见属性的类别数量为分类器能够更为有效的判断偏见属性对最终决策的影响。

一种面向深度学习的偏见数据平衡装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，所述计算机存储器中采用权利要求1-7所述的面向深度学习的偏见数据平衡方法构建决策模型；

所述计算机处理器执行所述计算机程序时实现以下步骤：

将待测样本输入至决策模型中，经计算得到准确的决策结果。

与现有技术相比，本发明的有益效果为：

对分类器引入反向传播的负梯度，对解码器部分引入正向传播的正梯度，在中间特征层进行对抗优化使得预测结果更加精准，同时在中间特征层对特征层数据进行线性组合以平衡原始样本数据中存在的类不平衡问题，本发明提供的方法可以针对引起深度模型带有偏见的敏感属性原因和数据类别不平衡的原因同时进行优化以消除偏见。

附图说明

图1为本发明实施例提供的面向深度学习的偏见数据平衡器的流程示意图；

图2为本发明实施例提供的偏见数据平衡器工作流程图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

为了解决由于用于训练深度学习模型所使用的原始样本数据集中存在的与敏感属性相关联的数据以及敏感属性数据类别不平衡问题，从而导致深度学习模型带有偏见，并且在决策时做出了错误的决策并且给出了不合不可靠地误导决策者决策建议，以及损害深度学习模型的公平性等问题。本实施例提供了一种面向深度学习的偏见数据平衡器，如图1所示，该面向深度学习的偏见数据平衡器方法包括以下步骤：

(1)定义深度学习模型带有偏见的行为：

在本发明中，将深度学习模型进行学习以及学习完成后进行推理时遇到的原始样本数据集中带有敏感属性数据以及敏感数据类别不平衡问题，从而导致深度学习模型做出带有不准确的决策结果，给出带有偏见的决策建议、损害社会公平正义的行为定义为深度学习模型带有偏见。

(2)定义深度学习模型的公平性：

在本发明中，将深度学习模型进行学习以及学习完成后进行推理做出决策时，其决策结果不受到任何敏感属性的影响的状态定义为该深度学习模型是公平的。其中，敏感属性也称为引起偏见的属性，偏见属性可能会引起决策偏见。

(3)数据集的准备和构建：

本实施例选择一个带有多标签分类并且带有敏感属性数据的数据集，比如UCIAdult数据集，将该数据集中众多标签中其中一个偏见属性标签S作为敏感属性标签。另外在该数据集中的其他标签选择一个或者多个多为任务标签，该任务标签可以是年收入等，对数据集进行预处理，删除缺失条目，构建原始样本数据集。

(4)损失函数的定义和梯度的计算：

如图2所示，构建决策模型，包括编码器，中间特征层，解码器和分类器，所述编码器用于对输入样本集降维压缩得到第二样本集，中间特征层用于对第二样本集进行特征提取得到样本集特征，并将样本集特征分别输入至解码器和分类器，解码器用于基于样本集特征进行决策得到第一决策结果，分类器用于基于带有偏见属性的样本集特征进行决策得到第二决策结果；

利用第一样本集训练决策模型，在训练时，以样本集特征与第一决策结果的二范数的平方作为决策任务的第一损失函数，以样本集特征与第二决策结果的二范数的平方作为去偏见任务的第二损失函数，通过第一损失函数的正向梯度和第二损失函数的负向梯度的反向传播调整决策模型的参数，训练结束时确定最终决策模型；

所述的第一损失函数为：

Loss_m1＝||x'-x||²

所述的第二损失函数为

Loss_m2＝||x'-S||²

所述的第一损失函数的正向梯度为：

所述的第二损失函数的负向梯度为：

所述的决策模型的总体梯度为：

w_D为解码器的权重，w_C为分类器的权重。

(5)消除类别不平衡

导致深度学习模型带有偏见的原因中，除了偏见属性引起深度模型带有偏见外，原始样本数据中敏感属性数据的类不平衡问题也会导致深度学习模型带有偏见。例如，一个应用于安防领域的进行身份认证的人脸识别系统，在模型搭建初期，开发者会将大量的人脸照片样本输入进模型进行训练，这些人脸照片应该包含各色人种的照片，如果用于训练该人脸识别深度模型的数据集中包含了较多的男性照片样本，但是基本上没有女性照片样本，在训练完成后，进行测试的时候，该深度模型对男性照片的识别成功率会显著高于女性照片的识别成功率，也即该深度模型不准确，在现实场景中该现象已经反映出人脸识别系统具有不准确问题。本步骤针对这一类别不平衡问题进行数据调整以消除类别不平衡。

引入一对线性因子α和β，将从中间特征层中获取的经过了压缩的原始数据记为h(x)，将某一敏感属性特征设为A，假设该敏感属性变量A为布尔类型，将分类分别记为m和n，则

代表敏感属性A的数据中其中一种类型的数据，

代表敏感属性A的数据中另外一种类型的数据。那么消除类别不平衡的线性组合表示为

其中，线性因子α和β均为大于0且小于1的值，并且满足α+β＝1，同时，为了使得效果明显，线性因子α和β中的任意一个都不能取过小的值，一般地，线性因子α和β的取值比例满足原始样本数据集中同一敏感属性的两个对应类别的反比，例如在原始样本数据中，敏感属性A的两个对立类别数量之比分别为m和n，那么线性因子α和β的取值比例可以设为n:m，同时对n和m进行归一化，以满足n+m＝1的关系。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种面向深度学习的偏见数据平衡方法，其特征在于，包括：

S1：获得数据集，筛选数据集中的偏见属性数据并标记作为第一样本集；

S4：应用时，将待测样本输入至决策模型中，经计算得到决策结果。

2.根据权利要求1所述的面向深度学习的偏见数据平衡方法，其特征在于，对所述的数据集为UCI Adult数据集，对UCI Adult数据集进行清洗，删除缺失条目，在众多标签中筛选偏见属性标签并进行标记构建第一样本集。

3.根据权利要求1所述的面向深度学习的偏见数据平衡方法，其特征在于，所述的解码器解压得到的解压数据与第一样本集进行比较，通过反向传播误差确定决策模型中的分类器和解码器的权重。

4.根据权利要求1所述的面向深度学习的偏见数据平衡方法，其特征在于，所述的第一损失函数为：

Loss_m1＝||x'-x||²

所述的第二损失函数为

Loss_m2＝||x'-S||²

5.根据权利要求2所述的面向深度学习的偏见数据平衡方法，其特征在于，所述的第一损失函数的正向梯度为：

所述的第二损失函数的负向梯度为：

所述的决策模型的总体梯度为：

w_D为解码器的权重，w_C为分类器的权重。

6.根据权利要求1所述的面向深度学习的偏见数据平衡方法，其特征在于，将第二样本集输入中间特征层之前，通过引入线性因子，基于偏见属性的类别数量比例，对第二样本集中的偏见属性的类别数量进行平衡。

7.根据权利要求6所述的面向深度学习的偏见数据平衡方法，其特征在于，对第二样本集中的偏见属性的类别数量进行平衡的线性组合式为：

8.一种面向深度学习的偏见数据平衡装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，其特征在于，所述计算机存储器中采用权利要求1-7所述的面向深度学习的偏见数据平衡方法构建决策模型；

所述算机处理器执行所述计算机程序时实现以下步骤：

将待测样本输入至决策模型中，经计算得到决策结果。