CN114492830A

CN114492830A - 基于个体歧视实例对生成的深度学习模型去偏方法及其装置

Info

Publication number: CN114492830A
Application number: CN202111547264.5A
Authority: CN
Inventors: 陈晋音; 李秦峰; 陈治清; 赵云波
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-12-16
Filing date: 2021-12-16
Publication date: 2022-05-13

Abstract

本发明公开了一种基于个体实例对的深度学习模型去偏方法，通过定义深度学习模型偏见，选择原始数据集，进行数据预处理，生成个体歧视实例对，定义偏见指标函数，构建深度学习鲁棒性模型，将个体歧视实例对输入深度学习鲁棒性模型进行微调训练。本发明方法通过一种新的个体实例对生成的数据增强的方法解决了深度学习模型的公平性问题。本发明定义了一种新的偏见指标函数克服了现有评价指标对不同数据集具有功能不通用问题的缺陷，即单独使用某一偏见指标针对多个不同数据集的衡量结果可能不具有评判性。本发明提出了一种新的将对抗训练融入到微调训练中的方式，可以通过微小的再训练量达到较好的去偏效果。

Description

基于个体歧视实例对生成的深度学习模型去偏方法及其装置

技术领域

本发明涉及深度学习模型的偏见问题领域，尤其涉及一种基于个体实例对的深度学习模型去偏方法。

背景技术

深度学习模型拥有强大的学习样本数据集内在函数规律和分析抽象化特征的能力，在很多领域辅助人们做出决策并给很多复杂的识别以及分类问题提供了解决方案。深度学习技术已经被广泛应用在图像识别、语音识别和自然语言处理等诸多领域，其中以图像识别领域应用最早、最为成熟。Alex Krizhevsky等人在2012年设计了一个名为“AlexNet”的大型卷积神经网络，该神经网络以出色的性能赢得了当年举办的ILSVRC比赛。2013年，OverFeat的提出实现了识别、定位和检测可以共用一个网络结构，并获得了13年ILSVRC比赛的冠军。 2014年到2017年，随着GoogLeNet、ResNet、SENet等网络的提出，深度学习网络对于图像的分析理解能力已经可以跟人类相当甚至超越人类。

深度学习技术在许多领域以及取得了最先进的性能，但同时，模型的鲁棒性问题逐渐被学术界和业界所重视。2014年，Szegedy等人发现，深度学习模型存在天然的缺陷，容易受到被恶意设计的对抗样本的攻击。随后几年里，科研人员针对深度学习模型对抗攻防展开了研究，提出了一系列的攻击和防御方法。近来，科研人员发现，深度学习模型有放大属性偏见的风险，这主要是由于模型将预测任务与部分属性过度关联。例如，人脸识别算法对于肤色较深的女性预测结果不利。这些问题受到了学术界的普遍关注，研究人员提出了许多评估和改善模型公平性的方案。尽管如此，深度学习鲁棒性问题对于我们来说仍然是一个挑战，因为深度学习模型通常被认为是一个黑盒子，其中间结构表示是不透明、难以理解的。因此，深度学习模型存在的鲁棒性问题不仅会加剧社会不公平，还会引起不必要的安全事故。

发明内容

为了解决深度学习模型现有的偏见问题，本发明先提供了一种基于个体实例对的深度学习模型去偏方法，提出了一种可解释的、系统的、可扩展的公平性测试方法对深度模型进行偏见测试，并提出一种针对模型公平性的统一评价标准。

为实现上述发明目的，本发明提供以下技术方案：本发明提供了一种基于个体实例对的深度学习模型去偏方法，包括以下步骤：

(1)查找数据集中的个体歧视实例对，定义深度学习模型偏见；

(2)选择原始数据集，并利用one-hot编码进行数据预处理；

(3)通过偏见神经元查找、全局搜索和局部搜索生成个体歧视实例对；

(4)定义偏见指标函数；

(5)构建深度学习鲁棒性模型，通过微调训练法将步骤(3)得到的个体歧视实例对输入深度学习鲁棒性模型进行去偏训练，并利用步骤(4)设定的偏见指标函数衡量模型的偏见程度。

本发明的有益效果为：本发明方法通过一种新的个体实例对生成的数据增强的方法解决了深度学习模型的公平性问题。本发明定义了一种新的偏见指标函数克服了现有评价指标对不同数据集具有功能不通用问题的缺陷，即单独使用某一偏见指标针对多个不同数据集的衡量结果可能不具有评判性。本发明提出了一种新的将对抗训练融入到微调训练中的方式，可以通过微小的再训练量达到较好的去偏效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1为本发明示例提供的基于DF-BN算法的模型去偏方法流程图；

图2为DF-BN的算法框图。

具体实施方式

下为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

为了解决由于深度学习模型存在偏见问题导致的分类结果不准确的问题。本实施例提供了一种基于个体实例对的深度学习模型去偏方法，如图1所示，该基于数据样本增强的深度学习模型去偏方法包括以下步骤：

(1)查找数据集中的个体歧视实例对，定义深度学习模型偏见。

针对分类任务，将把分类模型在做出决策时，受到无关但敏感特征的影响，并且其决策可能会会依赖于这种错误的特征关联的现象定义为模型的偏见行为。

在本发明实施例中主要研究DNN模型的个体公平，即要求相似的个体必须获得相同的结果。将X和Y表示为数据集及其值域，将A和x_A表示为数据集X的敏感属性及其具体数值，如光线、性别、颜色等，将NA和x_NA表示为数据集X的非敏感属性及其具体数值。对于给定的DNN模型θ和样本实例x，若存在另一个样本实例x′满足x_A≠x′_A，x_NA＝x′_NA，θ(x)≠θ(x′)，则称(x,x′)为DNN模型θ的个体歧视实例对，x和x′都是个体歧视实例，称 DNN模型θ存在个体歧视行为。若DNN模型θ在数据集值域内存在越多的个体歧视实例对，则表示该模型个体公平越低。

(2)数据集准备及预处理。

(2.1)采用adult数据集作为初始样本集：

本实施例选择带有敏感特征的数据集作为初始样本集，将其中一个偏见标签B作为偏见特征，例如性别特征。本发明实施例采用adult数据集作为本发明方法的目标域数据集。所述 adult数据集是UCI数据库中的人口普查数据集，是由Barry Becker从1994年的人口普查数据库中进行的预测任务是确定一个人的年收入是否超过50K。adult数据集包含48842个人员的样本信息，每个个体的样本属性包括现有年龄、工作类别、教育程度等，样本属性中还包括敏感属性，例如，属性10为性别。adult数据集用14个特征来对每个个体进行描述，从而预测一个人的年收入是否超过50K。

然而，经过调查研究发现，adult数据集中对性别这一敏感属性存在偏见，其中男性相比女性而言更容易被归类为“高收入”人群。

(2.2)数据集预处理：

adult数据集拥有14个特征属性，为了保证模型可以充分提取数据的特征的同时减弱除性别外其它敏感特征的影响，对数据的'workclass','education', 'marital-status','occupation','relationship','race','native-country','sex'属性进行one-hot编码扩充，获取对应的类别标签序列。并对其他属性进行保留，以此达到突出目标属性，减弱其它属性对敏感属性的影响的目的，本发明中，将会着重使用one-hot编码扩充之后的数据集，本实例中记作D。将D划分为训练集和测试集。

本发明采用one-hot编码对数据集的分类、敏感属性等重要部分进行提取，对种族、年龄等其它常用敏感属性进行削弱。产生的样本数据集为D。

Adult数据集由40000多个样本构成，本发明实施例以5：1的比例划分训练集和测试集。

(3)个体歧视实例对生成算法(DF-BN)

为了测试给定DNN模型θ的个体公平性能，需要设计算法来有效地搜索数据集值域内存在越多的个体歧视实例对。本发明提出了一种基于偏见神经元快速生成个体歧视实例对的方法(Discrimination Finder via Biased Neurons，简称DF-BN)。

所述DF-BN主要由一个准备阶段和两个搜索阶段组成，即偏见神经元查找阶段、全局搜索阶段以及局部搜索阶段，如图2所示。在偏见神经元查找阶段中，本发明的目的是在DNN 模型中间特征层上找到对样本敏感属性过于敏感的偏见神经元。在全局搜索阶段中，本发明的目标是从训练数据集X中的样本附近找到个体歧视实例，由于训练数据集X中的样本分布范围较广，与实际数据分布一致，因此找到的个体歧视实例多样性更好，能有效代表模型的个体公平程度，最后将找到的个体歧视实例作为种子数据输入到局部搜索阶段中。在局部搜索阶段中，本发明试图在全局搜索阶段中找的种子数据附近找到更多的个体歧视实例，这是因为种子数据附近存在个体歧视实例的概率较大。

(3.1)偏见神经元查找

认为DNN模型θ存在个体歧视行为的一个重要原因是模型内部特征层上的部分神经元在训练过程中过于关注样本的敏感属性。对于满足x_A≠x′_A，x_NA＝x′_NA的样本实例对(x,x′)，这些神经元对于这两个样本的激活值输出值差异较大，将这些神经元称为偏见神经元。

在查找偏见神经元时，首先通过改变敏感属性获得训练数据集X中每个样本的实例对 (x,x′)，再分别将实例对输入到DNN模型θ中，并观察中间特征层上各个神经元的激活值差异，最后将激活差异值进行大到小排序，并取前50％的神经元作为偏见神经元。本发明主要研究中间特征层上的神经元的原因是在反向计算梯度时中间层耗时较短且搜索到个体歧视实例的可能性更大。

定义特征层神经元权重向量tfw为长度等于特征层神经元数量的一维向量，令tfw中索引对应特征层上偏见神经元的数值为1，其余置零，最后将tfw作为全局搜索阶段的参数输入。

(3.2)全局搜索

全局搜索阶段主要由数据集聚类、偏见损失计算、扰动叠加等部分组成，得到个体歧视实例，具体包括以下子步骤：

(3.2.1)首先定义一个空的不重复集合g_id，用于存放全局搜索阶段找到的个体歧视实例。

(3.2.2)使用K-Means聚类算法对初始样本集聚类成c_num个簇。然后以循环的方式从每个簇中获取种子实例，其中，定义g_num是全局搜索过程中要搜索的种子实例的数量。我们采用聚类的目的是提高种子的多样性，从而使搜索到的个体歧视实例分布范围更广。

(3.2.3)定义max_iter是全局搜索过程中每个样本的最大迭代次数，首先根据个体歧视实例的定义，通过逐一改变敏感属性值的方式来检查样本x是否是一个个体歧视实例，如果是，将个体歧视实例对(x,x′)添加到集合g_id中，并结束本次样本的全局搜索；如果不是，将在偏见神经元的指导下在样本x上添加扰动以便最大可能获得个体歧视实例。

具体地，针对样本x不是一个个体歧视实例的情况：

针对个体歧视实例对定义了偏见损失函数：

其中S_k(x)表示θ中第k层所有神经元的激活值经过Tanh函数输出，tfw是步骤(3.1) 定义的偏见神经元查找阶段中定义的特征层神经元权重向量，log是对数函数，mean是向量求均值函数。

并针对损失函数采用动量梯度的方式更新梯度：

对两个梯度求和并取符号作为梯度更新方向，令敏感属性维度的梯度值为零。对样本实例x添加扰动，添加扰动的目的是使样本实例对(x,x′)在特征层上偏见神经元的激活值差异最大化，从而使样本实例对(x,x′)最大可能成为个体歧视实例对。最后判断添加扰动后的样本是否与(p-2)次的样本重复，p为当前添加扰动的次数，如果是则在样本实例x上再添加一个随机扰动，计算公式如下：

x＝x+random_dir()·s_g

其中random_dir()函数产生一个形状与x相同，其中s_g表示扰动步长，除敏感属性维度值为零，其他属性维度值为{-1,0,1}中任一值随机值。添加随机扰动的目的是为了避免搜索陷入局部最优。

(3.3)局部搜索

局部搜索阶段是将全局搜索阶段中找到的个体歧视实例作为输入，并在这些事例的周围空间里搜索更多的个体歧视实例，这样做的原因是对于DNN模型，两个相似的实例在DNN 的输出中往往也是相似的。本发明希望在局部搜索阶段找到尽可能多的个体歧视实例，以下为局部搜索阶段各个部分的实现细节。

(3.3.1)定义一个空的不重复集合l_id，以遍历的方式从步骤(3.2.3)保存的g_id中获得一对个体歧视实例对(x,x′)，并定义局部搜索过程中要搜索的种子实例的数量。

(3.3.2)以与全局搜索阶段计算偏见损失和梯度相同的方式对两个梯度求和并取绝对值并取倒数，再经过Softmax函数得到概率p，计算公式如下：

p＝Softmax(|grad+grad′|^-1)

其中Softmax函数计算公式如下：

(3.3.3)根据概率p在样本实例x上随机选取一个非敏感属性f，以[0.5,0.5]的概率随机选择扰动方向[-1,1]。仅在样本实例x的属性f上以步长为s_l添加扰动。

算例分析；本发明实施例中将原始训练数据集通过聚类算法分为4个簇，再以循环的方式从每个簇中依次选择一个种子样本。首先选择的种子样本x如下，并且它不是单独的个体歧视实例。

x:[4,1,9,13,0,5,2,0,1,0,19,60,0]

我们仅通过翻转种子样本x的敏感属性获得x′(本例中，敏感属性用加粗斜体字表示，1 代表男性，0代表女性)，它与x仅有敏感属性不同。

x′:[4,1,9,13,0,5,2,0,0,0,19,60,0]

可以发现，x与x′在模型的预测结果均为收入大于50k。然后根据偏见损失函数在两个实例的梯度符号确定扰动方向，如下所示。

Δ_bias:[-1,1,-1,-1,1,1,1,1,0,1,-1,-1,1]

其中，0表示不应该改变相应的属性；-1表示减小相应的属性值，1表示增大相应的属性值。接下来我们同时对x和x′进行相应的扰动，结果如下：

x:[3,2,8,12,1,6,3,1,1,1,18,59,1]

x′:[4,1,9,13,0,5,2,0,0,0,19,60,0]

可以发现，此时，新的x预测结果为收入大于50k，但新的x′在模型的预测结果为收入小于50k，结果显示x为一个个体歧视实例，x和x′构成一对个体歧视实例对。

(4)定义偏见指标函数，具体为：

本发明中采用偏见指标来评判模型及样本的偏见程度，用来检测模型的偏见程度，用于检验去偏效果。根据相关领域常用的3个偏见指标函数设计一个新的偏见指标函数F(d)，其中以数据集d作为函数的自变量。F(d)具有在不同数据集均有使用价值的优点，克服了现有评价指标对不同数据集具有功能不通用问题的缺陷，即单独使用某一偏见指标针对多个不同数据集的衡量结果可能不具有评判性。现有的常用偏见指标如下：

(4.1)Disparate impact(差异影响)

该定义在从数学上代表不同影响的法理概念。这要求两组的正例预测率之间有较高的比率。这确保了各组中积极预测的比率是相似的。例如，如果一个积极的预测代表收入较高，该条件要求接受的申请人的比率在不同群体中是相近的。其数学计算公式如下：

其中，S表示受保护的属性(如性别)，S＝1为特权组，S≠1为非特权组。

表示预测为正。注意到，

如果代表接受(例如，对一份工作)，那么条件要求不同组的接受率是相近的。该指标的值越高，代表不同群体的比率越相似，因此也就越公平。

(4.2)Demographic parity(人口统计平等)

人口统计平等的衡量方法类似于差异影响方法，但该方法采用的是差异而不是比率。这种方法通常也被称为统计奇偶性。其数学计算公式如下：

该度量值越低，表明接受率越相似，因此公平性越好。

(4.3)Equal opportunity(机会平等)

机会平等要求真正例率(TPRs)在不同组之间是相似的(意味着一个个体有一个积极的结果大概率对应一个积极的预测)。这种方法类似于均等赔率，但只关注真正例率。其数学计算公式如下：

当一个预测器满足下式则认为是满足机会均等的：

P{H(x_i)＝1|y_i＝1,x_i∈S}＝P{H(x_j)＝1|y_j＝1,x_j∈X\S}(4)

设X代表一组个体，S代表群组。对于一个个体x_i∈X，让它成为要预测的真实结果(或标号)。一个预测因子可以用一个映射H:X→Y从总体X到结果Y的集合来表示，这样H(x_i)就是个体x_i的预测结果。i和j表示两个个体。

(4.4)定义偏见函数F(d)

将以上3个偏见指标进行改进融合，合成统计概率偏见函数F(d)，具体表达式为：

当F(d)越小说明数据的公平性越好，本发明将用F(d)作为衡量数据集偏见程度指标。

若用F衡量模型的偏见指标，则将公式中的y改为

即用模型的预测值作为分类进行公平性分析。

(5)深度学习鲁棒性模型构建：

我们将构建一个鲁棒性模型，该模型能够从数据中准确地捕捉那些对下游任务有用的信息，而不会过度关注于无用的敏感信息使得模型对个体样本存在歧视性。所述步骤(3)中主要在DNN模型内部神经元的偏见损失指导下快速生成大量有效的个体歧视样本，因此，对于构建鲁棒的公平模型的一个简单的思路是利用对抗训练的思想，将DF-BN算法生成的测试样本(即个体歧视实例)添加到训练集中对模型进行微调训练。

(5.1)构建深度学习模型：

构建一个深度学习模型并使用常规方法对模型进行训练，本实施例中，构建的有深度学习模型包括特征提取器和第分类器两部分，其中特征提取器采用3个线性层，激活函数采用 Relu函数，分类器采用2个全连接层构成的网络。利用原始数据集的训练集训练深度学习模型，并用测试集对深度学习模型进行测试优化，使深度学习模型达到预设的识别准确率。

(5.2)微调训练：

根据对抗训练的思想，可以通过使用生成的测试样本来扩充训练数据集，并对模型进行微调训练来提高模型的公平性，这在ADF等文章中已经被证明是可行的。为了评估DF-BN 所生成的测试样本的有效性和改善模型的公平性，本文将生成的测试样本添加到训练数据集来实现这一点。

(5.3)模型偏见程度测试：

将E中的测试集输入模型，测试模型预测准确率，使用步骤(4)中设计的偏见程度指标衡量模型的偏见程度。若准确率和偏见程度达到预设值则结束，否则再进行步骤(5.2)对模型进行再训练。

所述步骤(3)中的个体歧视实例对生成算法DF-BN可以有效地生成测试样本，而且生成的测试样本的数量规模通常很大。微调再训练模型的一种简单方法是将所有生成的测试样本输入添加到训练数据集。这样的方法可能无法较好地提高模型的公平性。这是因为生成的测试样本的目标是个体歧视实例，不太可能遵循训练数据的真实分布。因此，盲目地将所有的测试样本加到训练集中，会使它的分布偏向于我们生成的测试样本的分布。为了最大程度提高模型的公平性，只向训练数据集添加部分测试样本。

微调训练存在的第二个问题是对于生成的测试样本数据的类别标记。我们发现有许多有效的战略来解决这个问题。其中一种策略是通过分类器的简单多数来找到标签。多数表决已经被证明对很多问题都是非常有效的，同时ADF和AEQUITAS也使用了该方法。

微调训练存在的另一个问题是我们需要一个系统的方法来评价一个给定模型的公平性。本文采用AEQUITAS中提出并使用的方法。其思想是随机抽取大量的实例，并通过该集合中个别歧视实例的百分比来评估模型的公平性。

最后，通过比较微调训练前后模型的公平性来评估微调训练方法的有效性，同时使用 AEQUITAS和ADF生成的测试样本进行微调训练后的模型进行去偏效果比较。

本文中，微调训练是随机选择生成的个体歧视实例的5％进行数据增强和再训练，并重复这个过程5次计算平均值，以避免随机性的影响。

每次迭代过后使用步骤5中定义的偏见指标函数衡量模型的偏见程度，若偏见程度达到设定值则结束迭代结束算法。

综上，本发明方法通过一种新的数据增强的方法解决了深度学习模型的公平性问题。本发明定义了一种新的偏见指标函数克服了现有评价指标对不同数据集具有功能不通用问题的缺陷，即单独使用某一偏见指标针对多个不同数据集的衡量结果可能不具有评判性。本发明提出了一种新的将对抗训练融入到微调训练中的方式，可以通过微小的再训练量达到较好的去偏效果。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于个体实例对的深度学习模型去偏方法，其特征在于，具体包括以下步骤：

(1)首先查找数据集中的个体歧视实例对，并定义深度学习模型偏见；

(2)选择原始数据集，并利用one-hot编码对原始数据集进行数据预处理；

(4)定义偏见指标函数；

2.根据权利要求1所述的基于个体实例对的深度学习模型去偏方法，其特征在于，所述个体歧视实例对具体为：将X和Y表示为数据集及其值域，将A和x_A表示为数据集X的敏感属性及其数值；将NA和x_NA表示为数据集X的非敏感属性及其数值；对于给定的DNN模型θ和样本实例x，若存在另一个样本实例x′满足x_A≠x′_A，x_NA＝x′_NA，θ(x)≠θ(x′)，则称(x,x′)为DNN模型θ的个体歧视实例对，x和x′都是个体歧视实例。

3.根据权利要求1所述的方法，其特征在于，所述步骤(2)具体为：所述初始样本集优选为adult数据集；再对初始样本集的敏感属性进行one-hot编码扩充，获取对应的类别标签序列，并对其他属性进行保留。

4.根据权利要求1所述的方法，其特征在于，所述步骤(3)具体包括以下子步骤：

(3.1)查找偏见神经元：首先通过改变敏感属性获得原始数据集中每个样本的个体歧视实例对，再分别将个体歧视实例对输入到DNN模型中，并观察中间特征层上各个神经元的激活值差异，最后将激活差异值进行大到小排序，并取前50％的神经元作为偏见神经元；

(3.2)全局搜索：通过数据集聚类、偏见损失计算、扰动叠加得到个体歧视实例；

(3.3)局部搜索：将步骤(3.2)得到的个体歧视实例作为输入，并在其周围空间里搜索更多的个体歧视实例，得到最终的个体歧视实例对。

5.根据权利要求3所述的方法，其特征在于，所述步骤(3.2)具体包括以下子步骤：

(3.2.1)定义一个空的不重复集合g_id，用于存放全局搜索阶段找到的个体歧视实例；

(3.2.2)使用K-Means聚类算法对原始数据集聚类成c_num个簇；然后以循环的方式从每个簇中获取种子实例，并定义g_num是全局搜索过程中要搜索的种子实例的数量；

(3.2.3)定义max_iter是全局搜索过程中每个样本的最大迭代次数，首先根据个体歧视实例的定义，通过逐一改变敏感属性值来检查样本x是否是一个个体歧视实例；如果是，则将个体歧视实例对(x,x′)添加到步骤(3.2.1)定义的集合g_id中，并结束本次样本的全局搜索；如果不是，则依据偏见神经元在样本x上添加扰动以获得个体歧视实例。

6.根据权利要求5所述的方法，其特征在于，所述步骤(3.2.3)中样本x不是一个个体歧视实例具体为：

针对个体歧视实例对定义偏见损失函数：