CN114298192A

CN114298192A - 基于偏见样本对生成的深度学习模型去偏方法

Info

Publication number: CN114298192A
Application number: CN202111568959.1A
Authority: CN
Inventors: 徐禹昕; 齐婉婷; 单沛婷; 邢航; 陶沁哲
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2022-04-08

Abstract

一种基于偏见样本对生成的深度学习模型去偏方法，包括以下步骤：1)深度学习模型偏见的定义；2)数据预处理；3)定义偏见指标函数；4)：构建的深度学习模型包括第一特征提取器和第一分类器两部分，利用数据集对模型进行训练，使模型达到预设精度；5)对模型进行偏见程度检测：利用模型对测试集的输出和偏见指标函数F测试模型的偏见程度并记录；6)数据增强：利用偏见指标函数对偏见样本进行初步划分，通过模糊样本划分法排除假性偏见样本，通过FLIP方法完成数据增强的过程；7)利用FLIP样本对对有偏见的深度学习模型进行微调训练去偏，对训练后的模型进行检验，判断其偏见程度是否达到要求。本发明有效提升模型的公平性。

Description

基于偏见样本对生成的深度学习模型去偏方法

技术领域

本发明涉及面向深度学习模型的偏见问题的一种基于偏见样本对生成的深度学习模型去偏方法，应用于个人收入预测、银行借贷信用评估和监狱服刑人员出狱资格评估等。

背景技术

近年来，随着深度学习模型相关技术的发展，越来越多的领域开始使用深度学习模型，深度学习技术也在越来越多的领域取得了最先进的性能，但同时，深度学习模型的安全性问题也成为了学术界讨论的重点。

2014年，Szegedy等人发现，深度学习模型容易受到被恶意设计的样本的攻击，从而产生缺陷，引发模型的安全性问题。随后的时间内，学术界针对深度学习模型的安全性展开了系统性研究，并提出了一系列的提升深度学习模型安全性的方法，深度学习模型的公平性也是模型安全性的一个重要分支。

从深度学习的公平性层面出发，近年来科研人员发现，深度学习模型有对属性产生偏见的风险，这主要是由于模型训练过程中，由于数据集被恶意修改，导致模型将预测任务与部分敏感属性产生了过度的关联，从而导致模型对部分敏感属性产生过度的关联，引发深度学习模型的偏见性问题。

鉴于深度学习模型可能在未来担任越来越多的相关方面的分类任务，并且目前的深度学习模型所存在的公平性的问题存在被恶意利用的可能，因此，发明一种解决深度学习模型公平性问题的方法非常必要。

发明内容

为了克服已有技术的不足，为了解决深度学习模型现有的偏见问题，本发明提出一种基于偏见样本对生成的深度学习模型去偏方法，基于模糊偏见样本划分、FLIP样本对生成和微调训练去偏，可以有效解决目前深度学习模型所存在的公平性问题；提出了一种可解释的、系统的、可扩展的针对数据集和模型都适用的公平性测试指标，根据通过微调训练的方式有效提升模型的公平性。

本发明解决其技术问题所采用的技术方案是：

一种基于偏见样本对生成的深度学习模型去偏方法，包括以下步骤：

1)深度学习模型偏见的定义：针对分类任务，将把分类模型在做出决策时，受到敏感特征的过度影响，并且其决策可能会依赖于这种错误的特征关联的现象定义为模型的偏见行为；

2)数据预处理，过程如下：

(2.1)采用adult数据集作为原始数据集：

(2.2)数据集提取：采用one-hot编码对数据集的分类、敏感属性等重要部分进行提取，对种族、年龄等其它常用敏感属性进行削弱，产生的样本数据集为D；

3)定义偏见指标函数：

定义了一个指标函数F(d)，提高了指标函数的鲁棒性；

4)有偏见模型的训练：构建的有深度学习模型包括第一特征提取器和第一分类器两部分，利用数据集对模型进行训练，使模型达到预设精度；

5)对模型进行偏见程度检测：利用模型对测试集的输出和偏见指标函数F测试模型的偏见程度并记录；

6)数据增强：利用偏见指标函数对偏见样本进行初步划分，之后通过模糊样本划分法排除假性偏见样本，最后通过FLIP方法完成数据增强的过程；

7)深度学习鲁棒性模型构建：利用FLIP样本对对有偏见的深度学习模型进行微调训练去偏。对训练后的模型进行检验，判断其偏见程度是否达到要求。

进一步，所述步骤1)中，将X和Y表示为数据集及其值域，将 A和x_A表示为数据集X的敏感属性及其数值，将NA和x_NA表示为数据集X的非敏感属性及其数值；对于给定的DNN模型θ和样本实例x，若存在另一个样本实例x′满足x_A≠x′_A，x_NA＝x′_NA，θ(x)≠θ(x′)，则称(x,x′)为DNN模型θ的个体歧视实例对，x和x′都是个体歧视实例，称DNN模型θ存在个体歧视行为；若DNN模型θ在数据集值域内存在越多的个体歧视实例对，则表示该模型个体公平越低。

再进一步，所述(2.2)中，adult数据集拥有14个特征属性，为了保证模型可以充分提取数据的特征的同时减弱除性别外其它敏感特征的影响，对数据的'workclass','education','marital-status', 'occupation','relationship','race','native-country','sex'属性进行one-hot编码扩充，获取对应的类别标签序列；并对其他属性进行保留，以此达到突出目标属性，减弱其它属性对敏感属性的影响的目的，将会着重使用one-hot编码扩充之后的数据集，记作D。

更进一步，所述步骤3)的过程如下：

3.1)Disparate impact差异影响

该定义在从数学上代表不同影响的法理概念，这要求两组的正例预测率之间有较高的比率，这确保了各组中积极预测的比率是相似的，数学计算公式如下：

其中S表示受保护的属性，S＝1为特权组，S≠1为非特权组，

表示预测为正，

如果代表接受，那么条件要求不同组的接受率是相近的，该指标的值越高，代表不同群体的比率越相似，因此也就越公平；

3.2)Demographic parity人口统计平等

人口统计平等的衡量方法类似于差异影响方法，但该方法采用的是差异而不是比率。这种方法通常也被称为统计奇偶性。其数学计算公式如下：

该度量值越低，表明接受率越相似，因此公平性越好；

3.3)Equal opportunity机会平等

机会平等要求真正例率TPR在不同组之间是相似的，意味着一个个体有一个积极的结果大概率对应一个积极的预测，其数学计算公式如下：

当一个预测器满足下式则认为是满足机会均等的：

P{H(x_i)＝1|y_i＝1,x_i∈S}＝P{H(x_j)＝1|y_j＝1,x_j∈X\S} (4)

设X代表一组个体，S代表群组，对于一个个体x_i∈X，让它成为要预测的真实结果或标号，一个预测因子可以用一个映射H:X→Y从总体X到结果Y的集合来表示，这样H(x_i)就是个体x_i的预测结果。_i和j 表示两个个体；

3.4)定义偏见函数F(d)

将以上3个偏见指标进行改进融合，合成统计概率偏见函数F(d)，表达式为：

当F(d)越小说明数据的公平性越好，将用F(d)作为衡量数据集偏见程度指标；

若用F衡量模型的偏见指标，则将公式中的y改为

即用模型的预测值作为分类进行公平性分析。

所述步骤4)中，构建的有深度学习模型包括特征提取器和第分类器两部分，其中特征提取器采用3个线性层，激活函数采用Relu函数，分类器采用2个全连接层构成的网络，利用数据集D的训练集训练深度学习模型，训练批次的大小定为100，在训练阶段采用预热学习率策略，优化器采用Adam进行优化，损失函数采用交叉熵的形式，公式如下所示：

L₁＝-[y·log(p)+(1-y)·log(1-p)]

其中y表示样本的lable，罪犯会再次犯罪则为1，罪犯不会再次犯罪则为0，P表示样本预测为再次犯罪的概率；

用测试集对深度学习模型进行测试优化，使深度学习模型达到预设的识别准确率，记模型为M。

所述步骤5)中，将扩充后的数据集D的测试集输入到模型中，保留模型的返回值，利用偏见指标函数F(d)，对模型进行偏见程度分析，记录函数返回值，并将返回值作为模型的偏见程度。

所述步骤6)的过程为：

(6.1)偏见样本初步划分

将数据集D复制一份为D’，翻转D’中敏感属性使得数据集D中的每个元素和D’中的对应元素组成实例样本对，将D和D’输入模型，得到分类结果Y、Y’，同时遍历Y、Y’，当一对实例样本对的分类结果不一致时对当前D中的实例进行打标为偏见样本，加入偏见样本集 S，将此样本所构成的样本对初步划分为偏见样本对；

(6.2)模糊样本划分

取(6.1)中被初步划分为偏见样本对的元素，同时输入到模型中，得到实例样本对的分别分类为正样本的置信度P和P’，对同一对实例样本对的置信度P和P’进行做差，当做差的绝对值小于阈值T时认定样本为模糊样本，将其从偏见样本中剔除；

(6.3)FLIP样本对生成

将偏见样本集S复制一份S’,翻转S’中的敏感属性使得偏见样本集S中的每个元素和S’中的对应元素组成FLIP样本对，以元素逐一添加的方式将S和S’组合成FLIP样本集F_S，使得F_S中FLIP样本对相邻。

所述步骤7)中，使用FLIP样本对对模型进行微调训练去偏，过程如下：

(7.1)微调训练

每一轮迭代中将样本集F_S中的FLIP样本对分别输入模型M进行微调训练，训练批次的大小定为100，优化器采用Adam进行优化。损失函数采用交叉熵的形式，公式如下所示：

L₁＝-[y·log(p)+(1-y)·log(1-p)]

其中y表示样本的lable，罪犯会再次犯罪则为1，罪犯不会再次犯罪则为0。P表示样本预测为再次犯罪的概率；

(7.2)公平性检验

将数据集D中的测试集输入到模型中，利用偏见程度指标F(d) 判断模型偏见程度，若偏见程度未达到要求则再进行步骤(7.2)进行重新训练，偏见程度达到要求则结束。

本发明的有益效果主要表现在：基于模糊偏见样本划分、FLIP样本对生成和微调训练去偏，可以有效解决目前深度学习模型所存在的公平性问题；提出了一种可解释的、系统的、可扩展的针对数据集和模型都适用的公平性测试指标，根据通过微调训练的方式有效提升模型的公平性。

附图说明

图1为本发明示例提供的基于数据增强的模型去偏方法流程图。

图2为本实例中FLIP样本对生成的算法框图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1和图2，一种基于数据增强的深度学习模型去偏方法，本实施例的方法可以应用于个人收入预测、银行借贷信用评估和监狱服刑人员出狱资格评估等；对通过具有敏感属性的数据集训练出来的用于预测的深度学习模型。原本深度学习模型的预测结果可能会在很大程度上受到敏感属性的干扰，但是经过去偏的深度学习模型可以更加公正的得出预测结果，使得在一些比较敏感的领域对于结果更加的人性化。

该基于数据样本增强的深度学习模型去偏方法包括以下步骤：

1)深度学习模型偏见的定义

本方案研究DNN模型的个体公平，即要求相似的个体必须获得相同的结果，将X和Y表示为数据集及其值域，将A和x_A表示为数据集X的敏感属性及其数值，如光线、性别、颜色等，将NA和x_NA表示为数据集X的非敏感属性及其数值；对于给定的DNN模型θ和样本实例x，若存在另一个样本实例x′满足x_A≠x′_A，x_NA＝x′_NA，θ(x)≠θ(x′)，则称(x,x′)为DNN模型θ的个体歧视实例对，x和x′都是个体歧视实例，称DNN模型θ存在个体歧视行为，若DNN模型θ在数据集值域内存在越多的个体歧视实例对，则表示该模型个体公平越低；

2)数据集准备及预处理，过程如下：

2.1)采用adult数据集作为源域数据集：

本实施例选择带有敏感特征的数据集作为初始样本集，将其中一个偏见标签B作为偏见特征，例如性别特征；本发明采用adult数据集作为面向迁移学习的去偏方法的目标域数据集。adult数据集是UCI 数据库中的人口普查数据集，是由Barry Becker从1994年的人口普查数据库中进行的预测任务是确定一个人的年收入是否超过50K；adult 数据集包含48842个人员的样本信息，每个个体的样本属性包括现有年龄、工作类别、教育程度等，样本属性中还包括敏感属性，例如，属性10为性别。adult数据集用14个特征来对每个个体进行描述，从而预测一个人的年收入是否超过50K；

然而，经过调查研究发现，adult数据集中对性别这一敏感属性存在偏见，其中男性相比女性而言更容易被归类为“高收入”人群；

2.2)数据集预处理：

adult数据集拥有14个特征属性，为了保证模型可以充分提取数据的特征的同时减弱除性别外其它敏感特征的影响，对数据的'workclass','education','marital-status','occupation','relationship','race', 'native-country','sex'属性进行one-hot编码扩充，获取对应的类别标签序列。并对其他属性进行保留，以此达到突出目标属性，减弱其它属性对敏感属性的影响的目的，本发明中，将会着重使用one-hot编码扩充之后的数据集，本实例中记作D；

3)定义偏见指标函数

本发明中采用偏见指标来评判模型及样本的偏见程度，根据相关领域常用的3个偏见指标函数设计一个新的偏见指标函数F(d)，其中以数据集d作为函数的自变量，F(d)具有在不同数据集均有使用价值的优点，克服了现有评价指标对不同数据集具有功能不通用问题的缺陷，即单独使用某一偏见指标针对多个不同数据集的衡量结果可能不具有评判性，现有的常用偏见指标如下：

3.1)Disparate impact(差异影响)

该定义在从数学上代表不同影响的法理概念。这要求两组的正例预测率之间有较高的比率，这确保了各组中积极预测的比率是相似的。例如，如果一个积极的预测代表收入较高，该条件要求接受的申请人的比率在不同群体中是相近的。其数学计算公式如下：

其中S表示受保护的属性(如性别)，S＝1为特权组，S≠1为非特权组。

表示预测为正。注意到，

如果代表接受(例如，对一份工作)，那么条件要求不同组的接受率是相近的。该指标的值越高，代表不同群体的比率越相似，因此也就越公平。

3.2)Demographic parity(人口统计平等)

该度量值越低，表明接受率越相似，因此公平性越好。

3.3)Equal opportunity(机会平等)

机会平等要求真正例率(TPRs)在不同组之间是相似的(意味着一个个体有一个积极的结果大概率对应一个积极的预测)。这种方法类似于均等赔率，但只关注真正例率。其数学计算公式如下：

当一个预测器满足下式则认为是满足机会均等的：

P{H(x_i)＝1|y_i＝1,x_i∈S}＝P{H(x_j)＝1|y_j＝1,x_j∈X\S} (4)

设X代表一组个体，S代表群组。对于一个个体x_i∈X，让它成为要预测的真实结果(或标号)。一个预测因子可以用一个映射H:X→Y从总体X到结果Y的集合来表示，这样H(x_i)就是个体x_i的预测结果。i和j 表示两个个体。

3.4)定义偏见函数F(d)

当F(d)越小说明数据的公平性越好，本发明将用F(d)作为衡量数据集偏见程度指标；

若用F衡量模型的偏见指标，则将公式中的y改为

即用模型的预测值作为分类进行公平性分析。

4)有偏见模型的训练：

本实施例中，构建的有深度学习模型包括特征提取器和第分类器两部分，其中特征提取器采用3个线性层，激活函数采用Relu函数，分类器采用2个全连接层构成的网络。利用数据集D的训练集训练深度学习模型，训练批次的大小定为100，在训练阶段采用预热学习率策略，优化器采用Adam进行优化，损失函数采用交叉熵的形式，公式如下所示：

L₁＝-[y·log(p)+(1-y)·log(1-p)]

用测试集对深度学习模型进行测试优化，使深度学习模型达到预设的识别准确率，记模型为M；

5)对模型进行偏见程度检测：

将扩充后的数据集D的测试集输入到模型中，保留模型的返回值，利用偏见指标函数F(d)，对模型进行偏见程度分析，记录函数返回值，并将返回值作为模型的偏见程度；

6)数据增强，过程如下：

(6.1)偏见样本初步划分

(6.2)模糊样本划分

取(6.1)中被初步划分为偏见样本对的元素，同时输入到模型中，得到实例样本对的分别分类为正样本的置信度P和P’，对同一对实例样本对的置信度P和P’进行做差，当做差的绝对值小于阈值T(这里设置T为0.3)时认定样本为模糊样本，将其从偏见样本中剔除；

(6.3)FLIP样本对生成

将偏见样本集S复制一份S’,翻转S’中的敏感属性使得偏见样本集S中的每个元素和S’中的对应元素组成FLIP样本对，以元素逐一添加的方式将S和S’组合成FLIP样本集F_S，使得F_S中FLIP样本对相邻；

7)深度学习鲁棒性模型构建：

之前已经完成了对深度学习模型的初步训练并使得模型识别准确率达到预定标准，本实例中使用FLIP样本对对模型进行微调训练去偏。

(7.1)微调训练

每一轮迭代中将样本集F_S中的FLIP样本对分别输入模型M进行微调训练，训练批次的大小定为100，优化器采用Adam进行优化，损失函数采用交叉熵的形式，公式如下所示：

L₁＝-[y·log(p)+(1-y)·log(1-p)]

(7.2)公平性检验

应用实例1：美国有一监狱通过深度学习模型判断当前在监狱中的罪犯未来5年是否会再犯罪而回到监狱，并以这个结果来评判服刑人员是否可以出狱，但是利用传统方法训练出来的深度学习模型在评判某肤色人时得出的结果往往是当前服刑人员会在未来五年重新犯罪，后来这一现象被发现，工作人员发现是深度学习模型学习的经验中，大部分的某肤色罪犯都在未来的5年重新犯罪，因此深度学习模型为重新犯罪和肤色加上了很强的相关性，但是这是不人道的，产生上述现象的原因很可能是收集数据集的时候的巧合性导致的，在通过去偏后的深度学习模型重新上线，发现预测某肤色人将会再次犯罪的现象得到明显的改善。

应用实例2：训练一个深度学习模型作为银行借贷系统的参考，采用adult数据集作为训练数据集，并以“年收入是否超过50K”作为预测主任务，为银行是否为用户提供借贷服务作为参考。当深度学习模型在训练后主任务精度达到要求，即对于主任务的预测准确率达到95％以上，传统意义上认为此模型达到要求，可以作为银行预测用户是否有还贷能力的参考。

但是当对模型输入大量数据并统计后发现，模型对于“性别”属性为1的样本判断其年收入大于50K的概率大大超过“性别”属性为0 的样本判断其年收入大于50K的概率。其中模型判断错误的样本中有很大一部分样本都是“性别”属性为1被错误的判断为“年收入大于 50K”，以及“性别”属性为0被分类为“小于50K”上述现象说明模型对于结果和“性别”属性建立起了过于强的关联，这是不符合真实情况的，也是不符合伦理道德的。

使用了本实例提供的方法对深度学习模型进行去偏，发现模型对于“性别”属性分别为1和0的样本预测为“年收入大于50K”的概率区域相同，概率之差为正常范围之内。同时，模型分类的准确率未出现明显下降，说明本实例提供的方案达到了去除深度学习模型偏见的同时保持了其原有预测精度的目的。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.一种基于偏见样本对生成的深度学习模型去偏方法，其特征在于，所述方法包括以下步骤：

2)数据预处理，过程如下：

(2.1)采用adult数据集作为原始数据集：

3)定义偏见指标函数：

定义了一个指标函数F(d)，提高了指标函数的鲁棒性；

7)深度学习鲁棒性模型构建：利用FLIP样本对对有偏见的深度学习模型进行微调训练去偏，对训练后的模型进行检验，判断其偏见程度是否达到要求。

2.如权利要求1所述的基于偏见样本对生成的深度学习模型去偏方法，其特征在于，所述步骤1)中，将X和Y表示为数据集及其值域，将A和x_A表示为数据集X的敏感属性及其数值，将NA和x_NA表示为数据集X的非敏感属性及其数值；对于给定的DNN模型θ和样本实例x，若存在另一个样本实例x′满足x_A≠x′_A，x_NA＝x′_NA，θ(x)≠θ(x′)，则称(x,x′)为DNN模型θ的个体歧视实例对，x和x′都是个体歧视实例，称DNN模型θ存在个体歧视行为；若DNN模型θ在数据集值域内存在越多的个体歧视实例对，则表示该模型个体公平越低。

3.如权利要求1或2所述的基于偏见样本对生成的深度学习模型去偏方法，其特征在于，所述(2.2)中，adult数据集拥有14个特征属性，为了保证模型可以充分提取数据的特征的同时减弱除性别外其它敏感特征的影响，对数据的'workclass','education','marital-status','occupation','relationship','race','native-country','sex'属性进行one-hot编码扩充，获取对应的类别标签序列；并对其他属性进行保留，以此达到突出目标属性，减弱其它属性对敏感属性的影响的目的，将会着重使用one-hot编码扩充之后的数据集，记作D。

4.如权利要求1或2所述的基于偏见样本对生成的深度学习模型去偏方法，其特征在于，所述步骤3)的过程如下：

3.1)Disparate impact差异影响

其中S表示受保护的属性，S＝1为特权组，S≠1为非特权组，

表示预测为正，

3.2)Demographic parity人口统计平等

人口统计平等的衡量方法类似于差异影响方法，但该方法采用的是差异而不是比率，这种方法通常也被称为统计奇偶性，其数学计算公式如下：

该度量值越低，表明接受率越相似，因此公平性越好；

3.3)Equal opportunity机会平等

当一个预测器满足下式则认为是满足机会均等的：

P{H(x_i)＝1|y_i＝1,x_i∈S}＝P{H(x_j)＝1|y_j＝1,x_j∈X\S} (4)

设X代表一组个体，S代表群组，对于一个个体x_i∈X，让它成为要预测的真实结果或标号，一个预测因子可以用一个映射H:X→Y从总体X到结果Y的集合来表示，这样H(x_i)就是个体x_i的预测结果，i和j表示两个个体；

3.4)定义偏见函数F(d)

若用F衡量模型的偏见指标，则将公式中的y改为

即用模型的预测值作为分类进行公平性分析。

5.如权利要求1或2所述的基于偏见样本对生成的深度学习模型去偏方法，其特征在于，所述步骤4)中，构建的有深度学习模型包括特征提取器和第分类器两部分，其中特征提取器采用3个线性层，激活函数采用Relu函数，分类器采用2个全连接层构成的网络，利用数据集D的训练集训练深度学习模型，训练批次的大小定为100，在训练阶段采用预热学习率策略，优化器采用Adam进行优化，损失函数采用交叉熵的形式，公式如下所示：

L₁＝-[y·log(p)+(1-y)·log(1-p)]

6.如权利要求1或2所述的基于偏见样本对生成的深度学习模型去偏方法，其特征在于，所述步骤5)中，将扩充后的数据集D的测试集输入到模型中，保留模型的返回值，利用偏见指标函数F(d)，对模型进行偏见程度分析，记录函数返回值，并将返回值作为模型的偏见程度。

7.如权利要求1或2所述的基于偏见样本对生成的深度学习模型去偏方法，其特征在于，所述步骤6)的过程为：

(6.1)偏见样本初步划分

将数据集D复制一份为D’，翻转D’中敏感属性使得数据集D中的每个元素和D’中的对应元素组成实例样本对，将D和D’输入模型，得到分类结果Y、Y’，同时遍历Y、Y’，当一对实例样本对的分类结果不一致时对当前D中的实例进行打标为偏见样本，加入偏见样本集S，将此样本所构成的样本对初步划分为偏见样本对；

(6.2)模糊样本划分

(6.3)FLIP样本对生成

8.如权利要求1或2所述的基于偏见样本对生成的深度学习模型去偏方法，其特征在于，所述步骤7)中，使用FLIP样本对对模型进行微调训练去偏，过程如下：

(7.1)微调训练

L₁＝-[y·log(p)+(1-y)·log(1-p)]

(7.2)公平性检验

将数据集D中的测试集输入到模型中，利用偏见程度指标F(d)判断模型偏见程度，若偏见程度未达到要求则再进行步骤(7.2)进行重新训练，偏见程度达到要求则结束。