CN113361652A

CN113361652A - 一种面向个体收入预测的去偏方法及装置

Info

Publication number: CN113361652A
Application number: CN202110776804.0A
Authority: CN
Inventors: 陈晋音; 陈奕芃; 陈一鸣
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-07-09
Filing date: 2021-07-09
Publication date: 2021-09-07

Abstract

本发明提供一种面向个体收入预测的去偏方法，包括清洗数据集得到第一样本集和第二样本集，将第二样本集分为特权样本集和非特权样本集；构建收入预测模型，所述收入预测模型包括五层全连接神经网络，SoftMax全连接层，注意力机制层；利用训练样本集收入预测模型，训练时，收入预测损失loss_m1，和去社会偏见损失loss_m2组成的总损失loss为最终损失；每训练一阶段，将第二样本集输入至收入预测模型得到的收入预测结果不同的概率满足第一阈值，则获得最终收入预测模型；应用时，将待测样本输入至收入预测模型中，经计算得到收入预测结果。该方法能够准确预测收入。

Description

一种面向个体收入预测的去偏方法及装置

技术领域

本发明属于收入预测处理模型，具体涉及一种面向个体收入预测的去偏方法及装置。

背景技术

深度学习技术是当前人工智能技术的一个重点研究对象，人工智能技术成功应用的关键之一是利用大量的原始样本数据集对深度学习模型进行训练，深度学习模型通过对输入进去的原始样本数据集进行学习，学习数据样本的潜在特征，并且对数据进行内在规律的发掘以及数据内在特征的提取，正是由于深度学习模型具有比较强大的学习能力，这种学习能力可以较好地进行数据内在规律的提取和数据内在特征的抽象，帮助人们解决更多的更复杂的模式分类难题以及做出更好的决策，因此深度学习技术被广泛应用在互联网搜索、图像识别、异常检测、自然语言处理、语音识别、推荐系统、医疗、信贷发放、刑事司法以及云存储等领域。

虽然随着深度学习技术的深入应用，通过使用深度学习技术人们可以主力业务发展，获得更为准确以及更为详细的决策结果以及更具有实用性的决策建议，但是最新的研究也表明，深度学习模型也存在比较明显缺陷。这种缺陷主要表现在：深度学习模型在做出决策时会受到原始样本数据集中部分带有敏感属性特征数据的影响。这里的敏感属性是指在深度学习模型学习的过程中会使得模型预测结果发生较大偏差，已知深度学习模型做出决策需要高度依赖输入进模型进行训练的原始样本数据，而原始样本数据中带有这部分属性的数据会使深度学习模型的决策存在偏见，这会导致深度学习模型的决策结果在较大程度上影响其决策的准备性。开发设计使用深度学习技术的初衷是帮助人类从复杂的、重复的劳动中解脱出来，同时借助现代化人工智能手段助力科技发展。如果研究人员枉顾用于训练深度学习模型的数据集并且不对深度学习模型的训练过程做任何的偏见消除操作，而是任由其发展，那么会导致深度学习模型的预测结果逐步带有偏见，这些偏见会一直存在于深度学习模型中，深度学习模型会一直保留这些偏见，并且很有可能会在后续的决策任务中加剧这种偏见。深度学习技术也逐步渗透进人们生活中的方方面面，因此研究面向深度学习模型的去偏方法就显得尤为重要。

近年来，以收入预测性准确性去偏为代表的深度学习模型鲁棒性问题逐渐被人们所关注。以计算机视觉为例，当深度学习模型的决策行为过度依赖于一些无关特征(如光线、性别、颜色等)时，深度学习模型便会对仅无关特征的不同两个样本产生的相反的决策结果(如光线明、暗下的识别结果不同)。

目前关于深度模型收入预测性去偏的专利有的采用对抗性训练进行去偏、有的通过自编码器或者GAN混淆模型对敏感属性的识别，这些去偏方法都是针对群体收入预测准确性。

如果两个样本数据，如果它们只在敏感属性上不同，而其他属性上完全一样，那么模型对它们的预测结果应该是相同或者相似的，这就是个体收入预测准确性，如果仅仅因为两个样本数据在敏感属性上有差异，模型就对这两个样本的预测结果有很大的不同。

发明内容

本发明公开了一种面向个体收入预测的去偏方法，该方法能够有效由于个体数据偏见，造成预测不准确现象。

一种面向个体收入预测的去偏方法，包括：

S1：清洗数据集得到第一样本集，提取第一样本集的类别标签，基于类别标签得到敏感属性标签，将非敏感属性标签相同而敏感属性标签不同的数据集作为第二样本集，将第二样本集分为特权样本集和非特权样本集；

S2：构建收入预测模型，所述收入预测模型包括五层全连接神经网络，SoftMax全连接层，注意力机制层，全连接神经网络用于基于第一样本集提取第一特征信息，并将第一特征信息输入至SoftMax全连接层，SoftMax全连接层基于第一特征信息得到预测结果，注意力机制层用于基于第二样本集提取第二特征信息，根据所述第二特征信息重新配置敏感属性的权重；

S3：利用训练样本集收入预测模型，训练时，收入预测损失loss_m1，和去社会偏见损失loss_m2组成的总损失loss为最终损失，其中，去社会偏见损失loss_m2为：

loss_m2＝-∑h(x)·log(y)+(-∑h(x)·log(h(x′))

其中，h()为收入预测模型，x为特权样本集，x′为非特权样本集，y为敏感属性标签；

S4：每训练一阶段，将第二样本集输入至收入预测模型得到的收入预测结果不同的概率满足第一阈值，则获得最终收入预测模型。

S5：应用时，将待测样本输入至收入预测模型中，经计算得到收入预测结果。

将构建的第二样本集，，通过注意力机制层对敏感属性的权重重新分配，以消除对个体偏见对收入预测模型的影响，并将精准预测收入与去社会偏见任务分开训练从而互相不干扰，以达到既能精准预测收入的同时，还能使模型具有收入预测性。

所述的数据集为Adult数据集，清洗Adult数据集时，将Adult数据集中的缺失数据进行删除得到第一样本集，所述的Adult数据集用于预测一个人的年收入是否超过50K。

所述的第一样本集包括14个属性标签，其中为敏感属性标签和非敏感属性标签。

基于敏感属性的两个对立类，将第二样本集分为特权样本集和非特权样本集。

所述的SoftMax全连接层基于第一特征信息得到预测结果的具体步骤为：

将第一样本集输入至全连接神经网络，基于类别标签，提取特征信息，并通过SoftMax全连接层得到预测结果。

所述的根据所述第二特征信息重新配置敏感属性的权重的具体步骤为：

将特权样本集输入至注意力机制层得到的预测结果，与非特征样本集输入至注意力机制层得到的预测结果进行比较，基于比较结果判断敏感属性对预测结果的影响，根据敏感属性对预测结果的影响调整敏感属性的权重。

所述的收入预测损失loss_m1为：

loss_m1＝-[y_m·log(p)+(1-y_m)·log(1-p)]

其中，y_m为类别标签，p预测结果超过第二阈值的概率。

将所述的特权样本集和非特权样本集输入至收入预测模型分别得到特权收入预测结果和非特权收入预测结果，如果特权收入预测结果和非特权收入预测结果不一致的概率满足阈值，则获得最终收入预测模型。

一种面向个体收入预测的去偏装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，所述计算机存储器中采用权利要求1-8所述的面向个体收入预测的去偏方法构建收入预测模型；

所述算机处理器执行所述计算机程序时实现以下步骤：

将待测样本输入至收入预测模型中，经计算得到收入预测结果。

与现有技术相比，本发明的有益效果为：

本发明搭建的第二样本集体现了个体偏见的特点，将第二样本集输入至本发明提供的收入预测模型，并通过注意力机制层的权重分配消除敏感属性对收入预测结果的影响，以消除个体偏见的现象。

附图说明

图1是发明的具体实施方式中收入预测模型的结构图；

图2是本发明的具体实施方式提供的面向个体收入预测的去偏方法的流程示意图。

具体实施方式

下面结合说明书附图对本发明的具体实施方式作进一步详细描述。

参照图1～图2，一种面向个体收入预测的去偏方法，步骤如下：

1)数据预处理

1.1)采用Adult数据集作为训练数据集：

本发明采用Adult数据集作为面向个体收入预测的去偏方法及其装置设计的训练数据集。Adult数据集包括48,842个连续或者离散的实例，该数据集可用于预测一个人的年收入是否多于5万美元；清洗Adult数据集时，将Adult数据集中的缺失数据进行删除得到第一样本集，第一样本集包括年龄、工种、学历、职业、性别、等14个属性类别，其中6个连续变量，8个名词属性变量，其中性别和是敏感属性。本发明中采取性别为敏感属性，属性10为性别。Adult数据集用14个特征来对每个个体进行描述，从而预测一个人的年收入是否超过50K。

1.2)提取类别标签以及敏感属性标签：

Adult数据集用14个特征来对每个个体进行描述，在本发明中，将每个个体的性别作为敏感属性，属性为“男性”或者“女性”我们认为它是敏感的，并对其进行二值化处理，将“男性”编码为1，“女性”编码为0。对于每个个体，输出的预测值是一个二进制变量，输出结果只有0或1，表明一个个体的年收入是否超过50K。

2)获取个体偏见样本对

2.1)构造个体偏见对为第二样本集：

根据2.1)所述，我们认为个体偏见对是两个样本数据，它们仅在敏感属性上存在不同，而其他的属性应该完全一致。Adult数据集用14个特征来对每个个体进行描述，在本发明中，将每个个体的性别作为敏感属性，将敏感属性的两个对立类分为非特权数据和特权数据，以性别为例，性别分为男、女，特权组设置为男，非特权组设置为女。属性为“男性”或者“女性”我们认为它是敏感的，如果两个样本X和X′满足敏感属性S_x≠S_x′，而其他属性满足Z_x＝Z_x′，那么这两个样本就是一个个体偏见对。

我们将训练集中样本数据进行敏感属性翻转，其他属性保持不变，例如样本数据为X＝[1,0,1,0,0,0,1,0,0,0,1,0,1,1]，其中第10个属性gender为敏感属性性别，此样本的敏感属性性别为0，说明它代表的性别为“女性”，将第10个属性进行翻转，使性别敏感属性为1，此时得到样本X′＝[1,0,1,0,0,0,1,0,0,1,1,0,1,1]，称X和X′为个体偏见对。

3)如图1所示，构建收入预测模型，并进行训练，具体步骤如下：

3.1)构建模型：

对Adult数据集进行训练，通过构建五层全连接神经网络来训练Adult数据集。全连接神经网络每层的神经元个数分别为64、32、16、8、2，前四层每层网络的激活函数为ReLU。全连接层使用SoftMax为激活函数对数据进行分类识别，训练过程的损失函数均使用交叉熵损失函数(binary_crossentropy)，优化器使用Adam。此全连接神经网络用来训练主任务，并将此模型记为model1。

3.2)模型去偏：

在model1的特征层也就是神经元个数为16的网络后面加入注意力机制，也就是Attention层，本发明在模型中引入了注意力机制，它能对输入的数据提取特征信息，寻找对输出结果影响较大的敏感属性，引入Attention机制不但能够显著的提升模型的性能，还可以观察到输入数据中的信息是如何影响到最后的输出的，有助于更好的理解模型内部的运行机制，提高模型的可解释性。

在Attention机制的输出层将从神经元个数为16的网络提取出的敏感属性与Attention机制相乘，用来对权重较大的敏感属性进行降重，降低此类敏感属性的影响。

3.3)模型训练：

将步骤2.2)中得到的。输入第一样本集时，冻结Attention机制的输入层，此步骤用来训练主任务。接着输入X′，进行此步骤时将已冻结的Attention机制的输入层进行解冻，并且将全连接神经网络modle1的前三层进行冻结，依此类推，输入X时将已冻结的Attention机制的输入层进行解冻，将modle1的前三层进行冻结。冻结的目的是使主任务和去偏操作互不影响，从而确保主任务的预测精度。

训练批次的大小定为100，在训练阶段采用预热学习率策略，优化器采用Adam进行优化。主任务损失函数采用交叉熵的形式，收入预测损失函数如下所示：

loss_m1＝-[y_m·log(p)+(1-y_m)·log(1-p)]

其中y表示样本的标签，个体的年收入超过50K则为1，个体的年收入未超过50K则为0。P表示样本预测为年收入超过50K的概率。

去偏操作损失函数如以下所示：

loss_{_}m2＝-∑h(x)·log(y)+(-∑h(x)·log(h(x′))

4)测试模型

我们将步骤1.2)中划分的测试集输入到模型M_fair中进行测试，将所述的特权样本集和非特权样本集输入至收入预测模型分别得到特权收入预测结果和非特权收入预测结果，如果特权收入预测结果和非特权收入预测结果不一致的概率满足不超过5％时，则获得最终收入预测模型。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术。

Claims

1.一种面向个体收入预测的去偏方法，其特征在于，包括：

S3：利用样本集训练收入预测模型，训练时，收入预测损失loss_m1，和去社会偏见损失loss_m2组成的总损失loss为最终损失，其中，去社会偏见损失loss_m2为：

loss_m2＝-∑h(x)·log(y)+(-∑h(x)·log(h(x′))

S4：每训练一阶段，将第二样本集输入至收入预测模型得到的收入预测结果不同的概率满足第一阈值，则获得最终收入预测模型；

2.根据权利要求1所述的面向个体收入预测的去偏方法，其特征在于，所述的数据集为Adult数据集，清洗Adult数据集时，将Adult数据集中的缺失数据进行删除得到第一样本集，所述的Adult数据集用于预测一个人的年收入是否超过50K。

3.根据权利要求1所述的面向个体收入预测的去偏方法，其特征在于，所述的第一样本集包括14个属性标签，包括敏感属性标签和非敏感属性标签。

4.根据权利要求1或3所述的面向个体收入预测的去偏方法，其特征在于，基于敏感属性的两个对立类，将第二样本集分为特权样本集和非特权样本集。

5.根据权利要求1所述的面向个体收入预测的去偏方法，其特征在于，所述的SoftMax全连接层基于第一特征信息得到预测结果的具体步骤为：

6.根据权利要求1所述的面向个体收入预测的去偏方法，其特征在于，所述的根据所述第二特征信息重新配置敏感属性的权重的具体步骤为：

7.根据权利要求1或2所述的面向个体收入预测的去偏方法，其特征在于，所述的收入预测损失loss_m1为：

loss_m1＝-[y_m·log(p)+(1-y_m)·log(1-p)]

其中，y_m为类别标签，p为预测结果超过第二阈值的概率。

8.根据权利要求1所述的面向个体收入预测的去偏方法，其特征在于，将所述的特权样本集和非特权样本集输入至收入预测模型分别得到特权收入预测结果和非特权收入预测结果，如果特权收入预测结果和非特权收入预测结果不一致的概率满足第一阈值，则获得最终收入预测模型。

9.一种面向个体收入预测的去偏装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，其特征在于，所述计算机存储器中采用权利要求1-8所述的面向个体收入预测的去偏方法构建收入预测模型；

所述算机处理器执行所述计算机程序时实现以下步骤：