CN113868597A

CN113868597A - 一种用于年龄估计的回归公平性度量方法

Info

Publication number: CN113868597A
Application number: CN202111139194.XA
Authority: CN
Inventors: 孟明明; 潘力立
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-09-27
Filing date: 2021-09-27
Publication date: 2021-12-31
Anticipated expiration: 2041-09-27
Also published as: CN113868597B

Abstract

该发明公开了一种用于年龄估计的回归公平性度量方法，属于机器学习领域。该方法首先选择待回归属性作为敏感属性，并对敏感属性的取值范围进行区间化，根据区间化的结果实现自己划分；接着利用待评估的模型，完成所有子集样本的属性预测；接着通过误差函数计算预测值和真实值之间的误差，再基于各个子集误差的期望给出了模型回归公平性的定义；最后在回归公平性定义的基础上，定量计算模型的回归公平性指标。通过上述方法，本发明解决了年龄估计的回归公平性度量方法缺失的问题，实现了回归公平性的定量评估。

Description

一种用于年龄估计的回归公平性度量方法

技术领域

本发明属于机器学习领域，主要涉及用于年龄估计的回归公平性的评估问题；主要解决年龄计任务中缺乏对回归公平性度量的问题。

背景技术

近些年机器学习中的回归模型已经广泛应用于生活的各类场景，例如在人脸识别系统中需要对识别对象进行年龄的估计，在人机交互系统中，需要估计用户的头部姿态和视线等信息。这类回归任务常常依赖于海量的数据及特定的训练方法进行构建，而实际中，由于数据本身偏差或者训练方法的原因，模型往往是存在偏差的，这种偏差体现在同一个模型在面向不同的数据时会出现预测精度的不同，这种情况引起了对年龄估计公平性的讨论。

公平性通常从两个方面来进行考虑。第一，模型是否对数据进行了差异化的对待，这里是指在模型的决策过程中，数据中的一些敏感属性被使用了，并且影响了决策的最终结果；第二，模型的决策结果是否产生了差异化的影响，这里是指模型的预测结果对不同的样本群体产生了不同的影响。一个绝对公平的模型应该是既不产生差异化的对待，也不产生差异化的影响。参考文献：Zafar M B,Valera I,Rogriguez M G,et al.Fairnessconstraints:Mechanisms for fair classification,Artificial Intelligence andStatistics.PMLR,2017:962-970.

公平性的讨论，往往是基于敏感属性展开的，敏感属性可以根据实际需进行选择的，例如性别、种族等。通常根据敏感属性取值的不同，可以把数据划分为不同的群体，进而去定义模型的公平性。这种基于敏感属性的公平性存在多种不同的形式，如无意识公平、群体均等、机会均等、预测均等、个体公平等。而这些关于公平性的讨论都是基于敏感属性的取值是离散且有限的假设，这就导致了缺乏对回归公平性的度量，使得我们不能有效的评估模型的回归公平性。参考文献：Gajane P,Pechenizkiy M.On formalizing fairness inprediction with machine learning,arXiv preprint arXiv:1710.03184,2017.

针对年龄估计模型的研究集中在提升模型估计准确度的方向，缺乏对模型公平性的度量。年龄估计以人脸图像做为模型输入，期望模型预测出输入人脸的年龄。目前主流的方法都是采用深度神经网络做为特征提取模块，然后引入序损失、局部回归算子或者回归树等结构对提取的特征进行年龄的预测，这些方法以提升模型中测试集的平均绝对误差做为目标，完全忽视了模型的潜在的公平性问题，从而使模型产生带有歧视性质的预测结果，严重影响了模型的公平性性能。参考文献：Pan L,Ai S,Ren Y,et al.Self-paced deepregression forests with consideration on underrepresented examples,EuropeanConference on Computer Vision.2020:271-287.

针对模型回归公平性缺乏具体度量方法的问题，本发明提出了一种回归公平性度量方法，实现了用于年龄估计的回归公平性的定量评估。

发明内容

本发明提出了一种用于年龄估计的回归公平性度量方法，解决了用于年龄估计的回归公平性缺乏定量评估指标的问题。

该方法是基于群体均等的公平性定义展开的，首先确定待评估的机器学习模型和数据集，针对数据集选择待回归的标签属性作为敏感属性，然后根据敏感属性的取值范围，把敏感属性的取值划分为不同区间，再根据样本敏感属性的取值把数据集划分成不同的子集，并在此基础上明确定义了公平性的概念；然后利用机器学习模型对来自不同子集的数据进行预测并计算损失大小，并基于公平性的定义，计算两个子集之间损失的差异及公平性度量，最终通过计算任意两个子集间公平性度量的期望作为回归公平性的定量评估准则。方法的流程示意图参见图1。

为了方便地描述本发明内容，首先对一些术语进行定义。

定义1：敏感属性。敏感属性是数据的某一个属性，敏感属性的选择是不固定的，可以根据不同的数据及任务进行选取。敏感属性的选取要求可以根据敏感属性对数据集进行划分。本发明选择待预测的属性作为敏感属性。

定义2：回归模型。回归模型研究的是因变量y和自变量x之间的关系，其中因变量y是回归模型待预测的属性，x是回归模型的输入，对于给定的回归模型f(·)，因变量可由y＝f(x)获得。

定义3：误差函数。误差函数用L(·)的形式表示，来衡量预测值和真实值的误差，且满足L(·)≥0，可以使用绝对误差和余弦相似度等函数作为误差函数。

因而本发明技术方案为一种用于年龄估计的回归公平性度量方法，该方法包括：

步骤1：对样本进行子集划分；

1)确定年龄的取值范围，然后对年龄的进行区间的划分，划分的区间个数K，则整个年龄范围可以被分成K个互不相交的区间

2)根据样本图像中人物年龄所述的区间，将样本分为K个互不相交的子集D_k，k∈{1,2,…,K}；数据集划分示意图参见图2。

步骤2：完成K个子集的误差计算；

根据待评估的回归模型f(·)完成K个子集中每一个样本x的年龄预测，把预测结果记作

则

由下式进行计算：

步骤3：定义模型的回归公平性；

1)选择误差函数L(·)作为计算预测值和真实值之间差异的度量函数，把步骤2中的预测结果作为样本的预测值，把数据集标签作为真实值，计算误差大小

2)基于各个子集上的损失，定义满足下式的模型是一个公平的模型：

其中

和

分别表示计算在第k和第l个子集上误差的期望；上式期望模型在任意两个不同的子集的误差是相同的，保证了模型在各个子集上具有一致的预测精度；

步骤4：计算回归公平性指标；

1)计算任意两个子集之间的公平性指标：选定两个子集的预测结果，并计算每个样本预测结果与真实标签之间的误差，通过下式计算两个子集间的公平性指标：

其中

表示计算预测值标签之间的误差，

和

分别表示计算在第k和l个子集上误差的期望；由上式可知，两个子集的公平性指标的取值范围为[0,1]，并且只有当模型在两个子集上的误差相等时，模型在这两个子集上满足公平性约束，此时公平性取得最大值，且最大值为1；

2)计算回归公平性：在获取任意了两个子集间的公平性指标后，根据下式计算子集间公平性指标在整个数据集上的期望FAIR：

FAIR的值作为回归公平性的定量评估指标，可见FAIR的取值范围为[0,1]，且FAIR的值越大，意味着模型在各个子集之间的预测精度差异越小，当且仅当FAIR取值为1时，模型满足步骤2中定义的公平性，是一个公平的模型。

本发明的创新之处在于：

1)提出了一种基于回归任务的数据集划分方法，选择待回归属性作为敏感属性并把敏感属性取值区间化，进而根据样本敏感属性的取值实现数据集的划分，如图2所示；

2)在子集划分的基础上，结合误差函数，定义了模型的回归公平性定义；

3)在模型回归公平性定义的基础上，提出了模型回归公平性的定量计算方法，实现了年龄估计模型回归公平性的定量评估。

附图说明

图1为本发明的方法流程图；

图2为本发明子集划分方法示意图；

图3为本发明在MORPH II数据集上的评测结果。

具体实施方式：

步骤1：对数据集进行子集划分；

1)获取MORPH II数据集，选择年龄作为敏感属性，考虑到是回归任务，年龄的取值是连续的，需要对年龄的取值进行区间的划分，首先获取MORPH II数据集中年龄标签属性的取值范围为[10,80]，并且把其划分为确定划分7个互不相交的区间

其中：

2)根据样本标签的取值属于哪个区间，把数据集划分为7个互不相交的子集

数据集划分示意图参见图2；

步骤2：完成待评估模型的训练；

构建待评估的模型，这里分别构建深度回归森林(DRFs)、自步深度回归森林(SPDRFs)和基于样本不确定性的自步深度回归森林(SPUDRFs)，然后在MORPH II数据集上分别完成三个模型的训练，并保存训练完成后的模型。

步骤3：完成7个子集的误差计算；

计算其对7个子集中每一个样本x的年龄估计，把预测结果记作

则

由下式进行计算：

这里把f(·)分别取为DRFs、SPDRFs和SPUDRFs三个不同的模型，则可以完成这三个模型在7个子集的预测。

步骤3：定义模型的回归公平性；

1)选择绝对误差做为误差函数用来计算预测值和真实值之间差异，把步骤2中的预测结果作为样本的预测值，把数据集标签作为真实值，计算误差大小

则

由下式给出：

2)基于各个子集上损失，定义满足下式的模型是一个公平的模型：

其中

和

分别表示计算在第k和第l个子集上误差的期望。上式期望模型在任意两个不同的子集的误差式相同的，保证了模型在各个子集上具有一致的预测精度。

步骤4：计算回归公平性指标；

其中

表示计算预测值标签之间的误差，

和

分别表示计算在第k和l个子集上误差的期望。由上式可知，两个子集的公平性指标的取值范围为[0,1]，并且只有当模型在两个子集上的误差相等时，模型在这两个子集上满足步骤2中的公平性约束，此时公平性取得最大值，且最大值为1；

2)计算模型的公平性：在获取任意了两个子集间的公平性后，根据下式计算子集公平性指标在整个数据集上的期望FAIR：

FAIR的值作为模型公平性的定量评估指标，可见FAIR的取值范围为[0,1]，且FAIR的值越大，模型在各个子集之间的预测精度差异越小，模型的公平性越好，当且仅当FAIR取值为1时，模型满足步骤2中定义的公平性，是一个公平的模型。图3给出了DRFs、SPDRFs和SPUDRFs三个不同模型在MORPH II上的公平性评估指标，可以看出SPUDRFs公平性最好，DRFs次之，SPDRFs公平性最差。