CN113868597A - 一种用于年龄估计的回归公平性度量方法 - Google Patents

一种用于年龄估计的回归公平性度量方法 Download PDF

Info

Publication number
CN113868597A
CN113868597A CN202111139194.XA CN202111139194A CN113868597A CN 113868597 A CN113868597 A CN 113868597A CN 202111139194 A CN202111139194 A CN 202111139194A CN 113868597 A CN113868597 A CN 113868597A
Authority
CN
China
Prior art keywords
fairness
model
subsets
regression
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111139194.XA
Other languages
English (en)
Other versions
CN113868597B (zh
Inventor
孟明明
潘力立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202111139194.XA priority Critical patent/CN113868597B/zh
Publication of CN113868597A publication Critical patent/CN113868597A/zh
Application granted granted Critical
Publication of CN113868597B publication Critical patent/CN113868597B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)

Abstract

该发明公开了一种用于年龄估计的回归公平性度量方法,属于机器学习领域。该方法首先选择待回归属性作为敏感属性,并对敏感属性的取值范围进行区间化,根据区间化的结果实现自己划分;接着利用待评估的模型,完成所有子集样本的属性预测;接着通过误差函数计算预测值和真实值之间的误差,再基于各个子集误差的期望给出了模型回归公平性的定义;最后在回归公平性定义的基础上,定量计算模型的回归公平性指标。通过上述方法,本发明解决了年龄估计的回归公平性度量方法缺失的问题,实现了回归公平性的定量评估。

Description

一种用于年龄估计的回归公平性度量方法
技术领域
本发明属于机器学习领域,主要涉及用于年龄估计的回归公平性的评估问题;主要解决年龄计任务中缺乏对回归公平性度量的问题。
背景技术
近些年机器学习中的回归模型已经广泛应用于生活的各类场景,例如在人脸识别系统中需要对识别对象进行年龄的估计,在人机交互系统中,需要估计用户的头部姿态和视线等信息。这类回归任务常常依赖于海量的数据及特定的训练方法进行构建,而实际中,由于数据本身偏差或者训练方法的原因,模型往往是存在偏差的,这种偏差体现在同一个模型在面向不同的数据时会出现预测精度的不同,这种情况引起了对年龄估计公平性的讨论。
公平性通常从两个方面来进行考虑。第一,模型是否对数据进行了差异化的对待,这里是指在模型的决策过程中,数据中的一些敏感属性被使用了,并且影响了决策的最终结果;第二,模型的决策结果是否产生了差异化的影响,这里是指模型的预测结果对不同的样本群体产生了不同的影响。一个绝对公平的模型应该是既不产生差异化的对待,也不产生差异化的影响。参考文献:Zafar M B,Valera I,Rogriguez M G,et al.Fairnessconstraints:Mechanisms for fair classification,Artificial Intelligence andStatistics.PMLR,2017:962-970.
公平性的讨论,往往是基于敏感属性展开的,敏感属性可以根据实际需进行选择的,例如性别、种族等。通常根据敏感属性取值的不同,可以把数据划分为不同的群体,进而去定义模型的公平性。这种基于敏感属性的公平性存在多种不同的形式,如无意识公平、群体均等、机会均等、预测均等、个体公平等。而这些关于公平性的讨论都是基于敏感属性的取值是离散且有限的假设,这就导致了缺乏对回归公平性的度量,使得我们不能有效的评估模型的回归公平性。参考文献:Gajane P,Pechenizkiy M.On formalizing fairness inprediction with machine learning,arXiv preprint arXiv:1710.03184,2017.
针对年龄估计模型的研究集中在提升模型估计准确度的方向,缺乏对模型公平性的度量。年龄估计以人脸图像做为模型输入,期望模型预测出输入人脸的年龄。目前主流的方法都是采用深度神经网络做为特征提取模块,然后引入序损失、局部回归算子或者回归树等结构对提取的特征进行年龄的预测,这些方法以提升模型中测试集的平均绝对误差做为目标,完全忽视了模型的潜在的公平性问题,从而使模型产生带有歧视性质的预测结果,严重影响了模型的公平性性能。参考文献:Pan L,Ai S,Ren Y,et al.Self-paced deepregression forests with consideration on underrepresented examples,EuropeanConference on Computer Vision.2020:271-287.
针对模型回归公平性缺乏具体度量方法的问题,本发明提出了一种回归公平性度量方法,实现了用于年龄估计的回归公平性的定量评估。
发明内容
本发明提出了一种用于年龄估计的回归公平性度量方法,解决了用于年龄估计的回归公平性缺乏定量评估指标的问题。
该方法是基于群体均等的公平性定义展开的,首先确定待评估的机器学习模型和数据集,针对数据集选择待回归的标签属性作为敏感属性,然后根据敏感属性的取值范围,把敏感属性的取值划分为不同区间,再根据样本敏感属性的取值把数据集划分成不同的子集,并在此基础上明确定义了公平性的概念;然后利用机器学习模型对来自不同子集的数据进行预测并计算损失大小,并基于公平性的定义,计算两个子集之间损失的差异及公平性度量,最终通过计算任意两个子集间公平性度量的期望作为回归公平性的定量评估准则。方法的流程示意图参见图1。
为了方便地描述本发明内容,首先对一些术语进行定义。
定义1:敏感属性。敏感属性是数据的某一个属性,敏感属性的选择是不固定的,可以根据不同的数据及任务进行选取。敏感属性的选取要求可以根据敏感属性对数据集进行划分。本发明选择待预测的属性作为敏感属性。
定义2:回归模型。回归模型研究的是因变量y和自变量x之间的关系,其中因变量y是回归模型待预测的属性,x是回归模型的输入,对于给定的回归模型f(·),因变量可由y=f(x)获得。
定义3:误差函数。误差函数用L(·)的形式表示,来衡量预测值和真实值的误差,且满足L(·)≥0,可以使用绝对误差和余弦相似度等函数作为误差函数。
因而本发明技术方案为一种用于年龄估计的回归公平性度量方法,该方法包括:
步骤1:对样本进行子集划分;
1)确定年龄的取值范围,然后对年龄的进行区间的划分,划分的区间个数K,则整个年龄范围可以被分成K个互不相交的区间
Figure BDA0003281236150000031
2)根据样本图像中人物年龄所述的区间,将样本分为K个互不相交的子集Dk,k∈{1,2,…,K};数据集划分示意图参见图2。
步骤2:完成K个子集的误差计算;
根据待评估的回归模型f(·)完成K个子集中每一个样本x的年龄预测,把预测结果记作
Figure BDA0003281236150000032
Figure BDA0003281236150000033
由下式进行计算:
Figure BDA0003281236150000041
步骤3:定义模型的回归公平性;
1)选择误差函数L(·)作为计算预测值和真实值之间差异的度量函数,把步骤2中的预测结果作为样本的预测值,把数据集标签作为真实值,计算误差大小
Figure BDA0003281236150000042
2)基于各个子集上的损失,定义满足下式的模型是一个公平的模型:
Figure BDA0003281236150000043
其中
Figure BDA0003281236150000044
Figure BDA0003281236150000045
分别表示计算在第k和第l个子集上误差的期望;上式期望模型在任意两个不同的子集的误差是相同的,保证了模型在各个子集上具有一致的预测精度;
步骤4:计算回归公平性指标;
1)计算任意两个子集之间的公平性指标:选定两个子集的预测结果,并计算每个样本预测结果与真实标签之间的误差,通过下式计算两个子集间的公平性指标:
Figure BDA0003281236150000046
其中
Figure BDA0003281236150000047
表示计算预测值标签之间的误差,
Figure BDA0003281236150000048
Figure BDA0003281236150000049
分别表示计算在第k和l个子集上误差的期望;由上式可知,两个子集的公平性指标的取值范围为[0,1],并且只有当模型在两个子集上的误差相等时,模型在这两个子集上满足公平性约束,此时公平性取得最大值,且最大值为1;
2)计算回归公平性:在获取任意了两个子集间的公平性指标后,根据下式计算子集间公平性指标在整个数据集上的期望FAIR:
Figure BDA00032812361500000410
FAIR的值作为回归公平性的定量评估指标,可见FAIR的取值范围为[0,1],且FAIR的值越大,意味着模型在各个子集之间的预测精度差异越小,当且仅当FAIR取值为1时,模型满足步骤2中定义的公平性,是一个公平的模型。
本发明的创新之处在于:
1)提出了一种基于回归任务的数据集划分方法,选择待回归属性作为敏感属性并把敏感属性取值区间化,进而根据样本敏感属性的取值实现数据集的划分,如图2所示;
2)在子集划分的基础上,结合误差函数,定义了模型的回归公平性定义;
3)在模型回归公平性定义的基础上,提出了模型回归公平性的定量计算方法,实现了年龄估计模型回归公平性的定量评估。
附图说明
图1为本发明的方法流程图;
图2为本发明子集划分方法示意图;
图3为本发明在MORPH II数据集上的评测结果。
具体实施方式:
步骤1:对数据集进行子集划分;
1)获取MORPH II数据集,选择年龄作为敏感属性,考虑到是回归任务,年龄的取值是连续的,需要对年龄的取值进行区间的划分,首先获取MORPH II数据集中年龄标签属性的取值范围为[10,80],并且把其划分为确定划分7个互不相交的区间
Figure BDA0003281236150000051
其中:
Figure BDA0003281236150000052
2)根据样本标签的取值属于哪个区间,把数据集划分为7个互不相交的子集
Figure BDA0003281236150000053
数据集划分示意图参见图2;
步骤2:完成待评估模型的训练;
构建待评估的模型,这里分别构建深度回归森林(DRFs)、自步深度回归森林(SPDRFs)和基于样本不确定性的自步深度回归森林(SPUDRFs),然后在MORPH II数据集上分别完成三个模型的训练,并保存训练完成后的模型。
步骤3:完成7个子集的误差计算;
计算其对7个子集中每一个样本x的年龄估计,把预测结果记作
Figure BDA0003281236150000054
Figure BDA0003281236150000055
由下式进行计算:
Figure BDA0003281236150000056
这里把f(·)分别取为DRFs、SPDRFs和SPUDRFs三个不同的模型,则可以完成这三个模型在7个子集的预测。
步骤3:定义模型的回归公平性;
1)选择绝对误差做为误差函数用来计算预测值和真实值之间差异,把步骤2中的预测结果作为样本的预测值,把数据集标签作为真实值,计算误差大小
Figure BDA0003281236150000057
Figure BDA0003281236150000058
由下式给出:
Figure BDA0003281236150000061
2)基于各个子集上损失,定义满足下式的模型是一个公平的模型:
Figure BDA0003281236150000062
其中
Figure BDA0003281236150000063
Figure BDA0003281236150000064
分别表示计算在第k和第l个子集上误差的期望。上式期望模型在任意两个不同的子集的误差式相同的,保证了模型在各个子集上具有一致的预测精度。
步骤4:计算回归公平性指标;
1)计算任意两个子集之间的公平性指标:选定两个子集的预测结果,并计算每个样本预测结果与真实标签之间的误差,通过下式计算两个子集间的公平性指标:
Figure BDA0003281236150000065
其中
Figure BDA0003281236150000066
表示计算预测值标签之间的误差,
Figure BDA0003281236150000067
Figure BDA0003281236150000068
分别表示计算在第k和l个子集上误差的期望。由上式可知,两个子集的公平性指标的取值范围为[0,1],并且只有当模型在两个子集上的误差相等时,模型在这两个子集上满足步骤2中的公平性约束,此时公平性取得最大值,且最大值为1;
2)计算模型的公平性:在获取任意了两个子集间的公平性后,根据下式计算子集公平性指标在整个数据集上的期望FAIR:
Figure BDA0003281236150000069
FAIR的值作为模型公平性的定量评估指标,可见FAIR的取值范围为[0,1],且FAIR的值越大,模型在各个子集之间的预测精度差异越小,模型的公平性越好,当且仅当FAIR取值为1时,模型满足步骤2中定义的公平性,是一个公平的模型。图3给出了DRFs、SPDRFs和SPUDRFs三个不同模型在MORPH II上的公平性评估指标,可以看出SPUDRFs公平性最好,DRFs次之,SPDRFs公平性最差。

Claims (1)

1.一种用于年龄估计的回归公平性度量方法,该方法包括:
步骤1:对样本进行子集划分;
1)确定年龄的取值范围,然后对年龄的进行区间的划分,划分的区间个数K,则整个年龄范围可以被分成K个互不相交的区间
Figure FDA0003281236140000011
2)根据样本图像中人物年龄所述的区间,将样本分为K个互不相交的子集Dk,k∈{1,2,…,K};
步骤2:完成K个子集的误差计算;
根据待评估的回归模型f(·)完成K个子集中每一个样本x的年龄预测,把预测结果记作
Figure FDA0003281236140000012
Figure FDA0003281236140000013
由下式进行计算:
Figure FDA0003281236140000014
步骤3:定义模型的回归公平性;
1)选择误差函数L(·)作为计算预测值和真实值之间差异的度量函数,把步骤2中的预测结果作为样本的预测值,把数据集标签作为真实值,计算误差大小
Figure FDA0003281236140000015
2)基于各个子集上的损失,定义满足下式的模型是一个公平的模型:
Figure FDA0003281236140000016
其中
Figure FDA0003281236140000017
Figure FDA0003281236140000018
分别表示计算在第k和第l个子集上误差的期望;上式期望模型在任意两个不同的子集的误差是相同的,保证了模型在各个子集上具有一致的预测精度;
步骤4:计算回归公平性指标;
1)计算任意两个子集之间的公平性指标:选定两个子集的预测结果,并计算每个样本预测结果与真实标签之间的误差,通过下式计算两个子集间的公平性指标:
Figure FDA0003281236140000019
其中
Figure FDA00032812361400000110
表示计算预测值标签之间的误差,
Figure FDA00032812361400000111
Figure FDA00032812361400000112
分别表示计算在第k和l个子集上误差的期望;由上式可知,两个子集的公平性指标的取值范围为[0,1],并且只有当模型在两个子集上的误差相等时,模型在这两个子集上满足公平性约束,此时公平性取得最大值,且最大值为1;
2)计算回归公平性:在获取任意了两个子集间的公平性指标后,根据下式计算子集间公平性指标在整个数据集上的期望FAIR:
Figure FDA0003281236140000021
FAIR的值作为回归公平性的定量评估指标,可见FAIR的取值范围为[0,1],且FAIR的值越大,意味着模型在各个子集之间的预测精度差异越小,当且仅当FAIR取值为1时,模型满足步骤2中定义的公平性,是一个公平的模型。
CN202111139194.XA 2021-09-27 2021-09-27 一种用于年龄估计的回归公平性度量方法 Active CN113868597B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111139194.XA CN113868597B (zh) 2021-09-27 2021-09-27 一种用于年龄估计的回归公平性度量方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111139194.XA CN113868597B (zh) 2021-09-27 2021-09-27 一种用于年龄估计的回归公平性度量方法

Publications (2)

Publication Number Publication Date
CN113868597A true CN113868597A (zh) 2021-12-31
CN113868597B CN113868597B (zh) 2023-03-10

Family

ID=78991689

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111139194.XA Active CN113868597B (zh) 2021-09-27 2021-09-27 一种用于年龄估计的回归公平性度量方法

Country Status (1)

Country Link
CN (1) CN113868597B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114910793A (zh) * 2022-04-24 2022-08-16 广东工业大学 一种储能电站串联电池组的soh估计方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598871A (zh) * 2014-12-06 2015-05-06 电子科技大学 一种基于相关回归的面部年龄计算方法
CN112289455A (zh) * 2020-10-21 2021-01-29 王智 一种人工智能神经网络学习模型构建系统、构建方法
WO2021036546A1 (zh) * 2019-08-29 2021-03-04 山东科技大学 基于有偏估计的近红外定量分析模型构建方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598871A (zh) * 2014-12-06 2015-05-06 电子科技大学 一种基于相关回归的面部年龄计算方法
WO2021036546A1 (zh) * 2019-08-29 2021-03-04 山东科技大学 基于有偏估计的近红外定量分析模型构建方法
CN112289455A (zh) * 2020-10-21 2021-01-29 王智 一种人工智能神经网络学习模型构建系统、构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵一丁;田森平;: "基于分类与回归混合模型的人脸年龄估计方法" *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114910793A (zh) * 2022-04-24 2022-08-16 广东工业大学 一种储能电站串联电池组的soh估计方法

Also Published As

Publication number Publication date
CN113868597B (zh) 2023-03-10

Similar Documents

Publication Publication Date Title
CN109213863B (zh) 一种基于学习风格的自适应推荐方法及系统
CN106951825B (zh) 一种人脸图像质量评估系统以及实现方法
CN110163258A (zh) 一种基于语义属性注意力重分配机制的零样本学习方法及系统
CN109002845A (zh) 基于深度卷积神经网络的细粒度图像分类方法
Cong et al. Self-supervised online metric learning with low rank constraint for scene categorization
CN110889450B (zh) 超参数调优、模型构建方法和装置
CN113469470B (zh) 基于电力大脑中枢的用能数据与碳排放量关联分析方法
CN111222847B (zh) 基于深度学习与非监督聚类的开源社区开发者推荐方法
KR20190072652A (ko) 정보 처리 장치 및 정보 처리 방법
CN110619084B (zh) 一种根据图书馆读者借阅行为进行图书推荐的方法
CN110766060B (zh) 基于深度学习的时间序列相似度的计算方法、系统及介质
WO2019167784A1 (ja) 位置特定装置、位置特定方法及びコンピュータプログラム
Vila et al. Bayesian nonlinear model selection and neural networks: A conjugate prior approach
CN116110089A (zh) 一种基于深度自适应度量学习的面部表情识别方法
CN113868597B (zh) 一种用于年龄估计的回归公平性度量方法
CN117371511A (zh) 图像分类模型的训练方法、装置、设备及存储介质
JP7225731B2 (ja) 多変数データシーケンスの画像化
Edgulova et al. Algorithm parallelizing for classifying the complex systems
Angayarkanni Predictive analytics of chronic kidney disease using machine learning algorithm
CN109460474A (zh) 用户偏好趋势挖掘方法
CN113035363B (zh) 一种概率密度加权的遗传代谢病筛查数据混合采样方法
Keçeci et al. Gait recognition via machine learning
CN116665906B (zh) 基于相似性孪生网络的静息态功能磁共振脑龄预测方法
CN114565972B (zh) 骨架动作识别方法、系统、设备与存储介质
Zannat et al. Disease Prediction Through Syndromes by Clustering Algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant