CN112905465B

CN112905465B - 一种基于深度强化学习的机器学习模型黑盒公平性测试方法和系统

Info

Publication number: CN112905465B
Application number: CN202110180076.7A
Authority: CN
Inventors: 谢文涛; 吴鹏
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2021-02-09
Filing date: 2021-02-09
Publication date: 2022-07-22
Anticipated expiration: 2041-02-09
Also published as: CN112905465A

Abstract

本发明公开了一种基于深度强化学习的机器学习模型黑盒公平性测试方法和系统，其主要流程包括：(1)机器学习模型黑盒公平性测试环境构建、(2)基于公平性测试环境的最优歧视实例生成策略学习、(3)结果统计三大部分，首先构建机器学习模型黑盒公平性测试环境，然后强化学习智能体与构建的机器学习模型黑盒公平性测试环境进行交互，利用深度强化学习算法学习最优歧视实例生成策略，最后统计测试结果。本发明能够解决机器学习模型黑盒公平性测试领域无有效启发式策略指导、测试效率较低、测试开销较大的问题。

Description

一种基于深度强化学习的机器学习模型黑盒公平性测试方法和系统

技术领域

本发明涉及一种基于深度强化学习的机器学习模型黑盒公平性测试方法和系统，涉及软件工程与人工智能技术领域。

背景技术

机器学习软件广泛应用于人类现实生活各类决策领域，如招聘、保险、政策预测等。研究人员发现，机器学习软件在实际运行过程中会产生各种不公平的决策行为，造成恶劣的社会影响。因此从软件工程的角度出发，设计高效的公平性测试算法，在机器学习软件交付之前进行充分的公平性测试，尽可能多地发现机器学习软件的歧视实例，成为亟待解决的问题。这里，公平性测试的目标是尽可能多地发现机器学习模型的歧视实例。现有的公平性测试方法主要分为黑盒方法和白盒方法。其中，黑盒方法主要有三种：第一种THEMIS利用对输入空间进行随机采样的方法生成歧视实例，由于输入空间巨大，歧视实例的分布不明确，歧视实例生成效率很低；第二种方法AEQUITAS先随机生成初始歧视实例，通过局部贪心搜索发现其它歧视实例，效率略高于随机生成方法；第三种方法SG利用可解释技术如LIME，学习黑盒机器学习模型关于给定测试输入的局部决策树，再结合符号执行技术，在决策树约束空间搜索其它歧视实例；另外，采用基于梯度制导的白盒歧视实例生成方法，提高了神经网络模型歧视实例的生成效率，但仅适用于神经网络模型，且需要获得神经网络模型的梯度信息。

这里的歧视实例定义为个体公平性歧视实例，定义如下：

给定n维数据集X，其中n>1，其对应的特征集合为A＝{a₁,a₂,…,a_n}，定义I_k为特征a_k的值集，其中1≤k≤n，输入空间为I＝I₁×I₂×…I_n，且

设非空保护特征集合

如性别、肤色、年龄等。则A\P为非保护特征集合，其中“\”表示集合差运算(即A\P表示从集合A中删除属于集合P的元素)。给定机器学习模型M:I→O和输入x∈I，模型输出M(x)∈O。对于任意x＝(x₁,x₂,…,x_n)∈I，x′＝(x′₁,x′₂,…,x′_n)∈I，如果存在a_p∈P，使得x_p≠x′_p，且对任意a_q∈A\P，x_q＝x′_q，模型输出M(x)≠M(x′)，则序对(x,x′)构成关于模型M和保护特征集合P的一个歧视输入对，x和x′构成关于模型M和保护特征集合P的歧视实例。

发明内容

针对现有黑盒公平性测试效率低、开销大等问题，而白盒公平性测试方法在黑盒场景下又无法使用，本发明提出一种基于深度强化学习的机器学习模型黑盒公平性测试方法和系统。

本发明的技术方案如下：

一种基于深度强化学习的机器学习模型黑盒公平性测试方法，包括以下步骤：

构建机器学习模型黑盒公平性测试环境；

强化学习智能体与构建的机器学习模型黑盒公平性测试环境进行交互，利用深度强化学习算法学习最优歧视实例生成策略；

统计根据学习的最优歧视实例生成策略生成的歧视实例，得到机器学习模型黑盒公平性测试结果。

进一步地，所述机器学习模型黑盒公平性测试环境，包括测试数据生成子模块、被测黑盒机器学习模型和奖励计算子模块；所述测试数据生成子模块从训练数据中随机采样一个数据作为初始环境状态s₀；当前环境状态s下，接收强化学习智能体输入的动作α，将动作α分解为维度index和偏移量b，将状态s对应的维度index的特征值加上偏移量b，生成下一个状态s′；状态s′作为测试数据输入所述被测黑盒机器学习模型，判断在状态s′下是否产生个体公平性歧视；将状态s′和个体公平性歧视的判断结果输入所述奖励计算子模块，将状态s′和奖励返回给强化学习智能体。

进一步地，所述强化学习智能体与构建的机器学习模型黑盒公平性测试环境进行交互，利用深度强化学习算法学习最优歧视实例生成策略，包括：

强化学习智能体在观察到公平性测试环境的状态后，根据当前歧视实例生成策略选择最优动作输入公平性测试环境执行；

公平性测试环境反馈新的状态和相应的动作奖励给强化学习智能体；

强化学习智能体利用深度强化学习算法更新其歧视实例生成策略，并给出下一步动作，进入下一轮迭代直到测试终止。

一种采用上述方法的基于深度强化学习的机器学习模型黑盒公平性测试系统，其包括：

机器学习模型黑盒公平性测试环境构建模块，用于构建机器学习模型黑盒公平性测试环境；

基于公平性测试环境的最优歧视实例生成策略学习模块，即强化学习智能体模块，用于与构建的机器学习模型黑盒公平性测试环境进行交互，利用深度强化学习算法学习最优歧视实例生成策略；

结果统计模块，用于统计根据学习的最优歧视实例生成策略生成的歧视实例，得到机器学习模型黑盒公平性测试结果。

本方法的优势和创新点在于：首先，将黑盒公平性测试转化为强化学习问题，可以自适应地提高歧视实例的发现能力和效率，与现有黑盒公平性测试方法相比，减少了测试代价；其次，该方法适用于各种机器学习模型；最后，该方法可以很好地扩展到其它机器学习模型测试框架下，具有良好的可扩展性。

附图说明

图1是基于深度强化学习的黑盒机器学习模型公平性测试框图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明，而不用于限制本发明的范围。在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，基于深度强化学习的黑盒公平性测试方法，包括机器学习模型黑盒公平性测试环境构建模块、基于公平性测试环境的最优歧视实例生成策略学习模块(即强化学习智能体模块)、结果统计模块三个部分。实际机器学习模型输入空间巨大，具体歧视实例的分布未知，随机测试效率太低，穷尽搜索输入空间也不可行。本发明将机器学习模型黑盒公平性测试问题转化为强化学习问题，把黑盒机器学习模型作为策略学习模块(强化学习智能体)的交互环境。策略学习模块在观察到公平性测试环境的状态后，根据当前歧视实例生成策略选择最优动作输入公平性测试环境执行；公平性测试环境反馈新的状态和相应的动作奖励给策略学习模块；策略学习模块利用深度强化学习算法更新其歧视实例生成策略，并给出下一步动作，进入下一轮迭代直到测试终止，最后统计测试结果。

1.机器学习模型黑盒公平性测试环境构建模块

机器学习模型黑盒公平性测试环境由测试数据生成子模块，黑盒机器学习模型(即被测模型)，奖励计算子模块组成。

首先，测试数据生成子模块从训练数据中随机采样一个数据作为初始环境状态s₀。在当前环境状态s下，测试数据生成子模块接收智能体输入的动作α，将动作α分解为维度index和偏移量b，将状态s对应维度index的特征值加上偏移量b，生成下一个状态s′。状态s′将作为测试数据输入被测机器学习模型。

其中，动作α是对状态s在维度index上的特定干扰，从而得到新的状态。维度index对应于非保护特征a_index∈A\P。如上文所述，A是被测模型的输入特征集合，

为公平性测试指定的非空保护特征集合,“\”是集合差运算。

然后，将测试数据即状态s′输入被测机器学习模型，判断在状态s′下是否产生个体公平性歧视。具体判断方法如下，不失一般性，令

其中1≤p₁<p₂<…<p_m<n＝|A|，即n表示测试输入的维数。

1)对每个保护特征a_p∈P，置换状态s′在维度p上的特征值为特征a_p允许的所有可能值，从而得到一系列测试数据

(包括s′本身)，其中

为保护特征的输入空间。

2)将测试数据

逐一输入被测黑盒机器学习模型获得模型输出，若出现不同的输出结果，则判定被测机器学习模型在状态s′下产生个体公平性歧视(即状态s′构成歧视实例)。

将每次生成的新状态加入生成的测试集合t_set中，如果生成的状态为歧视实例，则加入生成的歧视实例集合d_set中。

随后，将状态s′和个体公平性歧视的判断结果输入奖励计算子模块，反馈相应的状态和奖励给智能体。具体计算方法是：根据个体公平性歧视的判断结果，判定状态s′是否构成歧视实例，如果是歧视实例且不属于已生成的歧视实例集合d_set，则设定奖励为r₁；如果是歧视实例但属于歧视实例集合d_set，说明该状态为之前已生成的重复歧视实例，则设定奖励为r₂；如果不是歧视实例，则设定奖励为r₃。这里，r₁、r₂、r₃为奖励常数。一般地，r₁≥r₂≥r₃，r₁≥0,r₃≤0。然后将状态s′和设定的奖励返回给最优歧视实例生成策略学习模块(即强化学习智能体模块)。

2.基于公平性测试环境的最优歧视实例生成策略学习模块(即强化学习智能体模块)

首先随机初始化一个深度Q网络作为歧视实例生成策略学习模型。公平性测试环境给出的初始状态s₀，作为策略学习的初始输入；智能体选择相应动作，输入公平性测试环境；公平性测试环境中的测试数据生成子模块生成测试数据，输入被测机器学习模型执行；公平性测试环境中的奖励计算子模块返回相应的下一个状态和动作奖励；智能体采用深度强化学习算法更新策略学习模型，根据观察到的环境状态不断选择最优动作，直到当前episode(幕)结束。当前episode结束后，智能体重新从相同的初始状态s₀出发，迭代更新歧视实例生成策略学习模型，直到测试终止。测试终止条件可人为设定，如episode的数量。

本发明的一个实施例中，策略学习模块从状态s₀开始，采用∈-greedy策略(∈-贪婪策略)选择动作与环境交互，同时采用深度强化学习算法更新歧视实例生成策略，学习目标为策略学习模块的累积奖励最大化；在经过T步之后到达状态s_T完成一轮episode，智能体重新回到状态s₀，进入下一轮episode，直到智能体完成所有episode，测试结束。

3.结果统计模块

统计歧视实例生成策略学习模型生成的歧视实例数量，测试结束。

效果检验：为验证本发明在机器学习模型黑盒公平性测试上的效果，采用公平性测试基准数据集(如表1所示)，针对每个数据集训练6层全连接神经网络(Multi-LayerPerceptron，MLP)模型和对数几率回归(Logistic Regression，LR)模型，训练结果如表2所示。

表1：数据集

数据集	保护特征	数据集大小	特征数量	输入空间大小
					German Credit	性别	1000	21	6.32×10<sup>17</sup>
Bank Marketing	年龄	45211	16	3.30×10<sup>24</sup>
					Census Income	性别	15360	13	1.74×10<sup>18</sup>

表2：机器学习被测模型

数据集	模型	准确率
			German Credit	MLP	100％
German Credit	LR	70％
			Bank Marketing	MLP	93.41％
Bank Marketing	LR	89.87％
			Census Income	MLP	86.28％
Census Income	LR	80.87％

实验环境：以下所有实验在MacBook上进行，其操作系统为macOs Catalina，配有2.7GHZ的Intel Core i7处理器，16G内存。

评估指标：为量化评估本发明所设计的方法，设计评估指标如下：

#Tests:被测模型执行的测试输入的数量；

#DTests：发现的个体公平性歧视实例的数量；

Time：执行所有测试输入所花费的CPU时间；

所有的测试输入中发现个体公平性歧视实例的占比；

单位CPU时间发现的个体公平性歧视实例数量。

这里主要对比目前性能最好的黑盒公平性测试方法，包括背景技术中提到的AEQUITAS和SG。AEQUITAS和SG的相关文献中指出，THEMIS随机采样生成个体公平性歧视实例的效率远低于AEQUITAS和SG，故而不对比THEMIS的实验效果。

实验步骤：

1)对于表2中的每个被测模型，分别运行AEQUITAS、SG和本发明的方法，其中

AEQUITAS和SG按照其相关文献提供的最佳运行参数运行，本发明方法设定奖励

r₁＝100,r₂＝-3,r₃＝-4。

2)根据步骤1的运行结果，统计实验评估指标。

3)根据步骤2的统计结果进行对比分析。

实验结果：

表3 AEQUITAS

数据集	模型	#Tests	#DTests	Time	G<sub>ratio</sub>	G<sub>rate</sub>
							Census Income	MLP	3609	608	66.3	16.8％	9.17
Census Income	LR	65539	3760	366	5％	10.27
							Bank Marketing	MLP	4579	1893	380	41.3％	4.98
Bank Marketing	LR	36259	937	692	2.58％	1.35
							German Credit	MLP	3864	667	158	17.3％	4.22
German Credit	LR	11738	545	117	4％	4.65

表4 SG

数据集	模型	#Tests	#DTests	Time	G<sub>ratio</sub>	G<sub>rate</sub>
							Census Income	MLP	1000	200	613	20％	0.32
Census Income	LR	1000	82	1070	0.82％	0.07
							Bank Marketing	MLP	1000	702.33	743	70.2％	0.94
Bank Marketing	LR	1000	92.33	1114	9.23％	0.08
							German Credit	MLP	1000	703	757.6	70.3％	0.93
German Credit	LR	1000	74	1035	0.74％	0.07

表5本发明的方法

数据集

模型

#Tests

#DTests

Time

G<sub>ratio</sub>

G<sub>rate</sub>

Census Income

MLP

86176

39171

883

45.4％(2.27X)

44.36(4.83X)

Census Income

LR

85029

37689

753

44.3％(8.87X)

50.05(4.87X)

Bank Marketing

MLP

84241

48946

1029

58.1％(0.82X)

47.56(9.55X)

Bank Marketing

LR

80250

12659

834

15.78％(1.70X)

15.17(11.23X)

German Credit

MLP

79597

23978

871

30.12％(0.43X)

27.52(6.52X)

German Credit

LR

84858

30801

761

36.29％(9.07X)

40.47(8.70X)

实验结果如表3、4、5所示。在表5的G_ratio、G_rate列中“(kX)”代表本发明方法的相应评估指标值是AEQUITAS和SG相应评估指标最大值的k倍。从结果可以看出，本发明方法在6个模型上单位时间内检测歧视实例的效率G_rate均高于目前最好的黑盒方法AEQUITAS和SG。总的来说，本发明方法在相同时间内，可以比目前最好的黑盒公平性测试算法多发现4到10倍的歧视实例。并且在4个被测模型上，本发明方法生成的测试数据中歧视实例的比值也超过了目前最好的黑盒公平性测试算法。在数据集German Credit和Bank Marketing训练而来的MLP模型上，本发明方法的G_ratio指标虽然低于SG，但在G_rate指标上比SG高7到10倍，这里主要是因为SG采用符号执行技术指导歧视实例生成需要较大的时间开销。

综上所述，本发明提出的一种基于深度强化学习的黑盒公平性测试方法，可以更少的测试代价，发现更多的歧视实例，提高了机器学习模型黑盒公平性测试效率，且适用于各种机器学习模型。

基于同一发明构思，本发明的另一实施例提供一种电子装置(计算机、服务器、智能手机等)，其包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行本发明方法中各步骤的指令。

基于同一发明构思，本发明的另一实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现本发明方法的各个步骤。

本发明的其它实施方式：

本发明不限定对测试环境的输入动作类型，以及测试数据的构造方式(如组合动作，即对当前状态的多个非保护特征值进行同步或同时置换等)。

本发明不限定奖励计算子模块对动作或状态的奖励计算方式(如奖励值r₁、r₂、r₃随测试的迭代进行而动态调整等)。

本发明不限定智能体采用的策略学习模型及更新方式(如其它强化学习模型和学习算法)。

以上公开的本发明的具体实施例，其目的在于帮助理解本发明的内容并据以实施，本领域的普通技术人员可以理解，在不脱离本发明的精神和范围内，各种替换、变化和修改都是可能的。本发明不应局限于本说明书的实施例所公开的内容，本发明的保护范围以权利要求书界定的范围为准。

Claims

1.一种基于深度强化学习的机器学习模型黑盒公平性测试方法，其特征在于，包括以下步骤：

构建机器学习模型黑盒公平性测试环境；

统计根据学习的最优歧视实例生成策略生成的歧视实例，得到机器学习模型黑盒公平性测试结果；

所述机器学习模型黑盒公平性测试环境，包括测试数据生成子模块、被测黑盒机器学习模型和奖励计算子模块；所述测试数据生成子模块从训练数据中随机采样一个数据作为初始环境状态s₀；当前环境状态s下，接收强化学习智能体输入的动作α，将动作α分解为维度index和偏移量b，将状态s对应的维度index的特征值加上偏移量b，生成下一个状态s′；状态s′作为测试数据输入所述被测黑盒机器学习模型，判断在状态s′下是否产生个体公平性歧视；将状态s′和个体公平性歧视的判断结果输入所述奖励计算子模块，将状态s′和奖励返回给强化学习智能体；

所述动作α是对状态s在维度index上的特定干扰，从而得到新的状态；所述维度index对应于非保护特征a_index∈A\P，其中A是被测黑盒机器学习模型的输入特征集合，