CN115049072A

CN115049072A - 一种在二分类中同时实现差分隐私和机器学习公平的方法

Info

Publication number: CN115049072A
Application number: CN202210656450.0A
Authority: CN
Inventors: 王豪; 许加炜; 雷建军; 张清华; 夏英; 张旭
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-06-10
Filing date: 2022-06-10
Publication date: 2022-09-13

Abstract

本发明涉及一种在二分类中同时实现差分隐私和机器学习公平的方法，属于机器学习领域。将隐私和公平需求转化为一个多目标优化问题。首先，根据安全需求设置隐私保护强度及相关超参数；随后通过加权将反事实公平加入到目标函数中；接着将得到的新目标函数用泰勒公式展开，计算全局敏感度；然后根据得到的全局敏感度和隐私保护强度生成符合要求的高斯噪声；最后，使用得到的噪声扰动目标函数的多项式系数并执行梯度下降，计算最优权重。解决了在二分类中没有同时实现隐私和机器学习公平的问题。

Description

一种在二分类中同时实现差分隐私和机器学习公平的方法

技术领域

本发明属于机器学习领域，涉及一种在二分类中同时实现差分隐私和机器学习公平的方法。

背景技术

随着信息技术的快速发展，人类社会每天产生海量的数据。数据量的不断增多，算力的不断提升，使得机器学习算法的性能不断提高。为此，人工智能被越来越多地应用于人类生活的公共领域，成为辅助人们做决策的重要工具。但随着人工智能涉及范围的不断扩大，其引发的隐私和公平问题也越来越突出。首先，机器学习算法的正常运行依赖于大量的敏感信息。模型发布后，攻击者可以通过链接查询的方式来判断某个个体是否参与了模型的训练，进而获取该个体的敏感信息。其次，在金融借贷，信用评估，犯罪预测等涉及到性别、种族、学历等敏感属性的领域，人工智能可能会对受保护群体提供不公平的服务。无论是信息泄露，还是不公正的服务，都会对用户造成无法逆转的伤害。因此，如何在保证较高精度的前提下尽可能地实现隐私和公平，是现阶段亟待解决的难题。

针对可能存在的链接攻击问题，Dwork在2006年提出了差分隐私。它将查询的结果概率化，进而防止有任何辅助知识的攻击者从查询结果中推断出敏感信息。差分隐私是一种从数学上严格定义保护强度和数据可用性的隐私保护手段，是近年来隐私保护领域研究的热点。

针对可能存在的不公平问题，Kusner提出了反事实公平规则。当模型对个体的预测结果与其在反事实世界中的预测结果不同时，予以惩罚。将反事实公平作为目标函数的惩罚项，通过调整惩罚项的系数即可实现精度和公平之间的平衡。

目前，机器学习领域的大多数研究通常聚焦于单一的隐私问题或公平问题，而对于隐私问题和公平问题的联合研究相对较少。因此，如何同时实现差分隐私和机器学习公平是一个亟待解决的问题。

发明内容

有鉴于此，本发明的目的在于提供一种在二分类中同时实现差分隐私和机器学习公平的方法。把公平和隐私需求看作模型训练过程中需要实现的两个目标函数，将该问题转化成一个多目标优化问题。为了简化求解，本发明通过加权的方式将多目标问题转化为单目标问题。首先，通过加权将反事实公平性约束加入到目标函数中，得到新的目标函数；其次，验证函数的连续可微分性。若目标函数服从连续可微，则对其执行泰勒展开操作，否则，函数不可行，结束；然后根据展开的结果计算多项式系数的全局敏感度，将高斯噪声加入到目标函数的多项式系数中；最后求解梯度，执行梯度下降，直至函数收敛。得到同时实现差分隐私和机器学习公平性时的权重。

为达到上述目的，本发明提供如下技术方案：

一种在二分类中同时实现差分隐私和机器学习公平的方法，该方法包括以下步骤：

步骤S1，数据预处理；包括以下步骤：

步骤S1-1，首先对数据集执行one-hot编码，然后将数据集的多值属性拆解成多个二值属性，得到新的特征x₁，x₂...x_d；

步骤S1-2，对新的数据集执行标准化操作；让数据集的均值为0；假设数据集中包含n条数据，均值

x＝x-u；

步骤S1-3，让数据集的方差为1，

x＝x/σ；

步骤S2，设置相关参数；包括以下步骤：

步骤S2-1，根据隐私保护需求设置相应的隐私保护强度∈；

步骤S2-2，根据精度及公平需求设置平衡超参数α；

步骤S3，生成新的目标函数；包括以下步骤：

步骤S3-1，生成公平约束；假设t_i表示数据集中的一条记录，原目标函数为f(ω，t_i)，预测结果为y′，实际结果为y；敏感属性为s；s＝0表示非代表性属性，s＝1表示代表性属性；则反事实公平约束con表示为：

con＝((y′|s＝0)-0.5)*(b′|s＝1)-0.5)

步骤S3-2，将公平性约束加权到目标函数上；用超参数α调节精度与公平性约束之间的平衡；当g小于0时，表示在现实世界和反事实世界中的预测结果一致；则新的目标函数为

步骤S4，验证连续可微分性；验证目标函数的连续可微分性，如果满足连续可微，执行步骤5，否则结束；

步骤S5，展开目标函数；根据Stone-Weierstrass定理，任何连续可微分的函数f(x)由一个多项式Axⁿ+Bxⁿ-1...+Kx¹+bX⁰来表示；函数f(x)在x＝x₀处的泰勒展开式表示为：

将新的目标函数

在x＝0处进行展开，得到的多项式目标函数

步骤S6，计算目标函数的全局敏感度Δf，包括以下步骤：

步骤S7，噪声加入；向多项式目标函数的系数中加入高斯噪声；设δ＝1*10^-5，

则扰动后的多项式系数为：

步骤S8，对目标函数执行梯度下降操作；根据得到的噪声多项式函数计算梯度，执行梯度下降操作；重复此步骤，直到函数收敛；得到满足差分隐私和机器学习公平的权重；

步骤S9，模型发布；不断调节超参数α，平衡模型精度与安全性之间的关系，当同时达到要求精度和安全需求后，发布模型。

可选的，所述S6具体包括：

步骤S6-1，分别计算相邻数据集D和D′上的目标函数；φ表示权重中各个分量的运算结果，Φ_j为幂为j的φ对应的集合，λ为多项式系数；对于数据集D，它的多项式目标函数表示为

对于数据集D′，它的多项式目标函数为

步骤S6-2，计算多项式系数上的全局敏感度Δf；将S6-1得到的多项式目标函数作差，得到

基于所述方法的在二分类中同时实现差分隐私和机器学习公平的系统，该系统包括以下模块，

数据预处理模块，用于对收集到的数据进行预处理和规约；该模块包括以下子单元；

第一单元，将多值属性x⁽ⁱ⁾转化为多个二值属性x⁽ⁱ¹⁾，x⁽ⁱ²⁾...x^(ik)；

第二单元，令数据集各个特征的均值为0；对具有n条记录的数据集，计算其均值

用每条属性的值减去均值x＝x-u；

第三单元，令数据集的方差为1；计算包含n条记录数据集的方差

再用每条记录除以方差σ，有x＝x/σ；

目标函数生成模块；根据原目标函数和公平性约束，生成新的目标函数；包括以下子模块；

第一单元，超参数设置；根据需求设置模型的隐私保护强度∈以及用于平衡公平与精度之间的超参数α；

第二单元，生成公平性约束项；依照反事实公平规则，对反事实世界与现实世界预测结果不一致的情况进行惩罚；二分类使用sigmoid函数刻画，当预测结果大于0.5时，分类为1；当预测结果小于0.5，预测结果为0；设预测结果为y′，敏感属性s∈(0，1)，则约束项con＝((y′|s＝0)-0.5)*((y′|s＝1)-0.5)；当约束con小于0时，表示反事实世界与现实世界预测结果不一致，反之亦然；

第三单元，将公平性约束加权到目标函数上；对约束项取反；使用超参数α来调节精度和公平性约束之间的关系，新的目标函数

目标函数展开模块，用于生成一个近似的多项式来渐进目标函数；包括以下子单元；

第一单元，检测目标函数的连续可微分性；若目标函数在定义域内满足连续可微分性，执行后续单元，否则结束；

第二单元，多项式生成；根据Stone-Weierstrass定理，任何连续可微分的函数f(x)由一个多项式函数表示；使用泰勒展开公式将目标函数在0处展开，多项式目标函数

多目标函数g(ω)展开项数越高，时间复杂度越高，且根据多项式系数计算出的全局敏感度Δf也越高，就会导致注入过量的噪声；用2-3阶的泰勒展开式去近似多项式目标函数：

敏感度计算模块，用于计算多项式目标函数系数上的全局敏感度，包括以下子单元；

第一单元，求解兄弟数据集的近似目标函数；对于兄弟数据集D和D′；φ表示权重中各个分量的运算结果，Φ_j表示幂为j的φ对应的集合，λ为多项式系数；数据集D的近似多项式目标函数表示为

数据集D′的近似多项式目标函数为

第二单元，计算全局敏感度Δf；对兄弟数据集D和D′的近似多项式目标函数作差，令

扰动模块，用于向目标函数的多项式系数中加入高斯噪声，包括以下子单元：

第一单元，基于得到的隐私保护强度∈和敏感度计算模块得到的全局敏感度Δf，生成高斯分布噪声；设δ＝1*10^-5，高斯噪声的标准差

生成噪声Gauss(0，σ²)；

第二单元，将生成的高斯噪声加入到目标函数的多项式系数中；扰动后的多项式系数

发布模块，用于发布满足隐私和公平需求的权重；包括以下子单元：

第一单元，求解梯度；在扰动后的目标函数上执行梯度下降，直至函数收敛，得到权重

不断调节超参数α，重复实验，得到多组权重；

第二单元，发布模型；从第一单元中得到的一系列权重中选择最优的权重发布。

本发明的有益效果在于：

(1)本发明在二分类中同时实现了差分隐私与机器学习公平；

(2)本发明将差分隐私作用在目标函数中，不需对梯度进行裁剪，因此不会引入额外的公平性开销；

(3)本发明可以根据用户对隐私保护强度、精度以及安全性需求，生成符合条件的高斯噪声，进而实现隐私和公平需求；

(4)本发明的实施过程和步骤，包括生成目标函数，计算全局敏感度，加入高斯噪声等，简单易操作。只需要保证目标函数是连续可微分，就能应用在实际问题中。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为实施例提供的总体方法流程图；

图2为实施例提供的具体步骤流程图；

图3为实施例提供的发布系统总体示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

以下以人口普查收入数据集Adult为例，来阐述本发明的具体实施步骤。Adult是一个分类数据集，用来预测年收入是否超过50K美元。它包括年龄、工种、学历、职业等14种属性变量，48842条记录。但该数据集本身是不均衡的，其中32650条记录为男性，16192条记录为女性。使用Logistic回归对该数据集进行预测，男性记录的准确率比女性记录的准确率高12.09％。本发明的目标就是在模型中加入差分隐私机制，防止隐私泄露，并保证不同群体间预测精度尽可能的接近。

本发明技术方案所提供的方法可采用计算机软件技术实现自动化运行流程，图1和图2 分别是实施本发明的总体方法流程图，图3为实施例提供的发布系统总体示意图。本发明提供的特定语义敏感度的高斯噪声生成方法的实施例具体步骤包括：

步骤S1，数据预处理。对原始数据进行预处理和规约。首先对数据进行清理，处理缺失值和异常值，删除无用的列。然后，对于Adult剩余的9条特征，将多值特征转化为2值。将年龄转化为50岁以上，和50岁以下两类。职业，婚姻状况等多值属性转换为多个2值属性。例如将婚姻状况这个7值属性转换为是否已婚，是否丧偶，是否单身，是否离异4类。得到包含d个属性的数据X＝x₁，x₂，...x_d，再对X进行标准化处理。先让数据集的均值为0，对于数据集中的n条数据，均值

x＝x-u。再让数据集的方差为1，方差

x＝x/σ。

实施例中，将原始数据进行规约和预处理后，得到数据X＝{x₁，x₂，...x₁₀₅}

步骤S2，设置隐私保护强度。根据隐私保护需求，设置隐私保护强度∈。

实施例中，设置隐私保护强度∈＝0.1，具体实施时可由安全技术人员自行设置隐私保护强度。

步骤S3，生成新的目标函数。通过加权将反事实公平约束加入到目标函数中。预测函数为

目标函数为f(ω，t_i)，约束项

约束项为负表示现实世界与反事实世界的预测结果不同，所以对约束项取反。新的目标函数

实施例中，模型使用Logistic回归，预测使用sigmoid函数，损失函数为交叉熵。预测函数

损失函数

取超参数α为0.2，则新的目标函数可以表示为：

步骤S4，验证目标函数的连续可微分性。如果目标函数在定义域上连续可微分，进行步骤5，否则结束。

实施例中，交叉熵函数和约束项在定义域上处处连续可导，满足连续可微分的定义，进行步骤5。

步骤S5，将目标函数以多项式的形式展开。使用泰勒展开公式将目标函数在X＝0处展开，得到的多项式目标函数

用φ表示权重中各个分量的运算结果，Φ_j为幂为j的φ对应的集合，λ为多项式系数。

实施例中，使用泰勒展开式将目标函数在x＝0处展开到2阶。近似多项式函数

步骤S6，计算全局敏感度。根据兄弟数据集D和D′的近似多项式目标函数计算全局敏感度Δf

实施例中，对于数据集D，D′。它们的近似多项式目标函数可以表示为

和

对二者作差有

带入值计算可得

步骤S7，在近似多项式目标函数的系数中加入高斯噪声噪声。

实施例中，设δ＝1*10^-5，

则扰动后的多项式系数

步骤S8，根据得到的噪声多项式函数计算梯度，执行梯度下降，求解权重

实施例中，计算得到的权重

权重的长度为105。

步骤S9，模型发布。不断调节超参数α，用来平衡模型精度与安全性之间的关系，当同时达到要求精度和安全需求后，发布模型。

实施例中，调节超参数α＝0.1，得到发布权重

具体实施中，本发明所提供方法可以基于软件技术实现自动运行流程，也可采用模块化方式实现相应系统。

数据预处理模块，用于对收集到的数据进行预处理和规约。方便后续对模型进行训练以及全局敏感度的求解。该模块包括以下子单元。

第二单元，令数据集各个特征的均值为0。对具有n条记录的数据集，计算其均值

用每条属性的值减去均值x＝x-u；

第三单元，令数据集的方差为1。计算包含n条记录数据集的方差

再用每条记录除以方差σ，有x＝x/σ。

目标函数生成模块。根据原目标函数和公平性约束，生成新的目标函数。包括以下子模块。

第一单元，超参数设置。根据需求设置模型的隐私保护强度∈以及用于平衡公平与精度之间的超参数α；

第二单元，生成公平性约束项。依照反事实公平规则，对反事实世界与现实世界预测结果不一致的情况进行惩罚。二分类使用sigmoid函数刻画，当预测结果大于0.5时，分类为1。当预测结果小于0.5，预测结果为0。设预测结果为y′，敏感属性s∈(0，1)，则约束项con＝((y′|s＝0)-0.5)*((y′|s＝1)-0.5)。当约束con小于0时，表示反事实世界与现实世界预测结果不一致，反之亦然；

第三单元，将公平性约束加权到目标函数上。因为梯度下降的结果是使目标函数尽可能的小，所以需要对约束项取反。使用超参数α来调节精度和公平性约束之间的关系，新的目标函数

目标函数展开模块，用于生成一个近似的多项式来渐进目标函数。包括以下子单元。

第一单元，检测目标函数的连续可微分性。若目标函数在定义域内满足连续可微分性，执行后续单元，否则结束。

第二单元，多项式生成。根据Stone-Weierstrass定理，任何连续可微分的函数f(x)可以由一个多项式函数表示。使用泰勒展开公式将目标函数在0处展开，多项式目标函数

多目标函数g(ω)展开项数越高，时间复杂度越高，且根据多项式系数计算出的全局敏感度Δf也越高，就会导致注入过量的噪声。所以用 2-3阶的泰勒展开式去近似多项式目标函数

敏感度计算模块，用于计算多项式目标函数系数上的全局敏感度，包括以下子单元。

第一单元，求解兄弟数据集的近似目标函数。对于兄弟数据集D和D′。φ表示权重中各个分量的运算结果，Φ_j表示幂为j的φ对应的集合，λ为多项式系数。

数据集D的近似多项式目标函数为

数据集D′的近似多项式目标函数为

第二单元，计算全局敏感度Δf。对兄弟数据集D和D′的近似多项式目标函数作差，令

第一单元，基于步骤S2得到的隐私保护强度∈和敏感度计算模块得到的全局敏感度Δf，生成高斯分布噪声。设δ＝1*10^-5，高斯噪声的标准差

生成噪声Gauss(0，σ²)；

第二单元，将生成的高斯噪声加入到目标函数的多项式系数中。扰动后的多项式系数

发布模块，用于发布满足隐私和公平需求的权重。包括以下子单元

第一单元，求解梯度。在扰动后的目标函数上执行梯度下降，直至函数收敛，得到权重

不断调节超参数α，重复实验，得到多组权重。

第二单元，发布模型。从第一单元中得到的一系列权重中选择最优的权重发布。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。