CN115049072A - 一种在二分类中同时实现差分隐私和机器学习公平的方法 - Google Patents

一种在二分类中同时实现差分隐私和机器学习公平的方法 Download PDF

Info

Publication number
CN115049072A
CN115049072A CN202210656450.0A CN202210656450A CN115049072A CN 115049072 A CN115049072 A CN 115049072A CN 202210656450 A CN202210656450 A CN 202210656450A CN 115049072 A CN115049072 A CN 115049072A
Authority
CN
China
Prior art keywords
objective function
polynomial
fairness
function
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210656450.0A
Other languages
English (en)
Inventor
王豪
许加炜
雷建军
张清华
夏英
张旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202210656450.0A priority Critical patent/CN115049072A/zh
Publication of CN115049072A publication Critical patent/CN115049072A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Computer Hardware Design (AREA)
  • Pure & Applied Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种在二分类中同时实现差分隐私和机器学习公平的方法,属于机器学习领域。将隐私和公平需求转化为一个多目标优化问题。首先,根据安全需求设置隐私保护强度及相关超参数;随后通过加权将反事实公平加入到目标函数中;接着将得到的新目标函数用泰勒公式展开,计算全局敏感度;然后根据得到的全局敏感度和隐私保护强度生成符合要求的高斯噪声;最后,使用得到的噪声扰动目标函数的多项式系数并执行梯度下降,计算最优权重。解决了在二分类中没有同时实现隐私和机器学习公平的问题。

Description

一种在二分类中同时实现差分隐私和机器学习公平的方法
技术领域
本发明属于机器学习领域,涉及一种在二分类中同时实现差分隐私和机器学习公平的方法。
背景技术
随着信息技术的快速发展,人类社会每天产生海量的数据。数据量的不断增多,算力的不断提升,使得机器学习算法的性能不断提高。为此,人工智能被越来越多地应用于人类生活的公共领域,成为辅助人们做决策的重要工具。但随着人工智能涉及范围的不断扩大,其引发的隐私和公平问题也越来越突出。首先,机器学习算法的正常运行依赖于大量的敏感信息。模型发布后,攻击者可以通过链接查询的方式来判断某个个体是否参与了模型的训练,进而获取该个体的敏感信息。其次,在金融借贷,信用评估,犯罪预测等涉及到性别、种族、学历等敏感属性的领域,人工智能可能会对受保护群体提供不公平的服务。无论是信息泄露,还是不公正的服务,都会对用户造成无法逆转的伤害。因此,如何在保证较高精度的前提下尽可能地实现隐私和公平,是现阶段亟待解决的难题。
针对可能存在的链接攻击问题,Dwork在2006年提出了差分隐私。它将查询的结果概率化,进而防止有任何辅助知识的攻击者从查询结果中推断出敏感信息。差分隐私是一种从数学上严格定义保护强度和数据可用性的隐私保护手段,是近年来隐私保护领域研究的热点。
针对可能存在的不公平问题,Kusner提出了反事实公平规则。当模型对个体的预测结果与其在反事实世界中的预测结果不同时,予以惩罚。将反事实公平作为目标函数的惩罚项,通过调整惩罚项的系数即可实现精度和公平之间的平衡。
目前,机器学习领域的大多数研究通常聚焦于单一的隐私问题或公平问题,而对于隐私问题和公平问题的联合研究相对较少。因此,如何同时实现差分隐私和机器学习公平是一个亟待解决的问题。
发明内容
有鉴于此,本发明的目的在于提供一种在二分类中同时实现差分隐私和机器学习公平的方法。把公平和隐私需求看作模型训练过程中需要实现的两个目标函数,将该问题转化成一个多目标优化问题。为了简化求解,本发明通过加权的方式将多目标问题转化为单目标问题。首先,通过加权将反事实公平性约束加入到目标函数中,得到新的目标函数;其次,验证函数的连续可微分性。若目标函数服从连续可微,则对其执行泰勒展开操作,否则,函数不可行,结束;然后根据展开的结果计算多项式系数的全局敏感度,将高斯噪声加入到目标函数的多项式系数中;最后求解梯度,执行梯度下降,直至函数收敛。得到同时实现差分隐私和机器学习公平性时的权重。
为达到上述目的,本发明提供如下技术方案:
一种在二分类中同时实现差分隐私和机器学习公平的方法,该方法包括以下步骤:
步骤S1,数据预处理;包括以下步骤:
步骤S1-1,首先对数据集执行one-hot编码,然后将数据集的多值属性拆解成多个二值属性,得到新的特征x1,x2...xd
步骤S1-2,对新的数据集执行标准化操作;让数据集的均值为0;假设数据集中包含n条数据,均值
Figure BDA0003688108020000021
x=x-u;
步骤S1-3,让数据集的方差为1,
Figure BDA0003688108020000022
x=x/σ;
步骤S2,设置相关参数;包括以下步骤:
步骤S2-1,根据隐私保护需求设置相应的隐私保护强度∈;
步骤S2-2,根据精度及公平需求设置平衡超参数α;
步骤S3,生成新的目标函数;包括以下步骤:
步骤S3-1,生成公平约束;假设ti表示数据集中的一条记录,原目标函数为f(ω,ti),预测结果为y′,实际结果为y;敏感属性为s;s=0表示非代表性属性,s=1表示代表性属性;则反事实公平约束con表示为:
con=((y′|s=0)-0.5)*(b′|s=1)-0.5)
步骤S3-2,将公平性约束加权到目标函数上;用超参数α调节精度与公平性约束之间的平衡;当g小于0时,表示在现实世界和反事实世界中的预测结果一致;则新的目标函数为
Figure BDA0003688108020000023
步骤S4,验证连续可微分性;验证目标函数的连续可微分性,如果满足连续可微,执行步骤5,否则结束;
步骤S5,展开目标函数;根据Stone-Weierstrass定理,任何连续可微分的函数f(x)由一个多项式Axn+Bxn-1...+Kx1+bX0来表示;函数f(x)在x=x0处的泰勒展开式表示为:
Figure BDA0003688108020000031
将新的目标函数
Figure BDA0003688108020000032
在x=0处进行展开,得到的多项式目标函数
Figure BDA0003688108020000033
步骤S6,计算目标函数的全局敏感度Δf,包括以下步骤:
步骤S7,噪声加入;向多项式目标函数的系数中加入高斯噪声;设δ=1*10-5
Figure BDA0003688108020000034
则扰动后的多项式系数为:
Figure BDA0003688108020000035
步骤S8,对目标函数执行梯度下降操作;根据得到的噪声多项式函数计算梯度,执行梯度下降操作;重复此步骤,直到函数收敛;得到满足差分隐私和机器学习公平的权重;
步骤S9,模型发布;不断调节超参数α,平衡模型精度与安全性之间的关系,当同时达到要求精度和安全需求后,发布模型。
可选的,所述S6具体包括:
步骤S6-1,分别计算相邻数据集D和D′上的目标函数;φ表示权重中各个分量的运算结果,Φj为幂为j的φ对应的集合,λ为多项式系数;对于数据集D,它的多项式目标函数表示为
Figure BDA0003688108020000036
对于数据集D′,它的多项式目标函数为
Figure BDA0003688108020000037
步骤S6-2,计算多项式系数上的全局敏感度Δf;将S6-1得到的多项式目标函数作差,得到
Figure BDA0003688108020000041
基于所述方法的在二分类中同时实现差分隐私和机器学习公平的系统,该系统包括以下模块,
数据预处理模块,用于对收集到的数据进行预处理和规约;该模块包括以下子单元;
第一单元,将多值属性x(i)转化为多个二值属性x(i1),x(i2)...x(ik)
第二单元,令数据集各个特征的均值为0;对具有n条记录的数据集,计算其均值
Figure BDA0003688108020000042
用每条属性的值减去均值x=x-u;
第三单元,令数据集的方差为1;计算包含n条记录数据集的方差
Figure BDA0003688108020000043
再用每条记录除以方差σ,有x=x/σ;
目标函数生成模块;根据原目标函数和公平性约束,生成新的目标函数;包括以下子模块;
第一单元,超参数设置;根据需求设置模型的隐私保护强度∈以及用于平衡公平与精度之间的超参数α;
第二单元,生成公平性约束项;依照反事实公平规则,对反事实世界与现实世界预测结果不一致的情况进行惩罚;二分类使用sigmoid函数刻画,当预测结果大于0.5时,分类为1;当预测结果小于0.5,预测结果为0;设预测结果为y′,敏感属性s∈(0,1),则约束项con=((y′|s=0)-0.5)*((y′|s=1)-0.5);当约束con小于0时,表示反事实世界与现实世界预测结果不一致,反之亦然;
第三单元,将公平性约束加权到目标函数上;对约束项取反;使用超参数α来调节精度和公平性约束之间的关系,新的目标函数
Figure BDA0003688108020000044
目标函数展开模块,用于生成一个近似的多项式来渐进目标函数;包括以下子单元;
第一单元,检测目标函数的连续可微分性;若目标函数在定义域内满足连续可微分性,执行后续单元,否则结束;
第二单元,多项式生成;根据Stone-Weierstrass定理,任何连续可微分的函数f(x)由一个多项式函数表示;使用泰勒展开公式将目标函数在0处展开,多项式目标函数
Figure BDA0003688108020000045
多目标函数g(ω)展开项数越高,时间复杂度越高,且根据多项式系数计算出的全局敏感度Δf也越高,就会导致注入过量的噪声;用2-3阶的泰勒展开式去近似多项式目标函数:
Figure BDA0003688108020000051
敏感度计算模块,用于计算多项式目标函数系数上的全局敏感度,包括以下子单元;
第一单元,求解兄弟数据集的近似目标函数;对于兄弟数据集D和D′;φ表示权重中各个分量的运算结果,Φj表示幂为j的φ对应的集合,λ为多项式系数;数据集D的近似多项式目标函数表示为
Figure BDA0003688108020000052
数据集D′的近似多项式目标函数为
Figure BDA0003688108020000053
第二单元,计算全局敏感度Δf;对兄弟数据集D和D′的近似多项式目标函数作差,令
Figure BDA0003688108020000054
扰动模块,用于向目标函数的多项式系数中加入高斯噪声,包括以下子单元:
第一单元,基于得到的隐私保护强度∈和敏感度计算模块得到的全局敏感度Δf,生成高斯分布噪声;设δ=1*10-5,高斯噪声的标准差
Figure BDA0003688108020000055
生成噪声Gauss(0,σ2);
第二单元,将生成的高斯噪声加入到目标函数的多项式系数中;扰动后的多项式系数
Figure BDA0003688108020000056
发布模块,用于发布满足隐私和公平需求的权重;包括以下子单元:
第一单元,求解梯度;在扰动后的目标函数上执行梯度下降,直至函数收敛,得到权重
Figure BDA0003688108020000057
不断调节超参数α,重复实验,得到多组权重;
第二单元,发布模型;从第一单元中得到的一系列权重中选择最优的权重发布。
本发明的有益效果在于:
(1)本发明在二分类中同时实现了差分隐私与机器学习公平;
(2)本发明将差分隐私作用在目标函数中,不需对梯度进行裁剪,因此不会引入额外的公平性开销;
(3)本发明可以根据用户对隐私保护强度、精度以及安全性需求,生成符合条件的高斯噪声,进而实现隐私和公平需求;
(4)本发明的实施过程和步骤,包括生成目标函数,计算全局敏感度,加入高斯噪声等,简单易操作。只需要保证目标函数是连续可微分,就能应用在实际问题中。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为实施例提供的总体方法流程图;
图2为实施例提供的具体步骤流程图;
图3为实施例提供的发布系统总体示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
以下以人口普查收入数据集Adult为例,来阐述本发明的具体实施步骤。Adult是一个分类数据集,用来预测年收入是否超过50K美元。它包括年龄、工种、学历、职业等14种属性变量,48842条记录。但该数据集本身是不均衡的,其中32650条记录为男性,16192条记录为女性。使用Logistic回归对该数据集进行预测,男性记录的准确率比女性记录的准确率高12.09%。本发明的目标就是在模型中加入差分隐私机制,防止隐私泄露,并保证不同群体间预测精度尽可能的接近。
本发明技术方案所提供的方法可采用计算机软件技术实现自动化运行流程,图1和图2 分别是实施本发明的总体方法流程图,图3为实施例提供的发布系统总体示意图。本发明提供的特定语义敏感度的高斯噪声生成方法的实施例具体步骤包括:
步骤S1,数据预处理。对原始数据进行预处理和规约。首先对数据进行清理,处理缺失值和异常值,删除无用的列。然后,对于Adult剩余的9条特征,将多值特征转化为2值。将年龄转化为50岁以上,和50岁以下两类。职业,婚姻状况等多值属性转换为多个2值属性。例如将婚姻状况这个7值属性转换为是否已婚,是否丧偶,是否单身,是否离异4类。得到包含d个属性的数据X=x1,x2,...xd,再对X进行标准化处理。先让数据集的均值为0,对于数据集中的n条数据,均值
Figure BDA0003688108020000071
x=x-u。再让数据集的方差为1,方差
Figure BDA0003688108020000072
x=x/σ。
实施例中,将原始数据进行规约和预处理后,得到数据X={x1,x2,...x105}
步骤S2,设置隐私保护强度。根据隐私保护需求,设置隐私保护强度∈。
实施例中,设置隐私保护强度∈=0.1,具体实施时可由安全技术人员自行设置隐私保护强度。
步骤S3,生成新的目标函数。通过加权将反事实公平约束加入到目标函数中。预测函数为
Figure BDA0003688108020000073
目标函数为f(ω,ti),约束项
Figure BDA0003688108020000074
约束项为负表示现实世界与反事实世界的预测结果不同,所以对约束项取反。新的目标函数
Figure BDA0003688108020000075
实施例中,模型使用Logistic回归,预测使用sigmoid函数,损失函数为交叉熵。预测函数
Figure BDA0003688108020000076
损失函数
Figure BDA0003688108020000077
取超参数α为0.2,则新的目标函数可以表示为:
Figure BDA0003688108020000078
步骤S4,验证目标函数的连续可微分性。如果目标函数在定义域上连续可微分,进行步骤5,否则结束。
实施例中,交叉熵函数和约束项在定义域上处处连续可导,满足连续可微分的定义,进行步骤5。
步骤S5,将目标函数以多项式的形式展开。使用泰勒展开公式将目标函数在X=0处展开,得到的多项式目标函数
Figure BDA0003688108020000081
用φ表示权重中各个分量的运算结果,Φj为幂为j的φ对应的集合,λ为多项式系数。
Figure BDA0003688108020000082
实施例中,使用泰勒展开式将目标函数在x=0处展开到2阶。近似多项式函数
Figure BDA0003688108020000083
步骤S6,计算全局敏感度。根据兄弟数据集D和D′的近似多项式目标函数计算全局敏感度Δf
实施例中,对于数据集D,D′。它们的近似多项式目标函数可以表示为
Figure BDA0003688108020000084
Figure BDA0003688108020000085
对二者作差有
Figure BDA0003688108020000086
带入值计算可得
Figure BDA0003688108020000087
步骤S7,在近似多项式目标函数的系数中加入高斯噪声噪声。
实施例中,设δ=1*10-5
Figure BDA0003688108020000088
则扰动后的多项式系数
Figure BDA0003688108020000089
步骤S8,根据得到的噪声多项式函数计算梯度,执行梯度下降,求解权重
Figure BDA00036881080200000810
实施例中,计算得到的权重
Figure BDA00036881080200000811
权重的长度为105。
步骤S9,模型发布。不断调节超参数α,用来平衡模型精度与安全性之间的关系,当同时达到要求精度和安全需求后,发布模型。
实施例中,调节超参数α=0.1,得到发布权重
Figure BDA0003688108020000091
Figure BDA0003688108020000092
具体实施中,本发明所提供方法可以基于软件技术实现自动运行流程,也可采用模块化方式实现相应系统。
数据预处理模块,用于对收集到的数据进行预处理和规约。方便后续对模型进行训练以及全局敏感度的求解。该模块包括以下子单元。
第一单元,将多值属性x(i)转化为多个二值属性x(i1),x(i2)...x(ik)
第二单元,令数据集各个特征的均值为0。对具有n条记录的数据集,计算其均值
Figure BDA0003688108020000093
用每条属性的值减去均值x=x-u;
第三单元,令数据集的方差为1。计算包含n条记录数据集的方差
Figure BDA0003688108020000094
再用每条记录除以方差σ,有x=x/σ。
目标函数生成模块。根据原目标函数和公平性约束,生成新的目标函数。包括以下子模块。
第一单元,超参数设置。根据需求设置模型的隐私保护强度∈以及用于平衡公平与精度之间的超参数α;
第二单元,生成公平性约束项。依照反事实公平规则,对反事实世界与现实世界预测结果不一致的情况进行惩罚。二分类使用sigmoid函数刻画,当预测结果大于0.5时,分类为1。当预测结果小于0.5,预测结果为0。设预测结果为y′,敏感属性s∈(0,1),则约束项con=((y′|s=0)-0.5)*((y′|s=1)-0.5)。当约束con小于0时,表示反事实世界与现实世界预测结果不一致,反之亦然;
第三单元,将公平性约束加权到目标函数上。因为梯度下降的结果是使目标函数尽可能的小,所以需要对约束项取反。使用超参数α来调节精度和公平性约束之间的关系,新的目标函数
Figure BDA0003688108020000095
目标函数展开模块,用于生成一个近似的多项式来渐进目标函数。包括以下子单元。
第一单元,检测目标函数的连续可微分性。若目标函数在定义域内满足连续可微分性,执行后续单元,否则结束。
第二单元,多项式生成。根据Stone-Weierstrass定理,任何连续可微分的函数f(x)可以由一个多项式函数表示。使用泰勒展开公式将目标函数在0处展开,多项式目标函数
Figure BDA0003688108020000101
多目标函数g(ω)展开项数越高,时间复杂度越高,且根据多项式系数计算出的全局敏感度Δf也越高,就会导致注入过量的噪声。所以用 2-3阶的泰勒展开式去近似多项式目标函数
Figure BDA0003688108020000102
敏感度计算模块,用于计算多项式目标函数系数上的全局敏感度,包括以下子单元。
第一单元,求解兄弟数据集的近似目标函数。对于兄弟数据集D和D′。φ表示权重中各个分量的运算结果,Φj表示幂为j的φ对应的集合,λ为多项式系数。
数据集D的近似多项式目标函数为
Figure BDA0003688108020000103
数据集D′的近似多项式目标函数为
Figure BDA0003688108020000104
第二单元,计算全局敏感度Δf。对兄弟数据集D和D′的近似多项式目标函数作差,令
Figure BDA0003688108020000105
扰动模块,用于向目标函数的多项式系数中加入高斯噪声,包括以下子单元:
第一单元,基于步骤S2得到的隐私保护强度∈和敏感度计算模块得到的全局敏感度Δf,生成高斯分布噪声。设δ=1*10-5,高斯噪声的标准差
Figure BDA0003688108020000106
生成噪声Gauss(0,σ2);
第二单元,将生成的高斯噪声加入到目标函数的多项式系数中。扰动后的多项式系数
Figure BDA0003688108020000107
发布模块,用于发布满足隐私和公平需求的权重。包括以下子单元
第一单元,求解梯度。在扰动后的目标函数上执行梯度下降,直至函数收敛,得到权重
Figure BDA0003688108020000108
不断调节超参数α,重复实验,得到多组权重。
第二单元,发布模型。从第一单元中得到的一系列权重中选择最优的权重发布。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (3)

1.一种在二分类中同时实现差分隐私和机器学习公平的方法,其特征在于:该方法包括以下步骤:
步骤S1,数据预处理;包括以下步骤:
步骤S1-1,首先对数据集执行one-hot编码,然后将数据集的多值属性拆解成多个二值属性,得到新的特征x1,x2...xd
步骤S1-2,对新的数据集执行标准化操作;让数据集的均值为0;假设数据集中包含n条数据,均值
Figure FDA0003688108010000011
x=x-u;
步骤S1-3,让数据集的方差为1,
Figure FDA0003688108010000012
x=x/σ;
步骤S2,设置相关参数;包括以下步骤:
步骤S2-1,根据隐私保护需求设置相应的隐私保护强度∈;
步骤S2-2,根据精度及公平需求设置平衡超参数α;
步骤S3,生成新的目标函数;包括以下步骤:
步骤S3-1,生成公平约束;假设ti表示数据集中的一条记录,原目标函数为f(ω,ti),预测结果为y′,实际结果为y;敏感属性为s;s=0表示非代表性属性,s=1表示代表性属性;则反事实公平约束con表示为:
con=((y′|s=0)-0.5)*((y′|s=1)-0.5)
步骤S3-2,将公平性约束加权到目标函数上;用超参数α调节精度与公平性约束之间的平衡;当g小于0时,表示在现实世界和反事实世界中的预测结果一致;则新的目标函数为
Figure FDA0003688108010000013
步骤S4,验证连续可微分性;验证目标函数的连续可微分性,如果满足连续可微,执行步骤5,否则结束;
步骤S5,展开目标函数;根据Stone-Weierstrass定理,任何连续可微分的函数f(x)由一个多项式Axn+Bxn-1...+Kx1+bX0来表示;函数f(x)在x=x0处的泰勒展开式表示为:
Figure FDA0003688108010000021
将新的目标函数
Figure FDA0003688108010000022
在x=0处进行展开,得到的多项式目标函数
Figure FDA0003688108010000023
步骤S6,计算目标函数的全局敏感度Δf,包括以下步骤:
步骤S7,噪声加入;向多项式目标函数的系数中加入高斯噪声;设
Figure FDA0003688108010000024
则扰动后的多项式系数为:
Figure FDA0003688108010000025
步骤S8,对目标函数执行梯度下降操作;根据得到的噪声多项式函数计算梯度,执行梯度下降操作;重复此步骤,直到函数收敛;得到满足差分隐私和机器学习公平的权重;
步骤S9,模型发布;不断调节超参数α,平衡模型精度与安全性之间的关系,当同时达到要求精度和安全需求后,发布模型。
2.根据权利要求1一种在二分类中同时实现差分隐私和机器学习公平的方法,其特征在于:所述S6具体包括:
步骤S6-1,分别计算相邻数据集D和D′上的目标函数;φ表示权重中各个分量的运算结果,Φj为幂为j的φ对应的集合,λ为多项式系数;对于数据集D,它的多项式目标函数表示为
Figure FDA0003688108010000026
对于数据集D′,它的多项式目标函数为
Figure FDA0003688108010000027
步骤S6-2,计算多项式系数上的全局敏感度Δf;将S6-1得到的多项式目标函数作差,得到
Figure FDA0003688108010000031
3.基于权利要求1或2中所述方法的在二分类中同时实现差分隐私和机器学习公平的系统,其特征在于:该系统包括以下模块,
数据预处理模块,用于对收集到的数据进行预处理和规约;该模块包括以下子单元;
第一单元,将多值属性x(i)转化为多个二值属性x(i1),x(i2)...x(ik)
第二单元,令数据集各个特征的均值为0;对具有n条记录的数据集,计算其均值
Figure FDA0003688108010000032
用每条属性的值减去均值x=x-u;
第三单元,令数据集的方差为1;计算包含n条记录数据集的方差
Figure FDA0003688108010000033
再用每条记录除以方差σ,有x=x/σ;
目标函数生成模块;根据原目标函数和公平性约束,生成新的目标函数;包括以下子模块;
第一单元,超参数设置;根据需求设置模型的隐私保护强度∈以及用于平衡公平与精度之间的超参数α;
第二单元,生成公平性约束项;依照反事实公平规则,对反事实世界与现实世界预测结果不一致的情况进行惩罚;二分类使用sigmoid函数刻画,当预测结果大于0.5时,分类为1;当预测结果小于0.5,预测结果为0;设预测结果为y′,敏感属性s∈(0,1),则约束项con=((y′|s=0)-0.5)*((y′|s=1)-0.5);当约束con小于0时,表示反事实世界与现实世界预测结果不一致,反之亦然;
第三单元,将公平性约束加权到目标函数上;对约束项取反;使用超参数α来调节精度和公平性约束之间的关系,新的目标函数
Figure FDA0003688108010000034
目标函数展开模块,用于生成一个近似的多项式来渐进目标函数;包括以下子单元;
第一单元,检测目标函数的连续可微分性;若目标函数在定义域内满足连续可微分性,执行后续单元,否则结束;
第二单元,多项式生成;根据Stone-Weierstrass定理,任何连续可微分的函数f(x)由一个多项式函数表示;使用泰勒展开公式将目标函数在0处展开,多项式目标函数
Figure FDA0003688108010000035
多目标函数g(ω)展开项数越高,时间复杂度越高,且根据多项式系数计算出的全局敏感度Δf也越高,就会导致注入过量的噪声;用2-3阶的泰勒展开式去近似多项式目标函数:
Figure FDA0003688108010000041
敏感度计算模块,用于计算多项式目标函数系数上的全局敏感度,包括以下子单元;
第一单元,求解兄弟数据集的近似目标函数;对于兄弟数据集D和D′;φ表示权重中各个分量的运算结果,Φj表示幂为j的φ对应的集合,λ为多项式系数;数据集D的近似多项式目标函数表示为
Figure FDA0003688108010000042
数据集D′的近似多项式目标函数为
Figure FDA0003688108010000043
第二单元,计算全局敏感度Δf;对兄弟数据集D和D′的近似多项式目标函数作差,令
Figure FDA0003688108010000044
扰动模块,用于向目标函数的多项式系数中加入高斯噪声,包括以下子单元:
第一单元,基于得到的隐私保护强度∈和敏感度计算模块得到的全局敏感度Δf,生成高斯分布噪声;设δ=1*10-5,高斯噪声的标准差
Figure FDA0003688108010000045
生成噪声Gauss(0,σ2);
第二单元,将生成的高斯噪声加入到目标函数的多项式系数中;扰动后的多项式系数
Figure FDA0003688108010000046
发布模块,用于发布满足隐私和公平需求的权重;包括以下子单元:
第一单元,求解梯度;在扰动后的目标函数上执行梯度下降,直至函数收敛,得到权重
Figure FDA0003688108010000047
不断调节超参数α,重复实验,得到多组权重;
第二单元,发布模型;从第一单元中得到的一系列权重中选择最优的权重发布。
CN202210656450.0A 2022-06-10 2022-06-10 一种在二分类中同时实现差分隐私和机器学习公平的方法 Pending CN115049072A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210656450.0A CN115049072A (zh) 2022-06-10 2022-06-10 一种在二分类中同时实现差分隐私和机器学习公平的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210656450.0A CN115049072A (zh) 2022-06-10 2022-06-10 一种在二分类中同时实现差分隐私和机器学习公平的方法

Publications (1)

Publication Number Publication Date
CN115049072A true CN115049072A (zh) 2022-09-13

Family

ID=83162381

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210656450.0A Pending CN115049072A (zh) 2022-06-10 2022-06-10 一种在二分类中同时实现差分隐私和机器学习公平的方法

Country Status (1)

Country Link
CN (1) CN115049072A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116502278A (zh) * 2023-06-30 2023-07-28 长江三峡集团实业发展(北京)有限公司 一种数据隐私保护方法、系统、计算机设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116502278A (zh) * 2023-06-30 2023-07-28 长江三峡集团实业发展(北京)有限公司 一种数据隐私保护方法、系统、计算机设备及介质
CN116502278B (zh) * 2023-06-30 2023-10-20 长江三峡集团实业发展(北京)有限公司 一种数据隐私保护方法、系统、计算机设备及介质

Similar Documents

Publication Publication Date Title
Barak et al. A novel hybrid fuzzy DEA-Fuzzy MADM method for airlines safety evaluation
Kamishima et al. Fairness-aware classifier with prejudice remover regularizer
Zhang et al. Explainable AI in deep reinforcement learning models for power system emergency control
Saberi et al. A granular computing-based approach to credit scoring modeling
Khayyam et al. A novel hybrid machine learning algorithm for limited and big data modeling with application in industry 4.0
Huang et al. New evaluation methods for conceptual design selection using computational intelligence techniques
Li et al. A new approach for manufacturing forecast problems with insufficient data: the case of TFT–LCDs
Viattchenin et al. Designing Gaussian membership functions for fuzzy classifier generated by heuristic possibilistic clustering
Shi et al. Dynamic barycenter averaging kernel in RBF networks for time series classification
Kumar et al. Cloud-based electricity consumption analysis using neural network
Kou et al. An analytic hierarchy model for classification algorithms selection in credit risk analysis
Zheng et al. Co-evolutionary fuzzy deep transfer learning for disaster relief demand forecasting
CN115049072A (zh) 一种在二分类中同时实现差分隐私和机器学习公平的方法
Wang et al. The criticality of spare parts evaluating model using artificial neural network approach
CN114240687A (zh) 一种适用于综合能源系统的能源托管效率分析方法
Lee et al. Wind power pattern forecasting based on projected clustering and classification methods
Surono et al. Implementation of Takagi Sugeno Kang fuzzy with rough set theory and mini-batch gradient descent uniform regularization
Guo et al. Mobile user credit prediction based on lightgbm
Zhang et al. A contrastive study of machine learning on funding evaluation prediction
Yan et al. An area-based metrics to evaluate risk in failure mode and effects analysis under uncertainties
Li et al. A comprehensive learning-based model for power load forecasting in smart grid
Li et al. Recidivism early warning model based on rough sets and the improved K-prototype clustering algorithm and a back propagation neural network
Liu et al. STA-APSNFIS: STA-optimized adaptive pre-sparse neuro-fuzzy inference system for online soft sensor modeling
Wang et al. Advantages of combining factorization machine with Elman neural network for volatility forecasting of stock market
Liu et al. Learning-assisted intelligent risk assessment of highway project investment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220913