CN115563616B - 一种面向本地化差分隐私数据投毒攻击的防御方法 - Google Patents

一种面向本地化差分隐私数据投毒攻击的防御方法 Download PDF

Info

Publication number
CN115563616B
CN115563616B CN202210996394.5A CN202210996394A CN115563616B CN 115563616 B CN115563616 B CN 115563616B CN 202210996394 A CN202210996394 A CN 202210996394A CN 115563616 B CN115563616 B CN 115563616B
Authority
CN
China
Prior art keywords
data
node
central server
user
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210996394.5A
Other languages
English (en)
Other versions
CN115563616A (zh
Inventor
殷丽华
孙哲
陶富强
王滨
张美范
李然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou University
Original Assignee
Guangzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou University filed Critical Guangzhou University
Priority to CN202210996394.5A priority Critical patent/CN115563616B/zh
Publication of CN115563616A publication Critical patent/CN115563616A/zh
Application granted granted Critical
Publication of CN115563616B publication Critical patent/CN115563616B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/57Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
    • G06F21/577Assessing vulnerabilities and evaluating computer system security

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明涉及差分隐私和数据投毒防御技术领域,公开了一种面向本地化差分隐私数据投毒攻击的防御方法,其包括如下步骤:用户的数据经过LDP机制编码扰动之后,变为噪声数据,再将噪声数据上传到中心服务器中;中心服务器对每个用户的噪声数据进行差异放大和降维,再将差异放大后的数据映射到高维空间中的一个点;中心服务器根据异常点检测算法,随机抽取空间中的点,训练出t棵孤立二叉树;中心服务器利用孤立二叉树对每个节点进行评估,根据每个节点与根节点的距离,对节点进行打分;中心服务器筛选出异常点,剔除异常数据,并将上传该数据的用户进行标记,若标记超过3次,则剔除掉该用户。

Description

一种面向本地化差分隐私数据投毒攻击的防御方法
技术领域
本发明涉及差分隐私和数据投毒防御技术领域,具体为一种面向本地化差分隐私数据投毒攻击的防御方法。
背景技术
本地化差分隐私(LDP)机制使不受信任的服务器能够执行保护隐私的数据分析任务。具体说来,每个用户在将其个人数据发送到服务器之前,都会在本地对其数据进行扰动以保护隐私,服务器会聚合扰动后的数据以获得统计结果。LDP常见的机制有频率估计和Heavy Hitter,频率估计的任务是在一组项目中,估计每一个拥有某个项目的用户的比例(即频率),而Heavy Hitter的任务是识别出一组项目中频率最高的前k个项目。LDP机制在工业界中应用较为广泛,目前Google公司将LDP机制部署在Chrome浏览器,用于收集用户常用的网页信息。但是LDP机制的安全性尚未被人们重视,假设攻击者将假用户注入LDP机制,并将特定编写的假用户数据发送到数据收集器中进行统计分析任务,攻击者可以将任意选择的项目设置为高频率或将其识别为Heavy Hitter(前K个热点目标项目),这种攻击称为数据投毒攻击。例如在Chrome浏览器中,攻击者可以将钓鱼网页宣传为Chrome的流行默认主页,这可能给用户带来较大的损失。
针对本地化差分隐私数据投毒攻击,徐蕾等人设计了一种本地化差分隐私下键值对数据收集受投毒攻击的检测方法,通过对扰动后数据的特征向量的概率求数学期望,并根据该数学期望计算安全边界阈值,超过该边界阈值的用户数据则会被观测其超过安全边界的程度,同时检测其是否含有数据投毒攻击。
现有技术的问题在于:1)通过分析扰动后用户数据的数学期望,建立安全边界的过程带来了较大的工作量;2)恶意用户的数据容易隐藏在正常用户混淆的数据中,根据观测用户数据超过安全边界的程度来评估是否为恶意数据,这种方法的准确率并不高,为此我们提出了一种面向本地化差分隐私数据投毒攻击的防御方法。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供一种面向本地化差分隐私数据投毒攻击的防御方法,以解决上述的问题。
(二)技术方案
为实现上述所述目的,本发明提供如下技术方案:
一种面向本地化差分隐私数据投毒攻击的防御方法,包括以下步骤:
第一步,用户的数据经过LDP机制编码扰动之后,变为噪声数据,再将噪声数据上传到中心服务器中;
第二步,中心服务器对每个用户的噪声数据进行差异放大和降维,再将差异放大后的数据映射到高维空间中的一个点;
第三步,中心服务器根据异常点检测算法,随机抽取空间中的点,训练出t棵孤立二叉树;
第四步,中心服务器利用孤立二叉树对每个节点进行评估,根据每个节点与根节点的距离,对节点进行打分;
第五步,中心服务器筛选出异常点,剔除异常数据,并将上传该数据的用户进行标记,若标记超过3次,则剔除掉该用户;
第六步,中心服务器对剔除掉异常数据后的噪声数据进行统计分析。
优选的,所述异常点检测算法包含训练和预测两个步骤,训练步骤用来构建孤立二叉树,构造了孤立二叉树后,对数据进行预测。
优选的,所述训练步骤的内容如下:
S1:设X=x1,x2,x3,......,xn为训练集,从X中随机抽取p个样本点构成X的子集X′放入根节点;
S2:从d个维度中随机指定一个维度q,在当前数据中随机产生一个切割点p;
S3:由切割点p生成一个超平面,将当前数据空间划分为两个子空间,指定维度小于p的样本点放入左子节点,大于或等于p的样本点放入右子节点;
S4:递归S2-S3,直至所有的叶子节点都只有一个样本点或者孤立树已经达到指定高度;
S5:循环S1-S4,直至生成t棵孤立树。
优选的,所述将预测步骤为将每个样本点x放入森林中的对应孤立二叉树中,计算节点到根节点的路径长度得到其异常分值S(x,n),来判断x是否为异常点。
优选的,所述计算节点到根节点的路径长度公式如下:
h(x)为x所在树的高度,e表示数据x从孤立二叉树的根节点到叶子节点所经过的边的数目,C(n)是一个修正值,表示用n条样本数据构建的二叉树的平均路径长度。
优选的,所述节点打分的准则为分越接近1,则为异常点,分越接近0,则为正常点。
(三)有益效果
与现有技术相比,本发明提供的面向本地化差分隐私数据投毒攻击的防御方法,具备以下有益效果:
1、该面向本地化差分隐私数据投毒攻击的防御方法,无需计算恶意节点与正常节点关于距离或密度的指标,就可检测出恶意节点,可以快速检测出恶意用户,减少系统的开销,确保了LDP机制的实用性和安全性。
2、该面向本地化差分隐私数据投毒攻击的防御方法,针对恶意用户的数据容易隐藏在正常用户混淆的数据中的问题,通过空间映射和差异放大,能够将恶意用户和正常用户的数据差异进一步放大,提高恶意用户检测的准确率。
附图说明
图1为本发明实施例本地化差分隐私数据投毒防御的完整流程;
图2为本发明实施例本地化差分隐私数据投毒防御的总体方案示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
请参阅图1-2,本发明实施例提供的面向本地化差分隐私数据投毒攻击的防御方法,包括以下步骤:
第一步,用户的数据经过LDP机制编码扰动之后,变为噪声数据,再将噪声数据上传到中心服务器中;
第二步,中心服务器对每个用户的噪声数据进行差异放大和降维,再将差异放大后的数据映射到高维空间中的一个点;
第三步,中心服务器根据异常点检测算法,随机抽取空间中的点,训练出t棵孤立二叉树;
第四步,中心服务器利用孤立二叉树对每个节点进行评估,根据每个节点与根节点的距离,对节点进行打分,分越接近1,则为异常点,分越接近0,则为正常点;
第五步,中心服务器筛选出异常点,剔除异常数据,并将上传该数据的用户进行标记,若标记超过3次,则剔除掉该用户;
第六步,中心服务器对剔除掉异常数据后的噪声数据进行统计分析。
其完整过程如图1,图2。
针对上述提到的算法进行进一步阐述。差异放大算法需要一定的先验知识,下面以OUE算法(LDP机制的一个算法)进行说明,差异放大算法主要包含了以下几个部分:
S1:每个用户的数据通过OUE算法编码扰动之后,数据格式为ai={0,1}m
S2:选取k(k<<m)个正常用户扰动后的数据,组成m×k的矩阵T=(a1,a2,...,ak)T
S3:每个用户扰动后的数据ai分别与矩阵T作矩阵相乘运算,得到bi={0,1}k,用户数据维度从m维降为k维,正常用户数据通过与T作矩阵相乘运算后每个维度的数值变化不大,而恶意用户数据与T作矩阵相乘运算后,每个维度的数值变化大(大部分数据可能为0),进一步放大了正常用户与恶意用户的差异;
S4:将用户数据bi={0,1}k映射到高维空间中的点xi
异常点检测算法包含训练和预测两个步骤,训练步骤主要是用来构建孤立二叉树。其包含了以下几个部分:
S1:设X=x1,x2,x3,......,xn为训练集,从X中随机抽取p个样本点构成X的子集X′放入根节点;
S2:从d个维度中随机指定一个维度q,在当前数据中随机产生一个切割点p;
S3:由切割点p生成一个超平面,将当前数据空间划分为两个子空间:指定维度小于p的样本点放入左子节点,大于或等于p的样本点放入右子节点;
S4:递归S2-S3,直至所有的叶子节点都只有一个样本点或者孤立树已经达到指定高度;
S5:循环S1-S4,直至生成t棵孤立树。
经过训练步骤构造了孤立二叉树后,就可以对数据进行预测,由于异常数据的稀疏性和疏离性,异常数据会距离孤立二叉树的根节点更近,而正常数据则会与根节点有更远的距离。训练集经过上述的操作,异常点在孤立二叉树中会被快速划分到离根节点较近的叶子节点。因此,可以将每个样本点x放入森林中的对应孤立二叉树中,计算叶子节点到根节点的路径长度得到其异常分值S(x,n),来判断x是否为异常点。计算的公式如下:
其中,h(x)为x所在树的高度;e表示数据x从孤立二叉树的根节点到叶子节点所经过的边的数目;C(n)是一个修正值,表示用n条样本数据构建的二叉树的平均路径长度。
从异常分值的公式看,如果数据x在多棵孤立二叉树中的平均路径长度越短,得分就越接近1,表明数据x是异常点;如果数据x在多棵孤立二叉树中的平均路径长度越长,得分就越接近0,表示数据x是正常点;如果数据x在多棵孤立二叉树中的平均路径长度接近整体均值,则打分会在0.5附近,则认为不存在异常点。
本发明在部署了本地化差分隐私机制的推荐系统中,为了保护用户的隐私信息,用户对个人数据添加噪声后再上传到服务器中进行任务分析,服务器再将最热门的项目推送给用户。在这个过程,若有攻击者将恶意用户注入LDP机制,并将特定编写的恶意数据发送到服务器中,攻击者可以操控热门项目的结果,并将恶意项目推荐给用户。为了确保推荐系统的安全性和稳定性,需要对本地化差分隐私数据投毒攻击进行防御,让推荐系统更加准确和可靠。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (2)

1.一种面向本地化差分隐私数据投毒攻击的防御方法,其特征在于,包括以下步骤:
第一步,用户的数据经过LDP机制编码扰动之后,变为噪声数据,再将噪声数据上传到中心服务器中;
第二步,中心服务器对每个用户的噪声数据进行差异放大和降维,再将差异放大后的数据映射到高维空间中的一个点;
第三步,中心服务器根据异常点检测算法,随机抽取空间中的点,训练出t棵孤立二叉树;
第四步,中心服务器利用孤立二叉树对每个节点进行评估,根据每个节点与根节点的距离,对节点进行打分;
第五步,中心服务器筛选出异常点,剔除异常数据,并将上传该数据的用户进行标记,若标记超过3次,则剔除掉该用户;
第六步,中心服务器对剔除掉异常数据后的噪声数据进行统计分析;
所述异常点检测算法包含训练和预测两个步骤,训练步骤用来构建孤立二叉树,构造了孤立二叉树后,对数据进行预测;
所述训练步骤的内容如下:
S1:设X=x1,x2,x3,......,xn为训练集,从X中随机抽取p个样本点构成X的子集X′放入根节点;
S2:从d个维度中随机指定一个维度q,在当前数据中随机产生一个切割点p;
S3:由切割点p生成一个超平面,将当前数据空间划分为两个子空间,指定维度小于p的样本点放入左子节点,大于或等于p的样本点放入右子节点;
S4:递归S2-S3,直至所有的叶子节点都只有一个样本点或者孤立树已经达到指定高度;
S5:循环S1-S4,直至生成t棵孤立树;
所述预测步骤为将每个样本点x放入森林中的对应孤立二叉树中,计算节点到根节点的路径长度得到其异常分值S(x,n),来判断x是否为异常点;
所述节点打分的准则为分越接近1,则为异常点,分越接近0,则为正常点。
2.根据权利要求1所述的面向本地化差分隐私数据投毒攻击的防御方法,其特征在于:所述计算节点到根节点的路径长度公式如下:
h(x)=e+C(n)
h(x)为x所在树的高度,e表示数据x从孤立二叉树的根节点到叶子节点所经过的边的数目,C(n)是一个修正值,表示用n条样本数据构建的二叉树的平均路径长度。
CN202210996394.5A 2022-08-19 2022-08-19 一种面向本地化差分隐私数据投毒攻击的防御方法 Active CN115563616B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210996394.5A CN115563616B (zh) 2022-08-19 2022-08-19 一种面向本地化差分隐私数据投毒攻击的防御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210996394.5A CN115563616B (zh) 2022-08-19 2022-08-19 一种面向本地化差分隐私数据投毒攻击的防御方法

Publications (2)

Publication Number Publication Date
CN115563616A CN115563616A (zh) 2023-01-03
CN115563616B true CN115563616B (zh) 2024-04-16

Family

ID=84739852

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210996394.5A Active CN115563616B (zh) 2022-08-19 2022-08-19 一种面向本地化差分隐私数据投毒攻击的防御方法

Country Status (1)

Country Link
CN (1) CN115563616B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334548A (zh) * 2019-07-16 2019-10-15 桂林电子科技大学 一种基于差分隐私的数据异常检测方法
CN113554182A (zh) * 2021-07-27 2021-10-26 西安电子科技大学 一种横向联邦学习系统中拜占庭节点的检测方法及系统
CN114090402A (zh) * 2021-11-03 2022-02-25 中国电子科技集团公司第三十研究所 一种基于孤立森林的用户异常访问行为检测方法
CN114417423A (zh) * 2022-01-25 2022-04-29 杭州卷积云科技有限公司 基于动态预算分配的无限数据流实时隐私保护方法及系统
CN114462032A (zh) * 2022-04-13 2022-05-10 北京理工大学 一种本地化差分隐私下键值对数据收集受投毒攻击的检测方法
CN114565106A (zh) * 2022-03-02 2022-05-31 广西师范大学 基于孤立森林的联邦学习中毒攻击的防御方法
WO2022117063A1 (zh) * 2020-12-03 2022-06-09 百果园技术(新加坡)有限公司 孤立森林的训练方法,网络爬虫的识别方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108777873B (zh) * 2018-06-04 2021-03-02 江南大学 基于加权混合孤立森林的无线传感网络异常数据检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334548A (zh) * 2019-07-16 2019-10-15 桂林电子科技大学 一种基于差分隐私的数据异常检测方法
WO2022117063A1 (zh) * 2020-12-03 2022-06-09 百果园技术(新加坡)有限公司 孤立森林的训练方法,网络爬虫的识别方法及装置
CN113554182A (zh) * 2021-07-27 2021-10-26 西安电子科技大学 一种横向联邦学习系统中拜占庭节点的检测方法及系统
CN114090402A (zh) * 2021-11-03 2022-02-25 中国电子科技集团公司第三十研究所 一种基于孤立森林的用户异常访问行为检测方法
CN114417423A (zh) * 2022-01-25 2022-04-29 杭州卷积云科技有限公司 基于动态预算分配的无限数据流实时隐私保护方法及系统
CN114565106A (zh) * 2022-03-02 2022-05-31 广西师范大学 基于孤立森林的联邦学习中毒攻击的防御方法
CN114462032A (zh) * 2022-04-13 2022-05-10 北京理工大学 一种本地化差分隐私下键值对数据收集受投毒攻击的检测方法

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
k-均值问题的理论与算法综述;张冬梅;李敏;徐大川;张真宁;;中国科学:数学;20200930(第09期);1387-1404 *
基于孤立森林算法的取用水量异常数据检测方法;赵臣啸;薛惠锋;王磊;万毅;;中国水利水电科学研究院学报;20200215(第01期);31-39 *
基于安全多方计算的隐私保护异常检测算法研究;程夏威;中国优秀硕士学位论文全文数据库 信息科技辑;20191215(第12期);I138-50 *
基于改进DBSCAN算法的异常数据处理;黄静;官易楠;;软件导刊;20191115(第04期);219-223 *
基于用户行为特征预测用户的购买意愿和目标商品品类;程锐;中国优秀硕士学位论文全文数据库 信息科技辑;20220315(第3期);I138-519 *
基于自编码器和集成学习的半监督异常检测算法;夏火松;孙泽林;;计算机工程与科学;20200815(第08期);1440-1447 *
赵臣啸 ; 薛惠锋 ; 王磊 ; 万毅 ; .基于孤立森林算法的取用水量异常数据检测方法.中国水利水电科学研究院学报.2020,(第01期),31-39. *
面向拉普拉斯机制的差分隐私保护聚类方法研究;初广辉;中国优秀硕士学位论文全文数据库 信息科技辑;20210615(第6期);I138-59 *
黄静 ; 官易楠 ; .基于改进DBSCAN算法的异常数据处理.软件导刊.2019,(第04期),219-223. *

Also Published As

Publication number Publication date
CN115563616A (zh) 2023-01-03

Similar Documents

Publication Publication Date Title
US10785241B2 (en) URL attack detection method and apparatus, and electronic device
Abdelnabi et al. Visualphishnet: Zero-day phishing website detection by visual similarity
CN107707545B (zh) 一种异常网页访问片段检测方法、装置、设备及存储介质
US20160219067A1 (en) Method of detecting anomalies suspected of attack, based on time series statistics
US20020147754A1 (en) Vector difference measures for data classifiers
Wang et al. Breaking bad: Detecting malicious domains using word segmentation
CN102045360A (zh) 恶意网址库的处理方法及装置
CN112565301B (zh) 基于小样本学习的服务器运行网络流量异常数据检测方法
CN112637194A (zh) 安全事件的检测方法、装置、电子设备及存储介质
CN111740957A (zh) 一种FP-tree优化的XSS攻击自动检测方法
Abdulrazaq et al. Combination of multi classification algorithms for intrusion detection system
CN117216660A (zh) 基于时序网络流量集成异常点和异常集群检测方法及装置
Raza et al. Novel class probability features for optimizing network attack detection with machine learning
Alqahtani Phishing websites classification using association classification (PWCAC)
Hammad et al. MMM-RF: A novel high accuracy multinomial mixture model for network intrusion detection systems
CN116915450A (zh) 基于多步网络攻击识别和场景重构的拓扑剪枝优化方法
CN113904834B (zh) 基于机器学习的xss攻击检测方法
CN115563616B (zh) 一种面向本地化差分隐私数据投毒攻击的防御方法
CN111885011B (zh) 一种业务数据网络安全分析挖掘的方法及系统
CN113709176A (zh) 基于安全云平台的威胁检测与响应方法及系统
CN116633682B (zh) 一种基于安全产品风险威胁的智能识别方法及系统
CN110457599B (zh) 热点话题追踪方法、装置、服务器及可读存储介质
CN116467697A (zh) 一种基于信息安全网络防御的数据关联系统
Malviya et al. An Efficient Network Intrusion Detection Based on Decision Tree Classifier & Simple K-Mean Clustering using Dimensionality Reduction-A Review
CN107944269A (zh) 一种基于局部二值模式和主成分分析技术的安卓恶意软件检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant