CN114462032A - 一种本地化差分隐私下键值对数据收集受投毒攻击的检测方法 - Google Patents
一种本地化差分隐私下键值对数据收集受投毒攻击的检测方法 Download PDFInfo
- Publication number
- CN114462032A CN114462032A CN202210381516.XA CN202210381516A CN114462032A CN 114462032 A CN114462032 A CN 114462032A CN 202210381516 A CN202210381516 A CN 202210381516A CN 114462032 A CN114462032 A CN 114462032A
- Authority
- CN
- China
- Prior art keywords
- key
- value
- data
- disturbance
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/554—Detecting local intrusion or implementing counter-measures involving event detection and direct action
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
- G06F21/562—Static detection
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Virology (AREA)
- Storage Device Security (AREA)
Abstract
本发明提出一种本地化差分隐私下键值对数据收集受投毒攻击的检测方法,该方法包括:获取扰动数据集合中特征变量关于概率参数的数学期望;对原始数据的几类极端情况进行分析,基于上述得到的数学期望计算边界阈值;基于边界阈值对扰动数据集合中的观测值的越界程度进行评估,识别扰动数据集合中是否包含投毒数据以检测投毒攻击。本发明所提方法未增加庞大计算开销和额外安全机制即可提高本地化差分隐私下键值对数据收集的安全性,使得数据收集方得到的统计结果更为准确和可靠。
Description
技术领域
本发明属于信息安全技术领域,具体涉及一种本地化差分隐私下键值对数据收集受投毒攻击的检测方法。
背景技术
键值对(key-value)数据目前已经广泛应用于各种领域,每个键值对数据包含对应键的离散型数据以及对应值的连续型数据,且键与值之间存在关联性。在传统键值对数据收集中,用户需要将自己的原始键值对数据交付给数据收集方,数据收集方收集所有用户的原始键值对数据得到原始数据集合,直接从原始数据集合中提取有价值的统计信息。
在上述键值对数据收集过程中,为保护单个用户的隐私,可以使用本地化差分隐私(local differential privacy)技术。用户并不将原始键值对数据交付给数据收集方,而是交付扰动键值对数据。现有的面向键值对数据的本地化差分隐私数据收集方案主要由抽样、扰动、统计三个部分组成:用户在抽样空间中随机地选择一个键,随后对该键相应的原始键值对数据进行扰动,并将得到的扰动键值对数据交付给数据收集方,数据收集方收集来自所有用户的扰动键值对数据构建扰动数据集合,并在扰动数据集合上执行特定的统计分析算法,所得结果与基于原始数据得到的统计结果相近。
在上述基于本地化差分隐私技术的键值对数据收集场景中,用户的原始键值对数据只由自己掌握,且抽样以及扰动在用户本地进行,故而数据收集方难以验证收到的扰动键值对数据是否是经过预设规则得到的,这意味着本地化差分隐私下的键值对数据收集对于投毒攻击是极其脆弱的。所谓投毒攻击,是指恶意用户可以不按照预设的规则进行抽样和扰动,而是将精心伪造的数据交付给数据收集方,从而导致数据收集方无法获得准确的统计结果,或者诱导数据收集方获得特定的统计结果。
发明内容
本发明提出一种本地化差分隐私下键值对数据收集受投毒攻击的检测方法,数据收集方可以使用本方法对扰动数据集合进行分析,识别其中是否包含投毒数据以检测投毒攻击,用以提高本地化差分隐私下键值对数据收集的可用性和安全性。
本发明的技术解决方案是:
一种本地化差分隐私下键值对数据收集受投毒攻击的检测方法,该方法的步骤包括:
首先获取扰动数据集合中特征变量关于概率参数的数学期望;随后对原始数据的几类极端情况进行分析,计算上述数学期望在这些极端情况下的值,进而得到边界阈值;最后基于边界阈值对扰动数据集合中的观测值的越界程度进行评估,识别扰动数据集合中是否包含投毒数据以检测投毒攻击。
所述的扰动数据集合中特征变量包括两类:
所述的概率参数包括本地化差分隐私下键值对数据收集中的抽样概率以及扰动概率。
所述的抽样概率为用户抽样得到某一键k的概率,包括:
用户在持有键为k的键值对数据时,抽样得到键k的概率;
用户在未持有键为k的键值对数据时,抽样得到键k的概率。
所述的扰动概率为用户基于离散处理后的键值对数据得到扰动键值对数据的概率,包括:
得到键不变且值不变的扰动键值对数据的概率;
得到键不变但值改变的扰动键值对数据的概率;
得到键改变且值为+1的扰动键值对数据的概率;
得到键改变且值为-1的扰动键值对数据的概率。
所述的原始数据的几类极端情况包括:
1)原始数据中某一键k的频率达到最大值,等于1;
2)原始数据中某一键k的频率达到最小值,等于0;
3)原始数据中某一键k的均值达到最大值或最小值,等于+1或-1;
其中原始数据中某一键k的频率为,键为k的键值对数据的数量与用户总数的比值;原始数据中某一键k的均值为,所有键为k的键值对数据的值的总和与键为k的键值对数据的数量的比值。
根据所述的几类极端情况,基于特征变量的数学期望得到边界阈值的方式为:
所述的用以进行越界程度评估的观测值包括:
所述的基于边界阈值对扰动数据集合中的观测值的越界程度进行评估,识别扰动数据集合中是否包含投毒数据以检测投毒攻击的方式为:
其中键域为一次本地化差分隐私下键值对数据收集中所有可能出现的键组成的集合。
本发明的有益效果为:
(1)本发明所提检测方法应用于数据收集方,并不需要用户的原始数据信息,符合本地化差分隐私技术保护用户隐私的初衷;
(2)本发明所提检测方法未引入大额计算开销以及额外机制,可以直接适用于已实现的本地化差分隐私下键值对数据收集系统;
(3)本发明所提检测方法可以用以向数据收集方修正统计结果提供依据,
提高本地化差分隐私下键值对数据收集的安全性并使所得统计结果更为可靠。
附图说明
图1为本申请实施例本地化差分隐私下键值对数据收集场景示意图;
图2为本申请实施例诚实用户行为细节示意图;
图3为所提本地化差分隐私下键值对数据收集受投毒攻击的检测方法流程图。
具体实施方式
在本地化差分隐私下键值对数据收集中,抽样以及扰动步骤需要在用户本地进行,数据收集方无法确认收到的扰动键值对数据是否确实是经过抽样以及扰动得到的,且数据收集方无法掌握用户的原始数据,这一特性使得本地化差分隐私下键值对数据收集能够保护用户一定的隐私,但同时使得数据收集面对投毒攻击时极其脆弱,恶意用户可以不按照预设规则对数据进行处理,而是为了实现投毒攻击的特定目的,将精心伪造的数据交付给数据收集方,对统计结果进行攻击。鉴于此,如果存在一种可以对上述投毒攻击进行检测的方法,则可以有效地降低投毒攻击的危害,提高本地化差分隐私下键值对数据收集的安全性和可靠性。
下面将结合实施例对本发明提出的检测方法进行更为清楚、完整的描述,对本发明进行进一步详细说明。应当理解的是,所描述的具体实施例仅仅用以解释本发明,不是全部实施例,并不用于限定本发明。
如图1所示,本实施例本地化差分隐私下键值对数据收集场景共有诚实用户、恶意用户以及数据收集方三类实体。其中诚实用户按照预设规则进行抽样以及扰动,得到扰动键值对数据,随后向数据收集方交付扰动键值对数据,在保护自己隐私的前提下使得自己的数据能够向数据收集方获取统计结果提供帮助;恶意用户选择拒不执行抽样以及扰动,而是直接编造扰动键值对数据交付给数据收集方,企图攻击数据收集方得到的统计结果;数据收集方在收到所有用户交付的扰动键值对数据后得到扰动数据集合,并使用特定算法对扰动数据集合进行处理,得到与原始数据中每一个键的频率、均值相近的估计频率、估计均值,在遭到投毒攻击后,数据收集方得到的估计频率、估计均值会与原始的频率、均值产生差异,导致统计结果变得不可靠。
图2所示为本申请实施例诚实用户的行为细节:
用户从抽样空间中随机选择一个键k,其中抽样空间视用户原始数据决定:当用户
持有键为k的键值对数据时,此时抽样空间含有键k,则用户抽样得到键k的概率为,其中s
为抽样空间的大小,为一常数;当用户未持有键为k的键值对数据时,此时抽样空间不含有
键k,则用户抽样得到键k的概率为0。随后用户对键值对数据<k,v>做离散处理得到<k,v*>,
其中,该式表示v*以的概率等于+1,以的概率等于-1;随后
基于<k,v*>得到扰动键值对数据<k’,v’>,且有,其中i为
抽样空间中除了键k以外的任意键,a、p、b需视隐私预算、填充长度、抽样空间大小决定,因
不是本发明重点在此不做赘述,均视为常数;在得到扰动键值对数据<k’,v’>后照实交付给
数据收集方。
如图3所示,本实例中一种本地化差分隐私下键值对数据收集受投毒攻击的检测方法有以下步骤:
获取抽样概率为:当用户持有键为k的键值对数据时,用户随机选择到键k的概率
为;当用户未持有键为k的键值对数据时,用户随机选择到键k的概率为0。由诚实用户基
于<k,v*>得到<k’,v’>的关系式,获取扰动概率为:得到键不变且值不变的扰动键值对数
据,即得到<k,v*>的概率为;得到键不变但值改变的扰动键值对数据,即得到<k,-v*>
的概率为;得到键改变且值为+1的扰动键值对数据,即得到<i,+1>的概率为b/
2;得到键改变且值为-1的扰动键值对数据,即得到<i,-1>的概率为b/2。
为了便于对特征变量关于概率参数的数学期望进行计算,记参与键值对数据收集
的用户总量为n,n为已知量;设为原始数据中持有键为k的键值对数据的用户数量,
为未知量;设为抽样得到键k且离散处理得到<k,+1>的用户数量,为抽样得到
键k且离散处理得到<k,-1>的用户数量,因离散处理为随机过程,则与为随机
变量。
继续对原始数据中几类极端情况进行分析有:
在极端情况3)下,键为k的键值对数据的值均为+1或均为-1,两种情况所得边界阈
值相同,故仅对前者进行分析,即键为k的键值对数据的值均为+1,此时有且,因为未知量,故基于观测值对进行估
计,得到的估计值,且满足,由此计算得到,则得到边界阈值为:
对键域中的每一个键t,当观测值的最大值超过边界阈值时,超过的数
值越多,则观测值越界程度越大,扰动数据集合中包含投毒数据的可能性越大,遭到投
毒攻击的可能性也就越大,且恶意用户的攻击意图为增大数据收集方得到的键t的估计频
率;
Claims (9)
1.一种本地化差分隐私下键值对数据收集受投毒攻击的检测方法,其特征在于该方法的步骤包括:
获取扰动数据集合中特征变量关于概率参数的数学期望;
对原始数据的几类极端情况进行分析,基于上述得到的数学期望计算边界阈值;
基于边界阈值对扰动数据集合中的观测值的越界程度进行评估,识别扰动数据集合中是否包含投毒数据以检测投毒攻击;
其中扰动数据集合为数据收集方收到的扰动键值对数据组成的集合。
3.根据权利要求1所述的一种本地化差分隐私下键值对数据收集受投毒攻击的检测方法,其特征在于:
所述的概率参数包括抽样概率以及扰动概率。
4.根据权利要求3所述的一种本地化差分隐私下键值对数据收集受投毒攻击的检测方法,其特征在于:
所述的抽样概率为用户抽样得到某一键k的概率,包括:
用户在持有键为k的键值对数据时,抽样得到键k的概率;
用户在未持有键为k的键值对数据时,抽样得到键k的概率。
5.根据权利要求3所述的一种本地化差分隐私下键值对数据收集受投毒攻击的检测方法,其特征在于:
所述的扰动概率为用户基于离散处理后的键值对数据得到扰动键值对数据的概率,包括:
得到键不变且值不变的扰动键值对数据的概率;
得到键不变但值改变的扰动键值对数据的概率;
得到键改变且值为+1的扰动键值对数据的概率;
得到键改变且值为-1的扰动键值对数据的概率。
6.根据权利要求1所述的一种本地化差分隐私下键值对数据收集受投毒攻击的检测方法,其特征在于:
所述的原始数据的几类极端情况包括:
1)原始数据中某一键k的频率达到最大值,等于1;
2)原始数据中某一键k的频率达到最小值,等于0;
3)原始数据中某一键k的均值达到最大值或最小值,等于+1或-1;
其中原始数据中某一键k的频率为,键为k的键值对数据的数量与用户总数的比值;原始数据中某一键k的均值为,所有键为k的键值对数据的值的总和与键为k的键值对数据的数量的比值。
9.根据权利要求1所述的一种本地化差分隐私下键值对数据收集受投毒攻击的检测方法,其特征在于:
基于边界阈值对扰动数据集合中的观测值的越界程度进行评估,识别扰动数据集合中是否包含投毒数据以检测投毒攻击的方式为:
其中键域为一次本地化差分隐私下键值对数据收集中所有可能出现的键组成的集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210381516.XA CN114462032B (zh) | 2022-04-13 | 2022-04-13 | 一种本地化差分隐私下键值对数据收集受投毒攻击的检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210381516.XA CN114462032B (zh) | 2022-04-13 | 2022-04-13 | 一种本地化差分隐私下键值对数据收集受投毒攻击的检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114462032A true CN114462032A (zh) | 2022-05-10 |
CN114462032B CN114462032B (zh) | 2022-06-21 |
Family
ID=81418581
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210381516.XA Active CN114462032B (zh) | 2022-04-13 | 2022-04-13 | 一种本地化差分隐私下键值对数据收集受投毒攻击的检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114462032B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115563616A (zh) * | 2022-08-19 | 2023-01-03 | 广州大学 | 一种面向本地化差分隐私数据投毒攻击的防御方法 |
CN116566650A (zh) * | 2023-04-06 | 2023-08-08 | 南京航空航天大学 | 一种基于松散本地差分隐私模型的键值数据收集方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210012028A1 (en) * | 2017-12-18 | 2021-01-14 | Privitar Limited | Data product release method or system |
CN112380567A (zh) * | 2020-11-27 | 2021-02-19 | 南京航空航天大学 | 一种基于本地化差分隐私带有置信度的调查方法 |
CN113297621A (zh) * | 2021-06-10 | 2021-08-24 | 南京航空航天大学 | 一种基于个性化本地差分隐私的数据收集方法 |
CN114004297A (zh) * | 2021-11-02 | 2022-02-01 | 上海观安信息技术股份有限公司 | 投毒数据识别方法、装置、系统及计算机可读存储介质 |
-
2022
- 2022-04-13 CN CN202210381516.XA patent/CN114462032B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210012028A1 (en) * | 2017-12-18 | 2021-01-14 | Privitar Limited | Data product release method or system |
CN112380567A (zh) * | 2020-11-27 | 2021-02-19 | 南京航空航天大学 | 一种基于本地化差分隐私带有置信度的调查方法 |
CN113297621A (zh) * | 2021-06-10 | 2021-08-24 | 南京航空航天大学 | 一种基于个性化本地差分隐私的数据收集方法 |
CN114004297A (zh) * | 2021-11-02 | 2022-02-01 | 上海观安信息技术股份有限公司 | 投毒数据识别方法、装置、系统及计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
黄晓等: "面向各类攻击的差分隐私保护模型", 《网络安全技术与应用》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115563616A (zh) * | 2022-08-19 | 2023-01-03 | 广州大学 | 一种面向本地化差分隐私数据投毒攻击的防御方法 |
CN115563616B (zh) * | 2022-08-19 | 2024-04-16 | 广州大学 | 一种面向本地化差分隐私数据投毒攻击的防御方法 |
CN116566650A (zh) * | 2023-04-06 | 2023-08-08 | 南京航空航天大学 | 一种基于松散本地差分隐私模型的键值数据收集方法 |
CN116566650B (zh) * | 2023-04-06 | 2024-01-26 | 南京航空航天大学 | 一种基于松散本地差分隐私模型的键值数据收集方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114462032B (zh) | 2022-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114462032B (zh) | 一种本地化差分隐私下键值对数据收集受投毒攻击的检测方法 | |
Bailey et al. | Statistics on password re-use and adaptive strength for financial accounts | |
CN105721242A (zh) | 一种基于信息熵的加密流量识别方法 | |
CN110958233B (zh) | 一种基于深度学习的加密型恶意流量检测系统和方法 | |
CN114553523A (zh) | 基于攻击检测模型的攻击检测方法及装置、介质、设备 | |
Naik et al. | A ransomware detection method using fuzzy hashing for mitigating the risk of occlusion of information systems | |
Mechtri et al. | Intrusion detection using principal component analysis | |
Kuznetsov et al. | Variance analysis of networks traffic for intrusion detection in smart grids | |
CN111932270B (zh) | 银行客户身份验证的方法及装置 | |
Chen et al. | Distributed denial of service attacks detection method based on conditional random fields | |
Li et al. | Optimal stealthy switching location attacks against remote estimation in cyber-physical systems | |
Yin et al. | Detecting CAN overlapped voltage attacks with an improved voltage-based in-vehicle intrusion detection system | |
Rao et al. | A smart heuristic scanner for an intrusion detection system using two-stage machine learning techniques | |
Khan et al. | A chaotic measure for cognitive machine classification of distributed denial of service attacks | |
WS et al. | Machine learning based intrusion detection framework using recursive feature elimination method | |
CN116707927A (zh) | 态势感知方法、系统、计算机设备及存储介质 | |
Singh | Classification of Malware in HTTPs Traffic Using Machine Learning Approach | |
CN111371727A (zh) | 一种针对ntp协议隐蔽通信的检测方法 | |
CN113923021B (zh) | 基于沙箱的加密流量处理方法、系统、设备及介质 | |
Yin et al. | Optimal remote access Trojans detection based on network behavior. | |
Araki et al. | Unknown attack detection by multistage one-class SVM focusing on communication interval | |
Wang et al. | A Perceptual Hash-based Approach to Detect Covert Timing Channels. | |
Xue et al. | A stacking-based classification approach to android malware using host-level encrypted traffic | |
Aljohani et al. | An intrusion detection system model in a local area network using different machine learning classifiers | |
Barni et al. | An improved statistic for the pooled triangle test against prnu-copy attack |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |