CN114462032A

CN114462032A - 一种本地化差分隐私下键值对数据收集受投毒攻击的检测方法

Info

Publication number: CN114462032A
Application number: CN202210381516.XA
Authority: CN
Inventors: 徐蕾; 宋少锐; 祝烈煌
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2022-04-13
Filing date: 2022-04-13
Publication date: 2022-05-10
Anticipated expiration: 2042-04-13
Also published as: CN114462032B

Abstract

本发明提出一种本地化差分隐私下键值对数据收集受投毒攻击的检测方法，该方法包括：获取扰动数据集合中特征变量关于概率参数的数学期望；对原始数据的几类极端情况进行分析，基于上述得到的数学期望计算边界阈值；基于边界阈值对扰动数据集合中的观测值的越界程度进行评估，识别扰动数据集合中是否包含投毒数据以检测投毒攻击。本发明所提方法未增加庞大计算开销和额外安全机制即可提高本地化差分隐私下键值对数据收集的安全性，使得数据收集方得到的统计结果更为准确和可靠。

Description

一种本地化差分隐私下键值对数据收集受投毒攻击的检测方法

技术领域

本发明属于信息安全技术领域，具体涉及一种本地化差分隐私下键值对数据收集受投毒攻击的检测方法。

背景技术

键值对（key-value）数据目前已经广泛应用于各种领域，每个键值对数据包含对应键的离散型数据以及对应值的连续型数据，且键与值之间存在关联性。在传统键值对数据收集中，用户需要将自己的原始键值对数据交付给数据收集方，数据收集方收集所有用户的原始键值对数据得到原始数据集合，直接从原始数据集合中提取有价值的统计信息。

在上述键值对数据收集过程中，为保护单个用户的隐私，可以使用本地化差分隐私（local differential privacy）技术。用户并不将原始键值对数据交付给数据收集方，而是交付扰动键值对数据。现有的面向键值对数据的本地化差分隐私数据收集方案主要由抽样、扰动、统计三个部分组成：用户在抽样空间中随机地选择一个键，随后对该键相应的原始键值对数据进行扰动，并将得到的扰动键值对数据交付给数据收集方，数据收集方收集来自所有用户的扰动键值对数据构建扰动数据集合，并在扰动数据集合上执行特定的统计分析算法，所得结果与基于原始数据得到的统计结果相近。

在上述基于本地化差分隐私技术的键值对数据收集场景中，用户的原始键值对数据只由自己掌握，且抽样以及扰动在用户本地进行，故而数据收集方难以验证收到的扰动键值对数据是否是经过预设规则得到的，这意味着本地化差分隐私下的键值对数据收集对于投毒攻击是极其脆弱的。所谓投毒攻击，是指恶意用户可以不按照预设的规则进行抽样和扰动，而是将精心伪造的数据交付给数据收集方，从而导致数据收集方无法获得准确的统计结果，或者诱导数据收集方获得特定的统计结果。

发明内容

本发明提出一种本地化差分隐私下键值对数据收集受投毒攻击的检测方法，数据收集方可以使用本方法对扰动数据集合进行分析，识别其中是否包含投毒数据以检测投毒攻击，用以提高本地化差分隐私下键值对数据收集的可用性和安全性。

本发明的技术解决方案是：

一种本地化差分隐私下键值对数据收集受投毒攻击的检测方法，该方法的步骤包括：

首先获取扰动数据集合中特征变量关于概率参数的数学期望；随后对原始数据的几类极端情况进行分析，计算上述数学期望在这些极端情况下的值，进而得到边界阈值；最后基于边界阈值对扰动数据集合中的观测值的越界程度进行评估，识别扰动数据集合中是否包含投毒数据以检测投毒攻击。

所述的扰动数据集合中特征变量包括两类：

：扰动数据集合中，键为k且值为+1的扰动键值对数据的数量；

：扰动数据集合中，键为k且值为-1的扰动键值对数据的数量。

所述的概率参数包括本地化差分隐私下键值对数据收集中的抽样概率以及扰动概率。

所述的抽样概率为用户抽样得到某一键k的概率，包括：

用户在持有键为k的键值对数据时，抽样得到键k的概率；

用户在未持有键为k的键值对数据时，抽样得到键k的概率。

所述的扰动概率为用户基于离散处理后的键值对数据得到扰动键值对数据的概率，包括：

得到键不变且值不变的扰动键值对数据的概率；

得到键不变但值改变的扰动键值对数据的概率；

得到键改变且值为+1的扰动键值对数据的概率；

得到键改变且值为-1的扰动键值对数据的概率。

所述的原始数据的几类极端情况包括：

1）原始数据中某一键k的频率达到最大值，等于1；

2）原始数据中某一键k的频率达到最小值，等于0；

3）原始数据中某一键k的均值达到最大值或最小值，等于+1或-1；

其中原始数据中某一键k的频率为，键为k的键值对数据的数量与用户总数的比值；原始数据中某一键k的均值为，所有键为k的键值对数据的值的总和与键为k的键值对数据的数量的比值。

根据所述的几类极端情况，基于特征变量的数学期望得到边界阈值的方式为：

在极端情况1）下，所有用户均持有键为k的键值对数据，则此时的

为边界阈值

；

在极端情况2）下，所有用户均不持有键为k的键值对数据，则此时的

为边界阈值

；

在极端情况3）下，键为k的键值对数据的值均为+1或均为-1，则此时的

或

为边界阈值

，其中

对应于不同的键k有不同的值。

所述的用以进行越界程度评估的观测值包括：

：

的样本值；

：

的样本值与

的样本值的较大者。

所述的基于边界阈值对扰动数据集合中的观测值的越界程度进行评估，识别扰动数据集合中是否包含投毒数据以检测投毒攻击的方式为：

对键域中的每一个键t，当观测值

的最大值超过边界阈值

时，超过的数值越多，则观测值

越界程度越大，扰动数据集合中包含投毒数据的可能性越大，遭到投毒攻击的可能性也就越大；

对键域中的每一个键t，当观测值

的最小值低于边界阈值

时，低于的数值越多，则观测值

对键域中的每一个键t，当观测值

超过键t对应边界阈值

时，超过的数值越多，则观测值

其中键域为一次本地化差分隐私下键值对数据收集中所有可能出现的键组成的集合。

本发明的有益效果为：

（1）本发明所提检测方法应用于数据收集方，并不需要用户的原始数据信息，符合本地化差分隐私技术保护用户隐私的初衷；

（2）本发明所提检测方法未引入大额计算开销以及额外机制，可以直接适用于已实现的本地化差分隐私下键值对数据收集系统；

（3）本发明所提检测方法可以用以向数据收集方修正统计结果提供依据，

提高本地化差分隐私下键值对数据收集的安全性并使所得统计结果更为可靠。

附图说明

图1为本申请实施例本地化差分隐私下键值对数据收集场景示意图；

图2为本申请实施例诚实用户行为细节示意图；

图3为所提本地化差分隐私下键值对数据收集受投毒攻击的检测方法流程图。

具体实施方式

在本地化差分隐私下键值对数据收集中，抽样以及扰动步骤需要在用户本地进行，数据收集方无法确认收到的扰动键值对数据是否确实是经过抽样以及扰动得到的，且数据收集方无法掌握用户的原始数据，这一特性使得本地化差分隐私下键值对数据收集能够保护用户一定的隐私，但同时使得数据收集面对投毒攻击时极其脆弱，恶意用户可以不按照预设规则对数据进行处理，而是为了实现投毒攻击的特定目的，将精心伪造的数据交付给数据收集方，对统计结果进行攻击。鉴于此，如果存在一种可以对上述投毒攻击进行检测的方法，则可以有效地降低投毒攻击的危害，提高本地化差分隐私下键值对数据收集的安全性和可靠性。

下面将结合实施例对本发明提出的检测方法进行更为清楚、完整的描述，对本发明进行进一步详细说明。应当理解的是，所描述的具体实施例仅仅用以解释本发明，不是全部实施例，并不用于限定本发明。

如图1所示，本实施例本地化差分隐私下键值对数据收集场景共有诚实用户、恶意用户以及数据收集方三类实体。其中诚实用户按照预设规则进行抽样以及扰动，得到扰动键值对数据，随后向数据收集方交付扰动键值对数据，在保护自己隐私的前提下使得自己的数据能够向数据收集方获取统计结果提供帮助；恶意用户选择拒不执行抽样以及扰动，而是直接编造扰动键值对数据交付给数据收集方，企图攻击数据收集方得到的统计结果；数据收集方在收到所有用户交付的扰动键值对数据后得到扰动数据集合，并使用特定算法对扰动数据集合进行处理，得到与原始数据中每一个键的频率、均值相近的估计频率、估计均值，在遭到投毒攻击后，数据收集方得到的估计频率、估计均值会与原始的频率、均值产生差异，导致统计结果变得不可靠。

图2所示为本申请实施例诚实用户的行为细节：

用户从抽样空间中随机选择一个键k，其中抽样空间视用户原始数据决定：当用户持有键为k的键值对数据时，此时抽样空间含有键k，则用户抽样得到键k的概率为

，其中s 为抽样空间的大小，为一常数；当用户未持有键为k的键值对数据时，此时抽样空间不含有键k，则用户抽样得到键k的概率为0。随后用户对键值对数据<k,v>做离散处理得到<k,v^*>，其中

，该式表示v^*以

的概率等于+1，以

的概率等于-1；随后基于<k,v^*>得到扰动键值对数据<k’,v’>，且有

，其中i为抽样空间中除了键k以外的任意键，a、p、b需视隐私预算、填充长度、抽样空间大小决定，因不是本发明重点在此不做赘述，均视为常数；在得到扰动键值对数据<k’,v’>后照实交付给数据收集方。

如图3所示，本实例中一种本地化差分隐私下键值对数据收集受投毒攻击的检测方法有以下步骤：

获取抽样概率为：当用户持有键为k的键值对数据时，用户随机选择到键k的概率为

；当用户未持有键为k的键值对数据时，用户随机选择到键k的概率为0。由诚实用户基于<k,v^*>得到<k’,v’>的关系式，获取扰动概率为：得到键不变且值不变的扰动键值对数据，即得到<k,v^*>的概率为

；得到键不变但值改变的扰动键值对数据，即得到<k,-v^*> 的概率为

；得到键改变且值为+1的扰动键值对数据，即得到<i,+1>的概率为b/ 2；得到键改变且值为-1的扰动键值对数据，即得到<i,-1>的概率为b/2。

为了便于对特征变量关于概率参数的数学期望进行计算，记参与键值对数据收集的用户总量为n，n为已知量；设

为原始数据中持有键为k的键值对数据的用户数量，

为未知量；设

为抽样得到键k且离散处理得到<k,+1>的用户数量，

为抽样得到键k且离散处理得到<k,-1>的用户数量，因离散处理为随机过程，则

与

为随机变量。

则可以得到特征变量

、

关于概率参数的数学期望如下：

；

。

继续对原始数据中几类极端情况进行分析有：

在极端情况1）下，所有用户均持有键为k的键值对数据，此时有

，且

，则得到边界阈值为：

；

在极端情况2）下，所有用户均不持有键为k的键值对数据，此时有

，且

，则得到边界阈值为：

；

在极端情况3）下，键为k的键值对数据的值均为+1或均为-1，两种情况所得边界阈值相同，故仅对前者进行分析，即键为k的键值对数据的值均为+1，此时有

且

，因

为未知量，故基于观测值

对

进行估计，得到

的估计值

，且

满足

，由此计算得到

，则得到边界阈值为：

。

最后基于临界值

、

以及

，分析评估观测值的越界程度识别扰动数据集合中是否包含投毒数据以检测投毒攻击：

对键域中的每一个键t，当观测值

的最大值超过边界阈值

时，超过的数值越多，则观测值

越界程度越大，扰动数据集合中包含投毒数据的可能性越大，遭到投毒攻击的可能性也就越大，且恶意用户的攻击意图为增大数据收集方得到的键t的估计频率；

对键域中的每一个键t，当观测值

的最小值低于边界阈值

时，低于的数值越多，则观测值

对键域中的每一个键t，当观测值

超过键t对应边界阈值

时，超过的数值越多，则观测值

越界程度越大，扰动数据集合中包含投毒数据的可能性越大，遭到投毒攻击的可能性也就越大，且恶意用户的攻击意图为增大或减小数据收集方得到的键 t的估计均值。

Claims

1.一种本地化差分隐私下键值对数据收集受投毒攻击的检测方法，其特征在于该方法的步骤包括：

获取扰动数据集合中特征变量关于概率参数的数学期望；

对原始数据的几类极端情况进行分析，基于上述得到的数学期望计算边界阈值；

基于边界阈值对扰动数据集合中的观测值的越界程度进行评估，识别扰动数据集合中是否包含投毒数据以检测投毒攻击；

其中扰动数据集合为数据收集方收到的扰动键值对数据组成的集合。

2.根据权利要求1所述的一种本地化差分隐私下键值对数据收集受投毒攻击的检测方法，其特征在于：

所述的特征变量包括：

3.根据权利要求1所述的一种本地化差分隐私下键值对数据收集受投毒攻击的检测方法，其特征在于：

所述的概率参数包括抽样概率以及扰动概率。

4.根据权利要求3所述的一种本地化差分隐私下键值对数据收集受投毒攻击的检测方法，其特征在于：

所述的抽样概率为用户抽样得到某一键k的概率，包括：

用户在持有键为k的键值对数据时，抽样得到键k的概率；

用户在未持有键为k的键值对数据时，抽样得到键k的概率。

5.根据权利要求3所述的一种本地化差分隐私下键值对数据收集受投毒攻击的检测方法，其特征在于：

得到键不变且值不变的扰动键值对数据的概率；

得到键不变但值改变的扰动键值对数据的概率；

得到键改变且值为+1的扰动键值对数据的概率；

得到键改变且值为-1的扰动键值对数据的概率。

6.根据权利要求1所述的一种本地化差分隐私下键值对数据收集受投毒攻击的检测方法，其特征在于：

所述的原始数据的几类极端情况包括：

1）原始数据中某一键k的频率达到最大值，等于1；

2）原始数据中某一键k的频率达到最小值，等于0；

7.根据权利要求1所述的一种本地化差分隐私下键值对数据收集受投毒攻击的检测方法，其特征在于：

所述的边界阈值获取方式为：

为边界阈值

；

为边界阈值

；

或

为边界阈值

，其中

对应于不同的键k有不同的值。

8.根据权利要求1所述的一种本地化差分隐私下键值对数据收集受投毒攻击的检测方法，其特征在于：

所述的观测值包括：

：

的样本值；

：

的样本值与

的样本值的较大者。

9.根据权利要求1所述的一种本地化差分隐私下键值对数据收集受投毒攻击的检测方法，其特征在于：

基于边界阈值对扰动数据集合中的观测值的越界程度进行评估，识别扰动数据集合中是否包含投毒数据以检测投毒攻击的方式为：

对键域中的每一个键t，当观测值

的最大值超过边界阈值

时，超过的数值越多，则观测值

对键域中的每一个键t，当观测值

的最小值低于边界阈值

时，低于的数值越多，则观测值

对键域中的每一个键t，当观测值

超过键t对应边界阈值

时，超过的数值越多，则观测值