CN112202542A

CN112202542A - 数据扰动方法、设备及存储介质

Info

Publication number: CN112202542A
Application number: CN202011060252.5A
Authority: CN
Inventors: 王菊婷; 陈伟坚; 李想
Original assignee: Tsinghua-Berkeley Shenzhen Institute Preparation Office
Current assignee: Tsinghua-Berkeley Shenzhen Institute Preparation Office
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2021-01-08

Abstract

本发明公开了一种数据扰动方法、设备及存储介质，包括：确定数据集的范围，计算每个数据节点在所述数据集内的密度；预设密度阈值，根据所述密度阈值和所述数据节点的密度进行划分，以得到高密度节点和低密度节点；将所述高密度节点采用均值替代方法进行计算，得到第一随机扰动数据；将所述低密度节点采用增强加法数据扰动方法进行计算，得到第二随机扰动数据。本发明通过计算每一个数据节点再数据集内的密度，然后根据不同的密度进行划分成高密度节点和低密度节点，然后对于不同数据节点采用不同的扰动方法，一方面得到符合原始数据的扰动方法，另一方面能够保留原始数据性质。

Description

数据扰动方法、设备及存储介质

技术领域

本发明涉及数据加密的技术领域，尤其是涉及一种数据扰动方法、设备及存储介质。

背景技术

随着网络和数据存储技术的快速发展，社会生产和生活中积累了大量的数据，其中数据挖掘主要为从海量数据中获取有价值的知识，但是数据进行挖掘也带来了“保护隐私”的问题，因此数据隐私成为网络时代安全的一个重要标志。其中，数据扰动是数据挖掘中隐私保护的方式之一。

目前，传统的数据扰动方法主要为独立噪音方法和相关噪音方法，其中独立噪音方法通过正态分布或均匀分布，直接生成与原始数据无关的扰动；通过加法结构直接添加到原始数据上，从而改变原始数据的值。相关噪声方法通过正态分布生成随机噪音，并通过原始数据的宏观统计性质和特征计算正态分布的相关参数，从而使生成的噪声能一定程度上符合原数据的特点；通过加法结构直接作用于原数据，从而改变原始数据的值并对其产生一定的扰动。但是独立噪音方法选择的扰动生成分布参数与原数据本身无关，生成的扰动与元数据耦合性差且无法根据实际需求改变扰动噪音。然而相关噪声方法选择的统计性质过于宏观，很难探查并表示原数据内部的结构以及不同特征之间关系，因此生成的随机扰动在一定程度上会有较大的偏差。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明实施例提出一种数据扰动方法，能够输出稳健性高的随机扰动数据，且与原始数据耦合性强。

本发明实施例还提出一种数据扰动设备。

本发明实施例还提出一种计算机存储介质。

第一方面，本发明的一个实施例提供了数据扰动方法，包括：

确定数据集的范围，计算每个数据节点在所述数据集内的密度；

预设密度阈值，根据所述密度阈值和所述数据节点的密度进行划分，以得到高密度节点和低密度节点；

将所述高密度节点采用均值替代方法进行计算，得到第一随机扰动数据；

将所述低密度节点采用增强加法数据扰动方法进行计算，得到第二随机扰动数据。

本发明实施例的数据扰动方法至少具有如下有益效果：通过计算每一个数据节点在数据集内的密度，然后根据不同的密度进行划分，形成高密度节点和低密度节点，然后对于不同数据节点采用不同的扰动方法，既能得到符合原始数据的扰动方法，又能够保留原始数据性质。

根据本发明的另一些实施例的数据扰动方法，所述数据集的范围采用K近邻算法确定。

根据本发明的另一些实施例的数据扰动方法，计算每个数据节点在所述数据集内的密度，具体包括：

计算所述数据集内任意两个所述数据节点之间的拓扑势；

计算该所述数据集的总拓扑势；

将所述拓扑势和所述总拓扑势进行计算，得到所述数据节点的拓扑熵；

根据所述拓扑熵计算出所述数据节点的密度；

将集合内的所述数据节点重复上述步骤，得到集合内所有所述数据节点的密度。

根据本发明的另一些实施例的数据扰动方法，所述计算所述数据集内两个数据节点之间的拓扑势，具体包括：

确定影响因子；

将所述影响因子、两个所述数据节点之间的网络距离进行计算，得到两个所述数据节点之间的拓扑势。

根据本发明的另一些实施例的数据扰动方法，所述密度阈值通过人工设置、集合内所有所述数据节点的密度均值以及分位数中的任意一种确定。

根据本发明的另一些实施例的数据扰动方法，所述确定影响因子具体包括：

预设影响范围阈值，根据所述影响范围阈值确定影响因子。

根据本发明的另一些实施例的数据扰动方法，所述均值替代方法具体包括：

所述数据节点的值通过所述K近邻内所述数据节点的均值进行替换。

根据本发明的另一些实施例的数据扰动方法，所述增强加法数据扰动方法，具体包括：

采用正态分布生成随机扰动；

根据所述低密度节点的宏观统计性质特征、秘密特征以及非秘密特征之间的关系计算正态分布相关的参数项；

采用加法结构将所述低密度节点与所述参数项叠加，以得到第二随机扰动数据。

第二方面，本发明的一个实施例提供了数据扰动设备，包括：

至少一个处理器，以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如第一方面所述的数据扰动方法。

本发明实施例的数据扰动设备至少具有如下有益效果：通过设置处理器执行扰动方法，使得数据扰动方法执行简易。

第三方面，本发明的一个实施例提供了计算机存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如第一方面所述的数据扰动方法。

本发明实施例的计算机存储介质至少具有如下有益效果：通过计算机可读存储介质执行数据扰动方法，使得数据扰动方法操作简易。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

图1是本发明实施例中数据扰动方法的一具体实施例流程示意图；

图2是图1中步S100的一具体实施例流程示意图；

图3是图2中步S120的一具体实施例流程示意图。

具体实施方式

以下将结合实施例对本发明的构思及产生的技术效果进行清楚、完整地描述，以充分地理解本发明的目的、特征和效果。显然，所描述的实施例只是本发明的一部分实施例，而不是全部实施例，基于本发明的实施例，本领域的技术人员在不付出创造性劳动的前提下所获得的其他实施例，均属于本发明保护的范围。

在本发明实施例的描述中，如果涉及到“若干”，其含义是一个以上，如果涉及到“多个”，其含义是两个以上，如果涉及到“大于”、“小于”、“超过”，均应理解为不包括本数，如果涉及到“以上”、“以下”、“以内”，均应理解为包括本数。如果涉及到“第一”、“第二”，应当理解为用于区分技术特征，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

对于隐私保护数据发布研究中，最常用的是接于数据失真技术。数据失真技术通过扰动修改原始数据来实现隐私保护和信息隐藏，使扰动后的数据同时满足以下条件：①攻击者无法找到真正的原始数据，即攻击者通过扰动后的数据不能恢复或重构真实和完全的原始数据。②扰动后的数据的聚类可用性保持不变，即从原始数据中和从发布后数据中得到的聚类信息是相同的。其中，数据失真技术相当于进行数据扰动，以得到扰动后的数据。

目前进行数据扰动常见的方法主要有独立噪音方法、相关噪声方法，独立噪声方法通过正态分布或均匀分布，直接生成与原始数据无关的扰动，通过加法结构将与原始数据无关的扰动添加到原始数据上，从而改变原始数据的值。但是独立噪声方法由于生成的扰动和原始数据本身无关，则生成的扰动和原始数据耦合性差且无法根据原始数据实际改变扰动噪音。而相关噪声方法通过正态分布生成随机噪声，并通过原始数据的宏观统计性质和特征计算正态分布的相关参数，使生成的噪音能一定程度上符合原始数据的特点，再通过加法结构将生成的噪声直接作用于原数据。相关噪声方法选择统计性质过于宏观，很难探查并表示原始数据内部的结构以及不同特征之间的关系，同时，由于宏观统计量容易受极端值的影响，因此相关噪声方法产生的随机扰动在一定程度上会有较大的偏差。

为此，本发明申请公开了一种数据扰动方法，适用于任何体量大小的数据集，并且能够针对数据集本身特点施加合适的扰动方法。

参照图1，第一方面，本发明实施例公开了一种数据扰动方法，包括：

S100、确定数据集的范围，计算每个数据节点在数据集内的密度；

S200、预设密度阈值，根据密度阈值和数据节点的密度进行划分，以得到高密度节点和低密度节点；

S300、将高密度节点采用均值替代方法进行计算，得到第一随机扰动数据；

S400、将低密度节点采用增强加法数据扰动方法进行计算，得到第二随机扰动数据。

其中，确定数据集的范围，为确定每一个数据节点所在周边数据节点集合起来以形成数据集，然后计算该数据节点在该数据集内的密度，且每一个数据节点所对应的数据集都是不相同的，但是每一个数据节点根据数据集范围以确定该数据节点对应的数据集。因此通过计算每一个数据节点在自己对应的数据集内的密度，能够准确地判断出该数据节点的稀疏程度。

通过计算出每一个数据节点在数据集内的密度，然后预设密度阈值，通过数据节点的密度和密度阈值比较，若是数据节点的密度高于密度阈值，则该数据节点为高密度节点，若是数据节点低于密度阈值，则该数据节点为低密度节点。对于高密度节点采用均值替代方法，对于低密度节点采用增强加法数据扰动方法，以便于针对不同稀疏程度的数据节点采用不同的扰动方法，以得到更加符合原始数据节点的随机扰动数据，使得到的扰动噪声更加符合原始数据且稳定。

在一些实施例中，数据集范围采用K近邻算法确定。其中K近邻算法为在特征空间中，如果一个样本附近的k个最近(即特征空间中最邻近)样本的大多数属于某一个类别，则该样本也属于这个类别。假设设置K为3，则该数据节点相距最近的三个数据节点合并在一起为该数据节点的数据集，通过判断该数据节点与三个数据节点形成数据集的密度，从而准确判断出该数据节点的密度。

通过K近邻算法确定数据集，实现隐私保护程度的可调性，改变传统方法无法改变的隐私程度。通过设置K近邻算算法中的K值，以确定隐私保护程度。

参照图2，在一些实施例中，步骤S100具体包括：

S110、根据K近邻算法确定某个数据节点的数据集；

S120、计算数据集内任意两个数据节点之间的拓扑势；

S130、计算该数据集的总拓扑势；

S140、将拓扑势和总拓扑势进行计算，得到数据节点的拓扑熵；

S150、根据拓扑熵计算出数据节点的密度；

S160、将集合内的数据节点重复上述步骤，得到集合内所有数据节点的密度。

通过根据K近邻算法确定数据集范围，以确定影响数据的保护程度。通过K近邻算放确定某一个数据节点的数据集，然后计算该数据集内任意两个数据节点的拓扑势，再计算整个数据集的总拓扑势，将该拓扑势和总拓扑势进行得到数据节点的拓扑熵，根据拓扑熵计算处该数据节点的密度。而且集合内所有数据节点按照步骤S110至S150进行计算以得到集合没每一个数据节点的密度，因此计算出的数据节点的密度准确，进而根据不同密度匹配的扰动方法得到的随机扰动数据更加贴合原始数据，且更加稳定。

在一些实施例中，参照图3，步骤S120具体包括：

S121、确定影响因子；

S122、将影响因子、两个数据节点之间的网络距离进行计算，得到两个数据节点之间的拓扑势。

其中，确定影响因子具体为：预设影响范围阈值，根据影响范围阈值确定影响因子，根据影响范围阈值选定合适的影响因子。

在本实施例中，选择合适的影响因子只需要σ＞0，且σ为影响因子。将影响因子和两个数据节点之间的网络距离进行计算，得到两个数据节点的拓扑势具体计算公式为：

式中，

为数据节点U和数据节点V之间的拓扑势，d(U,V)为数据节点U和数据节点V的网络距离或跳数，采用长度路径。因此，通过两个数据节点之间的网络距离和影响因子得到两个数据节点的拓扑势。

其中，计算该数据节点的数据集的总拓扑势，即根据K近邻算法确定该数据节点最近的K个数据节点的总拓扑势，具体计算公式为：

式中，K为K近邻算法中的K，且

为数据集内的总拓扑势，且由于每一个数据节点的数据集不同，则得到的总拓扑势也不同，因此计算出每一个数据节点的密度也更加准确。

其中，根据两个数据节点的拓扑势和总拓扑势进行标准化的拓扑熵，且数据节点的拓扑熵的计算公式为：

式中，NTE_k(U)为拓扑熵。

根据拓扑熵计算该数据节点的密度的计算公式为：

式中，den_k(U)为数据节点的密度。通过计算数据节点与其他数据节点之间的拓扑势，然后计算所在数据集内的总拓扑势，再计算得到拓扑熵，根据拓扑熵计算出该数据节点的密度，使计算出数据节点的密度准确。每一个数据节点通过公式(1)至(4)计算得到该数据节点在该数据集内的密度，以便于准确地计算出集合内每一个数据节点的密度。

在一些实施例中，计算得到整个集合内数据节点的密度后，需要将每一个数据节点根据密度阈值进行划分。其中密度阈值可以通过人为设定，或者密度阈值根据整个集合内密度的均值进行设定，根据所有数据节点的密度取均值作为密度阈值。或者通过分位数确定密度阈值，其中分位数为将一个随机变量的概率分布范围分为几个等份的数值点，也即根据不同密度所占的分值进行等份划分，以按照不同密度在不同等份计算得到密度阈值。

在一些实施例中，均值替代方法具体包括：数据节点的值通过K近邻内数据节点的均值进行替换。

例如，K的取值为3，则数据节点最近的3个数据节点的均值替换该数据节点的值。若K取值为5，则数据节点最近的5个数据节点的均值替换为该数据节点的值。假设数据节点为第一节点，K取值为3，则第一节点最接近的三个数据节点为第二节点、第三节点和第四节点，然后通过计算第二节点、第三节点和第四节点的均值并将该均值替换为该数据节点的值。而对于第二节点而言最接近的三个数据节点可能为第一节点、第三节点和第五节点，则需要计算第一节点、第三节点和第五节点的均值替换为第二节点的值。通过均值替代方法替换高密度节点，因此得到的第一随机扰动数据更加贴近原始数据，以便于保护隐私数据的同时，最大程度保留原始性质。

在一些实施例中，增强加法数据扰动方法，具体包括：

S410、采用正态分布生成随机扰动；

S420、根据低密度节点的宏观统计性质特征、秘密特征以及非秘密特征之间的关系计算正态分布相关的参数项；

S430、采用加法结构将低密度节点与参数项叠加，以得到第二随机扰动数据。

对于低密度节点而言，由于低密度节点分布稀疏，所以根据低密度节点的宏观特征、秘密特征和非秘密特征以得到参数项，并将参数项和低密度节点通过加法结构叠加，得到的第二随机扰动数据，且第二随机扰动数据更加符合低密度数据，能够得到隐私保护程度高且最大保留原始性质的第二随机扰动数据。

下面参考图1至图3以一个具体的实施例详细描述根据本发明实施例的数据扰动方法。值得理解的是，下述描述仅是示例性说明，而不是对发明的具体限制。

通过确定K近邻范围以确定数据集，计算数据节点与数据集内其他数据节点的拓扑势，然后计算以数据节点为中心的数据集的总拓扑势，根据拓扑势和总拓扑势计算得到拓扑熵，再根据拓扑熵计算得到该数据节点的密度。由于每一个数据节点所在的数据集不同，通过公式(1)至(4)计算整个集合内的数据节点的密度也不同，得到集合内数据节点的密度后，将每一个数据节点的密度与密度阈值比较，若数据节点的密度超过密度阈值为高密度节点，若数据节点的密度低于密度阈值则为低密度节点，然后对于高密度节点通过K近邻范围的数据节点的均值进行替换以得到第一随机数据。对于低密度节点则根据低密度节点的宏观统计性质特征、秘密特征以及非秘密特征之间的关系计算正态分布相关的参数项，再将参数项和低密度节点叠加以得到第二随机扰动数据。通过根据K近邻方式可以实现隐私程度可调，进而改变了传统隐私程度不可调的问题，而且对每一个数据节点进行密度划分，对于不同密度的数据节点选择不同扰动方法得到对应的随机扰动数据，一方面保证了数据的隐私性，另一方面最大程度的保留数据的原始性质。

第二方面，本发明实施例公开了一种数据扰动设备，包括：

至少一个处理器，以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如第一方面的数据扰动方法。

其中，处理器执行的数据扰动方法如第一方面的数据扰动方法的过程相同，此处不再赘述。

第三方面，一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如第一方面的数据扰动方法。

其中，计算机存储介质存储的数据扰动方法如第一方面的数据扰动方法的过程相同，此处不再赘述。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

上面结合附图对本发明实施例作了详细说明，但是本发明不限于上述实施例，在所属技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。此外，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

Claims

1.数据扰动方法，其特征在于，包括：

2.根据权利要求1所述的数据扰动方法，其特征在于，所述数据集的范围采用K近邻算法确定。

3.根据权利要求2所述的数据扰动方法，其特征在于，计算每个数据节点在所述数据集内的密度，具体包括：

计算所述数据集内任意两个所述数据节点之间的拓扑势；

计算该所述数据集的总拓扑势；

根据所述拓扑熵计算出所述数据节点的密度；

4.根据权利要求3所述的数据扰动方法，其特征在于，所述计算所述数据集内任意两个所述数据节点之间的拓扑势，具体包括：

确定影响因子；

5.根据权利要求1至4任一项所述的数据扰动方法，其特征在于，所述密度阈值通过人工设置、集合内所有所述数据节点的密度均值以及分位数中的任意一种确定。

6.根据权利要求4所述的数据扰动方法，其特征在于，所述确定影响因子具体包括：

预设影响范围阈值，根据所述影响范围阈值确定影响因子。

7.根据权利要求2所述的数据扰动方法，其特征在于，所述均值替代方法具体包括：

8.根据权利要求1至4任一项所述的数据扰动方法，其特征在于，所述增强加法数据扰动方法，具体包括：

采用正态分布生成随机扰动；

9.一种数据扰动设备，其特征在于，包括：

至少一个处理器，以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至8任一项所述的数据扰动方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如权利要求1至8任一项所述的数据扰动方法。