CN115329898B

CN115329898B - 基于差分隐私策略的多属性数据发布方法及系统

Info

Publication number: CN115329898B
Application number: CN202211231173.5A
Authority: CN
Inventors: 钱锦; 李昂; 王红凯; 毛冬; 樊立波; 孙智卿; 韩荣杰; 来益博; 周鹏; 杜猛俊; 陈元中; 张吉; 许敏; 周昕悦
Original assignee: Hangzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd; Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Current assignee: Hangzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd; Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2022-10-10
Filing date: 2022-10-10
Publication date: 2023-01-24
Anticipated expiration: 2042-10-10
Also published as: CN115329898A

Abstract

本发明公开了一种基于差分隐私策略的多属性数据发布方法及系统，包括：获取与第一发布请求单元内相对应的数据存储单元内的第一数据集，确定数据存储单元内先前发送至第一请求端或第二请求端的第二数据集；得到新增数据集，获取新增数据集内所有新增数据条的第一数据条数量以及每个新增数据条的数据属性特征；若判断第一差异数量达到第一数量条件、数据属性特征达到第一特征条件，则将第二数据集发布至第一请求端；根据第一差异数量、所有新增数据条的数据属性特征生成噪音数据数量、噪音属性特征；根据噪音数据数量、噪音属性特征对第一数据集进行更新，得到相对应的第三数据集，将第三数据集发布至第一请求端。

Description

基于差分隐私策略的多属性数据发布方法及系统

技术领域

本发明涉及数据处理技术领域，特别是涉及一种基于差分隐私策略的多属性数据发布方法及系统。

背景技术

随着现代信息技术的快速发展，分布式机器学习在多方合作的应用场景中的作用愈发凸显。拥有规模大质量高的数据集可以提高机器学习模型的质量，这就激励了数据所有者们共享和合并他们的数据集，从而训练得到质量更高的模型。然而，在数据集合并的过程中不可避免地会产生隐私泄露的问题。随着相关隐私法规的完善，分布式机器学习中的隐私保护问题日益受到人们的关注。

在现有的基于差分隐私，进行数据的分布式机器学习过程中，如果两个相邻的数据集相差较少（较为接近），此时两个相邻的数据集之间的样本数据较为接近，对模型训练的参数梯度调整也会较少，并且此时极易造成新增样本的隐私泄露，所以在某些需求场景下，可以根据数据集之间的关系来辅助发布者是否对相应的数据集进行发布，现有技术中，并无法根据数据集内所包括的数据条目之间的关系来辅助发布者对数据集发布进行决策。

发明内容

本发明克服现有技术的缺点，提供一种基于差分隐私策略的多属性数据发布方法及系统，根据数据集内所包括的数据条目之间的关系来辅助发布者对数据集发布进行决策，减少隐私泄漏。

为了解决以上技术问题，本发明的技术方案如下：

本发明实施例提供一种基于差分隐私策略的多属性数据发布方法，包括：

S1，在判断接收到第一请求端的第一发布请求时，获取与第一发布请求相对应的数据存储单元内的第一数据集，确定数据存储单元内先前发送至第一请求端或第二请求端的第二数据集；

S2，将所述第一数据集内的第一数据条与第二数据集内的第二数据条进行比对，得到新增数据集，获取所述新增数据集内所有新增数据条的第一数据条数量以及每个新增数据条的数据属性特征；

S3，基于新增数据集得到第一差异数量，若判断所述第一差异数量达到第一数量条件和数据属性特征达到第一特征条件，则将所述第一数据集发布至所述第一请求端；

S4，若判断所述第一差异数量达到第一数量条件，且数据属性特征未达到第一特征条件，则根据所述第一差异数量、所有新增数据条的数据属性特征生成噪音数据数量、噪音属性特征；

S5，根据所述噪音数据数量、噪音属性特征对所述第一数据集进行更新，得到相对应的第三数据集，将所述第三数据集发布至所述第一请求端。

可选的，所述S1包括：

提取所述第一发布请求所对应的请求标签，根据所述请求标签确定至少一个数据存储单元，每个请求标签具有与其预先对应设置的数据存储单元；

遍历所述数据存储单元内满足预设要求的数据条得到第一数据集，所述第一数据集内的数据条具有与其对应的第一数据标签，统计所有的第一数据标签得到第一标签列表；

获取与所确定的数据存储单元对应的数据发布记录表，所述数据发布记录表中具有每次发布时的发布时间信息、发布起始数据条的起始数据标签、发布终止数据条的终止数据标签；

选取与当前时刻最接近的发布时间信息作为第一发布时间信息，根据第一发布时间信息的起始数据标签、终止数据标签生成第二标签列表，统计数据存储单元内第二标签列表所对应的所有数据条得到第二数据集。

可选的，所述S2包括：

将第一标签列表与所述第二标签列表进行比对，若判断第一标签列表的所有第一数据标签完全包含第二标签列表的第二数据标签，则确定第一标签列表内具有、第二标签列表内不具有的第一数据标签，得到第一新增标签列表；

统计数据存储单元内所有的第一新增标签列表对应的数据条，得到新增数据集；

获取所述数据存储单元内的数据条的数据属性种类，根据所述数据属性种类得到相对应的多个数据属性特征，每个数据属性种类具有与其对应的多个数据属性特征；

统计第一新增标签列表内第一新增数据标签的数量得到第一数据条数量，以及第一新增标签列表内每个第一新增数据标签所对应的数据属性特征，使得每个第一新增数据标签具有相对应的数据属性标识。

可选的，所述S2包括：

将第一标签列表与所述第二标签列表进行比对，若判断第一标签列表的所有第一数据标签不完全包含第二标签列表的第二数据标签，则确定第一标签列表内具有、第二标签列表内不具有的第一数据标签，得到第一新增标签列表，确定第一标签列表内不具有、第二标签列表内具有的第二数据标签，得到第一减少标签列表；

统计数据存储单元内第一新增标签列表对应的所有的数据条，得到新增数据集，统计数据存储单元内第一减少标签列表对应的所有的数据条，得到减少数据集；

统计第一新增标签列表内第一新增数据标签的数量得到第一数据条数量，以及第一新增标签列表内每个第一新增数据标签所对应的数据属性特征，使得每个第一新增数据标签具有相对应的数据属性标识；

统计第一减少标签列表内第一减少数据标签的数量得到第二数据条数量，以及第一减少标签列表内每个第一减少数据标签所对应的数据属性特征，使得每个第一减少数据标签具有相对应的数据属性标识。

可选的，所述S3包括：

基于第一数据条数量和/或第二数据条数量进行综合计算得到第一差异数量，若所述第一差异数量大于等于第一预设数量，则判断第一差异数量达到第一数量条件；

获取所有的第一新增数据标签的数据属性标识和/或第一减少数据标签具有的数据属性标识，根据每个数据属性标识所对应的数据属性特征，得到相对应的属性特征占比；

根据数据属性特征的数量、不同类型的数据属性特征的属性特征占比进行计算，得到每种数据属性特征的融合属性占比，若所述融合属性占比位于预设占比区间内，则判断数据属性特征达到第一特征条件，将所述第一数据集发布至所述第一请求端。

可选的，所述基于第一数据条数量和/或第二数据条数量进行综合计算得到第一差异数量，若所述第一差异数量大于等于第一预设数量，则判断第一差异数量达到第一数量条件，包括：

若判断仅存在第一数据条数量，不存在第二数据条数量，则将第一数据条数量作为第一差异数量；

若判断同时存在第一数据条数量和第二数据条数量，且第一数据条数量大于等于最小数据条数量，则根据第一数据条数量和第二数据条数量进行综合计算，得到第一差异数量，通过以下公式计算第一差异数量，

其中，

为最小数据条数量，

为第一差异数量，

为第一数据条数量，

为第一数据条权重，

为第二数据条数量，

为第二数据条权重；

若判断第一差异数量大于等于第一预设数量，则判断第一差异数量达到第一数量条件。

可选的，所述获取所有的第一新增数据标签的数据属性标识和/或第一减少数据标签具有的数据属性标识，根据每个数据属性标识所对应的数据属性特征，得到相对应的属性特征占比，包括：

统计第一新增数据标签在第

种的数据属性标识的新增数量，以及第一减少数据标签具在第

种的数据属性标识的减少数量；

统计所有数据属性标识的数量得到属性种类总数量，根据所述属性种类总数量得到属性占比调整趋势值；

根据第

种数据属性标识的新增数量、减少数量、所有数据属性标识的新增数量、减少数量进行初步计算，得到第

种数据属性标识的初步占比值，将初步占比值与0.5比对得到比对结果，根据比对结果、属性占比调整趋势值对初步占比值进行调整，得到第

种的数据属性标识的属性特征占比。

可选的，所述根据第

种的数据属性标识的属性特征占比，包括：

对

种数据属性标识的新增数量、减少数量分别进行加权处理，除以所有数据属性标识的新增数量、减少数量，得到第

种数据属性标识的初步占比值；

通过以下公式计算第

种的数据属性标识的初步占比值，

其中，

为第

种的数据属性标识的初步占比值，

为

种数据属性标识的新增数量，

为新增数量的权重，

为

种数据属性标识的减少数量，

为减少数量的权重，

为

种数据属性标识的新增数量，

为新增数量所对应的数据属性标识的种类的上限值，

为

种数据属性标识的减少数量，

为减少数量所对应的数据属性标识的种类的上限值；

若初步占比值小于0.5，则根据属性占比调整趋势值对初步占比值进行增大调整得到属性特征占比，若初步占比值大于0.5，则根据属性占比调整趋势值对初步占比值进行减小调整得到属性特征占比；

通过以下公式计算第

种数据属性标识的属性特征占比，

其中，

为第

种数据属性标识的属性特征占比，

为属性种类总数量，

为预设种类数量，

为种类数量归一化值。

可选的，所述S4包括：

若所有的数据属性标识的属性占比均不位于预设占比区间内，则判断数据属性特征未达到第一特征条件；

将非最大的所有数据属性标识作为待增加的噪音属性标识，根据所述第一差异数量、噪音增加比例计算噪音数据数量；

根据所述噪音属性标识的数量生成噪音分配子比例，根据所述噪音数据数量、噪音分配子比例进行计算，得到每种噪音属性标识所对应的噪音属性特征的噪音子数量。

可选的，所述根据所述噪音属性标识的数量生成噪音分配子比例，根据所述噪音数据数量、噪音分配子比例进行计算，得到每种噪音属性标识所对应的噪音属性特征的噪音子数量，包括：

统计所有的噪音属性标识的数量，随机生成每种噪音属性标识对应的噪音分配子比例，通过以下公式计算每种噪音属性标识所对应的噪音属性特征的噪音子数量，

其中，

为噪音数据数量，

为噪音增加比例，

为第

种噪音属性标识所对应的噪音属性特征的噪音子数量，

为第

种噪音属性标识所对应的噪音分配子比例；

若所有的噪音子数量之和大于噪音数据数量，则将噪音子数量之和所得到的噪音数据数量对先前的噪音数据数量更新处理。

可选的，所述S5包括：

对所选取的任意一个新增数据条按照噪音数据数量进行复制处理，得到复制数据条，调取数据库中的预设名称对复制数据条的名称进行替换调整；

将所有复制数据条所对应的数据属性特征依次替换为噪音属性特征，将复制数据条插入至第一数据集内，得到相对应的第三数据集，将所述第三数据集发布至所述第一请求端。

可选的，所述将所有复制数据条所对应的数据属性特征依次替换为噪音属性特征，将复制数据条插入至第一数据集内，得到相对应的第三数据集，将所述第三数据集发布至所述第一请求端，包括：

提取新增数据内所有第一新增数据标签的最小序号和最大序号，生成相对应的序号段，随机提取序号段中与噪音数据数量相对应数量的序号作为插入序号，为每个复制数据条分配插入序号；

按照所述插入序号将复制数据条插入至第一数据集内相同序号第一数据条后部，在判断所有复制数据条分别插入至第一数据集内后，对所有的复制数据条、第一数据条的序号更新处理，得到相对应的第三数据集。

本发明实施例提供一种基于差分隐私策略的多属性数据发布系统，包括：

获取模块，用于在判断接收到第一请求端的第一发布请求时，获取与第一发布请求单元内相对应的数据存储单元内的第一数据集，确定数据存储单元内先前发送至第一请求端或第二请求端的第二数据集；

比对模块，用于将所述第一数据集内的第一数据条与第二数据集内的第二数据条进行比对，得到新增数据集，获取所述新增数据集内所有新增数据条的第一数据条数量以及每个新增数据条的数据属性特征；

第一发布模块，用于基于新增数据集得到第一差异数量，若判断所述第一差异数量达到第一数量条件和数据属性特征达到第一特征条件，则将所述第一数据集发布至所述第一请求端；

生成模块，用于若判断所述第一差异数量达到第一数量条件，且数据属性特征未达到第一特征条件，则根据所述第一差异数量、所有新增数据条的数据属性特征生成噪音数据数量、噪音属性特征；

第二发布模块，用于根据所述噪音数据数量、噪音属性特征对所述第一数据集进行更新，得到相对应的第三数据集，将所述第三数据集发布至所述第一请求端。

本发明的有益效果是：

1、本方案会以数量和数据属性特征两个维度来判断两个相邻的数据集之间是否相差较少（较为接近），如果是，本方案会对数据集进行数量维度和属性特征维度的分析，得到噪音数据数量、噪音属性特征会对数据进行加噪处理，对即将发布的数据集进行更新，以根据数据集内所包括的数据条目之间的关系来辅助发布者对数据集发布进行决策，避免了在数据集共享的过程中隐私泄露的情况出现。

2、本方案依据不同的场景设置了不同的预设要求，预设要求有两种，一种是按照数据量的方式进行筛选，一直是按照时间的方式进行筛选，预设要求不同时，对数据集的分析方式也有所不同，以确保在不同场景下分析的准确性。另外，本方案在计算数量维度的差异时，不但会结合增加维度的数据，还会结合减少维度的数据，来综合计算差异数量；本方案在对属性特征维度进行分析时，会计算各数据属性所对应的属性特征占比，对属性特征占比进行分析，并在属性特征占比不位于预设占比区间内时，计算非最大的所有数据属性标识所对应的噪音分配子比例，得到每种噪音属性标识所对应的噪音属性特征的噪音子数量，对数据集进行加噪。

3、本方案在进行噪音数据插入时，设置了随机插入的方式，相较于复制数据条完全插入到新增数据的后部或者前部的方式，可以对新增数据和噪音数据进行混淆，确保数据的隐蔽性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例提供一种基于差分隐私策略的多属性数据发布方法的流程示意图；

图2是本发明实施例提供一种基于差分隐私策略的多属性数据发布方法的结构示意图。

具体实施方式

为使本发明的内容更容易被清楚地理解，下面根据具体实施方式并结合附图，对本发明作出进一步详细的说明。

参见图1，是本发明实施例提供一种基于差分隐私策略的多属性数据发布方法的流程是意图，包括S1-S5：

S1，在判断接收到第一请求端的第一发布请求时，获取与第一发布请求相对应的数据存储单元内的第一数据集，确定数据存储单元内先前发送至第一请求端或第二请求端的第二数据集。

其中，第一请求端为请求数据的一端，第一请求端在有数据需求时，可以向数据发送端发送第一发布请求，以向数据发送端请求数据，数据发送端可以将相关数据传输给第一请求端。

在本方案的场景中，数据发送端会设置有多个数据存储单元，不同的数据存储单元用于存储不同的数据，例如，数据存储单元A用于存储用电信息的用户数据。本方案的数据发送端在接收到第一请求端的第一发布请求时，会获取与第一发布请求相对应的数据存储单元内的第一数据集。例如，第一发布请求是想要请求用电信息的用户数据，那么本方案的数据发送端会确定到用于存储用电信息的用户数据的数据存储单元A，然后对数据存储单元A内的数据进行统计形成第一数据集。

同时，由于本方案会在多端之间经常共享数据集，为了防止利用相近数据集进行反推，本方案还会确定数据存储单元内先前发送至第一请求端或第二请求端的第二数据集。其中，第二请求端是指除了第一请求端之外的其余请求端，也就是说，数据发送端可以将数据发送给多个请求端。

在一些实施例中，所述S1包括S11- S14：

S11，提取所述第一发布请求所对应的请求标签，根据所述请求标签确定至少一个数据存储单元，每个请求标签具有与其预先对应设置的数据存储单元。

本方案会对第一发布请求进行解析，得到第一发布请求中的请求标签，以用电信息为例，请求标签例如是用电信息等，可以理解的是，本方案可以通过请求标签来快速查找到对应的数据存储单元。

S12，遍历所述数据存储单元内满足预设要求的数据条得到第一数据集，所述第一数据集内的数据条具有与其对应的第一数据标签，统计所有的第一数据标签得到第一标签列表。

本方案设置有预设要求，会依据预设要求遍历所述数据存储单元内满足预设要求的数据条得到第一数据集，其中，预设要求可以是用于筛选数据存储单元内相关数据条的条件，在一种方式下，预设要求可以是按照时间要求来筛选，例如是筛选近2个月的数据条，在该实施方式下，第一数据集所对应的数据条是对应近2个月的数据条；在另一种方式下，预设要求可以是按照数据量要求来筛选，例如是筛选数据存储单元内当前的所有数据条。

需要说明的是，第一数据集内的数据条具有与其对应的第一数据标签，统计所有的第一数据标签得到第一标签列表。其中，一个数据条可以对应一个用户信息，第一数据标签可以是用户姓名等标签，本方案可以统计第一数据集内所有的第一数据标签得到第一标签列表。

S13，获取与所确定的数据存储单元对应的数据发布记录表，所述数据发布记录表中具有每次发布时的发布时间信息、发布起始数据条的起始数据标签、发布终止数据条的终止数据标签。

本方案还会得到相应数据存储单元所对应的数据发布记录表，用于提取数据存储单元每次发布时的发布时间信息、发布起始数据条的起始数据标签、发布终止数据条的终止数据标签。

S14，选取与当前时刻最接近的发布时间信息作为第一发布时间信息，根据第一发布时间信息的起始数据标签、终止数据标签生成第二标签列表，统计数据存储单元内第二标签列表所对应的所有数据条得到第二数据集。

本方案会选取与当前时刻最接近的发布时间信息作为第一发布时间信息，然后利用第一发布时间信息的起始数据标签、终止数据标签生成第二标签列表，之后统计数据存储单元内第二标签列表所对应的所有数据条得到第二数据集。

可以理解的是，第二数据集内所对应的数据是上一次发布出去的数据集。

S2，将所述第一数据集内的第一数据条与第二数据集内的第二数据条进行比对，得到新增数据集，获取所述新增数据集内所有新增数据条的第一数据条数量以及每个新增数据条的数据属性特征。

在得到第二数据集后，本方案会将第一数据集内的第一数据条与第二数据集内的第二数据条进行比对，得到新增数据集。其中，第二数据集内的第二数据条是上一次发布出去的数据，本方案将第二数据集与第一数据集进行比对，可以得到新增数据集。示例性的，第二数据集内的第二数据条有1000个，这1000个数据条分别对应1000个用户，每个数据条对应每个用户的用电数据；第一数据集内有1100个数据条，这1100个数据条分别对应1100个用户，每个数据条对应每个用户的用电数据，那么新增数据集就是100个用户所对应的数据集。

本方案在得到新增数据集之后，会对新增数据集进行分析，得到新增数据集内所有新增数据条的第一数据条数量，以及每个新增数据条的数据属性特征。例如，第一数据条数量为100，每个新增数据条的数据属性特征例如是过量用电、正常用电、过少用电。

在一些实施例中，预设要求如果是按照数据量来筛选，例如是筛选数据存储单元内当前的所有数据条，在这种情况下，所述S2包括S21- S24：

S21，将第一标签列表与所述第二标签列表进行比对，若判断第一标签列表的所有第一数据标签完全包含第二标签列表的第二数据标签，则确定第一标签列表内具有、第二标签列表内不具有的第一数据标签，得到第一新增标签列表。

本方案在进行比对时，会将第一标签列表与第二标签列表进行比对，如果第一标签列表的所有第一数据标签完全包含第二标签列表的第二数据标签，说明有新增数据，此时，本方案会确定第一标签列表内具有、第二标签列表内不具有的第一数据标签，得到第一新增标签列表，第一新增标签列表例如是对应上述示例中100个用户的姓名。

S22，统计数据存储单元内所有的第一新增标签列表对应的数据条，得到新增数据集。

本方案在确定第一新增标签列表后，可以查询数据存储单元内所有的第一新增标签列表对应的数据条，得到新增数据集。

S23，获取所述数据存储单元内的数据条的数据属性种类，根据所述数据属性种类得到相对应的多个数据属性特征，每个数据属性种类具有与其对应的多个数据属性特征。

其中，数据属性种类可以是用户的用电种类，对应的数据属性特征可以是过量用电、正常用电、过少用电。

S24，统计第一新增标签列表内第一新增数据标签的数量得到第一数据条数量，以及第一新增标签列表内每个第一新增数据标签所对应的数据属性特征，使得每个第一新增数据标签具有相对应的数据属性标识。

本方案会计算第一新增标签列表内第一新增数据标签的数量，得到第一数据条数量，同时会统计第一新增标签列表内每个第一新增数据标签所对应的数据属性特征，使得每个第一新增数据标签具有相对应的数据属性标识。

在另一些实施例中，预设要求为按照时间来筛选，例如是筛选数据存储单元内近2个月的数据条，在这种情况下，所述S2包括S21- S25：

S21，将第一标签列表与所述第二标签列表进行比对，若判断第一标签列表的所有第一数据标签不完全包含第二标签列表的第二数据标签，则确定第一标签列表内具有、第二标签列表内不具有的第一数据标签，得到第一新增标签列表，确定第一标签列表内不具有、第二标签列表内具有的第二数据标签，得到第一减少标签列表。

与上一实施例不同的是，本方案是按照时间来进行筛选的，例如，1月的数据条为1-50,2月的数据条为50-100,3月的数据条为100-150，上一次发送的是1月和2月的数据条，也就是1-100，即对应的第二标签列表为1-100所对应的数据标签，第一标签列表为1-150所对应的数据标签。

在第一标签列表的所有第一数据标签不完全包含第二标签列表的第二数据标签时，说明当前的数据有新增数据，本方案会确定第一标签列表内具有、第二标签列表内不具有的第一数据标签，也就是50-150所对应的第一数据标签，得到第一新增标签列表；同时，本方案会确定第一标签列表内不具有、第二标签列表内具有的第二数据标签，得到第一减少标签列表，也就是1-50所对应的数据标签。

S22，统计数据存储单元内第一新增标签列表对应的所有的数据条，得到新增数据集，统计数据存储单元内第一减少标签列表对应的所有的数据条，得到减少数据集。

本方案会统计数据存储单元内第一新增标签列表对应的所有的数据条，得到新增数据集，即上述的100-150所对应的数据，然后统计数据存储单元内第一减少标签列表对应的所有的数据条，及上述的1-100所对应的数据，得到减少数据集。

本方案会统计第一新增标签列表内第一新增数据标签的数量得到第一数据条数量，第一数据条数量例如是50个，同时，本方案会统计第一新增标签列表内每个第一新增数据标签所对应的数据属性特征，使得每个第一新增数据标签具有相对应的数据属性标识。

S25，统计第一减少标签列表内第一减少数据标签的数量得到第二数据条数量，以及第一减少标签列表内每个第一减少数据标签所对应的数据属性特征，使得每个第一减少数据标签具有相对应的数据属性标识。

同时，本方案还会统计第一减少标签列表内第一减少数据标签的数量得到第二数据条数量，第二数据条数量例如是50个，此外，本方案会统计第一减少标签列表内每个第一减少数据标签所对应的数据属性特征，使得每个第一减少数据标签具有相对应的数据属性标识。

S3，基于新增数据集得到第一差异数量，若判断所述第一差异数量达到第一数量条件和数据属性特征达到第一特征条件，则将所述第一数据集发布至所述第一请求端。

本方案会新增数据集得到第一差异数量，然后对第一差异数量进行判断，如果第一差异数量达到第一数量条件、数据属性特征达到第一特征条件，说明新增数据的差异度足够，不会产生隐私安全，则本方案会将第一数据集发布至第一请求端。

在一些实施例中，所述S3包括S31- S33：

S31，基于第一数据条数量和/或第二数据条数量进行综合计算得到第一差异数量，若所述第一差异数量大于等于第一预设数量，则判断第一差异数量达到第一数量条件。

在计算第一差异数量时，本方案会对第一数据条数量和/或第二数据条数量进行综合计算，在得到第一差异数量后，本方案会将第一差异数量与第一预设数量进行比对，如果第一差异数量大于等于第一预设数量，则本方案会判断第一差异数量达到第一数量条件，即新增数据在数量维度上满足了要求。

在一些实施例中，S31（所述基于第一数据条数量和/或第二数据条数量进行综合计算得到第一差异数量，若所述第一差异数量大于等于第一预设数量，则判断第一差异数量达到第一数量条件）包括S311- S313：

S311，若判断仅存在第一数据条数量，不存在第二数据条数量，则将第一数据条数量作为第一差异数量。

如果判断仅存在第一数据条数量，不存在第二数据条数量，说明对应的场景是按照数据量来筛选的，例如是筛选数据存储单元内当前的所有数据条，这种场景下是不存在第二数据条数量的。此时，本方案会直接将第一数据条数量作为第一差异数量。

S312，若判断同时存在第一数据条数量和第二数据条数量，且第一数据条数量大于等于最小数据条数量，则根据第一数据条数量和第二数据条数量进行综合计算，得到第一差异数量。

如果判断同时存在第一数据条数量和第二数据条数量，说明对应的场景是按照时间来筛选，例如是筛选数据存储单元内近2个月的数据条，这种场景下是存在第二数据条数量的。本方案设置有最小数据条量，会在第一数据条数量大于等于最小数据条数量的情况下，因为只有在第一数据条数量大于等于最小数据条数量时，才具有一定的差异度，在根据第一数据条数量和第二数据条数量进行综合计算，得到第一差异数量。

通过以下公式计算第一差异数量，

其中，

为最小数据条数量，

为第一差异数量，

为第一数据条数量，

为第一数据条权重，

为第二数据条数量，

为第二数据条权重。

可以理解的是，新增数据是具有差异度的，减少数据也是具有差异度的，因此上述公式中，会综合第一数据条的数量以及第二数据条的数量来计算第一差异度数量，其中，

代表新增维度的差异值，

代表减少维度的差异值，第一数据条权重

和第二数据条权重

可以是工作人员预先设置的。

S313，若判断第一差异数量大于等于第一预设数量，则判断第一差异数量达到第一数量条件。

如果判断第一差异数量大于等于第一预设数量，说明在数量维度是满足预设要求的，本方案会判断第一差异数量达到第一数量条件。

S32，获取所有的第一新增数据标签的数据属性标识和/或第一减少数据标签具有的数据属性标识，根据每个数据属性标识所对应的数据属性特征，得到相对应的属性特征占比；

需要说明的是，上述实施例中，对数量维度进行了分析，本方案会对数据属性特征维度进行分析。

首先，本方案会得到所有的第一新增数据标签的数据属性标识和/或第一减少数据标签具有的数据属性标识，然后利用每个数据属性标识所对应的数据属性特征，得到相对应的属性特征占比。

在一些实施例中，S32（所述获取所有的第一新增数据标签的数据属性标识和/或第一减少数据标签具有的数据属性标识，根据每个数据属性标识所对应的数据属性特征，得到相对应的属性特征占比）包括S321- S323：

S321，统计第一新增数据标签在第

种的数据属性标识的减少数量。

可以理解的是，数据属性标识可以有多种，针对用电数据来说，可以有过量用电、正常用电和少量用电，本方案会统计第一新增数据标签在第

种的数据属性标识的减少数量，对每种数据属性标识进行分析。

S322，统计所有数据属性标识的数量得到属性种类总数量，根据所述属性种类总数量得到属性占比调整趋势值。

本方案会统计所有数据属性标识的数量得到属性种类总数量，例如，属性种类总数量为3种，分别是过量用电、正常用电和过少用电，然后会利用属性种类总数量得到属性占比调整趋势值。

S323，根据第

种数据属性标识的初步占比值，将初步占比值与 0.5比对得到比对结果，根据比对结果、属性占比调整趋势值对初步占比值进行调整，得到第

种的数据属性标识的属性特征占比。

本方案会根据第

种数据属性标识的初步占比值。

在得到初步占比值之后，本方案会对初步占比值进行分析，将初步占比值与0.5进行比对得到比对结果，然后利用比对结果、属性占比调整趋势值对初步占比值进行调整，得到第

种的数据属性标识的属性特征占比，本方案通过上述方式，可以较为准确的计算出每种数据属性标识的属性特征占比。

其中，S323（所述根据第

种的数据属性标识的属性特征占比）包括S3231- S3232：

S3231，对

种数据属性标识的初步占比值；

通过以下公式计算第

种的数据属性标识的初步占比值，

其中，

为第

种的数据属性标识的初步占比值，

为第

种数据属性标识的新增数量，

为新增数量的权重，

为

种数据属性标识的减少数量，

为减少数量的权重，

为

种数据属性标识的新增数量，

为新增数量所对应的数据属性标识的种类的上限值，

为

种数据属性标识的减少数量，

为减少数量所对应的数据属性标识的种类的上限值。

上述公式中，

代表第

种数据属性标识的新增数量维度的数值，

代表第

种数据属性标识的减少数量维度的数值，

代表第

种的数据属性标识的整体变化量，可以理解的是，整体变化量越大，第

种的数据属性标识的初步占比值

也就越大，

代表所有数据属性标识的新增数量维度的数值之和，

代表所有数据属性标识的减少数量维度的数值之和。其中，新增数量的权重

、减少数量的权重

可以是工作人员预先设置的。

S3232，若初步占比值小于0.5，则根据属性占比调整趋势值对初步占比值进行增大调整得到属性特征占比，若初步占比值大于0.5，则根据属性占比调整趋势值对初步占比值进行减小调整得到属性特征占比。

可以理解的是，如果初步占比值小于0.5，说明该数据属性标识所对应的初步占比值较小，本方案需要依据属性占比调整趋势值对初步占比值进行增大调整得到属性特征占比。如果初步占比值大于0.5，说明该数据属性标识所对应的初步占比值较大，本方案需要依据属性占比调整趋势值对初步占比值进行减小调整得到属性特征占比。

通过以下公式计算第

种数据属性标识的属性特征占比，

其中，

为第

种数据属性标识的属性特征占比，

为属性种类总数量，

为预设种类数量，

为种类数量归一化值。

上述公式中，

代表属性占比调整趋势值，即需要调整的幅度

代表属性种类总数量与预设种类数量的差值，差值越大，说明相差越大，则调整的幅度可以越大。其中，属性占比调整趋势值

可以是工作人员预先设置的。

S33，若所述属性特征占比位于预设占比区间内，则判断数据属性特征达到第一特征条件，将所述第一数据集发布至所述第一请求端。

本方案预先设置有预设占比区间，在得到属性特征占比后，如果属性特征占比位于预设占比区间内，说明数量维度和属性特征维度都满足了要求，则本方案会判断数据属性特征达到第一特征条件，此时，可以将第一数据集发布至第一请求端。

S4，若判断所述第一差异数量达到第一数量条件，且数据属性特征未达到第一特征条件，则根据所述第一差异数量、所有新增数据条的数据属性特征生成噪音数据数量、噪音属性特征。

如果说判断第一差异数量达到第一数量条件，数据属性特征未达到第一特征条件，说明数量维度达到了要求，但是数据属性特征未达到要求，需要对数据集进行更新处理。此时，本方案会依据第一差异数量、所有新增数据条的数据属性特征生成噪音数据数量、噪音属性特征，对数据集进行加噪处理，提高数据集的差异度。

在一些实施例中，所述S4包括S41- S43：

S41，若所有的数据属性标识的属性占比均不位于预设占比区间内，则判断数据属性特征未达到第一特征条件。

如果所有的数据属性标识的属性占比均不位于预设占比区间内，说明数据属性特征未达到第一特征条件。其中，预设占比区间可以是工作人员预先设置的，例如是15%-85%。

示例性的，数据属性标识有3种，过量用电的数据属性标识的属性占比为1%，正常用电的数据属性标识的属性占比为1%，小额用电的数据属性标识的属性占比为98%，预设占比区间为15%-85%，此时，每一种的属性占比均不位于预设占比区间内，本方案会判断数据属性特征未达到第一特征条件。

S42，将非最大的所有数据属性标识作为待增加的噪音属性标识，根据所述第一差异数量、噪音增加比例计算噪音数据数量。

此时，本方案会确定到非最大的所有数据属性标识，将非最大的所有数据属性标识作为待增加的噪音属性标识，然后根据第一差异数量、噪音增加比例计算出噪音数据数量。

示例性的，数据属性标识有3种，过量用电的数据属性标识的属性占比为1%，正常用电的数据属性标识的属性占比为1%，小额用电的数据属性标识的属性占比为98%，此时，确定的待增加的噪音属性标识为过量用电的数据属性标识和正常用电的数据属性标识。本方案会依据第一差异数量、噪音增加比例计算噪音数据数量。

S43，根据所述噪音属性标识的数量生成噪音分配子比例，根据所述噪音数据数量、噪音分配子比例进行计算，得到每种噪音属性标识所对应的噪音属性特征的噪音子数量。

本方案会依据噪音属性标识的数量生成噪音分配子比例，例如，噪音属性标识的数量有2个，分别对应过量用电和正常用电，此时，本方案会依据噪音属性标识的数量生成噪音分配子比例，例如分别可以是：过量用电：40%，正常用电：60%。其中的噪音分配子比例可以是随机生成的。

在得到噪音分配子比例后，本方案可以依据噪音数据数量、噪音分配子比例进行计算，得到每种噪音属性标识所对应的噪音属性特征的噪音子数量。

其中，S43（所述根据所述噪音属性标识的数量生成噪音分配子比例，根据所述噪音数据数量、噪音分配子比例进行计算，得到每种噪音属性标识所对应的噪音属性特征的噪音子数量）包括S431- S432：

S431，统计所有的噪音属性标识的数量，随机生成每种噪音属性标识对应的噪音分配子比例，通过以下公式计算每种噪音属性标识所对应的噪音属性特征的噪音子数量，

其中，

为噪音数据数量，

为噪音增加比例，

为第

种噪音属性标识所对应的噪音属性特征的噪音子数量，

为第

种噪音属性标识所对应的噪音分配子比例。

上述公式中，

为第一差异数量，本方案会依据第一差异数量和噪音增加比例

计算出噪音数据数量

。

代表第

种噪音属性标识所对应的噪音属性特征的噪音子数量。

S432，若所有的噪音子数量之和大于噪音数据数量，则将噪音子数量之和所得到的噪音数据数量对先前的噪音数据数量更新处理。

需要说明的是，如果计算出来的所有的噪音子数量之和大于噪音数据数量，则将噪音子数量之和所得到的噪音数据数量对先前的噪音数据数量更新处理。

可以理解的是，由于有向上取整的计算过程，计算出来的所有的噪音子数量之和可能会大于噪音数据数量，例如，噪音数据数量为10个，所有的噪音子数量之和为11，那么本方案会将先前的噪音数据数量更新处理为11。

本方案会根据噪音数据数量、噪音属性特征对第一数据集进行更新，得到相对应的第三数据集，可以理解的是，第三数据集是加入噪音数据的数据集，此时，本方案可以将第三数据集发布至第一请求端。

在一些实施例中，所述S5包括S51- S52：

S51，对所选取的任意一个新增数据条按照噪音数据数量进行复制处理，得到复制数据条，调取数据库中的预设名称对复制数据条的名称进行替换调整。

本方案可以任意选取一个新增数据条，然后按照噪音数据数量进行复制，得到多个复制数据条，在得到复制数据条之后，本方案会调取数据库中的预设名称对复制数据条的名称进行替换调整，防止复制数据条与新增数据条中的名称重复。

S52，将所有复制数据条所对应的数据属性特征依次替换为噪音属性特征，将复制数据条插入至第一数据集内，得到相对应的第三数据集，将所述第三数据集发布至所述第一请求端。

在将复制数据条的名称替换完毕后，本方案会将所有复制数据条所对应的数据属性特征依次替换为噪音属性特征，实现属性特征的更新，然后将复制数据条插入至第一数据集内，得到相对应的第三数据集，将第三数据集发布至第一请求端。

在一些实施例中，S52（所述将所有复制数据条所对应的数据属性特征依次替换为噪音属性特征，将复制数据条插入至第一数据集内，得到相对应的第三数据集，将所述第三数据集发布至所述第一请求端）包括S521-S522：

S521，提取新增数据内所有第一新增数据标签的最小序号和最大序号，生成相对应的序号段，随机提取序号段中与噪音数据数量相对应数量的序号作为插入序号，为每个复制数据条分配插入序号。

本方案在进行复制数据条的插入时，会先提取新增数据内所有第一新增数据标签的最小序号和最大序号，生成相对应的序号段，例如，总共有50个新增数据，最小序号为1，最大序号为50，生成每个新增数据所对应的序号段。

本方案会随机提取序号段中与噪音数据数量相对应数量的序号作为插入序号，为每个复制数据条分配插入序号。

示例性的，总共需要插入10个复制数据条，需要插入的数据有2组，一组是对应过量用电的数据，例如需要插入4个过量用电所对应的复制数据条，一组是对应正常用电的数据，例如需要插入6个正常用电所对应的复制数据条。那么本方案会提取序号段中的序号4，以及序号6。

S522，按照所述插入序号将复制数据条插入至第一数据集内相同序号第一数据条后部，在判断所有复制数据条分别插入至第一数据集内后，对所有的复制数据条、第一数据条的序号更新处理，得到相对应的第三数据集。

本方案会将4个过量用电所对应的复制数据条插入到序号4后部，将6个正常用电所对应的复制数据条插入到序号6后部，实现10个复制条数据的随机插入，在判断所有复制数据条分别插入至第一数据集内后，对所有的复制数据条、第一数据条的序号更新处理，得到相对应的第三数据集。

可以理解的是，本方案通过上述随机插入的方式，相较于复制数据条完全插入到新增数据的后部或者前部的方式，可以对数据进行混淆，确保数据的隐蔽性。

参见图2，是本发明实施例提供的一种基于差分隐私策略的多属性数据发布系统的结构示意图，该基于差分隐私策略的多属性数据发布系统包括：

除上述实施例外，本发明还可以有其他实施方式；凡采用等同替换或等效变换形成的技术方案，均落在本发明要求的保护范围。

Claims

1.基于差分隐私策略的多属性数据发布方法，其特征在于，包括：

S5，根据所述噪音数据数量、噪音属性特征对所述第一数据集进行更新，得到相对应的第三数据集，将所述第三数据集发布至所述第一请求端；

所述S1包括：

选取与当前时刻最接近的发布时间信息作为第一发布时间信息，根据第一发布时间信息的起始数据标签、终止数据标签生成第二标签列表，统计数据存储单元内第二标签列表所对应的所有数据条得到第二数据集；

所述S2包括：

统计第一减少标签列表内第一减少数据标签的数量得到第二数据条数量，以及第一减少标签列表内每个第一减少数据标签所对应的数据属性特征，使得每个第一减少数据标签具有相对应的数据属性标识；

所述S3包括：

根据数据属性特征的数量、不同类型的数据属性特征的属性特征占比进行计算，得到每种数据属性特征的融合属性占比，若所述融合属性占比位于预设占比区间内，则判断数据属性特征达到第一特征条件，将所述第一数据集发布至所述第一请求端；

所述基于第一数据条数量和/或第二数据条数量进行综合计算得到第一差异数量，若所述第一差异数量大于等于第一预设数量，则判断第一差异数量达到第一数量条件，包括：

其中，

为最小数据条数量，

为第一差异数量，

为第一数据条数量，

为第一数据条权重，

为第二数据条数量，

为第二数据条权重；

2.根据权利要求1所述的基于差分隐私策略的多属性数据发布方法，其特征在于，

所述获取所有的第一新增数据标签的数据属性标识和/或第一减少数据标签具有的数据属性标识，根据每个数据属性标识所对应的数据属性特征，得到相对应的属性特征占比，包括：

统计第一新增数据标签在第

种的数据属性标识的减少数量；

根据第

种的数据属性标识的属性特征占比。

3.根据权利要求2所述的基于差分隐私策略的多属性数据发布方法，其特征在于，

所述根据第

种的数据属性标识的属性特征占比，包括：

对

种数据属性标识的初步占比值；

通过以下公式计算第

种的数据属性标识的初步占比值，

其中，

为第

种的数据属性标识的初步占比值，

为

种数据属性标识的新增数量，

为新增数量的权重，

为

种数据属性标识的减少数量，

为减少数量的权重，

为

种数据属性标识的新增数量，

为新增数量所对应的数据属性标识的种类的上限值，

为

种数据属性标识的减少数量，

为减少数量所对应的数据属性标识的种类的上限值；

通过以下公式计算第

种数据属性标识的属性特征占比，

其中，

为第

种数据属性标识的属性特征占比，

为属性种类总数量，

为预设种类数量，

为种类数量归一化值。

4.根据权利要求2所述的基于差分隐私策略的多属性数据发布方法，其特征在于，

所述S4包括：

5.根据权利要求4所述的基于差分隐私策略的多属性数据发布方法，其特征在于，

所述根据所述噪音属性标识的数量生成噪音分配子比例，根据所述噪音数据数量、噪音分配子比例进行计算，得到每种噪音属性标识所对应的噪音属性特征的噪音子数量，包括：

其中，

为噪音数据数量，

为噪音增加比例，

为第

种噪音属性标识所对应的噪音属性特征的噪音子数量，

为第

种噪音属性标识所对应的噪音分配子比例；

6.根据权利要求5所述的基于差分隐私策略的多属性数据发布方法，其特征在于，

所述S5包括：

7.根据权利要求6所述的基于差分隐私策略的多属性数据发布方法，其特征在于，

所述将所有复制数据条所对应的数据属性特征依次替换为噪音属性特征，将复制数据条插入至第一数据集内，得到相对应的第三数据集，将所述第三数据集发布至所述第一请求端，包括：

按照所述插入序号将复制数据条插入至第一数据集内相同序号第一数据条后部，在判断所有复制数据条分别插入至第一数据集内后，对所有的复制数据条、第一数据条的序号进行更新处理，得到相对应的第三数据集。

8.基于差分隐私策略的多属性数据发布系统，其特征在于，包括：

第二发布模块，用于根据所述噪音数据数量、噪音属性特征对所述第一数据集进行更新，得到相对应的第三数据集，将所述第三数据集发布至所述第一请求端；

所述获取模块用于：

所述比对模块用于：

所述第一发布模块用于：

其中，

为最小数据条数量，

为第一差异数量，

为第一数据条数量，

为第一数据条权重，

为第二数据条数量，

为第二数据条权重；