CN115098881A - 一种基于敏感等级划分的数据扰动方法及装置 - Google Patents

一种基于敏感等级划分的数据扰动方法及装置 Download PDF

Info

Publication number
CN115098881A
CN115098881A CN202210684482.1A CN202210684482A CN115098881A CN 115098881 A CN115098881 A CN 115098881A CN 202210684482 A CN202210684482 A CN 202210684482A CN 115098881 A CN115098881 A CN 115098881A
Authority
CN
China
Prior art keywords
data
user
sensitivity
sensitivity level
privacy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210684482.1A
Other languages
English (en)
Inventor
黄屿璁
吕鑫
张潮
高晟凯
李鑫
曾涛
王鑫元
徐振楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ministry Of Water Resources Information Center
Hohai University HHU
Original Assignee
Ministry Of Water Resources Information Center
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ministry Of Water Resources Information Center, Hohai University HHU filed Critical Ministry Of Water Resources Information Center
Publication of CN115098881A publication Critical patent/CN115098881A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6227Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于敏感等级划分的数据扰动方法及装置,该方法包括:1)对输入值域内每一项数据的敏感度进行评估并确定每个敏感等级的划分标准及对应的隐私预算;2)根据数据敏感度评估结果计算出数据的综合敏感度;3)对照敏感等级的划分标准,确定用户数据敏感等级与隐私预算;4)使用对应的隐私预算对数据进行扰动。本发明通过对数据的敏感等级进行划分,结合数据自身敏感度与用户的隐私需求为不同等级的数据分配不同的隐私预算进行扰动,能有效地减少噪声引入,提高统计结果的精度。

Description

一种基于敏感等级划分的数据扰动方法及装置
技术领域
本发明涉及数据发布与隐私保护技术领域,具体涉及一种基于敏感等级划分的数据扰动方法及装置。
背景技术
随着智能终端设备的普及以及大数据技术的飞速发展,越来越多的网络运营商通过客户端、网络服务等方式收集用户数据,以改善软件及服务的质量,为用户提供更准确、更有价值的内容。一旦发生隐私泄露的问题,不仅会为用户带来很大的风险,还会对企业自身造成经济与名誉上的双重损失。在这样的过程中用户个人隐私的保护是重中之重,如何在数据收集的过程中保护用户个人隐私,是当今社会关注的一个热点问题。
差分攻击是一种通过比对邻近数据库之间的差异获取信息的隐私攻击方式,传统的隐私保护方式无法防止差分攻击。针对此,有学者提出了一种新的隐私保护模型——差分隐私。差分隐私通过对原有数据添加噪声以达到扰动的作用,与其他隐私保护模型的区别在于差分隐私利用严格的数学定义证明了自身的隐私保护能力,并通过隐私预算参数对隐私保护水平进行量化,能有效地抵抗差分攻击。
差分隐私依赖于一个可信的第三方服务器,若服务器遭受到隐私攻击还是存在隐私泄露的风险。为了解决这一问题,有学者在差分隐私的基础上提出了本地差分隐私。本地差分隐私将数据扰动的过程放在用户端,由用户对数据进行扰动后再发送给服务器,因此摆脱了对第三方服务器的依赖,大大降低了隐私泄露的风险。
数据统计分析是本地差分隐私的主要应用与研究热点之一,主要包括对用户数据的频率估计与均值估计。频率估计针对分类型数据,通过收集所有用户数据统计每一项数据出现的频率;均值估计则针对数值型数据,在频率估计的基础上计算数据的均值。为了给统计分析的过程提供本地差分隐私保护,用户在上传数据前需要使用扰动方法对数据进行加噪,再由服务器进行统计与校正。
隐私预算的大小决定了扰动方法的隐私保护水平,也是影响结果精度的重要因素。目前针对统计分析的扰动方法大多都使用相同隐私预算对所有用户的数据进行扰动,没有对用户数据及用户的隐私敏感程度进行区分。现实中不同数据、不同用户的隐私保护需求很大可能存在差异,若直接为所有用户提供最严格的隐私保护,可能会引入很多不必要的噪声。
发明内容
本发明的目的在于提出一种基于敏感等级划分的数据扰动方法及装置,通过对用户数据隐私敏感程度进行分级的方式实现隐私预算的合理分配,结合数据敏感度与用户的隐私需求为不同等级的数据提供不同水平的本地差分隐私保护,从而减少噪声的引入,提高统计结果的精度。
为达到上述目的,本发明采用以下技术方案:
本发明提供一种基于敏感等级划分的数据扰动方法,括:
获取输入值域内每一项数据的敏感度,以及划分用户的敏感等级和各敏感等级对应的隐私预算;
根据每一项数据的敏感度,计算用户发送数据的综合敏感度;
根据用户敏感等级划分,结合所计算的综合敏感度,确定用户发送数据的敏感等级以及敏感等级所对应的隐私预算;
对用户发送数据进行填充,使得数据长度达到预设长度;
从填充后的用户发送数据中选择一个数据,根据填充后值域的大小选择相应的协议,并基于用户隐私预算对所选择的数据进行扰动。
进一步的,所述划分用户的敏感等级和各敏感等级对应的隐私预算,包括:
设置k个敏感等级,用Lj表示第j级对应的敏感节点,其中1≤j≤k且L0=0,Lj-1<Lj
当用户的数据敏感度在范围(Lj-1,Lj]时,表示该用户的敏感等级为j;
为每个敏感等级设置隐私预算,用∈j表示第j级对应的隐私预算,其中,1≤j≤k且∈1>∈2>...>∈k
进一步的,所述计算用户发送数据的综合敏感度,包括:
Figure BDA0003699561400000021
其中,Si表示用户ui的综合敏感度,Q(·)表示打分函数,Xi={x1,x2,...,xm}表示用户ui发送的数据集合,其中x1,x2,...,xm∈D且1≤m≤d,D={x1,x2,...,xd}表示输入值域,m表示用户发送数据个数,d表示输入值域数据个数,
Figure BDA0003699561400000022
表示用户ui对于数据xj的发送意愿,sj表示数据xj的敏感度。
进一步的,所述确定用户发送数据的敏感等级以及敏感等级所对应的隐私预算,包括:
使用二分查找法找到计算得到的综合敏感度Si所在的区间,假设是(Lj-1,Lj],即Lj-1≤Si≤Lj,则确定用户发送数据的敏感等级为j,对应的隐私预算为∈j
进一步的,所述对用户发送数据进行填充,使得数据长度达到预设长度,包括:
预设填充长度l与填充数据集Dl={⊥1,⊥2,...,⊥l-1},其中1≤l≤d;
如果用户ui发送数据个数m满足m<l,则从Dl中随机选取l-m项数据加入到用户ui发送数据集合Xi中;若m>l则从Xi中随机选取m-l项数据删除。
进一步的,所述填充长度l大于所有用户中90%数据的长度;
所述充数据集Dl中所有数据均不属于D。
进一步的,还包括,
若用户数据均为单值数据,则不进行填充采样。
进一步的,所述从填充后的用户发送数据中选择一个数据,根据填充后值域的大小选择相应的协议,并基于用户隐私预算对所选择的数据进行扰动,包括:
按以下方式选择相应的协议对所选择的数据进行扰动:
Figure BDA0003699561400000031
其中,
Figure BDA0003699561400000032
为方差临界值,d′=|D|+l-1表示填充后值域的大小,满足
Figure BDA0003699561400000033
时,采用OLH协议对用户发送数据进行扰动;
Figure BDA0003699561400000034
时,采用GRR协议对用户发送数据进行扰动;
所述采用OLH协议对用户发送数据进行扰动,包括:
采用不同的哈希函数将输入数据映射到一个长度为g的集合中,表示如下:
Figure BDA0003699561400000035
其中,y、x为填充后的值域中的任意数据,Hi表示用户ui使用的哈希函数,
Figure BDA0003699561400000036
所述采用GRR协议对用户发送数据进行扰动,包括:
在输入值域内通过一个概率公式对数据进行保留或替换操作,表示为:
Figure BDA0003699561400000037
其中,Pr[ΨGRR(x)=y]表示算法Ψ输入x输出y的概率。
进一步的,还包括:
将扰动后的数据发送给服务器,服务器在统计时再乘以l。
本发明还提供一种基于敏感等级划分的数据扰动装置,包括:
初始化模块,用于获取输入值域内每一项数据的敏感度,以及划分用户的敏感等级和各敏感等级对应的隐私预算;
第一计算模块,用于根据每一项数据的敏感度,计算用户发送数据的综合敏感度;
第二计算模块,用于根据用户敏感等级划分,结合所计算的综合敏感度,确定用户发送数据的敏感等级以及敏感等级所对应的隐私预算;
填充模块,用于对用户发送数据进行填充,使得数据长度达到预设长度;
以及,
扰动模块,用于从填充后的用户发送数据中选择一个数据,根据填充后值域的大小选择相应的协议,并基于用户隐私预算对所选择的数据进行扰动。
与现有技术相比,本发明的有益效果是:
1、本发明提供的基于敏感等级划分的数据扰动方法,通过分析用户数据的隐私敏感度与用户的隐私需求,确定发送数据的敏感等级,并根据不同敏感等级分配不同的隐私预算。在对用户进行敏感等级划分的同时使用对应的隐私预算对数据进行扰动,有效地减少了噪声的引入,提高了统计结果的精度;
2、本发明提供的基于敏感等级划分的数据扰动方法,根据输入值域的大小以及用户隐私预算的不同,选用误差更小的扰动协议对数据进行扰动,进一步提高了统计结果精度;
3、本发明提供的基于敏感等级划分的数据扰动方法,可用于频率估计,也可用于均值估计;数据类型可以是单值数据,也可以是集值数据;并且可与现有的大多数方案进行结合,具有很强的可扩展性。
附图说明
图1为本发明提供的一种基于敏感等级划分的数据扰动方法流程图;
图2为本发明实施例中对数据敏感度及敏感等级设置示例;
图3为本发明实施例中用户对数据进行扰动的流程图。
具体实施方式
下面对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
本发明提供一种基于敏感等级划分的数据扰动方法,参见图1,包括:
获取输入值域D内每一项数据的敏感度以及所有用户的敏感等级,以及各敏感等级对应的隐私预算;
根据每一项数据的敏感度,计算用户发送数据的综合敏感度;
根据敏感等级划分标准,结合所计算的综合敏感度,确定用户发送数据的敏感等级以及敏感等级所对应的隐私预算∈j,其中1≤j≤k;
使用填充采样技术对用户发送数据进行处理,使得数据长度等于l,并从填充后的用户发送数据中选择一个数据;
计算填充后值域D′的大小d′=|D|+l-1,根据d′选择GRR协议或OLH协议对所选择的数据进行扰动,将扰动结果与敏感等级发送给服务器。
本发明一个实施例提供的一种基于敏感等级划分的数据扰动方法,具体实现过程如下:
步骤S1、对服务器输入值域D={x1,x2,...,xd}内的所有数据进行敏感度评估,并设置敏感等级1,2,...,k,将结果发送给所有用户,如图2所示,具体过程如下:
S11:对输入值域D中的每一项数据的隐私敏感程度进行评估,用si表示数据xi的敏感度,其中1≤i≤d。xi的敏感程度越高,si的值就越大。不同数据对应的敏感度可以相等;
需要说明的是,本实施例中由服务器在统计前根据实际情况对输入值域内的每一项数据的敏感度进行人工评估,并设置为si
S12:设置敏感等级1,2,...,k,用来表示不同用户的隐私敏感程度,等级越高代表敏感程度越高。该敏感程度包括用户所拥有数据本身的敏感程度以及不同数据对于不同用户的敏感程度。用Lj表示第j级对应的敏感节点,其中1≤j≤k且L0=0。敏感节点是两个敏感等级之间的临界点,等级越高敏感节点的值越大,即Lj-1<Lj。当用户最终计算的数据敏感度在范围(Lj-1,Lj]时,表示该用户的敏感等级为j;
S13:为每个敏感等级设置隐私预算。隐私预算是衡量扰动算法隐私保护水平的关键指标,隐私预算的值越小,算法隐私保护水平越高。用ε={∈1,∈2,...,∈k}表示隐私预算集合,其中第j级对应的隐私预算为∈j,1≤j≤k。敏感等级越高,对应的隐私预算则越小,即∈1>∈2>...>∈k
S14:将设置结果发送给所有用户,包括每一项数据敏感度的评估结果、k个敏感等级对应的敏感节点与隐私预算。
步骤S2至S5为用户扰动数据的过程,如图3所示,具体如下:
步骤S2、用户根据数据敏感度评估的结果,使用打分函数计算出所发送数据的综合敏感度,具体如下:
假设用户ui每次发送给服务器的数据集合Xi={x1,x2,...,xm},其中x1,x2,...,xm∈D且1≤m≤d。用Q表示打分函数,Si表示用户ui的综合敏感度,Si的值越大,表示用户ui所发送数据的隐私敏感程度越高。Si的计算方法如下:
Figure BDA0003699561400000051
其中,
Figure BDA0003699561400000061
表示用户ui对于数据xj的发送意愿,
Figure BDA0003699561400000062
值越大表示用户ui越不愿意发送xj,即xj对于ui的敏感程度越高。当ui不对xj进行发送意愿的设置时,默认
Figure BDA0003699561400000063
需要说明的是,
Figure BDA0003699561400000064
是用户上传数据前根据该数据对于用户自身的敏感程度进行设置的(相当于选择数据的安全级别)
步骤S3、用户参照敏感等级划分标准,结合所计算的综合敏感度,确定用户所发送数据的敏感等级及所对应的隐私预算。具体过程如下:
用户ui对照各等级的敏感节点值,使用二分查找法找到由步骤S2计算得到的Si所在的区间,假设是(Lj-1,Lj],即Lj-1≤Si≤Lj,则可以确定其敏感等级为j,对应的隐私预算为∈j,其中1≤j≤k。
步骤S4、用户使用填充采样技术对所发送数据进行处理,使得数据长度等于l。填充采样技术可以消除集值数据长度不统一导致扰动范围过大的问题,具体操作过程如下:
S41:设置填充长度l与填充数据集Dl={⊥1,⊥2,...,⊥l-1},其中1≤l≤d。l应大于等于所有用户数据中90%数据的长度,Dl中的每一项数据在D中都不存在,只是用来对数据进行填充,没有统计意义。若用户数据均为单值数据,即每个用户每次仅发送一项数据时,可以直接跳过步骤S4,等价于令l=1,
Figure BDA0003699561400000065
S42:假设用户ui的数据集合Xi={x1,x2,...,xm},若m<l则从Dl中随机选取l-m项数据加入Xi中;若m>l则从Xi中随机选取m-l项数据删除。最终使得Xi长度等于l;
S43:从处理后的Xi中随机抽取一项数据,用这项数据替代Xi,仅对这一项数据进行扰动,从而不需要将隐私预算分配给Xi中的每一项数据。
步骤S5、用户计算填充后值域D′的大小d′=|D|+l-1,根据d′选择GRR协议或OLH协议对数据进行扰动:
Figure BDA0003699561400000066
其中,
Figure BDA0003699561400000067
为方差临界值,当
Figure BDA0003699561400000068
时,使用GRR协议与OLH协议扰动的方差相等。因此将d′与
Figure BDA0003699561400000069
进行比较,选择方差更小的协议作为扰动协议。将扰动结果与敏感等级发送给服务器。其中两个协议的具体内容如下:
本地差分隐私中对数据的扰动采用随机响应机制,即在输入值域内通过一个概率公式对数据进行保留或替换操作。用Ψ表示扰动算法,假设用户ui的隐私预算为∈j,则GRR协议可定义为:
Figure BDA0003699561400000071
其中,y、x为填充后的值域D′中的任意数据,包括D和Dl,Pr[ΨGRR(x)=y]表示算法Ψ输入x输出y的概率,GRR表示算法满足的扰动协议。
Figure BDA0003699561400000072
时,使用OLH协议的误差要比使用GRR协议小。在OLH协议中每个用户使用不同的哈希函数将输入数据映射到一个长度为g的集合中,其中
Figure BDA0003699561400000073
用Hi表示用户ui使用的哈希函数,则OLH协议可定义为:
Figure BDA0003699561400000074
扰动后不再发送Xi,而是作为替代将该扰动后的数据发送给服务器,服务器在统计时再乘以l。
本发明的另一个实施例提供一种基于敏感等级划分的数据扰动装置,包括:
初始化模块,用于获取输入值域内每一项数据的敏感度,以及划分用户的敏感等级和各敏感等级对应的隐私预算;
第一计算模块,用于根据每一项数据的敏感度,计算用户发送数据的综合敏感度;
第二计算模块,用于根据用户敏感等级划分,结合所计算的综合敏感度,确定用户发送数据的敏感等级以及敏感等级所对应的隐私预算;
填充模块,用于对用户发送数据进行填充,使得数据长度达到预设长度;
以及,
扰动模块,用于从填充后的用户发送数据中选择一个数据,根据填充后值域的大小选择相应的协议,并基于用户隐私预算对所选择的数据进行扰动。
本实施例中,初始化模块具体用于,
设置k个敏感等级,用Lj表示第j级对应的敏感节点,其中1≤j≤k且L0=0,Lj-1<Lj
当用户的数据敏感度在范围(Lj-1,Lj]时,表示该用户的敏感等级为j;
为每个敏感等级设置隐私预算,用∈j表示第j级对应的隐私预算,其中,1≤j≤k且∈1>∈2>...>∈k
本实施例中,第一计算模块具体用于,计算用户发送数据的综合敏感度如下:
Figure BDA0003699561400000081
其中,Si表示用户ui的综合敏感度,Q(·)表示打分函数,Xi={x1,x2,...,xm}表示用户ui发送的数据集合,其中x1,x2,…,xm∈D且1≤m≤d,D={x1,x2,…,xd}表示输入值域,m表示用户发送数据个数,d表示输入值域数据个数,
Figure BDA0003699561400000082
表示用户ui对于数据xj的发送意愿,sj表示数据xj的敏感度。
本实施例中,第二计算模块具体用于,
使用二分查找法找到计算得到的综合敏感度Si所在的区间,假设是(Lj-1,Lj],即Lj-1≤Si≤Lj,则确定用户发送数据的敏感等级为j,对应的隐私预算为∈j
本实施例中,第二计算模块具体用于,
预设填充长度l与填充数据集Dl={⊥1,⊥2,...,⊥l-1},其中1≤l≤d;
如果用户ui发送数据个数m满足m<l,则从Dl中随机选取l-m项数据加入到用户ui发送数据集合Xi中;若m>l则从Xi中随机选取m-l项数据删除。
若用户数据均为单值数据,则不进行填充采样。
本实施例中,扰动模块具体用于,
从处理后的Xi中随机抽取一项数据,按以下方式选择相应的协议对所选择数据进行扰动:
Figure BDA0003699561400000083
其中,
Figure BDA0003699561400000084
为方差临界值,d′=|D|+l-1表示填充后值域的大小,满足
Figure BDA0003699561400000085
时,采用OLH协议对用户发送数据进行扰动;
Figure BDA0003699561400000086
时,采用GRR协议对用户发送数据进行扰动。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (10)

1.一种基于敏感等级划分的数据扰动方法,其特征在于,包括:
获取输入值域内每一项数据的敏感度,以及划分用户的敏感等级和各敏感等级对应的隐私预算;
根据每一项数据的敏感度,计算用户发送数据的综合敏感度;
根据用户敏感等级划分,结合所计算的综合敏感度,确定用户发送数据的敏感等级以及敏感等级所对应的隐私预算;
对用户发送数据进行填充,使得数据长度达到预设长度;
从填充后的用户发送数据中选择一个数据,根据填充后值域的大小选择相应的协议,并基于用户隐私预算对所选择的数据进行扰动。
2.根据权利要求1所述的一种基于敏感等级划分的数据扰动方法,其特征在于,所述划分用户的敏感等级和各敏感等级对应的隐私预算,包括:
设置k个敏感等级,用Lj表示第j级对应的敏感节点,其中1≤j≤k且L0=0,Lj-1<Lj
当用户的数据敏感度在范围(Lj-1,Lj]时,表示该用户的敏感等级为j;
为每个敏感等级设置隐私预算,用∈j表示第j级对应的隐私预算,其中,1≤j≤k且∈1>∈2>...>∈k
3.根据权利要求2所述的一种基于敏感等级划分的数据扰动方法,其特征在于,所述计算用户发送数据的综合敏感度,包括:
Figure FDA0003699561390000011
其中,Si表示用户ui的综合敏感度,Q(·)表示打分函数,Xi={x1,x2,...,xm}表示用户ui发送的数据集合,其中x1,x2,...,xm∈D且1≤m≤d,D={x1,x2,...,xd}表示输入值域,m表示用户发送数据个数,d表示输入值域数据个数,
Figure FDA0003699561390000012
表示用户ui对于数据xj的发送意愿,sj表示数据xj的敏感度。
4.根据权利要求3所述的一种基于敏感等级划分的数据扰动方法,其特征在于,所述确定用户发送数据的敏感等级以及敏感等级所对应的隐私预算,包括:
使用二分查找法找到计算得到的综合敏感度Si所在的区间,假设是(Lj-1,Lj],即Lj-1≤Si≤Lj,则确定用户发送数据的敏感等级为j,对应的隐私预算为∈j
5.根据权利要求3所述的一种基于敏感等级划分的数据扰动方法,其特征在于,所述对用户发送数据进行填充,使得数据长度达到预设长度,包括:
预设填充长度l与填充数据集Dl={⊥1,⊥2,...,⊥l-1},其中1≤l≤d;
如果用户ui发送数据个数m满足m<l,则从Dl中随机选取l-m项数据加入到用户ui发送数据集合Xi中;若m>l则从Xi中随机选取m-l项数据删除。
6.根据权利要求5所述的一种基于敏感等级划分的数据扰动方法,其特征在于,所述填充长度l大于所有用户中90%数据的长度;
所述充数据集Dl中所有数据均不属于D。
7.根据权利要求5所述的一种基于敏感等级划分的数据扰动方法,其特征在于,还包括,
若用户数据均为单值数据,则不进行填充采样。
8.根据权利要求5所述的一种基于敏感等级划分的数据扰动方法,其特征在于,所述从填充后的用户发送数据中选择一个数据,根据填充后值域的大小选择相应的协议,并基于用户隐私预算对所选择的数据进行扰动,包括:
按以下方式选择相应的协议对所选择的数据进行扰动:
Figure FDA0003699561390000021
其中,
Figure FDA0003699561390000022
为方差临界值,d′=|D|+l-1表示填充后值域的大小,满足
Figure FDA0003699561390000023
时,采用OLH协议对用户发送数据进行扰动;
Figure FDA0003699561390000024
时,采用GRR协议对用户发送数据进行扰动;
所述采用OLH协议对用户发送数据进行扰动,包括:
采用不同的哈希函数将输入数据映射到一个长度为g的集合中,表示如下:
Figure FDA0003699561390000025
其中,y、x为填充后的值域中的任意数据,Hi表示用户ui使用的哈希函数,
Figure FDA0003699561390000026
所述采用GRR协议对用户发送数据进行扰动,包括:
在输入值域内通过一个概率公式对数据进行保留或替换操作,表示为:
Figure FDA0003699561390000027
其中,Pr[ΨGRR(x)=y]表示算法Ψ输入x输出y的概率。
9.根据权利要求8所述的一种基于敏感等级划分的数据扰动方法,其特征在于,还包括:
将扰动后的数据发送给服务器,服务器在统计时再乘以l。
10.一种基于敏感等级划分的数据扰动装置,其特征在于,包括:
初始化模块,用于获取输入值域内每一项数据的敏感度,以及划分用户的敏感等级和各敏感等级对应的隐私预算;
第一计算模块,用于根据每一项数据的敏感度,计算用户发送数据的综合敏感度;
第二计算模块,用于根据用户敏感等级划分,结合所计算的综合敏感度,确定用户发送数据的敏感等级以及敏感等级所对应的隐私预算;
填充模块,用于对用户发送数据进行填充,使得数据长度达到预设长度;
以及,
扰动模块,用于从填充后的用户发送数据中选择一个数据,根据填充后值域的大小选择相应的协议,并基于用户隐私预算对所选择的数据进行扰动。
CN202210684482.1A 2022-04-07 2022-06-17 一种基于敏感等级划分的数据扰动方法及装置 Pending CN115098881A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2022103609745 2022-04-07
CN202210360974 2022-04-07

Publications (1)

Publication Number Publication Date
CN115098881A true CN115098881A (zh) 2022-09-23

Family

ID=83290421

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210684482.1A Pending CN115098881A (zh) 2022-04-07 2022-06-17 一种基于敏感等级划分的数据扰动方法及装置

Country Status (1)

Country Link
CN (1) CN115098881A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117349896A (zh) * 2023-12-05 2024-01-05 中国电子科技集团公司第十研究所 一种基于敏感分级的数据收集方法、分析方法及分析系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117349896A (zh) * 2023-12-05 2024-01-05 中国电子科技集团公司第十研究所 一种基于敏感分级的数据收集方法、分析方法及分析系统
CN117349896B (zh) * 2023-12-05 2024-02-06 中国电子科技集团公司第十研究所 一种基于敏感分级的数据收集方法、分析方法及分析系统

Similar Documents

Publication Publication Date Title
CN107305611B (zh) 恶意账号对应的模型建立方法和装置、恶意账号识别的方法和装置
WO2022111327A1 (zh) 风险等级的数据处理方法及装置、存储介质、电子设备
CN110874488A (zh) 一种基于混合差分隐私的流数据频数统计方法、装置、系统及存储介质
CN112711705B (zh) 舆情数据处理方法、设备及存储介质
CN110022531B (zh) 一种本地化差分隐私城市垃圾数据报告和隐私计算方法
CN112307078B (zh) 基于滑动窗口的数据流差分隐私直方图发布方法
CN115545216B (zh) 一种业务指标预测方法、装置、设备和存储介质
CN116108393A (zh) 电力敏感数据分类分级方法、装置、存储介质及电子设备
CN115098881A (zh) 一种基于敏感等级划分的数据扰动方法及装置
Zhou et al. A lightweight matrix factorization for recommendation with local differential privacy in big data
CN112541635A (zh) 业务数据统计预测方法、装置、计算机设备及存储介质
CN116186757A (zh) 一种效用增强的条件特征选择差分隐私数据发布方法
CN115795535A (zh) 一种提供自适应梯度的差分私有联邦学习方法及装置
KR102009029B1 (ko) 특징정보 비교분석을 통한 콘텐츠 필터링 시스템
CN108171570A (zh) 一种数据筛选方法、装置及终端
CN109525933B (zh) 位置隐私保护方法及装置
CN114785616A (zh) 数据风险检测方法、装置、计算机设备及存储介质
EP3330868A1 (en) Clustering apparatus and method
CN113157542B (zh) 基于应用日志的趋同行为用户识别方法及系统
CN112988892A (zh) 一种分布式系统热点数据的管理方法
CN110879885B (zh) 一种在线文件非法下载检测方法和装置
CN111814051B (zh) 一种资源类型确定方法及装置
CN112100670A (zh) 一种基于大数据的隐私数据分级保护方法
CN114840742A (zh) 用户画像构建装置、方法以及计算机可读介质
CN112613231A (zh) 一种机器学习中隐私可用均衡的轨迹训练数据扰动机制

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination