CN113779633B - 一种数据处理方法、装置及设备 - Google Patents

一种数据处理方法、装置及设备 Download PDF

Info

Publication number
CN113779633B
CN113779633B CN202111089358.2A CN202111089358A CN113779633B CN 113779633 B CN113779633 B CN 113779633B CN 202111089358 A CN202111089358 A CN 202111089358A CN 113779633 B CN113779633 B CN 113779633B
Authority
CN
China
Prior art keywords
data
buried point
noise
original data
data acquisition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111089358.2A
Other languages
English (en)
Other versions
CN113779633A (zh
Inventor
张智超
石瑜
单华琦
王雷
马保宏
董乔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
MIGU Culture Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
MIGU Culture Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, MIGU Culture Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202111089358.2A priority Critical patent/CN113779633B/zh
Publication of CN113779633A publication Critical patent/CN113779633A/zh
Application granted granted Critical
Publication of CN113779633B publication Critical patent/CN113779633B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Storage Device Security (AREA)

Abstract

本发明公开了一种数据处理方法、装置及设备,该方法包括:获取至少一个数据采集埋点中当前数据采集埋点的原始数据;根据所述当前数据采集埋点的原始数据对应的全局敏感度和所述当前数据采集埋点的隐私预算,确定所述原始数据对应的噪声;根据所述噪声对所述原始数据进行加扰,得到加扰后的数据。通过上述方式,本发明实现了数据维护方对交付数据的差分隐私保护。

Description

一种数据处理方法、装置及设备
技术领域
本发明涉及数据处理技术领域,具体涉及一种数据处理方法、装置及设备。
背景技术
在体育赛事场景下,为了给用户个性化推荐符合用户喜好的赛事节目,终端APP往往会在赛事转播、用户点击、播放节目分类等关键触点预埋上报点,当触发相应动作后,埋点采集系统会将此时收集到的埋点数据信息打包上传至服务器后端,用于后续的推荐模型训练和数据分析。
目前,为了保护用户数据的隐私,数据部门需要做繁杂的脱敏操作,保证用于后续算法部门训练模型时的数据不包括原始用户的敏感信息。
原始数据的脱敏操作,仍无法保证数据集免受基于统计的恶意攻击者推测。简单的脱敏操作无法真正保护用户的隐私数据。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种数据处理方法、装置及设备。
根据本发明实施例的一个方面,提供了一种数据处理方法,包括:
获取至少一个数据采集埋点中当前数据采集埋点的原始数据;
根据所述当前数据采集埋点的原始数据对应的全局敏感度和所述当前数据采集埋点的隐私预算,确定所述原始数据对应的噪声;
根据所述噪声对所述原始数据进行加扰,得到加扰后的数据。
根据本发明实施例的另一方面,提供了一种数据处理装置,包括:
获取模块,用于获取至少一个数据采集埋点中当前数据采集埋点的原始数据;
处理模块,用于根据所述当前数据采集埋点的原始数据对应的全局敏感度和所述当前数据采集埋点的隐私预算,确定所述原始数据对应的噪声;根据所述噪声对所述原始数据进行加扰,得到加扰后的数据。
根据本发明实施例的又一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述数据处理方法对应的操作。
根据本发明实施例的再一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述数据处理方法对应的操作。
根据本发明上述实施例提供的方案,通过获取至少一个数据采集埋点中当前数据采集埋点的原始数据;根据所述当前数据采集埋点的原始数据对应的全局敏感度和所述当前数据采集埋点的隐私预算,确定所述原始数据对应的噪声;根据所述噪声对所述原始数据进行加扰,得到加扰后的数据,实现数据维护方对交付数据的差分隐私保护,可以抵挡恶意攻击者的推测,取得了有效保护数据集的有益效果。
上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明实施例的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明实施例的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的数据处理方法流程图;
图2示出了本发明另一实施例提供的数据处理方法的流程图;
图3示出了本发明实施例提供的数据处理方法的一具体实现流程图;
图4示出了本发明实施例提供的数据处理方法的一具体应用场景实现流程图;
图5示出了本发明实施例提供的数据处理装置的结构示意图;
图6示出了本发明实施例提供的数据处理装置的具体实现示意图;
图7示出了本发明实施例提供的计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1示出了本发明实施例提供的数据处理方法的流程图。如图1所示,该方法包括以下步骤:
步骤11,获取至少一个数据采集埋点中当前数据采集埋点的原始数据;这里,所述原始数据可以包括:业务数据和基础类数据,业务数据可包括用户观看赛事的时长、观看次数、赛事类别等信息,可用于后续针对用户进行个性化赛事推荐的模型训练及推理;基础类数据可以包括性别、用户接入地理位置、用户手机号归属等基础运营数据;进一步的,原始数据可以包括:至少一种类型的原始数据,每一种类型的原始数据对应一全局敏感度;具体的,所述至少一种类型的原始数据包括以下至少一种类型的原始数据:枚举类型的原始数据;范围类型的原始数据;布尔类型的原始数据;
其中,所述枚举类型的原始数据对应的全局敏感度等于N-1,其中N为枚举类型的原始数据中的数据类别的数量;所述范围类型的原始数据对应的全局敏感度等于原始数据的范围的最大值;所述布尔类型的原始数据对应的全局敏感度等于1;
一种具体的实现实例中,枚举类型的原始数据,内容属于同一个枚举集合。例如赛事类别等,可分为{竞速类(0)、评分类(1)、策略类(2)},枚举类型的数据在上报时可以整型数字表示;
范围类型的原始数据,内容属于某一数值范围内的数字,例如观看时长、点击次数等;
布尔类型的原始数据,内容只有二值化的数据。例如性别、是否使用5G观赛、是否购买观赛券观赛等数据,数据采集阶段的布尔型数据,在噪声扰动后将变为浮点数,范围在[0,1]内。
当然,这些数据类型仅为一些实现实例,并不限于这些实例,原始数据还可以包括其它类型的数据;这里,还需要说明的是,本发明的实施例中的数据采集埋点是一种私有化部署数据采集方式;
步骤12,根据所述当前数据采集埋点的原始数据对应的全局敏感度和所述当前数据采集埋点的隐私预算,确定所述原始数据对应的噪声;
这里,原始数据对应的全局敏感度GS,取决于被保护数据的函数上下界,例如,查询结果保护场景,GS常默认设定为1,意为两个相似查询,最大记录差别只有1项。
根据埋点的数据类型及场景下具体可取值集合内的最大差值,设定采集埋点全局敏感度GS。
在埋点保护场景下,埋点的全局敏感度GS设定,需要结合埋点的数据类型与具体场景下的经验设定。
在采集系统场景下,需综合埋点数据类型与经验范围等方面,配置合理的全局敏感度,从而保证噪声扰动比例的合理性。因此,针对每一个埋点扰动噪声的配置包括以下计算方法,但不限于以下计算方法:
枚举型数据,全局敏感度GS=N-1,其中N为枚举类型的原始数据中的数据类别的数量。例如比赛类型场景{竞速类(0)、评分类(1)、策略类(2)},终端侧APP在上报该枚举数据时,会将类型转化为对应的整型数字,因为最大值策略类对应值为2,最小值竞速类对应值为0,因此,对于3种枚举类型的数据,全局敏感度GS=2;
范围类数据,全局敏感度GS=|xmax|,及原始数据的范围的最大值。例如,以用户观看比赛时长为例,一场比赛时间不会超过2小时,在此情况下,全局敏感度需结合实际比赛的用时状况,一般可以以分钟为单位计数,即全局敏感GS=120,相比以小时为单位计数,能够提供更精细的用户时长计数,同时也可以为较大全局敏感度引入较多的噪声保护;
布尔型数据,全局敏感度GS=1。此类数据非0即1,最大差值为1,即全局敏感GS=1。
步骤13,根据所述噪声对所述原始数据进行加扰,得到加扰后的数据。
该实施例中,通过获取至少一个数据采集埋点中当前数据采集埋点的原始数据;根据所述当前数据采集埋点的原始数据对应的全局敏感度和所述当前数据采集埋点的隐私预算,确定所述原始数据对应的噪声;根据所述噪声对所述原始数据进行加扰,得到加扰后的数据,实现数据维护方对交付数据的差分隐私保护。可以抵挡恶意攻击者的推测,取得了有效保护数据集的有益效果。
本发明的一可选的实施例中,上述步骤12可以包括:
步骤121,通过公式η~Lap(GS/εi)确定所述原始数据对应的噪声;
其中,η为所述原始数据对应的噪声,GS为所述当前数据采集埋点的原始数据的全局敏感度,εi为所述当前数据采集埋点的隐私预算;Lap()为拉普拉斯函数;εi可取值0,0.1,0.01等经验值。可见,隐私保护程度对应的噪声大小与埋点对应的全局敏感度GS呈正比,与隐私预算εi呈反比。
图2示出了本发明另一个实施例提供的数据处理方法的流程图。如图2所示,该方法包括以下步骤:
步骤21,获取至少一个数据采集埋点中当前数据采集埋点的原始数据;
步骤22,根据所述当前数据采集埋点的原始数据对应的全局敏感度和所述当前数据采集埋点的隐私预算,确定所述原始数据对应的噪声;
步骤23,若所述原始数据对应的噪声小于或者等于一预设扰动门限,预设扰动门限将上一数据采集埋点剩余的噪声与所述原始数据对应的噪声进行叠加,得到第一叠加噪声,根据所述第一叠加噪声对所述原始数据进行加扰,得到所述原始数据加扰后的数据;
若下一个数据采集埋点的原始数据对应的噪声大于所述预设扰动门限,将所述当前采集埋点的原始数据对应的噪声与所述预设扰动门限的差值与所述下一个数据采集埋点的原始数据对应的噪声进行叠加,得到所述下一个埋点的原始数据对应的第二叠加噪声,根据所述预设扰动门限对所述原始数据进行加扰,得到原始数据加扰后的数据,进一步地,可以根据第二叠加噪声对所述下一个埋点的原始数据进行加扰,得到所述下一个埋点的原始数据加扰后的数据。
该实施例中,预设扰动门限的配置,可以基于数据类型进行配置。例如,针对业务数据,范围类可以按照实际数值语义按百分比设定,以观看时长为例,若用户观看时长为120分钟,可以预设扰动门限为20%,即最大扰动不能超过24分钟;以枚举类数据为例,预设扰动门限为1,即噪声不应跨越类别;以布尔型数据为例,只有取值0或1,因此预设扰动门限为1。
加入噪声扰动后,经过预设扰动门限判断:若噪声低于预设扰动门限,不做任何改变;若噪声高于预设扰动门限,说明本次引入的噪声过大,为了不降低系统整体隐私保护程度,首先调整扰动的输出值,然后将扰动富余量扣除后累计入下一次噪声扰动。
一种具体的实现实例中:当η≤Δxmax时,噪声富余值为0,同时当前获得的噪声,叠加上一次噪声富余值后,上报至服务器;当η>Δxmax时,xη=x+Δxmax,其中噪声富余值η-Δxmax,将累积到下一次埋点上报的数据中,同时,将xη进行上报。这里,η为噪声,Δxmax为预设扰动门限;
该实施例中,由于预设扰动门限的引入,保护了原始数据的语义不发生变化,避免了出现因噪声扰动取值不当而导致的埋点数据含义改变的问题。
上述步骤23中,对原始数据加扰,得到原始数据加扰后的数据,具体可以根据公式xη=x+η对所述原始数据加扰,得到加扰后的数据;
其中,xη为加扰后的数据,x为原始数据,η为第一叠加噪声或者所述原始数据对应的噪声或者第二叠加噪声。
该实施例中,当引入噪声扰动后,虽然数据整体分布不会因噪声发生均值、方差等统计学数据的变化,但对于部分数据,引入较小的隐私预算,即εi越小,噪声扰动值就越大,会影响原本数据的原始意义,例如,以上述{竞速类(0)、评分类(1)、策略类(2)}枚举集合为例,评分类数据x=1,当引入合适的噪声后,x=1.3,即原始数据可能是评分类数据引入η=+0.3的噪声,也可能是策略类x=2引入η=-0.7噪声,但一般情况下噪声不应跨越类别,即|η|≤1,因此,预设扰动门限可用于限定单次引入噪声的大小,避免出现因噪声扰动掩盖原始数据值。引用预设扰动门限,可限定单次引入噪声的大小,避免出现因噪声扰动掩盖原始数据。
本发明的上述实施例中,所述至少一个数据采集埋点的总隐私预算所述方法还可以包括:
根据所述数据采集埋点的个数的变化和单个数据采集埋点的隐私预算,调整单个数据采集埋点的隐私预算εi
其中,M为至少一个数据采集埋点的个数,i=1,个数据。
具体的,当单个数据采集埋点的隐私预算εi增大时,总隐私预算ε也会增大,由于总隐私预算ε与总隐私保护程度成反比,总隐私保护程度越小。所以当数据采集埋点的个数越多时,隐私保护程度会变小,攻击者越容易通过不同数据的组合筛选发动差分攻击获取原始数据。
因此,当数据采集埋点的个数较多时,会影响整体安全性和隐私性,所以需要根据埋点个数的变化和单个埋点的隐私预算调整,从而保证总隐私保护程度和总隐私预算ε不变,具体方法如下:
第一种方法,减小单个采集埋点数据的隐私预算εi,即通过增大单个埋点的扰动来实现。该方法可适用于采集埋点数量较少的情况下,在增加新采集埋点的同时,动态调整并降低针对旧埋点的隐私预算εi,保证总隐私预算之和ε不变。
第二种方法,删减相关度低的用户采集埋点数据,即保证埋点整体数量不变。该方法可适用于采集埋点的个数较多的场景下,当新增采集埋点数据时,相应减少相同数量的与用户相关度低的旧埋点,从而保证总隐私预算之和ε不变。
例如,整体差分隐私预算为1,一共10个埋点,每个埋点对应的隐私预算为0.1,可以满足单个埋点的隐私保护要求;
整体差分隐私预算为1的情况下,埋点变为12个埋点时,每个埋点的隐私预算变为1/12,如果1/12不能满足单个埋点的隐私保护要求,则可以保证其中10个埋点的隐私保护要求,即其中10个埋点隐私预算分别为0.1,剩余2个埋点不分配隐私预算。
本发明的上述实施例中,还可以包括:将加扰后的数据上报至服务器。
如图3所示,为本发明实施例提供的数据处理方法的一具体实现流程图,包括以下步骤:
步骤31,配置埋点数据信息。包括如下数据类型,但不限于如下数据类型:枚举型数据;范围类数据;布尔型数据。
枚举型数据,上报内容属于同一个枚举集合。例如赛事类别等,可分为{竞速类(0)、评分类(1)、策略类(2)},枚举类型在上报时可以整型数字表示;
范围类数据,上报内容属于某一数值范围内的数字。例如观看时长、点击次数等;
布尔型数据,上报内容只有二值化的数据。例如性别、是否使用5G观赛、是否购买观赛券观赛等数据,数据采集阶段的布尔型数据,在噪声扰动后将变为浮点数,范围在[0,1]内。
步骤32,根据数据类型,预设扰动门限。例如业务数据的范围类可以按照实际数值语义按百分比设定,以观看时长为例,若用户观看时长为120分钟,可以预设扰动门限为20%,即最大扰动不能超过24分钟;业务数据的枚举类数据可以预设扰动门限为1,即噪声不应跨越类别;业务数据的布尔型数据,只有取值0或1,因此预设扰动门限为1。
该步骤中,因为引入噪声扰动后,虽然数据整体分布不会因噪声发生均值、方差等统计学数据的变化,但对于部分数据,引入较小的隐私预算,即εi越小,噪声扰动值就越大,会影响原本数据的原始意义。所以为了保护数据原本的语义不发生变化,避免出现因噪声扰动取值不当而导致的埋点数据含义改变的问题,应当预设扰动门限。例如,比赛类型场景{竞速类(0)、评分类(1)、策略类(2)}枚举集合,评分类数据x=1,当引入合适的噪声后,x=1.3,即原始数据可能是评分类数据引入η即+0.3的噪声,也可能是策略类x=2引入η入-0.7噪声,但噪声不应跨越类别,即|声,但噪,因此,预设扰动门限可用于限定单次引入噪声的大小,避免出现因噪声扰动掩盖原始数据值。同时为了不丧失噪声对原始数据保护的力度,当|因此,门时,超出1的部分将跌加入下次数据采集的噪声扰动中。除门限限定噪声范围外,超出的部分噪声值将叠加至下一轮数据的扰动,这样可以保证不减小整体采集系统的数据隐私保护程度。
步骤33,隐私预算分配。若新增埋点后,为该埋点分配隐私保护的预算,记做隐私预算εi。隐私预算εi可取值0,0.1,0.01等经验值。
步骤34,数据采集。通过数据采集模块获取数据的原始数据。
步骤35,获得原始数据的埋点的全局敏感度。对于新获取原始数据的埋点,可以是枚举型、范围类或布尔型数据。针对每一个埋点扰动噪声的配置,计算方法如下:
枚举型数据,全局敏感度GS=N-1,其中N为枚举类型的原始数据中的数据类别的数量。例如比赛类型场景{竞速类(0)、评分类(1)、策略类(2)},终端侧APP在上报该枚举数据时,会将类型转化为对应的整型数字,因为最大值策略类对应值为2,最小值竞速类对应值为0,因此,对于3种枚举类型的数据,全局敏感度GS=2;
范围类数据,全局敏感度GS=|xmax|,及原始数据的范围的最大值。例如,以用户观看比赛时长为例,一场比赛时间不会超过2小时,在此情况下,全局敏感度需结合实际比赛的用时状况,一般可以以分钟为单位计数,即全局敏感GS=120,相比以小时为单位计数,能够提供更精细的用户时长计数,同时也可以为较大全局敏感度引入较多的噪声保护;
布尔型数据,全局敏感度GS=1。此类数据非0即1,最大差值为1,即全局敏感GS=1。
该步骤中,根据埋点的数据类型及场景下具体可取值集合内的最大差值,设定采集埋点全局敏感度GS。在埋点保护场景下,埋点的全局敏感度GS设定,需要结合埋点的数据类型与具体场景下的经验设定。在采集系统场景下,需综合埋点数据类型与经验范围等方面,配置合理的全局敏感度,从而保证噪声扰动比例的合理性。
该步骤中,隐私预算与埋点数据的全局敏感度两项指标,将影响噪声扰动的大小,其中以拉普拉斯噪声为例,隐私预算εi越大,引入噪声扰动越小,对数据的保护程度越小,即隐私保护程度与预算呈反比。
步骤36,为新获取数据的原始内容的埋点加入噪声扰动。首先,将新获取数据的原始内容的埋点的全局敏感度与新获取数据的原始内容的埋点的隐私预算代入公式η~Lap(GS/εi),使噪声η服从参数值为GS/ε的拉普拉斯分布,即可确定该噪声η为所述原始数据对应的噪声。其中,η为所述原始数据对应的噪声,GS为所述当前数据采集埋点的原始数据的全局敏感度,εi为所述当前数据采集埋点的隐私预算;Lap()为拉普拉斯函数。
其次,根据公式xη=x+η对新获取数据的原始内容加入噪声扰动,得到加扰后的数据。其中,xη为加扰后的数据,x为新获取数据的原始内容,η为新获取数据的原始内容对应的噪声。
最后,若单个数据采集埋点的隐私预算εi增大时,总隐私预算ε也会增大,由于根据埋点个数的变化和单个埋点的隐私预算调整,从而保证总隐私保护程度和总隐私预算ε不变,具体方法如下:
第一种方法,减小单个采集埋点数据的隐私预算εi,即通过增大单个埋点的扰动来实现。该方法可适用于采集埋点数量较少的情况下,在增加新采集埋点的同时,动态调整并降低针对旧埋点的隐私预算εi,保证总隐私预算之和ε不变。
第二种方法,删减相关度低的用户采集埋点数据,即保证埋点整体数量不变。该方法可适用于采集埋点的个数较多的场景下,当新增采集埋点数据时,相应减少相同数量的与用户相关度低的旧埋点,从而保证总隐私预算之和ε不变。
该步骤中,总隐私预算ε与总隐私保护程度成反比,总隐私保护程度越小。所以当数据采集埋点的个数越多时,隐私保护程度会变小,攻击者越容易通过不同数据的组合筛选发动差分攻击获取原始数据。因此,当数据采集埋点的个数较多时,会影响整体安全性和隐私性。
步骤37,将加扰后的数据上报至服务器,由服务器进行模型训练或数据分析。
具体上报的数据格式如下:
枚举型数据,上报内容属于同一个枚举集合。例如赛事类别等,可分为{竞速类(0)、评分类(1)、策略类(2)},枚举类型在上报时可以整型数字表示;
范围类数据,上报内容属于某一数值范围内的数字。例如观看时长、点击次数等;
布尔型数据,上报内容只有二值化的数据。例如性别、是否使用5G观赛、是否购买观赛券观赛等数据,数据采集阶段的布尔型数据,在噪声扰动后将变为浮点数,范围在[0,1]内。
步骤38,根据上报的内容,进行门限校准。当加扰的噪声η≤预设扰动扰动门限值Δxmax时,噪声富余值为0,同时将加扰后的数据,叠加上一次噪声富余值后,传至数据上报模块并进行上报;当加扰的噪声η扰预设扰动扰动门限值Δxmax时,将预设扰动门限作为加扰的噪声,其中噪声富余值η-Δxmax,将累积到下一次埋点上报的数据中,同时将加扰的数据xη传输至数据上报模块进行埋点上报。
图4示出了本发明实施例提供的数据处理方法的一具体应用场景实现流程,包括:
数据使用方向服务器发送数据请求;
服务器采集各数据采集埋点的数据,并为每个数据采集埋点分配相应的隐私预算和相应的预设扰动门限;
对数据采集埋点采集的数据进行噪声计算并根据噪声对原始数据进行噪声扰动,得到加扰后的数据;
将加扰后的数据反馈数据使用方。
这里,数据包括基础类数据和业务数据,其中基础类数据是用户固有属性,例如地理位置、接入位置、网络信息等信息,类型同样可为枚举型、数值范围型和布尔型等。
为保证统计准确性,在埋点上报阶段不进行噪声扰动,只有当数据使用方请求数据时,服务器才会增加噪声扰动。
在数据反馈过程中,基础类数据可通过数据维护方提前配置隐私预算εi和基础数据的预设扰动门限,为原始数据引入噪声扰动,从而保护原始数据。
所述基础数据查询的差分隐私保护方法,服务器端复用端侧功能组件,实现了数据维护方对交付数据的差分隐私保护。
本发明的上述实施例,先由埋点配置人员配置数据采集埋点,用户触发埋点采集,埋点数据根据数据类型和隐私预算,引入在预设扰动门限内的噪声扰动;将加扰后的数据上报至服务器。由于单个数据引入噪声扰动,即使恶意用户通过集合分析的方法推测出数据值,但由于数据值中存在噪声,仍无法确切获取真实值,同时,由于适当的噪声没有改变数据集整体的均值、方差等统计特性,保证了数据集的整体特征分布不会被引入的噪声所破坏,不影响数据在模型训练、数据分析阶段的准确性。也避免了恶意用户通过集合分析的方法推测出数据值的问题。
图5示出了本发明实施例提供的数据处理装置50的结构示意图。如图5所示,该装置包括:
获取模块51,用于获取至少一个数据采集埋点中当前数据采集埋点的原始数据;
处理模块52,用于根据所述当前数据采集埋点的原始数据对应的全局敏感度和所述当前数据采集埋点的隐私预算,确定所述原始数据对应的噪声;根据所述噪声对所述原始数据进行加扰,得到加扰后的数据。
可选的,所述原始数据包括:至少一种类型的原始数据,每一种类型的原始数据对应一全局敏感度。
可选的,所述至少一种类型的原始数据包括以下至少一种类型的原始数据:
枚举类型的原始数据;
范围类型的原始数据;
布尔类型的原始数据;
其中,所述枚举类型的原始数据对应的全局敏感度等于N-1,其中N为枚举类型的原始数据中的数据类别的数量;所述范围类型的原始数据对应的全局敏感度等于原始数据的范围的最大值;所述布尔类型的原始数据对应的全局敏感度等于1。
可选的,所述处理模块52还用于通过公式η~Lap(GS/εi)确定所述原始数据对应的噪声;
其中,η为所述原始数据对应的噪声,GS为所述当前数据采集埋点的原始数据的全局敏感度,εi为所述当前数据采集埋点的隐私预算;Lap()为拉普拉斯函数。
可选的,所述处理模块52还用于若所述原始数据对应的噪声小于一预设扰动门限,将上一数据采集埋点剩余的噪声与所述原始数据对应的噪声进行叠加,得到第一叠加噪声,根据所述第一叠加噪声对所述原始数据进行加扰,得到加扰后的数据;
若下一个数据采集埋点的原始数据对应的噪声大于所述预设扰动门限,将所述当前采集埋点的原始数据对应的噪声与所述预设扰动门限的差值与所述下一个数据采集埋点的原始数据对应的噪声进行叠加,得到所述下一个埋点的原始数据对应的第二叠加噪声,根据所述预设扰动门限对所述原始数据进行加扰,得到加扰后的数据预设扰动门限。
可选的,所述处理模块52还用于将所述预设扰动门限根据所述原始数据的类型进行配置。
可选的,所述处理模块52还用于根据公式xη=x+η对所述原始数据加扰,得到加扰后的数据;
其中,xη为加扰后的数据,x为原始数据,η为第一叠加噪声或者所述原始数据对应的噪声或者第二叠加噪声。
可选的,所述处理模块52还用于根据所述数据采集埋点的个数的变化和单个数据采集埋点的隐私预算,调整单个数据采集埋点的隐私预算εi
其中,M为至少一个数据采集埋点的个数,i=1,…,M。
该装置的一种具体实现场景如下:
图6示出了本发明实施例提供的数据处理装置的具体实现示意图,如图5和图6所示,获取模块51可以包括:数据采集模块。
所述数据采集模块用于获取数据采集埋点的原始数据。
处理模块52可以包括:埋点预置模块、扰动模块、门限模块和数据上报模块。
所述埋点预置模块用于配置埋点数据信息、隐私预算分配,然后根据原始数据的数据类型预设扰动门限。
具体的,先配置埋点数据信息,再为该埋点分配隐私预算。埋点数据信息包括如下数据类型,但不限于如下数据类型:枚举型数据;范围类数据;布尔型数据。
埋点分配的隐私预算记作隐私预算εi,隐私预算εi可取值0,0.1,0.01等经验值。
然后根据原始数据的数据类型预设扰动门限。例如业务数据的范围类可以按照实际数值语义按百分比设定,以观看时长为例,若用户观看时长为120分钟,可以设定扰动门限为20%,即最大扰动不能超过24分钟;业务数据的枚举类数据可以设定扰动门限为1,即噪声不应跨越类别;业务数据的布尔型数据,只有取值0或1,因此扰动门限可设定为1。
所述扰动模块用于计算原始数据对应的全局敏感度,再根据所述原始数据对应的全局敏感度和所述隐私预算εi,得到所述原始数据对应的噪声,并根据公式xη=x+η将其加扰到所述原始数据中。
所述门限模块用于在得到加扰后的数据后,通过门限模块进行门限判断。
具体的,当加扰的噪声η≤预设扰动扰动门限值Δxmax时,噪声富余值为0;当加扰的噪声η扰预设扰动扰动门限值Δxmax时,将预设扰动门限作为加扰的噪声,其中噪声富余值η-Δxmax,将累积到下一次埋点上报的数据中。
所述数据上报模块用于将将加扰后的数据上报到服务器。
需要说明的是,该实施例是与上述方法实施例对应的装置实施例,上述方法实施例中的所有实现方式均适用于该装置的实施例中,也能达到相同的技术效果。
本发明实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的数据处理方法。
图7示出了本发明实施例提供的计算设备的结构示意图,本发明具体实施例并不对计算设备的具体实现做限定。
如图7所示,该计算设备可以包括:处理器(processor)、通信接口(Communications Interface)、存储器(memory)、以及通信总线。
其中:处理器、通信接口、以及存储器通过通信总线完成相互间的通信。通信接口,用于与其它设备比如客户端或其它服务器等的网元通信。处理器,用于执行程序,具体可以执行上述用于计算设备的数据处理方法实施例中的相关步骤。
具体地,程序可以包括程序代码,该程序代码包括计算机操作指令。
处理器可能是中央处理器CPU,或者是特定集成电路ASIC(Application SpecificIntegrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器,用于存放程序。存储器可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序具体可以用于使得处理器执行上述任意方法实施例中的数据处理方法。程序中各步骤的具体实现可以参见上述数据处理方法实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明实施例的内容,并且上面对特定语言所做的描述是为了披露本发明实施例的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明实施例并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明实施例的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明实施例进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明实施例可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。

Claims (10)

1.一种数据处理方法,其特征在于,所述方法包括:
获取至少一个数据采集埋点中当前数据采集埋点的原始数据;
根据所述当前数据采集埋点的原始数据对应的全局敏感度和所述当前数据采集埋点的隐私预算,确定所述原始数据对应的噪声;根据所述噪声对所述原始数据进行加扰,得到加扰后的数据;
根据预设扰动门限对加扰后的数据进行门限校准;所述预设扰动门限根据数据类型配置,用于限定单次引入噪声的大小;其中,若所述当前数据采集埋点的原始数据对应的噪声小于一预设扰动门限,将上一数据采集埋点剩余的噪声与所述当前数据采集埋点的原始数据对应的噪声进行叠加,得到第一叠加噪声,根据所述第一叠加噪声对所述当前数据采集埋点的原始数据进行加扰,得到加扰后的数据;若下一个数据采集埋点的原始数据对应的噪声大于所述预设扰动门限,将所述当前数据采集埋点的原始数据对应的噪声与所述预设扰动门限的差值与所述下一个数据采集埋点的原始数据对应的噪声进行叠加,得到所述下一个数据采集埋点的原始数据对应的第二叠加噪声,根据所述预设扰动门限对所述当前数据采集埋点的原始数据进行加扰,得到加扰后的数据。
2.根据权利要求1所述的数据处理方法,其特征在于,所述原始数据包括:至少一种类型的原始数据,每一种类型的原始数据对应一全局敏感度。
3.根据权利要求2所述的数据处理方法,其特征在于,所述至少一种类型的原始数据包括以下至少一种类型的原始数据:
枚举类型的原始数据;
范围类型的原始数据;
布尔类型的原始数据;
其中,所述枚举类型的原始数据对应的全局敏感度等于N-1,其中N为枚举类型的原始数据中的数据类别的数量;所述范围类型的原始数据对应的全局敏感度等于原始数据的范围的最大值;所述布尔类型的原始数据对应的全局敏感度等于1。
4.根据权利要求1所述的数据处理方法,其特征在于,根据所述当前数据采集埋点的原始数据的全局敏感度和所述当前数据采集埋点的隐私预算,确定所述原始数据对应的噪声,包括:
通过公式η~Lap(GS/εi)确定所述原始数据对应的噪声;
其中,η为所述原始数据对应的噪声,GS为所述当前数据采集埋点的原始数据的全局敏感度,εi为所述当前数据采集埋点的隐私预算;Lap()为拉普拉斯函数。
5.根据权利要求1所述的数据处理方法,其特征在于,所述预设扰动门限根据所述原始数据的类型进行配置。
6.根据权利要求1所述的数据处理方法,其特征在于,对所述原始数据加扰,得到加扰后的数据,包括:
根据公式xη=x+η对所述当前数据采集埋点的原始数据加扰,得到加扰后的数据;
其中,xη为加扰后的数据,x为当前数据采集埋点的原始数据,η为第一叠加噪声或者所述当前数据采集埋点的原始数据对应的噪声或者预设扰动门限;
或者,根据公式xη=x+η对所述下一个数据采集埋点的原始数据加扰,得到加扰后的数据;
其中,xη为加扰后的数据,x为下一个数据采集埋点的原始数据,η为第二叠加噪声。
7.根据权利要求1所述的数据处理方法,其特征在于,所述至少一个数据采集埋点的总隐私预算所述方法还包括:
根据所述数据采集埋点的个数的变化,调整单个数据采集埋点的隐私预算εi,以便总隐私预算不变;
其中,M为至少一个数据采集埋点的个数,i=1,…,M。
8.一种数据处理装置,其特征在于,所述装置包括:
获取模块,用于获取至少一个数据采集埋点中当前数据采集埋点的原始数据;
处理模块,用于根据所述当前数据采集埋点的原始数据对应的全局敏感度和所述当前数据采集埋点的隐私预算,确定所述原始数据对应的噪声;
输出模块,用于根据所述噪声对所述原始数据进行加扰,得到加扰后的数据;
用于根据预设扰动门限对加扰后的数据进行门限校准的模块;所述预设扰动门限根据数据类型配置,用于限定单次引入噪声的大小;其中,若所述当前数据采集埋点的原始数据对应的噪声小于一预设扰动门限,将上一数据采集埋点剩余的噪声与所述当前数据采集埋点的原始数据对应的噪声进行叠加,得到第一叠加噪声,根据所述第一叠加噪声对所述当前数据采集埋点的原始数据进行加扰,得到加扰后的数据;若下一个数据采集埋点的原始数据对应的噪声大于所述预设扰动门限,将所述当前数据采集埋点的原始数据对应的噪声与所述预设扰动门限的差值与所述下一个数据采集埋点的原始数据对应的噪声进行叠加,得到所述下一个数据采集埋点的原始数据对应的第二叠加噪声,根据所述预设扰动门限对所述当前数据采集埋点的原始数据进行加扰,得到加扰后的数据。
9.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的数据处理方法对应的操作。
10.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-7中任一项所述的数据处理方法对应的操作。
CN202111089358.2A 2021-09-16 2021-09-16 一种数据处理方法、装置及设备 Active CN113779633B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111089358.2A CN113779633B (zh) 2021-09-16 2021-09-16 一种数据处理方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111089358.2A CN113779633B (zh) 2021-09-16 2021-09-16 一种数据处理方法、装置及设备

Publications (2)

Publication Number Publication Date
CN113779633A CN113779633A (zh) 2021-12-10
CN113779633B true CN113779633B (zh) 2024-04-09

Family

ID=78851660

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111089358.2A Active CN113779633B (zh) 2021-09-16 2021-09-16 一种数据处理方法、装置及设备

Country Status (1)

Country Link
CN (1) CN113779633B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114595117A (zh) * 2022-03-07 2022-06-07 北京思明启创科技有限公司 埋点数据采集方法、装置、介质及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107992769A (zh) * 2017-11-29 2018-05-04 广西师范大学 数据流关键模式挖掘的差分隐私保护方法
CN108537055A (zh) * 2018-03-06 2018-09-14 南京邮电大学 一种数据查询隐私保护的隐私预算分配和数据发布方法及其系统
CN110198302A (zh) * 2019-04-26 2019-09-03 华中科技大学 一种针对智能电表数据发布的隐私保护方法及系统
CN111400754A (zh) * 2020-03-11 2020-07-10 支付宝(杭州)信息技术有限公司 保护用户隐私的用户分类系统的构建方法及装置
CN111460508A (zh) * 2020-04-14 2020-07-28 苏州科技大学 一种基于差分隐私技术的轨迹数据保护方法
CN112417500A (zh) * 2020-11-18 2021-02-26 华南师范大学 一种隐私保护的数据流统计发布方法
CN112580701A (zh) * 2020-12-09 2021-03-30 哈尔滨理工大学 一种基于分类变换扰动机制的均值估计方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200074104A1 (en) * 2018-08-28 2020-03-05 Ca, Inc. Controlling access to data in a database based on density of sensitive data in the database

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107992769A (zh) * 2017-11-29 2018-05-04 广西师范大学 数据流关键模式挖掘的差分隐私保护方法
CN108537055A (zh) * 2018-03-06 2018-09-14 南京邮电大学 一种数据查询隐私保护的隐私预算分配和数据发布方法及其系统
CN110198302A (zh) * 2019-04-26 2019-09-03 华中科技大学 一种针对智能电表数据发布的隐私保护方法及系统
CN111400754A (zh) * 2020-03-11 2020-07-10 支付宝(杭州)信息技术有限公司 保护用户隐私的用户分类系统的构建方法及装置
CN111460508A (zh) * 2020-04-14 2020-07-28 苏州科技大学 一种基于差分隐私技术的轨迹数据保护方法
CN112417500A (zh) * 2020-11-18 2021-02-26 华南师范大学 一种隐私保护的数据流统计发布方法
CN112580701A (zh) * 2020-12-09 2021-03-30 哈尔滨理工大学 一种基于分类变换扰动机制的均值估计方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向动态数据发布的差分隐私保护研究综述;屈晶晶;蔡英;夏红科;;北京信息科技大学学报(自然科学版)(第06期);第30-36页 *

Also Published As

Publication number Publication date
CN113779633A (zh) 2021-12-10

Similar Documents

Publication Publication Date Title
Malloy et al. Ad blockers: Global prevalence and impact
CN108040295B (zh) 众裁方法、服务器、用户端及众裁系统
US11638053B2 (en) Methods and apparatus to identify co-relationships between media using social media
US8543925B2 (en) Contextually aware client application
CN108419126B (zh) 直播平台的异常主播识别方法、存储介质及终端
US20080109300A1 (en) System and Method for Managing the Distribution of Advertisements for Video Content
US20070208828A1 (en) Systems and methods for data mining and interactive presentation of same
WO2016119499A1 (zh) 恶意点击的防御方法、装置和存储介质
US20070174440A1 (en) Systems and methods for data mining and interactive presentation of same
CN108235045B (zh) 一种直播间推荐方法、电子设备及可读存储介质
KR20140101697A (ko) 애플리케이션 스토어와 관련된 허위 등급들/코멘트들의 자동 검출
EP3672266A2 (en) Video streaming playback system and method
CN107578287B (zh) 广告投放的频次控制方法及装置
CN108009934B (zh) 服务器、案件分配方法及系统、事件分配方法及系统
GB2484268A (en) Psychographic profiling of users of computing devices
CN113779633B (zh) 一种数据处理方法、装置及设备
US20140149586A1 (en) Internet panel for capturing active and intentional online activity
CN105933781A (zh) 一种用于视频网站的违规弹幕处理方法及装置
US20140136313A1 (en) Categorizing content selections
CN106341704A (zh) 一种基于主播的推荐方法及装置
CN110083759A (zh) 舆论信息爬取方法、装置、计算机设备及存储介质
CN108090157B (zh) 一种热点新闻挖掘方法、装置及服务器
CN110442801B (zh) 一种目标事件的关注用户的确定方法及装置
CN105204626A (zh) 一种对用户分级控制的方法和装置
US11748427B2 (en) Spoiler prevention

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant