CN111881469A - 数据处理方法、装置 - Google Patents

数据处理方法、装置 Download PDF

Info

Publication number
CN111881469A
CN111881469A CN202010646743.1A CN202010646743A CN111881469A CN 111881469 A CN111881469 A CN 111881469A CN 202010646743 A CN202010646743 A CN 202010646743A CN 111881469 A CN111881469 A CN 111881469A
Authority
CN
China
Prior art keywords
privacy
value
target
mapping
target object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010646743.1A
Other languages
English (en)
Inventor
王绍蔚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Tencent Domain Computer Network Co Ltd
Original Assignee
Shenzhen Tencent Domain Computer Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Tencent Domain Computer Network Co Ltd filed Critical Shenzhen Tencent Domain Computer Network Co Ltd
Priority to CN202010646743.1A priority Critical patent/CN111881469A/zh
Publication of CN111881469A publication Critical patent/CN111881469A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6227Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请的实施例提供了一种数据处理方法、装置、计算机可读介质及电子设备。该方法包括:获取目标对象的元素集合,所述元素集合中包括至少两个元素,所述至少两个元素互不相同;基于本地差分隐私机制,对所述元素集合进行随机扰动,得到用于掩盖目标对象的数据隐私的隐私视图数值;将与所述目标对象的元素集合对应的隐私视图数值发送至服务器,以便于所述服务器获取统计数据。本申请实施例的技术方案能够降低对集合数据本地化隐私处理的复杂度。

Description

数据处理方法、装置
技术领域
本申请涉及计算机及信息安全技术领域,具体而言,涉及一种数据处理方法、装置。
背景技术
在数据处理场景中,比如对集合数据本地化隐私的保护场景,通过元素采样的方法将集合数据转化为类别数据,然后进行隐私保护处理以及统计估计,或者是随机翻转关于某个元素是否存在于元素集合之中的信息。然而,如何能够降低对集合数据本地化隐私处理的复杂度是亟待解决的技术问题。
发明内容
本申请的实施例提供了一种数据处理方法、装置、计算机可读介质及电子设备,进而至少在一定程度上可以降低对集合数据本地化隐私处理的复杂度。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供了一种数据处理方法,所述数据处理方法应用于终端,所述方法包括:获取目标对象的元素集合,所述元素集合中包括至少两个元素,所述至少两个元素互不相同;基于本地差分隐私机制,对所述元素集合进行随机扰动,得到用于掩盖目标对象的数据隐私的隐私视图数值;将与所述目标对象的元素集合对应的隐私视图数值发送至服务器,以便于所述服务器获取统计数据。
在本申请的一些实施例所提供的技术方案中,通过基于本地差分隐私机制,对包括有至少两个互不相同的元素集合进行随机扰动,得到用于掩盖目标对象的数据隐私且用于发送至服务器的隐私视图数值。一方面,由于本方案实施例将目标对象的元素集合进行随机扰动之后发送给服务器,因而可以保护用户的数据隐私,另一方面,由于基于本地差分隐私机制对目标对象的元素集合进行随机扰动,进而可以降低对集合数据本地化隐私处理的复杂度。
根据本申请实施例的一个方面,提供了一种数据处理方法,所述数据处理方法应用于服务端,所述方法包括:获取至少一个目标对象发送的隐私视图数值,得到至少一个隐私视图数值,所述隐私视图数值通过基于本地差分隐私机制,对目标对象的元素集合进行随机扰动而得到;确定所述隐私视图数值在目标元素映射集合中出现的频数,所述目标元素映射集合通过目标元素映射值确定,所述目标元素映射值通过对目标元素进行随机映射得到;基于所述频数,计算所述目标元素的元素频率的无偏估计值,所述元素频率用于表征所述目标元素在目标对象群体内出现的频率。
在本申请的一些实施例所提供的技术方案中,通过确定至少一个目标对象发送的隐私视图数值在目标元素映射集合中出现的频数,并基于该频数计算所述目标元素的元素频率的无偏估计值,因而可以降低对目标元素的元素频率进行估计的误差。
根据本申请实施例的一个方面,提供了一种数据处理装置,所述数据处理装置适用于终端,所述装置包括:第一获取单元,被用于获取目标对象的元素集合,所述元素集合中包括至少两个元素,所述至少两个元素互不相同;扰动单元,被用于基于本地差分隐私机制,对所述元素集合进行随机扰动,得到用于掩盖目标对象的数据隐私的隐私视图数值;发送单元,被用于将与所述目标对象的元素集合对应的隐私视图数值发送至服务器,以便于所述服务器获取统计数据。
在本申请的一些实施例中,基于前述方案,所述扰动单元包括:映射单元,被用于在预定数值范围内,分别将所述元素集合中的各个元素随机映射为一个数值,得到至少两个元素映射值;第三确定单元,被用于分别确定与每个元素映射值一一对应的集合,得到至少两个元素映射集合;采样单元,被用于基于所述至少两个元素映射集合,在所述预定数值范围内进行采样,得到用于掩盖目标对象的数据隐私的所述隐私视图数值。
在本申请的一些实施例中,基于前述方案,所述映射单元配置为:在预定数值范围内,通过伪随机函数分别将所述元素集合中的各个元素随机映射为一个数值,得到至少两个元素映射值。
在本申请的一些实施例中,基于前述方案,所述伪随机函数包括取模函数或位移函数或哈希函数。
在本申请的一些实施例中,基于前述方案,所述采样单元配置为:基于所述至少两个元素映射集合,确定所述预定数值范围内的数值的概率分布;根据所述概率分布,在所述预定数值范围内进行采样,得到用于掩盖目标对象的数据隐私的所述隐私视图数值。
在本申请的一些实施例中,基于前述方案,所述采样单元配置为:确定所述至少两个元素映射集合的并集;在所述预定数值范围内的数值属于所述并集时,确定其概率密度为第一预设值;在所述预定数值范围内的数值不属于所述并集时,确定其概率密度为第二预设值,所述第二预设值小于所述第一预设值。
根据本申请实施例的一个方面,提供了一种数据处理装置,所述数据处理装置适用于服务器,所述装置包括:第二获取单元,被用于获取至少一个目标对象发送的隐私视图数值,得到至少一个隐私视图数值,所述隐私视图数值通过基于本地差分隐私机制,对目标对象的元素集合进行随机扰动而得到;第一确定单元,被用于确定所述隐私视图数值在目标元素映射集合中出现的频数,所述目标元素映射集合通过目标元素映射值确定,所述目标元素映射值通过对目标元素进行随机映射得到;第二确定单元,被用于基于所述频数,计算所述目标元素的元素频率的无偏估计值,所述元素频率用于表征所述目标元素在目标对象群体内出现的频率。
在本申请的一些实施例中,基于前述方案,所述第一确定单元配置为:将所述隐私视图数值在目标元素映射集合中的出现的频数初始化为0;遍历所述至少一个隐私视图数值,在所述隐私视图数值属于所述目标元素映射集合时,对所述频数加1。
根据本申请实施例的一个方面,提供了一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述实施例中所述的数据处理方法。
根据本申请实施例的一个方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中所述的数据处理方法。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
在附图中:
图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图;
图2示出了根据本申请的一个实施例的数据处理方法的应用场景图;
图3示出了根据本申请的一个实施例的数据处理方法的流程图;
图4示出了根据本申请的一个实施例的对所述元素集合进行随机扰动的细节流程图;
图5示出了根据本申请的一个实施例的基于所述至少两个元素映射集合,在所述预定数值范围内进行采样的细节流程图;
图6示出了根据本申请的一个实施例的确定所述预定数值范围内的数值的概率分布的细节流程图;
图7示出了根据本申请的一个实施例的数据处理方法的流程图;
图8示出了根据本申请的一个实施例的确定所述隐私视图数值在目标元素映射集合中出现的频数的细节流程图;
图9示出了根据本申请的一个实施例的数据处理装置的框图;
图10示出了根据本申请的一个实施例的数据处理装置的框图;
图11示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
需要注意的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的对象在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在图示或描述的那些以外的顺序实施。
图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图。
如图1所示,系统架构可以包括终端设备(如图1中所示智能手机101、平板电脑102和便携式计算机103中的一种或多种,当然也可以是台式计算机等等)、网络104和服务器105。网络104用以在终端设备和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线通信链路、无线通信链路等等。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。
在本申请的一个实施例中,终端设备可以通过自身获取本地记录的包括有至少两个互不相同的元素集合,然后基于本地差分隐私机制,对所述元素集合进行随机扰动,得到用于掩盖目标对象的数据隐私的隐私视图数值,最后将与所述目标对象的元素集合对应的隐私视图数值发送至服务器,以便于所述服务器获取统计数据。
在本申请的一个实施例中,服务器105可以接受获取由至少一个目标对象发送的隐私视图数值,得到至少一个隐私视图数值,然后确定所述隐私视图数值在目标元素映射集合中出现的频数,最后基于所述频数,计算所述目标元素的元素频率的无偏估计值。
需要说明的是,服务器105可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。
需要说明的是,如上所述的云计算(cloud computing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展。通过建立云计算资源池(简称云平台,一般称为IaaS(Infrastructure as a Service,基础设施即服务)平台,在资源池中部署多种类型的虚拟资源,供外部客户选择使用。云计算资源池中主要包括:计算设备(为虚拟化机器,包含操作系统)、存储设备、网络设备。
需要注意的是,本申请方案的应用场景可以是用户数据隐私需要得到保护的场景,例如,处理在客户端或者终端侧的用户敏感数据的场景,在用户的客户端或者终端侧,可能包含着敏感的个人信息,因而需要进行本地化的隐私保护。
为了本领域技术人员更加理解上述两个实施例,下面将结合图2对上述两个实施例的具体应用场景进行说明:
图2示出了根据本申请的一个实施例的数据处理方法的应用场景图。
在图2所示的数据处理应用场景中,需要说明的是,每一个用户的终端均从其本地获取包括有至少两个互不相同的元素集合,例如,图2所示,终端1获取包括有元素C、元素E、元素H的元素集合,终端2获取包括有元素D的元素集合,终端3获取包括有元素A、元素D、元素F的元素集合,终端4获取包括有元素B、元素I的元素集合。
对于每一个终端201而言,在获取到目标对象的元素集合之后,可以基于本地差分隐私机制,对目标对象的元素集合进行随机扰动,得到用于掩盖目标对象的数据隐私的隐私视图数值,最后将隐私视图数值发送至服务器202,以便于所述服务器获取统计数据。
需要说明的是,在本申请中,目标对象可以理解为终端,也可以理解为持有终端的用户。
还需要说明的是,在本申请的实际应用中,所述元素集合可以是指用户所购买商品的集合、用户最近使用或下载过的App的集合、用户最近访问的网址的集合、游戏玩家所购买道具的集合、游戏玩家持有的装备的集合等等。
对于服务器202而言,在接收到由终端201(终端1、终端2、终端3、终端4)发送的目标对象的元素集合对应的隐私视图数值之后,确定所述隐私视图数值在目标元素对应的映射集合中出现的频数,并基于所述频数,计算所述目标元素的元素频率的无偏估计值。
需要说明的是,在本申请中,目标元素可以是指所有元素中的一种或者多种,例如在图2中,所有目标元素包括有元素A、元素B、元素C、元素D、元素E、元素F、有元素G、元素H、元素I、元素J。
例如,在N个用户中,共有n个用户中的手机内下载过软件A,若需要在N个用户中统计软件A出现过的频率,那么通过本申请所提供的数据处理方法,在一定的置信区间内,得到的软件A出现过的频率FA(n/N)可以等于目标元素(软件A)的元素频率的无偏估计值FA1
以下对本申请实施例的技术方案的实现细节进行详细阐述:
图3示出了根据本申请的一个实施例的数据处理方法的流程图,该数据处理方法可以由具有计算处理功能的设备来执行,例如图1所示的终端设备101至103。参照图2所示,该数据处理方法至少包括步骤310至步骤350,详细介绍如下:
在步骤310中,获取目标对象的元素集合,所述元素集合中包括至少两个元素,所述至少两个元素互不相同。
在本申请中,元素集合可以是一个包含有m个元素的集合,该元素集合可以是元素定义域Y={Y1,Y2,…,Yd}的一个子集,该定义域大小为d。
再次说明的是,在本申请中,目标对象可以理解为终端,也可以理解为持有终端的用户。在终端,终端可以在本地获取自身的包含有m个元素的元素集合。其中,集合数据可以是用户所购买商品的集合、用户最近使用的m个App的集合、用户最近访问的网址的集合、游戏玩家所购买道具的集合、游戏玩家持有的装备的集合等等。
继续参照图3,在步骤330中,基于本地差分隐私机制,对所述元素集合进行随机扰动,得到用于掩盖目标对象的数据隐私的隐私视图数值。
对于本领域技术人员而言,应该理解的是,本地差分隐私机制是以一个X作为输入,通过一个ε-本地差分隐私机制Q输出为一个视图Z,该视图Z的输出概率需要满足以下限制(对于任意可能的X和X’):
Pr(Z|X)≤Pr(Z|X′)·exp(ε)
其中,ε是隐私保护预算参数,其取值为大于0的一个数值。ε越大则隐私保护等级越低,ε越小则隐私保护等级越高。
在本申请中,基于本地差分隐私机制,对所述元素集合进行随机扰动,可以是将包含有m个元素的元素集合X,通过一个ε-本地差分隐私机制Q输出为一个隐私视图数值Z,该隐私视图数值Z可以掩盖目标对象的数据隐私。
具体的,在ε-本地差分隐私机制下,对于任意可能的元素集合X和元素集合X’,输出为一个隐私视图数值Z的概率需满足上述限制。
在本申请的一个实施例中,基于本地差分隐私机制,对所述元素集合进行随机扰动,得到用于掩盖目标对象的数据隐私的隐私视图数值,可以按照如图4所示的步骤执行。
参见图4,示出了根据本申请的一个实施例的对所述元素集合进行随机扰动的细节流程图。具体包括步骤331至步骤333:
在步骤331中,在预定数值范围内,分别将所述元素集合中的各个元素随机映射为一个数值,得到至少两个元素映射值。
在本申请中,可以是在预定数值范围内,通过伪随机函数分别将所述元素集合中的各个元素随机映射为一个数值,得到至少两个元素映射值。
在本实施例的具体实现中,所述伪随机函数可以包括取模函数。
在本实施例的具体实现中,所述伪随机函数也可以包括位移函数。
在本实施例的具体实现中,所述伪随机函数还可以包括哈希函数,进一步的,该哈希函数可以包括MD5哈希函数,也可以包括SHA-1哈希函数。
在本实施例的具体实现中,例如,对于元素集合Xj,标记为Xj={Y1,Y2,...,Ym},在预定数值范围内,例如在取值范围为[0.0,1.0)内,对于元素集合Xj中的每个元素,即这里的Y1,Y2,...,Ym,分别通过随机函数Vi=H(Yi)计算(映射)得到至少两个元素映射值Vi,其中0≤Vi≤1,例如,V1=H(Y1)。
继续参照图4,在步骤332中,分别确定与每个元素映射值一一对应的集合,得到至少两个元素映射集合。
在本申请的一个实施例中,可以是基于预设参数,分别确定与每个元素映射值一一对应的集合,得到至少两个元素映射集合。
具体的,可以是基于预设参数,通过如下公式分别确定与每个元素映射值一一对应的集合:
Ci={y|y∈[Vi,Vi+p)and[0,Vi+p-1]}
其中,Ci表示第i个元素映射值对应的集合;Vi表示第i个元素映射值;p表示预设参数。
需要注意的是,若上式中的Vi+p-1小于0,则[0,Vi+p-1]}为空集,那么Ci={y|y∈[Vi,Vi+p)}。
在本申请的实施例中,预设参数p可以依据元素集合中元素的个数m而设定,具体的,可以按照如下公式而设定:
Figure BDA0002573329780000091
其中,p表示预设参数;m表示元素集合中元素的个数;ε表示隐私保护预算参数。
在本申请的其它实施例中,预设参数p还可以根据实际需要设定为其它数值。
继续参照图4,在步骤333中,基于所述至少两个元素映射集合,在所述预定数值范围内进行采样,得到用于掩盖目标对象的数据隐私的所述隐私视图数值。
在本申请的一个实施例中,基于所述至少两个元素映射集合,在所述预定数值范围内进行采样,得到用于掩盖目标对象的数据隐私的所述隐私视图数值,可以按照图5所示的步骤执行。
参见图5,示出了根据本申请的一个实施例的基于所述至少两个元素映射集合,在所述预定数值范围内进行采样的细节流程图。具体包括步骤341至步骤342:
在步骤341中,基于所述至少两个元素映射集合,确定所述预定数值范围内的数值的概率分布。
在本申请中,基于所述至少两个元素映射集合,确定所述预定数值范围内的数值的概率分布,可以按照图6所示的步骤执行。
参见图6,示出了根据本申请的一个实施例的确定所述预定数值范围内的数值的概率分布的细节流程图。具体包括步骤3411至步骤3413:
在步骤3411中,确定所述至少两个元素映射集合的并集。
具体的,对于通过上述图4中步骤332得到的至少两个元素映射集合C1,C2,…,Cm,对其求并集,得到并集C={y|y∈Ci for i∈[1,m]},其中并集C的长度为l。
在步骤3412中,在所述预定数值范围内的数值属于所述并集时,确定其概率密度为第一预设值。
在步骤3413中,在所述预定数值范围内的数值不属于所述并集时,确定其概率密度为第二预设值,所述第二预设值小于所述第一预设值。
具体的,在本申请中,可以定义一个范围在[0.0,1.0)上的概率分布Q,其中,
当y∈[0.0,1.0)且y∈C时,其概率密度为:
Figure BDA0002573329780000101
当y∈[0.0,1.0)且
Figure BDA0002573329780000103
时,其概率密度为:
Figure BDA0002573329780000102
其中,在上述中,
Figure BDA0002573329780000111
其中,ε表示隐私保护预算参数;m表示元素集合中元素的个数;p表示预设参数;l表示并集C的长度。
继续参照图5,在步骤342中,根据所述概率分布,在所述预定数值范围内进行采样,得到用于掩盖目标对象的数据隐私的所述隐私视图数值。
具体的,基于上述取值范围[0.0,1.0)中各个数值对应的概率密度,在上述概率分布Q中采样得到一个样本值Zj,该样本值Zj即为用于掩盖目标对象的数据隐私的隐私视图数值。
需要强调的是,视图Zj是区间[0.0,1.0)之间的一个数值。
继续参照图3,在步骤350中,将与所述目标对象的元素集合对应的隐私视图数值发送至服务器,以便于所述服务器获取统计数据。
在本申请的一些实施例所提供的技术方案中,通过基于本地差分隐私机制,对包括有至少两个互不相同的元素集合进行随机扰动,得到用于掩盖目标对象的数据隐私且用于发送至服务器的隐私视图数值。一方面,由于本方案实施例将目标对象的元素集合进行随机扰动之后发送给服务器,因而可以保护用户的数据隐私,另一方面,由于基于本地差分隐私机制对目标对象的元素集合进行随机扰动,进而可以降低对集合数据本地化隐私处理的复杂度。
图7示出了根据本申请的一个实施例的数据处理方法的流程图,该数据处理方法可以由具有计算处理功能的设备来执行,例如图1所示的服务器105。参照图7所示,该数据处理方法至少包括步骤710至步骤750,详细介绍如下:
在步骤710中,获取至少一个目标对象发送的隐私视图数值,得到至少一个隐私视图数值,所述隐私视图数值通过基于本地差分隐私机制,对目标对象的元素集合进行随机扰动而得到。
在本申请中,例如,获取N个目标对象(可以是指用户)发送的隐私视图数值Zj,即为Z1、Z2、Z3、…、ZN
在步骤730中,确定所述隐私视图数值在目标元素映射集合中出现的频数,所述目标元素映射集合通过目标元素映射值确定,所述目标元素映射值通过对目标元素进行随机映射得到。
在本申请的一个实施例中,确定所述隐私视图数值在目标元素映射集合中出现的频数,可以按照如图8所示的步骤实现。
参见图8,示出了示出了根据本申请的一个实施例的确定所述隐私视图数值在目标元素映射集合中出现的频数的细节流程图。具体包括步骤731至步骤732:
在步骤731中,将所述隐私视图数值在目标元素映射集合中的出现的频数初始化为0。
在步骤732中,遍历所述至少一个隐私视图数值,在所述隐私视图数值属于所述目标元素映射集合时,对所述频数加1。
在申请中,对于集合Y={Y1,Y2,…,Yd}中的第i个元素Yi(即目标元素Yi)而言,对应有一个目标元素映射集合Ci:
Ci={y|y∈[Vi,Vi+p)and[0,Vi+p-1]}
其中,Ci表示第i个元素映射值对应的集合;Vi表示第i个元素映射值;p表示预设参数。
需要注意的是,若上式中的Vi+p-1小于0,则[0,Vi+p-1]}为空集,那么Ci={y|y∈[Vi,Vi+p)}。
在本实施例的具体实现中,首先,对于第i个元素Yi(即目标元素Yi)初始化其频数Gi为0;然后,对从N个目标对象(终端)获取得到的隐私视图数值Zj进行遍历,每当一个目标对象发送的隐私视图数值属于所述目标元素映射集合时,对所述频数加1,即Gi=Gi+1。
在步骤750中,基于所述频数,计算所述目标元素的元素频率的无偏估计值,所述元素频率用于表征所述目标元素在目标对象群体内出现的频率。
在本申请中,在确定所述隐私视图数值在目标元素映射集合中出现的频数Gi之后,可以通过如下公式计算所述目标元素的元素频率的无偏估计值:
Figure BDA0002573329780000121
其中,Fi表示目标元素Yi的元素频率的无偏估计值;Gi表示隐私视图数值在目标元素Yi对应的目标元素映射集合中出现的频数;N表示至少一个目标对象的个数;q、p表示预设参数。
进一步的,
Figure BDA0002573329780000131
其中,ε表示隐私保护预算参数。
进一步的,
Figure BDA0002573329780000132
在本申请的其它实施例中,预设参数p还可以根据实际需要设定为其它数值。
在本申请的一些实施例所提供的技术方案中,通过确定至少一个目标对象发送的隐私视图数值在目标元素映射集合中出现的频数,并基于该频数计算所述目标元素的元素频率的无偏估计值,因而可以降低对目标元素的元素频率进行估计的误差。
以下介绍本申请的装置实施例,可以用于执行本申请上述实施例中的数据处理方法。对于本申请装置实施例中未披露的细节,请参照本申请上述的数据处理方法的实施例。
图9示出了根据本申请的一个实施例的数据处理装置的框图。
参照图9所示,根据本申请的一个实施例的数据处理装置900,所述数据处理装置900适用于终端,所述装置包括:第一获取单元901、扰动单元902和发送单元903。
其中,第一获取单元901,被用于获取目标对象的元素集合,所述元素集合中包括至少两个元素,所述至少两个元素互不相同;扰动单元902,被用于基于本地差分隐私机制,对所述元素集合进行随机扰动,得到用于掩盖目标对象的数据隐私的隐私视图数值;发送单元903,被用于将与所述目标对象的元素集合对应的隐私视图数值发送至服务器,以便于所述服务器获取统计数据。
在本申请的一些实施例中,基于前述方案,所述扰动单元902包括:映射单元,被用于在预定数值范围内,分别将所述元素集合中的各个元素随机映射为一个数值,得到至少两个元素映射值;第三确定单元,被用于分别确定与每个元素映射值一一对应的集合,得到至少两个元素映射集合;采样单元,被用于基于所述至少两个元素映射集合,在所述预定数值范围内进行采样,得到用于掩盖目标对象的数据隐私的所述隐私视图数值。
在本申请的一些实施例中,基于前述方案,所述映射单元配置为:在预定数值范围内,通过伪随机函数分别将所述元素集合中的各个元素随机映射为一个数值,得到至少两个元素映射值。
在本申请的一些实施例中,基于前述方案,所述伪随机函数包括取模函数或位移函数或哈希函数。
在本申请的一些实施例中,基于前述方案,所述采样单元配置为:基于所述至少两个元素映射集合,确定所述预定数值范围内的数值的概率分布;根据所述概率分布,在所述预定数值范围内进行采样,得到用于掩盖目标对象的数据隐私的所述隐私视图数值。
在本申请的一些实施例中,基于前述方案,所述采样单元配置为:确定所述至少两个元素映射集合的并集;在所述预定数值范围内的数值属于所述并集时,确定其概率密度为第一预设值;在所述预定数值范围内的数值不属于所述并集时,确定其概率密度为第二预设值,所述第二预设值小于所述第一预设值。
图10示出了根据本申请的一个实施例的数据处理装置的框图;
参照图10所示,根据本申请的一个实施例的数据处理装置1000,所述数据处理装置1000适用于服务器,所述装置包括:第二获取单元1001、第一确定单元1002和第二确定单元1003。
其中,第二获取单元1001,被用于获取至少一个目标对象发送的隐私视图数值,得到至少一个隐私视图数值,所述隐私视图数值通过基于本地差分隐私机制,对目标对象的元素集合进行随机扰动而得到;第一确定单元1002,被用于确定所述隐私视图数值在目标元素映射集合中出现的频数,所述目标元素映射集合通过目标元素映射值确定,所述目标元素映射值通过对目标元素进行随机映射得到;第二确定单元1003,被用于基于所述频数,计算所述目标元素的元素频率的无偏估计值,所述元素频率用于表征所述目标元素在目标对象群体内出现的频率。
在本申请的一些实施例中,基于前述方案,所述第一确定单元1002配置为:将所述隐私视图数值在目标元素映射集合中的出现的频数初始化为0;遍历所述至少一个隐私视图数值,在所述隐私视图数值属于所述目标元素映射集合时,对所述频数加1。
图11示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图11示出的电子设备的计算机系统1100仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图11所示,计算机系统1100包括中央处理单元(Central Processing Unit,CPU)1101,其可以根据存储在只读存储器(Read-Only Memory,ROM)1102中的程序或者从储存部分1108加载到随机访问存储器(Random Access Memory,RAM)1103中的程序而执行各种适当的动作和处理,例如执行上述实施例中所述的方法。在RAM 1103中,还存储有系统操作所需的各种程序和数据。CPU 1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(Input/Output,I/O)接口1105也连接至总线1104。
以下部件连接至I/O接口1105:包括键盘、鼠标等的输入部分1106;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分1107;包括硬盘等的储存部分1108;以及包括诸如LAN(Local AreaNetwork,局域网)卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至I/O接口1105。可拆卸介质1111,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1110上,以便于从其上读出的计算机程序根据需要被安装入储存部分1108。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1109从网络上被下载和安装,和/或从可拆卸介质1111被安装。在该计算机程序被中央处理单元(CPU)1101执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现上述实施例中所述的方法。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的实施方式后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (10)

1.一种数据处理方法,其特征在于,所述数据处理方法应用于终端,所述方法包括:
获取目标对象的元素集合,所述元素集合中包括至少两个元素,所述至少两个元素互不相同;
基于本地差分隐私机制,对所述元素集合进行随机扰动,得到用于掩盖目标对象的数据隐私的隐私视图数值;
将与所述目标对象的元素集合对应的隐私视图数值发送至服务器,以便于所述服务器获取统计数据。
2.根据权利要求1所述的方法,其特征在于,所述基于本地差分隐私机制,对所述元素集合进行随机扰动,得到用于掩盖目标对象的数据隐私的隐私视图数值,包括:
在预定数值范围内,分别将所述元素集合中的各个元素随机映射为一个数值,得到至少两个元素映射值;
分别确定与每个元素映射值一一对应的集合,得到至少两个元素映射集合;
基于所述至少两个元素映射集合,在所述预定数值范围内进行采样,得到用于掩盖目标对象的数据隐私的所述隐私视图数值。
3.根据权利要求2所述的方法,其特征在于,所述在预定数值范围内,分别将所述元素集合中的各个元素随机映射为一个数值,得到至少两个元素映射值,包括:
在预定数值范围内,通过伪随机函数分别将所述元素集合中的各个元素随机映射为一个数值,得到至少两个元素映射值。
4.根据权利要求3所述的方法,其特征在于,所述伪随机函数包括取模函数或位移函数或哈希函数。
5.根据权利要求2所述的方法,其特征在于,所述基于所述至少两个元素映射集合,在所述预定数值范围内进行采样,得到用于掩盖目标对象的数据隐私的所述隐私视图数值,包括:
基于所述至少两个元素映射集合,确定所述预定数值范围内的数值的概率分布;
根据所述概率分布,在所述预定数值范围内进行采样,得到用于掩盖目标对象的数据隐私的所述隐私视图数值。
6.根据权利要求5所述的方法,其特征在于,基于所述至少两个元素映射集合,确定所述预定数值范围内的数值的概率分布,包括:
确定所述至少两个元素映射集合的并集;
在所述预定数值范围内的数值属于所述并集时,确定其概率密度为第一预设值;
在所述预定数值范围内的数值不属于所述并集时,确定其概率密度为第二预设值,所述第二预设值小于所述第一预设值。
7.一种数据处理方法,其特征在于,所述数据处理方法应用于服务器,所述方法包括:
获取至少一个目标对象发送的隐私视图数值,得到至少一个隐私视图数值,所述隐私视图数值通过基于本地差分隐私机制,对目标对象的元素集合进行随机扰动而得到;
确定所述隐私视图数值在目标元素映射集合中出现的频数,所述目标元素映射集合通过目标元素映射值确定,所述目标元素映射值通过对目标元素进行随机映射得到;
基于所述频数,计算所述目标元素的元素频率的无偏估计值,所述元素频率用于表征所述目标元素在目标对象群体内出现的频率。
8.根据权利要求6所述的方法,其特征在于,所述确定所述隐私视图数值在目标元素映射集合中出现的频数,包括:
将所述隐私视图数值在目标元素映射集合中的出现的频数初始化为0;
遍历所述至少一个隐私视图数值,在所述隐私视图数值属于所述目标元素映射集合时,对所述频数加1。
9.一种数据处理装置,适用于终端,其特征在于,所述装置包括:
第一获取单元,被用于获取目标对象的元素集合,所述元素集合中包括至少两个元素,所述至少两个元素互不相同;
扰动单元,被用于基于本地差分隐私机制,对所述元素集合进行随机扰动,得到用于掩盖目标对象的数据隐私的隐私视图数值;
发送单元,被用于将与所述目标对象的元素集合对应的隐私视图数值发送至服务器,以便于所述服务器获取统计数据。
10.一种数据处理装置,适用于服务器,其特征在于,所述装置包括:
第二获取单元,被用于获取至少一个目标对象发送的隐私视图数值,得到至少一个隐私视图数值,所述隐私视图数值通过基于本地差分隐私机制,对目标对象的元素集合进行随机扰动而得到;
第一确定单元,被用于确定所述隐私视图数值在目标元素映射集合中出现的频数,所述目标元素映射集合通过目标元素映射值确定,所述目标元素映射值通过对目标元素进行随机映射得到;
第二确定单元,被用于基于所述频数,计算所述目标元素的元素频率的无偏估计值,所述元素频率用于表征所述目标元素在目标对象群体内出现的频率。
CN202010646743.1A 2020-07-07 2020-07-07 数据处理方法、装置 Pending CN111881469A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010646743.1A CN111881469A (zh) 2020-07-07 2020-07-07 数据处理方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010646743.1A CN111881469A (zh) 2020-07-07 2020-07-07 数据处理方法、装置

Publications (1)

Publication Number Publication Date
CN111881469A true CN111881469A (zh) 2020-11-03

Family

ID=73150327

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010646743.1A Pending CN111881469A (zh) 2020-07-07 2020-07-07 数据处理方法、装置

Country Status (1)

Country Link
CN (1) CN111881469A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113068252A (zh) * 2021-03-16 2021-07-02 Oppo广东移动通信有限公司 定位方法、装置、终端及存储介质
CN113660263A (zh) * 2021-08-16 2021-11-16 Oppo广东移动通信有限公司 数据处理方法、装置、存储介质、用户设备及服务器

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113068252A (zh) * 2021-03-16 2021-07-02 Oppo广东移动通信有限公司 定位方法、装置、终端及存储介质
CN113660263A (zh) * 2021-08-16 2021-11-16 Oppo广东移动通信有限公司 数据处理方法、装置、存储介质、用户设备及服务器

Similar Documents

Publication Publication Date Title
CN110704751B (zh) 数据处理方法、装置、电子设备及存储介质
CN110929799B (zh) 用于检测异常用户的方法、电子设备和计算机可读介质
US11461999B2 (en) Image object detection method, device, electronic device and computer readable medium
CN109783757B (zh) 渲染网页的方法及装置、系统、存储介质、电子装置
CN111881469A (zh) 数据处理方法、装置
US20210089887A1 (en) Variance-Based Learning Rate Control For Training Machine-Learning Models
CN112035753A (zh) 推荐页面生成方法、装置、电子设备和计算机可读介质
CN110414613B (zh) 区域聚类的方法、装置、设备和计算机可读存储介质
CN111683156A (zh) 信息推送方法、装置、电子设备和计算机可读介质
CN114049072A (zh) 指标确定方法、装置、电子设备和计算机可读介质
CN112102043B (zh) 物品推荐页面生成方法、装置、电子设备和可读介质
CN113298573A (zh) 内容投放策略比较方法、装置、可读介质及电子设备
CN116129440B (zh) 异常用户端告警方法、装置、电子设备和介质
CN112598337A (zh) 针对物品的车辆控制方法、装置、设备和计算机可读介质
CN110197316B (zh) 运营数据的处理方法、装置、计算机可读介质及电子设备
CN111385150A (zh) 用于获取信息的方法及装置
CN109460337A (zh) 耗电量监测方法、装置、设备及其存储介质
CN115456684A (zh) 信息触达处理方法、装置、计算机设备和存储介质
CN115130026A (zh) 目标对象的确定方法、装置、介质及电子设备
CN112131468A (zh) 推荐系统中的数据处理方法、装置
CN114816955A (zh) 数据库性能预测方法和装置
CN109669779B (zh) 用于确定数据的清理路径、清理数据的方法和设备
CN111898027A (zh) 确定特征维度的方法、装置、电子设备和计算机可读介质
CN110796557A (zh) 数据处理方法及装置、电子设备和计算机可读存储介质
CN113362097B (zh) 一种用户确定方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination