CN114090656B - 一种数据处理方法、装置、计算机设备及存储介质 - Google Patents

一种数据处理方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN114090656B
CN114090656B CN202111397312.7A CN202111397312A CN114090656B CN 114090656 B CN114090656 B CN 114090656B CN 202111397312 A CN202111397312 A CN 202111397312A CN 114090656 B CN114090656 B CN 114090656B
Authority
CN
China
Prior art keywords
data
value
parameter
target
privacy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111397312.7A
Other languages
English (en)
Other versions
CN114090656A (zh
Inventor
刘洋
蔡权伟
王聪
鲁云飞
吴烨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Douyin Vision Co Ltd
Original Assignee
Douyin Vision Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Douyin Vision Co Ltd filed Critical Douyin Vision Co Ltd
Priority to CN202111397312.7A priority Critical patent/CN114090656B/zh
Publication of CN114090656A publication Critical patent/CN114090656A/zh
Application granted granted Critical
Publication of CN114090656B publication Critical patent/CN114090656B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Bioethics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种数据处理方法、装置、计算机设备及存储介质,其中,该方法包括:响应针对目标历史数据的查看请求,确定目标历史数据中各个数据在隐私处理模型下的取值对应的取值分布函数;基于预设的隐私预算值,计算使得取值分布函数与狄拉克分布之间统计距离与隐私预算值的差值在预设范围内时,隐私处理模型中目标参数的值;基于确定了目标参数的值的隐私处理模型,对目标历史数据进行处理得到处理后数据,并发送给数据接收端。本公开实施例在取值分布函数与狄拉克分布的统计距离满足预设条件下的目标参数的值,可以满足对数据进行隐私化的需求;采用包含可配置目标参数的隐私处理模型对目标历史数据进行处理,可以增加处理后数据的随机性。

Description

一种数据处理方法、装置、计算机设备及存储介质
技术领域
本公开涉及数据处理技术领域,具体而言,涉及一种数据处理方法、装置、计算机设备及存储介质。
背景技术
为了获悉在对待分发内容进行分发之后,用户对待分发内容的反馈数据,例如用户对待分发内容中包含的商品的购买情况,分发人员可以参考其他分发人员的历史分发内容在分发之后,用户对其历史分发内容的历史反馈数据。但是为了保护历史分发内容的反馈数据的安全性,通常需要对历史反馈数据进行处理。
在对历史反馈数据进行处理的过程中,主要是在初始的历史反馈数据中加入实数作为噪声,得到处理后的历史反馈数据。但是这种处理方式比较简单,得到的处理后的历史反馈数据安全性较低。
发明内容
本公开实施例至少提供一种数据处理方法、装置、计算机设备及存储介质。
第一方面,本公开实施例提供了一种数据处理方法,包括:
响应针对目标历史数据的查看请求,确定所述目标历史数据中各个数据在隐私处理模型下的取值对应的取值分布函数;所述隐私处理模型中包含可配置的目标参数;
基于预设的隐私预算值,计算使得所述取值分布函数与狄拉克分布之间统计距离与所述隐私预算值的差值在预设范围内时,所述隐私处理模型中所述目标参数的值;
基于确定了所述目标参数的值的所述隐私处理模型,对所述目标历史数据进行处理,得到处理后数据;所述处理后数据对应的统计特征与处理前的所述目标历史数据的统计特征一致;
将所述处理后数据发送给数据接收端。
一种可选的实施方式中,所述隐私处理模型采用非线性函数;所述非线性函数为正弦函数;所述目标参数包括表征正弦函数的周期值的第一参数、表征正弦函数的偏移值的第二参数、以及表征正弦函数的幅度值的第三参数;
在所述确定所述目标历史数据中各个数据在隐私处理模型下的取值对应的取值分布函数之前,所述方法还包括:
在随机分布中为所述第一参数和所述第二参数分别进行随机赋值,所述隐私处理模型包括随机赋值后的第一参数、随机赋值后的第二参数以及未赋值的第三参数。
一种可选的实施方式中,所述第三参数符合零均值分布,所述取值分布函数为概率密度函数。
一种可选的实施方式中,所述基于预设的隐私预算值,计算使得所述取值分布函数与狄拉克分布之间的统计距离与所述隐私预算值的差值在预设范围内时,所述隐私处理模型中所述目标参数的值,包括:
循环执行:针对所述目标历史数据中的每个数据,为所述第三参数选择符合所述零均值分布的取值,并计算所述取值分布函数与狄拉克分布之间的统计距离,直到所述统计距离与所述隐私预算值的差值在预设范围内时,将最后一次为所述第三参数选择的取值,作为所述第三参数的取值。
一种可选的实施方式中,所述基于确定了所述目标参数的值的所述隐私处理模型,对所述目标历史数据进行处理,得到处理后数据,包括:
将所述目标历史数据中各个数据输入确定了所述目标参数的值的所述隐私处理模型,得到各个数据在所述非线性函数下的取值;
将各个数据在所述非线性函数下的取值与对应数据本身进行求和处理,得到各个数据的处理后数据。
一种可选的实施方式中,所述确定所述目标历史数据中各个数据在隐私处理模型下的取值对应的取值分布函数,包括:
根据预设的各个数据范围,将所述目标历史数据划分到对应每个数据范围的数据组中;其中所述各个数据范围对应的范围长度相同;
针对各个数据组,计算每个数据组中的各个数据在所述隐私处理模型对应的目标函数下的取值;所述目标函数为所述正弦函数中去除所述第三参数后的函数部分;
基于该数据组中的数据个数,以及所述目标历史数据的总数据个数,确定该数据组对应的数据占比;
基于各个数据组对应的所述数据占比,确定各个数据组中的所述各个数据在目标函数下的取值的概率分布;
基于所述概率分布,得到所述目标函数对应的第一概率密度函数;以及,基于所述第三参数所符合的零均值分布,得到所述第三参数对应的第二概率密度函数;
基于所述第一概率密度函数和所述第二概率密度函数,确定所述取值分布函数。
一种可选的实施方式中,所述基于所述第三参数所符合的零均值分布,得到所述第三参数对应的第二概率密度函数,包括:
基于各个数据组中的数据范围,确定与各个数据组分别对应的符合所述零均值分布的第二概率密度子函数;
将各个数据组分别对应的第二概率密度子函数进行组合,得到所述第三参数对应的第二概率密度函数。
第二方面,本公开实施例还提供一种数据处理装置,包括:
确定模块,用于响应针对目标历史数据的查看请求,确定所述目标历史数据中各个数据在隐私处理模型下的取值对应的取值分布函数;所述隐私处理模型中包含可配置的目标参数;
计算模块,用于基于预设的隐私预算值,计算使得所述取值分布函数与狄拉克分布之间统计距离与所述隐私预算值的差值在预设范围内时,所述隐私处理模型中所述目标参数的值;
处理模块,用于基于确定了所述目标参数的值的所述隐私处理模型,对所述目标历史数据进行处理,得到处理后数据;所述处理后数据对应的统计特征与处理前的所述目标历史数据的统计特征一致;
发送模块,用于将所述处理后数据发送给数据接收端。
第三方面,本公开实施例还提供一种计算机设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
第四方面,本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
本公开实施例提供的数据处理方法中,在响应针对目标历史数据的查看请求,确定出目标历史数据中各个数据在隐私处理模型下的取值对应的取值分布函数之后,可以计算出取值分布函数与狄拉克分布的统计距离,由于狄拉克分布是一种随机性极低的分布,因此当统计距离越大的时候,则取值分布函数对目标历史数据的隐私性越大,因此在统计距离与预设的隐私预算值的差值在预设范围内的情况下,确定目标参数的值,并使用确定了目标参数的值的隐私处理模型对目标历史数据进行处理时,可以满足对目标历史数据进行隐私化程度的需求;并且,目标参数的值是针对每次处理确定的,目标参数的值是随机的,因此可以增加目标历史数据中各个数据在隐私处理模型处理后的随机性,也就是经过隐私处理模型处理后,得到的处理后数据的随机性更强,相对于现有技术中仅通过加实数来实现处理的方式,可以在一程度上增加目标历史数据的安全性。
本公开实施例中的隐私处理模型采用非线性函数,其中,非线性函数包括正弦函数,正弦函数中包括三个目标参数,在使用包含正弦函数的非线性函数对目标历史数据中各个数据进行处理后,得到的处理后数据的随机性和安全性更高。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本公开实施例所提供的一种数据处理方法的流程图;
图2示出了本公开实施例所提供的A商品营销额在处理前的数据趋势示意图;
图3示出了本公开实施例所提供的A商品营销额在处理后的数据趋势示意图;
图4示出了本公开实施例所提供的B商品营销额在处理前的数据趋势示意图;
图5示出了本公开实施例所提供的B商品营销额在处理后的数据趋势示意图;
图6示出了本公开实施例所提供的一种数据处理装置的示意图;
图7示出了本公开实施例所提供的一种计算机设备的示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
在对历史反馈数据进行处理的过程中,主要是在初始的历史反馈数据中加入实数作为噪声,例如,针对每个初始的历史反馈数据xi,i=1,2,…,n,可以增加一个实数r,得到处理后的历史反馈数据x~i=xi+r。但是这种处理的方式比较简单,容易造成对初始历史反馈数据的暴露,因此得到的处理后的历史反馈数据安全性较低。
基于此,本公开提供了一种数据处理方法,在响应针对目标历史数据的查看请求,确定出目标历史数据中各个数据在隐私处理模型下的取值对应的取值分布函数之后,可以计算出取值分布函数与狄拉克分布的统计距离,由于狄拉克分布是一种随机性极低的分布,因此当统计距离越大的时候,则取值分布函数对目标历史数据的隐私性越大,因此在统计距离与预设的隐私预算值的差值在预设范围内的情况下,确定目标参数的值,并使用确定了目标参数的值的隐私处理模型对目标历史数据进行处理时,可以满足对目标历史数据进行隐私化程度的需求;并且,目标参数的值是针对每次处理确定的,目标参数的值是随机的,因此可以增加目标历史数据中各个数据在隐私处理模型处理后的随机性,也就是经过隐私处理模型处理后,得到的处理后数据的随机性更强,相对于现有技术中仅通过加实数来实现处理的方式,可以在一程度上增加目标历史数据的安全性。
针对以上方案所存在的缺陷以及所提供的解决方案,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本公开针对上述问题所提出的解决方案,都应该是发明人在本公开过程中对本公开做出的贡献。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
为便于对本实施例进行理解,首先对本公开实施例所公开的一种数据处理方法进行详细介绍,本公开实施例所提供的数据处理方法的执行主体一般为具有一定计算能力的计算机设备。
下面以执行主体为服务器为例对本公开实施例提供的数据处理方法加以说明。
参见图1所示,为本公开实施例提供的数据处理方法的流程图,所述方法包括S101~S104,其中:
S101:响应针对目标历史数据的查看请求,确定所述目标历史数据中各个数据在隐私处理模型下的取值对应的取值分布函数;所述隐私处理模型中包含可配置的目标参数。
在本公开实施例中,目标历史行为数据可以是目标分发内容被分发之后,用户对目标分发内容中包含的对象发生历史行为后所产生的历史数据。目标分发内容可以是与商品、活动等对象相关的详情内容。比如目标商品的详情内容被分发之后,用户购买目标商品所产生的销售数量数据等。
为了增加对目标历史数据处理后的安全性,这里的隐私处理模型可以采用非线性函数,例如正弦函数、指数函数、幂函数、对数函数、多项式函数等基本初等函数以及他们组成的复合函数。隐私处理模型中包含可配置的目标参数。在一种实施方式中,非线性函数可以包括正弦函数;目标参数包括表征正弦函数的周期值的第一参数、表征正弦函数的偏移值的第二参数、以及表征正弦函数的幅度值的第三参数。这里第一参数、第二参数和第三参数都是可配置的参数。
为了增加目标参数的随机性,在一种实施方式中,在执行确定目标历史数据中各个数据在隐私处理模型下的取值分布函数之前,可以在随机分布中为第一参数和第二参数分别进行随机赋值,隐私处理模型包括随机赋值后的第一参数、随机赋值后的第二参数以及未赋值的第三参数。这里可以定义第一参数为q,第二参数为r,第三参数为p,正弦函数为psin(qxn+r),其中,n为正整数,xn为目标历史数据中的各个数据。
这里的随机分布可以是任意概率的分布,第一参数q和第二参数r所对应的随机分布可以是相同的分布。例如可以从0至1之间随机抽取一个值为第一参数q和/或第二参数r赋值;再如可以从均值为0,方差为1的高斯分布中随机抽取一个值为第一参数q和/或第二参数r赋值,这里对第一参数q以及第二参数r的取值可以不作具体限定。
为了使得对历史目标处理进行处理后得到的处理后数据对应的统计特征与处理前的目标历史数据的统计特征一致,在一种实施方式中,第三参数p可以是符合零均值分布的参数,取值分布函数可以为概率密度函数。
如前所示,非线性函数可以是包括三个参数的正弦函数,这里可以定义正弦函数中除去第三参数p的函数部分为目标函数,即sin(qxn+r)。
在确定目标历史数据中各个数据在隐私处理模型下的取值分布函数时,可以先确定各个函数在目标函数下的第一概率密度函数。具体地,可以根据预设的各个数据范围,将目标历史数据划分到对应每个数据范围的数据组中;其中各个数据范围对应的范围长度相同;然后,针对各个数据组,计算每个数据组中的各个数据在隐私处理模型对应的目标函数下的取值;然后,基于该数据组中的数据个数,以及目标历史数据的总数据个数,确定该数据组对应的数据占比;然后,基于各个数据组对应的数据占比,确定各个数据组中的各个数据在目标函数下的取值的概率分布;然后,基于概率分布,得到目标函数对应的第一概率密度函数。
这里,可以定义目标历史数据中的各个数据x1,x2,...,xn是独立且同分布的实数,用sin(qxi+r)的分布直立方图近似表示sin(qxn+r)的真实分布。具体地:可以将xi对应的取值域U=[ul,ur]划分为
Figure BDA0003370358800000091
其中,l与r是任意不相同的两个实数,k=1,...,K,使得/>
Figure BDA0003370358800000092
且/>
Figure BDA0003370358800000093
也就是/>
Figure BDA0003370358800000094
的范围长度是相同的。
通过计算每个数据组中各个数据在隐私处理模型对应的目标函数下的取值,可以得到sin(qxn+r)的取值。然后基于每个数据组中的数据个数,以及目标历史数据的总数据个数,可以得到该数据组对应的数据占比。然后基于各个数据组对应的数据占比,可以得到各sin(qxn+r)的取值的概率分布,进而可以确定sin(qxn+r)的第一概率密度函数为
Figure BDA0003370358800000095
其中,φk可以表示是Uk区间上的概率密度值,Ik(x)是示性函数,即若x∈Uk,则Ik(x)=1;否则Ik(x)=0。
接下来,可以基于第三参数p所符合的零均值分布,得到第三参数p对应的第二概率密度函数fp(x)。这里,第三参数p所符合的零均值分布可以是任意的,例如可以选取零均值的均匀分布作为第三参数p的分布,其中第三参数p的方差可以是待定的。
最后,基于第一概率密度函数和第二概率密度函数,可以确定取值分布函数,即第一概率密度函数
Figure BDA0003370358800000096
与第二概率密度函数fp(x)的乘积/>
Figure BDA0003370358800000101
这里,可以定义X=sin(qxn+r),Y=p,Z为随机变量,psin(qxn+r)的取值分布函数,也就是概率密度函数
Figure BDA0003370358800000102
可以表示为:fXY(z),其中,/>
Figure BDA0003370358800000103
考虑到第三参数p的第二概率密度函数fp(x)是连续函数,各个数据的取值sin(qxn+r)的第二概率密度函数
Figure BDA0003370358800000104
是离散的,因此,在一种实施方式中,可以基于各个数据组中的数据范围,确定与各个数据组分别对应的符合零均值分布的第二概率密度子函数;然后将各个数据组分别对应的第二概率密度子函数进行组合,得到第三参数p对应的第二概率密度函数/>
Figure BDA0003370358800000105
具体地,概率密度函数
Figure BDA0003370358800000106
也就是fXY(z)可以表示为:
Figure BDA0003370358800000107
其中,/>
Figure BDA0003370358800000108
在对目标历史数据进行处理时,当进行处理的隐私程度越高,得到的处理后数据对目标历史数据的保护能力越强,这里,可以获取设定的预设值,预设值可以表征对目标历史数据进行隐私处理的程度。
因此可以基于预设值,对目标历史数据进行处理,以保证得到的处理后数据对目标历史数据的保护能力符合预设的隐私程度。
S102:基于预设的隐私预算值,计算使得所述取值分布函数与狄拉克分布之间统计距离与所述隐私预算值的差值在预设范围内时,所述隐私处理模型中所述目标参数的值。
狄拉克分布是一种在x=0处概率密度无穷大的、近乎确定性的分布。狄拉克分布可以是一个近乎确定性的分布,随机性极低,也就是说,狄拉克分布含有的隐私量是非常小的。所以,如果取值分布函数与狄拉克分布的统计距离越大,则含有的隐私量越大。
对于未赋值的第三参数p,可以针对目标数据中的每个数据,为第三参数p选择符合零均值分布的取值。也就是可以从零均值分布中随机选取一个值为第三参数p赋值。
然后,针对目标数据中的每个数据,在为第一参数q、第二参数r和第三参数p都赋值的情况下,计算该数据在隐私处理模型下的取值分布函数与狄拉克分布之间的统计距离。其中统计距离可以为曼哈顿距离、KL散度(即Kullback-Leibler divergence)等,这里可以不作具体限定。
然后,判断统计距离与预设值中的差值是否在预设范围内。如果统计距离与预设值中的差值不在预设范围内,说明统计距离与预设值的差值较大,此时需要对反复调整第三参数p的取值,这里可以是对第三参数p的方差进行调整,通过调整第三参数的方差,使得统计距离与预设值中的差值在预设范围内。
当重新选取第三参数p的取值之后,可以重新执行计算取值分布函数与狄拉克分布之间的统计距离的步骤,直至统计距离与预设值的差值在预设范围内。此时,可以将最后一次为第三参数p选择的取值,作为第三参数的取值。
S103:基于确定了所述目标参数的值的所述隐私处理模型,对所述目标历史数据进行处理,得到处理后数据;所述处理后数据对应的统计特征与处理前的所述目标历史数据的统计特征一致。
在确定了目标参数的值后,可以将目标历史数据中各个数据输入至隐私处理模型中,得到各个数据在非线性函数下的取值,即sin(qxn+r)。这里,第一参数q和第二参数r都可以是在随机分布中为第一参数q和第二参数r分别进行随机赋值的,第三参数p可以是在取值分布函数与狄拉克分布之间的统计距离满足预设条件时,计算得到的隐私处理模型中第三参数p的值。
然后将各个数据在非线性函数下的取值与对应数据本身进行求和处理,得到各个数据的处理后数据yn,即yn=xn+psin(qxn+r)。
这里,统计特征可以是与时间有关的特征,例如随时间变化的趋势特征,环比值等。得到的处理后数据与处理前的目标历史数据的统计特征一致。
例如,处理前,A商品和B商品分别在2018年1月份至12月份的营销额,以及处理后,A商品和B商品分别在2018年1月份至12月份的营销额分别如表1和表2所示:
表1
时间 A商品营销额 B商品营销额
2018/1 14223717 78649320
2018/2 20258743 94620294
2018/3 24612569 157708776
2018/4 36040635 229621879
2018/5 43018936 302879831
2018/6 49672029 354953064
2018/7 55403422 420480470
2018/8 78235554 603350415
2018/9 69663474 688747267
2018/10 67117013 754211382
2018/11 83260234 935845326
2018/12 63210026 929706265
表2
Figure BDA0003370358800000121
Figure BDA0003370358800000131
其中,将上述表1和表2中A商品营销额转化为数据趋势图,分别如图2和图3所示。图3中处理后的A商品营销额随时间的变化趋势与图2中处理前的A商品营销额随时间的变化趋势是相同的。将上述表1和表2中B商品营销额转化为数据趋势图,分别如图4和图5所示。图4中处理前的B商品营销额随时间是呈上升趋势的,图5中处理后的B商品营销额也是随时间呈上升趋势的。由此可见,在保证A商品营销额和B商品营销额隐私的前提下,还保持了A商品营销额和B商品营销额的趋势信息。
S104:将所述处理后数据发送给数据接收端。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
基于同一发明构思,本公开实施例中还提供了与数据处理方法对应的数据处理装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述数据处理方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参照图6所示,为本公开实施例提供的一种数据处理装置的架构示意图,所述装置包括:确定模块601、计算模块602、处理模块603、发送模块604;其中,
确定模块601,用于响应针对目标历史数据的查看请求,确定所述目标历史数据中各个数据在隐私处理模型下的取值对应的取值分布函数;所述隐私处理模型中包含可配置的目标参数;
计算模块602,用于基于预设的隐私预算值,计算使得所述取值分布函数与狄拉克分布之间统计距离与所述隐私预算值的差值在预设范围内时,所述隐私处理模型中所述目标参数的值;
处理模块603,用于基于确定了所述目标参数的值的所述隐私处理模型,对所述目标历史数据进行处理,得到处理后数据;所述处理后数据对应的统计特征与处理前的所述目标历史数据的统计特征一致;
发送模块604,用于将所述处理后数据发送给数据接收端。
一种可选的实施方式中,所述隐私处理模型采用非线性函数;所述非线性函数包括正弦函数;所述目标参数包括表征正弦函数的周期值的第一参数、表征正弦函数的偏移值的第二参数、以及表征正弦函数的幅度值的第三参数;
所述装置还包括:
赋值模块,用于在随机分布中为所述第一参数和所述第二参数分别进行随机赋值,所述隐私处理模型包括随机赋值后的第一参数、随机赋值后的第二参数以及未赋值的第三参数。
一种可选的实施方式中,所述第三参数符合零均值分布,所述取值分布函数为概率密度函数。
一种可选的实施方式中,计算模块602,具体用于:
循环执行:针对所述目标历史数据中的每个数据,为所述第三参数选择符合所述零均值分布的取值,并计算所述取值分布函数与狄拉克分布之间的统计距离,直到所述统计距离与所述隐私预算值的差值在预设范围内时,将最后一次为所述第三参数选择的取值,作为所述第三参数的取值。
一种可选的实施方式中,处理模块603,具体用于:
将所述目标历史数据中各个数据输入确定了所述目标参数的值的所述隐私处理模型,得到各个数据在所述非线性函数下的取值;
将各个数据在所述非线性函数的取值与对应数据本身进行求和处理,得到各个数据的处理后数据。
一种可选的实施方式中,确定模块601,具体用于:
根据预设的各个数据范围,将所述目标历史数据划分到对应每个数据范围的数据组中;其中所述各个数据范围对应的范围长度相同;
针对各个数据组,计算每个数据组中的各个数据在所述隐私处理模型对应的目标函数下的取值;所述目标函数为所述正弦函数中去除所述第三参数后的函数部分;
基于该数据组中的数据个数,以及所述目标历史数据的总数据个数,确定该数据组对应的数据占比;
基于各个数据组对应的所述数据占比,确定各个数据组中的所述各个数据在目标函数下的取值的概率分布;
基于所述概率分布,得到所述目标函数对应的第一概率密度函数;以及,基于所述第三参数所符合的零均值分布,得到所述第三参数对应的第二概率密度函数;
基于所述第一概率密度函数和所述第二概率密度函数,确定所述取值分布函数。
一种可选的实施方式中,确定模块601,具体用于:
基于各个数据组中的数据范围,确定与各个数据组分别对应的符合所述零均值分布的第二概率密度子函数;
将各个数据组分别对应的第二概率密度子函数进行组合,得到所述第三参数对应的第二概率密度函数。
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
基于同一技术构思,本公开实施例还提供了一种计算机设备。参照图7所示,为本公开实施例提供的计算机设备700的结构示意图,包括处理器701、存储器702、和总线703。其中,存储器702用于存储执行指令,包括内存7021和外部存储器7022;这里的内存7021也称内存储器,用于暂时存放处理器701中的运算数据,以及与硬盘等外部存储器7022交换的数据,处理器701通过内存7021与外部存储器7022进行数据交换,当计算机设备700运行时,处理器701与存储器702之间通过总线703通信,使得处理器701在执行以下指令:
响应针对目标历史数据的查看请求,确定所述目标历史数据中各个数据在隐私处理模型下的取值对应的取值分布函数;所述隐私处理模型中包含可配置的目标参数;
基于预设的隐私预算值,计算使得所述取值分布函数与狄拉克分布之间统计距离与所述隐私预算值的差值在预设范围内时,所述隐私处理模型中所述目标参数的值;
基于确定了所述目标参数的值的所述隐私处理模型,对所述目标历史数据进行处理,得到处理后数据;所述处理后数据对应的统计特征与处理前的所述目标历史数据的统计特征一致;
将所述处理后数据发送给数据接收端。本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的数据处理方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
本公开实施例还提供一种计算机程序产品,该计算机产品承载有程序代码,所述程序代码包括的指令可用于执行上述方法实施例中所述的数据处理方法的步骤,具体可参见上述方法实施例,在此不再赘述。
其中,上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
响应针对目标历史数据的查看请求,确定所述目标历史数据中各个数据在隐私处理模型下的取值对应的取值分布函数;所述隐私处理模型中包含可配置的目标参数;
基于预设的隐私预算值,计算使得所述取值分布函数与狄拉克分布之间统计距离与所述隐私预算值的差值在预设范围内时,所述隐私处理模型中所述目标参数的值;
基于确定了所述目标参数的值的所述隐私处理模型,对所述目标历史数据进行处理,得到处理后数据;所述处理后数据对应的统计特征与处理前的所述目标历史数据的统计特征一致;
将所述处理后数据发送给数据接收端。
2.根据权利要求1所述的方法,其特征在于,所述隐私处理模型采用非线性函数;所述非线性函数包括正弦函数;所述目标参数包括表征所述正弦函数的周期值的第一参数、表征所述正弦函数的偏移值的第二参数以及表征所述正弦函数的幅度值的第三参数;
在所述确定所述目标历史数据中各个数据在隐私处理模型下的取值对应的取值分布函数之前,所述方法还包括:
在随机分布中为所述第一参数和所述第二参数分别进行随机赋值,所述隐私处理模型包括随机赋值后的第一参数、随机赋值后的第二参数以及未赋值的第三参数。
3.根据权利要求2所述的方法,其特征在于,所述第三参数符合零均值分布,所述取值分布函数为概率密度函数。
4.根据权利要求3所述的方法,其特征在于,所述基于预设的隐私预算值,计算使得所述取值分布函数与狄拉克分布之间的统计距离与所述隐私预算值的差值在预设范围内时,所述隐私处理模型中所述目标参数的值,包括:
循环执行:针对所述目标历史数据中的每个数据,为所述第三参数选择符合所述零均值分布的取值,并计算所述取值分布函数与狄拉克分布之间的统计距离,直到所述统计距离与所述隐私预算值的差值在预设范围内时,将最后一次为所述第三参数选择的取值,作为所述第三参数的取值。
5.根据权利要求1所述的方法,其特征在于,所述基于确定了所述目标参数的值的所述隐私处理模型,对所述目标历史数据进行处理,得到处理后数据,包括:
将所述目标历史数据中各个数据输入确定了所述目标参数的值的所述隐私处理模型,得到各个数据在非线性函数下的取值;
将各个数据在所述非线性函数的取值与对应数据本身进行求和处理,得到各个数据的处理后数据。
6.根据权利要求3所述的方法,其特征在于,所述确定所述目标历史数据中各个数据在隐私处理模型下的取值对应的取值分布函数,包括:
根据预设的各个数据范围,将所述目标历史数据划分到对应每个数据范围的数据组中;其中所述各个数据范围对应的范围长度相同;
针对各个数据组,计算每个数据组中的各个数据在所述隐私处理模型对应的目标函数下的取值;所述目标函数为所述正弦函数中去除所述第三参数后的函数部分;
基于该数据组中的数据个数,以及所述目标历史数据的总数据个数,确定该数据组对应的数据占比;
基于各个数据组对应的所述数据占比,确定各个数据组中的所述各个数据在目标函数下的取值的概率分布;
基于所述概率分布,得到所述目标函数对应的第一概率密度函数;以及,基于所述第三参数所符合的零均值分布,得到所述第三参数对应的第二概率密度函数;
基于所述第一概率密度函数和所述第二概率密度函数,确定所述取值分布函数。
7.根据权利要求6所述的方法,其特征在于,所述基于所述第三参数所符合的零均值分布,得到所述第三参数对应的第二概率密度函数,包括:
基于各个数据组中的数据范围,确定与各个数据组分别对应的符合所述零均值分布的第二概率密度子函数;
将各个数据组分别对应的第二概率密度子函数进行组合,得到所述第三参数对应的第二概率密度函数。
8.一种数据处理装置,其特征在于,包括:
确定模块,用于响应针对目标历史数据的查看请求,确定所述目标历史数据中各个数据在隐私处理模型下的取值对应的取值分布函数;所述隐私处理模型中包含可配置的目标参数;
计算模块,用于基于预设的隐私预算值,计算使得所述取值分布函数与狄拉克分布之间统计距离与所述隐私预算值的差值在预设范围内时,所述隐私处理模型中所述目标参数的值;
处理模块,用于基于确定了所述目标参数的值的所述隐私处理模型,对所述目标历史数据进行处理,得到处理后数据;所述处理后数据对应的统计特征与处理前的所述目标历史数据的统计特征一致;
发送模块,用于将所述处理后数据发送给数据接收端。
9.一种计算机设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一项所述的数据处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任一项所述的数据处理方法的步骤。
CN202111397312.7A 2021-11-23 2021-11-23 一种数据处理方法、装置、计算机设备及存储介质 Active CN114090656B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111397312.7A CN114090656B (zh) 2021-11-23 2021-11-23 一种数据处理方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111397312.7A CN114090656B (zh) 2021-11-23 2021-11-23 一种数据处理方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN114090656A CN114090656A (zh) 2022-02-25
CN114090656B true CN114090656B (zh) 2023-05-26

Family

ID=80303637

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111397312.7A Active CN114090656B (zh) 2021-11-23 2021-11-23 一种数据处理方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN114090656B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107302521A (zh) * 2017-05-23 2017-10-27 全球能源互联网研究院 一种用户隐私数据的发送方法和接收方法
CN107368752A (zh) * 2017-07-25 2017-11-21 北京工商大学 一种基于生成式对抗网络的深度差分隐私保护方法
CN108959961A (zh) * 2018-06-26 2018-12-07 安徽大学 一种查询平均成绩的隐私保护方法、装置、计算机设备及存储介质
CN110826089A (zh) * 2019-12-12 2020-02-21 四川大学 一种实现大尺度矩阵乘法安全高效的可验证外包计算方法、客户端及云计算系统
CA3108956A1 (en) * 2020-02-11 2021-04-22 LeapYear Technologies, Inc. Adaptive differentially private count
CN112989411A (zh) * 2021-03-15 2021-06-18 Oppo广东移动通信有限公司 隐私预算计算方法、装置、存储介质以及终端

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107689950B (zh) * 2017-06-23 2019-01-29 平安科技(深圳)有限公司 数据发布方法、装置、服务器和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107302521A (zh) * 2017-05-23 2017-10-27 全球能源互联网研究院 一种用户隐私数据的发送方法和接收方法
CN107368752A (zh) * 2017-07-25 2017-11-21 北京工商大学 一种基于生成式对抗网络的深度差分隐私保护方法
CN108959961A (zh) * 2018-06-26 2018-12-07 安徽大学 一种查询平均成绩的隐私保护方法、装置、计算机设备及存储介质
CN110826089A (zh) * 2019-12-12 2020-02-21 四川大学 一种实现大尺度矩阵乘法安全高效的可验证外包计算方法、客户端及云计算系统
CA3108956A1 (en) * 2020-02-11 2021-04-22 LeapYear Technologies, Inc. Adaptive differentially private count
CN112989411A (zh) * 2021-03-15 2021-06-18 Oppo广东移动通信有限公司 隐私预算计算方法、装置、存储介质以及终端

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
差异化隐私预算分配的线性回归分析算法;郑剑;邹鸿珍;;计算机应用与软件(03);全文 *

Also Published As

Publication number Publication date
CN114090656A (zh) 2022-02-25

Similar Documents

Publication Publication Date Title
US20210258236A1 (en) Systems and methods for social graph data analytics to determine connectivity within a community
US10187277B2 (en) Scoring using distributed database with encrypted communications for credit-granting and identification verification
US11562830B2 (en) Merchant evaluation method and system
Florêncio et al. Password Portfolios and the {Finite-Effort} User: Sustainably Managing Large Numbers of Accounts
CN110414567B (zh) 数据处理方法、装置和电子设备
CN109063966B (zh) 风险账户的识别方法和装置
CN109726580B (zh) 一种数据统计方法和装置
AU2019232799A1 (en) Service processing method and apparatus
CN110427969B (zh) 数据处理方法、装置和电子设备
CN109118053B (zh) 一种盗卡风险交易的识别方法和装置
CN108959961B (zh) 一种查询平均成绩的隐私保护方法
CN108847931A (zh) 基于生物识别结果的区块链密钥生成方法及装置
CN111126623A (zh) 一种模型更新方法、装置及设备
CN111062594A (zh) 一种供应商运营能力的评估方法、装置和电子设备
CN108053214A (zh) 一种虚假交易的识别方法和装置
CN114090656B (zh) 一种数据处理方法、装置、计算机设备及存储介质
CN113569199A (zh) 抽奖数据处理方法、系统、装置及可读存储介质
US11475322B2 (en) Methods of explaining an individual predictions made by predictive processes and/or predictive models
CN112165383A (zh) 基于共享根密钥的加密方法、装置、设备及介质
CN109191140B (zh) 一种评分卡模型整合方法及装置
CN106215417A (zh) 服务器及礼包分配装置与方法
US20070150437A1 (en) Protection against timing and resource consumption attacks
WO2021218660A1 (zh) 信息统计
CN113055178B (zh) 区块链系统及数值信息传输方法、系统、装置、介质
CN116225373A (zh) 一种数据处理方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Applicant after: Tiktok vision (Beijing) Co.,Ltd.

Address before: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Applicant before: BEIJING BYTEDANCE NETWORK TECHNOLOGY Co.,Ltd.

Address after: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Applicant after: Douyin Vision Co.,Ltd.

Address before: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Applicant before: Tiktok vision (Beijing) Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant