CN109063502B - 数据加密、数据分析方法和装置 - Google Patents

数据加密、数据分析方法和装置 Download PDF

Info

Publication number
CN109063502B
CN109063502B CN201810917149.4A CN201810917149A CN109063502B CN 109063502 B CN109063502 B CN 109063502B CN 201810917149 A CN201810917149 A CN 201810917149A CN 109063502 B CN109063502 B CN 109063502B
Authority
CN
China
Prior art keywords
data
original data
original
interval
random
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810917149.4A
Other languages
English (en)
Other versions
CN109063502A (zh
Inventor
李梁
周俊
李小龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Advanced New Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced New Technologies Co Ltd filed Critical Advanced New Technologies Co Ltd
Priority to CN201810917149.4A priority Critical patent/CN109063502B/zh
Publication of CN109063502A publication Critical patent/CN109063502A/zh
Application granted granted Critical
Publication of CN109063502B publication Critical patent/CN109063502B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/06Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols the encryption apparatus using shift registers or memories for block-wise or stream coding, e.g. DES systems or RC4; Hash functions; Pseudorandom sequence generators
    • H04L9/0643Hash functions, e.g. MD5, SHA, HMAC or f9 MAC
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/08Key distribution or management, e.g. generation, sharing or updating, of cryptographic keys or passwords
    • H04L9/0861Generation of secret information including derivation or calculation of cryptographic keys or passwords
    • H04L9/0869Generation of secret information including derivation or calculation of cryptographic keys or passwords involving random numbers or seeds

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Power Engineering (AREA)
  • Storage Device Security (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供一种数据加密方法和装置、以及数据分析方法和装置,所述数据加密方法在数据提供方执行,包括:获取原始数据;通过随机算法将所述原始数据转换为中间数据,所述中间数据取值为多个离散数值中的一个数值,其中,所述随机算法使得所述中间数据的期望值与所述原始数据相对应,其中,所述多个离散数值为位数相同的二进制数值;以及对所述中间数据的每一位进行0与1之间的随机翻转,从而获取所述原始数据的加密数据,其中,所述随机翻转满足差分隐私。

Description

数据加密、数据分析方法和装置
技术领域
本说明书实施例涉及互联网技术领域,更具体地,涉及一种数据加密方法和装置、以及一种数据分析方法和装置。
背景技术
在互联网大数据建模分析需求下,如何保护用户的隐私是非常重要的问题。例如,互联网公司会采集用户设备的遥测数据并对其进行分析,这将提高用户的体验,然而,这也可能泄漏用户的隐私。在该背景下,差分隐私技术得到越来越多的应用。差分隐私是一种对数据隐私安全性的形式化定义,其保证在对全部数据进行建模分析的同时并不泄露个体单条数据的信息。在已有的成熟差分隐私算法中,服务器端首先收集用户的原始数据,然后通过对原始数据加入扰动,以实现差分隐私。然而,大部分用户并不信任服务器端,不希望将自己的原始数据直接上传。在该情况中,互联网公司使用一种本地差分隐私算法来采集数据,使得在用户设备在对原始数据进行加密之后再上传,从而保护用户隐私。一些现有的本地差分隐私算法通常对单次的遥测采集较有效,一些现有的本地差分隐私算法对采集的数据的变化形式有较高的要求。
因此,需要一种更有效的数据加密方案和数据分析方案。
发明内容
本说明书实施例旨在提供一种更有效的数据加密方案和数据分析方案,以解决现有技术中的不足。
为实现上述目的,本说明书一个方面提供一种数据加密方法,所述方法在数据提供方执行,包括:
获取原始数据;
通过随机算法将所述原始数据转换为中间数据,所述中间数据取值为多个离散数值中的一个数值,其中,所述随机算法使得所述中间数据的期望值与所述原始数据相对应,其中,所述多个离散数值为位数相同的二进制数值;以及
对所述中间数据的每一位进行0与1之间的随机翻转,从而获取所述原始数据的加密数据,其中,所述随机翻转满足差分隐私。
在一个实施例中,在所述数据加密方法中,所述多个离散数值包括:00、01、10和11。
在一个实施例中,在所述数据加密方法中,所述随机算法通过基于所述原始数据的随机变量实现。
在一个实施例中,在所述数据加密方法中,所述随机算法通过随机选取用于所述原始数据的散列函数而实现。
在一个实施例中,在所述数据加密方法中,所述多个离散数值与所述原始数据的取值范围中的多个端点分别对应,所述多个端点将所述原始数据的取值范围划分为至少一个区间,其中,所述原始数据落入区间[a,b]中,所述随机算法包括,基于所述原始数据在所述区间[a,b]中的位置,确定将所述原始数据转换为与端点a或b对应的离散数值的概率。
在一个实施例中,在所述数据加密方法中,所述多个离散数值与所述原始数据的取值范围中的多个端点分别对应,所述多个端点将所述原始数据的取值范围划分为至少一个区间,其中,所述原始数据落入区间[a,b]中,所述随机算法包括,基于所述原始数据在所述区间[a,b]中的位置,确定选取用于将所述原始数据转换为与端点a或b对应的离散数值的散列函数的概率。
在一个实施例中,在所述数据加密方法中,所述差分隐私为∈差分隐私,其中,对所述中间数据的每一位进行0与1之间的随机翻转包括,以概率1/(e+1)对所述中间数据的每一位进行0与1之间的随机翻转。
本说明书另一方面提供一种数据分析方法,所述方法在数据需求方执行,包括:
从多个数据提供方分别接收多个加密数据,其中,所述多个加密数据分别由各个数据提供方通过上述任一项数据加密方法基于各自的原始数据获取,其中,所述原始数据为第一变量的取值;以及
基于所述多个加密数据,获取所述第一变量的相关信息的无偏估计。
在一个实施例中,在所述数据分析方法中,所述相关信息包括以下任一种:均值、方差、直方图、概率密度。
在一个实施例中,在所述数据分析方法中,所述无偏估计的偏差幅度通过无偏估计参数限定。
本说明书另一方面提供一种数据加密装置,所述装置在数据提供方实施,包括:
获取单元,配置为,获取原始数据;
转换单元,配置为,通过随机算法将所述原始数据转换为中间数据,所述中间数据取值为多个离散数值中的一个数值,其中,所述随机算法使得所述中间数据的期望值与所述原始数据相对应,其中,所述多个离散数值为位数相同的二进制数值;以及
翻转单元,配置为,对所述中间数据的每一位进行0与1之间的随机翻转,从而获取所述原始数据的加密数据,其中,所述随机翻转满足差分隐私。
在一个实施例中,在所述数据加密装置中,所述多个离散数值包括:00、01、10和11。
在一个实施例中,在所述数据加密装置中,所述随机算法通过基于所述原始数据的随机变量实现。
在一个实施例中,在所述数据加密装置中,所述随机算法通过随机选取用于所述原始数据的散列函数而实现。
在一个实施例中,在所述数据加密装置中,所述多个离散数值与所述原始数据的取值范围中的多个端点分别对应,所述多个端点将所述原始数据的取值范围划分为至少一个区间,其中,所述原始数据落入区间[a,b]中,所述随机算法包括,基于所述原始数据在所述区间[a,b]中的位置,确定将所述原始数据转换为与端点a或b对应的离散数值的概率。
在一个实施例中,在所述数据加密装置中,所述多个离散数值与所述原始数据的取值范围中的多个端点分别对应,所述多个端点将所述原始数据的取值范围划分为至少一个区间,其中,所述原始数据落入区间[a,b]中,所述随机算法包括,基于所述原始数据在所述区间[a,b]中的位置,确定选取用于将所述原始数据转换为与端点a或b对应的离散数值的散列函数的概率。
在一个实施例中,在所述数据加密装置中,所述差分隐私为∈差分隐私,其中,对所述中间数据的每一位进行0与1之间的随机翻转包括,以概率1/(e+1)对所述中间数据的每一位进行0与1之间的随机翻转。
本说明书另一方面提供一种数据分析装置,所述装置在数据需求方实施,包括:
接收单元,配置为,从多个数据提供方分别接收多个加密数据,其中,所述多个加密数据分别由各个数据提供方通过上述任一种数据加密装置基于各自的原始数据获取,其中,所述原始数据为第一变量的取值;以及
获取单元,配置为,基于所述多个加密数据,获取所述第一变量的相关信息的无偏估计。
在一个实施例中,在所述数据分析装置中,所述相关信息包括以下任一种:均值、方差、直方图、概率密度。
在一个实施例中,在所述数据分析装置中,所述无偏估计的偏差幅度通过无偏估计参数限定。
本说明书另一方面提供一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现上述任一项数据加密方法和数据分析方法。
通过根据本说明书实施例的数据加密方案和数据分析方案,通过本地差分隐私对数据提供方的安全性进行量化,通过无偏估计参数对数据需求方输出的宏观统计指标给出量化保证,另外,通过结合隐私安全参数和无偏估计参数,平衡整体算法框架的安全性和准确性。
附图说明
通过结合附图描述本说明书实施例,可以使得本说明书实施例更加清楚:
图1示出了根据本说明书实施例的数据处理系统100的示意图;
图2示出了根据本说明书实施例的一种数据加密方法的流程图;
图3示意示出了图2所示的方法流程;
图4示出根据本说明书实施例的一种数据分析方法的流程图;
图5示出了图4所示的方法流程的示意图;
图6示出根据本说明书实施例的一种数据加密装置600;以及
图7示出根据本说明书实施例的一种数据分析装置700。
具体实施方式
下面将结合附图描述本说明书实施例。
图1示出了根据本说明书实施例的数据处理系统100的示意图。如图1所示,系统100包括多个用户设备11和服务器12。多个用户设备11分别为数据提供方,其中包括各自的对应于第一变量的原始数据(即,第一变量的取值)x1,x2,…,xn。数据提供方希望原始数据得到保护。服务器12为数据需求方,其希望基于原始数据对上述第一变量的相关信息(宏观指标)进行分析和整合。在根据本说明书实施例的数据处理过程中,在用户设备11端,通过加密算法将原始数据x1,x2,…,xn转换为上传数据Q1,Q2,…,Qn,并将上传数据上传给服务器12,其中,所述加密算法为差分隐私算法。在服务器12端,基于上传数据Q1,Q2,…,Qn,基于无偏估计算法,获取第一变量的宏观指标的无偏估计。从而,在用户设备11端通过差分隐私算法实现了对自身的数据的保护,而在数据分析端通过无偏估计算法获取了宏观指标的接近真实值的无偏估计值。从而平衡了数据提供方与数据需求方双方的需求。
图2示出了根据本说明书实施例的一种数据加密方法的流程图。所述方法在数据提供方执行,包括:
在步骤S202,获取原始数据;
在步骤S204,通过随机算法将所述原始数据转换为中间数据,所述中间数据取值为多个离散数值中的一个数值,其中,所述随机算法使得所述中间数据的期望值与所述原始数据相对应,其中,所述多个离散数值为位数相同的二进制数值;以及
在步骤S206,对所述中间数据的每一位进行0与1之间的随机翻转,从而获取所述原始数据的加密数据,其中,所述随机翻转满足差分隐私。
首先,在步骤S202,获取原始数据。
如上所述,该方法在数据提供方执行,该数据提供方可以为拥有数据的计算机、服务器、用户智能设备(如手机、平板电脑等)等。而该数据提供方的加密方法由于其对计算能力的要求不高,尤其适用于例如手机等的用户设备。下文中将以用户设备作为示例进行说明。
例如,该方法可通过用户设备中的特定APP中执行,例如支付宝APP等等。所述第一变量例如为用户对设备的使用情况,例如,用户每天使用APP的次数、用户每天使用APP的时间等,或者,所述第一变量例如为用户的私人信息,如,用户在APP中的存款余额、用户通过APP进行的交易的金额等等。在APP中,例如可在每天预定时间,通过日志信息获取例如用户每天使用APP的次数,或者,可在用户进行相应操作(例如进行交易)之后,获取相应的交易信息(例如,交易金额)。或者,该方法可通过用户设备的操作系统执行,如ios系统、安卓系统等。例如,用户设备的系统可获取用户使用各个APP的次数等。
在步骤S204,通过随机算法将所述原始数据转换为中间数据,所述中间数据取值为多个离散数值中的一个数值,其中,所述随机算法使得所述中间数据的期望值与所述原始数据相对应,其中,所述多个离散数值为位数相同的二进制数值。
在一个实施例中,所述随机算法通过基于原始数据的随机变量实现。例如,假定原始数据的值为[0,m]区间范围内的实数值x,即
Figure BDA0001763325660000073
所述中间数据可以通过如公式(1)所示的随机变量y获取:
Figure BDA0001763325660000071
其中P1、P2表示y分别取1和0的概率。如公式(1)所示,通过x在范围0到m中的位置确定y取1或0的概率P1和P2。根据公式(1)可证明,随机变量y的期望值为
Figure BDA0001763325660000072
即,经过上述公式(1)的转换后,将原始数据转换为离散的0或1(中间数据),并且该随机变量的期望值(也即中间数据的期望值)与原始数据x成正比。
在一个实施例中,上述随机变量y的取值为多个离散数值,该多个离散数值为位数相同的二进制数,其例如为00、01、10和11。所述多个离散数值与所述原始数据的取值范围中的多个端点分别对应。例如原始数据的取值范围为[0,100],则00、01、10和11分别对应于0、25、75和100,其中0、25、75和100将原始数据的取值范围划分为等长的三个区间。例如,当原始数据落入区间[a,b]中时,如公式(1)类似地,所述随机算法包括,基于所述原始数据在所述区间[a,b]中的位置,确定将所述原始数据转换为与端点a或b对应的离散数值的概率。例如,当原始数据x=5时,其落入区间[0,25]中,从而,其对应如下面公式(2)所示的随机变量:
Figure BDA0001763325660000081
在一个实施例中,所述随机算法通过随机选取用于所述原始数据的散列函数而实现。例如,与公式(1)对应地,可以以概率
Figure BDA0001763325660000082
选取散列函数y=1,以函数
Figure BDA0001763325660000083
选取散列函数y=0,从而实现与公式(1)相同的效果。
类似地,当将原始数据随机离散至多个离散数值的情况中,当原始数据落入区间[a,b]中时,所述随机算法包括,基于所述原始数据在所述区间[a,b]中的位置,确定选取用于将所述原始数据转换为与端点a或b对应的离散数值的散列函数的概率。例如,当原始数据x=5时,其落入区间[0,25]中,所述随机算法包括,以概率
Figure BDA0001763325660000084
选取散列函数y=01,以概率
Figure BDA0001763325660000085
选取散列函数y=00。这里,只是以简单的示例进行说明,在实际中,可根据具体领域设置不同的散列函数,以实现对原始数据的随机离散化。
在将原始数据随机离散到00,01,10,11四个离散数值的实例中,00,01,10,11对应的四个端点0、25、75和100将原始数据的取值范围平均划分为三个等长的区间。然而,本说明书实施例不限于此。例如,可根据样本的稀疏稠密程度,将原始数据的取值范围划分为不等长的多个区间,在样本较稠密的范围,将此处的区间划分为较短,在样本较稀疏的范围,将此处的区间划分为较长,并且可将多个离散数值之间的间隔设置为与划分的区间长度相对应。通过这样设置,可同样地通过到各个离散数值的随机算法,使得算法输出值的期望值与原始数据相对应。
在步骤S206,对所述中间数据的每一位进行0与1之间的随机翻转,从而获取所述原始数据的加密数据,其中,所述随机翻转满足差分隐私。
在一个实施例中,上述差分隐私为∈差分隐私,其中,对所述中间数据的每一位进行0与1之间的随机翻转包括,以概率1/(e+1)进行对所述中间数据的每一位进行0与1之间的随机翻转。也就是说,对于中间数据的每一位中的0或1,以概率1/(e+1)翻转为1或0,以1-1/(e+1)的概率保持原样。可以证明,通过这样的翻转算法A,可满足如公式(3)所示的∈差分隐私:
Pr[A(v)∈S]≤e·Pr[A(v′)∈S] (3)
其中,ν为通过上述步骤S204中的随机离散化获取的离散数值,假设离散数值的取值空间为V,则随机算法A用于将ν从空间V映射到Z空间,其中S为Z空间中的任意子空间。其中∈为差分隐私参数,差分隐私参数∈给出了隐私安全性的量化指标,∈的值越小,隐私安全性越好。从公式(3)可得,通过随机翻转算法对ν、ν’进行转换,输出的A(ν)和A(ν’)是不可区分的,服务器端(即数据需求方)很难从A(ν)推导出其对应的原始数据。这里,由于在从设备发送原始数据之前,就对原始数据进行了上述两层随机化(随机离散化和随机翻转),因此服务器永远不会看到或接收到原始数据,因此,该差分隐私还可以称为本地差分隐私,或局部差分隐私。
所述差分隐私不限于∈差分隐私,其例如还可以是∈,δ-差分隐私等。可根据相应差分隐私的参数,确定进行比特位翻转的概率。
在上述对图2的描述中,作为示例,原始数据具有数值的形式。然而,本说明书实施例不限于此,例如,原始数据还可以具有向量的形式。在原始数据为向量的情况中,可以对该向量的每个分量值使用图2所示的方法,从而获取与每个分量值对应的加密数据,这些加密数据构成了上传的加密向量。
图3示意示出了图2所示的方法流程。其中圆角矩形框表示数据,六角形框表示算法,i表示第i个用户设备(预设有n个用户设备,即数据提供方)。如图3所示,在用户设备,首先对原始数据Xi进行随机离散化,从而将其转化为中间数据Yi。然后,以一定概率对中间数据Yi进行随机翻转,从而获取上传数据Qi(即,加密数据)。
图4示出根据本说明书实施例的一种数据分析方法的流程图。所述方法在数据需求方进行,包括:
在步骤S402,从多个数据提供方分别接收多个加密数据,其中,所述多个加密数据分别由各个数据提供方通过图2所示的方法基于各自的原始数据获取,其中,所述原始数据为第一变量的取值;以及
在步骤S404,基于所述多个加密数据,获取所述第一变量的相关信息的无偏估计。
该方法在数据需求方进行,数据需求方例如为特定APP的服务器端、操作系统的服务器端、可执行大规模计算的计算平台等。如图1所示,通过在服务器端从各个用户设备接收与原始数据对应的加密数据Qi,从而可以基于所述多个的加密数据Qi对原始数据对应的第一变量的宏观指标进行分析和整合。所述宏观指标包括以下任一种:均值、方差、直方图和概率密度。具体是,可基于所述多个的加密数据Qi,获取所述第一变量的宏观指标的无偏估计。
无偏估计是用样本统计量来估计总体参数时的一种无偏推断。当估计量的数学期望等于被估计参数的真实值时,则称此估计量为被估计参数的无偏估计,即具有无偏性。例如,样本总体的均值的无偏估计如公式(4)所示:
Figure BDA0001763325660000101
样本总体的方差的无偏估计如公式(5)所示:
Figure BDA0001763325660000102
在上述公式(4)和(5)中,Xi为n个独立采样的样本中的一个,
Figure BDA0001763325660000103
为n个样本的样本均值。
从而,通过结合宏观指标(如均值、方差等)的无偏估计公式和上述随机离散化算法和随机翻转算法,可获得对宏观指标的无偏估计值。
在一个实施例中,预设n个用户设备用于提供数据,其上传的加密数据为{Qi}i∈[n],如上文所述,原始数据的取值范围在[0,m]之间,对于原始数据Xi,首先将Xi随机离散化到0或1(Yi),然后以概率1/(e+1)对Yi进行随机翻转,从而获得Qi。从而,在该情况中,通过将上述随机离散算法和算计翻转算法结合到公式(4)中,如公式(6)所示,可获得与原始数据对应的总体(第一变量)的均值μ的无偏估计值
Figure BDA0001763325660000111
Figure BDA0001763325660000112
其中,该无偏估计以概率1-δ满足如下公式(7):
Figure BDA0001763325660000113
其中,δ为无偏估计参数,其限定了无偏估计的偏差幅度,量化了无偏估计的准确性。其中,公式(7)通过关于均值的集中不等式(Concentration inequality)获得。由公式(7)可见,无偏估计的准确性与差分隐私参数∈和无偏估计参数同时相关,从而,可通过公式(7)量化地均衡差分隐私安全性和物品估计的准确性。
在上述将原始数据随机离散化至多个离散数值(例如00,01,10,11)的情况中,可类似地通过结合特定宏观指标的无偏估计公式和随机离散化算法和随机翻转算法,从而获取所述特定宏观指标的无偏估计值,并同时获取相应的无偏估计参数。
在上文中使用δ作为无偏估计参数的示例,然而,在本说明书实施例中,无偏估计参数不限于此,而是可以包括任何可衡量无偏估计浮动程度的量化指标,如方差、熵、互信息等信息论中衡量随机化程度的量。
图5示出了图4所示的方法流程的示意图。如图5所示,在数据需求方(例如服务器端)接收n个上传数据Qi,并对该n个上传数据Qi使用无偏估计算法,以估计原始数据对应的第一变量的宏观指标。
图6示出根据本说明书实施例的一种数据加密装置600。所述装置600在数据提供方实施,包括:
获取单元61,配置为,获取原始数据;
转换单元62,配置为,通过随机算法将所述原始数据转换为中间数据,所述中间数据取值为多个离散数值中的一个数值,其中,所述随机算法使得所述中间数据的期望值与所述原始数据相对应,其中,所述多个离散数值为位数相同的二进制数值;以及
翻转单元63,配置为,对所述中间数据的每一位进行0与1之间的随机翻转,从而获取所述原始数据的加密数据,其中,所述随机翻转满足差分隐私。
在一个实施例中,在所述数据加密装置中,所述多个离散数值包括:00、01、10和11。
在一个实施例中,在所述数据加密装置中,所述随机算法通过基于所述原始数据的随机变量实现。
在一个实施例中,在所述数据加密装置中,所述随机算法通过随机选取用于所述原始数据的散列函数而实现。
在一个实施例中,在所述数据加密装置中,所述多个离散数值与所述原始数据的取值范围中的多个端点分别对应,所述多个端点将所述原始数据的取值范围划分为至少一个区间,其中,所述原始数据落入区间[a,b]中,所述随机算法包括,基于所述原始数据在所述区间[a,b]中的位置,确定将所述原始数据转换为与端点a或b对应的离散数值的概率。
在一个实施例中,在所述数据加密装置中,所述多个离散数值与所述原始数据的取值范围中的多个端点分别对应,所述多个端点将所述原始数据的取值范围划分为至少一个区间,其中,所述原始数据落入区间[a,b]中,所述随机算法包括,基于所述原始数据在所述区间[a,b]中的位置,确定选取用于将所述原始数据转换为与端点a或b对应的离散数值的散列函数的概率。
在一个实施例中,在所述数据加密装置中,所述差分隐私为∈差分隐私,其中,对所述中间数据的每一位进行0与1之间的随机翻转包括,以概率1/(e+1)对所述中间数据的每一位进行0与1之间的随机翻转。
图7示出根据本说明书实施例的一种数据分析装置700。所述装置700在数据需求方实施,包括:
接收单元71,配置为,从多个数据提供方分别接收多个加密数据,其中,所述多个加密数据分别由各个数据提供方通过上述任一种数据加密装置基于各自的原始数据获取,其中,所述原始数据为第一变量的取值;以及
获取单元72,配置为,基于所述多个加密数据,获取所述第一变量的相关信息的无偏估计。
在一个实施例中,在所述数据分析装置中,所述相关信息包括以下任一种:均值、方差、直方图、概率密度。
在一个实施例中,在所述数据分析装置中,所述无偏估计的偏差幅度通过无偏估计参数限定。
本说明书另一方面提供一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现上述任一项数据加密方法和数据分析方法。
通过根据本说明书实施例的数据加密方案和数据分析方案,通过本地差分隐私对数据提供方的安全性进行量化,通过无偏估计参数对数据需求方输出的宏观统计指标给出量化保证,另外,通过结合隐私安全参数和无偏估计参数,平衡整体算法框架的安全性和准确性。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本领域普通技术人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执轨道,取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执轨道的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (21)

1.一种数据加密方法,所述方法在数据提供方执行,包括:
获取原始数据;
通过随机算法将所述原始数据转换为中间数据,其中,所述中间数据取值为多个离散数值中的一个数值,所述多个离散数值与所述原始数据的取值范围中的多个端点分别对应,所述多个端点将所述原始数据的取值范围划分为至少一个区间;其中,所述随机算法基于所述原始数据在落入的所划分的区间中的位置,使得所述中间数据的期望值与所述原始数据相对应,其中,所述多个离散数值为位数相同的二进制数值;以及
对所述中间数据的每一位进行0与1之间的随机翻转,从而获取所述原始数据的加密数据,其中,所述随机翻转满足差分隐私。
2.根据权利要求1所述的数据加密方法,其中所述多个离散数值包括:00、01、10和11。
3.根据权利要求1所述的数据加密方法,其中所述随机算法通过基于所述原始数据的随机变量实现。
4.根据权利要求1所述的数据加密方法,其中所述随机算法通过随机选取用于所述原始数据的散列函数而实现。
5.根据权利要求3所述的数据加密方法,其中,所述原始数据落入区间[a,b]中,所述随机算法包括,基于所述原始数据在所述区间[a,b]中的位置,确定将所述原始数据转换为与端点a或b对应的离散数值的概率。
6.根据权利要求4所述的数据加密方法,其中,所述原始数据落入区间[a,b]中,所述随机算法包括,基于所述原始数据在所述区间[a,b]中的位置,确定选取用于将所述原始数据转换为与端点a或b对应的离散数值的散列函数的概率。
7.根据权利要求1所述的数据加密方法,其中,所述差分隐私为∈差分隐私,其中,对所述中间数据的每一位进行0与1之间的随机翻转包括,以概率1/(e+1)对所述中间数据的每一位进行0与1之间的随机翻转。
8.一种数据分析方法,所述方法在数据需求方执行,包括:
从多个数据提供方分别接收多个加密数据,其中,所述多个加密数据分别由各个数据提供方通过权利要求1-7中任一项所述的方法基于各自的原始数据获取,其中,所述原始数据为第一变量的取值;以及
基于所述多个加密数据,获取所述第一变量的相关信息的无偏估计。
9.根据权利要求8所述的数据分析方法,其中,所述相关信息包括以下任一种:均值、方差、直方图、概率密度。
10.根据权利要求8所述的数据分析方法,其中,所述无偏估计的偏差幅度通过无偏估计参数限定。
11.一种数据加密装置,所述装置在数据提供方实施,包括:
获取单元,配置为,获取原始数据;
转换单元,配置为,通过随机算法将所述原始数据转换为中间数据,所述中间数据取值为多个离散数值中的一个数值,所述多个离散数值与所述原始数据的取值范围中的多个端点分别对应,所述多个端点将所述原始数据的取值范围划分为至少一个区间;其中,所述随机算法基于所述原始数据在落入的所划分的区间中的位置,使得所述中间数据的期望值与所述原始数据相对应,其中,所述多个离散数值为位数相同的二进制数值;以及
翻转单元,配置为,对所述中间数据的每一位进行0与1之间的随机翻转,从而获取所述原始数据的加密数据,其中,所述随机翻转满足差分隐私。
12.根据权利要求11所述的数据加密装置,其中所述多个离散数值包括:00、01、10和11。
13.根据权利要求11所述的数据加密装置,其中所述随机算法通过基于所述原始数据的随机变量实现。
14.根据权利要求11所述的数据加密装置,其中所述随机算法通过随机选取用于所述原始数据的散列函数而实现。
15.根据权利要求13所述的数据加密装置,其中,所述原始数据落入区间[a,b]中,所述随机算法包括,基于所述原始数据在所述区间[a,b]中的位置,确定将所述原始数据转换为与端点a或b对应的离散数值的概率。
16.根据权利要求14所述的数据加密装置,其中,所述原始数据落入区间[a,b]中,所述随机算法包括,基于所述原始数据在所述区间[a,b]中的位置,确定选取用于将所述原始数据转换为与端点a或b对应的离散数值的散列函数的概率。
17.根据权利要求11所述的数据加密装置,其中,所述差分隐私为∈差分隐私,其中,对所述中间数据的每一位进行0与1之间的随机翻转包括,以概率1/(e+1)对所述中间数据的每一位进行0与1之间的随机翻转。
18.一种数据分析装置,所述装置在数据需求方实施,包括:
接收单元,配置为,从多个数据提供方分别接收多个加密数据,其中,所述多个加密数据分别由各个数据提供方通过权利要求11-17中任一项所述的装置基于各自的原始数据获取,其中,所述原始数据为第一变量的取值;以及
获取单元,配置为,基于所述多个加密数据,获取所述第一变量的相关信息的无偏估计。
19.根据权利要求18所述的数据分析装置,其中,所述相关信息包括以下任一种:均值、方差、直方图、概率密度。
20.根据权利要求18所述的数据分析装置,其中,所述无偏估计的偏差幅度通过无偏估计参数限定。
21.一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-10中任一项所述的方法。
CN201810917149.4A 2018-08-13 2018-08-13 数据加密、数据分析方法和装置 Active CN109063502B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810917149.4A CN109063502B (zh) 2018-08-13 2018-08-13 数据加密、数据分析方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810917149.4A CN109063502B (zh) 2018-08-13 2018-08-13 数据加密、数据分析方法和装置

Publications (2)

Publication Number Publication Date
CN109063502A CN109063502A (zh) 2018-12-21
CN109063502B true CN109063502B (zh) 2022-03-01

Family

ID=64678185

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810917149.4A Active CN109063502B (zh) 2018-08-13 2018-08-13 数据加密、数据分析方法和装置

Country Status (1)

Country Link
CN (1) CN109063502B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110968612B (zh) * 2018-09-30 2023-07-18 华为技术有限公司 键值对数据的收集方法和装置
CN111090877B (zh) * 2019-11-21 2023-07-28 腾讯科技(深圳)有限公司 数据生成、获取方法及对应的装置、存储介质
CN111669366B (zh) * 2020-04-30 2021-04-27 南京大学 一种本地化差分隐私数据交换方法及存储介质
CN111757321B (zh) * 2020-05-26 2021-10-15 西安交通大学 一种5g系统中抗主动窃听安全传输方法
CN112288324A (zh) * 2020-11-20 2021-01-29 支付宝(杭州)信息技术有限公司 基于隐私保护的设备风险检测方法和装置
CN115834023B (zh) * 2023-02-21 2023-05-09 山东水发紫光大数据有限责任公司 一种基于大数据的数据加密方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110874488A (zh) * 2019-11-15 2020-03-10 哈尔滨工业大学(深圳) 一种基于混合差分隐私的流数据频数统计方法、装置、系统及存储介质

Also Published As

Publication number Publication date
CN109063502A (zh) 2018-12-21

Similar Documents

Publication Publication Date Title
CN109063502B (zh) 数据加密、数据分析方法和装置
Nikravesh et al. Mobile network traffic prediction using MLP, MLPWD, and SVM
CN102246165B (zh) 利用压缩梯度直方图来代表和标识特征描述符的方法和装置
CN110543901A (zh) 图像识别方法、装置及设备
WO2019137049A1 (zh) 基于信息共享的预测方法、装置、电子设备及计算机存储介质
Zhu et al. Networked multisensor decision and estimation fusion: based on advanced mathematical methods
Kachour et al. First‐order rounded integer‐valued autoregressive (RINAR (1)) process
Bordel et al. Stochastic and information theory techniques to reduce large datasets and detect cyberattacks in Ambient Intelligence Environments
CN112365001A (zh) 模型的生成方法、装置和服务器
CN112508075A (zh) 基于横向联邦的dbscan聚类方法、及其相关设备
Song et al. Compressive privacy for a linear dynamical system
CN116915442A (zh) 漏洞测试方法、装置、设备和介质
Xu et al. Efficient batch homomorphic encryption for vertically federated xgboost
CN116579775A (zh) 一种商品交易数据管理系统及方法
CN112262387A (zh) 检测装置和检测方法
Dong Application of Big Data Mining Technology in Blockchain Computing
Lin et al. Summary statistic privacy in data sharing
CN116702220A (zh) 基于加密特征分析的数据比对方法及系统
JEVTIĆ et al. Probabilistic Framework For Loss Distribution Of Smart Contract Risk
CN113177231A (zh) 基于差分隐私的用户数据匿名编码方法及装置
Saltelli et al. A new sample-based algorithms to compute the total sensitivity index
Eltved Convex Relaxation Techniques for Nonlinear Optimization
Dehay et al. On likelihood estimation for discretely observed Markov jump processes
CN111950928A (zh) 配电网降损方法、装置、存储介质及计算设备
Ramakotti et al. An analysis and implementation of a deep learning model for image steganography

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20201009

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20201009

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant