CN110443060B - 一种数据处理方法和装置 - Google Patents

一种数据处理方法和装置 Download PDF

Info

Publication number
CN110443060B
CN110443060B CN201810413389.0A CN201810413389A CN110443060B CN 110443060 B CN110443060 B CN 110443060B CN 201810413389 A CN201810413389 A CN 201810413389A CN 110443060 B CN110443060 B CN 110443060B
Authority
CN
China
Prior art keywords
matrix
data
differential privacy
random
data processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810413389.0A
Other languages
English (en)
Other versions
CN110443060A (zh
Inventor
李梁
周俊
李小龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Advanced New Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced New Technologies Co Ltd filed Critical Advanced New Technologies Co Ltd
Priority to CN201810413389.0A priority Critical patent/CN110443060B/zh
Publication of CN110443060A publication Critical patent/CN110443060A/zh
Application granted granted Critical
Publication of CN110443060B publication Critical patent/CN110443060B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)

Abstract

本说明书实施例公开了一种数据处理方法和装置,所述方法在数据处理服务器端执行,包括:获取将用于处理所述多个原始数据矩阵的差分隐私算法的差分隐私参数;相对于所述多个原始数据矩阵生成投影矩阵;从每个数据提供服务器端接收加密数据矩阵,其中,所述加密数据矩阵通过对对应的原始数据矩阵施加使用所述投影矩阵的差分隐私算法获得;以及将从每个数据提供服务器端接收的加密数据矩阵集合到一起,以用于整体学习。

Description

一种数据处理方法和装置
技术领域
本说明书实施例涉及互联网技术领域,更具体地,涉及一种数据处理方法和装置。
背景技术
在互联网大数据建模分析需求下,如何保护用户的隐私是非常重要的问题。在该背景下,差分隐私技术得到越来越多的应用。差分隐私是一种对数据隐私安全性的形式化定义,其保证在对全部数据进行建模分析的同时并不泄露个体单条数据的信息。差分隐私是大数据建模分析需求之下对于个体隐私安全性的最合理保证。目前,差分隐私技术一般用于保护单个用户群体的隐私安全。在一种数据处理场景中,需要通过统一的方式对来自多个数据提供方的数据分别进行差分隐私处理,从而使得可以在将其处理过的数据集合在一起统一建模,并且同时还保护各方用户群体的用户隐私。因此,需要一种更有效的数据处理方案,以满足上述需求。
发明内容
本说明书实施例旨在提供一种更有效的数据处理方案,以解决现有技术中的不足。
为实现上述目的,本说明书一个方面提供一种数据处理方法,所述方法在数据处理服务器端执行,所述方法针对分别来自多个数据提供服务器端的多个原始数据矩阵,每个所述原始数据矩阵限定第一维度空间的多个点,其中,所述多个点的个数对应于多个向量的向量数,所述每个向量包括分别对应于多个特征的多个特征值,所述第一维度空间的维度数为所述多个特征的特征数,所述方法包括:获取将用于处理所述多个原始数据矩阵的差分隐私算法的差分隐私参数;相对于所述多个原始数据矩阵生成投影矩阵,所述投影矩阵用于:将每个所述原始数据矩阵限定的第一维度空间的多个点投影为第二维度空间的分别对应的点,并且使得,所述第二维度空间中的任意两点之间的欧氏距离与所述第一维度空间中对应两点之间的欧氏距离的比值在一定范围内,其中,基于所述第一维度空间的维度数和所述差分隐私参数确定所述第二维度空间的维度数;从每个数据提供服务器端接收加密数据矩阵,其中,所述加密数据矩阵通过对对应的原始数据矩阵施加使用所述投影矩阵的差分隐私算法获得;以及将从每个数据提供服务器端接收的加密数据矩阵集合到一起,以用于整体学习。
在一个实施例中,在所述数据处理方法中,所述差分隐私算法包括以下步骤:获取所述原始数据矩阵;将所述原始数据矩阵与所述投影矩阵相乘,以获取中间数据矩阵;基于所述原始数据矩阵、所述投影矩阵和所述差分隐私算法涉及的差分隐私参数,获取扰动矩阵;以及将所述中间数据矩阵与所述扰动矩阵相加,从而获取加密数据矩阵。
在一个实施例中,在所述数据处理方法中,所述扰动矩阵的每个矩阵元分别独立地从期望值为0的随机变量随机获得,其中,所述随机变量满足的分布的参数与所述差分隐私参数相关,其中,所述扰动矩阵的行数基于原始数据矩阵的行数而确定,所述扰动矩阵的列数基于所述投影矩阵的列数而确定。
在一个实施例中,在所述数据处理方法中,所述随机变量满足拉普拉斯分布或高斯分布。
在一个实施例中,在所述数据处理方法中,所述差分隐私算法为(ε,δ)-差分隐私算法,所述(ε,δ)-差分隐私算法涉及差分隐私参数ε和δ。在一个实施例中,所述参数ε和δ满足:
ε<ln(1/δ),
其中,所述原始数据矩阵为n行d列矩阵,所述投影矩阵为d行k列的矩阵,则所述扰动矩阵为n行k列矩阵,其中,所述投影矩阵的每个矩阵元分别独立地从满足期望值为0、方差为1/k的高斯分布的随机变量随机获得,其中,
k>2(lnd+ln(2/δ))
以及,所述扰动矩阵的每个矩阵元分别独立地从满足期望值为0、方差为σ2的高斯分布随机获得,其中,所述σ满足:
Figure BDA0001648698710000031
在一个实施例中,在所述数据处理方法中,所述投影矩阵从随机矩阵随机获得,所述随机矩阵的每个矩阵元为随机变量,各个所述随机变量相互独立且具有相同分布,其中所述随机矩阵满足:所述随机矩阵的转置与所述随机矩阵的乘积的期望值为单位矩阵。
在一个实施例中,在所述数据处理方法中,所述第二维度空间为k维空间,所述随机变量满足期望值为0、方差为1/k的高斯分布。
在一个实施例中,在所述数据处理方法中,所述第二维度空间为k维空间,所述随机变量满足在
Figure BDA0001648698710000032
上的均匀分布。
在一个实施例中,在所述数据处理方法中,所述第二维度空间为k维空间,所述随机变量满足分别以
Figure BDA0001648698710000033
的概率取值/>
Figure BDA0001648698710000034
0、/>
Figure BDA0001648698710000035
的分布。
本说明书另一方面提供一种数据处理装置,所述装置在数据处理服务器端实施,所述装置用于分别来自多个数据提供服务器端的多个原始数据矩阵,每个所述原始数据矩阵限定第一维度空间的多个点,其中,所述多个点的个数对应于多个向量的向量数,所述每个向量包括分别对应于多个特征的多个特征值,所述第一维度空间的维度数为所述多个特征的特征数,所述装置包括:获取单元,配置为,获取将用于处理所述多个原始数据矩阵的差分隐私算法的差分隐私参数;生成单元,配置为,相对于所述多个原始数据矩阵生成投影矩阵,所述投影矩阵用于:将所述原始数据矩阵限定的第一维度空间的多个点投影为第二维度空间的分别对应的点,并且使得,所述第二维度空间中的任意两点之间的欧氏距离与所述第一维度空间中对应两点之间的欧氏距离的比值在一定范围内,其中,基于所述第一维度空间的维度数和所述差分隐私参数确定所述第二维度空间的维度数;接收单元,配置为,从每个数据提供服务器端接收加密数据矩阵,其中,所述加密数据矩阵通过对对应的原始数据矩阵施加使用所述投影矩阵的差分隐私算法获得;以及学习单元,配置为,将从每个数据提供服务器端接收的加密数据矩阵集合到一起,以用于整体学习。
在一个实施例中,所述数据处理装置还包括差分隐私单元,所述差分隐私单元用于执行所述差分隐私算法,包括以下子单元:获取子单元,配置为,获取所述原始数据矩阵;相乘子单元,配置为,将所述原始数据矩阵与所述投影矩阵相乘,以获取中间数据矩阵;获取子单元,配置为,基于所述原始数据矩阵、所述投影矩阵和所述差分隐私算法涉及的差分隐私参数,获取扰动矩阵;以及相加子单元,配置为,将所述中间数据矩阵与所述扰动矩阵相加,从而获取加密数据矩阵。
通过根据本说明书实施例的数据处理方案,基于Johnson-Lindenstrauss引理的数据有效性;基于差分隐私的数据保护,用差分隐私的严格数学概念来刻画和衡量原始数据的隐私安全性;通过在差分隐私算法中引入随机扰动矩阵,从而保证了投影矩阵对于所有数据提供方以及数据处理方公开的情况下还能保护数据隐私;另外,精确量化差分隐私参数与加密算法参数之间的关系,进而可以从严格意义上阐明差分隐私算法关于隐私保密的程度。
附图说明
通过结合附图描述本说明书实施例,可以使得本说明书实施例更加清楚:
图1示出了根据本说明书实施例的数据处理方法的应用场景;
图2示出了根据本说明书实施例的数据处理方法;
图3示出了根据本说明书实施例的差分隐私算法的流程图;
图4示意示出了图3步骤S31中的过程;
图5示出了差分隐私参数∈,δ和随机扰动参数σ之间的关系;
图6示出了图3步骤S33中的过程;
图7示意示出了差分隐私算法A(X)的全部过程;以及
图8示出了一种数据处理装置800。
具体实施方式
下面将结合附图描述本说明书实施例。
图1示出了根据本说明书实施例的数据处理方法的应用场景。该场景中包括多个数据提供方11和单个数据处理方12。所述数据提供方例如为购物网站、社交APP等,每个数据提供方都拥有自己的用户群体以及该用户群体的特征数据。所述数据处理方12通常具有大数据处理能力,其例如为蚂蚁金服。多个数据提供方11同时向数据处理方12提供经加密的其用户的特征数据,以使得数据处理方12可对全部数据提供方11的数据进行整体建模与分析。在该场景中,通过使用差分隐私技术,使得在保障数据可用性的同时保护用户隐私。
首先,数据处理方12的服务器端生成向全部所述数据提供方11提供的统一的投影矩阵,并将其发送给每个所述数据提供方11,所述投影矩阵为满足J-L引理(Johnson-Lindenstrauss引理)的随机获得的投影矩阵。每个数据提供方11在其服务器端接收到投影矩阵之后,将其与原始数据矩阵相乘,以获得中间数据矩阵,然后,将中间数据矩阵与扰动矩阵相加,从而获得加密数据矩阵,并将该加密数据矩阵发送给数据处理方12,以用于整体建模。通过以上述方法对各个数据提供方的原始数据进行处理,由于对各方原始数据使用相同的投影矩阵,也即,将各方的原始数据投影到了相同的空间中,从而可对各方的数据进行整体建模。同时,投影矩阵的特性保障了用户特征的相对不变性,而其中的差分隐私标准保障了对用户隐私的保护。
图2示出了根据本说明书实施例的数据处理方法。所述方法在数据处理服务器端执行,所述方法用于分别来自多个数据提供服务器端的多个原始数据矩阵,每个所述原始数据矩阵限定第一维度空间的多个点,其中,所述多个点的个数对应于多个向量的向量数,所述每个向量包括分别对应于多个特征的多个特征值,所述第一维度空间的维度数为所述多个特征的特征数。所述方法包括:在步骤S21,获取将用于处理所述多个原始数据矩阵的差分隐私算法的差分隐私参数;在步骤S22,相对于所述多个原始数据矩阵生成投影矩阵,所述投影矩阵用于:将所述原始数据矩阵限定的第一维度空间的多个点投影为第二维度空间的分别对应的点,并且使得,所述第二维度空间中的任意两点之间的欧氏距离与所述第一维度空间中对应两点之间的欧氏距离的比值在一定范围内,其中,基于所述第一维度空间的维度数和所述差分隐私算法的参数确定所述第二维度空间的维度数;在步骤S23,从每个数据提供服务器端接收加密数据矩阵,其中,所述加密数据矩阵通过对对应的原始数据矩阵施加使用所述投影矩阵的差分隐私算法获得;以及,在步骤S24,将从每个数据提供服务器端接收的加密数据矩阵集合到一起,以用于整体学习。
首先,在步骤S21,获取将用于处理所述多个原始数据矩阵的差分隐私算法的差分隐私参数。所述差分隐私算法可根据具体场景需求选取各种差分隐私算法,如(ε,δ)-差分隐私算法、ε-差分隐私算法、随机差分隐私算法等等。可相应地获取各个差分隐私算法的参数。例如,对于(ε,δ)-差分隐私算法A(X),即,对于所有满足只在一个用户特征上有差异的输入X和X’,以及所有可能的输出
Figure BDA0001648698710000061
都有如下公式(1)所示条件成立:
Figure BDA0001648698710000062
其中,ε量化了单条数据记录的特征被隐私泄露的可能性的最大相对误差;δ量化了全体记录中可能被隐私泄露的的记录所占百分比。ε和δ的值越小,则隐私安全性越高。可根据具体的应用场景确定ε和δ的值。例如,在原始数据矩阵表示n个用户的多个特征值的场景中,可将ε取值为小于Ln(10)的量级,将δ取值为小于0.1的量级。在一个实施例中,所述差分隐私参数ε和δ满足如下公式(2):
ε<ln(1/δ) (2)。
在步骤S22,相对于所述多个原始数据矩阵生成投影矩阵,所述投影矩阵用于:将所述原始数据矩阵限定的第一维度空间的多个点投影为第二维度空间的分别对应的点,并且使得,所述第二维度空间中的任意两点之间的欧氏距离与所述第一维度空间中对应两点之间的欧氏距离的比值在一定范围内,其中,基于所述第一维度空间的维度数和所述差分隐私算法的参数确定所述第二维度空间的维度数。
例如,数据提供服务器端包括的原始数据矩阵为n行d列的矩阵V,其中n例如代表用户数,其数量为百万量级、千万量级等。d例如为每个用户的特征数,例如,当数据提供方为购物网站时,每个用户包括的特征例如包括性别、年龄、住址、购买商品种类、购买商品价格、购物时段等等,其数量为千量级、万量级等。所述矩阵V的每个矩阵元Vij代表第i个用户的第j个特征的特征值,其中1≤i≤n,1≤j≤d。原始数据矩阵V可以理解为限定d维空间的n个点。可以理解,所述n不限定为用户数,其例如可以为数据记录的条数,图形中的行数等,d不限定为用户的特征数,其例如可以为数据记录的维度、图形中的列数等。另外,原始数据矩阵也不限定为n行d列的矩阵,其例如可以为d行n列的矩阵。
数据处理服务器端相对于各个数据提供方的各个原始数据矩阵V生成投影矩阵P。该投影矩阵P为d行k列的矩阵。其中,基于d和差分隐私算法的参数确定k。例如,差分隐私算法为(ε,δ)-差分隐私算法,在一个实施例中,可根据如下公式(3)确定k的取值:
k>2(lnd+ln(2/δ)) (3)。
可以理解,这里,差分隐私算法不限于(ε,δ)-差分隐私算法,例如,其也可以为ε-差分隐私算法等,在该情况下,可基于ε和d确定k的取值,在此不再赘述。
将投影矩阵P与原始数据矩阵V右乘,可获得n行k列的中间数据矩阵,该过程可理解为,将d维空间的n个点投影为k维空间的n个点。可以理解,投影矩阵不限定与原始数据矩阵V右乘,例如,当原始矩阵V为d行n列的矩阵时,投影矩阵可以为k行d列的矩阵,通过将该投影矩阵与原始数据矩阵V左乘,可获得k行n列的中间数据矩阵,该过程可同样地理解为将d维空间的n个点投影为k维空间的n个点。
所述投影矩阵P满足J-L引理,即,投影矩阵P将d维空间的n个点投影为k维空间的n个点之后,两个空间中的对应点满足下面的公式(4):
Figure BDA0001648698710000081
其中λJL为预定的较小实数,例如0<λJL<0.1,其中,x和y为d维空间的两个点,
Figure BDA0001648698710000082
为d维空间中点x与点y之间的欧式距离的平方。xP和yP为经过投影矩阵投影到k维空间中的与d维空间中的点x和点y分别对应的两个点。/>
Figure BDA0001648698710000083
为k维空间中点xP与点yP之间的欧式距离的平方。由上述公式(4)可得,点x与点y之间的欧式距离与点xP与点yP之间的欧式距离相差1±λJL的因子。从而,点x与点y之间的欧式距离与点xP与点yP之间的欧式距离的比值在一定范围内。而由于λJL值较小,例如λJL=0.05,从而,可认为点xP与点yP之间的欧式距离相比于点x与点y之间的欧式距离近似不变。通过生成满足J-L引理的投影矩阵P,并使用投影矩阵P将d维空间中的多个点投影为k维空间中的多个点,可以通过投影矩阵P对d维空间中的多个点进行加密,同时,由于J-L引理对数据有效性的保证,从而可以通过学习k维空间中的多个点来得出针对d维空间中的多个点的分析结果。在一个实施例中,k<d,从而通过投影矩阵P对d维空间中的多个点进行了降维处理,从而减小了计算复杂度。
在一个实施例中,所述满足J-L引理的投影矩阵P可以是满足PT*P=I的实矩阵,即P为正交矩阵,其中I为单位矩阵,其为方阵,并且,其从左上角到右下角的对角线上的元素均为1,除此以外全都为0。例如,当n=3,k=3时,即P为3×3的矩阵,P可以为如下所示的正交矩阵:
Figure BDA0001648698710000091
当通过该正交矩阵将d维空间(例如d=5)的3个点(例如表示3个用户的特征向量的点)投影到k=3维空间的3个点时,例如,将该正交矩阵与原始数据矩阵(3×5矩阵)右乘,可以保证k维空间中3个点两两之间的距离与d维空间中对应两点之间的距离基本不变,即满足J-L引理。然而,由于采用该任意获得的实矩阵作为投影矩阵P,投影矩阵P本身没有任何随机性,因此,对于差分隐私算法(将在下文详细说明)的安全性级别没有贡献。这里,投影矩阵不限定为方阵,例如,P也可以为3×2的矩阵等等,只要其满足PT*P=I即可。
在一个实施例中,所述满足J-L引理的投影矩阵P可从随机矩阵Q随机获得,所述随机矩阵Q的各个矩阵元分别为相互独立且具有相同分布的各个随机变量。其中所述随机矩阵满足:所述随机矩阵的转置与所述随机矩阵的乘积的期望值为单位矩阵,即E(QT*Q)=I。例如,随机矩阵Q可以为如下所示的由随机变量fij(x)(i=1,2,3,j=1,2,3)组成的矩阵:
Figure BDA0001648698710000092
其中每个fij(x)为独立同分布的随机变量,并且E(QT*Q)=I。当计算投影矩阵P时,对于每个fij(x),独立地获取在预定范围内的x的随机值,例如,在[0,1]内的随机值,然后通过fij(x)函数计算fij(x)的值,从而获得投影矩阵P的每个矩阵元。这里随机矩阵Q不限定为方阵,例如,Q也可以为3×2的矩阵等等,只要其满足E(QT*Q)=I即可。通过从随机矩阵Q随机获得投影矩阵P,通过获取投影矩阵P的随机性进一步提高了差分隐私算法的安全性级别。
在一个实施例中,作为上述随机矩阵Q的实例,对于k维第二维度空间,fij(x)满足期望值为0、方差为1/k的高斯分布。即,fij(x)~N(0,1/k),即,fij(x)为高斯累积概率分布函数的逆函数,x取值范围为[0,1],表示fij(x)的各个值的高斯累积分布概率(从-∞到该值的概率积分)。当计算投影矩阵P时,对于每个fij(x),独立地获取[0,1]内的随机值作为x的值,然后通过fij(x)的表达式计算fij(x)的值,从而获得投影矩阵P的每个矩阵元。
在一个实施例中,作为上述随机矩阵Q的实例,对于k维第二维度空间,fij(x)满足在
Figure BDA0001648698710000101
上的均匀分布。可同样地根据该变量的概率分布获取其累积概率分布函数的逆函数,即,fij(x)关于x的表达式,其中x取值范围为[0,1],表示fij(x)的各个值的累积分布概率。通过对于每个fij(x),独立地获取[0,1]上的随机值作为x的值,并且通过fij(x)的表达式计算fij(x)的值,从而,可同样地获取投影矩阵P的每个矩阵元。
在一个实施例中,作为上述随机矩阵Q的实例,对于k维第二维度空间,所述第二维度空间为k维空间,fij(x)满足分别以
Figure BDA0001648698710000102
的概率取值/>
Figure BDA0001648698710000103
0、/>
Figure BDA0001648698710000104
的分布。这里,fij(x)为离散型随机变量,可参考上述内容同样地获取投影矩阵的每个矩阵元。
在步骤S23,从每个数据提供服务器端接收加密数据矩阵,其中,所述加密数据矩阵通过对对应的原始数据矩阵施加使用所述投影矩阵的差分隐私算法获得。其中,所述每个数据提供服务器端从所述数据处理服务器端获取上述投影矩阵。例如,数据处理服务器端可以将所述投影矩阵P发送给每个数据提供服务器端,或者,数据处理服务器端可以在特定地址公开所述投影矩阵P。在根据本说明书实施例的方法中,公开投影矩阵P并不会造成对用户隐私的不利影响。
图3示出了根据本说明书实施例的差分隐私算法的流程图。在一个实施例中,所述差分隐私算法由数据提供方服务器端在获取上述投影矩阵之后执行,可以理解,所述差分隐私算法不限于在数据提供方服务器端执行,例如,其可以在第三方服务器端执行,或者在数据处理方服务器端执行。所述差分隐私算法包括以下步骤:
在步骤S31,获取所述原始数据矩阵。例如,在数据提供方服务器端执行该差分隐私算法的情况中,数据提供方服务器端预存有n行d列的矩阵V,从而获取所述预存的矩阵V作为原始数据矩阵。在另一个实施例中,数据提供方服务器端根据数据处理服务器端的查询请求,从存储的用户数据中随机选取n个用户的d个特征的数据,形成n行d列的矩阵V,以作为原始数据矩阵。
在步骤S32,将所述原始数据矩阵与所述投影矩阵相乘,以获取中间数据矩阵。图4示意示出了该步骤中的过程,如图4所示,n行d列的原始数据矩阵与d行k列的投影矩阵相乘,从而获得n行k列的中间数据矩阵V’。如上文中所述,投影矩阵相对于每个数据提供方和数据处理方是公开的,因此,中间数据矩阵V’不能用作最终的学习数据,还需要对其进行后续的加密处理。
在步骤S33,基于所述原始数据矩阵、所述投影矩阵和所述差分隐私算法的参数,获取扰动矩阵。
在一个实施例中,所述扰动矩阵的每个矩阵元分别独立地从期望值为0的随机变量随机获得,其中,所述随机变量满足的分布的参数与所述差分隐私参数相关。该随机变量满足的分布的参数即限定该随机变量的随机性的参数,例如拉普拉斯分布中的λ、高斯分布中的σ等等。可公式证明,这些与随机性相关的参数与差分隐私算法的与差分隐私安全性的参数(例如ε和δ)相关,从而,可通过调节扰动矩阵中随机变量的随机性,来调整差分隐私算法的安全性。在一个实施例中,所述随机变量满足拉普拉斯分布或高斯分布。当然,这里的随机变量不限于这两种分布,其例如可以是其它期望值为0的函数分布,或者,可以期望值为0的均匀分布、离散分布等等。
另外,基于原始数据矩阵V的行数n确定所述扰动矩阵Δ的行数为n,基于所述投影矩阵P的列数k确定所述扰动矩阵Δ的列数为k。
在一个具体实例中,所述差分隐私算法为(ε,δ)-差分隐私算法,其包括的差分隐私参数ε和δ满足前述公式(2),即:ε<ln(1/δ)。
其中,所述投影矩阵的每个矩阵元分别独立地从满足期望值为0、方差为1/k的高斯分布的随机变量随机获得,其具体获取过程可参考对图2步骤S21中获取高斯分布的随机变量的描述,在此不再赘述。其中,k满足前述公式(3),即:k>2(lnd+ln(2/δ))。
以及,所述扰动矩阵的每个矩阵元分别独立地从满足期望值为0、方差为σ2的高斯分布随机获得,其中,所述σ满足如下公式(5):
Figure BDA0001648698710000121
其中,差分隐私参数ε和δ用于量化算法A在特定数据集上的隐私安全性,其值越小,代表算法A对隐私安全性的保护越好。差分隐私算法可以直观地理解为,如果仅仅知道算法A处理后得到的数据,攻击者很难获取特定用户的制定特征。
根据上述公式(5)可见,可根据实际应用中对隐私安全性的要求来调整σ,即,根据参数ε和δ调整σ。通过对随机扰动参数σ的调整,可以严格量化算法方案的差分隐私安全性,给出规范合理的安全性保证,并且,在保证特定隐私安全性要求的前提下,与随机掩蔽矩阵结合的随机扰动方案可以利用掩蔽矩阵的随机性大幅度减少扰动的不确定性影响,另外,随机扰动的加入可以根据业务需要将掩蔽矩阵公开化,同时保证隐私安全性。
图5示出了差分隐私参数∈,δ和随机扰动参数σ之间的关系。三条曲线分别代表了不同σ值之下可行的(∈,δ)值对。从图5可见,参数σ越小,即,数据的扰动噪声越小,数据的可用性越强,但是,ε和δ越大,即数据的隐私性越差。
上述实例只是为了具体说明扰动矩阵的获取,所述差分隐私算法不限于是(ε,δ)-差分隐私算法,例如,其可以是ε-差分隐私算法、随机差分隐私算法等等。在其它差分隐私算法中,同样地,可基于原始数据矩阵、投影矩阵和差分隐私算法的差分隐私参数(例如ε),来获取扰动矩阵,在此不再赘述。另外,所述扰动矩阵并不限于拉普拉斯扰动矩阵或高斯扰动矩阵,例如,其可以从其它期望值为0的随机矩阵随机获得。所述投影矩阵也不限于高斯随机矩阵,其可以为如上所述的各种其它随机投影矩阵。
在步骤S34,将所述中间数据矩阵与所述扰动矩阵相加,从而获取加密数据矩阵。图6示出了该步骤中的过程。通过将n行k列的中间数据矩阵V’与n行k列的扰动矩阵Δ相加,从而获得n行k列的加密数据矩阵D。
图7示意示出了差分隐私算法A(X)的全部过程。如图7所示,A(V)=V*P+Δ=D,通过满足上述公式(3)-(5),使得算法A(X)满足(ε,δ)-差分隐私,保护了用户的隐私,同时,P的满足J-L引理的特性保证了加密数据矩阵D的数据可用性。
再回到图2,在步骤S24,将从每个数据提供服务器端接收的加密数据矩阵集合到一起,以用于整体学习。由于如前文所述,每个数据提供服务器端使用相同的投影矩阵P对其原始数据矩阵进行投影,也就是说,将每个原始数据矩阵V投影到了相同的k维空间,从而可将从每个数据提供服务器端接收的加密数据矩阵D集合到一起,用于整体学习,即对其整体建模并分析。
图8示出了一种数据处理装置800,所述装置在数据处理服务器端实施,所述装置用于分别来自多个数据提供服务器端的多个原始数据矩阵,每个所述原始数据矩阵限定第一维度空间的多个点,其中,所述多个点的个数对应于多个向量的向量数,所述每个向量包括分别对应于多个特征的多个特征值,所述第一维度空间的维度数为所述多个特征的特征数。所述装置800包括:获取单元81,配置为,获取将用于处理所述多个原始数据矩阵的差分隐私算法的差分隐私参数;生成单元82,配置为,相对于多个数据提供服务器端生成投影矩阵,每个数据提供服务器端包括各自的原始数据矩阵,每个所述原始数据矩阵限定第一维度空间的多个点,所述投影矩阵用于:将所述原始数据矩阵限定的第一维度空间的多个点投影为第二维度空间的分别对应的点,并且使得,所述第二维度空间中的任意两点之间的欧氏距离与所述第一维度空间中对应两点之间的欧氏距离的比值在一定范围内;接收单元83,配置为,从每个数据提供服务器端接收加密数据矩阵,其中,所述加密数据矩阵通过对对应的原始数据矩阵施加使用所述投影矩阵的差分隐私算法获得;以及学习单元84,配置为,将从每个数据提供服务器端接收的加密数据矩阵集合到一起,以用于整体学习。
在一个实施例中,所述数据处理装置还包括差分隐私单元85,所述差分隐私单元用于执行所述差分隐私算法,包括以下子单元:第一获取子单元851,配置为,获取所述原始数据矩阵;相乘子单元852,配置为,将所述原始数据矩阵与所述投影矩阵相乘,以获取中间数据矩阵;第二获取子单元853,配置为,基于所述原始数据矩阵、所述投影矩阵和所述差分隐私算法涉及的差分隐私参数,获取扰动矩阵;以及相加子单元854,配置为,将所述中间数据矩阵与所述扰动矩阵相加,从而获取加密数据矩阵。
通过根据本说明书实施例的数据处理方案,基于Johnson-Lindenstrauss引理的数据有效性;基于差分隐私的数据保护,用差分隐私的严格数学概念来刻画和衡量原始数据的隐私安全性;通过在差分隐私算法中引入随机扰动矩阵,从而保证了投影矩阵对于所有数据提供方以及数据处理方公开的情况下还能保护数据隐私;另外,精确量化差分隐私参数与加密算法参数之间的关系,进而可以从严格意义上阐明差分隐私算法关于隐私保密的程度。
本领域普通技术人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执轨道,取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执轨道的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (18)

1.一种数据处理方法,所述方法在数据处理服务器端执行,所述方法用于分别来自多个数据提供服务器端的多个原始数据矩阵,每个所述原始数据矩阵限定第一维度空间的多个点,其中,所述多个点的个数对应于多个向量的向量数,每个向量包括分别对应于多个特征的多个特征值,所述第一维度空间的维度数为所述多个特征的特征数,所述方法包括:
获取将用于处理所述多个原始数据矩阵的差分隐私算法的差分隐私参数;
相对于所述多个原始数据矩阵生成投影矩阵,所述投影矩阵用于:将每个所述原始数据矩阵限定的第一维度空间的多个点投影为第二维度空间的分别对应的点,并且使得,所述第二维度空间中的任意两点之间的欧氏距离与所述第一维度空间中对应两点之间的欧氏距离的比值在一定范围内,其中,所述第二维度空间的维度数基于所述第一维度空间的维度数和所述差分隐私参数而确定;
从每个数据提供服务器端接收加密数据矩阵,其中,所述加密数据矩阵通过对对应的原始数据矩阵施加使用所述投影矩阵的差分隐私算法获得,具体包括:获取所述原始数据矩阵;将所述原始数据矩阵与所述投影矩阵相乘,以获取中间数据矩阵;基于所述原始数据矩阵、所述投影矩阵和所述差分隐私参数,获取扰动矩阵;以及将所述中间数据矩阵与所述扰动矩阵相加,从而获取加密数据矩阵;以及
将从每个数据提供服务器端接收的加密数据矩阵集合到一起,以用于整体学习。
2.根据权利要求1所述的数据处理方法,其中所述扰动矩阵的每个矩阵元分别独立地从期望值为0的随机变量随机获得,其中,所述随机变量满足的分布的参数与所述差分隐私参数相关,其中,所述扰动矩阵的行数基于原始数据矩阵的行数而确定,所述扰动矩阵的列数基于所述投影矩阵的列数而确定。
3.根据权利要求2所述的数据处理方法,其中,所述随机变量满足拉普拉斯分布或高斯分布。
4.根据权利要求2所述的数据处理方法,所述差分隐私算法为(ε,δ)-差分隐私算法,所述(ε,δ)-差分隐私算法包括差分隐私参数ε和δ。
5.根据权利要求4所述的数据处理方法,其中所述参数ε和δ满足:
ε<ln(1/δ),
其中,所述原始数据矩阵为n行d列矩阵,所述投影矩阵为d行k列的矩阵,则所述扰动矩阵为n行k列矩阵,其中,所述投影矩阵的每个矩阵元分别独立地从满足期望值为0、方差为1/k的高斯分布的随机变量随机获得,其中,
k>2(lnd+ln(2/δ))
以及,所述扰动矩阵的每个矩阵元分别独立地从满足期望值为0、方差为σ2的高斯分布的随机变量随机获得,其中,所述σ满足:
Figure FDA0004103486250000021
6.根据权利要求1所述的数据处理方法,其中,所述投影矩阵从随机矩阵随机获得,所述随机矩阵的每个矩阵元为随机变量,各个所述随机变量相互独立且具有相同分布,其中所述随机矩阵满足:所述随机矩阵的转置与所述随机矩阵的乘积的期望值为单位矩阵。
7.根据权利要求6所述的数据处理方法,其中,所述第二维度空间为k维空间,所述随机变量满足期望值为0、方差为1/k的高斯分布。
8.根据权利要求6所述的数据处理方法,其中,所述第二维度空间为k维空间,所述随机变量满足在
Figure FDA0004103486250000022
上的均匀分布。
9.根据权利要求6所述的数据处理方法,其中,所述第二维度空间为k维空间,所述随机变量满足分别以
Figure FDA0004103486250000023
的概率取值/>
Figure FDA0004103486250000024
0、/>
Figure FDA0004103486250000025
的分布。
10.一种数据处理装置,所述装置在数据处理服务器端实施,所述装置用于分别来自多个数据提供服务器端的多个原始数据矩阵,每个所述原始数据矩阵限定第一维度空间的多个点,其中,所述多个点的个数对应于多个向量的向量数,每个向量包括分别对应于多个特征的多个特征值,所述第一维度空间的维度数为所述多个特征的特征数,所述装置包括:
获取单元,配置为,获取将用于处理所述多个原始数据矩阵的差分隐私算法的差分隐私参数;
生成单元,配置为,相对于所述多个原始数据矩阵生成投影矩阵,所述投影矩阵用于:将所述原始数据矩阵限定的第一维度空间的多个点投影为第二维度空间的分别对应的点,并且使得,所述第二维度空间中的任意两点之间的欧氏距离与所述第一维度空间中对应两点之间的欧氏距离的比值在一定范围内,其中,所述第二维度空间的维度数基于所述第一维度空间的维度数和所述差分隐私参数而确定;
接收单元,配置为,从每个数据提供服务器端接收加密数据矩阵,其中,所述加密数据矩阵通过对对应的原始数据矩阵施加使用所述投影矩阵的所述差分隐私算法获得;以及
学习单元,配置为,将从每个数据提供服务器端接收的加密数据矩阵集合到一起,以用于整体学习;
差分隐私单元,用于执行所述差分隐私算法,所述差分隐私单元包括以下子单元:
获取子单元,配置为,获取所述原始数据矩阵;
相乘子单元,配置为,将所述原始数据矩阵与所述投影矩阵相乘,以获取中间数据矩阵;
获取子单元,配置为,基于所述原始数据矩阵、所述投影矩阵和所述差分隐私参数,获取扰动矩阵;以及
相加子单元,配置为,将所述中间数据矩阵与所述扰动矩阵相加,从而获取加密数据矩阵。
11.根据权利要求10所述的数据处理装置,其中所述扰动矩阵的每个矩阵元分别独立地从期望值为0的随机变量随机获得,其中,所述随机变量满足的分布的参数与所述差分隐私参数相关,其中,所述扰动矩阵的行数基于原始数据矩阵的行数而确定,所述扰动矩阵的列数基于所述投影矩阵的列数而确定。
12.根据权利要求11所述的数据处理装置,其中,所述随机变量满足拉普拉斯分布或高斯分布。
13.根据权利要求11所述的数据处理装置,所述差分隐私算法为(ε,δ)-差分隐私算法,所述(ε,δ)-差分隐私算法包括差分隐私参数ε和δ。
14.根据权利要求13所述的数据处理装置,其中所述参数ε和δ满足:
ε<ln(1/δ),
其中,所述原始数据矩阵为n行d列矩阵,所述投影矩阵为d行k列的矩阵,则所述扰动矩阵为n行k列矩阵,其中,所述投影矩阵的每个矩阵元分别独立地从满足期望值为0、方差为1/k的高斯分布的随机变量随机获得,其中,
k>2(lnd+ln(2/δ))
以及,所述扰动矩阵的每个矩阵元分别独立地从满足期望值为0、方差为σ2的高斯分布随机获得,其中,所述σ满足:
Figure FDA0004103486250000041
15.根据权利要求10所述的数据处理装置,其中,所述投影矩阵从随机矩阵随机获得,所述随机矩阵的每个矩阵元为随机变量,各个所述随机变量相互独立且具有相同分布,其中所述随机矩阵满足:所述随机矩阵的转置与所述随机矩阵的乘积的期望值为单位矩阵。
16.根据权利要求15所述的数据处理装置,其中,所述第二维度空间为k维空间,所述随机变量满足期望值为0、方差为1/k的高斯分布。
17.根据权利要求15所述的数据处理装置,其中,所述第二维度空间为k维空间,所述随机变量满足在
Figure FDA0004103486250000051
上的均匀分布。
18.根据权利要求15所述的数据处理装置,其中,所述第二维度空间为k维空间,所述随机变量满足分别以
Figure FDA0004103486250000052
的概率取值/>
Figure FDA0004103486250000053
0、/>
Figure FDA0004103486250000054
的分布。
CN201810413389.0A 2018-05-03 2018-05-03 一种数据处理方法和装置 Active CN110443060B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810413389.0A CN110443060B (zh) 2018-05-03 2018-05-03 一种数据处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810413389.0A CN110443060B (zh) 2018-05-03 2018-05-03 一种数据处理方法和装置

Publications (2)

Publication Number Publication Date
CN110443060A CN110443060A (zh) 2019-11-12
CN110443060B true CN110443060B (zh) 2023-06-20

Family

ID=68427609

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810413389.0A Active CN110443060B (zh) 2018-05-03 2018-05-03 一种数据处理方法和装置

Country Status (1)

Country Link
CN (1) CN110443060B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107392049A (zh) * 2017-07-26 2017-11-24 安徽大学 一种基于差分隐私保护的推荐方法
CN107493268A (zh) * 2017-07-27 2017-12-19 华中科技大学 一种基于前位置矢量的差分隐私保护方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9916472B2 (en) * 2015-07-22 2018-03-13 International Business Machines Corporation Obfuscation and protection of data rights

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107392049A (zh) * 2017-07-26 2017-11-24 安徽大学 一种基于差分隐私保护的推荐方法
CN107493268A (zh) * 2017-07-27 2017-12-19 华中科技大学 一种基于前位置矢量的差分隐私保护方法

Also Published As

Publication number Publication date
CN110443060A (zh) 2019-11-12

Similar Documents

Publication Publication Date Title
US10044762B2 (en) Copula optimization method and apparatus for identifying and detecting threats to an enterprise or e-commerce system and other applications
Ma et al. A highly accurate prediction algorithm for unknown web service QoS values
Zhu et al. A privacy-preserving QoS prediction framework for web service recommendation
US9691035B1 (en) Real-time updates to item recommendation models based on matrix factorization
Zhang et al. Using singular value decomposition approximation for collaborative filtering
Wang et al. A system framework of security management in enterprise systems
Zheng et al. Privacy-preserving image denoising from external cloud databases
CN107169499B (zh) 一种风险识别方法及装置
Barni et al. SEMBA: secure multi‐biometric authentication
Yakut et al. Privacy-preserving SVD-based collaborative filtering on partitioned data
CN110443061B (zh) 一种数据加密方法和装置
Kaleli et al. Privacy-preserving SOM-based recommendations on horizontally distributed data
Singh et al. Privacy-preserving serverless computing using federated learning for smart grids
Sun et al. A survey on federated recommendation systems
Cogranne et al. Detecting botclouds at large scale: A decentralized and robust detection method for multi-tenant virtualized environments
Lin et al. Computing the diffusion state distance on graphs via algebraic multigrid and random projections
Gade et al. Evaluation of multi criteria decision making methods for potential use in application security
Zheng et al. A matrix factorization recommendation system-based local differential privacy for protecting users’ sensitive data
Baldé et al. Reader reaction to “Outcome‐adaptive lasso: Variable selection for causal inference” by Shortreed and Ertefaie (2017)
WO2022048107A1 (zh) 一种电商平台卖家用户销售额多维统计分析系统及方法
CN111784337A (zh) 权限验证方法及系统
Zheng et al. Cryptography-inspired federated learning for generative adversarial networks and meta learning
CN111783108A (zh) 数据查询和计算方法及系统、及存储介质
CN110443060B (zh) 一种数据处理方法和装置
Bandoh et al. Distributed secure sparse modeling based on random unitary transform

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40016959

Country of ref document: HK

TA01 Transfer of patent application right

Effective date of registration: 20201022

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20201022

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant