CN111444527A - 不同应用程序之间数据的相关系数确定方法、装置及介质 - Google Patents
不同应用程序之间数据的相关系数确定方法、装置及介质 Download PDFInfo
- Publication number
- CN111444527A CN111444527A CN202010235790.7A CN202010235790A CN111444527A CN 111444527 A CN111444527 A CN 111444527A CN 202010235790 A CN202010235790 A CN 202010235790A CN 111444527 A CN111444527 A CN 111444527A
- Authority
- CN
- China
- Prior art keywords
- data
- target data
- encrypted
- correlation coefficient
- application program
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 108
- 238000012545 processing Methods 0.000 claims abstract description 43
- 238000010606 normalization Methods 0.000 claims description 40
- 230000009466 transformation Effects 0.000 claims description 25
- 238000004422 calculation algorithm Methods 0.000 description 24
- 238000004364 calculation method Methods 0.000 description 20
- 230000008569 process Effects 0.000 description 19
- 230000006870 function Effects 0.000 description 13
- 230000006854 communication Effects 0.000 description 12
- 230000000875 corresponding effect Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 230000002159 abnormal effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 239000002537 cosmetic Substances 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 238000002759 z-score normalization Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000035605 chemotaxis Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种不同应用程序之间数据的相关系数确定方法、装置及介质,方法包括:第一应用程序对第一目标数据进行归一化处理后再进行同态加密,得到第一加密数据;第二应用程序根据第一加密数据对第一目标数据与第二目标数据之间相关系数进行同态运算,得到第二加密数据并发送给第一应用程序;第一应用程序对第二加密数据进行解密,得到第一目标数据与第二目标数据之间相关系数。本发明的第一应用程序与第二应用程序之间相互通信的数据为加密后的第一加密数据和第二加密数据,能够防止第三方截取相应的明文隐私数据,安全性高;另外,本发明能够保障第一应用程序和第二应用程序相互之间的数据隐私安全,可广泛应用于数据处理技术领域。
Description
技术领域
本发明涉及数据处理技术领域,尤其是一种不同应用程序之间数据的相关系数确定方法、装置及介质。
背景技术
自然界中的各种现象总是普遍联系和相互依存的,客观现象之间的数量联系,也叫相关关系。例如,人的身高和体重、某种商品的价格与需求,证券市场价格与投资者心理之间都存在一定的相关关系。相关系数就是用来说明特征变量之间在相关条件下的相关关系密切程度和方向的统计分析指标,相关系数的值在-1到1之间,若相关系数越靠近1,则代表两列特征之间的正向相关性程度越紧密;若相关系数越靠近-1,则代表两列特征之间的反向相关性程度越紧密;若相关系数越靠近0,则代表两列特征之间的相关性程度越低,相关系数是特征选取和分析的重要工具。
随着互联网的普及与发展,人们能获取的数据越来越多,数据之间的相关性分析得到了快速发展,深刻地影响着人们的决策。但是,目前的数据相关系数确定方法无法保证各个数据拥有方的数据隐私安全,例如A软件拥有一群人的年龄数据,B软件拥有同一群人的存款数据,现有的技术若要分析年龄与存款之间的相关性,则必须同时获取A软件的隐私数据和B软件的隐私数据,此时,无论是谁来进行数据分析操作,都能够看到另一方提供的数据,进而导致另一方的数据泄露,数据隐私得不到保护。
发明内容
有鉴于此,本发明实施例提供一种不同应用程序之间数据的相关系数确定方法、装置及介质,以保护各个数据提供方的数据隐私安全。
根据本发明实施例的第一方面,提供了一种不同应用程序之间数据的相关系数确定方法,所述数据包括第一目标数据和第二目标数据,所述第一目标数据存储于第一应用程序,所述第二目标数据存储于第二应用程序,包括:
对所述第一目标数据进行归一化处理后再进行同态加密,得到第一加密数据;
将所述第一加密数据发送给第二应用程序;
接收第二加密数据;所述第二加密数据由所述第二应用程序根据所述第一加密数据对所述第一目标数据与第二目标数据之间相关系数进行同态运算得到;
对所述第二加密数据进行解密,得到所述第一目标数据与所述第二目标数据之间相关系数。
根据本发明实施例的第二方面,提供了一种不同应用程序之间数据的相关系数确定方法,所述数据包括第一目标数据和第二目标数据,所述第一目标数据存储于第一应用程序,所述第二目标数据存储于第二应用程序,包括:
接收第一加密数据,所述第一加密数据由第一应用程序对第一目标数据进行归一化处理后再进行同态加密得到;
根据所述第一加密数据对所述第一目标数据与所述第二目标数据之间相关系数进行同态运算,得到第二加密数据;
将所述第二加密数据发送给所述第一应用程序,以使所述第一应用程序对所述第二加密数据进行解密,得到所述第一目标数据与所述第二目标数据之间相关系数。
根据本发明实施例的第三方面,提供了一种不同应用程序之间数据的相关系数确定方法,所述数据包括第一目标数据和第二目标数据,所述第一目标数据存储于第一应用程序,所述第二目标数据存储于第二应用程序,包括:
对所述第一目标数据进行同态加密,得到第一加密数据;
将所述第一加密数据发送给第二应用程序;
接收第二加密数据;所述第二加密数据由所述第二应用程序对所述第一加密数据进行归一化处理后,对所述第一目标数据与所述第二目标数据之间相关系数进行同态运算得到;
对所述第二加密数据进行解密,得到所述第一目标数据与所述第二目标数据之间相关系数。
根据本发明实施例的第四方面,提供了一种不同应用程序之间数据的相关系数确定方法,所述数据包括第一目标数据和第二目标数据,所述第一目标数据存储于第一应用程序,所述第二目标数据存储于第二应用程序,包括:
接收第一加密数据,所述第一加密数据由第一应用程序对所述第一目标数据进行同态加密得到;
对所述第一加密数据进行归一化处理后,对所述第一目标数据与所述第二目标数据之间相关系数进行同态运算得到第二加密数据;
将所述第二加密数据发送给所述第一应用程序,以使所述第一应用程序对所述第二加密数据进行解密,得到所述第一目标数据与所述第二目标数据之间相关系数。
根据本发明实施例的第五方面,提供了一种装置,所述装置包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器用于执行程序以执行如本发明实施例的第一方面或第三方面中所述的方法。
根据本发明实施例的第六方面,提供了一种装置,所述装置包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器用于执行程序以执行如本发明实施例的第二方面或第四方面中所述的方法。
根据本发明实施例的第七方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有程序,所述程序被处理器执行完成如本发明实施例的第一方面至第四方面所述的方法。
本发明实施例在确定双方数据之间相关系数的过程中采用了同态加密技术,一方面,由于数据交互双方提供给彼此的均是加密数据,因此可以防止数据交互双方之外的第三方截取交互数据的明文信息,提升了通信的安全性;另一方面,可以防止数据交互双方各自的数据隐私泄露给对方,能够有效地保护各自的数据隐私。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种系统的示意图;
图2为本申请实施例提供的第一应用程序执行的第一种流程示意图;
图3为本申请实施例提供的第二应用程序执行的第一种流程示意图;
图4为本申请实施例提供的第一应用程序执行的第二种流程示意图;
图5为本申请实施例提供的第二应用程序执行的第二种流程示意图;
图6为本申请实施例提供的不同应用程序之间数据的相关系数确定方法的第一种流程示意图;
图7为本申请实施例提供的不同应用程序之间数据的相关系数确定方法的第二种流程示意图;
图8为本申请实施例提供的一种服务器装置的结构示意图。
具体实施方式
下面结合说明书附图和具体实施例对本发明作进一步解释和说明。对于本发明实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
参见图1,图1是本发明实施例提供的一种系统的示意图,该系统可以至少包括第一应用程序101和第二应用程序102。
具体地,第一应用程序101和第二应用程序102可以独立运行在服务器、终端设备、分布式服务器上。
其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
第一应用程序101与第二应用程序102之间可以进行数据的交互及运算。
基于图1所示的系统,以下介绍本发明实施例提供的由第一应用程序执行的第一种不同应用程序之间数据的相关系数确定方法,用于确定第一目标数据与第二目标数据之间的相关系数,图2是该方法的流程示意图,包括步骤S201-S204。
S201,对第一目标数据进行归一化处理后再进行同态加密,得到第一加密数据;
具体地,第一目标数据是在第一应用程序上存储的隐私数据,第二目标数据是在第二应用程序上存储的隐私数据,本发明实施例的目的在于确定第一目标数据和第二目标数据之间的相关系数,并确保第一目标数据的隐私安全和第二目标数据的隐私安全。在本发明的一个实施例中,第一目标数据可以例如社交公司的用户受教育年限信息;第二目标数据可以例如银行的用户存款信息。
需要说明的是,同态加密是某些密码系统所具备的一种性质,例如Paillier同态密码系统。如果在一个密文空间中的密文操作(例如加、乘)可以映射到相应的明文空间中,则这个密码系统具有同态性,一般用<m>表示明文m的密文。例如,RSA密码系统满足<x1x2>=<x1><x2>,因此,RSA密码系统是乘法同态的。同态加密是安全多方计算的核心技术之一。
在本发明实施例中,采用同态加密可以在不泄露数据的前提下,使第二应用程序完成对第一应用程序的第一目标数据的加密数据的相关运算。
在本发明实施例中,首先由第一应用程序对第一目标数据进行归一化处理(也称为数据标准化处理)。归一化处理是数据标准化处理的一种,数据标准化处理是数据分析前的操作,数据标准化也就是统计数据的指数化。数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。数据同趋化处理主要解决不同性质数据问题,对不同性质指标直接加总不能正确反映不同作用力的综合结果,须先考虑改变逆指标数据性质,使所有指标对测评方案的作用力同趋化,再加总后才能得出正确结果。数据无量纲化处理主要解决数据的可比性。数据标准化的方法有很多种,常用的有“最小—最大标准化”、“Z-score标准化”和“按小数定标标准化”等。经过上述标准化处理,原始数据均转换为无量纲化指标测评值,即各指标值都处于同一个数量级别上,可以进行综合测评分析。
本发明的一个实施例采用“Z-score变换”作为归一化处理的方法。
其中,“Z-score变换”是归一化处理的一种,这种方法基于原始数据的均值和标准差进行数据的标准化。将A的原始值x使用Z-score标准化到x',Z-score标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。其公式为:新数据=(原数据-均值)/标准差。
其中,A代表第一应用程序;代表第一应用程序的第i个第一目标数据;n代表第一目标数据的特征个数;代表Z-score变换后的第i个第一数据;mA代表第一目标数据的平均特征值(即的平均特征值);σA代表第一目标数据的第一标准差。
由于相关系数的计算实质是计算Z-score变换后的两列特征的向量内积,因此,本发明实施例通过对第一目标数据进行Z-score变换,能将Z-score变换后的结果直接应用到相关系数的计算中,保证相关系数计算的正确性。
接着,本发明实施例将Z-score变换后的第一数据进行同态加密,得到第一加密数据。
具体地,同态加密可以采用同态加密函数进行加密,所述同态加密函数的算法可以包括但不限于Paillier同态加密算法、Gentry同态加密算法以及RSA算法等。
以Paillier同态加密算法为例,本发明实施例对第一数据进行同态加密,包括步骤S2011-S2012;
S2011,秘钥生成步骤,包括步骤S20111-S20114;
S20111,选择两个大素数p和q,使p,q满足gcd(pq,(p-1)×(q-1))=1;其中,gcd()表示计算最大公约数。
S20112,计算n=pq和λ=lcm(p-1,q-1);其中,lcm()表示计算最小公倍数。
S20114,确定一个μ,使得它可以满足μ=(L(gλmodn2))-1mod n,其中,L代表函数L(μ)=(μ-1)/n;mod代表求余函数。经过上述步骤S20111-S20114,得到公钥为(n,g),私钥为(λ,μ)的公钥私钥对。其中,公钥用于加密,私钥用于解密。
S2012,加密步骤。
具体地,假设明文为x,选择一个随机数r,密文计算为c=gx×rn mod n2,c即为第一加密数据。
S202,将所述第一加密数据发送给第二应用程序;
本发明实施例由第一应用程序发送给第二应用程序的数据是加密后的第一加密数据,在数据通信的过程中,即使第三方非法截取到了第一加密数据,由于这个第一加密数据是经过Paillier加密算法加密保护的,因此第三方无法破解得到对应的第一目标数据,能够保证第一目标数据的隐私安全。
S203,接收第二加密数据;所述第二加密数据由所述第二应用程序根据所述第一加密数据对所述第一目标数据与第二目标数据之间相关系数进行同态运算得到;
具体地,在本发明实施例中,采用同态加密的方法可以在保证不泄露第一目标数据的前提下,使第二应用程序完成对第一目标数据和第二目标数据之间的相关系数的运算,运算得到的结果是加密后的相关系数,即第二加密数据。
本发明实施例的第一应用程序在接收到第二加密数据后执行步骤S204。
S204,对第二加密数据进行解密,得到第一目标数据与第二目标数据之间相关系数。
具体地,以上述的Paillier同态加密算法为例,在本发明实施例中,第一应用程序采用在步骤S20114中确定的当前同态密码系统的私钥来对第二加密数据进行解密;
解密过程为x=L(cλmod n2)mod n,其中,x表示解密得到的相关系数明文;L()代表函数L(μ)=(μ-1)/n;c代表第二加密数据;λ是私钥(λ,μ)的参数;mod代表求余函数;n是公钥(n,g)的参数。
至此,第一应用程序解密得到了第一目标数据与第二目标数据之间的相关系数,从上述解密过程以及解密结果可知,第一应用程序在解密得到相关系数明文x的时候,无法获取第二目标数据的隐私信息,能够保证第二应用程序的隐私安全。
另外,本发明实施例在步骤S201对所述第一目标数据进行归一化处理后,还包括以下步骤:对所述第一目标数据进行归一化处理后得到第一数据,将所述第一数据中不处于第一截断区域的数据调整至第一截断区域内的第一边界值。以此来防止第一应用程序使用超出第一截断区域之外的异常值来对B的差分隐私做差分攻击。
需要说明的是,差分隐私是一种隐私水平量化概念,它的核心是在数据中添加随机数,而随机数的随机程度(方差大小)由算法机制和差分隐私预算参数∈决定。∈越小,则随机数的随机程度需要越大,算法的隐私水平越高。典型的∈值如0.1,0.3,0.5,1等。
差分攻击是通过比较分析有特定区别的明文在通过加密后的变化传播情况来攻击密码算法的方法。例如对一段明文进行加密得到密文,当这段明文发生变化时,对应的密文也同步发生变化,这时就能通过差分攻击来对密文进行分析,得到明文信息。
具体地,本发明实施例的第一应用程序执行截断操作,首先确定第一目标数据的第一标准差,然后根据该第一标准差来确定第一截断区域的第一临界值。本发明实施例将第一截断区域配置为[-3σ,3σ],若第一数据的值大于3σ,则将该值调整为3σ;若第一数据的值小于-3σ,则将该值调整为-3σ,σ代表第一目标数据的第一标准差。通过本发明实施例的方法,能够保证第一数据的值均处于第一截断区域的范围内。
此时,第二应用程序同时执行“将满足拉普拉斯分布的随机数加入第二加密数据中”这一添加随机数操作,通过第一应用程序的截断操作和第二应用程序的添加随机数操作,能够防止第一应用程序在解密得到相关系数之后,通过观察相关系数的变化来对第二目标数据进行差分攻击,保障了第二应用程序的隐私安全。
如果没有第一应用程序的截断操作或者第二应用程序的添加随机数操作,则第一应用程序可以对第二目标数据进行差分攻击,有机会获取第二目标数据,下面介绍第一应用程序的差分攻击过程:
第一应用程序选取一组特征值作为第一目标数据,其中,这组特征值中包含若干个超出3σ之外的异常值,σ代表第一目标数据的第一标准差。例如,这组特征值的标准差为5,其中包含有大于3σ的异常特征值20、30和40。然后,第一应用程序按照S201-S204的步骤继续执行本发明实施例的方法,获得相关系数。需要说明的是,本实施例选取3σ作为判断异常值的临界值,在一些实施例中,还可以选取2σ或4σ等值来作为临界值,该值可根据实际应用需求来确定,在此不做限定。
接着,第一应用程序通过多次改变上述异常值,来获取不同的相关系数结果,基于异常值的变换规律和相关系数结果的变换规律,能够对第二目标数据进行差分攻击,有可能获取第二应用程序的第二目标数据。
因此,通过本发明实施例的方法,能够保障第二应用程序的隐私安全,使得第一应用程序无法通过多次调整异常值的方式来进行差分攻击。
在一个优选实施例中,本发明实施例在步骤S204解密得到第一目标数据与第二目标数据之间相关系数后,还包括步骤S205;
S205,将所述相关系数中不处于第二截断区域的数据调整至第二截断区域内的第二边界值。
具体地,本发明实施例的第二截断区域为[-1,1],在上述描述中提到,第二应用程序为了保障第二目标数据的隐私,防止第一应用程序进行差分攻击,因此第二应用程序执行了“将满足拉普拉斯分布的随机数加入第二加密数据中”这一添加随机数操作。第一应用程序在对加入随机数后的第二加密数据进行解密时,得到的解密结果为corr(A,B)+r,其中corr(A,B)代表A与B之间的相关系数;A代表第一应用程序的第一目标数据;B代表第二应用程序的第二目标数据;r代表随机数。
此时,若r的数值过大,则会导致corr(A,B)+r的结果超出[-1,1]的范围,而相关系数的值必须处于[-1,1]才有分析意义,因此本发明实施例将corr(A,B)+r中大于1的结果调整为1,小于-1的结果调整为-1。使得第二加密数据的解密结果均为合理有意义的值,保证了结果的准确性。
需要说明的是,相关系数是描述两列特征相关程度的量,它的值在-1到1之间。相关系数越靠近1,则两列特征越有正向相关性;相关系数越靠近-1,则两列特征越有反向相关性;相关系数越靠近0,则两列特征越无相关性;如果相关系数的值不处于[-1,1]的区间内,则该值无法得出对应的相关性,因此不具备分析意义。
以下介绍本发明实施例提供的由第二应用程序执行的第一种不同应用程序之间数据的相关系数确定方法,图3是该方法的流程示意图,包括步骤S301-S303。
S301,接收第一加密数据,所述第一加密数据由第一应用程序对第一目标数据进行归一化处理后再进行同态加密得到;
具体地,本发明实施例的第一加密数据是由上述步骤S201得到的。
S302,根据所述第一加密数据对所述第一目标数据与所述第二目标数据之间相关系数进行同态运算,得到第二加密数据;
本发明实施例的步骤S302包括步骤S3021和S3022;
S3021,对所述第二目标数据进行归一化处理,得到第二数据;
具体地,本发明实施例采用“Z-score变换”作为归一化处理的方法,假设第二目标数据为一组特征值则对这组特征逐一执行Z-score变换,得到变换后的第二数据这里对于第二目标数据的Z-score变换过程与第一目标数据相同,第二目标数据的Z-score变换的计算公式为
其中,B代表第一应用程序;代表第二应用程序的第i个第二目标数据;n代表第二目标数据的特征个数;代表Z-score变换后的第i个第二数据;mB代表第二目标数据的平均特征值(即的平均特征值);σB代表第二目标数据的第二标准差。
由于相关系数的计算实质是计算Z-score变换后的两列特征的向量内积,因此,本发明实施例通过对第二目标数据进行Z-score变换,能将Z-score变换后的结果直接应用到相关系数的计算中,保证相关系数计算的正确性。
S3022,根据所述第一加密数据和所述第二数据,对所述第一目标数据与所述第二目标数据之间相关系数进行同态运算,得到第二加密数据。
具体地,本发明实施例的第一加密数据是通过同态加密算法计算得到的,在此利用同态加密算法的同态性,由第二应用程序在同一个同态密码系统的密文空间中计算第一目标数据与第二目标数据之间的相关系数。
本发明实施例中对相关系数进行同态运算的计算公式为:
其中,corr(A,B)代表A与B之间的相关系数;<corr(A,B)>代表相关系数的加密结果,即第二加密数据;A代表第一应用程序的第一目标数据;B代表第二应用程序的第二目标数据;n代表第二目标数据的特征个数;代表第二目标数据的第i个特征值;mB代表第二目标数据的平均特征值;σB代表第二目标数据的第二标准差;<zi>代表第一加密数据。
至此,第二应用程序在同态密码系统(例如本发明实施例的Paillier密码系统)中计算得到了相关系数的加密结果,在这个计算过程中,第二应用程序无法获取第一目标数据的各个特征值而且计算得到的相关系数的最终结果是加密后的第二加密数据<corr(A,B)>,第二应用程序也无法获取相关系数corr(A,B)的明文信息,能够保障第一应用程序的数据隐私安全。
S303,将第二加密数据发送给第一应用程序,以使第一应用程序对第二加密数据进行解密,得到第一目标数据与第二目标数据之间相关系数。
具体地,本发明实施例由第二应用程序将第二加密数据发送给第一应用程序,以使第一应用程序执行步骤S204,得到相关系数的明文信息。
另外,在步骤S303之后,本发明实施例还包括步骤S304;
S304,将满足拉普拉斯分布的随机数加入第二加密数据中;
具体地,本发明实施例的拉普拉斯分布的均值为0;拉普拉斯分布的方差由所述第二目标数据的每个特征值、所述第二目标数据的平均特征值、所述第二目标数据的第二标准差、所述第二目标数据的特征个数以及隐私预算参数来确定。
本发明实施例计算拉普拉斯分布的方差σ′的公式为:
其中,σ′代表拉普拉斯分布的方差;代表第二应用程序的第i个第二目标数据;mb代表第二目标数据的平均特征值;σB代表第二目标数据的第二标准差;n代表第二目标数据的特征个数;∈代表隐私预算参数;公式中的数值“72”是基于第一截断区域的第一边界值计算而来的,当第一截断区域的第一边界值调整时,对应的数值“72”也会调整。
本发明实施例在确定了上述拉普拉斯分布的均值和方差之后,从满足该拉普拉斯分布的数中抽取一个随机数r,期间,第二应用程序可以通过配置∈的大小来控制对第二目标数据的隐私水平。最后将r加入第二加密数据后发送给第一应用程序,添加随机数后发送给第一应用程序的数据为<corr(A,B)+r>。
本发明实施例通过给第二加密数据添加一个满足拉普拉斯分布的随机数的方式,配合第一应用程序执行的截断操作,能够保护第二目标数据的差分隐私,确保第一应用程序在解密得到相关系数之后,无法对第二目标数据进行差分攻击。
以下介绍本发明实施例提供的由第一应用程序执行的第二种不同应用程序之间数据的相关系数确定方法,图4是该方法的流程示意图,包括步骤S401-S404。在本实施例中,第一应用程序直接将第一目标数据进行同态加密后将第一加密数据发给第二应用程序;然后由第二应用程序对第一加密数据进行归一化处理后,对第一目标数据与第二目标数据之间相关系数进行同态运算。
S401,对所述第一目标数据进行同态加密,得到第一加密数据;
具体地,所述同态加密可以采用同态加密函数进行加密,所述同态加密函数的算法可以包括但不限于Paillier同态加密算法、Gentry同态加密算法以及RSA算法等。本发明实施例对第一目标数据进行同态加密的过程可以与步骤S2011-S2012相同,得到的第一目标数据的加密结果第一加密数据为
S402,将所述第一加密数据发送给第二应用程序;
本发明实施例由第一应用程序发送给第二应用程序的数据是加密后的第一加密数据,在数据通信的过程中,即使第三方截取到了第一加密数据,由于这个第一加密数据是经过Paillier加密算法加密保护的,因此第三方无法破解得到对应的第一目标数据,能够保证第一目标数据的隐私安全。
S403,接收第二加密数据;所述第二加密数据由所述第二应用程序对所述第一加密数据进行归一化处理后,对所述第一目标数据与所述第二目标数据之间相关系数进行同态运算得到;
具体地,在本发明实施例由第二应用程序来完成对第一目标数据和第二目标数据之间的相关系数的运算,其中采用了同态加密的方法,可以在保证不泄露第一目标数据的前提下,运算得到的加密后的相关系数,即第二加密数据。
S404,对所述第二加密数据进行解密,得到所述第一目标数据与所述第二目标数据之间相关系数。
具体地,本发明实施例对第二加密数据进行解密的过程可以与步骤S204相同。至此,第一应用程序解密得到了第一目标数据与第二目标数据之间的相关系数,第一应用程序在解密得到相关系数明文的时候,无法获取第二目标数据的隐私信息,能够保证第二应用程序的隐私安全。
以下介绍本发明实施例提供的由第二应用程序执行的第二种不同应用程序之间数据的相关系数确定方法,图5是该方法的流程示意图,包括步骤S501-S503。
S501,接收第一加密数据,所述第一加密数据由第一应用程序对所述第一目标数据进行同态加密得到;
具体地,本发明实施例的第一加密数据是由上述步骤S401得到的。
S502,对所述第一加密数据进行归一化处理后,对所述第一目标数据与所述第二目标数据之间相关系数进行同态运算得到第二加密数据;
本发明实施例的步骤S502包括S5021和S5022。
S5021,对第一加密数据进行归一化处理,以及对第二目标数据进行归一化处理;
具体地,本发明实施例采用“Z-score变换”作为归一化处理的方法,假设第二目标数据为一组特征值则对这组特征逐一执行Z-score变换,得到变换后的第二数据第二目标数据的Z-score变换的计算公式为
对于第一加密数据,由于第二应用程序需要计算第一目标数据与第二目标数据之间的相关系数,因此需要分别先对第一目标数据和第二目标数据进行归一化处理,在本实施例中,第二应用程序接收的是第一目标数据经过同态加密后的第一加密数据,因此,第二应用程序可以采用同态运算的方式,基于第一加密数据来计算归一化处理后的第一数据,在这个同态运算的过程中,第二应用程序无法获取第一目标数据的隐私信息,能够保障第一应用程序的隐私安全。
第二应用程序对第一加密数据进行归一化处理的计算公式为:其中,代表同态加密后的第一数据,代表第一目标数据的第i个特征值;mA代表第一目标数据的平均特征值;σA代表第一目标数据的第一标准差。由于第一应用程序发送给第二应用程序的是同态加密后的第一目标数据因此在该计算过程中,第二应用程序无法获取σA的值,仅能得到加密后的第一数据能够保障第一应用程序的隐私安全。
S5022,根据步骤S5021的结果,对所述第一目标数据与所述第二目标数据之间相关系数进行同态运算,得到第二加密数据。
最后,本发明实施例根据步骤S5021的结果,在同态密码系统的密文空间(例如本发明实施例的Paillier密码系统)中计算相关系数的加密结果,该步骤的计算公式为:
其中,corr(A,B)代表A与B之间的相关系数;<corr(A,B)>代表相关系数的加密结果,即第二加密数据;A代表第一应用程序的第一目标数据;B代表第二应用程序的第二目标数据;n代表第二目标数据的特征个数;代表第二目标数据的第i个特征值;mB代表第二目标数据的平均特征值;σB代表第二目标数据的第二标准差;代表第一加密数据经过归一化处理后的结果。
至此,第二应用程序在同态密码系统计算得到了相关系数的加密结果,在这个计算过程中,第二应用程序无法获取第一目标数据的各个特征值而且计算得到的相关系数的最终结果是加密后的第二加密数据,第二应用程序也无法获取相关系数的明文信息,能够保障第一应用程序的数据隐私安全。
S503,将所述第二加密数据发送给所述第一应用程序,以使所述第一应用程序对所述第二加密数据进行解密,得到所述第一目标数据与所述第二目标数据之间相关系数。
具体地,本发明实施例由第二应用程序将第二加密数据发送给第一应用程序,以使第一应用程序执行步骤S404,得到相关系数的明文信息。
另外,在步骤S503之后,本发明实施例还包括步骤S504;
S504,将满足拉普拉斯分布的随机数加入第二加密数据中;
本发明实施例将随机数加入第二加密数据的实现方法可以跟步骤S304一样,
本发明实施例通过给第二加密数据添加一个满足拉普拉斯分布的随机数的方式,配合第一应用程序执行的截断操作,能够保护第二目标数据的差分隐私,确保第一应用程序在解密得到相关系数之后,无法对第二目标数据进行差分攻击。
参见图6,是本发明实施例提供的不同应用程序之间数据的相关系数确定方法的第一种完整流程示意图;A代表第一应用程序,B代表第二应用程序,在该实施例中,第一目标数据的归一化处理在第一应用程序中执行,本发明实施例包括步骤S601-S606;
S601,A对第一目标数据执行归一化处理后再进行同态加密,得到第一加密数据;
步骤S601包括S6011和S6012;
S6011,对所述第一目标数据进行归一化处理后得到第一数据;
S6012,将所述第一数据中不处于第一截断区域的数据调整至第一截断区域内的第一边界值。
具体地,在本实施例中,A对第一目标数据的每个特征值执行Z-score变换,得到第一数据,Z-score变换的公式为其中,A代表第一应用程序;代表第一应用程序的第i个第一目标数据;n代表第一目标数据的特征个数;代表Z-score变换后的第i个第一数据;mA代表第一目标数据的平均特征值(即的平均特征值);σA代表第一目标数据的第一标准差。
接着,A对第一数据中不处于第一截断区域的数据调整至第一截断区域内的第一边界值,将第一截断区域配置为[-3,3],若第一数据的值大于3,则将该值调整为3;若第一数据的值小于-3,则将该值调整为-3。通过本发明实施例的方法,能够保证第一数据的值均处于第一截断区域的范围内。
S602,A发送第一加密数据到B;
具体地,本发明实施例由第一应用程序A发送给第二应用程序B的数据是加密后的第一加密数据,在数据通信的过程中,即使第三方截取到了第一加密数据,由于这个第一加密数据是经过Paillier加密算法加密保护的,因此第三方无法破解得到对应的第一目标数据,能够保证第一目标数据的隐私安全。
S603,B在同态密码系统内计算第一目标数据和第二目标数据之间的相关系数密文,得到第二加密数据;
本发明实施例的步骤S603可以采用前述步骤S302的方法来实现。
S604,B将第二加密数据进行差分隐私化;
本发明实施例的步骤S604可以采用前述步骤S304的方法,将满足拉普拉斯分布的随机数加入第二加密数据中来实现差分隐私化。
S605,B将差分隐私化后的第二加密数据发送给A;
S606,A对第二加密数据解密得到相关系数。
本发明实施例的步骤S606可以采用前述步骤S204的方法来实现。
另外,还包括步骤S607,将所述相关系数中不处于第二截断区域的数据调整至第二截断区域内的第二边界值。
本发明实施例的步骤S607可以采用步骤S205的方法来实现。
参见图7,是本发明实施例提供的不同应用程序之间数据的相关系数确定方法的第二种完整流程示意图;A代表第一应用程序,B代表第二应用程序,在该实施例中,第一目标数据的归一化处理在第二应用程序中执行,且第二应用程序无法获取第一目标数据的隐私信息,本发明实施例包括步骤S701-S706;
S701,A对第一目标数据进行同态加密,得到第一加密数据;
具体地,所述同态加密可以采用同态加密函数进行加密,所述同态加密函数的算法可以包括但不限于Paillier同态加密算法、Gentry同态加密算法以及RSA算法等。本发明实施例对第一目标数据进行同态加密的过程可以与步骤S2011-S2012相同,得到的第一目标数据的加密结果第一加密数据为
S702,A发送第一加密数据到B;
本发明实施例由第一应用程序A发送给第二应用程序B的数据是加密后的第一加密数据,在数据通信的过程中,即使第三方截取到了第一加密数据,由于这个第一加密数据是经过Paillier加密算法加密保护的,因此第三方无法破解得到对应的第一目标数据,能够保证第一目标数据的隐私安全。
S703,B对第一加密数据进行归一化处理后,在同态密码系统内计算第一目标数据和第二目标数据之间的相关系数密文,得到第二加密数据;
本发明实施例的步骤S703可采用前述实施例的步骤S502的方法来实现。
S704,B将第二加密数据进行差分隐私化;
本发明实施例的步骤S704可以采用前述实施例的步骤S504来实现,通过将满足拉普拉斯分布的随机数加入第二加密数据中,来对第二加密数据进行差分隐私化。
S705,B将差分隐私化后的第二加密数据发送给A;
S706,A对第二加密数据解密得到相关系数。
本发明实施例的步骤S706可以采用前述实施例的步骤S404来实现。
另外,本发明实施例还包括步骤S707,将所述相关系数中不处于第二截断区域的数据调整至第二截断区域内的第二边界值。步骤S707可以采用前述实施例的步骤S205来实现。
以下介绍本发明的不同应用程序之间数据的相关系数确定方法的应用,其中第一应用程序存储有社交公司A的隐私数据,第二应用程序存储有银行B的隐私数据,社交公司A掌握的第一目标数据是用户的受教育年限信息,银行B掌握的第二目标数据是用户的存款信息,数据内容如表1所示:
表1
受教育年限/年(社交公司A) | 存款/万(银行B) | |
用户甲 | 9 | 1 |
用户乙 | 15 | 200 |
用户丙 | 10.5 | 55 |
用户丁 | 6 | 0.8 |
对于A、B来说,受教育年限信息和存款信息这两个特征均被视作自家隐私。通过本发明的方法,带来一种安全多方计算的协议,能够使A、B两方在保护隐私的前提下得到两列特征之间的相关系数(本实施例的相关系数的真实值为corr=0.9367)。其中,安全多方计算是一种当隐私数据x1,…,xK分布式地掌握在多方手中时,安全求解一个全局问题、或估值一个全局函数f(x1,…,xk)的技术,属于密码学的子领域。
运用本发明的方法的具体步骤如下:
1、社交公司A在第一应用程序上注册一份ID+受教育年限数据,如表2所示:
表2
用户账号(id) | 受教育年限(education) | |
用户甲 | 1 | 9 |
用户乙 | 2 | 15 |
用户丙 | 3 | 10.5 |
用户丁 | 4 | 6 |
2、银行B在第二应用程序上注册一份ID+存款的数据,如表3所示:
表3
用户账号(id) | 受教育年限(deposit) | |
用户甲 | 1 | 1 |
用户乙 | 2 | 200 |
用户丙 | 3 | 55 |
用户丁 | 4 | 0.8 |
3、设定隐私预算参数(∈=10),于是,基于上述表2和表3的数据,将表2的数据作为第一目标数据,将表3的数据作为第二目标数据,运用Paillier同态加密算法,执行完本发明实施例的步骤S601-S607或者S701-S707之后,AB两方即可在数据不出本地、中间交互数据被同态加密和差分隐私保护的情况下,计算得到最终的相关系数:corr=0.9153。由此可见,通过本发明的方法计算得到的相关系数值与真实值(corr=0.9367)近似,计算结果的准确性高。
另外,通过本发明确定了相关系数的结果之后,可以应用于以下场景:
1、分析数据和解释特征。
1)、如上述实施例的相关系数结果所示,由于corr=0.9153与1很接近,说明A的第一目标数据与B的第二目标数据之间存在强正相关的关系,所以可以判断出以下结论:受教育年限越长,存款越多。此时,银行可以根据这种特征解释做出以下决策:“引进未来客户时,重点引进更多高学历客户,因为他们对应的存款数额会较高,有助于提高银行收益”。
2)、银行与小型借贷公司安全计算用户收入和贷款违约率的相关系数,可能得到结果:收入和贷款违约率是强负相关,此时,根据这个相关系数的结果,可以指导借贷公司在拓展客户时重点关注高收入客户,从而降低整体的贷款违约率。
3)、社交公司与美妆公司安全计算用户年龄与化妆品消费水平的相关系数,可能得到结果:年龄与化妆品消费水平强正相关。此时,根据这个相关系数的结果,可以指导美妆公司将市场拓展重点方在年轻人群上,因为这个人群的化妆品消费水平较高,有利于提升美妆公司的业绩。
2、根据特征之间的相关系数,对多组特征进行降维,并利用降维后的特征进行机器学习,能够提高机器学习的效率,加快模型训练的收敛速度。
例如,根据上述受教育年限信息和存款信息之间的相关系数,在这两组特征上执行PCA降维处理,得到新的降维后的特征,如表4所示:
表4
降维后的新特征 | |
用户甲 | 1.3353 |
用户乙 | 200.4205 |
用户丙 | 55.3536 |
用户丁 | 1.0234 |
这样,在得到如表4所示的新特征后,可以将这组新特征应用于XGBoost模型、逻辑回归模型的学习训练中,相较于利用表1所示的数据来进行学习训练,表4明显减少了特征量,能够提高模型训练效率,加快收敛。特别是对于大规模数据集来说,将大量的高相关性特征按照如上方法降维成少量几个新特征,更加有助于加快收敛速度、减小过拟合、提升模型效果,因此本发明适用于云技术以及大数据等相关的技术领域。
本发明实施例还提供了一种装置,所述装置包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器用于执行程序以执行前述各个实施例所述的由第一应用程序执行的不同应用程序之间数据的相关系数确定方法。
本发明实施例还提供了一种装置,所述装置包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器用于执行程序以执行前述各个实施例所述的由第二应用程序执行的不同应用程序之间数据的相关系数确定方法。
本发明实施例的装置可以用于实现第一应用程序的功能,也可以用于实现第二应用程序的功能。该装置可以包括一个独立运行的服务器,或者分布式服务器,或者由多个服务器组成的服务器集群。该装置还可以是终端设备,该终端设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant,简称PDA)、销售终端(Point of Sales,简称POS)、车载电脑等任意智能终端,下面结合附图对该装置进行介绍,参见图8,本发明实施例以装置为服务器为例进行说明。
如图8所示,服务器包括通过系统总线连接的处理器、供电模块、存储介质、内存和通信接口。其中,处理器用于提供计算和控制能力,支撑整个服务器的运行。服务器的存储器存储系统、数据库和不同应用程序之间数据的相关系数确定方法的处理装置的计算机应用程序,该处理装置的计算机应用程序被处理器执行时,实现一种不同应用程序之间数据的相关系数确定方法。通信接口用于与用户终端/其他服务器进行网络通信。图8示出的结构,仅仅是与实施例方案相关的部分结构的框图,并不构成对本实施例的方案所应用于其上服务器的限定,具体地服务器可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在本发明实施例中,不同应用程序之间数据的相关系数确定方法的处理装置可以实现以下功能:
对所述第一目标数据进行归一化处理后再进行同态加密,得到第一加密数据;
将所述第一加密数据发送给第二应用程序;
接收第二加密数据;所述第二加密数据由所述第二应用程序根据所述第一加密数据对所述第一目标数据与第二目标数据之间相关系数进行同态运算得到;
对所述第二加密数据进行解密,得到所述第一目标数据与所述第二目标数据之间相关系数;
或者,
接收第一加密数据,所述第一加密数据由第一应用程序对第一目标数据进行归一化处理后再进行同态加密得到;
根据所述第一加密数据对所述第一目标数据与所述第二目标数据之间相关系数进行同态运算,得到第二加密数据;
将所述第二加密数据发送给所述第一应用程序,以使所述第一应用程序对所述第二加密数据进行解密,得到所述第一目标数据与所述第二目标数据之间相关系数。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有程序,所述程序被处理器执行完成前述各个实施例所述的数据之间相关系统的确定方法。
本发明实施例还提供一种包括指令的计算机程序产品,当其在计算机上运行时,使得计算机执行前述各个实施例所述的数据之间相关系统的确定方法。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括多指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (15)
1.一种不同应用程序之间数据的相关系数确定方法,所述数据包括第一目标数据和第二目标数据,所述第一目标数据存储于第一应用程序,所述第二目标数据存储于第二应用程序,其特征在于,包括:
对所述第一目标数据进行归一化处理后再进行同态加密,得到第一加密数据;
将所述第一加密数据发送给第二应用程序;
接收第二加密数据;所述第二加密数据由所述第二应用程序根据所述第一加密数据对所述第一目标数据与第二目标数据之间相关系数进行同态运算得到;
对所述第二加密数据进行解密,得到所述第一目标数据与所述第二目标数据之间相关系数。
2.根据权利要求1所述的方法,其特征在于,所述对所述第一目标数据进行归一化处理后再进行同态加密,得到第一加密数据,包括:
确定所述第一目标数据的第一平均值和第一标准差;
根据所述第一平均值和所述第一标准差,对所述第一目标数据进行Z-score变换,得到第一数据;
采用同态密码系统对所述第一数据进行同态加密,得到第一加密数据。
3.根据权利要求1所述的方法,其特征在于,还包括:
获取第一目标数据的第一标准差;
根据所述第一标准差,确定第一截断区域的第一边界值;
将对所述第一目标数据进行归一化处理得到的第一数据中不处于第一截断区域的数据调整至所述第一边界值。
4.根据权利要求1所述的方法,其特征在于,还包括:
确定第二截断区域的第二边界值;
将所述相关系数中不处于第二截断区域的数据调整至所述第二边界值。
5.一种不同应用程序之间数据的相关系数确定方法,所述数据包括第一目标数据和第二目标数据,所述第一目标数据存储于第一应用程序,所述第二目标数据存储于第二应用程序,其特征在于,包括:
接收第一加密数据,所述第一加密数据由第一应用程序对第一目标数据进行归一化处理后再进行同态加密得到;
根据所述第一加密数据对所述第一目标数据与所述第二目标数据之间相关系数进行同态运算,得到第二加密数据;
将所述第二加密数据发送给所述第一应用程序,以使所述第一应用程序对所述第二加密数据进行解密,得到所述第一目标数据与所述第二目标数据之间相关系数。
6.根据权利要求5所述的方法,其特征在于,所述根据所述第一加密数据对所述第一目标数据与所述第二目标数据之间相关系数进行同态运算,得到第二加密数据,包括:
对所述第二目标数据进行归一化处理,得到第二数据;
根据所述第一加密数据和所述第二数据,采用同态密码系统对所述第一目标数据与所述第二目标数据之间相关系数进行同态运算,得到第二加密数据。
7.根据权利要求6所述的方法,其特征在于,所述对所述第二目标数据进行归一化处理,得到第二数据,包括:
确定所述第二目标数据的第二平均值和第二标准差;
根据所述第二平均值和所述第二标准差,对所述第二目标数据进行Z-score变换,得到第二数据。
8.根据权利要求5-7任一项所述的方法,其特征在于,还包括:
将满足拉普拉斯分布的随机数加入所述第二加密数据中。
9.根据权利要求8所述的方法,其特征在于,
所述拉普拉斯分布的均值为0;
所述拉普拉斯分布的方差由所述第二目标数据的每个特征值、所述第二目标数据的平均特征值、所述第二目标数据的第二标准差、所述第二目标数据的特征个数以及隐私预算参数来确定。
10.一种不同应用程序之间数据的相关系数确定方法,所述数据包括第一目标数据和第二目标数据,所述第一目标数据存储于第一应用程序,所述第二目标数据存储于第二应用程序,其特征在于,包括:
对所述第一目标数据进行同态加密,得到第一加密数据;
将所述第一加密数据发送给第二应用程序;
接收第二加密数据;所述第二加密数据由所述第二应用程序对所述第一加密数据进行归一化处理后,对所述第一目标数据与所述第二目标数据之间相关系数进行同态运算得到;
对所述第二加密数据进行解密,得到所述第一目标数据与所述第二目标数据之间相关系数。
11.一种不同应用程序之间数据的相关系数确定方法,所述数据包括第一目标数据和第二目标数据,所述第一目标数据存储于第一应用程序,所述第二目标数据存储于第二应用程序,其特征在于,包括:
接收第一加密数据,所述第一加密数据由第一应用程序对所述第一目标数据进行同态加密得到;
对所述第一加密数据进行归一化处理后,对所述第一目标数据与所述第二目标数据之间相关系数进行同态运算得到第二加密数据;
将所述第二加密数据发送给所述第一应用程序,以使所述第一应用程序对所述第二加密数据进行解密,得到所述第一目标数据与所述第二目标数据之间相关系数。
12.根据权利要求11所述的方法,其特征在于,所述对所述第一加密数据进行归一化处理后,对所述第一目标数据与所述第二目标数据之间相关系数进行同态运算得到第二加密数据,包括:
对第一加密数据进行归一化处理,得到同态加密后的第一数据;
对第二目标数据进行归一化处理,得到第二数据;
根据所述第一数据和所述第二数据,对所述第一目标数据与所述第二目标数据之间相关系数进行同态运算,得到第二加密数据。
13.一种装置,其特征在于,所述装置包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器用于执行程序以执行如权利要求1-4或10中任一项所述的方法。
14.一种装置,其特征在于,所述装置包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器用于执行程序以执行如权利要求5-9或11-12中任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有程序,所述程序被处理器执行完成如权利要求1-12中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010235790.7A CN111444527B (zh) | 2020-03-30 | 2020-03-30 | 不同应用程序之间数据的相关系数确定方法、装置及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010235790.7A CN111444527B (zh) | 2020-03-30 | 2020-03-30 | 不同应用程序之间数据的相关系数确定方法、装置及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111444527A true CN111444527A (zh) | 2020-07-24 |
CN111444527B CN111444527B (zh) | 2023-08-11 |
Family
ID=71649238
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010235790.7A Active CN111444527B (zh) | 2020-03-30 | 2020-03-30 | 不同应用程序之间数据的相关系数确定方法、装置及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111444527B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110348231A (zh) * | 2019-06-18 | 2019-10-18 | 阿里巴巴集团控股有限公司 | 实现隐私保护的数据同态加解密方法及装置 |
CN110750520A (zh) * | 2019-10-23 | 2020-02-04 | 深圳前海微众银行股份有限公司 | 特征数据处理方法、装置、设备及可读存储介质 |
CN110807528A (zh) * | 2019-10-30 | 2020-02-18 | 深圳前海微众银行股份有限公司 | 特征相关性计算方法、设备及计算机可读存储介质 |
-
2020
- 2020-03-30 CN CN202010235790.7A patent/CN111444527B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110348231A (zh) * | 2019-06-18 | 2019-10-18 | 阿里巴巴集团控股有限公司 | 实现隐私保护的数据同态加解密方法及装置 |
CN110750520A (zh) * | 2019-10-23 | 2020-02-04 | 深圳前海微众银行股份有限公司 | 特征数据处理方法、装置、设备及可读存储介质 |
CN110807528A (zh) * | 2019-10-30 | 2020-02-18 | 深圳前海微众银行股份有限公司 | 特征相关性计算方法、设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111444527B (zh) | 2023-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Practical multi-party private collaborative k-means clustering | |
CN108259158A (zh) | 一种云计算环境下高效和隐私保护的单层感知机学习方法 | |
CN109615021B (zh) | 一种基于k均值聚类的隐私信息保护方法 | |
CN112989368A (zh) | 多方联合进行隐私数据处理的方法及装置 | |
CN110059501B (zh) | 一种基于差分隐私的安全外包机器学习方法 | |
Liu et al. | Secure multi-label data classification in cloud by additionally homomorphic encryption | |
CN113407987B (zh) | 保护隐私的确定业务数据特征有效值的方法及装置 | |
CN108984733A (zh) | 跨域数据融合方法、系统以及存储介质 | |
CN110400162B (zh) | 一种数据处理方法、装置、服务器及系统 | |
Erkin et al. | Privacy enhanced recommender system | |
CN115510502B (zh) | 一种隐私保护的pca方法及系统 | |
EP4000216B1 (en) | Cryptographic pseudonym mapping method, computer system, computer program and computer-readable medium | |
CN112765664B (zh) | 一种具有差分隐私的安全多方k-means聚类方法 | |
CN113849828B (zh) | 经处理的数据的匿名生成和证明 | |
Fenner et al. | Privacy-preserving gaussian process regression–A modular approach to the application of homomorphic encryption | |
Zhao et al. | VFLR: An efficient and privacy-preserving vertical federated framework for logistic regression | |
EP4283917A1 (en) | Privacy-preserving clustering methods and apparatuses | |
CN110443061A (zh) | 一种数据加密方法和装置 | |
EP3404643A1 (en) | Information processing device, information processing system, information processing method, and program | |
CN116402159A (zh) | 联邦学习方法、预测方法、装置、电子设备及存储介质 | |
CN111444527B (zh) | 不同应用程序之间数据的相关系数确定方法、装置及介质 | |
CN114422105A (zh) | 联合建模方法、装置、电子设备及存储介质 | |
Silva et al. | Privacy-preserving multi-party clustering: An empirical study | |
Pathak et al. | Efficient Protocols for Principal Eigenvector Computation over Private Data. | |
CN113407988A (zh) | 控制通信量的确定业务数据特征有效值的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40025771 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |