CN108334577A

CN108334577A - 一种安全多方数值型记录匹配方法

Info

Publication number: CN108334577A
Application number: CN201810067980.5A
Authority: CN
Inventors: 申德荣; 韩姝敏; 聂铁铮; 寇月; 于戈
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2018-01-24
Filing date: 2018-01-24
Publication date: 2018-07-27
Anticipated expiration: 2038-01-24
Also published as: CN108334577B

Abstract

本发明公开一种安全有效的多方数值型记录匹配方法，属于数据质量和数据集成领域，具体方法为：各数据源间统一参数、生成密钥，接着，进行以下三个步骤，(1)利用类模运算加密各数据源中的数值型记录，(2)安全地查询出各数值型属性中的最大最小值，并优化地计算两者间的相似度作为各记录在该属性中的相似度，(3)通过各记录在各属性中的相似度，判断是否匹配成功。采用本发明的多方数值型记录匹配方法，可以在更短的时间内，更加安全有效地识别出重复的数据对象；通过证明若属性中最大最小值的相似度大于阈值，则任意两个属性值的相似度均大于阈值，只需安全快速地查找出各属性的最大最小值，即可判断各数值型记录是否匹配成功，保证了高效性。

Description

一种安全多方数值型记录匹配方法

技术领域

本发明属于数据集成和数据安全领域，主要涉及一种安全有效的多方数值型记录匹配方法。

背景技术

随着科技的不断进步，数据正快速的增长和累积。减少数据冗余，实现数据共享已成为大数据时代的首要任务。记录链接，也称为实体识别、实体解析、实体匹配、记录连接、重复探测、记录去重、实体辨析、引用消歧、重复数据删除，它是指从一个或多个数据源中匹配出代表现实世界中同一实体的记录。记录链接的应用范围很广泛，包括企业客户信息管理、欺诈预防、医疗卫生、目录整合、卫星和遥感数据的识别等。但是，当记录信息涉及到个人隐私或敏感信息时，我们必须要考虑记录信息的隐私保护问题。因此，近年来国内外掀起了研究隐私保护下的记录链接(Privacy-preserving record linkage，PPRL)的热潮。PPRL技术可以保证在记录链接的过程中，只有最终匹配结果被各数据源间共享，其他未匹配的记录信息均未被泄露。例如，在分散的医疗体系中，某人的医疗信息可能分布在多个医院，找出同一个人在不同医院的诊断信息有利于更准确的分析病情，但由于涉及到患者隐私，各医院并不希望暴露患者的医疗信息。PPRL技术可以既找出某位患者在各医院的医疗信息，又保证各医院其他患者的医疗信息不被泄露。因此，PPRL技术不仅具有理论研究价值，而且有着重要和迫切的实际应用价值。

PPRL主要包括三个步骤：数据安全分块、数据对象相似度安全计算和数据对象对匹配决定。首先，数据安全分块用于安全地缩小搜索空间，减少无用的数据对象比较，提升识别速度；数据安全分块是一个可选步骤。其次，安全地计算数据对象之间的相似度是PPRL的一个重要环节，需要保证数据对象对加密后的相似度与原数据对象对的相似度相近，即若相似度越大，则该数据对象对匹配的可能性越大；相似度计算要用到相似度计算函数。最后，当获得了数据对象相似度之后，需要利用数据对象相似度来决定数据对象之间是否匹配(重复)，当前已有多种匹配决定的方法。

目前已有的PPRL方法存在两方面不足：1)只适用于两个数据源，对于三个及以上的多方PPRL方法的研究还很少。这是因为想要找到一个可以安全合理度量多条记录相似度的方法并不容易，而且适用于两个数据源的相似度度量方法大多数并不适用于多数据源。2)现有隐私保护处理方法只适用于字符串属性，对于数值型属性的隐私保护方法研究较少。若将处理字符串的隐私保护方法应用于数值型属性，处理后的数值型属性间的相似度很容易与原属性值间的相似度差别很大，因此需要提出适用于数值型属性的隐私保护方法。多个参与方和数值型属性在现实中的很多应用中常见，因此，研究安全有效的多方数值型记录匹配方法具有重要的现实意义。

发明内容

针对已有安全多方记录匹配方法的不足，如只适用于字符型数据、加密过程复杂、时间代价大等不足，本发明提供了一种适用于数值型记录的高效的安全多方记录匹配方法。

一种安全多方数值型记录匹配方法，包括以下步骤：

步骤1.多方数据源数值型记录的加密；给定参与方个数P，利用类模运算(smod)对数值型记录加密，P个参与方统一公共匹配属性A＝{a_n|1≤n≤d}；

数值型记录的定义：1)某一条记录中全部属性的属性值均为数值型，则该记录为数值型记录；2)某一条记录中部分属性的属性值为数值型，则提取全部或部分数值型属性即可视为数值型记录。

步骤1-1.数值型记录加密密钥生成；参与方P₁生成P个密钥K_i(1≤i≤P)分配给P个参与方，每个密钥包含d个子密钥K_i＝{k_in|1≤n≤d}分别加密数值属性{a_i1,a_i2,…,a_id}，每个数值属性的加密密钥不同，加强了数据的安全性；

步骤1-2.数值型记录加密；给定一条数值型记录r_i及匹配属性{a_i1,a_i2,…,a_id}，加密密钥为K_i＝{k_i1,k_i2,…,k_id}，利用类模运算加密记录，加密方式及类模运算如下：

Enc(V(a_id))＝smod{(V(a_id)+k_id*p),p*q} (1)

其中V(a_id)表示记录r_i中属性a_d的值，m代表原文信息，p和q均为质数；

各参与方利用各自密钥加密记录，然后各方记录做笛卡尔积运算生成候选记录对；

步骤2.迭代优化地处理候选记录对；迭代优化地处理候选记录对，并逐渐地输出匹配成功的候选记录对，方法如下：

步骤2-1.各数值型属性中最大、最小值安全查询；给定来自于P个参与方的P条记录，安全地查找出P条记录各数值型属性中的最大、最小值，给定一个数值型属性a_n，已知该属性下加密后的各属性值C_in＝Enc(r_i(a_n))(1≤i≤P)，若加密后的属性值具有原值的大小关系，则查找出密文中的最大、最小值解密后即为原值中的最大、最小值；为了满足若r₁(a_n)≥r₂(a_n)，则Enc(r₁(a_n))≥Enc(r₂(a_n))，且若Enc(r₁(a_n))≥Enc(r₂(a_n))，则r₁(a_n)≥r₂(a_n)，经推理记录r₁，r₂的密钥k₁，k₂需满足如下关系：

k₂＝k₁+hq (3)

h为整数；接着将各参与方加密后的密文传给匹配单元，由于类模运算具有同态减法的性质，因此密文在匹配单元中进行安全减法计算，查找出密文中的最大、最小值；

步骤2-2.优化地对候选记录对进行相似度计算；计算候选记录对中P条记录的相似度，利用步骤2-1得到P条数值型记录在各属性下的密文最大、最小值，通过安全减法，计算P条记录在各属性下的相似度，若均大于等于阈值则P条记录匹配成功；否则，匹配失败；如(4)所示，

式(4)中r₁,r₂,r_i,…,r_P代表来自P个参与方的记录，a_nmax,a_nmin分别代表属性n中的最大最小值，θ_n代表属性n中的相似度阈值。这是因为若最大、最小值的相似度大于阈值，证明可得P条记录在该属性下的任意两个属性值的相似度都大于阈值，证明如下：

证明.若sim(a_nmin,a_nmax)>θ_n,可以推出sim(a,b)>θ_n,a_nmin≤a,b≤a_nmax

若a>b,sim(a,b)＝1-(a-b)/d_max＝1-((a/b)-1)/d_max,(proposed in equation(5))

当a＝a_nmax,b＝a_nmin,

sim(a,b)取得最小值与sim(a_nmin,a_nmax)相等，

因此,sim(a,b)>θ_n，

同理可证，当a<b or a＝b,sim(a,b)>θ_n；

两个数值n₁，n₂的相似度计算公式表达如下：

其中d_max为两个数值相差的最大差值；

最终将匹配成功的重复数据对象对输出。

本发明的优点是：采用本发明的安全多方数值型记录匹配方法，通过类模加密、同态运算，保证了匹配结果的高查全率和查准率；通过相似度计算优化方法，给定较短时间预算，可以匹配出更多的重复的数据对象。

附图说明

图1是本发明总体流程图。

图2是各参与方间关系及数据的传输过程。

图3是本发明与已有的其它两个方法的运行时间对比图。

图4是本发明与已有的其它两个方法的匹配质量对比图。

具体实施方式

下面结合说明书附图1-4以及具体实施的例子对本发明的进一步详细说明。

如表1所示，从病患信息库中选取4条记录作为样例数据集，样例数据均来自。该数据集中对应的真实识别结果是{P96,P26,P37}。现在我们举例计算3条记录{P96,P80,P26}的相似度，判断3条记录是否匹配成功。

表1样例数据集，包含4条病患记录，属性有血压、2小时胰岛素量、糖尿病系数和年龄

ID	血压	2小时胰岛素量	糖尿病系数	年龄
					P96	69	0	0.351	31
P80	66	543	0.158	53
					P26	69	0	0.347	31
P37	69	0	0.357	31

1.首先，生成密钥{p＝181,q＝71,rand₁＝23,rand₂＝94,rand₃＝236}加密三条记录的公共属性血压的属性值，其中加密方法为类模运算，得到如下结果，

C₁＝Enc(66)＝smod{(66+23*181),181*71}＝4229，

C₂＝Enc(70)＝smod{(70+94*181),181*71}＝4233，

C₃＝Enc(69)＝smod{(69+236*181),181*71}＝4232。

2.接着，分别得到C_min＝4229，C_max＝4232，C_sub＝C_max-C_min＝3。利用相似度计算公式(5)，计算Sim(P96,P80,P26)＝1-Dec(C_sub)/10＝0.7，则三条记录{P96,P80,P26}的公共属性血压的相似度为0.7。

3.然后，对于三条记录的其他属性分别生成密钥，重复步骤1、2，得到三条记录各属性的相似度。将计算得到的各属性的相似度与设定阈值对比，若均大于阈值，则三条记录匹配成功，否则匹配失败。不同属性生成不同的密钥，保证了记录间记录属性值的安全性。

4.进入迭代处理阶段。分别从三个参与方各选一条记录，作为候选对，重复步骤1、2、3，输出候选对是否匹配成功。

表2三条记录{P96,P80,P26}和{P96,P26,P37}各属性的相似度

PatientID					OverallSimilarity
						P96,P80,P26	0.7	0	0.62	0.74	0
P96,P26,P37	1	1	0.98	1	1

Claims

1.一种安全多方数值型记录匹配方法，其特征在于：包括以下步骤：

数值型记录的定义：1)某一条记录中全部属性的属性值均为数值型，则该记录为数值型记录；2)某一条记录中部分属性的属性值为数值型，则提取全部或部分数值型属性即可视为数值型记录；

Enc(V(a_id))＝smod{(V(a_id)+k_id*p),p*q} (1)

k₂＝k₁+hq (3)

式(4)中r₁,r₂,r_i,…,r_P代表来自P个参与方的记录，a_nmax,a_nmin分别代表属性n中的最大最小值，θ_n代表属性n中的相似度阈值；这是因为若最大、最小值的相似度大于阈值，证明可得P条记录在该属性下的任意两个属性值的相似度都大于阈值，证明如下：

若sim(a_nmin,a_nmax)>θ_n,可以推出sim(a,b)>θ_n,a_nmin≤a,b≤a_nmax；

若a>b,sim(a,b)＝1-(a-b)/d_max＝1-((a/b)-1)/d_max,(proposed in equation(5))；

当a＝a_nmax,b＝a_nmin；

sim(a,b)取得最小值与sim(a_nmin,a_nmax)相等；

因此,sim(a,b)>θ_n，

同理可证，当a<b or a＝b,sim(a,b)>θ_n；

两个数值n₁，n₂的相似度计算公式表达如下：

其中d_max为两个数值相差的最大差值；

最终将匹配成功的重复数据对象对输出。