CN108334577B - 一种安全多方数值型记录匹配方法 - Google Patents

一种安全多方数值型记录匹配方法 Download PDF

Info

Publication number
CN108334577B
CN108334577B CN201810067980.5A CN201810067980A CN108334577B CN 108334577 B CN108334577 B CN 108334577B CN 201810067980 A CN201810067980 A CN 201810067980A CN 108334577 B CN108334577 B CN 108334577B
Authority
CN
China
Prior art keywords
numerical
record
attribute
records
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810067980.5A
Other languages
English (en)
Other versions
CN108334577A (zh
Inventor
申德荣
韩姝敏
聂铁铮
寇月
于戈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN201810067980.5A priority Critical patent/CN108334577B/zh
Publication of CN108334577A publication Critical patent/CN108334577A/zh
Application granted granted Critical
Publication of CN108334577B publication Critical patent/CN108334577B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6227Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries

Abstract

本发明公开一种安全有效的多方数值型记录匹配方法,属于数据质量和数据集成领域,具体方法为:各数据源间统一参数、生成密钥,接着,进行以下三个步骤,(1)利用类模运算加密各数据源中的数值型记录,(2)安全地查询出各数值型属性中的最大最小值,并优化地计算两者间的相似度作为各记录在该属性中的相似度,(3)通过各记录在各属性中的相似度,判断是否匹配成功。采用本发明的多方数值型记录匹配方法,可以在更短的时间内,更加安全有效地识别出重复的数据对象;通过证明若属性中最大最小值的相似度大于阈值,则任意两个属性值的相似度均大于阈值,只需安全快速地查找出各属性的最大最小值,即可判断各数值型记录是否匹配成功,保证了高效性。

Description

一种安全多方数值型记录匹配方法
技术领域
本发明属于数据集成和数据安全领域,主要涉及一种安全有效的多方数值型记录匹配方法。
背景技术
随着科技的不断进步,数据正快速的增长和累积。减少数据冗余,实现数据共享已成为大数据时代的首要任务。记录链接,也称为实体识别、实体解析、实体匹配、记录连接、重复探测、记录去重、实体辨析、引用消歧、重复数据删除,它是指从一个或多个数据源中匹配出代表现实世界中同一实体的记录。记录链接的应用范围很广泛,包括企业客户信息管理、欺诈预防、医疗卫生、目录整合、卫星和遥感数据的识别等。但是,当记录信息涉及到个人隐私或敏感信息时,我们必须要考虑记录信息的隐私保护问题。因此,近年来国内外掀起了研究隐私保护下的记录链接(Privacy-preserving record linkage,PPRL)的热潮。PPRL技术可以保证在记录链接的过程中,只有最终匹配结果被各数据源间共享,其他未匹配的记录信息均未被泄露。例如,在分散的医疗体系中,某人的医疗信息可能分布在多个医院,找出同一个人在不同医院的诊断信息有利于更准确的分析病情,但由于涉及到患者隐私,各医院并不希望暴露患者的医疗信息。PPRL技术可以既找出某位患者在各医院的医疗信息,又保证各医院其他患者的医疗信息不被泄露。因此,PPRL技术不仅具有理论研究价值,而且有着重要和迫切的实际应用价值。
PPRL主要包括三个步骤:数据安全分块、数据对象相似度安全计算和数据对象对匹配决定。首先,数据安全分块用于安全地缩小搜索空间,减少无用的数据对象比较,提升识别速度;数据安全分块是一个可选步骤。其次,安全地计算数据对象之间的相似度是PPRL的一个重要环节,需要保证数据对象对加密后的相似度与原数据对象对的相似度相近,即若相似度越大,则该数据对象对匹配的可能性越大;相似度计算要用到相似度计算函数。最后,当获得了数据对象相似度之后,需要利用数据对象相似度来决定数据对象之间是否匹配(重复),当前已有多种匹配决定的方法。
目前已有的PPRL方法存在两方面不足:1)只适用于两个数据源,对于三个及以上的多方PPRL方法的研究还很少。这是因为想要找到一个可以安全合理度量多条记录相似度的方法并不容易,而且适用于两个数据源的相似度度量方法大多数并不适用于多数据源。2)现有隐私保护处理方法只适用于字符串属性,对于数值型属性的隐私保护方法研究较少。若将处理字符串的隐私保护方法应用于数值型属性,处理后的数值型属性间的相似度很容易与原属性值间的相似度差别很大,因此需要提出适用于数值型属性的隐私保护方法。多个参与方和数值型属性在现实中的很多应用中常见,因此,研究安全有效的多方数值型记录匹配方法具有重要的现实意义。
发明内容
针对已有安全多方记录匹配方法的不足,如只适用于字符型数据、加密过程复杂、时间代价大等不足,本发明提供了一种适用于数值型记录的高效的安全多方记录匹配方法。
一种安全多方数值型记录匹配方法,包括以下步骤:
步骤1.多方数据源数值型记录的加密;给定参与方个数P,利用类模运算(smod)对数值型记录加密,P个参与方统一公共匹配属性A={an|1≤n≤d};
数值型记录的定义:1)某一条记录中全部属性的属性值均为数值型,则该记录为数值型记录;2)某一条记录中部分属性的属性值为数值型,则提取全部或部分数值型属性即可视为数值型记录。
步骤1-1.数值型记录加密密钥生成;参与方P1生成P个密钥Ki(1≤i≤P)分配给P个参与方,每个密钥包含d个子密钥Ki={kin|1≤n≤d}分别加密数值属性{ai1,ai2,…,aid},每个数值属性的加密密钥不同,加强了数据的安全性;
步骤1-2.数值型记录加密;给定一条数值型记录ri及匹配属性{ai1,ai2,…,aid},加密密钥为Ki={ki1,ki2,…,kid},利用类模运算加密记录,加密方式及类模运算如下:
Enc(V(aid))=smod{(V(aid)+kid*p),p*q} (1)
其中V(aid)表示记录ri中属性ad的值,m代表原文信息,p和q均为质数;
各参与方利用各自密钥加密记录,然后各方记录做笛卡尔积运算生成候选记录对;
步骤2.迭代优化地处理候选记录对;迭代优化地处理候选记录对,并逐渐地输出匹配成功的候选记录对,方法如下:
步骤2-1.各数值型属性中最大、最小值安全查询;给定来自于P个参与方的P条记录,安全地查找出P条记录各数值型属性中的最大、最小值,给定一个数值型属性an,已知该属性下加密后的各属性值Cin=Enc(ri(an))(1≤i≤P),若加密后的属性值具有原值的大小关系,则查找出密文中的最大、最小值解密后即为原值中的最大、最小值;为了满足若r1(an)≥r2(an),则Enc(r1(an))≥Enc(r2(an)),且若Enc(r1(an))≥Enc(r2(an)),则r1(an)≥r2(an),经推理记录r1,r2的密钥k1,k2需满足如下关系:
k2=k1+hq (3)
h为整数;接着将各参与方加密后的密文传给匹配单元,由于类模运算具有同态减法的性质,因此密文在匹配单元中进行安全减法计算,查找出密文中的最大、最小值;
步骤2-2.优化地对候选记录对进行相似度计算;计算候选记录对中P条记录的相似度,利用步骤2-1得到P条数值型记录在各属性下的密文最大、最小值,通过安全减法,计算P条记录在各属性下的相似度,若均大于等于阈值则P条记录匹配成功;否则,匹配失败;如(4)所示,
式(4)中r1,r2,ri,…,rP代表来自P个参与方的记录,anmax,anmin分别代表属性n中的最大最小值,θn代表属性n中的相似度阈值。这是因为若最大、最小值的相似度大于阈值,证明可得P条记录在该属性下的任意两个属性值的相似度都大于阈值,证明如下:
证明.若sim(anmin,anmax)>θn,可以推出sim(a,b)>θn,anmin≤a,b≤anmax
若a>b,sim(a,b)=1-(a-b)/dmax=1-((a/b)-1)/dmax,(proposed in equation(5))
当a=anmax,b=anmin,
sim(a,b)取得最小值与sim(anmin,anmax)相等,
因此,sim(a,b)>θn
同理可证,当a<b or a=b,sim(a,b)>θn
两个数值n1,n2的相似度计算公式表达如下:
Figure BDA0001557242210000032
其中dmax为两个数值相差的最大差值;
最终将匹配成功的重复数据对象对输出。
本发明的优点是:采用本发明的安全多方数值型记录匹配方法,通过类模加密、同态运算,保证了匹配结果的高查全率和查准率;通过相似度计算优化方法,给定较短时间预算,可以匹配出更多的重复的数据对象。
附图说明
图1是本发明总体流程图。
图2是各参与方间关系及数据的传输过程。
图3是本发明与已有的其它两个方法的运行时间对比图。
图4是本发明与已有的其它两个方法的匹配质量对比图。
具体实施方式
下面结合说明书附图1-4以及具体实施的例子对本发明的进一步详细说明。
如表1所示,从病患信息库中选取4条记录作为样例数据集,样例数据均来自。该数据集中对应的真实识别结果是{P96,P26,P37}。现在我们举例计算3条记录{P96,P80,P26}的相似度,判断3条记录是否匹配成功。
表1样例数据集,包含4条病患记录,属性有血压、2小时胰岛素量、糖尿病系数和年龄
ID 血压 2小时胰岛素量 糖尿病系数 年龄
P96 69 0 0.351 31
P80 66 543 0.158 53
P26 69 0 0.347 31
P37 69 0 0.357 31
1.首先,生成密钥{p=181,q=71,rand1=23,rand2=94,rand3=236}加密三条记录的公共属性血压的属性值,其中加密方法为类模运算,得到如下结果,
C1=Enc(66)=smod{(66+23*181),181*71}=4229,
C2=Enc(70)=smod{(70+94*181),181*71}=4233,
C3=Enc(69)=smod{(69+236*181),181*71}=4232。
2.接着,分别得到Cmin=4229,Cmax=4232,Csub=Cmax-Cmin=3。利用相似度计算公式(5),计算Sim(P96,P80,P26)=1-Dec(Csub)/10=0.7,则三条记录{P96,P80,P26}的公共属性血压的相似度为0.7。
3.然后,对于三条记录的其他属性分别生成密钥,重复步骤1、2,得到三条记录各属性的相似度。将计算得到的各属性的相似度与设定阈值对比,若均大于阈值,则三条记录匹配成功,否则匹配失败。不同属性生成不同的密钥,保证了记录间记录属性值的安全性。
4.进入迭代处理阶段。分别从三个参与方各选一条记录,作为候选对,重复步骤1、2、3,输出候选对是否匹配成功。
表2三条记录{P96,P80,P26}和{P96,P26,P37}各属性的相似度
PatientID OverallSimilarity
P96,P80,P26 0.7 0 0.62 0.74 0
P96,P26,P37 1 1 0.98 1 1

Claims (1)

1.一种安全多方数值型记录匹配方法,其特征在于:包括以下步骤:
步骤1.多方数据源数值型记录的加密;给定参与方个数P,利用类模运算smod对数值型记录加密,P个参与方统一公共匹配属性A={an|1≤n≤d};
数值型记录的定义:1)某一条记录中全部属性的属性值均为数值型,则该记录为数值型记录;2)某一条记录中部分属性的属性值为数值型,则提取全部或部分数值型属性即可视为数值型记录;
步骤1-1.数值型记录加密密钥生成;参与方P1生成P个密钥Ki,分配给P个参与方,其中1≤i≤P,每个密钥包含d个子密钥Ki={kin|1≤n≤d}分别加密数值属性{ai1,ai2,…,aid},每个数值属性的加密密钥不同,加强了数据的安全性;
步骤1-2.数值型记录加密;给定一条数值型记录ri及匹配属性{ai1,ai2,…,aid},加密密钥为Ki={ki1,ki2,…,kid},利用类模运算加密记录,加密方式及类模运算如下:
Enc(V(aid))=smod{(V(aid)+kid*p),p*q} (1)
Figure FDA0002273013630000011
其中V(aid)表示记录ri中属性ad的值,m代表原文信息,p和q均为质数;
各参与方利用各自密钥加密记录,然后各方记录做笛卡尔积运算生成候选记录对;
步骤2.迭代优化地处理候选记录对;迭代优化地处理候选记录对,并逐渐地输出匹配成功的候选记录对,方法如下:
步骤2-1.各数值型属性中最大、最小值安全查询;给定来自于P个参与方的P条记录,安全地查找出P条记录各数值型属性中的最大、最小值,给定一个数值型属性an,已知该属性下加密后的各属性值Cin=Enc(ri(an)),1≤i≤P,若加密后的属性值具有原值的大小关系,则查找出密文中的最大、最小值解密后即为原值中的最大、最小值;为了满足若r1(an)≥r2(an),则Enc(r1(an))≥Enc(r2(an)),且若Enc(r1(an))≥Enc(r2(an)),则r1(an)≥r2(an),经推理记录r1,r2的密钥k1,k2需满足如下关系:
k2=k1+hq (3)
h为整数;接着将各参与方加密后的密文传给匹配单元,由于类模运算具有同态减法的性质,因此密文在匹配单元中进行安全减法计算,查找出密文中的最大、最小值;
步骤2-2.优化地对候选记录对进行相似度计算;计算候选记录对中P条记录的相似度,利用步骤2-1得到P条数值型记录在各属性下的密文最大、最小值,通过安全减法,计算P条记录在各属性下的相似度,若均大于等于阈值则P条记录匹配成功;否则,匹配失败;如(4)所示,
式(4)中r1,r2,ri,…,rP代表来自P个参与方的记录,anmax,anmin分别代表属性n中的最大最小值,θn代表属性n中的相似度阈值;这是因为若最大、最小值的相似度大于阈值,证明可得P条记录在该属性下的任意两个属性值的相似度都大于阈值,证明如下:
若sim(anmin,anmax)>θn,可以推出sim(a,b)>θn,anmin≤a,b≤anmax
若a>b,sim(a,b)=1-(a-b)/dmax,在等式(5)中可知;
当a=anmax,b=anmin
sim(a,b)取得最小值与sim(anmin,anmax)相等;
因此,sim(a,b)>θn
同理可证,当a<b or a=b,sim(a,b)>θn
两个数值n1,n2的相似度计算公式表达如下:
Figure FDA0002273013630000022
其中dmax为两个数值相差的最大差值;
最终将匹配成功的重复数据对象对输出。
CN201810067980.5A 2018-01-24 2018-01-24 一种安全多方数值型记录匹配方法 Active CN108334577B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810067980.5A CN108334577B (zh) 2018-01-24 2018-01-24 一种安全多方数值型记录匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810067980.5A CN108334577B (zh) 2018-01-24 2018-01-24 一种安全多方数值型记录匹配方法

Publications (2)

Publication Number Publication Date
CN108334577A CN108334577A (zh) 2018-07-27
CN108334577B true CN108334577B (zh) 2020-02-07

Family

ID=62926306

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810067980.5A Active CN108334577B (zh) 2018-01-24 2018-01-24 一种安全多方数值型记录匹配方法

Country Status (1)

Country Link
CN (1) CN108334577B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113032839B (zh) * 2021-05-25 2021-08-10 华控清交信息科技(北京)有限公司 一种数据处理方法、装置和用于数据处理的装置
CN113408001B (zh) * 2021-08-18 2021-11-09 腾讯科技(深圳)有限公司 多方安全确定最值的方法、装置、设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020073138A1 (en) * 2000-12-08 2002-06-13 Gilbert Eric S. De-identification and linkage of data records
CN101937464B (zh) * 2010-09-13 2012-01-25 武汉达梦数据库有限公司 基于逐字索引的密文检索方法
EP3364316B1 (en) * 2012-08-15 2019-10-02 Visa International Service Association Searchable encrypted data
US9705850B2 (en) * 2013-03-15 2017-07-11 Arizona Board Of Regents On Behalf Of Arizona State University Enabling comparable data access control for lightweight mobile devices in clouds

Also Published As

Publication number Publication date
CN108334577A (zh) 2018-07-27

Similar Documents

Publication Publication Date Title
US11003681B2 (en) Anonymization system
Kim et al. Secure and differentially private logistic regression for horizontally distributed data
Wang et al. FastGeo: Efficient geometric range queries on encrypted spatial data
Kohlmayer et al. A flexible approach to distributed data anonymization
O'Keefe et al. Privacy-preserving data linkage protocols
JP2008500598A (ja) 通信効率の良い秘匿情報検索及び紛失通信のための方法及び装置
CN115688167B (zh) 匿踪查询方法、装置和系统及存储介质
Liang et al. Efficient and privacy-preserving decision tree classification for health monitoring systems
Jiang et al. N-gram based secure similar document detection
Zhu et al. Privacy preserving similarity evaluation of time series data.
Chen et al. Perfectly secure and efficient two-party electronic-health-record linkage
CN108334577B (zh) 一种安全多方数值型记录匹配方法
CN111259440B (zh) 一种针对云外包数据的隐私保护决策树分类方法
Troncoso-Pastoriza et al. A secure multidimensional point inclusion protocol
Randall et al. Privacy preserving record linkage using homomorphic encryption
Rajput et al. -Score-Based Secure Biomedical Model for Effective Skin Lesion Segmentation Over eHealth Cloud
EP3441904B1 (en) System and architecture for analytics on encrypted databases
Kim et al. Privacy-preserving parallel kNN classification algorithm using index-based filtering in cloud computing
Sun et al. A systematic review on privacy-preserving distributed data mining
Kantarcioglu et al. Formal anonymity models for efficient privacy-preserving joins
Singh et al. Practical personalized genomics in the encrypted domain
Kesarwani et al. Secure k-anonymization over encrypted databases
Saha et al. Outsourcing private equality tests to the cloud
JP7132506B2 (ja) 秘密情報検索システム、秘密情報検索プログラム、および秘密情報検索方法
Hao et al. Efficient and privacy-preserving multi-party skyline queries in online medical primary diagnosis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant