CN108334577A - 一种安全多方数值型记录匹配方法 - Google Patents
一种安全多方数值型记录匹配方法 Download PDFInfo
- Publication number
- CN108334577A CN108334577A CN201810067980.5A CN201810067980A CN108334577A CN 108334577 A CN108334577 A CN 108334577A CN 201810067980 A CN201810067980 A CN 201810067980A CN 108334577 A CN108334577 A CN 108334577A
- Authority
- CN
- China
- Prior art keywords
- record
- attribute
- value
- similarity
- numeric type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6227—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Storage Device Security (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种安全有效的多方数值型记录匹配方法,属于数据质量和数据集成领域,具体方法为:各数据源间统一参数、生成密钥,接着,进行以下三个步骤,(1)利用类模运算加密各数据源中的数值型记录,(2)安全地查询出各数值型属性中的最大最小值,并优化地计算两者间的相似度作为各记录在该属性中的相似度,(3)通过各记录在各属性中的相似度,判断是否匹配成功。采用本发明的多方数值型记录匹配方法,可以在更短的时间内,更加安全有效地识别出重复的数据对象;通过证明若属性中最大最小值的相似度大于阈值,则任意两个属性值的相似度均大于阈值,只需安全快速地查找出各属性的最大最小值,即可判断各数值型记录是否匹配成功,保证了高效性。
Description
技术领域
本发明属于数据集成和数据安全领域,主要涉及一种安全有效的多方数值型记录匹配方法。
背景技术
随着科技的不断进步,数据正快速的增长和累积。减少数据冗余,实现数据共享已成为大数据时代的首要任务。记录链接,也称为实体识别、实体解析、实体匹配、记录连接、重复探测、记录去重、实体辨析、引用消歧、重复数据删除,它是指从一个或多个数据源中匹配出代表现实世界中同一实体的记录。记录链接的应用范围很广泛,包括企业客户信息管理、欺诈预防、医疗卫生、目录整合、卫星和遥感数据的识别等。但是,当记录信息涉及到个人隐私或敏感信息时,我们必须要考虑记录信息的隐私保护问题。因此,近年来国内外掀起了研究隐私保护下的记录链接(Privacy-preserving record linkage,PPRL)的热潮。PPRL技术可以保证在记录链接的过程中,只有最终匹配结果被各数据源间共享,其他未匹配的记录信息均未被泄露。例如,在分散的医疗体系中,某人的医疗信息可能分布在多个医院,找出同一个人在不同医院的诊断信息有利于更准确的分析病情,但由于涉及到患者隐私,各医院并不希望暴露患者的医疗信息。PPRL技术可以既找出某位患者在各医院的医疗信息,又保证各医院其他患者的医疗信息不被泄露。因此,PPRL技术不仅具有理论研究价值,而且有着重要和迫切的实际应用价值。
PPRL主要包括三个步骤:数据安全分块、数据对象相似度安全计算和数据对象对匹配决定。首先,数据安全分块用于安全地缩小搜索空间,减少无用的数据对象比较,提升识别速度;数据安全分块是一个可选步骤。其次,安全地计算数据对象之间的相似度是PPRL的一个重要环节,需要保证数据对象对加密后的相似度与原数据对象对的相似度相近,即若相似度越大,则该数据对象对匹配的可能性越大;相似度计算要用到相似度计算函数。最后,当获得了数据对象相似度之后,需要利用数据对象相似度来决定数据对象之间是否匹配(重复),当前已有多种匹配决定的方法。
目前已有的PPRL方法存在两方面不足:1)只适用于两个数据源,对于三个及以上的多方PPRL方法的研究还很少。这是因为想要找到一个可以安全合理度量多条记录相似度的方法并不容易,而且适用于两个数据源的相似度度量方法大多数并不适用于多数据源。2)现有隐私保护处理方法只适用于字符串属性,对于数值型属性的隐私保护方法研究较少。若将处理字符串的隐私保护方法应用于数值型属性,处理后的数值型属性间的相似度很容易与原属性值间的相似度差别很大,因此需要提出适用于数值型属性的隐私保护方法。多个参与方和数值型属性在现实中的很多应用中常见,因此,研究安全有效的多方数值型记录匹配方法具有重要的现实意义。
发明内容
针对已有安全多方记录匹配方法的不足,如只适用于字符型数据、加密过程复杂、时间代价大等不足,本发明提供了一种适用于数值型记录的高效的安全多方记录匹配方法。
一种安全多方数值型记录匹配方法,包括以下步骤:
步骤1.多方数据源数值型记录的加密;给定参与方个数P,利用类模运算(smod)对数值型记录加密,P个参与方统一公共匹配属性A={an|1≤n≤d};
数值型记录的定义:1)某一条记录中全部属性的属性值均为数值型,则该记录为数值型记录;2)某一条记录中部分属性的属性值为数值型,则提取全部或部分数值型属性即可视为数值型记录。
步骤1-1.数值型记录加密密钥生成;参与方P1生成P个密钥Ki(1≤i≤P)分配给P个参与方,每个密钥包含d个子密钥Ki={kin|1≤n≤d}分别加密数值属性{ai1,ai2,…,aid},每个数值属性的加密密钥不同,加强了数据的安全性;
步骤1-2.数值型记录加密;给定一条数值型记录ri及匹配属性{ai1,ai2,…,aid},加密密钥为Ki={ki1,ki2,…,kid},利用类模运算加密记录,加密方式及类模运算如下:
Enc(V(aid))=smod{(V(aid)+kid*p),p*q} (1)
其中V(aid)表示记录ri中属性ad的值,m代表原文信息,p和q均为质数;
各参与方利用各自密钥加密记录,然后各方记录做笛卡尔积运算生成候选记录对;
步骤2.迭代优化地处理候选记录对;迭代优化地处理候选记录对,并逐渐地输出匹配成功的候选记录对,方法如下:
步骤2-1.各数值型属性中最大、最小值安全查询;给定来自于P个参与方的P条记录,安全地查找出P条记录各数值型属性中的最大、最小值,给定一个数值型属性an,已知该属性下加密后的各属性值Cin=Enc(ri(an))(1≤i≤P),若加密后的属性值具有原值的大小关系,则查找出密文中的最大、最小值解密后即为原值中的最大、最小值;为了满足若r1(an)≥r2(an),则Enc(r1(an))≥Enc(r2(an)),且若Enc(r1(an))≥Enc(r2(an)),则r1(an)≥r2(an),经推理记录r1,r2的密钥k1,k2需满足如下关系:
k2=k1+hq (3)
h为整数;接着将各参与方加密后的密文传给匹配单元,由于类模运算具有同态减法的性质,因此密文在匹配单元中进行安全减法计算,查找出密文中的最大、最小值;
步骤2-2.优化地对候选记录对进行相似度计算;计算候选记录对中P条记录的相似度,利用步骤2-1得到P条数值型记录在各属性下的密文最大、最小值,通过安全减法,计算P条记录在各属性下的相似度,若均大于等于阈值则P条记录匹配成功;否则,匹配失败;如(4)所示,
式(4)中r1,r2,ri,…,rP代表来自P个参与方的记录,anmax,anmin分别代表属性n中的最大最小值,θn代表属性n中的相似度阈值。这是因为若最大、最小值的相似度大于阈值,证明可得P条记录在该属性下的任意两个属性值的相似度都大于阈值,证明如下:
证明.若sim(anmin,anmax)>θn,可以推出sim(a,b)>θn,anmin≤a,b≤anmax
若a>b,sim(a,b)=1-(a-b)/dmax=1-((a/b)-1)/dmax,(proposed in equation(5))
当a=anmax,b=anmin,
sim(a,b)取得最小值与sim(anmin,anmax)相等,
因此,sim(a,b)>θn,
同理可证,当a<b or a=b,sim(a,b)>θn;
两个数值n1,n2的相似度计算公式表达如下:
其中dmax为两个数值相差的最大差值;
最终将匹配成功的重复数据对象对输出。
本发明的优点是:采用本发明的安全多方数值型记录匹配方法,通过类模加密、同态运算,保证了匹配结果的高查全率和查准率;通过相似度计算优化方法,给定较短时间预算,可以匹配出更多的重复的数据对象。
附图说明
图1是本发明总体流程图。
图2是各参与方间关系及数据的传输过程。
图3是本发明与已有的其它两个方法的运行时间对比图。
图4是本发明与已有的其它两个方法的匹配质量对比图。
具体实施方式
下面结合说明书附图1-4以及具体实施的例子对本发明的进一步详细说明。
如表1所示,从病患信息库中选取4条记录作为样例数据集,样例数据均来自。该数据集中对应的真实识别结果是{P96,P26,P37}。现在我们举例计算3条记录{P96,P80,P26}的相似度,判断3条记录是否匹配成功。
表1样例数据集,包含4条病患记录,属性有血压、2小时胰岛素量、糖尿病系数和年龄
ID | 血压 | 2小时胰岛素量 | 糖尿病系数 | 年龄 |
P96 | 69 | 0 | 0.351 | 31 |
P80 | 66 | 543 | 0.158 | 53 |
P26 | 69 | 0 | 0.347 | 31 |
P37 | 69 | 0 | 0.357 | 31 |
1.首先,生成密钥{p=181,q=71,rand1=23,rand2=94,rand3=236}加密三条记录的公共属性血压的属性值,其中加密方法为类模运算,得到如下结果,
C1=Enc(66)=smod{(66+23*181),181*71}=4229,
C2=Enc(70)=smod{(70+94*181),181*71}=4233,
C3=Enc(69)=smod{(69+236*181),181*71}=4232。
2.接着,分别得到Cmin=4229,Cmax=4232,Csub=Cmax-Cmin=3。利用相似度计算公式(5),计算Sim(P96,P80,P26)=1-Dec(Csub)/10=0.7,则三条记录{P96,P80,P26}的公共属性血压的相似度为0.7。
3.然后,对于三条记录的其他属性分别生成密钥,重复步骤1、2,得到三条记录各属性的相似度。将计算得到的各属性的相似度与设定阈值对比,若均大于阈值,则三条记录匹配成功,否则匹配失败。不同属性生成不同的密钥,保证了记录间记录属性值的安全性。
4.进入迭代处理阶段。分别从三个参与方各选一条记录,作为候选对,重复步骤1、2、3,输出候选对是否匹配成功。
表2三条记录{P96,P80,P26}和{P96,P26,P37}各属性的相似度
PatientID | OverallSimilarity | ||||
P96,P80,P26 | 0.7 | 0 | 0.62 | 0.74 | 0 |
P96,P26,P37 | 1 | 1 | 0.98 | 1 | 1 |
Claims (1)
1.一种安全多方数值型记录匹配方法,其特征在于:包括以下步骤:
步骤1.多方数据源数值型记录的加密;给定参与方个数P,利用类模运算(smod)对数值型记录加密,P个参与方统一公共匹配属性A={an|1≤n≤d};
数值型记录的定义:1)某一条记录中全部属性的属性值均为数值型,则该记录为数值型记录;2)某一条记录中部分属性的属性值为数值型,则提取全部或部分数值型属性即可视为数值型记录;
步骤1-1.数值型记录加密密钥生成;参与方P1生成P个密钥Ki(1≤i≤P)分配给P个参与方,每个密钥包含d个子密钥Ki={kin|1≤n≤d}分别加密数值属性{ai1,ai2,…,aid},每个数值属性的加密密钥不同,加强了数据的安全性;
步骤1-2.数值型记录加密;给定一条数值型记录ri及匹配属性{ai1,ai2,…,aid},加密密钥为Ki={ki1,ki2,…,kid},利用类模运算加密记录,加密方式及类模运算如下:
Enc(V(aid))=smod{(V(aid)+kid*p),p*q} (1)
其中V(aid)表示记录ri中属性ad的值,m代表原文信息,p和q均为质数;
各参与方利用各自密钥加密记录,然后各方记录做笛卡尔积运算生成候选记录对;
步骤2.迭代优化地处理候选记录对;迭代优化地处理候选记录对,并逐渐地输出匹配成功的候选记录对,方法如下:
步骤2-1.各数值型属性中最大、最小值安全查询;给定来自于P个参与方的P条记录,安全地查找出P条记录各数值型属性中的最大、最小值,给定一个数值型属性an,已知该属性下加密后的各属性值Cin=Enc(ri(an))(1≤i≤P),若加密后的属性值具有原值的大小关系,则查找出密文中的最大、最小值解密后即为原值中的最大、最小值;为了满足若r1(an)≥r2(an),则Enc(r1(an))≥Enc(r2(an)),且若Enc(r1(an))≥Enc(r2(an)),则r1(an)≥r2(an),经推理记录r1,r2的密钥k1,k2需满足如下关系:
k2=k1+hq (3)
h为整数;接着将各参与方加密后的密文传给匹配单元,由于类模运算具有同态减法的性质,因此密文在匹配单元中进行安全减法计算,查找出密文中的最大、最小值;
步骤2-2.优化地对候选记录对进行相似度计算;计算候选记录对中P条记录的相似度,利用步骤2-1得到P条数值型记录在各属性下的密文最大、最小值,通过安全减法,计算P条记录在各属性下的相似度,若均大于等于阈值则P条记录匹配成功;否则,匹配失败;如(4)所示,
式(4)中r1,r2,ri,…,rP代表来自P个参与方的记录,anmax,anmin分别代表属性n中的最大最小值,θn代表属性n中的相似度阈值;这是因为若最大、最小值的相似度大于阈值,证明可得P条记录在该属性下的任意两个属性值的相似度都大于阈值,证明如下:
若sim(anmin,anmax)>θn,可以推出sim(a,b)>θn,anmin≤a,b≤anmax;
若a>b,sim(a,b)=1-(a-b)/dmax=1-((a/b)-1)/dmax,(proposed in equation(5));
当a=anmax,b=anmin;
sim(a,b)取得最小值与sim(anmin,anmax)相等;
因此,sim(a,b)>θn,
同理可证,当a<b or a=b,sim(a,b)>θn;
两个数值n1,n2的相似度计算公式表达如下:
其中dmax为两个数值相差的最大差值;
最终将匹配成功的重复数据对象对输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810067980.5A CN108334577B (zh) | 2018-01-24 | 2018-01-24 | 一种安全多方数值型记录匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810067980.5A CN108334577B (zh) | 2018-01-24 | 2018-01-24 | 一种安全多方数值型记录匹配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108334577A true CN108334577A (zh) | 2018-07-27 |
CN108334577B CN108334577B (zh) | 2020-02-07 |
Family
ID=62926306
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810067980.5A Active CN108334577B (zh) | 2018-01-24 | 2018-01-24 | 一种安全多方数值型记录匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108334577B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113032839A (zh) * | 2021-05-25 | 2021-06-25 | 华控清交信息科技(北京)有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
CN113408001A (zh) * | 2021-08-18 | 2021-09-17 | 腾讯科技(深圳)有限公司 | 多方安全确定最值的方法、装置、设备及存储介质 |
CN116631443A (zh) * | 2021-02-26 | 2023-08-22 | 武汉星巡智能科技有限公司 | 基于振动频谱对比的婴儿哭声类别检测方法、装置及设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060020611A1 (en) * | 2000-12-08 | 2006-01-26 | Gilbert Eric S | De-identification and linkage of data records |
CN101937464A (zh) * | 2010-09-13 | 2011-01-05 | 武汉达梦数据库有限公司 | 基于逐字索引的密文检索方法 |
US20140289513A1 (en) * | 2013-03-15 | 2014-09-25 | Arizona Board Of Regents On Behalf Of Arizona State University | Enabling Comparable Data Access Control for Lightweight Mobile Devices in Clouds |
CN104704493A (zh) * | 2012-08-15 | 2015-06-10 | 维萨国际服务协会 | 可搜索的经加密的数据 |
-
2018
- 2018-01-24 CN CN201810067980.5A patent/CN108334577B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060020611A1 (en) * | 2000-12-08 | 2006-01-26 | Gilbert Eric S | De-identification and linkage of data records |
CN101937464A (zh) * | 2010-09-13 | 2011-01-05 | 武汉达梦数据库有限公司 | 基于逐字索引的密文检索方法 |
CN104704493A (zh) * | 2012-08-15 | 2015-06-10 | 维萨国际服务协会 | 可搜索的经加密的数据 |
US20140289513A1 (en) * | 2013-03-15 | 2014-09-25 | Arizona Board Of Regents On Behalf Of Arizona State University | Enabling Comparable Data Access Control for Lightweight Mobile Devices in Clouds |
US20170272411A1 (en) * | 2013-03-15 | 2017-09-21 | Arizona Board Of Regents On Behalf Of Arizona State University | Enabling comparable data access control for lightweight mobile devices in clouds |
Non-Patent Citations (1)
Title |
---|
申德荣等: "一种面向Deep Web数据源的重复记录识别模型", 《电子学报》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116631443A (zh) * | 2021-02-26 | 2023-08-22 | 武汉星巡智能科技有限公司 | 基于振动频谱对比的婴儿哭声类别检测方法、装置及设备 |
CN116631443B (zh) * | 2021-02-26 | 2024-05-07 | 武汉星巡智能科技有限公司 | 基于振动频谱对比的婴儿哭声类别检测方法、装置及设备 |
CN113032839A (zh) * | 2021-05-25 | 2021-06-25 | 华控清交信息科技(北京)有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
CN113408001A (zh) * | 2021-08-18 | 2021-09-17 | 腾讯科技(深圳)有限公司 | 多方安全确定最值的方法、装置、设备及存储介质 |
CN113408001B (zh) * | 2021-08-18 | 2021-11-09 | 腾讯科技(深圳)有限公司 | 多方安全确定最值的方法、装置、设备及存储介质 |
WO2023020216A1 (zh) * | 2021-08-18 | 2023-02-23 | 腾讯科技(深圳)有限公司 | 多方安全确定最值的方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108334577B (zh) | 2020-02-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109314641B (zh) | 用于核实同态加密数据并对其执行操作的系统和方法 | |
Durham et al. | Composite bloom filters for secure record linkage | |
Domadiya et al. | Privacy preserving distributed association rule mining approach on vertically partitioned healthcare data | |
Ying et al. | A lightweight policy preserving EHR sharing scheme in the cloud | |
Bruekers et al. | Privacy-preserving matching of dna profiles | |
CN108334577A (zh) | 一种安全多方数值型记录匹配方法 | |
Liang et al. | Efficient and privacy-preserving decision tree classification for health monitoring systems | |
US20240143795A1 (en) | Method and device for intersecting unbalanced private sets | |
Obiri et al. | Personal health records sharing scheme based on attribute based signcryption with data integrity verifiable | |
Randall et al. | Privacy preserving record linkage using homomorphic encryption | |
Borst et al. | The Swiss solution for anonymously chaining patient files | |
Kantarcioglu et al. | Formal anonymity models for efficient privacy-preserving joins | |
Mueller et al. | Differentially Private Guarantees for Analytics and Machine Learning on Graphs: A Survey of Results | |
Gowri et al. | Secured machine learning using Approximate homomorphic scheme for healthcare | |
Salama et al. | Secure biometric systems based on bio-signals and DNA encryption of optical spectrograms | |
Patel et al. | Privacy preservation for big data healthcare management | |
Quantin et al. | Epidemiological and statistical secured matching in France | |
Haque et al. | SSI− FL: Self-sovereign identity based privacy-preserving federated learning | |
Guo et al. | Privacy preserving calculation of fisher criterion score for informative gene selection | |
Hao et al. | Efficient and privacy-preserving multi-party skyline queries in online medical primary diagnosis | |
Dhamdhere et al. | Modified Apriori Based Data Sanitization for Cloud Data Security: An Optimization Assisted Model | |
Han et al. | A private entity matching approach for multiple databases | |
CN115473699B (zh) | 一种基于分布式的隐私保护配对t检验方法及装置 | |
Sumana et al. | Modelling a secure support vector machine classifier for private data | |
Dilmaghani | A privacy-preserving solution for storage and processing of personal health records against brute-force attacks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |