CN110609831B - 基于隐私保护和安全多方计算的数据链接方法 - Google Patents

基于隐私保护和安全多方计算的数据链接方法 Download PDF

Info

Publication number
CN110609831B
CN110609831B CN201910794804.6A CN201910794804A CN110609831B CN 110609831 B CN110609831 B CN 110609831B CN 201910794804 A CN201910794804 A CN 201910794804A CN 110609831 B CN110609831 B CN 110609831B
Authority
CN
China
Prior art keywords
parties
data
similarity
party
records
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910794804.6A
Other languages
English (en)
Other versions
CN110609831A (zh
Inventor
韩嵩
孔梦娇
洪海波
杨柏林
谢满德
赵帅
金舒丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Gongshang University
Original Assignee
Zhejiang Gongshang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Gongshang University filed Critical Zhejiang Gongshang University
Priority to CN201910794804.6A priority Critical patent/CN110609831B/zh
Publication of CN110609831A publication Critical patent/CN110609831A/zh
Application granted granted Critical
Publication of CN110609831B publication Critical patent/CN110609831B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Telephonic Communication Services (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)

Abstract

本发明公开了一种基于隐私保护与安全多方计算的数据链接方法。本发明采用一种改进的k‑means分类方法对本地数据进行分块,减少数据记录间的比较次数,对于大型数据库有较好的可扩展性,也提高了隐私保护记录链接的执行效率;本发明通过利用可逆矩阵的性质和Shamir门限秘密共享方案保证在两个或多个记录级布鲁姆过滤器之间比较相似度的时候有较好的安全性,防止用户敏感信息被敌手获取。本发明具有较好的可拓展性且计算开销比较小,适用于真实数据量较大的现实环境中。

Description

基于隐私保护和安全多方计算的数据链接方法
技术领域
本发明涉及隐私保护数据链接的领域,尤其是涉及一种基于隐私保护与安全多方计算的数据链接方法。
背景技术
数据链接技术可用于大数据分析领域、电商领域、医疗保健领域、智能推荐领域、智能制药领域、智能交通领域等进行确认不同的记录是否属于同一个实体。如何保证数据的隐私性和安全性是当前数据链接领域面临的一个重要挑战。一方面,现有的数据链接技术很少考虑隐私保护,即使考虑隐私保护的,也在计算相似度阶段没有实施隐私保护。另一方面,现有数据链接技术的效率有待提升。
发明内容
本发明针对现有技术的不足,提供了一种基于隐私保护与安全多方计算的数据链接方法。
基于隐私保护与安全多方计算的数据链接方法,包括以下步骤:
1)利用数据清洗技术对脏数据进行处理。
2)各个数据库拥有方利用语音分块技术对本地所有的数据记录进行粗略地分块,得到k个集合。
3)计算集合内各点之和以及集合内点的数目,为了保证记录的安全,将两者加噪后相除的结果作为集合的中心点,接着利用k-means分类算法得到最终分块结果。
4)将记录根据不同属性值的权重映射到等长记录级的布鲁姆过滤器中。
5)计算记录对应的BF之间的相似度,相似度较高的记录会被分在相同的块中,在进行两方或者多方比较的时候,先利用聚类中心进行相似度比较,若相似度大于预先设定的阈值,则对每条记录进行进一步比较。
若只有两方参与比较,链接单元随机产生一个可逆矩阵发送给两个参与方,参与方将映射在布鲁姆过滤器中的记录通过可逆矩阵进行加密,并将加密结果分成两部分发送给对应的参与方,参与方将计算结果和布鲁姆过滤器中“1”的个数返回给链接单元。
若有两方以上参与比较,链接单元随机产生一个可逆矩阵,通过Shamir门限秘密共享的方式将可逆矩阵发送给各参与方,并将可逆矩阵的加密结果分成n部分发送给对应的参与方,参与方将计算结果和布鲁姆过滤器中“1”的个数先经过同态加密,再返回给链接单元,其中n为参与方的个数。
6)数据链接单元将各方返回的计算结果利用同态求和的方式来计算比较记录对的相似度,若相似度大于预先设定的阈值,则将其视为匹配,否则,匹配失败。
本发明与现有技术相比,其有益效果为:本发明具有较好的可拓展性且计算开销比较小,适用于真实数据量较大的现实环境中。同时利用改进的k-means分类方法、差分隐私技术、可逆矩阵加密以及Shamir秘密共享方案对数据记录进行分块和安全相似度计算,在保证高效的同时还能有效保证用户数据记录的安全性和隐私性。
具体实施方式
基于隐私保护与安全多方计算的数据链接方法,包括以下步骤
1)利用数据清洗技术对缺失值、噪声等脏数据进行处理。
2)各个数据库拥有方利用语音分块技术对本地数据记录进行粗略分成,得到k个集合。
3)计算集合内各点之和以及集合内点的数目,为了保证记录的安全,将两者加噪后相除的结果作为集合的中心点,接着利用k-means分类算法得到最终分块结果。
4)将记录根据不同属性值的权重映射到等长记录级的布鲁姆过滤器中。
5)相似度较高的记录会被分在相同的块中,在进行两方或者多方比较的时候,先利用聚类中心进行相似度比较,若相似度大于阈值则对每条记录进行进一步比较,比较相似度和预先设定的阈值。
若只有两方参与比较,链接单元随机产生一个可逆矩阵发送给两个参与方,参与方将映射在布鲁姆过滤器中的记录通过可逆矩阵进行加密,并将加密结果分成两部分发送给对应的参与方,参与方将计算结果和布鲁姆过滤器中“1”的个数返回给链接单元。
若有多方(两方以上)参与比较,链接单元会随机产生一个可逆矩阵,通过Shamir门限秘密共享的方式将可逆矩阵发送给各参与方,并将加密结果分成n(参与方的个数)部分发送给对应的参与方,参与方将计算结果和布鲁姆过滤器中“1”的个数先经过同态加密,再返回给链接单元。
6)数据链接单元将各方返回的计算结果求和(利用同态求和的方式)来计算比较记录对的相似度,若相似度大于预先设定的阈值,则将其视为匹配,否则,匹配失败。
本发明采用一种改进的k-means分类方法对本地数据进行分块,大大减少了数据记录间的比较次数,对于大型数据库有较好的可扩展性,也提高了隐私保护记录链接的执行效率;本发明通过利用可逆矩阵的性质和Shamir门限秘密共享方案保证在两个或多个记录级布鲁姆过滤器之间比较相似度的时候有较好的安全性,防止用户敏感信息被敌手获取。
优选地,步骤1)中,利用数据清洗技术来处理缺失值、光滑噪声数据、识别删除离散值来提高数据链接的质量。
优选地,步骤2)中,用语音分块技术将本地记录粗略地分成k个集合可以解决k-means分类方法中k值的选取不好把握的问题。
优选地,步骤3)中,将计算结果加噪是利用了差分隐私的特性,保证数据在不被揭露的情况下又可以正确分类,同时也解决了k-means分类方法中初始中心盲目选择的问题。
优选地,步骤4)中,根据记录中不同属性的权重来生成记录级布鲁姆过滤器,这种编码方式可以提高对基于频率的密码分析攻击的抵抗力。
优选地,步骤5)中,在进行记录的比较之前,首先用其所在块的质心进行比较,质心间的比较具有代表性且可以减少比较的总次数,有更好的可扩展性。
优选地,步骤5)中,利用可逆矩阵对记录级布鲁姆过滤器进行加密,并将加密结果分块发送给对应参与方分别进行计算,再将计算结果返回给链接单元进行相似度计算,保证了在相似度计算中数据记录的隐私性。
优选地,还包括步骤5)中,利用Shamir门限秘密共享的方式将可逆矩阵发送给各参与方,保证了只有当特定数目的参与者合作时才能恢复加密矩阵,以达到分散风险和容忍入侵的目的。
优选地,还包括步骤6)中,利用向量和矩阵间的特性,链接单元可以求得相似度值,再和预先设定的阈值进行比较决定是否匹配,安全高效完成了相似度计算。
实施例:首先,利用数据清洗技术对缺失值、噪声等脏数据进行处理。接着,各个数据库拥有方利用语音分块技术对本地数据记录进行粗略地分成k个集合,接着计算集合内各点之和以及集合内点的数目,为了保证记录的安全,将两者加噪后相除的结果作为集合的中心点,接着利用k-means分类算法得到最终分块结果,然后将记录根据不同属性值的权重映射到等长记录级的布鲁姆过滤器中。由于相似度较高的记录会被分在相同的块中,在进行两方或者多方比较的时候,先利用聚类中心进行相似度比较,若相似度大于阈值则对每条记录进行进一步比较。若只有两方参与比较,链接单元随机产生一个可逆矩阵发送给两个参与方,参与方将映射在布鲁姆过滤器中的记录通过可逆矩阵进行加密,并将加密结果分成两部分发送给对应的参与方,参与方将计算结果和布鲁姆过滤器中“1”的个数返回给链接单元;若有多方(两方以上)参与比较,链接单元会随机产生一个可逆矩阵,通过Shamir门限秘密共享的方式将可逆矩阵发送给各参与方,并将加密结果分成n(参与方的个数)部分发送给对应的参与方,参与方将计算结果和布鲁姆过滤器中“1”的个数返回给链接单元。最后,数据链接单元将各方返回的计算结果求和来计算比较记录对的相似度,若相似度大于预先设定的阈值,则将其视为匹配,否则,匹配失败。
本发明能在不泄露用户隐私的情况下对本地记录进行分块,在分块的基础上进行两方或多方数据记录进行比较,尽可能排除不可能匹配的记录来减少记录对之间需要比较的数量,保证了可扩展性。本发明基于安全多方计算,保证了数据链接过程的隐私性和安全性,且在恢复用于加密的可逆矩阵时需要足够多的参与方合作完成。本发明要求不同数据源的数据形式基本保持一致且有共同属性,才能保证链接过程有效进行。

Claims (5)

1.基于隐私保护与安全多方计算的数据链接方法,其特征在于包括以下步骤:
步骤1)利用数据清洗技术对脏数据进行处理;
步骤2)各个数据库拥有方对本地所有的数据记录进行粗略地分块,得到k个集合;
步骤3)计算集合内各点之和以及集合内点的数目,将两者加噪后相除的结果作为集合的中心点,接着利用k-means分类算法得到最终分块结果;
步骤4)将记录根据不同属性值的权重映射到等长记录级的布鲁姆过滤器中;
步骤5)计算记录对应的布鲁姆滤波器之间的相似度,相似度较高的记录分在相同的块中,进行两方或者多方比较;
若只有两方参与比较,链接单元随机产生一个可逆矩阵发送给两个参与方,参与方将映射在布鲁姆过滤器中的记录通过可逆矩阵进行加密,并将加密结果分成两部分发送给对应的参与方,参与方将计算结果和布鲁姆过滤器中“1”的个数返回给链接单元;
若有两方以上参与比较,链接单元随机产生一个可逆矩阵,通过Shamir门限秘密共享的方式将可逆矩阵发送给各参与方,并将加密结果分成n部分发送给对应的参与方,参与方将计算结果和布鲁姆过滤器中“1”的个数返回给链接单元,其中n为参与方的个数;
6)链接单元将各方返回的计算结果利用同态求和的方式来计算比较记录对的相似度,若相似度大于预先设定的第一阈值,则将其视为匹配,否则,匹配失败。
2.根据权利要求1所述的基于隐私保护与安全多方计算的数据链接方法,其特征在于:步骤1)中,利用数据清洗技术来处理缺失值、光滑噪声数据、识别删除离散值来提高数据链接的质量。
3.根据权利要求1所述的基于隐私保护与安全多方计算的数据链接方法,其特征在于:步骤2)中,采用语音分块技术对本地所有的数据记录进行粗略地分块。
4.根据权利要求1所述的基于隐私保护与安全多方计算的数据链接方法,其特征在于:步骤5)中,在进行两方或者多方比较的时候,先利用聚类中心进行相似度比较,若相似度大于预先设定的第二阈值,则对每条记录进行进一步比较。
5.根据权利要求1所述的基于隐私保护与安全多方计算的数据链接方法,其特征在于:步骤5)中,若有两方以上参与比较时,参与方将计算结果和布鲁姆过滤器中“1”的个数需要经过同态加密后返回给链接单元。
CN201910794804.6A 2019-08-27 2019-08-27 基于隐私保护和安全多方计算的数据链接方法 Active CN110609831B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910794804.6A CN110609831B (zh) 2019-08-27 2019-08-27 基于隐私保护和安全多方计算的数据链接方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910794804.6A CN110609831B (zh) 2019-08-27 2019-08-27 基于隐私保护和安全多方计算的数据链接方法

Publications (2)

Publication Number Publication Date
CN110609831A CN110609831A (zh) 2019-12-24
CN110609831B true CN110609831B (zh) 2020-07-03

Family

ID=68890588

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910794804.6A Active CN110609831B (zh) 2019-08-27 2019-08-27 基于隐私保护和安全多方计算的数据链接方法

Country Status (1)

Country Link
CN (1) CN110609831B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111147244B (zh) * 2019-12-30 2021-07-09 深圳前海微众银行股份有限公司 多方秘密分享方法、设备及可读存储介质
CN111444545B (zh) * 2020-06-12 2020-09-04 支付宝(杭州)信息技术有限公司 针对多方的隐私数据进行聚类的方法和装置
CN111444544B (zh) * 2020-06-12 2020-09-11 支付宝(杭州)信息技术有限公司 针对多方的隐私数据进行聚类的方法和装置
CN111523143B (zh) * 2020-07-03 2020-10-23 支付宝(杭州)信息技术有限公司 针对多方的隐私数据进行聚类的方法和装置
CN111858575B (zh) * 2020-08-05 2024-04-19 杭州锘崴信息科技有限公司 私有数据分析方法及系统
CN112182641B (zh) * 2020-09-04 2023-11-10 支付宝(杭州)信息技术有限公司 基于隐私数据、访问参数的数据访问方法、装置及设备
CN112487481B (zh) * 2020-12-09 2022-06-10 重庆邮电大学 一种具有隐私保护的可验证多方k-means联邦学习方法
CN112765664B (zh) * 2021-01-26 2022-12-27 河南师范大学 一种具有差分隐私的安全多方k-means聚类方法
CN112906715A (zh) * 2021-02-19 2021-06-04 电子科技大学 一种基于深度神经网络的安全图像特征提取与分类方法
CN113342810A (zh) * 2021-05-31 2021-09-03 中国工商银行股份有限公司 记录链接数据匹配方法及装置
CN116361859B (zh) * 2023-06-02 2023-08-25 之江实验室 基于深度隐私编码器的跨机构患者记录链接方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104981813A (zh) * 2012-03-30 2015-10-14 爱迪德技术有限公司 使用动态数据识别编码来保护可访问的系统
CN105138923A (zh) * 2015-08-11 2015-12-09 苏州大学 一种保护隐私的时间序列相似度计算方法
CN109615021A (zh) * 2018-12-20 2019-04-12 暨南大学 一种基于k均值聚类的隐私信息保护方法
CN109635584A (zh) * 2018-11-23 2019-04-16 浙江工商大学 一种基于区块链的数据链接隐私计算方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7685115B2 (en) * 2006-07-21 2010-03-23 Mitsubishi Electronic Research Laboratories, Inc. Method for classifying private data using secure classifiers

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104981813A (zh) * 2012-03-30 2015-10-14 爱迪德技术有限公司 使用动态数据识别编码来保护可访问的系统
CN105138923A (zh) * 2015-08-11 2015-12-09 苏州大学 一种保护隐私的时间序列相似度计算方法
CN109635584A (zh) * 2018-11-23 2019-04-16 浙江工商大学 一种基于区块链的数据链接隐私计算方法
CN109615021A (zh) * 2018-12-20 2019-04-12 暨南大学 一种基于k均值聚类的隐私信息保护方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PPM-HDA: Privacy-Preserving and Multifunctional Health Data Aggregation With Fault Tolerance;Song Han 等;《IEEE TRANSACTIONS ON INFORMATION FORENSICS AND SECURITY》;20160930;第11卷(第9期);全文 *
基于自适应流抽样测量的网络异常检测技术研究;郭通;《中国博士学位论文全文数据库 信息科技辑》;20140115(第01期);全文 *

Also Published As

Publication number Publication date
CN110609831A (zh) 2019-12-24

Similar Documents

Publication Publication Date Title
CN110609831B (zh) 基于隐私保护和安全多方计算的数据链接方法
CN111931253B (zh) 基于节点群的数据处理方法、系统、设备和介质
Vaidya et al. Privacy-preserving SVM classification
CN112966283B (zh) 基于多方集合求交集的垂直分区数据pparm方法
Abd Razak et al. Data anonymization using pseudonym system to preserve data privacy
CN110505047B (zh) 一种用于虹膜特征保护的双重加密方法
CN108920714B (zh) 一种分布式环境下隐私保护的关联规则挖掘方法和系统
CN115242371B (zh) 差分隐私保护的集合交集及其基数计算方法、装置及系统
CN115510502B (zh) 一种隐私保护的pca方法及系统
CN110866277A (zh) 一种DaaS应用的数据集成的隐私保护方法
CN110866263B (zh) 一种可对抗纵向攻击的用户隐私信息保护方法及系统
Randall et al. Privacy preserving record linkage using homomorphic encryption
Helmy et al. A hybrid encryption framework based on Rubik’s cube for cancelable biometric cyber security applications
Ranbaduge et al. Secure multi-party summation protocols: Are they secure enough under collusion?
Cheng et al. SecureAD: A secure video anomaly detection framework on convolutional neural network in edge computing environment
Ye et al. Anonymous biometric access control
Eldesouky et al. Cancelable electrocardiogram biometric system based on chaotic encryption using three‐dimensional logistic map for biometric‐based cloud services
De et al. A secure two party hierarchical clustering approach for vertically partitioned data set with accuracy measure
Liang et al. Fedcip: Federated client intellectual property protection with traitor tracking
Helmy et al. A novel cancellable biometric recognition system based on Rubik’s cube technique for cyber-security applications
CN115809472A (zh) 一种基于隐私求交的纵向联邦统计方法
CN109712204A (zh) 一种基于fcm聚类的图像加密方法
CN115879151A (zh) 一种敏感数据隐私保护的天际线查询方法及系统
CN114997345A (zh) 随机森林训练方法及装置
CN114117465A (zh) 一种可审计的数据链接方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant