CN110609831B

CN110609831B - 基于隐私保护和安全多方计算的数据链接方法

Info

Publication number: CN110609831B
Application number: CN201910794804.6A
Authority: CN
Inventors: 韩嵩; 孔梦娇; 洪海波; 杨柏林; 谢满德; 赵帅; 金舒丹
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2019-08-27
Filing date: 2019-08-27
Publication date: 2020-07-03
Anticipated expiration: 2039-08-27
Also published as: CN110609831A

Abstract

本发明公开了一种基于隐私保护与安全多方计算的数据链接方法。本发明采用一种改进的k‑means分类方法对本地数据进行分块，减少数据记录间的比较次数，对于大型数据库有较好的可扩展性，也提高了隐私保护记录链接的执行效率；本发明通过利用可逆矩阵的性质和Shamir门限秘密共享方案保证在两个或多个记录级布鲁姆过滤器之间比较相似度的时候有较好的安全性，防止用户敏感信息被敌手获取。本发明具有较好的可拓展性且计算开销比较小，适用于真实数据量较大的现实环境中。

Description

基于隐私保护和安全多方计算的数据链接方法

技术领域

本发明涉及隐私保护数据链接的领域，尤其是涉及一种基于隐私保护与安全多方计算的数据链接方法。

背景技术

数据链接技术可用于大数据分析领域、电商领域、医疗保健领域、智能推荐领域、智能制药领域、智能交通领域等进行确认不同的记录是否属于同一个实体。如何保证数据的隐私性和安全性是当前数据链接领域面临的一个重要挑战。一方面，现有的数据链接技术很少考虑隐私保护，即使考虑隐私保护的，也在计算相似度阶段没有实施隐私保护。另一方面，现有数据链接技术的效率有待提升。

发明内容

本发明针对现有技术的不足，提供了一种基于隐私保护与安全多方计算的数据链接方法。

基于隐私保护与安全多方计算的数据链接方法，包括以下步骤：

1）利用数据清洗技术对脏数据进行处理。

2）各个数据库拥有方利用语音分块技术对本地所有的数据记录进行粗略地分块，得到k个集合。

3）计算集合内各点之和以及集合内点的数目，为了保证记录的安全，将两者加噪后相除的结果作为集合的中心点，接着利用k-means分类算法得到最终分块结果。

4）将记录根据不同属性值的权重映射到等长记录级的布鲁姆过滤器中。

5）计算记录对应的BF之间的相似度，相似度较高的记录会被分在相同的块中，在进行两方或者多方比较的时候，先利用聚类中心进行相似度比较，若相似度大于预先设定的阈值，则对每条记录进行进一步比较。

若只有两方参与比较，链接单元随机产生一个可逆矩阵发送给两个参与方，参与方将映射在布鲁姆过滤器中的记录通过可逆矩阵进行加密，并将加密结果分成两部分发送给对应的参与方，参与方将计算结果和布鲁姆过滤器中“1”的个数返回给链接单元。

若有两方以上参与比较，链接单元随机产生一个可逆矩阵，通过Shamir门限秘密共享的方式将可逆矩阵发送给各参与方，并将可逆矩阵的加密结果分成n部分发送给对应的参与方，参与方将计算结果和布鲁姆过滤器中“1”的个数先经过同态加密，再返回给链接单元，其中n为参与方的个数。

6）数据链接单元将各方返回的计算结果利用同态求和的方式来计算比较记录对的相似度，若相似度大于预先设定的阈值，则将其视为匹配，否则，匹配失败。

本发明与现有技术相比，其有益效果为：本发明具有较好的可拓展性且计算开销比较小，适用于真实数据量较大的现实环境中。同时利用改进的k-means分类方法、差分隐私技术、可逆矩阵加密以及Shamir秘密共享方案对数据记录进行分块和安全相似度计算，在保证高效的同时还能有效保证用户数据记录的安全性和隐私性。

具体实施方式

基于隐私保护与安全多方计算的数据链接方法，包括以下步骤

1）利用数据清洗技术对缺失值、噪声等脏数据进行处理。

2）各个数据库拥有方利用语音分块技术对本地数据记录进行粗略分成，得到k个集合。

5）相似度较高的记录会被分在相同的块中，在进行两方或者多方比较的时候，先利用聚类中心进行相似度比较，若相似度大于阈值则对每条记录进行进一步比较，比较相似度和预先设定的阈值。

若有多方（两方以上）参与比较，链接单元会随机产生一个可逆矩阵，通过Shamir门限秘密共享的方式将可逆矩阵发送给各参与方，并将加密结果分成n（参与方的个数）部分发送给对应的参与方，参与方将计算结果和布鲁姆过滤器中“1”的个数先经过同态加密，再返回给链接单元。

6）数据链接单元将各方返回的计算结果求和（利用同态求和的方式）来计算比较记录对的相似度，若相似度大于预先设定的阈值，则将其视为匹配，否则，匹配失败。

本发明采用一种改进的k-means分类方法对本地数据进行分块，大大减少了数据记录间的比较次数，对于大型数据库有较好的可扩展性，也提高了隐私保护记录链接的执行效率；本发明通过利用可逆矩阵的性质和Shamir门限秘密共享方案保证在两个或多个记录级布鲁姆过滤器之间比较相似度的时候有较好的安全性，防止用户敏感信息被敌手获取。

优选地，步骤1）中，利用数据清洗技术来处理缺失值、光滑噪声数据、识别删除离散值来提高数据链接的质量。

优选地，步骤2）中，用语音分块技术将本地记录粗略地分成k个集合可以解决k-means分类方法中k值的选取不好把握的问题。

优选地，步骤3）中，将计算结果加噪是利用了差分隐私的特性，保证数据在不被揭露的情况下又可以正确分类，同时也解决了k-means分类方法中初始中心盲目选择的问题。

优选地，步骤4）中，根据记录中不同属性的权重来生成记录级布鲁姆过滤器，这种编码方式可以提高对基于频率的密码分析攻击的抵抗力。

优选地，步骤5）中，在进行记录的比较之前，首先用其所在块的质心进行比较，质心间的比较具有代表性且可以减少比较的总次数，有更好的可扩展性。

优选地，步骤5）中，利用可逆矩阵对记录级布鲁姆过滤器进行加密，并将加密结果分块发送给对应参与方分别进行计算，再将计算结果返回给链接单元进行相似度计算，保证了在相似度计算中数据记录的隐私性。

优选地，还包括步骤5）中，利用Shamir门限秘密共享的方式将可逆矩阵发送给各参与方，保证了只有当特定数目的参与者合作时才能恢复加密矩阵，以达到分散风险和容忍入侵的目的。

优选地，还包括步骤6）中，利用向量和矩阵间的特性，链接单元可以求得相似度值，再和预先设定的阈值进行比较决定是否匹配，安全高效完成了相似度计算。

实施例：首先，利用数据清洗技术对缺失值、噪声等脏数据进行处理。接着，各个数据库拥有方利用语音分块技术对本地数据记录进行粗略地分成k个集合，接着计算集合内各点之和以及集合内点的数目，为了保证记录的安全，将两者加噪后相除的结果作为集合的中心点，接着利用k-means分类算法得到最终分块结果，然后将记录根据不同属性值的权重映射到等长记录级的布鲁姆过滤器中。由于相似度较高的记录会被分在相同的块中，在进行两方或者多方比较的时候，先利用聚类中心进行相似度比较，若相似度大于阈值则对每条记录进行进一步比较。若只有两方参与比较，链接单元随机产生一个可逆矩阵发送给两个参与方，参与方将映射在布鲁姆过滤器中的记录通过可逆矩阵进行加密，并将加密结果分成两部分发送给对应的参与方，参与方将计算结果和布鲁姆过滤器中“1”的个数返回给链接单元；若有多方（两方以上）参与比较，链接单元会随机产生一个可逆矩阵，通过Shamir门限秘密共享的方式将可逆矩阵发送给各参与方，并将加密结果分成n（参与方的个数）部分发送给对应的参与方，参与方将计算结果和布鲁姆过滤器中“1”的个数返回给链接单元。最后，数据链接单元将各方返回的计算结果求和来计算比较记录对的相似度，若相似度大于预先设定的阈值，则将其视为匹配，否则，匹配失败。

本发明能在不泄露用户隐私的情况下对本地记录进行分块，在分块的基础上进行两方或多方数据记录进行比较，尽可能排除不可能匹配的记录来减少记录对之间需要比较的数量，保证了可扩展性。本发明基于安全多方计算，保证了数据链接过程的隐私性和安全性，且在恢复用于加密的可逆矩阵时需要足够多的参与方合作完成。本发明要求不同数据源的数据形式基本保持一致且有共同属性，才能保证链接过程有效进行。

Claims

1.基于隐私保护与安全多方计算的数据链接方法，其特征在于包括以下步骤：

步骤1）利用数据清洗技术对脏数据进行处理；

步骤2）各个数据库拥有方对本地所有的数据记录进行粗略地分块，得到k个集合；

步骤3）计算集合内各点之和以及集合内点的数目，将两者加噪后相除的结果作为集合的中心点，接着利用k-means分类算法得到最终分块结果；

步骤4）将记录根据不同属性值的权重映射到等长记录级的布鲁姆过滤器中；

步骤5）计算记录对应的布鲁姆滤波器之间的相似度，相似度较高的记录分在相同的块中，进行两方或者多方比较；

若只有两方参与比较，链接单元随机产生一个可逆矩阵发送给两个参与方，参与方将映射在布鲁姆过滤器中的记录通过可逆矩阵进行加密，并将加密结果分成两部分发送给对应的参与方，参与方将计算结果和布鲁姆过滤器中“1”的个数返回给链接单元；

若有两方以上参与比较，链接单元随机产生一个可逆矩阵，通过Shamir门限秘密共享的方式将可逆矩阵发送给各参与方，并将加密结果分成n部分发送给对应的参与方，参与方将计算结果和布鲁姆过滤器中“1”的个数返回给链接单元，其中n为参与方的个数；

6）链接单元将各方返回的计算结果利用同态求和的方式来计算比较记录对的相似度，若相似度大于预先设定的第一阈值，则将其视为匹配，否则，匹配失败。

2.根据权利要求1所述的基于隐私保护与安全多方计算的数据链接方法，其特征在于：步骤1）中，利用数据清洗技术来处理缺失值、光滑噪声数据、识别删除离散值来提高数据链接的质量。

3.根据权利要求1所述的基于隐私保护与安全多方计算的数据链接方法，其特征在于：步骤2）中，采用语音分块技术对本地所有的数据记录进行粗略地分块。

4.根据权利要求1所述的基于隐私保护与安全多方计算的数据链接方法，其特征在于：步骤5）中，在进行两方或者多方比较的时候，先利用聚类中心进行相似度比较，若相似度大于预先设定的第二阈值，则对每条记录进行进一步比较。

5.根据权利要求1所述的基于隐私保护与安全多方计算的数据链接方法，其特征在于：步骤5）中，若有两方以上参与比较时，参与方将计算结果和布鲁姆过滤器中“1”的个数需要经过同态加密后返回给链接单元。