CN117454436B - 基于乘法群的数据对齐方法、系统及电子设备 - Google Patents
基于乘法群的数据对齐方法、系统及电子设备 Download PDFInfo
- Publication number
- CN117454436B CN117454436B CN202311776548.0A CN202311776548A CN117454436B CN 117454436 B CN117454436 B CN 117454436B CN 202311776548 A CN202311776548 A CN 202311776548A CN 117454436 B CN117454436 B CN 117454436B
- Authority
- CN
- China
- Prior art keywords
- attribute
- candidate
- shared
- value
- values
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 90
- 238000012795 verification Methods 0.000 claims description 22
- 238000004891 communication Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000010200 validation analysis Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 238000006467 substitution reaction Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 17
- 230000005540 biological transmission Effects 0.000 abstract description 12
- 238000010276 construction Methods 0.000 abstract description 2
- 239000003245 coal Substances 0.000 description 12
- 238000012545 processing Methods 0.000 description 6
- 238000003491 array Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 125000004122 cyclic group Chemical group 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 230000011664 signaling Effects 0.000 description 2
- 208000027691 Conduct disease Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 239000002802 bituminous coal Substances 0.000 description 1
- 239000003818 cinder Substances 0.000 description 1
- 239000003034 coal gas Substances 0.000 description 1
- 238000004939 coking Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000009509 drug development Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000003999 initiator Substances 0.000 description 1
- 239000003350 kerosene Substances 0.000 description 1
- 239000003077 lignite Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6227—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/64—Protecting data integrity, e.g. using checksums, certificates or signatures
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/04—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
- H04L63/0428—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/20—Network architectures or network communication protocols for network security for managing network security; network security policies in general
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/40—Network security protocols
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Computer Hardware Design (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Bioethics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种基于乘法群的数据对齐方法、系统及电子设备,涉及网络安全技术领域。为实现数据对齐,采用了乘法群进行数据构建,在秘密分享的过程中引入特定底数的乘法子群,并通过乘法子群的指数进行数据传输与秘密分享。以使数据通过安全服务器汇总到各个数据库,实现了跨数据库的数据共享。其中,安全服务器仅获取拆分后的部分数据,无法从局部共享结果中得知整体的共享结果。而各个数据库持有者直接获取最终结果,无法得知其它数据库的情况,保护了原始数据。此外,本申请中数据的拆分与还原较为复杂,但其计算量较低,即使安全服务器中的数据被泄露,在未获取底层代码的情况下,难以将数据进行还原,进一步保证了数据对齐过程中的数据安全。
Description
技术领域
本申请涉及网络安全技术领域,具体涉及一种基于乘法群的数据对齐方法、系统及电子设备。
背景技术
随着科技的飞速发展,企事业机构不断积累大量数据,形成了规模庞大的数据库,这些数据库内含大量敏感信息,包括商业计划、金融机密、客户个人数据、医疗数据、研发成果等。一方面,这些数据库能通过数据共享和计算极大地解放数据价值,创造社会财富;另一方面,信息技术不断发展带来了更多信息安全的隐患,这反过来加剧了信息交流的障碍。
由此,如何在保护隐私数据的情况下实现跨数据库的数据共享是本领域技术人员亟待解决的技术问题。
发明内容
有鉴于此,本申请实施例提供了一种基于乘法群的数据对齐方法、系统及电子设备,基于乘法群执行秘密共享以解决前述问题。
第一方面,本申请提供一种基于乘法群的数据对齐方法,数据对齐方法应用于基于乘法群的数据对齐系统的多个安全服务器,数据对齐系统还包括多个数据库,对于多个安全服务器中的任意一个,数据对齐方法包括:确定多个候选属性以及乘法群,其中,乘法群被配置为连续等比数列,等比数列的公比为乘法群基数,首项为乘法群基数的0次方。多个数据库包括多个候选属性的属性值集合,属性值集合包括与各个候选属性对应的属性值,属性值为1或0并反映对应的候选属性在当前数据库中存在情况。确定多个数据库中各个数据库的第一共享值以及多个候选属性对应的多个第二共享值,其中,各个数据库包括第一共享值集合以及与各个候选属性对应的多个第二共享值集合,第二共享值集合包括与多个安全服务器对应的多个第二共享值,第二共享值集合中各个第二共享值的和为对应的候选属性的属性值,第一共享值集合包括与多个安全服务器对应的多个第一共享值,第一共享值集合中各个第一共享值的和为1。基于各个数据库中的多个第一共享值确定第一代表元并基于与多个候选属性对应的多个第二共享值确定多个候选属性的第二代表元,其中,第一代表元被配置为各个第一共享值之和,第二代表元被配置为对应的候选属性各个第二共享值之和。基于第一代表元以及多个候选属性中各个候选属性对应的多个第二代表元确定各个候选属性的代表元,其中,代表元包括乘法群基数基于代表次数的乘方,代表次数至少包括第一代表元与对应的第二代表元的差值。将多个候选属性中各个候选属性的代表元发送到多个数据库,以使多个数据库基于各个候选属性的多个代表元确定各个候选属性的特征值,并基于各个候选属性的特征值进行数据对齐,其中,特征值包括对应候选属性的各个代表元的乘积。
第二方面,本申请提供一种基于乘法群的数据对齐方法,数据对齐方法应用于基于乘法群的数据对齐系统的多个安全服务器,数据对齐系统还包括多个数据库,对于多个安全服务器中的任意一个,数据对齐方法包括:确定多个候选属性以及乘法群,其中,乘法群被配置为连续等比数列,等比数列的公比为乘法群基数,首项为乘法群基数的0次方。多个数据库包括多个候选属性的属性值集合,属性值集合包括与各个候选属性对应的属性值,属性值为1或0并反映对应的候选属性在当前数据库中存在情况。确定多个数据库中各个数据库的第一共享值以及多个候选属性对应的多个第二共享值,其中,各个数据库包括第一共享值集合以及与各个候选属性对应的多个第二共享值集合,第二共享值集合包括与多个安全服务器对应的多个第二共享值,第二共享值集合中各个第二共享值的和为对应的候选属性的属性值,第一共享值集合包括与多个安全服务器对应的多个第一共享值,第一共享值集合中各个第一共享值的和为1。基于各个数据库中的多个第一共享值确定第一代表元并基于与多个候选属性对应的多个第二共享值确定多个候选属性的第二代表元,其中,第一代表元被配置为各个第一共享值之和,第二代表元被配置为对应的候选属性各个第二共享值之和。基于第一代表元以及多个候选属性中各个候选属性对应的多个第二代表元确定各个候选属性的代表元,其中,代表元包括乘法群基数基于代表次数的乘方,代表次数至少包括第一代表元与对应的第二代表元的差值。将多个候选属性中各个候选属性的代表元发送到多个数据库,以使多个数据库基于各个候选属性的多个代表元确定各个候选属性的特征值,并基于各个候选属性的特征值进行数据对齐,其中,特征值包括对应候选属性的各个代表元的乘积。
第三方面,本申请提供一种基于乘法群的数据对齐方法,数据对齐方法应用于基于秘密共享的数据对齐系统的多个数据库以及多个安全服务器,数据对齐方法包括:多个数据库确定多个候选属性以及多个候选属性的属性值集合,其中,属性值集合包括与各个候选属性对应的属性值,属性值为1或0并反映对应的候选属性在当前数据库中存在情况。多个数据库确定第一共享值集合,其中,第一共享值集合包括与多个安全服务器对应的多个第一共享值,第一共享值集合中各个第一共享值的和为1。多个数据库确定多个候选属性中各个候选属性的第二共享值集合,其中,第二共享值集合包括与多个安全服务器对应的多个第二共享值,第二共享值集合中各个第二共享值的和为对应的候选属性的属性值。多个数据库将第一共享值集合以及多个候选属性对应的多个第二共享值集合发送到多个安全服务器。多个安全服务器确定多个候选属性以及乘法群,其中,乘法群被配置为连续等比数列,等比数列的公比为乘法群基数,首项为乘法群基数的0次方。多个数据库包括多个候选属性的属性值集合,属性值集合包括与各个候选属性对应的属性值,属性值为1或0并反映对应的候选属性在当前数据库中存在情况。多个安全服务器确定多个数据库中各个数据库的第一共享值以及多个候选属性对应的多个第二共享值。多个安全服务器基于各个数据库中的多个第一共享值确定第一代表元并基于与多个候选属性对应的多个第二共享值确定多个候选属性的第二代表元,其中,第一代表元被配置为各个第一共享值之和,第二代表元被配置为对应的候选属性各个第二共享值之和。多个安全服务器基于第一代表元以及多个候选属性中各个候选属性对应的多个第二代表元确定各个候选属性的代表元,其中,代表元包括乘法群基数基于代表次数的乘方,代表次数至少包括第一代表元与对应的第二代表元的差值。多个安全服务器将多个候选属性中各个候选属性的代表元发送到多个数据库。多个数据库确定多个安全服务器中各个安全服务器的多个候选属性的代表元集合,以确定多个候选属性中各个候选属性的多个代表元。多个数据库基于各个候选属性的多个代表元确定各个候选属性的特征值,并基于各个候选属性的特征值进行属性统计,其中,特征值包括对应候选属性的各个代表元的乘积。
第四方面,本申请提供一种基于乘法群的数据对齐系统,数据对齐系统包括多个数据库以及多个安全服务器:多个数据库用于:确定多个候选属性以及多个候选属性的属性值集合,其中,属性值集合包括与各个候选属性对应的属性值,属性值为1或0并反映对应的候选属性在当前数据库中存在情况。确定第一共享值集合,其中,第一共享值集合包括与多个安全服务器对应的多个第一共享值,第一共享值集合中各个第一共享值的和为1。确定多个候选属性中各个候选属性的第二共享值集合,其中,第二共享值集合包括与多个安全服务器对应的多个第二共享值,第二共享值集合中各个第二共享值的和为对应的候选属性的属性值。将第一共享值集合以及多个候选属性对应的多个第二共享值集合发送到多个安全服务器。多个安全服务器用于:确定多个候选属性以及乘法群,其中,乘法群被配置为连续等比数列,等比数列的公比为乘法群基数,首项为乘法群基数的0次方。多个数据库包括多个候选属性的属性值集合,属性值集合包括与各个候选属性对应的属性值,属性值为1或0并反映对应的候选属性在当前数据库中存在情况。确定多个数据库中各个数据库的第一共享值以及多个候选属性对应的多个第二共享值。基于各个数据库中的多个第一共享值确定第一代表元并基于与多个候选属性对应的多个第二共享值确定多个候选属性的第二代表元,其中,第一代表元被配置为各个第一共享值之和,第二代表元被配置为对应的候选属性各个第二共享值之和。基于第一代表元以及多个候选属性中各个候选属性对应的多个第二代表元确定各个候选属性的代表元,其中,代表元包括乘法群基数基于代表次数的乘方,代表次数至少包括第一代表元与对应的第二代表元的差值。将多个候选属性中各个候选属性的代表元发送到多个数据库。多个数据库还用于:确定多个安全服务器中各个安全服务器的多个候选属性的代表元集合,以确定多个候选属性中各个候选属性的多个代表元。基于各个候选属性的多个代表元确定各个候选属性的特征值,并基于各个候选属性的特征值进行属性统计,其中,特征值包括对应候选属性的各个代表元的乘积。
第五方面,本申请提供一种电子设备。电子设备包括:处理器以及用于存储可执行指令的存储器。其中,可执行指令被处理器执行时,实现第一方面或第二方面所述的基于乘法群的数据对齐方法。
由此,基于本申请提供的一种基于乘法群的数据对齐方法、系统及电子设备。为实现数据对齐,采用了乘法群进行数据构建,在秘密分享的过程中引入特定底数的乘法子群,并通过乘法子群的指数进行数据传输与秘密分享。以使数据通过安全服务器汇总到各个数据库,实现了跨数据库的数据共享。其中,安全服务器仅获取拆分后的部分数据,无法从局部共享结果中得知整体的共享结果。而各个数据库持有者直接获取最终结果,无法得知其它数据库的情况,保护了原始数据。此外,本申请中数据的拆分与还原较为复杂,但其计算量较低,即使安全服务器中的数据被泄露,在未获取底层代码的情况下,难以将数据进行还原,进一步保证了数据对齐过程中的数据安全。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本申请一些实施例提供的数据对齐系统的应用场景图。
图2是本申请一些实施例提供的数据对齐方法的信令图。
图3是本申请一些实施例提供的代表元确定方法的示例性流程图。
图4是本申请一些实施例提供的特征值检验的示例性流程图。
图5是本申请一些实施例提供的安全服务器侧的数据对齐方法的示例性流程图。
图6是本申请一些实施例提供的数据库侧的数据对齐方法的示例性流程图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
申请概述
在数据库的数据共享中,数据对齐是一种重要的共享手段。其中,数据对齐可以是采用求并运算或求交运算来筛选得到这些数据库中属性值的公共部分。具体地,可以识别各个数据库中属性值的交集或并集。
以属性值交集为例,在实际应用中,可以包括如下实例:不同的通信运营商需要针对共同用户推出联合产品,因此需要事先挖掘公共用户列表。不同的医疗机构进行病症研讨项目,则首先需要筛选出共有的病例;金融服务商对企业或个人投资偏好进行筛选,需要找出某个目标群体的共同特征。两个跨国机构需要找出同在两国注册的黑名单客户进行集中处理,等等。如果将这些应用场景简单地以双方公开数据库的方式处理,则交互各方都难以避免数据泄露的困境,无法在未建立信任的基础上保护己方数据库的安全。
以属性值并集为例,在实际应用中,可以包括如下实例:多个医疗机构可能希望合并患者数据或病例数据,从而更好地进行药物研发或疾病研究;多个跨国机构需要就合作业务考虑共同客户名单,从而更好地落实业务进展;在数据共享市场中,多方可能希望合并各自的数据以建立更好的数据产品等等。如果将这些应用场景简单地以双方公开数据库的方式处理,则交互各方都难以避免数据泄露的困境,无法在未建立信任的基础上保护己方数据库的安全。
特别地,在线上隐私交易中,可以基于属性值并集/求并实现对交易发起者的合并处理。例如,可以通过属性值求交求并确定待交易的商品类目,从而确定线上交易的各个参与方。示例性地,在煤炭隐私拍卖中,交易平台也可以作为数据库中的一部分,获取其他数据库交易商品(待交易煤炭类型)的交集与并集,从而对不同类型的煤炭确定不同的线上交易,并确定各类煤炭交易的提供方。
隐私求交是一项新兴的安全多方计算技术,它能够让多个参与方在己方数据不泄露的前提下求出关于某个属性的公共部分,各方除了知道其它参与方与自己具有相同的关于该属性的公共部分之外无法获得任何其它信息。利用隐私求交,来源于各个企事业机构的数据库即可在不泄露隐私的前提下实现数据共享,并通过找寻这些数据库的共有部分来促进业务的扩展。隐私求交方案一经提出,就有不少的密码学原语提供支撑,比如已有的基于同态加密、混淆电路技术、哈希或伪随机谕示机、布隆过滤器以及不经意传输的隐私求交方案。
在现有技术中,属性值求交求并一般是两种不同的技术思路,其中,属性值求并可以基于承诺方案、同态加密以及不经意传输实现。属性值求交可以基于同态加密、混淆电路技术、哈希或伪随机谕示机、布隆过滤器以及不经意传输实现。
本申请发现前述数据共享方法在实际应用中大多只涵盖了两个数据库所有者的场景,这是因为这些方案在扩展到多个所有者的情况时通信成本开销的增长是非常显著的。囿于低效率的加密技术或高开销的通信,这些现有解决方案无法处理大量数据,甚至最近的一些方案所能处理的数据大小限制在仅约1M以下,这导致现有方案很难投入大规模的应用。
为解决上述技术问题,本申请提供一种基于乘法群的数据对齐方法、系统及电子设备。其中,数据对齐一般指在进行跨数据库数据分析时确定合适的表头元素。在本申请中,数据对齐可以包括基于隐私求交规则确定的各个数据库的相同元素,也可以包括基于隐私求并规则确定的各个数据库涉及的元素,从而可以构建合适的数据表。
前述数据对齐还可以用于对数据库中的元素进行处理。例如,可以对数据库中的主键(如身份证、手机号等标识信息)进行数据对齐,以确定合适的统计对象。示例性的,数据对齐可以用于在联邦深度学习中确定合适的样本。
在本申请中,数据对齐主要基于隐私求交规则执行。为扩大适用范围也可以对属性值进行特殊配置以使其可以适用于隐私求并的规则。
为实现数据对齐,本申请采用了乘法群进行数据构建,具体在秘密分享的过程中引入特定底数的乘法子群,并通过乘法子群的指数进行数据传输与秘密分享。以使数据通过安全服务器汇总到各个数据库,在保证数据安全的情况下,实现了跨数据库的数据共享。其中,对于安全服务器,其获取的数据是拆分后的部分数据,无法从局部共享结果中得知整体的共享结果。而对于各个数据库持有者,其直接获取最终结果,无法得知其它数据库包含属性值的情况,从而保护了各个数据库中的原始数据。此外,在该过程中,数据的拆分与还原较为复杂,但其计算量较低,即使安全服务器中的数据被泄露,在未获取底层代码的情况下,难以将数据进行还原,进一步保证了数据对齐过程中的数据安全。
为进一步对数据对齐方法的技术细节进行说明,下面将结合图1-图6对本申请提供的数据对齐方法进行描述,以具体介绍本申请的各种非限制性实施例。
示例性应用场景
为进一步说明数据对齐的实际应用场景,本申请提供一种数据对齐系统的应用场景图。其中,本申请所述的数据对齐实际上是一种基于求交或求并构建的数据共享运算,可以根据实际应用场景调整名称。
如图1所示,在数据对齐系统100可以包括数据库集合110(即多个数据库)以及安全服务器集合120(即多个安全服务器)。
在本申请中,进行属性统计的对象可以记作有限取值集合SA,该有限取值集合SA中可以包括有限取值集合包括多个选项和/或选项的可选组合。各个选项/可选组合可以作为后续进行数据统计的候选属性。
在一些实施例中,数据库对有限取值集合SA中的各个候选属性的选取情况可以通过属性值集合进行描述。其中,属性值集合可以包括与各个候选属性对应的属性值,属性值为1或0并反映对应的候选属性在当前数据库中存在情况。由此,各个数据库对各个候选属性的选取情况可以表征为|SA|项的01向量,|SA|表示有限取值集合的模长(即多个候选属性的数量)。
例如,进行属性统计的对象表示煤炭品类时,SA可以代表所有可能的煤炭品类所构成的有限集合。示例性地,SA可以包括烟煤、焦煤、长焰煤、热煤、褐煤、煤泥、煤气、煤油、煤渣等9项,|SA|=9。则各个数据库对SA的取值可以表征为9个元素的01向量,每个元素的0/1反映数据库的对应实体是否存储有对应类型的煤炭。
可替换的,有限取值集合SA的构建可以基于实际需要执行。例如,对于前述煤炭类型,有限取值集合SA还可以反映各个数据库对应实体持有的煤炭类型组合。即则|SA|=C(9,1) + C(9, 2) + ... + C(9, 9) = 511。其中,C(n,k)表示从n 个不同元素中取出k 个元素的组合数。
在一些实施例中,有限取值集合SA还可以根据标识信息构建,以使各个候选属性信息反应不同的表示信息(如手机号、身份证号等)。有限取值集合SA可以根据实际需要进行适应性调整,在此不做赘述。
数据库集合110可以包括m个数据库并记作。数据库可以存储有对与前述SA的多个候选属性的属性值集合。
安全服务器集合120可以包括n个安全服务器并记作。安全服务器负责进行秘密共享值的存储与计算,各服务器之间不进行除协议之外的通信。
在一些实施例中,数据对齐系统100还可以包括公示方130,公示方130可以对属性统计过程中涉及的参数进行配置。例如,公示方130可以配置前述有限取值集合SA以使各个数据库的参数信息转化为基于有限取值集合SA的属性值集合。再例如,公示方130还可以公示部分重要参数,如后续的阶数、乘法群基数、模长等参数,从而保证方法的顺利执行。
基于本申请提供的数据对齐方法,前述数据对齐系统100在执行相关方法的过程中:
多个数据库用于:
确定多个候选属性以及多个候选属性的属性值集合,其中,属性值集合包括与各个候选属性对应的属性值,属性值为1或0并反映对应的候选属性在当前数据库中存在情况。
确定第一共享值集合,其中,第一共享值集合包括与多个安全服务器对应的多个第一共享值,第一共享值集合中各个第一共享值的和为1。
确定多个候选属性中各个候选属性的第二共享值集合,其中,第二共享值集合包括与多个安全服务器对应的多个第二共享值,第二共享值集合中各个第二共享值的和为对应的候选属性的属性值。
将第一共享值集合以及多个候选属性对应的多个第二共享值集合发送到多个安全服务器。
多个安全服务器用于:
确定多个候选属性以及乘法群,其中,乘法群被配置为连续等比数列,等比数列的公比为乘法群基数,首项为乘法群基数的0次方。多个数据库包括多个候选属性的属性值集合,属性值集合包括与各个候选属性对应的属性值,属性值为1或0并反映对应的候选属性在当前数据库中存在情况。
确定多个数据库中各个数据库的第一共享值以及多个候选属性对应的多个第二共享值。
基于各个数据库中的多个第一共享值确定第一代表元并基于与多个候选属性对应的多个第二共享值确定多个候选属性的第二代表元,其中,第一代表元被配置为各个第一共享值之和,第二代表元被配置为对应的候选属性各个第二共享值之和。
基于第一代表元以及多个候选属性中各个候选属性对应的多个第二代表元确定各个候选属性的代表元,其中,代表元包括乘法群基数基于代表次数的乘方,代表次数至少包括第一代表元与对应的第二代表元的差值。
将多个候选属性中各个候选属性的代表元发送到多个数据库。
多个数据库还用于:
确定多个安全服务器中各个安全服务器的多个候选属性的代表元集合,以确定多个候选属性中各个候选属性的多个代表元。
基于各个候选属性的多个代表元确定各个候选属性的特征值,并基于各个候选属性的特征值进行属性统计,其中,特征值包括对应候选属性的各个代表元的乘积。
在一些实施例中,前述数据库以及安全服务器也可以基于电子设备构建。则对应的电子设备可以包括处理器以及用于存储处理器可执行指令的存储器。其中,处理器用于执行本申请实施例提供的任意一种的基于乘法群的数据对齐方法。
示例性数据对齐方法
图2是本申请一些实施例提供的数据对齐方法的信令图。其中,数据对齐方法可以由数据库以及安全服务器执行。
在一些实施例中,在执行P200之前,可以预设并公示本次P200过程中的各项参数,并限制多个安全服务器之间不进行本次属性统计要求之外的通信。其中,参数预设可以由公示方执行,通信的限制可以由通信性质执行。
如图2所示,在数据对齐方法的执行过程P200中,可以包括如下步骤:
S201、多个数据库确定多个候选属性以及多个候选属性的属性值集合。
参见前述图1的相关描述,属性值集合包括与各个候选属性对应的属性值,属性值为1或0并反映对应的候选属性在当前数据库中存在情况。在一些实施例中,S210可以理解为各个数据库确定对有限取值集合SA的取值,以确定对应的属性值集合。其中,对于第i个数据库,其属性值集合可以表现为如下私有列表:
。各个属性值的含义可以根据数据统计目的以及实际情况调整,具体参见步骤S211的相关描述。
在一些实施例中,上述候选属性可以基于有限取值集合的预设置换确定。具体地,在确定属性值集合前,可以先确定有限取值集合SA的公开置换,以将中的各个选项转化为多个候选属性,其中,公开置换为有限取值集合与多个候选属性之间的唯一映射。具体可以为如下公式:
。
其中,对于的各个选项/组合,可以基于其映射结果的大小顺序作为候选属性,以确定属性值集合。即在属性值集合中对于第k个属性值/>,其取值反映有限取值集合SA中对应的选项的取值情况。
在一些实施例中,前述S210可以基于上述置换确定各个候选属性的取值,从而构建该数据库的属性值集合。在一些实施例中,前述公开置换可以由公开方构建,并分发到数据库与安全服务器。
S202、多个数据库确定第一共享值集合。
第一共享值集合包括与多个安全服务器对应的多个第一共享值,第一共享值集合中各个第一共享值的和为1。其中,第一共享值可以在后续确定代表元乘积时,为代表元提供稳定的指数,具体可以参见S211的相关步骤及其说明。
示例性地,第一共享值集合可以包括与安全服务器相同数量的第一共享值,对于第i个数据库生成的第一共享值集合可以表征为:
。
其中,或/>表示第i个数据库与第j个安全服务器的第一共享值。上述第一共享值满足如下关系:
。其中,n为多个安全服务器的数量。
S203、多个数据库确定多个候选属性中各个候选属性的第二共享值集合。
其中,第二共享值集合包括与多个安全服务器对应的多个第二共享值,第二共享值集合中各个第二共享值的和为对应的候选属性的属性值。其中,第二共享值可以是对属性值的拆分,以反映数据库的取值情况。
示例性地,每个候选属性的第二共享值集合可以包括与安全服务器相同数量的第二共享值,对于第i个数据库就第k的候选属性生成的第二共享值集合可以表征为:
。其中,对于第i个数据库就第k的候选属性生成的与第j个安全数据库对应的第二共享值可以记作:/>。
前述第二共享值满足如下关系:
。其中,/>为第i个数据库中第k个候选属性的属性值。
S204、多个数据库将第一共享值集合以及多个候选属性对应的多个第二共享值集合发送到多个安全服务器。
在一些实施例中,基于前述共享值的构建方式,各个数据库需要与各个服务器进行传输以传输对应的数据。以第i个数据库为例,其需要向第j个安全服务器发送的数据为:
以及/>。
S205、多个安全服务器确定多个候选属性以及乘法群。
其中,乘法群被配置为连续等比数列,等比数列的公比为乘法群基数,首项为乘法群基数的0次方。
多个数据库包括多个候选属性的属性值集合,属性值集合包括与各个候选属性对应的属性值,属性值为1或0并反映对应的候选属性在当前数据库中存在情况。
在一些实施例中,前述S205可以理解为安全服务器获取乘法群基数以及有限取值集合SA的公开置换。在一些实施例中,S205可以通过对公开方的数据交互而实现。
S206、多个安全服务器确定多个数据库中各个数据库的第一共享值以及多个候选属性对应的多个第二共享值。
在一些实施例中,各个安全服务器在接收到各个数据库的第二共享值后可以生成一个矩阵。具体地,对于第j个安全服务器,各个数据库与多个候选属性对应的多个第二共享值可以表征为阶的整数矩阵:
。
在一些实施例中,各个安全服务器在接收到各个数据库的第一共享值后可以生成一个向量。具体地,对于第j个安全服务器,各个数据库与多个候选属性对应的多个第一共享值可以表征为维的整数向量:
。
S207、多个安全服务器基于各个数据库中的多个第一共享值确定第一代表元并基于与多个候选属性对应的多个第二共享值确定多个候选属性的第二代表元。
其中,第一代表元被配置为各个第一共享值之和,第二代表元被配置为对应的候选属性各个第二共享值之和。
对于第j个安全服务器,第一代表元基于如下公式确定:
。其中,/>为第j个安全服务器的第一代表元。
对于第j个安全服务器,第二代表元基于如下公式确定:
。其中,/>为第j个安全服务器中第k个候选属性的第二代表元。
S208、多个安全服务器基于第一代表元以及多个候选属性中各个候选属性对应的多个第二代表元确定各个候选属性的代表元。
其中,代表元包括乘法群基数基于代表次数的乘方,代表次数至少包括第一代表元与对应的第二代表元的差值。代表元可以理解为安全服务器对各个候选属性的共享值的处理结果,则代表元集合可以包括该安全服务器对各个候选属性的处理结果,即对于第j个安全服务器,其代表元集合可以包括:
。
基于前述S208,对于第j个安全服务器的第k个候选属性的代表元可以表征为:
。
在一些实施例中,考虑到乘法群的数值较大,在上述代表元计算过程中可以引入取模运算,从而降低数据大小并提高安全性。关于引入取模过程的更多内容可以参见图3及其相关描述。
S209、多个安全服务器将多个候选属性的代表元集合发送到多个数据库。
与前述S204类似,各个安全服务器也需要将数据传输给数据库。其对各个数据库的传输内容相同,均为前述代表元集合。
S210、多个数据库确定多个安全服务器中各个安全服务器的多个候选属性的代表元集合,以确定多个候选属性中各个候选属性的多个代表元。
在一些实施例中,各个安全服务器在接收到各个数据库的共享值后可以生成一个矩阵。具体地,各个安全服务器的代表元集合可以表征为阶的整数矩阵:
.
承前述,可以反映第j个安全服务器对第k个候选属性生成的代表元。
S211、多个数据库基于各个候选属性的多个代表元确定各个候选属性的特征值,并基于各个候选属性的特征值进行属性统计。
其中,特征值包括对应候选属性的各个代表元的乘积。
在一些实施例中,S211确定特征值的过程可以反映为如下公式,即对于第k个候选属性,其特征值为:
。
考虑到:
且/>。
,则前述特征值可以化简为/>。
其中,当均为1时,/>。存在/>时,/>。
由此可以实现求交或求并。其中,特征值的含义可以与属性值的设置有关,具体包括求并运算与求交运算两种情况:
对于求交运算,属性值为1时反映对应的候选属性在当前数据库中存在,属性值为0时反映对应的候选属性在当前数据库中不存在。则特征值为1反映对应的候选属性在多个数据库的任意一个数据库中均存在,特征值为非1值反映对应的候选属性在多个数据库中的至少一个数据库中不存在。
对于求并运算,属性值为0时反映对应的候选属性在当前数据库中存在,属性值为1时反映对应的候选属性在当前数据库中不存在。则特征值为1反映对应的候选属性在多个数据库的任意一个数据库中均不存在,特征值非1值反映对应的候选属性在多个数据库中的至少一个数据库中存在。
需要注意的是,在特征值的计算过程中,不涉及乘法群基数g,为保证数据安全,公示方可以不将g发送给各个数据库。此外,前述对特征值的处理可以根据实际需要调整。例如,当引入随机值,特征值的范围可能变化,则可以执行取模操作。具体可以参见图3的相关描述。
综上所述,本申请采用秘密共享的方式,通过安全服务器对数据库的属性进行求交、求并等数据操作,从而实现跨数据库的数据对齐。在上述过程中,数据通过安全服务器汇总到各个数据库,在保证数据安全的情况下,实现了跨数据库的数据共享。其中,对于安全服务器,其获取的数据是拆分后的部分数据,无法从局部共享结果中得知整体的共享结果。而对于各个数据库持有者,其直接获取最终结果,无法得知其它数据库包含属性值的情况,从而保护了各个数据库中的原始数据。此外,在数据传输过程中,输出传输量较小,数据传输较为高效。同时可以兼容求并与求交运算,只需调整属性值的选取规则即可,兼容性较强。
示例性代表元确定方法
图3是本申请一些实施例提供的代表元确定方法的示例性流程图。其中,图3所示的方法可以由数据对齐系统100执行(主要为安全服务器执行)。
如图3所示,P300可以包括如下步骤:
S310、确定乘法群的乘法群阶数、乘法群底数以及乘法群范围。
其中,乘法群的长度为乘法群阶数,乘法群中的最大值小于乘法群范围,乘法群范围为素数。
为减少数据大小,在本申请中乘法群可以为一个循环乘法子群,在子群可以在整数集合内。具体地,本申请涉及的乘法群可以表征为:
。其中,e为乘法群范围,d为乘法群阶数,/>为乘法群底数。其关系满足:d|e-1(即整数d 能够整除e-1), d>m(即整数d大于数据库数量)且e为一个素数。此外,考虑到循环群的数据要求,/>。
基于前述乘法群阶数、乘法群底数以及乘法群范围,可以对底数的乘法运算在整体数值上构成乘法群范围的乘法循环群可以基于乘法群范围e执行取余运算。其指数构成乘法群阶数的加法循环确可以基于乘法群阶数执行取余运算。
在一些实施例中,乘法群阶、乘法群底数以及乘法群范围可以数据大小确定,其中,乘法群范围单次能传输的数据越多,但安全服务器与数据库之间的数据传输量越大。
在一些实施例中,前述S310可以由公示方执行,并将在运算中需要的参数发送给安全服务器以及数据库。其中,安全服务器可以获知乘法群阶数以及乘法群底数。数据库可以获知乘法群阶数以及乘法群范围。由此,前述S310,对于安全服务器可以转换为确定乘法群的乘法群阶数以及乘法群底数,其中,乘法群的长度为乘法群阶数,乘法群中的最大值小于乘法群范围,乘法群范围为素数。
S320、基于乘法群范围确定模长。
在一些实施例中,为进一步提高数据安全性,可以基于阶数确定模长,其中,模长是阶数的整数倍。以使安全服务器的数据即使泄露,在无法获取真实的阶数时,无法执行准确的取模操作,从而无法破解数据库的相关数据。
在一些实施例中,S320也可以由公示方执行,并将对应的模长发送给安全服务器。其中,安全服务器仅获取模长而非乘法群范围。前述S320,对于安全服务器可以转换为确定模长,其中,模长是乘法群范围的正整数倍。
S330、确定第一代表元与第二代表元的差,并就乘法群阶数取余,以作为代表次数。
S340、确定乘法群基数基于代表次数的乘方,并就模长取余,以作为代表元。
前述S330以及S340可以由安全服务器执行,基于前述S330以及S340,前述代表元可以表征为:
。其中,/>为第j个安全服务器中第k个候选属性的代表元,d为乘法群阶数,g为乘法群基数,/>为模长。
基于前述代表元,则特征值可以为:
。
针对前述特征值与代表元,基于循环群的特征,前述取余操作不影响最终结果。
需要说明的是,在不考虑额外构建模长的情况下,前述计算中的也可以用e代替。
示例性特征值检验方法
图4是本申请一些实施例提供的特征值检验的示例性流程图。
在一些实施例中,图4所示的P400可以基于新的公开置换(记作随机置换)而执行。
如图4所示,P400可以包括如下步骤:
S410、多个数据库确定随机置换,并基于随机置换重新确定置换属性值。
在一些实施例中,公示方可以基于数据库的数量生成多个随机置换。对于第i个随机置换,可以表征为:
。并将/>通过秘密路由或安全信道传输到对应的数据库。以实现前述S410。在获取随机置换后,数据库可以基于获取的随机置换,重新确定属性值集合。重新确定的属性值集合如下:
。其中,其中,/>为属性值集合/>基于随机置换/>的第k个置换结果。
数据库的置换属性值可以基于前述重新确定的属性值集合构建。置换属性值满足如下关系:
,其中,/>为第k个候选属性的置换属性值。/>指异或运算,即置换属性值为属性值基于随机置换的结果取非值。
S420、多个数据库基于置换属性值确定第三共享值集合,并发送给对应的安全服务器。
第三共享值集合与前述第二共享值集合类似。其中,在第i个数据库中,第k个候选属性各个第三共享值满足如下关系:
。则其处理过程可以参见第二共享值的处理方法,在此不做赘述。
S430、多个安全服务器确定多个数据库中各个数据库中与多个候选属性对应的多个第三共享值。
对于第j个安全服务器,各个数据库与多个候选属性对应的多个第三共享值可以表征为阶的整数矩阵:/>
。其中,/>表示第i个数据库发送到第j个安全服务器对应的第k个候选属性的第三共享值。
S440、多个安全服务器基于多个数据库中各个数据库中与多个候选属性对应的多个第三共享值确定多个候选属性的多个验证元。
其中,对于第j个安全服务器,第k个候选属性的验证元基于如下公式确定:
。其中,/>为第j个安全服务器,第k个候选属性的验证元。
S450、多个安全服务器将多个候选属性中各个候选属性的验证元发送到多个数据库。
S460、多个数据库基于各个候选属性的多个验证元以及随机置换的逆运算确定各个候选属性的校验值,并基于各个候选属性的校验值对特征值进行验证。
其中,校验值包括各个验证元的乘积,基于前述验证元,第k个候选属性的校验值基于如下公式确定:
。其中,/>为第k个候选属性的校验值。/>为随机置换的逆运算。
基于前述公式,若校验值与对应的特征值的乘积为1时,验证通过。其中,验证过程为:
。
安全服务器侧的数据对齐方法
图5是本申请一些实施例提供安全服务器侧的数据对齐方法的示例性流程图。其中,图5所示的方法可以由安全服务器执行。
如图5所示,P500可以包括如下步骤:
S510、确定多个候选属性以及乘法群。
其中,乘法群被配置为连续等比数列,等比数列的公比为乘法群基数,首项为乘法群基数的0次方。多个数据库包括多个候选属性的属性值集合,属性值集合包括与各个候选属性对应的属性值,属性值为1或0并反映对应的候选属性在当前数据库中存在情况。
S520、确定多个数据库中各个数据库的第一共享值以及多个候选属性对应的多个第二共享值。
其中,各个数据库包括第一共享值集合以及与各个候选属性对应的多个第二共享值集合,第二共享值集合包括与多个安全服务器对应的多个第二共享值,第二共享值集合中各个第二共享值的和为对应的候选属性的属性值,第一共享值集合包括与多个安全服务器对应的多个第一共享值,第一共享值集合中各个第一共享值的和为1。
S530、基于各个数据库中的多个第一共享值确定第一代表元并基于与多个候选属性对应的多个第二共享值确定多个候选属性的第二代表元。
其中,第一代表元被配置为各个第一共享值之和,第二代表元被配置为对应的候选属性各个第二共享值之和。
S540、基于第一代表元以及多个候选属性中各个候选属性对应的多个第二代表元确定各个候选属性的代表元。
其中,代表元包括乘法群基数基于代表次数的乘方,代表次数至少包括第一代表元与对应的第二代表元的差值。
S550、将多个候选属性中各个候选属性的代表元发送到多个数据库,以使多个数据库基于各个候选属性的多个代表元确定各个候选属性的特征值,并基于各个候选属性的特征值进行数据对齐。
其中,特征值包括对应候选属性的各个代表元的乘积。
关于前述P500的技术细节可以参见前述P200的相关描述,在此不做赘述。
数据库侧的数据对齐方法
图6是本申请一些实施例提供数据库侧的数据对齐方法的示例性流程图。其中,图6所示的方法可以由数据库执行。
如图6所示,P600可以包括如下步骤:
S610、确定多个候选属性以及多个候选属性的属性值集合。
其中,属性值集合包括与各个候选属性对应的属性值,属性值为1或0并反映对应的候选属性在当前数据库中存在情况。
S620、确定第一共享值集合。
其中,第一共享值集合包括与多个安全服务器对应的多个第一共享值,第一共享值集合中各个第一共享值的和为1。
S630、确定多个候选属性中各个候选属性的第二共享值集合。
其中,第二共享值集合包括与多个安全服务器对应的多个第二共享值,第二共享值集合中各个第二共享值的和为对应的候选属性的属性值。
S640、将第一共享值集合以及多个候选属性对应的多个第二共享值集合发送到多个安全服务器,以使多个安全服务器基于各个数据库中的多个第一共享值确定第一代表元并基于与多个候选属性对应的多个第二共享值确定多个候选属性的第二代表元,再基于第一代表元以及多个候选属性中各个候选属性对应的多个第二代表元确定各个候选属性的代表元。
其中,第一代表元被配置为各个第一共享值之和,第二代表元被配置为对应的候选属性各个第二共享值之和,代表元包括乘法群基数基于代表次数的乘方,代表次数至少包括第一代表元与对应的第二代表元的差值。
S650、确定多个安全服务器中各个安全服务器的多个候选属性的代表元集合,以确定多个候选属性中各个候选属性的多个代表元。
S660、基于各个候选属性的多个代表元确定各个候选属性的特征值,并基于各个候选属性的特征值进行属性统计。
其中,特征值包括对应候选属性的各个代表元的乘积。
关于前述P600的技术细节可以参见前述P200的相关描述,在此不做赘述。
上述所有可选技术方案,可采用任意结合形成本申请的可选实施例,在此不再一一赘述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序校验码的介质。
需要说明的是,在本申请的描述中,术语“第一”、“第二”、“第三”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是两个或两个以上。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换等,均应包含在本申请的保护范围之内。
Claims (14)
1.一种基于乘法群的数据对齐方法,其特征在于,所述数据对齐方法应用于基于乘法群的数据对齐系统的多个安全服务器,所述数据对齐系统还包括多个数据库,对于所述多个安全服务器中的任意一个,所述数据对齐方法包括:
确定多个候选属性以及乘法群,其中,所述乘法群被配置为连续等比数列,所述等比数列的公比为乘法群基数,首项为所述乘法群基数的0次方;所述多个数据库包括所述多个候选属性的属性值集合,所述属性值集合包括与各个候选属性对应的属性值,所述属性值为1或0并反映对应的候选属性在当前数据库中存在情况;
确定所述多个数据库中各个数据库的第一共享值以及所述多个候选属性对应的多个第二共享值,其中,各个数据库包括第一共享值集合以及与各个候选属性对应的多个第二共享值集合,所述第二共享值集合包括与所述多个安全服务器对应的多个第二共享值,所述第二共享值集合中各个第二共享值的和为对应的候选属性的属性值,所述第一共享值集合包括与所述多个安全服务器对应的多个第一共享值,所述第一共享值集合中各个第一共享值的和为1;
基于各个数据库中的多个第一共享值确定第一代表元并基于与所述多个候选属性对应的多个第二共享值确定所述多个候选属性的第二代表元,其中,所述第一代表元被配置为各个第一共享值之和,所述第二代表元被配置为对应的候选属性各个第二共享值之和;
基于所述第一代表元以及所述多个候选属性中各个候选属性对应的多个第二代表元确定各个候选属性的代表元,其中,所述代表元包括所述乘法群基数基于代表次数的乘方,所述代表次数至少包括所述第一代表元与对应的第二代表元的差值;
将所述多个候选属性中各个候选属性的代表元发送到所述多个数据库,以使所述多个数据库基于各个候选属性的多个代表元确定各个候选属性的特征值,并基于各个候选属性的特征值进行数据对齐,其中,所述特征值包括对应候选属性的各个代表元的乘积。
2.根据权利要求1所述的数据对齐方法,其特征在于,所述基于所述第一代表元以及所述多个候选属性中各个候选属性对应的多个第二代表元确定各个候选属性的代表元,包括:
确定所述乘法群的乘法群阶数以及乘法群底数,其中,所述乘法群的长度为所述乘法群阶数,所述乘法群中的最大值小于所述乘法群范围,所述乘法群范围为素数;
确定模长,其中,所述模长是所述乘法群范围的正整数倍;
确定所述第一代表元与所述第二代表元的差,并就所述乘法群阶数取余,以作为所述代表次数;
确定所述乘法群基数基于代表次数的乘方,并就所述模长取余,以作为所述代表元。
3.根据权利要求2所述的数据对齐方法,其特征在于,对于第j个安全服务器,各个数据库的多个第一共享值能表征为维的整数向量:
其中,为所述多个数据库的数量,/>为第i个数据库发送到第j个安全服务器的第一共享值,在第i个数据库中,各个第一共享值满足如下关系:
其中,n为所述多个安全服务器的数量;
对于第j个安全服务器,各个数据库与所述多个候选属性对应的多个第二共享值能表征为阶的整数矩阵:
其中,为所述多个候选属性的数量,/>表示第i个数据库发送到第j个安全服务器对应的第k个候选属性的第二共享值,在第i个数据库中,第k个候选属性各个第二共享值满足如下关系:
其中,为第i个数据库中第k个候选属性的属性值;
对于第j个安全服务器,第一代表元基于如下公式确定:
其中,为第j个安全服务器的第一代表元;
对于第j个安全服务器,第二代表元基于如下公式确定:
其中,为第j个安全服务器中第k个候选属性的第二代表元;
对于第j个安全服务器,代表元基于如下公式确定:
其中,为第j个安全服务器中第k个候选属性的代表元,d为所述乘法群阶数,g为所述乘法群基数,/>为所述模长;
第k个候选属性的特征值基于如下公式确定:
其中,为第k个候选属性的特征值,/>为所述乘法群范围。
4.根据权利要求2所述的数据对齐方法,其特征在于,所述数据对齐方法还包括:
确定所述多个数据库中各个数据库中与所述多个候选属性对应的多个第三共享值,其中,各个数据库包括与各个候选属性对应的多个第三共享值集合,所述第三共享值集合包括与所述多个安全服务器对应的多个第三共享值,所述第三共享值集合中各个第三共享值的和为对应的候选属性的置换属性值,所述置换属性值为所述属性值基于随机置换的结果取非值,
基于所述多个数据库中各个数据库中与所述多个候选属性对应的多个第三共享值确定所述多个候选属性的多个验证元,其中,所述验证元包括所述乘法群基数基于验证次数的乘方,所述验证次数至少包括对应候选属性的各个第三代表元之和;
将所述多个候选属性中各个候选属性的验证元发送到所述多个数据库,以使所述多个数据库基于各个候选属性的多个验证元以及所述随机置换的逆运算确定各个候选属性的校验值,并基于各个候选属性的校验值对所述特征值进行验证,其中,所述校验值包括各个验证元的乘积,所述校验值与对应的所述特征值的乘积为1时,验证通过。
5.根据权利要求4所述的数据对齐方法,其特征在于,对于第j个安全服务器,各个数据库与所述多个候选属性对应的多个第三共享值能表征为阶的整数矩阵:
其中,为所述多个候选属性的数量,/>表示第i个数据库发送到第j个安全服务器对应的第k个候选属性的第三共享值,在第i个数据库中,第k个候选属性各个第三共享值满足如下关系,/>为所述多个数据库的数量:
其中,为第k个候选属性的置换属性值,置换属性值满足以下关系:
其中,为属性值集合/>基于随机置换/>的第k个置换结果,/>指异或运算;
对于第j个安全服务器,第k个候选属性的验证元基于如下公式确定:
其中,为第j个安全服务器,第k个候选属性的验证元,d为所述乘法群阶数,/>为所述模长,g为所述乘法群基数;
第k个候选属性的校验值基于如下公式确定:
其中,为第k个候选属性的校验值;/>为随机置换的逆运算,/>为所述乘法群范围,n为所述多个安全服务器的数量。
6.根据权利要求5所述的数据对齐方法,其特征在于,所述多个数据库被配置不同的随机置换,其中,所述随机置换用于重新分布所述多个候选属性的顺序,不同的随机置换的调整顺序不同。
7.根据权利要求1所述的数据对齐方法,其特征在于,所述确定多个候选属性,包括:
确定待合并的有限取值集合,其中,所述有限取值集合包括多个选项和/或选项的可选组合;
确定公开置换,以确定所述多个候选属性,其中,所述公开置换为所述有限取值集合与所述多个候选属性之间的唯一映射。
8.根据权利要求1所述的数据对齐方法,其特征在于,所述方法还包括:
预设并公示本次数据对齐的各项参数;
限制所述多个安全服务器之间不进行本次数据对齐要求之外的通信。
9.根据权利要求1所述的数据对齐方法,其特征在于,所述属性值为1时反映对应的候选属性在当前数据库中存在,所述属性值为0时反映对应的候选属性在当前数据库中不存在;
则所述特征值为1反映对应的候选属性在所述多个数据库的任意一个数据库中均存在,所述特征值为非1值反映对应的候选属性在所述多个数据库中的至少一个数据库中不存在。
10.根据权利要求1所述的数据对齐方法,其特征在于,所述属性值为0时反映对应的候选属性在当前数据库中存在,所述属性值为1时反映对应的候选属性在当前数据库中不存在;
则所述特征值为1反映对应的候选属性在所述多个数据库的任意一个数据库中均不存在,所述特征值非1值反映对应的候选属性在所述多个数据库中的至少一个数据库中存在。
11.一种基于乘法群的数据对齐方法,其特征在于,所述数据对齐方法应用于基于乘法群的数据对齐系统的多个数据库,所述数据对齐系统还包括多个安全服务器,对于所述多个数据库中的任意一个,所述数据对齐方法包括:
确定多个候选属性以及所述多个候选属性的属性值集合,其中,所述属性值集合包括与各个候选属性对应的属性值,所述属性值为1或0并反映对应的候选属性在当前数据库中存在情况;
确定第一共享值集合,其中,所述第一共享值集合包括与所述多个安全服务器对应的多个第一共享值,所述第一共享值集合中各个第一共享值的和为1;
确定所述多个候选属性中各个候选属性的第二共享值集合,其中,所述第二共享值集合包括与所述多个安全服务器对应的多个第二共享值,所述第二共享值集合中各个第二共享值的和为对应的候选属性的属性值;
将所述第一共享值集合以及所述多个候选属性对应的多个第二共享值集合发送到所述多个安全服务器,以使所述多个安全服务器基于各个数据库中的多个第一共享值确定第一代表元并基于与所述多个候选属性对应的多个第二共享值确定所述多个候选属性的第二代表元,再基于所述第一代表元以及所述多个候选属性中各个候选属性对应的多个第二代表元确定各个候选属性的代表元,其中,所述第一代表元被配置为各个第一共享值之和,所述第二代表元被配置为对应的候选属性各个第二共享值之和,所述代表元包括所述乘法群基数基于代表次数的乘方,所述代表次数至少包括所述第一代表元与对应的第二代表元的差值;
确定所述多个安全服务器中各个安全服务器的所述多个候选属性的代表元集合,以确定所述多个候选属性中各个候选属性的多个代表元;
基于各个候选属性的多个代表元确定各个候选属性的特征值,并基于各个候选属性的特征值进行属性统计,其中,所述特征值包括对应候选属性的各个代表元的乘积。
12.一种基于秘密共享的数据对齐方法,其特征在于,所述数据对齐方法应用于基于秘密共享的数据对齐系统的多个数据库以及多个安全服务器,所述数据对齐方法包括:
所述多个数据库确定多个候选属性以及所述多个候选属性的属性值集合,其中,所述属性值集合包括与各个候选属性对应的属性值,所述属性值为1或0并反映对应的候选属性在当前数据库中存在情况;
所述多个数据库确定第一共享值集合,其中,所述第一共享值集合包括与所述多个安全服务器对应的多个第一共享值,所述第一共享值集合中各个第一共享值的和为1;
所述多个数据库确定所述多个候选属性中各个候选属性的第二共享值集合,其中,所述第二共享值集合包括与所述多个安全服务器对应的多个第二共享值,所述第二共享值集合中各个第二共享值的和为对应的候选属性的属性值;
所述多个数据库将所述第一共享值集合以及所述多个候选属性对应的多个第二共享值集合发送到所述多个安全服务器;
所述多个安全服务器确定多个候选属性以及乘法群,其中,所述乘法群被配置为连续等比数列,所述等比数列的公比为乘法群基数,首项为所述乘法群基数的0次方;所述多个数据库包括所述多个候选属性的属性值集合,所述属性值集合包括与各个候选属性对应的属性值,所述属性值为1或0并反映对应的候选属性在当前数据库中存在情况;
所述多个安全服务器确定所述多个数据库中各个数据库的第一共享值以及所述多个候选属性对应的多个第二共享值;
所述多个安全服务器基于各个数据库中的多个第一共享值确定第一代表元并基于与所述多个候选属性对应的多个第二共享值确定所述多个候选属性的第二代表元,其中,所述第一代表元被配置为各个第一共享值之和,所述第二代表元被配置为对应的候选属性各个第二共享值之和;
所述多个安全服务器基于所述第一代表元以及所述多个候选属性中各个候选属性对应的多个第二代表元确定各个候选属性的代表元,其中,所述代表元包括所述乘法群基数基于代表次数的乘方,所述代表次数至少包括所述第一代表元与对应的第二代表元的差值;
所述多个安全服务器将所述多个候选属性中各个候选属性的代表元发送到所述多个数据库;
所述多个数据库确定所述多个安全服务器中各个安全服务器的所述多个候选属性的代表元集合,以确定所述多个候选属性中各个候选属性的多个代表元;
所述多个数据库基于各个候选属性的多个代表元确定各个候选属性的特征值,并基于各个候选属性的特征值进行属性统计,其中,所述特征值包括对应候选属性的各个代表元的乘积。
13.一种基于秘密共享的数据对齐系统,其特征在于,所述数据对齐系统包括多个数据库以及多个安全服务器:
所述多个数据库用于:
确定多个候选属性以及所述多个候选属性的属性值集合,其中,所述属性值集合包括与各个候选属性对应的属性值,所述属性值为1或0并反映对应的候选属性在当前数据库中存在情况;
确定第一共享值集合,其中,所述第一共享值集合包括与所述多个安全服务器对应的多个第一共享值,所述第一共享值集合中各个第一共享值的和为1;
确定所述多个候选属性中各个候选属性的第二共享值集合,其中,所述第二共享值集合包括与所述多个安全服务器对应的多个第二共享值,所述第二共享值集合中各个第二共享值的和为对应的候选属性的属性值;
将所述第一共享值集合以及所述多个候选属性对应的多个第二共享值集合发送到所述多个安全服务器;
所述多个安全服务器用于:
确定多个候选属性以及乘法群,其中,所述乘法群被配置为连续等比数列,所述等比数列的公比为乘法群基数,首项为所述乘法群基数的0次方;所述多个数据库包括所述多个候选属性的属性值集合,所述属性值集合包括与各个候选属性对应的属性值,所述属性值为1或0并反映对应的候选属性在当前数据库中存在情况;
确定所述多个数据库中各个数据库的第一共享值以及所述多个候选属性对应的多个第二共享值;
基于各个数据库中的多个第一共享值确定第一代表元并基于与所述多个候选属性对应的多个第二共享值确定所述多个候选属性的第二代表元,其中,所述第一代表元被配置为各个第一共享值之和,所述第二代表元被配置为对应的候选属性各个第二共享值之和;
基于所述第一代表元以及所述多个候选属性中各个候选属性对应的多个第二代表元确定各个候选属性的代表元,其中,所述代表元包括所述乘法群基数基于代表次数的乘方,所述代表次数至少包括所述第一代表元与对应的第二代表元的差值;
将所述多个候选属性中各个候选属性的代表元发送到所述多个数据库;
所述多个数据库还用于:
确定所述多个安全服务器中各个安全服务器的所述多个候选属性的代表元集合,以确定所述多个候选属性中各个候选属性的多个代表元;
基于各个候选属性的多个代表元确定各个候选属性的特征值,并基于各个候选属性的特征值进行属性统计,其中,所述特征值包括对应候选属性的各个代表元的乘积。
14.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器,
其中,所述处理器用于执行上述权利要求1-11中任意一项所述的基于乘法群的数据对齐方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311776548.0A CN117454436B (zh) | 2023-12-22 | 2023-12-22 | 基于乘法群的数据对齐方法、系统及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311776548.0A CN117454436B (zh) | 2023-12-22 | 2023-12-22 | 基于乘法群的数据对齐方法、系统及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117454436A CN117454436A (zh) | 2024-01-26 |
CN117454436B true CN117454436B (zh) | 2024-02-27 |
Family
ID=89591536
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311776548.0A Active CN117454436B (zh) | 2023-12-22 | 2023-12-22 | 基于乘法群的数据对齐方法、系统及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117454436B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104104501A (zh) * | 2014-07-08 | 2014-10-15 | 杭州电子科技大学 | 一种基于指纹特征与有限乘法群的共享模糊金库方法 |
CN115834200A (zh) * | 2022-11-23 | 2023-03-21 | 南京邮电大学 | 基于区块链的属性基可搜索加密数据共享方法 |
CN115879737A (zh) * | 2023-01-08 | 2023-03-31 | 北京工业大学 | 一种基于密度和出入度平衡聚类的共享单车站点选址方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111431897B (zh) * | 2020-03-23 | 2022-05-10 | 齐鲁工业大学 | 用于云协助物联网的带追踪的多属性机构属性基加密方法 |
-
2023
- 2023-12-22 CN CN202311776548.0A patent/CN117454436B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104104501A (zh) * | 2014-07-08 | 2014-10-15 | 杭州电子科技大学 | 一种基于指纹特征与有限乘法群的共享模糊金库方法 |
CN115834200A (zh) * | 2022-11-23 | 2023-03-21 | 南京邮电大学 | 基于区块链的属性基可搜索加密数据共享方法 |
CN115879737A (zh) * | 2023-01-08 | 2023-03-31 | 北京工业大学 | 一种基于密度和出入度平衡聚类的共享单车站点选址方法 |
Non-Patent Citations (1)
Title |
---|
关于数字地质图元数据编制方法若干问题的讨论;陈克强, 高振家, 赵洪伟;地质通报;20011125(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117454436A (zh) | 2024-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108811519B (zh) | 用于在不公开特定识别信息的情况下建立标识符之间的链接的系统和方法 | |
KR101843340B1 (ko) | 프라이버시―보존 협력 필터링 | |
US20160342977A1 (en) | Device, method and system for virtual asset transactions | |
KR101467130B1 (ko) | 검색 가능 암호 처리 시스템 | |
US20170061398A1 (en) | Cryptographic currency block chain based voting system | |
EP3465523B1 (en) | Secure collection of sensitive data | |
KR20180115778A (ko) | 통합된 블록체인 기반 데이터 전달 제어 방법 및 시스템 | |
CN103488922B (zh) | 一种用于提供验证码的方法与设备 | |
CN108769024B (zh) | 一种数据获取方法及多数据运营商协商服务系统 | |
CN114329527A (zh) | 交集数据获取方法、设备和系统 | |
EP3531365A1 (en) | Computer system, connection apparatus, and processing method using transaction | |
CN116941219A (zh) | 使用数据储存库与多方进行隐私集合求交(psi)技术 | |
CN111931219B (zh) | 数据存储方法及装置、数据查询方法及装置 | |
CN108737435B (zh) | 一种账户初始化方法和装置 | |
CN107885705A (zh) | 一种高效可扩展的安全的文档相似性计算方法和装置 | |
CN112950343A (zh) | 一种企业财务数据采集处理方法及系统 | |
CN113315746A (zh) | 从用户设备向接收方设备匿名发送数据的系统和方法 | |
CN111490995A (zh) | 保护隐私的模型训练方法和装置、数据处理方法、服务器 | |
CN111475690B (zh) | 字符串的匹配方法和装置、数据检测方法、服务器 | |
CN117454436B (zh) | 基于乘法群的数据对齐方法、系统及电子设备 | |
CN116992486A (zh) | 一种基于密码学的联合黑名单多方隐私查询方法及系统 | |
JP7102910B2 (ja) | 情報提示システム、情報提示方法、およびプログラム | |
CN117454434B (zh) | 基于秘密共享的数据库属性统计方法、系统及电子设备 | |
CN117454435B (zh) | 基于秘密多项式的跨数据库统计方法、系统及电子设备 | |
CN114817346A (zh) | 一种业务处理方法、装置、电子设备及计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |