CN116089991B - 数据对齐方法、装置、设备及存储介质 - Google Patents

数据对齐方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116089991B
CN116089991B CN202310390727.4A CN202310390727A CN116089991B CN 116089991 B CN116089991 B CN 116089991B CN 202310390727 A CN202310390727 A CN 202310390727A CN 116089991 B CN116089991 B CN 116089991B
Authority
CN
China
Prior art keywords
aligned
data
dependent variable
determining
finite field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310390727.4A
Other languages
English (en)
Other versions
CN116089991A (zh
Inventor
荆博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202310390727.4A priority Critical patent/CN116089991B/zh
Publication of CN116089991A publication Critical patent/CN116089991A/zh
Application granted granted Critical
Publication of CN116089991B publication Critical patent/CN116089991B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Collating Specific Patterns (AREA)

Abstract

本公开提供了一种数据对齐方法、装置、设备及存储介质,涉及数据处理技术领域,尤其涉及大数据、人工智能和区块链技术,可用于云计算和云服务。具体实现方案为:获取不同参与方的待对齐数据的对齐参考数据;根据不同参与方的对齐参考数据的交集,确定不同参与方之间的公共数据,用于进行数据对齐;其中,任一参与方的待对齐数据的对齐参考数据采用以下方式确定得到:将该参与方的待对齐数据转化为有限域的椭圆曲线上的点,得到该参与方的待对齐点;采用该参与方的私钥对该参与方的待对齐点进行加密,并采用其他参与方的私钥对加密结果进行级联加密,得到该参与方的对齐参考数据。根据本公开的技术,提高了数据对齐过程的数据安全性。

Description

数据对齐方法、装置、设备及存储介质
技术领域
本公开涉及数据处理技术领域,尤其涉及大数据、人工智能和区块链技术,可用于云计算和云服务。
背景技术
随着信息时代的不断发展,不同数据持有方所持有的数据量不断增加,不同数据持有方可能持有相同对象的特征数据,通过将不同特征数据按照对象维度进行对齐,能够实现不同数据持有方之间所持有数据的横向或纵向扩展,为多方数据的联合使用提供了便利。
发明内容
本公开提供了一种数据对齐方法、装置、设备及存储介质。
根据本公开的一方面,提供了一种数据对齐方法,包括:
获取不同参与方的待对齐数据的对齐参考数据;
根据不同参与方的对齐参考数据的交集,确定不同参与方之间的公共数据,用于进行数据对齐;
其中,任一参与方的待对齐数据的对齐参考数据采用以下方式确定得到:
将该参与方的待对齐数据转化为有限域的椭圆曲线上的点,得到该参与方的待对齐点;
采用该参与方的私钥对该参与方的待对齐点进行加密,并采用其他参与方的私钥对加密结果进行级联加密,得到该参与方的对齐参考数据。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开实施例所提供的任意一种数据对齐方法。
根据本公开的另一方面,还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开实施例所提供的任意一种数据对齐方法。
根据本公开的技术,提高了数据对齐过程的数据安全性。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是本公开实施例所提供的一种数据对齐方法的流程图;
图2是本公开实施例所提供的一种待对齐点确定方法的流程图;
图3A是本公开实施例所提供的另一种待对齐点确定方法的流程图;
图3B是本公开实施例所提供的另一种数据对齐方法的流程图;
图4是本公开实施例所提供的一种数据对齐装置的结构图;
图5是用来实现本公开实施例的数据对齐方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本公开实施例提供的数据对齐方法和数据对齐装置,适用于在至少两个参与方之间在不泄露自身数据安全的情况下,进行数据对齐的场景,可用于多方协同计算。本公开实施例所提供的各数据对齐方法,可以由数据对齐装置执行,该装置可以采用软件和/或硬件实现,并具体配置于电子设备中,该电子设备可以是参与多方协同计算的计算节点,本公开对此不作任何限定。
为了便于理解,首先对数据对齐方法进行详细说明。
参见图1所示的一种数据对齐方法,包括:
S101、获取不同参与方的待对齐数据的对齐参考数据。
S102、根据不同参与方的对齐参考数据的交集,确定不同参与方之间的公共数据,用于进行数据对齐。
其中,参与方可以是待对齐数据的持有方或使用方。参与方的数量可以为至少两个。
其中,对齐参考数据为替代待对齐数据自身,来实现不同参与方的待对齐数据对齐的参照数据,本公开采用对齐参考数据而非待对齐数据,间接进行不同参与方的数据对齐,避免了非公共部分的待对齐数据的泄露,从而提高了数据对齐过程的数据安全性。
其中,公共数据可以理解为不同参与方对应待对齐数据的相同部分数据。可以直接将不同参与方的对齐参考数据的交集所对应的待对齐数据,作为求交参与方之间的公共数据。
其中,数据对齐可以是横向对齐或纵向对齐。其中,横向对齐可以理解为不同参与方所持有的待对齐数据所关联的特征字段不同,因此,可以实现将公共数据对应的不同特征字段下的特征数据的联合,以增加公共数据下的特征维度。其中,纵向对齐可以理解为不同参与方所持有的待对齐数据所关联的特征字段相同,因此可以实现将公共数据之外的其他待对齐数据的特征数据的联合,以增加待对齐数据的样本数量。
示例性的,任一参与方的待对齐数据的对齐参考数据采用以下方式确定得到:将该参与方的待对齐数据转化为有限域的椭圆曲线上的点,得到该参与方的待对齐点;采用该参与方的私钥对该参与方的待对齐点进行加密,并采用其他参与方的私钥对加密结果进行级联加密,得到该参与方的对齐参考数据。
其中,有限域的椭圆曲线即为将椭圆曲线的定义域由实数域缩减到有限域的椭圆曲线。其中,有限域可以理解为包含有限个元素的集合。在一个具体示例中,一个有限域即为模p的整数域,可以包含的整数元素,也即有限域是定义在整数集上。其中p是一个质数。在有限域中,可以实现加法和乘法二元操作,两者均满足封闭性、结合律和交换律。对于两个操作,存在独一无二的单位元,且对每一个元素都有一个唯一的逆元。在有限域上面的加法和乘法,以模运算的方式进行工作。值得注意的是,本公开中的有限域,特指有限域所定义整数集的元素数量p。其中,有限域的椭圆曲线可以简单描述为有限域p上的/>。其中,a和b为椭圆曲线的参数。上述各参数可以由技术人员根据实际需求或经验进行设定,或通过大量试验反复确定,本公开对此不作任何限定。
需要说明的是,通过将待对齐数据转化为有限域的椭圆曲线上的点,而非实数域的椭圆曲线上的点,从而便于进行离散对数问题求解,保证了数据对齐的可实现性。另外,针对任一参与方通过将该参与方的待对齐数据转化为有限域的椭圆曲线上的待对齐点,能够实现待对齐数据的脱敏处理,避免了待对齐数据的泄露,同时通过不同待对齐数据对应待对齐点不同的特性,保证了采用待对齐点替代待对齐数据进行数据对齐的准确性。
可以理解的是,通过该参与方的私钥对自身待对齐点进行加密,避免其他参与方根据待对齐点反算或推算出待对齐数据,进一步提高了待对齐数据的安全性。通过其他参与方的私钥,对前述加密结果进行级联加密,从而实现了对不同参与方的待对齐点在相同加密模式下进行相同层级的数据加密,保证了相同待对齐点经多重级联加密后所得的对齐参考数据相同,不同待对齐点经多重级联解密后所得的对齐参考数据不同的特性,从而保证了基于对齐参考数据进行数据对齐结果的准确度。
本公开实施例通过将各参与方的待对齐数据转化为有限域的椭圆曲线上的待对齐点,并经自身私钥以及其他参与方私钥依次级联加密后,得到对齐参考数据,并采用对齐参考数据替代待对齐数据,间接实现不同参与方的待对齐数据的数据对齐,避免了参与方进行非公共数据中待对齐数据的反算或推导,提高了数据对齐过程的数据安全性。同时,由于待对齐数据、待对齐点以及对应对齐参考数据存在一一映射关系,因此保证了数据对齐结果的准确度。
在上述各技术方案的基础上,本公开还提供了一个可选实施例,在该可选实施例中,对待对齐点的确定操作,进行了优化改进。需要说明的是,在本公开实施例中未详述部分,可参见其他实施例中的相关表述,在此不再赘述。
参见图2所示的待对齐点确定方法,包括:
S201、针对任一参与方,将该参与方的待对齐数据转化为待对齐大整数。
其中,大整数即为用基本数据类型无法存储其精度的高精度整数,可以采用其他方式进行大整数存储,例如数组。待对齐大整数即为将待对齐数据转化为大整数所得的转化结果。
在一个可选实施例中,针对字节类型的待对齐数据,可以直接将相应待对齐数据转化为高精度整数,得到待对齐大整数。
在另一可选实施例中,针对非字节类型的待对齐数据,可以对相应待对齐数据进行字节编码,以更新待对齐数据;将更新后的待对齐数据转化为高精度整数,得到待对齐大整数。这样做的好处在于,可以实现非字节类型数据的大整数转化,提高了将待对齐数据转化为待对齐点的普适性,为后续待对齐点的转化奠定了基础。
其中,可以采用现有技术中的至少一种字节编码方式,实现对待对齐数据的字节编码,本公开对字节编码所采用的具体编码方式不作任何限定。
由于待对齐数据所对应数据空间通常较小,因此在生成待对齐点的过程中复杂度较低,降低了待对齐数据的安全性。为了克服上述问题,在又一可选实施例中,还可以对待对齐数据进行哈希编码,以更新待对齐数据,并将更新后的待对齐数据转化为待对齐大整数,从而将待对齐数据转换到更高维度的数据空间中,增加了待对齐点转化过程的数据复杂度,从而增加了待对齐数据的推导或反算难度,进一步提高了待对齐数据的安全性。
其中,可以采用现有技术中的至少一种哈希编码方式,实现对待对齐数据的哈希编码,本公开对哈希编码所采用的具体编码方式不作任何限定。在一个具体实现方式中,哈希编码可以采用SHA256(Secure Hash Algorithm 256,安全散列算法256)算法实现。在一个可选实施例中,在进行哈希编码方式,可以根据哈希编码算法的输出结果长度与有限域p的大小来选取。通常,为了避免出现不同待对齐数据转化所得的待对齐大整数相同,最终致使待对齐点相同,通常哈希编码函数的输出结果长度小于有限域p。
需要说明的是,在对待对齐数据进行编码处理时,可以根据实际需求,从字节编码和哈希编码等编码操作中择一使用,或级联使用,本公开对此不作任何限定。
为了提高待对齐点生成过程的规范性,便于进行待对齐点生成的批量化处理,还可以针对任一参与方,对该参与方的待对齐数据进行字节编码;对字节编码结果进行哈希编码;将哈希编码结果转化为大整数,得到相应待对齐数据的待对齐大整数。
值得注意的是,并非所有的待对齐大整数,均能够顺利转化成前述椭圆曲线上的待对齐点,当遇到此种情况,可以通过对待对齐数据级联哈希编码的方式,更新待对齐数据,并将更新后的待对齐数据转化为新的待对齐大整数,进行后续计算。其中,哈希编码的级联次数可以根据实际需求而定,仅需保证基于所转化的待对齐大整数能够顺利转化为前述椭圆曲线上的待对齐点即可。或者,预先设定级联哈希编码的次数,采用统一的级联次数对各待对齐数据级联进行哈希编码,从而保证不同待对齐数据的规范化处理。
S202、根据待对齐大整数和有限域,得到待对齐点的自变量坐标。
示例性的,可以基于预设转化算法,将待对齐大整数转化为有限域的一维点坐标,并将该一维点坐标,作为待对齐数据对应待对齐点的自变量坐标。其中,预设转化算法可以由技术人员根据实际需要或经验进行设定,或通过大量试验反复确定,本公开对此不作任何限定。
在一个具体实现方式中,可以采用待对齐大整数对有限域取模,得到待对齐点的自变量坐标。这样做的好处在于,计算方式方便快捷,运算量小,有助于提高待对齐点的确定效率。
S203、根据有限域和自变量坐标,确定待对齐点在椭圆曲线上的因变量坐标。
S204、生成包括自变量坐标和因变量坐标的待对齐点。
示例性的,可以基于预设因变量确定算法,将有限域和自变量坐标作为自变量,确定待对齐点在椭圆曲线上的因变量坐标。其中,预设因变量确定算法,可以由技术人员根据需要或经验进行设定,或通过大量试验反复确定,本公开对此不作任何限定。
在一个具体实现方式中,可以确定与有限域相匹配的因变量确定方式;基于所匹配的因变量确定方式,根据自变量坐标和有限域,确定待对齐点在椭圆曲线上的因变量坐标。
由于采用不同有限域的椭圆曲线,进行因变量坐标确定时,所匹配的因变量确定方式不同。仅在因变量确定方式相匹配的情况下,才能够有效确定出位于相应椭圆曲线上的因变量坐标。因此,需要基于有限域来匹配因变量确定方式,以提高在椭圆曲线上的因变量坐标确定结果的可解性和有效性。
示例性的,可以确定有限域对预设数值的取模结果;根据取模结果,确定与有限域相匹配的因变量确定方式。其中,预设数值可以由技术人员根据实际需要或经验值进行设定。可以理解的是,通过引入有限域对预设数值的取模结果,实现了对因变量确定方式的自动化确定,提高了因变量确定方式的确定效率。
可选的,若取模结果满足第一条件,则选取与第一条件对应的因变量确定方式,作为与有限域相匹配的因变量确定方式。进一步的,若取模结果不满足第一条件,则选取与第一条件对应因变量确定方式之外的其他因变量确定方式,作为与有限域相匹配的因变量确定方式。其中,第一条件可以由技术人员根据需要进行设定或调整。
或者可选的,若取模结果满足第二条件,则选取与第二条件对应的因变量确定方式,作为与有限域相匹配的因变量确定方式。进一步的,若取模结果不满足第二条件,则选取与第二条件对应因变量确定方式之外的其他因变量确定方式,作为与有限域相匹配的因变量确定方式。其中,第二条件可以由技术人员根据需要进行设定或调整。其中,第二条件与第一条件互补,且不同条件所对应的因变量确定方式不同。
可以理解的是,通过引入取模结果与不同条件的满足情况,进行因变量确定方式的选取,无需进行复杂运算,提高了因变量确定方式确定过程的便捷性。
具体的,若,则基于费马小定理,根据自变量坐标和有限域,确定待对齐点在椭圆曲线上的因变量坐标;若/>,则基于Tonelli-Shanks(托内利-尚克斯)算法,根据自变量坐标和有限域,确定待对齐点在椭圆曲线上的因变量坐标。其中,mod为取模运算符。
具体而言,费马小定理指出,如果有限域p是质数,x是不可被p整除的整数,则与/>全等:/>。因而:
两边都乘以x:
两边再乘以x:
因为,所以/>(k为整数),也就是说,可以被4整除;
两边的指数同时除以4:
基于上述内容,可以得出以下结论:假设有限域p为质数,且,则根据费马小定理/>,那么对于任意有限域的元素x(对应自变量坐标),其在有限域的平方根(对应因变量坐标)通/>。其中,/>为点乘运算符。
基于Tonelli-Shanks算法,根据任意有限域的元素x(自变量坐标)和有限域,确定x在有限域的平方根(对应因变量坐标),可以借鉴现有技术的计算方式,本公开在此不再赘述。
由于有限域的椭圆曲线上的点的数量是有限的,因此,基于一次编码处理,例如哈希编码所得的待对齐大整数,存在基于不同因变量确定方式均无法直接确定出位于椭圆曲线上的待对齐点的因变量坐标。此时,可以在先确定自变量坐标对应的因变量平方项,仅在因变量平方项对应因变量坐标位于椭圆曲线上时,再进行因变量坐标的确定;在因变量平方项对应因变量坐标未位于椭圆曲线上时,重新进行待对齐大整数的确定,直至所确定的因变量平方项对应因变量坐标位于椭圆曲线上,得到最终的因变量坐标。
在一个可选实施例中,可以根据椭圆曲线,确定自变量坐标对应的因变量平方项;若因变量平方项对应因变量坐标存在于椭圆曲线上,则根据有限域和自变量坐标,确定待对齐点在椭圆曲线上的因变量坐标。进一步的,若因变量平方项对应因变量坐标未存在于椭圆曲线上,则对前述更新后的待对齐数据进行哈希编码,以再次更新待对齐数据;重新执行待对齐大整数转化及因变量平方项确定操作,直至因变量平方项对应因变量坐标存在于椭圆曲线上。
可以理解的是,通过引入因变量平方项是否存在于椭圆曲线上,直接或间接进行因变量坐标的确定,有效保证了所确定的因变量坐标结合自变量坐标对应的待对齐点,存在于前述有限域的椭圆曲线上,从而保证了所确定待对齐点的准确度,进而有助于提高数据对齐结果的准确度。
可选的,可以采用以下方式确定因变量平方项对应因变量坐标是否存在于椭圆曲线上:判断因变量平方项是否是有限域的二次剩余;根据二次剩余判定结果,确定因变量平方项对应因变量坐标是否存在于椭圆曲线上。
示例性的,若因变量平方项是有限域的二次剩余,则确定因变量平方项对应因变量坐标存在于椭圆曲线上;若因变量平方项不是有限域的二次剩余,则确定因变量平方项对应因变量坐标未存在于椭圆曲线上。
可选的,如果存在一个整数m,使得,那么/>被称为模p的二次剩余。也即,模p的二次剩余是p范围内能够被平方得到的整数。其中,/>为因变量平方项,p为有限域,/>为点乘运算符。
或者可选的,若满足,则/>是模p的二次剩余。其中,/>为因变量平方项,p为有限域,/>为点乘运算符。
可以理解的是,通过判定因变量平方项是否是有限域的二次剩余的方式,进行因变量平方项对应因变量坐标是否存在于椭圆曲线上,确定方式方便快捷,运算量小,且准确度高,为后续因变量坐标的确定,奠定了基础。
本公开实施例通过将待对齐数据转化为待对齐大整数,并根据待对齐大整数和有限域进行待对齐点的自变量坐标确定,根据有限域和自变量坐标,进行椭圆曲线上的因变量坐标确定,进而实现将待对齐数据转化为椭圆曲线上的待对齐点,完善了待对齐点的确定机制,保证了待对齐点确定的规范性和统一性,便于进行待对齐点的批量生成,提高了待对齐点的确定效率,进而有助于提高数据对齐效率。
在上述各技术方案的基础上,本公开还提供了一个优选实施例。在该优选实施例中,以第一参与方和第二参与方进行数据对齐为例,对数据对齐过程过程进行了详细说明。
参加图3A所示的待对齐点确定方法,由各参与方执行,包括:
S301、将隐私数据集合中的待对齐数据编码为字节数组。
例如,对数据集合中的身份证号进行对齐,则将身份证号编码为字节数组。
字节编码目的:将待对齐数据按照相同的方式进行数值量化。
S302、将字节数组作为预设哈希算法的输入,得到哈希结果。其中,哈希结果同样为字节数组。
其中,预设哈希算法可以是SHA256算法。
其中,哈希操作的目的在于,将编码后数据转化到预设数据空间中,实现数据空间标准化,同时增加数据复杂度,避免后续所确定待对齐点被恶意破解。
S303、将哈希结果编码为一个大整数。
S304、对大整数进行模p运算,得到x坐标,以将大整数限定在预先选定的椭圆曲线的有限域p内。
其中,有限域p与预先人为选定的椭圆曲线有关。
S305、根据预先选定的椭圆曲线方程,确定y坐标的平方
其中,椭圆曲线方程:,其中a、b为椭圆曲线的参数,不同的椭圆曲线,参数不同。其中,/>为点乘运算符。
S306、判断是否是模p的二次剩余;若是,则继续执行S307A;否则,继续执行S307B。
可选的,如果存在一个整数m,使得,那么/>被称为模 p 的二次剩余。可以理解为,模 p 的二次剩余是 p 范围内能够被平方得到的整数。其中,/>为点乘运算符,mod为取模运算符。
或者可选的,若满足,则/>是模p的二次剩余。其中,/>为点乘运算符,mod为取模运算符。
需要说明的是,若是模p的二次剩余,则表明y在椭圆曲线上;否则,表明y不在椭圆曲线上。
S307A、选择与有限域p相匹配的y坐标计算方式,确定y坐标计算方式,得到待对齐数据在椭圆曲线上的待对齐点(x, y)。
具体的,若,则基于费马小定理,根据有限域p和x坐标,计算y坐标;若,则基于Tonelli-Shanks算法,根据有限域p和x坐标,计算y坐标。
S307B、将前述哈希结果作为新的字节数组,返回执行S302。
继续参见图3B所示的数据对齐方法,包括:
S308、第一参与方采用自身私钥,对自身待对齐点进行加密,得到第一参与方的待对齐点密文;以及,第二参与方采用自身私钥,对自身待对齐点进行加密,得到第二参与方的待对齐点密文。
S309、第一参与方与第二参与方交换各自的待对齐点密文。
S310、第一参与方采用自身私钥,对第二参与方的待对齐点密文进行加密,得到第二参与方的对齐参考数据;以及,第二参与方采用自身私钥,对第一参与方的待对齐点密文进行加密,得到第一参与方的对齐参考数据。
S311、第一参与方与第二参与方交换对方的对齐参考数据。
S312、第一参与方以及第二参与方,分别根据第一对齐参考数据以及第二对齐参考数据的交集,确定公共数据,用于数据对齐。
其中,对齐后的数据可以用于进行协同计算。
其中,上述仅示例性给出两个参与方之间进行数据对齐的方式,可以扩展到多个参与方之间的数据对齐。当存在多个参与方时,可以拆解成两个参与方之间的数据对齐;或者,在生成对齐参考数据过程中,任一参与方的待对齐点密文,经其他参与方的私钥级联加密后,得到该参与方的对齐参考数据即可。
作为上述各数据对齐方法的实现,本公开还提供了一种实施上述各数据对齐方法的执行装置的可选实施例。
参见图4所示的数据对齐装置400,包括:对齐参考数据获取模块410、公共数据确定模块402和对齐参考数据确定模块403。其中,
对齐参考数据获取模块410,用于获取不同参与方的待对齐数据的对齐参考数据;
公共数据确定模块402,用于根据不同参与方的对齐参考数据的交集,确定不同参与方之间的公共数据,用于进行数据对齐;
其中,任一参与方的数据对齐装置中,还包括对齐参考数据确定模块403,进行该参与方的待对齐数据的对齐参考数据的确定;
所述对齐参考数据确定模块403,包括:
待对齐点得到单元,用于将该参与方的待对齐数据转化为有限域的椭圆曲线上的点,得到该参与方的待对齐点;
对齐参考数据得到单元,用于采用该参与方的私钥对该参与方的待对齐点进行加密,并采用其他参与方的私钥对加密结果进行级联加密,得到该参与方的对齐参考数据。
本公开实施例通过将各参与方的待对齐数据转化为有限域的椭圆曲线上的待对齐点,并经自身私钥以及其他参与方私钥依次级联加密后,得到对齐参考数据,并采用对齐参考数据替代待对齐数据,间接实现不同参与方的待对齐数据的数据对齐,避免参与方进行非公共数据中待对齐数据的反算或推导,提高了数据对齐过程的数据安全性。同时,由于待对齐数据、待对齐点以及对应对齐参考数据存在一一映射关系,因此保证了数据对齐结果的准确度。
在一个可选实施例中,所述待对齐点得到单元,包括:
大整数转化子单元,用于将该参与方的待对齐数据转化为待对齐大整数;
自变量坐标得到子单元,用于根据所述待对齐大整数和所述有限域,得到所述待对齐点的自变量坐标;
因变量坐标得到子单元,用于根据所述有限域和所述自变量坐标,确定所述待对齐点在所述椭圆曲线上的因变量坐标;
待对齐点生成子单元,用于生成包括所述自变量坐标和所述因变量坐标的所述待对齐点。
在一个可选实施例中,所述自变量坐标得到子单元,具体用于:
采用所述待对齐大整数对所述有限域取模,得到所述待对齐点的自变量坐标。
在一个可选实施例中,所述因变量坐标得到子单元,包括:
因变量确定方式匹配从单元,用于确定与所述有限域相匹配的因变量确定方式;
因变量坐标确定从单元,用于基于所匹配的因变量确定方式,根据所述自变量坐标和所述有限域,确定所述待对齐点在所述椭圆曲线上的因变量坐标。
在一个可选实施例中,所述因变量确定方式匹配从单元,具体用于:
确定所述有限域对预设数值的取模结果;
根据取模结果,确定与所述有限域相匹配的因变量确定方式。
在一个可选实施例中,所述因变量确定方式匹配从单元在执行根据取模结果,确定与所述有限域相匹配的因变量确定方式时,具体用于:
若取模结果满足第一条件,则选取与所述第一条件对应的因变量确定方式,作为与所述有限域相匹配的因变量确定方式;
若取模结果满足与所述第一条件互补的第二条件,则选取与所述第二条件对应的因变量确定方式,作为与所述有限域相匹配的因变量确定方式。
在一个可选实施例中,所述大整数转化子单元,包括:
编码从单元,用于对该参与方的待对齐数据进行编码处理,以更新所述待对齐数据;其中,所述编码处理包括字节编码和/或哈希编码;
大整数转化从单元,用于将更新后的待对齐数据转化为所述待对齐大整数。
在一个可选实施例中,所述因变量坐标得到子单元,包括:
因变量平方项确定从单元,用于根据所述椭圆曲线,确定所述自变量坐标对应的因变量平方项;
存在响应从单元,用于若所述因变量平方项对应因变量坐标存在于所述椭圆曲线上,则根据所述有限域和所述自变量坐标,确定所述待对齐点在所述椭圆曲线上的因变量坐标。
在一个可选实施例中,所述因变量坐标得到子单元,还包括:
未存在响应从单元,用于若所述因变量平方项对应因变量坐标未存在于所述椭圆曲线上,则对更新后的待对齐数据进行哈希编码,以再次更新所述待对齐数据;
重新执行从单元,用于重新执行待对齐大整数转化及因变量平方项确定操作,直至所述因变量平方项对应因变量坐标存在于所述椭圆曲线上。
在一个可选实施例中,所述因变量坐标得到子单元,还包括:
二次剩余判断从单元,用于判断所述因变量平方项是否是所述有限域的二次剩余;
存在性判定从单元,用于根据二次剩余判定结果,确定所述因变量平方项对应因变量坐标是否存在于所述椭圆曲线上。
上述数据对齐装置可执行本公开任意实施例所提供的数据对齐方法,具备执行数据对齐方法相应的功能模块和有益效果。
本公开的技术方案中,所涉及的对齐参考数据的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图5示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图5所示,设备500包括计算单元501,其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序,来执行各种适当的动作和处理。在RAM 503中,还可存储设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
设备500中的多个部件连接至I/O接口505,包括:输入单元506,例如键盘、鼠标等;输出单元507,例如各种类型的显示器、扬声器等;存储单元508,例如磁盘、光盘等;以及通信单元509,例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理,例如数据对齐方法。例如,在一些实施例中,数据对齐方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元508。在一些实施例中,计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由计算单元501执行时,可以执行上文描述的数据对齐方法的一个或多个步骤。备选地,在其他实施例中,计算单元501可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行数据对齐方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
云计算(cloud computing),指的是通过网络接入弹性可扩展的共享物理或虚拟资源池,资源可以包括服务器、操作系统、网络、软件、应用和存储设备等,并可以按需、自服务的方式对资源进行部署和管理的技术体系。通过云计算技术,可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开提供的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (12)

1.一种数据对齐方法,包括:
获取不同参与方的待对齐数据的对齐参考数据;
根据不同参与方的对齐参考数据的交集,确定不同参与方之间的公共数据,用于进行数据对齐;
其中,任一参与方的待对齐数据的对齐参考数据采用以下方式确定得到:
将该参与方的待对齐数据转化为有限域的椭圆曲线上的点,得到该参与方的待对齐点;
采用该参与方的私钥对该参与方的待对齐点进行加密,并采用其他参与方的私钥对加密结果进行级联加密,得到该参与方的对齐参考数据;
其中,所述将该参与方的待对齐数据转化为有限域的椭圆曲线上的点,得到该参与方的待对齐点,包括:
对该参与方的待对齐数据进行字节编码,并对字节编码结果进行哈希编码,以更新所述待对齐数据;
将更新后的待对齐数据转化为待对齐大整数;
采用所述待对齐大整数对所述有限域取模,得到所述待对齐点的自变量坐标;
根据所述椭圆曲线,确定所述自变量坐标对应的因变量平方项;
若所述因变量平方项对应因变量坐标存在于所述椭圆曲线上,则根据所述有限域和所述自变量坐标,确定所述待对齐点在所述椭圆曲线上的因变量坐标;
若所述因变量平方项对应因变量坐标未存在于所述椭圆曲线上,则对更新后的待对齐数据进行哈希编码,以再次更新所述待对齐数据;
重新执行待对齐大整数转化及因变量平方项确定操作,直至所述因变量平方项对应因变量坐标存在于所述椭圆曲线上;
生成包括所述自变量坐标和所述因变量坐标的所述待对齐点。
2.根据权利要求1所述的方法,其中,所述根据所述有限域和所述自变量坐标,确定所述待对齐点在所述椭圆曲线上的因变量坐标,包括:
确定与所述有限域相匹配的因变量确定方式;
基于所匹配的因变量确定方式,根据所述自变量坐标和所述有限域,确定所述待对齐点在所述椭圆曲线上的因变量坐标。
3.根据权利要求2所述的方法,其中,所述确定与所述有限域相匹配的因变量确定方式,包括:
确定所述有限域对预设数值的取模结果;
根据取模结果,确定与所述有限域相匹配的因变量确定方式。
4.根据权利要求3所述的方法,其中,所述根据取模结果,确定与所述有限域相匹配的因变量确定方式,包括:
若取模结果满足第一条件,则选取与所述第一条件对应的因变量确定方式,作为与所述有限域相匹配的因变量确定方式;
若取模结果满足与所述第一条件互补的第二条件,则选取与所述第二条件对应的因变量确定方式,作为与所述有限域相匹配的因变量确定方式。
5.根据权利要求1所述的方法,还包括:
判断所述因变量平方项是否是所述有限域的二次剩余;
根据二次剩余判定结果,确定所述因变量平方项对应因变量坐标是否存在于所述椭圆曲线上。
6.一种数据对齐装置,包括:
对齐参考数据获取模块,用于获取不同参与方的待对齐数据的对齐参考数据;
公共数据确定模块,用于根据不同参与方的对齐参考数据的交集,确定不同参与方之间的公共数据,用于进行数据对齐;
其中,任一参与方的数据对齐装置中,还包括对齐参考数据确定模块,进行该参与方的待对齐数据的对齐参考数据的确定;
所述对齐参考数据确定模块,包括:
待对齐点得到单元,用于将该参与方的待对齐数据转化为有限域的椭圆曲线上的点,得到该参与方的待对齐点;
对齐参考数据得到单元,用于采用该参与方的私钥对该参与方的待对齐点进行加密,并采用其他参与方的私钥对加密结果进行级联加密,得到该参与方的对齐参考数据;
其中,所述待对齐点得到单元,包括:
大整数转化子单元,用于将该参与方的待对齐数据转化为待对齐大整数;
自变量坐标得到子单元,用于采用所述待对齐大整数对所述有限域取模,得到所述待对齐点的自变量坐标;
因变量坐标得到子单元,用于根据所述有限域和所述自变量坐标,确定所述待对齐点在所述椭圆曲线上的因变量坐标;
待对齐点生成子单元,用于生成包括所述自变量坐标和所述因变量坐标的所述待对齐点;
其中,所述大整数转化子单元,包括:
编码从单元,用于对该参与方的待对齐数据进行字节编码,并对字节编码结果进行哈希编码,以更新所述待对齐数据;
大整数转化从单元,用于将更新后的待对齐数据转化为所述待对齐大整数;
其中,所述因变量坐标得到子单元,包括:
因变量平方项确定从单元,用于根据所述椭圆曲线,确定所述自变量坐标对应的因变量平方项;
存在响应从单元,用于若所述因变量平方项对应因变量坐标存在于所述椭圆曲线上,则根据所述有限域和所述自变量坐标,确定所述待对齐点在所述椭圆曲线上的因变量坐标;
其中,所述因变量坐标得到子单元,还包括:
未存在响应从单元,用于若所述因变量平方项对应因变量坐标未存在于所述椭圆曲线上,则对更新后的待对齐数据进行哈希编码,以再次更新所述待对齐数据;
重新执行从单元,用于重新执行待对齐大整数转化及因变量平方项确定操作,直至所述因变量平方项对应因变量坐标存在于所述椭圆曲线上。
7.根据权利要求6所述的装置,其中,所述因变量坐标得到子单元,包括:
因变量确定方式匹配从单元,用于确定与所述有限域相匹配的因变量确定方式;
因变量坐标确定从单元,用于基于所匹配的因变量确定方式,根据所述自变量坐标和所述有限域,确定所述待对齐点在所述椭圆曲线上的因变量坐标。
8.根据权利要求7所述的装置,其中,所述因变量确定方式匹配从单元,具体用于:
确定所述有限域对预设数值的取模结果;
根据取模结果,确定与所述有限域相匹配的因变量确定方式。
9.根据权利要求8所述的装置,其中,所述因变量确定方式匹配从单元在执行根据取模结果,确定与所述有限域相匹配的因变量确定方式时,具体用于:
若取模结果满足第一条件,则选取与所述第一条件对应的因变量确定方式,作为与所述有限域相匹配的因变量确定方式;
若取模结果满足与所述第一条件互补的第二条件,则选取与所述第二条件对应的因变量确定方式,作为与所述有限域相匹配的因变量确定方式。
10.根据权利要求9所述的装置,所述因变量坐标得到子单元,还包括:
二次剩余判断从单元,用于判断所述因变量平方项是否是所述有限域的二次剩余;
存在性判定从单元,用于根据二次剩余判定结果,确定所述因变量平方项对应因变量坐标是否存在于所述椭圆曲线上。
11.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述的数据对齐方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行根据权利要求1-5中任一项所述的数据对齐方法。
CN202310390727.4A 2023-04-13 2023-04-13 数据对齐方法、装置、设备及存储介质 Active CN116089991B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310390727.4A CN116089991B (zh) 2023-04-13 2023-04-13 数据对齐方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310390727.4A CN116089991B (zh) 2023-04-13 2023-04-13 数据对齐方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN116089991A CN116089991A (zh) 2023-05-09
CN116089991B true CN116089991B (zh) 2024-02-20

Family

ID=86202983

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310390727.4A Active CN116089991B (zh) 2023-04-13 2023-04-13 数据对齐方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116089991B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112751667A (zh) * 2020-12-29 2021-05-04 北京百度网讯科技有限公司 密钥生成方法、签名和验签方法、装置、设备和介质
CN113032817A (zh) * 2021-05-21 2021-06-25 北京百度网讯科技有限公司 基于区块链的数据对齐方法、装置、设备和介质
CN113836559A (zh) * 2021-09-28 2021-12-24 中国银联股份有限公司 一种联邦学习中的样本对齐方法、装置、设备及存储介质
CN114640444A (zh) * 2022-03-18 2022-06-17 哈尔滨理工大学 基于国产密码算法的隐私保护集合交集获取方法及装置
CN115664747A (zh) * 2022-10-18 2023-01-31 京东科技信息技术有限公司 加密方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220382908A1 (en) * 2021-05-25 2022-12-01 Meta Platforms, Inc. Private joining, analysis and sharing of information located on a plurality of information stores

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112751667A (zh) * 2020-12-29 2021-05-04 北京百度网讯科技有限公司 密钥生成方法、签名和验签方法、装置、设备和介质
CN113032817A (zh) * 2021-05-21 2021-06-25 北京百度网讯科技有限公司 基于区块链的数据对齐方法、装置、设备和介质
CN113836559A (zh) * 2021-09-28 2021-12-24 中国银联股份有限公司 一种联邦学习中的样本对齐方法、装置、设备及存储介质
CN114640444A (zh) * 2022-03-18 2022-06-17 哈尔滨理工大学 基于国产密码算法的隐私保护集合交集获取方法及装置
CN115664747A (zh) * 2022-10-18 2023-01-31 京东科技信息技术有限公司 加密方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
侯爱琴 ; 高宝建 ; 辛小龙 ; .信息明文嵌入椭圆曲线的改进算法及实现.计算机应用与软件.2008,(第07期),64-65+71. *
信息明文嵌入椭圆曲线的改进算法及实现;侯爱琴;高宝建;辛小龙;;计算机应用与软件(第07期);64-65+71 *
有限域GF(q)上安全椭圆曲线的选取;任中岗;翟东海;;信息与电子工程(第05期);121-124 *
椭圆曲线公钥密码中平方根算法研究;陈逢林;胡万宝;;安庆师范学院学报(自然科学版)(第03期);48-51 *

Also Published As

Publication number Publication date
CN116089991A (zh) 2023-05-09

Similar Documents

Publication Publication Date Title
CN112765616B (zh) 多方安全计算方法、装置、电子设备和存储介质
WO2021239006A1 (zh) 基于秘密共享的训练方法、装置、电子设备及存储介质
CN114186256B (zh) 神经网络模型的训练方法、装置、设备和存储介质
CN112615852A (zh) 数据的处理方法、相关装置及计算机程序产品
CN113708930A (zh) 隐私数据的数据比较方法、装置、设备及介质
CN114612600B (zh) 虚拟形象生成方法、装置、电子设备和存储介质
CN113794706B (zh) 数据的处理方法、装置、电子设备及可读存储介质
CN111917533A (zh) 具有减少泄漏的区间统计量的隐私保护基准分析
CN112953700B (zh) 一种提升安全多方计算效率的方法、系统及存储介质
CN116432040B (zh) 基于联邦学习的模型训练方法、装置、介质以及电子设备
CN113556225A (zh) 一种基于哈希及密钥交换的高效psi方法
CN116089991B (zh) 数据对齐方法、装置、设备及存储介质
WO2023197995A1 (zh) 同态加密操作方法、装置和电子设备
CN115481440B (zh) 数据处理方法、装置、电子设备和介质
JP7297131B2 (ja) 分散型機械学習モデルのトレーニング方法、装置、機器および媒体
CN114359015B (zh) 数据传输方法、装置和图形处理服务器
CN113609156B (zh) 数据的查询与写入方法、装置、电子设备及可读存储介质
CN116915922B (zh) 图像的传输方法及装置、电子设备和存储介质
CN112995205B (zh) 基于区块链的查询方法、装置、设备和存储介质
CN116108496B (zh) 匿踪查询方法、装置、设备及存储介质
CN117009723A (zh) 一种多方计算方法、装置、设备及存储介质
CN112637174B (zh) 数据相关度计算方法、装置、电子设备和存储介质
CN112615712B (zh) 数据的处理方法、相关装置及计算机程序产品
CN113992729B (zh) 云手机控制方法、相关装置及计算机程序产品
CN116055049B (zh) 多方安全计算方法、装置、系统、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant