CN110263572B

CN110263572B - 两方数据安全碰撞方法和系统

Info

Publication number: CN110263572B
Application number: CN201910403101.6A
Authority: CN
Inventors: 姚平; 赵黎; 韩松江; 李蒙; 徐少侠
Original assignee: SuningCom Co ltd
Current assignee: SuningCom Co ltd
Priority date: 2019-05-15
Filing date: 2019-05-15
Publication date: 2022-03-18
Anticipated expiration: 2039-05-15
Also published as: CN110263572A

Abstract

本申请涉及一种两方数据安全碰撞方法和系统；该方法包括：对所述第一数据集进行预处理，获得第一镜像数据集；根据预先选取的映射函数，将所述第一镜像数据集转换为第一映射数据集；将所述第一映射数据集和预处理过程的处理参数发送到第二计算设备，以使所述第二计算设备根据所述第一映射数据集和所述处理参数对第二数据集进行处理并获得公共映射数据集。本申请采用对原始数据进行预处理后再映射的方案，获得两方数据的精确交集，保证了数据碰撞过程中，双方可以且仅仅可以识别公有数据；不泄露双方的非共同数据，同时使得还原原始数据的困难程度极大而不可行。

Description

两方数据安全碰撞方法和系统

技术领域

本申请属于数据交换技术领域，具体涉及一种两方数据安全碰撞方法和系统。

背景技术

企业通常都拥有大量的数据，比如提供互联网服务的各种社交软件的开发公司，会拥有大量的用户数据。各公司都将自己的数据作为核心资产进行保护，防止泄露。但是在很多业务场景下，两个公司可能需要对相同类型的数据求交集，比如寻找双方共同用户、共同IP黑名单等。

相关技术中，有两种方案来求数据交集：

1、通过第三方平台进行，由第三方接收双方的数据，求数据交集后，再分别发给双方。此方案的问题在于，需要对第三方有足够的信任，信任其不会泄露双方的数据；同时要签订相关的合同，流程较长，对于业务推进不利。

2、双方直接进行数据交换。具体做法是，双方将数据进行hash后，相互交换hash值，相同hash值对应的原始数据作为公共数据。此方案的问题在于不够安全，如果数据集的取值范围不够大，比如都是手机号码，那么很容易根据hash值倒推出原始的数据，因此会泄露非公共数据给对方。

发明内容

基于相关技术中存在的缺陷，本申请提供一种两方数据安全碰撞方法和系统。

根据本申请的第一方面，提供一种两方数据安全碰撞方法，该方法应用于能够访问第一数据集的第一计算设备，包括：

对所述第一数据集进行预处理，获得第一镜像数据集；

根据预先选取的映射函数，将所述第一镜像数据集转换为第一映射数据集；

将所述第一映射数据集和预处理过程的处理参数发送到第二计算设备，以使所述第二计算设备根据所述第一映射数据集和所述处理参数对第二数据集进行处理并获得公共映射数据集。

进一步地，该方法还包括：

接收所述第二计算设备发送的公共映射数据集；

将所述公共映射数据集转换为公共数据集；

其中，所述公共数据集是所述第一数据集与所述第二数据集的交集。

进一步地，所述将所述公共映射数据集转换为公共数据集，包括：

根据所述第一数据集、所述第一镜像数据集与所述第一映射数据集之间的对应关系，将所述公共映射数据集转换为公共数据集。

进一步地，所述对所述第一数据集进行预处理，包括：

获取预设的破解阈值；

对所述第一数据集进行分析，识别其中的数据的取值范围；

比较所述破解阈值和所述取值范围，并根据比较结果进行相应的处理。

进一步地，所述根据比较结果进行相应的处理，包括：

如果所述破解阈值小于所述取值范围，则不进行处理，令所述第一镜像数据集等于所述第一数据集。

进一步地，所述根据比较结果进行相应的处理，包括：

如果所述破解阈值大于所述取值范围，则将所述第一数据集中的数据进行拼接处理，将拼接后的数据作为所述第一镜像数据集。

进一步地，所述将所述第一数据集中的数据进行拼接处理，包括：

将所述第一数据集中任意两个不同的数据进行两两拼接；

判断拼接后的数据的取值范围是否大于所述破解阈值；

如果大于，则拼接处理完成；

如果不大于，则增加拼接的数据个数，直至拼接后的数据的取值范围大于所述破解阈值。

进一步地，所述处理参数为拼接的数据个数；如果未进行拼接处理，则拼接的数据个数为零。

根据本申请的第二方面，提供一种两方数据安全碰撞方法，该方法应用于能够访问第二数据集的第二计算设备，包括：

接收第一计算设备发送的第一映射数据集和处理参数，所述处理参数是第一计算设备对第一数据集进行预处理的相关参数；

根据所述处理参数对所述第二数据集进行预处理，获得第二镜像数据集；

根据预先选取的映射函数，将所述第二镜像数据集转换为第二映射数据集；

筛选出所述第一映射数据集和所述第二映射数据集的公共映射数据集。

进一步地，所述方法还包括：

将所述公共映射数据集发送到所述第一计算设备。

进一步地，所述方法还包括：

根据所述第二数据集、所述第二镜像数据集与所述第二映射数据集之间的对应关系，将所述公共映射数据集转换为公共数据集；

根据本申请的第三方面，提供一种计算设备，该计算设备是能够访问第一数据集的第一计算设备，包括：

第一预处理模块，用于对所述第一数据集进行预处理，获得第一镜像数据集；

第一映射模块，用于根据预先选取的映射函数，将所述第一镜像数据集转换为第一映射数据集；

第一发送模块，用于将所述第一映射数据集和预处理过程的处理参数发送到第二计算设备，以使所述第二计算设备根据所述第一映射数据集和所述处理参数对第二数据集进行处理并获得公共映射数据集。

进一步地，该计算设备还包括：

第一接收模块，用于接收所述第二计算设备发送的公共映射数据集；

第一转换模块，用于将所述公共映射数据集转换为公共数据集。

根据本申请的第四方面，提供一种计算设备，该计算设备是能够访问第二数据集的第二计算设备，包括：

第二接收模块，用于接收第一计算设备发送的第一映射数据集和处理参数，所述处理参数是第一计算设备对第一数据集进行预处理的相关参数；

第二预处理模块，用于根据所述处理参数对所述第二数据集进行预处理，获得第二镜像数据集；

第二映射模块，用于根据预先选取的映射函数，将所述第二镜像数据集转换为第二映射数据集；

筛选模块，用于筛选出所述第一映射数据集和所述第二映射数据集的公共映射数据集。

进一步地，该计算设备还包括：

第二发送模块，用于将所述公共映射数据集发送到所述第一计算设备。

根据本申请的第五方面，提供一种两方数据安全碰撞系统，包括：能够访问第一数据集的第一计算设备，和，能够访问第二数据集的第二计算设备；

所述第一计算设备用于：

对所述第一数据集进行预处理，获得第一镜像数据集；

将所述第一映射数据集和预处理过程的处理参数发送到第二计算设备，以使所述第二计算设备根据所述第一映射数据集和所述处理参数对第二数据集进行处理并获得公共映射数据集；

所述第二计算设备用于：

与现有技术相比，本申请的技术方案具备以下有益技术效果：

本申请采用对原始数据进行预处理后再映射的方案，获得两方数据的精确交集，保证了数据碰撞过程中，双方可以且仅仅可以识别公有数据；不泄露双方的非共同数据，同时使得还原原始数据的困难程度极大而不可行。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图进行简单地介绍。显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例所示出的一种两方数据安全碰撞方法的流程图。

图2是根据一示例性实施例所示出的一种两方数据安全碰撞方法的流程图。

图3是根据一示例性实施例所示出的两方进行数据碰撞的交互流程图。

具体实施方式

为使本领域技术人员更好地理解本发明的技术方案，下面结合附图和具体实施方式对本发明作进一步详细描述。

参照图1，本申请提供一种两方数据安全碰撞方法，该方法应用于能够访问第一数据集的第一计算设备，包括：

步骤101：对所述第一数据集进行预处理，获得第一镜像数据集；

步骤102：根据预先选取的映射函数，将所述第一镜像数据集转换为第一映射数据集；

步骤103：将所述第一映射数据集和预处理过程的处理参数发送到第二计算设备，以使所述第二计算设备根据所述第一映射数据集和所述处理参数对第二数据集进行处理并获得公共映射数据集。

一些实施例中，该方法还包括：

接收所述第二计算设备发送的公共映射数据集；

将所述公共映射数据集转换为公共数据集；

一些实施例中，所述将所述公共映射数据集转换为公共数据集，包括：

一些实施例中，所述对所述第一数据集进行预处理，包括：

获取预设的破解阈值；

对所述第一数据集进行分析，识别其中的数据的取值范围；

一些实施例中，所述根据比较结果进行相应的处理，包括：

一些实施例中，所述将所述第一数据集中的数据进行拼接处理，包括：

将所述第一数据集中任意两个不同的数据进行两两拼接；

判断拼接后的数据的取值范围是否大于所述破解阈值；

如果大于，则拼接处理完成；

一些实施例中，所述处理参数为拼接的数据个数；如果未进行拼接处理，则拼接的数据个数为零。

参照图2，本申请提供一种两方数据安全碰撞方法，该方法应用于能够访问第二数据集的第二计算设备，包括：

步骤201：接收第一计算设备发送的第一映射数据集和处理参数，所述处理参数是第一计算设备对第一数据集进行预处理的相关参数；

步骤202：根据所述处理参数对所述第二数据集进行预处理，获得第二镜像数据集

步骤203：根据预先选取的映射函数，将所述第二镜像数据集转换为第二映射数据集；

步骤204：筛选出所述第一映射数据集和所述第二映射数据集的公共映射数据集。

一些实施例中，所述方法还包括：

将所述公共映射数据集发送到所述第一计算设备。

一些实施例中，所述方法还包括：

下面结合具体的应用场景，对本申请的方案进行拓展说明。

参照图3，两个公司A和B，分别拥有数据集X和Y，利用本申请的方案来筛选数据集X和Y的交集的方案为：

1、选择hash函数和暴力破解空间大小的阈值。

Hash函数的选择考虑两个方面：1)安全性，不能有已知的安全漏洞；2)普适性，在计算机系统中使用广泛。从上述两个方面考虑，可以使用sha1、sha256等算法。此处我们以sha1算法为例说明。此函数性能是，对较短字符串(30字节)，普通服务器(64 bits rhel，2core Intel 2650 2.60GHz，128GB RAM)，500ms/1000万次。

暴力破解空间大小的阈值T的选择，原则是在普通服务器上运行T次hash函数的时间达到1万年以上。那么可以认为，即使采用目前已知的各种优化措施，暴力破解hash值所需的时间仍然还是太长，因此可以认为不会有破解的动力。我们设置T＝10^20，那么在上述普通服务器上执行T次sha1算法需要时间10^20/10^7*0.5＝5*10^12秒＝158548年。这么长的时间可以认为进行暴力破解不可能。

2、A对X进行分析，识别其可能取值范围。

比如，X是中国的手机号，那么取值应该是1xx xxxx xxxx，因此可能的取值数量为10^10。

3、根据数据可能取值范围大小，进行数据预处理

原始数据集X的大小为n，可能取值范围为N。

如果N>T，则无需进行任何预处理，令X*＝X，进行步骤4；

如果N<T，则将排序后的X＝{x1,x2,…,xn}中的值进行两两拼接(不拼接本身)，得到拼接数据集X*＝{x1x2,x1x3,…x1xn,x2x3,x2x4,…,x2xn,…,x(n-1)xn}，那么容易判断，X*的大小为n*(n-1)，可能取值范围为P＝N*(N-1)。

如果P<T，那么在进行一次拼接，形成X*＝{x1x2x3,x1x2x4,…,x1x(n-1)xn,x2x3x4,x2x3x5,…,x2x(n-1)xn,…,x(n-2)x(n-1)xn}，X*的大小为n*(n-1)(n-2)，可能取值范围为P＝N*(N-1)(N-2)。

如此迭代，直到P>＝T。

比如，X是会员的手机号，数量为n＝1000000，那么取值范围大小为N＝10^10。N<T，需要进行一次拼接，得到X*。此时X*的大小为n*(n-1)＝999999000000，P＝10^20＝T，符合步骤1中设置的阈值条件。

4、A对预处理后的数据集中的每个数据，进行sha1处理，形成结果集合HashX，记录X*到HashX的对应关系。

5、A将HashX和步骤3确定的拼接次数发送给B。

6、B根据接收到的拼接次数，将Y排序后，进行拼接，得到新的数据集Y*；然后对Y*的每个数据进行sha1处理，得到HashY，并记录Y*到HashY的对应关系。

7、B对比HashX和HashY，得到公共hash集合HashXY，并根据步骤6记录的对应关系，得到公共数据集合XY。

8、B将HashXY发送给A。

9、A根据对应关系，从HashXY得到公共数据集合XY。

10、算法结束，双方都获得了公共数据集XY。

本申请的方案通过将原始数据进行拼接，极大扩大暴力破解的空间，使得进行暴力破解时需要的时间过大而无法进行。原始数据拼接的方式简单，在保持正常的比对过程时间上可行的前提下，使得暴力破解hash值在时间上不可行。

本申请还提供如下的实施例：

一种计算设备，该计算设备是能够访问第一数据集的第一计算设备，包括：

一些实施例中，该计算设备还包括：

该计算设备中各模块的具体执行步骤，已经在有关该方法的实施例中进行了详细说明。本实施例中未详尽之处，请参阅上述方法实施例。

本申请还提供如下的实施例：

一种计算设备，该计算设备是能够访问第二数据集的第二计算设备，包括：

一些实施例中，该计算设备还包括：

本申请还提供如下的实施例：

一种两方数据安全碰撞系统，包括：能够访问第一数据集的第一计算设备，和，能够访问第二数据集的第二计算设备；

所述第一计算设备用于：

对所述第一数据集进行预处理，获得第一镜像数据集；

所述第二计算设备用于：

该系统中各计算设备的具体执行步骤，已经在有关该方法的实施例中进行了详细说明。本实施例中未详尽之处，请参阅上述方法实施例。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种两方数据安全碰撞方法，其特征在于，该方法应用于能够访问第一数据集的第一计算设备，包括：

对所述第一数据集进行预处理，获得第一镜像数据集；

所述对所述第一数据集进行预处理，包括：获取预设的破解阈值，对所述第一数据集进行分析，识别其中的数据的取值范围，比较所述破解阈值和所述取值范围，如果所述破解阈值大于所述取值范围，则将所述第一数据集中的数据进行拼接处理，将拼接后的数据作为所述第一镜像数据集；

相应地，所述处理参数包括拼接的数据个数；

所述将所述第一数据集中的数据进行拼接处理，包括：将所述第一数据集中任意两个不同的数据进行两两拼接，判断拼接后的数据的取值范围是否大于所述破解阈值；如果大于，则拼接处理完成；如果不大于，则增加拼接的数据个数，直至拼接后的数据的取值范围大于所述破解阈值。

2.根据权利要求1所述的方法，其特征在于，还包括：

接收所述第二计算设备发送的公共映射数据集；

将所述公共映射数据集转换为公共数据集；

3.根据权利要求2所述的方法，其特征在于，所述将所述公共映射数据集转换为公共数据集，包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述第一数据集进行预处理，还包括：

5.根据权利要求4所述的方法，其特征在于，如果未进行拼接处理，则拼接的数据个数为零。

6.一种两方数据安全碰撞方法，其特征在于，该方法应用于能够访问第二数据集的第二计算设备，包括：

接收第一计算设备发送的第一映射数据集和处理参数，所述第一映射数据集是所述第一计算设备根据预先选取的映射函数，将第一镜像数据集转换得到的，所述处理参数是所述第一计算设备对第一数据集进行预处理的相关参数；所述对第一数据集进行预处理，包括：获取预设的破解阈值，对所述第一数据集进行分析，识别其中的数据的取值范围，比较所述破解阈值和所述取值范围，如果所述破解阈值大于所述取值范围，则将所述第一数据集中的数据进行拼接处理，将拼接后的数据作为所述第一镜像数据集；所述处理参数包括拼接的数据个数；所述将所述第一数据集中的数据进行拼接处理，包括：将所述第一数据集中任意两个不同的数据进行两两拼接，判断拼接后的数据的取值范围是否大于所述破解阈值；如果大于，则拼接处理完成；如果不大于，则增加拼接的数据个数，直至拼接后的数据的取值范围大于所述破解阈值；

筛选出所述第一映射数据集和所述第二映射数据集的公共映射数据集；

所述根据所述处理参数对所述第二数据集进行预处理，包括：在所述拼接的数据个数不为零时，将所述第二数据集中的数据进行拼接处理，将所述拼接处理后的数据作为所述第二镜像数据集。

7.根据权利要求6所述的方法，其特征在于，还包括：

将所述公共映射数据集发送到所述第一计算设备。

8.根据权利要求6或7所述的方法，其特征在于，还包括：

9.一种计算设备，其特征在于，该计算设备是能够访问第一数据集的第一计算设备，包括：

第一预处理模块，用于对所述第一数据集进行预处理，获得第一镜像数据集；其中，所述对所述第一数据集进行预处理，包括：获取预设的破解阈值，对所述第一数据集进行分析，识别其中的数据的取值范围，比较所述破解阈值和所述取值范围；如果所述破解阈值大于所述取值范围，则将所述第一数据集中的数据进行拼接处理，将拼接后的数据作为所述第一镜像数据集；所述将所述第一数据集中的数据进行拼接处理，包括：将所述第一数据集中任意两个不同的数据进行两两拼接，判断拼接后的数据的取值范围是否大于所述破解阈值；如果大于，则拼接处理完成；如果不大于，则增加拼接的数据个数，直至拼接后的数据的取值范围大于所述破解阈值；

第一发送模块，用于将所述第一映射数据集和预处理过程的处理参数发送到第二计算设备，以使所述第二计算设备根据所述第一映射数据集和所述处理参数对第二数据集进行处理并获得公共映射数据集；其中，所述处理参数包括拼接的数据个数。

10.根据权利要求9所述的计算设备，其特征在于，还包括：

11.一种计算设备，其特征在于，该计算设备是能够访问第二数据集的第二计算设备，包括：

第二接收模块，用于接收第一计算设备发送的第一映射数据集和处理参数，所述第一映射数据集是所述第一计算设备根据预先选取的映射函数，将第一镜像数据集转换得到的，所述处理参数是所述第一计算设备对第一数据集进行预处理的相关参数；所述对第一数据集进行预处理，包括：获取预设的破解阈值，对所述第一数据集进行分析，识别其中的数据的取值范围，比较所述破解阈值和所述取值范围；如果所述破解阈值大于所述取值范围，则将所述第一数据集中的数据进行拼接处理，将拼接后的数据作为所述第一镜像数据集；所述处理参数包括拼接的数据个数；所述将所述第一数据集中的数据进行拼接处理，包括：将所述第一数据集中任意两个不同的数据进行两两拼接，判断拼接后的数据的取值范围是否大于所述破解阈值；如果大于，则拼接处理完成；如果不大于，则增加拼接的数据个数，直至拼接后的数据的取值范围大于所述破解阈值；

第二预处理模块，用于根据所述处理参数对所述第二数据集进行预处理，获得第二镜像数据集；其中，所述根据所述处理参数对所述第二数据集进行预处理，包括：在所述拼接的数据个数不为零时，将所述第二数据集中的数据进行拼接处理，将所述拼接处理后的数据作为所述第二镜像数据集；

12.根据权利要求11所述的计算设备，其特征在于，还包括：

13.一种两方数据安全碰撞系统，其特征在于，包括：能够访问第一数据集的第一计算设备，和，能够访问第二数据集的第二计算设备；

所述第一计算设备用于：

对所述第一数据集进行预处理，获得第一镜像数据集；其中，所述对所述第一数据集进行预处理，包括：获取预设的破解阈值，对所述第一数据集进行分析，识别其中的数据的取值范围，比较所述破解阈值和所述取值范围，如果所述破解阈值大于所述取值范围，则将所述第一数据集中的数据进行拼接处理，将拼接后的数据作为所述第一镜像数据集；所述将所述第一数据集中的数据进行拼接处理，包括：将所述第一数据集中任意两个不同的数据进行两两拼接，判断拼接后的数据的取值范围是否大于所述破解阈值；如果大于，则拼接处理完成；如果不大于，则增加拼接的数据个数，直至拼接后的数据的取值范围大于所述破解阈值；

将所述第一映射数据集和预处理过程的处理参数发送到第二计算设备，以使所述第二计算设备根据所述第一映射数据集和所述处理参数对第二数据集进行处理并获得公共映射数据集；所述处理参数包括拼接的数据个数；

所述第二计算设备用于：

接收所述第一计算设备发送的第一映射数据集和处理参数，所述处理参数是所述第一计算设备对第一数据集进行预处理的相关参数；

根据所述处理参数对所述第二数据集进行预处理，获得第二镜像数据集；其中，在所述拼接的数据个数不为零时，将所述第二数据集中的数据进行拼接处理，将所述拼接处理后的数据作为所述第二镜像数据集；