CN113255007A

CN113255007A - 一种安全隐匿三要素查询方法

Info

Publication number: CN113255007A
Application number: CN202110707687.2A
Authority: CN
Inventors: 马煜翔; 毛仁歆; 刘洋; 邢冰; 谷胜才
Original assignee: Lanxiang Zhilian Hangzhou Technology Co ltd
Current assignee: Lanxiang Zhilian Hangzhou Technology Co ltd
Priority date: 2021-06-25
Filing date: 2021-06-25
Publication date: 2021-08-13
Anticipated expiration: 2041-06-25
Also published as: CN113255007B

Abstract

本发明公开了一种安全隐匿三要素查询方法。它包括：预处理阶段：被查询方读取存储的三要素数据，将其拆分为三个子数据并进行哈希处理得到三个字符串数据，为每个字符串数据分配一个对应的密钥，计算出每个字符串数据对应的一级加密串，查询方在被查询方的配合下对一级加密串进行加密得到二级加密串；在线处理阶段：查询方读取输入的三要素数据，生成三个查询数据，分别进行哈希处理得到对应的三个查询字符串数据，计算出每个查询字符串数据对应的解密密钥发送到被查询方，被查询方查询后将查询结果发送到查询方。本发明在进行三要素查询时，隐匿查询条件，避免数据泄露，被查询方也无法记录不在其数据库内的查询信息，保护了用户隐私。

Description

一种安全隐匿三要素查询方法

技术领域

本发明涉及数据查询技术领域，尤其涉及一种安全隐匿三要素查询方法。

背景技术

在风控场景中，需要使用用户的姓名、身份证号、手机号作为三要素来验证用户的真实身份。一般情况下，被查询方拥有这类数据，查询方需要将三要素发送给被查询方，被查询方验证用户的姓名、身份证号、手机号是否真实正确。现有技术都是通过明文进行三要素查询，查询数据容易泄露，由于被查询方可以获得并记录查询方的查询信息，当查询方的查询信息不在被查询方的数据库内时，这些数据就会泄露给被查询方，从而暴露了用户隐私。

发明内容

本发明为了解决上述技术问题，提供了一种安全隐匿三要素查询方法，其在进行三要素查询时，能够隐匿查询条件，避免数据泄露，被查询方也无法记录不在其数据库内的查询信息，保护了用户隐私。

为了解决上述问题，本发明采用以下技术方案予以实现：

本发明的一种安全隐匿三要素查询方法，包括预处理阶段和在线处理阶段；

所述预处理阶段包括以下步骤：

M1：被查询方读取数据库内的三要素数据，每组三要素数据包括属于同一个人的姓名、身份证号、手机号，被查询方对每组三要素数据进行如下处理：根据每组三要素数据生成对应的三个子数据，三个子数据分别为手机号、（姓名，手机号）、（身份证号，手机号），对这三个子数据分别进行哈希处理得到对应的三个长度为β的字符串数据，将得到的字符串数据进行存储；

M2：被查询方为每个字符串数据分配一个对应唯一的密钥，并将生成的密钥存储，第i个字符串数据b_i对应的密钥为k_i，

，β表示密钥的长度，同时计算出每个字符串数据对应的一级加密串，第i个字符串数据b_i对应的一级加密串为u_i，u_i=k_i⊕G(b_i)，G表示哈希函数，⊕是异或运算符，被查询方对每个字符串数据进行布谷鸟哈希处理得到对应的两个地址；

M3：查询方在被查询方的配合下对所有一级加密串分别进行加密得到二级加密串，第i个字符串数据b_i对应的二级加密串为Q_i，查询方将字符串数据对应的两个地址分别与该字符串数据对应的二级加密串建立对应关系并存储，查询方可根据二级加密串计算出查询数据对应的解密密钥，当查询方的查询数据与被查询方的某个子数据一致时，至少存在一个解密密钥与该子数据对应的密钥一致；

在线处理阶段：

N1：查询方读取输入的三要素数据，根据三要素数据生成三个查询数据，三个查询数据分别为手机号、（姓名，手机号）、（身份证号，手机号），对这三个查询数据分别进行哈希处理得到对应的三个长度为β的查询字符串数据，对每个查询字符串数据进行布谷鸟哈希处理得到对应的两个地址，根据这两个地址找到对应的所有二级加密串，根据每个查询字符串数据对应的所有二级加密串计算出对应的所有解密密钥并发送到被查询方；

N2：被查询方每接收到一个查询字符串数据对应的所有解密密钥就进行一次核验，方法如下：

被查询方查询是否有密钥与该查询字符串数据对应的解密密钥一致，如果被查询方存储的密钥中有密钥与该查询字符串数据对应的所有解密密钥中的一个一致，则判断该查询字符串数据对应的查询数据核验成功，如果被查询方存储的密钥中没有密钥与该查询字符串数据对应的所有解密密钥中的任意一个一致，则判断该查询字符串数据对应的查询数据核验失败，被查询方将查询结果发送到查询方。

在本方案中，预处理阶段，查询方配合被查询方对被查询方的数据库进行预处理，之后在线处理阶段，查询方发起查询请求，查询数据被加密隐匿后发送给被查询方，被查询方将查询结果发回给查询方，整个过程没有第三方参与，避免了数据泄露，三要素查询数据被加密隐匿，保护了数据安全，由于整个查询过程中都没有出现明文，所以当查询方的某个查询信息不在被查询方的数据库内时，被查询方也不能记录该查询信息，保护了用户隐私。由于预处理阶段已经完成了大部分的计算和通信，大大提高了查询效率。

作为优选，所述步骤M3包括以下步骤：

M31：被查询方生成一个参数g^p并将其发送到查询方，g为整数，p为素数，查询方生成一个向量S，

，将向量S转换成向量L，方法如下：如果向量S的第j位为0，则向量L的第j位

，如果向量S的第j位为1，则向量L的第j位

，

为向量L的第j位对应的整数，

；

M32：查询方将向量L发送给被查询方，被查询方根据向量L为每个字符串数据生成对应的中间参数组，第i个字符串数据b_i对应的中间参数组为C_i，中间参数组C_i的生成方法如下：根据向量L的每一位生成对应的两个参数，这些参数的集合构成中间参数组C_i，向量L 的第j位对应的两个参数为C0_ij、C1_ij，

，

，其中，r0、r1为整数，k_ij为k_i第j位的值，u_ij为u_i第j位的值；

M33：被查询方将与每个字符串数据对应的中间参数组及两个地址发送给查询方，查询方生成与每个中间参数组对应的二级加密串，将字符串数据对应的两个地址分别与该字符串数据对应的二级加密串建立对应关系并存储，计算中间参数组C_i对应的二级加密串Q_i的方法包括以下步骤：

根据向量S生成与中间参数组C_i对应的参数W_i，

，^∧为按位与运算符，参数 W_i的生成方法如下：

如果向量S的第j位为0，则参数W_i的第j位W_ij为

；

如果向量S的第j位为1，则参数W_i的第j位W_ij为

；

M34：查询方将生成的所有二级加密串及其对应的两个地址存储；

所述步骤N1中根据查询字符串数据对应的所有二级加密串计算出对应的所有解密密钥的方法包括以下步骤：

将每个二级加密串单独代入公式y=G(x)⊕Q得到对应的解密密钥，其中，x表示查询字符串数据，G表示哈希函数，y表示查询字符串数据对应的解密密钥，Q表示二级加密串。

作为优选，所述对手机号、（姓名，手机号）、（身份证号，手机号）三个数据进行哈希处理得到对应的三个长度为β的字符串数据的方法包括以下步骤：

对手机号进行SHA256处理转换成文本数据，然后对该文本数据进行DomainHash转换为长度为β的字符串数据；

将姓名在前手机号在后拼接在一起并进行SHA256处理转换成文本数据，然后对该文本数据进行DomainHash转换为长度为β的字符串数据；

将身份证号在前手机号在后拼接在一起并进行SHA256处理转换成文本数据，然后对该文本数据进行DomainHash转换为长度为β的字符串数据。

SHA256是一种摘要计算方法，可以将二进制数据转成文本数据，又能对原始数据进行脱敏，掩盖真实数据。使用DomainHash将文本数据转换为较短的固定长度的字符串数据， DomainHash可以将不同长度的数据通过哈希操作变成固定长度较短的字符串数据，这样的操作可以节省一半的内存和磁盘存储空间。

作为优选，所述步骤M1中将得到的字符串数据进行存储的方法包括以下步骤：将存储区域分割成128个子存储区，依次编号为1-128，将手机号进行SHA256处理得到的文本数据的最后一个字节做模128运算得到数值D，将含有该手机号的三个子数据对应的字符串数据存储到编号为数值D的子存储区；

所述步骤M2中被查询方将生成的密钥存储在对应字符串数据所在的子存储区；

所述N1还包括以下步骤：查询方将查询数据中的手机号进行SHA256处理得到的文本数据的最后一个字节做模128运算得到数值E，查询方将每个查询字符串数据对应的数值E、对应的所有解密密钥一起发送给被查询方；

所述步骤N2中被查询方查询是否有密钥与查询字符串数据对应的解密密钥一致的方法如下：被查询方将接收到的该查询字符串数据对应的所有解密密钥与编号为数值E的子存储区内的密钥进行比较，判断是否有密钥与所有解密密钥中的任意一个一致。

当被查询方有过亿数据时，数据量太大，会导致查询效率降到很低，分成128个子存储区之后，根据手机号的编码作为区分索引将数据分别存储在128个子存储区，相当于查询会在100000000/128的空间上进行，在保证隐匿性的前提下，极大的提高了查询效率。

作为优选，所述被查询方生成的密钥存储在所在子存储区的布隆过滤器内。

布隆过滤器的假阳性错误率估计为(1-exp(-mn/r))^m，其中m为哈希函数个数，n为集合元素个数，r为布隆过滤器的大小，因此在布隆过滤器初始化时，根据被查询方元素个数以及预期的误判率，生成布隆过滤器的哈希函数个数m，假设被查询方共有1000万条数据，布隆过滤器就会有1000万个元素通过m个哈希计算，之后缓存到磁盘。假设每条数据20个字节，那么经过第一步的DomainHash变成10个字节，而布隆过滤器每次Hash对于这10个字节只用1个Bit位来表示，那么m个Hash函数产生m个Bit位，一般情况下，1000万条数据使用30个左右的Hash函数, 也就是需要4个字节来存储一个20字节的数据的加密串，因此，缓存到磁盘的数据将节省5倍以上的空间。

作为优选，所述步骤N2中被查询方将查询结果发送到查询方的方法如下：

被查询方预先与查询方约定查询结果编码，查询结果编码包括000、110、101、111，000表示手机号不存在，110表示只有姓名和手机号匹配，101表示只有身份证号和手机号匹配，111表示姓名、身份证号、手机号都匹配；

当被查询方没有密钥与手机号查询数据对应的所有解密密钥中的任意一个一致时，被查询方发送000到查询方；

当被查询方有密钥与（姓名，手机号）查询数据对应的所有解密密钥中的任意一个一致且没有密钥与（身份证号，手机号）查询数据对应的所有解密密钥中的任意一个一致时，被查询方发送110到查询方；

当被查询方有密钥与（身份证号，手机号）查询数据对应的所有解密密钥中的任意一个一致且没有密钥与（姓名，手机号）查询数据对应的所有解密密钥中的任意一个一致时，被查询方发送101到查询方；

当被查询方有密钥与（身份证号，手机号）查询数据对应的所有解密密钥中的任意一个一致且有密钥与（姓名，手机号）查询数据对应的所有解密密钥中的任意一个一致时，被查询方发送111到查询方。

查询结果使用决策表来表示（id表示身份证号，pnum表示手机号、name表示姓名），决策表如表一所示：

pnum不存在	name和pnum匹配	id和pnum匹配	全部匹配
				000	110	101	111

表一

决策表的好处在于使用很少的空间，就能节省查询次数。实际中我们需要知道如果不匹配是具体哪个因素不匹配，所以查询流程如下，如果得到的是110则得出的结论是手机号和姓名匹配但是身份证号和手机号不匹配。使用决策表的编码之后，一次请求就能得到结果，也节省了网络交互的成本。在公网环境中，网络的频繁交互，会导致请求的延迟很高。

本发明的有益效果是：在进行三要素查询时，能够隐匿查询条件，避免数据泄露，被查询方也无法记录不在其数据库内的查询信息，保护了用户隐私，整个过程无第三方参与。

附图说明

图1是实施例1的流程图。

具体实施方式

下面通过实施例，并结合附图，对本发明的技术方案作进一步具体的说明。

实施例1：本实施例的一种安全隐匿三要素查询方法，如图1所示，包括预处理阶段和在线处理阶段；

预处理阶段包括以下步骤：

对手机号、（姓名，手机号）、（身份证号，手机号）三个数据进行哈希处理得到对应的三个长度为β的字符串数据的方法包括以下步骤：

将身份证号在前手机号在后拼接在一起并进行SHA256处理转换成文本数据，然后对该文本数据进行DomainHash转换为长度为β的字符串数据；

将得到的字符串数据进行存储的方法包括以下步骤：将存储区域分割成128个子存储区，依次编号为1-128，将手机号进行SHA256处理得到的文本数据的最后一个字节做模128运算得到数值D，将含有该手机号的三个子数据对应的字符串数据存储到编号为数值D的子存储区；

M2：被查询方为每个字符串数据分配一个对应唯一的密钥，并将生成的密钥存储在对应字符串数据所在子存储区的布隆过滤器内，第i个字符串数据b_i对应的密钥为k_i，

，β表示密钥的长度，β大于128，同时计算出每个字符串数据对应的一级加密串，第i个字符串数据b_i对应的一级加密串为u_i，u_i=k_i⊕G(b_i)，G表示哈希函数，⊕是异或运算符，被查询方对每个字符串数据进行布谷鸟哈希处理得到对应的两个地址；

M3：查询方在被查询方的配合下对所有一级加密串分别进行加密得到二级加密串，第i个字符串数据b_i对应的二级加密串为Q_i，查询方将字符串数据对应的两个地址分别与该字符串数据对应的二级加密串建立对应关系并存储，查询方可根据二级加密串计算出查询数据对应的解密密钥，当查询方的查询数据与被查询方的某个子数据一致时，至少存在一个解密密钥与该子数据对应的密钥一致，具体步骤如下：

，如果向量S的第j位为1，则向量L的第j位

，

为向量L的第j位对应的整数，

；

，

根据向量S生成与中间参数组C_i对应的参数W_i，

，^∧为按位与运算符，参数 W_i的生成方法如下：

如果向量S的第j位为0，则参数W_i的第j位W_ij为

；

如果向量S的第j位为1，则参数W_i的第j位W_ij为

；

在线处理阶段：

N1：查询方读取输入的三要素数据，根据三要素数据生成三个查询数据，三个查询数据分别为手机号、（姓名，手机号）、（身份证号，手机号），对这三个查询数据分别进行哈希处理（与步骤M1中的哈希处理一样）得到对应的三个长度为β的查询字符串数据，对每个查询字符串数据进行布谷鸟哈希处理（与步骤M2中的布谷鸟哈希处理方法一样）得到对应的两个地址，根据这两个地址找到对应的所有二级加密串，根据每个查询字符串数据对应的所有二级加密串计算出对应的所有解密密钥，查询方将查询数据中的手机号进行SHA256处理得到的文本数据的最后一个字节做模128运算得到数值E，查询方将每个查询字符串数据对应的数值E、对应的所有解密密钥一起发送给被查询方；

根据查询字符串数据对应的所有二级加密串计算出对应的所有解密密钥的方法包括以下步骤：

将每个二级加密串单独代入公式y=G(x)⊕Q得到对应的解密密钥，其中，x表示查询字符串数据，G表示哈希函数，y表示查询字符串数据对应的解密密钥，Q表示二级加密串；

被查询方将接收到的该查询字符串数据对应的所有解密密钥与编号为数值E的子存储区内的密钥进行比较，判断是否有密钥与所有解密密钥中的任意一个一致，如果被查询方存储的密钥中有密钥与该查询字符串数据对应的所有解密密钥中的任意一个一致，则判断该查询字符串数据对应的查询数据核验成功，如果被查询方存储的密钥中没有密钥与该查询字符串数据对应的所有解密密钥中的任意一个一致，则判断该查询字符串数据对应的查询数据核验失败，被查询方将查询结果发送到查询方。

在本方案中，预处理阶段，查询方配合被查询方对被查询方的数据库进行预处理，之后在线处理阶段，查询方发起查询请求，查询数据被加密隐匿后发送给被查询方，被查询方将查询结果发回给查询方，整个过程没有第三方参与，避免了数据泄露，三要素查询数据被加密隐匿，保护了数据安全，由于整个查询过程中都没有出现明文，所以当查询方的某个查询信息不在被查询方的数据库内时，被查询方也不能记录该查询信息，保护了用户隐私。由于预处理阶段已经完成了大部分的计算和通信，二级加密串存储之后，后续的在线处理阶段只需要读取二级加密串参与计算，就能很快的响应查询中的计算，大大提高了查询效率。

g为查询方与被查询方协商的一个整数，p为大素数，提高安全性。G为查询方与被查询方协商的一个哈希函数。SHA256是一种摘要计算方法，可以将二进制数据转成文本数据，又能对原始数据进行脱敏，掩盖真实数据。之后对手机号的SHA256结果的最后一个字节做模128运算，使用SHA256编码让数据能够顺利进行模128运算，而模128运算是以手机号的编码作为区分索引对数据进行分片存储。使用DomainHash将文本数据转换为较短的固定长度的字符串数据， DomainHash可以将不同长度的数据通过哈希操作变成固定长度较短的字符串数据，这样的操作可以节省一半的内存和磁盘存储空间。

向量L的每一位对应的整数是不同的，即

的数值都不相同。

步骤N2中被查询方将查询结果发送到查询方的方法如下：

pnum不存在	name和pnum匹配	id和pnum匹配	全部匹配
				000	110	101	111

表一

由于被查询方的数据被存储在128个子存储区，查询时可在对应存储区查找结果，预处理阶段已经完成了大部分的计算和通信，再加上布隆过滤器和决策表的引入，大大提高了查询效率，上亿级别数据量的三要素查询，网络传输量控制在工业化可接受的范围内，查询效率可控制在200ms以内。

实施例2：本实施例的方法与实施例1基本相同，不同之处在于：

步骤M3包括以下步骤：

，如果向量S的第j位为1，则向量L的第j位

，q为整数，

；

，

M33：被查询方将与每个字符串数据对应的中间参数组及两个地址发送给查询方，查询方生成与每个中间参数组对应的二级加密串，将字符串数据对应的两个地址分别与该字符串数据对应的二级加密串建立对应关系并存储，计算中间参数组C_i对应的二级加密串为Q_i的方法包括以下步骤：

根据向量S生成与中间参数组C_i对应的参数W_i，

，^∧为按位与运算符，参数 W_i的生成方法如下：

如果向量S的第j位为0，则参数W_i的第j位W_ij为

；

如果向量S的第j位为1，则参数W_i的第j位W_ij为

；

M34：将生成的所有二级加密串及其对应的两个地址存储。

Claims

1.一种安全隐匿三要素查询方法，其特征在于，包括预处理阶段和在线处理阶段；

所述预处理阶段包括以下步骤：

M2：被查询方为每个字符串数据分配一个对应唯一的密钥，并将生成的密钥存储，第i 个字符串数据b_i对应的密钥为k_i，

在线处理阶段：

2.根据权利要求1所述的一种安全隐匿三要素查询方法，其特征在于，所述步骤M3包括以下步骤：

，如果向量S的第j位为1，则向量L的第j位

，

为向量L的第j位对应的整数，

；

M32：查询方将向量L发送给被查询方，被查询方根据向量L为每个字符串数据生成对应的中间参数组，第i个字符串数据b_i对应的中间参数组为C_i，中间参数组C_i的生成方法如下：根据向量L的每一位生成对应的两个参数，这些参数的集合构成中间参数组C_i，向量L的第j 位对应的两个参数为C0_ij、C1_ij，

，

根据向量S生成与中间参数组C_i对应的参数W_i，

，^∧为按位与运算符，参数W_i的生成方法如下：

如果向量S的第j位为0，则参数W_i的第j位W_ij为

；

如果向量S的第j位为1，则参数W_i的第j位W_ij为

；

3.根据权利要求1或2所述的一种安全隐匿三要素查询方法，其特征在于，所述对手机号、（姓名，手机号）、（身份证号，手机号）三个数据进行哈希处理得到对应的三个长度为β的字符串数据的方法包括以下步骤：

4.根据权利要求3所述的一种安全隐匿三要素查询方法，其特征在于，所述步骤M1中将得到的字符串数据进行存储的方法包括以下步骤：将存储区域分割成128个子存储区，依次编号为1-128，将手机号进行SHA256处理得到的文本数据的最后一个字节做模128运算得到数值D，将含有该手机号的三个子数据对应的字符串数据存储到编号为数值D的子存储区；

5.根据权利要求4所述的一种安全隐匿三要素查询方法，其特征在于，所述被查询方生成的密钥存储在所在子存储区的布隆过滤器内。

6.根据权利要求1所述的一种安全隐匿三要素查询方法，其特征在于，所述步骤N2中被查询方将查询结果发送到查询方的方法如下：