CN112711648A

CN112711648A - 一种数据库字符串密文存储方法、电子设备和介质

Info

Publication number: CN112711648A
Application number: CN202011539782.8A
Authority: CN
Inventors: 苏斌; 耿方; 周珅珅; 张玮
Original assignee: Aisino Corp
Current assignee: Aisino Corp
Priority date: 2020-12-23
Filing date: 2020-12-23
Publication date: 2021-04-27
Anticipated expiration: 2040-12-23

Abstract

本发明公开了一种数据库字符串密文存储方法、电子设备和介质，该方法包括：步骤1：将待存储文本字段进行划分，获得多个分词；步骤2：基于每个分词和向量计算模型，获得每个分词的有效向量值；步骤3：采用哈希函数对每个有效向量值进行计算，获得每个分词的哈希值；步骤4：获得待存储文本字段的总哈希签名；步骤5：获得待存储文本字段的有效向量，将待存储文本字段的总哈希签名和有效向量存储在数据库中。本发明通过将文本字段的有效向量值(词向量)作为密文存储到数据库中，并同时待存储文本字段的总哈希签名，不同于传统的密文存储，既保证安全，又便于后期的检索，在后续的密文检索中，快速定位到相关的密文区域。

Description

一种数据库字符串密文存储方法、电子设备和介质

技术领域

本发明属于互联网技术领域，更具体地，涉及一种数据库字符串密文存储方法、电子设备和介质。

背景技术

随着数据发掘的不断深入和在各行业应用的不断推进，大数据云安全的“脆弱性”逐渐凸显，国内外数据泄露事件频发，用户隐私受到极大挑战。而且在大数据环境下隐私泄露的危险，不仅仅在于泄露本身，还在于基于数据对下一步行动的预测和判断，因此大数据时代的隐私保护已经成为大数据应用发展的一项重要课题。

目前常用的方法是对数据库中有很多敏感的字符串进行加密处理，然后存储加密后的密文，但是这种加密存储密文的方法存在以下问题，在泄露密钥的情况下，密文会被解密，不能确保数据的安全存储，其次，数据库中存储加密后的密文，云端在数据库中无法有效检索数据。

因此，特别需要一种更加安全的数据库字符串密文存储方法和有效的检索方法。

发明内容

本发明的目的是提出更加安全的数据库字符串密文存储方法和有效的检索方法。

为了实现上述目的，本发明提供一种数据库字符串密文存储方法，包括：步骤1：将待存储文本字段进行划分，获得多个分词；步骤2：基于每个分词和向量计算模型，获得每个分词的有效向量值；步骤3：采用哈希函数对每个所述有效向量值进行计算，获得每个分词的哈希值；步骤4：基于每个分词的哈希值和其有效向量值对应的预设权重，获得所述待存储文本字段的总哈希签名；步骤5：基于每个分词的有效向量，获得所述待存储文本字段的有效向量，将所述待存储文本字段的总哈希签名和有效向量存储在数据库中。

优选的，所述步骤4包括：将每个分词的哈希值乘以其有效向量值对应的预设权重，获得每个分词的哈希签名；将每个分词的哈希签名累加，获得所述待存储文本字段的总哈希签名。

优选的，收到检索数据后，获取所述检索数据中的多个检索分词，基于多个检索分词和所述向量计算模型，计算获得每个检索分词的有效向量值，基于每个检索分词的有效向量值及其有效向量值对应的预设权重，获得每个检索分词的哈希签名，将每个检索分词的哈希签名累加，获得所述检索数据的总哈希签名。

优选的，计算所述检索数据的总哈希签名和数据库中存储的每个文本字段的总哈希签名的海明距离，将所述海明距离与预设阈值作比较，小于所述预设阈值的海明距离对应的所有存储文本字段构成检索数据对应的第一范围。

优选的，获取所述第一范围内的每个文本字段的有效向量；基于所述每个检索分词的有效向量，获得检索数据的有效向量，计算所述检索数据的有效向量与第一范围内的每个文本字段的有效向量的欧式距离，将所述欧式距离最小值对应的文本字段的位置作为检索数据的位置。

优选的，其中，将欧式距离最小值对应的文本字段的位置发送至服务器，从服务器中获取文本字段的数据内容。

优选的，基于初始词向量参数和每个分词的初始词向量，对概率最大值的目标函数进行优化，获得最终词向量参数，基于所述初始词向量参数和最终词向量参数，获得向量计算模型。

优选的，所述概率最大值的目标函数为：

其中，θ是词向量参数，T为分词的个数，t为第t个分词，m为上下文词汇的个数，w_t是中心词的词向量，w_t+j是中心词周围分词的词向量，P(w_t+j|w_t；θ)是中心词和周围分词同时出现的概率。

第二方面，本发明还提供一种电子设备，所述电子设备包括：存储器，存储有可执行指令；处理器，所述处理器运行所述存储器中的所述可执行指令，以实现根据上述数据库字符串密文存储方法。

第三方面，本发明还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述数据库字符串密文存储方法。

本发明的有益效果在于：本发明的一种数据库字符串密文存储方法通过将文本字段的有效向量值(词向量)作为密文存储到数据库中，并同时待存储文本字段的总哈希签名，不同于传统的密文存储，既保证安全，又便于后期的检索，在后续的密文检索中，快速定位到相关的密文区域。

本发明的方法具有其它的特性和优点，这些特性和优点从并入本文中的附图和随后的具体实施例中将是显而易见的，或者将在并入本文中的附图和随后的具体实施例中进行详细陈述，这些附图和具体实施例共同用于解释本发明的特定原理。

附图说明

通过结合附图对本发明示例性实施方式进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显，其中，在本发明示例性实施方式中，相同的参考标号通常代表相同部件。

图1示出了根据本发明的一个实施例的一种数据库字符串密文存储方法的流程图。

具体实施方式

下面将更详细地描述本发明的优选实施方式。虽然以下描述了本发明的优选实施方式，然而应该理解，可以以各种形式实现本发明而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本发明更加透彻和完整，并且能够将本发明的范围完整地传达给本领域的技术人员。

根据本发明的一种数据库字符串密文存储方法，包括：步骤1：将待存储文本字段进行划分，获得多个分词；步骤2：基于每个分词和向量计算模型，获得每个分词的有效向量值；步骤3：采用哈希函数对每个有效向量值进行计算，获得每个分词的哈希值；步骤4：基于每个分词的哈希值和其有效向量值对应的预设权重，获得待存储文本字段的总哈希签名；步骤5：基于每个分词的有效向量，获得待存储文本字段的有效向量，将待存储文本字段的总哈希签名和有效向量存储在数据库中。

具体的，将待存储文本字段进行划分，获得多个分词，将每个分词代入向量计算模型，向量计算模型是输入一个句子中的某个分词，输出其他所有分词词出现在这个词周围的概率，将这个概论作为该分词的有效向量值，这个分词周围出现的分词的概率的乘积越大越好，因为这个乘积就是这几个词同时出现的概率，用极大似然的思想，希望这个概率尽可能大。

采用哈希函数对每个有效向量值进行计算，获得每个分词的哈希值；通过hash(哈希)函数计算各个有效向量的hash(哈希)值，hash(哈希)值为二进制数01组成的n-bit签名。在hash(哈希)值的基础上，给所有有效向量进行加权，即W＝Hash*weight，且遇到1则hash值和权值正相乘，遇到0则hash值和权值负相乘。每一个有效向量设置1-5等5个级别的权重，权重即为该分词在所有字段中出现的次数，也可以按出现次数的倒序进行编码，出现次数越多权重越大。将上述各个有效向量的加权结果累加，变成只有一个序列串，这样就可以得到每个文本字段的Hash签名，作为文本字段的总哈希签名。将待存储文本字段的总哈希签名和有效向量存储在数据库中。

根据示例性的实施方式，数据库字符串密文存储方法通过将文本字段的有效向量值(词向量)作为密文存储到数据库中，并同时待存储文本字段的总哈希签名，不同于传统的密文存储，既保证安全，又便于后期的检索，在后续的密文检索中，快速定位到相关的密文区域。

作为优选方案，步骤4包括：将每个分词的哈希值乘以其有效向量值对应的预设权重，获得每个分词的哈希签名；将每个分词的哈希签名累加，获得待存储文本字段的总哈希签名。

具体的，每一个有效向量设置1-5等5个级别的权重，权重即为该分词在所有字段中出现的次数，也可以按出现次数的倒序进行编码，出现次数越多权重越大。将每个分词的哈希值乘以其有效向量值对应的权重，获得每个分词的哈希签名，将每个分词的哈希签名累加，作为待存储文本字段的总哈希签名。

作为优选方案，收到检索数据后，获取检索数据中的多个检索分词，基于多个检索分词和向量计算模型，计算获得每个检索分词的有效向量值，基于每个检索分词的有效向量值及其有效向量值对应的预设权重，获得每个检索分词的哈希签名，将每个检索分词的哈希签名累加，获得检索数据的总哈希签名。

具体的，进行检索的时候，根据检索数据，将提取检索数据中的每个检索分词，将每个检索分词代入向量计算模型，获得每个检索分词的有效向量值，再获得每个检索分词的哈希值，进而获得检索数据对应的总哈希签名每个得到Hash签名值后，接着计算两个签名的海明距离即可。根据经验值，对64位的Hash值，海明距离在3以内的可认为相似度比较高。

作为优选方案，计算检索数据的总哈希签名和数据库中存储的每个文本字段的总哈希签名的海明距离，将海明距离与预设阈值作比较，小于预设阈值的海明距离对应的所有存储文本字段构成检索数据对应的第一范围。

具体的，在进行密文检索查询时，先设定一个预设阈值，计算检索数据的总哈希签名，将检索数据的总Hash签名与数据库中存储的每个文本字段的总哈希签名的海明距离与预设阈值作比较，当海明距离小于预设阈值时，认为相似度比较高，例如预设阈值为3，海明距离小于等于3的可认为相似度比较高。2个Hash值进行异或运算(海明距离)，1的个数超过3不相似，不大于3相似。

字符串相对于同样长度的零字符串的海明距离，也就是说，它是字符串中非零的元素个数：对于二进制字符串来说，就是1的个数，所以11101的海明重量是4，因此，如果向量空间中的元素a和b之间的海明距离等于它们海明重量的差a-b。

作为优选方案，获取第一范围内的每个文本字段的有效向量；基于每个检索分词的有效向量，获得检索数据的有效向量，计算检索数据的有效向量与第一范围内的每个文本字段的有效向量的欧式距离，将欧式距离最小值对应的文本字段的位置作为检索数据的位置。

具体的，计算检索数据的检索分词的有效向量值与第一范围内的每个文本字段的有效向量的欧式距离，将欧式距离最小值对应的文本字段作为检索数据的相似文件，通过文本字段的精确位置信息确定检索数据的精确位置信息。

作为优选方案，其中，将欧式距离最小值对应的文本字段的位置发送至服务器，从服务器中获取文本字段的数据内容。

具体的，获得检索数据的精确位置信息后，通过该精确位置信息获得文本字段的具体数据内容。

作为优选方案，基于初始词向量参数和每个分词的初始词向量，对概率最大值的目标函数进行优化，获得最终词向量参数，基于初始词向量参数和最终词向量参数，获得向量计算模型。

具体的，通过训练可以得到最终的词向量参数矩阵，根据最终的词向量参数矩阵构建向量计算模型。向量计算模型中输入的是分词单元，输出的是其他所有词出现在这个词周围的概率，输出的是n维的向量，即有效词向量。用这个向量计算模型将数据库中的文本字段转换为有效向量值进行保存。

作为优选方案，概率最大值的目标函数为：

具体的，向量计算模型即构建一个计算器的方法，输入一个句子中的某个中心词，输出其他所有词出现在这个中心词周围的概率。这个中心词与周围的其他词的概率的乘积越大越好，因为这个乘积就是这几个词同时出现的概率，用极大似然的思想，希望这个概率尽可能大。

词向量的维度，默认值是100。这个维度的取值跟实际短文本语料的大小相关，如果是不大的语料，比如小于100M的文本语料，则使用默认值一般就可以了。如果是超大的语料，需要增大维度。词向量上下文最大距离，这个参数在算法原理篇中标记为c，窗口越大，则和某一词较远的词也会产生上下文关系。默认值为5。根据短文本的一般长度来确定窗口的宽度。设置当前中心词的位置为t，而语料库总长度为T。设窗口大小为m，Wt是中心词的词向量，期望窗口内词的概率之积是

需要使这个值尽可能最大。那么需要遍历整个语料库，计算位置t从0到T的所有的词，遍历后的目标函数是

其中，θ是词向量参数，T为分词的个数，t为第t个分词，m为上下文词汇的个数，w_t是中心词的词向量，w_t+j是中心词周围分词的词向量，P(w_t+j|w_t；θ)是中心词和周围分词同时出现的概率。优化词向量参数，获得最终的词向量参数，使得L(θ)最大化。

对上述公式(1)取个负对数，转化成最小化某个和函数，然后再取个平均以方便求解，获得下述公式。

公式(2)是概率最大值的目标函数，对公式(2)进行详细展开。

也可以写为公式(3)的形式，

设置分词向量值的初始值和词向量参数的初始值，将分词向量值的初始值和词向量参数的初始值代入公式(3)中，

计算公式(3)在计算第2个分词的词向量与其他词同时出现的概率为下面的公式(4)，公式(4)是对公式(3)的详细展开。

其中，

为中心词的向量的转置，

为上一轮的词向量参数，j为迭代的轮数，w为分词，c为分词的集合，

为分词的哈夫曼编码。如：“苹果”的编码值为10011，到达“苹果”需经过的权值节点的d就是10011。这个哈夫曼编码是通过语料库中各词语词频进行的统计来构建的。

在公式(2)取得最大值情况下，用下面公式更新词向量参数后，

的更新表达式

将第2个分词的初始词向量和第2轮词向量参数代入公式(4)，得到更新的参数向量后，代入计算并更新的分词的词向量，这样反复迭代。

σ′是sigmoid概率计算函数，取值范围是(0,1)，用这个函数对向量乘积做处理，是为了输出概率值，σ′(x)＝σ(x)[-σ(x)]。

中分词与其他分词同时出现的概率的计算方法为，由中心词(w(t))经过神经概率模型生成周围的词(w(t-2),w(t-1),w(t+1),w(t+2))(w(t-2),w(t-1),w(t+1),w(t+2))，在这之中，生成周围的词有前后各两个，相应的，把这个生成背景词范围的大小叫做背景词窗口，这里设置为2。将中心词的词向量设为vc，而背景词可认为是uo。在训练模型中，输入层获取到当前作为中心词的向量，并在预测层与模型参数(实为背景词的词向量)做乘积计算，最后在输出层做一个softmax的运算输出生成背景词的一个概率分布。设中心词wc在词典中索引为c，背景词wo在词典中索引为o，给定中心词生成背景词的条件概率可以通过对向量内积做softmax运算而得到：

也就是说，/sigma(z)内的每一个元素是对z内的对应元素求指数，再除以所有元素求指数后的和。所以Softmax函数也叫做归一化指数函数。

其中词典索引集V＝{0,1,…,|V|-1}V＝{0,1,…,|V|-1}。假设给定一个长度为TT的文本序列，设时间步tt的词为w(t)w(t)。假设给定中心词的情况下背景词的生成相互独立，当背景窗口大小为2时，极大似然函数即给定任一中心词生成所有背景词的概率

训练中是通过最大化似然函数来学习模型参数，即最大似然估计。由上文的推导即分析，可以得出loss为：

如果使用随机梯度下降，那么在每一次迭代里我们随机采样一个较短的子序列来计算有关该子序列的损失，然后计算梯度来更新模型参数。梯度计算的关键是条件概率的对数有关中心词向量和背景词向量的梯度。根据定义，首先看到

通过微分，我们可以得到上式中vc的梯度

它的计算需要词典中所有词以wc为中心词的条件概率。有关其他词向量的梯度同理可得。训练结束后，对于词典中的任一索引为i的词，我们均得到该词作为中心词和背景词的两组词向量vi和ui。在实际的处理应用中，一般使用中心词向量作为词的表征向量，即向量值。

本发明还提供一种电子设备，电子设备包括：存储器，存储有可执行指令；处理器，处理器运行存储器中的可执行指令，以实现根据上述数据库字符串密文存储方法。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述数据库字符串密文存储方法。

实施例一

如图1所示，该数据库字符串密文存储方法，包括：

步骤1：将待存储文本字段进行划分，获得多个分词；

步骤2：基于每个分词和向量计算模型，获得每个分词的有效向量值；

步骤3：采用哈希函数对每个有效向量值进行计算，获得每个分词的哈希值；

步骤4：基于每个分词的哈希值和其有效向量值对应的预设权重，获得待存储文本字段的总哈希签名；

步骤5：基于每个分词的有效向量，获得待存储文本字段的有效向量，将待存储文本字段的总哈希签名和有效向量存储在数据库中。

其中，步骤4包括：将每个分词的哈希值乘以其有效向量值对应的预设权重，获得每个分词的哈希签名；将每个分词的哈希签名累加，获得待存储文本字段的总哈希签名。

其中，收到检索数据后，获取检索数据中的多个检索分词，基于多个检索分词和向量计算模型，计算获得每个检索分词的有效向量值，基于每个检索分词的有效向量值及其有效向量值对应的预设权重，获得每个检索分词的哈希签名，将每个检索分词的哈希签名累加，获得检索数据的总哈希签名。

其中，计算检索数据的总哈希签名和数据库中存储的每个文本字段的总哈希签名的海明距离，将海明距离与预设阈值作比较，小于预设阈值的海明距离对应的所有存储文本字段构成检索数据对应的第一范围。

其中，获取第一范围内的每个文本字段的有效向量；基于每个检索分词的有效向量，获得检索数据的有效向量，计算检索数据的有效向量与第一范围内的每个文本字段的有效向量的欧式距离，将欧式距离最小值对应的文本字段的位置作为检索数据的位置。

其中，将欧式距离最小值对应的文本字段的位置发送至服务器，从服务器中获取文本字段的数据内容。

其中，基于初始词向量参数和每个分词的初始词向量，对概率最大值的目标函数进行优化，获得最终词向量参数，基于初始词向量参数和最终词向量参数，获得向量计算模型。

其中，概率最大值的目标函数为：

实施例二

本公开提供一种电子设备包括，该电子设备包括：存储器，存储有可执行指令；处理器，处理器运行存储器中的可执行指令，以实现上述数据库字符串密文存储方法。

根据本公开实施例的电子设备包括存储器和处理器。

该存储器用于存储非暂时性计算机可读指令。具体地，存储器可以包括一个或多个计算机程序产品，该计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。该易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。该非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。

该处理器可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制电子设备中的其它组件以执行期望的功能。在本公开的一个实施例中，该处理器用于运行该存储器中存储的该计算机可读指令。

本领域技术人员应能理解，为了解决如何获得良好用户体验效果的技术问题，本实施例中也可以包括诸如通信总线、接口等公知的结构，这些公知的结构也应包含在本公开的保护范围之内。

有关本实施例的详细说明可以参考前述各实施例中的相应说明，在此不再赘述。

实施例三

本公开提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述数据库字符串密文存储方法。

根据本公开实施例的计算机可读存储介质，其上存储有非暂时性计算机可读指令。当该非暂时性计算机可读指令由处理器运行时，执行前述的本公开各实施例方法的全部或部分步骤。

上述计算机可读存储介质包括但不限于：光存储介质(例如：CD－ROM和DVD)、磁光存储介质(例如：MO)、磁存储介质(例如：磁带或移动硬盘)、具有内置的可重写非易失性存储器的媒体(例如：存储卡)和具有内置ROM的媒体(例如：ROM盒)。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。

Claims

1.一种数据库字符串密文存储方法，其特征在于，包括：

步骤1：将待存储文本字段进行划分，获得多个分词；

步骤3：采用哈希函数对每个所述有效向量值进行计算，获得每个分词的哈希值；

步骤4：基于每个分词的哈希值和其有效向量值对应的预设权重，获得所述待存储文本字段的总哈希签名；

步骤5：基于每个分词的有效向量，获得所述待存储文本字段的有效向量，将每个分词的有效向量、所述待存储文本字段的总哈希签名和有效向量存储在数据库中。

2.根据权利要求1所述的数据库字符串密文存储方法，其特征在于，所述步骤4包括：

将每个分词的哈希值乘以其有效向量值对应的预设权重，获得每个分词的哈希签名；

将每个分词的哈希签名累加，获得所述待存储文本字段的总哈希签名。

3.根据权利要求1所述的数据库字符串密文存储方法，其特征在于，还包括：收到检索数据后，获取所述检索数据中的多个检索分词，基于多个检索分词和所述向量计算模型，计算获得每个检索分词的有效向量值，基于每个检索分词的有效向量值及其有效向量值对应的预设权重，获得每个检索分词的哈希签名，将每个检索分词的哈希签名累加，获得所述检索数据的总哈希签名。

4.根据权利要求3所述的数据库字符串密文存储方法，其特征在于，计算所述检索数据的总哈希签名和数据库中存储的每个文本字段的总哈希签名的海明距离，将所述海明距离与预设阈值作比较，小于所述预设阈值的海明距离对应的所有存储文本字段构成检索数据对应的第一范围。

5.根据权利要求4所述的数据库字符串密文存储方法，其特征在于，获取所述第一范围内的每个文本字段的有效向量；基于所述每个检索分词的有效向量，获得检索数据的有效向量，计算所述检索数据的有效向量与第一范围内的每个文本字段的有效向量的欧式距离，将所述欧式距离最小值对应的文本字段的位置作为检索数据的位置。

6.根据权利要求5所述的数据库字符串密文存储方法，其特征在于，将所述欧式距离最小值对应的文本字段的位置发送至服务器，从所述服务器中获取所述文本字段的数据内容。

7.根据权利要求1所述的数据库字符串密文存储方法，其特征在于，基于初始词向量参数和每个分词的初始词向量，对概率最大值的目标函数进行优化，获得最终词向量参数，基于所述初始词向量参数和最终词向量参数，获得向量计算模型。

8.根据权利要求7所述的数据库字符串密文存储方法，其特征在于，所述概率最大值的目标函数为：

9.一种电子设备，其特征在于，所述电子设备包括：

存储器，存储有可执行指令；

处理器，所述处理器运行所述存储器中的所述可执行指令，以实现根据权利要求1-4所述的数据库字符串密文存储方法。

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现权利要求1-4中任一项所述的数据库字符串密文存储方法。