CN114398660A

CN114398660A - 一种基于Word2vec和ASPE的高效模糊可搜索加密方法

Info

Publication number: CN114398660A
Application number: CN202111432262.1A
Authority: CN
Inventors: 姚燕青; 袁玉霦; 翟征德
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-11-29
Filing date: 2021-11-29
Publication date: 2022-04-26

Abstract

本发明提出了一种基于Word2vec和ASPE的高效模糊可搜索加密方法，该方法主要应用密态信息模糊搜索领域。该算法首先借助Word2vec生成同义词相关系数，再将系数与关键字矩阵相结合，利用扩展后的ASPE算法得到用户的陷门矩阵。将利用扩展后的ASPE算法生成的文件索引矩阵与陷门矩阵进行哈达玛乘积操作得到文件相关性排序，最后用户通过密钥解密文件得到最终明文。通过实验仿真表明，该算法不仅能有效隐藏明文信息，保护了用户的前向隐私与后向隐私，而且大大改善传统算法计算量大且占用大量存储空间的缺陷，极高地提升了模糊搜索效率。

Description

一种基于Word2vec和ASPE的高效模糊可搜索加密方法

技术领域

本发明涉及机器学习与可搜索加密领域，具体的涉及一种搜索加密方法。

背景技术

随着大数据和云计算的快速发展，越来越多的用户选择将大量电子文档数据外包到云中进行安全存储和处理。电子文档的隐私保护是外包云服务中的一个关键问题。解决这一潜在威胁的简单方法是加密后上传电子文档，并根据用户需要下载和解密它们。但是当文档被转换成基于密文的形式时，它们并没有保留原来的特征。用户和云服务器都无法快速区分哪些文档是用户需要的密文形式。可搜索加密可以在保证文档的隐私性和安全性的同时，为文件搜索提供了有效的解决方案。

传统的搜索技术都是基于明文的搜索技术，即不论是搜索网站用户提供的关键字信息或者服务器数据库系统中的数据，都是以明文结构形式进行的。这也就导致了非常严重的个人信息泄露，由于任何的恶意网站服务器都能够窃取查询用户的检索关键字、搜索结果等信息，从而严重危害了个人的信息安全和隐私权。可搜索加密技术就为了破解这种困难，提出了基于密文实现搜索查询信息的基本方法，在这个模型下，可以利用密码学的基本技术，来保证信息使用者的私密信息和生命安全。

可搜索加密，就是在加密的情况下实现查询搜索功能。目前许多文档都存储在远程服务器，并且当有需求的时候需要能够搜索文档文以实现文件增、删、改。但有的时候一些文档信息内容又不想被服务器知道，就必须对文件加密处理，怎样将加密文档保存在远程服务器设备上，同时又能够在保密的情况下进行查询搜索和文档编辑，就是可搜索加密的研究内容。

发明内容

本发明的目的是提供基于一种基于Word2vec和ASPE的高效模糊可搜索加密方法。

为了实现上述目的，采用以下技术方案：

一种基于Word2vec和ASPE的高效模糊可搜索加密方法，包括训练阶段、索引阶段、陷门阶段、加密阶段和匹配阶段，在训练阶段，通过计算词向量间的空间距离来表示词语间的语义相似度。

训练阶段，设置搜索陷门中对应关键字元素位置为1，其余为0；另外，如果数据用户的申请中出现了不在数据拥有者的关键字列表中的词w′，那么使用训练后的关键词模型，数据拥有者在训练过的关键词模型中找到一个与w′最相似的关键词w_i，w_i为关键词模型中第i个关键词；关键词w′到w_i的相似度得分sc_i，即词向量间的空间距离，计算如下：

sc_i＝sim(w′,w_i)

然后，数据用户使用w_i·sc_i来代替w′来构建搜索陷门矩阵Q＝[q_ij]_m×n，m×n为矩阵的维度，即m行n列，q_ij为矩阵Q中的第i行第j列的元素。

索引阶段，数据拥有者的密钥设置为sk＝(S,M₁,M₂)，一个m×n随机矩阵S＝[s_ij]_m×n和两个n×n随机矩阵M₁,M₂用于加密文件，s_ij∈{0,1}，s_ij为矩阵S中的第i行第j列的元素，其中m×n是所有关键字的数量，n要比m大得多；数据拥有者使用提取的关键字构建关键字矩阵W，即W＝[w_ij]_m×n，w_ij为单个文件关键字向量，矩阵W中的第i行第j列的元素；

数据拥有者使用矩阵S将文件v的关键字矩阵w_v划分为矩阵I_a＝[a_ij]_m×n和矩阵I_b＝[b_ij]_m×n，基于密钥S中的每一个S_ij做如下划分：如果s_ij＝1，令r为随机数，

如果s_ij＝0，令a_ij＝b_ij＝w_ij。

陷门阶段，数据用户使用矩阵S划分搜索矩阵Q＝[q_ij]_m×n到矩阵Q_a＝[x_ij]_m×n和矩阵Q_b＝[y_ij]_m×n，q_ij为单个查询关键字向量，基于密钥S中的每一个S_ij做如下划分：如果s_ij＝1，令a_ij＝b_ij＝q_ij；如果s_ij＝0，令r为随机数，

如果s_ij＝0，令a_ij＝b_ij＝q_ij。

加密阶段，利用哈达玛乘积将ASPE方案从一维扩展到多维运算。

加密阶段，利用哈达玛乘积将ASPE方案从一维扩展到多维运算的过程如下：

使用哈达玛乘积和ASPE方案来构建公式如下：

针对密钥为

文件v的索引为

索引加密算法E_I如下：

针对密钥

陷门

陷门加密算法E_Q如下：

匹配过程的算法如下：

因此，矩阵(I_vM)*(M^-1Q^T)^T的所有元素的总和计算为

数据拥有者利用密钥S，并使用扩展后的ASPE加密方案E_I将文件v的索引矩阵{I_a,I_b}加密为Index_v＝{I′_a,I′_b}，其中I′_a＝E_I(I_a,M₁)＝I_aM₁，I′_b＝E_I(I_b,M₂)＝I_bM₂；

数据用户利用密钥S，并使用扩展后的ASPE加密方案E_Q将查询Q的陷门矩阵{Q_a,Q_b}加密为TD_Q＝{Q′_a,Q′_b}，其中

匹配阶段，云服务器通过扩展后的ASPE方案匹配算法获取匹配文件：

设w*Q的元素为[w_ijq_ij]_m×n，云服务器计算矩阵w*Q的所有元素之和如下：

计算索引与搜索陷门之间的Tanimoto系数：

最后，云服务器根据Tanimoto系数值从大到小排序，并选择与数据用户相关度最高的文件。

本发明的优势在于：

1.利用Word2vec机器学习技术实现了可搜索加密的语义模糊搜索功能。通过计算词向量间的空间距离来表示词语间的语义相似度，因此可搜索加密方案能够具有很好的语义特性。

2.将ASPE进行多维扩展从而保证安全性的同时可以减少不必要的存储空间，从而可以提升搜索效率，进一步得到更广泛的应用。

附图说明

图1为两种方案不同关键字数量时的搜索准确率；

图2为两种方案的搜索时间比较图；

图3为两种方案的高文档数量下单搜索时间成本比较图；

图4为传统意义上的Word2vec生成的词向量。

具体实施方式

下面结合附图和具体实施例对本发明的实施例做详细的介绍。

本发明提出了一种基于Word2vec和ASPE的高效模糊可搜索加密方法，该方法主要应用于云服务器电子文档加密场景。该算法主要内容如下：为了实现模糊搜索功能，数据所有者使用所有文件作为Word2vec的输入来训练语义相关模型并为索引关键字生成关键字向量。随后数据所有者采用非对称向量积保持加密算法(ASPE)对文件索引进行加密。

在本发明中，为基于多关键字的模糊可搜索加密设计系统模型，主要涉及三个角色：数据所有者、云服务器和数据用户。

数据所有者：该实体拥有所有文件的明文。为了保证安全并降低存储成本，数据所有者将所有文件加密并存储到云服务器中。为了实现对加密文件的模糊搜索，数据所有者提取关键字并生成文档作为Word2vec算法的输入，然后创建关键字向量。

云服务器：云服务器作为外包服务器，负责存储来自所有数据所有者的大量加密文件数据，并进行加密搜索。在系统模型中，云服务器是诚实且好奇的，即半诚实的。执行搜索操作并返回结果将是诚实的，同时它会窥探存储在内部的信息和来自数据用户的查询向量。

数据用户：数据用户向云服务器发送请求查询操作，对匹配的密文进行解密，得到实际搜索到的明文数据。

Word2vec模型是神经网络在NLP领域应用的典型代表，该模型是以无监督方式从海量文本语料中学习富含语义信息的低维词向量的语言模型。通过将单词从原数据空间映射到新的空间，从高维转化为低维，使得同义词在新空间内距离相近，从而可以通过计算空间距离来表示语义相似度。Word2vec模型中，每个词都可以用神经网络中的分布权重来抽象表示。

在图4中，Word2vec使用词汇表中的词来表示三维数据，即Royalty、Masculinity和Ability。比如king的词向量设置为(0.99,0.94,0.78)。可以得到，词向量之间的关系评估为

具体来说，Word2vec通常采用哈夫曼树，其中哈夫曼树被定义为由权重构造的二叉树。哈夫曼树中底部的每个叶子节点代表一个单词，有且仅有一条唯一的从根节点到叶子节点的路径，根节点即为该单词通过求和再取平均之后的词向量。Word2vec模型中采用逻辑回归的数学方法，向左孩子的边编码为1，向右孩子的边编码为0。通过使用Sigmoid函数来判断路径中的前进方向应该选左还是选右。

第二种采用的技术是非对称向量积保持加密算法(Asymmetric Scalar-Product-Preserving Encryption，ASPE)近年来，随着数据挖掘领域的迅猛发展，分类器是一种非常重要的对样本进行分类的方法。但是在实验过程中，测试对象的某个特征，不一定能找到与之刚好符合的训练对象。也可能会出现某个测试对象的特征同时对应多个训练对象，导致可以被分到不同的类，为了解决以上这些问题，K最邻近分类算法(K-NearestNeighbor，kNN)诞生了。

一种支持kNN的方法是使用距离保持变换来加密数据点，以便加密后任意两个加密点之间的距离与对应原始点之间的距离相同。但是这种转换在实践中并不安全。如果攻击者可以访问距离保持变换加密的数据库并且知道普通数据库中的几个点，他就可以完全恢复原始数据。因此本发明选择对非对称向量积保持加密算法(Asymmetric Scalar-Product-Preserving Encryption，ASPE)进行扩展，同时支持安全准确的kNN查询计算，来实现基于关键字的密文检索。

ASPE是一种向量加密机制。令E_Q为查询向量的加密算法，E_I为索引向量的加密算法。索引向量的密文I′_i和查询向量的密文Q′创建如下：

I′_i＝E_I(I_i,M)＝I_iM

Q′＝E_Q(Q,M)＝M^-1Q^T

其中M作为密钥。ASPE方案可以保持I向量和Q向量的点积为

I′_i·Q′＝I_iM·M^-1Q^T＝I_i·Q^T

本发明由五个阶段组成，每个阶段中有相应的算法，描述如下。

(1)训练：在训练阶段，数据所有者训练Word2vec模型并为每个文件创建关键字向量。

(2)索引：数据拥有者构建关键字矩阵，生成秘密文件索引。

(3)陷门：数据拥有者将对称密钥通过安全信道发送给数据用户，数据用户将搜索请求作为输入，生成搜索陷门。

(4)加密：数据拥有者对索引加密，数据用户对陷门加密。

(5)匹配：在匹配搜索阶段，云服务器调用该算法对加密文件进行搜索，将最相似的密文发送给数据用户。

具体过程如下：

(1)训练算法过程：

为了满足用户的复杂语义搜索需求，数据拥有者通过Word2vec神经网络训练文件集合，并使用tf×idf替换算法中哈夫曼树的权重，从而获得有关一词多义或是多词一义的表达信息。

基于Word2vec的训练算法的具体步骤如下。首先基于输入语料，根据词频来建立哈夫曼树，随机初始化每个树节点参数，以及初始化词向量。之后梯度上升训练每一个样本w。假设上下文大小为2c，步长为a，第一步需要求解样本w上下文平均向量：

通过对每一个x_w通过最大似然的方式对Sigmoid求积的函数进行优化：

sum＝sum+Grad_x

最后对于上下文中的每个x进行更新：x_i＝x_i+sum，x_i为第i个样本的上下文平均向量。若梯度收敛则此向量结束，否则重复迭代直到收敛。

数据用户根据个人喜好或工作需求，通过安全信道向数据拥有者提出申请。数据拥有者对用户的身份进行认证和对用户的权限进行判断，通过后数据用户生成搜索陷门。即设置搜索陷门中对应关键字元素位置为1，其余为0。其次还会遇到一种特殊情况，如果数据用户的申请中出现了不在数据拥有者的关键字列表中的词w′，那么使用训练后的关键词模型，数据拥有者可以在训练过的关键词模型中找到一个与w′最相似的关键词w_i，w_i为关键词模型中第i个关键词。关键词w′到w_i的相似度得分sc_i计算如下：

sc_i＝sim(w′,w_i)＝w′·w_i

(2)索引算法

由数据拥有者运行。数据拥有者的密钥设置为sk＝(S，M₁，M₂)，一个m×n随机矩阵S＝[s_ij]_m×n(s_ij∈{0，1}，s_ij为矩阵S中的第i行第j列的元素)和两个n×n随机矩阵M₁，M₂用于加密文件，其中m×n是所有关键字的数量，n要比m大得多。数据拥有者使用提取的关键字构建关键字矩阵W，即W＝[w_ij]_m×n，w_ij为单个文件关键字向量，矩阵W中的第i行第j列的元素。

如果s_ij＝0，令a_ij＝b_ij＝w_ij。

(3)陷门算法

数据用户使用矩阵S划分搜索矩阵Q＝[q_ij]_m×n(q_ij为单个查询关键字向量)到矩阵Q_a＝[x_ij]_m×n和矩阵Q_b＝[y_ij]_m×n，基于密钥S中的每一个S_ij做如下划分：如果s_ij＝1，令a_ij＝b_ij＝q_ij；如果s_ij＝0，令r为随机数，

如果s_ij＝0，令a_ij＝b_ij＝q_ij。

(4)加密算法

非对称向量积保持加密算法(Asymmetric Scalar-Product-PreservingEncryption，ASPE)是一种向量加密机制。令E_Q为查询向量的加密算法，E_I为索引向量的加密算法。索引向量的密文I′_i和查询向量的密文Q′创建如下：

I′_i＝E_I(I_i,M)＝I_iM

Q′＝E_Q(Q,M)＝M^-1Q^T

其中M作为密钥。ASPE方案可以保持I向量和Q向量的点积为

I′_i·Q′＝I_iM·M^-1Q^T＝I_i·Q^T

因为ASPE支持安全准确的kNN查询计算，同时针对数据拥有者文件中若需要存储更多的关键字数量，那么将索引从一维向量到多维矩阵的转换占用空间更小。所以本发明中利用哈达玛乘积将ASPE方案从一维扩展到多维，从而可以支持更广泛的应用。扩展方式如下。

在本发明中，索引和查询被编码成两个m×n矩阵，即

通过使用哈达玛乘积和ASPE方案来构建公式如下：

针对密钥为

文件v的索引为

索引加密算法E_I如下：

针对密钥

陷门

陷门加密算法E_Q如下：

匹配过程的算法如下：

因此，矩阵(I_vM)*(M^-1Q^T)^T的所有元素的总和计算为

本发明的算法设计在保证哈达玛乘积与ASPE方案组合的正确性的基础上，将ASPE方案从一维扩展到多维，从而可以降低存储空间占用成本和通信成本，显著提高计算效率。

数据拥有者利用密钥S，并使用扩展后的ASPE加密方案E_I将文件v的索引矩阵{I_a,I_b}加密为Index_v＝{I′_a,I′_b}，其中I′_a＝E_I(I_a,M₁)＝I_aM₁，I′_b＝E_I(I_b,M₂)＝I_bM₂。

(5)匹配算法过程

数据用户为了搜索文件，首先向数据拥有者提出请求，再向云服务器发送一个搜索陷门。由于文件索引和搜索陷门都有加密形式，云服务器在匹配过程中不会泄露文件和查询信息。云服务器通过本发明中扩展后的ASPE方案匹配算法获取匹配文件：

Tanimoto系数又称为广义的Jaccard相关系数。设A和B为两个样本向量，Tanimoto系数表达式为：

向量中的每一位代表了可以对样本进行衡量的一个维度，但是不再对取值做出限制。A·B表示向量点积，

表示向量的模。

本发明中通过计算索引与搜索陷门之间的Tanimoto系数：

本发明的优点在于：

1)更高的模糊搜索准确率：

如图1所示，基于Word2vec训练算法的可搜索加密方案可以达到较高的精度，在语义模糊搜索方面展现了优越的性能表现。

2)更快的搜索效率：

考虑到原始的ASPE方案，假设关键字的数量为n，这意味着该方案需要执行O(n²)次点乘运算和O(n-1)次加法运算。本发明中通过通过对ASPE方案进行改进，如图2所示，搜索过程只需要O(n)次点乘运算和O(n-1)次加法运算，进一步提高了搜索的效率。

原始ASPE方案中查询和匹配时间都与文件数量成线性关系，本发明中通过对ASPE方案进行改进，极大得降低了高文档数量下搜索时间所需成本，如图3所示，提高了搜索能力。

3)降低了通信成本：

扩展后的ASPE方案针对更多的关键字数量，从一维向量到多维矩阵的转换使得文件的索引占用空间更小。显然，这种方法可以显著提高计算效率并降低通信成本。

Claims

1.一种基于Word2vec和ASPE的高效模糊可搜索加密方法，包括训练阶段、索引阶段、陷门阶段、加密阶段和匹配阶段，其特征在于，训练阶段，通过计算词向量间的空间距离来表示词语间的语义相似度。

2.如权利要求1所述的于基于Word2vec和ASPE的高效模糊可搜索加密方法，其特征在于：训练阶段，设置搜索陷门中对应关键字元素位置为1，其余为0；另外，如果数据用户的申请中出现了不在数据拥有者的关键字列表中的词w′，那么使用训练后的关键词模型，数据拥有者在训练过的关键词模型中找到一个与w′最相似的关键词w_i，w_i为关键词模型中第i个关键词；关键词w′到w_i的相似度得分sc_i，即词向量间的空间距离，计算如下：

sc_i＝sim(w′，w_i)

3.如权利要求1所述的基于Word2vec和ASPE的高效模糊可搜索加密方法，其特征在于：索引阶段，数据拥有者的密钥设置为sk＝(S，M₁，M₂)，一个m×n随机矩阵S＝[s_ij]_m×n和两个n×n随机矩阵M₁，M₂用于加密文件，s_ij∈{0，1}，s_ij为矩阵S中的第i行第j列的元素，其中m×n是所有关键字的数量，n要比m大得多；数据拥有者使用提取的关键字构建关键字矩阵W，即W＝[w_ij]_m×n，w_ij为单个文件关键字向量，矩阵W中的第i行第j列的元素；

如果s_ij＝0，令a_ij＝b_ij＝w_ij。

4.如权利要求1所述的基于Word2vec和ASPE的高效模糊可搜索加密方法，其特征在于：陷门阶段，数据用户使用矩阵S划分搜索矩阵Q＝[q_ij]_m×n到矩阵Q_a＝[x_ij]_m×n和矩阵Q_b＝[y_ij]_m×n，q_ij为单个查询关键字向量，基于密钥S中的每一个S_ij做如下划分：如果s_ij＝1，令a_ij＝b_ij＝q_ij；如果s_ij＝0，令r为随机数，