CN108171071A

CN108171071A - 一种面向云计算的多关键字可排序密文检索方法

Info

Publication number: CN108171071A
Application number: CN201711247475.0A
Authority: CN
Inventors: 许建; 黄新宇; 杨庚; 陈燕俐; 陈蕾; 朱玉昊
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Jilin Foreign Enterprise Service Co., Ltd
Priority date: 2017-12-01
Filing date: 2017-12-01
Publication date: 2018-06-15
Anticipated expiration: 2037-12-01
Also published as: CN108171071B

Abstract

本发明公开了一种面向云计算的多关键字可排序密文检索方法，通过分组法对文档关键字集进行分组，对每组逆关键字集文档向量集合构建相应的B⁺索引树，采用基于改进的KNN查询算法进行加密后上传至云，并在上传查询陷门后通过TF‑IDF模型对检索结果集合进行排序，返回给用户相关性分数最高的前k个文档。本发明的特点在于相对于其他结构树而言B⁺树的高度要低一些，由于检索效率和高度成正比增加，这种效率差异会随着文档集和关键字集的增加而愈发明显，采用分组构建B⁺树结构索引的方法可以大大提高检索速度。并且通过相关性分数比较，在结果集满足需求数量的前提下，提前判定是否继续检索当前树节点的后续节点，从而对检索效率进行进一步的提升。

Description

一种面向云计算的多关键字可排序密文检索方法

技术领域

本发明涉及计算机应用技术领域，特别是一种面向云计算的多关键字可排序密文检索方法。

背景技术

随着云计算的发展与普及，为了减少本地存储和使用方便，更多的个人或公司会把数据上传至云服务中去，以达到随时随地可以操作其数据的目的。但是云服务给用户带来极大便利的同时，由于用户将数据上传到不受信任的第三方，会带来极大的数据隐私泄露的安全隐患。

针对这一问题，许多用户会在上传之前对其数据进行加密以避免数据遭到非法使用，但是这种做法导致基于明文的许多方法不在适用，使数据更加难以操作。目前国内外很多学者对密文检索这一方法进行研究，并获得了很大进展。由于对数据加密后导致数据结构更加复杂，目前在索引大小和检索效率上，密文检索还不能与明文检索相比。

发明内容

本发明所要解决的技术问题是克服现有技术的不足而提供一种面向云计算的多关键字可排序密文检索方法，该方法可以降低索引内存，并有效提高检索效率。

本发明为解决上述技术问题采用以下技术方案：

根据本发明提出的一种面向云计算的多关键字可排序密文检索方法，包括以下步骤：

步骤1、根据数据集构建分组索引数据；

步骤2、利用B⁺树对步骤1中的每组数据进行索引构建并加密，并和加密后的文档集一起上传到云服务器中；

步骤3、根据用户输入的查询关键字，创建对应的查询向量后，对查询向量进行加密后形成陷门，将陷门上传至云服务器；

步骤4、在云服务器中利用步骤3中的陷门在步骤2中的索引进行查询计算，返回给用户相关性最高的前k个加密文档。

作为本发明所述的一种面向云计算的多关键字可排序密文检索方法进一步优化方案，

所述步骤1具体步骤如下：

步骤1-1：根据数据集构建明文文档向量集F，并提取关键字集W，其中 W＝{w₁,w₂,…,w_n}，n为关键字集大小，w_j表示第j个关键字，j＝1,2,…n；F＝{f₁,f₂,…,f_m}，m为数据集数量，f_i为数据集中第i个文档对应的文档向量，f_i的长度和W的长度一致，存储的为关键字集W中的关键字在f_i所代表的文档中的词频 TF值，如果关键字没有出现在f_i所代表的文档中，则f_i中与该关键字所对应的位置存储0；其中，i＝1,2,…m；

步骤1-2：根据W创建逆关键字文档向量集O,其中 O＝{op(w₁),op(w₂),…,op(w_n)}，op(w_j)表示包含w_j的TF值最高的前c×k个文档向量集，c是正整数；

步骤1-3：对W进行分组得到分组后的关键字集WG，其中 WG＝{WG₁,WG₂,…,WG_b}，WG_l为第l组的关键字集，WG_l包含d个关键字，b为 WG的组数且根据步骤1-2所得到的O对O中的向量进行相同的分组，得到分组后的逆关键字文档向量集OG，OG＝{OG₁,OG₂,…,OG_b}，OG_l表示包含 WG_l的文档向量集，OG即为分组索引数据，其中，l＝1,2,…,b。

作为本发明所述的一种面向云计算的多关键字可排序密文检索方法进一步优化方案，步骤二中，索引构建和加密的步骤如下：

步骤2-1：构建的索引I由两部分组成，即I＝{IQ,IF}，IQ为B⁺树索引集，IF为文档数据集，通过步骤1-3得到OG后构建IQ＝{IQ₁,IQ₂,…,IQ_b}，IQ_l为WG_l对应的B ⁺树索引，其构建所需要的文档向量由OG_l提供；用N_l表示IQ_l的一个节点，其存储的关键字结构为＜fid,children[m]，inf>，fid为文档标识符，children[m]为指向N_l的第m个孩子节点的指针，m为B⁺树的阶数，inf是存储TF值的d维数据向量；如果N_l为叶节点，则fid和文档标识一致，inf存储WG_l在fid对应文档中的TF值；否则fid为空，用key[v]表示节点N_l存储的第v个关键字信息,则第v个关键字的inf的第c维存储的数据,也就是key[v].inf[c]由如下公式计算：

key[v].inf[c]＝

max{N_l.children[v].key[1].inf[c],…,N_l·children[v].key[m].inf[c]}+

|R|％max{N_l.children[v]·key[1].inf[c],…,N_l.children[v].key[m].inf[c]}；

其中R为随机产生的数值,N_l.children[v].key[v].inf[c]表示N_l的第v个孩子节点存储的第v个关键字内inf的第c维的数据；其中，v＝1,2,…,m，c＝1,2,…,d；

步骤2-2：根据F构建IF＝{IF₁,IF₂,…,IF_m}，其中IF_i基于f_i构建，是f_i的一种向量表达形式，IF_i＝<fid,inf₁,inf₂,…,inf_b>，其中inf_l是长度为d的向量，代表第l组的关键字在f_i中的TF值，第l组的第c个关键字在f_i中的TF值用inf_l[c]表示；

步骤2-3：遍历步骤2-1得到的IQ，将IQ_l每个节点存储关键字的inf的每维增加α+1位，α为随机正整数，每维的第d+p位随机存储0或1，第d+α+1位存储 1，p＝1,2,…α；遍历步骤2-2得到的IF，将IF_i每维增加β位，β为随机正整数，再增加一维，其位数为β+α+1，每维的扩展位随机存储0或1，前b维的所有d+g位存储的值相同，第(b+1)维的β+α+1位值为1，g＝1,2,…β；

步骤2-4：构造秘钥ek₁和ek₂，ek₁＝{E₁,Z₁,Z₂}，ek₂＝{E₂,Z₃,Z₄}，E₁为b维向量，其中E₁中的第l维数据为d+α+1位，每位随机存储0或1；Z₁和Z₂一样，包含b个(d+α+1)×(d+α+1)阶可逆矩阵；E₂为(b+1)维的向量，为E₂中的第l维数据，其中E₂的前b维为d+β位，第b+1维为α+β+1位，每位随机存储0或1；Z₃和Z₄一样，包含b个(d+β)×(d+β)阶可逆矩阵和一个(β+α+1)×(β+α 1)阶可逆矩阵；

步骤2-5：根据步骤2-4得到的秘钥ek₁对IQ加密后变换为新的数据IQ′和IQ″，也就是将每个IQ_l分为IQ′_l和IQ″_l两个新的数据，用E_1,l[s]表示E₁第l维的第s位存储的数据，s＝1,2,…,d+α+1，IQ_l[s]以及IQ′_l[s]和IQ″_l[s]分别表示原数据的第l维的第 s位和加密后得到的两个新数据的第l维的第s位存储的数据；如果E_1,l[s]＝0， IQ′_l[s]＝IQ″_l[s]＝IQ_l[s]；如果E_1,l[s]＝1，IQ′_l[s]+IQ″_l[s]＝IQ_l[s]；则加密后的I 为E_IQ，E_IQ用下式表达：

其中和表示Z₁和Z₂的第l个矩阵的转置，用ek₂对IF进行加密，得到加密后的IF为E_IF，ek₂对IF进行加密的过程同IQ加密；最后将加密后的IF和IQ，也就是E_IF和 E_IQ上传至云服务器。

作为本发明所述的一种面向云计算的多关键字可排序密文检索方法进一步优化方案，步骤3具体步骤如下：

步骤3-1：根据用户输入的查询关键字，创建对应的查询向量，查询向量Q由两部分组成，即Q＝{QQ,QF}，其中QQ为b维向量集，用于在IQ上进行检索，QF同样为b维向量集，并且用于和IF计算求得文档向量和查询向量最终的相关性分数；首先构建QQ＝{QQ₁,QQ₂,…,QQ_b}，QQ_l代表在QQ中第l维存储的向量数据，QQ_l[c] 表示第l维的第c位存储的数据，QQ_l[c]与WG_l,c相对应，如果WG_l,c在查询关键字集W_q中存在，则QQ_l[c]存储WG_l,c的逆文档频率IDF值，否则存储0；如果QQ_l的所有位存储的都为0，则将QQ_l设置为空；QF和QQ相等；

步骤3-2：将QQ每维数据扩展α+1位，前α位存储随机数γ_l,p，第α+1位存储另一个随机数δ_l；将每维的前d+α位放大ε倍；将QF增加长度为β+α+1位的一维， QF的前b维每维增加β位，限制条件为QF_l[d+g]表示QF的第l维的第d+g位存储的数据，QF_b+1[g]表示QF的第b+1维的第g位存储的数据；QF的第b+1维的β+p位的值为随机数γ_p，第β+α+1的值为随机正数δ； QF的第b+1维除最后一位每位放大ε倍；

步骤3-3：通过步骤2-4得到的ek₁对Q进行加密，将QQ加密后得到新的数据QQ′和QQ″，用QQ′_l[s]和QQ″_l[s]表示两个新数据QQ′和QQ″第l维的第s位存储的数据， QQ_l[s]表示数据QQ第l维的第s位存储的数据；如果E_1,l[s]＝0，则QQ′_l[s]+QQ″_l[s]＝ QQ_l[s]；如果E_1,l[s]＝1，则QQ′_l[s]＝QQ″_l[s]＝QQ_l[s]；最后，加密后的QQ为E_QQ， E_QQ如下：

其中QQ′_l和QQ″_l表示QQ′和QQ″第l维的数据，和表示Z₁和Z₂的第l个矩阵的逆，QQ_l！＝null表示QQ第l维的数据不为空，对QF的加密和QQ的步骤过程一样，加密后的QF为E_QF，最后将加密后的QQ和QF，也就是E_QQ和E_QF都上传至云服务器。

作为本发明所述的一种面向云计算的多关键字可排序密文检索方法进一步优化方案，步骤4具体如下：

通过E_IQ和E_QQ之间的运算，获得每组相关性最高的前h个加密文档，形成返回结果集；通过E_IF和E_QF运算获得两者之间的相关性分数，然后将返回结果集进行二次排序，最终返回相关性最高的前k个加密文档给用户。

步骤4-1：当云服务器接收到E_QQ后，用E_QQ在E_IQ上进行计算并返回具有b组结果的结果集Rlist，Rlist＝{Rlist₁,Rlist₂,…Rlist_b,}，其中Rlist_l为第l组索引检索后所返回的结果，每组结果包含h个文档向量，用和表示QQ和IQ第l维的加密数据，则和节点中第v个关键字的相关性分数用如下公式计算：

其中N_l·key[v]表示节点N_l存储的第v个关键字，N_l·key[v]·inf′和 N_l.key[v].inf″表示对关键字的inf加密后形成的两个新的向量， Score(QQ_l,N_l·key[v])表示QQ_l和N_l·key[v]之间的相关性分数；采用深度遍历将遍历到的叶子节点存储的关键字信息放入Rlist_l中，如果Rlist_l的信息数量超过h，则对后面要遍历的节点进行分数判断，如果节点关键字分数大于Rlist_l中最低分，继续遍历，否则这个关键字所对应的孩子节点不予遍历；

步骤4-2：将步骤4-1中得到的Rlist进行去除重复元素操作，利用E_QF和对结果集Rlist中的数据进行相关性分数计算，其中表示为IF_i加密后的形式，计算公式如下：

和表示对IF_i的第l维向量加密后获得的两个新向量，和表示对QF的第l维向量加密后获得的两个新向量，Score(QF,IF_i)表示QF和IF_i的相关性分数，表示E_QF的第l维不为空,通过上述公式得到分数后，返回给用户分数最高的前k个文档。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

本发明在分组关键字集的基础上，首先获得每组逆关键字文档集并进行索引数据创建；同时对创建的索引数据构建具有B⁺树结构的索引并对其进行加密，和加密后的文档集一起上传到云服务器中；然后根据查询关键字创建相应的查询向量，加密形成查询陷门后上传至云服务进行查询；最后在云中通过查询陷门在加密索引组的运算后返回给用户想要的结果。通过该方法可以降低索引内存，并有效提高检索效率。

附图说明

图1是面向云计算的多关键字可排序密文检索方法的模型示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明进行详细描述。

如图1是面向云计算的多关键字可排序密文检索方法的模型示意图；本发明提出了一种面向云计算的多关键字可排序密文检索方法，具体包括以下步骤：

步骤1、根据数据集构建分组索引数据；

步骤1-1：根据数据集构建明文文档向量集F，并提取关键字集W，其中 W＝{w₁,w₂,…,w_n}，n为关键字集大小，w_j表示第j个关键字，j＝1,2,…n； F＝{f₁,f₂,…,f_m}，m为数据集数量，f_i为数据集中第i个文档对应的文档向量，f_i的长度和W的长度一致，存储的为关键字集W中的关键字在f_i所代表的文档中的词频 TF值，如果关键字没有出现在f_i所代表的文档中，则f_i中与该关键字所对应的位置存储0；其中，i＝1,2,…m；

索引构建和加密的步骤如下：

步骤2-1：构建的索引I由两部分组成，即I＝{IQ,IF}，IQ为B⁺树索引集，IF为文档数据集，通过步骤1-3得到OG后构建IQ＝{IQ₁,IQ₂,…,IQ_b}，IQ_l为WG_l对应的B ⁺树索引，其构建所需要的文档向量由OG_l提供；用N_l表示IQ_l的一个节点，其存储的关键字结构为<fid,children[m]，inf>，fid为文档标识符，children[m]为指向N_l的第m个孩子节点的指针，m为B⁺树的阶数，inf是存储TF值的d维数据向量；如果N_l为叶节点，则fid和文档标识一致，inf存储WG_l在fid对应文档中的TF值；否则fid为空，用key[v]表示节点N_l存储的第v个关键字信息,则第v个关键字的inf的第c维存储的数据,也就是key[v].inf[c]由如下公式计算：

key[v].inf[c]＝

max{N_l.children[v].key[1].inf[c],…,N_l.children[v].key[m].inf[c]}+

|R|％max{N_l.children[v].key[1].inf[c],…,N_l.children[v].key[m].inf[c]}；

步骤2-5：根据步骤2-4得到的秘钥ek₁对IQ加密后变换为新的数据IQ′和IQ"，也就是将每个IQ_l分为IQ′_l和IQ″_l两个新的数据，用E_1,l[s]表示E₁第l维的第s位存储的数据，s＝1,2,…,d+α+1，IQ_l[s]以及IQ′_l[s]和IQ″_l[s]分别表示原数据的第l维的第 s位和加密后得到的两个新数据的第l维的第s位存储的数据；如果E_1,l[s]＝0， IQ′_l[s]＝IQ"_l[s]＝IQ_l[s]；如果E_1,l[s]＝1，IQ′_l[s]+IQ″_l[s]＝IQ_l[s]；则加密后的IQ 为E_IQ，E_IQ用下式表达：

步骤3-3：通过步骤2-4得到的ek₁对Q进行加密，将QQ加密后得到新的数据QQ′和QQ″，用QQ′_l[s]和QQ″_l[s]表示两个新数据QQ′和QQ″第l维的第s位存储的数据， QQ_l[s]表示数据QQ第l维的第s位存储的数据；如果E_1,l[s]＝0，则QQ′_l[s]+QQ″_l[s]＝QQ_l[s]；如果E_1,l[s]＝1，则QQ′_l[s]＝QQ″_l[s]＝QQ_l[s]；最后，加密后的QQ为E_QQ， E_QQ如下：

步骤4、在云服务器中利用步骤3中的陷门在步骤2中的索引进行查询计算，返回给用户相关性最高的前k个加密文档；

步骤4具体如下：

其中N_l.key[v]表示节点N_l存储的第v个关键字，N_l.key[v].inf′和 N_l.key[v].inf″表示对关键字的inf加密后形成的两个新的向量， Score(QQ_l,N_l.key[v])表示QQ_l和N_l·key[v]之间的相关性分数；采用深度遍历将遍历到的叶子节点存储的关键字信息放入Rlist_l中，如果Rlist_l的信息数量超过h，则对后面要遍历的节点进行分数判断，如果节点关键字分数大于Rlist_l中最低分，继续遍历，否则这个关键字所对应的孩子节点不予遍历；

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围内。

Claims

1.一种面向云计算的多关键字可排序密文检索方法，其特征在于，包括以下步骤：

步骤1、根据数据集构建分组索引数据；

2.根据权利要求1所述的一种面向云计算的多关键字可排序密文检索方法，其特征在于，

所述步骤1具体步骤如下：

步骤1-1：根据数据集构建明文文档向量集F，并提取关键字集W，其中W＝{w₁,w₂,…,w_n}，n为关键字集大小，w_j表示第j个关键字，j＝1,2,…n；F＝{f₁,f₂,…,f_m}，m为数据集数量，f_i为数据集中第i个文档对应的文档向量，f_i的长度和W的长度一致，存储的为关键字集W中的关键字在f_i所代表的文档中的词频TF值，如果关键字没有出现在f_i所代表的文档中，则f_i中与该关键字所对应的位置存储0；其中，i＝1,2,…m；

步骤1-2：根据W创建逆关键字文档向量集O,其中O＝{op(w₁),op(w₂),…,op(w_n)}，op(w_j)表示包含w_j的TF值最高的前c×k个文档向量集，c是正整数；

步骤1-3：对W进行分组得到分组后的关键字集WG，其中WG＝{WG₁,WG₂,…,WG_b}，WG_l为第l组的关键字集，WG_l包含d个关键字，b为WG的组数且根据步骤1-2所得到的O对O中的向量进行相同的分组，得到分组后的逆关键字文档向量集OG，OG＝{OG₁,OG₂,…,OG_b}，OG_l表示包含WG_l的文档向量集，OG即为分组索引数据，其中，l＝1,2,…,b。

3.根据权利要求2所述的一种面向云计算的多关键字可排序密文检索方法，其特征在于，步骤二中，索引构建和加密的步骤如下：

key[v].inf[c]＝

max{N_l.children[v].key[1].inf[c],…,N_l.children[v].key[m].inf[c]}+

|R|％max{N_l.children[v].key[1].inf[c],…,N_l.children[v].key[m].inf[c]}；

步骤2-3：遍历步骤2-1得到的IQ，将IQ_l每个节点存储关键字的inf的每维增加α+1位，α为随机正整数，每维的第d+p位随机存储0或1，第d+α+1位存储1，p＝1,2,…α；遍历步骤2-2得到的IF，将IF_i每维增加β位，β为随机正整数，再增加一维，其位数为β+α+1，每维的扩展位随机存储0或1，前b维的所有d+g位存储的值相同，第(b+1)维的β+α+1位值为1，g＝1,2,…β；

步骤2-4：构造秘钥ek₁和ek₂，ek₁＝{E₁,Z₁,Z₂}，ek₂＝{E₂,Z₃,Z₄}，E₁为b维向量，其中E₁中的第l维数据为d+α+1位，每位随机存储0或1；Z₁和Z₂一样，包含b个(d+α+1)×(d+α+1)阶可逆矩阵；E₂为(b+1)维的向量，为E₂中的第l维数据，其中E₂的前b维为d+β位，第b+1维为α+β+1位，每位随机存储0或1；Z₃和Z₄一样，包含b个(d+β)×(d+β)阶可逆矩阵和一个(β+α+1)×(β+α+1)阶可逆矩阵；

步骤2-5：根据步骤2-4得到的秘钥ek₁对IQ加密后变换为新的数据IQ′和IQ″，也就是将每个IQ_l分为IQ′_l和IQ″_l两个新的数据，用E_1,l[s]表示E₁第l维的第s位存储的数据，s＝1,2,…,d+α+1，IQ_l[s]以及IQ′_l[s]和IQ″_l[s]分别表示原数据的第l维的第s位和加密后得到的两个新数据的第l维的第s位存储的数据；如果E_1,l[s]＝0，IQ′_l[s]＝IQ″_l[s]＝IQ_l[s]；如果E_1,l[s]＝1，IQ′_l[s]+IQ″_l[s]＝IQ_l[s]；则加密后的IQ为E_IQ，E_IQ用下式表达：

其中和表示Z₁和Z₂的第l个矩阵的转置，用ek₂对IF进行加密，得到加密后的IF为E_IF，ek₂对IF进行加密的过程同IQ加密；最后将加密后的IF和IQ，也就是E_IF和E_IQ上传至云服务器。

4.根据权利要求3所述的一种面向云计算的多关键字可排序密文检索方法，其特征在于，步骤3具体步骤如下：

步骤3-1：根据用户输入的查询关键字，创建对应的查询向量，查询向量Q由两部分组成，即Q＝{QQ,QF}，其中QQ为b维向量集，用于在IQ上进行检索，QF同样为b维向量集，并且用于和IF计算求得文档向量和查询向量最终的相关性分数；首先构建QQ＝{QQ₁,QQ₂,…,QQ_b}，QQ_l代表在QQ中第l维存储的向量数据，QQ_l[c]表示第l维的第c位存储的数据，QQ_l[c]与WG_l,c相对应，如果WG_l,c在查询关键字集W_q中存在，则QQ_l[c]存储WG_l,c的逆文档频率IDF值，否则存储0；如果QQ_l的所有位存储的都为0，则将QQ_l设置为空；QF和QQ相等；

步骤3-2：将QQ每维数据扩展α+1位，前α位存储随机数γ_l,p，第α+1位存储另一个随机数δ_l；将每维的前d+α位放大ε倍；将QF增加长度为β+α+1位的一维，QF的前b维每维增加β位，限制条件为QF_l[d+g]表示QF的第l维的第d+g位存储的数据，QF_b+1[g]表示QF的第b+1维的第g位存储的数据；QF的第b+1维的β+p位的值为随机数γ_p，第β+α+1的值为随机正数δ；QF的第b+1维除最后一位每位放大ε倍；

步骤3-3：通过步骤2-4得到的ek₁对Q进行加密，将QQ加密后得到新的数据QQ′和QQ″，用QQ′_l[s]和QQ″_l[s]表示两个新数据QQ′和QQ″第l维的第s位存储的数据，QQ_l[s]表示数据QQ第l维的第s位存储的数据；如果E_1,l[s]＝0，则QQ′_l[s]+QQ″_l[s]＝QQ_l[s]；如果E_1,l[s]＝1，则QQ′_l[s]＝QQ″_l[s]＝QQ_l[s]；最后，加密后的QQ为E_QQ，E_QQ如下：

5.根据权利要求4所述的一种面向云计算的多关键字可排序密文检索方法，其特征在于，步骤4具体如下：

6.根据权利要求4所述的一种面向云计算的多关键字可排序密文检索方法，其特征在于，步骤4具体如下：

其中N_l.key[v]表示节点N_l存储的第v个关键字，N_l.key[v].inf′和N_l.key[v].inf″表示对关键字的inf加密后形成的两个新的向量，Score(QQ_l,N_l.key[v])表示QQ_l和N_l.key[v]之间的相关性分数；采用深度遍历将遍历到的叶子节点存储的关键字信息放入Rlist_l中，如果Rlist_l的信息数量超过h，则对后面要遍历的节点进行分数判断，如果节点关键字分数大于Rlist_l中最低分，继续遍历，否则这个关键字所对应的孩子节点不予遍历；