CN109255244A

CN109255244A - 数据加密方法及其装置、数据加密检索系统

Info

Publication number: CN109255244A
Application number: CN201810778444.6A
Authority: CN
Inventors: 陈建铭; 张文豪; 吴祖扬; 王景行
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2018-07-16
Filing date: 2018-07-16
Publication date: 2019-01-22
Anticipated expiration: 2038-07-16
Also published as: CN109255244B

Abstract

本发明适用于数据加密领域，提供了一种支持模糊匹配与语义近似匹配的关键字排序搜索技术的数据加密方法及其装置、数据加密检索系统，具有更完善的功能和更高的效率，该方法包括：初始化步骤：从数据中提取关键字集合，并建立原始关键字字典，进而建立相应的关键字词干字典和关键字同义词字典，并为所述原始关键字字典中的关键字建立用于字形模糊匹配的单词向量；秘钥生成步骤：根据多个字典生成相应的秘钥；索引构建步骤：根据字典与映射关系为每个文档建立索引向量，并进行聚类；数据加密步骤：对所述索引向量进行加密。

Description

数据加密方法及其装置、数据加密检索系统

技术领域

本发明涉及数据加密领域，尤其涉及一种支持模糊匹配与语义近似匹配的关键字排序搜索技术的数据加密方法及其装置、数据加密检索系统。

背景技术

随着云服务的普及，越来越多敏感信息被外包给云，这些存储在云上的数据需要被加密。然而，云端数据不在企业及个人用户的监管中，因此为了防止隐私信息泄露，数据在上传至云端之前需要进行加密。这就产生了一个新的问题：当数据使用者想要检索云端数据时，云服务器因为无法解密数据因此无法做出回应。

针对这个问题，许多学者提出了大量的解决方案。但在目前的很多研究中，现有的使用关键字排序搜索技术在搜索功能方面的改进相对欠佳，有较大的开拓空间。在现有研究方案中，文档索引向量不同维度所代表的关键字间存在近似关系，如同一单词有不同的衍生词(单复数，时态变化等)、同义词等，而现有方案均忽略了这样的关系，导致了现有方案中的功能不完善且效率较低，而且目前尚无针对文档索引向量不同维度所代表的关键字间的关系的研究。

发明内容

本发明所要解决的技术问题为完善针对云端数据的搜索功能以及提高对数据的搜索效率，使其具有更完善的功能和更高的效率。

为解决上述技术问题，本发明提出一种数据加密方法，包括：

初始化步骤：从数据中提取关键字集合，并建立原始关键字字典，进而建立相应的关键字词干字典和关键字同义词字典，并为所述原始关键字字典中的关键字建立用于字形模糊匹配的单词向量；

秘钥生成步骤：根据多个字典生成相应的秘钥；

索引构建步骤：根据字典与映射关系为每个文档建立索引向量，并进行聚类；

数据加密步骤：对所述索引向量进行加密。

优选的，所述初始化步骤具体包括：

根据所述关键字集合生成所述原始关键字字典D，其中，所述原始关键字字典D的长度为n；

利用词干提取算法对所述关键字集合进行处理以得到关键字的词干，从而生成所述关键字词干字典D₁，同时生成所述原始关键字字典D与所述关键字词干字典D₁之间的映射表Map₁，其中，所述关键字词干字典D₁的长度为n₁；

对得到的关键字的词干的集合进行同义词组合处理，从而生成所述关键字同义词字典D₂，同时生成所述原始关键字字典D与所述关键字同义词字典D₂之间的映射表Map₂，其中，所述关键字同义词字典D₂的长度为n₂；

为所述原始关键字字典D中的每个关键字建立单词向量，将每个关键字分别拆分为二元字母组合与一元字母组合，并映射到一个预设长度的向量中。

优选的，所述秘钥生成步骤具体包括：

随机生成第一秘钥SK₁(L₁，L₂，R)，其中，L₁，L₂是两个大小为(n+2)×(n+2)的随机可逆矩阵，R∈{0，1}⁽ⁿ⁺²⁾为一随机向量；

随机生成第二秘钥SK₁(M₁，M₂，S)，其中，M₁，M₂是两个大小为(n₁+2)×(n₁+2)的随机可逆矩阵，为一随机向量；

随机生成第三秘钥SK₁(N₁，N₂，T)，其中，N₁，N₂是两个大小为(n₂+2)×(n₂+2)的随机可逆矩阵，为一随机向量。

优选的，所述索引构建步骤具体包括：

根据所述原始关键字字典D分别将每个文档F中的关键字映射到长度为n的向量中，从而为每个文档F建立长度为n的原始索引向量I；

根据所述原始关键字字典D、所述关键字词干字典D₁以及所述映射表Map₁分别将每个文档F中的关键字映射到长度为n₁的向量中，从而为每个文档F建立长度为n₁的词干索引向量I₁；

根据所述原始关键字字典D、所述关键字词干字典D₁、所述关键字同义词字典D₂以及所述映射表Map₁、所述映射表Map₂分别将每个文档F中的关键字映射到长度为n₂的向量中，从而为每个文档F建立长度为n₂的同义词索引向量I₂。

优选的，所述索引构建步骤具体还包括：

利用预设算法分别对索引向量集合{I}、{I₁}、{I₂}进行聚类以得到各自聚类后的索引集合，其中，所述预设算法具体包括：

(1)将N个文档按照每个文档各自的权值总和从大到小进行排序，依次选取文档，计算每次选取的文档与已选取的的聚类中心的相关性得分，若相关性得分小于预设阈值T_h，则选为初始聚类中心C，直至所述初始聚类中心C数量达到预设值k；

(2)测量剩余的每个文档F到每个质心的距离，并归到最近的质心的类；

(3)重新计算已经得到的各个类的质心；

(4)迭代(2)～(3)步直至新的质心与原质心相等或小于指定阈值T_C。

优选的，所述数据加密步骤包括对所述原始索引向量I、所述词干索引向量I₁、所述同义词索引向量I₂分别进行加密，其中，对所述原始索引向量I加密的方法包括：

将I扩展至(n+2)维，其中第(n+1)维设置为随机值ε₁，第(n+2)维设置为1；

根据以下规则将所述原始索引向量I分裂为{I′，I″}：对于向量中的每个元素i_j∈I，i′_j∈I′，i″_j∈I″，r_j∈R，如果r_j＝1则设置i_j＝i′_j＝i″_j，否则设置δ₁为一随机数；

利用L₁，L₂将{I＇，I″}加密为{L₁ ^TI＇，L₂ ^TI″}，输出Enc(I)＝{L₁ ^TI′，L₂ ^TI″}，作为最终加密的原始索引向量I；

I₁其中，对所述词干索引向量I₁加密的方法包括：

将I₁扩展至(n₁+2)维，其中第(n₁+1)维设置为随机值ε₂，第(n₁+2)维设置为1；

根据以下规则将所述词干索引向量I₁分裂为{I₁＇，I₁″}：对于向量中的每个元素i_1j∈I₁，i′_1j∈I₁′，i″_1j∈I₁″，s_j∈S，如果s_j＝1则设置i_1j＝i′_1j＝i″_1j，否则设置 δ₂为一随机数；

利用M₁，M₂将{I₁＇，I₁″}加密为{M₁ ^TI₁′，M₂ ^TI₁″}，输出Enc(I₁)＝{M₁ ^TI₁＇，M₂ ^TI₁″}，作为最终加密的词干索引向量I₁；

I₂其中，对所述同义词索引向量I₂加密的方法包括：

将I₂扩展至(n₂+2)维，其中第(n₂+1)维设置为随机值ε₃，第(n₂+2)维设置为1；

根据以下规则将所述同义词索引向量I₂分裂为{I₂＇，I₂″}：对于向量中的每个元素i_2j∈I₂，i′_2j∈I₂＇，i″_2j∈I₂″，t_j∈T，如果t_j＝1则设置i_2j＝i′_2j＝i″_2j，否则设置 δ₃为一随机数；

利用N₁，N₂将{I₂′，I₂″}加密为{N₁ ^TI₂＇，N₂ ^TI₂″}，输出Enc(I₂)＝{N₁ ^TI₂′，N₂ ^TI₂″}，作为最终加密的同义词索引向量I₂；

将最终加密的原始索引向量I、最终加密的词干索引向量I₁、最终加密的同义词索引向量I₂这三种类型的加密索引向量及对应的密文上传至云端。

优选的，所述方法还包括：

检索阶段步骤，具体包括：

对用户提交的关键字集合进行预处理，替换掉不存在于所述原始关键字字典D的关键字，以生成可在所述原始关键字字典D中查到全部关键字的关键字集合；

根据用户的精度需求为用户生成相应的陷门从而实现不同类型的匹配策略；

根据用户不同的需求，利用向量内积公式对用户提交的陷门与相应的加密索引进行匹配计算并依照相关性得分进行排序，以及返回相应的结果给用户。

另一方面，本发明还提供一种数据加密装置，包括：

初始化模块，用于从数据中提取关键字集合，并建立原始关键字字典，进而建立相应的关键字词干字典和关键字同义词字典，并为所述原始关键字字典中的关键字建立用于字形模糊匹配的单词向量；

秘钥生成模块，用于根据多个字典生成相应的秘钥；

索引构建模块，用于根据字典与映射关系为每个文档建立索引向量，并进行聚类；

数据加密模块，用于对所述索引向量进行加密。

优选的，所述初始化模块具体用于：

优选的，所述秘钥生成模块具体用于：

优选的，所述索引构建模块具体用于：

优选的，所述索引构建模块具体还用于：

(3)重新计算已经得到的各个类的质心；

优选的，所述数据加密模块用于对所述原始索引向量I、所述词干索引向量I₁、所述同义词索引向量I₂分别进行加密，

其中，对所述原始索引向量I加密的方法包括：

根据以下规则将所述原始索引向量I分裂为{I＇，I″}：对于向量中的每个元素i_j∈I，i′_j∈I＇，i″_j∈I″，r_j∈R，如果r_j＝1则设置i_j＝i′_j＝i″_j，否则设置δ₁为一随机数；

利用L₁，L₂将{I＇，I″}加密为{L₁ ^TI＇，L₂ ^TI″}，输出Enc(I)＝{L₁ ^TI＇，L₂ ^TI″}，作为最终加密的原始索引向量I；

I₁其中，对所述词干索引向量I₁加密的方法包括：

根据以下规则将所述词干索引向量I₁分裂为{I₁＇，I₁″}：对于向量中的每个元素i_1j∈I₁，i′_1j∈I₁＇，i″_1j∈I₁″，s_j∈S，如果s_j＝1则设置i_1j＝i′_1j＝i″_1j，否则设置 δ₂为一随机数；

I₂其中，对所述同义词索引向量I₂加密的方法包括：

根据以下规则将所述同义词索引向量I₂分裂为{I₂′，I₂″}：对于向量中的每个元素i_2j∈I₂，i′_2j∈I₂′，i″_2j∈I₂″，t_j∈T，如果t_j＝1则设置i_2j＝i′_2j＝i″_2j，否则设置 δ₃为一随机数；

利用N₁，N₂将{I₂′，I₂″}加密为{N₁ ^TI₂′，N₂ ^TI₂″}，输出Enc(I₂)＝{N₁ ^TI₂′，N₂ ^TI₂″}，作为最终加密的同义词索引向量I₂；

此外，本发明还提供一种数据加密检索系统，包括：

上述任一项所述的数据加密装置；

用户端；

云端服务器；

其中，所述用户端将其需要检索的关键字通过安全信道提交给所述数据加密装置，所述数据加密装置根据所述用户端的语义精度需求为用户生成相应的陷门，然后由所述用户端提交给所述云端服务器，所述云端服务器收到所述用户端的陷门之后将会对密文进行检索并将检索的结果返回给所述用户端。

本发明与现有技术相比，有益效果在于：本发明的技术方案针对文档索引向量跨维度关键字间关系进行研究，利用关键字的词干提取、同义词组合并聚类等方式，实现关键字的语义近似匹配，同时提高检索结果文档的相关性以及检索的效率，具有更完善的功能和更高的效率。

附图说明

图1是本发明实施例提供的数据加密方法流程图；

图2是本发明实施例提供的数据加密装置结构示意图；

图3是本发明实施例提供的数据加密检索系统的应用结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请参阅图1，为本发明实施例提供的数据加密方法流程图。

在步骤S1中，从数据中提取关键字集合，并建立原始关键字字典，进而建立相应的关键字词干字典和关键字同义词字典，并为所述原始关键字字典中的关键字建立用于字形模糊匹配的单词向量。

在本实施例中，所述初始化步骤具体包括：

利用词干提取算法对所述关键字集合进行处理以得到关键字的词干，从而生成所述关键字词干字典D₁，并还原为关键字基础形态，同时生成所述原始关键字字典D与所述关键字词干字典D₁之间的映射表Map₁，其中，所述关键字词干字典D₁的长度为n₁；

对得到的关键字的词干的集合进行同义词组合处理，例如互为同义词的关键字只保留其中一个，从而生成所述关键字同义词字典D₂，同时生成所述原始关键字字典D与所述关键字同义词字典D₂之间的映射表Map₂，其中，所述关键字同义词字典D₂的长度为n₂；

为所述原始关键字字典D中的每个关键字建立单词向量wordVector，将每个关键字分别拆分为二元字母组合与一元字母组合，并映射到一个预设长度(例如为26*26+26*5)的向量wordVector中。

在本实施例中，词干提取算法为Porter stemming词干提取算法，当然也可以采用其它的算法，在此不做限定。

在步骤S2中，秘钥生成步骤：根据多个字典生成相应的秘钥。

在本实施例中，所述秘钥生成步骤具体包括：

在步骤S3中，索引构建步骤：根据字典与映射关系为每个文档建立索引向量，并进行聚类。

在本实施例中，索引构建步骤分成两个阶段，第一阶段是根据字典与映射关系生成索引向量，第二阶段是利用预设算法(例如改进的k-means聚类方法)分别对索引向量集合{I}、{I₁}、{I₂}进行聚类以得到各自聚类后的索引集合。

在本实施例中，第一阶段的所述索引构建步骤具体包括：

在本实施例中，第二阶段的所述索引构建步骤具体还包括：

利用预设算法分别对索引向量集合{I}、{I₁}、{I₂}进行聚类以得到各自聚类后的索引集合。

其中，所述预设算法为改进的k-means聚类方法，所述预设算法具体包括：

(3)重新计算已经得到的各个类的质心；

在步骤S4中，数据加密步骤：对所述索引向量进行加密。

在本实施例中，所述数据加密步骤包括对所述原始索引向量I进行加密，其中，加密方法包括：

根据以下规则将所述原始索引向量I分裂为{I′，I″}：对于向量中的每个元素i_j∈I，i′_j∈I＇，i″_j∈I″，r_j∈R，如果r_j＝1则设置i_j＝i′_j＝i″_j，否则设置δ₁为一随机数；

利用L₁，L₂将{I＇，I″}加密为{L₁ ^TI＇，L₂ ^TI″}，输出Enc(I)＝{L₁ ^TI＇，L₂ ^TI″}，作为最终加密的原始索引向量I。

在本实施例中，所述数据加密步骤包括对所述词干索引向量I₁进行加密，其中，加密方法包括：

利用M₁，M₂将{I₁＇，I₁″}加密为{M₁ ^TI₁＇，M₂ ^TI₁″}，输出Enc(I₁)＝{M₁ ^TI₁＇，M₂ ^TI₁″}，作为最终加密的词干索引向量I₁。

在本实施例中，所述数据加密步骤包括对所述同义词索引向量I₂进行加密，其中，加密方法包括：

利用N₁，N₂将{I₂′，I₂″}加密为{N₁ ^TI₂′，N₂ ^TI₂″}，输出Enc(I₂)＝{N₁ ^TI₂＇，N₂ ^TI₂″}，作为最终加密的同义词索引向量I₂；

此外，所述方法还包括：

检索阶段步骤，具体包括：

字形模糊匹配：对用户提交的关键字集合QuerySet进行预处理，替换掉不存在于所述原始关键字字典D的关键字，以生成可在所述原始关键字字典D中查到全部关键字的关键字集合QuerySet。其中，字形模糊匹配包括：(1)″生僻关键字″处理：若关键字k不存在于原始关键字字典D中，但该关键字的同义词k_w′存在于原始关键字字典D中，则认定该关键字为″生僻关键字″，将该″生僻关键字″的同义词k_w′替换掉原关键字k_w；(2)″误拼词汇″处理：若关键字k_w不存在于原始关键字字典D中，且该关键字的同义词k_w′也均不存在于原始关键字字典D中，则认定该关键字为″误拼词汇″，则为该关键字生成一个长度为26*26+26*5的单词向量wordVector，与原始关键字字典的单词向量计算欧式距离，获得最相近的关键字k_w″，从而替换掉原关键字k_w。

Trapdoor：该函数用于为用户提供的关键字集合QuerySet生成陷门，根据用户的精度需求为用户生成相应的陷门从而实现不同类型的匹配策略。具体包括：

(1)若用户的需求为精确匹配，则为用户生成对应于I的陷门Q；

1)将带查询的关键字依照原始关键字字典D映射到长度为n的精确查询向量Q中。

2)将Q扩展至(n+2)维，其中第(n+1)维设置为1，第(n+2)维设置为随机值t，然后前(n+1)维分别乘随机数u。

3)根据以下规则将精确查询向量Q分裂为{Q＇，Q″}：对于向量中的每个元素i_j∈Q，i′_j∈Q＇，i″_j∈Q″，r_j∈R，如果r_j＝0则设置i_j＝i′_j＝i″_j；否则设置δ₁＇为一随机数。

4)利用L₁，L₂将{Q＇，Q″}加密为{L₁ ^-1Q＇，L₂ ^-1Q″}，输出Tw＝Enc(Q)＝{L₁ ^-1Q＇，L₂ ^-1Q″}，作为最终加密的用于精确匹配的陷门。

(2)若用户的需求为检索关键字的相关衍生词，则为用户生成对应于I₁的陷门Q₁；

1)将带查询的关键字依照原始关键字字典D、关键字词干字典D₁以及映射关系Map₁映射到长度为n₁的词干查询向量Q₁中。

2)将Q₁扩展至(n₁+2)维，其中第(n₁+1)维设置为1，第(n₁+2)维设置为随机值t。然后前(n₁+1)维分别乘随机数u。

3)根据以下规则将衍生词查询向量Q₁分裂为{Q₁＇，Q₁″}：对于向量中的每个元素i_1j∈Q₁，i′_1j∈Q₁＇，i″_1j∈Q₁″，s_j∈S，如果s_j＝0则设置i_1j＝i′_1j＝i″_1j；否则设置 δ₂′为一随机数。

4)利用M₁，M₂将{Q₁＇，Q₁″}加密为{M₁ ^-1Q₁＇，M₂ ^-1Q₁″}，输出Tw＝Enc(Q₁)＝{M₁ ^-1Q₁＇，M₂ ^- ¹Q₁″}，作为最终加密的用于关键字衍生词匹配的陷门。

(3)若用户的需求为检索关键字的相关同义词，则为用户生成对应于I₂的陷门Q₂；

1)将带查询的关键字依照原始关键字字典D、关键字词干字典D₁、同义词字典D₂以及映射关系Map₁、Map₂，映射到长度为n₂的同义词查询向量Q₂中。

2)将Q₂扩展至(n₂+2)维，其中第(n₂+1)维设置为1，第(n₂+2)维设置为随机值t。然后前(n₂+1)维分别乘随机数u。

3)根据以下规则将同义词查询向量Q₂分裂为{Q₂′，Q₂″}：对于向量中的每个元素i_2j∈Q₂，i＇_2j∈Q₂′，i″_2j∈Q₂″，t_j∈T，如果t_j＝0则设置i_2j＝i′_2j＝i″_2j；否则设置 δ₃′为一随机数。

4)利用N₁，N₂将{Q₂′，Q₂″}加密为{N₁ ^-1Q₂′，N₂ ^-1Q₂″}，输出Tw＝Enc(Q₂)＝{N₁ ^-1Q₂′，N₂ ^- ¹Q₂″}，作为最终加密的用于关键字同义词匹配的陷门。

具体的，(1)云服务器确认用户的搜索需求，准备利用相应的加密索引进行匹配；(2)以精确匹配为例，计算Tw与各聚类中心的相关性得分RelevanceScore：

RelevanceScore

＝{L₁ ^TI′，L₂ ^TI″}{L₁ ^-1Q′，L₂ ^-1Q″}

＝I′·Q′+I″·Q″

＝I·Q

在得分最高的聚类簇内，再计算各文档与Tw的相关性得分RelevanceScore，根据得分结果进行排序，返回相应的结果给用户；(3)若是衍生词匹配与同义词匹配，也以同样的方式进行匹配。

请参阅图2，为本发明实施例提供的数据加密装置结构示意图。

在本实施例中，数据加密装置10具体包括初始化模块11、秘钥生成模块12、索引构建模块13、数据加密模块14。

初始化模块11，用于从数据中提取关键字集合，并建立原始关键字字典，进而建立相应的关键字词干字典和关键字同义词字典，并为所述原始关键字字典中的关键字建立用于字形模糊匹配的单词向量。

在本实施例中，所述初始化模块11具体用于：

利用预设算法对所述关键字集合进行处理以得到关键字的词干，从而生成所述关键字词干字典D₁，同时生成所述原始关键字字典D与所述关键字词干字典D₁之间的映射表Map₁，其中，所述关键字词干字典D₁的长度为n₁；

秘钥生成模块12，用于根据多个字典生成相应的秘钥。

在本实施例中，所述秘钥生成模块12具体用于：

索引构建模块13，用于根据字典与映射关系为每个文档建立索引向量，并进行聚类。

在本实施例中，所述索引构建模块13具体用于：

在本实施例中，所述索引构建模块13具体还用于：

其中，所述预设算法具体包括：

(3)重新计算已经得到的各个类的质心；

数据加密模块14，用于对所述索引向量进行加密。

在本实施例中，所述数据加密模块14用于对所述原始索引向量I进行加密，其中，加密方法包括：

利用L₁，L₂将{I′，I″}加密为{L₁ ^TI′，L₂ ^TI″}，输出Enc(I)＝{L₁ ^TI′，L₂ ^TI″}，作为最终加密的原始索引向量I。

在本实施例中，所述数据加密模块14还用于对所述词干索引向量I₁进行加密，其中，加密方法包括：

根据以下规则将所述词干索引向量I₁分裂为{I₁′，I₁″}：对于向量中的每个元素i_1j∈I₁，i′_1j∈I₁′，i″_1j∈I₁″，s_j∈S，如果s_j＝1则设置i_1j＝i′_1j＝i″_1j，否则设置 δ₂为一随机数；

利用M₁，M₂将{I₁′，I₁″}加密为{M₁ ^TI₁′，M₂ ^TI₁″}，输出Enc(I₁)＝{M₁ ^TI₁′，M₂ ^TI₁″}，作为最终加密的词干索引向量I₁。

在本实施例中，所述数据加密模块14还用于对所述同义词索引向量I₂进行加密，其中，加密方法包括：

此外，本发明还提供一种数据加密检索系统，所述系统包括：

如上任一项所述的数据加密装置；

用户端；

云端服务器；

其中，所述用户端将其需要检索的关键字通过安全信道提交给所述数据加密装置，所述数据加密装置根据所述用户端的语义精度需求为用户生成相应的陷门，然后由所述用户端提交给所述云服务器，所述云服务器收到所述用户端的陷门之后将会对密文进行检索并将检索的结果返回给所述用户端。

请参阅图3，为本发明实施例提供的数据加密检索系统的应用结构示意图。

本发明基于图3的架构进行拓展研究：首先，数据拥有者(即相当于数据加密检索系统中的数据加密装置)建立三种类型的字典，为原始关键字字典中的关键字添加单词向量用于字形模糊匹配，并为三种类型的字典建立映射关系，并以此为文档建立三种类型的索引结构，再对针对三种索引结构分别对文档进行聚类。然后，数据拥有者(即相当于数据加密检索系统中的数据加密装置)对索引和文档进行加密并上传至服务器(即相当于数据加密检索系统中的云端服务器)。当用户(即相当于数据加密检索系统中的用户端)想要检索服务器(即相当于数据加密检索系统中的云端服务器)文档时，先通过安全信道向数据拥有者(即相当于数据加密检索系统中的数据加密装置)提交待检索关键字，数据拥有者(即相当于数据加密检索系统中的数据加密装置)对待检索关键字进行预处理，将不存在于原始关键字字典中的单词进行同义词替换或模糊匹配，进而用与生成加密索引同样的方式为用户生成一个陷门返回给用户(即相当于数据加密检索系统中的用户端)。用户(即相当于数据加密检索系统中的用户端)将陷门通过公开信道发送到服务器，服务器(即相当于数据加密检索系统中的云端服务器)收到陷门之后，会对密文进行检索并将结果返回给用户(即相当于数据加密检索系统中的用户端)。

本发明提供的一种基于语义近似关键字排序搜索技术的数据加密方法及其装置、数据加密检索系统，针对文档索引向量跨维度关键字间关系进行研究，利用关键字的词干提取、同义词组合并聚类等方式，实现关键字的语义近似匹配，同时提高检索结果文档的相关性以及检索的效率，具有更完善的功能和更高的效率。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语″包括″、″包含″或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句″包括一个......″限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。为了描述的方便，描述以上装置是以功能分为各种单元/模块分别描述。当然，在实施本发明时可以把各单元/模块的功能在同一个或多个软件和/或硬件中实现。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种数据加密方法，其特征在于，所述方法包括：

秘钥生成步骤：根据多个字典生成相应的秘钥；

数据加密步骤：对所述索引向量进行加密。

2.如权利要求1所述的数据加密方法，其特征在于，所述初始化步骤具体包括：

3.如权利要求2所述的数据加密方法，其特征在于，所述秘钥生成步骤具体包括：

4.如权利要求3所述的数据加密方法，其特征在于，所述索引构建步骤具体包括：

根据所述原始关键字字典D、所述关键字词干字典D₁、所述关键字同义词字典D₂以及所述映射表Map₁、所述映射表Map₂分别将每个文档F中的关键字映射到长度为n₂的向量中，从而为每个文档F建立长度为n₂的同义词索引向量I₂；

(3)重新计算已经得到的各个类的质心；

5.如权利要求4所述的数据加密方法，其特征在于，所述数据加密步骤包括对所述原始索引向量I、所述词干索引向量I₁、所述同义词索引向量I₂分别进行加密，

其中，对所述原始索引向量I加密的方法包括：

利用L₁，L₂将{I′，I″}加密为{L₁ ^TI′，L₂ ^TI″}，输出Enc(I)＝{L₁ ^TI′，L₂ ^TI″}，作为最终加密的原始索引向量I；

I₁其中，对所述词干索引向量I₁加密的方法包括：

I₂其中，对所述同义词索引向量I₂加密的方法包括：

根据以下规则将所述同义词索引向量I₂分裂为{I₂＇，I₂″}：对于向量中的每个元素i_2j∈I₂，i′_2j∈I₂′，i″_2j∈I₂″，t_j∈T，如果t_j＝1则设置i_2j＝i′_2j＝i″_2j，否则设置 δ₃为一随机数；

利用N₁，N₂将{I₂＇，I₂″}加密为{N₁ ^TI₂′，N₂ ^TI₂″}，输出Enc(I₂)＝{N₁ ^TI₂＇，N₂ ^TI₂″}，作为最终加密的同义词索引向量I₂；

6.如权利要求5所述的数据加密方法，其特征在于，所述方法还包括：

检索阶段步骤，具体包括：

7.一种数据加密装置，其特征在于，所述装置包括：

秘钥生成模块，用于根据多个字典生成相应的秘钥；

数据加密模块，用于对所述索引向量进行加密。

8.如权利要求7所述的数据加密装置，其特征在于，所述初始化模块具体用于：

9.如权利要求8所述的数据加密装置，其特征在于，所述秘钥生成模块具体用于：

10.如权利要求9所述的数据加密装置，其特征在于，所述索引构建模块具体用于：

(3)重新计算已经得到的各个类的质心；

11.如权利要求10所述的数据加密装置，其特征在于，所述数据加密模块用于对所述原始索引向量I、所述词干索引向量I₁、所述同义词索引向量I₂分别进行加密，

其中，对所述原始索引向量I加密的方法包括：

根据以下规则将所述原始索引向量I分裂为{I＇，I″}：对于向量中的每个元素i_j∈I，i′_j∈I′，i″_j∈I″，r_j∈R，如果r_j＝1则设置i_j＝i′_j＝i″_j，否则设置δ₁为一随机数；

I₁其中，对所述词干索引向量I₁加密的方法包括：

利用M₁，M₂将{I₁＇，I₁″}加密为{M₁ ^TI₁＇，M₂ ^TI₁″}，输出Enc(I₁)＝{M₁ ^TI₁′，M₂ ^TI₁″}，作为最终加密的词干索引向量I₁；

I₂其中，对所述同义词索引向量I₂加密的方法包括：

根据以下规则将所述同义词索引向量I₂分裂为{I₂＇，I₂″}：对于向量中的每个元素i_2j∈I₂，i＇_2j∈I₂＇，i″_2j∈I₂″，t_j∈T，如果t_j＝1则设置i_2j＝i′_2j＝i″_2j，否则设置 δ₃为一随机数；

利用N₁，N₂将{I₂′，I₂″}加密为{N₁ ^TI₂＇，N₂ ^TI₂″}，输出Enc(I₂)＝{N₁ ^TI₂＇，N₂ ^TI₂″}，作为最终加密的同义词索引向量I₂；

12.一种数据加密检索系统，其特征在于，所述系统包括：

如权利要求7-11任一项所述的数据加密装置；

用户端；

云端服务器；