CN109165520B

CN109165520B - 数据加密方法及其装置、数据加密检索系统

Info

Publication number: CN109165520B
Application number: CN201810779496.5A
Authority: CN
Inventors: 陈建铭; 张文豪; 吴祖扬; 王景行
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2018-07-16
Filing date: 2018-07-16
Publication date: 2020-08-11
Anticipated expiration: 2038-07-16
Also published as: CN109165520A

Abstract

本发明适用于数据加密领域，提供了一种基于语义近似关键字排序搜索技术的数据加密方法及其装置、数据加密检索系统，具有更完善的功能和更高的效率，该方法包括：初始化步骤：从数据中提取关键字集合并建立关键字原始字典，根据所述关键字原始字典建立相应的关键字词干字典与同义词字典；秘钥生成步骤：根据所述关键字词干字典与同义词字典生成相应的秘钥；索引构建步骤：根据字典与映射关系为每个文档建立索引向量，并进行聚类；数据加密步骤：对所述索引向量进行加密。

Description

数据加密方法及其装置、数据加密检索系统

技术领域

本发明属于数据加密领域，尤其涉及一种语义近似关键字排序搜索技术的数据加密方法及其装置、数据加密检索系统。

背景技术

随着云服务的普及，越来越多敏感信息被外包给云，这些存储在云上的数据需要被加密。然而，云端数据不在企业及个人用户的监管中，因此为了防止隐私信息泄露，数据在上传至云端之前需要进行加密。这就产生了一个新的问题：当数据使用者想要检索云端数据时，云服务器因为无法解密数据因此无法做出回应。

针对这个问题，许多学者提出了大量的解决方案。但在目前的很多研究中，现有的使用关键字排序搜索技术在搜索功能方面的改进相对欠佳，有较大的开拓空间。在以MRSE为基础的研究方案中，文档索引向量不同维度所代表的关键字间存在近似关系，如同一单词有不同的衍生词(单复数，时态变化等)、同义词等，而现有方案均忽略了这样的关系，导致了现有方案中的功能不完善且效率较低，而且目前尚无针对文档索引向量不同维度所代表的关键字间的关系的研究。

发明内容

本发明所要解决的技术问题为完善针对云端数据的搜索功能以及提高对数据的搜索效率，使其具有更完善的功能和更高的效率。

为解决上述技术问题，本发明是这样实现的，一种数据加密方法，包括：

初始化步骤：从数据中提取关键字集合并建立关键字原始字典，根据所述关键字原始字典建立相应的关键字词干字典与同义词字典；

秘钥生成步骤：根据所述关键字词干字典与同义词字典生成相应的秘钥；

索引构建步骤：根据字典与映射关系为每个文档建立索引向量，并进行聚类；

数据加密步骤：对所述索引向量进行加密。

优选的，所述初始化步骤具体包括：

根据所述关键字集合生成关键字原始字典D，其中，所述关键字原始字典D的长度为n；

利用词干提取算法对所述关键字集合进行处理以得到关键字的词干，从而生成所述关键字词干字典D₁，同时生成所述关键字原始字典D与所述关键字词干字典D₁之间的映射表Map₁，其中，所述关键字词干字典D₁的长度为n₁；

对得到关键字的词干的集合使用同义词组合处理从而生成关键字同义词字典D₂，同时生成所述关键字同义词字典D₂与所述关键字词干字典D₁之间的映射表Map₂，其中，所述关键字同义词字典D₂的长度为n₂。

优选的，所述秘钥生成步骤具体包括：

随机生成第一秘钥SK₁(L₁，L₂，R)，其中，L₁，L₂是两个大小为(n+2)×(n+2)的随机可逆矩阵，R∈{0，1}⁽ⁿ⁺²⁾为一随机向量；

随机生成第二秘钥SK₁(M₁，M₂，S)，其中，M₁，M₂是两个大小为(n₁+2)×(n₁+2)的随机可逆矩阵，

为一随机向量；

随机生成第三秘钥SK₁(N₁，N₂，T)，其中，N₁，N₂是两个大小为(n₂+2)×(n₂+2)的随机可逆矩阵，

为一随机向量。

优选的，所述索引构建步骤具体包括：

根据所述关键字原始字典D分别将每个文档F中的关键字映射到长度为n的向量中，从而为每个文档F建立长度为n的原始索引向量I；

根据所述关键字原始字典D、所述关键字词干字典D₁以及所述映射表Map₁分别将每个文档F中的关键字映射到长度为n₁的向量中，从而为每个文档F建立长度为n₁的词干索引向量I₁；

根据所述关键字原始字典D、所述关键字词干字典D₁、所述关键字同义词字典D₂以及所述映射表Map₁、所述映射表Map₂分别将每个文档F中的关键字映射到长度为n₂的向量中，从而为每个文档F建立长度为n₂的同义词索引向量I₂。

优选的，所述索引构建步骤具体还包括：

利用预设算法分别对索引向量集合{I}、{I₁}、{I₂}进行聚类以得到各自聚类后的索引集合，其中，所述预设算法具体包括：

(1)将N个文档按照每个文档各自的权值总和从大到小进行排序，依次选取文档，计算每次选取的文档与已选取的的聚类中心的相关性得分，若相关性得分小于预设阈值T_h，则选为初始聚类中心C，直至所述初始聚类中心C数量达到预设值k；

(2)测量剩余的每个文档F到每个质心的距离，并归到最近的质心的类；

(3)重新计算已经得到的各个类的质心；

(4)迭代(2)～(3)步直至新的质心与原质心相等或小于指定阈值T_C。

优选的，所述数据加密步骤包括对所述原始索引向量I、所述词干索引向量I₁、所述同义词索引向量I₂分别进行加密，

其中，对所述原始索引向量I加密的方法包括：

将I扩展至(n+2)维，其中第(n+1)维设置为随机值ε₁，第(n+2)维设置为1；

根据以下规则将所述原始索引向量I分裂为{I′，I″}：对于向量中的每个元素i_j∈I，i_j′∈I′，i_j″∈I″，r_j∈R，如果r_j＝1则设置i_j＝i′_j＝i″_j，否则设置

δ₁为一随机数；

利用L₁，L₂将{I′，I″}加密为{L₁ ^TI′，L₂ ^TI″}，输出Enc(I)＝{L₁ ^TI′，L₂ ^TI″}，作为最终加密的原始索引向量I；

其中，对所述词干索引向量I₁加密的方法包括：

将I₁扩展至(n₁+2)维，其中第(n₁+1)维设置为随机值ε₂，第(n₁+2)维设置为1；

根据以下规则将所述词干索引向量I₁分裂为{I₁′，I₁″}：对于向量中的每个元素i_1j∈I₁，i′_1j∈I₁′，i″_1j∈I₁″，s_j∈S，如果s_j＝1则设置i_1j＝i′_1j＝i″_1j，否则设置

δ₂为一随机数；

利用M₁，M₂将{I₁′，I₁″}加密为{M₁ ^TI₁′，M₂ ^TI₁″}，输出Enc(I₁)＝{M₁ ^TI₁′，M₂ ^TI₁″}，作为最终加密的词干索引向量I₁；

其中，对所述同义词索引向量I₂加密的方法包括：

将I₂扩展至(n₂+2)维，其中第(n₂+1)维设置为随机值ε₃，第(n₂+2)维设置为1；

根据以下规则将所述同义词索引向量I₂分裂为{I₂′，I₂″}：对于向量中的每个元素i_2j∈I₂，i′_2j∈I₂′，i″_2j∈I₂″，t_j∈T，如果t_j＝1则设置i_2j＝i′_2j＝i″_2j，否则设置

δ₃为一随机数；

利用N₁，N₂将{I₂′，I₂″}加密为{N₁ ^TI₂′，N₂ ^TI₂″}，输出Enc(I₂)＝{N₁ ^TI₂′，N₂ ^TI₂″}，作为最终加密的同义词索引向量I₂；

将最终加密的原始索引向量I、最终加密的词干索引向量I₁、最终加密的同义词索引向量I₂这三种类型的加密索引向量及对应的密文上传至云端。

优选的，所述方法还包括：

检索阶段步骤：接收用户需要检索关键字的需求，根据不同需求为用户生成相应的陷门从而实现不同类型的匹配策略，并根据用户不同的需求，利用向量内积公式对用户提交的陷门与相应的加密索引进行匹配计算并依照相关性得分进行排序，以及返回相应的结果给用户。

本发明还提供了一种数据加密装置，所述装置包括：

初始化模块，用于从数据中提取关键字集合并建立关键字原始字典，根据所述关键字原始字典建立相应的关键字词干字典与同义词字典；

秘钥生成模块，用于根据所述关键字词干字典与同义词字典生成相应的秘钥；

索引构建模块，用于根据字典与映射关系为每个文档建立索引向量，并进行聚类；

数据加密模块，用于对所述索引向量进行加密。

优选的，所述初始化模块具体用于：

优选的，所述秘钥生成模块具体用于：

为一随机向量；

为一随机向量。

优选的，所述索引构建模块具体用于：

优选的，所述索引构建模块具体还用于：

(3)重新计算已经得到的各个类的质心；

优选的，所述数据加密模块用于对所述原始索引向量I、所述词干索引向量I₁、所述同义词索引向量I₂分别进行加密，

其中，对所述原始索引向量I加密的方法包括：

根据以下规则将所述原始索引向量I分裂为{I′，I″}：对于向量中的每个元素i_j∈I，i′_j∈I′，i″_j∈I″，r_j∈R，如果r_j＝1则设置i_j＝i′_j＝i″_j，否则设置

δ₁为一随机数；

其中，对所述词干索引向量I₁加密的方法包括：

δ₂为一随机数；

其中，对所述同义词索引向量I₂加密的方法包括：

δ₃为一随机数；

另外，本发明还提供了一种数据加密检索系统，所述系统包括：

如上任一项所述的数据加密装置；

用户端；

云端服务器；

其中，所述用户端将其需要检索的关键字通过安全信道提交给所述数据加密装置，所述数据加密装置根据所述用户端的语义精度需求为用户生成相应的陷门，然后由所述用户端提交给所述云服务器，所述云服务器收到所述用户端的陷门之后将会对密文进行检索并将检索的结果返回给所述用户端。

本发明与现有技术相比，有益效果在于：本发明的技术方案针对文档索引向量跨维度关键字间关系进行研究，利用关键字的词干提取、同义词组合并聚类等方式，实现关键字的语义近似匹配，同时提高检索结果文档的相关性以及检索的效率，具有更完善的功能和更高的效率。

附图说明

图1是本发明实施例提供的数据加密方法流程图；

图2是本发明实施例提供的数据加密装置结构示意图；

图3是本发明实施例提供的数据加密检索系统的应用结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请参阅图1，为本发明实施例提供的数据加密方法流程图。

在步骤S1中，初始化步骤：从数据中提取关键字集合并建立关键字原始字典，根据所述关键字原始字典建立相应的关键字词干字典与同义词字典。

在本实施例中，所述初始化步骤具体包括：

利用词干提取算法对所述关键字集合进行处理以得到关键字的词干，从而生成所述关键字词干字典D₁，并还原为关键字基础形态，同时生成所述关键字原始字典D与所述关键字词干字典D₁之间的映射表Map₁，其中，所述关键字词干字典D₁的长度为n₁；

对得到关键字的词干的集合使用同义词组合处理，例如互为同义词的关键字只保留其中一个，从而生成关键字同义词字典D₂，同时生成所述关键字同义词字典D₂与所述关键字词干字典D₁之间的映射表Map₂，其中，所述关键字同义词字典D₂的长度为n₂。

在本实施例中，词干提取算法为Porter stemming词干提取算法，当然也可以采用其它的算法，在此不做限定。

在步骤S2中，秘钥生成步骤：根据所述关键字词干字典与同义词字典生成相应的秘钥。

在本实施例中，所述秘钥生成步骤具体包括：

为一随机向量；

为一随机向量。

在步骤S3中，索引构建步骤：根据字典与映射关系为每个文档建立索引向量，并进行聚类。

在本实施例中，索引构建步骤分成两个阶段，第一阶段是根据字典与映射关系生成索引向量，第二阶段是利用预设算法(例如改进的k-means聚类方法)分别对索引向量集合{I}、{I₁}、{I₂}进行聚类以得到各自聚类后的索引集合。

在本实施例中，第一阶段的所述索引构建步骤具体包括：

在本实施例中，第二阶段的所述索引构建步骤具体还包括：

利用预设算法分别对索引向量集合{I}、{I₁}、{I₂}进行聚类以得到各自聚类后的索引集合。

其中，所述预设算法为改进的k-means聚类方法，所述预设算法具体包括：

(3)重新计算已经得到的各个类的质心；

在步骤S4中，数据加密步骤：对所述索引向量进行加密。

在本实施例中，所述数据加密步骤包括对所述原始索引向量I进行加密，其中，加密方法包括：

δ₁为一随机数；

利用L₁，L₂将{I′，I″}加密为{L₁ ^TI′，L₂ ^TI″}，输出Enc(I)＝{L₁ ^TI′，L₂ ^TI″}，作为最终加密的原始索引向量I。

在本实施例中，所述数据加密步骤包括对所述词干索引向量I₁进行加密，其中，加密方法包括：

根据以下规则将所述词干索引向量I₁分裂为{I₁′，I₁″}：对于向量中的每个元素i_1j∈I₁，i＇_1j∈I₁′，i″_1j∈I₁″，s_j∈S，如果s_j＝1则设置i_1j＝i＇_1j＝i″_1j，否则设置

δ₂为一随机数；

利用M₁，M₂将{I₁′，I₁″}加密为{M₁ ^TI₁′，M₂ ^TI₁″}，输出Enc(I₁)＝{M₁ ^TI₁′，M₂ ^TI₁″}，作为最终加密的词干索引向量I₁。

在本实施例中，所述数据加密步骤包括对所述同义词索引向量I₂进行加密，其中，加密方法包括：

根据以下规则将所述同义词索引向量I₂分裂为{I₂′，I₂″}：对于向量中的每个元素i_2j∈I₂，i′_2j∈I₂′，i″_2j∈I₂″，t_j∈T，如果t_j＝1则设置i_2j＝i′_2j＝i″_2j哟，否则设置

δ₃为一随机数；

此外，所述方法还包括：

若用户的需求为精确匹配，则为用户生成对应于I的陷门，此时的检索阶段步骤具体包括：

1)将带查询的关键字依照所述关键字原始字典D映射到长度为n的精确查询向量Q中；

2)将Q扩展至(n+2)维，其中第(n+1)维设置为1，第(n+2)维设置为随机值t，然后前(n+1)维分别乘随机数u；

3)根据以下规则将精确查询向量Q分裂为{Q′，Q″}：对于向量中的每个元素i_j∈Q，i′_j∈Q′，i″_j∈Q″，r_j∈R，如果r_j＝0则设置i_j＝i＇_j＝i″_j，否则设置

δ₁′为一随机数；

4)利用L₁，L₂将{Q′，Q″}加密为{L₁ ^-1Q′，L₂ ^-1Q″}，输出T_w＝Enc(Q)＝{L₁ ^-1Q′，L₂ ^-1Q″}，作为最终加密的用于精确匹配的陷门。

若用户的需求为检索关键字的相关衍生词，则为用户生成对应于I₁的陷门，此时的检索阶段步骤具体包括：

1)将带查询的关键字依照所述关键字原始字典D、所述关键字词干字典D₁以及所述映射表Map₁映射到长度为n₁的词干查询向量Q₁中；

2)将Q₁扩展至(n₁+2)维，其中第(n₁+1)维设置为1，第(n₁+2)维设置为随机值t，然后前(n₁+1)维分别乘随机数u；

3)根据以下规则将词干查询向量Q₁分裂为{Q₁′，Q₁″}：对于向量中的每个元素i_1j∈Q₁，i＇_1j∈Q₁′，i″_1j∈Q₁″，s_j∈S，如果s_j＝0则设置i_1j＝i＇_1j＝i″1_j，否则设置

δ₂′为一随机数；

4)利用M₁，M₂将{Q₁′，Q₁″}加密为{M₁ ^-1Q₁′，M₂ ^-1Q₁″}，输出T_w＝Enc(Q₁)＝{M₁ ^-1Q₁′，M₂ ^- ¹Q₁″}，作为最终加密的用于关键字衍生词匹配的陷门。

若用户的需求为检索关键字的相关同义词，则为用户生成对应于I₂的陷门，此时的检索阶段步骤具体包括：

1)将带查询的关键字依照所述关键字原始字典D、所述关键字词干字典D₁、所述关键字同义词字典D₂以及所述映射表Map₁、所述映射表Map₂映射到长度为n₂的同义词查询向量Q₂中；

2)将Q₂扩展至(n₂+2)维，其中第(n₂+1)维设置为1，第(n₂+2)维设置为随机值t，然后前(n₂+1)维分别乘随机数u；

3)根据以下规则将同义词查询向量Q₂分裂为{Q₂′，Q₂″}：对于向量中的每个元素i_2j∈Q₂，i′_2j∈Q₂′，i″_2j∈Q₂″，t_j∈T，如果t_j＝0则设置i_2j＝i′_2j＝i″_2j；否则设置

δ₃′为一随机数；

4)利用N₁，N₂将{Q₂′，Q₂″}加密为{N₁ ^-1Q₂′，N₂ ^-1Q₂″}，输出T_w＝Enc(Q₂)＝{N₁ ^-1Q₂′，N₂ ^- ¹Q₂″}，作为最终加密的用于关键字同义词匹配的陷门。

此外，检索阶段步骤中的“根据用户不同的需求，利用向量内积公式对用户提交的陷门与相应的加密索引进行匹配计算并依照相关性得分进行排序，以及返回相应的结果给用户”具体包括：

(1)云服务器确认用户的搜索需求，准备利用相应的加密索引进行匹配；

(2)以精确匹配为例，计算T_w与各聚类中心的相关性得分RelevanceScore：

RelevanceScore

＝{L₁ ^TI′，L₂ ^TI″}{L₁ ^-1Q′，L₂ ^-1Q″}

＝I′·Q′+I″·Q″

＝I·Q

在得分最高的聚类簇内，再计算各文档与T_w的相关性得分RelevanceScore，根据得分结果进行排序，返回相应的结果给用户；

(3)若是衍生词匹配与同义词匹配，也以同样的方式进行匹配。

请参阅图2，为本发明实施例提供的数据加密装置结构示意图。

在本实施例中，数据加密装置10具体包括初始化模块11、秘钥生成模块12、索引构建模块13、数据加密模块14。

初始化模块11，用于从数据中提取关键字集合并建立关键字原始字典，根据所述关键字原始字典建立相应的关键字词干字典与同义词字典。

在本实施例中，所述初始化模块11具体用于：

秘钥生成模块12，用于根据所述关键字词干字典与同义词字典生成相应的秘钥。

在本实施例中，所述秘钥生成模块12具体用于：

为一随机向量；

为一随机向量。

索引构建模块13，用于根据字典与映射关系为每个文档建立索引向量，并进行聚类。

在本实施例中，所述索引构建模块13具体用于：

在本实施例中，所述索引构建模块13具体还用于：

(3)重新计算已经得到的各个类的质心；

数据加密模块14，用于对所述索引向量进行加密。

在本实施例中，所述数据加密模块14用于对所述原始索引向量I进行加密，其中，加密方法包括：

δ₁为一随机数；

在本实施例中，所述数据加密模块14还用于对所述词干索引向量I₁进行加密，其中，加密方法包括：

δ₂为一随机数；

在本实施例中，所述数据加密模块14还用于对所述同义词索引向量I₂进行加密，其中，加密方法包括：

δ₃为一随机数；

此外，本发明还提供一种数据加密检索系统，所述系统包括：

如上任一项所述的数据加密装置；

用户端；

云端服务器；

请参阅图3，为本发明实施例提供的数据加密检索系统的应用结构示意图。

本发明基于图3的架构进行拓展研究：首先，数据拥有者(即相当于数据加密检索系统中的数据加密装置)建立三种类型的字典，并为三种类型的字典建立映射关系，并以此为文档建立三种类型的索引结构，再对针对三种索引结构分别对文档进行聚类。然后，数据拥有者(即相当于数据加密检索系统中的数据加密装置)对索引和文档进行加密并上传至云端(即相当于数据加密检索系统中的云端服务器)。当用户(即相当于数据加密检索系统中的用户端)想要检索云端(即相当于数据加密检索系统中的云端服务器)文档时，先通过安全信道向数据拥有者(即相当于数据加密检索系统中的数据加密装置)提交待检索关键字，数据拥有者(即相当于数据加密检索系统中的数据加密装置)用与生成加密索引同样的方式为用户生成一个陷门返回给用户(即相当于数据加密检索系统中的用户端)。用户(即相当于数据加密检索系统中的用户端)将陷门通过公开信道发送到云服务器，云服务器(即相当于数据加密检索系统中的云端服务器)收到陷门之后，会对密文进行检索并将结果返回给用户(即相当于数据加密检索系统中的用户端)。

本发明提供的一种基于语义近似关键字排序搜索技术的数据加密方法及其装置、数据加密检索系统，针对文档索引向量跨维度关键字间关系进行研究，利用关键字的词干提取、同义词组合并聚类等方式，实现关键字的语义近似匹配，同时提高检索结果文档的相关性以及检索的效率，具有更完善的功能和更高的效率。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。为了描述的方便，描述以上装置是以功能分为各种单元/模块分别描述。当然，在实施本发明时可以把各单元/模块的功能在同一个或多个软件和/或硬件中实现。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种数据加密方法，其特征在于，所述方法包括：

数据加密步骤：对所述索引向量进行加密；且

其中，所述初始化步骤具体包括：

对得到关键字的词干的集合使用同义词组合处理从而生成关键字同义词字典D₂，同时生成所述关键字同义词字典D₂与所述关键字词干字典D₁之间的映射表Map₂，其中，所述关键字同义词字典D₂的长度为n₂，

其中，所述秘钥生成步骤具体包括：

为一随机向量；

为一随机向量，

其中，所述索引构建步骤具体包括：

根据所述关键字原始字典D分别将每个文档F中的关键字映射到长度为n的向量中，从而为每个文档F建立长度为n的原始索引向量I，利用预设算法对索引向量集合{I}进行聚类以得到聚类后的索引集合；

根据所述关键字原始字典D、所述关键字词干字典D₁以及所述映射表Map₁分别将每个文档F中的关键字映射到长度为n₁的向量中，从而为每个文档F建立长度为n₁的词干索引向量I₁，利用预设算法对索引向量集合{I₁}进行聚类以得到聚类后的索引集合；

根据所述关键字原始字典D、所述关键字词干字典D₁、所述关键字同义词字典D₂以及所述映射表Map₁、所述映射表Map₂分别将每个文档F中的关键字映射到长度为n₂的向量中，从而为每个文档F建立长度为n₂的同义词索引向量I₂；

利用预设算法对索引向量集合{I₂}进行聚类以得到聚类后的索引集合，

其中，所述预设算法具体包括：

(3)重新计算已经得到的各个类的质心；

2.如权利要求1所述的数据加密方法，其特征在于，所述数据加密步骤包括对所述原始索引向量I、所述词干索引向量I₁、所述同义词索引向量I₂分别进行加密，

其中，对所述原始索引向量I加密的方法包括：

根据以下规则将所述原始索引向量I分裂为{I’，I”}：对于向量中的每个元素i_j∈I，i’_j∈I’，i”_j∈I”，r_j∈R，如果r_j＝1则设置i_j＝i’_j＝i”_j，否则设置

δ₁为一随机数；

利用L₁，L₂将{I’，I”}加密为{L₁ ^TI’，L₂ ^TI”}，输出Enc(I)＝{L₁ ^TI’，L₂ ^TI”}，作为最终加密的原始索引向量I；

其中，对所述词干索引向量I₁加密的方法包括：

将1₁扩展至(n₁+2)维，其中第(n₁+1)维设置为随机值ε₂，第(n₁+2)维设置为1；

δ₂为一随机数；

其中，对所述同义词索引向量I₂加密的方法包括：

根据以下规则将所述同义词索引向量I₂分裂为{I₂′，I₂″}：对于向量中的每个元素i_2j∈1₂，i′_2j∈I₂′，i″_2j∈I₂″，t_j∈T，如果t_j＝1则设置i_2j＝i′_2j＝i″_2j，否则设置

δ₃为一随机数；

3.如权利要求2所述的数据加密方法，其特征在于，所述方法还包括：

4.一种数据加密装置，其特征在于，所述装置包括：

数据加密模块，用于对所述索引向量进行加密；且其中，所述初始化模块具体用于：

其中，所述秘钥生成模块具体用于：

为一随机向量；

为一随机向量，

其中，所述索引构建模块具体用于：

(3)重新计算已经得到的各个类的质心；

5.如权利要求4所述的数据加密装置，其特征在于，所述数据加密模块用于对所述原始索引向量I、所述词干索引向量I₁、所述同义词索引向量I₂分别进行加密，

其中，对所述原始索引向量I加密的方法包括：

δ₁为一随机数；

其中，对所述词干索引向量I₁加密的方法包括：

根据以下规则将所述词干索引向量I₁分裂为{I₁′，I₁″}：对于向量中的每个元素i_1j∈I₁，i′_1j∈I₁′，i″_1j∈1₁″，s_j∈S，如果s_j＝1则设置i_1j＝i′_1j＝i″_1j，否则设置

δ₂为一随机数；

其中，所述同义词索引向量I₂加密的方法包括：

根据以下规则将所述同义词索引向量I₂分裂为{I₂′，I₂″}：对于向量中的每个元素i_2j∈I₂，i′_2j∈I₂′，i″_2j∈I₂″，tj∈T，如果tj＝1则设置i_2j＝i′_2j＝i″_2j，否则设置

6₃为一随机数；

6.一种数据加密检索系统，其特征在于，所述系统包括：

如权利要求4或5所述的数据加密装置；

用户端；

云端服务器；

其中，所述用户端将其需要检索的关键字通过安全信道提交给所述数据加密装置，所述数据加密装置根据所述用户端的语义精度需求为用户生成相应的陷门，然后由所述用户端提交给所述云端服务器，所述云端服务器收到所述用户端的陷门之后将会对密文进行检索并将检索的结果返回给所述用户端。