CN111400624A

CN111400624A - 一种多功能排序系统

Info

Publication number: CN111400624A
Application number: CN202010185764.8A
Authority: CN
Inventors: 李展杨
Original assignee: Guangdong Power Grid Co Ltd; Dongguan Power Supply Bureau of Guangdong Power Grid Co Ltd
Current assignee: Guangdong Power Grid Co Ltd; Dongguan Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date: 2020-03-17
Filing date: 2020-03-17
Publication date: 2020-07-10

Abstract

本发明公开了一种多功能排序系统及方法，包括：数据采集模块：用于采集电网主控检索系统内部的数据信息；加密模块：用于对采集的数据信息进行加密处理；索引单元：利用系统设定的索引信息对文件加密模块和索引加密模块的数据集合进行预处理，提取所有文件中的关键字，并生成校验码发送给查询用户；用户查询模块：通过用户查询模块发送给数据拥有者，并接收查询码，提交给云服务器。系统通过改进深度优先搜索算法加速密文索引建立，使得排序系统能够在任何情况下都能够保持高性能搜索，通过树形索引引入中间节点作为搜索的约束条件，不仅提高了搜索性能，还通过向量模型引入随机元素确定了相似度，实现了排序功能。

Description

一种多功能排序系统

技术领域

本发明涉及互联网搜索排序技术领域，具体涉及一种多功能排序系统。

背景技术

随着智能终端和移动互联网的发展，许多用户倾向于将数据存储在云端，云环境中的数据量越来越大，数据信息量也随之提高，，甚至有些单位为了保护数据拥有者的隐私，这些数据应该加密后再外包给云服务器，然而传统的加密会导致文本数据难以搜索，为了解决密文域上信息检索排序的问题，近几年提出了很多关于可搜索加密的研究方案。

在国家电网系统上，为了通知不同地市单位以及相关人员信息，需要将人员名称和单位名称一并列在通知书上面，由于每个单位都要按照电网主控系统上的排序进行排序，导致工作人员每次发电网通知的时候，需要重新将单位进行排序一次，降低了工作效率。

现有的电网主控检索系统主要存在以下几个缺陷：

(1)现有电网系统上为了在云环境下保护本单位的数据隐私，虽然使用了单关键字、相似度等的可搜索排序方案，但其缺陷在于需要重复搜索多次才能达到多关键字搜索的效果，缺乏语义搜索功能，索引不够高效；

(2)其次，在电网检索排序系统上，算法性能太低，密钥存储开销较大，导致搜索排序效率较大，无法用于云环境下的大数据海量信息检索。

发明内容

为此，本发明提供一种多功能排序系统，通过改进深度优先搜索算法加速密文索引建立，使得排序系统能够在任何情况下都能够保持高性能搜索，通过树形索引引入中间节点作为搜索的约束条件，不仅提高了搜索性能，还通过向量模型引入随机元素，从而确定相似度，实现了排序功能。

为了实现上述目的，本发明提供如下技术方案：

一种多功能排序系统，包括：

数据采集模块：用于采集电网主控检索系统内部的数据信息；

加密模块：内置有两个加密子模块，分别为文件加密模块和索引加密模块，用于对采集的数据信息进行加密处理；

索引单元：利用系统设定的索引信息对文件加密模块和索引加密模块的数据集合进行预处理，提取所有文件中的关键字，并生成校验码发送给查询用户；

用户查询模块：通过用户查询模块发送给数据拥有者，并接收查询码，提交给云服务器。

作为本发明的一种优选方案，所述云服务器的内部设置有云服务器存储模块和云服务器搜索模块：

所述云服务器存储模块将数据拥有者加密后的文件以及密文索引上传至云服务器，交由存储模块进行存储；所述云服务器搜索模块在查询用户上传查询码后，云服务器搜索模块提取密文索引和用户查询陷门执行相关运算，返回搜索结果给查询用户。

在本发明实施例的第二个方面，提供了一种多功能排序方法，包括如下步骤：

S01、通过数据采集模块采集用户输入的数据信息，并生成相应的电网数据集；

S02、利用加密算法对电网数据进行加密处理并生成相关索引码；

S03、根据索引码对文件加密算法以及索引生成算法输出的数据集合进行预处理，提取数据集合的关键字及校验码；

S04、通过搜索用户并将提取到的关键字提交到用户端，利用陷门生成算法产生查询陷门通过校验码核对用户提交的关键字；

S05、将校验码的反馈结果作为用户端查询码，同步云服务器。

作为本发明的一种优选方案，所述步骤S01中根据用户输入的明文向量文件以及明文查询向量的数据集合U建立密文索引量Ι和私钥陷门信息T_ω。

作为本发明的一种优选方案，根据所述密文索引量Ι和私钥陷门信息T_ω构建选择向量S和随机选择矩阵M，同时将私钥陷门信息T_ω构建为三元组形式{T，M₁，M₂}。

作为本发明的一种优选方案，所述S03中索引生成算法包括以下步骤：

S031、所述随机选择矩阵M设置为每一个文件产生二进制的文件向量D_m；

S0312、将选择向量S的第(n+j+1)维度值设置为随机值ε^j，其中j∈[1，U]；

S0313、根据所述私钥陷门信息T_ω中的私钥向量T[i]的值将所述文件向量D_m[i]对应的位的值划分成两个相等的数或者随机数，划分后的两个向量进过计算生成该文件的密文索引I′；

S0314、将该密文索引输入到数据采集模块，校验用户输入信息。

作为本发明的一种优选方案，所述S04中陷门生成算法主要根据所述密文索引I′执行以下步骤：

S041、将用户提交索引的多个关键字作为输入，利用关键字产生查询向量W；

S042、把查询向量W拓展至U+1维度保持与文件向量D_m维度一致；

S043、将查询向量W乘以一个随机数r后对查询向量W进行切分，并根据所述私钥向量T[i]的值将所述W[i]对应的位的值划分成两个随机数或者两个相等的数；

S044、最后对切分后的查询向量W生成查询陷门T′_ω。

作为本发明的一种优选方案，将根据用户输入信息得到的所述查询陷门T′_ω通过安全信道发送到云服务器，云服务器使用查询陷门T′_ω、密文索引I′以及用户设置的参数k执行向量内积运算，得出文档的相似度值并排序，返回相似度最高的k个文件。

作为本发明的一种优选方案，所述向量内积运算主要包括以下步骤：

首先，将查询陷门T′_ω生成阶段的对应值作为阈值，并输入用户设置的个性化触发阈值；

其次，设置性能保护参数，防止用户提交的个性化触发阈值过小降低搜索性能；

再者，构建云存储线性表存放用户查询结果的集合；

最后，将文件向量D_m与查询向量W之间的内积作为相似度，并构建左右节点，提取其中前k个元素的相似度，作为最小元素的相似度值。

作为本发明的一种优选方案，所述左右节点通过递归算法构建相应的子节点，根据所述存储线性表中的内存大小存放相应的排序值。

本发明具有如下优点：

本发明实质上是通过改进深度优先搜索算法加速密文索引建立，使得排序系统能够在任何情况下都能够保持高性能搜索，并且实现了完整可用的高性能可搜索加密系统，能够在互联网环境下解决数据隐私保护和查询隐私保护等问题，在树形索引的前提下利用叶子节点代表真实文件，引入中间节点作为搜索的约束条件，不仅提高了搜索性能，还通过向量模型引入随机元素，从而确定相似度，实现了排序功能。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。

图1为本发明提供的一种多功能排序系统模块结构流程图；

图2为本发明一种多功能排序方法的流程图。

图中：1-数据采集模块；2-加密模块；3-文件加密模块；4-索引加密模块；5-索引单元；6-用户查询模块；7-云服务器；8-云服务器存储模块；9-云服务器搜索模块。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的多功能排序系统及方法是基于对用户输入的信息建立相对应的文件向量，使用向量空间模型以及树形索引，使得搜索复杂度降低到亚线性级别，并对结果集中的文件按照相似度进行排序，在没有降低安全级别的前提下使算法性能极大提高，不仅实现了高效搜索，还实现了可排序功能。

如图1所示，包括：

数据采集模块1：用于采集电网主控检索系统内部的数据信息；

加密模块2：内置有两个加密子模块，分别为文件加密模块3和索引加密模块4，用于对采集的数据信息进行加密处理；

索引单元5：利用系统设定的索引信息对文件加密模块3和索引加密模块4的数据集合进行预处理，提取所有文件中的关键字，并生成校验码发送给查询用户；

用户查询模块6：通过用户查询模块发送给数据拥有者，并接收查询码，提交给云服务器7。

所述云服务器7的内部设置有云服务器存储模块8和云服务器搜索模块9：

所述云服务器存储模块8将数据拥有者加密后的文件以及密文索引上传至云服务器7，交由存储模块进行存储；所述云服务器搜索模块9在查询用户上传查询码后，云服务器搜索模块9提取密文索引和用户查询陷门执行相关运算，返回搜索结果给查询用户。

本实施例中，所示云服务器7主要为系统提供海量可搜索数据，并具有一定计算能力。

本实施例中，该排序系统通过以下几点对数据的隐私性进行处理：

第一、对于系统输入端输入的数据通过数据加密实现，在系统内部使用对称加密算法把数据加密后上传，这样能够防止服务器获取到源数据信息；

第二、通过加密索引实现索引的隐私保护，防止云服务器通过减少提交关键词的个数，发现结果集中文件相应减少，从而推测出关键词之间的联系；

第三、查询关键词的隐私保护，把用户提交的查询关键词通过特定的方式转换成查询陷门，再与服务器进行交互，从而保护查询关键词隐私；

第四、构建不可链接陷门数据，陷门生成算法提供的数据是随机化的，从而导致云服务器无法在任何给定陷门上执行减少关键词依赖的操作。

如图2所示，该多功能排序方法，还包括如下步骤：

所述步骤S01中根据用户输入的明文向量文件以及明文查询向量的数据集合U建立密文索引量I和私钥陷门信息T_ω。

根据所述密文索引量I和私钥陷门信息T_ω构建选择向量S和随机选择矩阵M，同时将私钥陷门信息T_ω构建为三元组形式{T，M₁，M₂}。

所述所述S03中索引生成算法包括以下步骤：

S032、将选择向量S的第(n+j+1)维度值设置为随机值ε^j，其中j∈[1，U]；

S033、根据所述私钥陷门信息T_ω中的私钥向量T[i]的值将所述文件向量D_m[i]对应的位的值划分成两个相等的数或者随机数，划分后的两个向量进过计算生成该文件的密文索引I＇；

S034、将该密文索引输入到数据采集模块，校验用户输入信息。

本实施例中，构建文件向量D_m主要在索引树的叶子节点中存储各个文件的向量信息，向量中的每一位对应着关键词字典中某关键字在该文件集中的TF-IDF值，即节点μ对应的文件向量记为D_μ，索引树的节点μ定义如下：

μ＝＜ID，D，P_l.P_r.FID＞

其中，ID代表节点对应的唯一标识，P_l和P_r代表着节点μ指向其左孩子和右孩子的指针，如果节点μ是叶子节点，则左右孩子节点设置为空，此时节点中存储的信息为某个文件的信息，FID字段标识该文件的文件id，D表示该文件对应的文件向量，存储着文件中出现过的关键词的词频信息；如果节点μ是中间节点，FID字段将会被置为NULL，因为中间节点是根据其左右孩子节点生成的，本身并不关联某个文件。

本实施例中，根据私钥向量T[i]的值划分文件向量D_m，当T[i]＝0时，则将D_m[i]对应的位的值划分成两个相等的数D′_m[i]和D″_m[i]，使得D′_m[i]＝D″_m[i]＝D_m[i]；当T[i]＝1时，则将D_m[i]对应的位的值划分成两个随机数D′_m[i]和D″_m[i]，使得D′_m[i]+D″_m[i]＝D_m[i]，划分后的两个向量经过计算得到密文索引

所述S04中陷门生成算法主要根据所述密文索引I＇执行以下步骤：

S044、最后对切分后的查询向量W生成查询陷门T′_ω。

本实施例中，查询向量W拓展维度通过填充随机数1或0实现，且对查询向量W进行切分时，当T[i]＝0时，则将W[i]对应的位的值划分成两个相等的数W′[i]和W″[i]，使得W′[i]＝W″[i]＝W[i]；当T[i]＝1时，则将W[i]对应的位的值划分成两个随机数W′[i]和W″[i]，使得W′[i]+W″[i]＝W[i]，划分后的两个向量经过计算得到查询陷门

将根据用户输入信息得到的所述查询陷门T_ω通过安全信道发送到云服务器，云服务器使用查询陷门T′_ω、密文索引I＇以及用户设置的参数k执行向量内积运算，得出文档的相似度值并排序，返回相似度最高的k个文件。

本实施中在文件向量D_m和查询陷门T′_ω中引入了随机化的元素，因此终的相似度值为：

其中，D_m*W为文件向量与查询向量的真实相似度，随机化元素会对最终计算的相似度形成一个扰动，该扰动能够提升算法安全性。

本实施例中为了实现结果按照相似度排序，并保证文件向量D_m以及查询向量W的明文信息不暴露给服务器，通过高性能加密算法对D_m和W加密后执行相似度内积运算计算密文相似度，从而实现可排序。

所述向量内积运算主要包括以下步骤：

再者，构建云存储线性表存放用户查询结果的集合；

所述左右节点通过递归算法构建相应的子节点，根据所述存储线性表中的内存大小存放相应的排序值。

本实施例中，所述左右节点通过对应的左右子树递归调用深度优先搜索算法，根据结果集大小对该节点下的所有节点进行阈值范围设定，判断结果集的云存储线性表是否满了，如果没满，将查询元素插入云存储线性中进行排序，如果满了，将云存储线性元组中相似度最下的元素删除，然后把该节点信息生成一个新的元组，将元组插入到云存储线性表中，并重新排序。

本实施例中，使用深度优先搜索算法会在任何需要触发阈值范围设定的时候，第一时间触发设定阈值范围，当用户提交的参数较大时，由个性化触发阈值控制对该参数进行修改，当用户提交的参数较小时，由系统内部的时钟触发修改参数，当所有文件都满足用户查询时，系统会动态调整剪枝阈值，实现高性能搜索。

本实施例中，只有高于阈值的结果才会被插入结果集，因此，结果集中存放的都是相关文件，当用户提交查询没有任何相关文件时，结果集返回为空，当用户提交查询只有部分相关时，只返回相关文件，因此，在任何搜索条件下，都可保障高精度搜索，且结果集中的元素是按照密文相似度进行排序，输出的结果均是已排序的。

本实施例中，当客户端发起查询请求时，数据拥有者首先提取查询请求中的关键词，并计算查询陷门，然后把陷门发送给查询用户，云服务器收到用户提交陷门后，在密文域上执行相关计算，并把结果集按照相似度排序，返回最相关的k个结果。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种多功能排序系统，其特征在于，包括：

数据采集模块(1)：用于采集电网主控检索系统内部的数据信息；

加密模块(2)：内置有两个加密子模块，分别为文件加密模块(3)和索引加密模块(4)，用于对采集的数据信息进行加密处理；

索引单元(5)：利用系统设定的索引信息对文件加密模块和索引加密模块的数据集合进行预处理，提取所有文件中的关键字，并生成校验码发送给查询用户；

用户查询模块(6)：通过用户查询模块发送给数据拥有者，并接收查询码，提交给云服务器(7)。

2.根据权利要求1所述的一种多功能排序系统，其特征在于，所述云服务器(7)的内部设置有云服务器存储模块(8)和云服务器搜索模块(9)：

所述云服务器存储模块(8)将数据拥有者加密后的文件以及密文索引上传至云服务器，交由存储模块进行存储；

所述云服务器搜索模块(9)在查询用户上传查询码后，云服务器搜索模块提取密文索引和用户查询陷门执行相关运算，返回搜索结果给查询用户。

3.一种多功能排序方法，其特征在于，包括如下步骤：

4.根据权利要求3所述的一种多功能排序方法，其特征在于，所述所述S01中根据用户输入的明文向量文件以及明文查询向量的数据集合U建立密文索引量Ι和私钥陷门信息T_ω。

5.根据权利要求4所述的一种多功能排序方法，其特征在于，根据所述密文索引量Ι和私钥陷门信息T_ω构建选择向量S和随机选择矩阵M，同时将私钥陷门信息T_ω构建为三元组形式{T，M₁，M₂}。

6.根据权利要求3所述的一种多功能排序方法，其特征在于，所述S03中索引生成算法包括以下步骤：

S033、根据所述私钥陷门信息T_ω中的私钥向量T[i]的值将所述文件向量D_m[i]对应的位的值划分成两个相等的数或者随机数，划分后的两个向量进过计算生成该文件的密文索引I′；

7.根据权利要求3所述的一种多功能排序方法，其特征在于，所述S04中陷门生成算法主要根据所述密文索引I′执行以下步骤：

S044、最后对切分后的查询向量W生成查询陷门T′_ω。

8.根据权利要求7所述的一种多功能排序方法，其特征在于，将根据用户输入信息得到的所述查询陷门T′_ω通过安全信道发送到云服务器，云服务器使用查询陷门T′_ω、密文索引I′以及用户设置的参数k执行向量内积运算，得出文档的相似度值并排序，返回相似度最高的k个文件。

9.根据权利要求8所述的一种多功能排序方法，其特征在于，所述向量内积运算主要包括以下步骤：

再者，构建云存储线性表存放用户查询结果的集合；

10.根据权利要求9所述的一种多功能排序方法，其特征在于，所述左右节点通过递归算法构建相应的子节点，根据所述存储线性表中的内存大小存放相应的排序值。