CN115391492B

CN115391492B - 一种可搜索加密的方法、装置、电子设备及存储介质

Info

Publication number: CN115391492B
Application number: CN202211318992.3A
Authority: CN
Inventors: 刘晓靖; 吴富璇; 徐梦颖; 刘利思; 张彩毫; 刘漫琳; 田超颖; 杨钰琪
Original assignee: Changsha Xianling Pharmaceutical Technology Co ltd
Current assignee: Changsha Xianling Pharmaceutical Technology Co ltd
Priority date: 2022-10-26
Filing date: 2022-10-26
Publication date: 2023-01-20
Anticipated expiration: 2042-10-26
Also published as: CN115391492A

Abstract

本申请提供了一种可搜索加密的方法、装置、电子设备及存储介质，方法包括：供应端获取第一文档集，第一文档集包括多个文档以及对应的特征关键词词集，特征关键词词集包括表征文档的特征的预设数据属性的多个第一关键词，基于第一文档集的各文档与各第一关键词构建联合关键词词典，联合关键词词典包括多个第二关键词，基于任一个第二关键词中各第一关键词的第一相关度数值，确定任一个第二关键词的第二相关度数值，确定各文档对应的加密索引向量及加密获得对应的密文文档，并都传送至云服务器，终端请求进行关键词的查询，云服务器返回与关键词的第二相关度数值靠前的文档，降低了索引和查询的开销，且同时提高了结果的准确度。

Description

一种可搜索加密的方法、装置、电子设备及存储介质

技术领域

本申请属于计算机技术领域，尤其涉及一种可搜索加密的方法、装置、系统、电子设备及存储介质。

背景技术

随着国家研究药品药物的增多，临床试验的文档越来越多，为了节省本地存储开销，及便被更多区域的用户所访问，电子版的临床试验文档存在不可信的远程云服务器中。

为了保护临床试验文档数据的安全性，采用可搜索加密的方法进行远程查询并访问。在关键词数量较多时，目前可搜索加密会造成巨大的开销，返回的搜索结果不符合用户的搜索需求。

现有技术存在关键词数量较多时，造成巨大的索引和查询开销，且返回搜索结果准确度较差的问题。

发明内容

本申请实施例提供了一种可搜索加密的方法、装置、系统、电子设备及存储介质，可以解决在关键词数量较多时，造成巨大的索引和查询开销，且返回搜索结果准确度较差的问题。

第一方面，本申请实施例提供了一种可搜索加密的方法，应用于供应端，包括：

获取第一文档集，所述第一文档集包括临床试验的多个文档以及与各所述文档对应的特征关键词词集，所述特征关键词词集包括表征所述文档的特征的预设数据属性的多个第一关键词，所述预设数据属性的数量小于或者等于第一预设阈值；

基于所述第一文档集的各所述文档与各所述第一关键词构建联合关键词词典，所述联合关键词词典包括多个第二关键词，所述第二关键词为将预设数量的所述第一关键词联合形成的联合关键词词集，所述预设数量小于或者等于所述第一预设阈值；

基于任一个所述第二关键词、所述第二关键词中各所述第一关键词的第一相关度数值，确定任一个所述第二关键词与对应的一个或多个所述文档的第二相关度数值，其中，所述第一相关度数值表征任一个所述第一关键词与所述第一关键词所在的所述文档的相关度，所述第二相关度数值表征任一个所述第二关键词与所述第二关键词中各所述第一关键词所在的一个或多个所述文档的相关度；

基于每个所述文档对应的所述特征关键词词集、各所述第二关键词与各所述第二相关度数值确定各所述文档对应的加密索引向量；

采用第一对称密钥对各所述文档进行加密获得对应的各密文文档；

将所述加密索引向量以及各所述密文文档传送至云服务器。

在其中一个实施例中，所述基于任一个所述第二关键词、所述第二关键词中各所述第一关键词的第一相关度数值，确定任一个所述第二关键词与对应的一个或多个所述文档的第二相关度数值，包括：

获取各所述第一关键词的所述第一相关度数值；

基于所述文档的所述特征关键词词集与所述联合关键词词典，获得所述文档对应的所述第一关键词所属的所述第二关键词；

基于所述第二关键词的各所述第一关键词的所述第一相关度数值之和，确定任一个所述第二关键词与对应的一个或多个所述文档的第二相关度数值。

在其中一个实施例中，所述获取任一个所述第一关键词的第一相关度数值，包括：

基于任一个所述第一关键词的数据属性权重、缩放调节系数、所述文档的长度、所述第一文档集的各所述文档的平均长度、所述第一关键词的词频、所述第一关键词的反词频，采用第一相关度数值计算式确定任一个所述第一关键词与对应的所述文档的第一相关度数值。

在其中一个实施例中，所述第一相关度数值计算式为：

其中，Y（g _i,b ，F _i ）为所述第一关键词g _i,b与对应的所述文档F _i的所述第一相关度数值；

g _i,b为所述联合关键词词典中第i个所述第二关键词的第b个所述第一关键词，1≦i且i为正整数，1≦b≦T ₁且b为整数，T ₁为所述第一预设阈值；

F _i为所述第一文档集中第i个所述文档；

TF为所述第一关键词g _i,b的词频；IDF为所述第一关键词g _i,b的反词频；

α为所述第一关键词g _i,b的数据属性的权重；

β为缩放调节系数；

L为所述文档F _i的长度；

L _avg为所述第一文档集的各所述文档的平均长度。

在其中一个实施例中，所述预设数据属性包括药物名称、方案名称、试验时间、第一姓名、第二姓名、试验阶段、试验效果、试验地点、组织名称中至少一个。

在其中一个实施例中，所述基于每个所述文档对应的所述特征关键词词集、各所述第二关键词与各所述第二相关度数值确定每个所述文档对应的加密索引向量，包括：

基于所述文档对应的所述特征关键词词集、各所述第二关键词与各所述第二相关度数值确定所述文档对应的索引向量，其中，所述索引向量的每个维度的值为所述第二相关度数值；

基于各所述文档对应的所述索引向量构建所述第一文档集的索引结构；

采用第二对称密钥加密所述索引结构的所述索引向量形成各所述文档对应的加密索引向量。

第二方面，本申请实施例提供了一种可搜索加密的装置，包括：

第一获取模块，用于获取第一文档集，所述第一文档集包括临床试验的多个文档以及与各所述文档对应的特征关键词词集，所述特征关键词词集包括表征所述文档的特征的预设数据属性的多个第一关键词，所述预设数据属性的数量小于或者等于第一预设阈值；

构建模块，用于基于所述第一文档集的各所述文档与各所述第一关键词构建联合关键词词典，所述联合关键词词典包括多个第二关键词，所述第二关键词为将预设数量的所述第一关键词联合形成的联合关键词词集，所述预设数量小于或者等于所述第一预设阈值；

第二获取模块，用于基于任一个所述第二关键词、所述第二关键词中各所述第一关键词的第一相关度数值，确定任一个所述第二关键词与对应的一个或多个所述文档的第二相关度数值，其中，所述第一相关度数值表征任一个所述第一关键词与所述第一关键词所在的所述文档的相关度，所述第二相关度数值表征任一个所述第二关键词与所述第二关键词中各所述第一关键词所在的一个或多个所述文档的相关度；

第一加密模块，用于基于每个所述文档对应的所述特征关键词词集、各所述第二关键词与各所述第二相关度数值确定各所述文档对应的加密索引向量；

第二加密模块，用于采用第一对称密钥对各所述文档进行加密获得对应的各密文文档；

第一发送模块，用于将各所述加密索引向量以及各所述密文文档传送至云服务器。

第三方面，本申请实施例提供了一种可搜索加密的系统，包括供应端、终端和云服务器，其中，所述供应端用于执行上述第一方面内容中任一项所述的方法；

其中，所述终端被配置为：

向所述云服务器发送加密查询向量和待返回的密文文档数量，其中，加密查询向量为采用第二对称密钥对待查询关键词的查询向量进行加密而形成；接收所述云服务器返回的查询结果，所述查询结果包括所述密文文档数量的多个密文文档，各所述密文文档为与所述待查询关键词的所述第二相关度数值大于或者等于第二预设阈值的密文文档；以及基于所述查询结果下载各所述密文文档；

解密模块，用于采用所述第一对称密钥对各所述密文文档进行解密，获得各所述密文文档对应的所述文档；

其中，所述云服务器具有多个所述密文文档和所述索引结构，所述索引结构由各个所述密文文档对应的所述加密索引向量形成，所述云服务器被配置为：

接收来自所述终端的所述待查询关键词的所述加密查询向量和待返回的所述密文文档数量；通过对所述索引结构的加密索引向量和所述加密查询向量进行安全内积计算，获得所述查询结果；以及将所述查询结果发送给所述终端。

第四方面，本申请实施例提供了一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面内容中任一项所述的方法。

第五方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面内容中任一项所述的方法。

第六方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面内容中任一项所述的方法。

可以理解的是，上述第二方面至第六方面的有益效果可以参见上述第一方面内容中的相关描述，在此不再赘述。

本申请实施例与现有技术相比存在的有益效果是：

通过在供应端获取第一文档集，第一文档集包括临床试验的多个文档以及与各文档对应的特征关键词词集，特征关键词词集包括表征文档的特征的预设数据属性的多个第一关键词；基于第一文档集的各文档与各第一关键词构建联合关键词词典，联合关键词词典包括多个第二关键词，第二关键词为将预设数量的第一关键词联合形成的联合关键词词集，预设数量小于或者等于第一预设阈值；基于第二关键词、第二关键词中各第一关键词的第一相关度数值，确定第二关键词与对应的一个或多个文档的第二相关度数值；基于每个文档对应的特征关键词词集、各第二关键词与各第二相关度数值确定各文档对应的加密索引向量；基于各文档对应的加密索引向量构建第一文档集的索引结构；采用第一对称密钥对各文档进行加密获得对应的各密文文档；将各加密索引向量以及各密文文档传送至云服务器，终端请求进行待查询关键词的查询，云服务器返回与待查询关键词的第二相关度数值靠前的文档，在关键词数量较多时，由于采用多个第一关键词形成第二关键词来获得第二相关度数值，从而减少了联合关键词词典的数量，降低了每个密文文档的加密索引向量的维度，进而降低了系统的索引和查询的开销，且由于提取第一关键词时设置了数据属性，故同时提高了返回的查询结果的准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的一种可搜索加密的方法的供应端、终端、云服务器的交互场景示意图；

图2是本申请一实施例提供的一种应用于供应端的可搜索加密的方法的流程示意图；

图3是本申请一实施例提供的基于任一个第二关键词、第二关键词中各第一关键词的第一相关度数值，确定任一个第二关键词与对应的一个或多个文档的第二相关度数值的流程示意图；

图4是本申请一实施例提供的基于每个文档对应的特征关键词词集、各第二关键词与各第二相关度数值确定各文档对应的加密索引向量的流程示意图；

图5是本申请一实施例提供的一种平衡二叉树的索引结构的结构示意图；

图6是本申请一实施例提供的一种应用于终端的可搜索加密的方法的流程示意图；

图7是本申请一实施例提供的一种应用于云服务器的可搜索加密的方法的流程示意图；

图8是本申请一实施例提供的一种可搜索加密系统装置的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

临床试验的文档种类繁多而且涉及到各个部门，随着药物开发越来越多，临床试验的文档数量也越来越多，为了降低存储空间，以及更好的让各区域的使用者能及时地安全地调阅临床试验文档，采用可搜索加密的方法是其中一个方向。

如图1所示，数据拥有者（Date Owner）在供应端创建文档的联合关键词词典、加密文档、构建加密索引向量，并将加密文档和加密索引向量上传到云服务器，数据用户（DateUser）在终端通过待查询关键词生成加密查询向量（即查询陷门），并将加密查询向量和待返回的密文文档数量K发送到云服务器，云服务器对收到的加密查询向量和存储的加密索引向量进行匹配计算，云服务器（Cloud Server）将匹配计算完成后与待查询关键词的最相关的K个密文文档发送给终端，数据用户在终端下载密文文档后并对其进行解密。

在可搜索加密过程中，由于关键词具有模糊性和多意性，现有技术的关键词提取时一般只考虑了表征文档主题的关键词，主要是面向常规的文档集，且对于文档的权重分配或相关度计算不够完善，没有考虑在临床试验的文档中关键词的特殊数据属性，导致查询结果的准确度不能满足用户的需求。此外，现有技术当从文档中提取关键词数量较多时，会造成索引和查询的巨大开销，进而影响加密索引和查询效率，导致查询效率不能满足用户的需求。

在临床试验的文档的可搜索加密亟需一种能获得满足用户需求的准确度的查询结果，同时提高查询效率的可搜索加密方法。

本申请的实施例通过在供应端获取第一文档集，第一文档集包括临床试验的多个文档以及与各文档对应的特征关键词词集，特征关键词词集包括表征文档的特征的预设数据属性的多个第一关键词；基于第一文档集的各文档与各第一关键词构建联合关键词词典，联合关键词词典包括多个第二关键词，第二关键词为将预设数量的第一关键词联合形成的联合关键词词集，预设数量小于或者等于第一预设阈值；基于任一个第二关键词、第二关键词中各第一关键词的第一相关度数值，确定任一个第二关键词与对应的一个或多个文档的第二相关度数值；基于每个文档对应的特征关键词词集、各第二关键词与各第二相关度数值确定各文档对应的加密索引向量；采用第一对称密钥对各文档进行加密获得对应的各密文文档；将各加密索引向量以及各密文文档传送至云服务器，终端请求进行待查询关键词的查询，云服务器返回与待查询关键词的第二相关度数值靠前的文档，在关键词数量较多时，由于采用采用多个第一关键词形成第二关键词来获得第二相关度数值，从而减少了联合关键词词典的数量，降低了每个密文文档的加密索引向量的维度，进而降低了系统的索引和查询的开销，且由于提取第一关键词时设置了数据属性，故同时提高了返回的查询结果的准确度。

下面通过具体的实施例来说明本申请的技术方案。

第一方面，如图2所示，本实施例提供了一种可搜索加密的方法，应用于供应端，包括：

S100，获取第一文档集，第一文档集包括临床试验的多个文档以及与各文档对应的特征关键词词集，特征关键词词集包括表征文档的特征的预设数据属性的多个第一关键词。

经过仔细研究现有技术的可搜索加密方法，现有技术有对关键词在文档名称、文档关键字和文档正文中位置属性的设想。但临床试验的文档一般没有文档关键字，而且只考虑关键字在文档不同的位置，查询结果的准确度较低。

在一个实施例中，经过对各用户的咨询和意见征集，将临床试验的文档的预设数据属性归纳为几个类别，临床试验的文档的预设数据属性包括药物名称、方案名称、试验时间、第一姓名、第二姓名、试验阶段、试验效果、试验地点、组织名称中至少一个。其中，第一姓名为研究者，第二姓名为受试者或经办者，试验阶段包括试验前、试验中及试验后三个阶段，试验效果包括好、一般、不明显、副作用小、副作用大中任意一个，组织成名包括申办者、伦理委员会。

在一个实施例中，预设数据属性的数量小于或者等于第一预设阈值，第一预设阈值T ₁≦9且T ₁为正整数，限制特征关键词词集的第一关键词的预设数据属性能极大的提高第一关键词对于对应临床试验的文档的特征表征，有利于提高查询返回结果的准确性，还能降低第一关键词的数量。第一文档集包括临床试验的多个文档，例如第一文档集F=（F ₁，F ₂，...，F _m），第一文档集中包括m个文档，m为正整数。

在一个实施例中，第一文档集还包括各文档对应的特征关键词词集，上述表征某个文档的特征的预设数据属性的多个第一关键词组成特征关键词词集G，例如特征关键词词集G=（g ₁，g ₂，...，g _i），一个文档的特征关键词词集包括i个第一关键词，i为正整数。

S110，基于第一文档集的各文档与各第一关键词构建联合关键词词典，联合关键词词典包括多个第二关键词，第二关键词为将预设数量的第一关键词联合形成的联合关键词词集。

在一个实施例中，将第一文档集的每个文档的第一关键词进行汇总形成文档特征关键词集，再将第一文档集的所有文档特征关键词集的关键词进行去重处理，形成包含n个第一关键词的集合，再通过随机算法（比如，Fisher-Yates 洗牌算法的）将预设数量的第一关键词进行联合，组成一个联合关键词词集D从而形成第二关键词。其中，d≦T ₁≦9，d为预设数量，T ₁为第一预设阈值，多个第二关键词D构成了联合关键词词典W，使得联合关键词词典的维数从n维降低到维度t=n/d，n为第一文档集的各文档提取的去重后的所有第一关键词的数量，从而大大降低了第一文档集的各文档的索引开销，提高了构建索引的效率。

例如，第二关键词D=（g ₁ ，g ₂，...，g _d），一个第二关键词词集包括d个第一关键词，d为正整数，联合关键词词典W=（D ₁ ，D ₂ ，...，Dt），t为正整数。

S120，基于任一个第二关键词、第二关键词中各第一关键词的第一相关度数值，确定任一个第二关键词与对应的一个或多个文档的第二相关度数值。

在一个实施例中，基于第二关键词、第二关键词中各第一关键词的第一相关度数值，确定第二关键词与对应的一个或多个文档的第二相关度数值，有利于建立每个第二关键词与对应的一个或多个文档的第二相关度数值的对应关系，其中，第一相关度数值表征任一个第一关键词与第一关键词所在的所述文档的相关度，第二相关度数值表征任一个第二关键词与第二关键词中各第一关键词所在的一个或多个文档的相关度。

在一个实施例中，如图3所示，基于任一个第二关键词、第二关键词中各第一关键词的第一相关度数值，确定任一个第二关键词与对应的一个或多个文档的第二相关度数值，包括：

S121，获取任一个第一关键词的第一相关度数值。

获取第一关键词的第一相关度数值，即获取第一关键词与第一关键词所在的文档的第一相关度数值，有利于构建第一关键词与第一关键词所在的文档的第一相关度数值的对应关系，便于用户进行查询。

在一个实施例中，获取任一个第一关键词的第一相关度数值，包括：

基于任一个第一关键词的数据属性权重、缩放调节系数、文档的长度、第一文档集的各文档的平均长度、第一关键词的词频、第一关键词的反词频，采用第一相关度数值计算式确定任一个第一关键词与对应的文档的第一相关度数值，有利于建立各第一关键词与对应的文档的第一相关度数值的对应关系。

在一个实施例中，采用第一相关度数值计算式确定第一关键词与对应的文档的第一相关度数值，有利于通过第一相关度数值计算式更准确的获取第一关键词与对应的文档的第一相关度数值。

在一个实施例中，获得第一关键词与对应的文档的第一相关度数值便于构建索引和查询的时候迅速通过第一关键词找到对应的文档，有利于准确地找到所需要的文档。

在一个实施例中，第一相关度数值计算式为：

其中，Y（g _i,b ，F _i ）为第一关键词g _i,b与对应的文档F _i的第一相关度数值；

g _i,b为联合关键词词典中第i个第二关键词的第b个第一关键词，1≦i且i为正整数，1≦b≦T ₁且b为整数，T ₁为第一预设阈值；

F _i为第一文档集中第i个文档；

TF为第一关键词g _i,b的词频；IDF为第一关键词g _i,b的反词频；

α为第一关键词g _i,b的数据属性的权重；

β为缩放调节系数；

L为文档F _i的长度；

L _avg为第一文档集的各文档的平均长度。

在一个实施例中，基于第一关键词在对应的文档出现的次数、第一文档集中包括第一关键词的文档的数量，通过词频计算式获得第一关键词的词频，通过反词频计算式获得第一关键词的反词频。

在一个实施例中，文档F _i (i=1，2，...，m)的原始索引为二进制向量P _j ，P _j的每个维表示文档F _i的某一个第一关键词g _k是否存在，文档F _i中存在第一关键词g _k表示为1，不存在则表示为0。

第一关键词g _k的词频为TF，词频计算式为：

第一关键词g _k的反词频为IDF，反词频计算式为：

其中，tf _i,k为第二关键词中第k个第一关键词g _k在文档F _i中出现的次数；df _wk为包含第一关键词g _k的文档数量。

第一关键词g _k在文档F _i中出现的次数越多，权重越大，故词频值TF越大；而包含第一关键词g _k的文档数量越多，说明第一关键词g _k的区分度越不好，反映第一关键词g _k在整个文档集中重要度越低。

在一个实施例中，由于第一相关度数值计算式采用词频TF与反词频IDF的乘积，表征了第一关键词的频率与文档的相关度。

在一个实施例中，临床试验的文档有短有长，为把文档的长度也考虑进来，采用平均长度L除以L _avg表征了文档长度的相关度。

需要说明的是，目前的现有技术是把文档的第一关键词表征文档主题设置权重，或者根据关键词在文档的位置来设置权重，但用户查询临床试验的文档对于关键词在文档的位置不敏感，同时在查询部分关键词时对于表征文档主题也不敏感。经过研究用户的查询需求，用户对于临床试验的文档中一些特别的数据属性非常敏感，例如对于临床试验的方案名称就特别感兴趣，对于药物名称、实验效果、研究者的第一姓名也感兴趣，对于试验时间、实验阶段的关注度较低，对于受试者的第二姓名、实验地点、组织名称关注度更低，所以经过问卷调查和面对面调查，并统计各查询关键的相关数据，最终设置第一关键词的数据属性的权重来表征用户对于文档中关键词的数据属性的感兴趣程度。

在一个实施例中，第一关键词的数据属性的权重定义为：药物名称的权重为0.15，方案名称的权重为0.2，试验时间的权重为0.1，第一姓名的权重为0.15，第二姓名的权重为0.05，实验阶段的权重为0.1，试验效果的权重为0.15，试验地点的权重为0.05，组织名称的权重为0.05。第一关键词的数据属性的具体数值本实施例不进行限制，具体的取值根据可搜索加密方法的返回结果进行设置。

在一个实施例中，为了使得第一相关度数值保持在适当的数值范围，还增加缩放调节系数进行均衡，缩放调节系数β为2，或者为1.5，或者3。需要说明的是，缩放调节系数的具体数值本实施例不进行限制，具体的取值根据可搜索加密方法的返回结果进行设置。

在一个实施例中，由于采用上述各参数，第一相关度数值Y（g _i,b ，F _i ）在临床试验的文档领域极大的提高了第一关键词g _i,b与对应的文档F _i的相关度，有利于通过关键词查询返回满足用户需求的文档，进而提高了范围文档的准确度。

S122，基于文档的特征关键词词集与联合关键词词典，获得文档对应的第一关键词所属的第二关键词。

在一个实施例中，由于所有文档的第一关键词都已经分配到了第二关键词中（即联合关键词词典的各联合关键词词集中），对文档F _i的特征关键词词集

与联合关键词词典W的各个第二关键词D取交集，能获得文档F _i的每个第一关键词g _i,b所属的第二关键词D _i，这样便于将文档F _i对应的一个或多个第二关键词都找到，有利于获得文档F _i对应的第二关键词与文档F _i的相关度。

S123，基于第二关键词的各第一关键词的第一相关度数值之和，确定任一个第二关键词与对应的一个或多个文档的第二相关度数值。

在一个实施例中，将第二关键词的各第一关键词的第一相关度分数进行相加从而获得第二关键词与对应的一个或多个文档的第二相关度分数，进一步提高了构建索引结构的效率，进一步提高了查询到满足用户需求的文档的准确性。

S130，基于每个文档对应的特征关键词词集、各第二关键词与各第二相关度数值确定各文档对应的加密索引向量。

在一个实施例中，由于每个文档的加密索引向量已经被降低了维度，故确定每个文档的加密索引向量，提高了构建索引结构的效率，而第二相关度数值是采用了基于数据属性的权重的第一相关度数值引入了进一步提高了查询到满足用户需求的文档的准确性。

在一个实施例中，如图4所示，基于每个文档对应的特征关键词词集、各第二关键词与各第二相关度数值确定各文档对应的加密索引向量，包括：

S131，基于文档对应的特征关键词词集、各第二关键词与各第二相关度数值确定文档对应的索引向量。

在一个实施例中，从文档对应的特征关键词词集获取从某个文档提取的全部第一关键词，再分别与各第二关键词取交集，获取该文档的第一关键词所属的各第二关键词，再获取第二关键词获取与该文档对应的第二相关度数，将该文档的每个第一关键词所属的第二关键词与该文档对应的第二相关度数形成该文档的索引向量的一个维度的值。基于文档的各第二相关度数值Y'确定文档的索引向量A，索引向量A的每个维度的值为第二相关度数值Y'，这样各第二关键词与对应的文档都进行了关联。由于把n个第一关键词的维度降低到了t=n/d的维度，提高了构建文档对应的索引向量的效率，此时的索引向量也称为加权索引向量或明文索引向量。

S132，基于各文档对应的索引向量构建第一文档集的索引结构。

在一个实施例中，如图5所示，F1至F8表示F1文档至F8文档对应的索引向量形成的最底层的叶子节点，u1至u4依次为F1至F8子节点依次形成的4个节点对的父节点，u5和u6依次为u1至u4子节点依次形成的2个节点对的父节点。以每个文档的对应的索引向量A为叶子结点，通过分组算法求取文档集F中任意两个文档的索引向量A的余弦相似度，将余弦值最小的两个索引向量的节点组成一对，作为索引树本层的左右子节点，以使得主题越相近的文档尽可能分布于索引树的同一分支，以自下而上的策略对每一层的树节点分组，从而构建平衡二叉树的索引结构。如果节点总数为2n个，则平衡二叉树的索引结构中就有n个节点对，如果节点总数为2n+1个，则有n个节点对和1个单节点，在结点对的基础上构造一个新的节点作为他们的父节点，左右子节点的父节点的加权索引向量由左右子节点的加权索引向量每个维度的较大值组成，这样反复迭代直到最终生成唯一的根节点。

S133，采用第二对称密钥加密索引结构的索引向量形成各文档对应的加密索引向量。

在一个实施例中，供应端的数据拥有者根据联合关键词词典W产生用于拆分明文索引向量A和查询向量Q的t+u维二进制向量S，以及两个（t+u）×（t+u）阶可逆矩阵{M ₁ ，M ₂}。二进制向量S为第一对称密钥，t为第二关键词的数量，u为虚拟关键的词数量，第一对称秘钥用于加密明文文档，第二对称秘钥SK={S，M ₁ ，M ₂}用于加密索引向量A和查询向量Q。

待索引树构建完成后，将文档节点的索引向量从t维扩充到t+u维，其中，u为虚拟关键词数量，从(t+1，…，t+u)的值中选择z个置为ε，ε<(TF) _min，其余设置为0(z∈Z ^* _q)，Z ^* _q再采用第二对称密钥使用非对称保内积加密算法（Asymmetric Scalar-product-preservingEncryption，ASPE），给索引树中的每个节点的索引向量加密。

具体的步骤是把节点u.V分割成两个随机向量{u.V'，u.V''}，拆分方式如下：

当S[i]=0时，设置u.V'=u.V''=u.V；

当S[i]=1时，设置u.V'+u.V''=u.V。

再采用{M ₁ ，M ₂}对{u.V'，u.V''}进行加密，加密后的加密索引向量I的形式为{M ₁ ^T•u.V'，M ₂ ^T•u.V''}。

S140，采用第一对称密钥对各文档进行加密获得对应的各密文文档。

在一个实施例中，采用二进制向量S的第一对称密钥对各个明文文档进行加密获得对应的各密文文档。

S150，将各加密索引向量以及各密文文档传送至云服务器。

加密完索引树的所有的节点后，把形成了加密索引树的各加密索引向量传送到云服务器，并把各密文文档传送至云服务器，有效防止云服务器查看文档的内容和查看索引向量。

在一个实施例中，如图6所示，一种可搜索加密的方法，应用于终端，包括：

S210，向云服务器发送加密查询向量和待返回的密文文档数量，其中，加密查询向量为采用第二对称密钥对待查询关键词的查询向量进行加密而形成。

在一个实施例中，根据待查询关键词和联合关键词词典W生成t阶的明文查询向量Q，然后将查询向量Q扩充为t+u阶，在u个虚拟的关键词中随机选择z个虚拟关键词，z个虚拟关键词的值设为ε，其余设置为0，ε<0.5u，(z∈Z ^* _q，ε<待查询关键词的权重最小值。

在一个实施例中，通过非对称保内积加密算法对查询向量Q加密，根据二进制向量S，将扩展后的查询向量Q拆分为{Q'，Q''}。

当S[i]=0时，设置Q'[i]+Q''[i]=Q[i]；

当S[i]=1时，设置Q'[i]=Q''[i]=Q[i]。

再通过可逆矩阵{M ₁ ，M ₂}对{Q'，Q''}进行加密，加密后的加密查询向量T _w={T' _w，T'' _w}={Q'M ₁ ^-1，Q''M ₂ ^-1}。

S211，接收云服务器返回的查询结果，查询结果包括密文文档数量的多个密文文档，各密文文档为与待查询关键词的第二相关度数值大于或者等于第二预设阈值的密文文档。

在一个实施例中，第二预设阈值根据查询返回的文档准确度进行设置。

S212，基于查询结果下载各密文文档。

S213，采用第一对称密钥对各密文文档进行解密，获得各密文文档对应的文档。

在一个实施例中，如图7所示，一种可搜索加密的方法，应用于云服务器，云服务器具有多个密文文档和索引结构，索引结构由各个密文文档对应的加密索引向量形成，包括：

需要说明的是，云服务器接收来自供应端的多个密文文档和各加密索引向量I形成的索引结构。

S310，接收来自终端的待查询关键词的加密查询向量和待返回的密文文档数量。

在一个实施例中，加密查询向量也称为陷门向量，云服务器接收来自终端的加密查询向量T _w和待返回的密文文档数量K，便于获取用户的需求。

S311，通过对索引结构的加密索引向量和加密查询向量进行安全内积计算，获得查询结果。

在一个实施例中，云服务器使用深度贪婪优先算法在上传的加密索引树上进行搜索，寻找加密索引树每个节点的加密索引向量I与加密查询向量T _w的内积获得匹配后的内积数值，大于前K个文档的临界值，则在左右两边子节点找，直到全部检索完，并将内积数值按照从大到小的顺序进行排序，返回数值为前K的文档。

加密索引向量和陷门向量匹配过程如下：

S312，将查询结果发送给终端。

查询结果是待查询关键词与相关度最大的K个文档，提高了返回文档的准确度。

本实施例与现有技术相比存在的有益效果是：

本实施例通过在供应端获取第一文档集，第一文档集包括临床试验的多个文档以及与各文档对应的特征关键词词集，特征关键词词集包括表征文档的特征的预设数据属性的多个第一关键词；基于第一文档集的各文档与各第一关键词构建联合关键词词典，联合关键词词典包括多个第二关键词，第二关键词为将预设数量的第一关键词联合形成的联合关键词词集，预设数量小于或者等于第一预设阈值；基于任一个第二关键词、第二关键词中各第一关键词的第一相关度数值，确定任一个第二关键词与对应的一个或多个文档的第二相关度数值；基于每个文档对应的特征关键词词集、各第二关键词与各第二相关度数值确定各文档对应的加密索引向量；采用第一对称密钥对各文档进行加密获得对应的各密文文档；将各加密索引向量以及各密文文档传送至云服务器，终端请求进行待查询关键词的查询，云服务器返回与待查询关键词的第二相关度数值靠前的文档，在关键词数量较多时，由于采用采用多个第一关键词形成第二关键词来获得第二相关度数值，从而减少了联合关键词词典的数量，降低了每个密文文档的加密索引向量的维度，进而降低了系统的索引和查询的开销，且由于提取第一关键词时设置了数据属性，故同时提高了返回的查询结果的准确度。

第二方面，如图8所示，本申请实施例提供了一种可搜索加密的装置，包括：

第一获取模块110，用于获取第一文档集，第一文档集包括临床试验的多个文档以及与各文档对应的特征关键词词集，特征关键词词集包括表征文档的特征的预设数据属性的多个第一关键词，预设数据属性的数量小于或者等于第一预设阈值。

构建模块120，用于基于第一文档集的各文档与各第一关键词构建联合关键词词典，联合关键词词典包括多个第二关键词，第二关键词为将预设数量的第一关键词联合形成的联合关键词词集，预设数量小于或者等于第一预设阈值。

第二获取模块130，用于任一个基于第二关键词、第二关键词中各第一关键词的第一相关度数值，确定任一个第二关键词与对应的一个或多个文档的第二相关度数值，其中，第一相关度数值表征任一个所述第一关键词与第一关键词所在的文档的相关度，第二相关度数值表征任一个第二关键词与第二关键词中各第一关键词所在的一个或多个文档的相关度。

第一加密模块140，用于基于每个文档对应的特征关键词词集、各第二关键词与各第二相关度数值确定各文档对应的加密索引向量。

第二加密模块150，用于采用第一对称密钥对各文档进行加密获得对应的各密文文档。

第一发送模块160，用于将各加密索引向量以及各密文文档传送至云服务器。

第三方面，本申请实施例提供了一种可搜索加密的系统，包括供应端、终端和云服务器，其中，供应端用于执行上述第一方面内容中任一项所述的方法；

其中，终端被配置为：

向云服务器发送加密查询向量和待返回的密文文档数量，其中，加密查询向量为采用第二对称密钥对待查询关键词的查询向量进行加密而形成；接收云服务器返回的查询结果，查询结果包括密文文档数量的多个密文文档，各密文文档为与待查询关键词的第二相关度数值大于或者等于第二预设阈值的密文文档；以及基于查询结果下载各密文文档。

解密模块，用于采用第一对称密钥对各密文文档进行解密，获得各密文文档对应的文档。

其中，云服务器具有多个密文文档和索引结构，索引结构由各个密文文档对应的加密索引向量形成，云服务器被配置为：

接收来自终端的待查询关键词的加密查询向量和待返回的密文文档数量；通过对索引结构的加密索引向量和加密查询向量进行安全内积计算，获得查询结果；以及将查询结果发送给终端。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

本申请实施例提供的一种可搜索加密的方法可以应用于手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)等终端设备上，本申请实施例对终端设备的具体类型不作任何限制。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。

所述计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器（ROM，Read-OnlyMemory）、随机存取存储器（RAM，Random Access Memory）、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/网络设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/网络设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种可搜索加密的方法，应用于供应端，其特征在于，包括：

将各所述加密索引向量以及各所述密文文档传送至云服务器；

其中，获取任一个所述第一关键词的所述第一相关度数值，包括：

基于任一个所述第一关键词的数据属性权重、缩放调节系数、所述文档的长度、所述第一文档集的各所述文档的平均长度、所述第一关键词的词频、所述第一关键词的反词频，采用第一相关度数值计算式确定任一个所述第一关键词与对应的所述文档的第一相关度数值；

其中，所述第一相关度数值计算式为：

F _i为所述第一文档集中第i个所述文档；

α为所述第一关键词g _i,b的数据属性的权重；

β为缩放调节系数；

L为所述文档F _i的长度；

L _avg为所述第一文档集的各所述文档的平均长度。

2.如权利要求1所述的方法，其特征在于，基于任一个所述第二关键词、所述第二关键词中各所述第一关键词的第一相关度数值，确定任一个所述第二关键词与对应的一个或多个所述文档的第二相关度数值，包括：

3.如权利要求1所述的方法，其特征在于，所述预设数据属性包括药物名称、方案名称、试验时间、第一姓名、第二姓名、试验阶段、试验效果、试验地点、组织名称中至少一个。

4.如权利要求1至3中任一项所述的方法，其特征在于，所述基于每个所述文档对应的所述特征关键词词集、各所述第二关键词与各所述第二相关度数值确定各所述文档对应的加密索引向量，包括：

基于所述文档对应的所述特征关键词词集、各所述第二关键词与各所述第二相关度数值，确定所述文档对应的索引向量，其中，所述索引向量的每个维度的值为所述第二相关度数值；

5.一种可搜索加密的装置，其特征在于，包括：

第一发送模块，用于将所述加密索引向量以及各所述密文文档传送至云服务器；

其中，所述第一相关度数值计算式为：

F _i为所述第一文档集中第i个所述文档；

α为所述第一关键词g _i,b的数据属性的权重；

β为缩放调节系数；

L为所述文档F _i的长度；

L _avg为所述第一文档集的各所述文档的平均长度。

6.一种可搜索加密的系统，其特征在于，包括供应端、终端和云服务器，其中，所述供应端用于执行上述权利要求4所述的方法；

其中，所述终端被配置为：用于向所述云服务器发送加密查询向量和待返回的密文文档数量，其中，加密查询向量为采用第二对称密钥对待查询关键词的查询向量进行加密而形成；接收所述云服务器返回的查询结果，所述查询结果包括所述密文文档数量的多个密文文档，各所述密文文档为与所述待查询关键词的所述第二相关度数值大于或者等于第二预设阈值的密文文档；以及基于所述查询结果下载各所述密文文档；

接收来自所述终端的所述待查询关键词的所述加密查询向量和待返回的所述密文文档数量；通过对所述索引结构的加密索引向量和所述加密查询向量进行安全内积计算，获得所述查询结果；以及用于将所述查询结果发送给所述终端。

7.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的方法。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的方法。