CN109992978B

CN109992978B - 信息的传输方法、装置及存储介质

Info

Publication number: CN109992978B
Application number: CN201910165329.6A
Authority: CN
Inventors: 赵瑞辉; 乔倩倩; 许顺楠
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-03-05
Filing date: 2019-03-05
Publication date: 2021-03-26
Anticipated expiration: 2039-03-05
Also published as: CN109992978A

Abstract

本发明公开了一种信息的传输方法、装置及存储介质。其中，该方法包括：获取待传输信息所对应的第一语义表征向量，其中，第一语义表征向量用于以句向量的形式表示待传输信息的信息内容和信息逻辑；对第一语义表征向量进行加密，并对待传输信息进行加密，得到具有对应关系的第二语义表征向量和加密信息；将具有对应关系的第二语义表征向量和加密信息传输至服务器，以指示服务器将第二语义表征向量设置为加密信息的检索索引。本发明解决了相关技术中进行加密检索时信息的处理效率较低的技术问题。

Description

信息的传输方法、装置及存储介质

技术领域

本发明涉及计算机领域，具体而言，涉及一种信息的传输方法、装置及存储介质。

背景技术

随着云计算在工业界的飞速普及，云数据检索过程中的安全性和保密性越来越受到企业和政府等数据提供方的重视，可搜索加密技术(Searchable Encryption，简称为SE)应运而生。然而，目前已有的加密搜索方案均无法同时兼顾搜索的高质量和快速的搜索速度。现有的云数据加密技术虽然能够保障数据不泄漏，但运行速度慢、资源开销大，搜索结果也不尽如人意。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种信息的传输方法、装置及存储介质，以至少解决相关技术中进行加密检索时信息的处理效率较低的技术问题。

根据本发明实施例的一个方面，提供了一种信息的传输方法，包括：获取待传输信息所对应的第一语义表征向量，其中，所述第一语义表征向量用于以句向量的形式表示所述待传输信息的信息内容和信息逻辑；对所述第一语义表征向量进行加密，并对所述待传输信息进行加密，得到具有对应关系的第二语义表征向量和加密信息；将具有对应关系的所述第二语义表征向量和所述加密信息传输至服务器，以指示所述服务器将所述第二语义表征向量设置为所述加密信息的检索索引。

根据本发明实施例的另一方面，还提供了一种信息的传输方法，包括：获取待检索请求所对应的第六语义表征向量，其中，所述待检索请求中携带有检索信息，所述第六语义表征向量用于以句向量的形式表示所述检索信息的信息内容和信息逻辑；使用获取到的检索秘钥对所述第六语义表征向量进行加密，得到第七语义表征向量；将所述第七语义表征向量传输至服务器，以指示所述服务器从具有对应关系的第二语义表征向量和加密信息中检索出所述第七语义表征向量所对应的目标信息。

根据本发明实施例的另一方面，还提供了一种信息的传输装置，包括：第一获取模块，用于获取待传输信息所对应的第一语义表征向量，其中，第一语义表征向量用于以句向量的形式表示待传输信息的信息内容和信息逻辑；第一加密模块，用于对第一语义表征向量进行加密，并对待传输信息进行加密，得到具有对应关系的第二语义表征向量和加密信息；第一传输模块，用于将具有对应关系的第二语义表征向量和加密信息传输至服务器，以指示服务器将第二语义表征向量设置为加密信息的检索索引。

可选地，第一获取模块包括：第一确定单元，用于通过目标神经网络模型确定待传输信息所对应的目标维度的第一语义表征向量，其中，目标神经网络模型是使用具有对应关系的信息样本和检索请求样本训练初始神经网络模型得到的，目标神经网络模型用于将输入到目标神经网络模型的信息转换为目标维度的句向量。

可选地，所述装置还包括：输入模块，用于将正样本、负样本和检索请求样本输入依次包括词嵌入层、平均层和多层感知机的初始神经网络模型，得到多层感知机输出的正样本对应的第三语义表征向量、负样本对应的第四语义表征向量和检索请求样本对应的第五语义表征向量，其中，词嵌入层用于将输入到词嵌入层的信息中包括的每个词转换为目标维度的一个词向量，平均层用于将词嵌入层输出的一个或者多个词向量转换为目标维度的一个平均向量，多层感知机用于将平均层输出的目标维度的一个平均向量转换为目标维度的一个句向量，目标维度的一个句向量作为输入到词嵌入层的信息所对应的语义表征向量；确定模块，用于确定第三语义表征向量与第五语义表征向量之间的第一相似度，以及第四语义表征向量与第五语义表征向量之间的第二相似度，其中，正样本为与检索请求样本之间的相似度为第一目标值的信息，负样本为与检索请求样本之间的相似度为第二目标值的信息，第一目标值用于表示正样本为与检索请求样本之间相关，第二目标值用于表示负样本为与检索请求样本之间无关；调整模块，用于根据第一相似度与第一目标值之间的关系和第二相似度与第二目标值之间的关系对多层感知机的网络参数进行调整，直至第一相似度与第一目标值之间的关系落入目标阈值，并且第二相似度与第二目标值之间的关系落入目标阈值，得到目标神经网络模型。

可选地，所述第一加密模块用于：使用检索秘钥对第一语义表征信息进行加密，并使用信息秘钥对待传输信息进行加密，得到具有对应关系的第二语义表征向量和加密信息。

可选地，所述第一加密模块包括：生成单元，用于生成(n+1)维的二进制向量S、(n+1)×(n+1)维的第一秘钥矩阵M1和(n+1)×(n+1)维的第二秘钥矩阵M2，其中，检索秘钥包括：秘钥向量S、第一秘钥矩阵M1和第二秘钥矩阵M2，第一语义表征向量di为n维向量；第一处理单元，用于将第一语义表征向量di标准化处理并扩充1个维度，得到第一扩充向量Di；第一拆分单元，用于将第一扩充向量Di拆分为第一子向量Di'和第二子向量Di”，其中，二进制向量S＝{s1，s2…，sj，…s(n+1)}，如果sj为1，则将对应位置j上的Dij随机分为两个和为Dij的数Dij'和Dij”，如果sj为0，则记Dij'＝Dij并且Dij”＝Dij，Di＝{Di'，Di”}；第二确定单元，用于根据第一子向量Di'、第二子向量Di”、第一秘钥矩阵M1和第二秘钥矩阵M2确定第二语义表征向量Ii，其中，第二语义表征向量Ii＝{M1^TDi'，M2^TDi”}。

可选地，所述装置还包括：第三获取模块，用于通过服务器获取目标加密检索请求，其中，目标加密检索请求为将接收到的目标检索请求转换为目标语义表征向量，再对目标语义表征向量进行加密得到的，目标语义表征向量用于以句向量的形式表示目标检索请求的信息内容和信息逻辑；第四获取模块，用于通过服务器从第二语义表征向量中获取与目标加密检索请求之间的相似度满足目标条件的语义表征向量；第五获取模块，用于通过服务器从加密信息中获取与目标加密检索请求之间的相似度满足目标条件的语义表征向量所对应的目标信息。

可选地，所述第五获取模块包括：排序单元，用于按照与目标加密检索请求之间的相似度从高到低对第二语义表征向量进行排序；获取单元，用于获取排在前N位的语义表征向量作为与目标加密检索请求之间的相似度满足目标条件的语义表征向量。

可选地，所述待传输信息包括：待传输文本文件，第一语义表征向量用于以句向量的形式表示待传输文本文件的文本内容和文本逻辑。

根据本发明实施例的另一方面，还提供了一种信息的传输装置，包括：第二获取模块，用于获取待检索请求所对应的第六语义表征向量，其中，待检索请求中携带有检索信息，第六语义表征向量用于以句向量的形式表示检索信息的信息内容和信息逻辑；第二加密模块，用于使用获取到的检索秘钥对第六语义表征向量进行加密，得到第七语义表征向量；第二传输模块，用于将第七语义表征向量传输至服务器，以指示服务器从具有对应关系的第二语义表征向量和加密信息中检索出第七语义表征向量所对应的目标信息。

可选地，所述第二获取模块用于：通过目标神经网络模型确定检索信息所对应的目标维度的第六语义表征向量，其中，目标神经网络模型是使用具有对应关系的信息样本和检索请求样本训练初始神经网络模型得到的，目标神经网络模型用于将输入到目标神经网络模型的信息转换为目标维度的句向量。

可选地，所述第二加密模块包括：第二处理单元，用于将第六语义表征向量qi标准化处理后乘以一个任意数r，并扩充1个维度，得到第二扩充向量Q，其中，Q＝(r*q/||q||，t)，r大于0，t为随机数；第二拆分单元，用于将第二扩充向量Q拆分为第三子向量Qj'和第四子向量Qj”，其中，检索秘钥包括：(n+t)维的二进制向量S、(n+1)×(n+1)维的第一秘钥矩阵M1和(n+1)×(n+1)维的第二秘钥矩阵M2，二进制向量S＝{s1，s2…，sj，…s(n+1)}，如果sj为1，则将对应位置j上的Qj随机分为两个和为Qj的数Qj'和Qj”；如果sj为1，则记Qj'＝Qj和Qj”＝Qj，Q＝{Q',Q”}；第三确定单元，用于根据第三子向量Qj'、第四子向量Qj”、第一秘钥矩阵M1和第二秘钥矩阵M2确定第七语义表征向量T，其中，第七语义表征向量T＝{M1^-1Q',M2^-1Q”}。

可选地，所述装置还包括：接收模块，用于接收服务器响应于第七语义表征向量返回的目标信息；解密模块，用于使用获取到的信息秘钥对目标信息进行解密。

根据本发明实施例的另一方面，还提供了一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项中所述的方法。

根据本发明实施例的另一方面，还提供了一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行上述任一项中所述的方法。

在本发明实施例中，采用获取待传输信息所对应的第一语义表征向量，其中，第一语义表征向量用于以句向量的形式表示待传输信息的信息内容和信息逻辑；对第一语义表征向量进行加密，并对待传输信息进行加密，得到具有对应关系的第二语义表征向量和加密信息；将具有对应关系的第二语义表征向量和加密信息传输至服务器，以指示服务器将第二语义表征向量设置为加密信息的检索索引的方式，通过第一语义表征向量以句向量的形式表示待传输信息的信息内容和信息逻辑，在节省了资源消耗的同时，提高了对待传输信息的表达效果，还能够降低信息的传输量，提高信息的传输效率，服务器使用对第一语义表征向量进行加密后得到的第二语义表征向量作为加密信息的检索索引，使得对加密信息的检索速度更快，从而实现了进行加密检索时提高信息的处理效率的技术效果，进而解决了相关技术中进行加密检索时信息的处理效率较低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的信息的传输方法的应用环境示意图；

图2是根据本发明实施例的一种可选的信息的传输方法的示意图；

图3是根据本发明可选的实施方式的一种可选的信息的传输方法的示意图；

图4是根据本发明实施例的另一种可选的信息的传输方法的示意图；

图5是根据本发明实施例的一种可选的信息的传输装置的示意图；

图6是根据本发明实施例的另一种可选的信息的传输装置的示意图；

图7是根据本发明实施例的一种可选的信息的传输方法的应用场景示意图一；

图8是根据本发明实施例的一种可选的信息的传输方法的应用场景示意图二；

图9是根据本发明实施例的一种可选的信息的传输方法的应用场景示意图三；以及

图10是根据本发明实施例的一种可选的电子装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

加密云数据检索的过程是这样的：数据提供或生产者将数据加密，并上传到云平台上，成为云数据；生产方将文件加密和检索请求加密的方式以密钥的形式发送给数据使用者；数据使用者输入所需数据的检索请求(可以是关键词，也可以是语句；如果是语句，则需要系统进行分词、提取命名体后，对所得关键词进行检索)，同时输入检索密钥，而后系统通过检索密钥对用户输入的检索请求进行同样方式的加密。在检索时，系统抽取数据库的加密关键词，将其与加密后的用户输入进行比对，根据比对的匹配程度排序，给出与用户需求最相符的材料。用户将所得材料下载后利用文件解锁密钥解密，即可得到对应数据。在此过程中，数据的具体内容、用户输入的请求、系统所做的检索方案均对云存储方不可见，从而达到了加密检索的目的。

现有的云数据检索方案绝大多数都源于对“基于加密云数据的多关键字排序搜索方案(Multi-keyword Randked Search over Encrypted cloud data，简称为MRSE)”的改进。这种技术的本质是基于TF-IDF和向量空间模型来做检索。在检索时，系统将关键词表示为加密后的向量，通过匹配、比对检索的多个关键词的词向量与云数据中各文档的关键词向量，排序找出最合适的云数据文档。

对于每一个文档，系统希望得到的是这样一些关键词，它既表示了本文档常见、而其它文档中不常见的词，也就是它的关键词。目前一般用的是词频-逆向文件频率(TF-IDF)技术。TF-IDF是一种常用的衡量字词重要性的参数，由词频(TF，term frequency)和逆向文件频率(IDF，inverse document frequency)相乘得到。其中词频指的是某一个给定的词语在该文件中出现的次数除以文章的总长度，表征了一个词在某一文档中出现的频率高低；逆向文件频率的主要思想是：如果包含词条t的文档越少，IDF越大，则说明词条具有很好的类别区分能力。某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到。

基于加密云数据的多关键字排序搜索方案(MRSE)以及基于它相关的改进方案在根本原理上决定了它们必然有以下缺陷：

首先，排序质量差。一方面，无论是数据存储端还是用户输入端，这种“提取关键词”的做法在某种程度上会不可避免得丢失一部分信息。一句话的句意仅靠关键词表示的话，不仅会丧失一部分逻辑关系，还会出现关键词提取不全、非关键词被提取的情况。这种提取时产生的误差严重降低了排序质量和用户体验。

另一方面，TF-IDF技术本身的缺陷也是不可忽视的。IDF的引入，其初衷是抑制某一文档内无意义高频词的负面影响，但是在总文档与关键词出现文档比值较大时，低频词将因此而被凸现出来。这里面有一个问题值得商榷：常见词并不等于无意义词，比如一些公众人物，热点事件等等，同样的，低频词的偶然出现将被当作高权值关键词，这样就过度放大了生僻词的重要性。

此外，此方式的维度灾难导致资源开销过大。目前在绝大多数MRSE方案中，关键词向量化的方法是独一法(one-hot)，也就是说统计所用文档关键词，将每个关键词作为向量的一个维度；针对每个文档建立一个向量，如果此文档有某些关键词，则在这些关键词的位置标1；其它关键词的位置则标0。那么，这一向量的长度完全依赖于数据库中所有文档的关键词的总数。一般情况下这个维度为上千维，也就是说当用户做检索时，需要使用上千维的向量和矩阵进行矩阵数学运算，其资源消耗情况可想而知。

针对这一紧迫的需求，在本实施例中，提出了一种信息加密检索的系统，该系统包括信息提供端、信息使用端和云服务器端，信息提供端用于采用本实施例提供的一种信息的传输方法传输加密信息，信息使用端用于采用本实施例提供的另一种信息的传输方法使用加密数据，云服务器端用于对信息提供端提供的加密数据进行存储，并根据信息使用端的请求将检索到的加密数据提供给信息使用端。通过本系统，在保障严格安全性的前提下，大幅提高了加密后云数据的检索质量，同时极大程度上减少了系统开销，在真实场景中有极强的适应性。

可选地，在本实施例中，所提供的信息的传输方法可以但不限于应用于如图1所示的第一设备102(相当于上述信息提供端)、第二设备104(相当于上述信息使用端)和服务器106(相当于上述云服务器端)所构成的硬件环境中。如图1所示，第一设备102获取待传输信息所对应的第一语义表征向量，其中，第一语义表征向量用于以句向量的形式表示待传输信息的信息内容和信息逻辑。第一设备102对第一语义表征向量进行加密，并对待传输信息进行加密，得到具有对应关系的第二语义表征向量和加密信息。第一设备102将具有对应关系的第二语义表征向量和加密信息传输至服务器。

第二设备104获取待检索请求所对应的第六语义表征向量，其中，待检索请求中携带有检索信息，第六语义表征向量用于以句向量的形式表示检索信息的信息内容和信息逻辑。第二设备104使用获取到的检索秘钥对第六语义表征向量进行加密，得到第七语义表征向量。第二设备104将第七语义表征向量传输至服务器。

服务器106将从第一设备102获取的第二语义表征向量设置为加密信息的检索索引。服务器106接收到第二设备104传输的第七语义表征向量后，从具有对应关系的第二语义表征向量和加密信息中检索出第七语义表征向量所对应的目标信息，并将目标信息传输给第二设备104。第二设备104使用获取到的信息秘钥对目标信息进行解密。

根据本发明实施例的一个方面，提供了一种信息的传输方法，如图2所示，该方法包括：

S202，获取待传输信息所对应的第一语义表征向量，其中，第一语义表征向量用于以句向量的形式表示待传输信息的信息内容和信息逻辑；

S204，对第一语义表征向量进行加密，并对待传输信息进行加密，得到具有对应关系的第二语义表征向量和加密信息；

S206，将具有对应关系的第二语义表征向量和加密信息传输至服务器，以指示服务器将第二语义表征向量设置为加密信息的检索索引。

可选地，在本实施例中，上述信息的传输方法可以但不限于应用于待传输信息的提供方。

可选地，在本实施例中，上述待传输信息可以但不限于包括：待传输文本文件，第一语义表征向量用于以句向量的形式表示待传输文本文件的文本内容和文本逻辑。

可选地，在本实施例中，上述待传输信息可以但不限于包括：待传输多媒体数据文件，第一语义表征向量用于以句向量的形式表示待传输多媒体数据文件的数据内容和数据逻辑。

可选地，在本实施例中，可以但不限于使用各种各样的加密方式对第一语义表征向量或者待传输信息进行加密，比如：对称式加密方式、非对称秘钥加密方式等等。

可选地，在本实施例中，第一语义表征向量可以但不限于包括一个或者多个句向量。每一个句向量的维度可以但不限于为目标维度，该目标维度可以但不限于是预先设定的，也可以但不限于是在训练过程中由系统自适应确定的。比如：每一个句向量可以但不限于为一个400维向量或者550维向量或者300维向量。

可见，通过上述步骤，通过第一语义表征向量以句向量的形式表示待传输信息的信息内容和信息逻辑，在节省了资源消耗的同时，提高了对待传输信息的表达效果，还能够降低信息的传输量，提高信息的传输效率，服务器使用对第一语义表征向量进行加密后得到的第二语义表征向量作为加密信息的检索索引，使得对加密信息的检索速度更快，从而实现了进行加密检索时提高信息的处理效率的技术效果，进而解决了相关技术中进行加密检索时信息的处理效率较低的技术问题。

作为一种可选的方案，获取待传输信息所对应的第一语义表征向量包括：

S1，通过目标神经网络模型确定待传输信息所对应的目标维度的第一语义表征向量，其中，目标神经网络模型是使用具有对应关系的信息样本和检索请求样本训练初始神经网络模型得到的，目标神经网络模型用于将输入到目标神经网络模型的信息转换为目标维度的句向量。

可选地，在本实施例中，信息样本可以但不限于是待传输信息中的信息。

作为一种可选的方案，在上述步骤S202之前，对初始神经网络模型进行训练从而得到目标神经网络模型，该训练过程可以但不限于包括以下步骤：

步骤1，将正样本、负样本和检索请求样本输入依次包括词嵌入层、平均层和多层感知机的初始神经网络模型，得到多层感知机输出的正样本对应的第三语义表征向量、负样本对应的第四语义表征向量和检索请求样本对应的第五语义表征向量；

步骤2，确定第三语义表征向量与第五语义表征向量之间的第一相似度，以及第四语义表征向量与第五语义表征向量之间的第二相似度；

步骤3，根据第一相似度与第一目标值之间的关系和第二相似度与第二目标值之间的关系对多层感知机的网络参数进行调整，直至第一相似度与第一目标值之间的关系落入目标阈值，并且第二相似度与第二目标值之间的关系落入目标阈值，得到目标神经网络模型。

可选地，在本实施例中，词嵌入层用于将输入到词嵌入层的信息中包括的每个词转换为目标维度的一个词向量，平均层用于将词嵌入层输出的一个或者多个词向量转换为目标维度的一个平均向量，多层感知机用于将平均层输出的目标维度的一个平均向量转换为目标维度的一个句向量，目标维度的一个句向量作为输入到词嵌入层的信息所对应的语义表征向量。

可选地，在本实施例中，正样本为与检索请求样本之间的相似度为第一目标值的信息，负样本为与检索请求样本之间的相似度为第二目标值的信息，第一目标值用于表示正样本为与检索请求样本之间相关，第二目标值用于表示负样本为与检索请求样本之间无关。

可选地，在本实施例中，上述初始神经网络模型可以但不限于采用如图3所示的有监督句子表示模型，在使用前，可以由数据提供方使用对应的训练数据对此模型进行预训练。该预训练过程为：首先进行数据准备。每一个请求Q(query)对应一组正相关样本和一组负相关样本；其中正样本为与此请求相关的信息，记作Di+；负样本为和此请求无关的信息，记作Dj-。将请求Q、正样本Di+和负样本Dj-分别经过词嵌入层和平均层进行向量化和求平均后，请求和其对应的正负相关的信息分别转换成一个300维的向量。将这些向量通过保持维度的多层感知机(MLP)后，即得到请求Q和正负样本信息的语义表征向量第五语义表征向量q、第三语义表征向量di+、第四语义表征向量dj-。这些句向量分别代表了来源文本的文本内容和文本逻辑。这个过程可以表示为以下数学形式：

y＝h(Wx+b)

其中x表示经过词嵌入层得到的词向量，W和b表示多层感知机网络的权重和偏差，h表示多层感知机的非线性激活函数(比如tanh为激活函数)，y表示激活后的句向量。

通过向量相乘求出请求Q与正负样本的相似度，训练模型使得请求Q与正样本的相似度为1，与负样本的相似度为0，则可得到一个能够用来自动匹配的检索模型。训练模型的目标函数为：

∑_(q，d)∈E+max(0，m-sim(q，d)+sim(q，d^-))

(qd^-)∈E^-

其中sim(.,.)代表相似度函数，用来求两个参数的相似程度。

作为一种可选的方案，对第一语义表征向量进行加密，并对待传输信息进行加密，得到具有对应关系的第二语义表征向量和加密信息包括：

S1，使用检索秘钥对第一语义表征信息进行加密，并使用信息秘钥对待传输信息进行加密，得到具有对应关系的第二语义表征向量和加密信息。

可选地，在本实施例中，可以但不限于采用以下方式对第一语义表征信息进行加密：

步骤a，生成(n+1)维的二进制向量S、(n+1)×(n+1)维的第一秘钥矩阵M1和(n+1)×(n+1)维的第二秘钥矩阵M2，其中，检索秘钥包括：秘钥向量S、第一秘钥矩阵M1和第二秘钥矩阵M2，第一语义表征向量di为n维向量；

步骤b，将第一语义表征向量di标准化处理并扩充1个维度，得到第一扩充向量Di；

步骤c，将第一扩充向量Di拆分为第一子向量Di'和第二子向量Di”，其中，二进制向量S＝{s1，s2…，sj，…s(n+1)}，如果sj为1，则将对应位置j上的Dij随机分为两个和为Dij的数Dij'和Dij”，如果sj为0，则记Dij'＝Dij并且Dij”＝Dij，Di＝{Di'，Di”}；

步骤d，根据第一子向量Di'、第二子向量Di”、第一秘钥矩阵M1和第二秘钥矩阵M2确定第二语义表征向量Ii，其中，第二语义表征向量Ii＝{M1^TDi'，M2^TDi”}。

在一个可选的实施方式中，可以但不限于采用以下方式生成密钥：记n为句子语义表征向量的维度(一般n在300-700之间，本实施方式中选取n＝300)，数据提供方需随机生成一个(n+1)维的二进制向量S，和两个(n+1)×(n+1)维的可逆矩阵{M1，M2}。将维度n扩充为n+1的做法可以但不限于来自于secure KNN模型。由此，得到了三元检索密钥K＝{S,M1,M2}；其与文件密钥sk共同构成了系统密钥SK＝{K，sk}。在使用数据时，数据提供方将此系统密钥提供给数据使用方，以达到加密云数据检索的目的。

将使用目标神经网络模型得到的表征待传输信息的第一语义表征向量di标准化并扩充一个维度，就得到了此信息所对应的初始文档向量Di。也就是说Di＝(di/||di||,1)。利用三元检索密钥K可将此初始文档向量分成互补的两部分，分别加密后得到此文档的加密索引Ii。加密过程为：对于上述随机生成的二进制向量S＝{s1,s2…s(n+1)}，如果sj为1，则将对应位置上的dij随机分为两个和为dij的数dij'和dij”；如果sj为0，则记dij'和dij”＝dij。由此，每个信息的初始向量Di都被表示为两个子向量{Di',Di”}。计算Ii＝{M1^TDi',M2^TDi”}，即得到此信息的加密索引Ii，也就是上述第二语义表征向量。

作为一种可选的方案，在将具有对应关系的第二语义表征向量和加密信息传输至服务器之后，还包括：

S1，服务器获取目标加密检索请求，其中，目标加密检索请求为将接收到的目标检索请求转换为目标语义表征向量，再对目标语义表征向量进行加密得到的，目标语义表征向量用于以句向量的形式表示目标检索请求的信息内容和信息逻辑；

S2，服务器从第二语义表征向量中获取与目标加密检索请求之间的相似度满足目标条件的语义表征向量；

S3，服务器从加密信息中获取与目标加密检索请求之间的相似度满足目标条件的语义表征向量所对应的目标信息。

可选地，在本实施例中，上述服务器可以但不限于包括云服务器。

可选地，在本实施例中，目标检索请求可以但不限于为语句、词语或者词组等等。也可以是音频、视频等信息。

可选地，在本实施例中，服务器可以但不限于通过以下方式获取满足目标条件的语义表征向量：

步骤A，服务器按照与目标加密检索请求之间的相似度从高到低对第二语义表征向量进行排序；

步骤B，服务器获取排在前N位的语义表征向量作为与目标加密检索请求之间的相似度满足目标条件的语义表征向量。

可选地，在本实施例中，N可以但不限于为正整数。

根据本发明实施例的另一个方面，提供了另一种信息的传输方法，如图4所示，该方法包括：

S402，获取待检索请求所对应的第六语义表征向量，其中，待检索请求中携带有检索信息，第六语义表征向量用于以句向量的形式表示检索信息的信息内容和信息逻辑；

S404，使用获取到的检索秘钥对第六语义表征向量进行加密，得到第七语义表征向量；

S406，将第七语义表征向量传输至服务器，以指示服务器从具有对应关系的第二语义表征向量和加密信息中检索出第七语义表征向量所对应的目标信息。

可选地，在本实施例中，上述信息的传输方法可以但不限于应用于信息的使用方。

可选地，在本实施例中，上述目标信息可以但不限于包括：加密的文本文件，目标信息所对应的第二语义表征向量是对第一语义表征向量进行加密得到的。第一语义表征向量用于以句向量的形式表示加密前的文本文件的文本内容和文本逻辑。

可选地，在本实施例中，上述目标信息还可以但不限于包括：多媒体数据文件等等。

可选地，在本实施例中，待检索请求可以但不限于包括语句、词语或者词组等等。也可以是音频、视频等信息。

可选地，在本实施例中，可以但不限于使用各种各样的加密方式对第六语义表征向量进行加密，比如：对称式加密方式、非对称秘钥加密方式等等。

可选地，在本实施例中，第六语义表征向量可以但不限于包括一个或者多个句向量。每一个句向量的维度可以但不限于为目标维度，该目标维度可以但不限于是预先设定的，也可以但不限于是在训练过程中由系统自适应确定的。比如：每一个句向量可以但不限于为一个400维向量或者550维向量或者300维向量。

可见，通过上述步骤，通过第六语义表征向量以句向量的形式表示待检索请求所携带的检索信息的信息内容和信息逻辑，在节省了资源消耗的同时，提高了对检索信息的表达效果，还能够降低信息的传输量，提高信息的传输效率，服务器使用对第六语义表征向量进行加密后得到的第七语义表征向量在加密信息的检索索引中进行检索得到目标信息，使得对加密信息的检索速度更快，从而实现了进行加密检索时提高信息的处理效率的技术效果，进而解决了相关技术中进行加密检索时信息的处理效率较低的技术问题。

作为一种可选的方案，获取待检索请求所对应的第六语义表征向量包括：

S1，通过目标神经网络模型确定检索信息所对应的目标维度的第六语义表征向量，其中，目标神经网络模型是使用具有对应关系的信息样本和检索请求样本训练初始神经网络模型得到的，目标神经网络模型用于将输入到目标神经网络模型的信息转换为目标维度的句向量。

可选地，在本实施例中，采用上述步骤1至步骤3对初始神经网络模型进行训练得到了目标神经网络模型。该目标神经网络模型包括两个分支，分支1是用于将检索请求转换为语义表征向量的。分支2是用于将待传输信息转换成语义表征向量。可以将分支1部署在信息使用端，将分支2部署在信息提供端。将检索方式以及相似度的计算方式部署在服务器端，以实现高效的信息加密检索。

作为一种可选的方案，使用获取到的检索秘钥对第六语义表征向量进行加密，得到第七语义表征向量包括：

S1，将第六语义表征向量qi标准化处理后乘以一个任意数r，并扩充1个维度，得到第二扩充向量Q，其中，Q＝(r*q/||q||，t)，r大于0，t为随机数；

S2，将第二扩充向量Q拆分为第三子向量Qj'和第四子向量Qj”，其中，检索秘钥包括：(n+1)维的二进制向量S、(n+1)×(n+1)维的第一秘钥矩阵M1和(n+1)×(n+1)维的第二秘钥矩阵M2，二进制向量S＝{s1，s2…，sj，…s(n+1)}，如果sj为1，则将对应位置j上的Qj随机分为两个和为Qj的数Qj'和Qj”；如果sj为1，则记Qj'＝Qj和Qj”＝Qj，Q＝{Q',Q”}；

S3，根据第三子向量Qj'、第四子向量Qj”、第一秘钥矩阵M1和第二秘钥矩阵M2确定第七语义表征向量T，其中，第七语义表征向量T＝{M1^-1Q',M2^-1Q”}。

可选地，在本实施例中，首先，将得到的表征待检索请求的第六语义表征向量q标准化，乘以一个任意数并扩充一个维度，就得到了此检索语句所对应的初始向量Q。也就是说Q＝(r*q/||q||，t)。值得指出的是，只有信息使用方知道r和t的值。这两个值并不影响排序，但能够伪装陷门，让云服务器和黑客无法探测出检索命令的实际含义。再通过和构建索引库时类似的过程分裂初始向量Q，可以得到此请求的加密陷门T。加密陷门的计算过程为：对于随机生成的二进制向量S＝{s1,s2…s(n+1)}，如果sj为0，则将对应位置上的qj随机分为两个和为qj的数qj'和qj”；如果sj为1，则记qj'和qj”＝qj。由此，用户请求的初始向量Q都被表示为两个子向量{Q',Q”}。计算T＝{M1^-1Q',M2^-1Q”}，即得到此请求的加密陷门T。

作为一种可选的方案，在将第七语义表征向量传输至服务器之后，还包括：

S1，接收服务器响应于第七语义表征向量返回的目标信息；

S2，使用获取到的信息秘钥对目标信息进行解密。

可选地，在本实施例中，服务器得到待检索请求的加密陷门T和云数据的文件加密索引列表I后，通过比对二者的相似性，比对出其中最相似的前k项返回给数据使用方，就完成了加密检索的目的。

可选地，在本实施例中，服务器可以但不限于通过以下公式确定第七语义表征向量与第二语义表征向量之间的相似度：

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

根据本发明实施例的另一个方面，还提供了一种用于实施上述信息的传输方法的信息的传输装置，如图5所示，该装置包括：

第一获取模块52，用于获取待传输信息所对应的第一语义表征向量，其中，第一语义表征向量用于以句向量的形式表示待传输信息的信息内容和信息逻辑；

第一加密模块54，用于对第一语义表征向量进行加密，并对待传输信息进行加密，得到具有对应关系的第二语义表征向量和加密信息；

第一传输模块56，用于将具有对应关系的第二语义表征向量和加密信息传输至服务器，以指示服务器将第二语义表征向量设置为加密信息的检索索引。

可选地，第一获取模块包括：

第一确定单元，用于通过目标神经网络模型确定待传输信息所对应的目标维度的第一语义表征向量，其中，目标神经网络模型是使用具有对应关系的信息样本和检索请求样本训练初始神经网络模型得到的，目标神经网络模型用于将输入到目标神经网络模型的信息转换为目标维度的句向量。

可选地，上述装置还包括：

输入模块，用于将正样本、负样本和检索请求样本输入依次包括词嵌入层、平均层和多层感知机的初始神经网络模型，得到多层感知机输出的正样本对应的第三语义表征向量、负样本对应的第四语义表征向量和检索请求样本对应的第五语义表征向量，其中，词嵌入层用于将输入到词嵌入层的信息中包括的每个词转换为目标维度的一个词向量，平均层用于将词嵌入层输出的一个或者多个词向量转换为目标维度的一个平均向量，多层感知机用于将平均层输出的目标维度的一个平均向量转换为目标维度的一个句向量，目标维度的一个句向量作为输入到词嵌入层的信息所对应的语义表征向量；

确定模块，用于确定第三语义表征向量与第五语义表征向量之间的第一相似度，以及第四语义表征向量与第五语义表征向量之间的第二相似度，其中，正样本为与检索请求样本之间的相似度为第一目标值的信息，负样本为与检索请求样本之间的相似度为第二目标值的信息，第一目标值用于表示正样本为与检索请求样本之间相关，第二目标值用于表示负样本为与检索请求样本之间无关；

调整模块，用于根据第一相似度与第一目标值之间的关系和第二相似度与第二目标值之间的关系对多层感知机的网络参数进行调整，直至第一相似度与第一目标值之间的关系落入目标阈值，并且第二相似度与第二目标值之间的关系落入目标阈值，得到目标神经网络模型。

可选地，第一加密模块用于：

使用检索秘钥对第一语义表征信息进行加密，并使用信息秘钥对待传输信息进行加密，得到具有对应关系的第二语义表征向量和加密信息。

可选地，第一加密模块包括：

生成单元，用于生成(n+1)维的二进制向量S、(n+1)×(n+1)维的第一秘钥矩阵M1和(n+1)×(n+1)维的第二秘钥矩阵M2，其中，检索秘钥包括：秘钥向量S、第一秘钥矩阵M1和第二秘钥矩阵M2，第一语义表征向量di为n维向量；

第一处理单元，用于将第一语义表征向量di标准化处理并扩充1个维度，得到第一扩充向量Di；

第一拆分单元，用于将第一扩充向量Di拆分为第一子向量Di'和第二子向量Di”，其中，二进制向量S＝{s1，s2…，sj，…s(n+1)}，如果sj为1，则将对应位置j上的Dij随机分为两个和为Dij的数Dij'和Dij”，如果sj为0，则记Dij'＝Dij并且Dij”＝Dij，Di＝{Di'，Di”}；

第二确定单元，用于根据第一子向量Di'、第二子向量Di”、第一秘钥矩阵M1和第二秘钥矩阵M2确定第二语义表征向量Ii，其中，第二语义表征向量Ii＝{M1^TDi'，M2^TDi”}。

可选地，上述装置还包括：

第三获取模块，用于通过服务器获取目标加密检索请求，其中，目标加密检索请求为将接收到的目标检索请求转换为目标语义表征向量，再对目标语义表征向量进行加密得到的，目标语义表征向量用于以句向量的形式表示目标检索请求的信息内容和信息逻辑；

第四获取模块，用于通过服务器从第二语义表征向量中获取与目标加密检索请求之间的相似度满足目标条件的语义表征向量；

第五获取模块，用于通过服务器从加密信息中获取与目标加密检索请求之间的相似度满足目标条件的语义表征向量所对应的目标信息。

可选地，第五获取模块包括：

排序单元，用于按照与目标加密检索请求之间的相似度从高到低对第二语义表征向量进行排序；

获取单元，用于获取排在前N位的语义表征向量作为与目标加密检索请求之间的相似度满足目标条件的语义表征向量。

可选地，待传输信息包括：待传输文本文件，第一语义表征向量用于以句向量的形式表示待传输文本文件的文本内容和文本逻辑。

根据本发明实施例的另一个方面，还提供了另一种用于实施上述信息的传输方法的信息的传输装置，如图6所示，该装置包括：

第二获取模块62，用于获取待检索请求所对应的第六语义表征向量，其中，待检索请求中携带有检索信息，第六语义表征向量用于以句向量的形式表示检索信息的信息内容和信息逻辑；

第二加密模块64，用于使用获取到的检索秘钥对第六语义表征向量进行加密，得到第七语义表征向量；

第二传输模块66，用于将第七语义表征向量传输至服务器，以指示服务器从具有对应关系的第二语义表征向量和加密信息中检索出第七语义表征向量所对应的目标信息。

可选地，第二获取模块用于：

通过目标神经网络模型确定检索信息所对应的目标维度的第六语义表征向量，其中，目标神经网络模型是使用具有对应关系的信息样本和检索请求样本训练初始神经网络模型得到的，目标神经网络模型用于将输入到目标神经网络模型的信息转换为目标维度的句向量。

可选地，第二加密模块包括：

第二处理单元，用于将第六语义表征向量qi标准化处理后乘以一个任意数r，并扩充1个维度，得到第二扩充向量Q，其中，Q＝(r*q/||q||，t)，r大于0，t为随机数；

第二拆分单元，用于将第二扩充向量Q拆分为第三子向量Qj'和第四子向量Qj”，其中，检索秘钥包括：(n+1)维的二进制向量S、(n+1)×(n+1)维的第一秘钥矩阵M1和(n+1)×(n+1)维的第二秘钥矩阵M2，二进制向量S＝{s1，s2…，sj，…s(n+1)}，如果sj为1，则将对应位置j上的Qj随机分为两个和为Qj的数Qj'和Qj”；如果sj为1，则记Qj'＝Qj和Qj”＝Qj，Q＝{Q',Q”}；

第三确定单元，用于根据第三子向量Qj'、第四子向量Qj”、第一秘钥矩阵M1和第二秘钥矩阵M2确定第七语义表征向量T，其中，第七语义表征向量T＝{M1^-1Q',M2^-1Q”}。

可选地，上述装置还包括：

接收模块，用于接收服务器响应于第七语义表征向量返回的目标信息；

解密模块，用于使用获取到的信息秘钥对目标信息进行解密。

本发明实施例的应用环境可以但不限于参照上述实施例中的应用环境，本实施例中对此不再赘述。本发明实施例提供了用于实施上述实时通信的连接方法的一种可选的具体应用示例。

作为一种可选的实施例，上述信息的传输方法可以但不限于应用于如图7所示的加密云数据检索的场景中。在云端大数据时代，数据安全在各种场景下尤为重要。无论是政府的敏感信息或医疗、保险等涉及个人基础隐私信息的行业信息，还是个体用户私人数据库中的个人信息(如私人照片云存储)，都需要严格的保密。一旦泄漏，后果不堪设想。在本场景中，所提供的加密云数据检索方案针对这一情况应运而生的数据库检索技术。通过数据加密，用户将加密后的数据上传至云平台，使用加密云数据检索方案对数据检索，然后下载数据并解密使用。这样，云平台上的数据无法被黑客或平台破解，用户可以安全的使用云平台进行数据存储。

根据数据上传方和数据使用方的不同，加密云数据主要有两种应用模式。一个是同一批用户自己上传且自己检索或下载使用，这种情况显然更针对个人用户的文件、材料、相片等个人资料的存储行为；另一个模式是两批用户，一方进行数据上传，一方进行数据检索和下载。这种情况一般发生在大型的数据库公司为其它公司提供数据的过程中。在第二种情况下，数据的上传和使用双方需要进行密钥的传递。

在本场景中，如图7所示，整个云数据检索系统主要包括三大模块：

云服务器：云服务器是一种第三方的，提供数据存储与检索服务的中间模块。为了降低维护数据的系统及人力开销，近年来越来越多的企业、政府选择将数据上传到云服务器中，由云服务器进行专业的数据维护。对于数据使用方，云服务器提供检索服务。接收到来自数据使用方的陷门后，云服务器将其与数据库中的文件索引I进行比对，计算出和检索请求最相关的前k个文件并返回给数据使用方。

数据提供方：主要为数据使用方提供数据。在加密检索系统中，为了保护数据在云上的隐私，同时防止黑客对数据进行盗窃，数据提供方在上传数据时需要首先进行加密。记加密后的文件为D，通过索引生成系统得到的文件索引为I。数据提供方需要同时将D和I上传至云服务器。同时，将对应的密钥发送给数据使用者。

数据使用方：数据使用方根据数据提供方发送的密钥和需要检索的信息生成对应的陷门(trap door)，并将其发送至云服务器。然后将得到云服务器返回的与检索请求相关的前k个加密文件。通过密钥，数据使用方可将得到的加密检索结果转化为明文。

上述加密数据检索的方式包括以下过程：

数据预处理过程：数据提供方对数据进行预处理，比如小写化、规范化等。本系统可以采用nltk工具包完成。

外部词嵌入过程：词嵌入，也就是将词语变成向量的过程。由于日常语言的词汇量大，表现形式丰富，不适合直接研究、计算，自然语言处理领域往往将词语或句子转化为向量的形式来做数学运算。词向量的生成方法很多，本场景中采用通过公共语料训练所得的GLoVe词嵌入模型生成词向量，每个词由300维向量表示。所有数据中出现的词的词向量构成了词向量矩阵We。

模型预训练过程：本场景采用如图3所示的有监督句子表示模型。在使用前，数据提供方需要使用对应的训练数据对此模型进行预训练。预训练的具体过程为：首先进行数据准备。每一个请求Q(query)对应一组正相关样本和一组负相关样本；其中正样本为与此请求相关的资料，记作Di+；负样本为与此请求无关的资料，记作Dj-。将它们分别向量化、求平均后，请求和其对应的正负相关的资料分别变成一个300维的向量。将这些向量通过保持维度的多层感知机(MLP)后，即得到请求Q和正负相关样本资料的语义表征向量q、di+、dj-。这些句向量代表了来源文本的文本内容和文本逻辑。这个过程可以表示为以下数学形式：

y＝h(Wx+b)

其中x表示经过词嵌入得到的词向量，W和b表示多层感知机网络的权重和偏差，h表示多层感知机的非线性激活函数(本场景中选用tanh为激活函数)，y表示激活后的句向量。

通过向量相乘求出请求Q与正负相关样本的相似度，训练模型使得请求Q与正相关样本的相似度为1，与负相关样本的相似度为0，则可得到一个能够用来自动匹配的检索模型。训练模型的目标函数为：

∑_(q，d)∈E+max(0，m-sim(q，d)+sim(q，d^-))

(q，d^-)∈E^-

其中sim(.,.)代表相似度函数，用来求两个参数的相似程度。

生成密钥过程：记n为句子语义表征向量的维度(一般n在300-700之间，本场景中选取n＝300)，数据提供方需随机生成一个(n+1)维的二进制向量S，和两个(n+1)×(n+1)维的可逆矩阵{M1,M2}。将维度n扩充为n+1的做法来自于secure KNN模型。由此，得到了三元检索密钥K＝{S,M1,M2}；它与文件密钥sk共同构成了系统密钥SK＝{K,sk}。在使用数据时，数据提供方将此系统密钥提供给数据使用方，以达到加密云数据检索的目的。

构建索引库过程：首先，将上述得到的表征文档资料的向量di标准化并扩充一个维度，就得到了此文档所对应的初始文档向量Di。也就是说Di＝(di/||di||，1)。利用三元检索密钥K可将此初始文档向量分成互补的两部分，分别加密后得到此文档的加密索引Ii。加密过程为：对于上述随机生成的二进制向量S＝{s1,s2…s(n+1)}，如果sj为1，则将对应位置上的dij随机分为两个和为dij的数dij’和dij”；如果sj为0，则记dij'和dij”＝dij。由此，每个文档的初始向量Di都被表示为两个子向量{Di’,Di”}。计算Ii＝{M1^TDi’,M2^TDi”}，即得到此文档的加密索引Ii。

生成陷门过程：首先，将上述得到的表征用户检索请求的向量q标准化，乘以一个任意数并扩充一个维度，就得到了此检索语句所对应的初始向量Q。也就是说Q＝(r*q/||q||,t)。值得指出的是，只有数据使用方知道r和t的值。这两个值并不影响排序，但他们能够伪装陷门，让云服务器和黑客无法探测出检索命令的实际含义。再通过和构建索引库时类似的过程分裂检索语句向量，可以得到此请求的加密陷门T。加密陷门的计算过程为：对于上述随机生成的二进制向量S＝{s1,s2…s(n+1)}，如果sj为0，则将对应位置上的qj随机分为两个和为qj的数qj’和qj”；如果sj为1，则记qj'和qj”＝qj。由此，用户请求的初始向量Q都被表示为两个子向量{Q’,Q”}。计算T＝{M1^-1Q’,M2^-1Q”}，即得到此请求的加密陷门T。

请求的检索过程：云服务器得到用户请求的加密陷门T和云数据的文件加密索引列表I后，通过比对二者的相似性，比对出其中最相似的前k项返回给数据使用方，就完成了加密检索的目的。相似性分数的计算方式如下。可以看出，在生成陷门时所用到的参数r和t对排序的顺序没有影响。

可选地，在本实施例中，可以使用其它方法生成索引集或陷门。例如，可使用同态加密方案来代替本文的secure knn技术；

可选地，在本实施例中，在对检索内容进行排序时，可使用其它排序方案，以进一步改进检索效果。例如：使用learning2rank技术进一步完善基于语言模型的检索方案。也可以使用其它神经网络模型如HAN、BERT等。

针对相关技术的缺点，考虑到增强加密云数据检索方案的实用性，本场景汇总提供了一种从根本上与MRSE技术不同的加密检索系统，从而在保障数据安全性的前提下实现了快速、高效、准确的加密检索。通过本场景所提供的上述方式：

首次使用有监督的方法，通过深度神经网络学习出能够表征句子的句向量。此向量不仅可以表征句子中的词语、不同词语的权重，还学习到了句子中不同成分之间的逻辑关系。

能够支持基于语义相似的智能搜索，而不仅仅是基于关键字的搜索。学习到句向量后，可以通过计算句向量之间的相似度，给出合理的搜索排序结果。

极大程度上减小了存储向量的维度。在本场景中，云数据库中的每一个文档均由一个300维的向量表示，用户输入的检索语句也由300维的向量表示。相比于传统方法中动辄上千维的向量，这种表示方法既加快了运算速度，也减轻了存储和计算负担。

上述系统实现了轻量级搜索，系统开销小。在构建索引库、构建陷门、执行检索请求等多方面均实现精简化、深度化，同时实现了快速和轻量的特点，大大推进了加密云数据检索的实用化进程。

如图8所示为不同维度、不同文档数时，生成索引和陷门所需的时间。其中，加密检索的方案包括：传统方法MRSE的两种主要改进，细粒度多关键词聚类搜索搜索(FMSCS)，以及上述系统提出的基于神经网络语言模型的加密方案。左上坐标系表示1000个文档的情况下，使用不同维度向量生成索引所需时间；右上坐标系表示固定向量长度时，对不同文档数生成索引所需时间；左下坐标系表示不同维度向量生成陷门所需时间；右下坐标系表示不同用户请求语句长度对应的生成陷门所需时间。可以看到，上述方案不仅在各项时间消耗上远低于其它方法，还能够在向量维度上升时保持平缓的线性增长速度，在大型云数据的场景下有极高的应用价值。

上述系统还能够精准搜索，支持模糊智能搜索，使得用户体验好。由于使用句向量的形式对文档和用户输入的检索语句进行表示，保留了句子中的主要词意和逻辑结构，其搜索准确度远高于传统方法。尤其是当用户输入的检索语句长度增加、结构复杂时，本系统准确性优势更加明显。同时，本系统还支持模糊智能搜索，支持对近义词、口语词的匹配搜索。如图9所示为各主流方案的NDCG结果，NDCG值用来衡量推荐质量，在0-1之间，数值越大推荐效果越好，可见本系统比目前最优方案高0.4～0.6。

此外，上述系统还能够保障高安全性，对敏感数据全面保护。可从原理上对系统安全性、加密不可破解性进行严格的证明，保障云数据的安全。

根据本发明实施例的又一个方面，还提供了一种用于实施上述信息的传输方法的电子装置，如图10所示，该电子装置包括：一个或多个(图中仅示出一个)处理器1002、存储器1004、传感器1006、编码器1008以及传输装置1010，该存储器中存储有计算机程序，该处理器被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取待传输信息所对应的第一语义表征向量，其中，第一语义表征向量用于以句向量的形式表示待传输信息的信息内容和信息逻辑；

S2，对第一语义表征向量进行加密，并对待传输信息进行加密，得到具有对应关系的第二语义表征向量和加密信息；

S3，将具有对应关系的第二语义表征向量和加密信息传输至服务器，以指示服务器将第二语义表征向量设置为加密信息的检索索引。

可选地，在本实施例中，上述处理器还可以被设置为通过计算机程序执行以下步骤：

S1，获取待检索请求所对应的第六语义表征向量，其中，待检索请求中携带有检索信息，第六语义表征向量用于以句向量的形式表示检索信息的信息内容和信息逻辑；

S2，使用获取到的检索秘钥对第六语义表征向量进行加密，得到第七语义表征向量；

S3，将第七语义表征向量传输至服务器，以指示服务器从具有对应关系的第二语义表征向量和加密信息中检索出第七语义表征向量所对应的目标信息。

可选地，本领域普通技术人员可以理解，图10所示的结构仅为示意，电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图10其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图10中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图10所示不同的配置。

其中，存储器1002可用于存储软件程序以及模块，如本发明实施例中的信息的传输方法和装置对应的程序指令/模块，处理器1004通过运行存储在存储器1002内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的目标组件的控制方法。存储器1002可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1002可进一步包括相对于处理器1004远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述的传输装置1010用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1010包括一个网络适配器(NetworkInterface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1010为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

其中，具体地，存储器1002用于存储应用程序。

本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

可选地，在本实施例中，上述存储介质还可以被设置为存储用于执行以下步骤的计算机程序：

可选地，存储介质还被设置为存储用于执行上述实施例中的方法中所包括的步骤的计算机程序，本实施例中对此不再赘述。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种信息的传输方法，其特征在于，包括：

使用目标神经网络模型获取待传输信息所对应的第一语义表征向量，其中，所述第一语义表征向量用于以句向量的形式表示所述待传输信息的信息内容和信息逻辑，所述待传输信息为待传输文本文件或待传输多媒体数据文件，所述目标神经网络模型用于在输入所述待传输信息的情况下，使用所述目标神经网络模型的词嵌入层将输入到所述词嵌入层的所述待传输信息中包括的每个词转换为目标维度的一个词向量，使用所述目标神经网络模型的平均层将所述词嵌入层输出的一个或者多个词向量转换为所述目标维度的一个平均向量，使用所述目标神经网络模型的多层感知机将所述平均层输出的所述目标维度的一个平均向量转换为所述目标维度的一个句向量；

对所述第一语义表征向量进行加密，并对所述待传输信息进行加密，得到具有对应关系的第二语义表征向量和加密信息；

将具有对应关系的所述第二语义表征向量和所述加密信息传输至服务器，以指示所述服务器将所述第二语义表征向量设置为所述加密信息的检索索引。

2.根据权利要求1所述的方法，其特征在于，所述目标神经网络模型是使用具有对应关系的信息样本和检索请求样本训练初始神经网络模型得到的，所述目标神经网络模型用于将输入到所述目标神经网络模型的信息转换为目标维度的句向量。

3.根据权利要求2所述的方法，其特征在于，在获取待传输信息所对应的第一语义表征向量之前，所述方法还包括：

将正样本、负样本和检索请求样本输入依次包括词嵌入层、平均层和多层感知机的所述初始神经网络模型，得到所述多层感知机输出的所述正样本对应的第三语义表征向量、所述负样本对应的第四语义表征向量和所述检索请求样本对应的第五语义表征向量，其中，所述词嵌入层用于将输入到所述词嵌入层的信息中包括的每个词转换为所述目标维度的一个词向量，所述平均层用于将所述词嵌入层输出的一个或者多个词向量转换为所述目标维度的一个平均向量，所述多层感知机用于将所述平均层输出的所述目标维度的一个平均向量转换为所述目标维度的一个句向量，所述目标维度的一个句向量作为输入到所述词嵌入层的信息所对应的语义表征向量；

确定所述第三语义表征向量与所述第五语义表征向量之间的第一相似度，以及所述第四语义表征向量与所述第五语义表征向量之间的第二相似度，其中，所述正样本为与所述检索请求样本之间的相似度为第一目标值的信息，所述负样本为与所述检索请求样本之间的相似度为第二目标值的信息，所述第一目标值用于表示所述正样本为与所述检索请求样本之间相关，所述第二目标值用于表示所述负样本为与所述检索请求样本之间无关；

根据所述第一相似度与所述第一目标值之间的关系和所述第二相似度与所述第二目标值之间的关系对所述多层感知机的网络参数进行调整，直至所述第一相似度与所述第一目标值之间的关系落入目标阈值，并且所述第二相似度与所述第二目标值之间的关系落入所述目标阈值，得到所述目标神经网络模型。

4.根据权利要求1所述的方法，其特征在于，对所述第一语义表征向量进行加密，并对所述待传输信息进行加密，得到具有对应关系的所述第二语义表征向量和所述加密信息包括：

使用检索秘钥对所述第一语义表征向量进行加密，并使用信息秘钥对所述待传输信息进行加密，得到具有对应关系的所述第二语义表征向量和所述加密信息。

5.根据权利要求4所述的方法，其特征在于，使用所述检索秘钥对所述第一语义表征向量进行加密包括：

生成（n+1）维的二进制向量S、（n+1）×（n+1）维的第一秘钥矩阵M1和（n+1）×（n+1）维的第二秘钥矩阵M2，其中，所述检索秘钥包括：二进制向量S、所述第一秘钥矩阵M1和所述第二秘钥矩阵M2，所述第一语义表征向量为n维向量；

将所述第一语义表征向量标准化处理并扩充1个维度，得到第一扩充向量Di；

将所述第一扩充向量Di拆分为第一子向量Di'和第二子向量Di''，其中，二进制向量S= {s1，s2 …，sj，…s(n+1)}，如果sj为1，则将对应位置j上的Dij随机分为两个和为Dij的数Dij'和Dij''，如果sj为0，则记Dij' = Dij并且Dij'' = Dij，Di={Di'，Di''}；

根据所述第一子向量Di'、所述第二子向量Di''、第一秘钥矩阵M1和第二秘钥矩阵M2确定所述第二语义表征向量，其中，所述第二语义表征向量= {M1^TDi'，M2^TDi''}。

6.根据权利要求1所述的方法，其特征在于，在将具有对应关系的所述第二语义表征向量和所述加密信息传输至服务器之后，所述方法还包括：

所述服务器获取目标加密检索请求，其中，所述目标加密检索请求为将接收到的目标检索请求转换为目标语义表征向量，再对所述目标语义表征向量进行加密得到的，所述目标语义表征向量用于以句向量的形式表示所述目标检索请求的信息内容和信息逻辑；

所述服务器从所述第二语义表征向量中获取与所述目标加密检索请求之间的相似度满足目标条件的语义表征向量；

所述服务器从所述加密信息中获取与所述目标加密检索请求之间的相似度满足所述目标条件的语义表征向量所对应的目标信息。

7.根据权利要求6所述的方法，其特征在于，所述服务器从所述第二语义表征向量中获取与所述目标加密检索请求之间的相似度满足目标条件的语义表征向量包括：

所述服务器按照与所述目标加密检索请求之间的相似度从高到低对所述第二语义表征向量进行排序；

所述服务器获取排在前N位的语义表征向量作为与所述目标加密检索请求之间的相似度满足所述目标条件的语义表征向量。

8.根据权利要求1至7中任一项所述的方法，其特征在于，所述待传输信息为待传输文本文件的情况下，所述第一语义表征向量用于以句向量的形式表示所述待传输文本文件的文本内容和文本逻辑。

9.一种信息的传输方法，其特征在于，包括：

获取待检索请求所对应的第六语义表征向量，其中，所述待检索请求中携带有检索信息，所述第六语义表征向量用于以句向量的形式表示所述检索信息的信息内容和信息逻辑；

使用获取到的检索秘钥对所述第六语义表征向量进行加密，得到第七语义表征向量；

将所述第七语义表征向量传输至服务器，以指示所述服务器从具有对应关系的第二语义表征向量和加密信息中检索出所述第七语义表征向量所对应的目标信息；

其中，所述获取待检索请求所对应的第六语义表征向量包括：使用目标神经网络模型获取所述第六语义表征向量，所述目标神经网络模型用于在输入所述待检索请求的情况下，使用所述目标神经网络模型的词嵌入层将输入到所述词嵌入层的所述待检索请求中包括的每个词转换为目标维度的一个词向量，使用所述目标神经网络模型的平均层将所述词嵌入层输出的一个或者多个词向量转换为所述目标维度的一个平均向量，使用所述目标神经网络模型的多层感知机将所述平均层输出的所述目标维度的一个平均向量转换为所述目标维度的一个句向量。

10.根据权利要求9所述的方法，其特征在于，所述目标神经网络模型是使用具有对应关系的信息样本和检索请求样本训练初始神经网络模型得到的，所述目标神经网络模型用于将输入到所述目标神经网络模型的信息转换为目标维度的句向量。

11.根据权利要求9所述的方法，其特征在于，使用获取到的所述检索秘钥对所述第六语义表征向量进行加密，得到所述第七语义表征向量包括：

将所述第六语义表征向量标准化处理后乘以一个任意数r，并扩充1个维度，得到第二扩充向量Q，其中，Q = (r * q / ||q||，t)，r大于0，t为随机数，所述q为所述第六语义表征向量；

将所述第二扩充向量Q拆分为第三子向量Qj'和第四子向量Qj''，其中，所述检索秘钥包括：（n+1）维的二进制向量S、（n+1）×（n+1）维的第一秘钥矩阵M1和（n+1）×（n+1）维的第二秘钥矩阵M2，二进制向量S = {s1，s2 …，sj，…s(n+1)}，如果sj为1，则将对应位置j上的Qj随机分为两个和为Qj的数Qj'和Qj''；如果sj为1，则记Qj'= Qj和Qj'' = Qj，Q={Qj',Qj''}；

根据所述第三子向量Qj'、第四子向量Qj''、第一秘钥矩阵M1和第二秘钥矩阵M2确定所述第七语义表征向量，其中，所述第七语义表征向量 = {M1^-1Qj', M2^-1Qj''}。

12.根据权利要求9所述的方法，其特征在于，在将所述第七语义表征向量传输至服务器之后，所述方法还包括：

接收所述服务器响应于所述第七语义表征向量返回的所述目标信息；

使用获取到的信息秘钥对所述目标信息进行解密。

13.一种信息的传输装置，其特征在于，包括：

第一获取模块，用于使用目标神经网络模型获取待传输信息所对应的第一语义表征向量，其中，所述第一语义表征向量用于以句向量的形式表示所述待传输信息的信息内容和信息逻辑，所述目标神经网络模型用于在输入所述待传输信息的情况下，使用所述目标神经网络模型的词嵌入层将输入到所述词嵌入层的所述待传输信息中包括的每个词转换为目标维度的一个词向量，使用所述目标神经网络模型的平均层将所述词嵌入层输出的一个或者多个词向量转换为所述目标维度的一个平均向量，使用所述目标神经网络模型的多层感知机将所述平均层输出的所述目标维度的一个平均向量转换为所述目标维度的一个句向量；

第一加密模块，用于对所述第一语义表征向量进行加密，并对所述待传输信息进行加密，得到具有对应关系的第二语义表征向量和加密信息；

第一传输模块，用于将具有对应关系的所述第二语义表征向量和所述加密信息传输至服务器，以指示所述服务器将所述第二语义表征向量设置为所述加密信息的检索索引。

14.一种信息的传输装置，其特征在于，包括：

第二获取模块，用于获取待检索请求所对应的第六语义表征向量，其中，所述待检索请求中携带有检索信息，所述第六语义表征向量用于以句向量的形式表示所述检索信息的信息内容和信息逻辑；

第二加密模块，用于使用获取到的检索秘钥对所述第六语义表征向量进行加密，得到第七语义表征向量；

第二传输模块，用于将所述第七语义表征向量传输至服务器，以指示所述服务器从具有对应关系的第二语义表征向量和加密信息中检索出所述第七语义表征向量所对应的目标信息；

其中，所述装置还用于使用目标神经网络模型获取所述第六语义表征向量，所述目标神经网络模型用于在输入所述待检索请求的情况下，使用所述目标神经网络模型词嵌入层将输入到所述词嵌入层的所述待检索请求中包括的每个词转换为目标维度的一个词向量，使用所述目标神经网络模型的平均层将所述词嵌入层输出的一个或者多个词向量转换为所述目标维度的一个平均向量，使用所述目标神经网络模型的多层感知机将所述平均层输出的所述目标维度的一个平均向量转换为所述目标维度的一个句向量。

15.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至12任一项中所述的方法。