CN117235121B

CN117235121B - 一种能源大数据查询方法和系统

Info

Publication number: CN117235121B
Application number: CN202311514910.7A
Authority: CN
Inventors: 汪鹏; 王圆圆; 鞠立伟; 齐鑫; 宋大为; 王世谦; 韩丁; 卜飞飞; 赵蒙恩; 聂保瑞; 贾一博; 华远鹏; 张哲宇; 王涵; 李秋燕
Original assignee: North China Electric Power University; Economic and Technological Research Institute of State Grid Henan Electric Power Co Ltd
Current assignee: North China Electric Power University; Economic and Technological Research Institute of State Grid Henan Electric Power Co Ltd
Priority date: 2023-11-15
Filing date: 2023-11-15
Publication date: 2024-02-20
Anticipated expiration: 2043-11-15
Also published as: CN117235121A

Abstract

本发明涉及一种能源大数据查询方法和系统，属于大数据技术领域，解决由于查询关键词与精确关键词之间的语义差异而导致实际查询内容与期待查询内容差异较大的问题。该方法包括：基于原始查询文本利用编码器神经网络模型生成第一关键词集合并利用PIR技术将第一关键词集合发送给数据拥有者；根据第一关键词集合在关键词索引数据库中选择精确查询关键词以生成第二关键词集合并返回数据查询者；再次利用PIR技术将第二关键词集合发送到数据拥有者，然后基于第二关键词集合在能源大数据库中进行检索并将加密的私有数据查询结果返回给数据查询者，数据拥有者包括关键词索引数据库和能源大数据库。根据查询关键词在关键词索引数据库中选择精确查询关键词。

Description

一种能源大数据查询方法和系统

技术领域

本发明涉及大数据技术领域，尤其涉及一种能源大数据查询方法和系统。

背景技术

能源大数据涵盖煤炭、电力、石油等行业性生产与消费全过程数据，以及气象、环境、交通等公共数据。能源大数据分属于不同的领域，归属于不同的主体，拥有能源大数据的机构或个人由于数据可能会涉及到个人秘密、商业秘密，数据存在共享阻碍，数据价值难以得到释放。能源大数据产品通常可以分为两类，一类为能源大数据的查询类产品，一类为能源大数据建模类产品。能源大数据查询产品主要提供个人数据、行业数据和公共数据的查询服务；能源大数据建模类产品主要用于数据建模工作。本发明实施例聚焦能源大数据查询类产品，为能源大数据查询提供一种技术方案。能源大数据查询者期望从能源大数据拥有者查询所需要的数据，数据查询者根据查询索引或者查询关键词从数据拥有者的数据库获取所需的数据，但不希望数据拥有者知晓查询索引或查询关键词的信息，且能源大数据拥有者也不想数据查询者获得查询索引或查询关键词所对应查询内容之外的数据信息。

私有信息检索（Private Information Retrieval，PIR）可以为上述应用提供解决思路。但现有私有信息检索技术要求数据查询者提供查询索引或查询关键词，而实际应用中，能源大数据查询者根据自身的查询需求而提出查询文本，如何对根据查询文本生成关键词成为PIR实用化的重要前提。同时，为进一步匹配数据查询者的查询需求，需要将查询关键词与数据拥有者的精确关键词进行匹配，因此，需要考虑如何在保护查询秘密的同时获取精确关键词。

发明内容

鉴于上述的分析，本发明实施例旨在提供一种能源大数据查询方法和装置，用以解决由于查询关键词与精确关键词之间的语义差异而导致实际查询内容与期待查询内容差异较大并将增加密文关键词查询时间等问题。

一方面，本发明实施例提供了一种能源大数据查询方法，包括：基于原始查询文本利用编码器神经网络模型生成第一关键词集合并利用私有信息检索PIR技术将所述第一关键词集合发送给数据拥有者，所述编码器神经网络模型包括Transformer子模型和CNN子模型，其中，通过所述Transformer子模型获取所述原始查询文本的全局语义特征；以及通过所述CNN子模型提取局部语义特征；根据所述第一关键词集合在关键词索引数据库中选择精确查询关键词以生成第二关键词集合并返回数据查询者；以及再次利用私有信息检索PIR技术将所述第二关键词集合发送到所述数据拥有者，然后基于所述第二关键词集合在能源大数据库中进行检索并将加密的私有数据查询结果返回给所述数据查询者，其中，所述数据拥有者包括所述关键词索引数据库和所述能源大数据库。

上述技术方案的有益效果如下：根据第一关键词集合中的查询关键词在关键词索引数据库中选择精确查询关键词以生成第二关键词集合，然后利用精确查询关键词在能源大数据库中进行检索，能够获得精确的查询内容。通过二次私有信息检索PIR技术能够保护数据查询者的查询关键词，从而避免数据拥有者获取数据查询者的查询偏好，同时数据拥有者可以保护自身秘密，避免数据查询者获取其他数据信息，也可以降低传统PIR技术仅采用第一关键词检索而产生的查询开销。

基于上述方法的进一步改进，基于原始查询文本利用编码器神经网络模型生成第一关键词集合进一步包括：通过所述Transformer子模型将原始查询文本序列中的每个单词通过嵌入层映射为低维嵌入向量作为所述Transformer子模型的输入，利用多头自注意力机制产生上下文向量，并且将所述编码器输出层输出的上下文向量序列通过解码器生成关键词作为所述全局语义特征；通过所述CNN子模型获得多组抽取式特征作为所述局部语义特征；采用ReLU激活函数分别对所述全局语义特征和所述局部语义特征进行变换，通过互注意力机制获得相互学习的N组受局部语义影响的全局语义特征和N组受全局语义影响的局部语义特征以对所述全局语义特征与所述局部语义特征进行交叉修正，然后将所述全局语义特征和所述局部语义特征进行融合作为解码器的输入；以及通过所述解码器对融合的全局语义特征和所述局部语义特征进行解密以生成所述第一关键词集合。

基于上述方法的进一步改进，将原始查询文本序列中的每个单词通过嵌入层映射为低维嵌入向量作为所述Transformer子模型的输入进一步包括：通过所述嵌入层将所述原始查询文本中的每个单词的词向量及其相应的绝对位置编码转换为固定维度的向量；以及将所述绝对位置编码和所述词向量相加以形成所述Transformer子模型的输入。

基于上述方法的进一步改进，通过以下公式表示所述Transformer子模型在第个单词处所输入的嵌入向量为：

；

其中，是词嵌入向量，/>是位置嵌入向量；

通过以下公式表示所述全局语义特征H：

；

其中，m为所述原始查询文本序列的总长度，为第t个单词在第L层的输出向量，；

通过以下公式表示所述局部语义特征S：

；

其中，为第t个单词在卷积核为n时的输出向量；

通过以下公式表示采用所述ReLU激活函数分别对所述全局语义特征和所述局部语义特征进行变换：

；

,n=1,2,…,N；

LN表示层归一化函数，W_H、b_H、、/>是可学习的参数；

通过以下公式表示交叉修正的全局语义特征和局部语义特征：

,n=1,2,…,N；

其中，T为向量的转置符号；

通过以下公式表示所述解码器神经网络模型的输出：

；

其中，为目标序列在L层输出的第t个关键词向量。

基于上述方法的进一步改进，根据所述第一关键词集合在关键词索引数据库中选择精确查询关键词以生成第二关键词集合并返回数据查询者包括：从所述第一关键词集合中提取查询关键词；将所述查询关键词匹配到所述关键词索引数据库中内置的精确关键词，以基于所述查询关键词从所述关键词索引数据库中查找一个或多个精确关键词；将所述一个或多个精确关键词存储在所述第二关键词集合；重复查询关键词提取和匹配步骤，直到遍历所述第一关键词集合并且获取与所述第一关键词集合相对应的第二关键词集合；以及利用私有信息检索PIR技术对所述第二关键词集合进行加密并将加密的第二关键词集合返回所述数据查询者。

基于上述方法的进一步改进，利用私有信息检索PIR技术将所述第一关键词集合发送给数据拥有者进一步包括：通过服务器端对多个查询关键词的明文数据集进行拉格朗日多项式插值，以生成插值多项式和标识多项式，其中，第i个查询关键词的插值多项式为零并且所述标识多项式为第i个查询关键词对应的查询内容；采用paillier算法生成同态加密公钥和私钥；以及利用所述公钥对所述多个查询关键词的明文数据集进行加密并将加密的待查关键字发送给所述数据拥有者。

基于上述方法的进一步改进，利用私有信息检索PIR技术将所述第一关键词集合发送给数据拥有者进一步包括：通过以下公式对所述明文数据集进行拉格朗日多项式插值，插值结果为：

；

通过以下公式生成以下标识多项式：

；

其中，a₀,a₁,…,a_n、c₀,c₁,…,c_n为多项式系数，x为自变量且x_t为所述查询关键词，对于任意的数据，满足，/>；随机选择第一质数p和第二质数q；基于所述第一质数p和所述第二质数q计算乘积n=pq并基于p-1和q-1计算最小公倍数λ=lcm(p-1,q-1)；随机选择整数/>，令g=n+1，同时定义函数/>并计算；以及基于所述乘积和所述整数g得到公钥pk=(n,g)和私钥sk=(λ,μ)；利用所述公钥pk对所述多个查询关键词进行加密以获得所述第一关键词集合。

基于上述方法的进一步改进，利用所述公钥对所述多个查询关键词的明文数据集进行加密并将加密的待查关键字发送给所述数据拥有者包括：所述数据拥有者利用密文向量E(x_t)、F(x_t)和H(x_t)系数分别计算同态密文E(F(x_t))、E(H(x_t))并将计算结果发送给所述数据查询者；以及通过以下公式利用私钥sk对所述同态密文进行解密：，并且解密结果为F(x_t)、 H(x_t)，c的取值为E(F(x_t))、E(H(x_t))，当解密结果F(x_t)为0时， H(x_t)为检索结果。

另一方面，本发明实施例提供了一种能源大数据查询系统，包括：编码器神经网络模型，用于基于原始查询文本生成第一关键词集合，所述编码器神经网络模型包括Transformer子模型和CNN子模型，其中，通过所述Transformer子模型获取所述原始查询文本的全局语义特征；以及通过所述CNN子模型提取局部语义特征；精确关键词选择模块，用于根据所述第一关键词集合在关键词索引数据库中选择精确查询关键词以生成第二关键词集合并返回数据查询者；加密模块，用于利用私有信息检索PIR技术将所述第一关键词集合发送给数据拥有者，以及再次利用私有信息检索PIR技术将第二关键词集合发送到所述数据拥有者；数据检索模块，用于基于所述第二关键词集合在能源大数据库中进行检索；以及检索结果获取模块，用于将加密的私有数据查询结果返回给所述数据查询者，其中，所述数据拥有者包括所述关键词索引数据库和所述能源大数据库。

基于上述装置的进一步改进，编码器神经网络模型进一步包括：交叉修正模块和解码器，其中，所述Transformer子模型，用于将原始查询文本序列中的每个单词通过嵌入层映射为低维嵌入向量作为所述Transformer子模型的输入，利用多头自注意力机制产生上下文向量，并且将所述编码器输出层输出的上下文向量序列通过解码器生成关键词作为所述全局语义特征；以及所述CNN子模型，用于获得多组抽取式特征作为所述局部语义特征；所述交叉修正模块，用于采用ReLU激活函数分别对所述全局语义特征和所述局部语义特征进行变换，通过互注意力机制获得相互学习的N组受局部语义影响的全局语义特征和N组受全局语义影响的局部语义特征以对所述全局语义特征与所述局部语义特征进行交叉修正，然后将所述全局语义特征和所述局部语义特征进行融合作为解码器的输入；以及所述解码器，用于对融合的全局语义特征和所述局部语义特征进行解密以生成所述第一关键词集合。

与现有技术相比，本发明至少可实现如下有益效果之一：1、针对私有信息检索所需关键词与实际用户输入查询文本不匹配的问题，提出一种基于编码器神经网络模型关键词提取算法，将数据查询者提供的查询文本转化为一个或者多个关键词，以便于私有信息查询技术进行加工处理，以提高私有信息检索技术的实用性。

2、针对基于编码器神经网络模型提取到多个关键词与数据拥有者内置的精确关键词之间的映射问题，提出精确关键词查询的一次PIR技术。数据拥有者的数据格式以键值对形式存在，如果直接将提取到的关键词用于能源大数据的密文查询，由于多个关键词与数据拥有者精确关键词之间有一定语义差异，一方面，造成数据库实际检索获得的查询内容与用户期待获得的查询内容差异较大；另外一方面，将增加密文关键词查询时间。因此，本发明实施例提出的一次PIR基于关键词与精确关键词之间的索引关系，通过查询文本提取的关键词获得一个或多个精确关键词，并返回给查询用户，进一步明确数据查询者的查询需求。

3、针对数据查询者和数据拥有者的私有数据保护问题，提出能源大数据查询的二次PIR。数据查询者将筛选后的精确关键词发送数据拥有者，PIR可以保护数据查询者精确关键词，避免数据拥有者获取数据查询者的查询偏好，同时数据库拥有者可以保护自身的私有信息，避免查询者获取其他数据信息。本发明实施例与传统的PIR技术有显著区别，本发明实施例可以避免传统PIR直接输入数据查询者的查询文本，造成显著的查询开销且难以获得精确的查询文本问题。

本发明中，上述各技术方案之间还可以相互组合，以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述，并且，部分优点可从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件；

图1为根据本发明实施例的能源大数据查询方法的流程图；

图2为根据本发明实施例的能源大数据查询技术逻辑图；

图3为根据本发明实施例的Transformer-CNN查询关键词生成方法的框图；

图4为根据本发明实施例的私有信息检索原理的框图；

图5为根据本发明实施例的能源大数据查询系统的框图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理，并非用于限定本发明的范围。

参考图1，本发明的一个具体实施例，公开了一种能源大数据查询方法，包括：在步骤S101中，基于原始查询文本利用编码器神经网络模型生成第一关键词集合并利用私有信息检索PIR技术将第一关键词集合发送给数据拥有者，编码器神经网络模型包括Transformer子模型和CNN子模型，其中，通过Transformer子模型获取原始查询文本的全局语义特征；以及通过CNN子模型提取局部语义特征；在步骤S102中，根据第一关键词集合在关键词索引数据库中选择精确查询关键词以生成第二关键词集合并返回数据查询者；以及在步骤S103中，再次利用私有信息检索PIR技术将第二关键词集合发送到数据拥有者，然后基于第二关键词集合在能源大数据库中进行检索并将加密的私有数据查询结果返回给数据查询者，其中，数据拥有者包括关键词索引数据库和能源大数据库。

与现有技术相比，本实施例提供的能源大数据查询方法，根据第一关键词集合中的查询关键词在关键词索引数据库中选择精确查询关键词以生成第二关键词集合，然后利用精确查询关键词在能源大数据库中进行检索，能够获得精确的查询内容。通过二次私有信息检索PIR技术能够保护数据查询者的查询关键词，从而避免数据拥有者获取数据查询者的查询偏好，同时数据拥有者可以保护自身私有信息，避免数据查询者获取其他数据信息。

下文中，参考图1，对根据本发明实施例的能源大数据查询方法的各个步骤进行详细说明。

在步骤S101中，基于原始查询文本利用编码器神经网络模型生成第一关键词集合并利用私有信息检索PIR技术将第一关键词集合发送给数据拥有者。编码器神经网络模型包括Transformer子模型和CNN子模型，其中，通过Transformer子模型获取原始查询文本的全局语义特征；以及通过CNN子模型提取局部语义特征。

基于原始查询文本利用编码器神经网络模型生成第一关键词集合进一步包括：通过Transformer子模型将原始查询文本序列中的每个单词通过嵌入层映射为低维嵌入向量作为Transformer子模型的输入，利用多头自注意力机制产生上下文向量，并且将编码器输出层输出的上下文向量序列通过解码器生成关键词作为全局语义特征；通过CNN子模型获得多组抽取式特征作为局部语义特征；采用ReLU激活函数分别对全局语义特征和局部语义特征进行变换，通过互注意力机制获得相互学习的N组受局部语义影响的全局语义特征和N组受全局语义影响的局部语义特征以对全局语义特征与局部语义特征进行交叉修正，然后将全局语义特征和局部语义特征进行融合作为解码器的输入；以及通过解码器对融合的全局语义特征和局部语义特征进行解密以生成第一关键词集合。

将原始查询文本序列中的每个单词通过嵌入层映射为低维嵌入向量作为Transformer子模型的输入进一步包括：通过嵌入层将原始查询文本中的每个单词的词向量及其相应的绝对位置编码转换为固定维度的向量；以及将绝对位置编码和词向量相加以形成Transformer子模型的输入。

通过以下公式表示在原始查询文本的查询文本序列中第t个单词处Transformer子模型所输入的嵌入向量：

；

其中，是词嵌入向量，/>是位置嵌入向量，嵌入层将原文本中的每个单词及其相应的绝对位置转换为固定维度的向量表示后,再令两者按元素相加形成最终的编码器输入；

通过以下公式表示全局语义特征H：

；

其中，m为原始查询文本序列的总长度，为第t个单词在第L层的输出向量，；

通过以下公式表示局部语义特征S：

；

其中，为第t个单词在卷积核为n时的输出向量；

通过以下公式表示采用ReLU激活函数分别对全局语义特征和局部语义特征进行变换：

；

LN表示层归一化函数，W_H、b_H、、、/>是可学习的参数；

,n=1,2,…,N；

其中，T为向量的转置符号；

通过以下公式表示解码器神经网络模型的输出：

；

其中，为目标序列在L层输出的第t个关键词向量。

利用私有信息检索PIR技术将第一关键词集合发送给数据拥有者进一步包括：通过服务器端对多个查询关键词的明文数据集进行拉格朗日多项式插值，以生成插值多项式和标识多项式，其中，第i个查询关键词的插值多项式为零并且标识多项式为第i个查询关键词对应的查询内容；采用paillier算法生成同态加密公钥和私钥；利用公钥对多个查询关键词的明文数据集进行加密并将加密的待查关键字发送给数据拥有者。

利用私有信息检索PIR技术将第一关键词集合发送给数据拥有者进一步包括：

通过以下公式对明文数据集进行拉格朗日多项式插值，插值结果为：

；

通过以下公式生成标识多项式：

；

其中，a₀,a₁,…,a_n、c₀,c₁,…,c_n为多项式系数，x为自变量且x_t为所述查询关键词，对于任意的数据，满足，/>；随机选择第一质数p和第二质数q，满足，函数gcd()的作用是返回两个整数的最大公约数，确保p、q长度相等；基于第一质数p和第二质数q计算乘积n=pq并基于p-1和q-1计算最小公倍数λ=lcm(p-1,q-1)；随机选择整数/>，令g=n+1，同时定义函数/>并计算；以及基于乘积和整数g得到公钥pk=(n,g)和私钥sk=(λ,μ)；利用公钥pk对多个查询关键词进行加密以获得第一关键词集合，例如设输入的一个查询关键词为x_t，采用unicode编码将待查关键字/>转变为明文数字m,m∈Z_n，0≤m＜n，选择随机数r满足0≤r＜n，且/>，计算得到密文/>。

利用公钥对多个查询关键词的明文数据集进行加密并将加密的待查关键字发送给数据拥有者包括：数据拥有者利用密文向量E(x_t)、F(x_t)和H(x_t)系数分别计算同态密文E(F(x_t))、E(H(x_t))，将计算结果发送给数据查询者；以及通过以下公式利用私钥sk对同态密文进行解密：，c的取值为E(F(x_t))、E(H(x_t))；由此可以得到F(x_t)、 H(x_t)，当解密结果F(x_t)为0时，H(x_t)为检索结果。

在步骤S102中，根据第一关键词集合在关键词索引数据库中选择精确查询关键词以生成第二关键词集合并返回数据查询者。

具体地，根据第一关键词集合在关键词索引数据库中选择精确查询关键词以生成第二关键词集合并返回数据查询者包括：从第一关键词集合中提取查询关键词；将查询关键词匹配到关键词索引数据库中内置的精确关键词，以基于查询关键词从关键词索引数据库中查找一个或多个精确关键词；将一个或多个精确关键词存储在第二关键词集合；重复查询关键词提取和匹配步骤，直到遍历第一关键词集合并且获取与第一关键词集合相对应的第二关键词集合；以及利用私有信息检索PIR技术对第二关键词集合进行加密并将加密的第二关键词集合返回数据查询者。

在步骤S103中，再次利用私有信息检索PIR技术将第二关键词集合发送到数据拥有者，然后基于第二关键词集合在能源大数据库中进行检索并将加密的私有数据查询结果返回给数据查询者，其中，数据拥有者包括关键词索引数据库和能源大数据库。

参考图5，本发明的另一个具体实施例，公开了一种能源大数据查询系统，包括：编码器神经网络模型501，用于基于查询文本生成第一关键词集合，编码器神经网络模型包括Transformer子模型和CNN子模型，其中，通过Transformer子模型获取原始查询文本的全局语义特征；以及通过CNN子模型提取局部语义特征；精确关键词选择模块502，用于根据第一关键词集合在关键词索引数据库中选择精确查询关键词以生成第二关键词集合并返回数据查询者；加密模块503，用于利用私有信息检索PIR技术将第一关键词集合发送给数据拥有者，以及再次利用私有信息检索PIR技术将第二关键词集合发送到数据拥有者；数据检索模块504，用于基于第二关键词集合在能源大数据库中进行检索；以及检索结果获取模块505，用于将加密的私有数据查询结果返回给数据查询者，其中，数据拥有者包括关键词索引数据库和能源大数据库。

编码器神经网络模型进一步包括：交叉修正模块和解码器。Transformer子模型用于将原始查询文本序列中的每个单词通过嵌入层映射为低维嵌入向量作为Transformer子模型的输入，利用多头自注意力机制产生上下文向量，并且将编码器输出层输出的上下文向量序列通过解码器生成关键词作为全局语义特征。CNN子模型用于获得多组抽取式特征作为局部语义特征。交叉修正模块用于采用ReLU激活函数分别对全局语义特征和局部语义特征进行变换，通过互注意力机制获得相互学习的N组受局部语义影响的全局语义特征和N组受全局语义影响的局部语义特征以对全局语义特征与局部语义特征进行交叉修正，然后将全局语义特征和局部语义特征进行融合作为解码器的输入。解码器用于对融合的全局语义特征和局部语义特征进行解密以生成第一关键词集合。

下文中，参考图2至图4，以具体实例的方式，对根据本发明实施例的能源大数据查询系统进行详细说明。

能源大数据涵盖煤炭、石油、天然气、电力、新能源等各能源品类资源生产与供应、消费与投资、资源转储、利用效率全过程数据，以及宏观经济运行、生态环境、气象、地理信息、交通等跨部门跨领域数据。能源大数据涉及电力、煤炭、石油等不同领域的数据，普遍存在的问题是能源机构将自身拥有的数据作为资源，企业不愿进行数据共享与交易，能源大数据停留在拥有者内部。部分能源大数据具有敏感性，涉及用户个人秘密、商业机密等，数据共享可能存在法律风险，数据共享具有一定障碍。能源大数据拥有者的数据接口不统一，不同机构的数据难以融合互通，严重阻碍数据开放共享、导致能源大数据互相割裂。不愿共享、不敢共享、不能共享，导致海量数据散落在众多能源大数据机构和信息系统中，形成“信息孤岛”、“数据烟囱”，无法充分发挥能源大数据要素的内在价值。隐私计算技术为能源大数据企业协作开辟了新的模式，相比传统的数据协作方式，隐私计算可以使能源大数据可用不可见，在保护数据安全的同时实现多源数据跨域合作，可以破解数据保护与融合应用难题。隐私计算可以被定义为一组技术集合，具体包括安全多方计算、同态加密、差分隐私、联邦学习、私有信息查询等。对消费者而言，隐私计算应用有助于保障个人信息安全；对企业和机构而言，隐私计算是数据协作过程中履行数据保护义务的关键路径；对政府而言，隐私计算是实现数据价值和社会福利最大化的重要支撑。上述能源大数据产品通常可以分为两类，一类为能源大数据的查询类产品，一类为能源大数据建模类产品。本实施例聚焦能源大数据查询类产品，采用隐私计算中的同态加密和私有信息检索技术实现一种能源大数据查询技术方案。

本发明提出一种基于Transformer-CNN关键词生成和多次私有信息检索的能源大数据查询方法。方法主要包含的步骤是：a、能源大数据范围、来源及分类；b、能源大数据查询方法。其中包括b1、查询关键词处理；b2、精确关键词私有信息检索；b3、查询数据私有信息检索。下文中对本发明实施例的实施步骤进行详细说明。

a、能源大数据范围、来源及分类：能源大数据主要包括宏观层面、能源行业、及其他相关数据。宏观层面数据包括国家/省级宏观经济运行、发展规划、产业政策、市场发展趋势等方面数据，以及世界主要国家和地区、全国、先进省份等经济社会、能源发展等数据。能源行业数据包括电、煤、油、气、新能源等各能源品类的资源禀赋、开采加工、运输配送、能源转化、能源消费全过程数据。其他相关数据包括生态环境、气象、地理信息、交通、技术革新、工业价格等数据。

数据来源包括政府部门、能源企业、互联网等其他渠道。宏观层面数据主要来源于相关政府权威部门或研究机构，官方发布的政策文件、统计公报、研究报告以及国际能源署、世界银行等国际权威数据统计平台相关数据的定期获取。能源行业数据主要来源于政府能源行业管理部门和相关企业，建立固定的信息报送机制，通过信息报送系统定期上报相关能源信息。其他相关数据主要来源于相关部门公共数据，建立部门、单位对接汇集机制，实现相关数据的定期报送。具体来讲，按信息来源可以将能源大数据分为电力、煤炭、石油、宏观经济、气象、环境等基础大类。对于每个中类，按照线分类法划分小类。以电力行业大类为例，可划分为电力生产、采购与交易、供电能力、电力设备、销售与服务、电能质量等中类。电力生产可进一步划分为发电厂分布及数量、分类型发电量、装机容量、运行指标、污染物排放等小类。电力消费可以划分用户类型、报装容量、负荷需求等小类。

查询者针对上述数据进行查询时，如果采用传统的信息查询方式，数据查询者会暴露查询的关键词和查询意图，进而可能会导致私有数据泄露。因此需要从保护查询方和数据持有方的私有信息角度提出数据查询方法，同时要考虑实际的应用环境以及查询开销。

b、能源大数据查询方法:本实施例提出的能源大数据查询技术方案的逻辑如图2所示。

数据查询者和数据拥有者之间的互动关系为：1、查询文本：首先，能源大数据查询者提出数据查询请求文本。其次，查询关键词生成模型对查询文本进行关键词处理，生成查询关键词集合。查询关键词提取模型部署于能源大数据查询者本地，保证数据不出本地，避免泄露查询关键词，同时为提高模型计算效率，查询文本采用明文方式，关键词提取模型针对明文进行计算处理。

2、精确关键词查询请求：该查询请求采用私有信息检索技术（记为一次私有信息检索）对关键词进行加密处理。能源大数据关键词索引数据库存储了各个关键词映射的精确关键词。能源大数据拥有者根据查询关键词集合、关键词索引数据库，获得各个查询关键词对应的精确关键词。此时可能存在三种情况：一个关键词对应一个精确关键词；一个关键词对应多个精确关键词；多个关键词对应一个精确关键词；一个关键词无法对应到精确关键词。

3、返回精确的查询关键词。数据拥有者将查找到的加密的精确关键词集返回给能源大数据查询者，查询者对加密的数据进行解密后获得精确关键词。数据拥有者根据自己的需求，对精确关键进行筛选，挑出自己需要的精确关键词。通过一次PIR在保护数据查询者查询秘密的同时，通过与数据拥有者关键索引数据库进行一次查询交互，更明确查询者的查询需求，避免将得到的查询关键词直接用于数据查询而增加数据拥有者的查询负担。

4、基于精确关键词集的能源大数据查询请求。能源大数据查询者将筛选过的精确关键词发送到能源大数据拥有者，查询精确关键词词对应的数据内容。为保护查询者查询关键词不被泄露，本实施例再次采用PIR方法（记为二次私有信息检索）进行数据查询。

5、返回加密后的数据。能源大数据拥有者存储上述的宏观数据、能源行业数据以及其他数据，并包括这三类数据的子类数据，如图1中税务数据、气象数据、经济数据、电力数据、煤炭数据等。数据拥有者根据加密的精确关键词匹配到查询内容，并将加密的查询内容返回给能源大数据查询者。

b1、基于Transformer-CNN查询关键词生成

关键词生成就是要解决为给定原查询文本自动生成一组关键词的问题。能源大数据查询文本可以看作是多个关键词组成的集合，即<查询文本，关键词集>的形式。设定为查询文本，m为查询文本序列的总长度，依托该查询文本，对应的关键词为/>,p是生成序列的总长度。查询文本和关键词都是单词序列的组合。

参考图3，本实施例提出的Transformer-CNN查询关键词生成方法本质为序列到序列的框架，具体包括编码器和解码器两部分，以Transformer模型为整体架构，将CNN模型嵌入到Transformer模型中。

1、Transformer编码器：Transformer编码器由L层编码层组成,以嵌入向量序列为输入，并利用多头自注意力机制产生上下文向量。原查询文本序列中的每个单词通过嵌入层被映射为低维的嵌入向量，再被输入到 Transformer编码器中。具体地，在原始查询文本的查询文本序列中第t个单词处，Transformer编码器所输入的嵌入向量为:

；

其中,是词嵌入向量，/>是位置嵌入向量。嵌入层将原查询文本中的每个单词及其相应的绝对位置转换为固定维度的向量表示后，再令两者按元素相加形成最终的编码器输入。

编码器为原文本序列产生的上下文向量序列记为：

；

式中，m为查询文本序列的总长度，为第t个单词在第l层的输出向量，。在经典序列到序列框架的注意力机制中，编码器最后一层(/>层)输出的上下文向量序列会被解码器用于参考并生成关键词，本文将其称为全局语义特征，记为

；

2、CNN局部特征提取：查询文本含有丰富的语义特征，具体包括全局语义和局部语义，上节采用Transformer模型获得了查询文本的全局语义信息，本节采用CNN模型获得查询文本的局部语义信息。具体地，设定卷积核大小为n=1,…,n，由此，可以得到N组抽取式特征。每个获得的特征可以表示为

；

式中，为第t个单词在卷积核为n时的输出向量。

3、全局语义和局部语义融合：为使全局语义特征和局部语义特征更具区分度，采用ReLU激活函数的对全局语义特征和局部语义特征进行变换：

；

,n=1,2,…,N；/>

其中，指的是层归一化函数，W_H、b_H、/>、/>都是可学习的参数。

为表征全局语义特征与局部语义特征之间影响关系，采用互注意力机制建模。经过互注意力机制，模型最终可以得到相互学习的组受局部语义影响的全局语义特征和N组受全局语义影响的局部特征，进而实现全局语义和局部语义的交叉修正：

,n=1,2,…,N；,n=1,2,…,N；

其中，T为向量的转置符号。

然后，将语义特征进行融合，作为解码器的输入。

3、Transformer解码器：解码器以基于关键词构建的文本序列为目标序列预测关键词。Transformer解码器同样由L 层解码层组成。特别地，解码器的最后一层(L层)输出为

；

式中，为目标序列在L层输出的第t个关键词向量，通过softmax层预测生成序列中的第t个单词y_t在词汇表V上的概率分布为：

；

式中，和/>是可学习的参数。

b2、多次私有信息检索

1、PIR检索过程：数据查询方需要隐藏查询关键词，数据拥有者提供对应的加密查询结果，同时不暴露额外的数据信息。一次是通过查询关键词获取数据拥有者的精确查询关键词，第二次是利用获得的精确关键词，实现私有信息查询内容的获取。参考图4，本实施例采用基于paillier同态加密和拉格朗日插值多项式的关键词PIR方法。

（1）服务器端多项式函数生成：对于n条形如（key,value）格式的明文数据集，即

（20）

式中，x_t为查询关键词，m_t为查询关键词对应的查询内容，t=1,2,…,n。例如，某日某省各地区的最大负荷数据{(长水市,200MW),(周智市,350MW)，(甘塔市,380MW)}。

对明文数据集进行拉个朗日多项式插值，插值结果即为最高次幂为n-1的多项式，如式（21）所示：

（21）

生成标识多项式如式（22）所示：

（22）

式（21）和式（22）中，a₀,a₁,…,a_n、c₀,c₁,…,c_n为多项式系数，x为自变量且对于查询关键词x_t，满足，/>。

（2）客户端生成同态加密公私钥：客户端采用Paillier算法生成同态加密公钥pk和私钥sk。具体过程如下：

a）随机选择两个质数p和q，为提高安全性，尽可能保证p和q的长度接近或相等。计算这两个素数的乘积n=pq和λ=lcm(p-1,q-1)，函数lcm表示最小公倍数。

b）随机选择整数，为提高计算速度，可以直接令g=n+1。同时，定义L函数：/>，计算/>。

c）据此，可以得到公钥pk=(n,g)、私钥sk=(λ,μ)。

（3）用户查询向量生成：采用unicode编码将待查关键字x_t转变为明文数字m,m∈Z_n。任意选择一随机数且，可以计算得到密文c，计算公式为。特别地，如果步骤2）中令g=n+1，，式中前面m-1项都为n²的倍数，可以推导得到/>，这样把模指数运算简化为1次模乘运算，加速了计算过程，提高了计算效率。然后，查询者将密文发送给服务端。

（4）服务器端密文计算：服务端利用密文向量E(x_t)、F(x_t)和H(x_t)的系数，服务器端从密文数据库查询密文向量对应的密文文本，然后将同态密文E(F(x_t))、E(H(x_t))结果发送给用户。

（5）客户端密文解密：用户利用私钥sk对服务器端返回的密文进行解密，解密函数为，c的取值为E(F(x_t))、E(H(x_t))。如果，F(x_t)=0，则H(x_t)=m_t即为检索结果；否则检索结果为空。具体而言：若客户端检索关键词时，可以通过同态加密算法的特性把x_t加密后的密文发送给服务器，服务器进行同态密文上的运算，然后将结果返回给客户端。若客户端解密F(x_t)=0，则说明H(x_t)=m_t为检索结果；否则，客户端查询的结果为空。

2、多重PIR检索：本实施例采用PIR进行能源大数据查询。针对能源大数据查询过程，设计多重PIR查询方案，具体：1)精确关键词查询的一次PIR；2）能源大数据查询的二次PIR。

（1）精确关键词查询的一次PIR：在能源大数据实际查询过程中，数据查询者可以提供一定的查询文本，查询文本的关键词与数据库拥有者内置的键-值（key-value）对的关键词匹配后才能查询到具体的能源大数据。此步骤对b1获得的查询关键词匹配到能源大数据拥有者数据库中内置的精确关键词。B1步骤中可能提取到1个或者多个查询关键词，基于查询关键词、关键词的索引表，查找获得一个或者多个精确关键词。综上，本实施例将b1提取的关键词作为一次PIR的输入，经过服务器端的计算处理，将精确关键词返回给客户端。

（2）能源大数据查询的二次PIR：通过一次PIR后，客户端对获得的精确关键词进行筛选，保留想要查询的关键词。然后将保留的下来的精确关键词发送到服务器端，利用PIR查询获得能源大数据，如果是多个精确关键词，客户端一次将每个精确关键词发送到服务器端，PIR返回后，将第二精确关键词再发送到服务器端，以此类推，直到PIR将所有精确关键词对应的查询内容返回。二次PIR的输入为精确关键词，输出为精确关键词所对应的能源大数据值。

本实施例提供了一种能源大数据查询方法和系统。具体的技术效果有以下几个方面：（1）针对私有信息检索信息所需关键词与实际用户输入查询文本不匹配的问题，提出一种基于Transformer-CNN模型的关键词提取算法，将数据查询者提供的查询文本转化为一个或者多个关键词，以便于私有信息查询技术进行加工处理，以提高私有信息检索技术的实用性。（2）针对Transformer-CNN方法提取到多个关键词与数据拥有者内置的精确关键词之间的映射问题，提出精确关键词查询的一次PIR技术。数据拥有者的数据格式以键值对形式存在，如果直接将提取到的关键词用于能源大数据的密文查询，由于多个关键词与数据拥有者精确关键词之间有一定语义差异，一方面，造成数据库实际检索获得的查询内容与用户期待获得的查询内容差异较大；另外一方面，将增加密文关键词查询时间。因此，本实施例提出的一次PIR基于关键词与精确关键词之间的索引关系，通过查询文本提取的关键词获得一个或多个精确关键词，并返回给查询用户，进一步明确数据查询者的查询需求。（3）针对数据查询者和数据拥有者的私有信息保护问题，提出能源大数据查询的二次PIR。数据查询者将筛选后的精确关键词发送数据拥有者，PIR可以保护数据查询者精确关键词，避免数据拥有者获取数据查询者的查询偏好，同时数据库拥有者可以保护自身的私有信息，避免查询者获取其他数据信息。本实施例与传统的PIR技术有显著区别，本实施例可以避免传统PIR直接输入数据查询者的查询文本，造成显著的查询开销且难以获得精确的查询文本问题。

本领域技术人员可以理解，实现上述实施例方法的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读存储介质中。其中，所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种能源大数据查询方法，其特征在于，包括：

基于原始查询文本利用编码器神经网络模型生成第一关键词集合并利用私有信息检索PIR技术将所述第一关键词集合发送给数据拥有者，所述编码器神经网络模型包括Transformer子模型和CNN子模型，其中，通过所述Transformer子模型获取所述原始查询文本的全局语义特征；以及通过所述CNN子模型提取局部语义特征；

根据所述第一关键词集合在关键词索引数据库中选择精确查询关键词以生成第二关键词集合并返回数据查询者；以及

再次利用私有信息检索PIR技术将所述第二关键词集合发送到所述数据拥有者，然后基于所述第二关键词集合在能源大数据库中进行检索并将加密的私有数据查询结果返回给所述数据查询者，其中，所述数据拥有者包括所述关键词索引数据库和所述能源大数据库；

其中，基于原始查询文本利用编码器神经网络模型生成第一关键词集合进一步包括：

通过所述Transformer子模型将原始查询文本序列中的每个单词通过嵌入层映射为低维嵌入向量作为所述Transformer子模型的输入，利用多头自注意力机制产生上下文向量，并且将所述编码器输出层输出的上下文向量序列通过解码器生成关键词作为所述全局语义特征，其中，将原始查询文本序列中的每个单词通过嵌入层映射为低维嵌入向量作为所述Transformer子模型的输入进一步包括：通过所述嵌入层将所述原始查询文本中的每个单词的词向量及其相应的绝对位置编码转换为固定维度的向量；以及将所述绝对位置编码和所述词向量相加以形成所述Transformer子模型的输入；

通过所述CNN子模型获得多组抽取式特征作为所述局部语义特征；

采用ReLU激活函数分别对所述全局语义特征和所述局部语义特征进行变换，通过互注意力机制获得相互学习的N组受局部语义影响的全局语义特征和N组受全局语义影响的局部语义特征以对所述全局语义特征与所述局部语义特征进行交叉修正，然后将所述全局语义特征和所述局部语义特征进行融合作为解码器的输入；以及

通过所述解码器对融合的全局语义特征和所述局部语义特征进行解密以生成所述第一关键词集合；

其中，通过以下公式表示在所述原始查询文本的查询文本序列中第t个单词处，所述Transformer子模型所输入的嵌入向量：

；

其中，是词嵌入向量，/>是位置嵌入向量；

通过以下公式表示所述全局语义特征H：

；

通过以下公式表示所述局部语义特征S：

；

其中，为第t个单词在卷积核为n时的输出向量；

；

,n=1,2,…,N；

LN表示层归一化函数，W_H、b_H、、/>是可学习的参数；

,n=1,2,…,N；

其中，T为向量的转置符号；

通过以下公式表示所述解码器神经网络模型的输出：

；

其中，为目标序列在L层输出的第t个关键词向量。

2.根据权利要求1所述的能源大数据查询方法，其特征在于，根据所述第一关键词集合在关键词索引数据库中选择精确查询关键词以生成第二关键词集合并返回数据查询者包括：

从所述第一关键词集合中提取查询关键词；

将所述查询关键词匹配到所述关键词索引数据库中内置的精确关键词，以基于所述查询关键词从所述关键词索引数据库中查找一个或多个精确关键词；

将所述一个或多个精确关键词存储在所述第二关键词集合；以及

重复查询关键词提取和匹配步骤，直到遍历所述第一关键词集合并且获取与所述第一关键词集合相对应的第二关键词集合；

利用私有信息检索PIR技术对所述第二关键词集合进行加密并将加密的第二关键词集合返回所述数据查询者。

3.根据权利要求2所述的能源大数据查询方法，其特征在于，利用私有信息检索PIR技术将所述第一关键词集合发送给数据拥有者进一步包括：

通过服务器端对多个查询关键词的明文数据集进行拉格朗日多项式插值，以生成插值多项式和标识多项式，其中，第i个查询关键词的插值多项式为零并且所述标识多项式为第i个查询关键词对应的查询内容；

采用paillier算法生成同态加密公钥和私钥；

利用所述公钥对所述多个查询关键词的明文数据集进行加密并将加密的待查关键字发送给所述数据拥有者。

4.根据权利要求3所述的能源大数据查询方法，其特征在于，利用私有信息检索PIR技术将所述第一关键词集合发送给数据拥有者进一步包括：

通过以下公式对所述明文数据集进行拉格朗日多项式插值，插值结果为：

；

通过以下公式生成以下标识多项式：

；

其中，a₀,a₁,…,a_n、c₀,c₁,…,c_n为多项式系数，x为自变量且x_t为所述查询关键词，对于任意的数据，满足，/>；

随机选择第一质数p和第二质数q；

基于所述第一质数p和所述第二质数q计算乘积n=pq并基于p-1和q-1计算最小公倍数λ=lcm(p-1,q-1)；

随机选择整数，令g=n+1，同时定义函数/>并计算；以及

基于所述乘积和所述整数g得到公钥pk=(n,g)和私钥sk=(λ,μ)；

利用所述公钥pk对所述多个查询关键词进行加密以获得所述第一关键词集合。

5.根据权利要求4所述的能源大数据查询方法，其特征在于，利用所述公钥对所述多个查询关键词的明文数据集进行加密并将加密的待查关键字发送给所述数据拥有者包括：

所述数据拥有者利用密文向量E(x_t)、F(x_t)和H(x_t)系数分别计算同态密文E(F(x_t))、E(H(x_t))并将计算结果发送给所述数据查询者；以及

通过以下公式利用私钥sk对所述同态密文进行解密：

，并且解密结果为F(x_t)、 H(x_t)，c的取值为E(F(x_t))、E(H(x_t))；以及

当解密结果F(x_t)为0时， H(x_t)为检索结果。

6.一种能源大数据查询系统，其特征在于，包括：

编码器神经网络模型，用于基于原始查询文本生成第一关键词集合，所述编码器神经网络模型包括Transformer子模型和CNN子模型，其中，通过所述Transformer子模型获取所述原始查询文本的全局语义特征；以及通过所述CNN子模型提取局部语义特征；

精确关键词选择模块，用于根据所述第一关键词集合在关键词索引数据库中选择精确查询关键词以生成第二关键词集合并返回数据查询者；

加密模块，用于利用私有信息检索PIR技术将所述第一关键词集合发送给数据拥有者，以及再次利用私有信息检索PIR技术将第二关键词集合发送到所述数据拥有者；

数据检索模块，用于基于所述第二关键词集合在能源大数据库中进行检索；以及

检索结果获取模块，用于将加密的私有数据查询结果返回给所述数据查询者，其中，所述数据拥有者包括所述关键词索引数据库和所述能源大数据库；

其中，所述编码器神经网络模型还用于：通过所述Transformer子模型将原始查询文本序列中的每个单词通过嵌入层映射为低维嵌入向量作为所述Transformer子模型的输入，利用多头自注意力机制产生上下文向量，并且将所述编码器输出层输出的上下文向量序列通过解码器生成关键词作为所述全局语义特征，其中，通过所述嵌入层将所述原始查询文本中的每个单词的词向量及其相应的绝对位置编码转换为固定维度的向量；以及将所述绝对位置编码和所述词向量相加以形成所述Transformer子模型的输入；

；

其中，是词嵌入向量，/>是位置嵌入向量；

通过以下公式表示所述全局语义特征H：

；

通过以下公式表示所述局部语义特征S：

；

其中，为第t个单词在卷积核为n时的输出向量；

；

,n=1,2,…,N；

LN表示层归一化函数，W_H、b_H、、/>是可学习的参数；

,n=1,2,…,N；

其中，T为向量的转置符号；

通过以下公式表示所述解码器神经网络模型的输出：

；

其中，为目标序列在L层输出的第t个关键词向量。

7.根据权利要求6所述的能源大数据查询系统，其特征在于，编码器神经网络模型进一步包括：交叉修正模块和解码器，其中，

所述Transformer子模型，用于将原始查询文本序列中的每个单词通过嵌入层映射为低维嵌入向量作为所述Transformer子模型的输入，利用多头自注意力机制产生上下文向量，并且将所述编码器输出层输出的上下文向量序列通过解码器生成关键词作为所述全局语义特征；以及

所述CNN子模型，用于获得多组抽取式特征作为所述局部语义特征；

所述交叉修正模块，用于采用ReLU激活函数分别对所述全局语义特征和所述局部语义特征进行变换，通过互注意力机制获得相互学习的N组受局部语义影响的全局语义特征和N组受全局语义影响的局部语义特征以对所述全局语义特征与所述局部语义特征进行交叉修正，然后将所述全局语义特征和所述局部语义特征进行融合作为解码器的输入；以及

所述解码器，用于对融合的全局语义特征和所述局部语义特征进行解密以生成所述第一关键词集合。