CN112131371A

CN112131371A - 一种电力智能问答系统中的问句匹配方法

Info

Publication number: CN112131371A
Application number: CN202011326028.6A
Authority: CN
Inventors: 胡扬波; 仲田; 许斌锋; 王青国; 陆野; 徐进
Original assignee: Jiangsu Electric Power Information Technology Co Ltd
Current assignee: Jiangsu Electric Power Information Technology Co Ltd
Priority date: 2020-11-24
Filing date: 2020-11-24
Publication date: 2020-12-25

Abstract

本发明公开了一种电力智能问答系统中的问句匹配方法：首先对用户输入的查询问句P和系统知识库中的问句Q进行补零或截断操作，使句子序列变成固定长度；然后通过GloVe模型生成关于句子序列中对应单词词向量；接着将词向量输入到BI‑LSTM模型中，获取具有上下文语境义的单词向量；在此基础上，利用卷积神经网络提取词向量特征，得到句子的特征向量，进一步对特征向量抽取共同特征；最后将问句P、问句Q的特征向量以及共同特征向量进行拼接，输入全连接层，获取相似度预测结果。本发明将深度学习应用于电力智能问答领域，能够有效融合句子单词的上下文语境，精准的匹配用户问句，提高电力智能问答的准确度。

Description

一种电力智能问答系统中的问句匹配方法

技术领域

本发明属于信息处理技术领域，具体涉及一种基于G-BI-LSTM模型的电力智能问答系统中的问句匹配方法。

背景技术

随着互联网产业的不断发展以及电力用户各项服务需求的提升，传统的电力客服服务已经无法满足业务量的发展和用户需求，电力智能问答系统逐渐成为热门的研究方向，利用新型智能客服技术，实现全天候在线服务。而如何有效的将用户问句与系统语料库中的问句进行匹配，精准的解答用户问题是智能问答过程中的核心环节。

发明专利一种电力多源知识检索结果融合方法及装置，公开了一种基于D-S证据理论的电力多源知识检索结果融合方法及装置，该方法及装置主要对用户问句进行检索，得到与问句相关的电力专业名词集合，计算集合中名词的置信度并排序，得到最终的检索结果。该方法能够提高电力智能问答的进度，但存在融合精度低的问题。

发明专利一种电力领域语义增强方法和装置，公开了一种电力领域语义增强方法和装置，该方法基于电力客服领域的相关业务规则数据集生成一阶逻辑规则库，并将规则库形成从句集合；借助电力知识图谱和实体识别技术获取电力领域所有的常量及常量知识；基于从句集合、常量及常量知识生成马尔可夫逻辑网络学习权重；将获取的电力问句经电力知识图谱和实体识别技术处理后，通过马尔可夫逻辑网络学习权重推理出隐含在知识图谱中的潜在知识。该方法能够提高用户问句解答的准确度，但存在推理过程较为复杂，时间较长等问题。

发明内容

针对上述问题，本发明的目的是提供一种基于G-BI-LSTM模型的电力智能问答系统中的问句匹配方法，能够有效融合单词的上下文语境义，快速精准的匹配用户问句，提高电力智能问答的准确度。

本发明是通过以下技术方案实现的：

一种电力智能问答系统中的问句匹配方法，其特征在于：包括以下步骤：

1）生成单词的词向量：给定用户输入的查询问句P以及电力智能问答系统知识库中的问句Q，将所给定的句子序列通过补零或者截断的方法变成固定长度L的句子序列，即将过长的句子序列截断，将过短的句子序列用零补齐到一个固定长度，然后将固定长度的问句P和Q通过GloVe 模型生成关于句子序列中对应单词的词向量：构建词的共现矩阵，基于共现矩阵和GloVe模型学习词向量。

2）获取具有上下文语境义的单词向量：将问句P对应的词向量和问句Q对应的词向量分别输入到BI-LSTM 模型中，不仅考虑局部信息同时考虑全局信息。通过前向和后向传播，获得单词的上下文语境义，生成单词在上下文中的向量表示。

3）抽取句子特征：将经过BI-LSTM 模型得到的问句P和问句Q的词向量进行计算分权得到特征矩阵；通过卷积神经网络的滤波器扫描特征矩阵，得到扫描特征，经过Maxpool对扫描特征进行采样生成深度特征向量表示。

4）提取共同特征：将问句P的特征向量和问句Q的特征向量进行信息融合抽取其共同相关特征，提取主要信息以及生成与目标相关性更高的向量。

5）匹配度计算：将问句P的特征向量、问句Q的特征向量和抽取的共同特征向量进行拼接，使得P和Q能够包含彼此的文本特征，增加相似度计算的准确率。将进行拼接的单一向量输入到全连接层，求得匹配度。

进一步，步骤1）中，将所给定的句子序列通过补零或者截断的方法变成固定长度的句子序列，然后通过glove模型生成关于句子序列中对应单词的词向量，具体为：将问句

和问句

都通过glove模型得到单词的词向量表示：

其中

表示问句P的词向量表示，

表示问句Q的词向量表示，

表示问句P中第i个位置上的单词，

表示问句Q中第i个位置上的单词，

表示问句P中第i个位置上

单词对应的词向量，

表示问句Q中第i个位置上

单词对应的词向量，

表示词向量的维度，L表示句子的长度。

步骤2）中，将问句P对应的词向量和问句Q对应的词向量分别输入到BI-LSTM模型中，获得单词的上下文语境义，具体为：将各个单词的词向量输入到BI-LSTM模型中，分别获取其前向传播的句子序列向量和后向传播的句子序列向量，然后将这个两个向量进行拼接，得到所需具有上下文语境义的单词向量表示：

因此，经过BI-LSTM模型的句子P输出的向量为：

对于句子Q也做上述操作，得到

其中LSTM 里面矩阵参数为

表示第i 时间输出的词向量，相对应的句子Q 也是如此。

步骤3）中，将经过BI-LSTM 模型得到的词向量，利用卷积神经网络进行卷积操作，抽取句子的特征，具体为：利用卷积神经网络进行卷积操作，然后，利用最大池化层提取特征，得到句子的特征表示向量：

其中，

表示问句P 的特征表示向量，SE2 代表问句Q 的特征表示向量。

步骤4）中，将问句P的特征向量和问句Q的特征向量进行信息融合抽取其共同特征，具体为：

步骤5）中，将问句P的特征向量、问句Q的特征向量和抽取的共同特征向量进行拼接，然后通过其全连接层进行二分类，输出匹配结果，具体为：

其中

表示拼接的联合信息表示向量，

表示偏置参数，y为匹配度。

本发明提出的基于G-BI-LSTM模型的电力智能问答系统中的问句匹配方法，将深度学习模型应用到电力智能问答领域，融合了GloVe 和BI-LSTM模型，包括生成单词的词向量、获取具有上下文语境义的单词向量、抽取句子特征、提取共同特征、匹配度计算。本发明的匹配方法不仅考虑句子局部信息的同时利用BI-LSTM模型添加了全局性信息，更好的理解单词的上下文信息，能够有效融合句子单词的上下文语境，精准的匹配用户问句，提高电力智能问答的准确度。

附图说明

图1为本发明的问句匹配方法原理框图。

具体实施方式

下面结合具体实施方式对本发明所属方法进一步说明。

一种基于G-BI-LSTM模型的电力智能问答系统中的问句匹配方法，图1为本发明的问句匹配方法原理框图，包括：首先对用户输入的查询问句P和系统知识库中的问句Q进行补零或截断操作，使句子序列变成固定长度；然后通过GloVe模型生成关于句子序列中对应单词词向量；接着将词向量输入到BI-LSTM模型中，获取具有上下文语境义的单词向量；在此基础上，利用卷积神经网络提取词向量特征，得到句子的特征向量，进一步对特征向量抽取共同特征；最后将问句P、问句Q的特征向量以及共同特征向量进行拼接，输入全连接层，获取相似度预测结果。具体实施方式如下：

步骤1、生成单词的词向量

将用户输入的查询问句P以及电力智能问答系统知识库中的问句Q的句子序列通过补零或者截断的方法变成固定长度L的句子序列；即将过长的句子序列截断，将过短的句子序列用零补齐到一个固定长度。

将固定长度的句子序列输入GloVe模型，构建词的共现矩阵，基于共现矩阵和GloVe模型学习词向量，生成关于句子序列中对应单词的词向量：

其中X表示问句P的词向量表示，

表示问句Q的词向量表示，

分别表示问句P和问句Q中第i个位置上的单词，

分别表示问句P和问句Q中第i个位置上

单词对应的词向量，

表示词向量的维度；

步骤2、获取具有上下文语境义的单词向量

将问句P和问句Q中各个单词对应的词向量输入到BI-LSTM模型中，分别获取其前向传播的句子序列向量和后向传播的句子序列向量：

其中，

表示句子P中的词向量前向传播和后向传播的句子序列向量；

表示句子Q中的词向量前向传播和后向传播的句子序列向量；

将前向传播和后向传播的句子序列向量进行维度拼接，获得具有上下文语境义的单词向量：

其中，

分别表示问句P和Q中拼接后的单词向量；

输出P和Q的词向量矩阵H和

：

其中，

表示第i 时间句子P、句子Q输出的词向量；

步骤3、抽取句子特征

利用卷积神经网络对经BI-LSTM模型获得的词向量进行特征提取，得到句子的特征表示向量：

其中，

表示句子P和句子Q的特征向量，

表示词向量的维度；

步骤4、提取共同特征

将问句P特征向量和问句Q 特征向量进行信息融合，抽取其共同特征，得到共同特征向量表示：

；

将问句P的特征向量、问句Q的特征向量和抽取的共同特征向量进行拼接，得到向量Z：

步骤5、匹配度计算

将向量Z输入到全连接层，进行二分类操作，公式为：

其中，

表示拼接的联合信息表示向量，

表示偏置参数，

为匹配度。

通过全连接二分类层进行匹配度计算，如匹配度大于不匹配度，则说明问句P和Q相匹配，反之则说明P和Q不匹配。

Claims

1.一种电力智能问答系统中的问句匹配方法，其特征在于：包括以下步骤：

1）生成单词的词向量：给定用户输入的查询问句P以及电力智能问答系统知识库中的问句Q，将所给定的句子序列通过补零或者截断的方法变成固定长度的句子序列，然后通过GloVe 模型生成关于句子序列中对应单词的词向量；

2）获取具有上下文语境义的单词向量：将问句P和问句Q 分别输出到BI-LSTM 模型中，获得单词的上下文语境义；

3）抽取句子特征：将经过BI-LSTM 模型得到的词向量，利用卷积神经网络卷积操作，抽取句子的特征；

4）提取共同特征：将问句P 特征向量和问句Q 特征向量进行信息融合抽取其共同相关特征；

5）匹配度计算：将问句P的特征向量，问句Q的特征向量和抽取的共同特征向量进行拼接，然后通过其全连接层进行二分类，计算匹配度，得到结果。

2.根据权利要求1所述的电力智能问答系统中的问句匹配方法，其特征在于：步骤1）中，将所给定的句子序列通过补零或者截断的方法变成固定长度的句子序列，然后通过glove模型生成关于句子序列中对应单词的词向量，具体为：将问句

和问句

都通过glove模型得到单词的词向量表示：

其中表示问句P的词向量表示，

表示问句Q的词向量表示，

表示问句P中第i个位置上的单词，

表示问句Q中第i个位置上的单词，

表示问句P中第i个位置上

单词对应的词向量，

表示问句Q中第i个位置上

单词对应的词向量，

表示词向量的维度，L表示句子的长度。

3.根据权利要求1所述的电力智能问答系统中的问句匹配方法，其特征在于：步骤2）中，将问句P对应的词向量和问句Q对应的词向量分别输入到BI-LSTM模型中，获得单词的上下文语境义，具体为：将各个单词的词向量输入到BI-LSTM模型中，分别获取其前向传播的句子序列向量和后向传播的句子序列向量，然后将这个两个向量进行拼接，得到所需具有上下文语境义的单词向量表示：