CN110727781B

CN110727781B - 一种电力多源知识检索结果融合方法及装置

Info

Publication number: CN110727781B
Application number: CN201911000452.9A
Authority: CN
Inventors: 赵洪莹; 李悦; 程雅梦; 沈盛宇
Original assignee: Nanjing Yunwen Network Technology Co ltd; Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd
Current assignee: Nanjing Yunwen Network Technology Co ltd; Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2019-10-21
Filing date: 2019-10-21
Publication date: 2022-11-01
Anticipated expiration: 2039-10-21
Also published as: CN110727781A

Abstract

本发明公开了一种电力多源知识检索结果融合方法及装置，所述方法包括对用户问句进行检索，得到与用户问句相关的电力专业名词集合；计算电力专业名词集合中电力专业名词的置信度；对计算出来的电力专业名词的置信度进行排序，得到最终检索结果。本发明能够有效地将多源知识进行融合，精确地解答用户问句，提高电力智能问答的进度。

Description

一种电力多源知识检索结果融合方法及装置

技术领域

本发明属于信息处理技术领域，具体涉及一种电力多源知识检索结果融合方法及装置，尤其涉及一种基于D-S证据理论的电力多源知识检索结果融合方法及装置。

背景技术

智能问答作为自然语言处理的一个重要应用，已经引起了国内外专家学者的广泛关注。智能问答系统是将积累的无序语料信息，进行有序和科学的整理，并建立起一套基于知识的模型，提高信息处理的自动性以减少人力资源。目前，电力智能知识库中包含如电力百科、电力文档以及电力问答等多源知识，在智能知识库进行知识服务时，如何有效地将多源知识进行融合，精确地解答用户问句是智能问答过程中非常重要的环节。

发明内容

针对上述问题，本发明提出一种电力多源知识检索结果融合方法及装置，能够有效地将多源知识进行融合，精确地解答用户问句，提高电力智能问答的进度。

为了实现上述技术目的，达到上述技术效果，本发明通过以下技术方案实现：

第一方面，本发明提供了一种电力多源知识检索结果融合方法，包括：

对用户问句进行检索，得到与用户问句相关的电力专业名词集合；

计算电力专业名词集合中电力专业名词的置信度；

对计算出来的电力专业名词的置信度进行排序，得到最终检索结果。

可选地，所述电力专业名词的置信度的计算方法包括：

基于电力专业名词集合W中的电力专业名词w_i，从电力智能知识库中检索出与该电力专业名词w_i关联的电力百科知识集合WK_i、电力文档知识集合DC_i和电力问答知识集合QA_i；

基于所述电力百科知识结合WK_i中的每个知识wk_ij，计算其对用户问句S_q的第一置信度

基于所述电力文档知识结合DC_i中的每个知识dc_ij，计算其对用户问句S_q的第二置信度

基于所述电力问答知识结合QA_i中的每个知识qa_ij，计算其对用户问句S_q的第三置信度

基于所述第一置信度

第二置信度

和第三置信度

结合D-S证据理论融合计算出电力专业名词w_i的置信度

可选地，所述电力智能知识库中包括电力百科知识库、电力文档知识库以及电力问答知识库，所述电力百科知识库、电力文档知识库以及电力问答知识库中的知识点对应于一个或多个电力专业名词。

可选地，所述第一置信度

的计算方法包括：

所述第一置信度

通过如下公式计算获得：

其中，wk_ij的计算公式为：

式中，V_i为词向量，S_q为用户问句，wk_ij是用户知识库对应向量，n为词向量的总数。

可选地，所述第二置信度

的计算方法包括：

所述第二置信度

通过如下公式计算获得：

可选地，所述第三置信度

的计算方法包括：

所述第三置信度

通过如下公式计算获得：

可选地，所述基于所述第一置信度

第二置信度

和第三置信度

结合D-S证据理论融合计算出电力专业名词w_i的置信度

具体为：

将第一置信度

第二置信度

和第三置信度

映射到统一向量空间；

利用D-S证据理论计算出现有文本相似度，置信度评分区间为[0,1.0]。

第二方面，本发明提供了一种电力多源知识检索结果融合装置，包括：

检索模块，用于对用户问句进行检索，得到与用户问句相关的电力专业名词集合；

计算模块，用于计算电力专业名词集合中电力专业名词的置信度；

排序模块，用于对计算出来的电力专业名词的置信度进行排序，得到最终检索结果。

可选地，所述计算模块包括：

检索子模块，用于基于电力专业名词集合W中的电力专业名词w_i，从电力智能知识库中检索出与该电力专业名词w_i关联的电力百科知识集合WK_i、电力文档知识集合DC_i和电力问答知识集合QA_i；

第一计算子模块，用于基于所述电力百科知识结合WK_i中的每个知识wk_ij，计算其对用户问句S_q的第一置信度

第二计算子模块，用于基于所述电力文档知识结合DC_i中的每个知识dc_ij，计算其对用户问句S_q的第二置信度

第三计算子模块，用于基于所述电力问答知识结合QA_i中的每个知识qa_ij，计算其对用户问句S_q的第三置信度

第四计算子模块，用于基于所述第一置信度

第二置信度

和第三置信度

结合D-S证据理论融合计算出电力专业名词w_i的置信度

可选地，所述第一置信度

通过以下计算公式计算获得：

其中，wk_ij的计算公式为：

式中，V_i为词向量，S_q为用户问句，wk_ij是用户知识库对应向量，n为词向量的总数；

所述第二置信度

通过如下公式计算获得：

所述第三置信度

通过如下公式计算获得：

附图说明

为了使本发明的内容更容易被清楚地理解，下面根据具体实施例并结合附图，对本发明作进一步详细的说明，其中：

图1为本发明一种实施例的电力多源知识检索结果融合方法的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明的保护范围。

下面结合附图对本发明的应用原理作详细的描述。

虽然现有技术中基于知识库的问答系统繁多，但绝大多数的问答结果来源于单一知识库，缺乏有效地将多源知识进行融合，精确地解答用户问句的方法。而D-S证据理论作为一种不确定推理方法，证据理论的主要特点是满足比贝叶斯概率论更弱的条件，以及具有直接表达“不确定”和“不知道”的能力，为此，本发明提出了电力多源知识检索结果融合方法及装置，利用D-S证据理论实现将多源知识检索结果融合生成结果，能够精确地解答用户问句，提高电力智能问答的进度。

实施例1

本发明实施例中提供了一种电力多源知识检索结果融合方法，如图1所示，具体包括以下步骤：

(1)对用户问句进行检索，得到与用户问句相关的电力专业名词集合；

(2)计算电力专业名词集合中电力专业名词的置信度；

(3)对计算出来的电力专业名词的置信度进行排序，得到最终检索结果。

在本发明实施例的一种具体实施方式中，所述步骤(1)可以通过以下步骤完成：

利用现有的电力智能问答系统，对用户问句S_q进行检索，得到与问句相关的电力专业名词集合W，W＝{w₁,w₂,w₃,…,w_n}，该过程为现有技术，因此，本发明实施例中不做过多的赘述。

在本发明实施例的一种具体实施例中，所述步骤(2)中的电力专业名词的置信度的计算方法包括：

基于所述第一置信度

第二置信度

和第三置信度

结合D-S证据理论融合计算出电力专业名词w_i的置信度

所述电力智能知识库中包括电力百科知识库、电力文档知识库以及电力问答知识库，所述电力百科知识库、电力文档知识库以及电力问答知识库中的知识点对应于一个或多个电力专业名词，即整个电力智能知识库由电力专业名词互相间构建起了一套关联关系库。

所述第一置信度

的计算方法包括：

所述第一置信度

通过如下公式计算获得：

其中，wk_ij的计算公式为：

所述第二置信度

的计算方法包括：

利用Jaccard相似系数计算所述第二置信度

所述第二置信度

的公式具体为：

所述第三置信度

的计算方法包括：

所述第三置信度

通过如下公式计算获得：

所述基于所述第一置信度

第二置信度

和第三置信度

结合D-S证据理论融合计算出电力专业名词w_i的置信度

具体为：

将第一置信度

第二置信度

和第三置信度

映射到统一向量空间；

利用D-S证据理论计算出现有文本相似度，置信度评分区间为[0,1.0]，本发明采用不完全等分的区间上，区间数的设定如下：

1)高等：[0.8,1.0]

2)中等：[0.2,0.8]

3)低等：[0,0.2]

其中，区间划分的高中低等分别对应第一、第二、第三置信度区间。

识别框架的概念：

假设Θ为变量x所有取值的值集合，Θ＝{θ₁,θ₂,…,θ_n}。集合Θ中的每个元素之间时互斥的，在任何时刻x只能赋予集合Θ中的一个元素值，那么Θ就被称作为x的样本空间，或者成为识别框架。在证据理论中，识别框架任何一个子集A都对应于一个关于x的命题。因此，关于x命题的可靠程度由其对应的识别框架Θ中的子集A所取决。

基本概率分配(BPA)

识别框架Θ上的基本分配函数(Basic Probability Assignment，BPA)是一个2^Θ→[0,1]的函数m，称为mass函数，并且该函数满足的条件为：

其中

识别框架Θ中的任何一个子集A,如果m(A)＞0，那么A称为该识别框架的焦元(focal elements)。

信任函数

信任函数也叫做信度函数(Belief function)。在识别框架Θ上基本概率分配函数m的信任函数定义为：

Bel函数又可以成为下限函数。

似然函数

似然函数有叫做似然度函数(Plausibility function)。在识别框架Θ上基本概率分配函数m的似然函数函数定义为：

似然函数又可以成为上限函数。

Dempster合成规则

假设对于识别框架Θ上的证据E的所对应的mass函数m₁，m₂，相应的焦元B，C，Dempster合成规则为：

其中，

K为归一化系数，K为：

其中，K∈[0,1]，K的大小可以反映出证据之间的冲突程度大小，K→1表明证据间的冲突大；K→0表明证据间的冲突小。

设置区间相似度计算公式如下：

其中，α为支持系数，并且满足α＞0。Dis(A,B)为区间数A(a₁,a₂)和B(b₁,b₂)之间的距离。距离计算公式如下所示：

根据Dempster合成规则将归一化的BPA融合得到的分配，对于一个电力专业名词w_i，得到下表结果：

模型的评价区间数	融合后信任分配值
		[0.8,1.0]	S1
[0.2,0.8]	S2
		[0,0.2]	S3

将融合的分数映射到[0,1.0]的评分区间，得到电力专业名词w_i的置信度

计算公式如

P_wi＝θ×S₁+μ×S₂+S₃ (12)

其中θ和μ为参数，S₁、S₂及S₃为融合后的信任分配值。

下面对本发明实施例中的电力多源知识检索结果融合方法，进行具体的举例说明：

首先针对全部语料进行训练学习，生成语料对应词向量模型，即词向量V_i。由其组装生成WK_i，DC_i，QA_i。本发明实施例中具体计算分数均由该模型计算生成。

用户问句S_q为用户用于检索的问句，假设用户问句S_q为“江苏的电价是怎样的”，问句中识别的电力专业名词结合为W为：{电价}

步骤(1)利用电力智能问答系统(基于电力智能知识库的一套问答系统)对用户问句S_q(“江苏的电价是怎样的”)进行检索，获得与该问句相关的电力专业名词集合W为：{电价}；

步骤(2)根据电力专业名词集合中的专业名词w_i获取电力百科知识集合WK_i、电力文档知识集合DC_i以及电力问答知识集合QA_i，获得电力专业名词“电价”对应的知识集合如表一所示：

表一

步骤(3)基于表一中的信息，针对电力百科知识集合WK_i，包含三条百科知识：{w₁＝单项电价，w₂＝单一制电价，w₃＝两部制电价，针对w₁＝单项电价，根据下述公式计算第一置信度

运用预训练生成的词向量模型，利用上述计算公式，计算得到第一置信度

为0.8323。

步骤(4)根据下述公式计算出第二置信度

其中，针对电力文档知识dc_ij为“国网江苏电力公司关于贯彻两部制电价推广方案通知”，用户问句Sq为“江苏的电价是怎样的”，沿用训练生成词向量模型，计算得到|dc_ij∩Sq|为4，为24，|Sq|为10，计算得到

为0.1333。

步骤(5)根据下述公式计算出第三置信度

其中，电力问答知识“什么是单项电价？”与户问句Sq“江苏的电价是怎样的”的置信度

为0.2143。

步骤(6)利用D-S证据理论，结合步骤(3)-(5)中的相关结果，其中，电力百科知识置信度为：

其中，电力文档知识的置信度为：

其中，电力问答知识的置信度为：

根据D-S证据理论，得到融合后的结果如表所示：

进一步融合每个电力名词对应的电力百科知识、电力文档知识以及电力问答知识，得到每个电力专业名词的融合后的置信度

结果如下表所示：

步骤(7)根据步骤(6)获得的电力专业名词在进行融合后的置信度

进行排序，进行答案的展示。

实施例2

基于与实施例1相同的发明构思，本发明实施例中提供了一种电力多源知识检索结果融合装置，包括：

在本发明实施例的一种具体实施方式中，所述计算模块包括：

第四计算子模块，用于基于所述第一置信度

第二置信度

和第三置信度

结合D-S证据理论融合计算出电力专业名词w_i的置信度

在本发明实施例的一种具体实施方式中，所述第一置信度

通过以下计算公式计算获得：

其中，wk_ij的计算公式为：

式中，V_i为词向量，S_q为用户问句，wk_ij是用户知识库对应向量；

所述第二置信度

通过如下公式计算获得：

所述第三置信度

通过如下公式计算获得：

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。