CN110727781B - 一种电力多源知识检索结果融合方法及装置 - Google Patents
一种电力多源知识检索结果融合方法及装置 Download PDFInfo
- Publication number
- CN110727781B CN110727781B CN201911000452.9A CN201911000452A CN110727781B CN 110727781 B CN110727781 B CN 110727781B CN 201911000452 A CN201911000452 A CN 201911000452A CN 110727781 B CN110727781 B CN 110727781B
- Authority
- CN
- China
- Prior art keywords
- confidence
- electric power
- knowledge
- question
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Library & Information Science (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种电力多源知识检索结果融合方法及装置,所述方法包括对用户问句进行检索,得到与用户问句相关的电力专业名词集合;计算电力专业名词集合中电力专业名词的置信度;对计算出来的电力专业名词的置信度进行排序,得到最终检索结果。本发明能够有效地将多源知识进行融合,精确地解答用户问句,提高电力智能问答的进度。
Description
技术领域
本发明属于信息处理技术领域,具体涉及一种电力多源知识检索结果融合方法及装置,尤其涉及一种基于D-S证据理论的电力多源知识检索结果融合方法及装置。
背景技术
智能问答作为自然语言处理的一个重要应用,已经引起了国内外专家学者的广泛关注。智能问答系统是将积累的无序语料信息,进行有序和科学的整理,并建立起一套基于知识的模型,提高信息处理的自动性以减少人力资源。目前,电力智能知识库中包含如电力百科、电力文档以及电力问答等多源知识,在智能知识库进行知识服务时,如何有效地将多源知识进行融合,精确地解答用户问句是智能问答过程中非常重要的环节。
发明内容
针对上述问题,本发明提出一种电力多源知识检索结果融合方法及装置,能够有效地将多源知识进行融合,精确地解答用户问句,提高电力智能问答的进度。
为了实现上述技术目的,达到上述技术效果,本发明通过以下技术方案实现:
第一方面,本发明提供了一种电力多源知识检索结果融合方法,包括:
对用户问句进行检索,得到与用户问句相关的电力专业名词集合;
计算电力专业名词集合中电力专业名词的置信度;
对计算出来的电力专业名词的置信度进行排序,得到最终检索结果。
可选地,所述电力专业名词的置信度的计算方法包括:
基于电力专业名词集合W中的电力专业名词wi,从电力智能知识库中检索出与该电力专业名词wi关联的电力百科知识集合WKi、电力文档知识集合DCi和电力问答知识集合QAi;
可选地,所述电力智能知识库中包括电力百科知识库、电力文档知识库以及电力问答知识库,所述电力百科知识库、电力文档知识库以及电力问答知识库中的知识点对应于一个或多个电力专业名词。
其中,wkij的计算公式为:
式中,Vi为词向量,Sq为用户问句,wkij是用户知识库对应向量,n为词向量的总数。
利用D-S证据理论计算出现有文本相似度,置信度评分区间为[0,1.0]。
第二方面,本发明提供了一种电力多源知识检索结果融合装置,包括:
检索模块,用于对用户问句进行检索,得到与用户问句相关的电力专业名词集合;
计算模块,用于计算电力专业名词集合中电力专业名词的置信度;
排序模块,用于对计算出来的电力专业名词的置信度进行排序,得到最终检索结果。
可选地,所述计算模块包括:
检索子模块,用于基于电力专业名词集合W中的电力专业名词wi,从电力智能知识库中检索出与该电力专业名词wi关联的电力百科知识集合WKi、电力文档知识集合DCi和电力问答知识集合QAi;
其中,wkij的计算公式为:
式中,Vi为词向量,Sq为用户问句,wkij是用户知识库对应向量,n为词向量的总数;
附图说明
为了使本发明的内容更容易被清楚地理解,下面根据具体实施例并结合附图,对本发明作进一步详细的说明,其中:
图1为本发明一种实施例的电力多源知识检索结果融合方法的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明的保护范围。
下面结合附图对本发明的应用原理作详细的描述。
虽然现有技术中基于知识库的问答系统繁多,但绝大多数的问答结果来源于单一知识库,缺乏有效地将多源知识进行融合,精确地解答用户问句的方法。而D-S证据理论作为一种不确定推理方法,证据理论的主要特点是满足比贝叶斯概率论更弱的条件,以及具有直接表达“不确定”和“不知道”的能力,为此,本发明提出了电力多源知识检索结果融合方法及装置,利用D-S证据理论实现将多源知识检索结果融合生成结果,能够精确地解答用户问句,提高电力智能问答的进度。
实施例1
本发明实施例中提供了一种电力多源知识检索结果融合方法,如图1所示,具体包括以下步骤:
(1)对用户问句进行检索,得到与用户问句相关的电力专业名词集合;
(2)计算电力专业名词集合中电力专业名词的置信度;
(3)对计算出来的电力专业名词的置信度进行排序,得到最终检索结果。
在本发明实施例的一种具体实施方式中,所述步骤(1)可以通过以下步骤完成:
利用现有的电力智能问答系统,对用户问句Sq进行检索,得到与问句相关的电力专业名词集合W,W={w1,w2,w3,…,wn},该过程为现有技术,因此,本发明实施例中不做过多的赘述。
在本发明实施例的一种具体实施例中,所述步骤(2)中的电力专业名词的置信度的计算方法包括:
基于电力专业名词集合W中的电力专业名词wi,从电力智能知识库中检索出与该电力专业名词wi关联的电力百科知识集合WKi、电力文档知识集合DCi和电力问答知识集合QAi;
所述电力智能知识库中包括电力百科知识库、电力文档知识库以及电力问答知识库,所述电力百科知识库、电力文档知识库以及电力问答知识库中的知识点对应于一个或多个电力专业名词,即整个电力智能知识库由电力专业名词互相间构建起了一套关联关系库。
其中,wkij的计算公式为:
式中,Vi为词向量,Sq为用户问句,wkij是用户知识库对应向量,n为词向量的总数。
利用D-S证据理论计算出现有文本相似度,置信度评分区间为[0,1.0],本发明采用不完全等分的区间上,区间数的设定如下:
1)高等:[0.8,1.0]
2)中等:[0.2,0.8]
3)低等:[0,0.2]
其中,区间划分的高中低等分别对应第一、第二、第三置信度区间。
识别框架的概念:
假设Θ为变量x所有取值的值集合,Θ={θ1,θ2,…,θn}。集合Θ中的每个元素之间时互斥的,在任何时刻x只能赋予集合Θ中的一个元素值,那么Θ就被称作为x的样本空间,或者成为识别框架。在证据理论中,识别框架任何一个子集A都对应于一个关于x的命题。因此,关于x命题的可靠程度由其对应的识别框架Θ中的子集A所取决。
基本概率分配(BPA)
识别框架Θ上的基本分配函数(Basic Probability Assignment,BPA)是一个2Θ→[0,1]的函数m,称为mass函数,并且该函数满足的条件为:
信任函数
信任函数也叫做信度函数(Belief function)。在识别框架Θ上基本概率分配函数m的信任函数定义为:
Bel函数又可以成为下限函数。
似然函数
似然函数有叫做似然度函数(Plausibility function)。在识别框架Θ上基本概率分配函数m的似然函数函数定义为:
似然函数又可以成为上限函数。
Dempster合成规则
假设对于识别框架Θ上的证据E的所对应的mass函数m1,m2,相应的焦元B,C,Dempster合成规则为:
其中,K∈[0,1],K的大小可以反映出证据之间的冲突程度大小,K→1表明证据间的冲突大;K→0表明证据间的冲突小。
设置区间相似度计算公式如下:
其中,α为支持系数,并且满足α>0。Dis(A,B)为区间数A(a1,a2)和B(b1,b2)之间的距离。距离计算公式如下所示:
根据Dempster合成规则将归一化的BPA融合得到的分配,对于一个电力专业名词wi,得到下表结果:
模型的评价区间数 | 融合后信任分配值 |
[0.8,1.0] | S1 |
[0.2,0.8] | S2 |
[0,0.2] | S3 |
Pwi=θ×S1+μ×S2+S3 (12)
其中θ和μ为参数,S1、S2及S3为融合后的信任分配值。
下面对本发明实施例中的电力多源知识检索结果融合方法,进行具体的举例说明:
首先针对全部语料进行训练学习,生成语料对应词向量模型,即词向量Vi。由其组装生成WKi,DCi,QAi。本发明实施例中具体计算分数均由该模型计算生成。
用户问句Sq为用户用于检索的问句,假设用户问句Sq为“江苏的电价是怎样的”,问句中识别的电力专业名词结合为W为:{电价}
步骤(1)利用电力智能问答系统(基于电力智能知识库的一套问答系统)对用户问句Sq(“江苏的电价是怎样的”)进行检索,获得与该问句相关的电力专业名词集合W为:{电价};
步骤(2)根据电力专业名词集合中的专业名词wi获取电力百科知识集合WKi、电力文档知识集合DCi以及电力问答知识集合QAi,获得电力专业名词“电价”对应的知识集合如表一所示:
表一
其中,针对电力文档知识dcij为“国网江苏电力公司关于贯彻两部制电价推广方案通知”,用户问句Sq为“江苏的电价是怎样的”,沿用训练生成词向量模型,计算得到|dcij∩Sq|为4,为24,|Sq|为10,计算得到为0.1333。
步骤(6)利用D-S证据理论,结合步骤(3)-(5)中的相关结果,其中,电力百科知识置信度为:
其中,电力文档知识的置信度为:
其中,电力问答知识的置信度为:
根据D-S证据理论,得到融合后的结果如表所示:
实施例2
基于与实施例1相同的发明构思,本发明实施例中提供了一种电力多源知识检索结果融合装置,包括:
检索模块,用于对用户问句进行检索,得到与用户问句相关的电力专业名词集合;
计算模块,用于计算电力专业名词集合中电力专业名词的置信度;
排序模块,用于对计算出来的电力专业名词的置信度进行排序,得到最终检索结果。
在本发明实施例的一种具体实施方式中,所述计算模块包括:
检索子模块,用于基于电力专业名词集合W中的电力专业名词wi,从电力智能知识库中检索出与该电力专业名词wi关联的电力百科知识集合WKi、电力文档知识集合DCi和电力问答知识集合QAi;
其中,wkij的计算公式为:
式中,Vi为词向量,Sq为用户问句,wkij是用户知识库对应向量;
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (4)
1.一种电力多源知识检索结果融合方法,其特征在于,包括:
对用户问句进行检索,得到与用户问句相关的电力专业名词集合;
计算电力专业名词集合中电力专业名词的置信度;
对计算出来的电力专业名词的置信度进行排序,得到最终检索结果;
所述电力专业名词的置信度的计算方法包括:
基于电力专业名词集合W中的电力专业名词wi,从电力智能知识库中检索出与该电力专业名词wi关联的电力百科知识集合WKi、电力文档知识集合DCi和电力问答知识集合QAi;
其中,wkij的计算公式为:
式中,Vi为词向量,Sq为用户问句向量,wkij为用户知识库对应向量,n为词向量的总数;
式中,Sq为用户问句向量;
式中,Sq为用户问句向量。
2.根据权利要求1所述的一种电力多源知识检索结果融合方法,其特征在于:所述电力智能知识库中包括电力百科知识库、电力文档知识库以及电力问答知识库,所述电力百科知识库、电力文档知识库以及电力问答知识库中的知识点对应于一个或多个电力专业名词。
4.一种电力多源知识检索结果融合装置,其特征在于,包括:
检索模块,用于对用户问句进行检索,得到与用户问句相关的电力专业名词集合;
计算模块,用于计算电力专业名词集合中电力专业名词的置信度;
排序模块,用于对计算出来的电力专业名词的置信度进行排序,得到最终检索结果;
所述计算模块包括:
检索子模块,用于基于电力专业名词集合W中的电力专业名词wi,从电力智能知识库中检索出与该电力专业名词wi关联的电力百科知识集合WKi、电力文档知识集合DCi和电力问答知识集合QAi;
其中,wkij的计算公式为:
式中,Vi为词向量,Sq为用户问句,wkij是用户知识库对应向量;n为词向量的总数;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911000452.9A CN110727781B (zh) | 2019-10-21 | 2019-10-21 | 一种电力多源知识检索结果融合方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911000452.9A CN110727781B (zh) | 2019-10-21 | 2019-10-21 | 一种电力多源知识检索结果融合方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110727781A CN110727781A (zh) | 2020-01-24 |
CN110727781B true CN110727781B (zh) | 2022-11-01 |
Family
ID=69220457
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911000452.9A Active CN110727781B (zh) | 2019-10-21 | 2019-10-21 | 一种电力多源知识检索结果融合方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110727781B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663129A (zh) * | 2012-04-25 | 2012-09-12 | 中国科学院计算技术研究所 | 医疗领域深度问答方法及医学检索系统 |
CN108920599A (zh) * | 2018-06-27 | 2018-11-30 | 北京计算机技术及应用研究所 | 一种基于知识本体库的问答系统答案精准定位和抽取方法 |
CN108984778A (zh) * | 2018-07-25 | 2018-12-11 | 南京瓦尔基里网络科技有限公司 | 一种智能交互自动问答系统以及自我学习方法 |
CN110232113A (zh) * | 2019-04-12 | 2019-09-13 | 中国科学院计算技术研究所 | 一种提高知识库问答准确度的方法及系统 |
-
2019
- 2019-10-21 CN CN201911000452.9A patent/CN110727781B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663129A (zh) * | 2012-04-25 | 2012-09-12 | 中国科学院计算技术研究所 | 医疗领域深度问答方法及医学检索系统 |
CN108920599A (zh) * | 2018-06-27 | 2018-11-30 | 北京计算机技术及应用研究所 | 一种基于知识本体库的问答系统答案精准定位和抽取方法 |
CN108984778A (zh) * | 2018-07-25 | 2018-12-11 | 南京瓦尔基里网络科技有限公司 | 一种智能交互自动问答系统以及自我学习方法 |
CN110232113A (zh) * | 2019-04-12 | 2019-09-13 | 中国科学院计算技术研究所 | 一种提高知识库问答准确度的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110727781A (zh) | 2020-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111708873B (zh) | 智能问答方法、装置、计算机设备和存储介质 | |
CN115238101B (zh) | 一种面向多类型知识库的多引擎智能问答系统 | |
CN112035636B (zh) | 医疗问诊系统的问答管理方法、装置、设备及存储介质 | |
RU2747425C2 (ru) | Система ответа на вопросы из разных областей знаний в режиме реального времени | |
CN108345690B (zh) | 智能问答方法与系统 | |
CN111324721A (zh) | 一种智能问答知识库的构建方法 | |
CN109308323A (zh) | 一种因果关系知识库的构建方法、装置及设备 | |
CN111666376B (zh) | 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置 | |
CN113342958B (zh) | 问答匹配方法、文本匹配模型的训练方法和相关设备 | |
CN112328800A (zh) | 自动生成编程规范问题答案的系统及方法 | |
CN116127095A (zh) | 一种序列模型与知识图谱结合的问答方法 | |
CN113705191A (zh) | 样本语句的生成方法、装置、设备及存储介质 | |
CN113821527A (zh) | 哈希码的生成方法、装置、计算机设备及存储介质 | |
CN117648429B (zh) | 基于多模态自适应检索式增强大模型的问答方法及系统 | |
CN111368093A (zh) | 信息获取方法、装置、电子设备及计算机可读存储介质 | |
CN112883172B (zh) | 一种基于双重知识选择的生物医学问答方法 | |
CN116662522B (zh) | 问题答案推荐方法、存储介质和电子设备 | |
CN117473057A (zh) | 问答处理方法、系统、设备和存储介质 | |
CN110727781B (zh) | 一种电力多源知识检索结果融合方法及装置 | |
CN111914201B (zh) | 网络页面的处理方法及装置 | |
Gil-Clavel et al. | Using Natural Language Processing and Networks to Automate Structured Literature Reviews: An Application to Farmers Climate Change Adaptation | |
Hu | Somm: Into the model | |
CN116401341A (zh) | 面向理解的互动答疑系统 | |
Fakhr et al. | AISQA-An Artificial Immune Question Answering System | |
Khandait et al. | Automatic question generation through word vector synchronization using lamma |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |