CN111651569A

CN111651569A - 一种电力领域的知识库问答方法及系统

Info

Publication number: CN111651569A
Application number: CN202010332207.4A
Authority: CN
Inventors: 徐会芳; 王继业; 谈元鹏; 吴杏平; 胡若云; 杨维; 张鹏; 沈然; 吕诗宁; 金良峰; 张晓慧
Original assignee: State Grid Co ltd Customer Service Center; State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd
Current assignee: State Grid Co ltd Customer Service Center; State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2020-04-24
Filing date: 2020-04-24
Publication date: 2020-09-11
Anticipated expiration: 2040-04-24
Also published as: CN111651569B

Abstract

本发明提供了一种电力领域的知识库问答方法，包括：对获取电力领域的问句进行词性标注和句法分析，得到所述电力领域问句的问句表示；基于预先构建的关键短语识别模型对所述电力领域问句的问句表示进行识别，得到所述电力领域问句的关键实体和关键属性短语；基于所述关键实体和关键属性短语在电力领域知识库进行检索，得到所述问句答案；所述关键短语识别模型包括：对开放域问句进行训练得到与开放域问句对应的关键实体和关键属性短语，本发明避免了现有技术中电力领域模型训练对术语的高度依赖，仅利用容易获得的开放域的资源即可实现电力领域的知识库问答。

Description

一种电力领域的知识库问答方法及系统

技术领域

本发明属于自然语言处理和智能问答领域，具体涉及一种电力领域的知识库问答方法及系统。

背景技术

面向特定领域的知识库问答技术是一种利用该领域知识信息的重要手段。与传统搜索引擎以接收关键词作为索引不同，面向特定领域的知识库问答技术接收自然语言问句作为系统或装置的输入，并通过领域知识库检索直接给出准确且专业的答案。领域知识库问答系统或装置通常能够作为面向特定领域的办公助手，为用户提供专业的领域知识检索服务，并已广泛应用在工作、生活中，如：微软的“小娜”、阿里巴巴的“方糖”，都是基于此类技术的智能助理。

知识库问答主要有问句理解和知识库检索两部分内容。问句理解主要是解析问句意图，问句意图可以通过问句中的关键实体短语和属性短语进行表示。知识库检索是将问句中的短语与知识库中的语义项进行连接，并通过知识库内容输出答案。

目前作为特定领域之一的电力领域知识库问答主要有基于手写模板或规则的方法和基于神经网络的端到端的方法。然而，手写模板是一个人力成本和时间成本很高的过程，尤其对于复杂的知识库，很难覆盖全部的问句形式或知识库内容，具有不完整性；端到端的方法没有手写模板过程，成本较低，但通常需要大量的知识库内容相关的电力领域问答数据对模型进行训练，具有较强的领域依赖性，然而问答数据很难获得或者整理。因此，如何解决现有技术中存在的问题是本领域技术人员需要解决的问题。

发明内容

为克服上述现有技术的不足，本发明提供一种电力领域的知识库问答方法，包括：

对获取电力领域的问句进行词性标注和句法分析，得到所述电力领域问句的问句表示；

基于预先构建的关键短语识别模型对所述电力领域问句的问句表示进行识别，得到所述电力领域问句的关键实体和关键属性短语；

基于所述关键实体和关键属性短语在电力领域知识库进行检索，得到所述问句答案；

所述关键短语识别模型包括：对开放域问句进行训练得到与开放域问句对应的关键实体和关键属性短语。

优选的，关键短语识别模型的构建，包括：

基于重构的语料库对多个开放域问句进行词性标注和句法分析，获得开放域问句的问句序列模板，所述问句序列模板包括：词性序列与句法分析序列；

基于所述开放域问句和所述问句序列模板，获得每个开放域问句对应的关键实体和关键属性短语训练数据；

基于所述关键实体和关键属性短语训练数据进行训练，得到关键短语识别模型；

基于所述关键短语识别模型得到问句的关键实体和关键属性短语；

所述识别包括：确定关键实体和关键属性短语的起始和终止位置。

优选的，对获取电力领域的问句进行词性标注和句法分析，得到所述电力领域问句的问句表示，包括：

基于重构的语料库对电力领域的问句进行词性标注和句法分析，获得词性序列与句法分析序列；

将所述词性序列与句法分析序列作为问句序列模板，对所述电力领域的问句进行表示。

优选的，词性序列包括单词词性和分隔符，所述单词词性包括：名词、助词、动词、数字、量词和字符串中的一种或几种；所述句法分析序列包括：问句中各词语之间的关系和分隔符，所述问句中各词语之间的关系包括：定中关系、后附加关系、主谓关系、核心、动宾关系和结束中的一种或几种。

优选的，语料库的重构，包括：

将电力领域知识库中所有实体、属性标签和属性值赋予名词词性和预设词频，得到术语迁移词典；

基于术语迁移词典对自然语言处理的语料库名词进行更新，实现语料库的重构。

优选的，基于所述关键实体和关键属性短语训练数据进行训练，得到关键短语别模型，包括：

采用独热编码分别对问句序列模板中的词性序列与句法分析序列进行向量化表示；

然后利用两个双向递归神经网络模型分别对词性序列与句法分析序列进行特征编码，并输出隐向量V_pos和V_par，其中，V_pos为词性序列对应的隐向量，V_par为句法分析序列对应的隐向量，将所述两个隐向量进行拼接，得到向量V_e；

利用一个线性层对所述向量V_e进行解码，进而通过网络中的归一化指数函数层输出每个位置分别作为关键实体和关键属性短语起始和终止位置的概率；

利用交叉熵作为损失函数对所述关键短语识别模型进行训练，得到关键实体和关键属性短语的起始和终止位置。

优选的，向量V_e的表达式如下：

V_e＝concat(V_pos,V_par)

其中，V_e为拼接向量，V_pos为词性序列对应的隐向量，V_par为句法分析序列对应的隐向量；

所述关键实体和关键属性短语起始和终止位置的概率如下式所示：

其中，

问句的关键实体和关键属性短语的预测位置，V_e为拼接向量，W_v和b_e为线性层的参数；

所述交叉熵损失函数如下计所示：

其中，Y_i是第i个问句中关键实体和关键属性短语的真实位置，

是第i个问句的关键实体和关键属性短语的预测位置，n为问句总数量，L为Y_i与

的差距值。

优选的，基于所述关键实体和关键属性短语在电力领域知识库进行检索，得到所述问句答案，包括：

基于所述关键实体短语通过模糊匹配的方式对电力领域知识库进行检索，得到所述关键实体短语对应的候选属性短语集合；

基于所述关键属性短语和所述候选属性短语集合，将关键属性短语和候选属性集中的每个属性短语进行余弦相似度计算，将得分较高的候选属性短语的属性值作为问句答案。

优选的，基于所述关键实体短语通过模糊匹配的方式对电力领域知识库进行检索，得到所述关键实体短语对应的候选属性短语集合，包括：

使用中文维基百科作为训练字向量的数据集，并利用连续词袋模型进行字向量的训练；

通过关键实体短语和知识库中的实体短语中各个字对应的字向量进行相加分别得到所述关键实体短语的向量表示和知识库中实体短语的向量表示；

基于所述关键实体短语的向量表示和知识库中实体短语的向量表示，通过利用余弦相似度计算对关键实体短语和知识库中的实体短语进行匹配，将电力领域知识库中得到分数最高的实体短语作为目标实体短语，并查寻所述目标实体短语的所有属性短语，得到候选属性短语集合。

基于同一构思，本发明还提供了一种电力领域知识库问答系统，包括：

问句表示模块，用于对获取电力领域的问句进行词性标注和句法分析，得到所述电力领域问句的问句表示；

关键实体和关键属性识别模块，用于基于预先构建的关键短语识别模型对所述电力领域问句的问句表示进行识别，得到所述电力领域问句的关键实体和关键属性短语；

知识库检索模块，用于基于所述关键实体和关键属性短语在电力领域知识库进行检索，得到所述问句答案；

优选的，该系统还括关键短语识别模型构建模块，所述关键短语识别模型构建模块，包括：

开放域问句处理模块，用于基于重构的语料库对多个开放域问句进行词性标注和句法分析，获得开放域问句的问句序列模板，所述问句序列模板包括：词性序列与句法分析序列；

训练数据生成模块，用于基于所述开放域问句和所述问句序列模板，获得每个开放域问句对应的关键实体和关键属性短语训练数据；

模型训练模块一，用于基于所述关键实体和关键属性短语训练数据进行训练，得到关键短语识别模型；

模型训练模块二，基于所述关键短语识别模型得到问句的关键实体和关键属性短语；

优选的，问句表示模块，包括：

电力领域问句处理模块一，用于基于重构的语料库对电力领域的问句进行词性标注和句法分析，获得词性序列与句法分析序列；

电力领域问句处理模块二，用于将所述词性序列与句法分析序列作为问句序列模板，对所述电力领域的问句进行表示。

优选的，该系统还包括语料库的重构模块，所述语料库重构模块，包括：

术语迁移词典构建模块，用于将电力领域知识库中所有实体、属性标签和属性值赋予名词词性和预设词频，得到术语迁移词典；

现有语料库更新模块，用于基于术语迁移词典对自然语言处理的语料库名词进行更新，实现语料库的重构。

优选的，模型训练模块一，包括：

问句序列模板向量化表示模块，用于采用独热编码分别对问句序列模板中的词性序列与句法分析序列进行向量化表示；

特这表示模块，用于利用两个双向递归神经网络模型分别对词性序列与句法分析序列进行特征编码，并输出隐向量V_pos和V_par，其中，V_pos为词性序列对应的隐向量，V_par为句法分析序列对应的隐向量，将所述两个隐向量进行拼接，得到向量V_e；

计算模块一，用于利用一个线性层对所述向量V_e进行解码，进而通过网络中的归一化指数函数层输出每个位置分别作为关键实体和关键属性短语起始和终止位置的概率；

计算模块二，用于利用交叉熵作为损失函数对所述关键短语识别模型进行训练，得到关键实体和关键属性短语的起始和终止位置。

优选的，知识库检索模块，包括：

检索模块一，用于基于所述关键实体短语通过模糊匹配的方式对电力领域知识库进行检索，得到所述关键实体短语对应的候选属性短语集合；

检索模块二，用于基于所述关键属性短语和所述候选属性短语集合，将关键属性短语和候选属性集中的每个属性短语进行余弦相似度计算，将得分较高的候选属性短语的属性值作为问句答案。

优选的，检索模块一，包括：

字向量训练模块，用于使用中文维基百科作为训练字向量的数据集，并利用连续词袋模型进行字向量的训练；

短语向量表示模块，用于通过关键实体短语和知识库中的实体短语中各个字对应的字向量进行相加分别得到所述关键实体短语的向量表示和知识库中实体短语的向量表示；

相似度计算模块，用于基于所述关键实体短语的向量表示和知识库中实体短语的向量表示，通过利用余弦相似度计算对关键实体短语和知识库中的实体短语进行匹配，将电力领域知识库中得到分数最高的实体短语作为目标实体短语，并查寻所述目标实体短语的所有属性短语，得到候选属性短语集合。

与最接近的现有技术相比，本发明具有的有益效果如下：

附图说明

图1为本发明提供的一种电力领域的知识库问答方法示意图；

图2为本发明提供的一种电力领域知识库问答系统示意图；

图3为本发明实施例中提供的词性标注和句法分析结果示意图。

具体实施方式

下面结合附图对本发明的具体实施方式做进一步的详细说明。

实施例1：

本发明实施例公开了一种电力领域的知识库问答方法，示意图如图1所示，包括：

S1对获取电力领域的问句进行词性标注和句法分析，得到所述电力领域问句的问句表示；

S2基于预先构建的关键短语识别模型对所述电力领域问句的问句表示进行识别，得到所述电力领域问句的关键实体和关键属性短语；

S3基于所述关键实体和关键属性短语在电力领域知识库进行检索，得到所述问句答案；

下面结合具体实例展示本发明的问答效果。

S1对获取电力领域的问句进行词性标注和句法分析，得到所述电力领域问句的问句表示，即对于给定的电力领域问句，利用自然语言处理工具进行句法分析和词性标注，得到问句序列模板，具体包括：

S1-1重构自然语言处理的语料库，具体的：

S1-1-1基于电力领域知识库中所有实体、属性的标签(Label)和属性值构建术语迁移词典，对词典中的每个词赋予“名词”词性，同时赋予较高的词频；

S1-1-2基于S1-1-1中构建的术语迁移词典，对自然语言处理语料库中名词进行更新，完成自然语言处理语料库的重构；

基于重构语料库的自然语言处理，可以使电力领域问题与开放域问题在句法分析和词性的特征空间中具有相似的序列模式和特征分布。

S1-2基于重构的语料库，使用自然语言处理工具对电力领域的问句进行词性标注和句法分析，获得电力领域问句的词性序列和句法分析序列，具体的：

词性序列X_pos表示实行如：n|uj|n|v|m|q|x，句法分析序列X_par表示实行如：ATT|RAD|SBV|HED|ATT|VOB|WP，将两个结果序列作为问句(序列)模板，对问句进行表示；其中，上文所述n、uj、v、m、q、x分别表示名词、助词、动词、数字、量词、字符串；ATT、RAD、SBV、HED、VOB、WP分别表示定中关系、后附加关系、主谓关系、核心、动宾关系、结束；

例如：输入句子“营业厅办理更名过户流程”，经过词性标注和句法分析后，得到词性标注序列“n|v|n|v”，句法分析序列“HED|SBV|VOB|ATT”，具体过程如图3所示，其中Root表示根结点。

S2基于预先构建的关键短语识别模型对所述电力领域问句的问句表示进行识别，得到所述电力领域问句的关键实体和关键属性短语，其中问句的关键实体是问句中重点关注的事物，关键属性是关键实体对应的关键特性，具体包括：

S2-1：基于S1-1重构的自然语言处理语料库，使用自然语言处理工具对开放域问句进行词性标注和句法分析，获得开放域问句的序列模板，基于问句和序列模板，手工标注用于关键实体和属性识别的训练数据D，其中训练数据D主要包含部分：问句词性序列X_pos，问句句法分析序列X_par，关键实体和属性的起始和终止位置

{keyEntity_start,keyEntity_end,keyProperty_start,keyProperty_end}。

S2-2：基于S2-1中的训练数据D训练基于开放域问句的关键实体和属性识别模型，具体的：

首先,采用独热编码(One-hot)分别对序列X_pos和X_par进行向量化表示，编码为[1,0,0,......,1,0,0,0,0,1]表示的向量；

然后,利用双向递归神经网络模型(Bi-RNN)分别对X_pos和X_par进行特征编码，得到隐向量V_pos和V_par，其中，V_pos和V_par分别表示词性序列隐向量和句法分析序列隐向量，之后将两个隐向量进行拼接，得到向量V_e：

V_e＝concat(V_pos,V_par) (1)

接着，利用一个线性层对V_e进行解码，进而通过网络中的归一化指数函数(Softmax)层输出每个位置分别作为关键实体和属性短语起始和终止位置的概率：

其中，W_v和b_e为线性层的参数；

最后，利用交叉熵(Cross-entropy)作为损失函数L对模型进行训练，得到关键短语识别模型，其中交叉熵损失函数如下式：

其中，Y_i是第i个问句中关键实体和属性的真实位置，

是第i个问句的预测位置。

S2-3：基于S1中所得的电力领域问句的问句序列模板(包括词性序列X_pos和句法分析序列X_par)和S2-2中训练的关键短语识别模型，进行电力领域问句关键实体短语和属性识别，得到电力领域问句的关键实体短语和属性短语；

例如，输入句子“营业厅办理更名过户流程”，识别得到关键实体短语为“营业厅”和关键属性短语为“更名过户”。

S3基于所述关键实体和关键属性短语在电力领域知识库进行检索，得到所述问句答案，具体包括：

S3-1字向量训练：模糊匹配指的是通过基于字向量表示的余弦相似度计算，实现问句中的词汇与知识库中的语义项之间的语义连接；相对于词向量，字向量拥有更好的灵活性和覆盖度，本实施例中使用中文维基百科作为训练字向量的数据集，并利用连续词袋模型(CBOW)进行字向量的训练，并通过词汇中各个字向量进行相加得到词的向量表示；

S3-2基于S2-3中所得的关键实体短语，通过模糊匹配的方式对知识库进行检索，具体的：经过基于字向量表示的余弦相似度计算，从电力领域知识库中检索到“营业厅”、“营业网点”与关键实体相似度较高，取“营业厅”“营业网点”作为目标实体；使用目标实体在电力领域知识库中检索，获取到“更名”、“过户”、“分时电价”、“电价补贴”等实体的全部属性，生成候选属性集{“更名”、“过户”、“分时电价”、“电价补贴”...}；

S3-3基于S2-3中所得的关键属性短语和S3-2中所得的候选属性集，进行相似计算并排序，取相似度最高的候选属性作为领域问句的属性，并将属性值作为答案，具体包括：

S3-3-1：基于S2-3中所得的关键属性短语和S3-2中所得的候选属性，利用S3-1中所得的字向量，对关键属性短语和候选属性集合中的每个属性分别进行向量表示；

S3-3-2：基于S3-3-1中得到的属性向量，将关键属性短语和候选属性集中的每个属性进行余弦相似度计算，得分较高的候选属性作为目标属性，经过计算，“更名”“过户”与关键属性短语“更名过户”相似度较高，最后将关键属性短语“更名过户”和相似属性“更名”、“过户”作为目标属性；

S3-3-3：基于S3-2中所得的目标实体和S3-3-2中所得的目标属性进行电力领域知识库检索，获得属性值作为答案输出，具体的，将“过户”的属性值“电表过户是指因用电地址物业权属改变，引起用电户主变更”，“更名过户”属性值“根据《供电营业规则》第二十九条规定，用户更名或过户(依法变更用户名称或居民用户房屋变更户主)，应持有关证明向供电企业提出申请。供电企业应按下列规定办理：1.在用电地址、用电容量、用电类别不变条件下，允许办理更名或过户；2.原用户应与供电企业结清债务，才能解除原供用电关系；3.不申请办理过户手续而私自过户者，新用户应承担原用户所负债务。经供电企业检查发现用户私自过户时，供电企业应通知该户补办手续，必要时可中止供电”作为最后答案输出。

实施例2：

本发明实施例公开了一种电力领域知识库问答系统如图2所示，包括：

优选的，问句表示模块，包括：

优选的，模型训练模块一，包括：

优选的，知识库检索模块，包括：

优选的，检索模块一，包括：

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是:以上实施例仅用于说明本申请的技术方案而非对其保护范围的限制,尽管参照上述实施例对本申请进行了详细的说明,所属领域的普通技术人员应当理解:本领域技术人员阅读本申请后依然可对申请的具体实施方式进行种种变更、修改或者等同替换，但这些变更、修改或者等同替换，均在申请待批的权利要求保护范围之内。

Claims

1.一种电力领域的知识库问答方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述关键短语识别模型的构建，包括：

3.如权利要求1所述的方法，其特征在于，所述对获取电力领域的问句进行词性标注和句法分析，得到所述电力领域问句的问句表示，包括：

4.如权利要求2或3所述的方法，其特征在于，所述词性序列包括单词词性和分隔符，所述单词词性包括：名词、助词、动词、数字、量词和字符串中的一种或几种；所述句法分析序列包括：问句中各词语之间的关系和分隔符，所述问句中各词语之间的关系包括：定中关系、后附加关系、主谓关系、核心、动宾关系和结束中的一种或几种。

5.如权利要求2或3所述的方法，其特征在于，所述语料库的重构，包括：

6.如权利要求2所述的方法，其特征在于，所述基于所述关键实体和关键属性短语训练数据进行训练，得到关键短语别模型，包括：