CN115129842A

CN115129842A - 一种用于户外变电站的智能问答方法及置于户外的机器人

Info

Publication number: CN115129842A
Application number: CN202210748904.7A
Authority: CN
Inventors: 蔺家骏; 李晨; 王雅雯; 王渊; 马国明; 邵先军; 王威; 王少华; 詹江杨
Original assignee: North China Electric Power University; Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd
Current assignee: North China Electric Power University; Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2022-06-29
Filing date: 2022-06-29
Publication date: 2022-09-30

Abstract

本发明公开了一种用于户外变电站的智能问答方法及置于户外的机器人，属于户外机器人技术领域。本发明针对变电设备故障处理问题，提供一种用于户外变电站的智能问答机器人，通过构建知识库模块、智能问答模块，并利用实体识别BERT+FLAT模型，抽取自然语言问句中的设备实体元素，并对自然语言问句进行槽填充，进而能有效提升了机器基于变电设备故障案例文本信息的问答准确率，降低了问答机器人的响应延迟，能够根据基层人员(提问人)不同描述形式的提问需求，快速准确地判断并能反馈给基层人员变电设备的故障部位、故障原因、建议措施等有效内容，从而改善了一个问句中包含多个实体或关系的复杂性问题，加快站内设备故障处理进度。

Description

一种用于户外变电站的智能问答方法及置于户外的机器人

技术领域

本发明涉及一种用于户外变电站的智能问答方法及置于户外的机器人，属于户外机器人技术领域。

背景技术

在电力系统长期运行中，变电站内储存着大量设备的历史故障案例。案例上完整地记录了台账信息(含设备型号规格、电压等级、出厂日期、投运日期等内容)、故障现象描述、故障原因、解决措施等不同时期的设备故障信息，蕴含着丰富的设备隐含的故障问题信息及专家处理经验。实际基层人员在开展运维、检修等作业时，须严格按照技术标准的流程规范开展作业，而变电站内设备故障情况复杂，在处理过程中时常受限于基层人员的实践经验、知识储备和专业能力。因此，基于变电设备故障案例的结构化、知识化、智能化，构建一套智能问答系统，可以有效提高基层人员作业效率。

现有的面向电力领域设计的智能问答系统主要有电网客服问答系统、变压器运检智能问答系统、电力业务问答系统。这些系统存在语义理解能力不足的问题，在单一实体、实体-实体、实体-关系-实体这样典型的简单问句中有很好的效果，但无法解决一个问句中包含多个实体或关系的复杂性问题。

发明内容

针对现有技术的缺陷，本发明的目的一在于提供一种通过构建实体识别BERT+FLAT模型，抽取自然语言问句中的设备实体元素，对自然语言问句进行槽填充；并基于字符融入词汇信息的方法，进行设备实体元素的初步抽取，得到初步实体抽取结果；对初步实体抽取结果进行去重、筛选后构建实体拼音同指库；再将实体拼音同指库转换为带有声调的汉字拼音数据；根据汉字拼音数据匹配得到最终的实体抽取结果；同时根据自然语言问句的相对位置编码信息，填补自然语言问句的绝对位置编码信息的空白，实现自然语言问句的槽填充；进而构建知识图谱模型对问句子图进行子图匹配，得到知识图谱三元组；计算知识图谱三元组与问句子图的相似度，选择相似度最高的知识图谱三元组，作为问答答案，实现户外变电站的智能问答，从而能有效提升了机器基于变电设备故障案例文本信息的问答准确率，降低了问答机器人的响应延迟，能够根据基层人员(提问人)不同描述形式的提问需求，快速准确地判断并能反馈给基层人员变电设备的故障部位、故障原因、建议措施等有效内容，加快站内设备故障处理进度的用于户外变电站的智能问答方法。

本发明的目的二在于提供一种通过构建知识库模块、智能问答模块，有效提升了机器基于变电设备故障案例文本信息的问答准确率，降低了问答机器人的响应延迟，能够根据基层人员(提问人)不同描述形式的提问需求，快速准确地判断并能反馈给基层人员变电设备的故障部位、故障原因、建议措施等有效内容，加快站内设备故障处理进度的用于户外变电站的智能问答机器人。

为实现上述目的之一，本发明的第一种技术方案为：

一种用于户外变电站的智能问答方法，包括以下步骤：

第一步，接收外部输入的自然语言问句；

第二步，对第一步中的自然语言问句进行意图识别，分析提问人员的问询意图，并按照故障部位问询、故障原因问询、建议措施问询进行分类；

第三步，根据第二步中的意图识别结果，构建实体识别BERT+FLAT模型，抽取自然语言问句中的设备实体元素，并对自然语言问句进行槽填充；

所述实体识别BERT+FLAT模型，基于字符融入词汇信息的方法，进行设备实体元素的初步抽取，得到初步实体抽取结果；

对初步实体抽取结果进行去重、筛选后构建实体拼音同指库；

再将实体拼音同指库转换为带有声调的汉字拼音数据；

根据汉字拼音数据匹配得到最终的实体抽取结果；

同时根据自然语言问句的相对位置编码信息，填补自然语言问句的绝对位置编码信息的空白，实现自然语言问句的槽填充；

所述设备实体元素至少包括名称或/和位置或/和量词或/和时间或/和设备子部件或/和设备状态信息；

第四步，判断第三步中的设备实体元素与设备实体元素之间是否存在关系以及存在什么关系，得到设备实体元素间的关系信息；

第五步，根据第四步中的关系信息，挖掘设备实体元素之间隐藏的关系，得到问句子图；

第六步，构建知识图谱模型对第五步中的问句子图进行子图匹配，得到知识图谱三元组；

第七步，计算第六步中的知识图谱三元组与问句子图的相似度，选择相似度最高的知识图谱三元组，作为问答答案，实现户外变电站的智能问答。

本发明经过不断探索以及试验，构建实体识别BERT+FLAT模型，抽取自然语言问句中的设备实体元素，并对自然语言问句进行槽填充；所述实体识别BERT+FLAT模型，基于字符融入词汇信息的方法，进行设备实体元素的初步抽取，得到初步实体抽取结果；对初步实体抽取结果进行去重、筛选后构建实体拼音同指库；再将实体拼音同指库转换为带有声调的汉字拼音数据；根据汉字拼音数据匹配得到最终的实体抽取结果；同时根据自然语言问句的相对位置编码信息，填补自然语言问句的绝对位置编码信息的空白，实现自然语言问句的槽填充；进而构建知识图谱模型对问句子图进行子图匹配，得到知识图谱三元组；计算知识图谱三元组与问句子图的相似度，选择相似度最高的知识图谱三元组，作为问答答案，实现户外变电站的智能问答，从而能有效提升了机器基于变电设备故障案例文本信息的问答准确率，降低了问答机器人的响应延迟，能够根据基层人员(提问人)不同描述形式的提问需求，快速准确地判断并能反馈给基层人员变电设备的故障部位、故障原因、建议措施等有效内容，加快站内设备故障处理进度。

同时，本发明采用实体识别BERT+FLAT模型，基于字符融入词汇信息的方法做实体抽取和槽填充，在编码层中引入了文本的相对位置编码信息，填补了原本转换器transformer里仅有绝对位置信息的空白，这种方法既不会因为分词错误而影响抽取结果，又能综合利用字符与词的信息，进一步提高意图识别效率，进而能快速准确地判断并能反馈给基层人员变电设备的故障部位、故障原因、建议措施等有效内容，加快站内设备故障处理进度。

作为优选技术措施：

所述第二步中，意图识别的方法如下：

步骤21，对自然语言问句进行向量化处理，得到词向量；

步骤22，构建预训练模型BERT对步骤21中的词向量进行优化，得到优化词向量；

步骤23，构建神经网络层Bi-LSTM对步骤22中的优化词向量进行语义编码，得到语义编码向量；

步骤24，通过注意力层Attention计算步骤23中的语义编码向量的权重；

步骤25，将所有的语义编码向量乘以相应的权重并进行求和得到特征向量；

步骤26，将步骤25中的特征向量输入到逻辑回归函数softmax中，得到提问人员的问询意图识别结果。

作为优选技术措施：

所述第三步中，实体识别BERT+FLAT模型的构建方法如下：步骤31，对输入的变电设备历史故障案例文本进行向量化处理，得到案例词向量；

步骤32，利用预训练模型BERT训练案例词向量生成词语树，从每一个句子的头部开始，按照最大匹配原则匹配得到对应字符下的所有词语，将词语信息直接置于句子尾部，得到训练文本；

在预训练模型BERT中，能处理的最大文本长度为ZD，每个标识token都表示为一个BS维的向量；

标识token为单个字符和词语，其进行标识身份token-id转换，经地址id映射得到一个(ZD,BS)的向量矩阵表示；

步骤33，将步骤32中的训练文本输入到位置编码层进行编码，编码分为绝对位置编码和相对位置编码；

绝对位置编码按照训练文本序列顺序得到；

相对位置编码具有4种位置编码，每个字有两个相同的头部Head和尾部Tail位置编码，每个词有两个不同的头部Head和尾部Tail位置编码，每两个节点间计算得到四种相对距离，其具体的计算公式如下：

式中head[i]、tail[i]分别代表字或词的头部和尾部编码，

分别代表第i个字或词的头部与第j个的字或词的头部之间的距离；

经全连接层对计算结果进行融合得到最终的相对位置编码，其计算公式如下：

式中W_r代表可学习的参数，★代表连接运算符，d是

和k表示ij位置编码的维度索引；

步骤34，利用多头自注意力机制，结合步骤33中的相对位置编码，提取文本信息特征，文本信息特征的计算公式如下：

Attention(A*，V)＝softmax(A*)V

[Q，K，V]＝E_x[W_q，W_k，W_v]

式中

和u，

均为预训练模型BERT内的可学习参数；

步骤35，将步骤34中的文本信息特征输入至鉴别式机率模型CRF层，预测输出带有实体标签的文本序列Y＝{Y₁，Y₂，Y₃，...,Y_n}，得到变电设备故障案例的初步实体抽取结果。

作为优选技术措施：

所述第四步中，关系信息的获取方法如下：

步骤41，将设备实体元素进行向量化处理，变成长度相同的索引向量；

步骤42，将步骤41中的索引向量对应的词向量c_ijt传输至神经网络层Bi-GRU进行语义编码，得到语义编码向量h_ijt；

步骤43，将步骤42中的语义编码向量h_ijt输入到经逻辑回归softmax分类器得到关系分类结果。

作为优选技术措施：

语义编码向量h_ijt的计算公式如下所示：

h_ijt＝BiGRU(c_ijt)

式中c_ijt表示在i时刻输入的第j个句子的第t个单词的词向量，Bi-GRU为神经网络函数，其包括前向和后向神经网络GRU，能充分地学习上下文关系。

作为优选技术措施：

所述第六步中，知识图谱模型的构建方法如下：

步骤61，将设备实体元素进行向量化处理，得到变成长度相同的索引向量；

步骤62，将步骤61中的索引向量对应的词向量c_ijt传输至神经网络层Bi-GRU进行语义编码，得到语义编码向量h_ijt；

步骤63，将步骤62中的语义编码向量h_ijt输入到经逻辑回归softmax分类器得到关系分类结果；

步骤64，根据步骤63中的关系分类结果，采用图数据库Neo4j将抽取出来的设备实体元素和关系做知识存储，形成节点：设备实体元素和边：关系构成的关于变电设备故障的知识图谱；

所述知识图谱中每一个设备实体元素对和它们之间的关系组成一个三元组<h，r，t>，<h，r，t>分别代表<头实体，关系，尾实体>；

步骤65，利用关系预测模型将不同设备实体元素的路径补全，给步骤64中的知识图谱中不同的节点寻找潜在的有向边。

作为优选技术措施：

所述关系预测模型的补全方法如下：

步骤651，采用向量平移算法TransH，针对每一个关系r，给出一个超平面W_r；

步骤652，计算步骤651中的超平面Wr上的关系向量d_r；

步骤653，根据步骤652中的关系向量d_r，将原有的头实体h和尾实体t映射到超平面上为h_r、t_r；

步骤654，要求三元组满足h_r+d_r＝t_r，对于具有相同头实体和关系的三元组(h,r,t₁)和(h,r,t₂)通过关系r的超平面映射有：

h+r＝t₁

h+r＝t₂；

实现不同设备实体元素的路径补全。

作为优选技术措施：

所述第六步中，子图匹配的方法如下：

问句子图采用图说子图同构算法VF2中的搜索树模型与知识图谱进行子图匹配，其匹配关系式如下：

G1＝(E1，R1)，G2＝(E2，R2)，

其中，G1为问句子图，G2为知识图谱，E为节点即设备实体元素的集合，R为边即关系集合；

图说子图同构算法VF2中的每一个节点为s，

s中包括一系列G1和G2中节点的映射<key，value>，

其中，key代表G1中的节点，value代表G2中的节点；

随着搜索树高度的增加，s中的key-value对会逐渐增多；

当s中所有节点对都满足约束公式，就称这个状态s为一致状态，完成子图匹配；

约束公式如下所示：

表示问句子图、知识图谱中节点的对应关系集合，若节点u∈E₁,则μ(u)∈E₂表示与节点u对应的G₂中的节点；如果节点v∈E₂，则μ^-1(v)∈E₁表示与节点v对应的G₁中的节点。

作为优选技术措施：

所述第七步中，相似度计算公式如下：

式中A和B分别代表知识图谱三元组和问句子图，相似度值的输出区间为[0,1]，值越大，代表知识图谱三元组与问句子图的相似度越高。

为实现上述目的之一，本发明的第二种技术方案为：

一种置于户外变电站的智能问答机器人，应用上述的一种用于户外变电站的智能问答方法；其包括知识库模块、智能问答模块、电池、若干电路模块、机身。

所述知识库模块，用于处理分析非结构化的变电设备故障案例文本信息，经过模块内一系列的单元处理后形成结构化、易操作、易利用的知识集合，其包括变电设备故障案例文本信息输入单元、实体抽取单元、关系抽取单元、知识存储单元、关系预测单元、知识更新单元；

变电设备故障案例文本信息输入单元，用于接收系统外部录入的变电设备故障文本数据集；

实体抽取单元，基于实体识别BERT+FLAT模型进行构建，其用于抽取变电设备故障文本数据集中的设备名称、位置、量词、时间、设备子部件、设备状态等信息元素；

关系抽取单元，用于判断文本中实体间是否存在关系以及存在什么关系；

知识存储单元，用于存储从文本中抽取出来的实体、关系信息，形成知识图谱；

关系预测单元，用于挖掘实体间隐藏的关系，对现有知识图谱进行完善；

知识更新单元，用于后续在现有知识图谱上更新新的节点：实体和边：关系；

所述智能问答模块，用于处理分析基层人员输入的问题并反馈具有相关度的答案，其包括问句输入单元、问句意图识别单元、槽填充单元、子图匹配单元、答案排序单元、答案封装输出单元；

问句输入单元，用于接收系统外部输入的自然语言问句；

意图识别单元，用于分析基层人员的问询意图，并按照故障部位问询、故障原因问询、建议措施问询进行分类；

槽填充单元，基于实体识别BERT+FLAT模型进行构建，其用于抽取问句中的设备名称、位置、量词、时间、设备子部件、设备状态信息元素；

子图匹配单元，用于将构建的问句子图与知识库中的知识图谱进行子图匹配，返回符合的知识图谱三元组；

答案排序单元，用于筛选相似度最高的子图匹配结果；

答案封装输出单元，用于将具有相似度的子图匹配结果封装；

所述电池用金属件密封；

所述电路模块采用具备电磁屏蔽功能的金属件封装，每个电路模块间连接的线缆也均穿入金属屏蔽套管中进行保护；并使用表面镀覆惰性金属的银铜导电漆纸覆盖各部件的连接和缝隙处；所述机身的整个外表面均敷有微尔斯防水泄压膜。

本发明针对变电设备故障处理问题，设置应用于变电现场辅助决策的智能问答机器人，其具有以下优势：

1)本发明的实体抽取单元和槽填充单元采用实体识别BERT+FLAT模型进行构建，基于字符融入词汇信息的方法做实体抽取和槽填充，在编码层中引入了文本的相对位置编码信息，填补了原本转换器transformer里仅有绝对位置信息的空白，这种方法既不会因为分词错误而影响抽取结果，又能综合利用字符与词的信息。

2)本发明采用实体识别BERT+FLAT模型，其可支持并行化计算，推理速度快，降低了问答机器人的响应延迟。

3)本发明的智能问答模块可以大幅提升一个问句中包含多个实体或关系的复杂性问题的问答准确率。

4)本发明中增加了知识更新单元，不用再重新训练全部文本数据，当有新的故障案例或者新的知识需要补充，巡检人员只需输入新的知识文本进入知识更新单元，就能不断扩充系统的知识量，实现知识库在系统服务时的自动更新，提高机器人的问答能力。

与现有技术相比，本发明具有以下有益效果：

进一步，本发明经过不断探索以及试验，通过构建知识库模块、智能问答模块，提供一种置于户外变电站的智能问答机器人，有效提升了机器基于变电设备故障案例文本信息的问答准确率，降低了问答机器人的响应延迟，能够根据基层人员(提问人)不同描述形式的提问需求，快速准确地判断并能反馈给基层人员变电设备的故障部位、故障原因、建议措施等有效内容，加快站内设备故障处理进度。

附图说明

图1为本发明知识库模块构建方法流程图；

图2为本发明实体抽取单元运行流程图；

图3为本发明关系抽取单元运行流程图；

图4为本发明变电设备故障知识图谱局部示意图；

图5为本发明关系预测单元作用示意图；

图6为本发明TransH原理图；

图7为本发明智能问答模块构建方法流程图；

图8为本发明意图识别单元运行流程图；

图9为本发明置于户外变电站的智能问答机器人硬件配置图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文所使用的术语只是为了描述具体的实施例的目的，不是旨在限制本发明。本文所使用的术语“或/和”包括一个或多个相关的所列项目的任意的和所有的组合。

本发明用于户外变电站的智能问答方法的一种具体实施例：

一种用于户外变电站的智能问答方法，包括以下步骤：

第一步，接收外部输入的自然语言问句；

再将实体拼音同指库转换为带有声调的汉字拼音数据；

根据汉字拼音数据匹配得到最终的实体抽取结果；

本发明用于户外变电站的智能问答机器人的第一种具体实施例：

一种用于户外变电站的智能问答机器人，包括知识库模块、智能问答模块；

实体抽取单元，用于抽取变电设备故障文本数据集中的设备名称、位置、量词、时间、设备子部件、设备状态等信息元素；

关系抽取单元，用于判断文本中实体间是否存在关系以及存在什么关系，即抽取出实体间属于、位于、发现、产生、引发等关系特征词；

关系预测单元，用于挖掘实体间隐藏的关系，对现有知识图谱进行进一步完善；

问句输入单元，用于接收系统外部输入的自然语言问句；

槽填充单元，用于抽取问句中的设备名称、位置、量词、时间、设备子部件、设备状态信息元素；

答案排序单元，用于筛选相似度最高的子图匹配结果；

答案封装输出单元，用于将具有相似度的子图匹配结果封装。

如图1所示，本发明知识库模块的一种具体实施例：

知识库模块是用于处理分析非结构化的变电设备故障案例文本信息，经过模块内一系列的单元处理后形成结构化、易操作、易利用的知识集合。

变电设备故障案例文本信息输入单元用于接收系统外部录入的变电设备故障文本数据集。实体抽取单元用于抽取变电设备故障文本数据集中的设备名称、位置、量词、时间、设备子部件、设备状态等信息元素。关系抽取单元用于判断文本中实体间是否存在关系以及存在什么关系，即抽取出实体间属于、位于、发现、产生、引发等关系特征词。知识存储单元用于存储从文本中抽取出来的实体、关系信息，形成知识图谱。关系预测单元用于挖掘实体间隐藏的关系，对现有知识图谱进行进一步完善。知识更新单元用于后续在现有知识图谱上更新新的节点(实体)和边(关系)。

知识库模块的构建方法，具体包括以下步骤：

S1:首先经过变电设备故障案例文本信息输入单元给机器人录入已有的变电设备历史故障案例文本，录入完成后传输至实体抽取单元。

S2:若基于中文分词工具做知识抽取，会产生分词错误，直接影响实体边界的预测，导致知识抽取不匹配。若基于字符做知识抽取则会丢失词汇间信息。因此，本发明中机器人采用实体识别BERT+FLAT模型，基于字符融入词汇信息的方法做实体抽取，既不会因为分词错误而影响抽取结果，又能综合利用字符与词的信息，最后得到初步实体抽取结果。而人工输入文本时，主要通过拼音、语音输入，会导致出现大量的同音错别字实体，因此根据初步得到的实体抽取结果，将其经过去重、人工筛选后构建实体拼音同指库，采用KTestpinyin4.8将初步实体抽取结果全部转换为带有声调的汉字拼音形式，最后根据实体拼音同指匹配得到最终的实体抽取结果。

如图2所示，机器人的实体抽取单元首先对经输入单元传输进来的文本进行向量化处理。为了提取句子中的词汇信息，需要产生训练语句中的候选词汇，利用BERT预训练词向量生成词语树，从每一个句子的头部开始，按照最大匹配原则匹配得到对应字符下的所有词语，将词语信息直接置于句子尾部。在BERT中，能处理的最大文本长度为512，每个token都表示为一个768维的向量。以单个字符和词语作为token，进行标识身份token-id转换，经id映射得到一个(512,768)的向量矩阵表示。

然后进入位置编码层，分为绝对位置编码和相对位置编码。绝对位置编码按照文本序列顺序得到。相对位置具有4种位置编码，每个字有两个相同的Head和Tail位置编码，每个词有两个不同的Head和Tail位置编码，每两个节点间可以计算得到四种相对距离：

式中head[i]、tail[i]分别代表字或词的头部和尾部编码，

代表第i个字或词的头部与第j个的字或词的头部之间的距离，其余的

含义类似。

经全连接层对计算结果进行融合得到最终的相对位置编码：

式中W_r代表可学习的参数，★代表连接运算符，d是

和k表示ij位置编码的维度索引。

再利用多头自注意力机制提取文本信息特征：

Attention(A^*，V)＝softmax(A^*)V

[Q，K，V]＝E_x[W_q，W_k，W_v]

式中

和u，

均为预训练模型BERT内的可学习参数。

最后将上述提取出来的特征信息X＝{X₁，X₂，X₃，...,X_n}输入至CRF层，预测输出带有实体标签的文本序列Y＝{Y₁，Y₂，Y₃，...,Y_n}，得到变电设备故障案例的初步实体信息，然后根据初步得到的实体抽取结果，将其经过去重、人工筛选后构建实体拼音同指库，采用KTestpinyin4.8将初步实体抽取结果全部转换为带有声调的汉字拼音形式，最后根据实体拼音同指匹配、修正反馈得到最终的实体抽取结果。

S3:如图3所示，机器人将带有实体标签的文本序列输入至关系抽取单元，本发明采用BiGRU-Attention模型进行关系抽取。首先将文本进行向量化处理，每个文本经向量化处理后变成长度相同的索引向量，每个索引对应一个词向量c_ijt。再将文本向量传输至Bi-GRU神经网络层进行语义编码，得到语义编码向量h_ijt，计算公式如下所示：

h_ijt＝BiGRU(c_ijt)

式中c_ijt表示在i时刻输入的第j个句子的第t个单词的词向量，Bi-GRU包括前向和后向GRU，可以充分地学习上下文关系。

不同的词向量对文本特征贡献度不一样，有的词对文本里实体间的关系判断十分关键，有的词却不是很重要，本发明引入Attention机制给每个词向量分配不同的权重。最后经softmax分类器得到关系分类结果。

S4:机器人将实体抽取单元和关系抽取单元的抽取结果传送至知识存储单元，Neo4j是一种存储灵活、具有免索引邻接属性、支持ACID特性、可提供查询与展示一体化的图数据库，面向不同数量和深度的数据都能保证零延迟。固本发明采用Neo4j图数据库将抽取出来的实体和关系做知识存储，形成节点(实体)和边(关系)构成的变电设备故障知识图谱，如图4所示，整个图谱数据存储在机器人系统的硬盘里。

S5:在实体抽取单元和关系抽取单元中抽取的每一个实体对和它们之间的关系都可以组成一个三元组<h，r，t>，分别代表<头实体，关系，尾实体>。其中关系类型是由人工定义并标注的，面对庞大的数据量，定义的关系类型覆盖范围很可能覆盖不完全，例如：(主变，包含，冷却器系统)与(冷却器系统，包含，风扇)，实质主变和风扇之间也存在包含关系，本发明中机器人利用关系预测单元将主变与风扇之间的路径补全，给现有知识图谱中不同的节点(实体)寻找潜在的有向边(关系)。

如图5所示，本发明设计研发的智能问答机器人的关系预测单元采用TransH模型，参见图6，针对每一个关系r，都给出一个超平面W_r，在W_r超平面上定义关系向量d_r，再将原有的头实体h和尾实体t映射到超平面上为h_r、t_r。

要求三元组满足h_r+d_r＝t_r，对于具有相同头实体和关系的三元组(h,r,t₁)和(h,r,t₂)通过关系r的超平面映射有：

h+r＝t₁

h+r＝t₂

这样就把t₁和t₂在TransE模型上无法同时表示的问题解决了，即解决了一对多、多对一、自反等问题。

S6:变电现场设备故障类型多样，需不断更新知识库，因此本发明中增加了知识更新单元，不用再重新训练全部文本数据。当有新的故障案例或者新的知识需要补充，巡检人员只需输入新的知识文本，在知识更新单元中经过如S2和S3所述的知识抽取流程，即可在原有的图数据库中增加新的点(实体)和边(关系)，形成新的知识库，实现知识库在系统服务时的自动更新，不断扩充系统的知识量、提高系统问答能力。

如图7所示，本发明智能问答模块的一种具体实施例：

所述智能问答模块是用于处理分析基层人员输入的问题并反馈相关度最高的答案。问句输入单元用于接收系统外部输入的自然语言问句。意图识别单元用于分析基层人员的问询意图，本发明中机器人按照故障部位问询、故障原因问询、建议措施问询等问询意图进行分类。槽填充单元用于抽取问句中的设备名称、位置、量词、时间、设备子部件、设备状态等信息元素。子图匹配单元用于将构建的问句子图与知识库中的知识图谱进行子图匹配，返回符合的知识图谱三元组。答案排序单元用于筛选相似度最高的子图匹配结果。答案封装输出单元用于将相似度最高的子图匹配结果封装并输出至机器人的显示界面。

智能问答模块的构建方法如下：

S1:首先基层人员通过机器人的问句输入单元将问题输入给机器人，问句输入完后传输至问句意图识别单元。

S2:如图8所示，意图识别单元先对问题文本进行向量化处理，然后加载BERT预训练模型参数，经BERT预训练模型优化词向量，再经过Bi-LSTM神经网络层进行语义编码，得到语义编码向量，再经过Attention层计算每个向量的权重，然后将所有向量进行加权求和得到特征向量，最后经softmax分类得到基层人员的问询意图识别结果。

S3:槽填充过程实质就是实体抽取，所以本发明中机器人的槽填充单元的运行流程同知识库模块的实体抽取单元所述。

S4:本发明中机器人的子图匹配单元根据意图识别单元和槽填充单元传递问询意图、实体，构建问句子图G₁，采用VF2搜索树模型与知识库中的知识图谱G₂进行子图匹配，G₁＝(E₁，R₁)，G₂＝(E₂，R₂)，E代表节点(实体)集合，R代表边(关系)集合。VF2模型中的每一个节点(状态)为s，s中包含一系列G₁和G₂中节点(实体)的映射<key，value>，key代表G₁中的节点，value代表G₂中的节点，随着搜索树高度的增加，s中的key-value对会逐渐增多，当s中所有节点对都满足以下约束，就称这个状态s为一致状态。

表示两图中节点的对应关系集合，若节点u∈E₁,则μ(u)∈E₂表示与节点u对应的G₂中的节点；如果节点v∈E₂，则μ^-1(v)∈E₁表示与节点v对应的G₁中的节点。

S5:在机器人的答案排序单元中，利用基于相似度计算公式计算子图匹配单元中返回的所有三元组集合与问句子图的相似度，选择相似度最高的三元组集合输送至答案封装单元。相似度计算如下：

式中A和B分别代表两个子图集合，Jaccard相似度值的输出区间为[0,1]，值越大，代表2个子图的相似度越高。

S6:将答案排序单元的输出结果经答案封装单元进行封装输出至机器人的显示界面。

如图9所示，本发明置于户外变电站的智能问答机器人的第二种具体实施例：

本发明系统硬件配置有嵌入式键盘、12.9英寸2388x1668分辨率的可触控显示屏、移动机器人轮子，机器人内部系统有科大讯飞语音识别模块、知识库模块、智能问答模块、超声波测距传感器、Arduino MEGA128控制器、双H桥电机驱动器、直流电机、电源模块。

当基层人员在处理户外变电现场的设备故障事件时，可根据实际情况选择手动输入或语音输入来描述故障现象，经智能问答机器人内部系统运作，在显示屏上返回故障设备的图片并标注圈出具体部位，图片右侧显示类似历史故障案例列表，可点击查看类似故障案例详情供基层人员综合判断。科大讯飞语音识别模块用于语音识别，超声波测距传感器用于防止机器人移动时碰到障碍物，直流电机给移动机器人供电，双H桥电机驱动器用于驱动直流电机和控制器，电源模块用于给整个机器人供电。知识库模块包括变电设备故障案例文本信息输入单元、实体抽取单元、关系抽取单元、知识存储单元、关系预测单元、知识更新单元等六个单元，

智能问答模块包括问句输入单元、问句意图识别单元、槽填充单元、子图匹配单元、答案排序单元、答案封装输出单元等六个单元。

同时考虑到将智能问答机器人置于户外变电站的情况，还增加了抗电磁干扰的性能。以下将按照智能问答机器人的知识库模块、智能问答模块以及机器人外部性能等三个部分进行简述。

本发明智能问答机器人外部结构的一种具体实施例：

考虑到将机器人置于户外变电站这样一个特殊的场景中，本发明为该机器人增加了抗电磁干扰和防水能力，确保机器人在站内的正常运行。

抗电磁干扰

本发明设计研究的机器人采用电池供电，电池用金属件密封，不仅如此，机器人内部的各个电路模块均采用具备电磁屏蔽功能的金属件封装，每个模块间连接的线缆也均穿入金属屏蔽套管中保护起来，使用表面镀覆惰性金属的银铜导电漆纸覆盖各结构件的连接和缝隙处，严格保证电磁屏蔽效果。

防水

本发明设计研究的机器人的全机身均敷有微尔斯防水泄压膜，透气防水。当户外下雨时，可以防止雨水进入机体内部，使内部电路不被损毁，影响机器人的正常使用。

本申请的术语解释：

智能问答系统

智能问答系统以一问一答形式，精确的定位网站用户所需要的提问知识，通过与网站用户进行交互，为网站用户提供个性化的信息服务。

实体

实体是客观存在并可相互区别的事物。就数据库而言，实体往往指某类事物的集合，把每一类数据对象的个体称为实体。

关系

实体之间相互作用、相互影响的状态。

深度神经网络

深度神经网络是机器学习领域中一种技术。

BERT

全称Bidirectional Encoder Representation from Transformers，指基于转换器的双向编码表征，是2018年10月由Google AI研究院提出的一种预训练模型。

BiLSTM

BiLSTM全称Bidirectional Long Short Term Memory，指含注意力机制的双向长短期记忆人工神经网络，适用于复杂程度较高的场景，同时能够更好地捕捉文本里的长期依赖。

CRF

全称conditional random field，是一种鉴别式机率模型，常用于标注或分析序列资料。

Elasticsearch

Elasticsearch是用Java语言开发的，并作为Apache许可条款下的开放源码发布，是一种流行的企业级搜索引擎。

知识图谱

知识图谱在图书情报界称为知识域可视化或知识领域映射地图，是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。

三元组

通常由实体-关系-实体组成。

槽位

实体已明确定义的属性。

槽填充

从大规模的语料库中抽取给定实体的被明确定义的属性的值。

ACID

指数据库管理系统(DBMS)在写入或更新资料的过程中，为保证事务(transaction)是正确可靠的，所必须具备的四个特性：原子性(atomicity，或称不可分割性)、一致性(consistency)、隔离性(isolation，又称独立性)、持久性(durability)。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。