CN115129842A - 一种用于户外变电站的智能问答方法及置于户外的机器人 - Google Patents

一种用于户外变电站的智能问答方法及置于户外的机器人 Download PDF

Info

Publication number
CN115129842A
CN115129842A CN202210748904.7A CN202210748904A CN115129842A CN 115129842 A CN115129842 A CN 115129842A CN 202210748904 A CN202210748904 A CN 202210748904A CN 115129842 A CN115129842 A CN 115129842A
Authority
CN
China
Prior art keywords
question
entity
equipment
knowledge
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210748904.7A
Other languages
English (en)
Inventor
蔺家骏
李晨
王雅雯
王渊
马国明
邵先军
王威
王少华
詹江杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North China Electric Power University
Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd
Original Assignee
North China Electric Power University
Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North China Electric Power University, Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd filed Critical North China Electric Power University
Priority to CN202210748904.7A priority Critical patent/CN115129842A/zh
Publication of CN115129842A publication Critical patent/CN115129842A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/0005Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Mechanical Engineering (AREA)
  • Robotics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用于户外变电站的智能问答方法及置于户外的机器人,属于户外机器人技术领域。本发明针对变电设备故障处理问题,提供一种用于户外变电站的智能问答机器人,通过构建知识库模块、智能问答模块,并利用实体识别BERT+FLAT模型,抽取自然语言问句中的设备实体元素,并对自然语言问句进行槽填充,进而能有效提升了机器基于变电设备故障案例文本信息的问答准确率,降低了问答机器人的响应延迟,能够根据基层人员(提问人)不同描述形式的提问需求,快速准确地判断并能反馈给基层人员变电设备的故障部位、故障原因、建议措施等有效内容,从而改善了一个问句中包含多个实体或关系的复杂性问题,加快站内设备故障处理进度。

Description

一种用于户外变电站的智能问答方法及置于户外的机器人
技术领域
本发明涉及一种用于户外变电站的智能问答方法及置于户外的机器人,属于户外机器人技术领域。
背景技术
在电力系统长期运行中,变电站内储存着大量设备的历史故障案例。案例上完整地记录了台账信息(含设备型号规格、电压等级、出厂日期、投运日期等内容)、故障现象描述、故障原因、解决措施等不同时期的设备故障信息,蕴含着丰富的设备隐含的故障问题信息及专家处理经验。实际基层人员在开展运维、检修等作业时,须严格按照技术标准的流程规范开展作业,而变电站内设备故障情况复杂,在处理过程中时常受限于基层人员的实践经验、知识储备和专业能力。因此,基于变电设备故障案例的结构化、知识化、智能化,构建一套智能问答系统,可以有效提高基层人员作业效率。
现有的面向电力领域设计的智能问答系统主要有电网客服问答系统、变压器运检智能问答系统、电力业务问答系统。这些系统存在语义理解能力不足的问题,在单一实体、实体-实体、实体-关系-实体这样典型的简单问句中有很好的效果,但无法解决一个问句中包含多个实体或关系的复杂性问题。
发明内容
针对现有技术的缺陷,本发明的目的一在于提供一种通过构建实体识别BERT+FLAT模型,抽取自然语言问句中的设备实体元素,对自然语言问句进行槽填充;并基于字符融入词汇信息的方法,进行设备实体元素的初步抽取,得到初步实体抽取结果;对初步实体抽取结果进行去重、筛选后构建实体拼音同指库;再将实体拼音同指库转换为带有声调的汉字拼音数据;根据汉字拼音数据匹配得到最终的实体抽取结果;同时根据自然语言问句的相对位置编码信息,填补自然语言问句的绝对位置编码信息的空白,实现自然语言问句的槽填充;进而构建知识图谱模型对问句子图进行子图匹配,得到知识图谱三元组;计算知识图谱三元组与问句子图的相似度,选择相似度最高的知识图谱三元组,作为问答答案,实现户外变电站的智能问答,从而能有效提升了机器基于变电设备故障案例文本信息的问答准确率,降低了问答机器人的响应延迟,能够根据基层人员(提问人)不同描述形式的提问需求,快速准确地判断并能反馈给基层人员变电设备的故障部位、故障原因、建议措施等有效内容,加快站内设备故障处理进度的用于户外变电站的智能问答方法。
本发明的目的二在于提供一种通过构建知识库模块、智能问答模块,有效提升了机器基于变电设备故障案例文本信息的问答准确率,降低了问答机器人的响应延迟,能够根据基层人员(提问人)不同描述形式的提问需求,快速准确地判断并能反馈给基层人员变电设备的故障部位、故障原因、建议措施等有效内容,加快站内设备故障处理进度的用于户外变电站的智能问答机器人。
为实现上述目的之一,本发明的第一种技术方案为:
一种用于户外变电站的智能问答方法,包括以下步骤:
第一步,接收外部输入的自然语言问句;
第二步,对第一步中的自然语言问句进行意图识别,分析提问人员的问询意图,并按照故障部位问询、故障原因问询、建议措施问询进行分类;
第三步,根据第二步中的意图识别结果,构建实体识别BERT+FLAT模型,抽取自然语言问句中的设备实体元素,并对自然语言问句进行槽填充;
所述实体识别BERT+FLAT模型,基于字符融入词汇信息的方法,进行设备实体元素的初步抽取,得到初步实体抽取结果;
对初步实体抽取结果进行去重、筛选后构建实体拼音同指库;
再将实体拼音同指库转换为带有声调的汉字拼音数据;
根据汉字拼音数据匹配得到最终的实体抽取结果;
同时根据自然语言问句的相对位置编码信息,填补自然语言问句的绝对位置编码信息的空白,实现自然语言问句的槽填充;
所述设备实体元素至少包括名称或/和位置或/和量词或/和时间或/和设备子部件或/和设备状态信息;
第四步,判断第三步中的设备实体元素与设备实体元素之间是否存在关系以及存在什么关系,得到设备实体元素间的关系信息;
第五步,根据第四步中的关系信息,挖掘设备实体元素之间隐藏的关系,得到问句子图;
第六步,构建知识图谱模型对第五步中的问句子图进行子图匹配,得到知识图谱三元组;
第七步,计算第六步中的知识图谱三元组与问句子图的相似度,选择相似度最高的知识图谱三元组,作为问答答案,实现户外变电站的智能问答。
本发明经过不断探索以及试验,构建实体识别BERT+FLAT模型,抽取自然语言问句中的设备实体元素,并对自然语言问句进行槽填充;所述实体识别BERT+FLAT模型,基于字符融入词汇信息的方法,进行设备实体元素的初步抽取,得到初步实体抽取结果;对初步实体抽取结果进行去重、筛选后构建实体拼音同指库;再将实体拼音同指库转换为带有声调的汉字拼音数据;根据汉字拼音数据匹配得到最终的实体抽取结果;同时根据自然语言问句的相对位置编码信息,填补自然语言问句的绝对位置编码信息的空白,实现自然语言问句的槽填充;进而构建知识图谱模型对问句子图进行子图匹配,得到知识图谱三元组;计算知识图谱三元组与问句子图的相似度,选择相似度最高的知识图谱三元组,作为问答答案,实现户外变电站的智能问答,从而能有效提升了机器基于变电设备故障案例文本信息的问答准确率,降低了问答机器人的响应延迟,能够根据基层人员(提问人)不同描述形式的提问需求,快速准确地判断并能反馈给基层人员变电设备的故障部位、故障原因、建议措施等有效内容,加快站内设备故障处理进度。
同时,本发明采用实体识别BERT+FLAT模型,基于字符融入词汇信息的方法做实体抽取和槽填充,在编码层中引入了文本的相对位置编码信息,填补了原本转换器transformer里仅有绝对位置信息的空白,这种方法既不会因为分词错误而影响抽取结果,又能综合利用字符与词的信息,进一步提高意图识别效率,进而能快速准确地判断并能反馈给基层人员变电设备的故障部位、故障原因、建议措施等有效内容,加快站内设备故障处理进度。
作为优选技术措施:
所述第二步中,意图识别的方法如下:
步骤21,对自然语言问句进行向量化处理,得到词向量;
步骤22,构建预训练模型BERT对步骤21中的词向量进行优化,得到优化词向量;
步骤23,构建神经网络层Bi-LSTM对步骤22中的优化词向量进行语义编码,得到语义编码向量;
步骤24,通过注意力层Attention计算步骤23中的语义编码向量的权重;
步骤25,将所有的语义编码向量乘以相应的权重并进行求和得到特征向量;
步骤26,将步骤25中的特征向量输入到逻辑回归函数softmax中,得到提问人员的问询意图识别结果。
作为优选技术措施:
所述第三步中,实体识别BERT+FLAT模型的构建方法如下:步骤31,对输入的变电设备历史故障案例文本进行向量化处理,得到案例词向量;
步骤32,利用预训练模型BERT训练案例词向量生成词语树,从每一个句子的头部开始,按照最大匹配原则匹配得到对应字符下的所有词语,将词语信息直接置于句子尾部,得到训练文本;
在预训练模型BERT中,能处理的最大文本长度为ZD,每个标识token都表示为一个BS维的向量;
标识token为单个字符和词语,其进行标识身份token-id转换,经地址id映射得到一个(ZD,BS)的向量矩阵表示;
步骤33,将步骤32中的训练文本输入到位置编码层进行编码,编码分为绝对位置编码和相对位置编码;
绝对位置编码按照训练文本序列顺序得到;
相对位置编码具有4种位置编码,每个字有两个相同的头部Head和尾部Tail位置编码,每个词有两个不同的头部Head和尾部Tail位置编码,每两个节点间计算得到四种相对距离,其具体的计算公式如下:
Figure BDA0003720511260000041
Figure BDA0003720511260000042
Figure BDA0003720511260000043
Figure BDA0003720511260000044
式中head[i]、tail[i]分别代表字或词的头部和尾部编码,
Figure BDA0003720511260000045
分别代表第i个字或词的头部与第j个的字或词的头部之间的距离;
经全连接层对计算结果进行融合得到最终的相对位置编码,其计算公式如下:
Figure BDA0003720511260000046
Figure BDA0003720511260000047
Figure BDA0003720511260000048
式中Wr代表可学习的参数,★代表连接运算符,d是
Figure BDA0003720511260000049
和k表示ij位置编码的维度索引;
步骤34,利用多头自注意力机制,结合步骤33中的相对位置编码,提取文本信息特征,文本信息特征的计算公式如下:
Figure BDA00037205112600000410
Attention(A*,V)=softmax(A*)V
Figure BDA0003720511260000051
[Q,K,V]=Ex[Wq,Wk,Wv]
式中
Figure BDA0003720511260000052
和u,
Figure BDA0003720511260000053
均为预训练模型BERT内的可学习参数;
步骤35,将步骤34中的文本信息特征输入至鉴别式机率模型CRF层,预测输出带有实体标签的文本序列Y={Y1,Y2,Y3,...,Yn},得到变电设备故障案例的初步实体抽取结果。
作为优选技术措施:
所述第四步中,关系信息的获取方法如下:
步骤41,将设备实体元素进行向量化处理,变成长度相同的索引向量;
步骤42,将步骤41中的索引向量对应的词向量cijt传输至神经网络层Bi-GRU进行语义编码,得到语义编码向量hijt
步骤43,将步骤42中的语义编码向量hijt输入到经逻辑回归softmax分类器得到关系分类结果。
作为优选技术措施:
语义编码向量hijt的计算公式如下所示:
hijt=BiGRU(cijt)
式中cijt表示在i时刻输入的第j个句子的第t个单词的词向量,Bi-GRU为神经网络函数,其包括前向和后向神经网络GRU,能充分地学习上下文关系。
作为优选技术措施:
所述第六步中,知识图谱模型的构建方法如下:
步骤61,将设备实体元素进行向量化处理,得到变成长度相同的索引向量;
步骤62,将步骤61中的索引向量对应的词向量cijt传输至神经网络层Bi-GRU进行语义编码,得到语义编码向量hijt
步骤63,将步骤62中的语义编码向量hijt输入到经逻辑回归softmax分类器得到关系分类结果;
步骤64,根据步骤63中的关系分类结果,采用图数据库Neo4j将抽取出来的设备实体元素和关系做知识存储,形成节点:设备实体元素和边:关系构成的关于变电设备故障的知识图谱;
所述知识图谱中每一个设备实体元素对和它们之间的关系组成一个三元组<h,r,t>,<h,r,t>分别代表<头实体,关系,尾实体>;
步骤65,利用关系预测模型将不同设备实体元素的路径补全,给步骤64中的知识图谱中不同的节点寻找潜在的有向边。
作为优选技术措施:
所述关系预测模型的补全方法如下:
步骤651,采用向量平移算法TransH,针对每一个关系r,给出一个超平面Wr
步骤652,计算步骤651中的超平面Wr上的关系向量dr
步骤653,根据步骤652中的关系向量dr,将原有的头实体h和尾实体t映射到超平面上为hr、tr
步骤654,要求三元组满足hr+dr=tr,对于具有相同头实体和关系的三元组(h,r,t1)和(h,r,t2)通过关系r的超平面映射有:
h+r=t1
h+r=t2
实现不同设备实体元素的路径补全。
作为优选技术措施:
所述第六步中,子图匹配的方法如下:
问句子图采用图说子图同构算法VF2中的搜索树模型与知识图谱进行子图匹配,其匹配关系式如下:
G1=(E1,R1),G2=(E2,R2),
其中,G1为问句子图,G2为知识图谱,E为节点即设备实体元素的集合,R为边即关系集合;
图说子图同构算法VF2中的每一个节点为s,
s中包括一系列G1和G2中节点的映射<key,value>,
其中,key代表G1中的节点,value代表G2中的节点;
随着搜索树高度的增加,s中的key-value对会逐渐增多;
当s中所有节点对都满足约束公式,就称这个状态s为一致状态,完成子图匹配;
约束公式如下所示:
Figure BDA0003720511260000061
Figure BDA0003720511260000062
Figure BDA0003720511260000071
Figure BDA0003720511260000072
Figure BDA0003720511260000073
Figure BDA0003720511260000074
表示问句子图、知识图谱中节点的对应关系集合,若节点u∈E1,则μ(u)∈E2表示与节点u对应的G2中的节点;如果节点v∈E2,则μ-1(v)∈E1表示与节点v对应的G1中的节点。
作为优选技术措施:
所述第七步中,相似度计算公式如下:
Figure BDA0003720511260000075
式中A和B分别代表知识图谱三元组和问句子图,相似度值的输出区间为[0,1],值越大,代表知识图谱三元组与问句子图的相似度越高。
为实现上述目的之一,本发明的第二种技术方案为:
一种置于户外变电站的智能问答机器人,应用上述的一种用于户外变电站的智能问答方法;其包括知识库模块、智能问答模块、电池、若干电路模块、机身。
所述知识库模块,用于处理分析非结构化的变电设备故障案例文本信息,经过模块内一系列的单元处理后形成结构化、易操作、易利用的知识集合,其包括变电设备故障案例文本信息输入单元、实体抽取单元、关系抽取单元、知识存储单元、关系预测单元、知识更新单元;
变电设备故障案例文本信息输入单元,用于接收系统外部录入的变电设备故障文本数据集;
实体抽取单元,基于实体识别BERT+FLAT模型进行构建,其用于抽取变电设备故障文本数据集中的设备名称、位置、量词、时间、设备子部件、设备状态等信息元素;
关系抽取单元,用于判断文本中实体间是否存在关系以及存在什么关系;
知识存储单元,用于存储从文本中抽取出来的实体、关系信息,形成知识图谱;
关系预测单元,用于挖掘实体间隐藏的关系,对现有知识图谱进行完善;
知识更新单元,用于后续在现有知识图谱上更新新的节点:实体和边:关系;
所述智能问答模块,用于处理分析基层人员输入的问题并反馈具有相关度的答案,其包括问句输入单元、问句意图识别单元、槽填充单元、子图匹配单元、答案排序单元、答案封装输出单元;
问句输入单元,用于接收系统外部输入的自然语言问句;
意图识别单元,用于分析基层人员的问询意图,并按照故障部位问询、故障原因问询、建议措施问询进行分类;
槽填充单元,基于实体识别BERT+FLAT模型进行构建,其用于抽取问句中的设备名称、位置、量词、时间、设备子部件、设备状态信息元素;
子图匹配单元,用于将构建的问句子图与知识库中的知识图谱进行子图匹配,返回符合的知识图谱三元组;
答案排序单元,用于筛选相似度最高的子图匹配结果;
答案封装输出单元,用于将具有相似度的子图匹配结果封装;
所述电池用金属件密封;
所述电路模块采用具备电磁屏蔽功能的金属件封装,每个电路模块间连接的线缆也均穿入金属屏蔽套管中进行保护;并使用表面镀覆惰性金属的银铜导电漆纸覆盖各部件的连接和缝隙处;所述机身的整个外表面均敷有微尔斯防水泄压膜。
本发明针对变电设备故障处理问题,设置应用于变电现场辅助决策的智能问答机器人,其具有以下优势:
1)本发明的实体抽取单元和槽填充单元采用实体识别BERT+FLAT模型进行构建,基于字符融入词汇信息的方法做实体抽取和槽填充,在编码层中引入了文本的相对位置编码信息,填补了原本转换器transformer里仅有绝对位置信息的空白,这种方法既不会因为分词错误而影响抽取结果,又能综合利用字符与词的信息。
2)本发明采用实体识别BERT+FLAT模型,其可支持并行化计算,推理速度快,降低了问答机器人的响应延迟。
3)本发明的智能问答模块可以大幅提升一个问句中包含多个实体或关系的复杂性问题的问答准确率。
4)本发明中增加了知识更新单元,不用再重新训练全部文本数据,当有新的故障案例或者新的知识需要补充,巡检人员只需输入新的知识文本进入知识更新单元,就能不断扩充系统的知识量,实现知识库在系统服务时的自动更新,提高机器人的问答能力。
与现有技术相比,本发明具有以下有益效果:
本发明经过不断探索以及试验,构建实体识别BERT+FLAT模型,抽取自然语言问句中的设备实体元素,并对自然语言问句进行槽填充;所述实体识别BERT+FLAT模型,基于字符融入词汇信息的方法,进行设备实体元素的初步抽取,得到初步实体抽取结果;对初步实体抽取结果进行去重、筛选后构建实体拼音同指库;再将实体拼音同指库转换为带有声调的汉字拼音数据;根据汉字拼音数据匹配得到最终的实体抽取结果;同时根据自然语言问句的相对位置编码信息,填补自然语言问句的绝对位置编码信息的空白,实现自然语言问句的槽填充;进而构建知识图谱模型对问句子图进行子图匹配,得到知识图谱三元组;计算知识图谱三元组与问句子图的相似度,选择相似度最高的知识图谱三元组,作为问答答案,实现户外变电站的智能问答,从而能有效提升了机器基于变电设备故障案例文本信息的问答准确率,降低了问答机器人的响应延迟,能够根据基层人员(提问人)不同描述形式的提问需求,快速准确地判断并能反馈给基层人员变电设备的故障部位、故障原因、建议措施等有效内容,加快站内设备故障处理进度。
同时,本发明采用实体识别BERT+FLAT模型,基于字符融入词汇信息的方法做实体抽取和槽填充,在编码层中引入了文本的相对位置编码信息,填补了原本转换器transformer里仅有绝对位置信息的空白,这种方法既不会因为分词错误而影响抽取结果,又能综合利用字符与词的信息,进一步提高意图识别效率,进而能快速准确地判断并能反馈给基层人员变电设备的故障部位、故障原因、建议措施等有效内容,加快站内设备故障处理进度。
进一步,本发明经过不断探索以及试验,通过构建知识库模块、智能问答模块,提供一种置于户外变电站的智能问答机器人,有效提升了机器基于变电设备故障案例文本信息的问答准确率,降低了问答机器人的响应延迟,能够根据基层人员(提问人)不同描述形式的提问需求,快速准确地判断并能反馈给基层人员变电设备的故障部位、故障原因、建议措施等有效内容,加快站内设备故障处理进度。
附图说明
图1为本发明知识库模块构建方法流程图;
图2为本发明实体抽取单元运行流程图;
图3为本发明关系抽取单元运行流程图;
图4为本发明变电设备故障知识图谱局部示意图;
图5为本发明关系预测单元作用示意图;
图6为本发明TransH原理图;
图7为本发明智能问答模块构建方法流程图;
图8为本发明意图识别单元运行流程图;
图9为本发明置于户外变电站的智能问答机器人硬件配置图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文所使用的术语只是为了描述具体的实施例的目的,不是旨在限制本发明。本文所使用的术语“或/和”包括一个或多个相关的所列项目的任意的和所有的组合。
本发明用于户外变电站的智能问答方法的一种具体实施例:
一种用于户外变电站的智能问答方法,包括以下步骤:
第一步,接收外部输入的自然语言问句;
第二步,对第一步中的自然语言问句进行意图识别,分析提问人员的问询意图,并按照故障部位问询、故障原因问询、建议措施问询进行分类;
第三步,根据第二步中的意图识别结果,构建实体识别BERT+FLAT模型,抽取自然语言问句中的设备实体元素,并对自然语言问句进行槽填充;
所述实体识别BERT+FLAT模型,基于字符融入词汇信息的方法,进行设备实体元素的初步抽取,得到初步实体抽取结果;
对初步实体抽取结果进行去重、筛选后构建实体拼音同指库;
再将实体拼音同指库转换为带有声调的汉字拼音数据;
根据汉字拼音数据匹配得到最终的实体抽取结果;
同时根据自然语言问句的相对位置编码信息,填补自然语言问句的绝对位置编码信息的空白,实现自然语言问句的槽填充;
所述设备实体元素至少包括名称或/和位置或/和量词或/和时间或/和设备子部件或/和设备状态信息;
第四步,判断第三步中的设备实体元素与设备实体元素之间是否存在关系以及存在什么关系,得到设备实体元素间的关系信息;
第五步,根据第四步中的关系信息,挖掘设备实体元素之间隐藏的关系,得到问句子图;
第六步,构建知识图谱模型对第五步中的问句子图进行子图匹配,得到知识图谱三元组;
第七步,计算第六步中的知识图谱三元组与问句子图的相似度,选择相似度最高的知识图谱三元组,作为问答答案,实现户外变电站的智能问答。
本发明用于户外变电站的智能问答机器人的第一种具体实施例:
一种用于户外变电站的智能问答机器人,包括知识库模块、智能问答模块;
所述知识库模块,用于处理分析非结构化的变电设备故障案例文本信息,经过模块内一系列的单元处理后形成结构化、易操作、易利用的知识集合,其包括变电设备故障案例文本信息输入单元、实体抽取单元、关系抽取单元、知识存储单元、关系预测单元、知识更新单元;
变电设备故障案例文本信息输入单元,用于接收系统外部录入的变电设备故障文本数据集;
实体抽取单元,用于抽取变电设备故障文本数据集中的设备名称、位置、量词、时间、设备子部件、设备状态等信息元素;
关系抽取单元,用于判断文本中实体间是否存在关系以及存在什么关系,即抽取出实体间属于、位于、发现、产生、引发等关系特征词;
知识存储单元,用于存储从文本中抽取出来的实体、关系信息,形成知识图谱;
关系预测单元,用于挖掘实体间隐藏的关系,对现有知识图谱进行进一步完善;
知识更新单元,用于后续在现有知识图谱上更新新的节点:实体和边:关系;
所述智能问答模块,用于处理分析基层人员输入的问题并反馈具有相关度的答案,其包括问句输入单元、问句意图识别单元、槽填充单元、子图匹配单元、答案排序单元、答案封装输出单元;
问句输入单元,用于接收系统外部输入的自然语言问句;
意图识别单元,用于分析基层人员的问询意图,并按照故障部位问询、故障原因问询、建议措施问询进行分类;
槽填充单元,用于抽取问句中的设备名称、位置、量词、时间、设备子部件、设备状态信息元素;
子图匹配单元,用于将构建的问句子图与知识库中的知识图谱进行子图匹配,返回符合的知识图谱三元组;
答案排序单元,用于筛选相似度最高的子图匹配结果;
答案封装输出单元,用于将具有相似度的子图匹配结果封装。
如图1所示,本发明知识库模块的一种具体实施例:
知识库模块是用于处理分析非结构化的变电设备故障案例文本信息,经过模块内一系列的单元处理后形成结构化、易操作、易利用的知识集合。
变电设备故障案例文本信息输入单元用于接收系统外部录入的变电设备故障文本数据集。实体抽取单元用于抽取变电设备故障文本数据集中的设备名称、位置、量词、时间、设备子部件、设备状态等信息元素。关系抽取单元用于判断文本中实体间是否存在关系以及存在什么关系,即抽取出实体间属于、位于、发现、产生、引发等关系特征词。知识存储单元用于存储从文本中抽取出来的实体、关系信息,形成知识图谱。关系预测单元用于挖掘实体间隐藏的关系,对现有知识图谱进行进一步完善。知识更新单元用于后续在现有知识图谱上更新新的节点(实体)和边(关系)。
知识库模块的构建方法,具体包括以下步骤:
S1:首先经过变电设备故障案例文本信息输入单元给机器人录入已有的变电设备历史故障案例文本,录入完成后传输至实体抽取单元。
S2:若基于中文分词工具做知识抽取,会产生分词错误,直接影响实体边界的预测,导致知识抽取不匹配。若基于字符做知识抽取则会丢失词汇间信息。因此,本发明中机器人采用实体识别BERT+FLAT模型,基于字符融入词汇信息的方法做实体抽取,既不会因为分词错误而影响抽取结果,又能综合利用字符与词的信息,最后得到初步实体抽取结果。而人工输入文本时,主要通过拼音、语音输入,会导致出现大量的同音错别字实体,因此根据初步得到的实体抽取结果,将其经过去重、人工筛选后构建实体拼音同指库,采用KTestpinyin4.8将初步实体抽取结果全部转换为带有声调的汉字拼音形式,最后根据实体拼音同指匹配得到最终的实体抽取结果。
如图2所示,机器人的实体抽取单元首先对经输入单元传输进来的文本进行向量化处理。为了提取句子中的词汇信息,需要产生训练语句中的候选词汇,利用BERT预训练词向量生成词语树,从每一个句子的头部开始,按照最大匹配原则匹配得到对应字符下的所有词语,将词语信息直接置于句子尾部。在BERT中,能处理的最大文本长度为512,每个token都表示为一个768维的向量。以单个字符和词语作为token,进行标识身份token-id转换,经id映射得到一个(512,768)的向量矩阵表示。
然后进入位置编码层,分为绝对位置编码和相对位置编码。绝对位置编码按照文本序列顺序得到。相对位置具有4种位置编码,每个字有两个相同的Head和Tail位置编码,每个词有两个不同的Head和Tail位置编码,每两个节点间可以计算得到四种相对距离:
Figure BDA0003720511260000121
Figure BDA0003720511260000122
Figure BDA0003720511260000131
Figure BDA0003720511260000132
式中head[i]、tail[i]分别代表字或词的头部和尾部编码,
Figure BDA0003720511260000133
代表第i个字或词的头部与第j个的字或词的头部之间的距离,其余的
Figure BDA0003720511260000134
含义类似。
经全连接层对计算结果进行融合得到最终的相对位置编码:
Figure BDA0003720511260000135
Figure BDA0003720511260000136
Figure BDA0003720511260000137
式中Wr代表可学习的参数,★代表连接运算符,d是
Figure BDA0003720511260000138
和k表示ij位置编码的维度索引。
再利用多头自注意力机制提取文本信息特征:
Figure BDA0003720511260000139
Attention(A*,V)=softmax(A*)V
Figure BDA00037205112600001310
[Q,K,V]=Ex[Wq,Wk,Wv]
式中
Figure BDA00037205112600001311
和u,
Figure BDA00037205112600001312
均为预训练模型BERT内的可学习参数。
最后将上述提取出来的特征信息X={X1,X2,X3,...,Xn}输入至CRF层,预测输出带有实体标签的文本序列Y={Y1,Y2,Y3,...,Yn},得到变电设备故障案例的初步实体信息,然后根据初步得到的实体抽取结果,将其经过去重、人工筛选后构建实体拼音同指库,采用KTestpinyin4.8将初步实体抽取结果全部转换为带有声调的汉字拼音形式,最后根据实体拼音同指匹配、修正反馈得到最终的实体抽取结果。
S3:如图3所示,机器人将带有实体标签的文本序列输入至关系抽取单元,本发明采用BiGRU-Attention模型进行关系抽取。首先将文本进行向量化处理,每个文本经向量化处理后变成长度相同的索引向量,每个索引对应一个词向量cijt。再将文本向量传输至Bi-GRU神经网络层进行语义编码,得到语义编码向量hijt,计算公式如下所示:
hijt=BiGRU(cijt)
式中cijt表示在i时刻输入的第j个句子的第t个单词的词向量,Bi-GRU包括前向和后向GRU,可以充分地学习上下文关系。
不同的词向量对文本特征贡献度不一样,有的词对文本里实体间的关系判断十分关键,有的词却不是很重要,本发明引入Attention机制给每个词向量分配不同的权重。最后经softmax分类器得到关系分类结果。
S4:机器人将实体抽取单元和关系抽取单元的抽取结果传送至知识存储单元,Neo4j是一种存储灵活、具有免索引邻接属性、支持ACID特性、可提供查询与展示一体化的图数据库,面向不同数量和深度的数据都能保证零延迟。固本发明采用Neo4j图数据库将抽取出来的实体和关系做知识存储,形成节点(实体)和边(关系)构成的变电设备故障知识图谱,如图4所示,整个图谱数据存储在机器人系统的硬盘里。
S5:在实体抽取单元和关系抽取单元中抽取的每一个实体对和它们之间的关系都可以组成一个三元组<h,r,t>,分别代表<头实体,关系,尾实体>。其中关系类型是由人工定义并标注的,面对庞大的数据量,定义的关系类型覆盖范围很可能覆盖不完全,例如:(主变,包含,冷却器系统)与(冷却器系统,包含,风扇),实质主变和风扇之间也存在包含关系,本发明中机器人利用关系预测单元将主变与风扇之间的路径补全,给现有知识图谱中不同的节点(实体)寻找潜在的有向边(关系)。
如图5所示,本发明设计研发的智能问答机器人的关系预测单元采用TransH模型,参见图6,针对每一个关系r,都给出一个超平面Wr,在Wr超平面上定义关系向量dr,再将原有的头实体h和尾实体t映射到超平面上为hr、tr
要求三元组满足hr+dr=tr,对于具有相同头实体和关系的三元组(h,r,t1)和(h,r,t2)通过关系r的超平面映射有:
h+r=t1
h+r=t2
这样就把t1和t2在TransE模型上无法同时表示的问题解决了,即解决了一对多、多对一、自反等问题。
S6:变电现场设备故障类型多样,需不断更新知识库,因此本发明中增加了知识更新单元,不用再重新训练全部文本数据。当有新的故障案例或者新的知识需要补充,巡检人员只需输入新的知识文本,在知识更新单元中经过如S2和S3所述的知识抽取流程,即可在原有的图数据库中增加新的点(实体)和边(关系),形成新的知识库,实现知识库在系统服务时的自动更新,不断扩充系统的知识量、提高系统问答能力。
如图7所示,本发明智能问答模块的一种具体实施例:
所述智能问答模块是用于处理分析基层人员输入的问题并反馈相关度最高的答案。问句输入单元用于接收系统外部输入的自然语言问句。意图识别单元用于分析基层人员的问询意图,本发明中机器人按照故障部位问询、故障原因问询、建议措施问询等问询意图进行分类。槽填充单元用于抽取问句中的设备名称、位置、量词、时间、设备子部件、设备状态等信息元素。子图匹配单元用于将构建的问句子图与知识库中的知识图谱进行子图匹配,返回符合的知识图谱三元组。答案排序单元用于筛选相似度最高的子图匹配结果。答案封装输出单元用于将相似度最高的子图匹配结果封装并输出至机器人的显示界面。
智能问答模块的构建方法如下:
S1:首先基层人员通过机器人的问句输入单元将问题输入给机器人,问句输入完后传输至问句意图识别单元。
S2:如图8所示,意图识别单元先对问题文本进行向量化处理,然后加载BERT预训练模型参数,经BERT预训练模型优化词向量,再经过Bi-LSTM神经网络层进行语义编码,得到语义编码向量,再经过Attention层计算每个向量的权重,然后将所有向量进行加权求和得到特征向量,最后经softmax分类得到基层人员的问询意图识别结果。
S3:槽填充过程实质就是实体抽取,所以本发明中机器人的槽填充单元的运行流程同知识库模块的实体抽取单元所述。
S4:本发明中机器人的子图匹配单元根据意图识别单元和槽填充单元传递问询意图、实体,构建问句子图G1,采用VF2搜索树模型与知识库中的知识图谱G2进行子图匹配,G1=(E1,R1),G2=(E2,R2),E代表节点(实体)集合,R代表边(关系)集合。VF2模型中的每一个节点(状态)为s,s中包含一系列G1和G2中节点(实体)的映射<key,value>,key代表G1中的节点,value代表G2中的节点,随着搜索树高度的增加,s中的key-value对会逐渐增多,当s中所有节点对都满足以下约束,就称这个状态s为一致状态。
Figure BDA0003720511260000161
Figure BDA0003720511260000162
Figure BDA0003720511260000163
Figure BDA0003720511260000164
Figure BDA0003720511260000165
Figure BDA0003720511260000166
Figure BDA0003720511260000167
表示两图中节点的对应关系集合,若节点u∈E1,则μ(u)∈E2表示与节点u对应的G2中的节点;如果节点v∈E2,则μ-1(v)∈E1表示与节点v对应的G1中的节点。
S5:在机器人的答案排序单元中,利用基于相似度计算公式计算子图匹配单元中返回的所有三元组集合与问句子图的相似度,选择相似度最高的三元组集合输送至答案封装单元。相似度计算如下:
Figure BDA0003720511260000168
式中A和B分别代表两个子图集合,Jaccard相似度值的输出区间为[0,1],值越大,代表2个子图的相似度越高。
S6:将答案排序单元的输出结果经答案封装单元进行封装输出至机器人的显示界面。
如图9所示,本发明置于户外变电站的智能问答机器人的第二种具体实施例:
本发明系统硬件配置有嵌入式键盘、12.9英寸2388x1668分辨率的可触控显示屏、移动机器人轮子,机器人内部系统有科大讯飞语音识别模块、知识库模块、智能问答模块、超声波测距传感器、Arduino MEGA128控制器、双H桥电机驱动器、直流电机、电源模块。
当基层人员在处理户外变电现场的设备故障事件时,可根据实际情况选择手动输入或语音输入来描述故障现象,经智能问答机器人内部系统运作,在显示屏上返回故障设备的图片并标注圈出具体部位,图片右侧显示类似历史故障案例列表,可点击查看类似故障案例详情供基层人员综合判断。科大讯飞语音识别模块用于语音识别,超声波测距传感器用于防止机器人移动时碰到障碍物,直流电机给移动机器人供电,双H桥电机驱动器用于驱动直流电机和控制器,电源模块用于给整个机器人供电。知识库模块包括变电设备故障案例文本信息输入单元、实体抽取单元、关系抽取单元、知识存储单元、关系预测单元、知识更新单元等六个单元,
智能问答模块包括问句输入单元、问句意图识别单元、槽填充单元、子图匹配单元、答案排序单元、答案封装输出单元等六个单元。
同时考虑到将智能问答机器人置于户外变电站的情况,还增加了抗电磁干扰的性能。以下将按照智能问答机器人的知识库模块、智能问答模块以及机器人外部性能等三个部分进行简述。
本发明智能问答机器人外部结构的一种具体实施例:
考虑到将机器人置于户外变电站这样一个特殊的场景中,本发明为该机器人增加了抗电磁干扰和防水能力,确保机器人在站内的正常运行。
抗电磁干扰
本发明设计研究的机器人采用电池供电,电池用金属件密封,不仅如此,机器人内部的各个电路模块均采用具备电磁屏蔽功能的金属件封装,每个模块间连接的线缆也均穿入金属屏蔽套管中保护起来,使用表面镀覆惰性金属的银铜导电漆纸覆盖各结构件的连接和缝隙处,严格保证电磁屏蔽效果。
防水
本发明设计研究的机器人的全机身均敷有微尔斯防水泄压膜,透气防水。当户外下雨时,可以防止雨水进入机体内部,使内部电路不被损毁,影响机器人的正常使用。
本申请的术语解释:
智能问答系统
智能问答系统以一问一答形式,精确的定位网站用户所需要的提问知识,通过与网站用户进行交互,为网站用户提供个性化的信息服务。
实体
实体是客观存在并可相互区别的事物。就数据库而言,实体往往指某类事物的集合,把每一类数据对象的个体称为实体。
关系
实体之间相互作用、相互影响的状态。
深度神经网络
深度神经网络是机器学习领域中一种技术。
BERT
全称Bidirectional Encoder Representation from Transformers,指基于转换器的双向编码表征,是2018年10月由Google AI研究院提出的一种预训练模型。
BiLSTM
BiLSTM全称Bidirectional Long Short Term Memory,指含注意力机制的双向长短期记忆人工神经网络,适用于复杂程度较高的场景,同时能够更好地捕捉文本里的长期依赖。
CRF
全称conditional random field,是一种鉴别式机率模型,常用于标注或分析序列资料。
Elasticsearch
Elasticsearch是用Java语言开发的,并作为Apache许可条款下的开放源码发布,是一种流行的企业级搜索引擎。
知识图谱
知识图谱在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
三元组
通常由实体-关系-实体组成。
槽位
实体已明确定义的属性。
槽填充
从大规模的语料库中抽取给定实体的被明确定义的属性的值。
ACID
指数据库管理系统(DBMS)在写入或更新资料的过程中,为保证事务(transaction)是正确可靠的,所必须具备的四个特性:原子性(atomicity,或称不可分割性)、一致性(consistency)、隔离性(isolation,又称独立性)、持久性(durability)。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (10)

1.一种用于户外变电站的智能问答方法,其特征在于,
包括以下步骤:
第一步,接收外部输入的自然语言问句;
第二步,对第一步中的自然语言问句进行意图识别,分析提问人员的问询意图,并按照故障部位问询、故障原因问询、建议措施问询进行分类;
第三步,根据第二步中的意图识别结果,构建实体识别BERT+FLAT模型,抽取自然语言问句中的设备实体元素,并对自然语言问句进行槽填充;
所述实体识别BERT+FLAT模型,基于字符融入词汇信息的方法,进行设备实体元素的初步抽取,得到初步实体抽取结果;
对初步实体抽取结果进行去重、筛选后构建实体拼音同指库;
再将实体拼音同指库转换为带有声调的汉字拼音数据;
根据汉字拼音数据匹配得到最终的实体抽取结果;
同时根据自然语言问句的相对位置编码信息,填补自然语言问句的绝对位置编码信息的空白,实现自然语言问句的槽填充;
所述设备实体元素至少包括名称或/和位置或/和量词或/和时间或/和设备子部件或/和设备状态信息;
第四步,判断第三步中的设备实体元素与设备实体元素之间是否存在关系以及存在什么关系,得到设备实体元素间的关系信息;
第五步,根据第四步中的关系信息,挖掘设备实体元素之间隐藏的关系,得到问句子图;
第六步,构建知识图谱模型对第五步中的问句子图进行子图匹配,得到知识图谱三元组;
第七步,计算第六步中的知识图谱三元组与问句子图的相似度,选择相似度最高的知识图谱三元组,作为问答答案,实现户外变电站的智能问答。
2.如权利要求1所述的一种用于户外变电站的智能问答方法,其特征在于,
所述第二步中,意图识别的方法如下:
步骤21,对自然语言问句进行向量化处理,得到词向量;
步骤22,构建预训练模型BERT对步骤21中的词向量进行优化,得到优化词向量;
步骤23,构建神经网络层Bi-LSTM对步骤22中的优化词向量进行语义编码,得到语义编码向量;
步骤24,通过注意力层Attention计算步骤23中的语义编码向量的权重;
步骤25,将所有的语义编码向量乘以相应的权重并进行求和得到特征向量;
步骤26,将步骤25中的特征向量输入到逻辑回归函数softmax中,得到提问人员的问询意图识别结果。
3.如权利要求1所述的一种用于户外变电站的智能问答方法,其特征在于,
所述第三步中,实体识别BERT+FLAT模型的构建方法如下:步骤31,对输入的变电设备历史故障案例文本进行向量化处理,得到案例词向量;
步骤32,利用预训练模型BERT训练案例词向量生成词语树,从每一个句子的头部开始,按照最大匹配原则匹配得到对应字符下的所有词语,将词语信息直接置于句子尾部,得到训练文本;
在预训练模型BERT中,能处理的最大文本长度为ZD,每个标识token都表示为一个BS维的向量;
标识token为单个字符和词语,其进行标识身份token-id转换,经地址id映射得到一个(ZD,BS)的向量矩阵表示;
步骤33,将步骤32中的训练文本输入到位置编码层进行编码,编码分为绝对位置编码和相对位置编码;
绝对位置编码按照训练文本序列顺序得到;
相对位置编码具有4种位置编码,每个字有两个相同的头部Head和尾部Tail位置编码,每个词有两个不同的头部Head和尾部Tail位置编码,每两个节点间计算得到四种相对距离,其具体的计算公式如下:
Figure FDA0003720511250000021
Figure FDA0003720511250000022
Figure FDA0003720511250000023
Figure FDA0003720511250000031
式中head[i]、tail[i]分别代表字或词的头部和尾部编码,
Figure FDA0003720511250000032
分别代表第i个字或词的头部与第j个的字或词的头部之间的距离;
经全连接层对计算结果进行融合得到最终的相对位置编码,其计算公式如下:
Figure FDA0003720511250000033
Figure FDA0003720511250000034
Figure FDA0003720511250000035
式中Wr代表可学习的参数,★代表连接运算符,d是
Figure FDA0003720511250000036
和k表示ij位置编码的维度索引;
步骤34,利用多头自注意力机制,结合步骤33中的相对位置编码,提取文本信息特征,文本信息特征的计算公式如下:
Figure FDA0003720511250000037
Attention(A*,V)=softmax(A*)V
Figure FDA0003720511250000038
[Q,K,V]=Ex[Wq,Wk,Wv]
式中
Figure FDA0003720511250000039
Figure FDA00037205112500000310
均为预训练模型BERT内的可学习参数;
步骤35,将步骤34中的文本信息特征输入至鉴别式机率模型CRF层,预测输出带有实体标签的文本序列Y={Y1,Y2,Y3,...,Yn},得到变电设备故障案例的初步实体抽取结果。
4.如权利要求1所述的一种用于户外变电站的智能问答方法,其特征在于,
所述第四步中,关系信息的获取方法如下:
步骤41,将设备实体元素进行向量化处理,变成长度相同的索引向量;
步骤42,将步骤41中的索引向量对应的词向量cijt传输至神经网络层Bi-GRU进行语义编码,得到语义编码向量hijt
步骤43,将步骤42中的语义编码向量hijt输入到经逻辑回归softmax分类器得到关系分类结果。
5.如权利要求4所述的一种用于户外变电站的智能问答方法,其特征在于,
语义编码向量hijt的计算公式如下所示:
hijt=BiGRU(cijt)
式中cijt表示在i时刻输入的第j个句子的第t个单词的词向量,Bi-GRU为神经网络函数,其包括前向和后向神经网络GRU,能充分地学习上下文关系。
6.如权利要求1所述的一种用于户外变电站的智能问答方法,其特征在于,
所述第六步中,知识图谱模型的构建方法如下:
步骤61,将设备实体元素进行向量化处理,得到变成长度相同的索引向量;
步骤62,将步骤61中的索引向量对应的词向量cijt传输至神经网络层Bi-GRU进行语义编码,得到语义编码向量hijt
步骤63,将步骤62中的语义编码向量hijt输入到经逻辑回归softmax分类器得到关系分类结果;
步骤64,根据步骤63中的关系分类结果,采用图数据库Neo4j将抽取出来的设备实体元素和关系做知识存储,形成节点:设备实体元素和边:关系构成的关于变电设备故障的知识图谱;
所述知识图谱中每一个设备实体元素对和它们之间的关系组成一个三元组<h,r,t>,<h,r,t>分别代表<头实体,关系,尾实体>;
步骤65,利用关系预测模型将不同设备实体元素的路径补全,给步骤64中的知识图谱中不同的节点寻找潜在的有向边。
7.如权利要求6所述的一种用于户外变电站的智能问答方法,其特征在于,
所述关系预测模型的补全方法如下:
步骤651,采用向量平移算法TransH,针对每一个关系r,给出一个超平面Wr
步骤652,计算步骤651中的超平面Wr上的关系向量dr
步骤653,根据步骤652中的关系向量dr,将原有的头实体h和尾实体t映射到超平面上为hr、tr
步骤654,要求三元组满足hr+dr=tr,对于具有相同头实体和关系的三元组(h,r,t1)和(h,r,t2)通过关系r的超平面映射有:
h+r=t1
h+r=t2
实现不同设备实体元素的路径补全。
8.如权利要求1所述的一种用于户外变电站的智能问答方法,其特征在于,
所述第六步中,子图匹配的方法如下:
问句子图采用图说子图同构算法VF2中的搜索树模型与知识图谱进行子图匹配,其匹配关系式如下:
G1=(E1,R1),G2=(E2,R2),
其中,G1为问句子图,G2为知识图谱,E为节点即设备实体元素的集合,R为边即关系集合;
图说子图同构算法VF2中的每一个节点为s,
s中包括一系列G1和G2中节点的映射<key,value>,
其中,key代表G1中的节点,value代表G2中的节点;
随着搜索树高度的增加,s中的key-value对会逐渐增多;
当s中所有节点对都满足约束公式,就称这个状态s为一致状态,完成子图匹配;
约束公式如下所示:
Figure FDA0003720511250000051
Figure FDA0003720511250000052
Figure FDA0003720511250000053
Figure FDA0003720511250000054
Figure FDA0003720511250000055
λEl(u)=λE2(μ(u))
Figure FDA0003720511250000056
λR1(u,u′)=λR2(μ(u),μ(u′))
Figure FDA0003720511250000057
表示问句子图、知识图谱中节点的对应关系集合,若节点u∈E1,则μ(u)∈E2表示与节点u对应的G2中的节点;如果节点v∈E2,则μ-1(v)∈E1表示与节点v对应的G1中的节点。
9.如权利要求1-8任一所述的一种用于户外变电站的智能问答方法,其特征在于,
所述第七步中,相似度计算公式如下:
Figure FDA0003720511250000061
式中A和B分别代表知识图谱三元组和问句子图,相似度值的输出区间为[0,1],值越大,代表知识图谱三元组与问句子图的相似度越高。
10.一种置于户外变电站的智能问答机器人,其特征在于,
应用如权利要求1-9任一所述的一种用于户外变电站的智能问答方法;
其包括知识库模块、智能问答模块、电池、若干电路模块、机身;
所述知识库模块,用于处理分析非结构化的变电设备故障案例文本信息,经过模块内一系列的单元处理后形成结构化、易操作、易利用的知识集合,其包括变电设备故障案例文本信息输入单元、实体抽取单元、关系抽取单元、知识存储单元、关系预测单元、知识更新单元;
变电设备故障案例文本信息输入单元,用于接收系统外部录入的变电设备故障文本数据集;
实体抽取单元,基于实体识别BERT+FLAT模型进行构建,其用于抽取变电设备故障文本数据集中的设备名称、位置、量词、时间、设备子部件、设备状态等信息元素;
关系抽取单元,用于判断文本中实体间是否存在关系以及存在什么关系;
知识存储单元,用于存储从文本中抽取出来的实体、关系信息,形成知识图谱;
关系预测单元,用于挖掘实体间隐藏的关系,对现有知识图谱进行完善;
知识更新单元,用于后续在现有知识图谱上更新新的节点:实体和边:关系;
所述智能问答模块,用于处理分析基层人员输入的问题并反馈具有相关度的答案,其包括问句输入单元、问句意图识别单元、槽填充单元、子图匹配单元、答案排序单元、答案封装输出单元;
问句输入单元,用于接收系统外部输入的自然语言问句;
意图识别单元,用于分析基层人员的问询意图,并按照故障部位问询、故障原因问询、建议措施问询进行分类;
槽填充单元,基于实体识别BERT+FLAT模型进行构建,其用于抽取问句中的设备名称、位置、量词、时间、设备子部件、设备状态信息元素;
子图匹配单元,用于将构建的问句子图与知识库中的知识图谱进行子图匹配,返回符合的知识图谱三元组;
答案排序单元,用于筛选相似度最高的子图匹配结果;
答案封装输出单元,用于将具有相似度的子图匹配结果封装;
所述电池用金属件密封;
所述电路模块采用具备电磁屏蔽功能的金属件封装,每个电路模块间连接的线缆也均穿入金属屏蔽套管中进行保护;并使用表面镀覆惰性金属的银铜导电漆纸覆盖各部件的连接和缝隙处;
所述机身的整个外表面均敷有微尔斯防水泄压膜。
CN202210748904.7A 2022-06-29 2022-06-29 一种用于户外变电站的智能问答方法及置于户外的机器人 Pending CN115129842A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210748904.7A CN115129842A (zh) 2022-06-29 2022-06-29 一种用于户外变电站的智能问答方法及置于户外的机器人

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210748904.7A CN115129842A (zh) 2022-06-29 2022-06-29 一种用于户外变电站的智能问答方法及置于户外的机器人

Publications (1)

Publication Number Publication Date
CN115129842A true CN115129842A (zh) 2022-09-30

Family

ID=83379326

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210748904.7A Pending CN115129842A (zh) 2022-06-29 2022-06-29 一种用于户外变电站的智能问答方法及置于户外的机器人

Country Status (1)

Country Link
CN (1) CN115129842A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116821712A (zh) * 2023-08-25 2023-09-29 中电科大数据研究院有限公司 非结构化文本与知识图谱的语义匹配方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116821712A (zh) * 2023-08-25 2023-09-29 中电科大数据研究院有限公司 非结构化文本与知识图谱的语义匹配方法及装置
CN116821712B (zh) * 2023-08-25 2023-12-19 中电科大数据研究院有限公司 非结构化文本与知识图谱的语义匹配方法及装置

Similar Documents

Publication Publication Date Title
CN111026842B (zh) 自然语言处理方法、自然语言处理装置及智能问答系统
CN107239446B (zh) 一种基于神经网络与注意力机制的情报关系提取方法
CN109271506A (zh) 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法
CN109918489A (zh) 一种多策略融合的知识问答方法和系统
CN110298037A (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN110825881A (zh) 一种建立电力知识图谱的方法
CN111581395A (zh) 一种基于深度学习的模型融合三元组表示学习系统及方法
CN109783666A (zh) 一种基于迭代精细化的图像场景图谱生成方法
CN104598611B (zh) 对搜索条目进行排序的方法及系统
CN111666427A (zh) 一种实体关系联合抽取方法、装置、设备及介质
CN110096711A (zh) 序列全局关注和局部动态关注的自然语言语义匹配方法
EP4113357A1 (en) Method and apparatus for recognizing entity, electronic device and storage medium
CN110427625A (zh) 语句补全方法、装置、介质及对话处理系统
Lin et al. Deep structured scene parsing by learning with image descriptions
CN113962219A (zh) 面向电力变压器知识检索和问答的语义匹配方法及系统
CN115858758A (zh) 一种多非结构化数据识别的智慧客服知识图谱系统
CN110969023B (zh) 文本相似度的确定方法及装置
CN112115242A (zh) 一种基于朴素贝叶斯分类算法的智能客服问答系统
CN115526236A (zh) 一种基于多模态对比学习的文本网络图分类方法
CN116127084A (zh) 基于知识图谱的微电网调度策略智能检索系统及方法
CN110334340B (zh) 基于规则融合的语义分析方法、装置以及可读存储介质
CN115129842A (zh) 一种用于户外变电站的智能问答方法及置于户外的机器人
CN114169408A (zh) 一种基于多模态注意力机制的情感分类方法
CN112749556B (zh) 多语言模型的训练方法和装置、存储介质和电子设备
CN115688919A (zh) 一种飞机电源系统故障诊断知识图谱构建及应用方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination