CN113919366A

CN113919366A - 一种面向电力变压器知识问答的语义匹配方法和装置

Info

Publication number: CN113919366A
Application number: CN202111039677.2A
Authority: CN
Inventors: 田源; 张博文; 高树国; 孙路; 赵军; 孟令明; 邢超; 高飞; 杨宁
Original assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Hebei Electric Power Co Ltd; China Electric Power Research Institute Co Ltd CEPRI; State Grid Hebei Energy Technology Service Co Ltd
Current assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Hebei Electric Power Co Ltd; China Electric Power Research Institute Co Ltd CEPRI; State Grid Hebei Energy Technology Service Co Ltd
Priority date: 2021-09-06
Filing date: 2021-09-06
Publication date: 2022-01-11

Abstract

本发明公开了一种面向电力变压器知识问答的语义匹配方法和装置。其中，该面向电力变压器知识问答的语义匹配方法包括：利用训练好的语义识别模型，对用户输入的问题语句进行语义意图和语义槽位的联合识别，确定用户的查询意图和问题语句中的槽位信息，其中槽位信息包括槽位类型、槽位名称和槽位值；将槽位值与知识图谱库中的实体链接，以确定与槽位值相对应的属于同一槽位类型的标准实体名称、属性名称或者关系名称；将确定的标准实体名称、属性名称或者关系名称转换为搜索引擎的查询语句，并基于查询语句获取与用户输入的问题语句匹配的答案；以及根据用户的查询意图，采用对应的显示策略向用户展示答案。

Description

一种面向电力变压器知识问答的语义匹配方法和装置

技术领域

本发明涉及语义匹配领域，并且更具体地，涉及一种面向电力变压器知识问答的语义匹配方法和装置。

背景技术

伴随着人工智能技术在电力行业的深入应用，电力企业围绕着变压器设备构建了垂直性的知识图谱，图谱包含了变压器相关的各类知识点，包括变压器台账、变压器故障、检测标准等，比如#1主变就是一个实体知识，该实体有各种属性值，比如电压等级，同时也有一些关系，比如所属电站，该关系指向一个变电站。

电力公司一线员工在开展日常的设备运维巡检工作时，需要对上述知识点进行灵活的查询，查询的主要形式包括问答机器人，在进行问答的过程中面临着以下挑战，包括：

1)查询形式不规范，存在口语化、简称、缩写等特点。一线员工在使用搜索和问答机器人时，输入的形式呈现出口语化、存在大量简称、近似名称的特点，比如查询某变电站1号变压器，输入形式包括了某变电站1号变、某站1号主变压器、某电站1#变、某变电站1号变等以及“图们220KV变电站”简称“图们站”等简称，要求能够将简称、缩写识别到标准化的名称上。由于查询形式不规范，深度学习模型无法准确分析用户的查询意图和语句语义，从而导致语义匹配的准确率低。

2)存在大量的近似问法。比如，查询某个变压器的生产厂家的情况存在很多近似性的问法，比如“某变电站1号变压器生产厂家”、“某变电站1号变压器是哪里生产的？”、“哪家厂子生产的某变电站1号变？”、“哪个厂子制造的某变电站1号变”等，对于这些近似问法都要能够正确解析用户意图，将其转换为标准的查询意图上。由于存在大量的近似问法，深度学习模型无法准确分析用户的查询意图和语句语义，从而导致语义匹配的准确率低。

3)变压器问答语料较少，电力变压器问答属于很细分的垂直性领域，该领域公开的语料数据较少，属于小样本数据空间，因此使用当下比较主流的深度学习方法训练问答相关的模型需要解决小数据样本的问题，即解决小样本数据增强的问题，通过大量的专业性增强数据集合通用性的词库增加小样本中的语料数据数量。由于变压器问答语料较少，无法很好的对深度学习模型进行训练，从而导致语义匹配的准确率低。

针对上述的现有技术中存在的由于面向电力变压器知识问答的查询形式不规范、存在大量的近似问法以及问答语料较少，无法很好的训练学习模型，深度学习模型无法准确分析用户的查询意图和语句语义，从而导致语义匹配的准确率低的技术问题，目前尚未提出有效的解决方案。

发明内容

本申请旨在发明一种面向电力变压器知识问答的语义匹配方法和装置，解决现有技术中存在的由于面向电力变压器知识问答的查询形式不规范、存在大量的近似问法以及问答语料较少，无法很好的训练学习模型，深度学习模型无法准确分析用户的查询意图和语句语义，从而导致语义匹配的准确率低的技术问题。

本申请的一个方面，提供了一种面向电力变压器知识问答的语义匹配方法，包括：利用训练好的语义识别模型，对用户输入的问题语句进行语义意图和语义槽位的联合识别，确定用户的查询意图和问题语句中的槽位信息，其中槽位信息包括槽位类型、槽位名称和槽位值；将槽位值与知识图谱库中的实体链接，以确定与槽位值相对应的属于同一槽位类型的标准实体名称、属性名称或者关系名称；将确定的标准实体名称、属性名称或者关系名称转换为搜索引擎的查询语句，并基于查询语句获取与用户输入的问题语句匹配的答案；以及根据用户的查询意图，采用对应的显示策略向用户展示答案。

可选地，语义匹配方法还包括：利用分词器，对用户输入的问题语句进行分词，提取问题语句中的语句词汇；将提取出的语句词汇送入语义识别模型的词向量层，以生成每个语句词汇的词向量；将生成的词向量送入语义识别模型的双向LSTM编码层和注意力层，以对词向量进行编码处理；以及将编码后的词向量送入语义识别模型的语义意图分类器与语义槽位分类器，以确定用户的查询意图和问题语句中的槽位信息。

可选地，所述将槽位值与知识图谱库中的实体链接，以确定与槽位值相对应的属于同一槽位类型的标准实体名称、属性名称或者关系名称，包括：利用预先训练好的文本相似度模型，将提取出的槽位值与知识图谱库中的实体名称对齐，以确定与槽位值相对应的属于同一槽位类型的标准实体名称、属性名称或者关系名称。

可选地，所述根据用户的查询意图，采用对应的显示策略向用户展示答案，包括：当用户的查询意图为集合类型的查询时，向用户展示集合的数量及具体的集合数；当用户的查询意图为实体类型的查询时，向用户展示实体的详细属性；以及当用户的查询意图为实体属性值类型的查询时，向用户展示目标实体额名称或者目标实体的属性值。

可选地，利用训练好的语义识别模型，对用户输入的问题语句进行语义意图和语义槽位的联合识别之前，包括：基于电力变压器的知识图谱和预设的问句模板，增强语义识别模型的训练语料，以构建语义识别模型的训练集，其中预设的问句模板由用户输入的语句及对该语句的语义标注构成；以及基于构建的训练集，对语义识别模型进行训练。

可选地，所述基于电力变压器的知识图谱和预设的问句模板，增强语义识别模型的训练语料，以构建语义识别模型的训练集，包括：设计基于槽位的问句模板，其中问句模板由用户输入的语句及对该语句的语义标注构成；以及基于电力变压器的知识图谱的数据填充问句模板，以构建语义识别模型的训练集。

可选地，训练好的语义识别模型包括词向量层、双向LSTM编码层、注意力层和意图和槽位联合识别层，并且利用构建好的训练集，对语义识别模型进行训练，包括：利用构建好的训练集，对意图和槽位联合识别层中的语义意图分类器与语义槽位分类器进行同时训练。

本申请实施例的另一个方面，提供了一种面向电力变压器知识问答的语义匹配装置，包括：联合识别模块，用于利用训练好的语义识别模型，对用户输入的问题语句进行语义意图和语义槽位的联合识别，确定用户的查询意图和问题语句中的槽位信息，其中槽位信息包括槽位类型、槽位名称和槽位值；实体链接模块，用于将槽位值与知识图谱库中的实体链接，以确定与槽位值相对应的属于同一槽位类型的标准实体名称、属性名称或者关系名称；查询模块，用于将确定的标准实体名称、属性名称或者关系名称转换为搜索引擎的查询语句，并基于查询语句获取与用户输入的问题语句匹配的答案；以及显示模块，用于根据用户的查询意图，采用对应的显示策略向用户展示答案。

根据本发明实施例的又一个方面，提供了一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序用于执行本发明上述任一实施例所述的方法。

根据本发明实施例的又一个方面，提供了一种电子设备，其特征在于，所述电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现本发明上述任一实施例所述的方法。

从而，本申请提出了一种基于小样本变压器问句模板的语料增强模型，基于小样本问句模板，结合变压器知识图谱，结合近义词库，自动实现大量的变压器语料文本，实现小样本空间下的数据增强，为通过深度学习训练生成意图识别模型和槽位提取模型提供训练语料。并且，还提出了一种基于BILSTM+注意力模型的意图和槽位一体化识别模型，基于该模型，对用户输入语句进行语义意图和语义槽位的联合识别，判断用户查询意图，识别语句槽位，提取槽位信息，将抽取完毕的槽位信息与图谱库中的实体进行链接，从而实现对用户输入的检索/问答语句的语义匹配。

附图说明

通过参考下面的附图，可以更为完整地理解本发明的示例性实施方式：

图1为本申请实施例的第一个方面所提出的一种面向电力变压器知识问答的语义匹配方法的流程示意图；

图2为本申请实施例的第一个方面所提出的问句模板的配置界面的示意图；

图3为本申请实施例的第一个方面所提出的基于配置好的问句模板生成大量的语料数据的界面示意图；

图4为本申请实施例的第一个方面所提出的对用户输入语句的语义解析匹配的整体流程示意图；

图5为本申请实施例的第一个方面所提出的每层LSTM网络单元的网络结构示意图；

图6为本申请实施例的第一个方面所提出的双向LSTM编码层的网络结构示意图；

图7a为本申请实施例的第一个方面所提出的元胞状态的网络结构示意图；

图7b为本申请实施例的第一个方面所提出的记忆门的网络结构示意图；

图7c为本申请实施例的第一个方面所提出的输出门的网络结构示意图；

图8a为本申请实施例的第一个方面所提出的当用户提问的是集合类型的查询时向用户返回的信息的显示界面图；

图8b为本申请实施例的第一个方面所提出的当用户提问的是实体类型的查询时向用户返回的信息的显示界面图；

图8c为本申请实施例的第一个方面所提出的当用户提问的是实体属性值类型的查询时向用户返回的信息的显示界面图；

图9为本申请实施例的第一个方面所提出的以用户输入的某一具体语句为例说明本发明涉及的各个模型之间的交互过程的示意图；

图10为本申请实施例的第一个方面所提出的意图识别模型评价指标变化曲线的示意图；

图11为本申请实施例的第一个方面所提出的槽位提取模型评价指标变化曲线的示意图；

图12为本申请实施例的第二个方面所提出的面向电力变压器知识问答的语义匹配装置的示意图；以及

图13为本申请实施例的第三个方面所提出的电子设备的结构。

具体实施方式

现在参考附图介绍本发明的示例性实施方式，然而，本发明可以用许多不同的形式来实施，并且不局限于此处描述的实施例，提供这些实施例是为了详尽地且完全地公开本发明，并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中，相同的单元/元件使用相同的附图标记。

除非另有说明，此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外，可以理解的是，以通常使用的词典限定的术语，应当被理解为与其相关领域的语境具有一致的含义，而不应该被理解为理想化的或过于正式的意义。

本发明涉及到以下技术：

LSTM(Long Short Term Memory networks)，长短期记忆网络，一种特殊的神经网络，能够学习到长期依赖关系。

门组件，一种选择性让信息通过的方法，门组件由一个Sigmoid神经网络层和一个元素级相乘操作组成。通过Sigmoid神经网络输出0-1之间的值，每个值表示对应的部分信息是否应该通过。0值表示不允许信息通过，1值表示让所有信息通过。

BiLSTM，是Bi-directional Long Short-Term Memory的缩写，双向LSTM，是由前向LSTM与后向LSTM组合而成,两者在自然语言处理任务中都常被用来建模上下文信息。

Attention，注意力机制，该机制模仿了生物观察行为的内部过程，即一种将内部经验和外部感觉对齐从而增加部分区域的观察精细度的机制。例如人的视觉在处理一张图片时，会通过快速扫描全局图像，获得需要重点关注的目标区域，也就是注意力焦点。然后对这一区域投入更多的注意力资源，以获得更多所需要关注的目标的细节信息，并抑制其它无用信息，基于注意力机制，可以提升基于RNN(LSTM或GRU)的Encoder+Decoder模型的效果。

语义意图(search intent)，用户输入信息真正的检索目标，比如输入“大姚篮球”，用的检索目标是并不是“大姚”与“篮球”这两个词汇，二者这两个词组合起来表达的意图目标“篮球运动员姚明”，语义意图根据信息交互形式的不同可以分为检索意图和问答意图。

槽位，可以理解为实体已明确定义的属性，例如打车场景中的，出发地点槽，目的地槽，出发时间槽中的属性分别是“出发地点”、“目的地”和“出发时间”等。

语义匹配，在语义上衡量本文相似度，将用户的短语词汇与知识点的名称、属性匹配的过程。

jieba中文分词器，一种开源的分词软件，可以对句子、段落进行切词，将语句转换为词语序列。

词向量，Word embedding，自然语言处理(NLP)中的一组语言建模和特征学习技术的统称，其中来自词汇表的单词或短语被映射到实数的向量。

BERT(Bidirectional Encoder Representations from Transformers)，Google提出的语言模型，可以提供词向量计算、阅读理解、分类等任务。

实体链接：是指将自由文本中已识别的实体对象(例如：人名、地名、机构名等)，无歧义的正确的指向知识库中目标实体的过程。比如将“大姚”指向“姚明”。

知识图谱，Knowledge graph，以下简称KG，本质上是语义网络，是一种基于图的数据结构，由节点(Point)和边(Edge)组成。在知识图谱里，每个节点表示现实世界中存在的“实体”，每条边为实体与实体之间的“关系”。存储知识图谱数据的数据库简称为图谱库。

全文搜索引擎，目前广泛应用的主流搜索引擎。它的工作原理是计算机索引程序通过扫描文章中的每一个词，对每一个词建立一个索引，指明该词在文章中出现的次数和位置，当用户查询时，检索程序根据事先建立的索引进行查找，将结果反馈给用户的检索方式，常用组件包括Elastic search(以下简称ES)。

示例性方法

图1是本发明一示例性实施例提供的面向电力变压器知识问答的语义匹配方法的流程示意图。本实施例可应用在电子设备上，如图1所示，面向电力变压器知识问答的语义匹配方法100包括以下步骤：

步骤101，利用训练好的语义识别模型，对用户输入的问题语句进行语义意图和语义槽位的联合识别，确定用户的查询意图和问题语句中的槽位信息，其中槽位信息包括槽位类型、槽位名称和槽位值。

在一个实施例中，利用训练好的语义识别模型，对用户输入的问题语句进行语义意图和语义槽位的联合识别之前，还包括：设计基于槽位的问句模板，其中问句模板由用户输入的语句及对该语句的语义标注构成；以及基于电力变压器的知识图谱的数据填充问句模板，以构建语义识别模型的训练集。

针对电力变压器小样本领域语料数据不足的问题，本发明提出了一种基于知识图谱(KG)+问句模板的语料快速增强机制。具体为，基于槽位的思路，设计了基于槽位的问句模板，以表达用户输入的语义。其中，问句模板由用户输入的语句及对该语句的语义标注构成，比如问句模板“哪家厂子【/C生产厂家】制造【/R关系】的#1主变【/C变压器】”、“#1主变【/设备类型】的电压【属性，名称为“电压等级”】是多少”，其中的“【】”部分就是语义标注部分，分为三类：

1)概念，以字母C开头，紧跟具体的概念名称。

2)属性，以字母P开头，紧跟具体的属性名称。

3)关系，以字母R开头，紧跟具体的关系名称。

通过这样的标注结构可以将用户的问句模板进行语义结构表达，而语义标注部分所对应的词汇的位置就是槽位，即意义槽，槽位里面可填充不同的词汇。比如“哪家厂子【/C生产厂家】制造【/R关系】的#1主变【/C设备类型】”可以泛化为以下几种：

1)哪里的生产厂家制造的#1主变？

2)#1主变是哪里制造的？

3)#1主变是由哪家厂家生产的？

在一个实施例中，其中还包括：基于电力变压器的知识图谱和预设的问句模板，增强语义识别模型的训练语料，以构建语义识别模型的训练集，其中预设的问句模板由用户输入的语句及对该语句的语义标注构成；以及基于构建的训练集，对语义识别模型进行训练。

具体地，本发明结合电力变压器的知识图谱(KG)，用知识图谱(KG)的数据填充问句模板，生成了大量的训练语句，以构成语义识别模型的训练集，完成训练集准备。

其中，本发明实施例支持用户输入问答意图、意图的关键词槽，完成相关的问句模板配置，如图2所示。然后，根据用户配置的问句模板，动态生成大量的语料数据，如图3所示。从而，基于生成的训练语料，可以快速开展语义识别模型的训练。

在一个实施例中，训练好的语义识别模型包括词向量层、双向LSTM编码层、注意力层和意图和槽位联合识别层，并且利用构建好的训练集，对语义识别模型进行训练，包括：利用构建好的训练集，对意图和槽位联合识别层中的语义意图分类器与语义槽位分类器进行同时训练。

参照图4所示，本发明所提出的对用户输入的语句进行语义解析匹配的整个流程从上而下可以分为四层，上层的输出作为下层的输入，分为问题输入层、语义分析匹配层、查询检索层和答案显示层。其中，语义分析匹配层所实现的语义分析匹配功能主要是由训练好的语义识别模型和用于实体链接的文本相似度模型共同执行。

从而，在对语义识别模型进行训练的过程中，需要利用构建好的训练集，对意图和槽位联合识别层中的语义意图分类器与语义槽位分类器进行同时训练，为后续语义意图分类器与语义槽位分类器能够同步进行分类提供了基础。

在一个实施例中，语义匹配方法还包括：利用分词器，对用户输入的问题语句进行分词，提取问题语句中的语句词汇；将提取出的语句词汇送入语义识别模型的词向量层，以生成每个语句词汇的词向量；将生成的词向量送入语义识别模型的双向LSTM编码层和注意力层，以对词向量进行编码处理；以及将编码后的词向量送入语义识别模型的语义意图分类器与语义槽位分类器，以确定用户的查询意图和问题语句中的槽位信息。

参照图4所示，问题输入层定位于接收来自系统界面的用户输入，并利用分词器对用户输入的语句进行分词，提取语句词汇。用户输入呈现出模糊性、口语化、简写、同一问题存在各种近义表述、多次交互输入等问题。例如，用户要查询“长春站1号主变生产厂家是哪里？”，该问题也可能输入为“长春220KV变电站1号主变压器生产厂家是哪家”、“哪家厂子制造的长春站1号变”等近义问句。本发明基于分词器(例如，jieba中文分词器)对输入语句进行切分，切词策略是最长词汇策略，并去除掉停用词和无意义的词汇，比如“哪家厂子制造的长春站1号变”这句话中，需要去除“的”等无意义的词汇。

进一步地，语义分析匹配层定位于对问题输入层传递的语句进行语义分析。在这一层本发明提出了基于BILSTM+注意力的意图和槽位一体化识别模型实现了对输入语句语义的分析匹配。具体为，首先对分词器形成的词汇进行向量表示，基于预训练模型计算每个词汇的词向量，并通过双向LSTM编码层和注意力层对向量的特征进行编码，将编码后的向量送入到语义意图分类器与语义槽位分类器，通过实体链接操作，输出查询的标准实体名称/属性名称/关系名称等信息。整个处理过程从上到下进行进行可进一步细分为词向量层、双向LSTM编码层、注意力层、意图与槽位联合识别层。其中：

词向量层：基于BERT预训练模型表示词汇的向量，从而将文字转换成可计算的数学模型。通过词向量模型，可以将每个单词从一维空间到转换为连续向量空间的数学嵌入。本发明基于BERT预训练模型对用户输入的词汇进行计算，计算词汇的向量表示，计算出的词向量的维度是204。

双向LSTM编码层：定位于对词向量的特征进行提取，编码形成新的向量。双向LSTM是方向不同的两层LSTM神经网络的叠加，每层的LSTM包含了一组具有链状结构的LSTM人工神经网络单元，本发明采用的每层LSTM网络单元的数量是300个，如图5所示。其中，LSTM作为RNN网络的一个典型结构，包括了一个元胞状态组件、遗忘门、记忆门、输出门，通过他们的交互实现对序列数据的长距离信息处理。整个模型的结构如图6所示。

其中各组件说明如下：

元胞状态，有点像是传送带，它直接穿过整个链，同时只有一些较小的线性交互，上面承载的信息可以很容易地流过而不改变，如图7a所示。

遗忘门，LSTM通过遗忘因子f_t决定从元胞状态中遗忘/舍弃掉哪些信息，遗忘因子f_t的计算公式如下公式所示，其中的W是权重矩阵，通过后续的模型训练可以计算出来。

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

在上式中，σ是一个激活函数，也叫Logistic函数，用于隐层神经元输出，取值范围为(0,1)，它可以将一个实数映射到(0,1)的区间，可以用来做二分类。遗忘因子以h_t-1和x_t作为输入,通过σ神经网络进行计算，输出一个0-1之间的数字，1表示“完全保留该信息”，0表示“完全丢弃该信息”，元胞状态C_t-1中的每一个元素，都会经过遗忘门进行判断，从而确定要保留和遗忘C_t-1的哪个部分。例如，在自然语言模型中，想要通过一个词来预测下一个词，单元模块C_t-1中包含的某个属性在下一个模块单元不需要，就可以将这个属性数据通过遗忘门丢弃。

记忆门，这一步是决定将把哪些新信息存储到元胞状态中。记忆门的结构如图7b所示。

记忆门的计算分为三步。首先，利用一个σ神经网络层决定需要更新哪些信息，用i_t进行表示。i_t的公式定义如下，其中的W是权重矩阵，是通过后续的数据训练可以计算出来的。

i_t＝σ(W_i·[h_t-1,x_t]+b_i)

其次，在一个tanh层创造了一个新的候选值，tanh是双曲函数中的一个，tanh()为双曲正切，函数过原点，产生的值的值域为(-1,1)。tanh层产生的值可能被加入到元胞状态中，新的值用

进行表示，输入是h_t-1和x_t，计算公式如下。

最后，在旧的细胞状态C_t-1基础之上对其值进行更新，得到新的C_t的值，C_t的计算公式如下：

输出门，基于目前的元胞状态，加入一些过滤,输出想要输出的信息。输出门的结构如图7c所示。首先建立一个σ神经网络层的门，来决定将输出元胞的哪些部分，输出的信息用o_t表示，o_t的计算公式如下所示，其中的W是权重矩阵，是通过后续的训练可计算出来的。

o_t＝σ(W_o·[h_t-1,x_t]+b_o)

然后将元胞状态通过tanh激活函数处理之后，与o_t相乘，这样就可以输出想输出的部分h_t,h_t的计算公式如下所示。

h_t＝o_t×tanh(C_t)

经过BiLSTM编码层编码后，实现对输入语句的全量特征的编码，输出全局特征向量，全局特征量包括了当前词汇的文本值、词性、前1-50个词汇的文本值、词性、位置、后面50个词汇的文本值、词性、位置等特征，将全局特征向量输入后续的注意力层进行局部关键特征提取。

注意力层：该层的定位是确定用户输入的关键特征，例如，查询语句“长春站1号主变生产厂家是哪里？”，“长春220KV变电站1号主变压器生产厂家是哪家”、“哪家厂子制造的长春站1号变”，尽管分词后的词汇不相同，但是三个句子的关键点都是“生产厂家”、“变压器”，这个关键点就是所谓的“注意力”，注意力层的作用在于形成局部特征向量。

定义X₁,X₂,…,X_T为BILSTM层输出的向量序列，a_tj为注意力层给所有的特征向量赋予的权重，计算公式如下为

在上式中，e_ij是输入和输出的关联能量，其定义如下所示，

e_ij＝v_a ^Ttanh(w_aC_t-1+u_ah_j)

其中，v_a是全局的特征向量，c_t-1是注意力模型的上一时刻状态向量，h_i为BiLSTM层输出的特征向量序列，u_a为上一时刻特征向量的权值，w_a为注意力机制上一时刻的权值。经过注意力层处理后，输出的最后状态为C_t，其公式为

意图和槽位联合识别层：该层的定位是基于注意力层算出的特征向量进行解码，对其进行分类，包含了两个分类模型，意图分类模型与槽位分类模型。这两个分类模型都是基于Softmax分类器进行的。

其中Z_i为第i个节点的输出值，C为输出节点的个数，即分类的类别个数。

意图分类模型：基于softmax分类器实现，用于确定用户意图的分类。

槽位分类模型：槽位是NLP里面的一个基本概念，用于表达自然语言语句的基本语义位置，本专利基于槽位的思路，设计了基于槽位的问句模板，以表达用户输入的语义。比如“哪里的生产厂家制造的#1主变？”这个语句可以提取的槽位包括【生产厂家】、【制造】、【设备类型】这几个槽位。本专利通过对BiLSTM网络层的输出，基于Softmax分类器完成输入数据到输出分类的拟合。

步骤102，将槽位值与知识图谱库中的实体链接，以确定与槽位值相对应的属于同一槽位类型的标准实体名称、属性名称或者关系名称。

在一个实施例中，将槽位值与知识图谱库中的实体链接，以确定与槽位值相对应的属于同一槽位类型的标准实体名称、属性名称或者关系名称，包括：利用预先训练好的文本相似度模型，将提取出的槽位值与知识图谱库中的实体名称对齐，以确定与槽位值相对应的属于同一槽位类型的标准实体名称、属性名称或者关系名称。

通常，经过槽位分类模型，可以找出用户输入中存在的槽位，提取出槽位的信息，并通过文本相似度模型完成槽位信息与图谱库中实体名称的对齐，这个过程称为实体链接，比如将“长春站”对齐到“长春220KV变电站”，“1号变”对齐到“1号主变压器”。本发明采用了基于余弦相似度的文本相似度模型解决实体链接问题。

其中，余弦相似度，也称为余弦距离，是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。余弦值越接近1，就表明夹角越接近0度，也就是两个向量越相似，这就叫"余弦相似性"。假定A和B是两个n维向量，A_i是A向量的第i个值，B_i是B向量的第i个值，则A与B的夹角的余弦计算公式如下式所示。

在上式中余弦相似度值的取值范围为[0，1]，值越大相似度越高。本论文基于BERT表示A与B两个短文本句子的句向量，向量的维度n为202维，通过计算A与B两个短文本的句向量的余弦相似度判断二者的相似化程度。

步骤103，将确定的标准实体名称、属性名称或者关系名称转换为搜索引擎的查询语句，并基于查询语句获取与用户输入的问题语句匹配的答案。

具体为，如图4所示的查询检索层根据意图识别与槽位提取层传递的概念、实体、属性，构建查询子图，将查询转换为搜索引擎(Elasticsearch,ES)查询语句，返回潜在的三元组或者Q/A答案。以上面的“长春站1号主变是哪家厂子制造的”这个列子为例，经过意图识别模型和槽位提取模型识别后，得到“长春220KV变电站–1号主变压器–生产厂家”，然后先根据“长春220KV变电站–1号主变压器”按照对应的ES查询语句，可获得1号主变压器的详细信息。然后基于“1号主变压器–生产厂家”，按照对应的ES查询语句，获得1号主变压器的生产厂家。

步骤104，根据用户的查询意图，采用对应的显示策略向用户展示答案。

在一个实施例中，根据用户的查询意图，采用对应的显示策略向用户展示答案，包括：当用户的查询意图为集合类型的查询时，向用户展示集合的数量及具体的集合数；当用户的查询意图为实体类型的查询时，向用户展示实体的详细属性；以及当用户的查询意图为实体属性值类型的查询时，向用户展示目标实体额名称或者目标实体的属性值。

参照图4所示，该层定位为根据答案的不同进行不同的展示，答案的类型可以分为集合类型查询、实体类型查询、实体属性查询三类。示例语句如下表1所示：

表1

针对不同的分类，采用不同的显示策略。

1)集合类型，该类型数据包括数字及集合。针对用户提问的是个集合类型的查询，比如“赤头青220kV变电站有哪些变压器”，则需要返回集合的数量及具体的集合数，如图8a所示。

2)实体类型，值为某个具体的实体，显示实体的详细属性。比如输入“赤头青220kV变电站#1主变生产厂家是哪里？”，则出来的是具体的实体“达乌尔黄鼠有限责任公司”，并显示实体的详细信息，如图8b所示。

3)实体属性值类型，值为具体的某个实体的名称或者实体的属性值，比如用户提问“赤头青220kV变电站#1主变电压等级”，则返回的值是#1主变这个实体的电压等级属性的值，如图8c所示。

此外，下面以“长春站1号主变是哪家厂子生产的？”这句话为例说明上述几个模型的交互过程。参照图9所示，具体地语义匹配过程包括以下步骤：

第一步：首先对用户输入的语句进行分词，提取里面的关键词：长春站、1号主变、生产、厂子。

第二步：将提出来的关键词输入到意图识别模型和槽位提取模型中。识别意图的分类和槽位信息。比如用户输入的语句“长春站1号主变是哪家厂子制造的”，其中包含了三个槽位和一个关系槽位，三个概念槽位分别是“变电站”、“变压器”、“生产厂家”，关系槽位是“生产”。其中槽位的值如下表2所示。

表2

序号	槽位类型	槽位名称	具体槽位值
				1	概念	变电站	长春站
2	概念	变压器	1号主变
				3	概念	生产厂家	厂子
4	关系	生产	制造

进一步地，将槽位值输入到实体链接模型中，输出与具体的词相对应的概念或者关系下的实体名称或者属性名称。实体链接是将槽位提取的值与知识库中已有实体的名称进行余弦相似度判断，比如上面“长春站1号主变是哪家厂子制造的”这个例子，里面的“长春站”在库中对应的实体名称是“长春220KV变电站”，“1号主变”在库里对应的实体名称是“1号主变压器”。

第三步：根据提取的槽位信息，生成ES查询脚本，执行ES查询脚本，获取查询结果，查询结果类型为实体类型，调用实体类型界面进行展示。

从而，本发明的语义识别模型解决了传统的浅层学习算法对数据的挖掘能力有限问题，该模型在某省公司地市供电公司进行了试点应用，实现了对所管辖变压器台账与故障信息的灵活查询，通过多轮交互式问答方式，为检修公司一线员工提供了设备台账信息、缺陷信息、标准导则等的灵活查询，典型问句回答准确率在90％以上。

具体应用的最佳实施例

在某电力公司的变压器故障服务系统中，以变压器故障报告进行实验，选取了变电站、变压器等共6类概念，各类实体数量如表3。根据六类问句模板进行问句生成，共生成问句198100条，每类问句最多5万条，最后按照8：2的比例，将报告数据分为训练集和验证集。

表3实验数据概念列表及数量

Table 3 Concept list and quantity of experimental data

训练集与测试集六类语句的分布如表4所示：

表4六类语句训练集和验证集的数量

Table 7 The number of nine type sentences in training sets andvalidation sets

意图识别模型的评价指标包括loss(模型在训练集上的loss值)、acc(在验证集上模型的准确率)、val_loss(模型在训练集上的loss值)、val_acc(模型在验证集上模型的准确率)四个指标，通过多轮次训练形成的模型进行自动筛选，如果比上一轮的val_loss数值低，则自动放弃该模型，从而最终挑选出准确率最高的模型。

意图识别模型的loss、val_loss、acc、val_acc与epoch的关系如图10所示。槽位提取模型的loss、val_loss、acc、val_acc值与epoch的关系如图11所示。

从而，本发明所提出的面向电力变压器知识问答的语义匹配方法，提出了一种基于小样本变压器问句模板的语料增强模型，基于小样本问句模板，结合变压器知识图谱，结合近义词库，自动实现大量的变压器语料文本，实现小样本空间下的数据增强，为通过深度学习训练生成意图识别模型和槽位提取模型提供训练语料。并且，还提出了一种基于BILSTM+注意力模型的意图和槽位一体化识别模型，基于该模型，对用户输入语句进行语义意图和语义槽位的联合识别，判断用户查询意图，识别语句槽位，提取槽位信息，将抽取完毕的槽位信息与图谱库中的实体进行链接，从而实现对用户输入的检索/问答语句的语义匹配。

示例性装置

图12是本发明一示例性实施例提供的面向电力变压器知识问答的语义匹配装置1200的结构示意图。如图12所示，本实施例包括：联合识别模块1210，用于利用训练好的语义识别模型，对用户输入的问题语句进行语义意图和语义槽位的联合识别，确定用户的查询意图和问题语句中的槽位信息，其中槽位信息包括槽位类型、槽位名称和槽位值；实体链接模块1220，用于将槽位值与知识图谱库中的实体链接，以确定与槽位值相对应的属于同一槽位类型的标准实体名称、属性名称或者关系名称；查询模块1230，用于将确定的标准实体名称、属性名称或者关系名称转换为搜索引擎的查询语句，并基于查询语句获取与用户输入的问题语句匹配的答案；以及显示模块1240，用于根据用户的查询意图，采用对应的显示策略向用户展示答案。

本发明的实施例的面向电力变压器知识问答的语义匹配装置1200与本发明的另一个实施例的面向电力变压器知识问答的语义匹配方法100相对应，在此不再赘述。

示例性电子设备

图13是本发明一示例性实施例提供的电子设备的结构。该电子设备可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备，该单机设备可以与第一设备和第二设备进行通信，以从它们接收所采集到的输入信号。图13图示了根据本公开实施例的电子设备的框图。如图13所示，电子设备包括一个或多个处理器131和存储器132。

处理器131可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备中的其他组件以执行期望的功能。

存储器132可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器131可以运行所述程序指令，以实现上文所述的本公开的各个实施例的软件程序的对历史变更记录进行信息挖掘的方法以及/或者其他期望的功能。在一个示例中，电子设备还可以包括：输入装置133和输出装置134，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

此外，该输入装置133还可以包括例如键盘、鼠标等等。

该输出装置134可以向外部输出各种信息。该输出设备134可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图13中仅示出了该电子设备中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的对历史变更记录进行信息挖掘的方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的对历史变更记录进行信息挖掘的方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种面向电力变压器知识问答的语义匹配方法，其特征在于，包括：

利用训练好的语义识别模型，对用户输入的问题语句进行语义意图和语义槽位的联合识别，确定用户的查询意图和问题语句中的槽位信息，其中槽位信息包括槽位类型、槽位名称和槽位值；

将槽位值与知识图谱库中的实体链接，以确定与槽位值相对应的属于同一槽位类型的标准实体名称、属性名称或者关系名称；

将确定的标准实体名称、属性名称或者关系名称转换为搜索引擎的查询语句，并基于查询语句获取与用户输入的问题语句匹配的答案；以及

根据用户的查询意图，采用对应的显示策略向用户展示答案。

2.根据权利要求1所述的方法，其特征在于，还包括：

利用分词器，对用户输入的问题语句进行分词，提取问题语句中的语句词汇；

将提取出的语句词汇送入语义识别模型的词向量层，以生成每个语句词汇的词向量；

将生成的词向量送入语义识别模型的双向LSTM编码层和注意力层，以对词向量进行编码处理；以及

将编码后的词向量送入语义识别模型的语义意图分类器与语义槽位分类器，以确定用户的查询意图和问题语句中的槽位信息。

3.根据权利要求1所述的方法，其特征在于，所述将槽位值与知识图谱库中的实体链接，以确定与槽位值相对应的属于同一槽位类型的标准实体名称、属性名称或者关系名称，包括：

利用预先训练好的文本相似度模型，将提取出的槽位值与知识图谱库中的实体名称对齐，以确定与槽位值相对应的属于同一槽位类型的标准实体名称、属性名称或者关系名称。

4.根据权利要求1所述的方法，其特征在于，所述根据用户的查询意图，采用对应的显示策略向用户展示答案，包括：

当用户的查询意图为集合类型的查询时，向用户展示集合的数量及具体的集合数；

当用户的查询意图为实体类型的查询时，向用户展示实体的详细属性；以及

当用户的查询意图为实体属性值类型的查询时，向用户展示目标实体额名称或者目标实体的属性值。

5.根据权利要求1所述的方法，其特征在于，利用训练好的语义识别模型，对用户输入的问题语句进行语义意图和语义槽位的联合识别之前，包括：

基于电力变压器的知识图谱和预设的问句模板，增强语义识别模型的训练语料，以构建语义识别模型的训练集，其中预设的问句模板由用户输入的语句及对该语句的语义标注构成；以及

基于构建的训练集，对语义识别模型进行训练。

6.根据权利要求5所述的方法，其特征在于，所述基于电力变压器的知识图谱和预设的问句模板，增强语义识别模型的训练语料，以构建语义识别模型的训练集，包括：

设计基于槽位的问句模板，其中问句模板由用户输入的语句及对该语句的语义标注构成；以及

基于电力变压器的知识图谱的数据填充问句模板，以构建语义识别模型的训练集。

7.根据权利要求6所述的方法，其特征在于，训练好的语义识别模型包括词向量层、双向LSTM编码层、注意力层和意图和槽位联合识别层，并且利用构建好的训练集，对语义识别模型进行训练，包括：

利用构建好的训练集，对意图和槽位联合识别层中的语义意图分类器与语义槽位分类器进行同时训练。

8.一种面向电力变压器知识问答的语义匹配装置，其特征在于，包括：

联合识别模块，用于利用训练好的语义识别模型，对用户输入的问题语句进行语义意图和语义槽位的联合识别，确定用户的查询意图和问题语句中的槽位信息，其中槽位信息包括槽位类型、槽位名称和槽位值；

实体链接模块，用于将槽位值与知识图谱库中的实体链接，以确定与槽位值相对应的属于同一槽位类型的标准实体名称、属性名称或者关系名称；

查询模块，用于将确定的标准实体名称、属性名称或者关系名称转换为搜索引擎的查询语句，并基于查询语句获取与用户输入的问题语句匹配的答案；以及

显示模块，用于根据用户的查询意图，采用对应的显示策略向用户展示答案。

9.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-8任一所述的方法。

10.一种电子设备，其特征在于，所述电子设备包括：处理器和存储器；其中，

所述存储器，用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-8中任一项所述的方法。