CN115048485A - 面向变压器检修场景的推理型自动问答方法、系统与计算机可读介质 - Google Patents

面向变压器检修场景的推理型自动问答方法、系统与计算机可读介质 Download PDF

Info

Publication number
CN115048485A
CN115048485A CN202210531197.6A CN202210531197A CN115048485A CN 115048485 A CN115048485 A CN 115048485A CN 202210531197 A CN202210531197 A CN 202210531197A CN 115048485 A CN115048485 A CN 115048485A
Authority
CN
China
Prior art keywords
model
vector
question
numerical
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210531197.6A
Other languages
English (en)
Inventor
付慧
孙弈骁
张国江
李双伟
杨景刚
胡成博
赵科
马径坦
贾骏
刘子全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Jiangsu Electric Power Co Ltd
Nanjing Tech University
Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Jiangsu Electric Power Co Ltd
Nanjing Tech University
Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Jiangsu Electric Power Co Ltd, Nanjing Tech University, Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202210531197.6A priority Critical patent/CN115048485A/zh
Publication of CN115048485A publication Critical patent/CN115048485A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供本发明目的在于提供一种面向变压器检修场景的推理型自动问答方法、系统与计算机可读介质。面向变压器检修场景的推理型自动问答方法包括:接收用户输入问题Q;结合变压器检修场景标准库D,将问题Q与标准库D进行embedding操作,获得问题Q与标准库D的段落d的匹配概率并排序,取概率最大段落Dk输出;获取问题Q与段落Dk以序列表示的词向量;最后基于数值抽取识别问题Q的类型,并依据识别的问题类型通过不同Bi‑LSTM‑Attention网络结构预测模型进行预测输出。本发明在给定的变压器检修标准库的前提下,针对用户提出的问题可快速、准确检索匹配到最相关的片段内容,结合数值抽取对问题分类,在匹配给出问题的答案,实现变压器检修场景下的准确问答。

Description

面向变压器检修场景的推理型自动问答方法、系统与计算机 可读介质
技术领域
本发明涉及计算机技术领域,尤其是深度学习技术在智能问答领域的应用,具体而言涉及一种面向变压器检修场景的推理型自动问答方法、系统与计算机可读介质。
背景技术
自动问答在医疗、金融、政务等领域广泛应用,推理型问答不同于只涉及实体属性的单跳问答,而是更多倾向于复杂的多跳查询问答需求,为了应对上述复杂的推理型问答,各种不同类型的推理方法和模型被陆续提出。
传统的推理型问答方法主要包括基于嵌入、路径和逻辑的三类问答推理方法。
基于嵌入的方法即语义匹配方法,其首先计算问题和候选答案分布式表示之间的语义匹配,然后通过排序候选答案来得到最终答案,然而这类方法只能回答简单问题,缺少了深层语义信息的挖掘。
基于路径的方法,则是将知识图谱结构化知识以三元组的形式组织,以用户问题重点主题实体为源实体,沿着知识图谱多个三元组的头实体、关系、尾实体的逐条路径进行搜索,匹配获得答案实体或者关系。但是这样的方法必须将数据整理为三元组形式,数据集的问题和答案的种类严重受限于知识图谱预先定义的模式(schema)本身,同时问题格式也被限制为知识图谱的三元组形式(triple),而非自然语言,限制了自动问答的适用性。
基于逻辑的方法因为符号逻辑规则的方法准确率高、可解释性强等优点,被广泛探讨和应用,结合一阶逻辑的自然性和概率逻辑模型的不确定性优点,马尔可夫逻辑网络被证明在知识图谱推理上的有效性,然而,鉴于大规模知识图谱的三元组之间的复杂结构,以上推理过程困难,效率较低。
鉴于上述现有技术存在的问题,尤其是在使用在变压器检修场景下,其领域适应性和文本匹配效果不理想。
发明内容
本发明目的在于提供一种面向变压器检修场景的推理型自动问答方法与系统,在给定的变压器检修标准库的前提下,针对用户提出的问题,可在变压器检修场景的标准库中快速、准确检索匹配到最相关的片段内容,结合数值抽取对问题的处理,将问题与段落的匹配分为纯文本问答和数值型问答,并通过规则匹配给出问题的答案,实现变压器检修场景下的准确问答。
根据本发明目的的第一方面提出一种面向变压器检修场景的推理型自动问答方法,包括以下步骤:
步骤1、接收用户输入的问题Q;
步骤2、结合预先构建的变压器检修场景标准库D,将问题Q在变压器检修场景标准库D中进行匹配,通过将问题Q与变压器检修场景标准库D进行embedding操作,获得问题Q与变压器检修场景标准库D的段落d的匹配概率;
步骤3、对匹配概率进行降序排序,取概率最大值对应的段落Dk输出;
步骤4、将问题Q与输出的段落Dk使用词向量工具进行处理获得词向量,以序列表示;例如,使用word2vec处理,获得词向量序列;
步骤5、基于数值抽取,识别问题Q的类型,包括纯文本类型问题以及数值类型问题,并依据识别的问题类型,通过不同的预测模型进行预测输出:
(1)对于纯文本类型问题,采用Bi-LSTM-Attention网络结构的第一模型对问题Q进行预测,输出问题答案,其中所述Bi-LSTM-Attention网络结构的第一模型以纯文本数据构成的数据集为训练数据,输入到由Bi-LSTM层的基础上加入Attention层构成的网络模型中进行训练而获得;
(2)对于数值类型问题,采用Bi-LSTM-Attention网络结构的第二模型对问题Q进行预测,输出问题答案,其中所述Bi-LSTM-Attention网络结构的第一模型以抽取的数值数据构成的数据集为训练数据,输入到由Bi-LSTM层的基础上加入Attention层构成的网络模型中进行训练而获得。
其中,在优选的实施例中,在所述第一模型和第二模型的训练过程中,均使用Bi-LSTM层作为特征编码层,提取每个词向量的上下文特征,然后进行双向的特征拼接后,将每个词向量的特征进行输出;
在Attention层则基于权重矩阵对每个词向量进行加权求和,其中,权重矩阵初始化值为256*1维,然后通过点乘与归一化运算,得到代表每个词向量对应权重的权重矩阵,权重越大的词向量代表注意力越大并且词向量对应的贡献程度越大,最后对每个词语对应的词向量进行加权求和,输出最终加权平均后的总特征向量。
在优选的实施例中,所述将问题Q与变压器检修场景标准库D进行embedding操作,包括在预先训练好的QDMatch匹配模型中进行计算输出,具体包括以下步骤:
将问题Q和变压器检修场景标准库D拆分的段落d进行拼接,并且在拼接的文本开头加上[CLS]标志位以及问题Q与段落的文本中间加上[SEP]标志位;其中:所述[CLS]标志位用于表示问题Q和段落d之间的相关概率;[SEP]标志位两个文本中间,作分割作用,分别对两个文本附加不同的文本向量作为区分;
确定问题Q和变压器检修场景标准库D拆分的段落d进行拼接的文本的Segment向量、Position向量以及Token向量,其中:所述Segment向量为区分句子的向量,问题Q的Segment向量元素为0,段落d的Segment向量元素为1;Position向量为句子的位置向量,其长度为整体句子的长度;Token向量为整体句子的词向量;
将Segment向量、Position向量以及Token向量三种向量输入到BERT模型中,经过BERT模型的双向12层Transformer Encoder结构,捕捉依赖关系,得到模型的输出,输出结果为问题Q和段落d的向量,取第1维[CLS]标志位的输出;
再使用全连接层的softmax函数得到问题Q与段落d的匹配概率,获得问题Q匹配的多个段落的文本。
根据本发明目的的第二方面,还提出一种面向变压器检修场景的推理型自动问答系统,包括:
一个或多个处理器;
存储器,存储可被操作的指令,所述指令在被所述一个或多个处理器执行时实现前述的面向变压器检修场景的推理型自动问答方法。
根据本发明目的的第三方面,还提出一种存储计算机程序的计算机可读取介质,所述计算机程序包括能被一个或多个计算机执行的指令,所述指令在被所述一个或多个计算机执行时实现前述的面向变压器检修场景的推理型自动问答方法。
附图说明
附图不意在按比例绘制。在附图中,在各个图中示出的每个相同或近似相同的组成部分可以用相同的标号表示。为了清晰起见,在每个图中,并非每个组成部分均被标记。现在,将通过例子并参考附图来描述本发明的各个方面的实施例,其中:
图1是本发明示例性实施例的面向变压器检修场景的推理型自动问答方法的流程示意图。
图2是本发明示例性实施例的QDMatch匹配模型的模型结构示意图。
图3是本发明示例性实施例的Bi-LSTM-Attention网络结构示意图。
具体实施方式
为了更了解本发明的技术内容,特举具体实施例并配合所附图式说明如下。
在本公开中参照附图来描述本发明的各方面,附图中示出了许多说明的实施例。本公开的实施例不必定意在包括本发明的所有方面。应当理解,上面介绍的多种构思和实施例,以及下面更加详细地描述的那些构思和实施方式可以以很多方式中任意一种来实施,这是因为本发明所公开的构思和实施例并不限于任何实施方式。另外,本发明公开的一些方面可以单独使用,或者与本发明公开的其他方面的任何适当组合来使用。
面向变压器检修场景的推理型自动问答方法
结合图1-3所示的示例性实施例的面向变压器检修场景的推理型自动问答方法,提供了面向变压器检修场景的推理型自动问答过程,在变压器检修场景领域的测试效果较好,可以准确高效地对用户提出的问题做出自动匹配的准确的应答,提高检修的效率和安全性。
作为可选的示例的面向变压器检修场景的推理型自动问答方法的实施步骤包括:
步骤1、接收用户输入的问题Q;
步骤2、结合预先构建的变压器检修场景标准库D,将问题Q在变压器检修场景标准库D中进行匹配,通过将问题Q与变压器检修场景标准库D进行embedding操作,获得问题Q与变压器检修场景标准库D的段落d的匹配概率;
步骤3、对匹配概率进行降序排序,取概率最大值对应的段落Dk输出;
步骤4、将问题Q与输出的段落Dk使用词向量工具进行处理获得词向量,以序列表示;
步骤5、基于数值抽取,识别问题Q的类型,包括纯文本类型问题以及数值类型问题,并依据识别的问题类型,通过不同的预测模型进行预测输出。
其中,对于纯文本类型问题,采用Bi-LSTM-Attention网络结构的第一模型对问题Q进行预测,输出问题答案,其中Bi-LSTM-Attention网络结构的第一模型以纯文本数据构成的数据集为训练数据,输入到由Bi-LSTM层的基础上加入Attention层构成的网络模型中进行训练而获得。
针对数值类型问题,采用Bi-LSTM-Attention网络结构的第二模型对问题Q进行预测,输出问题答案,其中Bi-LSTM-Attention网络结构的第一模型以抽取的数值数据构成的数据集为训练数据,输入到由Bi-LSTM层的基础上加入Attention层构成的网络模型中进行训练而获得。
在本发明的实施例中,通过数值抽取函数来抽取问题Q中的数值,识别问题Q的类型。
例如,通过数值抽取函数判断问题Q中是否存在数值,如果存在数值,则判定问题Q属于数值类型问题,取出各个数值的大小、单位,以字典的形式输出;如果存在数值范围,则同时取出数值范围的左右开闭区间;如果不存在数值,则判定问题Q属于纯文本类型问题。
作为可选的方式,数值抽取函数可通过构造正则表达式,预先设定响应的字符识别逻辑来进行数值抽取,获得句子中是否包含数值的结果,并据此将问题Q分类为数值类型问题或者纯文本类型问题,以利于后续通过不同的模型进行分别预测输出。
其中,预先构建的变压器检修场景标准库D,其中包含多种变压器检修标准,将变压器检修场景标准库D按照自然段划分,获得多个段落d,每一个段落d均包含技术标准号、技术标准名称以及该条标准的相关描述。
例如,GB/T 6451-2015油浸式电力变压器技术参数和要求气体继电器的安装位置及其结构应能观察到分解气体的数量和油速标尺,而且应便于取气体。
以GB/T 6451-2015对应的段落为例,“GB/T 6451-2015”表示技术标准号,“油浸式电力变压器技术参数和要求”表示技术标准名称,“气体继电器的安装位置及其结构应能观察到分解气体的数量和油速标尺,而且应便于取气体”表示标准的相关描述。
作为可选的实施例,在第一模型和第二模型的训练过程中,均使用Bi-LSTM层作为特征编码层,提取每个词向量的上下文特征,然后进行双向的特征拼接后,将每个词向量的特征进行输出;
在Attention层则基于权重矩阵对每个词向量进行加权求和,其中,权重矩阵初始化值为256*1维,然后通过点乘与归一化运算,得到代表每个词向量对应权重的权重矩阵,权重越大的词向量代表注意力越大并且词向量对应的贡献程度越大,最后对每个词语对应的词向量进行加权求和,输出最终加权平均后的总特征向量。
作为可选的实施例,在前述步骤2中,结合图2所示的QDMatch匹配模型结构,将问题Q与变压器检修场景标准库D进行embedding操作,包括在预先训练好的QDMatch匹配模型中进行计算输出,具体包括以下步骤:
将问题Q和变压器检修场景标准库D拆分的段落d进行拼接,并且在拼接的文本开头加上[CLS]标志位以及问题Q与段落的文本中间加上[SEP]标志位;其中:[CLS]标志位用于表示问题Q和段落d之间的相关概率;[SEP]标志位两个文本中间,作分割作用,分别对两个文本附加不同的文本向量作为区分;
确定问题Q和变压器检修场景标准库D拆分的段落d进行拼接的文本的Segment向量、Position向量以及Token向量,其中:Segment向量为区分句子的向量,问题Q的Segment向量元素为0,段落d的Segment向量元素为1;Position向量为句子的位置向量,其长度为整体句子的长度;Token向量为整体句子的词向量;
将Segment向量、Position向量以及Token向量三种向量输入到BERT模型中,经过BERT模型的双向12层Transformer Encoder结构,捕捉依赖关系,得到模型的输出,输出结果为问题Q和段落d的向量,取第1维[CLS]标志位的输出;
再使用全连接层的softmax函数得到问题Q与段落d的匹配概率,获得问题Q匹配的多个段落的文本。
结合上述实施例,[CLS]和[SEP]标志位均为BERT模型文本输入的标志符。[CLS]标志位位于文本的最前端,并将该符合对应的输出向量作为整个文本的语义表示,可以理解为,与文本中已有的其他字/词相比,这个无明显语义信息的符号会更“公平”地融合文本中各个字/词的语义信息,然后用在预训练或者后续任务分类上。
在本发明的实施例中,使用[CLS]标志位来表示问题Q和段落d之间的相关概率。[SEP]标志位设置于两个文本中间,作分割作用,分别对两个文本附加不同的文本向量作为区分
作为可选的实施例,在前述步骤2中,预先训练好的QDMatch匹配模型的模型结构包括初始embedding编码层、BERT模型网络结构以及输出层,其中初始embedding编码层用于确定Segment向量、Position向量以及Token向量以及对向量求和运算,BERT模型网络结构中包括双向12层Transformer Encoder结构,输出层为问题Q和段落d的向量表达;
训练过程所使用的损失函数为:
Figure BDA0003646313250000061
其中,N为训练期间使用的样本数总数,yn表示第n个样本的目标标签,scoren表示第n个样本的模型预测标签,即训练的目标是使模型预测标签与真实标签尽可能一致。
结合图2所示,Google提供的Bert模型可以获取文本的丰富语义表示,在本发明的实施例中,将文本丰富的语义表示在文本匹配任务中进行微调,从而让Bert模型可以高效地应用在文本匹配任务上。
模型embedding需要三种向量求和。其中Segment向量为区分句子的向量,问题Q的Segment向量元素为0,标准段落d的Segment向量元素为1。Position向量为句子的位置向量,其长度为整体句子的长度。Token向量为整体句子的词向量。
最后,将三种向量相加得到的向量E输入到BERT模型中,经过双向12层Transformer Encoder结构,可以捕捉到更长距离的依赖,得到模型的输出,输出为该问题Q和段落d的向量,最后取第1维[CLS]的输出,再使用softmax函数得到问题Q与段落d的匹配概率。
作为可选的实施例,本发明使用BERT模型为双向Transformer Encoder,其中Attention层是核心要素,Self Attention机制的公式如下:
Figure BDA0003646313250000071
其中Q,K,V分别表示拼接后的输入文本的每个单词初始化得到的向量,这三个向量都是长度为64的向量,公式如下:
Q=XWQ
K=XWK
V=XWV
其中X是单词的word embedding形式长度为512。W表示的权重矩阵,维度为512*64,应用上述公式就能初始化出Q,K,V长度为64。
上述公式中,WQ表示Q向量对应的权重矩阵,WK表示K向量对应的权重矩阵,WK表示K向量对应的权重矩阵。
计算score分数,score=QK。
然后,归一化处理并通过softmax函数输出,
Figure BDA0003646313250000072
最后融合底层的特征信息,Q,K,V均是通过原始的拼接后的输入文本的每个单词初始化得到的向量,相当于底层的信息。通过矩阵的乘法,将需要增强的注意力进一步增大,具体方式如下公式:
Figure BDA0003646313250000073
本发明使用的QDMatch网络模型直接取第一个[CLS]token的final hidden state(隐藏状态)C输出,
Figure BDA0003646313250000081
表示C的维度为H,加一层权重W相乘输出,通过softmax函数处理预测label proba,:
P=softmax(CWT)
Figure BDA0003646313250000082
表示W的维度为K*H,WT表示的W转置。
作为可选的实施例,本发明使用的Bi-LSTM-Attention网络结构的第一模型为预先训练的,结合图3所示的模型结构,其训练过程包括:
对采集的数据集进行数值抽取,识别其中的纯文本类型问题以及数值类型问题,并据此分别构建纯文本数据集X1以及数值型数据集X2,数据集包含多条问题Q与最相关的段落Dk构成的语料;纯文本数据集X1包含纯文本类型问题Q与最相关的段落Dk构成的语料;数值型数据集X2包含数值类型问题Q与最相关的段落Dk构成的语料;
对纯文本数据集X1按照8:1:1的比例,划分成训练集、验证集和测试集;
对纯文本数据集X1使用Bi-LSTM-Attention网络结构训练模型,Bi-LSTM-Attention网络结构包括Bi-LSTM层、Attention层以及全连接层,在Bi-LSTM层对输入的问题Q以及对应最相关的段落Dk提取每个词语对应的上下文特征,然后进行双向特征拼接,最终输出每个词语的特征;其中Bi-LSTM层的每个隐藏层的隐藏单元数为256个,每批纯文本类型问题Q和最相关的段落Dk的文本自动分类数据量为64,问题Q和最相关的段落Dk文本自动分类隐藏单元随机删除概率设定为1,学习率为1e-5,最大迭代次数设定为100,梯度裁剪值设定为5;最后一个时序的输出向量作为每个词语的特征向量输出;
在Attention层先计算问题Q以及对应最相关的段落Dk的每个词语的权重,对每个词语对应的特征向量进行加权求和,实现特征向量拼接,输出最终加权平均后的总特征向量;
最后,在全连接层通过softmax分类,得到问题Q在变压器检修场景标准库D上的答案为“是”或“否”,至此获得Bi-LSTM-Attention网络结构的纯文本模型;
在测试集上使用f1指标来评价模型效果,f1指标计算公式如下:
Figure BDA0003646313250000083
Figure BDA0003646313250000084
Figure BDA0003646313250000085
最后,选择f1指标最大值对应的效果最佳的纯文本模型作为最终的第一模型。
其中,Bi-LSTM-Attention网络结构的第一模型的训练过程中,在Bi-LSTM层对输入的问题Q以及对应最相关的段落Dk提取每个词语对应的上下文特征,然后进行双向特征拼接,最终输出每个词语的特征,包括以下计算过程:
ft=σ(Wf·xt+Uf·ht-1+bf)
it=σ(Wi·xt+Ui·ht-1+bi)
Figure BDA0003646313250000091
Figure BDA0003646313250000092
ot=σ(Wo·xt+Uf·ht-1+bo)
Figure BDA0003646313250000093
其中,上述公式中的参数含义如下:
x:Bi-LSTM层网络结构中某时刻的神经元输入;
h:某时刻的神经元的隐藏状态,即短时记忆状态;
C:某时刻的神经元的Cell状态,即长时记忆状态;
W:某时刻的神经元输入权重,即待训练的纯文本问题Q的输入权重矩阵;
U:某时刻的神经元隐藏状态输入权重,即训练的纯文本问题Q对应最相关段落Dk的输入权重矩阵;
σ:Sigmoid激活函数;
b:偏置项;
tanh:tanh激活函数。
例如,xt表示t时刻的神经元输入,ht和ht-1分别表示t时刻和t-1时刻的神经元的隐藏状态出,b0表示偏置项的初始值。
作为示例,我们结合上述计算过程对LSTM流程说明如下。
Bi-LSTM层网络结构采取门控的方式控制输入输出,输出为两个状态,包括Cellstate长时记忆状态和Hidden State短时记忆状态;门控包括遗忘门、输入门和输出门控制。
每个当前时刻的Cell状态(Ct)接受上一时刻的输出值ht-1和当前时刻的输入值xt影响。ht-1和xt先进入遗忘门,作用为决定对上一时刻和当前时刻要舍弃的信息,公式如下:
ft=σ(Wf·xt+Uf·ht-1+bf)
其中,xt为t时刻的神经元输入,Wf为遗忘门对t时刻神经元的输入的权重,ht-1为t-1时刻神经元的隐藏状态输出,Uf为遗忘门对t-1时刻神经元的隐藏状态输出的权重,bf为遗忘门的偏置项。σ为Sigmoid激活函数,其作用是将输入的值压缩在0-1之间,ft代表t时刻的遗忘门,经过Sigmoid激活函数,其值为0-1之间,作用为确定t-1的神经元状态有多少可以保留到t时刻的神经元状态Ct
经过遗忘门的信息再进入输入门,作用为决定要需要更新的信息it,以及当前时刻的Cell状态
Figure BDA0003646313250000101
公式如下:
it=σ(Wi·xt+Ui·ht-1+bi)
Figure BDA0003646313250000102
其中xt为t时刻的神经元输入,Wi为输入门对t时刻神经元的输入的权重,ht-1为t-1时刻神经元的隐藏状态输出,Ui为输入门对t-1时刻神经元的隐藏状态输出的权重,bi为输入门的偏置项。σ为Sigmoid激活函数,其作用是将输入的值压缩在0-1之间,it代表t时刻的输入门,经过Sigmoid激活函数,其值为0~1之间,作用为确定t时刻的神经元输入xt有多少可以保留到t时刻的神经元状态Ct
Figure BDA0003646313250000103
为中间变量,代表t时刻神经元的抽象输出。Wc为中间变量对t时刻的神经元输入的权重,Uc为中间变量对t-1时刻神经元的隐藏状态输出的权重,bc为中间变量的偏置项。tanh为tanh激活函数,将输入值压缩为-1~1之间的值。
结合前述描述的流程,作为中间变量的
Figure BDA0003646313250000104
最后由输出门控制得到当前时刻的长时记忆状态Ct和短时记忆状态遗忘门ht,公式如下:
ot=σ(Wo·xt+Uf·ht-1+bo)
Figure BDA0003646313250000105
Figure BDA0003646313250000106
其中,xt为t时刻的神经元输入,Wo为输出门对t时刻神经元的输入的权重,ht-1为t-1时刻神经元的隐藏状态输出,Ui为输出门对t-1时刻神经元的隐藏状态输出的权重,bi为输出门的偏置项。σ为Sigmoid激活函数,其作用是将输入的值压缩在0-1之间,ot代表t时刻的输出门,经过Sigmoid激活函数,其值为0-1之间,作用为确定t时刻的神经元状态Ct有多少可以输出到t时刻的神经元隐藏状态ht
Ct-1是t-1时刻神经元的状态输出,
Figure BDA0003646313250000111
是矩阵的点乘操作,
Figure BDA0003646313250000112
是用遗忘门对t-1时刻神经元的状态输出进行点乘,用于确定t-1的神经元状态Ct-1有多少可以保留到t时刻的神经元状态Ct
Figure BDA0003646313250000113
是用输入门对t时刻神经元的抽象输出进行点乘,用于确定t时刻的神经元输入xt有多少可以保留到t时刻的神经元状态Ct。由输入门和遗忘门控制得到t时刻的神经元状态Ct
tanh(Ct)将t时刻的神经元状态Ct使用tanh激活函数得到范围在-1~1之间的值,使用输出门控制t时刻的神经元状态Ct得到t时刻的神经元隐藏状态ht
作为可选的实施例,基于Bi-LSTM-Attention网络结构的第二模型,其训练过程采用与第一模型相同,但所采用的训练数据集不同,其采用的数据集中主要是针对数值型问题Q以及对应最相关的段落Dk,在此基础上进行模型的训练和验证。
作为可选的实施例,第二模型的训练过程包括以下过程:
对采集的数据集进行数值抽取,识别其中的纯文本类型问题以及数值类型问题,并据此分别构建纯文本数据集X1以及数值型数据集X2,数据集包含多条问题Q与最相关的段落Dk构成的语料;纯文本数据集X1包含纯文本类型问题Q与最相关的段落Dk构成的语料;数值型数据集X2包含数值类型问题Q与最相关的段落Dk构成的语料;
对纯文本数据集X2按照8:1:1的比例,划分成训练集、验证集和测试集;
然后按照前述的方法,基于Bi-LSTM-Attention网络结构训练数值模型,并通过在测试集上使用f1指标来评价模型效果,f1指标计算公式如下:
Figure BDA0003646313250000114
Figure BDA0003646313250000115
Figure BDA0003646313250000116
最后,选择f1指标最大值对应的效果最佳的数值模型作为最终的第二模型。
下面结合具体场景,示例性的描述上述方法的实施。
步骤S1、输入问题Q,如“变压器用片式散热器内部冲洗时,冲洗油流速度可为超过3m/s吗?”。
步骤S2、给定变压器检修场景标准库D。D中含有多种变压器检修标准,将检修标准库D按照自然段划分,每个自然段包含技术标准号、技术标准名称以及该条标准的相关描述。
例如,GB/T 6451-2015油浸式电力变压器技术参数和要求气体继电器的安装位置及其结构应能观察到分解气体的数量和油速标尺,而且应便于取气体。
GB/T 1094.6-2011电力变压器第6部分:电抗器11.4.5调节范围额定电压、额定频率下电流可用下列方法之一调节:用无励磁或有载分接开关,逐级接入主绕组的附加线段;注:在此项中,建议调节范围不大于2.5。
步骤S3、将S2得到的检修标准与问题Q进行embedding操作,给问题Q和拆分的段落文本拼接并且在文本开头加上[CLS]以及两个文本中间加上[SEP]标识符,通过embedding操作获得与问题Q匹配的多个段落。
步骤S4、由S3得到与问题Q匹配的多个文档,按照softmax取得的概率降序,取最相关段落Dk。将问题Q与段落Dk,使用word2vec处理成序列表示,为后续输入问答模型作准备。同时,使用编写的数值抽取函数,对问题Q进行类型判断。
步骤S5、通过数值抽取函数,判断一段文本中是否存在数值,例如通过构建正则表达式进行判断,如果存在数值,则取出各数值的大小、单位;其中如果存在数值范围,则另外取出范围的左右开闭区间情况,并以字典的形式输出。如果不存在数值,则认为该文本为纯文本,不存在对数值。
如文本“电抗器用自黏漆包线结强度应不小于3N/mm。”,数值抽取之后的结果为{‘result’:[‘mention’:’不小于3N/mm’,’value’:’(3~+∞)N/mm’,’unit’:’N/mm’,’startPos’:13,’endPos’:20]}。
步骤S6、如果S5判断问题Q属于纯文本类型问题,则进入步骤7,利用预先训练的模型JudgeModel1对问题Q进行解答。
步骤S7、对于问题Q属于纯文本问题,使用纯文本模型JudgeModel1对问题Q进行预测,得到答案。在可选的实施例中,可使用规则匹配对应实体内容,一并输出。
如问题Q为“气体继电器的安装位置有要求吗?”,对应的标准Dk为“GB/T 6451-2015油浸式电力变压器技术参数和要求气体继电器的安装位置及其结构应能观察到分解气体的数量和油速标尺,而且应便于取气体。”,通过规则切分句子和模糊匹配的方法,获得最接近的文本中对应的部分,抽取对应文本,得到答案A为“是,气体继电器的安装位置及其结构应能观察到分解气体的数量和油速标尺,而且应便于取气体”,即获得问题的解答以及对应的解答依据输出。
步骤S8、如果S5判断问题Q属于数值类型问题,则进入步骤7,利用预先训练的模型JudgeModel2对问题Q进行解答。
步骤S9、对于问题Q属于数值型问题,使用数值模型JudgeModel2对问题Q进行预测,输出答案。在可选的实施例中,可通过数值抽取函数获得的关键词和/或数值或者数值范围、单位,通过规则匹配得到答案。
如问题Q为“变压器铁心到达反极性全饱和,原点到第一个过零点的全部时间为1200μs”;对应的标准Dk变压器检修标准为“GB/T 1094.3-2017电力变压器第3部分:绝缘水平、绝缘试验和外绝缘空气间隙如果实际中铁心达到反极性全饱和,则从视在原点到第一个过零点的全部时间小于1000μs也是允许的。”,规则匹配得到答案A为“否,小于1000μs。”
至此,完成变压器检修场景的推理型自动问答的处理过程。通过本发明的流程,解决传统推理型问答准确率低的问题,并且本发明的数据质量高,可以适用于一般自然语言场景。
由于传统的推理问答的方法是依赖于三元组形式存储的数据,使用知识图谱的方法去解决,在面对自然语言时,缺乏应对能力;或者计算问题与候选之间的相似性给出答案,缺少语义的深层信息。因此,在本发明提出的面向变压器检修场景的推理型自动问答方法的实现过程中提出,面向变压器检修场景的自然语言推理问答,结合深度学习的方法,先匹配问题相关标准,再使用数值抽取函数将问题分类为纯文本类型和数值类型,使用Bi-LSTM-Attention的模型结构对问题进行预测,并使用正则匹配的方式给出问题的答案。通过实验证明,本发明提出的方法在变压器检修场景上效果较现存方法具有明显的改善。同时,本发明可以支持特定领域的数据的自然语言推断,只要将标注好的特定领域数据进行模型训练,就可以帮助特定领域的自然语言推断,更进一步该方法的适用性。
面向变压器检修场景的推理型自动问答系统
结合本发明公开的实施例,本发明被可以被设置以面向变压器检修场景的推理型自动问答系统的方式实施,面向变压器检修场景的推理型自动问答系统包括:
一个或多个处理器;
存储器,存储可被操作的指令,指令在被一个或多个处理器执行时实现前述任意实施例的面向变压器检修场景的推理型自动问答方法。
计算机可读取介质
结合本发明公开的实施例,本发明被可以被设置以计算机可读取介质的方式实施,一种存储计算机程序的计算机可读取介质,计算机程序包括能被一个或多个计算机执行的指令,指令在被一个或多个计算机执行时实现前述任意实施例的面向变压器检修场景的推理型自动问答方法。
虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明。本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视权利要求书所界定者为准。

Claims (12)

1.一种面向变压器检修场景的推理型自动问答方法,其特征在于,包括以下步骤:
步骤1、接收用户输入的问题Q;
步骤2、结合预先构建的变压器检修场景标准库D,将问题Q在变压器检修场景标准库D中进行匹配,通过将问题Q与变压器检修场景标准库D进行embedding操作,获得问题Q与变压器检修场景标准库D的段落d的匹配概率;
步骤3、对匹配概率进行降序排序,取概率最大值对应的段落Dk输出;
步骤4、将问题Q与输出的段落Dk使用词向量工具进行处理获得词向量,以序列表示;
步骤5、基于数值抽取,识别问题Q的类型,包括纯文本类型问题以及数值类型问题,并依据识别的问题类型,通过不同的预测模型进行预测输出:
(1)对于纯文本类型问题,采用Bi-LSTM-Attention网络结构的第一模型对问题Q进行预测,输出问题答案,其中所述Bi-LSTM-Attention网络结构的第一模型以纯文本数据构成的数据集为训练数据,输入到由Bi-LSTM层的基础上加入Attention层构成的网络模型中进行训练而获得;
(2)对于数值类型问题,采用Bi-LSTM-Attention网络结构的第二模型对问题Q进行预测,输出问题答案,其中所述Bi-LSTM-Attention网络结构的第一模型以抽取的数值数据构成的数据集为训练数据,输入到由Bi-LSTM层的基础上加入Attention层构成的网络模型中进行训练而获得。
2.根据权利要求1所述的面向变压器检修场景的推理型自动问答方法,其特征在于,所述预先构建的变压器检修场景标准库D,其中包含多种变压器检修标准,将变压器检修场景标准库D按照自然段划分,获得多个段落d,每一个段落d均包含技术标准号、技术标准名称以及该条标准的相关描述。
3.根据权利要求1所述的面向变压器检修场景的推理型自动问答方法,其特征在于,在所述第一模型和第二模型的训练过程中,均使用Bi-LSTM层作为特征编码层,提取每个词向量的上下文特征,然后进行双向的特征拼接后,将每个词向量的特征进行输出;
在Attention层则基于权重矩阵对每个词向量进行加权求和,其中,权重矩阵初始化值为256*1维,然后通过点乘与归一化运算,得到代表每个词向量对应权重的权重矩阵,权重越大的词向量代表注意力越大并且词向量对应的贡献程度越大,最后对每个词语对应的词向量进行加权求和,输出最终加权平均后的总特征向量。
4.根据权利要求1所述的面向变压器检修场景的推理型自动问答方法,其特征在于,所述将问题Q与变压器检修场景标准库D进行embedding操作,包括在预先训练好的QDMatch匹配模型中进行计算输出,具体包括以下步骤:
将问题Q和变压器检修场景标准库D拆分的段落d进行拼接,并且在拼接的文本开头加上[CLS]标志位以及问题Q与段落的文本中间加上[SEP]标志位;其中:所述[CLS]标志位用于表示问题Q和段落d之间的相关概率;[SEP]标志位两个文本中间,作分割作用,分别对两个文本附加不同的文本向量作为区分;
确定问题Q和变压器检修场景标准库D拆分的段落d进行拼接的文本的Segment向量、Position向量以及Token向量,其中:所述Segment向量为区分句子的向量,问题Q的Segment向量元素为0,段落d的Segment向量元素为1;Position向量为句子的位置向量,其长度为整体句子的长度;Token向量为整体句子的词向量;
将Segment向量、Position向量以及Token向量三种向量输入到BERT模型中,经过BERT模型的双向12层Transformer Encoder结构,捕捉依赖关系,得到模型的输出,输出结果为问题Q和段落d的向量,取第1维[CLS]标志位的输出;
再使用全连接层的softmax函数得到问题Q与段落d的匹配概率,获得问题Q匹配的多个段落的文本。
5.根据权利要求4所述的面向变压器检修场景的推理型自动问答方法,其特征在于,所述预先训练好的QDMatch匹配模型的模型结构包括初始embedding编码层、BERT模型网络结构以及输出层,其中初始embedding编码层用于确定Segment向量、Position向量以及Token向量以及对向量求和运算,BERT模型网络结构中包括双向12层Transformer Encoder结构,输出层为问题Q和段落d的向量表达;
训练过程所使用的损失函数为:
Figure FDA0003646313240000021
其中,N为训练期间使用的样本数总数,yn表示第n个样本的目标标签,scoren表示第n个样本的模型预测标签,即训练的目标是使模型预测标签与真实标签尽可能一致。
6.根据权利要求1所述的面向变压器检修场景的推理型自动问答方法,其特征在于,对于问题Q以及输出的段落Dk,使用word2vec处理成序列表示。
7.根据权利要求1所述的面向变压器检修场景的推理型自动问答方法,其特征在于,所述基于数值抽取,识别问题Q的类型,包括:
通过数值抽取函数判断问题Q中是否存在数值,如果存在数值,则判定问题Q属于数值类型问题,取出各个数值的大小、单位,以字典的形式输出;如果存在数值范围,则同时取出数值范围的左右开闭区间;
如果不存在数值,则判定问题Q属于纯文本类型问题。
8.根据权利要求1所述的面向变压器检修场景的推理型自动问答方法,其特征在于,所述Bi-LSTM-Attention网络结构的第一模型的训练过程包括:
对采集的数据集进行数值抽取,识别其中的纯文本类型问题以及数值类型问题,并据此分别构建纯文本数据集X1以及数值型数据集X2,所述数据集包含多条问题Q与最相关的段落Dk构成的语料;纯文本数据集X1包含纯文本类型问题Q与最相关的段落Dk构成的语料;数值型数据集X2包含数值类型问题Q与最相关的段落Dk构成的语料;
对纯文本数据集X1按照8:1:1的比例,划分成训练集、验证集和测试集;
对纯文本数据集X1使用Bi-LSTM-Attention网络结构训练模型,所述Bi-LSTM-Attention网络结构包括Bi-LSTM层、Attention层以及全连接层,在Bi-LSTM层对输入的问题Q以及对应最相关的段落Dk提取每个词语对应的上下文特征,然后进行双向特征拼接,最终输出每个词语的特征;其中Bi-LSTM层的每个隐藏层的隐藏单元数为256个,每批纯文本类型问题Q和最相关的段落Dk的文本自动分类数据量为64,问题Q和最相关的段落Dk文本自动分类隐藏单元随机删除概率设定为1,学习率为1e-5,最大迭代次数设定为100,梯度裁剪值设定为5;最后一个时序的输出向量作为每个词语的特征向量输出;
在Attention层先计算问题Q以及对应最相关的段落Dk的每个词语的权重,对每个词语对应的特征向量进行加权求和,实现特征向量拼接,输出最终加权平均后的总特征向量;
最后,在全连接层通过softmax分类,得到问题Q在变压器检修场景标准库D上的答案为“是”或“否”,至此获得Bi-LSTM-Attention网络结构的纯文本模型;
在测试集上使用f1指标来评价模型效果,f1指标计算公式如下:
Figure FDA0003646313240000031
Figure FDA0003646313240000032
Figure FDA0003646313240000041
最后,选择f1指标最大值对应的效果最佳的纯文本模型作为最终的第一模型。
9.根据权利要求8所述的面向变压器检修场景的推理型自动问答方法,其特征在于,所述Bi-LSTM-Attention网络结构的第一模型的训练过程中,在Bi-LSTM层对输入的问题Q以及对应最相关的段落Dk提取每个词语对应的上下文特征,然后进行双向特征拼接,最终输出每个词语的特征,包括以下计算过程:
ft=σ(Wf·xt+Uf·ht-1+bf)
it=σ(Wi·xt+Ui·ht-1+bi)
Figure FDA0003646313240000042
Figure FDA0003646313240000043
ot=σ(Wo·xt+Uf·ht-1+bo)
Figure FDA0003646313240000044
其中,Bi-LSTM层网络结构采取门控的方式控制输入输出,输出为两个状态,包括Cellstate长时记忆状态和Hidden State短时记忆状态;所述门控包括遗忘门、输入门和输出门控制;
每个当前时刻的Cell状态Ct接受上一时刻的输出值ht-1和当前时刻的输入值xt影响;ht-1和xt先进入遗忘门,作用为决定对上一时刻和当前时刻要舍弃的信息,公式如下:
ft=σ(Wf·xt+Uf·ht-1+bf)
经过遗忘门的信息再进入输入门,作用为决定要需要更新的信息it,以及当前时刻的Cell状态
Figure FDA0003646313240000045
公式如下:
it=σ(Wi·xt+Ui·ht-1+bi)
Figure FDA0003646313240000046
其中
Figure FDA0003646313240000047
为中间变量,最后由输出门控制得到当前时刻的长时记忆状态Ct和短时记忆状态遗忘门ht公式如下:
ot=σ(Wo·xt+Uf·ht-1+bo)
Figure FDA0003646313240000051
Figure FDA0003646313240000052
10.根据权利要求9所述的面向变压器检修场景的推理型自动问答方法,其特征在于,所述Bi-LSTM-Attention网络结构的第二模型的训练过程包括:
对采集的数据集进行数值抽取,识别其中的纯文本类型问题以及数值类型问题,并据此分别构建纯文本数据集X1以及数值型数据集X2,所述数据集包含多条问题Q与最相关的段落Dk构成的语料;纯文本数据集X1包含纯文本类型问题Q与最相关的段落Dk构成的语料;数值型数据集X2包含数值类型问题Q与最相关的段落Dk构成的语料;
对纯文本数据集X2按照8:1:1的比例,划分成训练集、验证集和测试集;
然后按照所述权利要求9的方法,基于Bi-LSTM-Attention网络结构训练数值模型,并通过在测试集上使用f1指标来评价模型效果,f1指标计算公式如下:
Figure FDA0003646313240000053
Figure FDA0003646313240000054
Figure FDA0003646313240000055
最后,选择f1指标最大值对应的效果最佳的数值模型作为最终的第二模型。
11.一种面向变压器检修场景的推理型自动问答系统,其特征在于,包括:
一个或多个处理器;
存储器,存储可被操作的指令,所述指令在被所述一个或多个处理器执行时实现所述权利要求1-10中任意一项所述的面向变压器检修场景的推理型自动问答方法。
12.一种存储计算机程序的计算机可读取介质,其特征在于,所述计算机程序包括能被一个或多个计算机执行的指令,所述指令在被所述一个或多个计算机执行时实现所述权利要求1-8中任意一项所述的面向变压器检修场景的推理型自动问答方法。
CN202210531197.6A 2022-05-16 2022-05-16 面向变压器检修场景的推理型自动问答方法、系统与计算机可读介质 Pending CN115048485A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210531197.6A CN115048485A (zh) 2022-05-16 2022-05-16 面向变压器检修场景的推理型自动问答方法、系统与计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210531197.6A CN115048485A (zh) 2022-05-16 2022-05-16 面向变压器检修场景的推理型自动问答方法、系统与计算机可读介质

Publications (1)

Publication Number Publication Date
CN115048485A true CN115048485A (zh) 2022-09-13

Family

ID=83158483

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210531197.6A Pending CN115048485A (zh) 2022-05-16 2022-05-16 面向变压器检修场景的推理型自动问答方法、系统与计算机可读介质

Country Status (1)

Country Link
CN (1) CN115048485A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116303977A (zh) * 2023-05-17 2023-06-23 中国兵器工业计算机应用技术研究所 一种基于特征分类的问答方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116303977A (zh) * 2023-05-17 2023-06-23 中国兵器工业计算机应用技术研究所 一种基于特征分类的问答方法及系统
CN116303977B (zh) * 2023-05-17 2023-08-04 中国兵器工业计算机应用技术研究所 一种基于特征分类的问答方法及系统

Similar Documents

Publication Publication Date Title
CN108984526B (zh) 一种基于深度学习的文档主题向量抽取方法
CN107798140B (zh) 一种对话系统构建方法、语义受控应答方法及装置
Cho Natural language understanding with distributed representation
CN112417877B (zh) 一种基于改进bert的文本蕴含关系识别方法
KR20190133931A (ko) 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법
CN109726745B (zh) 一种融入描述知识的基于目标的情感分类方法
CN107797987B (zh) 一种基于Bi-LSTM-CNN的混合语料命名实体识别方法
CN112613305A (zh) 基于循环神经网络的中文事件抽取方法
CN107977353A (zh) 一种基于lstm-cnn的混合语料命名实体识别方法
CN112818698B (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
CN111753058A (zh) 一种文本观点挖掘方法及系统
CN108536781B (zh) 一种社交网络情绪焦点的挖掘方法及系统
CN113435211A (zh) 一种结合外部知识的文本隐式情感分析方法
CN116521882A (zh) 基于知识图谱的领域长文本分类方法及系统
CN114417851A (zh) 一种基于关键词加权信息的情感分析方法
CN112183106A (zh) 一种基于音素联想及深度学习的语义理解方法及装置
CN115048485A (zh) 面向变压器检修场景的推理型自动问答方法、系统与计算机可读介质
CN116069916A (zh) 旅游景点问答系统
CN115545030A (zh) 实体抽取模型的训练方法、实体关系抽取方法及装置
CN114239565A (zh) 一种基于深度学习的情绪原因识别方法及系统
Dadas et al. A deep learning model with data enrichment for intent detection and slot filling
CN114357166A (zh) 一种基于深度学习的文本分类方法
CN114021658A (zh) 一种命名实体识别模型的训练方法、应用方法及其系统
CN113012685A (zh) 音频识别方法、装置、电子设备及存储介质
Li et al. A Label Similarity Attention Mechanism for Multi-label Emotion Recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination