CN115048485A - 面向变压器检修场景的推理型自动问答方法、系统与计算机可读介质 - Google Patents
面向变压器检修场景的推理型自动问答方法、系统与计算机可读介质 Download PDFInfo
- Publication number
- CN115048485A CN115048485A CN202210531197.6A CN202210531197A CN115048485A CN 115048485 A CN115048485 A CN 115048485A CN 202210531197 A CN202210531197 A CN 202210531197A CN 115048485 A CN115048485 A CN 115048485A
- Authority
- CN
- China
- Prior art keywords
- model
- vector
- question
- numerical
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 79
- 238000012423 maintenance Methods 0.000 title description 6
- 239000013598 vector Substances 0.000 claims abstract description 129
- 238000000605 extraction Methods 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims description 45
- 230000006870 function Effects 0.000 claims description 29
- 230000008569 process Effects 0.000 claims description 21
- 239000011159 matrix material Substances 0.000 claims description 17
- 230000002457 bidirectional effect Effects 0.000 claims description 13
- 230000000694 effects Effects 0.000 claims description 11
- 238000012360 testing method Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000015654 memory Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 4
- 230000007787 long-term memory Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000006403 short-term memory Effects 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims description 2
- 230000037430 deletion Effects 0.000 claims description 2
- 238000012163 sequencing technique Methods 0.000 abstract 1
- 210000002569 neuron Anatomy 0.000 description 35
- 230000004913 activation Effects 0.000 description 11
- 210000004027 cell Anatomy 0.000 description 4
- 230000001537 neural effect Effects 0.000 description 4
- 238000009434 installation Methods 0.000 description 3
- 238000009413 insulation Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011010 flushing procedure Methods 0.000 description 2
- 230000001976 improved effect Effects 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 241000677647 Proba Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 239000000853 adhesive Substances 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000004804 winding Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供本发明目的在于提供一种面向变压器检修场景的推理型自动问答方法、系统与计算机可读介质。面向变压器检修场景的推理型自动问答方法包括:接收用户输入问题Q;结合变压器检修场景标准库D,将问题Q与标准库D进行embedding操作,获得问题Q与标准库D的段落d的匹配概率并排序,取概率最大段落Dk输出;获取问题Q与段落Dk以序列表示的词向量;最后基于数值抽取识别问题Q的类型,并依据识别的问题类型通过不同Bi‑LSTM‑Attention网络结构预测模型进行预测输出。本发明在给定的变压器检修标准库的前提下,针对用户提出的问题可快速、准确检索匹配到最相关的片段内容,结合数值抽取对问题分类,在匹配给出问题的答案,实现变压器检修场景下的准确问答。
Description
技术领域
本发明涉及计算机技术领域,尤其是深度学习技术在智能问答领域的应用,具体而言涉及一种面向变压器检修场景的推理型自动问答方法、系统与计算机可读介质。
背景技术
自动问答在医疗、金融、政务等领域广泛应用,推理型问答不同于只涉及实体属性的单跳问答,而是更多倾向于复杂的多跳查询问答需求,为了应对上述复杂的推理型问答,各种不同类型的推理方法和模型被陆续提出。
传统的推理型问答方法主要包括基于嵌入、路径和逻辑的三类问答推理方法。
基于嵌入的方法即语义匹配方法,其首先计算问题和候选答案分布式表示之间的语义匹配,然后通过排序候选答案来得到最终答案,然而这类方法只能回答简单问题,缺少了深层语义信息的挖掘。
基于路径的方法,则是将知识图谱结构化知识以三元组的形式组织,以用户问题重点主题实体为源实体,沿着知识图谱多个三元组的头实体、关系、尾实体的逐条路径进行搜索,匹配获得答案实体或者关系。但是这样的方法必须将数据整理为三元组形式,数据集的问题和答案的种类严重受限于知识图谱预先定义的模式(schema)本身,同时问题格式也被限制为知识图谱的三元组形式(triple),而非自然语言,限制了自动问答的适用性。
基于逻辑的方法因为符号逻辑规则的方法准确率高、可解释性强等优点,被广泛探讨和应用,结合一阶逻辑的自然性和概率逻辑模型的不确定性优点,马尔可夫逻辑网络被证明在知识图谱推理上的有效性,然而,鉴于大规模知识图谱的三元组之间的复杂结构,以上推理过程困难,效率较低。
鉴于上述现有技术存在的问题,尤其是在使用在变压器检修场景下,其领域适应性和文本匹配效果不理想。
发明内容
本发明目的在于提供一种面向变压器检修场景的推理型自动问答方法与系统,在给定的变压器检修标准库的前提下,针对用户提出的问题,可在变压器检修场景的标准库中快速、准确检索匹配到最相关的片段内容,结合数值抽取对问题的处理,将问题与段落的匹配分为纯文本问答和数值型问答,并通过规则匹配给出问题的答案,实现变压器检修场景下的准确问答。
根据本发明目的的第一方面提出一种面向变压器检修场景的推理型自动问答方法,包括以下步骤:
步骤1、接收用户输入的问题Q;
步骤2、结合预先构建的变压器检修场景标准库D,将问题Q在变压器检修场景标准库D中进行匹配,通过将问题Q与变压器检修场景标准库D进行embedding操作,获得问题Q与变压器检修场景标准库D的段落d的匹配概率;
步骤3、对匹配概率进行降序排序,取概率最大值对应的段落Dk输出;
步骤4、将问题Q与输出的段落Dk使用词向量工具进行处理获得词向量,以序列表示;例如,使用word2vec处理,获得词向量序列;
步骤5、基于数值抽取,识别问题Q的类型,包括纯文本类型问题以及数值类型问题,并依据识别的问题类型,通过不同的预测模型进行预测输出:
(1)对于纯文本类型问题,采用Bi-LSTM-Attention网络结构的第一模型对问题Q进行预测,输出问题答案,其中所述Bi-LSTM-Attention网络结构的第一模型以纯文本数据构成的数据集为训练数据,输入到由Bi-LSTM层的基础上加入Attention层构成的网络模型中进行训练而获得;
(2)对于数值类型问题,采用Bi-LSTM-Attention网络结构的第二模型对问题Q进行预测,输出问题答案,其中所述Bi-LSTM-Attention网络结构的第一模型以抽取的数值数据构成的数据集为训练数据,输入到由Bi-LSTM层的基础上加入Attention层构成的网络模型中进行训练而获得。
其中,在优选的实施例中,在所述第一模型和第二模型的训练过程中,均使用Bi-LSTM层作为特征编码层,提取每个词向量的上下文特征,然后进行双向的特征拼接后,将每个词向量的特征进行输出;
在Attention层则基于权重矩阵对每个词向量进行加权求和,其中,权重矩阵初始化值为256*1维,然后通过点乘与归一化运算,得到代表每个词向量对应权重的权重矩阵,权重越大的词向量代表注意力越大并且词向量对应的贡献程度越大,最后对每个词语对应的词向量进行加权求和,输出最终加权平均后的总特征向量。
在优选的实施例中,所述将问题Q与变压器检修场景标准库D进行embedding操作,包括在预先训练好的QDMatch匹配模型中进行计算输出,具体包括以下步骤:
将问题Q和变压器检修场景标准库D拆分的段落d进行拼接,并且在拼接的文本开头加上[CLS]标志位以及问题Q与段落的文本中间加上[SEP]标志位;其中:所述[CLS]标志位用于表示问题Q和段落d之间的相关概率;[SEP]标志位两个文本中间,作分割作用,分别对两个文本附加不同的文本向量作为区分;
确定问题Q和变压器检修场景标准库D拆分的段落d进行拼接的文本的Segment向量、Position向量以及Token向量,其中:所述Segment向量为区分句子的向量,问题Q的Segment向量元素为0,段落d的Segment向量元素为1;Position向量为句子的位置向量,其长度为整体句子的长度;Token向量为整体句子的词向量;
将Segment向量、Position向量以及Token向量三种向量输入到BERT模型中,经过BERT模型的双向12层Transformer Encoder结构,捕捉依赖关系,得到模型的输出,输出结果为问题Q和段落d的向量,取第1维[CLS]标志位的输出;
再使用全连接层的softmax函数得到问题Q与段落d的匹配概率,获得问题Q匹配的多个段落的文本。
根据本发明目的的第二方面,还提出一种面向变压器检修场景的推理型自动问答系统,包括:
一个或多个处理器;
存储器,存储可被操作的指令,所述指令在被所述一个或多个处理器执行时实现前述的面向变压器检修场景的推理型自动问答方法。
根据本发明目的的第三方面,还提出一种存储计算机程序的计算机可读取介质,所述计算机程序包括能被一个或多个计算机执行的指令,所述指令在被所述一个或多个计算机执行时实现前述的面向变压器检修场景的推理型自动问答方法。
附图说明
附图不意在按比例绘制。在附图中,在各个图中示出的每个相同或近似相同的组成部分可以用相同的标号表示。为了清晰起见,在每个图中,并非每个组成部分均被标记。现在,将通过例子并参考附图来描述本发明的各个方面的实施例,其中:
图1是本发明示例性实施例的面向变压器检修场景的推理型自动问答方法的流程示意图。
图2是本发明示例性实施例的QDMatch匹配模型的模型结构示意图。
图3是本发明示例性实施例的Bi-LSTM-Attention网络结构示意图。
具体实施方式
为了更了解本发明的技术内容,特举具体实施例并配合所附图式说明如下。
在本公开中参照附图来描述本发明的各方面,附图中示出了许多说明的实施例。本公开的实施例不必定意在包括本发明的所有方面。应当理解,上面介绍的多种构思和实施例,以及下面更加详细地描述的那些构思和实施方式可以以很多方式中任意一种来实施,这是因为本发明所公开的构思和实施例并不限于任何实施方式。另外,本发明公开的一些方面可以单独使用,或者与本发明公开的其他方面的任何适当组合来使用。
面向变压器检修场景的推理型自动问答方法
结合图1-3所示的示例性实施例的面向变压器检修场景的推理型自动问答方法,提供了面向变压器检修场景的推理型自动问答过程,在变压器检修场景领域的测试效果较好,可以准确高效地对用户提出的问题做出自动匹配的准确的应答,提高检修的效率和安全性。
作为可选的示例的面向变压器检修场景的推理型自动问答方法的实施步骤包括:
步骤1、接收用户输入的问题Q;
步骤2、结合预先构建的变压器检修场景标准库D,将问题Q在变压器检修场景标准库D中进行匹配,通过将问题Q与变压器检修场景标准库D进行embedding操作,获得问题Q与变压器检修场景标准库D的段落d的匹配概率;
步骤3、对匹配概率进行降序排序,取概率最大值对应的段落Dk输出;
步骤4、将问题Q与输出的段落Dk使用词向量工具进行处理获得词向量,以序列表示;
步骤5、基于数值抽取,识别问题Q的类型,包括纯文本类型问题以及数值类型问题,并依据识别的问题类型,通过不同的预测模型进行预测输出。
其中,对于纯文本类型问题,采用Bi-LSTM-Attention网络结构的第一模型对问题Q进行预测,输出问题答案,其中Bi-LSTM-Attention网络结构的第一模型以纯文本数据构成的数据集为训练数据,输入到由Bi-LSTM层的基础上加入Attention层构成的网络模型中进行训练而获得。
针对数值类型问题,采用Bi-LSTM-Attention网络结构的第二模型对问题Q进行预测,输出问题答案,其中Bi-LSTM-Attention网络结构的第一模型以抽取的数值数据构成的数据集为训练数据,输入到由Bi-LSTM层的基础上加入Attention层构成的网络模型中进行训练而获得。
在本发明的实施例中,通过数值抽取函数来抽取问题Q中的数值,识别问题Q的类型。
例如,通过数值抽取函数判断问题Q中是否存在数值,如果存在数值,则判定问题Q属于数值类型问题,取出各个数值的大小、单位,以字典的形式输出;如果存在数值范围,则同时取出数值范围的左右开闭区间;如果不存在数值,则判定问题Q属于纯文本类型问题。
作为可选的方式,数值抽取函数可通过构造正则表达式,预先设定响应的字符识别逻辑来进行数值抽取,获得句子中是否包含数值的结果,并据此将问题Q分类为数值类型问题或者纯文本类型问题,以利于后续通过不同的模型进行分别预测输出。
其中,预先构建的变压器检修场景标准库D,其中包含多种变压器检修标准,将变压器检修场景标准库D按照自然段划分,获得多个段落d,每一个段落d均包含技术标准号、技术标准名称以及该条标准的相关描述。
例如,GB/T 6451-2015油浸式电力变压器技术参数和要求气体继电器的安装位置及其结构应能观察到分解气体的数量和油速标尺,而且应便于取气体。
以GB/T 6451-2015对应的段落为例,“GB/T 6451-2015”表示技术标准号,“油浸式电力变压器技术参数和要求”表示技术标准名称,“气体继电器的安装位置及其结构应能观察到分解气体的数量和油速标尺,而且应便于取气体”表示标准的相关描述。
作为可选的实施例,在第一模型和第二模型的训练过程中,均使用Bi-LSTM层作为特征编码层,提取每个词向量的上下文特征,然后进行双向的特征拼接后,将每个词向量的特征进行输出;
在Attention层则基于权重矩阵对每个词向量进行加权求和,其中,权重矩阵初始化值为256*1维,然后通过点乘与归一化运算,得到代表每个词向量对应权重的权重矩阵,权重越大的词向量代表注意力越大并且词向量对应的贡献程度越大,最后对每个词语对应的词向量进行加权求和,输出最终加权平均后的总特征向量。
作为可选的实施例,在前述步骤2中,结合图2所示的QDMatch匹配模型结构,将问题Q与变压器检修场景标准库D进行embedding操作,包括在预先训练好的QDMatch匹配模型中进行计算输出,具体包括以下步骤:
将问题Q和变压器检修场景标准库D拆分的段落d进行拼接,并且在拼接的文本开头加上[CLS]标志位以及问题Q与段落的文本中间加上[SEP]标志位;其中:[CLS]标志位用于表示问题Q和段落d之间的相关概率;[SEP]标志位两个文本中间,作分割作用,分别对两个文本附加不同的文本向量作为区分;
确定问题Q和变压器检修场景标准库D拆分的段落d进行拼接的文本的Segment向量、Position向量以及Token向量,其中:Segment向量为区分句子的向量,问题Q的Segment向量元素为0,段落d的Segment向量元素为1;Position向量为句子的位置向量,其长度为整体句子的长度;Token向量为整体句子的词向量;
将Segment向量、Position向量以及Token向量三种向量输入到BERT模型中,经过BERT模型的双向12层Transformer Encoder结构,捕捉依赖关系,得到模型的输出,输出结果为问题Q和段落d的向量,取第1维[CLS]标志位的输出;
再使用全连接层的softmax函数得到问题Q与段落d的匹配概率,获得问题Q匹配的多个段落的文本。
结合上述实施例,[CLS]和[SEP]标志位均为BERT模型文本输入的标志符。[CLS]标志位位于文本的最前端,并将该符合对应的输出向量作为整个文本的语义表示,可以理解为,与文本中已有的其他字/词相比,这个无明显语义信息的符号会更“公平”地融合文本中各个字/词的语义信息,然后用在预训练或者后续任务分类上。
在本发明的实施例中,使用[CLS]标志位来表示问题Q和段落d之间的相关概率。[SEP]标志位设置于两个文本中间,作分割作用,分别对两个文本附加不同的文本向量作为区分
作为可选的实施例,在前述步骤2中,预先训练好的QDMatch匹配模型的模型结构包括初始embedding编码层、BERT模型网络结构以及输出层,其中初始embedding编码层用于确定Segment向量、Position向量以及Token向量以及对向量求和运算,BERT模型网络结构中包括双向12层Transformer Encoder结构,输出层为问题Q和段落d的向量表达;
训练过程所使用的损失函数为:
其中,N为训练期间使用的样本数总数,yn表示第n个样本的目标标签,scoren表示第n个样本的模型预测标签,即训练的目标是使模型预测标签与真实标签尽可能一致。
结合图2所示,Google提供的Bert模型可以获取文本的丰富语义表示,在本发明的实施例中,将文本丰富的语义表示在文本匹配任务中进行微调,从而让Bert模型可以高效地应用在文本匹配任务上。
模型embedding需要三种向量求和。其中Segment向量为区分句子的向量,问题Q的Segment向量元素为0,标准段落d的Segment向量元素为1。Position向量为句子的位置向量,其长度为整体句子的长度。Token向量为整体句子的词向量。
最后,将三种向量相加得到的向量E输入到BERT模型中,经过双向12层Transformer Encoder结构,可以捕捉到更长距离的依赖,得到模型的输出,输出为该问题Q和段落d的向量,最后取第1维[CLS]的输出,再使用softmax函数得到问题Q与段落d的匹配概率。
作为可选的实施例,本发明使用BERT模型为双向Transformer Encoder,其中Attention层是核心要素,Self Attention机制的公式如下:
其中Q,K,V分别表示拼接后的输入文本的每个单词初始化得到的向量,这三个向量都是长度为64的向量,公式如下:
Q=XWQ
K=XWK
V=XWV
其中X是单词的word embedding形式长度为512。W表示的权重矩阵,维度为512*64,应用上述公式就能初始化出Q,K,V长度为64。
上述公式中,WQ表示Q向量对应的权重矩阵,WK表示K向量对应的权重矩阵,WK表示K向量对应的权重矩阵。
计算score分数,score=QK。
然后,归一化处理并通过softmax函数输出,最后融合底层的特征信息,Q,K,V均是通过原始的拼接后的输入文本的每个单词初始化得到的向量,相当于底层的信息。通过矩阵的乘法,将需要增强的注意力进一步增大,具体方式如下公式:
本发明使用的QDMatch网络模型直接取第一个[CLS]token的final hidden state(隐藏状态)C输出,表示C的维度为H,加一层权重W相乘输出,通过softmax函数处理预测label proba,:
P=softmax(CWT)
作为可选的实施例,本发明使用的Bi-LSTM-Attention网络结构的第一模型为预先训练的,结合图3所示的模型结构,其训练过程包括:
对采集的数据集进行数值抽取,识别其中的纯文本类型问题以及数值类型问题,并据此分别构建纯文本数据集X1以及数值型数据集X2,数据集包含多条问题Q与最相关的段落Dk构成的语料;纯文本数据集X1包含纯文本类型问题Q与最相关的段落Dk构成的语料;数值型数据集X2包含数值类型问题Q与最相关的段落Dk构成的语料;
对纯文本数据集X1按照8:1:1的比例,划分成训练集、验证集和测试集;
对纯文本数据集X1使用Bi-LSTM-Attention网络结构训练模型,Bi-LSTM-Attention网络结构包括Bi-LSTM层、Attention层以及全连接层,在Bi-LSTM层对输入的问题Q以及对应最相关的段落Dk提取每个词语对应的上下文特征,然后进行双向特征拼接,最终输出每个词语的特征;其中Bi-LSTM层的每个隐藏层的隐藏单元数为256个,每批纯文本类型问题Q和最相关的段落Dk的文本自动分类数据量为64,问题Q和最相关的段落Dk文本自动分类隐藏单元随机删除概率设定为1,学习率为1e-5,最大迭代次数设定为100,梯度裁剪值设定为5;最后一个时序的输出向量作为每个词语的特征向量输出;
在Attention层先计算问题Q以及对应最相关的段落Dk的每个词语的权重,对每个词语对应的特征向量进行加权求和,实现特征向量拼接,输出最终加权平均后的总特征向量;
最后,在全连接层通过softmax分类,得到问题Q在变压器检修场景标准库D上的答案为“是”或“否”,至此获得Bi-LSTM-Attention网络结构的纯文本模型;
在测试集上使用f1指标来评价模型效果,f1指标计算公式如下:
最后,选择f1指标最大值对应的效果最佳的纯文本模型作为最终的第一模型。
其中,Bi-LSTM-Attention网络结构的第一模型的训练过程中,在Bi-LSTM层对输入的问题Q以及对应最相关的段落Dk提取每个词语对应的上下文特征,然后进行双向特征拼接,最终输出每个词语的特征,包括以下计算过程:
ft=σ(Wf·xt+Uf·ht-1+bf)
it=σ(Wi·xt+Ui·ht-1+bi)
ot=σ(Wo·xt+Uf·ht-1+bo)
其中,上述公式中的参数含义如下:
x:Bi-LSTM层网络结构中某时刻的神经元输入;
h:某时刻的神经元的隐藏状态,即短时记忆状态;
C:某时刻的神经元的Cell状态,即长时记忆状态;
W:某时刻的神经元输入权重,即待训练的纯文本问题Q的输入权重矩阵;
U:某时刻的神经元隐藏状态输入权重,即训练的纯文本问题Q对应最相关段落Dk的输入权重矩阵;
σ:Sigmoid激活函数;
b:偏置项;
tanh:tanh激活函数。
例如,xt表示t时刻的神经元输入,ht和ht-1分别表示t时刻和t-1时刻的神经元的隐藏状态出,b0表示偏置项的初始值。
作为示例,我们结合上述计算过程对LSTM流程说明如下。
Bi-LSTM层网络结构采取门控的方式控制输入输出,输出为两个状态,包括Cellstate长时记忆状态和Hidden State短时记忆状态;门控包括遗忘门、输入门和输出门控制。
每个当前时刻的Cell状态(Ct)接受上一时刻的输出值ht-1和当前时刻的输入值xt影响。ht-1和xt先进入遗忘门,作用为决定对上一时刻和当前时刻要舍弃的信息,公式如下:
ft=σ(Wf·xt+Uf·ht-1+bf)
其中,xt为t时刻的神经元输入,Wf为遗忘门对t时刻神经元的输入的权重,ht-1为t-1时刻神经元的隐藏状态输出,Uf为遗忘门对t-1时刻神经元的隐藏状态输出的权重,bf为遗忘门的偏置项。σ为Sigmoid激活函数,其作用是将输入的值压缩在0-1之间,ft代表t时刻的遗忘门,经过Sigmoid激活函数,其值为0-1之间,作用为确定t-1的神经元状态有多少可以保留到t时刻的神经元状态Ct。
it=σ(Wi·xt+Ui·ht-1+bi)
其中xt为t时刻的神经元输入,Wi为输入门对t时刻神经元的输入的权重,ht-1为t-1时刻神经元的隐藏状态输出,Ui为输入门对t-1时刻神经元的隐藏状态输出的权重,bi为输入门的偏置项。σ为Sigmoid激活函数,其作用是将输入的值压缩在0-1之间,it代表t时刻的输入门,经过Sigmoid激活函数,其值为0~1之间,作用为确定t时刻的神经元输入xt有多少可以保留到t时刻的神经元状态Ct。
为中间变量,代表t时刻神经元的抽象输出。Wc为中间变量对t时刻的神经元输入的权重,Uc为中间变量对t-1时刻神经元的隐藏状态输出的权重,bc为中间变量的偏置项。tanh为tanh激活函数,将输入值压缩为-1~1之间的值。
ot=σ(Wo·xt+Uf·ht-1+bo)
其中,xt为t时刻的神经元输入,Wo为输出门对t时刻神经元的输入的权重,ht-1为t-1时刻神经元的隐藏状态输出,Ui为输出门对t-1时刻神经元的隐藏状态输出的权重,bi为输出门的偏置项。σ为Sigmoid激活函数,其作用是将输入的值压缩在0-1之间,ot代表t时刻的输出门,经过Sigmoid激活函数,其值为0-1之间,作用为确定t时刻的神经元状态Ct有多少可以输出到t时刻的神经元隐藏状态ht。
Ct-1是t-1时刻神经元的状态输出,是矩阵的点乘操作,是用遗忘门对t-1时刻神经元的状态输出进行点乘,用于确定t-1的神经元状态Ct-1有多少可以保留到t时刻的神经元状态Ct;是用输入门对t时刻神经元的抽象输出进行点乘,用于确定t时刻的神经元输入xt有多少可以保留到t时刻的神经元状态Ct。由输入门和遗忘门控制得到t时刻的神经元状态Ct。
tanh(Ct)将t时刻的神经元状态Ct使用tanh激活函数得到范围在-1~1之间的值,使用输出门控制t时刻的神经元状态Ct得到t时刻的神经元隐藏状态ht。
作为可选的实施例,基于Bi-LSTM-Attention网络结构的第二模型,其训练过程采用与第一模型相同,但所采用的训练数据集不同,其采用的数据集中主要是针对数值型问题Q以及对应最相关的段落Dk,在此基础上进行模型的训练和验证。
作为可选的实施例,第二模型的训练过程包括以下过程:
对采集的数据集进行数值抽取,识别其中的纯文本类型问题以及数值类型问题,并据此分别构建纯文本数据集X1以及数值型数据集X2,数据集包含多条问题Q与最相关的段落Dk构成的语料;纯文本数据集X1包含纯文本类型问题Q与最相关的段落Dk构成的语料;数值型数据集X2包含数值类型问题Q与最相关的段落Dk构成的语料;
对纯文本数据集X2按照8:1:1的比例,划分成训练集、验证集和测试集;
然后按照前述的方法,基于Bi-LSTM-Attention网络结构训练数值模型,并通过在测试集上使用f1指标来评价模型效果,f1指标计算公式如下:
最后,选择f1指标最大值对应的效果最佳的数值模型作为最终的第二模型。
下面结合具体场景,示例性的描述上述方法的实施。
步骤S1、输入问题Q,如“变压器用片式散热器内部冲洗时,冲洗油流速度可为超过3m/s吗?”。
步骤S2、给定变压器检修场景标准库D。D中含有多种变压器检修标准,将检修标准库D按照自然段划分,每个自然段包含技术标准号、技术标准名称以及该条标准的相关描述。
例如,GB/T 6451-2015油浸式电力变压器技术参数和要求气体继电器的安装位置及其结构应能观察到分解气体的数量和油速标尺,而且应便于取气体。
GB/T 1094.6-2011电力变压器第6部分:电抗器11.4.5调节范围额定电压、额定频率下电流可用下列方法之一调节:用无励磁或有载分接开关,逐级接入主绕组的附加线段;注:在此项中,建议调节范围不大于2.5。
步骤S3、将S2得到的检修标准与问题Q进行embedding操作,给问题Q和拆分的段落文本拼接并且在文本开头加上[CLS]以及两个文本中间加上[SEP]标识符,通过embedding操作获得与问题Q匹配的多个段落。
步骤S4、由S3得到与问题Q匹配的多个文档,按照softmax取得的概率降序,取最相关段落Dk。将问题Q与段落Dk,使用word2vec处理成序列表示,为后续输入问答模型作准备。同时,使用编写的数值抽取函数,对问题Q进行类型判断。
步骤S5、通过数值抽取函数,判断一段文本中是否存在数值,例如通过构建正则表达式进行判断,如果存在数值,则取出各数值的大小、单位;其中如果存在数值范围,则另外取出范围的左右开闭区间情况,并以字典的形式输出。如果不存在数值,则认为该文本为纯文本,不存在对数值。
如文本“电抗器用自黏漆包线结强度应不小于3N/mm。”,数值抽取之后的结果为{‘result’:[‘mention’:’不小于3N/mm’,’value’:’(3~+∞)N/mm’,’unit’:’N/mm’,’startPos’:13,’endPos’:20]}。
步骤S6、如果S5判断问题Q属于纯文本类型问题,则进入步骤7,利用预先训练的模型JudgeModel1对问题Q进行解答。
步骤S7、对于问题Q属于纯文本问题,使用纯文本模型JudgeModel1对问题Q进行预测,得到答案。在可选的实施例中,可使用规则匹配对应实体内容,一并输出。
如问题Q为“气体继电器的安装位置有要求吗?”,对应的标准Dk为“GB/T 6451-2015油浸式电力变压器技术参数和要求气体继电器的安装位置及其结构应能观察到分解气体的数量和油速标尺,而且应便于取气体。”,通过规则切分句子和模糊匹配的方法,获得最接近的文本中对应的部分,抽取对应文本,得到答案A为“是,气体继电器的安装位置及其结构应能观察到分解气体的数量和油速标尺,而且应便于取气体”,即获得问题的解答以及对应的解答依据输出。
步骤S8、如果S5判断问题Q属于数值类型问题,则进入步骤7,利用预先训练的模型JudgeModel2对问题Q进行解答。
步骤S9、对于问题Q属于数值型问题,使用数值模型JudgeModel2对问题Q进行预测,输出答案。在可选的实施例中,可通过数值抽取函数获得的关键词和/或数值或者数值范围、单位,通过规则匹配得到答案。
如问题Q为“变压器铁心到达反极性全饱和,原点到第一个过零点的全部时间为1200μs”;对应的标准Dk变压器检修标准为“GB/T 1094.3-2017电力变压器第3部分:绝缘水平、绝缘试验和外绝缘空气间隙如果实际中铁心达到反极性全饱和,则从视在原点到第一个过零点的全部时间小于1000μs也是允许的。”,规则匹配得到答案A为“否,小于1000μs。”
至此,完成变压器检修场景的推理型自动问答的处理过程。通过本发明的流程,解决传统推理型问答准确率低的问题,并且本发明的数据质量高,可以适用于一般自然语言场景。
由于传统的推理问答的方法是依赖于三元组形式存储的数据,使用知识图谱的方法去解决,在面对自然语言时,缺乏应对能力;或者计算问题与候选之间的相似性给出答案,缺少语义的深层信息。因此,在本发明提出的面向变压器检修场景的推理型自动问答方法的实现过程中提出,面向变压器检修场景的自然语言推理问答,结合深度学习的方法,先匹配问题相关标准,再使用数值抽取函数将问题分类为纯文本类型和数值类型,使用Bi-LSTM-Attention的模型结构对问题进行预测,并使用正则匹配的方式给出问题的答案。通过实验证明,本发明提出的方法在变压器检修场景上效果较现存方法具有明显的改善。同时,本发明可以支持特定领域的数据的自然语言推断,只要将标注好的特定领域数据进行模型训练,就可以帮助特定领域的自然语言推断,更进一步该方法的适用性。
面向变压器检修场景的推理型自动问答系统
结合本发明公开的实施例,本发明被可以被设置以面向变压器检修场景的推理型自动问答系统的方式实施,面向变压器检修场景的推理型自动问答系统包括:
一个或多个处理器;
存储器,存储可被操作的指令,指令在被一个或多个处理器执行时实现前述任意实施例的面向变压器检修场景的推理型自动问答方法。
计算机可读取介质
结合本发明公开的实施例,本发明被可以被设置以计算机可读取介质的方式实施,一种存储计算机程序的计算机可读取介质,计算机程序包括能被一个或多个计算机执行的指令,指令在被一个或多个计算机执行时实现前述任意实施例的面向变压器检修场景的推理型自动问答方法。
虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明。本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视权利要求书所界定者为准。
Claims (12)
1.一种面向变压器检修场景的推理型自动问答方法,其特征在于,包括以下步骤:
步骤1、接收用户输入的问题Q;
步骤2、结合预先构建的变压器检修场景标准库D,将问题Q在变压器检修场景标准库D中进行匹配,通过将问题Q与变压器检修场景标准库D进行embedding操作,获得问题Q与变压器检修场景标准库D的段落d的匹配概率;
步骤3、对匹配概率进行降序排序,取概率最大值对应的段落Dk输出;
步骤4、将问题Q与输出的段落Dk使用词向量工具进行处理获得词向量,以序列表示;
步骤5、基于数值抽取,识别问题Q的类型,包括纯文本类型问题以及数值类型问题,并依据识别的问题类型,通过不同的预测模型进行预测输出:
(1)对于纯文本类型问题,采用Bi-LSTM-Attention网络结构的第一模型对问题Q进行预测,输出问题答案,其中所述Bi-LSTM-Attention网络结构的第一模型以纯文本数据构成的数据集为训练数据,输入到由Bi-LSTM层的基础上加入Attention层构成的网络模型中进行训练而获得;
(2)对于数值类型问题,采用Bi-LSTM-Attention网络结构的第二模型对问题Q进行预测,输出问题答案,其中所述Bi-LSTM-Attention网络结构的第一模型以抽取的数值数据构成的数据集为训练数据,输入到由Bi-LSTM层的基础上加入Attention层构成的网络模型中进行训练而获得。
2.根据权利要求1所述的面向变压器检修场景的推理型自动问答方法,其特征在于,所述预先构建的变压器检修场景标准库D,其中包含多种变压器检修标准,将变压器检修场景标准库D按照自然段划分,获得多个段落d,每一个段落d均包含技术标准号、技术标准名称以及该条标准的相关描述。
3.根据权利要求1所述的面向变压器检修场景的推理型自动问答方法,其特征在于,在所述第一模型和第二模型的训练过程中,均使用Bi-LSTM层作为特征编码层,提取每个词向量的上下文特征,然后进行双向的特征拼接后,将每个词向量的特征进行输出;
在Attention层则基于权重矩阵对每个词向量进行加权求和,其中,权重矩阵初始化值为256*1维,然后通过点乘与归一化运算,得到代表每个词向量对应权重的权重矩阵,权重越大的词向量代表注意力越大并且词向量对应的贡献程度越大,最后对每个词语对应的词向量进行加权求和,输出最终加权平均后的总特征向量。
4.根据权利要求1所述的面向变压器检修场景的推理型自动问答方法,其特征在于,所述将问题Q与变压器检修场景标准库D进行embedding操作,包括在预先训练好的QDMatch匹配模型中进行计算输出,具体包括以下步骤:
将问题Q和变压器检修场景标准库D拆分的段落d进行拼接,并且在拼接的文本开头加上[CLS]标志位以及问题Q与段落的文本中间加上[SEP]标志位;其中:所述[CLS]标志位用于表示问题Q和段落d之间的相关概率;[SEP]标志位两个文本中间,作分割作用,分别对两个文本附加不同的文本向量作为区分;
确定问题Q和变压器检修场景标准库D拆分的段落d进行拼接的文本的Segment向量、Position向量以及Token向量,其中:所述Segment向量为区分句子的向量,问题Q的Segment向量元素为0,段落d的Segment向量元素为1;Position向量为句子的位置向量,其长度为整体句子的长度;Token向量为整体句子的词向量;
将Segment向量、Position向量以及Token向量三种向量输入到BERT模型中,经过BERT模型的双向12层Transformer Encoder结构,捕捉依赖关系,得到模型的输出,输出结果为问题Q和段落d的向量,取第1维[CLS]标志位的输出;
再使用全连接层的softmax函数得到问题Q与段落d的匹配概率,获得问题Q匹配的多个段落的文本。
5.根据权利要求4所述的面向变压器检修场景的推理型自动问答方法,其特征在于,所述预先训练好的QDMatch匹配模型的模型结构包括初始embedding编码层、BERT模型网络结构以及输出层,其中初始embedding编码层用于确定Segment向量、Position向量以及Token向量以及对向量求和运算,BERT模型网络结构中包括双向12层Transformer Encoder结构,输出层为问题Q和段落d的向量表达;
训练过程所使用的损失函数为:
其中,N为训练期间使用的样本数总数,yn表示第n个样本的目标标签,scoren表示第n个样本的模型预测标签,即训练的目标是使模型预测标签与真实标签尽可能一致。
6.根据权利要求1所述的面向变压器检修场景的推理型自动问答方法,其特征在于,对于问题Q以及输出的段落Dk,使用word2vec处理成序列表示。
7.根据权利要求1所述的面向变压器检修场景的推理型自动问答方法,其特征在于,所述基于数值抽取,识别问题Q的类型,包括:
通过数值抽取函数判断问题Q中是否存在数值,如果存在数值,则判定问题Q属于数值类型问题,取出各个数值的大小、单位,以字典的形式输出;如果存在数值范围,则同时取出数值范围的左右开闭区间;
如果不存在数值,则判定问题Q属于纯文本类型问题。
8.根据权利要求1所述的面向变压器检修场景的推理型自动问答方法,其特征在于,所述Bi-LSTM-Attention网络结构的第一模型的训练过程包括:
对采集的数据集进行数值抽取,识别其中的纯文本类型问题以及数值类型问题,并据此分别构建纯文本数据集X1以及数值型数据集X2,所述数据集包含多条问题Q与最相关的段落Dk构成的语料;纯文本数据集X1包含纯文本类型问题Q与最相关的段落Dk构成的语料;数值型数据集X2包含数值类型问题Q与最相关的段落Dk构成的语料;
对纯文本数据集X1按照8:1:1的比例,划分成训练集、验证集和测试集;
对纯文本数据集X1使用Bi-LSTM-Attention网络结构训练模型,所述Bi-LSTM-Attention网络结构包括Bi-LSTM层、Attention层以及全连接层,在Bi-LSTM层对输入的问题Q以及对应最相关的段落Dk提取每个词语对应的上下文特征,然后进行双向特征拼接,最终输出每个词语的特征;其中Bi-LSTM层的每个隐藏层的隐藏单元数为256个,每批纯文本类型问题Q和最相关的段落Dk的文本自动分类数据量为64,问题Q和最相关的段落Dk文本自动分类隐藏单元随机删除概率设定为1,学习率为1e-5,最大迭代次数设定为100,梯度裁剪值设定为5;最后一个时序的输出向量作为每个词语的特征向量输出;
在Attention层先计算问题Q以及对应最相关的段落Dk的每个词语的权重,对每个词语对应的特征向量进行加权求和,实现特征向量拼接,输出最终加权平均后的总特征向量;
最后,在全连接层通过softmax分类,得到问题Q在变压器检修场景标准库D上的答案为“是”或“否”,至此获得Bi-LSTM-Attention网络结构的纯文本模型;
在测试集上使用f1指标来评价模型效果,f1指标计算公式如下:
最后,选择f1指标最大值对应的效果最佳的纯文本模型作为最终的第一模型。
9.根据权利要求8所述的面向变压器检修场景的推理型自动问答方法,其特征在于,所述Bi-LSTM-Attention网络结构的第一模型的训练过程中,在Bi-LSTM层对输入的问题Q以及对应最相关的段落Dk提取每个词语对应的上下文特征,然后进行双向特征拼接,最终输出每个词语的特征,包括以下计算过程:
ft=σ(Wf·xt+Uf·ht-1+bf)
it=σ(Wi·xt+Ui·ht-1+bi)
ot=σ(Wo·xt+Uf·ht-1+bo)
其中,Bi-LSTM层网络结构采取门控的方式控制输入输出,输出为两个状态,包括Cellstate长时记忆状态和Hidden State短时记忆状态;所述门控包括遗忘门、输入门和输出门控制;
每个当前时刻的Cell状态Ct接受上一时刻的输出值ht-1和当前时刻的输入值xt影响;ht-1和xt先进入遗忘门,作用为决定对上一时刻和当前时刻要舍弃的信息,公式如下:
ft=σ(Wf·xt+Uf·ht-1+bf)
it=σ(Wi·xt+Ui·ht-1+bi)
ot=σ(Wo·xt+Uf·ht-1+bo)
10.根据权利要求9所述的面向变压器检修场景的推理型自动问答方法,其特征在于,所述Bi-LSTM-Attention网络结构的第二模型的训练过程包括:
对采集的数据集进行数值抽取,识别其中的纯文本类型问题以及数值类型问题,并据此分别构建纯文本数据集X1以及数值型数据集X2,所述数据集包含多条问题Q与最相关的段落Dk构成的语料;纯文本数据集X1包含纯文本类型问题Q与最相关的段落Dk构成的语料;数值型数据集X2包含数值类型问题Q与最相关的段落Dk构成的语料;
对纯文本数据集X2按照8:1:1的比例,划分成训练集、验证集和测试集;
然后按照所述权利要求9的方法,基于Bi-LSTM-Attention网络结构训练数值模型,并通过在测试集上使用f1指标来评价模型效果,f1指标计算公式如下:
最后,选择f1指标最大值对应的效果最佳的数值模型作为最终的第二模型。
11.一种面向变压器检修场景的推理型自动问答系统,其特征在于,包括:
一个或多个处理器;
存储器,存储可被操作的指令,所述指令在被所述一个或多个处理器执行时实现所述权利要求1-10中任意一项所述的面向变压器检修场景的推理型自动问答方法。
12.一种存储计算机程序的计算机可读取介质,其特征在于,所述计算机程序包括能被一个或多个计算机执行的指令,所述指令在被所述一个或多个计算机执行时实现所述权利要求1-8中任意一项所述的面向变压器检修场景的推理型自动问答方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210531197.6A CN115048485A (zh) | 2022-05-16 | 2022-05-16 | 面向变压器检修场景的推理型自动问答方法、系统与计算机可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210531197.6A CN115048485A (zh) | 2022-05-16 | 2022-05-16 | 面向变压器检修场景的推理型自动问答方法、系统与计算机可读介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115048485A true CN115048485A (zh) | 2022-09-13 |
Family
ID=83158483
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210531197.6A Pending CN115048485A (zh) | 2022-05-16 | 2022-05-16 | 面向变压器检修场景的推理型自动问答方法、系统与计算机可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115048485A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116303977A (zh) * | 2023-05-17 | 2023-06-23 | 中国兵器工业计算机应用技术研究所 | 一种基于特征分类的问答方法及系统 |
-
2022
- 2022-05-16 CN CN202210531197.6A patent/CN115048485A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116303977A (zh) * | 2023-05-17 | 2023-06-23 | 中国兵器工业计算机应用技术研究所 | 一种基于特征分类的问答方法及系统 |
CN116303977B (zh) * | 2023-05-17 | 2023-08-04 | 中国兵器工业计算机应用技术研究所 | 一种基于特征分类的问答方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108984526B (zh) | 一种基于深度学习的文档主题向量抽取方法 | |
CN107798140B (zh) | 一种对话系统构建方法、语义受控应答方法及装置 | |
Cho | Natural language understanding with distributed representation | |
CN112417877B (zh) | 一种基于改进bert的文本蕴含关系识别方法 | |
KR20190133931A (ko) | 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법 | |
CN109726745B (zh) | 一种融入描述知识的基于目标的情感分类方法 | |
CN107797987B (zh) | 一种基于Bi-LSTM-CNN的混合语料命名实体识别方法 | |
CN112613305A (zh) | 基于循环神经网络的中文事件抽取方法 | |
CN107977353A (zh) | 一种基于lstm-cnn的混合语料命名实体识别方法 | |
CN112818698B (zh) | 一种基于双通道模型的细粒度的用户评论情感分析方法 | |
CN111753058A (zh) | 一种文本观点挖掘方法及系统 | |
CN108536781B (zh) | 一种社交网络情绪焦点的挖掘方法及系统 | |
CN113435211A (zh) | 一种结合外部知识的文本隐式情感分析方法 | |
CN116521882A (zh) | 基于知识图谱的领域长文本分类方法及系统 | |
CN114417851A (zh) | 一种基于关键词加权信息的情感分析方法 | |
CN112183106A (zh) | 一种基于音素联想及深度学习的语义理解方法及装置 | |
CN115048485A (zh) | 面向变压器检修场景的推理型自动问答方法、系统与计算机可读介质 | |
CN116069916A (zh) | 旅游景点问答系统 | |
CN115545030A (zh) | 实体抽取模型的训练方法、实体关系抽取方法及装置 | |
CN114239565A (zh) | 一种基于深度学习的情绪原因识别方法及系统 | |
Dadas et al. | A deep learning model with data enrichment for intent detection and slot filling | |
CN114357166A (zh) | 一种基于深度学习的文本分类方法 | |
CN114021658A (zh) | 一种命名实体识别模型的训练方法、应用方法及其系统 | |
CN113012685A (zh) | 音频识别方法、装置、电子设备及存储介质 | |
Li et al. | A Label Similarity Attention Mechanism for Multi-label Emotion Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |