CN112084782B - 一种基于能量增强的注意力网络的答案识别方法及系统 - Google Patents
一种基于能量增强的注意力网络的答案识别方法及系统 Download PDFInfo
- Publication number
- CN112084782B CN112084782B CN202010962935.3A CN202010962935A CN112084782B CN 112084782 B CN112084782 B CN 112084782B CN 202010962935 A CN202010962935 A CN 202010962935A CN 112084782 B CN112084782 B CN 112084782B
- Authority
- CN
- China
- Prior art keywords
- vector
- text
- attention
- energy
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 239000013598 vector Substances 0.000 claims abstract description 185
- 238000012545 processing Methods 0.000 claims abstract description 23
- 230000008569 process Effects 0.000 claims abstract description 11
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 230000006835 compression Effects 0.000 claims description 3
- 230000005284 excitation Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000008901 benefit Effects 0.000 abstract description 8
- 230000002708 enhancing effect Effects 0.000 abstract description 3
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 11
- 238000013519 translation Methods 0.000 description 7
- 238000003058 natural language processing Methods 0.000 description 6
- 239000010410 layer Substances 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 208000000044 Amnesia Diseases 0.000 description 1
- 208000031091 Amnestic disease Diseases 0.000 description 1
- 230000006986 amnesia Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种基于能量增强的注意力网络的答案识别方法及系统,所述方法通过一处理设备接收待处理文本,所述处理设备内置一注意力网络处理所述的待处理文本,获得与答案相关的文本序列,所述方法包括:接收输入的待处理文本,获取上下文向量;确定所述上下文向量的基础注意力向量;基于所述基础注意力向量,获取所述上下文向量每一个向量的增强向量组合;基于所述增强向量组合,采用所述注意力网络获得目标答案。利用本发明公开的方法,通过增强注意力向量的能量强烈程度,提高了获取答案的准确率和效率,故具有明显的技术优势和有益效果。
Description
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种基于能量增强的注意力网络的答案识别方法及系统。
背景技术
阅读理解,机器翻译,文本摘要是自然语言处理(NLP)领域三大核心问题,传统的解决方案中,基于短语的翻译系统通过将源句分成多个块,然后逐个词地翻译它们来完成它们的任务,这导致了翻译输出的不流畅。而神经机器翻译(NMT)的翻译模型中经典的做法是由编码器 - 解码器架构制定(encoder-decoder),用作encoder和decoder常用的是循环神经网络。这类模型大概过程是首先将源句子的待处理文本送入到编码器中,提取最后隐藏的表示并用于初始化解码器的隐藏状态,然后一个接一个地生成目标单词,这个过程广义上可以理解为不断地将前一个时刻 t-1 的输出作为后一个时刻 t 的输入,循环解码,直到输出停止符为止。通过这种方式,NMT解决了传统的基于短语的方法中的局部翻译问题:它可以捕获语言中的长距离依赖性,并提供更流畅的翻译。但是这样做也存在很多缺点,譬如,RNN是健忘的,这意味着前面的信息在经过多个时间步骤传播后会被逐渐消弱乃至消失。其次,在解码期间没有进行对齐操作,因此在解码每个元素的过程中,焦点分散在整个序列中。
近年来,注意力(Attention)机制被广泛应用到基于深度学习的自然语言处理(NLP)各个任务中,Attention函数的本质可以被描述为一个查询(query)到一系列(键key-值value)对的映射,在计算attention时主要分为三步,第一步是将query和每个key进行相似度计算得到权重,常用的相似度函数有点积、拼接、感知机等;然后第二步一般是使用一个softmax函数对这些权重进行归一化;最后将权重和相应的键值value进行加权求和得到最后的attention。目前在NLP研究中,key和value常常都是同一个,即key=value。随着注意力机制的广泛应用,对注意力机制下获得输出的准确率要求越来越高,如何提高答案识别的有效性和准确率是该技术领域的热点。
本申请发明人在实施本发明的过程中,发现现有的注意力网络在实际输出识别应用中至少存在如下技术问题:现有的注意力权重的获取方法存在不足,使得注意力权重的获取效果不佳,导致基于其答案识别的准确率不理想。
发明内容
本发明的目的在于克服现有技术中存在的上述缺陷,提供一种基于注意力网络的答案识别方法及系统,通过增强输出的能量强烈程度向量,解决或者至少部分解决现有方法中由于注意力权重的获取方法存在不足的技术问题,使得答案获取和识别的准确率明显提高。
为达到上述目的,本发明第一方面公开一种基于能量增强的注意力网络的答案识别方法,该方法通过一处理设备接收待处理文本,所述待处理文本包括段落文本和问题文本,所述段落文本为包含两个或以上句子的篇章级文本,所述处理设备内置一注意力网络处理所述的待处理文本,获得与答案相关的文本序列,所述方法包括以下步骤:步骤11:接收输入的待处理文本,获取上下文向量;步骤12:确定所述上下文向量的基础注意力向量,所述基础注意力向量表示所属向量的初始注意力权重;步骤13:基于所述基础注意力向量,获取所述上下文向量每一个向量的增强向量组合,所述增强向量组合包括多个补偿向量能量的向量;步骤14:基于所述增强向量组合,采用所述注意力网络获得目标答案。该实施例的优势是通过在传统的注意力网络中增加了基础注意力向量的确定方法,并且在传统的注意力向量上叠加增强向量组合,使得可明显提高注意力向量的能量强烈程度,从而提高注意力网络在识别目标答案时的准确率。
步骤11中所述获取上下文向量的步骤具体包括:对待处理文本中的词进行词性标注;获取待处理文本的全部实体,并对所述全部实体进行标注;通过一个神经网络获取所述全部实体的上下文特征;基于所述的上下文特征,获得上下文向量。该实施例的优势是通过对待处理文本的加入词性标签和命名实体识别的标签,可以提高后续处理的效率和准确率。
步骤12中,所述基础注意力向量有多个,所述上下文向量的每一个向量都有一个对应的基础注意力向量,所述基础注意力向量的值与其对应向量的位置、方向有关。该实施例的优势是基础注意力向量不是静态的值,也不是全局的,而是每个上下文向量可以有对应的基础注意力向量,并且其取值可以不同,使得该实施例更加有针对性。
所述确定基础注意力向量的方法如公式(1)和公式(2)所示:
(1)
(2)
其中,表示所述段落文本到所述问题文本方向的基础注意力向量,/>表示所述问题文本到所述段落文本方向的基础注意力向量,/>为所述问题文本的长度,/>为所述段落文本的长度,/>是所述问题文本,/>是所述段落文本,∑为逐元素相加。该实施例的优势是通过计算获得每个基础注意力向量的值,可以实现基础注意力向量的自动获取,可降低成本,提高效率。
在所述的步骤13中,所述的增强向量组合包括局部能量补偿向量、全局能量补偿向量、能量强烈程度向量。该实施例的优势是进一步细化了增强向量组合,从而降低方案的复杂度。
所述的步骤13中,所述增强向量组合的获取步骤包括:局部能量补偿向量的获取步骤、全局能量补偿向量的获取步骤、能量强烈程度向量的获取步骤。该实施例的优势是进一步细化了获取增强向量组合的步骤。
所述的局部能量补偿向量的获取步骤如公式(3)至公式(5)所示:
(3)
(4)
(5)
其中:是局部能量补偿向量,表示所述段落文本每个字分别与所述问题文本进行碰撞比较的能量强度,计算方法是基于/>函数对所述概率相似矩阵/>沿问题文本/>的方向获取最大值;
表示所述段落文本/>与所述问题文本/>之间的相似矩阵,/>与/>分别代表计算处于所述段落文本/>与问题文本/>的位置,所述相似矩阵采用线性变换函数/>和非线性激励函数/>运算后得到的两个序列进行点乘运算获得;
是基于概率的相似矩阵,其获得方法是利用/>模型对所述相似矩阵沿着问题文本/>的方向计算获得。
所述的全局能量补偿向量的获取步骤如公式(6)所示:
(6)
其中,所述全局能量补偿向量表示所述段落文本的每个字与所述问题文本的最近距离,并将该距离概率化,具体的计算过程为:利用/>函数计算相似矩阵/>沿着问题文本/>的最大值,然后沿着所述段落文本/>对所述最大值计算/>值。
所述的能量强烈程度向量的获取步骤如公式(7)至公式(8)所示:
(7)
(8)
其中,表示的是传统算法产生的注意力向量,通过所述计算注意力向量与所述段落文本/>的点乘,获得该位置的字/>用于回答问题/>的能量强烈程度向量。
基于同样的发明构思,本发明第二方面提供一种答案识别系统,应用于如本发明公开的第一方面的基于能量增强的注意力网络的答案识别方法,该能量增强的注意力网络包括:前置处理模块、编码模块、能量增强处理模块、注意力网络模块,其中:
前置处理模块:用于对待处理文本进行词性标注,获取待处理文本的全部实体,所述待处理文本包括段落文本和问题文本,所述段落文本为包含两个或以上句子的篇章级文本;
编码模块:用以通过一个神经网络获取所述全部实体的上下文特征,并通过编码压缩处理,获得上下文向量;
能量增强处理模块:包括确定基础注意力向量,获取增强向量组合;
注意力网络模块:根据增强向量组合,通过一注意力网络获取答案。
在一种实施方式中,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被执行时实现第一方面所述的基于能量增强的注意力网络的答案识别方法。
在一种实施方式中,本发明提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述的基于能量增强的注意力网络的答案识别方法。
本申请实施例中的上述一个或多个技术方案,在输出获取应用中具有以下技术优势和效果:
(1)通过在现有的注意力模型中增加了表示No Attention的基础注意力向量,并且该向量是通过位置和方向动态计算获得,使得该注意力模型更加有针对性,学习的准确率更高;
(2)通过在现有的注意力模型中增加了能量补偿机制,包括叠加局部能量补偿向量、全局能量补偿向量和能量强烈程度向量等因素,利用该注意力模型在答案识别方面的准确率更高。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍, 应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例的基于注意力网络的答案识别方法实现流程示意图;
图2为本发明实施例的获取上下文向量的流程示意图;
图3为本发明实施例的计算增强向量组合的流程示意图;
图4为本发明实施例的答案识别系统的结构框图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,图1示出了本发明实施例的基于能量增强的注意力网络的答案识别方法实现流程示意图,在该实施例中,通过一处理设备接收待处理文本,上述待处理文本包括段落文本和问题文本,其中,段落文本包括句子、段落或篇章,上述处理设备内置一注意力网络处理上述的待处理文本,获得与答案相关的文本序列,注意力网络包括编码单元、推理单元,该方法具体包括步骤11至步骤14:
步骤11:接收输入的待处理文本,获取上下文向量;
在本实施例中,处理设备接收段落文本和问题文本,对段落文本和问题文本进行初步处理,获取上下文向量。其中,获取上下文向量的步骤请参阅图2所示的流程。
步骤12:确定上下文向量的基础注意力向量。
通常,传统的注意力网络大都是让模型自己去学习No Attention,而本实施例中,设置一个基础注意力向量表示No Attention,使得注意力初始权重更有针对性,基础注意力向量表示对应上下文向量的初始注意力权重。
基础注意力向量并不是随机设定的,也不是全局共享的,而是按照其所在的位置和方向通过计算动态获取的,比如根据方向分别定义cq(memory:q)和qc(memory: c)双向注意力的时候,不同方向的守卫向量定义会有如下不同的公式:
(1)
(2)
其中,表示上述段落文本到上述问题文本方向的基础注意力向量,/>表示上述问题文本到上述段落文本方向的基础注意力向量,/>为上述问题文本的长度,/>为上述段落文本的长度,/>是上述问题文本,/>是上述段落文本,∑为逐元素相加。
步骤13:基于基础注意力向量,获取上下文向量每一个向量的增强向量组合。
要提高答案获取的准确率,最有效的方式是提高注意力向量的能量强度。在一个实施例中,在注意力网络中通过为每个向量获取增强向量组合,通过增强向量组合来提高注意力向量的能量强度。
在一个实施例中,增强向量组合包括局部能量补偿向量、全局能量补偿向量和能量强烈程度向量/>。
获取增强向量组合的步骤请参阅图3所示的流程。
步骤14:基于增强向量组合,采用注意力网络获得目标答案。
在一个实施例中,根据步骤13获得的增强向量组合获取增强向量组合,其获取步骤如下所示:
步骤(1-4-1):获取全局能量表达;
根据上述步骤13获得的增强向量组合,包括:局部能量补偿向量、全局能量补偿向量/>和能量强烈程度向量/>,从段落文本方向获取一个全局的能量表达/>,上述/>的获取步骤计算公式为:
步骤(1-4-2):计算双向的能量增强的注意力向量;
基于多头注意力机制,基于每个head计算双向的能量增强的注意力向量,其中,该注意力向量/>包括每个head的从段落文本到问题文本方向的增强的注意力向量,以及每个head的从问题文本到段落文本方向的增强的注意力向量/>,/>包括传统的注意力向量/>、能量最强向量/>、局部能量补偿向量/>、全局能量补偿向量/>、全局的能量表达/>,其表达式为:
类似以上cq方向增强的注意力向量的计算过程,可按照相同的逻辑获取qc方向的能量增强的注意力向量,/>包括了传统的注意力向量/>、能量最强向量、局部能量补偿向量/>、全局能量补偿向量/>、全局的能量表达/>,表达式为:
其中,段落文本采用的是带着问题答案的文本数据,表达式为:
基于上一步方法得到之后,可借用Attention over Attention的方法,针对的不同方向获取注意力向量/>和/>,再通过计算点乘,获得能量增强的注意力向量/>:
根据以上能量增强的注意力向量,可以获取能量最强的向量,这个能量最强的向量就是最接近答案的向量,输出该向量,获得目标答案。
请参阅图2所示的流程图,图2示出了本发明实施例的获取上下文向量的流程示意图,包括步骤(2-1)至步骤(2-4):
步骤(2-1):对待处理文本中的词进行词性标注;
在一个实施例中,处理设备在接收到待处理文本后,对待处理文本进行词性标注,使得后续的处理效率更高。
步骤(2-2):获取待处理文本的全部实体,并对全部实体进行标注;
待处理文本包括段落文本和问题文本,所述段落文本为包含两个或以上句子的篇章级文本,句子是段落的基本组成部分,是由词、短语构成的,可以表达一个完整意思的文本。在一些实施例中,句子可以包括但不限于汉字、字符、符号、数字等一种或多种。实体是句子中的主要要素。例如,实体可以包括但不限于句子中的人物、时间、地点等中的一种或多种。在一些实施例中,实体可以包括数字、词、词组等一种或多种。在一些实施例中,处理设备可以通过序列标注方法获取待处理文本中的一个或多个实体。例如,处理设备可以将待处理文本的一个或多个文本作为输入数据,利用神经网络获取待处理文本中包含的实体。在一些实施例中,可用于获取实体的神经网络可以包括但不限于LSTM-CRF网络、BERT-CRF网络、BERT-Softmax网络等。
步骤(2-3):通过一个神经网络获取全部实体的上下文特征;
待处理文本中获取的实体是不定长的序列,通过获取实体的上下文特征将不定长的序列变换成定长的序列,通常采用神经网络获取所述全部实体的上下文特征,这里的待处理文本包含的实体长度不确定,可以通过一个循环神经网络(RNN)或卷积神经网络(CNN)来获取固定大小的上下文特征。
步骤(2-4):基于上述上下文特征,获得上下文向量。
将获得的上下文特征通过一个网络模型(CNN, RNN, DNN), 编码为一个向量,在一个实施例中,使用单层的双向LSTM(或GRU)进行字特征的编码,使用多层双向LSTM(或GRU)来进行段落和问题编码来提升多层次的特征学习能力,层与层之间使用Dropout减少过拟合来提升泛化能力。
请参阅图3所示的流程图,图3示出了本发明实施例的计算增强向量组合的流程示意图,增强向量组合包括:局部能量补偿向量、全局能量补偿向量/>、能量强烈程度向量/>,该方法具体包括步骤S1至步骤S3:
步骤S1:获得局部能量补偿向量,其获得步骤包括公式(3)至公式(5):
(3)
(4)
(5)
其中:表示上述段落文本/>与问题文本/>之间的相似矩阵,/>与/>分别代表计算处于段落文本/>与问题文本/>的位置,上述相似矩阵采用线性变换函数/>和非线性激励函数/>运算后得到的两个序列进行点乘运算获得;
是基于概率的相似矩阵,其获得方法是利用/>模型对上述相似矩阵沿着问题文本/>计算获得;
是局部能量补偿向量,用于表达上述段落文本每个字分别与上述问题文本进行碰撞比较的能量强度,计算方法是基于/>函数对概率相似矩阵/>沿问题文本/>的方向获取最大值。
步骤S2:获得全局能量补偿向量,其获得步骤包括公式(6);
(6)
其中,上述全局能量补偿向量表示上述段落文本的每个字与上述问题文本的最近距离,并将该距离概率化,具体的计算过程为:利用/>函数计算相似矩阵/>沿着问题文本/>的最大值,然后沿着上述段落文本/>对上述最大值计算/>值。
步骤S3:获得能量强烈程度向量,其获得步骤包括公式(7)和(8);
(7)
(8)
其中,表示的是传统算法产生的注意力向量,通过该计算注意力向量/>与段落文本/>的点乘,获得该位置的字/>用于回答问题/>的能量强烈程度向量/>。
请参阅图4,图4示出了本发明实施例的答案识别系统的结构框图,该系统主要包括:前置处理模块101、编码模块102,编码模块103、注意力网络模块104,其中:
前置处理模块101:用于对待处理文本进行词性标注,获取待处理文本的全部实体,所述待处理文本包括段落文本和问题文本,所述段落文本为包含两个或以上句子的篇章级文本;
编码模块102:用以通过一个神经网络获取所述全部实体的上下文特征,并通过编码压缩处理,获得上下文向量;
能量增强处理模块103:包括确定基础注意力向量,获取增强向量组合;
注意力网络模块104:根据增强向量组合,通过所述注意力网络获取答案。
在本发明实施例中,能量增强的注意力网络基于微软的R-Net构建,R-Net包括了编码层,推理层,解码层,同时,本发明实施例中,利用斯坦福的SQuAD-V1.1构建注意力网络的基本训练数据集,SQuAD包括了536篇维基百科及其在百科上10w多个问题,并且内容还在不断增加,是比较合适的基本训练数据集。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的模块,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成模块及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,上述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
以上上述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应上述以权利要求的保护范围为准。
Claims (3)
1.一种基于能量增强的注意力网络的答案识别方法,通过一处理设备接收待处理文本,所述待处理文本包括段落文本和问题文本,所述段落文本为包含两个或以上句子的篇章级文本,其特征在于,所述处理设备内置一注意力网络处理所述的待处理文本,获得与答案相关的文本序列,所述基于能量增强的注意力网络的答案识别方法包括:
步骤11:接收输入的待处理文本,获取上下文向量;
步骤12:确定所述上下文向量的基础注意力向量,所述基础注意力向量表示所属向量的初始注意力权重;
步骤13:基于所述基础注意力向量,获取所述上下文向量每一个向量的增强向量组合,所述增强向量组合用于提高注意力向量的能量强烈程度;
步骤14:基于所述增强向量组合,采用所述注意力网络获得目标答案;
步骤12中,所述基础注意力向量有多个,所述上下文向量的每一个向量都有一个对应的基础注意力向量,所述基础注意力向量的值与其对应向量的位置、方向有关;
确定基础注意力向量的方法如公式(1)和公式(2)所示:
其中,stcq表示所述段落文本到所述问题文本方向的基础注意力向量,stqc表示所述问题文本到所述段落文本方向的基础注意力向量,|Q|为所述问题文本的长度,|C|为所述段落文本的长度,qt是所述问题文本,ct是所述段落文本,∑为逐元素相加;
在所述的步骤13中,所述的增强向量组合包括局部能量补偿向量、全局能量补偿向量、能量强烈程度向量;
所述的步骤13中,所述增强向量组合的获取步骤包括:局部能量补偿向量的获取步骤、全局能量补偿向量的获取步骤、能量强烈程度向量的获取步骤;
所述的局部能量补偿向量的获取步骤如公式(3)至公式(5)所示:
其中:是局部能量补偿向量,表示所述段落文本每个字分别与所述问题文本进行碰撞比较的能量强度,计算方法是基于maxout函数对概率相似矩阵/>沿问题文本qt的方向获取最大值;
表示所述段落文本ct与所述问题文本qt之间的相似矩阵,t与j分别代表计算处于所述段落文本ct与问题文本qt的位置,所述相似矩阵采用线性变换函数W和非线性激励函数relu运算后得到的两个序列进行点乘运算获得;
是基于概率的相似矩阵,其获得方法是利用softmax模型对所述相似矩阵/>沿着问题文本qt的方向计算获得;
所述的全局能量补偿向量的获取步骤如公式(6)所示:
其中,所述全局能量补偿向量表示所述段落文本的每个字与所述问题文本的最近距离,并将该距离概率化,具体的计算过程为:利用maxout函数计算相似矩阵/>沿着问题文本qt的最大值,然后沿着所述段落文本ct对所述最大值计算softmax值;
所述的能量强烈程度向量的获取步骤如公式(7)至公式(8)所示:
其中,表示的是传统算法产生的注意力向量,通过计算注意力向量/>与所述段落文本ct的点乘,获得该位置的字c用于回答问题q的能量强烈程度向量/>
2.根据权利要求1所述的基于能量增强的注意力网络的答案识别方法,其特征在于,步骤11中所述获取上下文向量的步骤具体包括:
对待处理文本中的词进行词性标注;
获取待处理文本的全部实体,并对所述全部实体进行标注;
通过一个神经网络获取所述全部实体的上下文特征;
基于所述的上下文特征,获得上下文向量。
3.一种答案识别系统,其特征在于,应用于如权利要求1-2中任意一项所述的基于能量增强的注意力网络的答案识别方法,所述的答案识别系统包括:前置处理模块、编码模块、能量增强处理模块、注意力网络模块,其中:
前置处理模块:用于对待处理文本进行词性标注,获取待处理文本的全部实体,所述待处理文本包括段落文本和问题文本,所述段落文本为包含两个或以上句子的篇章级文本;
编码模块:用以通过一个神经网络获取所述全部实体的上下文特征,并通过编码压缩处理,获得上下文向量;
能量增强处理模块:包括确定基础注意力向量,获取增强向量组合;
注意力网络模块:根据增强向量组合,通过所述注意力网络获取答案。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010962935.3A CN112084782B (zh) | 2020-09-14 | 2020-09-14 | 一种基于能量增强的注意力网络的答案识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010962935.3A CN112084782B (zh) | 2020-09-14 | 2020-09-14 | 一种基于能量增强的注意力网络的答案识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112084782A CN112084782A (zh) | 2020-12-15 |
CN112084782B true CN112084782B (zh) | 2024-05-03 |
Family
ID=73736724
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010962935.3A Active CN112084782B (zh) | 2020-09-14 | 2020-09-14 | 一种基于能量增强的注意力网络的答案识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112084782B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018212710A1 (en) * | 2017-05-19 | 2018-11-22 | National University Of Singapore | Predictive analysis methods and systems |
CN109492227A (zh) * | 2018-11-16 | 2019-03-19 | 大连理工大学 | 一种基于多头注意力机制和动态迭代的机器阅读理解方法 |
CN110134771A (zh) * | 2019-04-09 | 2019-08-16 | 广东工业大学 | 一种基于多注意力机制融合网络问答系统的实现方法 |
CN110298037A (zh) * | 2019-06-13 | 2019-10-01 | 同济大学 | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 |
CN110597947A (zh) * | 2019-03-20 | 2019-12-20 | 桂林电子科技大学 | 一种基于全局和局部注意力交互的阅读理解系统及方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10963782B2 (en) * | 2016-11-04 | 2021-03-30 | Salesforce.Com, Inc. | Dynamic coattention network for question answering |
-
2020
- 2020-09-14 CN CN202010962935.3A patent/CN112084782B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018212710A1 (en) * | 2017-05-19 | 2018-11-22 | National University Of Singapore | Predictive analysis methods and systems |
CN109492227A (zh) * | 2018-11-16 | 2019-03-19 | 大连理工大学 | 一种基于多头注意力机制和动态迭代的机器阅读理解方法 |
CN110597947A (zh) * | 2019-03-20 | 2019-12-20 | 桂林电子科技大学 | 一种基于全局和局部注意力交互的阅读理解系统及方法 |
CN110134771A (zh) * | 2019-04-09 | 2019-08-16 | 广东工业大学 | 一种基于多注意力机制融合网络问答系统的实现方法 |
CN110298037A (zh) * | 2019-06-13 | 2019-10-01 | 同济大学 | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 |
Non-Patent Citations (6)
Title |
---|
基于多注意力机制的深度神经网络故障诊断算法;王翔;任佳;;浙江理工大学学报(自然科学版)(第02期);224-231 * |
基于方面情感的层次化双注意力网络;宋婷;陈战伟;;信息技术与网络安全(第06期);24-30 * |
基于降噪自动编码器的语种特征补偿方法;苗晓晓;徐及;王剑;;计算机研究与发展(第05期);1082-1091 * |
宋婷 ; 陈战伟 ; .基于方面情感的层次化双注意力网络.信息技术与网络安全.2020,(第06期),24-30. * |
王翔 ; 任佳 ; .基于多注意力机制的深度神经网络故障诊断算法.浙江理工大学学报(自然科学版).2019,(第02期),224-231. * |
苗晓晓 ; 徐及 ; 王剑 ; .基于降噪自动编码器的语种特征补偿方法.计算机研究与发展.2019,(第05期),1082-1091. * |
Also Published As
Publication number | Publication date |
---|---|
CN112084782A (zh) | 2020-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112686058B (zh) | Bert嵌入语音翻译模型训练方法、系统及语音翻译方法和设备 | |
CN111783462A (zh) | 基于双神经网络融合的中文命名实体识别模型及方法 | |
JP2020017274A (ja) | ニューラルネットワークを使用するエンドツーエンド手書きテキスト認識のためのシステムおよび方法 | |
GB2571825A (en) | Semantic class localization digital environment | |
CN113591902A (zh) | 基于多模态预训练模型的跨模态理解与生成方法和装置 | |
CN111984772B (zh) | 一种基于深度学习的医疗影像问答方法及系统 | |
CN112348911B (zh) | 基于语义约束的堆叠文本生成细粒度图像方法及系统 | |
CN110781306B (zh) | 一种英文文本的方面层情感分类方法及系统 | |
CN109977402B (zh) | 一种命名实体识别方法及系统 | |
CN111858878B (zh) | 从自然语言文本中自动提取答案的方法、系统及存储介质 | |
Kitada et al. | Attention meets perturbations: Robust and interpretable attention with adversarial training | |
JP2022145623A (ja) | ヒント情報を提示する方法及び装置並びにコンピュータプログラム | |
CN114092931B (zh) | 场景文字识别方法、装置、电子设备及存储介质 | |
CN114492661B (zh) | 文本数据分类方法和装置、计算机设备、存储介质 | |
CN115713079A (zh) | 用于自然语言处理、训练自然语言处理模型的方法及设备 | |
CN114065771A (zh) | 一种预训练语言处理方法及设备 | |
CN115114407A (zh) | 意图识别方法、装置、计算机设备及存储介质 | |
CN115203388A (zh) | 机器阅读理解方法、装置、计算机设备和存储介质 | |
CN118069857A (zh) | 基于Transfomer和渐进式蒸馏的知识图谱补全方法、系统、装置 | |
CN112084782B (zh) | 一种基于能量增强的注意力网络的答案识别方法及系统 | |
CN114519353B (zh) | 模型的训练方法、情感消息生成方法和装置、设备、介质 | |
CN113704466B (zh) | 基于迭代网络的文本多标签分类方法、装置及电子设备 | |
CN113792550B (zh) | 预测答案的确定方法及装置、阅读理解方法及装置 | |
CN113611289A (zh) | 一种语音识别方法和装置 | |
CN114329005A (zh) | 信息处理方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |