CN110414012B - 一种基于人工智能的编码器构建方法及相关设备 - Google Patents
一种基于人工智能的编码器构建方法及相关设备 Download PDFInfo
- Publication number
- CN110414012B CN110414012B CN201910699876.2A CN201910699876A CN110414012B CN 110414012 B CN110414012 B CN 110414012B CN 201910699876 A CN201910699876 A CN 201910699876A CN 110414012 B CN110414012 B CN 110414012B
- Authority
- CN
- China
- Prior art keywords
- network
- neural network
- gate
- encoder
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/061—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using biological neurons, e.g. biological neurons connected to an integrated circuit
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Theoretical Computer Science (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Neurology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Microelectronics & Electronic Packaging (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例公开了一种基于人工智能的编码器构建方法及相关设备,包括:首先建立第一神经网络和自关注网络,其中,第一神经网络主要用于建模编码器输入序列的层次结构、以及自关注网络主要用于建模所述编码器输入序列的依存关系;接着在第一神经网络中加入神经元排列的归纳偏置,得到第二神经网络;然后将第二神经网络和自关注网络进行融合,得到编码器,其中,网络融合的方式可以为短路径连接或全连接。本发明所提供编码器的构建方法属于人工智能领域中的机器翻译技术。采用本发明实施例,可以增强编码器的层次结构建模能力,提高编码器的输出的表示能力,从而提高机器翻译的准确性。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于人工智能的编码器构建方法及相关设备。
背景技术
机器翻译是正处于热门研究阶段的人工智能领域中的一个分支,它给人们的工作和生活带来了诸多便利。目前,常用的机器翻译模型包括:1、基于标准循环神经网络(Recurrent Neural Network,RNN)的机器翻译模型,该模型需要引入额外的句法树信息,训练模型耗费时间长;2、Transform模型,该模型使用了自关注网络(Self-AttentionNetwork,SAN)来代替RNN,以建模序列的依存关系,从而有效弥补了基于RNN的机器翻译模型计算效率低、训练难度大的缺陷。然而,研究发现SAN缺乏对RNN所拥有的对输入序列的层次结构的建模能力。鉴于以上两个模型,近年来有研究提出了基于RNN和SAN的混合模型,该模型结合了RNN和SAN的优点,但是受限于RNN的有限的层次建模能力以及对最终输入结果的有限的表示能力,该模型的翻译效果仍有待进一步的提高。
发明内容
本发明提供一种基于人工智能的编码器构建方法及相关设备,可以增加编码器的层次结构建模能力、提高编码器的输出的表示能力,从而提高机器翻译的准确性。
第一方面,本发明实施例提供了一种基于人工智能的编码器构建方法,包括:
建立第一神经网络和自关注网络,所述第一神经网络用于建模编码器输入序列的层次结构、以及所述自关注网络用于建模所述编码器输入序列的依存关系;
在所述第一神经网络中增加神经元排列的归纳偏置,得到第二神经网络;
根据所述第二神经网络和所述自关注网络,构建编码器,所述编码器用于执行自然语言处理任务。
其中,所述根据所述第二神经网络和所述自关注网络,构建编码器包括:
按照预设的网络融合方式融合所述自关注网络和所述第二神经网络,得到所述编码器,所述网络融合方式包括短路径连接和全连接中的至少一种。
其中,所述在所述第一神经网络中增加神经元排列的归纳偏置,得到第二神经网络包括:
根据非线性分类器和累计求和函数构造激活函数、以及获取所述第一神经网络中的第一神经元在当前时刻的第一单元状态;
根据所述激活函数更新所述第一单元状态,得到所述第二神经网络。
其中,所述根据所述激活函数,更新所述第一单元状态包括:
获取所述第一神经元在所述当前时刻的输入信息、以及与所述第一神经元连接的第二神经元在所述当前时刻的上一时刻的输出信息;
按照所述激活函数对所述输入信息和所述输出信息进行运算,得到所述第二神经网络的主导遗忘门和主导输入门;
根据所述主导输入门和所述主导遗忘门,更新所述第一单元状态。
其中,所述第一神经网络包括遗忘门和主导门;
所述根据所述主导输入门和所述主导遗忘门,更新所述第一单元状态包括:
确定所述主导输入门与所述主导遗忘门的重叠信息、以及获取所述第一神经元在所述上一时刻的第二单元状态;
根据所述重叠信息、所述遗忘门、所述输入门、所述主导遗忘门、所述主导输入门以及所述第二单元状态,更新所述第一单元状态。
其中,所述根据所述重叠信息、所述遗忘门、所述输入门、所述主导遗忘门、所述主导输入门以及所述第二单元状态,更新所述第一单元状态包括:
计算所述遗忘门与所述重叠信息按元素相乘的第一乘积、以及所述主导遗忘门与所述重叠信息之间的第一差值;将所述第一乘积与所述第一差值的和作为中间态主导遗忘门;
计算所述输入门与所述重叠信息按元素相乘的第二乘积、以及所述主导输入门与所述重叠信息之间的第二差值;将所述第二乘积与所述第二差值的和作为中间态主导输入门;
根据所述中间态主导遗忘门、所述中间态主导输入门和所述第二单元状态,更新所述第一单元状态。
其中,所述第一神经网络为基于树结构的循环神经网络;所述自然语言处理任务包括文本翻译和逻辑推测中的至少一项。
第二方面,本发明实施例提供了一种基于人工智能的编码器构建装置,包括:
子网络建模模块,用于建立第一神经网络和自关注网络,所述第一神经网络用于建模编码器输入序列的层次结构、以及所述自关注网络用于建模所述编码器输入序列的依存关系;
子网络增强模块,用于在所述第一神经网络中增加神经元排列的归纳偏置,得到第二神经网络;
子网络融合模块,用于根据所述第二神经网络和所述自关注网络,构建编码器,所述编码器用于执行自然语言处理任务。
其中,所述子网络融合模块还用于:
按照预设的网络融合方式融合所述自关注网络和所述第二神经网络,得到所述编码器,所述网络融合方式包括短路径连接和全连接中的至少一种。
其中,所述子网络融合模块还用于:
根据非线性分类器和累计求和函数构造激活函数、以及获取所述第一神经网络中的第一神经元在当前时刻的第一单元状态;
根据所述激活函数更新所述第一单元状态,得到所述第二神经网络。
其中,所述根据所述激活函数,更新所述第一单元状态包括:
获取所述第一神经元在所述当前时刻的输入信息、以及与所述第一神经元连接的第二神经元在所述当前时刻的上一时刻的输出信息;
按照所述激活函数对所述输入信息和所述输出信息进行运算,得到所述第二神经网络的主导遗忘门和主导输入门;
根据所述主导输入门和所述主导遗忘门,更新所述第一单元状态。
其中,所述第一神经网络包括遗忘门和主导门;
所述子网络融合模块还用于:
确定所述主导输入门与所述主导遗忘门的重叠信息、以及获取所述第一神经元在所述上一时刻的第二单元状态;
根据所述重叠信息、所述遗忘门、所述输入门、所述主导遗忘门、所述主导输入门以及所述第二单元状态,更新所述第一单元状态。
其中,所述子网络融合模块还用于:
计算所述遗忘门与所述重叠信息按元素相乘的第一乘积、以及所述主导遗忘门与所述重叠信息之间的第一差值;将所述第一乘积与所述第一差值的和作为中间态主导遗忘门;
计算所述输入门与所述重叠信息按元素相乘的第二乘积、以及所述主导输入门与所述重叠信息之间的第二差值;将所述第二乘积与所述第二差值的和作为中间态主导输入门;
根据所述中间态主导遗忘门、所述中间态主导输入门和所述第二单元状态,更新所述第一单元状态。
其中,所述第一神经网络为基于树结构的循环神经网络;所述自然语言处理任务包括文本翻译和逻辑推测中的至少一项。
第三方面,本发明实施例提供了一种于人工智能的编码器构建设备,包括:处理器、存储器和通信总线,其中,通信总线用于实现处理器和存储器之间连接通信,处理器执行存储器中存储的程序用于实现上述第一方面提供的一种基于人工智能的编码器构建方法中的步骤。
在一个可能的设计中,本发明提供的实体识别设备可以包含用于执行上述方法中行为相对应的模块。模块可以是软件和/或硬件。
本发明实施例的又一方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有多条指令,所述指令适于由处理器加载并执行上述各方面所述的方法。
本发明实施例的又一方面提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
实施本发明实施例,首先建立第一神经网络和自关注网络;接着在第一神经网络中加入神经元排列的归纳偏置,得到第二神经网络;然后将第二神经网络和自关注网络按照短路径连接或全连接方式进行融入和,从而得到编码器。不仅可以增强编码器的层次结构建模能力,还能提高编码器的输出的表示能力。
附图说明
为了更清楚地说明本发明实施例或背景技术中的技术方案,下面将对本发明实施例或背景技术中所需要使用的附图进行说明。
图1是本发明实施例提供的一种基于人工智能的编码器构建方法的流程示意图;
图2是本发明实施例提供的一种LSTM网络中的门控制结构的示意图;
图3是本发明实施例提供的另一种基于人工智能的编码器构建方法的流程示意图;
图4是本发明实施例提供的一种基于人工智能的编码器构建装置结构示意图;
图5是本发明实施例提供的一种基于人工智能的编码器构建设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
AI技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术,其基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。AI软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理(Nature Language Process-ing,NLP)技术以及机器学习/深度学习等几大方向。其中,NLP技术主要研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。它是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。NLP技术通常包括机器翻译,顾名思义,机器翻译技术是指研究一种能以人类智能相似的进行语言翻译的智能机器的技术。其中,机器翻译系统通常是由编码器和译码器组成。除了机器翻译之外,NLP技术还包括机器人问答、文本处理、语义理解以及知识图谱等技术。
本发明实施例提供的方法涉及AI领域中NLP技术的一个重要分支——机器翻译技术。具体通过如下实施例进行说明。
请参见图1,图1是本发明实施例提供的一种基于人工智能的编码器构建方法的流程示意图,该方法包括但不限于如下步骤:
S101,建立第一神经网络和自关注网络。
具体实现中,一方面,第一神经网络可以是基于树结构的RNN模型,本发明实施例采用了常见的基于树结构的循环神经网络——长短期记忆(Long Short-Term Memory,LSTM)网络,LSTM网络可以集成文本序列中隐藏的树结构,从而更好地建模编码器输入序列的层次结构,其中,层次结构可以包括编码器输入序列中的句法短语解析树和依赖树。当然,除了LSTM网络之外,还可以采用其他基于树结构的RNN模型。其中,第一神经网络的层数可以为3层。
另一方面,自关注网络(Self-Attention Network,SAN)的本质是一种基于自关注机制的神经网络,具有较强的对编码器输入序列的依存关系进行建模的能力,其中,编码器输入序列的依存关系实际体现为该网络中的隐藏状态间的依存关系。SAN可以包括多个逻辑层,如3层。其中,第n-1层的输出Hn-1用于作为第n层的输入。如(1)式所示,在SAN中,第n层逻辑层可以首先通过三个不同的可学习的参数矩阵WQ、WK和WV,对该层的输入Hn-1进行线性变换处理,从而得到请求(query)向量序列Q、键(key)向量序列K以及值(value)向量序列V。
在(1)式中,WQ、WK和WV为维度为d的方阵,d表示SAN中隐藏状态向量的维度。
接着,使用点积的方式建模query与每个键-值(key-value)对之间的逻辑相似度e。具体地,可以按照(2)式计算e,其中,KT表示K的转置。
然后,利用softmax非线性分类器(也可以说非线性变换)将逻辑相似度e转换为query与每个key-value对之间的权重关系α,得到:
α=softmax(e) (3)
最后,根据权重关系α得到逻辑层的输出向量(记为SAN(Hn-1)),其中,SAN(Hn-1)由每个value的加权求和得到。在实际计算时,对α和value的向量序列V进行点积运算即可得到SAN(Hn-1),即
SAN(Hn-1)=α·V (4)
S102,在所述第一神经网络中增加神经元排列的归纳偏置,得到第二神经网络。
需要说明的是,LSTM网络是基于传统RNN网络的一种改进网络。标准RNN网络的隐藏层只有一个状态h,h对短期的输入过于敏感,从而导致RNN无法处理长距离的依赖的问题。为了克服这一缺陷,LSTM网络在隐藏层上增加了一个状态c用来存储长期的状态,通常将该增加的状态称为单元状态。然而由此也带来了一个新的问题——如何有效控制长期状态c。为了解决该问题,学术界提出在LSTM网络中加入门控制结构,如图2所示,门控制结构包括遗忘门、输入门和输出门。其中,遗忘门用于控制上一时刻的单元状态ct-1有多少保留到当前时刻的单元状态ct、输入门用于控制当前时刻网络的输入xt有多少保存到单元状态ct、以及输出门用于控制当前时刻的单元状态ct有多少输出到当前的输出值ht。
具体实现中,本发明实施例中的归纳偏置具体是指通过某种方法强制执行的隐藏状态神经元之间单元状态的更新频率的顺序,这种归纳偏置通常被称为有序神经元。以LSTM网络为例,相比于基础网络——标准LSTM网络,加入了有序神经元的归纳偏置的LSTM(Order Neurons LSTM,ON-LSTM)网络的单元状态的更新机制不同,最终得到的神经元的单元状态也不一样。
在ON-LSTM网络中,针对任意一个神经元,其单元状态的更新包括以下几个步骤:
(1)确定激活函数CU。在实际中,可以根据非线性分类器和累计求和函数来生成激活函数。其中,非线性分类器可以将输入映射为0到1之间的实数,常用的非线性分类器包括softmax;累计求和函数可以将输入进行累加,例如,若输入为1、2和3,则累计求和函数对输入进行累计求和后将得到1、3和6,常用的累计求和函数包括CUMSUM函数。因此,CU的具体形式可以但不限于为如(5)式所示的形式。
CU(·)=CUMSUM(softmax(·)) (5)
(2)根据激活函数,确定第二神经网络的主导遗忘门和主导输入门其中,可以先获取该神经元在当前时刻(假设为t时刻)的输入信息(xt)以及与该神经元连接的第二神经元,即该神经元的上一个神经元在相对当前时刻的上一个时刻(t-1)的输出信息(ht-1)。再按照激活函数对xt和ht-1进行计算得到和具体地,可以分别按照(6)和(7)式来计算和其中,与RNN模型类似,W、U和b表示线性系数和偏倚。
(3)先获取该神经元的单元状态为利用ON-LSTM的基础网络(也就是标准LSTM网络)中所使用的单元状态更新方法更新得到的单元状态。再根据和对进行进一步地更新,得到ON-LSTM网络下的单元状态ct。其中,具体运算方法和过程如(8)-(11)式所示,包括:
首先,确定主导遗忘门和主导输入门的重叠信息ωt、以及获取该神经元在上一时刻的单元状态ct-1。如式(8)所示,可以将和按元素相乘的乘积作为ωt,例如,A={a1,a2},B={b1,b2},则A和B按元素相乘的乘积为{a1*b1,a2*b1}。其中,ωt会受基础网络中的遗忘门和输入门的控制。此外,ct-1为在t-1时刻按照加入有序神经元的归纳偏置后的更新方法最终确定t-1时刻该神经元的单元状态。
接着,根据ωt、ct-1、以及标准LSTM网络中的遗忘门ft和输入门lt更新其中:1)如式(9)所示,可以先计算遗忘门ft与重叠信息ωt按元素相乘的乘积、以及主导遗忘门与重叠信息ωt之间的差值,并将该乘积与该差值的和作为中间态主导遗忘门2)如(10)式所示,可以先计算输入门lt与重叠信息ωt按元素相乘的乘积、以及主导输入门与重叠信息ωt之间的差值,并将该乘积与该差值的和作为中间态主导输入门
基于标准LSTM网络中有些神经元的单元状态更新慢,有些神经元的单元状态更新快,即高级神经元储存长期信息,低级神经元储存短期信息的现实,本发明实施例将标准LSTM网络作为基础网络,并向其中加入一种有序神经元的归纳偏置,可以增强神经元之间的依赖性,以及通过新的激活函数来主动分配神经元去储存长/短期信息,避免了高级和低级神经元之间的固定划分。综合起来,使得的ON-LSTM网络相比于其基础网络可以更好地建模输入序列中隐藏的树结构。
S103,根据所述第二神经网络和所述自关注网络,构建编码器。
具体实现中,可以直接将第二神经网络ON-LSTM网络和SAN进行混合,作为编码器,其中,ON-LSTM网络的层数K可以但不限于为3、以及SAN的层数L可以但不限于为3。例如,可以将ON-LSTM网络的系统函数记为ENCON-LSTM(·)、将SAN的系统函数记为ENCSANs(·),若编码器的输入为X,则ON-LSTM网络的输出为
基于此,SAN网络的输出,也就是编码器的整体输出为
在本发明实施例中,首先建立第一神经网络和自关注网络,其中,第一神经网络可以是基于树形结构的循环神经网络;接着在第一神经网络中加入神经元排列的归纳偏置,得到第二神经网络;然后根据第二神经网络和自关注网络,构建编码器。可以增强编码器的层次结构建模能力,从而提高机器翻译的准确性。
请参见图3,图3是本发明实施例提供的另一种基于人工智能的编码器构建方法的流程示意图,该方法包括但不限于如下步骤:
S301,建立第一神经网络和自关注网络。本步骤与上一实施例中的S101相同,本步骤不再赘述。
S302,在所述第一神经网络中增加神经元排列的归纳偏置,得到第二神经网络。本步骤与上一实施例中的S102相同,本步骤不再赘述。
S303,按照预设的网络融合方式融合所述第二神经网络和所述自关注网络,得到编码器。
具体实现中,网络融合方式可以包括短路径连接和全连接中的至少一种。以短路径连接为例,当第二神经网络ON-LSTM和SAN网络按照短路径连接方式进行融合时,将ON-LSTM的系统函数记为ENCON-LSTM(·)、将SAN的系统函数记为ENCSANs(·)。此时,若编码器的输入为X,则ON-LSTM网络的输出为基于ON-LSTM网络的输出可以进一步得到SAN网络的输出为最终,编码器的整体输出为
需要说明的是,短路径连接方式利用对应元素相加的方式,将加入神经元排列的归纳偏置的循环神经网络和自关注网络的输出表示更好地融合起来,可以进一步丰富编码器的输出的表达能力。
本发明实施例构造的编码器,可以用于执行自然语言处理任务。比如:可以将其与常用的机器翻译系统——Transfrom模型中的译码器进行结合,从而得到一种新的编码器-译码器结构的机器翻译模型,该机器翻译模型可以用于进行文本翻译。得益于ON-LSTM网络增强的层次建模能力、以及编码器的输出的丰富表达能力,新的机器翻译模型可以有效提高文本翻译的准确性以及模型训练的速度。又如,使用本发明实施了构建的编码器进行逻辑推测,可以有效提高逻辑推测的准确性。
在本发明实施例中,首先建立第一神经网络和自关注网络;接着在第一神经网络中加入神经元排列的归纳偏置,得到第二神经网络;然后将第二神经网络和自关注网络按照短路径连接或全连接方式进行融入和,从而得到编码器。不仅可以增强编码器的层次结构建模能力,还能提高编码器的输出的表示能力,从而提高机器翻译的准确性。
上述详细阐述了本发明实施例的方法,下面提供了本发明实施例的相关设备。
请参见图4,图4是本发明实施例提供的一种基于人工智能的编码器构建装置的结构示意图,该装置可以包括:
子网络建模模块401,用于建立第一神经网络和自关注网络。
具体实现中,一方面,第一神经网络可以是基于树结构的RNN模型,本发明实施例采用了常见的基于树结构的循环神经网络——LSTM网络,LSTM网络可以集成文本序列中隐藏的树结构,从而更好地建模编码器输入序列的层次结构。当然,除了LSTM网络之外,还可以采用其他基于树结构的RNN模型。其中,第一神经网络的层数可以为3层。
另一方面,SAN的本质是一种基于自关注机制的神经网络,具有较强的对编码器输入序列的依存关系进行建模的能力。SAN可以包括多个逻辑层,如3层。其中,第n-1层的输出Hn-1用于作为第n层的输入。如(1)式所示,在SAN中,第n层逻辑层可以首先通过三个不同的可学习的参数矩阵WQ、WK和WV对该层的输入Hn-1进行线性变换处理,从而得到请求(query)向量序列Q、键(key)向量序列K以及值(value)向量序列V。在(1)式中,WQ、WK和WV为维度为d的方阵,d表示SAN中隐藏状态向量的维度。
接着,使用点积的方式建模query与每个键-值(key-value)对之间的逻辑相似度e。具体地,可以按照(2)式计算e,其中,KT表示K的转置。
然后,利用softmax非线性分类器(也可以说非线性变换)将逻辑相似度e转换为query与每个key-value对之间的权重关系α,得到α=softmax(e)。
最后,根据权重关系α得到逻辑层的输出向量(记为SAN(Hn-1)),其中,SAN(Hn-1)由每个value的加权求和得到。在实际计算时,对α和value的向量序列V进行点积运算即可得到SAN(Hn-1),即SAN(Hn-1)=α·V。
子网络增强模块402,用于在所述第一神经网络中增加神经元排列的归纳偏置,得到第二神经网络。
需要说明的是,LSTM网络是基于传统RNN网络的一种改进网络,标准RNN网络的隐藏层只有一个状态h,h对短期的输入过于敏感,从而导致RNN无法处理长距离的依赖的问题。为了克服这一缺陷,LSTM网络在隐藏层上增加了一个状态c用来存储长期的状态,通常将该增加的状态称为单元状态。然而由此也带来了一个新的问题——如何有效控制长期状态c。为了解决该问题,学术界提出在LSTM网络中加入门控制结构,如图2所示,门控制结构包括遗忘门、输入门和输出门。其中,遗忘门用于控制上一时刻的单元状态ct-1有多少保留到当前时刻的单元状态ct、输入门用于控制当前时刻网络的输入xt有多少保存到单元状态ct、以及输出门用于控制当前时刻的单元状态ct有多少输出到当前的输出值ht。
具体实现中,本发明实施例中的归纳偏置具体是指通过某种方法强制执行的隐藏状态神经元之间单元状态的更新频率的顺序,这种归纳偏置通常被称为有序神经元。以LSTM网络为例,相比于基础网络——标准LSTM网络,加入了有序神经元的归纳偏置的ON-LSTM网络的单元状态的更新机制不同,最终得到的神经元的单元状态也不一样。
在ON-LSTM网络中,针对任意一个神经元,其单元状态的更新包括以下几个步骤:
(1)确定激活函数CU。在实际中,可以根据非线性分类器和累计求和函数来生成激活函数。其中,非线性分类器可以将输入映射为0到1之间的实数,常用的非线性分类器包括softmax;累计求和函数可以将输入进行累加,例如,若输入为1、2和3,则累计求和函数对输入进行累计求和后将得到1、3和6,常用的累计求和函数包括CUMSUM函数。因此,CU的具体形式可以但不限于为如(5)式所示的形式。
(2)根据激活函数,确定第二神经网络的主导遗忘门和主导输入门其中,可以先获取该神经元在当前时刻(假设为t时刻)的输入信息(xt)以及与该神经元连接的第二神经元,即该神经元的上一个神经元在相对当前时刻的上一个时刻(t-1)的输出信息(ht-1)。再按照激活函数对xt和ht-1进行计算得到和具体地,可以分别按照(6)和(7)式来计算和其中,与RNN模型类似,W、U和b表示对应门的线性系数和偏倚。
(3)先获取该神经元的单元状态为利用ON-LSTM的基础网络(也就是标准LSTM网络)中所使用的单元状态更新方法更新得到的单元状态。再根据和对进行进一步地更新,得到ON-LSTM网络下的单元状态ct。其中,具体运算方法和过程如(8)-(11)式所示,包括:
首先,确定主导遗忘门和主导输入门的重叠信息ωt、以及获取该神经元在上一时刻的单元状态ct-1。如式(8)所示,可以将和按元素相乘的乘积作为ωt,例如,A={a1,a2},B={b1,b2},则A和B按元素相乘的乘积为{a1*b1,a2*b1}。其中,ωt会受基础网络中的遗忘门和输入门的控制。此外,ct-1为在t-1时刻按照加入有序神经元的归纳偏置后的更新方法最终确定t-1时刻该神经元的单元状态。
接着,根据ωt、ct-1、以及标准LSTM网络中的遗忘门ft和输入门lt更新其中:1)如式(9)所示,可以先计算遗忘门ft与重叠信息ωt按元素相乘的乘积、以及主导遗忘门与重叠信息ωt之间的差值,并将该乘积与该差值的和作为中间态主导遗忘门2)如(10)式所示,可以先计算输入门lt与重叠信息ωt按元素相乘的乘积、以及主导输入门与重叠信息ωt之间的差值,并将该乘积与该差值的和作为中间态主导输入门
基于标准LSTM网络中有些神经元的单元状态更新慢,有些神经元的单元状态更新快,即高级神经元储存长期信息,低级神经元储存短期信息的现实,本发明实施例将标准LSTM网络作为基础网络,并向其中加入一种有序神经元的归纳偏置,可以增强神经元之间的依赖性,以及通过新的激活函数来主动分配神经元去储存长/短期信息,避免了高级和低级神经元之间的固定划分。综合起来,使得的ON-LSTM网络相比于其基础网络可以更好地建模输入序列中隐藏的树结构。
子网络融合模型403,用于根据所述第二神经网络和所述自关注网络,构建编码器。
具体实现中,可以直接将第二神经网络ON-LSTM网络和SAN进行混合,作为编码器,其中,ON-LSTM网络的层数K可以但不限于为3、以及SAN的层数L可以但不限于为3。例如,可以将ON-LSTM网络的系统函数记为ENCON-LSTM(·)、将SAN的系统函数记为ENCSANs(·),若编码器的输入为X,则ON-LSTM网络的输出为基于此,SAN网络的输出,也就是编码器的整体输出为
可选的,子网络融合模型403还可以按照预设的网络融合方式融合所述第二神经网络和所述自关注网络,得到编码器。
具体地,网络融合方式可以包括短路径连接和全连接中的至少一种。以短路径连接为例,当第二神经网络ON-LSTM和SAN网络按照短路径连接方式进行融合时,将ON-LSTM的系统函数记为ENCON-LSTM(·)、将SAN的系统函数记为ENCSANs(·)。此时,若编码器的输入为X,则ON-LSTM网络的输出为 基于ON-LSTM网络的输出可以进一步得到SAN网络的输出为最终,编码器的整体输出为
需要说明的是,短路径连接方式利用对应元素相加的方式,将加入神经元排列的归纳偏置的循环神经网络和自关注网络的输出表示更好地融合起来,可以进一步丰富编码器的输出的表达能力。
在得到编码器后,子网络融合模型403还可以将其与常用的机器翻译系统——Transfrom模型中的译码器进行融合,从而得到一种新的编码器-译码器结构的机器翻译模型,该机器翻译模型可以用于进行文本翻译。得益于ON-LSTM网络增强的层次建模能力、以及编码器的输出的丰富表达能力,新的机器翻译模型可以有效提高文本翻译的准确性以及模型训练的速度。以及将编码器应用于逻辑推测任务,可以有效提高逻辑推测的准确性。
在本发明实施例中,首先建立第一神经网络和自关注网络;接着在第一神经网络中加入神经元排列的归纳偏置,得到第二神经网络;然后将第二神经网络和自关注网络按照短路径连接或全连接方式进行融入和,从而得到编码器。不仅可以增强编码器的层次结构建模能力,还能提高编码器的输出的表示能力,从而提高机器翻译的准确性。
请参见图5,图5是本发明实施例提供的一种基于人工智能的编码器构建设备的结构示意图。如图所示,该设备可以包括:至少一个处理器501,至少一个通信接口502,至少一个存储器503和至少一个通信总线504。
其中,处理器501可以是中央处理器单元,通用处理器,数字信号处理器,专用集成电路,现场可编程门阵列或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框,模块和电路。所述处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,数字信号处理器和微处理器的组合等等。通信总线504可以是外设部件互连标准PCI总线或扩展工业标准结构EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信总线504用于实现这些组件之间的连接通信。其中,本发明实施例中设备的通信接口502用于与其他节点设备进行信令或数据的通信。存储器503可以包括易失性存储器,例如非挥发性动态随机存取内存(Nonvolatile Random Access Memory,NVRAM)、相变化随机存取内存(PhaseChange RAM,PRAM)、磁阻式随机存取内存(Magetoresistive RAM,MRAM)等,还可以包括非易失性存储器,例如至少一个磁盘存储器件、电子可擦除可编程只读存储器(ElectricallyErasable Programmable Read-Only Memory,EEPROM)、闪存器件,例如反或闪存(NORflash memory)或是反及闪存(NAND flash memory)、半导体器件,例如固态硬盘(SolidState Disk,SSD)等。存储器503可选的还可以是至少一个位于远离前述处理器501的存储装置。存储器503中存储一组程序代码,且处理器501执行存储器503中的程序:
建立第一神经网络和自关注网络,所述第一神经网络用于建模编码器输入序列的层次结构、以及所述自关注网络用于建模所述编码器输入序列的依存关系;
在所述第一神经网络中增加神经元排列的归纳偏置,得到第二神经网络;
根据所述第二神经网络和所述自关注网络,构建编码器,所述编码器用于执行自然语言处理任务。
可选的,处理器501还用于执行如下操作步骤:
按照预设的网络融合方式融合所述自关注网络和所述第二神经网络,得到所述编码器,所述网络融合方式包括短路径连接和全连接中的至少一种。
可选的,处理器501还用于执行如下操作步骤:
根据非线性分类器和累计求和函数构造激活函数、以及获取所述第一神经网络中的第一神经元在当前时刻的第一单元状态;
根据所述激活函数更新所述第一单元状态,得到所述第二神经网络。
可选的,处理器501还用于执行如下操作步骤:
获取所述第一神经元在所述当前时刻的输入信息、以及与所述第一神经元连接的第二神经元在所述当前时刻的上一时刻的输出信息;
按照所述激活函数对所述输入信息和所述输出信息进行运算,得到所述第二神经网络的主导遗忘门和主导输入门;
根据所述主导输入门和所述主导遗忘门,更新所述第一单元状态。
可选的,所述第一神经网络包括遗忘门和主导门;
处理器501还用于执行如下操作步骤:
确定所述主导输入门与所述主导遗忘门的重叠信息、以及获取所述第一神经元在所述上一时刻的第二单元状态;
根据所述重叠信息、所述遗忘门、所述输入门、所述主导遗忘门、所述主导输入门以及所述第二单元状态,更新所述第一单元状态。
可选的,处理器501还用于执行如下操作步骤:
计算所述遗忘门与所述重叠信息按元素相乘的第一乘积、以及所述主导遗忘门与所述重叠信息之间的第一差值;将所述第一乘积与所述第一差值的和作为中间态主导遗忘门;
计算所述输入门与所述重叠信息按元素相乘的第二乘积、以及所述主导输入门与所述重叠信息之间的第二差值;将所述第二乘积与所述第二差值的和作为中间态主导输入门;
根据所述中间态主导遗忘门、所述中间态主导输入门和所述第二单元状态,更新所述第一单元状态。
进一步的,处理器还可以与存储器和通信接口相配合,执行上述发明实施例中编码器的构建装置所执行的操作。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于人工智能的编码器构建方法,其特征在于,所述方法包括:
建立第一神经网络和自关注网络,其中,所述第一神经网络为基于树结构的循环神经网络,所述第一神经网络用于建模编码器输入序列的层次结构,所述层次结构包括所述编码器输入序列中的句法短语解析树和依赖树,所述自关注网络用于建模所述编码器输入序列的依存关系;
根据非线性分类器和累计求和函数构造激活函数、以及获取所述第一神经网络中的第一神经元在当前时刻的第一单元状态;
根据所述激活函数更新所述第一单元状态,得到第二神经网络,所述第二神经网络相比于所述第一神经 网络增强了建模输入序列中隐藏的树结构的能力;
按照预设的网络融合方式融合所述自关注网络和所述第二神经网络,得到编码器,所述编码器用于执行自然语言处理任务。
2.如权利要求1所述的方法,其特征在于,所述网络融合方式包括短路径连接和全连接中的至少一种。
3.如权利要求1所述的方法,其特征在于,所述根据所述激活函数,更新所述第一单元状态包括:
获取所述第一神经元在所述当前时刻的输入信息、以及与所述第一神经元连接的第二神经元在所述当前时刻的上一时刻的输出信息;
按照所述激活函数对所述输入信息和所述输出信息进行运算,得到所述第二神经网络的主导遗忘门和主导输入门;
根据所述主导遗忘门和所述主导输入门,更新所述第一单元状态。
4.如权利要求3所述的方法,其特征在于,所述第一神经网络包括遗忘门和主导门;
所述根据所述主导输入门和所述主导遗忘门,更新所述第一单元状态包括:
确定所述主导输入门与所述主导遗忘门的重叠信息、以及获取所述第一神经元在所述上一时刻的第二单元状态;
根据所述重叠信息、所述遗忘门、所述输入门、所述主导遗忘门、所述主导输入门以及所述第二单元状态,更新所述第一单元状态。
5.如权利要求4所述的方法,其特征在于,所述根据所述重叠信息、所述遗忘门、所述输入门、所述主导遗忘门、所述主导输入门以及所述第二单元状态,更新所述第一单元状态包括:
计算所述遗忘门与所述重叠信息按元素相乘的第一乘积、以及所述主导遗忘门与所述重叠信息之间的第一差值;将所述第一乘积与所述第一差值的和作为中间态主导遗忘门;
计算所述输入门与所述重叠信息按元素相乘的第二乘积、以及所述主导输入门与所述重叠信息之间的第二差值;将所述第二乘积与所述第二差值的和作为中间态主导输入门;
根据所述中间态主导遗忘门、所述中间态主导输入门和所述第二单元状态,更新所述第一单元状态。
6.如权利要求1-5任一项所述的方法,其特征在于,所述自然语言处理任务包括文本翻译和逻辑推测中的至少一项。
7.一种基于人工智能的编码器构建装置,其特征在于,所述装置包括:
子网络建模模块,用于建立第一神经网络和自关注网络,其中,所述第一神经为基于树结构的循环神经网络,所述第一神经网络用于建模编码器输入序列的层次结构,所述层次结构包括所述编码器输入序列中的句法短语解析树和依赖树,所述自关注网络用于建模所述编码器输入序列的依存关系;
子网络增强模块,用于根据非线性分类器和累计求和函数构造激活函数、以及获取所述第一神经网络中的第一神经元在当前时刻的第一单元状态;根据所述激活函数更新所述第一单元状态,得到第二神经网络,所述第二神经网络相比于所述第一神经 网络增强了建模输入序列中隐藏的树结构的能力;
子网络融合模块,用于按照预设的网络融合方式融合所述自关注网络和所述第二神经网络,得到编码器,所述编码器用于执行自然语言处理任务。
8.如权利要求7所述的装置,其特征在于,所述网络融合方式包括短路径连接和全连接中的至少一种。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1-6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910699876.2A CN110414012B (zh) | 2019-07-29 | 2019-07-29 | 一种基于人工智能的编码器构建方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910699876.2A CN110414012B (zh) | 2019-07-29 | 2019-07-29 | 一种基于人工智能的编码器构建方法及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110414012A CN110414012A (zh) | 2019-11-05 |
CN110414012B true CN110414012B (zh) | 2022-12-09 |
Family
ID=68364500
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910699876.2A Active CN110414012B (zh) | 2019-07-29 | 2019-07-29 | 一种基于人工智能的编码器构建方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110414012B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111144410B (zh) * | 2019-12-26 | 2023-08-04 | 齐鲁工业大学 | 一种跨模态的图像语义提取方法、系统、设备及介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107992597A (zh) * | 2017-12-13 | 2018-05-04 | 国网山东省电力公司电力科学研究院 | 一种面向电网故障案例的文本结构化方法 |
CN108932232A (zh) * | 2018-05-07 | 2018-12-04 | 内蒙古工业大学 | 一种基于lstm神经网络的蒙汉互译方法 |
CN108984524A (zh) * | 2018-07-05 | 2018-12-11 | 北京理工大学 | 一种基于变分神经网络主题模型的标题生成方法 |
CN109101712A (zh) * | 2018-07-27 | 2018-12-28 | 石家庄创天电子科技有限公司 | 基于图网络的产品模型设计系统及方法 |
CN109271646A (zh) * | 2018-09-04 | 2019-01-25 | 腾讯科技(深圳)有限公司 | 文本翻译方法、装置、可读存储介质和计算机设备 |
CN109543824A (zh) * | 2018-11-30 | 2019-03-29 | 腾讯科技(深圳)有限公司 | 一种序列模型的处理方法和装置 |
CN109948162A (zh) * | 2019-03-25 | 2019-06-28 | 北京理工大学 | 融合序列语法标注框架的生成式文本摘要方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3732633A1 (en) * | 2018-05-18 | 2020-11-04 | Google LLC | Universal transformers |
-
2019
- 2019-07-29 CN CN201910699876.2A patent/CN110414012B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107992597A (zh) * | 2017-12-13 | 2018-05-04 | 国网山东省电力公司电力科学研究院 | 一种面向电网故障案例的文本结构化方法 |
CN108932232A (zh) * | 2018-05-07 | 2018-12-04 | 内蒙古工业大学 | 一种基于lstm神经网络的蒙汉互译方法 |
CN108984524A (zh) * | 2018-07-05 | 2018-12-11 | 北京理工大学 | 一种基于变分神经网络主题模型的标题生成方法 |
CN109101712A (zh) * | 2018-07-27 | 2018-12-28 | 石家庄创天电子科技有限公司 | 基于图网络的产品模型设计系统及方法 |
CN109271646A (zh) * | 2018-09-04 | 2019-01-25 | 腾讯科技(深圳)有限公司 | 文本翻译方法、装置、可读存储介质和计算机设备 |
CN109543824A (zh) * | 2018-11-30 | 2019-03-29 | 腾讯科技(深圳)有限公司 | 一种序列模型的处理方法和装置 |
CN109948162A (zh) * | 2019-03-25 | 2019-06-28 | 北京理工大学 | 融合序列语法标注框架的生成式文本摘要方法 |
Non-Patent Citations (5)
Title |
---|
Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks;Yikang Shen等;《arXiv:1810.09536v6 》;20190508;1-14 * |
Towards Better Modeling Hierarchical Structure for Self-Attention with Ordered Neurons;Jie Hao等;《arXiv:1909.01562v1》;20190904;1-7 * |
一种用于供电服务评估的多模态多任务框架;沈然等;《计算机与现代化》;20181215;51-55 * |
有序神经元LSTM:ON-LSTM;rosefunR;《https://blog.csdn.net/rosefun96/article/details/91415220》;20190611;全文 * |
自然语言处理中的自注意力机制(Self-attention Mechanism);robert_ai;《https://www.cnblogs.com/robert-dlut/p/8638283.html》;20180324;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110414012A (zh) | 2019-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230025317A1 (en) | Text classification model training method, text classification method, apparatus, device, storage medium and computer program product | |
Feng et al. | Group consensus control for discrete‐time heterogeneous first‐and second‐order multi‐agent systems | |
CN111985245A (zh) | 基于注意力循环门控图卷积网络的关系提取方法及系统 | |
US11620569B2 (en) | Machine learning quantum algorithm validator | |
Tan et al. | Existence and global exponential stability of almost periodic solution for delayed competitive neural networks with discontinuous activations | |
Guo et al. | Approximate solution of LR fuzzy Sylvester matrix equations | |
Wang et al. | Global bounded consensus in heterogeneous multi‐agent systems with directed communication graph | |
CN112131888A (zh) | 分析语义情感的方法、装置、设备及存储介质 | |
Koufi et al. | Dynamics of a stochastic SIRS epidemic model with regime switching and specific functional response | |
Zhang et al. | Reachability and controllability analysis of probabilistic finite automata via a novel matrix method | |
CN110414012B (zh) | 一种基于人工智能的编码器构建方法及相关设备 | |
He et al. | Consensus of switched multi-agents system with cooperative and competitive relationship | |
Zhang et al. | Analysis of stability for impulsive fuzzy Cohen–Grossberg BAM neural networks with delays | |
Feng et al. | A learning fuzzy Petri net model | |
Yue et al. | Neuro‐adaptive consensus strategy for a class of nonlinear time‐delay multi‐agent systems with an unmeasurable high‐dimensional leader | |
Echenausía-Monroy et al. | Synchronization in Dynamically Coupled Fractional‐Order Chaotic Systems: Studying the Effects of Fractional Derivatives | |
Rao et al. | LMI‐Based Stability Criterion of Impulsive T‐S Fuzzy Dynamic Equations via Fixed Point Theory | |
CN114547308B (zh) | 文本处理的方法、装置、电子设备及存储介质 | |
CN114357160B (zh) | 基于生成传播结构特征的早期谣言检测方法及装置 | |
Leshchev | Artificial Intelligence Limitations: Blockchain Trust and Communication Transparency | |
CN112650861B (zh) | 一种基于任务分层的人格预测方法、系统及装置 | |
Trillas et al. | Fuzziness, cognition and cybernetics: an outlook on future | |
CN112036546B (zh) | 序列处理方法及相关设备 | |
Xu et al. | Impulsive Disturbances on the Dynamical Behavior of Complex‐Valued Cohen‐Grossberg Neural Networks with Both Time‐Varying Delays and Continuously Distributed Delays | |
Kalra et al. | Automated scheme for linearisation points selection in TPWL method applied to non‐linear circuits |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |