CN106919977B - 一种前馈序列记忆神经网络及其构建方法和系统 - Google Patents
一种前馈序列记忆神经网络及其构建方法和系统 Download PDFInfo
- Publication number
- CN106919977B CN106919977B CN201510998704.7A CN201510998704A CN106919977B CN 106919977 B CN106919977 B CN 106919977B CN 201510998704 A CN201510998704 A CN 201510998704A CN 106919977 B CN106919977 B CN 106919977B
- Authority
- CN
- China
- Prior art keywords
- layer
- output
- current
- bidirectional
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种前馈序列记忆神经网络及其构建方法和系统,该前馈序列记忆神经网络包括:至少三层的多个节点,第一层为输入层,最后一层为输出层,其它位于输入层和输出层之间的多个节点组成至少一个隐层,每一个隐层都包含一个记忆块,隐层与记忆块共同构成双向前馈序列记忆神经网络FSMN层,该记忆块用于存储每帧输入信息的历史信息和未来信息。由于该双向FSMN层包括记忆块,通过该记忆块存储每帧输入信息的历史信息和未来信息,可以利用训练数据的长时信息,并且该过程无需通过双向循环反馈,可以保证信息处理效率。
Description
技术领域
本发明涉及人工智能领域,具体涉及一种前馈序列记忆神经网络及其构建方法和系统。
背景技术
人工神经网络是从微观结构与功能上对人脑神经系统的模拟而建立起来的一类模型,具有模拟人的部分形象思维的能力,其特点主要是具有非线性特征、学习能力和自适应性,是实现人工智能的重要途径,它是由简单信息处理单元互联组成的网络,能接受并处理信息,网络的信息处理由单元之间的相互作用来实现,具体处理信息时,通过将问题表达为处理单元之间的连接权重来处理。近年来,神经网络在人机交互的应用系统中起到了至关重要的作用,如基于深度神经网络的语音识别系统,基于深度神经网络的语音合成系统等,现有的神经网络如前馈神经网络在进行信息处理时,实现的是固定的输入到固定输出的映射关系,每个时刻的样本是独立计算的,不能有效利用训练数据的长时信息;现有的神经网络在处理具有时序依赖性的数据时,经常得不到很好的效果,所述具有时序依赖性的数据指数据与之数据之间存在前后依赖的关系,如语音识别时,为了提升识别的准确率,经常需要考虑语音数据的上下文信息。因此,为了使神经网络有效利用训练数据的长时信息,研究人员提出了具有记忆功能的递归神经网络,这种神经网络采用双向循环反馈的结构来实现记忆功能,使得该递归神经网络可以利用训练数据的长时信息。但是,该递归神经网络结构较复杂,训练网络参数时,经常存在不稳定性;并且,具有双向循环反馈的网络结构在对训练数据实现记忆功能时,需要等数据输入结束后,根据反馈信息来实现记忆,在信息处理效率较高的应用系统中无法使用,尤其是实时信息处理系统,经常需要用户等待较长的时间,降低了用户体验效果。
发明内容
本发明实施例提供一种前馈序列记忆神经网络及其构建方法和系统,解决在有效利用训练数据的长时信息的前提下,现有神经网络无法保证信息处理效率的问题,以提高用户体验效果。
为此,本发明实施例提供如下技术方案:
一种前馈序列记忆神经网络包括至少三层的多个节点,第一层为输入层,最后一层为输出层,其它位于输入层和输出层之间的多个节点组成至少一个隐层,层与层之间的节点是全连接的,每一个隐层都包含一个记忆块,隐层与记忆块共同构成双向前馈序列记忆神经网络FSMN层,其中,当前隐层的记忆块的输入为当前隐层的输出,当前隐层的记忆块的输出为下一层的一个输入,所述记忆块用于存储当前帧输入数据的历史信息和未来信息,所述历史信息为当前帧输入数据之前帧的特征序列,所述未来信息为当前帧输入数据之后帧的特征序列。
优选地,所述前馈序列记忆神经网络还包括:
各双向FSMN层都相应存在一个长短时记忆LSTM层,同一层的双向FSMN层和LSTM层共同构成双向长短时前馈序列记忆神经网络LSFSMN层,其中,当前LSTM层的输入为输入层的输出或上一LSTM层、上一隐层以及上一隐层的记忆块的输出,当前LSTM层的输出为下一隐层和下一LSTM层的一个输入,其中,所述LSTM层用于记忆历史信息,所述双向FSMN层用于记忆未来信息。
优选地,所述前馈序列记忆神经网络还包括:位于双向FSMN叠层和所述输出层之间的全连接叠层,其中,所述全连接叠层的输入端和所述双向FSMN叠层的输出端相连接,所述全连接叠层的输出端和所述输出层的输入端相连接,所述全连接叠层包括至少一个全连接层,所述双向FSMN叠层包括至少一个双向FSMN层;或者
位于双向LSFSMN叠层和所述输出层之间的全连接叠层,其中,所述全连接叠层的输入端和所述双向LSFSMN叠层的输出端相连接,所述全连接叠层的输出端和所述输出层的输入端相连接,所述全连接叠层包括至少一个全连接层,所述双向LSFSMN叠层包括至少一个双向LSFSMN层。
一种前馈序列记忆神经网络的构建方法,包括:
收集大量训练数据,并提取所述训练数据的特征序列;
构建前馈序列记忆神经网络;
利用所述训练数据的特征序列对构建的前馈序列记忆神经网络进行训练,得到前馈序列记忆神经网络的参数取值。
优选地,所述构建前馈序列记忆神经网络包括:
确定前馈序列记忆神经网络的结构;
根据确定的前馈序列记忆神经网络结构确定所述特征序列的变换方法及相应前馈序列记忆神经网络的参数。
优选地,所述前馈序列记忆神经网络的参数包括以下一种或多种:历史信息权重、未来信息权重、当前隐层与下个隐层的连接权重矩阵及权重偏置、当前隐层的记忆块与下个隐层的连接权重矩阵及权重偏置、当前LSTM层与下个隐层的连接权重矩阵与权重偏置、当前LSTM层与下个LSTM层的转换矩阵及权重偏置、当前隐层与下个LSTM层的连接权重矩阵与权重偏置、当前隐层的记忆块与下个LSTM层的连接权重矩阵与权重偏置、当前LSTM层与当前LSTM层的转换矩阵及权重偏置、当前全连接层与下个全连接层的连接权重矩阵及权重偏置、当前双向FSMN层与下个全连接层的连接权重矩阵及权重偏置、当前LSTM层与下个全连接层的连接权重矩阵与权重偏置、当前全连接层与输出层的连接权重矩阵及权重偏置。
优选地,对于包括双向FSMN叠层的前馈序列记忆神经网络,所述根据确定的前馈序列记忆神经网络结构确定所述特征序列的变换方法及相应前馈序列记忆神经网络的参数包括:
由输入层输入所述训练数据的特征序列,进入所述双向FSMN叠层;
各双向FSMN层的隐层对输入特征序列进行特征变换,并由记忆块保存当前帧训练数据的历史信息和未来信息;
利用所述历史信息权重和所述未来信息权重对训练数据的历史信息和未来信息进行融合,获取每帧训练数据的融合特征序列,作为当前隐层的记忆块的输出特征序列;
利用所述当前隐层与下个隐层的连接权重矩阵及权重偏置、所述当前隐层的记忆块与下个隐层的连接权重矩阵及权重偏置对所述当前隐层的输出特征序列和该隐层记忆块的输出特征序列进行变换,获取下一隐层的输出特征序列;
以最后一个隐层的输出和\或该隐层记忆块的输出作为输出层的输入,进行变换获取输出层的输出结果。
优选地,对于包括双向LSFSMN叠层的前馈序列记忆神经网络,所述根据确定的前馈序列记忆神经网络结构确定所述特征序列的变换方法及相应前馈序列记忆神经网络的参数包括:
由输入层输入所述训练数据的特征序列,进入双向LSFSMN叠层;
由LSFSMN层的双向FSMN层的隐层和LSTM层对输入特征序列进行特征变换,并由LSTM层保存当前帧训练数据的历史信息,记忆块保存当前帧训练数据的未来信息;
利用所述当前隐层与下个隐层的连接权重矩阵及权重偏置、所述当前隐层的记忆块与下个隐层的连接权重矩阵及权重偏置、当前LSTM层与下个LSTM层的转换矩阵及权重偏置、当前隐层与下个LSTM层的连接权重矩阵与权重偏置、当前LSTM层与当前LSTM层的转换矩阵及权重偏置、当前隐层的记忆块与下个LSTM层的连接权重矩阵与权重偏置对所述当前隐层的输出特征序列、当前隐层的记忆块的输出特征序列及当前LSTM层的输出特征序列进行变换,获取下一隐层和下一LSTM层的输出特征序列;
以最后一个隐层的输出和\或该隐层记忆块的输出及最后一个LSTM层的输出作为输出层的输入,进行变换获取输出层的输出结果。
优选地,对于包括全连接叠层的前馈序列记忆神经网络,所述方法还包括:
当训练数据的特征序列从双向FSMN层或双向LSFSMN层进入全连接层时,利用当前双向FSMN层与下个全连接层的连接权重矩阵及权重偏置或当前双向FSMN层与下个全连接层的连接权重矩阵及权重偏置、当前LSTM层与下个隐层的连接权重矩阵与权重偏置,对当前双向FSMN层或双向LSFSMN层的输出特征进行变换,获取全连接层的输出特征序列;
当训练数据的特征序列进入所述全连接层之后,利用所述当前全连接层与下个全连接层的连接权重矩阵及权重偏置对当前全连接层的输出特征序列进行变换,获取下一全连接层的输出特征序列;
当训练数据的特征序列由全连接层进入输出层时,利用当前全连接层与输出层的连接权重矩阵及权重偏置对当前全连接层的输出特征进行变换,获取输出层的输出特征序列。
一种前馈序列记忆神经网络的构建系统,包括:
提取模块,用于收集大量训练数据,并提取所述训练数据的特征序列;
构建模块,用于构建前馈序列记忆神经网络;
训练模块,用于利用所述训练数据的特征序列对构建的前馈序列记忆神经网络进行训练,得到前馈序列记忆神经网络的参数取值。
优选地,所述构建模块包括:
结构确定单元,用于确定前馈序列记忆神经网络的结构;
参数确定单元,用于根据确定的前馈序列记忆神经网络结构确定所述特征序列的变换方法及相应前馈序列记忆神经网络的参数。
优选地,所述前馈序列记忆神经网络的参数包括以下一种或多种:历史信息权重、未来信息权重、当前隐层与下个隐层的连接权重矩阵及权重偏置、当前隐层的记忆块与下个隐层的连接权重矩阵及权重偏置、当前LSTM层与下个隐层的连接权重矩阵与权重偏置、当前LSTM层与下个LSTM层的转换矩阵及权重偏置、当前隐层与下个LSTM层的连接权重矩阵与权重偏置、当前隐层的记忆块与下个LSTM层的连接权重矩阵与权重偏置、当前LSTM层与当前LSTM层的转换矩阵及权重偏置、当前全连接层与下个全连接层的连接权重矩阵及权重偏置、当前双向FSMN层与下个全连接层的连接权重矩阵及权重偏置、当前LSTM层与下个全连接层的连接权重矩阵与权重偏置、当前全连接层与输出层的连接权重矩阵及权重偏置。
优选地,对于包括双向FSMN叠层的前馈序列记忆神经网络,所述参数确定单元包括:
第一输入子单元,用于由输入层输入所述训练数据的特征序列,进入所述双向FSMN叠层;
第一变换子单元,用于各双向FSMN层的隐层对输入特征序列进行特征变换,并由记忆块保存当前帧训练数据的历史信息和未来信息;
特征融合子单元,用于利用所述历史信息权重和所述未来信息权重对训练数据的历史信息和未来信息进行融合,获取每帧训练数据的融合特征序列,作为当前隐层的记忆块的输出特征序列;
第二变换子单元,用于利用所述当前隐层与下个隐层的连接权重矩阵及权重偏置、所述当前隐层的记忆块与下个隐层的连接权重矩阵及权重偏置对所述当前隐层的输出特征序列和该隐层记忆块的输出特征序列进行变换,获取下一隐层的输出特征序列;
第三变换子单元,用于以最后一个隐层的输出和\或该隐层记忆块的输出作为输出层的输入,进行变换获取输出层的输出结果。
优选地,对于包括双向LSFSMN叠层的前馈序列记忆神经网络,所述参数确定单元包括:
第二输入子单元,用于由输入层输入所述训练数据的特征序列,进入双向LSFSMN叠层;
第四变换子单元,用于由LSFSMN层的双向FSMN层的隐层和LSTM层对输入特征序列进行特征变换,并由LSTM层保存当前帧训练数据的历史信息,记忆块保存当前帧训练数据的未来信息;
第五变换子单元,用于利用所述当前隐层与下个隐层的连接权重矩阵及权重偏置、所述当前隐层的记忆块与下个隐层的连接权重矩阵及权重偏置、当前LSTM层与下个LSTM层的转换矩阵及权重偏置、当前LSTM层与当前LSTM层的转换矩阵及权重偏置、当前隐层与下个LSTM层的连接权重矩阵与权重偏置、当前隐层的记忆块与下个LSTM层的连接权重矩阵与权重偏置对所述当前隐层的输出特征序列、当前隐层的记忆块的输出特征序列及当前LSTM层的输出特征序列进行变换,获取下一隐层和下一LSTM层的输出特征序列。
第六变换子单元,用于以最后一个隐层的输出和\或该隐层记忆块的输出及最后一个LSTM层的输出作为输出层的输入,进行变换获取输出层的输出结果。
优选地,对于包括全连接叠层的前馈序列记忆神经网络,所述参数确定单元还包括:
第七变换子单元,用于当训练数据的特征序列从双向FSMN层或双向LSFSMN层进入全连接层时,利用当前双向FSMN层与下个全连接层的连接权重矩阵及权重偏置或当前双向FSMN层与下个全连接层的连接权重矩阵及权重偏置、当前LSTM层与下个隐层的连接权重矩阵与权重偏置,对当前双向FSMN层或双向LSFSMN层的输出特征进行变换,获取全连接层的输出特征序列;
第八变换子单元,用于当训练数据的特征序列进入所述全连接层之后,利用所述当前全连接层与下个全连接层的连接权重矩阵及权重偏置对当前全连接层的输出特征序列进行变换,获取下一全连接层的输出特征序列;
第九变换子单元,用于当训练数据的特征序列由全连接层进入输出层时,利用当前全连接层与输出层的连接权重矩阵及权重偏置对当前全连接层的输出特征进行变换,获取输出层的输出特征序列。
本发明实施例提供的前馈序列记忆神经网络及其构建方法和系统,该神经网络包括记忆块,通过该记忆块可以存储每帧输入的历史信息和未来信息,以利用训练数据的长时信息,进而提升该神经网络处理信息数据的能力,并且该过程无需通过双向循环反馈,使得本发明提供的前馈序列记忆神经网络在有效利用训练数据的长时信息的前提下保证信息处理效率,提高了用户体验效果。
进一步地,为了提升神经网络的记忆能力,本发明还提供了另一种网络结构,该结构中各双向FSMN层都相应存在一个长短时记忆LSTM层,同一层的双向FSMN层和LSTM层共同构成双向长短时前馈序列记忆神经网络LSFSMN层,利用LSTM层来记忆每帧训练数据的历史信息,利用FSMN层来记忆每帧训练数据的未来信息,有效提升了前馈序列记忆神经网络的记忆能力,进而提升该神经网络处理信息数据的能力。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是现有技术中前馈神经网络的结构示意图;
图2是根据本发明实施例提供的前馈序列记忆神经网络的第一种结构示意图;
图3是根据本发明实施例提供的双向FSMN层的一种时序展开结构示意图;
图4是根据本发明实施例提供的前馈序列记忆神经网络的第二种结构示意图;
图5是根据本发明实施例提供的前馈序列记忆神经网络的第三种结构示意图;
图6是根据本发明实施例提供的前馈序列记忆神经网络的第四种结构示意图;
图7是根据本发明实施例提供的一种前馈序列记忆神经网络的构建方法的流程图;
图8是根据本发明实施例提供的前馈序列记忆神经网络的构建系统的一种结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施例方式对本发明作进一步的详细说明。以下实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
为了更好地理解本发明,下面首先对现有技术中主要的神经网络进行简介,现有神经网络结构的一种为前馈神经网络结构,如图1所示,该结构具体包括输入层、隐层及输出层,每层由很多节点构成,层与层之间的节点是全连接的,同一层节点之间没有连接;另一种常用的神经网络结构为递归神经网络结构,具体包括输入层、隐层及输出层,每层由很多节点构成,隐层采用双向循环反馈结构。但是前馈神经网络的结构由于同一层节点之间没有连接,在进行信息处理时,实现的是固定的输入到固定输出的映射关系,每个时刻的样本是独立计算的。不能有效利用训练数据的长时信息,大大降低了信息处理的能力;递归神经网络结构,由于采用双向循环反馈的结构来实现记忆功能,网络结构较复杂,对训练数据实现记忆功能时,需要等数据输入结束后,根据反馈信息来实现记忆,在信息处理效率较高的应用系统中无法使用,尤其是实时信息处理系统,经常需要用户等待较长的时间,降低了用户体验效果。
本发明提供的前馈序列记忆神经网络由于每一个双向FSMN层都包含一个记忆块,该记忆块用于存储每帧输入数据的历史信息和未来信息,该历史信息和未来信息能体现数据的长时信息,有效提升神经网络处理信息数据的能力,并且该网络结构不需要采用双向循环反馈的结构,而是采用记忆块来实现记忆功能,从而提高信息处理的效率。为了更好的理解本发明的技术方案和技术效果,以下将结合流程图和具体的实施例进行详细的描述。
如图2至图6所示,是本发明实施例提供的前馈序列记忆神经网络的结构示意图:
实施例一
一种前馈序列记忆神经网络包括至少三层的多个节点,第一层为输入层,最后一层为输出层,其它位于输入层和输出层之间的多个节点组成至少一个隐层,层与层之间的节点是全连接的,还包括:每一个隐层都包含一个记忆块,隐层与记忆块共同构成双向前馈序列记忆神经网络FSMN层,其中,当前隐层的记忆块的输入为当前隐层的输出,当前隐层记忆块的输出为下一隐层的一个输入,所述记忆块用于存储每帧输入数据的历史信息和未来信息,所述历史信息为当前帧输入数据之前帧的特征序列,所述未来信息为当前帧输入数据之后帧的特征序列,如图2所示。需要说明的是,现有技术中前馈神经网络的同一层节点之间没有连接,而本发明提供的神经网络结构中,各FSMN层的隐层都与本层的记忆块相连接,使得该记忆块可以存储每帧输入数据的历史信息和未来信息。
在实际应用中,双向FSMN叠层可以由至少一个双向FSMN层,如包含2个或3个,具体可以根据实际应用需求设定,所述记忆块由多个节点构成,该记忆块中存储的每帧输入数据的历史信息和未来信息等,具体存储多少帧历史信息和未来信息可以根据实际应用或经验值等设定,一种双向FSMN层的时序展开结构如图3所示,该双向FSMN层存储当前帧输入数据之前2帧的历史信息,未存储未来信息。该示意图仅为说明本实施例,不能被解释为对本发明的限定,例如,该双向FSMN层的记忆块可以存储当前帧输入数据之前5帧的历史信息,并存储当前帧输入数据之后5帧的未来信息,在此不再列举。
实施例二
一种前馈序列记忆神经网络,如实施例一所述,所不同的是,在本实施例中,为了提升神经网络处理信息数据的能力,所述双向FSMN叠层替换为双向LSFSMN叠层,各双向LSFSMN层由同一层的双向FSMN层和LSTM层共同构成,其中,所述LSTM层用于记忆历史信息,所述双向FSMN层用于记忆未来信息。该神经网络结构对输入数据的记忆能力优于实施例一提供的神经网络结构。
一种前馈序列记忆神经网络包括至少三层的多个节点,第一层为输入层,最后一层为输出层,其它位于输入层和输出层之间的多个节点组成至少一个隐层,层与层之间的节点是全连接的,每一个隐层都包含一个记忆块,隐层与记忆块共同构成双向前馈序列记忆神经网络FSMN层,其中,当前隐层的记忆块的输入为当前隐层的输出,当前隐层记忆块的输出为下一层的一个输入,所述记忆块用于存储当前帧输入数据的历史信息和未来信息,所述历史信息为当前帧输入数据之前帧的特征序列,所述未来信息为当前帧输入数据之后帧的特征序列;所述前馈序列记忆神经网络还包括:各双向FSMN层都相应存在一个长短时记忆LSTM层,同一层的双向FSMN层和LSTM层共同构成双向长短时前馈序列记忆神经网络LSFSMN层,其中,当前LSTM层的输入为输入层的输出或上一LSTM层、上一隐层以及上一隐层的记忆块的输出,当前LSTM层的输出为下一隐层和下一LSTM层的一个输入,其中,所述LSTM层用于记忆历史信息,所述双向FSMN层用于记忆未来信息,所述双向LSFSMN叠层包括至少一个双向LSFSMN层,如图4所示。
实施例三
一种前馈序列记忆神经网络,如实施例一所述,所不同的是,在本实施例中,为了提升神经网络处理信息数据的能力,该神经网络结构还包括全连接叠层。该神经网络结构的信息处理能力优于实施例一提供的神经网络结构,且信息处理效率不会明显下降。
一种前馈序列记忆神经网络包括至少三层的多个节点,第一层为输入层,最后一层为输出层,其它位于输入层和输出层之间的多个节点组成至少一个隐层,层与层之间的节点是全连接的,每一个隐层都包含一个记忆块,隐层与记忆块共同构成双向前馈序列记忆神经网络FSMN层,其中,当前隐层的记忆块的输入为当前隐层的输出,当前隐层记忆块的输出为下一层的一个输入,所述记忆块用于存储当前帧输入数据的历史信息和未来信息,所述历史信息为当前帧输入数据之前帧的特征序列,所述未来信息为当前帧输入数据之后帧的特征序列;此外,所述前馈序列记忆神经网络还包括:位于双向FSMN叠层和所述输出层之间的全连接叠层,其中,所述全连接叠层的输入端和所述双向FSMN叠层的输出端相连接,所述全连接叠层的输出端和所述输出层的输入端相连接,所述全连接叠层包括至少一个全连接层,所述双向FSMN叠层包括至少一个双向FSMN层,如图5所示。
优选地,全连接叠层为2至3层,该全连接叠层可以进一步提升神经网络的信息处理能力并且不会造成效率降低的问题。
实施例四
一种前馈序列记忆神经网络,如实施例一所述,所不同的是,在本实施例中,为了提升神经网络处理信息数据的能力,所述双向FSMN叠层替换为双向LSFSMN叠层,各双向LSFSMN层由同一层的双向FSMN层和LSTM层共同构成,其中,所述LSTM层用于记忆历史信息,所述双向FSMN层用于记忆未来信息;此外,该神经网络结构还包括全连接叠层。该神经网络结构的信息处理能力最优,但是信息处理效率略低于实施例一至三。
一种前馈序列记忆神经网络包括至少三层的多个节点,第一层为输入层,最后一层为输出层,其它位于输入层和输出层之间的多个节点组成至少一个隐层,层与层之间的节点是全连接的,每一个隐层都包含一个记忆块,隐层与记忆块共同构成双向前馈序列记忆神经网络FSMN层,其中,当前隐层的记忆块的输入为当前隐层的输出,当前隐层记忆块的输出为下一层的一个输入,所述记忆块用于存储当前帧输入数据的历史信息和未来信息,所述历史信息为当前帧输入数据之前帧的特征序列,所述未来信息为当前帧输入数据之后帧的特征序列,各双向FSMN层都相应存在一个长短时记忆LSTM层,同一层的双向FSMN层和LSTM层共同构成双向长短时前馈序列记忆神经网络LSFSMN层,其中,当前LSTM层的输入为输入层的输出或上一LSTM层、上一隐层以及上一隐层的记忆块的输出,当前LSTM层的输出为下一隐层和下一LSTM层的一个输入,其中,所述LSTM层用于记忆历史信息,所述双向FSMN层用于记忆未来信息;该神经网络结构还包括位于双向LSFSMN叠层和所述输出层之间的全连接叠层,其中,所述全连接层的输入端和所述双向LSFSMN叠层的输出端相连接,所述全连接叠层的输出端和所述输出层的输入端相连接,所述全连接叠层包括至少一个全连接层,所述双向LSFSMN叠层包括至少一个双向LSFSMN层,如图6所示。
本发明实施例提供的前馈序列记忆神经网络,该神经网络与传统的神经网络相比,在神经网络的隐层额外增加了一个记忆块,该记忆块用于保存每帧训练数据的历史信息和未来信息,有效提升了神经网络处理信息数据的能力。进一步地,所述前馈序列记忆神经网络还包括LSTM叠层,利用记忆块保存每帧训练数据的未来信息,利用LSTM保存每帧训练数据的历史信息,进一步提升了神经网络处理信息数据的能力。
相应地,本发明还提供了一种前馈序列记忆神经网络的构建方法,该构建方法的流程图如图7所示,包括:
步骤S01,收集大量训练数据,并提取所述训练数据的特征序列。
在本实施例中,所述训练数据可以为语音数据、文本数据、或图像数据等,具体可以根据应用需求确定。
以语音数据为例,提取训练数据的特征时,首先需要对每句语音数据进行分帧处理,得到语音帧序列;然后提取各语音帧的语音特征,所述语音特征,可以是感知线性预测系数(Perceptual Linear Predictive,PLP),它是受人的听觉系统研究成果推动而导出的声学特征,当然也可以是FilterBank特征、梅尔频率倒谱系数(Mel Frequency CepstrumCoefficient,MFCC)、线性预测系数(linear prediction Coefficient,LPC)等语音特征等。具体提取方法与现有技术相同。
步骤S02,构建前馈序列记忆神经网络。
在本实施例中,所述构建前馈序列记忆神经网络可以包括:确定前馈序列记忆神经网络的结构;根据确定的前馈序列记忆神经网络结构确定所述特征序列的变换方法及相应前馈序列记忆神经网络的参数。其中,所述前馈序列记忆神经网络的参数可以包括以下一种或多种:历史信息权重、未来信息权重、当前隐层与下个隐层的连接权重矩阵及权重偏置、当前隐层的记忆块与下个隐层的连接权重矩阵及权重偏置、当前LSTM层与下个隐层的连接权重矩阵与权重偏置、当前LSTM层与下个LSTM层的转换矩阵及权重偏置、当前隐层与下个LSTM层的连接权重矩阵与权重偏置、当前隐层的记忆块与下个LSTM层的连接权重矩阵与权重偏置、当前LSTM层与当前LSTM层的转换矩阵及权重偏置、当前全连接层与下个全连接层的连接权重矩阵及权重偏置、当前双向FSMN层与下个全连接层的连接权重矩阵及权重偏置、当前LSTM层与下个全连接层的连接权重矩阵与权重偏置、当前全连接层与输出层的连接权重矩阵及权重偏置。
在一个具体实施例中,前馈序列记忆神经网络由三部分构成,即输入层、双向FSMN叠层及输出层,双向FSMN叠层至少包括一个双向FSMN层;每层包含多个节点,如2048个,双向FSMN层包含记忆块,所述记忆块用来保存每帧训练数据的历史信息和未来信息,记忆的历史信息和未来信息的帧数可以根据实际应用确定,如一条训练数据共T帧,第t帧训练数据的历史信息可以指第t帧之前一帧或多帧训练数据,即第1帧到第t-1帧的一帧或多帧训练数据,未来信息可以指第t帧之生一帧或多帧训练数据,即第t+1到帧到第T帧的一帧或多帧训练数据,记忆块存储的历史信息和未来信息的帧数可以根据实际应用确定。输入层为训练数据提取的特征序列,输出层为每帧训练数据所属的数据单元,以语音数据为例,所述数据单元可以为隐马尔可夫模型的状态、音素单元或音节单元等。
对于包括双向FSMN叠层的前馈序列记忆神经网络,所述根据确定的前馈序列记忆神经网络结构确定所述特征序列的变换方法及相应前馈序列记忆神经网络的参数包括:
首先,由输入层输入所述训练数据的特征序列,进入所述双向FSMN叠层,其中,所述声学特征序列使用X表示,其中X={x1,x2,...,xt,...,xT},xt表示输入层输入的第t帧训练数据的特征;
然后,各双向FSMN层的隐层对输入特征序列进行特征变换,并由记忆块保存每帧训练数据的历史信息和未来信息,其中输入层的输出特征序列作为双向FSMN层的输入特征序列,双向FSMN层对输入特征序列进行特征变换,在特征变换的过程中使用记忆块保存每帧训练数据的历史信息和未来信息。例如训练数据的特征序列经过第l个双向FSMN层,第l个双向FSMN层的隐层的输出特征序列使用表示, 表示第l个隐层的第t帧输出特征,Dl为第l个隐层的节点数目,第l个隐层的特征序列变换方法与现有技术相同,在此不再详述,隐层输出的每帧特征的历史信息和未来信息通过记忆块保存,将隐层的输出特征序列作为该层记忆块的输入特征序列;
接着,利用所述历史信息权重和所述未来信息权重对训练数据的历史信息和未来信息进行融合,获取每帧训练数据的融合特征序列,作为当前隐层的记忆块的输出特征序列;其中,记忆块的输出特征序列使用表示, 表示第l个隐层的记忆块的第t帧输出特征,记忆块保存信息时,首先将当前隐层输出的特征序列作为该双向FSMN层的记忆块的输入特征序列;然后以帧为单位,将每帧输入特征的历史信息和未来信息进行融合,得到当前帧的融合特征;最后将每帧训练数据的历史信息和未来信息融合后的特征保存到记忆块中,作为每帧训练数据的融合特征,具体融合方法如式(1)所示:
其中,为在第l个双向FSMN层的记忆块中第t帧特征历史信息和未来信息的融合特征,作为记忆块的输出特征,为在第l个双向FSMN层的记忆块中第t帧特征的第i个历史信息,为在第l个双向FSMN层的记忆块中第t帧特征的第j个未来信息,表示两个向量对应维度元素间的乘法操作符,N1、N2分别表示记忆块的第t帧特征的历史信息和未来信息记忆的帧数,具体可以根据实际应用设置;历史信息权重 表示第t帧特征第i个历史信息的权重,Al为Dl x N1的矩阵,将Al称为正向权重;未来信息权重 表示第t帧特征第j个未来信息的权重,Bl为Dlx N2的矩阵,将Bl称为反向权重,所述正向权重和反向权重为前馈序列记神经网络的参数,可以通过大量数据训练得到,通过正向权重和反向权重的作用,使得双向FSMN层可以保存每帧训练数据的历史信息和未来信息;如图3为N1=2,N2=0时,第l个双向FSMN层的时序展开结构;需要说明的是,现有技术中可以采用双向循环反馈结构来实现记忆功能,但是需要在一个输入信号的所有帧都处理完成后,才能获取历史信息,并且该历史信息包括最后一帧之前所有帧历史信息,使得现有双向循环反馈结构的信息处理效率较低,尤其不能应用在实时交互的情景中,例如,用户必须等系统将一个输入信息的所有帧都处理完成后,才能给出输出结果,当存在较长的输入信息时,用户需要等待的时间较长;而本发明提供的记忆块存储的每帧输入信息的历史信息和未来信息的帧数可以预先设定,例如获取当前帧之前3帧或5帧历史信息、当前帧之后3帧或5帧未来信息等,这样,不必等一个输入信息的所有帧都处理完成后才能获得每帧输入信息的历史信息或未来信息,当设定的历史信息和/或未来信息的帧数较少时,用户使用过程中甚至感觉不到信息处理过程的耗时,能够大大提高信息处理效率,提升客户使用的满意度;
然后,利用所述当前隐层与下个隐层的连接权重矩阵及权重偏置、所述当前隐层的记忆块与下个隐层的连接权重矩阵及权重偏置对所述当前隐层的输出特征序列和该隐层记忆块的输出特征序列进行变换,获取下一隐层的输出特征序列;其中,将记忆块的输出特征序列与记忆块所在双向FSMN层的隐层的输出特征序列一起作为下一双向FSMN层的隐层的输入特征序列,则下一双向FSMN层的隐层的输出特征序列为对输入特征序列进行变换后的特征序列,具体可以通过激活函数对输入特征序列进行变换,如将第l个双向FSMN层的隐层的输出特征序列及第l个双向FSMN层的记忆块的输出特征序列作为第l+1个双向FSMN层的隐层的输入,得到的第l+1个隐层输出特征序列的变换方法如式(2)所示:
其中,为第l+1个双向FSMN层的隐层输出的第t帧特征,Wl为第l个双向FSMN层的隐层与第l+1个隐层的连接权重矩阵,为第l个双向FSMN层的记忆块与第l+1个双向FSMN层的隐层的连接权重矩阵,bl为权重偏置,Wl、及bl为前馈序列记忆神经网络参数,具体可根据大量数据训练得到,f为激活函数,如激活函数为ReLU时,f(x)=max{0,x},当然也可以为其它激活函数,本案不作限定。
最终,以最后一个隐层的输出和该隐层记忆块的输出作为输出层的输入,进行变换获取输出层的输出结果;其中,输出层的预测目标为每帧训练数据所属的数据单元,具体变换方法同现有技术,激活函数为softmax函数。
在另一个实施例中,不同于上一个实施例,前馈序列记忆神经网络由四部分构成,即输入层、双向FSMN叠层、全连接叠层及输出层,其中双向FSMN叠层包括至少一个双向FSMN层,全连接叠层包括至少一个全连接层,具体结构参考实施例三,当训练数据的特征序列从双向FSMN层进入全连接层时,利用当前双向FSMN层与下个全连接层的连接权重矩阵及权重偏置对当前双向FSMN层的输出特征进行变换,获取全连接层的输出特征序列;当训练数据的特征序列进入所述全连接层之后,利用所述当前全连接层与下个全连接层的连接权重矩阵及权重偏置对当前全连接层的输出特征序列进行变换,获取下一全连接层的输出特征序列;当训练数据的特征序列由全连接层进入输出层时,利用当前全连接层与输出层的连接权重矩阵及权重偏置对当前全连接层的输出特征进行变换,获取输出层的输出特征序列。具体的,特征序列经过双向FSMN叠层进入全连接叠层,所述全连接层与双向FSMN层的区别在于,全连接层没有记忆块,当特征序列从双向FSMN叠层进入全连接叠层时(即最后一个双向FSMN层进入第一个全连接层时),特征序列的变换方法如式(2)所示,当特征序列在全连接叠层内传递时,特征序列的变换不需要考虑记忆块。以第m个全连接层(可以为现有技术中的隐层)和第m+1个全连接层为例,特征序列在全连接层之间的变换方法如式(3)所示:
其中,为第m+1个全连接层(隐层)的输出特征,为第m个隐层的输出特征,作为第m+1个隐层的输入特征,Wm为第m个隐层与第m+1个隐层之间的连接权重矩阵,bm为权重偏置,Wm和bm为前馈序列记忆神经网络的参数,f为激活函数,所述激活函数与双向FSMN层的激活函数相同。最后,特征序列经过全连接叠层进入输出层,输出层的预测目标为每帧训练数据所属的数据单元,具体变换方法如式(3)所示,激活函数为softmax函数。
在其它实施例中,前馈序列记忆神经网络由四部分构成,即输入层、双向LSFSMN叠层、全连接叠层及输出层,其中双向LSFSMN叠层包括至少一个双向LSFSMN层,所述双向LSFSMN层由双向FSMN层及LSTM层构成,具体结构参考实施例四,其中,所述LSTM(LongShort Term Memory)层用来记忆每帧训练数据的历史信息,所述FSMN层用来记忆每帧训练数据的未来信息,各LSFSMN层之间进行特征序列的变换时,不仅将当前双向FSMN层的隐层的输出特征序列、该隐层记忆块的输出特征序列及LSTM层的输出特征序列作为下一个双向LSFSMN层的隐层的输入特征序列,同时还将当前双向FSMN层的隐层的输出特征序列、该隐层记忆块的输出特征序列及LSTM层的输出特征序列作为下一个双向LSFSMN层的LSTM层的输入特征序列,需要说明的是,LSTM层的输出特征序列同时可以作为自己的输入特征序列,当特征序列从双向LSFSMN叠层进入到全连接叠层时,只需要将双向LSFSMN层的LSTM层的输出特征序列、双向FSMN层的隐层的输出特征序列及该隐层记忆块的输出特征序列作为第一个全连接层的输入特征序列。
在实际应用中,所述根据确定的前馈序列记忆神经网络结构确定所述特征序列的变换方法及相应前馈序列记忆神经网络的参数包括:
首先,由输入层输入所述训练数据的特征序列,进入双向LSFSMN叠层;
然后,由LSFSMN层的双向FSMN层的隐层和LSTM层对输入特征序列进行特征变换,并由LSTM层保存每帧训练数据的历史信息,记忆块保存每帧训练数据的未来信息;
接着,利用所述当前隐层与下个隐层的连接权重矩阵及权重偏置、所述当前隐层的记忆块与下个隐层的连接权重矩阵及权重偏置、当前LSTM层与下个隐层的转换矩阵及权重偏置、当前LSTM层与下个LSTM层的转换矩阵及权重偏置、当前LSTM层与当前LSTM层的转换矩阵及权重偏置、当前隐层与下个LSTM层的连接权重矩阵与权重偏置、当前隐层的记忆块与下个LSTM层的连接权重矩阵与权重偏置对所述当前隐层的输出特征序列、当前隐层的记忆块的输出特征序列及当前LSTM层的输出特征序列进行变换,获取下一双向LSFSMN层的隐层和LSTM层的输出特征序列;
然后,当训练数据的特征序列从双向LSFSMN层进入全连接层时,利用当前双向FSMN层与下个全连接层的连接权重矩阵及权重偏置、当前LSTM层与下个隐层的连接权重矩阵与权重偏置,对当前双向LSFSMN层的输出特征进行变换,获取全连接层的输出特征序列;
接着,当训练数据的特征序列进入所述全连接层之后,利用所述当前全连接层与下个全连接层的连接权重矩阵及权重偏置对当前全连接层的输出特征序列进行变换,获取下一全连接层的输出特征序列;
最终,当训练数据的特征序列由全连接层进入输出层时,利用当前全连接层与输出层的连接权重矩阵及权重偏置对当前全连接层的输出特征进行变换,获取输出层的输出特征序列。其中,输出层的预测目标为每帧训练数据所属的数据单元,具体变换方法如式(3)所示,激活函数为softmax函数。
步骤S03,利用所述训练数据的特征序列对构建的前馈序列记忆神经网络进行训练,得到前馈序列记忆神经网络的参数取值。
在本实施例中,具体训练方法与现有技术相同,如利用误差反向传播算法(BP)对网络参数进行调整,具体可以采用交叉熵准则对网络参数进行调整,提高每帧训练数据的分类正确率,当训练数据较多时,一般采用固定迭代次数对网络参数进行调整,如固定10次迭代,具体迭代时,前四次迭代学习速率可以不变,从第五次迭代开始,每次学习速率减半;当训练数据较少时,可以通过计算分类错误率来调整学习速率,当分类错误率的变化较小时,则认为网络参数已经收敛,停止迭代。
需要说明的是,当训练结束后,得到该神经网络的各参数。利用该神经网络进行语音识别等实际应用中,特征序列的转换过程同建模过程,在此不再详述,并且在使用中可以继续优化该神经网络的各参数。
在本发明实施例中,利用所述训练数据的特征序列对构建的前馈序列记忆神经网络进行训练,得到前馈序列记忆神经网络的参数取值,可以根据实际应用中对神经网络信息处理能力的要求的高低,构建不同的前馈序列记忆神经网络,并针对不同的神经网络结构确定前馈序列神经网络的参数。例如对信息处理能力要求高,但是对速度要求不高的场景中,可以采用实施例二或四提供的网络结构并进行训练;而对信息处理能力要求较高,但是对速度要求高的场景中,可以采用实施例一或实施例三提供的网络结构并进行训练。
此外,本发明还提供了一种前馈序列记忆神经网络的其构建系统,如图8所示:
一种前馈序列记忆神经网络的构建系统,包括:
提取模块901,用于收集大量训练数据,并提取所述训练数据的特征序列;
构建模块902,用于构建前馈序列记忆神经网络;
训练模块903,用于利用所述训练数据的特征序列对构建的前馈序列记忆神经网络进行训练,得到前馈序列记忆神经网络的参数取值。
在本实施例中,所述构建模块902包括:
结构确定单元,用于确定前馈序列记忆神经网络的结构;
参数确定单元,用于根据确定的前馈序列记忆神经网络结构确定所述特征序列的变换方法及相应前馈序列记忆神经网络的参数。
其中,所述前馈序列记忆神经网络的参数包括以下一种或多种:历史信息权重、未来信息权重、当前隐层与下个隐层的连接权重矩阵及权重偏置、当前隐层的记忆块与下个隐层的连接权重矩阵及权重偏置、当前LSTM层与下个隐层的连接权重矩阵与权重偏置、当前LSTM层与下个LSTM层的转换矩阵及权重偏置、当前隐层与下个LSTM层的连接权重矩阵与权重偏置、当前隐层的记忆块与下个LSTM层的连接权重矩阵与权重偏置、当前LSTM层与当前LSTM层的转换矩阵及权重偏置、当前全连接层与下个全连接层的连接权重矩阵及权重偏置、当前双向FSMN层与下个全连接层的连接权重矩阵及权重偏置、当前LSTM层与下个全连接层的连接权重矩阵与权重偏置、当前全连接层与输出层的连接权重矩阵及权重偏置。
在实际应用中,对于包括双向FSMN叠层的前馈序列记忆神经网络,所述参数确定单元包括:
第一输入子单元,用于由输入层输入所述训练数据的特征序列,进入所述双向FSMN叠层;
第一变换子单元,用于各双向FSMN层的隐层对输入特征序列进行特征变换,并由记忆块保存每帧训练数据的历史信息和未来信息;
特征融合子单元,用于利用所述历史信息权重和所述未来信息权重对训练数据的历史信息和未来信息进行融合,获取每帧训练数据的融合特征序列,作为当前隐层的记忆块的输出特征序列;
第二变换子单元,用于利用所述当前隐层与下个隐层的连接权重矩阵及权重偏置、所述当前隐层的记忆块与下个隐层的连接权重矩阵及权重偏置对所述当前隐层的输出特征序列和该隐层记忆块的输出特征序列进行变换,获取下一隐层的输出特征序列;
第三变换子单元,用于以最后一个隐层的输出和\或该隐层记忆块的输出作为输出层的输入,进行变换获取输出层的输出结果。
此外,对于包括双向LSFSMN叠层的前馈序列记忆神经网络,所述参数确定单元包括:
第二输入子单元,用于由输入层输入所述训练数据的特征序列,进入双向LSFSMN叠层;
第四变换子单元,用于由LSFSMN层的双向FSMN层的隐层和LSTM层对输入特征序列进行特征变换,并由LSTM层保存每帧训练数据的历史信息,记忆块保存每帧训练数据的未来信息;
第五变换子单元,用于利用所述当前隐层与下个隐层的连接权重矩阵及权重偏置、所述当前隐层的记忆块与下个隐层的连接权重矩阵及权重偏置、当前LSTM层与下个隐层的转换矩阵及权重偏置、当前LSTM层与下个LSTM层的转换矩阵及权重偏置、当前LSTM层与当前LSTM层的转换矩阵及权重偏置、当前隐层与下个LSTM层的连接权重矩阵与权重偏置、当前隐层的记忆块与下个LSTM层的连接权重矩阵与权重偏置对所述当前隐层的输出特征序列、当前隐层的记忆块的输出特征序列及当前LSTM层的输出特征序列进行变换,获取下一隐层和下一LSTM层的输出特征序列。
第六变换子单元,用于以最后一个隐层的输出和\或该隐层记忆块的输出及最后一个LSTM层的输出作为输出层的输入,进行变换获取输出层的输出结果。
进一步地,对于包括全连接叠层的前馈序列记忆神经网络,所述参数确定单元还包括:
第七变换子单元,用于当训练数据的特征序列从双向FSMN层或双向LSFSMN层进入全连接层时,利用当前双向FSMN层与下个全连接层的连接权重矩阵及权重偏置或当前双向FSMN层与下个全连接层的连接权重矩阵及权重偏置、当前LSTM层与下个隐层的连接权重矩阵与权重偏置,对当前双向FSMN层或双向LSFSMN层的输出特征进行变换,获取全连接层的输出特征序列;
第八变换子单元,用于当训练数据的特征序列进入所述全连接层之后,利用所述当前全连接层与下个全连接层的连接权重矩阵及权重偏置对当前全连接层的输出特征序列进行变换,获取下一全连接层的输出特征序列;
第九变换子单元,用于当训练数据的特征序列由全连接层进入输出层时,利用当前全连接层与输出层的连接权重矩阵及权重偏置对当前全连接层的输出特征进行变换,获取输出层的输出特征序列。
当然,该系统还可以进一步包括存储模块(未图示),用于保存特征序列、及相应神经网络的参数等信息。这样,以方便对待处理信息进行计算机自动处理,并存储处理结果相关信息等。
本发明实施例提供的前馈序列记忆神经网络的构建系统,通过提取模块901收集大量训练数据,并提取所述训练数据的特征序列,然后利用构建模块902构建前馈序列记忆神经网络,其中,前馈序列记忆神经网络针对不同的应用场景可以采用不同的前馈序列记忆神经网络结构,最终,通过训练模块903利用所述训练数据的特征序列对构建的前馈序列记忆神经网络进行训练,得到前馈序列记忆神经网络的参数取值。使得本发明提供的构建系统可以根据实际应用中对神经网络信息处理能力的要求等,构建不同的前馈序列记忆神经网络,并针对不同的神经网络结构确定前馈序列神经网络的参数,以满足用户的需求。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及设备;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (16)
1.一种用于语音处理的前馈序列记忆神经网络的构建方法,其特征在于,包括:
收集大量训练数据,并提取所述训练数据的特征序列;其中所述训练数据为语音数据,所述特征序列包括如下任一种语音特征序列:感知线性预测系数、FilterBank特征、梅尔频率倒谱系数或线性预测系数;
构建前馈序列记忆神经网络;所述前馈序列记忆神经网络包括至少三层的多个节点,第一层为输入层,最后一层为输出层,其它位于输入层和输出层之间的多个节点组成至少一个隐层,层与层之间的节点是全连接的,其中,每一个隐层都包含一个记忆块,隐层与记忆块共同构成双向前馈序列记忆神经网络FSMN层,其中,当前隐层的记忆块的输入为当前隐层的输出,当前隐层的记忆块的输出为下一层的一个输入,所述记忆块用于存储体现每帧语音数据的长时信息的历史信息和未来信息,所述历史信息为当前帧语音数据之前预设帧数的语音特征序列,所述未来信息为当前帧语音数据之后预设帧数的语音特征序列;所述输出层输出为每帧语音数据所属的数据单元,所述数据单元包括如下任一种:隐马尔可夫模型的状态、音素单元或音节单元;
利用所述训练数据的特征序列对构建的前馈序列记忆神经网络进行训练,得到前馈序列记忆神经网络的参数取值。
2.根据权利要求1所述的构建方法,其特征在于,所述构建前馈序列记忆神经网络包括:
确定前馈序列记忆神经网络的结构;
根据确定的前馈序列记忆神经网络结构确定所述特征序列的变换方法及相应前馈序列记忆神经网络的参数。
3.根据权利要求2所述的构建方法,其特征在于,所述前馈序列记忆神经网络的参数包括以下一种或多种:历史信息权重、未来信息权重、当前隐层与下个隐层的连接权重矩阵及权重偏置、当前隐层的记忆块与下个隐层的连接权重矩阵及权重偏置、当前LSTM层与下个隐层的连接权重矩阵与权重偏置、当前LSTM层与下个LSTM层的转换矩阵及权重偏置、当前隐层与下个LSTM层的连接权重矩阵与权重偏置、当前隐层的记忆块与下个LSTM层的连接权重矩阵与权重偏置、当前LSTM层与当前LSTM层的转换矩阵及权重偏置、当前全连接层与下个全连接层的连接权重矩阵及权重偏置、当前双向FSMN层与下个全连接层的连接权重矩阵及权重偏置、当前LSTM层与下个全连接层的连接权重矩阵与权重偏置、当前全连接层与输出层的连接权重矩阵及权重偏置。
4.根据权利要求3所述的构建方法,其特征在于,
对于包括双向FSMN叠层的前馈序列记忆神经网络,所述根据确定的前馈序列记忆神经网络结构确定所述特征序列的变换方法及相应前馈序列记忆神经网络的参数包括:
由输入层输入所述训练数据的特征序列,进入所述双向FSMN叠层;
各双向FSMN层的隐层对输入特征序列进行特征变换,并由记忆块保存每帧训练数据的历史信息和未来信息;
利用所述历史信息权重和所述未来信息权重对每帧训练数据的历史信息和未来信息进行融合,获取每帧训练数据的融合特征序列,作为当前隐层的记忆块的输出特征序列;
利用所述当前隐层与下个隐层的连接权重矩阵及权重偏置、所述当前隐层的记忆块与下个隐层的连接权重矩阵及权重偏置对所述当前隐层的输出特征序列和该隐层记忆块的输出特征序列进行变换,获取下一隐层的输出特征序列;
以最后一个隐层的输出和\或该隐层记忆块的输出作为输出层的输入,进行变换获取输出层的输出结果。
5.根据权利要求3所述的构建方法,其特征在于,
对于包括双向LSFSMN叠层的前馈序列记忆神经网络,所述根据确定的前馈序列记忆神经网络结构确定所述特征序列的变换方法及相应前馈序列记忆神经网络的参数包括:
由输入层输入所述训练数据的特征序列,进入双向LSFSMN叠层;
由LSFSMN层的双向FSMN层的隐层和LSTM层对输入特征序列进行特征变换,并由LSTM层保存每帧训练数据的历史信息,记忆块保存每帧训练数据的未来信息;
利用所述当前隐层与下个隐层的连接权重矩阵及权重偏置、所述当前隐层的记忆块与下个隐层的连接权重矩阵及权重偏置、当前LSTM层与下个隐层的转换矩阵及权重偏置、当前LSTM层与下个LSTM层的转换矩阵及权重偏置、当前LSTM层与当前LSTM层的转换矩阵及权重偏置、当前隐层与下个LSTM层的连接权重矩阵与权重偏置、当前隐层的记忆块与下个LSTM层的连接权重矩阵与权重偏置对所述当前隐层的输出特征序列、当前隐层的记忆块的输出特征序列及当前LSTM层的输出特征序列进行变换,获取下一隐层和下一LSTM层的输出特征序列;
以最后一个隐层的输出和\或该隐层记忆块的输出及最后一个LSTM层的输出作为输出层的输入,进行变换获取输出层的输出结果。
6.根据权利要求3至5任一项所述的构建方法,其特征在于,
对于包括全连接叠层的前馈序列记忆神经网络,所述方法还包括:
当训练数据的特征序列从双向FSMN层或双向LSFSMN层进入全连接层时,利用当前双向FSMN层与下个全连接层的连接权重矩阵及权重偏置或当前双向FSMN层与下个全连接层的连接权重矩阵及权重偏置、当前LSTM层与下个全连接层的连接权重矩阵与权重偏置,对当前双向FSMN层或双向LSFSMN层的输出特征进行变换,获取全连接层的输出特征序列;
当训练数据的特征序列进入所述全连接层之后,利用所述当前全连接层与下个全连接层的连接权重矩阵及权重偏置对当前全连接层的输出特征序列进行变换,获取下一全连接层的输出特征序列;
当训练数据的特征序列由全连接层进入输出层时,利用当前全连接层与输出层的连接权重矩阵及权重偏置对当前全连接层的输出特征进行变换,获取输出层的输出特征序列。
7.根据权利要求1所述的构建方法,其特征在于,所述前馈序列记忆神经网络还包括:
各双向FSMN层都相应存在一个长短时记忆LSTM层,同一层的双向FSMN层和LSTM层共同构成双向长短时前馈序列记忆神经网络LSFSMN层,其中,当前LSTM层的输入为输入层的输出或上一LSTM层、上一隐层以及上一隐层的记忆块的输出,当前LSTM层的输出为下一隐层和下一LSTM层的一个输入,其中,所述LSTM层用于记忆历史信息,所述双向FSMN层用于记忆未来信息。
8.根据权利要求1或7所述的构建方法,其特征在于,所述前馈序列记忆神经网络还包括:位于双向FSMN叠层和所述输出层之间的全连接叠层,其中,所述全连接叠层的输入端和所述双向FSMN叠层的输出端相连接,所述全连接叠层的输出端和所述输出层的输入端相连接,所述全连接叠层包括至少一个全连接层,所述双向FSMN叠层包括至少一个双向FSMN层;或者
位于双向LSFSMN叠层和所述输出层之间的全连接叠层,其中,所述全连接叠层的输入端和所述双向LSFSMN叠层的输出端相连接,所述全连接叠层的输出端和所述输出层的输入端相连接,所述全连接叠层包括至少一个全连接层,所述双向LSFSMN叠层包括至少一个双向LSFSMN层。
9.一种用于语音处理的前馈序列记忆神经网络的构建系统,其特征在于,包括:
提取模块,用于收集大量训练数据,并提取所述训练数据的特征序列;其中所述训练数据为语音数据,所述特征序列包括如下任一种语音特征序列:感知线性预测系数、FilterBank特征、梅尔频率倒谱系数或线性预测系数;
构建模块,用于构建前馈序列记忆神经网络;所述前馈序列记忆神经网络包括至少三层的多个节点,第一层为输入层,最后一层为输出层,其它位于输入层和输出层之间的多个节点组成至少一个隐层,层与层之间的节点是全连接的,其中,每一个隐层都包含一个记忆块,隐层与记忆块共同构成双向前馈序列记忆神经网络FSMN层,其中,当前隐层的记忆块的输入为当前隐层的输出,当前隐层的记忆块的输出为下一层的一个输入,所述记忆块用于存储体现每帧语音数据的长时信息的历史信息和未来信息,所述历史信息为当前帧语音数据之前预设帧数的语音特征序列,所述未来信息为当前帧语音数据之后预设帧数的语音特征序列;所述输出层输出为每帧语音数据所属的数据单元,所述数据单元包括如下任一种:隐马尔可夫模型的状态、音素单元或音节单元;
训练模块,用于利用所述训练数据的特征序列对构建的前馈序列记忆神经网络进行训练,得到前馈序列记忆神经网络的参数取值。
10.根据权利要求9所述的构建系统,其特征在于,所述构建模块包括:
结构确定单元,用于确定前馈序列记忆神经网络的结构;
参数确定单元,用于根据确定的前馈序列记忆神经网络结构确定所述特征序列的变换方法及相应前馈序列记忆神经网络的参数。
11.根据权利要求10所述的构建系统,其特征在于,所述前馈序列记忆神经网络的参数包括以下一种或多种:历史信息权重、未来信息权重、当前隐层与下个隐层的连接权重矩阵及权重偏置、当前隐层的记忆块与下个隐层的连接权重矩阵及权重偏置、当前LSTM层与下个隐层的连接权重矩阵与权重偏置、当前LSTM层与下个LSTM层的转换矩阵及权重偏置、当前隐层与下个LSTM层的连接权重矩阵与权重偏置、当前隐层的记忆块与下个LSTM层的连接权重矩阵与权重偏置、当前LSTM层与当前LSTM层的转换矩阵及权重偏置、当前全连接层与下个全连接层的连接权重矩阵及权重偏置、当前双向FSMN层与下个全连接层的连接权重矩阵及权重偏置、当前LSTM层与下个全连接层的连接权重矩阵与权重偏置、当前全连接层与输出层的连接权重矩阵及权重偏置。
12.根据权利要求11所述的构建系统,其特征在于,
对于包括双向FSMN叠层的前馈序列记忆神经网络,所述参数确定单元包括:
第一输入子单元,用于由输入层输入所述训练数据的特征序列,进入所述双向FSMN叠层;
第一变换子单元,用于各双向FSMN层的隐层对输入特征序列进行特征变换,并由记忆块保存每帧训练数据的历史信息和未来信息;
特征融合子单元,用于利用所述历史信息权重和所述未来信息权重对训练数据的历史信息和未来信息进行融合,获取每帧训练数据的融合特征序列,作为当前隐层的记忆块的输出特征序列;
第二变换子单元,用于利用所述当前隐层与下个隐层的连接权重矩阵及权重偏置、所述当前隐层的记忆块与下个隐层的连接权重矩阵及权重偏置对所述当前隐层的输出特征序列和该隐层记忆块的输出特征序列进行变换,获取下一隐层的输出特征序列;
第三变换子单元,用于以最后一个隐层的输出和\或该隐层记忆块的输出作为输出层的输入,进行变换获取输出层的输出结果。
13.根据权利要求11所述的构建系统,其特征在于,
对于包括双向LSFSMN叠层的前馈序列记忆神经网络,所述参数确定单元包括:
第二输入子单元,用于由输入层输入所述训练数据的特征序列,进入双向LSFSMN叠层;
第四变换子单元,用于由LSFSMN层的双向FSMN层的隐层和LSTM层对输入特征序列进行特征变换,并由LSTM层保存每帧训练数据的历史信息,记忆块保存每帧训练数据的未来信息;
第五变换子单元,用于利用所述当前隐层与下个隐层的连接权重矩阵及权重偏置、所述当前隐层的记忆块与下个隐层的连接权重矩阵及权重偏置、当前LSTM层与下个隐层的转换矩阵及权重偏置、当前LSTM层与下个LSTM层的转换矩阵及权重偏置、当前LSTM层与当前LSTM层的转换矩阵及权重偏置、当前隐层与下个LSTM层的连接权重矩阵与权重偏置、当前隐层的记忆块与下个LSTM层的连接权重矩阵与权重偏置对所述当前隐层的输出特征序列、当前隐层的记忆块的输出特征序列及当前LSTM层的输出特征序列进行变换,获取下一隐层和下一LSTM层的输出特征序列;
第六变换子单元,用于以最后一个隐层的输出和\或该隐层记忆块的输出及最后一个LSTM层的输出作为输出层的输入,进行变换获取输出层的输出结果。
14.根据权利要求11至13任一项所述的构建系统,其特征在于,
对于包括全连接叠层的前馈序列记忆神经网络,所述参数确定单元还包括:
第七变换子单元,用于当训练数据的特征序列从双向FSMN层或双向LSFSMN层进入全连接层时,利用当前双向FSMN层与下个全连接层的连接权重矩阵及权重偏置或当前双向FSMN层与下个全连接层的连接权重矩阵及权重偏置、当前LSTM层与下个隐层的连接权重矩阵与权重偏置,对当前双向FSMN层或双向LSFSMN层的输出特征进行变换,获取全连接层的输出特征序列;
第八变换子单元,用于当训练数据的特征序列进入所述全连接层之后,利用所述当前全连接层与下个全连接层的连接权重矩阵及权重偏置对当前全连接层的输出特征序列进行变换,获取下一全连接层的输出特征序列;
第九变换子单元,用于当训练数据的特征序列由全连接层进入输出层时,利用当前全连接层与输出层的连接权重矩阵及权重偏置对当前全连接层的输出特征进行变换,获取输出层的输出特征序列。
15.根据权利要求9所述的构建系统,其特征在于,所述前馈序列记忆神经网络还包括:
各双向FSMN层都相应存在一个长短时记忆LSTM层,同一层的双向FSMN层和LSTM层共同构成双向长短时前馈序列记忆神经网络LSFSMN层,其中,当前LSTM层的输入为输入层的输出或上一LSTM层、上一隐层以及上一隐层的记忆块的输出,当前LSTM层的输出为下一隐层和下一LSTM层的一个输入,其中,所述LSTM层用于记忆历史信息,所述双向FSMN层用于记忆未来信息。
16.根据权利要求9或15所述的构建系统,其特征在于,所述前馈序列记忆神经网络还包括:位于双向FSMN叠层和所述输出层之间的全连接叠层,其中,所述全连接叠层的输入端和所述双向FSMN叠层的输出端相连接,所述全连接叠层的输出端和所述输出层的输入端相连接,所述全连接叠层包括至少一个全连接层,所述双向FSMN叠层包括至少一个双向FSMN层;或者
位于双向LSFSMN叠层和所述输出层之间的全连接叠层,其中,所述全连接叠层的输入端和所述双向LSFSMN叠层的输出端相连接,所述全连接叠层的输出端和所述输出层的输入端相连接,所述全连接叠层包括至少一个全连接层,所述双向LSFSMN叠层包括至少一个双向LSFSMN层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510998704.7A CN106919977B (zh) | 2015-12-25 | 2015-12-25 | 一种前馈序列记忆神经网络及其构建方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510998704.7A CN106919977B (zh) | 2015-12-25 | 2015-12-25 | 一种前馈序列记忆神经网络及其构建方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106919977A CN106919977A (zh) | 2017-07-04 |
CN106919977B true CN106919977B (zh) | 2022-05-17 |
Family
ID=59455626
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510998704.7A Active CN106919977B (zh) | 2015-12-25 | 2015-12-25 | 一种前馈序列记忆神经网络及其构建方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106919977B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11591894B2 (en) | 2017-11-15 | 2023-02-28 | Schlumberger Technology Corporation | Field operations system with particle filter |
CN110019648B (zh) * | 2017-12-05 | 2021-02-02 | 深圳市腾讯计算机系统有限公司 | 一种训练数据的方法、装置及存储介质 |
CN108464840B (zh) * | 2017-12-26 | 2021-10-19 | 安徽科大讯飞医疗信息技术有限公司 | 一种乳腺肿块自动检测方法及系统 |
CN108364068B (zh) * | 2018-01-05 | 2021-04-13 | 华南师范大学 | 基于有向图的深度学习神经网络构建方法和机器人系统 |
CN108288032B (zh) * | 2018-01-08 | 2020-11-10 | 深圳市腾讯计算机系统有限公司 | 动作特征获取方法、装置及存储介质 |
CN110084356B (zh) * | 2018-01-26 | 2021-02-02 | 赛灵思电子科技(北京)有限公司 | 一种深度神经网络数据处理方法和装置 |
CN110826686A (zh) * | 2018-08-07 | 2020-02-21 | 艾玛迪斯简易股份公司 | 有属性序列的机器学习系统和方法 |
JP7258988B2 (ja) * | 2019-02-08 | 2023-04-17 | ヤフー株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
CN110377889B (zh) * | 2019-06-05 | 2023-06-20 | 安徽继远软件有限公司 | 一种基于前馈序列记忆神经网络的文本编辑方法及系统 |
CN110335591A (zh) * | 2019-07-04 | 2019-10-15 | 广州云从信息科技有限公司 | 一种参数管理方法、装置、机器可读介质及设备 |
CN111653270B (zh) * | 2020-08-05 | 2020-11-20 | 腾讯科技(深圳)有限公司 | 语音处理方法、装置、计算机可读存储介质及电子设备 |
CN111798859A (zh) * | 2020-08-27 | 2020-10-20 | 北京世纪好未来教育科技有限公司 | 数据处理方法、装置、计算机设备及存储介质 |
CN112767952A (zh) * | 2020-12-31 | 2021-05-07 | 苏州思必驰信息科技有限公司 | 语音唤醒方法和装置 |
CN114918735A (zh) * | 2022-05-19 | 2022-08-19 | 河海大学 | 一种基于pcc-lstm的铣削刀具磨损预测方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101639901A (zh) * | 2009-09-03 | 2010-02-03 | 王连明 | 基于多核技术的前馈神经网络硬件实现方法 |
CN104952448A (zh) * | 2015-05-04 | 2015-09-30 | 张爱英 | 一种双向长短时记忆递归神经网络的特征增强方法及系统 |
-
2015
- 2015-12-25 CN CN201510998704.7A patent/CN106919977B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101639901A (zh) * | 2009-09-03 | 2010-02-03 | 王连明 | 基于多核技术的前馈神经网络硬件实现方法 |
CN104952448A (zh) * | 2015-05-04 | 2015-09-30 | 张爱英 | 一种双向长短时记忆递归神经网络的特征增强方法及系统 |
Non-Patent Citations (1)
Title |
---|
"Feedforward Sequential Memory Neural Networks without Recurrent Feedback";Shiliang Zhang 等;《arXiv:1510.02693v1 [cs.NE]》;20151009;第1-4页 * |
Also Published As
Publication number | Publication date |
---|---|
CN106919977A (zh) | 2017-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106919977B (zh) | 一种前馈序列记忆神经网络及其构建方法和系统 | |
CN110164476B (zh) | 一种基于多输出特征融合的blstm的语音情感识别方法 | |
CN104538028B (zh) | 一种基于深度长短期记忆循环神经网络的连续语音识别方法 | |
CN110992987B (zh) | 语音信号中针对通用特定语音的并联特征提取系统及方法 | |
CN104700828B (zh) | 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法 | |
CN106157953B (zh) | 连续语音识别方法及系统 | |
CN105139864B (zh) | 语音识别方法和装置 | |
CN105702250B (zh) | 语音识别方法和装置 | |
Guiming et al. | Speech recognition based on convolutional neural networks | |
CN109448719A (zh) | 神经网络模型建立方法及语音唤醒方法、装置、介质和设备 | |
CN107408111A (zh) | 端对端语音识别 | |
CN110853670B (zh) | 音乐驱动的舞蹈生成方法 | |
CN110517664A (zh) | 多方言识别方法、装置、设备及可读存储介质 | |
CN109410974A (zh) | 语音增强方法、装置、设备及存储介质 | |
CN111081230A (zh) | 语音识别方法和设备 | |
CN112216307A (zh) | 语音情感识别方法以及装置 | |
CN108090038A (zh) | 文本断句方法及系统 | |
CN112151030A (zh) | 一种基于多模态的复杂场景语音识别方法和装置 | |
CN113744755A (zh) | 一种从音频信号生成语音动画的装置及方法 | |
CN111653270B (zh) | 语音处理方法、装置、计算机可读存储介质及电子设备 | |
CN115631267A (zh) | 生成动画的方法及装置 | |
CN111460143A (zh) | 一种多人对话系统的情绪识别模型 | |
CN108461080A (zh) | 一种基于hlstm模型的声学建模方法和装置 | |
CN115937369A (zh) | 一种表情动画生成方法、系统、电子设备及存储介质 | |
Zhang et al. | Multi-modal emotion recognition based on deep learning in speech, video and text |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |