CN105810193A

CN105810193A - 训练语言模型的方法和设备及识别语言的方法和设备

Info

Publication number: CN105810193A
Application number: CN201610005525.3A
Authority: CN
Inventors: 李昊潼; 李镐式; 崔喜烈; 闵允泓; 柳尚贤; 李礼夏; 李知炫; 崔荣相
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2015-01-19
Filing date: 2016-01-05
Publication date: 2016-07-27
Anticipated expiration: 2036-01-05
Also published as: EP3046053A2; KR102305584B1; JP6746292B2; EP3046053B1; CN105810193B; JP2016134169A; KR20160089210A; US20160210551A1; EP3046053A3; US10380483B2

Abstract

提供一种训练语言模型的方法和设备及识别语言的方法和设备。一种用于训练语言模型的方法和设备包括:从训练数据产生第一训练特征向量序列和第二训练特征向量序列。所述方法被配置为基于第一训练特征向量序列执行神经网络的前向估计，基于第二训练特征向量序列执行神经网络的后向估计。所述方法还被配置为基于前向估计的结果和后向估计的结果训练语言模型。

Description

训练语言模型的方法和设备及识别语言的方法和设备

本申请要求于2015年1月19日提交到韩国知识产权局的第10-2015-0008881号韩国专利申请的权益，所述韩国专利申请的全部公开通过出于所有目的的引用包含于此。

技术领域

以下描述涉及一种用于训练语言模型的方法和设备及用于使用该语言模型识别语言的方法和设备。

背景技术

过去，设计语音和语言处理的方法已从基于语言学和语音学的系统和处理改变为数据驱动的模式识别技术。这些技术已成为集中、快速进展的研究的焦点并为该领域的重要的进步作出贡献。为了对人类输入模式进行分类，正在对将人类的有效的模式识别方法应用到实际计算机进行积极研究。这样的一个研究领域关注在通过人的生物神经细胞的数学表达特性来建模的人工神经网络。

在语音识别领域，人工神经网络用于输出与语音的输入模式对应的识别结果。人工神经网络通过学习在输入模式和输出模式之间产生映射，并输出指示该映射的学习结果。基于学习结果，人工神经网络产生针对有待用于学习的输入模式的输出。

发明内容

提供本发明内容以按照简化的形式来介绍对构思的选择，将在下面的具体实施方式中对所述构思进行进一步描述。本发明内容不意图确定所要求保护的主题的关键特征或必要特征，也不意图用作帮助确定所要求保护的主题的范围。

根据实施例，提供一种方法，所述方法包括:从训练数据产生第一训练特征向量序列和第二训练特征向量序列；基于第一训练特征向量序列执行神经网络的前向估计，基于第二训练特征向量序列执行神经网络的后向估计；基于前向估计的结果和后向估计的结果训练语言模型。

神经网络可包括用于前向估计的第一隐藏层和用于后向估计的第二隐藏层，第一隐藏层与第二隐藏层分开。

所述产生的步骤可包括：将训练数据转换为词向量序列；产生沿词向量序列的正向开始的第一训练特征向量序列和沿词向量序列的反向开始的第二训练特征向量序列。

前向估计可包括：估计将要与包括在训练数据中的第一词连接的随后的词，后向估计可包括：估计与包括在训练数据中的第二词连接的之前的词。

所述训练的步骤可包括：基于前向估计的结果和后向估计的结果计算神经网络的训练数据与输出数据之间的误差值；基于所述误差值更新包括在神经网络中的人工神经元之间的连接权重。

可基于双向长短期记忆(BLSTM)结构的递归神经网络配置语言模型。

BLSTM的递归神经网络可包括被配置为保持先前时间段中输出的值直到随后的时间段为止的存储块。

训练数据可包括包含语音数据、手写数据或它们的组合的序列数据。

根据实施例，提供一种方法，所述方法包括：从输入数据产生第一输入特征向量序列和第二输入特征向量序列；基于第一输入特征向量序列执行神经网络的前向估计，并基于第二输入特征向量序列执行神经网络的后向估计，以估计识别输入数据的结果。

神经网络可包括用于前向估计的第一隐藏层和用于后向估计的第二隐藏层，第一隐藏层可与第二隐藏层分开。

所述估计的步骤可包括：基于与第一输入特征向量序列相关联的前向估计结果和与第二输入特征向量序列相关联的后向估计结果，来估计识别所述输入数据的结果。

一种包括程序的非暂时性计算机可读存储介质，所述程序包括可使计算机执行如上所述的方法的指令。

根据另一实施例，提供一种设备，所述设备包括：训练数据预处理器，被配置为从训练数据产生第一训练特征向量序列和第二训练特征向量序列；语言模型训练器，被配置为基于第一训练特征向量序列和第二训练特征向量序列训练基于神经网络的语言模型，针对第一训练特征向量序列执行神经网络的前向估计，并针对第二训练特征向量序列执行神经网络的后向估计。

神经网络可包括用于前向估计的第一隐藏层和用于后向估计的第二隐藏层，并且第一隐藏层可与第二隐藏层分开。

语言模型训练器可被配置为：基于前向估计的结果和后向估计的结果训练语言模型。

语言模型训练器可被配置为：基于前向估计的结果和后向估计的结果计算训练数据与输出数据之间的误差值，并基于所述误差值更新包括在神经网络中的人工神经元之间的连接权重。

训练数据预处理器可被配置为：将训练数据转换为词向量序列，并产生沿词向量序列的正向开始的第一训练特征向量序列和沿词向量序列的反向开始的第二训练特征向量序列。

根据另一实施例，提供一种用于识别语言的设备，所述设备包括：输入数据预处理器，被配置为从输入数据产生第一输入特征向量序列和第二输入特征向量序列；输入数据识别器，被配置为基于第一输入特征向量序列执行神经网络的前向估计，基于第二输入特征向量序列执行神经网络的后向估计，以估计识别输入数据的结果。

根据另一实施例，提供一种用于识别语言的设备，所述设备包括：输入数据预处理器，被配置为从输入数据产生第一输入特征向量序列和第二输入特征向量序列；输入数据识别器，被配置为基于神经网络的第一隐藏层使用第一输入特征向量序列执行正向估计，基于神经网络的第二隐藏层使用第二输入特征向量序列执行后向估计，其中，第一隐藏层与第二隐藏层分开。

所述设备还可包括语言模型数据库，被配置为存储基于神经网络的语言模型。

根据另一实施例，提供一种语言模型训练器设备，所述设备包括：训练处理器，被配置为基于第一训练特征向量序列和第二训练特征向量序列训练语言模型；控制器，被配置为基于第一训练特征向量序列执行神经网络的前向估计，基于第二训练特征向量序列执行神经网络的后向估计；误差计算处理器，被配置为通过整合针对第一训练特征向量序列的前向估计的结果和针对第二训练特征向量序列的后向估计的结果来计算语言模型的训练数据与输出数据之间的误差值。

控制器可使用第一训练特征向量序列持续执行前向估计，并可使用第二训练特征向量序列持续执行后向估计。

控制器可被配置为通过估计将与包括在训练数据中的第一词连接的随后的词以及通过基于句子中的之前的词的记录估计当前词，来执行神经网络的前向估计，并可通过估计将与包括在训练数据中的第二词连接的之前的词以及通过基于句子中的将来的词的记录估计当前词，来执行后向估计。

基于误差值，可更新包括在神经网络中的人工神经元之间的连接权重。

所述设备还可包括计算处理器，所述计算处理器被配置为使用神经网络计算词序列的双向发生概率，并配置语言模型来估计感兴趣位置的词。

可沿词向量序列的正向开始产生第一训练特征向量序列，可沿词向量序列的反向开始产生第二训练特征向量序列。

通过以下具体实施方式、附图和权利要求，其它特征和方面将是清楚的。

附图说明

图1A是示出根据实施例的用于训练语言模型的设备的配置的示例的框图。

图1B是示出根据实施例的用于训练语言模型的训练数据预处理器和语言模型训练器的配置的示例的框图。

图2是示出根据实施例的配置语言模型的神经网络的结构的示例的框图。

图3是示出根据实施例的用于识别语言的设备的配置的示例的框图。

图4是示出根据实施例的训练基于双向长短期记忆(BLSTM)结构的递归神经网络(recurrentneuralnetwork)来配置的语言模型的示例的流程图。

图5是示出根据实施例的训练语言模型的方法的示例的流程图。

图6是示出根据实施例的识别语言的方法的示例的流程图。

贯穿附图和具体实施方式，除非另外描述或提供，否则相同附图标记将被理解为表示相同元件、特征和结构。附图可不必成比例绘制，并且为了清楚、说明和方便，可夸大附图中的元件的相对大小、比例和描绘。

具体实施方式

提供以下具体实施方式以帮助读者获得对这里描述的方法、设备和/或系统的全面理解。然而，这里描述的系统、设备和/或方法的各种改变、修改和等同物对于本领域的普通技术人员将是清楚的。这里描述的处理功能和/或操作的进程仅是示例，然而，处理功能和/或操作的顺序不限于这里阐述的顺序，除了必需按特定顺序发生的处理功能和/或操作之外，这里描述的处理功能和/或操作的顺序可如本领域所知的那样被改变。此外，为了更加清楚和简明，可省略本领域的普通技术人员公知的功能和结构的描述。

这里描述的特征可以以不同形式被实现，并不被解释为限于这里描述的示例。相反，提供这里描述的示例使得本公开将是彻底和全面的，并将向本领域普通技术人员传达本公开的全部范围。

在下文中，参照附图详细描述示例。以下特定结构或功能描述是示例性的以仅描述示例，示例的范围不限于在本说明书中提供的描述。本领域普通技术人员可做出各种改变和修改。附图中的相同标号表示相同的元件，并且这里将省略已知功能或配置。

将理解，当元件或层被称为“在”另一元件或层“上”或者“连接到”另一元件或层时，所述元件或层可直接在另一元件或层上或连接到所述另一元件或层，或者可存在中间元件或中间层。相反，当元件被称为“直接”在另一元件或层“上”、或“直接连接到”另一元件或层时，不存在中间元件或中间层。相同标号始终表示相同的元件。如这里所使用的，术语“和/或”包括一个或更多个相关列出的项的任何组合和所有组合。

用于训练语言模型的设备100训练基于神经网络的语言模型。用于训练语言模型的设备100通过双向估计来训练语言模型，并输出训练的语言模型。

语言模型基于神经网络估计与输入模式对应的识别结果。语言模型的识别性能通过学习处理提高。语言模型用于针对连续语音数据或手写数据(例如，文本输入)估计将被识别的词。语言模型用于自然语言识别系统，例如，用于语音识别、手写识别、口述、口译和翻译的系统。语言模型包括一套、一系列或一组词，并指示每个词与输入模式的对应率作为概率信息。

神经网络是被实现为使用通过边连接的大量人工神经元来对生物系统的计算能力进行仿真的硬件的识别模型。神经网络执行用于执行所述仿真的处理。神经网络通过人工神经元执行人的识别动作或学习处理，人工神经元通过具有连接权重(connectionweight，连接权、连接权值)的边彼此连接。连接权重是边的预定值，并且还可被称为连接强度。人工神经元还可被称为节点。

参照图1A，用于训练语言模型的设备100包括训练数据预处理器110和语言模型训练器120。

将被用于训练语言模型的训练数据被输入到训练数据预处理器110。序列数据(例如，语音数据或手写数据)被用作训练数据。

例如，将被学习的序列数据作为训练数据被输入到训练数据预处理器110。训练数据预处理器110将训练数据划分为句子单元。构成每个句子单元的词以向量形式被表示，训练数据预处理器110将包括在单个句子中的词转换为词向量序列。

训练数据预处理器110从训练数据中的连续词提取特征，并基于提取的特征将训练数据转换为词向量序列。例如，当训练数据对应于语音数据时，训练数据预处理器110执行环境适应、端点检测、回声消除或噪声去除，并提取特征向量以有效地表示数字化的语音数据。例如，使用反映声道特性和激励信号特性的倒频谱提取方法或反映人的听觉识别处理的与倒频谱提取方法对应的梅尔频率倒频谱系数(MFCC)来提取特征向量。

训练数据预处理器110从词向量序列产生用于前向估计的第一训练特征向量和用于后向估计的第二训练特征向量序列。第一训练特征向量序列沿词向量序列的正向开始，第二训练特征向量序列沿词向量序列的反向开始。

语言模型训练器120基于第一训练特征向量序列和第二训练特征向量序列来训练语言模型。第一训练特征向量序列和第二训练特征向量序列随时间被顺序输入到语言模型。语言模型训练器120针对第一训练特征向量序列执行配置语言模型的神经网络的前向估计，并针对第二训练特征向量序列执行神经网络的后向估计。根据实施例，语言模型训练器120针对第一训练特征向量序列持续执行前向估计，根据示例，语言模型训练器120针对第二训练特征向量序列持续执行后向估计。

神经网络的前向估计是估计将与包括在训练数据中的第一词连接的随后的词的处理和基于给定句子中的过去的词的记录来估计当前词的处理。后向估计是估计与包括在训练数据中的第二词连接的之前的词的处理和基于给定句子中的将来的词的记录来估计当前词的处理。

例如，当训练数据对应于句子“Wearefriends”并且输入到神经网络的当前词为“are”时，前向估计基于之前的词“We”估计“are”，后向估计基于随后的词“friends”估计“are”。

使用能够双向估计的双向长短期记忆(BLSTM)结构的递归神经网络或另一结构的递归神经网络来配置语言模型。递归神经网络是包括在隐藏层中的隐藏节点在不同时间段递归地连接的神经网络。之后将参照图2描述BLSTM结构的递归神经网络。

语言模型训练器120使用能够双向估计的神经网络(例如，BLSTM结构的递归神经网络)来计算词序列的双向发生概率。语言模型训练器120配置语言模型以估计感兴趣位置的词。例如，语言模型训练器120基于给定句子的正向上下文从左至右训练语言模型，并基于给定句子的反向上下文从右向左训练语言模型。由于双向上下文(正向上下文和反向上下文)被考虑，因此词被估计得更准确并且噪声的效果减小。

语言模型训练器120通过整合针对第一训练特征向量序列的前向估计的结果和针对第二训练特征向量序列的后向估计的结果来计算语言模型的训练数据与输出数据之间的误差值。语言模型训练器120基于计算的误差值更新包括在神经网络中的人工神经元之间的连接权重。

语言模型训练器120例如使用通过时间的反向传播算法(backpropagationthroughtime，BPTT，时间进化反传算法)方案来更新人工神经元之间的连接权重。语言模型训练器120从神经网络的卷积层开始反向传播误差值，并更新人工神经元之间的连接权重以减小误差值，在神经网络的卷积层中朝着隐藏层和数据层整合前向估计结果和后向估计结果。

语言模型训练器120定义用于测量当前设置的人工神经元之间的最佳连接权重的目标函数，基于目标函数的结果持续改变连接权重，并迭代地执行训练。目标函数为例如用于基于训练数据计算实际输出值与期望从神经网络输出的预期值之间的误差的误差函数。语言模型训练器120更新连接权重以减小误差函数的值。

图1B是示出根据实施例的用于训练语言模型的训练数据预处理器110和语言模型训练器120的配置的示例的框图。

如之前所解释的，训练数据预处理器110产生沿词向量序列的正向开始的第一训练特征向量序列和沿词向量序列的反向开始的第二训练特征向量序列。

语言模型训练器120包括训练处理器122，训练处理器122被配置为基于在训练数据处理器110产生的第一训练特征向量序列和第二训练特征向量序列来训练语言模型。语言模型训练器120包括控制器124，控制器124被配置为针对第一训练特征向量序列执行神经网络的前向估计，并针对第二训练特征向量序列执行神经网络的后向估计。控制器124针对第一训练特征向量序列持续执行前向估计，并针对第二训练特征向量序列持续执行后向估计。控制器124通过估计将与包括在训练数据中的第一词连接的随后的词以及通过基于在给定句子中的过去的词的记录估计当前词，来执行神经网络的前向估计。控制器124通过估计将与包括在训练数据中的第二词连接的之前的词以及通过基于在句子中的将来的的词的记录估计当前词，来执行后向估计。

语言模型训练器120还包括计算处理器126，计算处理器126被配置为使用能够双向估计的神经网络计算词序列的双向发生概率，并配置语言模型来估计感兴趣位置处的词。语言模型训练器120还包括误差计算处理器128，误差计算处理器128被配置为通过整合针对第一训练特征向量序列的前向估计的结果和针对第二训练特征向量序列的后向估计的结果来计算语言模型的训练数据与输出数据之间的误差值。基于计算的误差值，包括在神经网络中的人工神经元之间的连接权重被更新。基于给定句子的正向上下文从左至右训练语言模型，并基于给定句子的反向上下文从右向左训练语言模型。

参照图2，神经网络200包括数据层210、隐藏层240和卷积层250。隐藏层240包括第一隐藏层220和第二隐藏层230。当神经网络200对应于BLSTM结构的递归神经网络时，第一隐藏层220和第二隐藏层230对应于长短期记忆(LSTM)层。

BLSTM结构的递归神经网络包括存储块，存储块被配置为保持先前时间段输出的值直到随后时间段为止。存储块存储过去的历史，并在当前阶段反映过去的历史。BLSTM结构的递归神经网络使用隐藏层中的三个门(例如，输入门、遗忘门和输出门)输入、存储并输出以时间为单位输入的数据。

用于前向估计的第一训练特征向量序列和用于后向估计的第二训练特征向量序列被输入到数据层210。分别从针对包括在训练数据中的词的特征向量产生第一训练特征向量序列和第二训练特征向量序列。根据可选择配置，利用针对包括在训练数据中的词的特征向量同时产生第一训练特征向量序列和第二训练特征向量序列。

通过基于第一隐藏层220中的第一训练特征向量序列执行前向估计来计算正向概率信息，并通过基于第二隐藏层230中的第二训练特征向量序列执行后向估计来计算反向概率信息。

设置多个第一隐藏层220和多个第二隐藏层230，多个第一隐藏层220和多个第二隐藏层230可具有分层结构。第一隐藏层220连接到上面的第一隐藏层，第二隐藏层230连接到上面的第二隐藏层。

在第一隐藏层220中计算的概率信息和在第二隐藏层230中计算的概率信息被分别发送到上面的第一隐藏层220和上面的第二隐藏层230。基于接收的概率信息在上面的第一隐藏层220和上面的第二隐藏层230中重新计算概率信息。通过第一隐藏层220执行前向估计，通过第二隐藏层230执行后向估计。在一种配置中，第一隐藏层220和第二隐藏层230在结构和功能上彼此分开。在可选择配置中，第一隐藏层220和第二隐藏层230在结构上一起，但是在功能上彼此分开。在另一可选择配置中，单个隐藏层用于处理第一隐藏层和第二隐藏层。

在卷积层250中，从前向估计推出的概率信息和从后向估计推出的概率信息被整合，基于整合的结果产生与输入词相关联的最终估计结果。

用于训练语言模型的设备计算在卷积层250中产生的最终估计结果与输入词之间的误差值，并更新人工神经元之间的连接权重以减小误差值。

用于识别语言的设备300使用预先训练的语言模型识别输入数据，并输出识别结果。用于识别语言的设备300使用语言模型从输入数据提取特征，并通过将提取的特征应用于语言模型来输出对输入数据进行分类和识别的结果。例如，用于识别语言的设备300识别并输出与输入语音数据对应的句子或词。用于识别语言的设备300用于例如语音识别和手写识别的领域中，并可应用于各种装置/设备(诸如，智能电话、平板电脑、台式电脑、导航系统、显示装置、可穿戴装置、安全系统和智能家庭系统)。

参照图3，用于识别语言的设备300包括输入数据预处理器310、语言模型数据库320和输入数据识别器330。

输入数据预处理器310从输入数据产生用于前向估计的第一输入特征向量序列和用于后向估计的第二输入特征向量序列。序列数据(例如，语音数据或手写数据)作为输入数据被输入。当接收到输入数据时，输入数据预处理器310从输入语音数据提取相对于一段时间的相对变化作为特征，并将提取的特征转换为语音特征向量序列。输入数据预处理器310基于语音特征向量序列产生沿语音特征向量序列的正向开始的第一输入特征向量序列和沿语音特征向量序列的反向开始的第二输入特征向量序列。

输入数据识别器330基于语言模型通过将第一输入特征向量序列和第二输入特征向量序列应用于神经网络来估计识别输入数据的结果。第一输入特征向量序列和第二输入特征向量序列可随时间被顺序地输入到语言模型。可选择地，第一输入特征向量序列和第二输入特征向量序列可被同时输入到语言模型。

语言模型通过参照图1、图4和图5描述的处理被预先训练并被存储在语言模型数据库320中。配置语言模型的神经网络是能够双向估计(例如，前向估计和后向估计)的递归神经网络。输入数据识别器330针对第一输入特征向量序列持续执行神经网络的前向估计，并针对第二输入特征向量序列持续执行神经网络的后向估计。前向估计和后向估计被分开和单独地执行。可选择地，前向估计和后向估计被同时执行。

配置语言模型的神经网络包括被配置为执行前向估计的第一隐藏层和被配置为执行后向估计的第二隐藏层。第一隐藏层和第二隐藏层可彼此分开或可被整合。输入数据识别器330基于第一隐藏层针对第一输入特征向量序列执行前向估计，并基于第二隐藏层针对第二输入特征向量序列执行后向估计。

与第一输入特征向量序列相关联的前向估计结果和与第二输入特征向量序列相关联的后向估计结果通过语言模型被整合，并且与输入数据相应的识别结果基于整合的结果被确定。在前向估计结果和后向估计结果被同时执行并被整合的配置中，语言模型确认两个结果被整合。输入数据识别器330通过接口装置(例如，显示器和扬声器)输出由语音模型确定的识别结果。

图4是示出根据实施例的训练基于BLSTM结构的递归神经网络配置的语言模型的示例的流程图。

参照图4，在操作410，用于训练语言模型的设备100产生用于双向估计的词向量序列。训练数据包括包含连续词的词序列，用于训练语言模型的设备100通过将从词序列提取的特征转换为向量的形式来产生词向量序列。

根据实施例，用于训练语言模型的设备100从词向量序列分别产生用于前向估计的第一训练特征向量序列和用于后向估计的第二训练特征向量序列。用于训练语言模型的设备100通过以相反顺序重构第一训练特征向量序列来产生第二训练特征向量序列。

在估计当前输入词之后的词的前向估计中，特定词或指示符标识或指示符被配置为指示在第一训练特征向量序列的开端插入句子的开始。在估计当前输入词之前的词的后向估计中，特定词或指示符标志或指示符被配置为指示可在第二训练特征向量序列的开端插入句子的结尾。在一种配置中，对于前向估计或后向估计，词、标志或指示符是被预先定义以被识别为句子的开始的指示符的单个字符或合成字符。

在操作420，用于训练语言模型的设备100执行数据层和长短期记忆(LSTM)层之间的估计。在操作410中产生的第一训练特征向量序列和第二训练特征向量序列以词为单位被顺序输入到双向长短期记忆(BLSTM)结构的递归神经网络的数据层。用于训练语言模型的设备100基于现有技术已知的LSTM层的等式来计算第一训练特征向量序列和第二训练特征向量序列的加权和。LSTM层对应于BLSTM结构的递归神经网络中的隐藏层。

当BLSTM结构的递归神经网络包括分层LSTM层时，在操作430，用于训练语言模型的设备100执行LSTM层和上面的LSTM层之间的估计。

在一个示例中，用于训练语言模型的设备100基于通过前一LSTM层的前向估计计算的结果执行上面的LSTM层的前向估计，在一个示例中，用于训练语言模型的设备100基于通过前一LSTM层的后向估计计算的结果执行上面的LSTM层的后向估计。

在操作440，当终止LSTM层中的计算时，用于训练语言模型的设备100通过整合与第一训练特征向量序列相关联的前向估计结果和与第二训练特征向量序列相关联的后向估计结果来计算针对最终词的概率值。

在操作450，用于训练语言模型的设备100基于针对最终词的概率值计算误差值，并校正误差。用于训练语言模型的设备100通过使用监督式学习方法将输入词与最终词进行比较来计算误差值，并通过使用通过时间的反向传播算法(BPTT)方案将误差值传播到下面的LSTM层来校正包括在LSTM层中的人工神经元之间的连接权重。

在操作460，用于训练语言模型的设备100存储通过校正误差而训练的语言模型。用于训练语言模型的设备100存储与构成BLSTM结构的递归神经网络的人工神经元相关的连接权重信息和状态信息。

在操作470，用于训练语言模型的设备100验证在操作450中计算的误差值是否满足预设条件。当误差值满足预设条件时，用于训练语言模型的设备100终止训练。相反地，当误差值不满足预设条件时，用于训练语言模型的设备100重新执行操作410至操作470。

参照图5，在操作510，用于训练语言模型的设备100从训练数据产生用于前向估计的第一训练特征向量序列和用于后向估计的第二训练特征向量序列。用于训练语言模型的设备100将构成训练数据的连续词转换为词向量序列，并产生沿词向量序列的正向开始的第一训练特征向量序列和沿词向量序列的反向开始的第二训练特征向量序列。

在操作520，用于训练语言模型的设备100基于第一训练特征向量序列执行配置语言模型的神经网络的前向估计，并基于第二训练特征向量序列执行神经网络的后向估计。针对第一训练特征向量序列的前向估计和针对第二训练特征向量序列的后向估计被分开执行。在可选择配置中，针对第一训练特征向量序列的前向估计和针对第二训练特征向量序列的后向估计被同时执行。

在操作530，用于训练语言模型的设备100基于与第一训练特征向量序列相关联的前向估计结果和与第二训练特征向量序列相关联的后向估计结果来训练语言模型。用于训练语言模型的设备100通过整合前向估计结果和后向估计结果来计算神经网络的训练数据与输出数据之间的误差值，并更新人工神经元之间的连接权重以减小误差值。

参照图1、图2和图4提供的描述可应用于图5的操作，因此，为了简明，将省略重复描述。

图6是示出根据实施例的识别语言的方法的示例的流程图。

参照图6，在操作610，用于识别语言的设备300从输入数据产生输入特征向量序列。用于识别语言的设备300从输入数据提取特征，并基于提取的特征产生输入特征向量序列。用于识别语言的设备300基于输入特征向量序列来产生用于前向估计的第一输入特征向量序列和用于后向估计的第二输入特征向量序列。在一个实施例中，第一输入特征向量序列和第二输入特征向量序列随时间被顺序应用到预先训练的语言模型。

在操作620，用于识别语言的设备300使用基于神经网络的语言模型估计识别输入数据的结果。用于识别语言的设备300基于第一输入特征向量序列持续执行配置语言模型的神经网络的前向估计，并基于第二输入特征向量序列持续执行神经网络的后向估计。用于识别语言的设备300基于与第一输入特征向量序列相关联的前向估计结果和与第二输入特征向量序列相关联的后向估计结果来估计识别输入数据的结果。

参照图3提供的描述可应用于图6的操作，因此，为了简明，将省略重复描述。

使用一个或更多个硬件组件来实现以上描述的各种训练器、层、模块、元件、处理器和控制器。

硬件组件可以是例如物理地执行一个或更多个操作的物理装置，但不限于此。硬件组件的示例包括电阻器、电容器、电感器、电源、频率发生器、运算放大器、功率放大器、低通滤波器、高通滤波器、带通滤波器、模数转换器、数模转换器、处理装置和本领域普通技术人员已知的任何其它电子组件。在一个示例中，硬件组件由一个或更多个处理器或计算机来实现。处理器或计算机由一个或更多个处理元件(诸如逻辑门阵列、控制器和算术逻辑单元、数字信号处理器、微处理器、可编程逻辑控制器、现场可编程门阵列、可编程逻辑阵列、微处理器或本领域普通技术人员已知的能够以预定义方式响应并运行指令以实现期望的结果的任何其它装置或装置的组合)来实现。

在一个示例中，处理器或计算机包括或连接到存储由处理器或计算机运行的指令或软件的一个或更多个存储器。由处理器或计算机实现的硬件组件运行指令或软件(诸如操作系统(OS)和运行在OS上的一个或更多个软件应用)，以执行这里针对图4至图6描述的操作。硬件组件还响应于指令或软件的运行来访问、操纵、处理、创建和存储数据。为了简化，在这里描述的示例的描述中可使用单数术语“处理器”或“计算机”，但是在其它示例中，可使用多个处理器或多个计算机，或者处理器或计算机包括多个处理元件或多种类型的处理元件或者包括两者。在一个示例中，硬件组件包括多个处理器，而在另一示例中，硬件组件包括处理器和控制器。硬件组件具有不同的处理构造中的任何一个或更多个，硬件组件的示例包括单处理器、独立处理器、并行处理器、单指令单数据(SISD)多处理设备、单指令多数据(SIMD)多处理设备、多指令单数据(MISD)多处理设备和多指令多数据(MIMD)多处理设备。

可使用一个或更多个通用或专用计算机(诸如例如，处理器、控制器和算术逻辑单元)、数字信号处理器、微型计算机、现场可编程阵列、可编程逻辑单元、微处理器或能够运行软件或执行指令的任何其它装置来实现处理装置。处理装置可运行操作系统(OS)并且可运行在OS下操作的一个或更多个软件应用。当运行软件或执行指令时，处理装置可访问、存储、操纵、处理和创建数据。为了简化，可在这里描述的示例的描述中使用单数术语“处理装置”，但是本领域普通技术人员将理解，处理装置可包括多个处理元件和多种类型的处理元件。例如，处理装置可包括一个或更多个处理器或者一个或更多个处理器和一个或更多个控制器。另外，不同的处理结构是可行的，诸如并行处理器或多核处理器。

可由如上描述的运行指令或软件以执行这里描述的操作的处理器或计算机来执行这样的方法，所述方法执行这里针对图4至图6描述的操作的图4至图6中示出的方法。

用于控制处理器或计算机实现硬件组件并执行上述方法的指令或软件被写为计算机程序、代码段、指令或它们的任何组合，以用于独立地或共同地指示或配置处理器或计算机如机器或专用计算机一样操作以执行由硬件组件执行的操作和如上所述的方法。在一个示例中，指令或软件包括由处理器或计算机直接执行的机器代码，诸如由编译器产生的机器代码。在另一示例中，指令或软件包括由处理器或计算机使用解释器执行的高级代码。本领域普通编程员可基于公开了用于执行由硬件组件执行的操作和如上所述的方法的算法的附图中示出的框图和流程图以及说明书中的相应描述容易地编写指令或软件。

用于控制处理器或计算机实现硬件组件并执行上述方法的指令或软件以及任何关联的数据、数据文件和数据结构被记录、存储或固定在一个或更多个非暂时性计算机可读存储介质中。非暂时性计算机可读存储介质的示例包括只读存储器(ROM)、随机存取存储器(RAM)、闪存、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-RLTH、BD-RE、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘和本领域普通技术人员已知的能够以非暂时方式存储指令或软件以及任何关联的数据、数据文件和数据结构并将可指令或软件以及任何关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机可执行指令的任何装置。在一个示例中，软件或指令以及任何关联的数据、数据文件和数据结构分布在网络连接的计算机系统上，从而通过处理器或计算机以分布方式存储、访问并执行指令和软件以及任何关联的数据、数据文件和数据结构。

虽然本公开包括特定示例，但是本领域普通技术人员将清楚，在不脱离权利要求及其等同物的精神和范围的情况下，可在这些示例中进行形式和细节上的各种改变。这里描述的示例仅被考虑为描述性的，而不是限制的目的。每个示例中的特征或方面的描述将被认为可应用于其它示例中的相似特征或方面。如果描述的技术以不同的顺序被执行，和/或如果描述的系统、结构、装置或电路中的组件以不同的方式被组合和/或被其它组件或其等同物代替或补充，则可获得合适的结果。因而，本公开的范围不是由具体实施方式限定，而是由权利要求及其等同物限定，并且权利要求及其等同物的范围内的所有改变均被解释为包括在本公开内。

Claims

1.一种用于训练语言模型的方法，包括:

从训练数据产生第一训练特征向量序列和第二训练特征向量序列；

基于第一训练特征向量序列执行神经网络的前向估计，基于第二训练特征向量序列执行神经网络的后向估计；

基于前向估计的结果和后向估计的结果训练语言模型。

2.如权利要求1所述的方法，其中，神经网络包括用于前向估计的第一隐藏层和用于后向估计的第二隐藏层，

第一隐藏层与第二隐藏层分开。

3.如权利要求1所述的方法，其中，所述产生的步骤包括：

将训练数据转换为词向量序列；

产生沿词向量序列的正向开始的第一训练特征向量序列和沿词向量序列的反向开始的第二训练特征向量序列。

4.如权利要求1所述的方法，其中，前向估计包括：估计将要与包括在训练数据中的第一词连接的随后的词，

后向估计包括：估计与包括在训练数据中的第二词连接的之前的词。

5.如权利要求1所述的方法，其中，所述训练的步骤包括：

基于前向估计的结果和后向估计的结果计算神经网络的训练数据与输出数据之间的误差值；

基于所述误差值更新包括在神经网络中的人工神经元之间的连接权重。

6.如权利要求1所述的方法，其中，基于双向长短期记忆结构BLSTM的递归神经网络配置语言模型。

7.如权利要求6所述的方法，其中，双向长短期记忆结构的递归神经网络包括存储块,存储块被配置为保持先前时间段中输出的值直到随后的时间段为止。

8.如权利要求1所述的方法，其中，训练数据包括包含语音数据、手写数据或它们的组合的序列数据。

9.一种用于识别输入数据的方法，包括：

从输入数据产生第一输入特征向量序列和第二输入特征向量序列；

基于第一输入特征向量序列执行神经网络的前向估计并基于第二输入特征向量序列执行神经网络的后向估计，以估计识别所述输入数据的结果。

10.如权利要求9所述的方法，其中，神经网络包括用于前向估计的第一隐藏层和用于后向估计的第二隐藏层，

第一隐藏层与第二隐藏层分开。

11.如权利要求9所述的方法，其中，所述估计的步骤包括：

基于与第一输入特征向量序列相关联的前向估计结果和与第二输入特征向量序列相关联的后向估计结果，来估计识别所述输入数据的结果。

12.一种用于训练语言模型的设备，包括：

训练数据预处理器，被配置为从训练数据产生第一训练特征向量序列和第二训练特征向量序列；

语言模型训练器，被配置为基于第一训练特征向量序列和第二训练特征向量序列训练基于神经网络的语言模型，针对第一训练特征向量序列执行神经网络的前向估计，并针对第二训练特征向量序列执行神经网络的后向估计。

13.如权利要求12所述的设备，其中，神经网络包括用于前向估计的第一隐藏层和用于后向估计的第二隐藏层，并且第一隐藏层与第二隐藏层分开。

14.如权利要求12所述的设备，其中，语言模型训练器被配置为：基于前向估计的结果和后向估计的结果训练语言模型。

15.如权利要求12所述的设备，其中，语言模型训练器被配置为：基于前向估计的结果和后向估计的结果计算训练数据与输出数据之间的误差值，并基于所述误差值更新包括在神经网络中的人工神经元之间的连接权重。

16.如权利要求12所述的设备，其中，训练数据预处理器被配置为：将训练数据转换为词向量序列，并产生沿词向量序列的正向开始的第一训练特征向量序列和沿词向量序列的反向开始的第二训练特征向量序列。

17.一种用于识别输入数据的设备，包括：

输入数据预处理器，被配置为从输入数据产生第一输入特征向量序列和第二输入特征向量序列；

输入数据识别器，被配置为基于第一输入特征向量序列执行神经网络的前向估计，并基于第二输入特征向量序列执行神经网络的后向估计,以估计识别所述输入数据的结果。

18.如权利要求17所述的设备，其中，神经网络包括用于前向估计的第一隐藏层和用于后向估计的第二隐藏层，第一隐藏层与第二隐藏层分开。