CN108417202B

CN108417202B - 语音识别方法及系统

Info

Publication number: CN108417202B
Application number: CN201810054315.2A
Authority: CN
Inventors: 俞凯; 陈哲怀; 刘奇; 李豪; 游永彬
Original assignee: Shanghai Jiaotong University Intellectual Property Management Co ltd; AI Speech Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2018-01-19
Filing date: 2018-01-19
Publication date: 2020-09-01
Anticipated expiration: 2038-01-19
Also published as: CN108417202A

Abstract

本发明公开一种语音识别方法及系统。所述语音识别方法包括：提取待识别的语音数据的声学特征；基于声学‑音素神经网络模型，将所述声学特征解码为音素阵列；以及基于音素‑语言神经网络模型，将所述音素阵列进一步解码为文字序列。本发明实施例的语音识别系统，声学‑音素神经网络模型的输出的音素阵列就可以作为音素‑语言神经网络模型的输入，无缝衔接了声学‑音素神经网络模型和音素‑语言神经网络模型，从整体上看，提供了另一种全新的端到端的语音识别架构，极大提高了语音识别的效率。

Description

语音识别方法及系统

技术领域

本发明属于语音分析技术领域，尤其涉及一种语音识别方法及系统。

背景技术

语音识别通过机器学习方法让机器能够自动的将语音转换成对应的文字，其广泛应用于各种智能终端上，也使得越来越多的用户习惯用语音输入词语。

目前相关技术中的语音识别处理大致有两种策略：第一策略，将语音数据分解为不同的声学特征向量，并由WFST(weighted finaite-state transducer,带权有限状态转录机)结合预存储的词典表，解码对应于声学特征向量的候选词语；第二策略，基于神经网络的端到端的语音识别方案，具体是向基于神经网络的语音识别模型输入声学特征，就能够直接由该语音识别模型输出对应于该声学特征的词语序列，提高了识别效率。

但是，本申请的发明人在实践本申请的过程中发现上述相关技术中的技术方案至少存在如下缺陷：在第一策略中，由于预设定好的词典表无法适用于神经网络，并且WFST也不是神经网络，使其需要存储大量的语言模型信息，占用大量的内存，一般通过在云端部署WFST来实现，且其查找过程需要耗费较长的时间，降低了语音识别效率；在第二策略中，需要训练充分的神经网络模型才能够保障其所输出结果的可靠性，使得需要用海量的被标注好的语音数据对该神经网络模型进行训练(训练用的标注文字的语音数据量一般需要达到2000万小时以上)，使得该端到端的语音识别方法始终也只是停留在设想阶段，未能得到有效实践。

需说明的是，关于上述相关技术的描述的目的，仅为了便于公众更方便地了解本申请的实践过程，且申请人并不承认针对上述相关技术的描述为现有技术。

发明内容

本发明实施例提供一种语音识别方法及系统，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种语音识别方法，包括：提取待识别的语音数据的声学特征；基于声学-音素神经网络模型，将所述声学特征解码为音素阵列；以及基于音素-语言神经网络模型，将所述音素阵列进一步解码为文字序列。

第二方面，本发明实施例提供一种语音识别方法，包括：特征提取程序模块，用于提取待识别的语音数据的声学特征；声学-音素神经网络模型，用于将所述声学特征解码为音素阵列；以及音素-语言神经网络模型，用于将所述音素阵列进一步解码为文字序列。

第三方面，本发明实施例提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

本发明实施例的有益效果在于：其一，在系统中设置有声学-音素神经网络模型和音素-语言神经网络模型，并且声学-音素神经网络模型的输出的音素阵列就可以作为音素-语言神经网络模型的输入，无缝衔接了声学-音素神经网络模型和音素-语言神经网络模型，从整体上看，能够将输入声学-音素神经网络模型的声学特征通过音素-语言神经网络模型输出相应的文字序列，(相比于相关技术中应用整个神经网络实现端到端识别策略而言)提供了另一种全新的“端到端”的语音识别架构，并且不需要训练海量的文字标注的语音数据(因为神经网络模型是基于音素-语言的)，使其更易于被有效实施；其二，相比于WFST识别策略，本发明实施例采用了基于两个神经网络模型和声学特征提取设备的相互配合就能够完成语音识别，使得本发明可以在不通过部署在云端的WFST的情况下，即不需要联网也同样能够实现语音识别；其三，由于语音识别模型采用了全神经网络架构，在识别的过程中不需要经过对数据庞大的语音库和词典表的查询，降低了对产品内存的需求，提高了产品的适用范围和识别效率，例如其可以在录音笔上使用，以使录音笔也能够实现语音识别的功能。

本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的语音识别系统的一实施例的结构框图；

图2为本发明实施例的语音识别系统的另一实施例的结构框图；

图3A为本发明实施例语音识别系统中的声学-音素神经网络模型的模块化训练的示例架构图；

图3B为本发明实施例语音识别系统中的音素-语言模型的模块化训练的示例架构图；

图3C为本发明实施例语音识别系统执行端到端语音识别的示例架构图；

图4为本发明实施例的语音识别方法的一实施例的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本发明中，“模块”、“系统”等等指应用于计算机的相关实体，如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说，例如，元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中，并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地系统、分布式系统中另一元件交互的，和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。

最后，还需要说明的是，在本文中，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

如图1所示，本发明的一实施例的语音识别系统10A，包括特征提取程序模块101、声学-音素神经网络模型102和音素-语言神经网络模型103。具体的，特征提取程序模块101可以提取待识别的语音数据的声学特征，以及，关于特征提取程序模块101的工作原理，可以是参照传统的声学特征提取的方式，在此不作限定。具体的，声学-音素神经网络模型102可以将声学特征转换为音素阵列；需说明的是，音素(phoneme)是语音中的最小的单位，依据音节里的发音动作来分析，一个动作构成一个音素，音素分为元音、辅音两大类，如汉语音节ā(啊)只有一个音素，ài(爱)有两个音素，dāi(呆)有三个音素等。具体的，音素-语言神经网络模型103可以将音素阵列进一步转换为文字序列，完成对语音数据的识别工作。

关于音素-语言神经网络模型103的训练方式可以不作限定，例如其可以是直接利用音素和对应的语言文字序列进行训练，当然也可以是利用本发明实施例特此所公开的方法进行训练(具体将在下文中展开)，且都属于本发明的保护范围内。以及，关于声学-音素神经网络模型102的训练方法，可以是采用相关技术的训练方法，也可以是采用本发明实施例特此所公开的训练方法(具体将在下文中展开)，且都属于本发明的保护范围内。

如图2所示，本发明的另一实施例的语音识别系统10B，该10B是10A的一种优化和补充，其具体还额外包括了第一训练程序模块104，以及基于104训练音素-语言神经网络模型103。其中，第一训练程序模块104可以基于词典表和文本数据训练音素-语言神经网络模型103，其中词典表中预存储音素序列和对应的文字序列。具体的，该词典表可以是在相关技术中执行云端语音识别过程中所使用的词典表，但在本实施例中该词典表并不用于识别，而是被用于训练模型。需说明的是，在相关技术中的端到端的语音识别过程中，其需要通过2000万小时以上的经文字标注的语音数据量来训练的神经网络，才可以实现较精确地将语音直接推断出文字，显然，其成本、代价和操作难度是一般的语音识别运营商所无法承受的。相比之下，在本实施例中，可以通过引入现有的文本数据和词典表来训练音素-语言神经网络，以及在对音素-语言神经网络训练的过程中甚至都不需要标注的语音数据，使得本实施例能够被众多的语音识别运营商所应用并有效实施于运营当中。

具体的，第一训练程序模块104包括基于注意力的编码器-解码器S2S(未示出)，其可以训练音素-语言神经网络模型103，以令音素-语言神经网络模型30自动学习对准音素序列和单词序列。需说明的是，目前的基于注意力的编码器-解码器S2S常用于声学-文字端到端语音识别技术，但其一般是应用于预测给定声学特征序列和先前推理标记的标记序列的后验概率，然后基于注意力机制对声学特征序列的隐藏向量进行加权，以使用最相关的隐藏向量进行预测。而在发明本实施例中，首次提出了将基于注意力的编码器-解码器S2S应用至文字单词级别的模型训练中，优选地，可以是将维特比波束搜索算法应用至S2S上，能够产生优秀的学习效果。作为一种可替换或可附加的实施方式，训练音素-语言神经网络模型103还可以是根据CTC(Connectionist Temporal Classification,连续性时序分类)来实现，这样也能够在一定程度上实现音素序列和单词序列的对准。

具体的，该系统还包括：第二训练程序模块(未示出)，用于根据联结主义时序分类CTC，使用声学特征和对应的音素序列训练所述声学-音素神经网络模型。具体的，CTC可以直接计算给定特征序列x的序列l的后验概率P(l|x)，并且可以通过引入空白标记单元来标记未分段的声学特征数据，以在输入序列中的任何时间步预测标记序列。

其中B是如下定义的多对一映射。

B确定标记序列l及其对应的一组CTC路径π。映射是通过在l中的每个标记单元l之间插入一个可选的自循环空白。由特征序列x作为输入的神经网络估计P(πt|x)，例如长短期记忆(Long Short-Term Memory,LSTM)。利用条件独立假设(Conditional IndependentAssumption,CIA)，可以将P(π|x)分解为每个帧t中后验P(πt|x)的乘积。

为了改善CTC中的CIA，还可以使用RNN转换器、递归神经对准器(RNA)和神经节段模型。作为示例，在RNA中，当预测当前时间步的标记时，最后一个时间步的预测标记被用作递归模型的附加输入。由此，针对该模型设计了一种优化负对数似然性的近似动态编程方法，并设计了一种基于采样的序列判别式训练技术，实现了有竞争力的性能。有了这些更强大的结构，标记上下文依赖关系可以更好地建模，并且该模型在没有外部LM的情况下运行良好。

为了优化由声学-音素神经网络模型输入至音素-语言神经网络模型的音素序列，本发明实施例还提出，可以设置PSD(Phoneme Synchronized Decoder，音素同步解码程序模块)，以跨接声学-音素神经网络模型和音素-语言神经网络模型。并且，本实施例中的PSD是采样声学-音素神经网络模型所解码输出的音素阵列，并将采样之后的因素阵列输入至音素-语言网络模型，这样就优化了音素-语言神经网络模型的输入序列的长度。另外，需说明的是，音素同步解码程序模块PSD最初的构想是为了加速语音识别解码，但在本实施例中用于采样并跨接两个模型，其中该两个模型分别使用不同的推理单元(即音素和文字单词)，使得在应用PSD搜索算法加速解码过程的前提下，还应对处理了不同的信息率，更保障了两个模型之间的高衔接度。

如上所述，本发明实施例旨在提供一种模块化训练(如图3A、3B所示)，端到端识别(如图3C)的语音识别方案，模块化训练过程中，两个模型可以各自使用推断单元，且不需要大量的标注语音数据，降低了训练代价，以及端到端识别加快语音识别效率。其中，如图3A示出的是本发明一实施例的声学-音素神经网络模型(A2P,Acoustic-to-Phoneme,声学到音素)的模块化训练的示例；如图3B示出的是本发明一实施例的音素-语言网络模型(P2W,Phoneme-to-Word,音素到词语)的模块化训练的示例；如图3C示出的是本发明一实施例的端到端(E2E,End-to-End)的语音识别的结构示意图。

为了更便于公众了解本发明的技术方案，以下将对本发明技术方案的实施例细节作出示例性的说明：

(1)训练和解码框架

E2E自动语音识别的先前工作着重于将所有组件整合为一个整体，同时进行联合优化和E2E解码。在这项工作中，提出了一种模块化的训练策略，通过利用外部资源来训练每个构建块来提高性能，同时保留端到端的解码以保持E2E自动语音识别的高效解码优势。

E2E单词序列识别如下模块化。

其中w、p和x分别是单词序列、音素序列和声学特征序列。声学-音素模型(A2P)通过使用声学数据的CTC准则来训练。同时，CTC或S2S使用文本训练一个音素–语言模型(P2W)。

然后，通过音素同步解码(PSD)和联合优化将程序模块集成到声学-语言模型(A2W)中。

在解码阶段，采用联合优化的A2W模型作为一个整体直接推断出单词序列，其复杂性与传统的A2W系统相似。对于CTC，每个输出步骤中的最大推理标记被连结为解码结果。维特比波束搜索算法应用于S2S。A2W模型可以进一步与外部语言模型相结合来提高性能。在这种情况下，n元语言模型被编译成单词WFST。因此，PSD搜索算法可以在单词级应用来加速流水线。

(2)模块化

由于音素是定义ASR(Automatic speech recognition,自动语音识别)系统所关心的所有可能发音的先验知识，它与声学有明确的关系，并被作为声学模型单元。A2P模块利用声学数据预测P(p|x)，其可以是与典型的音素模型相同。值得注意的是，尽管为了更好的比较目的而将CTC应用于这项工作中，但是其他传统的声学模型(推断给定声学的音素)也可以应用于本模块中。

与相关技术中的端到端模型不同的是，这里的LM(Language model,语言模型)将单词作为推理单元，并且在给定音素序列(即音素–语言神经网络模型)下预测P(w|p)。并且，P2W模块使用文本数据和词典，也没有使用声学数据。因此，P2W模块与传统的LM的不同之处在于：首先，P2W消耗音素序列，隐式实现了音素化；以及，P2W推断给定音素序列的单词序列。因此，与传统的LM在给出前一个单词序列的情况下推断下一个单词所不同的是，P2W从音素推断下一个单词获得更多的提示。我们的实验结果也表明P2W在预测单词序列方面比LM好；进一步地，按照序列标准CTC和S2S训练P2W，其自动学习音素序列和单词序列之间的对准。

另外，还建议将一个额外的单词边界单元wb引入到音素集合中以改进上面讨论的音素化。wb存在于属于每个单词的音素序列的末尾。例如词典“okay ow k ey”变成“okayow k ey wb”。动机是以wb作为音素化的暗示，例如如果它的音素序列是较长单词的子串，则区分短单词。

(3)音素同步解码

使用不同的推理单位，即音素和单词，应用PSD来应对不同的信息率。

最初提出PSD是为了加速ASR解码。对于空白符号在CTC推断序列中占主导地位的帧，由于没有提供音素信息而进行搜索是多余的。鉴于此观察，通过在CTC解码期间跳过对空白为主的时间步的搜索，提出了音素同步解码。据有关统计表明，其余的推理分布是非常紧凑的，大大降低了信息速率而没有精确度损失。

这里，PSD作为子采样层应用于A2P推理序列，这减少了联合优化中P2W层的输入序列长度。

(4)联合优化

最后，模块堆叠。声学数据用于微调堆叠模型。同时，S2S被第一次应用在单词级上。在优化过程中，可以只对P2W模块进行微调，其原因包括：首先，A2P模块、单音素级别的CTC模型总是可以达到很好的建模效果；然后，固定A2P和组合PSD程序模块可以大大加快联合优化。

发明人还对本申请所公开的技术方案作出了如下的实验

(1)实验设置

交换机语料库进行了实验，其中包含约300小时的语音。从输入语音信号中提取每10毫秒超过25毫秒帧的36维滤波器组。神经网络由Torch和Kaldi进行训练。音素CTC的模型单位为45个单音素和一个空白。基线音素CTC采用5层LSTM(Long Short-Term Memory,长短期记忆网络)，每个都有1024个存储单元和256个节点投影层。采用交叉熵(CE)准则对基线混合系统进行训练，除最后一层为8K群集三音素状态外，结构相同。CTC模型由上面的基线混合系统初始化，并进行训练。在模块化训练中，将基线音素CTC作为A2P模块。CTC P2W模块有4层LSTM，每个有700个存储单元和256个节点投影层。S2S P2W模块使用具有700个节点的5层LSTM用于编码器和具有700个节点的1层LSTM用于解码器。词汇大小为30K，作为该语料库的标准评估设置，并作为P2W模块的输出层。作为没有模块化训练的端到端系统的基准，A2W CTC与CTC具有相同的结构，除了最后一个30K单词的层之外。它由音素CTC初始化。

在NIST 2000CTS测试集的交换机(swbd)和Callhome(callhm)子集上进行评估。基线音素CTC使用从交换机语料库的转录中训练的30k词汇量的三元LM，没有Fisher语料库插值。P2W模块也通过交换机转录训练，使它们彼此兼容。CD音素CE和CI音素CTC的解码程序与相同。A2W系统的解码算法在3.1节讨论。S2S使用了一束20字错误率(WER)和音素错误率(PER)被作为度量。

(2)模块化

表1显示了验证集(CV)中每个模块的性能。在以后的实验中使用粗体字的系统。

表1每个模块的性能

在A2P中，基线音素识别性能与相关技术是基本平行的。wb不会影响性能，以及由PER的统计数据所带来的轻微改善包括wb。通过进一步统计，显示wb预测误差率为4％。

在P2W模块中，检查CTC和S2S。没有在音素序列中插入wb，CTC和S2S都获得较大的WER。正如3.2节所讨论的，wb给出了音素序列音素化的提示。因此CTC和S2S与wb显著提高。S2S一贯表现出比CTC更好的表现，这得益于去除CTC中的CIA。与传统的LM不同，由于音素序列和单词序列有不同的长度，而且两者之间的一致性不确定，并且通过序列标准自动学习，所以没有报告困惑(PPL)。

(3)联合优化

在模块化初始化后，模型在表2中进行了联合优化。为了更好地支持这个结果，我们将它们与这个语料库中的A2W系统进行了比较。不同的设置包括：i)基于i向量的自适应；ii)利用BLSTM；iii)利用Fisher语料库对LM进行插值。因此，这项工作的基线和相关技术的基线之间的差距总是相对20-30％。

表2具有或不具有模块化训练的性能比较

基线混合系统(CD音素CE)和音素CTC(CI音素CTC)分别位于第1行和第2行。它们都是用30K词典和n元LM生成的WFST解码的。CI音素CTC的性能差于CD音素CE，差距与相关技术相似。直接的A2W CTC(单词CTC)在第3行，它具有音素初始化，但没有GloVe初始化。性能明显差于CI音素CTC。这种设置被认为是朴素A2W基线，因为可以认为模块化训练是捕获语言信息的一种更好的方式。

所提出的模块化训练的A2W CTC(Mod.CTC)位于第4行。基于PSD的联合优化在此处被应用，其效果将在后面的表3中被检查。Mod.CTC显著优于第3行的朴素A2W。模块化训练框架从以下方面受益：i)由于模块化和初始化，更容易和更快的模型收敛。ii)分别使用文本和声学数据容易地使用标准AM和LM技术。

表3显示了带或不带PSD的建模效果和训练速度。所有结果都在一个Titan GPU上报告。“fr./s.”表示每秒处理的声学帧的数量。训练加速起源于两个折叠：i)PSD在每个序列中减小要由P2W处理的序列长度。ii)随着序列长度的减少，可以将更多的序列加载到GPU存储器中进行并行训练。同时，性能明显提升。我们相信这也是序列长度减少的结果。虽然使用了LSTM，但是模型仍然很难记住一个很长的输入序列。尽管如此，对于A2W建模来说，推断每个单词之前要记住的历史比传统的CI音素CTC或混合系统要长得多。PSD框架显示了解决这个问题的另一种选择。

表3 具有PSD或不具有PSD的性能和速度比较。

为了缓解由于CTC中的CIA引起的单词序列建模效果的恶化，进一步研究了两种方法。首先，用前面的n元LM生成的WFST用于解码所提出的系统。结果见表2第5行，并有适度的改进。因此，第2行和第5行(CI音素CTC与A2W系统)之间的性能差距降低至相对15％。另一种方法是用2.2节中讨论的S2S代替CTC。所提出的模块化训练的A2W S2S(Mod.S2S)在表2中是最后一行。与表1中的观察不同，基于S2S的系统没有实现改进。解码结果分析表明S2S容易出现来自A2P模块的音素识别错误。经过联合优化后，S2S不能恢复出错。此外，基于字素的系统不包括在这项工作中，虽然他们已经在大多数S2S作品中进行了研究，而字形不适用于相关技术中所阐述的语言建模。另外，本发明实施例尤其适用于LVSCR(Large VocabularyContinuous Speech Recognition,大词汇量连续语音识别)。

如图4所示，本发明的一实施例的语音识别方法，包括：

S11、提取待识别的语音数据的声学特征。

S12、基于声学-音素神经网络模型，将声学特征解码为音素阵列。

S13、基于音素-语言神经网络模型，将音素阵列进一步解码为文字序列。

在一些实施方式中，该方法还包括针对所述音素-语言神经网络模型的训练步骤，包括：基于词典表和文本数据训练所述音素-语言神经网络模型，其中所述词典表中预存储音素序列和对应的文字序列。

在一些实施方式中，所述针对所述音素-语言神经网络模型的训练步骤还包括：使用基于注意力的编码器-解码器来训练所述音素-语言神经网络模型，以令所述音素-语言神经网络模型自动学习对准音素序列和单词序列。

在一些实施方式中，该方法还包括针对所述声学-音素神经网络模型的训练步骤，包括：根据联结主义时序分类，使用声学特征和对应的音素序列训练所述声学-音素神经网络模型。

在一些实施方式中，所述根据联结主义时序分类，使用声学特征和对应的音素序列训练所述声学-音素神经网络模型包括：基于递归神经对准器，改善联结主义时序分类中的条件独立假设。

在一些实施方式中，在所述基于声学-音素神经网络模型将所述声学特征解码为音素阵列之后，该方法还包括：使用音素同步解码程序模块来采样所述声学-音素神经网络模型所解码的所述音素阵列，并将采样后的所述音素阵列输入至所述音素-语言神经网络模型，其中所述音素同步解码程序模块跨接所述声学-音素神经网络模型和所述音素-语言神经网络模型。

上述本发明实施例的语音识别方法实施例具体的细节可以参照上文关于语音识别系统实施例，并相应的达到上述本发明系统实施例系统所达到的技术效果，这里不再赘述。

本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。

另一方面，本发明实施例提供一种存储介质，其上存储有计算机程序，该程序被处理器执行如上所述的语音识别方法的步骤。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的系统。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的语音识别方法的步骤。

本申请实施例的电子设备以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种语音识别方法，包括：

提取待识别的语音数据的声学特征；

基于声学-音素神经网络模型，将所述声学特征解码为音素阵列；以及

基于音素-语言神经网络模型，将所述音素阵列进一步解码为文字序列；

在所述基于声学-音素神经网络模型将所述声学特征解码为音素阵列之后，还包括：使用音素同步解码程序模块来采样所述声学-音素神经网络模型所解码的所述音素阵列，并将采样后的所述音素阵列输入至所述音素-语言神经网络模型，其中所述音素同步解码程序模块跨接所述声学-音素神经网络模型和所述音素-语言神经网络模型。

2.根据权利要求1所述的方法，其中，该方法还包括针对所述音素-语言神经网络模型的训练步骤，包括：

基于词典表和文本数据训练所述音素-语言神经网络模型，其中所述词典表中预存储音素序列和对应的文字序列。

3.根据权利要求2所述的方法，其中，所述针对所述音素-语言神经网络模型的训练步骤还包括：

使用基于注意力的编码器-解码器来训练所述音素-语言神经网络模型，以令所述音素-语言神经网络模型自动学习对准音素序列和单词序列。

4.根据权利要求1所述的方法，其中，该方法还包括针对所述声学-音素神经网络模型的训练步骤，包括：

根据联结主义时序分类，使用声学特征和对应的音素序列训练所述声学-音素神经网络模型。

5.一种语音识别系统，包括：

特征提取程序模块，用于提取待识别的语音数据的声学特征；

声学-音素神经网络模型，用于将所述声学特征解码为音素阵列；以及

音素-语言神经网络模型，用于将所述音素阵列进一步解码为文字序列；

音素同步解码程序模块，其跨接所述声学-音素神经网络模型和所述音素-语言神经网络模型，用于采样所述声学-音素神经网络模型所解码的所述音素阵列，并将采样后的所述音素阵列输入至所述音素-语言神经网络模型。

6.根据权利要求5所述的系统，其中，该系统还包括：

第一训练程序模块，用于基于词典表和文本数据训练所述音素-语言神经网络模型，其中所述词典表中预存储音素序列和对应的文字序列。

7.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-4中任一项所述方法的步骤。

8.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-4中任一项所述方法的步骤。