CN110444203B

CN110444203B - 语音识别方法、装置及电子设备

Info

Publication number: CN110444203B
Application number: CN201910647177.3A
Authority: CN
Inventors: 陈杰; 苏丹; 马东鹏
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-07-17
Filing date: 2019-07-17
Publication date: 2024-02-27
Anticipated expiration: 2039-07-17
Also published as: CN110444203A

Abstract

本公开的实施例提供了一种语音识别方法、装置及电子设备，属于计算机技术领域。该语音识别方法包括：获取当前待识别语音信号的特征信息；通过编码器对所述特征信息进行处理，获得M个语音特征向量，M为大于等于1的正整数；通过CTC模型对M个语音特征向量进行处理，获得M个语音特征向量中的N个发音单元，N为小于等于M且大于等于1的正整数；通过注意力模型对M个语音特征向量和N个发音单元进行处理，生成Y个上下文特征向量，Y为大于等于N的正整数；通过解码器网络对Y个上下文特征向量进行处理，获得所述当前待识别语音信号的识别结果。本公开实施例的技术方案能够提高语音识别的准确度。

Description

语音识别方法、装置及电子设备

技术领域

本公开涉及计算机技术领域，具体而言，涉及一种语音识别方法、装置及电子设备。

背景技术

目前，主流的语音识别技术都分为声学模型和语音模型几个部分。传统的语音识别的声学模型的训练，对于每一帧的数据，都需要知道其对应的标签(label)，才能进行有效的训练，即在训练数据之前，需要做语音对齐的预处理。而语音对齐的过程，本身就需要反复多次的迭代，才能确保对齐的准确性，这本身就是一个比较耗时耗资源的工作。

在语音识别领域，如何提高语音识别的准确率是目前亟待解决的技术问题。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开实施例提供一种语音识别方法、装置及电子设备，进而至少在一定程度上能够提高语音识别的准确度。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开实施例的一个方面，提供了一种语音识别方法，所述方法包括：获取当前待识别语音信号的特征信息；通过编码器对所述特征信息进行处理，获得M个语音特征向量，M为大于等于1的正整数；通过CTC模型对M个语音特征向量进行处理，获得M个语音特征向量中的N个发音单元，N为小于等于M且大于等于1的正整数；通过注意力模型对M个语音特征向量和N个发音单元进行处理，生成Y个上下文特征向量，Y为大于等于N的正整数；通过解码器网络对Y个上下文特征向量进行处理，获得所述当前待识别语音信号的识别结果。

在本公开的一些实施例中，基于前述方案，通过注意力模型对M个语音特征向量和N个发音单元进行处理，生成Y个上下文特征向量，包括：根据第一个语音特征向量和第二个发音单元之间的语音特征向量，提取第一个发音单元的K₁个上下文特征向量；根据第i个发音单元和第i+2个发音单元之间的语音特征向量，提取第i+1个发音单元的K_i+1个上下文特征向量，1≤i≤N-2；根据第N-1个发音单元和第M个语音特征向量之间的语音特征向量，提取第N个发音单元的K_N个上下文特征向量，K₁、K_i+1和K_N均为大于等于1的正整数。

在本公开的一些实施例中，基于前述方案，所述解码器网络包括N个传感器，所述识别结果包括Y-N个输出单元；其中，通过解码器网络对Y个上下文特征向量进行处理，获得所述当前待识别语音信号的识别结果，包括：通过第一个传感器对所述第一个发音单元的K₁个上下文特征向量进行处理，获得第一输出单元组，其包括K₁-1个输出单元和一个结束符；通过第j个传感器对第j个发音单元的K_j个上下文特征向量和第一至第j-1输出单元组进行处理，获得第j输出单元组，其包括K_j-1个输出单元和一个结束符，2≤j≤N；去除每个输出单元组中的结束符，获得所述识别结果的Y-N个输出单元，Y等于K₁至K_N之和。

在本公开的一些实施例中，基于前述方案，每个输出单元组包括0至多个输出单元。

在本公开的一些实施例中，基于前述方案，若所述CTC模型输出的发音单元数多于实际发音单元数，则存在至少一个输出单元组包括0个输出单元。

在本公开的一些实施例中，基于前述方案，若所述CTC模型输出的发音单元数少于实际发音单元数，则存在至少一个输出单元组包括多个输出单元。

在本公开的一些实施例中，基于前述方案，所述输出单元的粒度不小于所述发音单元的粒度。

在本公开的一些实施例中，基于前述方案，所述编码器采用深层神经网络模型。

根据本公开实施例的一个方面，提供了一种语音识别装置，所述装置包括：特征信息获得模块，配置为获取当前待识别语音信号的特征信息；特征编码处理模块，配置为通过编码器对所述特征信息进行处理，获得M个语音特征向量，M为大于等于1的正整数；尖峰位置获得模块，配置为通过CTC模型对M个语音特征向量进行处理，获得M个语音特征向量中的N个发音单元，N为小于等于M且大于等于1的正整数；特征向量生成模块，配置为通过注意力模型对M个语音特征向量和N个发音单元进行处理，生成Y个上下文特征向量，Y为大于等于N的正整数；识别结果获得模块，配置为通过解码器网络对Y个上下文特征向量进行处理，获得所述当前待识别语音信号的识别结果。

根据本公开实施例的一个方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述实施例中所述的语音识别方法。

在本公开的一些实施例所提供的技术方案中，通过获取当前待识别语音信号的特征信息；通过编码器对所述特征信息进行处理，获得M个语音特征向量，M为大于等于1的正整数；通过CTC模型对M个语音特征向量进行处理，获得M个语音特征向量中的N个发音单元，N为小于等于M且大于等于1的正整数；通过注意力模型对M个语音特征向量和N个发音单元进行处理，生成Y个上下文特征向量，Y为大于等于N的正整数；通过解码器网络对Y个上下文特征向量进行处理，获得所述当前待识别语音信号的识别结果。一方面，可以利用CTC模型输出的发音单元提供的尖峰位置信息，得到比较准确的各个发音单元的上下文特征向量，从而可以使得注意力模型聚焦到更有效的语音内容上，最终获得更准确的语音识别结果；另一方面，通过引入解码器网络，使解码器网络有能力修复CTC模型中引入的插入删除错误。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了可以应用本公开实施例的语音识别方法或语音识别装置的示例性系统架构的示意图；

图2示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图；

图3示出了相关技术中的CTC模型的示意图；

图4示出了相关技术中的注意力模型的示意图；

图5示出了相关技术中的神经传感器模型的示意图；

图6示出了相关技术中的结合CTC模型和注意力模型的示意图；

图7示意性示出了根据本公开的一个实施例的语音识别方法的流程图；

图8示意性示出了根据本公开的一个实施例的语音识别系统的结构图；

图9示出了基于图7的步骤S740的一个实施例的流程图；

图10示出了基于图7的步骤S750的一个实施例的流程图；

图11示意性示出了根据本公开的一个实施例的语音识别方法的示意图；

图12示意性示出了根据本公开的一个实施例的语音识别装置的框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

图1示出了可以应用本公开实施例的语音识别方法或语音识别装置的示例性系统架构100的示意图。

如图1所示，系统架构100可以包括终端设备101、102、103中的一种或多种，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线通信链路、无线通信链路等等。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、便携式计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器。例如用户利用终端设备103(也可以是终端设备101或102)采集到了当前待识别的语音信号，然后将该当前待识别的语音信号上传到服务器105。服务器105在接收到该当前待识别的语音信号之后，可以提取该当前待识别的语音信号的特征信息；通过编码器对所述特征信息进行处理，获得M个语音特征向量，M为大于等于1的正整数；通过CTC模型对M个语音特征向量进行处理，获得M个语音特征向量中的N个发音单元，N为小于等于M且大于等于1的正整数；通过注意力模型对M个语音特征向量和N个发音单元进行处理，生成Y个上下文特征向量，Y为大于等于N的正整数；之后，服务器105可以通过解码器网络对Y个上下文特征向量进行处理，获得该当前待识别的语音信号的识别结果，然后，服务器105可以将该当前待识别的语音信号的识别结果反馈至终端设备103(也可以是终端设备101或102)，终端设备103(也可以是终端设备101或102)接收到返回的识别结果后，可以在其显示屏上显示识别结果的内容，以方便用户查看。

再例如用户利用终端设备103(也可以是终端设备101或102)采集到了当前待识别的语音信号，然后将该当前待识别的语音信号上传到服务器105。服务器105在接收到该当前待识别的语音信号之后，可以提取该当前待识别的语音信号的特征信息；通过编码器对所述特征信息进行处理，获得M个语音特征向量，M为大于等于1的正整数；通过CTC模型对M个语音特征向量进行处理，获得M个语音特征向量中的N个发音单元，N为小于等于M且大于等于1的正整数；通过注意力模型对M个语音特征向量和N个发音单元进行处理，生成Y个上下文特征向量，Y为大于等于N的正整数；之后，服务器105可以通过解码器网络对Y个上下文特征向量进行处理，获得该当前待识别的语音信号的识别结果，然后，服务器105可以根据该当前待识别的语音信号的识别结果，分析其中包含的用户提出的问题或者用户的意图，然后生成相应的答案反馈至终端设备103(也可以是终端设备101或102)，终端设备103(也可以是终端设备101或102)接收到返回的答案后，可以在其显示屏上显示答案的内容，以方便用户查看；或者同样以语音播报的方式将答案的内容播放出来。

需要说明的是，本公开实施例提供的方案并不限于应用于上述语音识别、语音问答等应用场景，其还可以扩展至任意的其他应用场景。

需要说明的是，本公开实施例所提供的语音识别方法可以由服务器105执行，相应地，语音识别装置可以设置于服务器105中。但是，在本公开的其它实施例中，终端也可以与服务器具有相似的功能，从而执行本公开实施例所提供的语音识别方案。

图2示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。

需要说明的是，图2示出的电子设备的计算机系统200仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图2所示，计算机系统200包括中央处理单元(CPU)201，其可以根据存储在只读存储器(ROM)202中的程序或者从储存部分208加载到随机访问存储器(RAM)203中的程序而执行各种适当的动作和处理。在RAM 203中，还存储有系统操作所需的各种程序和数据。CPU201、ROM202以及RAM 203通过总线204彼此相连。输入/输出(I/O)接口205也连接至总线204。

以下部件连接至I/O接口205：包括键盘、鼠标等的输入部分206；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分207；包括硬盘等的储存部分208；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分209。通信部分209经由诸如因特网的网络执行通信处理。驱动器210也根据需要连接至I/O接口205。可拆卸介质211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器210上，以便于从其上读出的计算机程序根据需要被安装入储存部分208。

特别地，根据本公开的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分209从网络上被下载和安装，和/或从可拆卸介质211被安装。在该计算机程序被中央处理单元(CPU)201执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的模块和/或单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的模块和/或单元也可以设置在处理器中。其中，这些模块和/或单元的名称在某种情况下并不构成对该模块和/或单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。例如，所述的电子设备可以实现如图7、图9或者图10所示的各个步骤。

以下对本公开实施例的技术方案的实现细节进行详细阐述：

相关技术中，为了克服传统的语音识别技术中需要进行语音对齐的预处理的问题，可以采用端到端的声学模型训练方法，主要应用到两种端到端建模方法，一种是单独采用CTC(Connectionist Temporal Classification，连接时序分类)模型，另一种是单独采用注意力(attention)模型。

图3示出了相关技术中的CTC模型的示意图。

这里假设输入语音波形已经适当地参数化在d(d为大于等于1的正整数)维特征向量序列中，记为x＝(x₁，x₂，…，x_T)，其中，x_t∈R^d，其中1≤t≤T，且t和T均为正整数。并假设模型输出的标签符号记为γ，输出序列y＝(y₁,y₂,...,y_T)。

从图3可知，CTC模型中主要只包含一个encoder(编码器)，编码器根据输入x计算一个向量序列之后再将其输入至一个softmax层(即图示中的归一化指数函数)，用于预测输出序列的概率分布P(y₁|x)，…，P(y_T|x)。

CTC主要解决传统的RNN(Recurrent Neural Network，循环神经网络)模型中，标注序列和输入序列的对应问题，通过在标签符号集中加一个空白符号blank，然后利用RNN进行标注，在无法判定某个有效输出时，则输出blank符号；在足够判定某个有效单元(这里指除blank符号对应的输出单元之外的其他输出单元)的时候，则输出一个有效符号(这里指除blank之外的其他符号)，因此CTC中能得到label中有效符号的尖峰(spike)位置。

与传统的声学模型训练相比，采用CTC作为损失函数的声学模型训练，是一种完全端到端的声学模型训练，不需要预先对数据做对齐，只需要一个输入序列和一个输出序列即可以训练。这样就不需要对数据对齐和一一标注，并且CTC直接输出序列预测的概率，不需要外部的后处理。

既然CTC的方法是关心一个输入序列到一个输出序列的结果，那么它只会关心预测输出的序列是否和真实的序列是否接近(相同)，而不会关心预测输出序列中每个结果在时间点上是否和输入的序列正好对齐。CTC引入了blank(该帧没有预测值)，每个预测的分类对应的一整段语音中的一个尖峰，其他不是尖峰的位置认为是blank。对于一段语音，CTC最后的输出是尖峰的序列，并不关心每一个音素持续了多长时间。

CTC模型是帧级别特征编码模块，具有简洁稳定的优势，但是其存在以下不足之处：CTC做了一个假设：不同时间步的输出之间是独立的，即当前输出只与输入特征相关，与历史输出无关。这个假设对于很多序列问题来说并不成立，输出序列之间往往存在联系。

图4示出了相关技术中的注意力模型的示意图。

注意力是一种用于提升基于RNN的encoder+decoder模型的效果的机制(mechanism)，一般称为attention mechanism。Attention mechanism广泛应用于机器翻译、语音识别、图像标注(image caption)等很多领域，attention给模型赋予了区分辨别的能力，例如，在语音识别应用中，为句子中的每个词赋予不同的权重，使神经网络模型的学习变得更加灵活(soft)，同时attention本身可以作为一种对齐关系，解释输入/输出句子之间的对齐关系，解释模型到底学到了什么知识。

如图4所示，注意力模型具有编码器(encoder)和解码器(decoder)两个主要模块，其当前输出y_u不仅与输入特征x有关，还与历史输出(y_u-1,...,y₀)相关，u为大于等于1的正整数，在概率模型上比CTC更完善；同时注意力能够捕获更长范围的特征，不受前后帧限制。

编码器将输入序列x＝(x₁，x₂，…，x_T)映射到一个向量h^enc。其中，表示在预测先前标签y_u-1,...,y₀之后的解码器的最低层的状态。基于注意力机制，根据输入的h^enc和计算上下文向量c_u。然后将上下文向量c_u与先前预测标签y_u-1一起输入解码器，用于输出在解码器中的最后一层产生的比数(logits)/>最后，将/>输入至softmax层，基于先前预测的输出序列和输入序列的条件下，预测当前标签的概率分布P(y_u|y_u-1,...,y₀,x)。

图5示出了相关技术中的神经传感器(Neural transducer)模型的示意图。

神经传感器模型是一种可以在线识别的attention模型，其与标准的attention模型的区别在于，在标准的attention模型中，模型需要等待整个语音内容全部达到后才开始输出结果，即标准的attention模型作用在整个语音范围内，因此不适用于需要实时输出结果的应用场景；而神经传感器模型中，输入语音可以按固定窗大小切分为若干段，依次输入模型，传感器(transducer)可以利用当前已得到的若干个窗的内容来输出结果，即可以在已得到的部分语音内容基础上，输出对应部分的结果，达到实时处理的目的。

如图5所示，将输入序列x＝(x₁，x₂，…，x_L)按照固定为W大小的窗切分为若干段，L和W均为大于等于1的正整数。依次将各个段输入至编码器中，例如将X_bW段输入至编码器，然后将该段的编码器输出信息输入至对应的传感器(transducer)，同时将之前的传感器(transducer)输出的在先预测的标签也输入至该段对应的传感器中，用于预测该段对应的标签，假设为y_m，y_m+1。之后再类似的处理下一个段X_bW+W。在每一个窗输出中都加入了一个<e>符号来表示当前窗的输出结束，并将状态保留至下一个窗中，通过这种机制可以逼近标准attention的性能，并达到在线识别的效果。

但是，神经传感器模型中，输入窗按固定大小划分，存在声学单元被切割或上下文不完整的情况，导致语音识别的性能下降；并且没法得到一个较为精确的当前单元及上下文信息范围，来引导attention更好的聚焦到有效的信息上。

基于上述单独采用CTC或者attention存在的问题，相关技术中，提出了一种结合attention与CTC的方法对语音声学模型建模。

图6示出了相关技术中的结合CTC模型和注意力模型的示意图。

如图6所示，通过多任务训练框架将CTC和attention两种方法集合，解码器(decoder)分为2个，一个是CTC模型，一个是注意力解码器(attention decoder)，两个解码器使用了一个共享编码器(shared encoder)，并通过权重λ来给定不同的权重比，在训练中优化一个插值的损失函数如下：

L_MTL＝λL_CTC+(1-λ)L_attention

其中，L_MTL是结合后整个模型的损失函数，L_CTC是CTC模型的损失函数，L_attention是attention模型的损失函数，λ例如可以取值为0.2，0.5，0.8等数值，0≤λ≤1。

共享编码器将输入序列x＝(x₁，x₂，x₃，x₄，x₅，x₆，x₇，x₈，…，x_T)映射到向量h＝(h₁，h₂，h₃，h₄，…，h_L)，L为小于等于T的正整数。之后，将向量h分别输入至CTC模型和注意力解码器中，其中，CTC模型基于向量h预测输出序列为(-，y₁，-，y₂，…，-)，这里的“-”代表空白符号blank。注意力解码器基于h向量、注意力权重向量a＝(a₀，a₁，a₂，…,a_u)和解码器状态s₀、s₁、s₂、…s_u，来预测输出标签y1，y2，…，其中u为大于等于0的整数。这里增加了两个特殊符号，<sos>代表句子的开始，<eos>代表句子的结束。

虽然相比于单独采用CTC或者attention，attention+CTC模型更快的收敛了，且识别的正确率也超过了单纯的Attention模型和CTC模型。但是，上述相关技术中结合CTC与attention的方案，没有充分结合几种端到端建模方法的优势，还存在至少以下缺点：

Attention无法利用CTC给出的单元范围信息，导致语音识别的准确率不够高。

CTC与attention输出单元集合必须相同，例如，若CTC模型的输出单元是音节，那么attention模型的输出单元也必须是音节，不能采用音素或字等其他单元。

CTC与attention由于一个在帧级别输出(这里指每帧输出一个结果)，一个在单元级别输出(这里指可能输入若干帧才会输出一个结果)，因此需要特殊融合策略进行处理。

图7示意性示出了根据本公开的一个实施例的语音识别方法的流程图。该语音识别方法可以适用于前述实施例中所述的电子设备。参照图7所示，本公开实施例提供的语音识别方法可以包括以下步骤。

在步骤S710中，获取当前待识别语音信号的特征信息。

例如，用户通过其终端设备采集当前待识别语音信号，并将该当前待识别语音信号上传至服务器，服务器接收到该当前待识别语音信号之后，例如可以提取其MFCC(MelFrequency Cepstral Coefficient，Mel频率倒谱系数)特征信息，这里可以假设M帧的语音信号产生了M帧的特征信息，1帧例如可以为10ms。M为大于等于1的正整数。

在步骤S720中，通过编码器(encoder)对所述特征信息进行处理，获得M个语音特征向量。

在示例性实施例中，所述编码器可以采用深层神经网络模型。

本公开实施例中，所述编码器采用帧级别编码器模型，可采用各类深层神经网络模型，如多层LSTM(Long Short-Term Memory，长短期记忆网络)，多层卷积网络，FSMN(Feed-forward Sequential Memory Network，前馈型序列记忆网络)或TDNN(time-delayneural networks，时延神经网络)网络，CNN(Convolutional neural networks，卷积神经网络)，BiLSTM(Bi-directional Long Short-Term Memory，双向长短期记忆网络)，UniLSTM(Uni-directional LSTM，单向LSTM)等中的任意一种或者多种的组合。

在步骤S730中，通过CTC模型对M个语音特征向量进行处理，获得M个语音特征向量中的N个发音单元，N为小于等于M且大于等于1的正整数。

本公开实施例中，所采用的CTC模型可以用于判别发音单元边界及位置，采用CTC准则，可以输出发音单元的尖峰位置。CTC模型每一帧会输出一个后验概率向量，对向量取argmax操作，即取最大值对应的单元作为输出，可以观察到CTC的输出在大部分帧的地方都是blank，只有中间少部分帧为其他有效单元，这些帧对应的地方是所谓的“尖峰位置”，每一个尖峰对应一个发音单元，N个尖峰位置对应的就是N个发音单元。

在步骤S740中，通过注意力(attention)模型对M个语音特征向量和N个发音单元进行处理，生成Y个上下文特征向量，Y为大于等于N的正整数。

本公开实施例中，对N个发音单元中的每一个，生成一个或多个上下文特征向量，其中至少包含一个上下文特征向量对应于结束符<e>，一共为Y个上下文特征向量。

在步骤S750中，通过解码器网络对Y个上下文特征向量进行处理，获得所述当前待识别语音信号的识别结果。

本公开实施例中，解码器网络可以采用上述神经传感器(neural transducer)网络中的transducer。即利用CTC和neural transducer来训练声学模型，然后利用该训练好的声学模型进行语音识别。

本公开实施方式提供的语音识别方法，通过获取当前待识别语音信号的特征信息；通过编码器对所述特征信息进行处理，获得M个语音特征向量，M为大于等于1的正整数；通过CTC模型对M个语音特征向量进行处理，获得M个语音特征向量中的N个发音单元，N为小于等于M且大于等于1的正整数；通过注意力模型对M个语音特征向量和N个发音单元进行处理，生成Y个上下文特征向量，Y为大于等于N的正整数；通过解码器网络对Y个上下文特征向量进行处理，获得所述当前待识别语音信号的识别结果。一方面，可以利用CTC模型输出的发音单元提供的尖峰位置信息，得到比较准确的各个发音单元的上下文特征向量，从而可以使得注意力模型聚焦到更有效的语音内容上，最终获得更准确的语音识别结果；另一方面，通过引入解码器网络，使解码器网络有能力修复CTC模型中引入的插入删除错误。

图8示意性示出了根据本公开的一个实施例的语音识别系统的结构图。

如图8所示，整个系统可以包括四个模块：

模块一为编码器，将输入序列x＝(x₁，…x_t，…，x_T)输入至编码器中，t为大于等于1且小于等于T的正整数，编码器输出M个语音特征向量，并分别将这M个语音特征向量输入至CTC模型和注意力模型，这里的编码器可以采用与上述的共享编码器同样的结构，但本公开并不限定于此。

模块二为CTC模型，CTC模型对M个语音特征向量进行处理，获得M个语音特征向量中的N个发音单元，并将这N个发音单元输入至注意力模型。

模块三为注意力模型，也可以称之为段(单元)级别注意力模块，注意力模型对M个语音特征向量和N个发音单元进行处理，生成Y个上下文特征向量，并将这Y个上下文特征向量输入至解码器网络。

模块四为解码器网络，解码器网络对Y个上下文特征向量进行处理，预测输出序列y＝(…，y_m-1，y_m，y_m+1，…)，作为所述当前待识别语音信号的识别结果。

图9示出了基于图7的步骤S740的一个实施例的流程图。

如图9所示，本公开实施例中上述步骤S740可以进一步包括以下步骤。需要说明的是，这里以上下文各取一个发音单元为例进行举例说明，但本公开并不限定于此，可以根据实际需求选取当前发音单元的前后各K(K为大于等于1的正整数)个发音单元用于提取该当前发音单元的上下文特征向量。

在步骤S741中，根据第一个语音特征向量和第二个发音单元之间的语音特征向量，提取第一个发音单元的K₁个上下文特征向量。

在步骤S742中，根据第i个发音单元和第i+2个发音单元之间的语音特征向量，提取第i+1个发音单元的K_i+1个上下文特征向量，1≤i≤N-2。

在步骤S743中，根据第N-1个发音单元和第M个语音特征向量之间的语音特征向量，提取第N个发音单元的K_N个上下文特征向量，K₁、K_i+1和K_N均为大于等于1的正整数。

本公开实施例中，输入窗是按照CTC模型输出的尖峰位置信息得到的，可以认为某两个尖峰之间的时间窗代表的是当前发音单元对应的语音特征向量，注意力模型可以根据尖峰位置信息计算得到attention范围信息。即在注意力模型中，采用local attention层，与上述相关技术的主要区别在于attention的范围，local attention的范围限制在当前发音单元及其左右各K个发音单元范围内，而非整个输入语音范围内，即在覆盖左右各K个发音单元的范围内，使用attention模型提取单元长度级别的上下文特征向量。

图10示出了基于图7的步骤S750的一个实施例的流程图。本公开实施例中，所述解码器网络可以包括N个传感器(transducer)，所述识别结果可以包括Y-N个输出单元。

如图10所示，本公开实施例中上述步骤S750可以进一步包括以下步骤。

在步骤S751中，通过第一个传感器对所述第一个发音单元的K₁个上下文特征向量进行处理，获得第一输出单元组，其包括K₁-1个输出单元和一个结束符。

在步骤S752中，通过第j个传感器对第j个发音单元的K_j个上下文特征向量和第一至第j-1输出单元组进行处理，获得第j输出单元组，其包括K_j-1个输出单元和一个结束符，2≤j≤N。

例如，第二个段的预测会利用到第二个段的上下文特征向量和第一个段的输出序列。类似的，第三个段的预测会利用第三个段的上下文特征向量和第一个段、第二个段的输出序列等等，以此类推。

在步骤S753中，去除每个输出单元组中的结束符，获得所述识别结果的Y-N个输出单元，Y等于K₁至K_N之和。

具体的，Y个上下文特征向量，对每一个发音单元解码都要结果中包含一个结束符<e>，最终识别结果将<e>去除，获得Y-N个输出单元。

本公开实施例中，解码器网络采用neural transducer中的transducer，transducer可以采用一层或者多层的LSTM/BiLSTM等。最终统一由attention的decoder输出，不需要考虑与CTC的融合策略。

在示例性实施例中，每个输出单元组包括0至多个输出单元。

在示例性实施例中，若所述CTC模型输出的发音单元数多于实际发音单元数，则存在至少一个输出单元组包括0个输出单元。

在示例性实施例中，若所述CTC模型输出的发音单元数少于实际发音单元数，则存在至少一个输出单元组包括多个输出单元。

本公开实施例中，每一个段的输出可以是0至多个有效单元(例如y_m是一个有效单元)，因此可以纠正CTC模型输出的尖峰不准确，导致的插入删除错误，例如CTC尖峰数比实际输出个数多，即存在插入错误时，某些段的输出只有<e>，即输出0个有效单元，可以避免多余输出单元；而当尖峰数比实际少，即存在删除错误时，某些段的输出将会包含多个有效单元，可以避免输出单元少的问题。

在示例性实施例中，所述输出单元的粒度不小于所述发音单元的粒度。

例如，CTC模型的发音单元是音素，那么解码器网络的输出单元可以是音素、音节或者字；如果CTC模型的发音单元是音节，那么解码器网络的输出单元可以是音节或者字。

本公开实施例中，CTC模型输出的发音单元集合与解码器网络的输出单元集合可不同，例如，发音单元集合可以采用上下文相关音素(context-depentent phoneme)，输出单元集合采用音节(syllable)。即对CTC模型的发音单元与解码器网络的输出单元不要求一样，因为CTC模型的作用是用来推算attention层的作用范围，假设CTC模型的输出单元是音素，也可以通过将音素的范围合并，得到对应音节的范围，此时可以将解码器网络的输出单元设置为音节。

图11示意性示出了根据本公开的一个实施例的语音识别方法的示意图。

如图11所示，编码器输出为帧级别编码器模型输出，编码器输出中的一个圆圈代表一帧(这里以26帧为例进行举例说明)，白色圆圈代表编码器输出为blank，黑色圆圈代表CTC准则下编码器输出为有效的发音单元(有效label的尖峰)。注意力模型通过注意力机制提取左右一定发音单元边界范围内的上下文特征向量(如图中是左右各一个发音单元范围)。例如，以第一个尖峰位置(即第一个黑色圆圈)为例，根据第一个语音特征向量(第一个白色圆圈)和第二个黑色圆圈之间的语音特征向量，提取第一个黑色圆圈的上下文特征向量；以第二个尖峰位置(即第二个黑色圆圈)为例，根据第一个黑色圆圈和第三个黑色圆圈之间的语音特征向量，提取第二个黑色圆圈的上下文特征向量；以第三个尖峰位置(即第三个黑色圆圈)为例，根据第二个黑色圆圈和第四个黑色圆圈之间的语音特征向量，提取第三个黑色圆圈的上下文特征向量；以第四个尖峰位置(即第四个黑色圆圈)为例，根据第三个黑色圆圈和第五个黑色圆圈之间的语音特征向量，提取第四个黑色圆圈的上下文特征向量；以第五个尖峰位置(即第五个黑色圆圈)为例，根据第四个黑色圆圈和第六个黑色圆圈之间的语音特征向量，提取第五个黑色圆圈的上下文特征向量；以第六个尖峰位置(即第六个黑色圆圈)为例，根据第五个黑色圆圈和第二十六个白色圆圈之间的语音特征向量，提取第六个黑色圆圈的上下文特征向量。也就是说一个段的范围是当前尖峰(黑色圆圈)的上一个尖峰至下一个尖峰之间包含的区域，在该特征基础上，使用transducer进一步做段内的输出单元的判别，其中每一个段内的输出label(指真实的标签)根据该段的范围，从强制对齐的label中提取并去重后生成，假设输出单元为音节，强制对齐可以输出每一帧实际上应该输出的音节。上面提取的上下文特征向量是transducer的输入，label是该输入对应的“答案”；每个段的结尾添加<e>标志表示段的结束，开始进入下一个段的预测。

本公开实施方式提出的语音识别方法，提出了一种新的声学建模方式，结合CTC和neural transducer建模技术，一方面，注意力模型根据CTC模型计算得到的时间范围信息，利用CTC模型输出的尖峰信息，生成一个包含当前发音单元及前后若干个发音单元的窗，能够得到一个比较准确的当前发音单元的上下文内容窗，在该窗范围内的encoder输出上进行attention，并送入transducer产生输出的语音识别结果，通过该窗可以使得attention聚焦到更有效的输入范围内和更有效的语音内容上，从而得到更准确的语音识别结果。另一方面，transducer的每段可以输出0至多个有效单元，而CTC在该段上只有一个输出，因此通过引入transducer，使模型有能力修复CTC模型中引入的插入删除错误，能够在CTC基础上进一步修复错误，达到更优的识别准确率。

以下介绍本公开的装置实施例，可以用于执行本公开上述实施例中的语音识别方法。对于本公开装置实施例中未披露的细节，请参照本公开上述的语音识别方法的实施例。

参照图12所示，根据本公开的一个实施例的语音识别装置1200可以包括：特征信息获得模块1210、特征编码处理模块1220、尖峰位置获得模块1230、特征向量生成模块1240以及识别结果获得模块1250。其中，特征编码处理模块1220分别连接特征信息获得模块1210、尖峰位置获得模块1230和特征向量生成模块1240，尖峰位置获得模块1230还连接特征向量生成模块1240，特征向量生成模块1240还连接识别结果获得模块1250。

其中，特征信息获得模块1210可以配置为获取当前待识别语音信号的特征信息。特征编码处理模块1220可以配置为通过编码器对所述特征信息进行处理，获得M个语音特征向量，M为大于等于1的正整数。尖峰位置获得模块1230可以配置为通过CTC模型对M个语音特征向量进行处理，获得M个语音特征向量中的N个发音单元，N为小于等于M且大于等于1的正整数。特征向量生成模块1240可以配置为通过注意力模型对M个语音特征向量和N个发音单元进行处理，生成Y个上下文特征向量，Y为大于等于N的正整数。识别结果获得模块1250可以配置为通过解码器网络对Y个上下文特征向量进行处理，获得所述当前待识别语音信号的识别结果。

在示例性实施例中，特征向量生成模块1240可以包括：第一特征向量提取单元，可以配置为根据第一个语音特征向量和第二个发音单元之间的语音特征向量，提取第一个发音单元的K₁个上下文特征向量；第二特征向量提取单元，可以配置为根据第i个发音单元和第i+2个发音单元之间的语音特征向量，提取第i+1个发音单元的K_i+1个上下文特征向量，1≤i≤N-2；第三特征向量提取单元，可以配置为根据第N-1个发音单元和第M个语音特征向量之间的语音特征向量，提取第N个发音单元的K_N个上下文特征向量，K₁、K_i+1和K_N均为大于等于1的正整数。

在示例性实施例中，所述解码器网络可以包括N个传感器，所述识别结果可以包括Y-N个输出单元。其中，识别结果获得模块1250可以包括：第一输出单元，可以配置为通过第一个传感器对所述第一个发音单元的K₁个上下文特征向量进行处理，获得第一输出单元组，其包括K₁-1个输出单元和一个结束符；第二输出单元，可以配置为通过第j个传感器对第j个发音单元的K_j个上下文特征向量和第一至第j-1输出单元组进行处理，获得第j输出单元组，其包括K_j-1个输出单元和一个结束符，2≤j≤N；结果获得单元，可以配置为去除每个输出单元组中的结束符，获得所述识别结果的Y-N个输出单元，Y等于K₁至K_N之和。

在示例性实施例中，每个输出单元组可以包括0至多个输出单元。

本公开实施方式提供的语音识别装置，通过获取当前待识别语音信号的特征信息；通过编码器对所述特征信息进行处理，获得M个语音特征向量，M为大于等于1的正整数；通过CTC模型对M个语音特征向量进行处理，获得M个语音特征向量中的N个发音单元，N为小于等于M且大于等于1的正整数；通过注意力模型对M个语音特征向量和N个发音单元进行处理，生成Y个上下文特征向量，Y为大于等于N的正整数；通过解码器网络对Y个上下文特征向量进行处理，获得所述当前待识别语音信号的识别结果。一方面，可以利用CTC模型输出的发音单元提供的尖峰位置信息，得到比较准确的各个发音单元的上下文特征向量，从而可以使得注意力模型聚焦到更有效的语音内容上，最终获得更准确的语音识别结果；另一方面，通过引入解码器网络，使解码器网络有能力修复CTC模型中引入的插入删除错误。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

获取当前待识别语音信号的特征信息；

通过编码器对所述特征信息进行处理，获得M个语音特征向量，M为大于等于1的正整数；

通过CTC模型对M个语音特征向量进行处理，获得M个语音特征向量中的N个发音单元，N为小于等于M且大于等于1的正整数；

通过注意力模型对M个语音特征向量和N个发音单元进行处理，选取当前发音单元的前后各K个发音单元用于提取当前发音单元的上下文特征向量，生成Y个上下文特征向量，Y为大于等于N的正整数，K为大于等于1的正整数；

通过解码器网络对Y个上下文特征向量进行处理，获得所述当前待识别语音信号的识别结果。

2.根据权利要求1所述的语音识别方法，其特征在于，通过注意力模型对M个语音特征向量和N个发音单元进行处理，生成Y个上下文特征向量，包括：

根据第一个语音特征向量和第二个发音单元之间的语音特征向量，提取第一个发音单元的K₁个上下文特征向量；

根据第i个发音单元和第i+2个发音单元之间的语音特征向量，提取第i+1个发音单元的K_i+1个上下文特征向量，1≤i≤N-2；

根据第N-1个发音单元和第M个语音特征向量之间的语音特征向量，提取第N个发音单元的K_N个上下文特征向量，K₁、K_i+1和K_N均为大于等于1的正整数。

3.根据权利要求2所述的语音识别方法，其特征在于，所述解码器网络包括N个传感器，所述识别结果包括Y-N个输出单元；其中，通过解码器网络对Y个上下文特征向量进行处理，获得所述当前待识别语音信号的识别结果，包括：

通过第一个传感器对所述第一个发音单元的K₁个上下文特征向量进行处理，获得第一输出单元组，其包括K₁-1个输出单元和一个结束符；

通过第j个传感器对第j个发音单元的K_j个上下文特征向量和第一至第j-1输出单元组进行处理，获得第j输出单元组，其包括K_j-1个输出单元和一个结束符，2≤j≤N；

去除每个输出单元组中的结束符，获得所述识别结果的Y-N个输出单元，Y等于K₁至K_N之和。

4.根据权利要求3所述的语音识别方法，其特征在于，每个输出单元组包括0至多个输出单元。

5.根据权利要求4所述的语音识别方法，其特征在于，若所述CTC模型输出的发音单元数多于实际发音单元数，则存在至少一个输出单元组包括0个输出单元。

6.根据权利要求4所述的语音识别方法，其特征在于，若所述CTC模型输出的发音单元数少于实际发音单元数，则存在至少一个输出单元组包括多个输出单元。

7.根据权利要求3所述的语音识别方法，其特征在于，所述输出单元的粒度不小于所述发音单元的粒度。

8.根据权利要求1所述的语音识别方法，其特征在于，所述编码器采用深层神经网络模型。

9.一种语音识别装置，其特征在于，所述装置包括：

特征信息获得模块，配置为获取当前待识别语音信号的特征信息；

特征编码处理模块，配置为通过编码器对所述特征信息进行处理，获得M个语音特征向量，M为大于等于1的正整数；

尖峰位置获得模块，配置为通过CTC模型对M个语音特征向量进行处理，获得M个语音特征向量中的N个发音单元，N为小于等于M且大于等于1的正整数；

特征向量生成模块，配置为通过注意力模型对M个语音特征向量和N个发音单元进行处理，选取当前发音单元的前后各K个发音单元用于提取当前发音单元的上下文特征向量，生成Y个上下文特征向量，Y为大于等于N的正整数，K为大于等于1的正整数；

识别结果获得模块，配置为通过解码器网络对Y个上下文特征向量进行处理，获得所述当前待识别语音信号的识别结果。

10.根据权利要求9所述的语音识别装置，其特征在于，所述特征向量生成模块包括：

第一特征向量提取单元，配置为根据第一个语音特征向量和第二个发音单元之间的语音特征向量，提取第一个发音单元的K₁个上下文特征向量；

第二特征向量提取单元，配置为根据第i个发音单元和第i+2个发音单元之间的语音特征向量，提取第i+1个发音单元的K_i+1个上下文特征向量，1≤i≤N-2；

第三特征向量提取单元，配置为根据第N-1个发音单元和第M个语音特征向量之间的语音特征向量，提取第N个发音单元的K_N个上下文特征向量，K₁、K_i+1和K_N均为大于等于1的正整数。

11.根据权利要求10所述的语音识别装置，其特征在于，所述解码器网络包括N个传感器，所述识别结果包括Y-N个输出单元；其中，所述识别结果获得模块包括：

第一输出单元，配置为通过第一个传感器对所述第一个发音单元的K₁个上下文特征向量进行处理，获得第一输出单元组，其包括K₁-1个输出单元和一个结束符；

第二输出单元，配置为通过第j个传感器对第j个发音单元的K_j个上下文特征向量和第一至第j-1输出单元组进行处理，获得第j输出单元组，其包括K_j-1个输出单元和一个结束符，2≤j≤N；

结果获得单元，配置为去除每个输出单元组中的结束符，获得所述识别结果的Y-N个输出单元，Y等于K₁至K_N之和。

12.根据权利要求11所述的语音识别装置，其特征在于，每个输出单元组包括0至多个输出单元。

13.根据权利要求12所述的语音识别装置，其特征在于，若所述CTC模型输出的发音单元数多于实际发音单元数，则存在至少一个输出单元组包括0个输出单元。

14.根据权利要求12所述的语音识别装置，其特征在于，若所述CTC模型输出的发音单元数少于实际发音单元数，则存在至少一个输出单元组包括多个输出单元。

15.根据权利要求11所述的语音识别装置，其特征在于，所述输出单元的粒度不小于所述发音单元的粒度。

16.根据权利要求9所述的语音识别装置，其特征在于，所述编码器采用深层神经网络模型。

17.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至8中任一项所述的语音识别方法。

18.一种计算机可读介质，其特征在于，所述计算机可读介质承载有一个或者多个程序，当所述一个或者多个程序被电子设备执行时，使得所述电子设备实现如权利要求1至8中任一项所述的语音识别方法。