CN111429889A

CN111429889A - 基于截断注意力的实时语音识别的方法、装置、设备以及计算机可读存储介质

Info

Publication number: CN111429889A
Application number: CN201910016861.1A
Authority: CN
Inventors: 付晓寅; 白锦峰; 陈志杰; 梁鸣心; 陈旭; 贾磊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-01-08
Filing date: 2019-01-08
Publication date: 2020-07-17
Anticipated expiration: 2039-01-08
Also published as: KR102333939B1; US10854193B2; CN111429889B; US20200219486A1; JP6916264B2; JP2020112787A; EP3680894A1; EP3680894B1; KR20200086214A

Abstract

本公开提供了一种基于截断注意力的实时语音识别的方法、装置、设备以及计算机可读存储介质。方法包括获得用于截断输入的语音信号的特征序列的截断信息，然后基于截断信息来将特征序列截断成多个子序列。方法还包括针对每个子序列，通过注意力机制来获得实时识别结果。本公开的实施例通过在传统的注意力模型中引入根据语音信号而确定的截断信息，能够指导注意力模型针对每个截断分别进行注意力建模，不仅能够实现实时的语音识别，而且能够保证很高的识别准确率。此外，可选地，本公开的一些实施例所提出的双头结构能够保证实时语音识别过程的计算量较小，本公开的一些实施例所提出的多级注意力结构能够进一步提升语音识别的准确率。

Description

基于截断注意力的实时语音识别的方法、装置、设备以及计算机可读存储介质

技术领域

本公开的实施例总体上涉及语音识别技术领域，并且更具体地涉及基于截断注意力的实时语音识别的方法、装置、设备以及计算机可读存储介质。

背景技术

语音识别是指通过计算机把语音信号转换为对应的文本的过程，是实现人与机器交互的主要途径之一。近年来，随着深度学习技术在语音识别领域的广泛引用，语音识别的准确率得到了极大的提升。此外，由于智能设备的不断普及，使用语音进行识别的场合已经变得非常丰富。例如，语音识别技术已经广泛应用于语音输入，语音拨号、车载导航等各种场合。语音识别技术结合自然语言处理以及语音合成等技术，可以产生更多复杂应用，例如智能音箱、会议同声传译、智能客服助理等。语音识别的准确率直接影响着语音相关产品用户的使用体验，因此，随着语音识别使用场景的不断丰富，对语音识别的准确率提出了更高的要求。

实时语音识别是指针对接收到的连续语音，对语音的各个片段进行识别，从而可以实时地获得识别结果，而不需要等待全部语音输入完毕之后才开始识别过程。在大规模词汇量的在线连续语音识别中，影响系统性能的关键因素是系统的识别精度和响应速度。例如，在用户期望在说话的同时能够看到识别结果实时展现的场景中，需要语音识别系统在保持高识别率的同时，及时快速地对语音信号进行解码并输出识别结果。如果等用户语音输入完毕后才开始识别，则会严重影响用户的使用体验，造成语音交互的不流畅性。

发明内容

根据本公开的示例实施例，提供了一种基于截断注意力的实时语音识别的方法、装置、设备以及计算机可读存储介质。

在本公开的第一方面中，提供了一种基于截断注意力的实时语音识别的方法。该方法包括：基于输入的语音信号，获得用于截断语音信号的特征序列的截断信息；基于截断信息，将特征序列截断成多个子序列；以及针对多个子序列中的子序列，通过注意力机制来获得实时识别结果。

在本公开的第二方面中，提供了一种基于截断注意力的实时语音识别的装置。该装置包括：截断信息获得模块，被配置为基于输入的语音信号，获得用于截断语音信号的特征序列的截断信息；特征序列截断模块，被配置为基于截断信息，将特征序列截断成多个子序列；以及识别结果获得模块，被配置为针对多个子序列中的子序列，通过注意力机制来获得实时识别结果。

在本公开的第三方面中，提供了一种电子设备，其包括一个或多个处理器以及存储装置，其中存储装置用于存储一个或多个程序。一个或多个程序当被一个或多个处理器执行，使得电子设备实现根据本公开的实施例的方法或过程。

在本公开的第四方面中，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现根据本公开的实施例的方法或过程。

应当理解，本发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键特征或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的描述而变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了传统的语音识别过程的示意图；

图2示出了根据本公开的实施例的示例实时语音识别场景的示意图；

图3示出了根据本公开的实施例的基于截断注意力的实时语音识别的方法的流程图；

图4示出了根据本公开的实施例的基于截断注意力的实时语音识别的过程的示意图；

图5示出了根据本公开的实施例的基于连接时序分类(CTC)尖峰信息的流式多级截断注意力(SMLTA)模型的示例架构的示意图；

图6示出了根据本公开的实施例的基于CTC尖峰信息的SMLTA模型的示例工作原理图；

图7示出了根据本公开的实施例的基于截断注意力的实时语音识别的装置的框图；以及

图8示出了能够实施本公开的多个实施例的电子设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中示出了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反，提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“一些实施例”应当理解为“至少一些实施例”。下文还可能包括其他明确的和隐含的定义。

传统的语音识别系统主要包括声学模型、语言模型以及解码器三个部分，如图1所示，其示出了传统的语音识别过程100的示意图。在获得采集的语音信号110之后，首先在框120处对语音信号110进行信号处理和特征提取，包括从输入的语音信号110中提取特征，以供声学模型132处理，还包括一些信号处理技术，以便降低环境噪声或者其他因素对特征造成的影响。

参考图1，在特征提取之后，将提取的特征输入到解码器130，并由解码器130经过处理输出识别结果140，解码器130根据声学模型132和语言模型134寻找最大概率输出的语音信号的词序列，其中声学模型132实现语音到音节的转换，而语言模型134实现音节到文本的转换。声学模型132利用声学、语音学、环境特性以及说话人性别口音等信息，对语音信号进行建模。例如，声学模型132可以采用隐马尔科夫模型(HMM)建模，以表示语音的特征向量序列对某一状态序列的后验概率。语言模型134用于对语言进行建模。通常，可以使用统计的N元文法(N-Gram)，即统计前后N个字出现的概率。如图1所示，声学模型132可以基于语音数据库133来训练和/或工作，语言模型134可以基于文本数据库135来训练和/或工作。

一般来说，为了减少模型的复杂度和计算量，通常声学模型132和语言模型134被当作两个独立的模型分别进行训练和优化。如图1所示，语音识别系统的构建需要经过特征提取、声学模型训练、语言模型训练、以及解码器优化等多个模块共同配合。特别是声学模型训练，通常需要具有专业声学背景知识的人员来进行开发和优化，这增加了语音识别系统的复杂程度和人力成本。

随着神经网络技术的不断发展，声学模型的各个模块逐渐被神经网络替代，不但简化声学模型的复杂度并且降低模型的开发和调试难度，而且显著提升语音识别系统的性能。例如，出现了深度神经网络(DNN)+HMM的声学模型。随后，在该结构的基础上，声学模型进一步引入了深度卷积网络(CNN)、基于门的循环神经网络(GRU)以及长短时记忆网络(LSTM)等网络结构以替换DNN模型，显著提升了神经网络模型的建模精度。

连接时序分类(CTC)模型是一种端到端(end-to-end)的模型，其被用于大规模词汇量的语音识别，混合DNN+HMM的声学模型结构完全被统一的神经网络结构所替代，大大简化了声学模型的结构和训练难度，使得语音识别系统的准确率得到进一步提升。

然而，本申请的发明人认识到CTC模型存在以下几方面的缺点：(1)尽管CTC模型属于端到端模型，但是CTC模型仍然要求输出序列分布满足一定条件的独立性假设。这种独立性假设造成CTC模型在训练声学模型的过程中，无法有效利用语言模型的信息进行建模；当输入的语音信号存在一定的环境噪声或者信号强度较低时，语音识别系统仅仅依靠声学信息很难对输入的音频特征进行有效区分，容易造成识别性能的下降；(2)CTC模型容易产生一定比例的插入和删除错误，这种错误虽然在解码时可以通过精心设计语言模型的权重在一定程度上得到缓解，但是无法从根本上解决CTC模型这种建模能力不足的问题。

注意力(attention)模型是对编码器-解码器模型的扩展，其能够提升在较长序列上预测的效果。首先，使用GRU或LSTM模型对输入的音频特征编码得到隐含特征，然后通过注意力模型对这些隐含特征的不同部分分配相应的权重，最后解码器根据建模粒度的不同输出对应的文本。这种声学和语言模型联合建模的方式能够进一步化简语音识别系统的复杂度。

然而，本申请的发明人认识到注意力模型仍然存在以下几方面的缺点：(1)传统的注意力模型无法实现实时语音识别，在在线的语音交互产品服务中，语音是一个个片段从用户设备上传到服务器的，每个片段来的时候，都要求能够进行当前片段的解码，这样解码时间就能和传输过程并行进行，这时候用户说完话后，等待识别结果的时间就是最后一个包的解码时间，这个过程称作流式解码(也称为“实时识别”)，而在传统的注意力模型中，只有当全部语音信号输入完毕后，识别系统才可以启动解码，用户要等待的时间就是整段语音的解码时间。这样造成基于整句注意力机制的模型在语音交互系统中，会引起用户较长的等待时间，无法进行实时的语音交互，因而无法在语音交互类的工业产品中得到实际使用；(2)传统的注意力模型对长句建模效果不佳，造成识别准确率较低，基于整句的注意力模型需要整句信息上进行注意力建模，而语音识别的句子信息按照语音帧的长度来看，最长可以达到几千帧，注意力建模的本质是针对建模单元进行冗余特征的剔除和最核心本质特征的选取。如果备选特征的范围过大(比如传统注意力模型需要在几千帧的范围上进行注意力建模)，同时深度学习的收敛并不是标准的凸优化，最终造成注意力的学习过程很难收敛到真正能够描述当前建模单元的核心特质帧上，从而造成注意力模型建模能力下降，在长句上建模效果不佳的缺陷。

已经出现对注意力模型的改进，例如将输入特征按照启发式的固定长度进行切分。然而，这种固定长度的切分并不会考虑输入的音频特征序列本身，很容易把有效的特征序列排除在外，很难适应语音识别这种语速和停顿不断变化的情形。因此，这种改进虽然能够实现一部分的实时语音识别，但是牺牲了语音识别的准确性，从而导致比传统的注意力模型整句建模更低的识别准确率。也就是说，传统的语音识别技术要么不能进行实时语音识别，要么识别的准确率较低，因而无法实现准确的实时语音识别。

为了解决以上传统技术中存在的问题中的一个或多个，本公开的实施例提出了一种基于截断注意力的实时语音识别的方案，其提供了利用截断信息指导注意力模型学习的思路。本公开的实施例通过在传统的注意力模型中引入根据语音信号而确定的截断信息，能够指导注意力模型针对每个截断分别进行注意力建模，不仅能够实现连续语音识别，而且还能够保证高准确率。此外，可选地，截断信息可以基于通过CTC处理而获得的语音信号的尖峰信息。另外，可选地，本公开的一些实施例所提出的CTC和注意力双头结构能够保证实时语音识别过程的计算量较小，本公开的一些实施例所提出的多级注意力结构能够进一步提升语音识别的准确率。以下将参考附图2-8详细描述本公开的一些示例实现。

图2示出了根据本公开的实施例的实时语音识别场景200的示意图。应当理解，场景200仅为本公开的实施例可以实现是一个示例场景，而不用于限制本公开的保护范围。

如图2所示，在场景200中，用户210正在对着其用户设备220说话，用户210产生的语音215(即声音)被用户设备220所采集，例如，可以通过用户设备220的声音采集设备(诸如麦克风)来采集语音215。用户设备220可以为能够采集语音信号的任何电子设备，包括但不限于智能手机、平板电脑、台式计算机、笔记本计算机、智能可穿戴设备(诸如智能手表、智能眼镜)、导航设备、多媒体播放器设备、教育设备、游戏设备、智能音箱，等等。

用户设备220在采集语音215的过程中，可以通过网络225将语音215分段地发送到服务器230，服务器230包括根据本公开的实施例的用于语音识别的截断注意力模型233(在本公开的一些实施例中，截断注意力模型233可以为基于CTC尖峰信息的流式多级的截断注意力(SMLTA)模型)。网络225可以为任意的有线网络、无线网络、或者有线网络和无线网络的组合。截断注意力模型233可以通过训练数据235而被训练，使得其可以实现实时且准确的语音识别，在完成识别之后，可以通过网络225将识别结果发送到用户设备220。

用户设备220可以通过其显示器223来实时地显示识别结果。由于本公开的实施例能够实时识别语音，因而随着语音215的不断产生，显示器223上所显示的识别结果也在动态变化，使得用户能够实时知晓所识别的结果，提升用户体验。在一些实施例中，用户设备220也可以不包括显示器223，相反，用户设备220可以通过其音频输出设备(例如扬声器)来输出识别结果。在又一些实施例中，服务器230可以基于识别结果直接执行进一步的动作，而无需将语音的识别结果发送到用户设备220。

应当理解，虽然在图2的环境200示出截断注意力模型233被部署在用户设备220远端的服务器230侧，然而，截断注意力模型233也可以被部署在用户设备220的本地。备选地，也可以将截断注意力模型233的一部分部署在用户设备220本地，将另一部分部署在服务器230侧，或者将截断注意力模型233分布式地部署在多个服务器处。本公开的实施例不限制截断注意力模型233的部署方式和位置。

图3示出了根据本公开的实施例的基于截断注意力的实时语音识别的方法300的流程图。应当理解，方法300可以由以上参考图2所描述的服务器230或用户设备220、或者其组合来执行。为了便于清楚描述方法300，在此参考图4的基于截断注意力的实时语音识别的过程400一起描述方法300。

在框302，基于输入的语音信号，获得用于截断语音信号的特征序列的截断信息。例如，特征序列可以通过对语音信号编码而获得。例如，如图4所示，在采集到来自用户的语音信号410之后，编码器420可以将采集到的语音信号410编码成隐含特征序列430，然后根据隐含特征序列430确定截断信息435。因此，本公开的实施例使用根据输入的语音信号的特征而计算出的截断信息，使得后续的截断不影响语音识别的准确率，从而既实现了语音信号的实时识别，也保证了语音识别的准确率。

在一些实施例中，截断信息可以是通过对特征序列进行连接时序分类(CTC)处理而获得与语音信号有关的尖峰信息，CTC处理可以输出尖峰的序列，尖峰之间可以通过空白(blank)进行分隔，其中一个尖峰可以表示一个音节(syllable)或者一组音素(phone)，例如高频音素的组合。应当理解，虽然本文的以下部分使用CTC尖峰信息作为提供截断信息的一个示例进行描述，然而，目前已知的或者将来开发的能够提供输入的语音信号的截断信息的任何其他模型和/或算法也可以与本公开的实施例结合使用。

在框304，基于截断信息，将特征序列截断成多个子序列。例如，如图4所示，基于注意力的解码器440可以根据截断信息435将隐含特征序列430截断成一个个隐含特征子序列，其中隐含特征序列可以为表示语音信号的特征的向量。例如，隐含特征序列可以指代不可直接观测得到但可以通过可观测变量确定的特征向量。不同于传统技术中的使用固定长度的截断方式，本公开的实施例使用根据语音信号而确定的截断信息来进行特征截断，避免了排除有效的特征部分，从而能够实现很高的准确率。

在框306，针对多个子序列中的每个子序列，通过注意力机制来获得实时识别结果。例如，语音215解码器440针对截断生成的每个隐含特征子序列，使用注意力模型来获得识别结果450，其中注意力模型能够实现加权特征选择并且对隐含特征的不同部分分配相应的权重。目前已知的或者将来开发的基于注意力机制的任何模型和/或算法可以与本公开的实施例结合使用。因此，本公开的实施例通过在传统的注意力模型中引入根据语音信号而确定的截断信息，能够指导注意力模型针对每个截断分别进行注意力建模，不仅能够实现连续语音识别，而且还能够保证高准确率。

在一些实施例中，在隐含特征序列被截断成多个子序列之后，可以对多个子序列中的第一子序列执行注意力模型的第一注意力建模，并且对多个子序列中的第二子序列执行注意力模型的第二注意力建模，其中第一注意力建模不同于第二注意力建模。也就是说，本公开的实施例能够进行局部截断的注意力模型的注意力建模。

图5示出了根据本公开的实施例的基于CTC尖峰信息的SMLTA模型的架构500的示意图。如图5所示，架构500主要包括三个部分：共享解码器520，被配置为将输入的语音信号510编码成隐含特征序列530(即隐含特征序列h)；CTC模块540，被配置为基于隐含特征序列530来确定尖峰信息560；以及注意力解码器550，被配置为基于隐含特征序列530和尖峰信息560来获得实时识别结果570。在图5所示出的架构500，共享编码器520被CTC模块540和注意力解码器550共享，形成CTC模块540和注意力解码器550两个头的“双头结构”。由于架构550中的主要计算量集中在共享编码器520和注意力解码器550，因而与传统的注意力模型相比，根据本公开的实施例的架构550几乎不增加整个模型架构的计算量(虽然有增加，但增加的比例特别小，几乎可以被忽略)，但却能够同时提供CTC输出(即尖峰信息560)和注意力输出(即识别结果570)，能够很好地解决本公开的实施例的架构500的大规模工业部署的问题。相反，传统的方式如果想要在产品中组合使用这两个模型，可能会导致线上的计算量增加一倍，从而造成成本过高，无法大规模工业使用。

如图5所示，共享编码器520包括1个卷积层(Conv)、N个LSTM和批归一化(BN)层，其中N可以为正整数(例如5等)，并且LSTM可以为单向的LSTM。对于给定的输入语音信号，共享编码器520首先对语音信号进行编码，得到对应的隐含特征序列530。在一些实施例中，语音信号510可以在被输入到共享编码器520之前已经被特征提取处理而作为模型输入x。应当理解，虽然图5中示出了共享编码器520的内部层级结构，然而，其他结构的编码器也可以与本公开的实施例结合使用。

CTC模块540包含1个线性变换(Linear)层和1个归一化(Softmax)层，其利用CTC训练准则得到输入的隐含特征序列530的尖峰的描述信息，从而生成包括尖峰信息560的CTC输出，然后将尖峰信息560传递给注意力解码器550，以用于利用尖峰信息560将隐含特征序列530截断成多个子序列。

继续参考图5，注意力解码器550包括1个注意力模型层、M个LSTM层和层归一化(LN)层、以及1个Softmax层，其中M可以为正整数(例如2等)，并且LSTM可以为单向的LSTM。注意力解码器550根据接收到的隐含特征序列530和尖峰信息560，能够将隐含特征序列530截断成一个个连续的子序列。注意力解码器550对截断的子序列通过注意力机制进行筛选，最终获得相应的输出概率分布。由于共享编码器520和解码器550使用单向LSTM作为基本的网络结构，并且这种把隐含特征序列截断成子序列的方式仅仅依赖隐含特征的历史信息，使得语音识别系统能够在音频信号输入的同时实时进行解码，而不必等到整个音频信号全部输入后才开始解码，实现了实时语音识别。虽然图5中示出了注意力解码器550的内部层级结构，然而，其他结构的注意力解码器也可以与本公开的实施例结合使用。

在图5所示出的紧凑的CTC和注意力一体的STMLA模型中，同时拥有CTC模块540的头和注意力解码器550的头，训练时候也可以是双头一起训练。CTC模块540的头用CTC损失函数训练，注意力解码器550的头用交叉熵损失函数训练。两个损失函数用线性差值权重连接，也即，两个损失函数各自具有其相应的权重。这种模型在线上计算量和一个模型几乎相同，却同时能够提供CTC和注意力两种信息，从而能够大规模工业部署。

由于CTC模块输出的尖峰信息存在一定的插入和删除错误，这种错误容易造成截断得到的隐含特征序列的子序列边界的不准确，进而影响语音识别系统的识别性能。为了缓解由于CTC模块的插入和删除错误造成的偏差，本公开的实施例还提供了一种基于多级注意力结构对截断的子序列进行逐级筛选的方法，其通过注意力解码器的LSTM模型输出最后的概率分布。例如，图6示出了根据本公开的实施例的基于两级注意力结构的SMLTA模型的工作原理图600。

如图6所示，利用CTC的尖峰信息610，可以将隐含特征序列620截断成多个的特征子序列，其中trunc为截断的基本单位，一个trunc可以表示隐含特征序列620中与一个尖峰相对应的特征部分。在一些实施例中，针对每个尖峰(其可以表示一个音节或者高频音素的组合)，可以选择与该尖峰相邻的预定数目个尖峰相对应的特征子序列作为一个截断，预定数目个尖峰包括该尖峰之前的第一数目个尖峰和该尖峰之后的第二数目个尖峰。子序列可以为这些尖峰所对应的特征部分。通常，如果某个尖峰在时序上前后存在足够的尖峰，则第一数目和第二数目的总和等于预定数目。当然，如果该尖峰之前不存在第一数目个尖峰，则选择该尖峰之前的所有尖峰；同样地，如果该尖峰之后不存在第二数目个尖峰，则选择该尖峰之后的所有尖峰。

如箭头630所示，执行两级注意力建模。例如，针对第i个尖峰，可以基于隐含特征序列620中的多个重叠的子序列(例如，在图6的示例中为3个子序列，分别为trunc₁到trunc₂、trunc₁到trunc₃、以及trunc₁到trunc₄)，通过第一级注意力机制(例如图6中的attention1)分别确定多个不同的特征向量(在图6的示例中分别为c_i,1、c_i,2、c_i,3，这些特征向量分别具有对应的注意力向量α_i,1、α_i,2、α_i,3)。然后，基于所确定的多个特征向量(即c_i,1、c_i,2、c_i,3)，通过第二级注意力机制(例如图6中的attention2)进一步筛选确定上下文特征向量(c_i，其具有对应的注意力向量β_i)。应当理解，虽然图6中示出了产生3个特征向量c_i,1、c_i,2、c_i,3，然而，其他数目个特征向量也是可行的，这可以取决于准确率和解码硬延迟时间，本公开的实施例不受向量个数的限制。

继续参考图6，接下来，执行解码器的解码过程，如箭头640所示，将上下文特征向量c_i输入到解码器(例如RNN、LSTM或GRU等)输出识别结果y_i，其中图6中的s_i表示输出状态，h’_i表示隐含状态。以这种方式，能够通过两级注意力结构有效解决CTC的插入和删除问题，显著提升SMLTA模型的语音识别的性能。

根据本公开的实施例，利用CTC尖峰信息为注意力模型提供截断信息的建模方法，不但解决了传统注意力模型在长句子上建模精度不佳的问题，同时工业界首次满足了注意力建模技术用于实时语音识别的流式解码的要求，实现了世界范围的工业界首个高精度的注意力模型用于流式语音服务。与目前最好的基于CTC模型的语音识别系统相比，本公开的某些实施例所提出的基于CTC尖峰信息的SMLTA模型的识别错误率下降高达15％以上。

因此，根据本公开的一些实施例，提出了基于截断的端到端实时语音识别方法，以上下文无关的音节作为基本的声学建模单元，通过CTC和注意力联合建模的方式，首先利用CTC的尖峰信息获得隐含特征序列截断的位置信息，然后引入注意力建模技术实现端到端语音识别方法。该方法通过在特定的位置引入截断信息，既能够避免传统注意力整句建模方法无法实现实时解码的缺陷，又能够借助注意力端到端建模而具有更高模型精度的优势，大幅度提升了语音识别的产品性能。这种基于截断的端到端语音识别建模方法首次实现了端到端建模技术用于大规模词汇量实时连续语音识别的结构性创新。

此外，本公开的一些实施例还提出了一种基于CTC尖峰信息的流式多级的截断注意力(SMLTA)模型。该模型以上下文无关的音节或者高频音素的组合作为基本的声学建模单元，通过CTC和注意力模型联合建模技术，例如在数万小时训练数据的条件下，获得了超过显著CTC模型的语音识别性能。相对于传统注意力模型需要拿到整个句子的全部编码的隐含特征之后才能做每个建模单元的注意力模型建模而言，本公开的实施例创新性地提出了利用CTC模型的输出结果(也称为尖峰信息)，把连续编码的隐含特征序列截断成为一个个隐含特征子序列，每个建模单元的注意力模型建模仅仅在一个独立的隐含特征子序列上独立进行。这样模型就不需要在整个句子长度范围内对编码隐含特征进行注意力建模，注意力建模过程被约束在一个个小特征子序列上进行，成功地克服了传统注意力模型在大范围内进行注意力建模时精度不佳的问题。与此同时，由于CTC模型的模型输出的尖峰信息是从左向右顺序流式展开的，这样上述子序列也是从左向右顺序流式展开的，从而最终本公开的SMLTA模型也可以从左向右流式进行。

因此，与传统的语音识别技术或模型相比，本公开的实施例具有以下优点。

与传统的CTC模型相比，本公开的实施例通过CTC和注意力联合训练的方法，有效实现了声学模型和语言模型的联合建模，克服了传统的CTC模型仅能对声学模型进行建模的不足，提升了语音识别系统在复杂环境下的鲁棒性。此外，由于CTC模型存在插入和删除问题，所以CTC模型提供给注意力模型的信息也可能存在错误。因此，本公开的某些实施例通过两级注意力结构有效解决了CTC模型的不足，显著提升了语音识别的性能。

与传统的注意力模型相比，本公开的某些实施例使用了利用语音信号的截断信息进行截断的注意力模型，避免了传统注意力模型构建的语音识别系统无法实时解码的问题，满足了用户对系统响应速度的需求。此外，与传统的注意力模型长句识别准确率较低相比，本公开的实施例利用截断信息，可以将每个建模单元的注意力建模过程集中到每个特征子序列上进行建模，提高了注意力模型的建模精度，解决了大范围内注意力模型建模精度不佳的问题。

与传统的支持固定长度切分的注意力模型相比，本公开的实施例通过截断信息得到的特征子序列，比固定长度切分能够更加准确地获得所需要的特征子序列。此外，本公开的一些实施例通过两级注意力实现了特征子序列的重叠，能够更加有效地对特征进行筛选，从而获得建模精度超过整句注意力方法的性能。

另外，根据本公开的一些实施例提出的最紧凑的CTC和注意力一体的截断注意力模型，同时拥有CTC的头和注意力的头，训练时候也是双头一起训练。CTC的头用CTC的损失函数训练，注意力的头用交叉熵损失函数训练，两个损失函数用线性差值权重连接。这种模型在线上计算量和一个模型几乎相同，从而避免增加额外的计算成本，从而满足能够大规模工业部署的需要。

图7示出了根据本公开的实施例的基于截断注意力的实时语音识别的装置700的框图。如图7所示，装置700包括截断信息获得模块710、特征序列截断模块720以及识别结果获得模块730。截断信息获得模块710被配置为基于输入的语音信号，获得用于截断语音信号的特征序列的截断信息。特征序列截断模块720被配置为基于截断信息，将特征序列截断成多个子序列。识别结果获得模块730被配置为针对多个子序列中的子序列，通过注意力机制来获得实时识别结果。

在一些实施例中，其中截断信息获得模块710包括：尖峰信息获得模块，被配置为通过对特征序列进行连接时序分类(CTC)处理来获得与语音信号有关的尖峰信息；以及截断信息确定模块，被配置为基于所获得的尖峰信息，确定截断信息。

在一些实施例中，其中识别结果获得模块730包括：第一注意力建模装置，被配置为对多个子序列中的第一子序列执行注意力模型的第一注意力建模，其中注意力模型能够实现加权特征选择；以及第二注意力建模装置，被配置为对多个子序列中的第二子序列执行注意力模型的第二注意力建模，其中第一注意力建模不同于第二注意力建模。

在一些实施例中，装置700包括：共享编码器，被配置为将语音信号编码成特征序列；连接时序分类(CTC)模块，被配置为基于特征序列来获得尖峰信息；以及注意力解码器，被配置为基于特征序列和尖峰信息来获得实时识别结果，其中共享编码器被CTC模块和注意力解码器共享，并且其中截断信息获得模块710被包括在CTC模块中，特征序列截断模块720和识别结果获得模块730被包括在注意力解码器中。

在一些实施例中，装置700还包括：第一损失函数确定模块，被配置为确定用于训练CTC模块的第一损失函数；第二损失函数确定模块，被配置为确定用于训练注意力解码器的第二损失函数；以及训练模块，被配置为使用第一损失函数和第二损失函数来一起训练CTC模块和注意力解码器。

在一些实施例中，其中特征序列截断模块720包括子序列选择模块，其被配置为针对尖峰信息中的每个尖峰，选择特征序列中与每个尖峰相邻的预定数目个尖峰相对应的子序列，其中预定数目个尖峰包括每个尖峰之前的第一数目个尖峰和每个尖峰之后的第二数目个尖峰。

在一些实施例中，其中识别结果获得模块730包括：多个特征向量确定模块，被配置为基于特征序列中的多个重叠的子序列，通过第一级注意力机制分别确定多个特征向量；上下文特征向量确定模块，被配置为基于所确定的多个特征向量，通过第二级注意力机制确定上下文特征向量；以及识别结果确定模块，被配置为基于所确定的上下文特征向量，确定实时识别结果。

在一些实施例中，其中特征序列是隐含特征序列，并且每个尖峰指示一个音节或者一组音素。

应当理解，图7中所示出的截断信息获得模块710、特征序列截断模块720以及识别结果获得模块730可以被包括单个或多个电子设备中。而且，应当理解，图7中所示出的模块可以执行参考本公开的实施例的方法或过程中的步骤或动作。

图8示出了可以用来实施本公开的实施例的示例设备800的示意性框图。应当理解，设备800可以为用于实现本公开所描述的基于截断注意力的实时语音识别的装置700、或者用户设备220或服务器230。如图所示，设备800包括中央处理单元(CPU)801，其可以根据被存储在只读存储器(ROM)802中的计算机程序指令或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序指令，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理单元801执行上文所描述的各个方法和过程，例如方法300。例如，在一些实施例中，方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由CPU 801执行时，可以执行上文描述的方法的一个或多个动作或步骤。备选地，在其他实施例中，CPU 801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)，等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各动作或步骤，但是这应当理解为要求这样动作或步骤以所示出的特定次序或以顺序次序执行，或者要求所有图示的动作或步骤应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本公开的实施例，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种基于截断注意力的实时语音识别的方法，包括：

基于输入的语音信号，获得用于截断所述语音信号的特征序列的截断信息；

基于所述截断信息，将所述特征序列截断成多个子序列；以及

针对所述多个子序列中的子序列，通过注意力机制来获得实时识别结果。

2.根据权利要求1所述的方法，其中获得用于截断语音信号的特征序列的截断信息包括：

通过对所述特征序列进行连接时序分类(CTC)处理来获得与所述语音信号有关的尖峰信息；以及

基于所获得的所述尖峰信息，确定所述截断信息。

3.根据权利要求1所述的方法，其中通过注意力机制来获得实时识别结果包括：

对所述多个子序列中的第一子序列执行注意力模型的第一注意力建模，所述注意力模型能够实现加权特征选择；以及

对所述多个子序列中的第二子序列执行所述注意力模型的第二注意力建模，所述第一注意力建模不同于所述第二注意力建模。

4.根据权利要求2所述的方法，其中：

由共享编码器将所述语音信号编码成所述特征序列；

由连接时序分类(CTC)模块基于所述特征序列来获得所述尖峰信息；以及

由注意力解码器基于所述特征序列和所述尖峰信息来获得所述实时识别结果，所述共享编码器被所述连接时序分类(CTC)模块和所述注意力解码器共享。

5.根据权利要求4所述的方法，还包括：

确定用于训练所述连接时序分类(CTC)模块的第一损失函数；

确定用于训练所述注意力解码器的第二损失函数；以及

使用所述第一损失函数和所述第二损失函数来一起训练所述连接时序分类(CTC)模块和所述注意力解码器。

6.根据权利要求2所述的方法，其中将所述特征序列截断成多个子序列包括：

针对所述尖峰信息中的每个尖峰，选择所述特征序列中与每个尖峰相邻的预定数目个尖峰相对应的子序列，所述预定数目个尖峰包括每个尖峰之前的第一数目个尖峰和每个尖峰之后的第二数目个尖峰。

7.根据权利要求6所述的方法，其中通过注意力机制来获得实时识别结果包括：

基于所述特征序列中的多个重叠的子序列，通过第一级注意力机制分别确定多个特征向量；

基于所确定的所述多个特征向量，通过第二级注意力机制确定上下文特征向量；以及

基于所确定的所述上下文特征向量，确定所述实时识别结果。

8.根据权利要求6所述的方法，其中所述特征序列是隐含特征序列，并且每个尖峰指示一个音节或者一组音素。

9.一种基于截断注意力的实时语音识别的装置，包括：

截断信息获得模块，被配置为基于输入的语音信号，获得用于截断所述语音信号的特征序列的截断信息；

特征序列截断模块，被配置为基于所述截断信息，将所述特征序列截断成多个子序列；以及

识别结果获得模块，被配置为针对所述多个子序列中的子序列，通过注意力机制来获得实时识别结果。

10.根据权利要求9所述的装置，其中所述截断信息获得模块包括：

尖峰信息获得模块，被配置为通过对所述特征序列进行连接时序分类(CTC)处理来获得与所述语音信号有关的尖峰信息；以及

截断信息确定模块，被配置为基于所获得的所述尖峰信息，确定所述截断信息。

11.根据权利要求9所述的装置，其中所述识别结果获得模块包括：

第一注意力建模装置，被配置为对所述多个子序列中的第一子序列执行注意力模型的第一注意力建模，所述注意力模型能够实现加权特征选择；以及

第二注意力建模装置，被配置为对所述多个子序列中的第二子序列执行所述注意力模型的第二注意力建模，所述第一注意力建模不同于所述第二注意力建模。

12.根据权利要求10所述的装置，所述装置包括：

共享编码器，被配置为将所述语音信号编码成所述特征序列；

连接时序分类(CTC)模块，被配置为基于所述特征序列来获得所述尖峰信息；以及

注意力解码器，被配置为基于所述特征序列和所述尖峰信息来获得所述实时识别结果，所述共享编码器被所述连接时序分类(CTC)模块和所述注意力解码器共享，

其中所述截断信息获得模块被包括在所述连接时序分类(CTC)模块中，所述特征序列截断模块和所述识别结果获得模块被包括在所述注意力解码器中。

13.根据权利要求12所述的装置，还包括：

第一损失函数确定模块，被配置为确定用于训练所述连接时序分类(CTC)模块的第一损失函数；

第二损失函数确定模块，被配置为确定用于训练所述注意力解码器的第二损失函数；以及

训练模块，被配置为使用所述第一损失函数和所述第二损失函数来一起训练所述连接时序分类(CTC)模块和所述注意力解码器。

14.根据权利要求10所述的装置，其中所述特征序列截断模块包括：

子序列选择模块，被配置为针对所述尖峰信息中的每个尖峰，选择所述特征序列中与每个尖峰相邻的预定数目个尖峰相对应的子序列，所述预定数目个尖峰包括每个尖峰之前的第一数目个尖峰和每个尖峰之后的第二数目个尖峰。

15.根据权利要求14所述的装置，其中所述识别结果获得模块包括：

多个特征向量确定模块，被配置为基于所述特征序列中的多个重叠的子序列，通过第一级注意力机制分别确定多个特征向量；

上下文特征向量确定模块，被配置为基于所确定的所述多个特征向量，通过第二级注意力机制确定上下文特征向量；以及

识别结果确定模块，被配置为基于所确定的所述上下文特征向量，确定所述实时识别结果。

16.根据权利要求14所述的装置，其中所述特征序列是隐含特征序列，并且每个尖峰指示一个音节或者一组音素。

17.一种电子设备，所述电子设备包括：

一个或多个处理器；以及

存储装置，其用于存储一个或多个程序，所述一个或多个程序当被所述一个或多个处理器执行，使得所述电子设备实现根据权利要求1-8中任一项所述的方法。

18.一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现根据权利要求1-8中任一项所述的方法。