CN112382278A

CN112382278A - 流式语音识别结果显示方法、装置、电子设备和存储介质

Info

Publication number: CN112382278A
Application number: CN202011295751.2A
Authority: CN
Inventors: 邵俊尧; 钱胜
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-11-18
Filing date: 2020-11-18
Publication date: 2021-02-19
Anticipated expiration: 2040-11-18
Also published as: US20220068265A1; CN112382278B; JP7308903B2; JP2022020724A

Abstract

本申请公开了一种流式语音识别结果显示方法、装置、电子设备和存储介质，涉及语音技术、深度学习技术和自然语言处理技术领域。具体实现方案为：获取输入的音频流的多个连续语音片段，并将多个连续语音片段之中的目标语音片段的末尾处模拟成句尾，其中，句尾用于表示音频流输入结束；在当前待识别语音片段为目标语音片段时，基于第一特征提取方式对当前待识别语音片段进行特征提取；在当前待识别语音片段为非目标语音片段时，基于第二特征提取方式对当前待识别语音片段进行特征提取；将对当前待识别语音片段提取得到的特征序列，输入至流式多级的截断注意力模型，获得实时识别结果并显示。本申请可以提升流式语音识别结果的上屏显示效果。

Description

流式语音识别结果显示方法、装置、电子设备和存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及语音技术、深度学习技术和自然语言处理技术领域，具体涉及一种流式语音识别结果显示方法、装置、电子设备和存储介质。

背景技术

语音识别是指通过计算机将语音信号转换为对应的文本的过程，是实现人与机器交互的主要途径之一。实时语音识别是指针对接收到的连续语音，对语音的各个片段进行识别，从而可以实时地获得识别结果，而不需要等待全部语音输入完毕之后才开始识别过程。在大规模词汇量的在线连续语音识别中，影响系统性能的关键因素是系统的识别精度和响应速度。例如，在用户期望在说话的同时能够看到识别结果实时展现的场景中，需要语音识别系统在保持高识别率的同时，及时快速地对话音信号进行解码并输出识别结果。然而，相关技术中，实时语音识别结果的上屏显示效果往往存在上屏显示速度慢或显示的语音识别结果不准确等问题。

发明内容

本申请提供了一种流式语音识别结果显示方法、装置、电子设备以及存储介质。

根据本申请的第一方面，提供了一种流式语音识别结果显示方法，包括：

获取输入的音频流的多个连续语音片段，将所述多个连续语音片段之中的目标语音片段的末尾处模拟成句尾，其中，所述句尾用于表示所述音频流输入结束；

在所述当前待识别语音片段为所述目标语音片段时，基于第一特征提取方式对所述当前待识别语音片段进行特征提取；

在所述当前待识别语音片段为非目标语音片段时，基于第二特征提取方式对所述当前待识别语音片段进行特征提取；

将对所述当前待识别语音片段提取得到的特征序列，输入至流式多级的截断注意力模型，获得实时识别结果并显示。

根据本申请的第二方面，提供了一种流式语音识别结果显示装置，包括：

第一获取模块，用于获取输入的音频流的多个连续语音片段；

模拟模块，用于将所述多个连续语音片段之中的目标语音片段的末尾处模拟成句尾，其中，所述句尾用于表示所述音频流输入结束；

特征提取模块，用于在所述当前待识别语音片段为所述目标语音片段时，基于第一特征提取方式对所述当前待识别语音片段进行特征提取，并在所述当前待识别语音片段为非目标语音片段时，基于第二特征提取方式对所述当前待识别语音片段进行特征提取；

语音识别模块，用于将对所述当前待识别语音片段提取得到的特征序列，输入至流式多级的截断注意力模型，获得实时识别结果并显示。

根据本申请的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请第一方面实施例所述的流式语音识别结果显示方法。

根据本申请的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行本申请第一方面实施例所述的流式语音识别结果显示方法。

根据本申请的技术解决了现有技术中实时语音识别结果的上屏显示效果存在上屏显示速度慢或显示的语音识别结果不准确等的问题，通过对流式输入模拟句尾的方式刷新流式注意力模型解码器的结果，保证了流式上屏效果的可靠性，提高了实时语音识别结果的上屏显示速度，从而能够使得下游模块依据上屏结果可以及时进行TTS(Text ToSpeech，从文本到语音)资源的预充，从而可以提高语音交互的响应速度。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是现有技术中流式语音识别结果显示的示例图；

图2示出了根据本申请实施例的语音识别的处理过程的示意图；

图3是根据本申请一个实施例的流式语音识别结果显示方法的流程图；

图4是根据本申请实施例的流式语音识别结果显示效果的示例图；

图5是根据本申请另一个实施例的流式语音识别结果显示方法的流程图；

图6是根据本申请又一个实施例的流式语音识别结果显示方法的流程图；

图7是根据本申请一个实施例的流式语音识别结果显示装置的结构框图；

图8是根据本申请另一个实施例的流式语音识别结果显示装置的结构框图；

图9是根据本申请实施例的用以实现流式语音识别结果显示方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在本申请的实施例的描述中，术语"包括"及其类似用语应当理解为开放性包含，即"包括但不限于"。术语"基于"应当理解为"至少部分地基于"。术语"一个实施例"或"该实施例"应当理解为"至少一个实施例"。术语"一些实施例"应当理解为"至少一些实施例"。下文还可能包括其他明确的和隐含的定义。

连接时序分类(Connectionist Temporal Classification，简称：CTC)模型是一种端到端的模型，其被用于大规模词汇量的语音识别，使得混合DNN(Deep NeuralNetworks，深度神经网络)+HMM(Hidden Markov model，隐马尔可夫模型)的声学模型结构完全被统一的神经网络结构所替代，这大大简化了声学模型的结构和训练、难度，使得语音识别系统的准确率得到进一步提升。此外，CTC模型的输出结果中可以包括语音信号的尖峰信息。

注意力(Attention)模型是对编码器-解码器模型的扩展，其能够提升在较长序列上预测的效果。首先使用GRU(Gate Recurrent Unit，一种循环神经网络)或LSTM(LongShort-Term Memory，长短期记忆网络)模型对对输入的音频特征编码得到隐含特征，然后通过注意力模型对这些隐含特征的不同部分分配相应的权重，最后解码器根据建模粒度的不同输出对应的结果。这种声学和语言模型联合建模的方式能够进一步化简语音识别系统的复杂度。

流式多级的截断注意力(StreamingMulti-LayerTruncatedAttention，简称为SMLTA)模型是一种基于CTC和注意力的流式语音识别模型，其中，流式表示可以直接对语音的小片段(而不是必须整句)，进行一个个片段地增量解码，多级表示堆叠多层注意力模型，而截断则表示利用CTC模型的尖峰信息，将语音切割成一个一个小片段，注意力模型建模和解码可以在这些小片段上展开。SMLTA将传统的全局的注意力建模转换成局部注意力建模，所以这个过程也是一个可以流式实现的过程，无论多长的句子，都可以通过截段来实现流式解码和精准的局部注意力建模，因而实现了流式解码。

本申请的发明人发现，在通过SMLTA模型进行流式语音识别时，为了能够尽快将全部识别结果上屏，相关技术中通常是将SMLTA模型之中CTC模块的输出结果与注意力解码器的输出结果进行拼接的方式实现识别结果的流式上屏。然而，由于SMLTA模型本身的特性，SMLTA模型之中CTC模块的输出结果和注意力解码器的输出结果本身并不相同，对两者进行拼接会出现找不准衔接点的问题，导致上屏效果既不准确也不稳定，从而影响了语音交互的体验。例如，如图1所示，以音频内容为"今天天气怎么样"为例，利用SMLTA模型对该音频进行实时语音识别时，由于CTC模块的输出结果有更高的错误率，在流式上屏的过程中注意力解码器依赖对CTC模块的后截断进行解码，导致在流式解码的过程中注意力解码器的输出长度比CTC模块的输出长度要短，比如如图1所示，注意力解码器的输出结果比CTC模块的输出结果少两个字，进行拼接的结果会得到"今天天怎样"，可见，该上屏显示的结果并不正确。

针对上述实时语音识别结果的上屏显示效果往往存在上屏显示速度慢或显示的语音识别结果不准确等的问题，本申请提出了一种流式语音识别结果显示方法、装置、电子设备以及存储介质。在本申请实施例提出的流式语音识别结果显示方案中，通过对流式输入模拟句尾的方式刷新流式注意力模型解码器的结果，保证了流式上屏效果的可靠性，提高了实时语音识别结果的上屏显示速度。以下将参考附图2至9详细描述本申请实施例的一些示例实现。

图2示出了根据本申请实施例的语音识别的处理过程200的示意图。通常，语音识别系统可以包括声学模型、语言模型以及解码器等组件。如图2所示，在获得采集到的语音信号210之后，首先在框220处对语音信号210进行信号处理和特征提取，包括从输入的语音信号210中提取特征，以供后续的声学模型等来处理。备选地，特征提取过程还包括一些其他信号处理技术，以便降低环境噪声或者其他因素对特征造成的影响。

参考图2，在完成特征提取220之后，将提取的特征输入到解码器230，并由解码器230经过处理输出文本识别结果240。具体地，解码器230根据声学模型232和语言模型234寻找最大概率输出的语音信号的文本序列，其中声学模型232可以实现语音到发音片段的转换，而语言模型234可以实现发音片段到文本的转换。

声学模型232用于对发音片段进行声学和语言的联合建模，其建模单元例如可以为音节，在本申请的一些实施例中，声学模型232可以为流式多级的截断注意力模型(SMLTA)模型，其中SMLTA模型可以利用CTC模型的尖峰信息，把语音切割成多个小片段，使得注意力模型建模和解码可以在各个小片段上展开。这样的SMLTA模型能够支持实时的流式语音识别，并且实现较高的识别准确率。

语言模型234用于对语言进行建模。通常，可以使用统计的N元文法(N-Gram)，即统计前后N个字出现的概率。应当理解，任何已知的或者将来开发的语言模型可以与本申请的实施例结合使用。在一些实施例中，声学模型232可以基于语音数据库来进行训练和/或工作，而语言模型234可以基于文本数据库来进行训练和/或工作。

解码器230可以基于声学模型232和语言模型234的输出识别结果，实现动态地解码。在某个语音识别的场景中，用户正在对其用户设备说话，用户产生的语音(及声音)被用户设备所采集，例如，可以通过用户设备的声音采集设备(诸如麦克风)来采集语音。用户设备可以为能够采集语音信号的任何电子设备，包括但不限于智能于机、平板电脑、台式计算机、笔记本计算机、智能可穿戴设备(诸如智能手表、智能眼镜)、导航设备、多媒体播放器设备、教育设备、游戏设备、智能音箱，等等。用户设备在采集的过程中，可以通过网络将语音分段地发送到服务器，服务器包括语音识别模型，其可以实现实时且准确的语音识别，在完成识别之后，可以通过网络将识别结果发送到用户设备。应当理解，根据本申请实施例的流式语音识别结果显示方法可以在用户设备处执行，也可以在服务器处执行，或者一部分在用户设备处执行而另一部分在服务器处执行。

图3是根据本申请一个实施例的流式语音识别结果显示方法的流程图。应当理解，本申请实施例的流式语音识别结果显示方法可以由电子设备(如用户设备)、或者服务器、或者其组合来执行。如图3所示，该流式语音识别结果显示方法可以包括：

步骤301，获取输入的音频流的多个连续语音片段，并将多个连续语音片段之中的目标语音片段的末尾处模拟成句尾。其中，在本申请实施例中，该句尾用于表示音频流输入结束。

，可选地，在获得输入的音频流的多个连续语音片段时，可先从多个连续语音片段之中找出目标语音片段，然后，将该目标语音片段的末尾处模拟成句尾。由此，通过在目标语音片段的末尾处模拟句尾，可以欺骗流式多级的截断注意力模型当前已经收到了完整的音频，从而可以使得流式多级的截断注意力模型之中的注意力解码器立即输出当前完整的识别结果。

步骤302，在当前待识别语音片段为目标语音片段时，基于第一特征提取方式对当前待识别语音片段进行特征提取。

需要说明的是，由于包含句尾符号的语音片段的特征提取方式，与不包含句尾符号的语音片段的特征提取方式不同，所以在对当前待识别语音片段进行特征序列提取时，可先判断当前待识别语音片段是否为目标语音片段，并根据判断结果采用不同的特征提取方式。

可选地，判断当前待识别语音片段是否为目标语音片段，如果当前待识别语音片段为目标语音片段，即当前待识别语音片段的末尾片段处增加了用于标识句尾的符号，此时，可将该当前待识别语音片段输入到编码器中进行特征提取，由于当前待识别语音片段的末尾处包含句尾符号，所以编码器基于第一特征提取方式对该当前待识别语音片段进行特征提取，以获得该当前待识别语音片段的特征序列。

也就是说，特征序列可以通过基于编码器采用第一特征提取方式对当前待识别语音片段进行编码而获得。例如，在当前待识别语音片段为目标语音片段时，编码器基于第一特征提取方式将当前待识别语音片段编码成隐含特征序列，该隐含特征序列即为当前待识别语音片段的特征序列。

步骤303，在当前待识别语音片段为非目标语音片段时，基于第二特征提取方式对当前待识别语音片段进行特征提取。

可选地，当判断当前待识别语音片段为非目标语音片段，即当前待识别语音片段的末尾片段处未包含用于标识句尾的符号，此时，可将该当前待识别语音片段输入到编码器中进行特征提取，由于当前待识别语音片段的末尾处未包含句尾符号，所以编码器基于第二特征提取方式对该当前待识别语音片段进行特征提取，以获得该当前待识别语音片段的特征序列。

也就是说，特征序列可以通过基于编码器采用第二特征提取方式对当前待识别语音片段进行编码而获得。例如，在当前待识别语音片段为非目标语音片段时，编码器基于第二特征提取方式将当前待识别语音片段编码成隐含特征序列，该隐含特征序列即为当前待识别语音片段的特征序列。

步骤304，将对当前待识别语音片段提取得到的特征序列，输入至流式多级的截断注意力模型，获得实时识别结果并显示。

在本申请一些实施例中，流式多级的截断注意力模型可包括连接时序分类(CTC)模块和注意力解码器。在本申请实施例中，可将当前待识别语音片段提取得到的特征序列输入至流式多级的截断注意力模型。基于连接时序分类CTC模块对当前待识别语音片段的特征序列进行连接时序分类(CTC)处理，获得与当前待识别语音片段有关的尖峰信息，并基于当前待识别语音片段和尖峰信息，通过注意力解码器获得实时识别结果。

作为一种示例，基于连接时序分类CTC模块对当前待识别语音片段的特征序列进行连接时序分类(CTC)处理，获得与当前待识别语音片段有关的尖峰信息，并基于所获得的尖峰信息，确定当前待识别语音片段的特征序列的截断信息，并基于截断信息将该当前待识别语音片段的特征序列截断成多个子序列，基于多个子序列，通过注意力解码器来获得实时识别结果。

在一些实施例中，截断信息可以是通过对特征序列进行连接时序分类(CTC)处理而获得与当前待识别语音片段有关的尖峰信息，CTC处理可以输出尖峰的序列，尖峰之间可以通过空白(blank)进行分隔，其中一个尖峰可以表示一个音节(syllable)或者一组音素(phone)，例如高频音素的组合。应当理解，虽然本文的以下部分使用CTC尖峰信息作为提供截断信息的一个示例进行描述，然而，目前己知的或者将未开发的能够提供输入的语音信号的截断信息的任何其他模型和/或算法也可以与本公开的实施例结合使用。

举例而言，基于注意力解码器可以根据截断信息将当前待识别语音片段的特征序列(如隐含特征序列)截断成一个个隐含特征子序列，其中隐含特征序列可以为表示语音信号的特征的向量。例如，隐含特征序列可以指代不可直接观测得到但可以通过可观测变量确定的特征向量。不同于传统技术中的使用固定长度的截断方式，本公开的实施例使用根据语音信号而确定的截断信息来进行特征截断，避免了排除有效的特征部分，从而能够实现很高的准确率。

在本申请实施例中，在获得当前待识别语音片段的隐含特征子序列之后，注意力解码器针对截断生成的每个隐含特征子序列，使用注意力模型来获得识别结果，其中注意力模型能够实现加权特征选择并且对隐含特征的不同部分分配相应的权重。目前已知的或者将来开发的基于注意力机制的任何模型和/或算法可以与本申请的实施例结合使用。因此，本申请的实施例通过在传统的注意力模型中引入根据语音信号而确定的截断信息，能够指导注意力模型针对每个截断分别进行注意力建模，不仅能够实现连续语音识别，而且还能够保证高准确率。

在一些实施例中，在隐含特征序列被截断成多个子序列之后，可以对多个子序列中的第一子序列执行注意力模型的第一注意力建模，并且对多个子序列中的第二子序列执行注意力模型的第二注意力建模，其中第一注意力建模不同于第二注意力建模。也就是说，本申请的实施例能够进行局部截断的注意力模型的注意力建模。

为了保证后续流式计算的正常进行，可选地，在本申请一些实施例中，在将当前待识别语音片段提取得到的特征序列，输入至流式多级的截断注意力模型之后，对流式多级的截断注意力模型的模型状态进行存储。其中，在本申请实施例中，在当前待识别语音片段为目标语音片段，且将下一个待识别语音片段的特征序列输入至流式多级的截断注意力模型时，获取基于流式多级的截断注意力模型对目标语音片段进行语音识别时所存储的模型状态；基于所存储的模型状态和下一个待识别语音片段的特征序列，通过流式多级的截断注意力模型获得针对下一个待识别语音片段的实时识别结果。

也就是说，在流式上屏之前，可对流式多级的截断注意力模型的当前模型状态进行存储。在通过流式多级的截断注意力模型完成对经过模拟句尾的当前待识别语音片段的识别并上屏显示时，可将存储的模型状态恢复到模型缓存中，以便对下一个待识别语音片段进行语音识别时，基于所存储的模型状态和下一个待识别语音片段的特征序列，通过流式多级的截断注意力模型，来获得该下一个待识别语音片段的实时识别结果。由此，通过在流式上屏之前对模型的状态进行存储，在对下一个待识别语音片段进行识别时，通过用已经存储的模型状态恢复到模型缓存中，以保证后续流式计算的正常进行。

需要说明的是，由于注意力解码器在收到完整的音频之后，输出完整的识别结果，为了能够尽快将流式语音的全部识别结果上屏，即加快注意力解码器的识别结果的输出速度，本申请的实施例通过在多个连续语音片段之中的目标语音片段的末尾处模拟成句尾，欺骗流式多级的截断注意力模型当前已经收到了完整的音频，从而可以使得流式多级的截断注意力模型之中的注意力解码器立即输出当前完整的识别结果，例如，如图4所示，以流式语音片段为"今天天气怎么样"为例，在该语音片段的末尾处模拟当前是句尾后，注意力解码器就能够输出完整的识别结果，而这个时候的识别结果往往与真实识别结果更接近，从而在保证了流式上屏效果的可靠性，提高了实时语音识别结果的上屏显示速度，从而能够使得下游模块依据上屏结果可以及时进行TTS资源的预充，从而可以提高语音交互的响应速度。

图5是根据本申请另一个实施例的流式语音识别结果显示方法的流程图。如图5所示，该流式语音识别结果显示方法可以包括：

步骤501，获取输入的音频流的多个连续语音片段，将多个连续语音片段之中的每个语音片段确定为目标语音片段。

步骤502，将目标语音片段的末尾处模拟成句尾。其中，该句尾用于表示音频流输入结束。

也就是说，在获得音频流的多个连续语音片段时，可将多个连续语音片段之中的每个语音片段的末尾处模拟成句尾。

步骤503，在当前待识别语音片段为目标语音片段时，基于第一特征提取方式对当前待识别语音片段进行特征提取。

步骤504，在当前待识别语音片段为非目标语音片段时，基于第二特征提取方式对当前待识别语音片段进行特征提取。

步骤505，将对当前待识别语音片段提取得到的特征序列，输入至流式多级的截断注意力模型，获得实时识别结果并显示。

需要说明的是，上述步骤503-步骤505的实现方式可参见上述图3中步骤302-304的实现方式，在此不再赘述。

根据本申请实施例的流式语音识别结果显示方法，由于流式多级的截断注意力模型在接收到完整音频时输出完整的注意力解码器的识别结果，否则注意力解码器的识别输出结果总是比CTC模块的识别输出结果短，为了能够提高流式语音识别结果的上屏显示速度，本申请的实施例提出了在流式上屏之前，对音频流的多个连续语音片段之中的每个语音片段的末尾处模拟成句尾，以欺骗模型已经收到了完整的音频，让注意力解码器走出完整的识别结果，从而在保证了流式上屏效果的可靠性，提高了实时语音识别结果的上屏显示速度，从而能够使得下游模块依据上屏结果可以及时进行TTS资源的预充，从而可以提高语音交互的响应速度。

图6是根据本申请又一个实施例的流式语音识别结果显示方法的流程图。需要说明的是，由于在对经过模拟句尾的当前待识别语音片段进行识别时，需要预存模型状态，进行多拍完整计算，然后回退状态，这种计算本身会对计算量消耗比较大，因此为了保证提前输出最终识别结果(即提高流式语音识别结果的速度)的同时，也保证计算量的增加在可控范围内。在本申请实施例中，在多个连续语音片段之中当前语音片段的末尾片段包含了静音数据时，将该当前语音片段的末尾处模拟成句尾。具体地，如图6所示，该流式语音识别结果显示方法可以包括：

步骤601，获取输入的音频流的多个连续语音片段。

步骤602，确定多个连续语音片段之中当前语音片段的末尾片段是否为无效片段，无效片段包含静音数据。

作为一种示例，可对多个连续语音片段之中当前语音片段进行语音活动检测，该检测也可以成为语音边界检测。主要用于检测语音片段中的语音活动信号，进而在语音片段数据中，确定存在连续语音信号的有效数据，以及不存在语音信号数据的静音数据。其中，不存在连续语音信号数据的静音片段为语音片段中的无效子片段。在本步骤中，可通过多个连续语音片段之中当前语音片段的末尾片段进行语音边界检测，以判断该当前语音片段的末尾片段是否为无效片段。

在本申请的实施例中，如果当前语音片段的末尾片段为无效片段，则执行步骤603。如果当前语音片段的末尾片段不是无效片段，则可认为该当前语音片段为非目标语音片段，此时可执行步骤605。

步骤603，确定当前语音片段为目标语音片段，并将目标语音片段的末尾处模拟成句尾，其中，句尾用于表示音频流输入结束。

步骤604，在当前待识别语音片段为目标语音片段时，基于第一特征提取方式对当前待识别语音片段进行特征提取。

步骤605，在当前待识别语音片段为非目标语音片段时，基于第二特征提取方式对当前待识别语音片段进行特征提取。

步骤606，将对当前待识别语音片段提取得到的特征序列，输入至流式多级的截断注意力模型，获得实时识别结果并显示。

需要说明的是，上述步骤604-步骤606的实现方式可参见上述图3中步骤302-304的实现方式，在此不再赘述。

根据本申请实施例的流式语音识别结果显示方法，可通过确定多个连续语音片段之中当前语音片段的末尾片段是否为无效片段，无效片段包含静音数据，若是，则确定当前语音片段为目标语音片段，此时将目标语音片段的末尾处模拟成句尾，欺骗流式多级的截断注意力模型当前已经收到了完整的音频，从而可以使得流式多级的截断注意力模型之中的注意力解码器立即输出当前完整的识别结果。由此，通过增加对多个连续语音片段之中当前语音片段的末尾片段是否包含静音数据的判断，在末尾片段包含静音数据的语音片段作为目标语音片段，即在包含了静音数据的末尾片段处模拟句尾，由此可以在提前输出最终识别结果(即提高流式语音识别结果的速度)的同时，也保证计算量的增加在可控范围内。

图7是根据本申请一个实施例的流式语音识别结果显示装置的结构框图。如图7所示，该流式语音识别结果显示装置可以包括：第一获取模块701、模拟模块702、特征提取模块703和语音识别模块704。

具体地，第一获取模块701用于获取输入的音频流的多个连续语音片段。

模拟模块702用于将多个连续语音片段之中的目标语音片段的末尾处模拟成句尾，其中，句尾用于表示音频流输入结束。在本申请一些实施例中，模拟模块702将多个连续语音片段之中的每个语音片段确定为目标语音片段；将目标语音片段的末尾处模拟成句尾。

为了保证提前输出最终识别结果的同时，还可以保证计算量的增加在可控范围内，在本申请一些实施例中，模拟模块702确定多个连续语音片段之中当前语音片段的末尾片段是否为无效片段，无效片段包含静音数据；如果当前语音片段的末尾片段为无效片段，则确定当前语音片段为目标语音片段；将目标语音片段的末尾处模拟成句尾。

特征提取模块703用于在当前待识别语音片段为目标语音片段时，基于第一特征提取方式对当前待识别语音片段进行特征提取，并在当前待识别语音片段为非目标语音片段时，基于第二特征提取方式对当前待识别语音片段进行特征提取。

语音识别模块704用于将对当前待识别语音片段提取得到的特征序列，输入至流式多级的截断注意力模型，获得实时识别结果并显示。在本申请一些实施例中，语音识别模块704基于连接时序分类模块对特征序列进行连接时序分类处理，获得与当前待识别语音片段有关的尖峰信息；基于当前待识别语音片段和尖峰信息，通过注意力解码器获得实时识别结果。

在本申请一些实施例中，如图8所示，该流式语音识别结果显示装置还可包括：状态存储模块805和第二获取模块806。其中，状态存储模块805用于对流式多级的截断注意力模型的模型状态进行存储。其中，当当前待识别语音片段为目标语音片段，且将下一个待识别语音片段的特征序列输入至流式多级的截断注意力模型时，第二获取模块806获取基于流式多级的截断注意力模型对目标语音片段进行语音识别时所存储的模型状态。语音识别模块804基于所存储的模型状态和下一个待识别语音片段的特征序列，通过流式多级的截断注意力模型获得针对下一个待识别语音片段的实时识别结果。由此，可以保证后续流式计算的正常进行。

其中，图8中801-804和图7中701-704具有相同功能和结构。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

根据本申请实施例的流式语音识别结果显示装置，通过在多个连续语音片段之中的目标语音片段的末尾处模拟成句尾，欺骗流式多级的截断注意力模型当前已经收到了完整的音频，从而可以使得流式多级的截断注意力模型之中的注意力解码器立即输出当前完整的识别结果，例如，如图4所示，以流式语音片段为"今天天气怎么样"为例，在该语音片段的末尾处模拟当前是句尾后，注意力解码器就能够输出完整的识别结果，而这个时候的识别结果往往与真实识别结果更接近，从而在保证了流式上屏效果的可靠性，提高了实时语音识别结果的上屏显示速度，从而能够使得下游模块依据上屏结果可以及时进行TTS资源的预充，从而可以提高语音交互的响应速度。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图9所示，是根据本申请实施例的用以实现流式语音识别结果显示方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图9所示，该电子设备包括：一个或多个处理器901、存储器902，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图9中以一个处理器901为例。

存储器902即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的流式语音识别结果显示方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的流式语音识别结果显示方法。

存储器902作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的流式语音识别结果显示方法对应的程序指令/模块(例如，附图7所示的第一获取模块701、模拟模块702、特征提取模块703和语音识别模块704)。处理器901通过运行存储在存储器902中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的流式语音识别结果显示方法。

存储器902可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据用以实现流式语音识别结果显示方法的电子设备的使用所创建的数据等。此外，存储器902可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器902可选包括相对于处理器901远程设置的存储器，这些远程存储器可以通过网络连接至用以实现流式语音识别结果显示方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

用以实现流式语音识别结果显示方法的电子设备还可以包括：输入装置903和输出装置904。处理器901、存储器902、输入装置903和输出装置904可以通过总线或者其他方式连接，图9中以通过总线连接为例。

输入装置903可接收输入的数字或字符信息，以及产生与用以实现流式语音识别结果显示方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置904可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种流式语音识别结果显示方法，包括：

2.根据权利要求1所述的流式语音识别结果显示方法，其中，所述将所述多个连续语音片段之中的目标语音片段的末尾处模拟成句尾，包括：

将所述多个连续语音片段之中的每个所述语音片段确定为所述目标语音片段；

将所述目标语音片段的末尾处模拟成句尾。

3.根据权利要求1所述的流式语音识别结果显示方法，其中，所述将所述多个连续语音片段之中的目标语音片段的末尾处模拟成句尾，包括：

确定所述多个连续语音片段之中当前语音片段的末尾片段是否为无效片段，所述无效片段包含静音数据；

如果所述当前语音片段的末尾片段为所述无效片段，则确定所述当前语音片段为所述目标语音片段；

将所述目标语音片段的末尾处模拟成句尾。

4.根据权利要求1所述的流式语音识别结果显示方法，其中，所述流式多级的截断注意力模型包括连接时序分类模块和注意力解码器；所述将对所述当前待识别语音片段提取得到的特征序列，输入至流式多级的截断注意力模型，获得实时识别结果，包括：

基于所述连接时序分类模块对所述特征序列进行连接时序分类处理，获得与所述当前待识别语音片段有关的尖峰信息；

基于所述当前待识别语音片段和所述尖峰信息，通过所述注意力解码器获得所述实时识别结果。

5.根据权利要求1至4中任一项所述的流式语音识别结果显示方法，在将所述当前待识别语音片段提取得到的特征序列，输入至流式多级的截断注意力模型之后，所述方法还包括：

对所述流式多级的截断注意力模型的模型状态进行存储；

其中，当所述当前待识别语音片段为所述目标语音片段，且将下一个待识别语音片段的特征序列输入至所述流式多级的截断注意力模型时，所述方法还包括：

获取基于所述流式多级的截断注意力模型对所述目标语音片段进行语音识别时所存储的模型状态；

基于所述所存储的模型状态和下一个待识别语音片段的特征序列，通过所述流式多级的截断注意力模型获得针对所述下一个待识别语音片段的实时识别结果。

6.一种流式语音识别结果显示装置，包括：

7.根据权利要求6所述的流式语音识别结果显示装置，其中，所述模拟模块具体用于：

将所述目标语音片段的末尾处模拟成句尾。

8.根据权利要求6所述的流式语音识别结果显示装置，其中，所述模拟模块具体用于：

将所述目标语音片段的末尾处模拟成句尾。

9.根据权利要求6所述的流式语音识别结果显示装置，其中，所述流式多级的截断注意力模型包括连接时序分类模块和注意力解码器；所述语音识别模块具体用于：

10.根据权利要求6至9中任一项所述的流式语音识别结果显示装置，还包括：

状态存储模块，用于对所述流式多级的截断注意力模型的模型状态进行存储；

其中，所述当所述当前待识别语音片段为所述目标语音片段，且将下一个待识别语音片段的特征序列输入至所述流式多级的截断注意力模型时，所述装置还包括：

第二获取模块，用于获取基于所述流式多级的截断注意力模型对所述目标语音片段进行语音识别时所存储的模型状态；

其中，所述语音识别模块，还用于基于所述所存储的模型状态和下一个待识别语音片段的特征序列，通过所述流式多级的截断注意力模型获得针对所述下一个待识别语音片段的实时识别结果。

11.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至5中任一项所述的流式语音识别结果显示方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1至5中任一项所述的流式语音识别结果显示方法。