CN112786016B

CN112786016B - 一种语音识别方法、装置、介质和设备

Info

Publication number: CN112786016B
Application number: CN201911095988.3A
Authority: CN
Inventors: 王磊; 冯大航; 苏少炜; 常乐
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2019-11-11
Filing date: 2019-11-11
Publication date: 2022-07-19
Anticipated expiration: 2039-11-11
Also published as: CN112786016A

Abstract

本发明涉及一种语音识别方法、装置、介质和设备。在本发明实施例提供的方案中，可以利用预先训练出的RNN模型，根据设定时长的语音信号的每一语音帧对应的帧特征序列，获得设定时长的语音信号对应的全局特征序列。并可以对全局特征序列和帧特征序列进行拼接，根据拼接得到的特征序列进行语音识别。本发明方案考虑到语音的连续性，可以通过RNN模型获得语音信号的全局特征，将获得的全局特征与局部特征进行拼接，作为语音识别的输入，可以有效地为语音识别提供全局信息，进而提高语音识别的准确性。

Description

一种语音识别方法、装置、介质和设备

技术领域

本发明涉及语音识别技术领域，特别涉及一种语音识别方法、装置、介质和设备。

背景技术

语音识别过程中，作为输入的语音特征非常关键，一个有效的语音特征表示可以让语音识别性能大大提升。目前作为语音识别输入的主流的语音特征为梅尔倒谱系数(mfcc)特征序列和滤波器组(fbank)特征序列。

为了提高语音识别的准确性，现有技术中主要包括以下两种方案：

方案一、

将说话人向量(ivector)与mfcc特征序列(或fbank特征序列)进行拼接，作为语音识别网络的输入。

采用方案一可以有效提升特定说话人语音识别的效果，但是由于不同场景下不同的文本组合可能语音差距较大，因此，方案一对特定场景的语音识别效果不明显，语音识别的准确性无法得到保证。

方案二、

采用时延神经网络(TDNN)模型进行语音识别。为了有效利用上下文信息，在进行语音识别时会使用帧拼接的形式，可以在输入层进行拼帧，同时在隐藏层也可以进行拼帧，这样可以让模型获得当前帧前后的信息，获得更多的上下文信息。

采用方案二可以通过拼帧来组合上下文信息，但模型获得的信息是当前帧以及前后几帧的有限信息，语音识别的准确性仍然无法得到保证。

发明内容

本发明实施例提供一种语音识别方法、装置、介质和设备，用于解决语音识别准确率较低的问题。

本发明提供了一种语音识别方法，所述方法包括：

将确定出的帧特征序列作为预先训练出的循环神经网络RNN模型的输入，利用所述RNN模型确定全局特征序列；

将所述全局特征序列与每个所述帧特征序列进行拼接，根据拼接得到的每个特征序列进行语音识别；

所述帧特征序列为设定时长的语音信号的每一语音帧对应的特征序列，所述全局特征序列为所述设定时长的语音信号对应的特征序列。

本发明还提供了一种语音识别装置，所述装置包括：

全局特征确定模块，用于将确定出的帧特征序列作为预先训练出的循环神经网络RNN模型的输入，利用所述RNN模型确定全局特征序列，所述帧特征序列为设定时长的语音信号的每一语音帧对应的特征序列，所述全局特征序列为所述设定时长的语音信号对应的特征序列；

拼接模块，用于将所述全局特征确定模块确定出的全局特征序列与每个所述帧特征序列进行拼接；

语音识别模块，用于根据所述拼接模块拼接得到的每个特征序列进行语音识别。

本发明还提供了一种非易失性计算机存储介质，所述计算机存储介质存储有可执行程序，该可执行程序被处理器执行实现如上所述的方法。

本发明还提供了一种语音识别设备，包括至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述方法的步骤。

在本发明实施例提供的方案中，可以利用预先训练出的RNN模型，根据设定时长的语音信号的每一语音帧对应的帧特征序列，获得设定时长的语音信号对应的全局特征序列。并可以对全局特征序列和帧特征序列进行拼接，根据拼接得到的特征序列进行语音识别。本发明方案考虑到语音的连续性，可以通过RNN模型获得语音信号的全局特征，将获得的全局特征与局部特征进行拼接，作为语音识别的输入，可以有效地为语音识别提供全局信息，进而提高语音识别的准确性。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的语音识别方法的流程示意图；

图2为本发明实施例一提供的语音识别过程的示意图；

图3为本发明实施例二提供的语音识别装置的结构示意图；

图4为本发明实施例三提供的语音识别设备的结构示意图。

具体实施方式

为了解决目前语音识别准确性低的问题，本案发明人基于语音的连续性特点，考虑通过在语音识别过程中提供全局信息，来提高语音识别的准确性。

发明人进一步研究发现，由于RNN模型具有信息记忆功能，可以通过RNN模型，利用输入的帧特征序列来获得全局信息。因此，本发明方案考虑通过RNN模型来确定全局特征序列，进而可以结合全局特征序列和帧特征序列，进行语音识别。

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本文中提及的“多个或者若干个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

本发明实施例一提供一种语音识别方法，该方法的步骤流程可以如图1所示，包括：

步骤101、确定全局特征序列。

在本步骤中，可以将确定出的帧特征序列作为预先训练出的循环神经网络(RNN)模型的输入，利用所述RNN模型确定全局特征序列。

帧特征序列可以通过任意方式确定，本实施例不做具体限定。

所述帧特征序列可以理解为设定时长的语音信号的每一语音帧对应的特征序列，所述全局特征序列可以理解为所述设定时长的语音信号对应的特征序列。RNN模型利用输入的帧特征序列确定全局特征序列，可以理解为RNN模型通过每个语音帧对应的特征序列之间的关联，学习得到潜在的信息，如说话人的信息等，从而获得整个设定时长的语音信号对应的特征序列。

在一种可能的实现方式中，所述帧特征序列可以是但不限于为mfcc特征序列或fbank特征序列。

以帧特征序列为mfcc特征为例，确定帧特征序列可以是但不限于通过以下方式实现，包括：

对设定时长的语音信号进行分帧，针对每一语音帧进行快速傅里叶变换(FFT)后，取绝对值或平方值，然后进行梅尔(Mel)滤波。进行Mel滤波后，取对数，并进行离散余弦变换(DCT)，然后获取动态特征，输出特征向量，即mfcc特征。

以帧特征序列为fbank特征为例，确定帧特征序列可以是但不限于通过以下方式实现，包括：

对设定时长的语音信号进行分帧，针对每一语音帧进行快速傅里叶变换(FFT)后，取绝对值或平方值，然后进行梅尔(Mel)滤波。进行Mel滤波后，取对数，然后获取动态特征，输出特征向量，即fbank特征。

在一种可能的实现方式中，所述RNN模型可以是但不限于采用简单循环神经网络(simple RNN)模型、长短期记忆网络(LSTM)模型或门控循环单元(GRU)模型。

需要说明的是，在训练RNN模型时，RNN模型的参数可以是但不限于随机初始化，并利用语音识别任务对RNN模型进行训练，实现对RNN模型参数的更新，进而得到训练完成的RNN模型。

此外需要说明的是，训练完成的RNN模型可以作为一个全局特征的特征提取器。训练完成的RNN模型除了可以应用于本发明方案涉及的语音识别任务之外，也可以应用于其他语音任务，提升任务性能，本实施例对此不做限定。

步骤102、特征拼接。

在本步骤中，可以将步骤101确定出的全局特征序列与每个帧特征序列进行拼接，后续即可以利用拼接后得到的每个特征序列进行语音识别。

在一种可能的实现方式中，可以按照帧特征序列在前，全局特征序列在后的方式，或者按照全局特征序列在前，帧特征序列在后的方式进行拼接，以保证拼接后可以快速准确地识别出帧特征序列和全局特征序列。

例如，以帧特征序列包括5个特征值，假设用{a1，a2，a3，a4，a5}表示，全局特征序列包括5个特征值，假设用{A1，A2，A3，A4，A5}表示为例，那么可以按照帧特征序列在前，全局特征序列在后的方式进行拼接，拼接后获得的特征序列可以表示为{a1，a2，a3，a4，a5，A1，A2，A3，A4，A5}。

由于经RNN模型学习得到的全局特征序列可以表征设定时长的语音信号中每一语音帧之间的上下文关系，将全局特征序列与帧特征序列进行拼接之后，拼接得到的特征序列不仅可以通过帧特征序列提供每一语音帧的特征，还可以通过全局特征序列提供整条语音的特征，从而可以对帧特征序列进行特征补偿，有效涵盖整条语音的上下文信息，从而在进行语音识别时，可以有效提高语音识别的准确率。

步骤103、进行语音识别。

在本步骤中，可以根据步骤102中拼接得到的每个特征序列进行语音识别。

下面通过一个具体的例子对本发明实施例一提供的方案进行说明。

根据本发明实施例一提供的方案，语音识别过程可以如图2所示。假设需要对时长为T的音频(假设包括T个音频帧)进行语音识别。那么可以针对每个音频帧(分别对应t＝1，t＝2……t＝T-2，t＝T-1和t＝T)获得帧特征序列(例如，mfcc特征序列或fbank特征序列)。并可以将T个帧特征序列作为预先训练出的RNN模型的输入。

由于RNN模型具有信息记忆功能，经过RNN模型，在最后时刻T，RNN模型的隐藏层输出会包含之前所有时刻的信息，由此可以得到整条音频的全局特征。

分别将RNN模型输出的全局特征序列与每个音频帧(分别对应t＝1，t＝2……t＝T-2，t＝T-1和t＝T)对应的帧特征序列进行拼接，并可以根据拼接得到的每个特征序列进行语音识别。

根据本实施例提供的方案，可以通过RNN模型学习整句话的特征，可以理解为学习整句话中潜在的信息，例如说话人的信息等，并将这个特征与每个语音帧对应的特征进行拼接，作为具体的语音识别任务的输入。即，针对语音识别任务，除了提供传统特征之外，还可以有效地提供全局信息。相较于现有的语音识别方案，可以更好地涵盖上下文信息，并可以获取潜在有用信息作为特征补偿，防止信息丢失。从而可以通过提供更全面的信息，有效提高语音识别的准确性。

与实施例一提供的方法对应的，提供以下的装置。

实施例二

本发明实施例二提供一种语音识别装置，该装置的结构可以如图3所示，包括：

全局特征确定模块11用于将确定出的帧特征序列作为预先训练出的RNN模型的输入，利用所述RNN模型确定全局特征序列，所述帧特征序列为设定时长的语音信号的每一语音帧对应的特征序列，所述全局特征序列为所述设定时长的语音信号对应的特征序列；

拼接模块12用于将所述全局特征确定模块确定出的全局特征序列与每个所述帧特征序列进行拼接；

语音识别模块13用于根据所述拼接模块拼接得到的每个特征序列进行语音识别。

在一种可能的实现方式中，所述拼接模块12可以具体用于按照帧特征序列在前，全局特征序列在后的方式，或者，按照全局特征序列在前，帧特征序列在后的方式，将所述全局特征序列与每个所述帧特征序列进行拼接。

其中，所述帧特征序列可以为mfcc特征序列或fbank特征序列。

所述RNN模型可以采用simple RNN模型、LSTM模型或GRU模型。

基于同一发明构思，本发明实施例提供以下的设备和介质。

实施例三

本发明实施例三提供一种语音识别设备，该设备的结构可以如图4所示，包括至少一个处理器21；以及与所述至少一个处理器通信连接的存储器22；其中，所述存储器22存储有可被所述至少一个处理器21执行的指令，所述指令被所述至少一个处理器21执行，以使所述至少一个处理器21能够执行本发明实施例一所述方法的步骤。

可选的，所述处理器21具体可以包括中央处理器(CPU)、特定应用集成电路(ASIC，application specific integrated circuit)，可以是一个或多个用于控制程序执行的集成电路，可以是使用现场可编程门阵列(FPGA，field programmable gate array)开发的硬件电路，可以是基带处理器。

可选的，所述处理器21可以包括至少一个处理核心。

可选的，所述存储器22可以包括只读存储器(ROM，read only memory)、随机存取存储器(RAM，random access memory)和磁盘存储器。存储器22用于存储至少一个处理器21运行时所需的数据。存储器22的数量可以为一个或多个。

本发明实施例四提供一种非易失性计算机存储介质，所述计算机存储介质存储有可执行程序，当可执行程序被处理器执行时，实现本发明实施例一提供的方法。

在具体的实施过程中，计算机存储介质可以包括：通用串行总线闪存盘(USB，Universal Serial Bus flash drive)、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的存储介质。

在本发明实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性或其它的形式。

在本发明实施例中的各功能单元可以集成在一个处理单元中，或者各个单元也可以均是独立的物理模块。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备，例如可以是个人计算机，服务器，或者网络设备等，或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：通用串行总线闪存盘(universal serial bus flash drive)、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，将所述全局特征序列与每个所述帧特征序列进行拼接，包括：

按照帧特征序列在前，全局特征序列在后的方式，或者，按照全局特征序列在前，帧特征序列在后的方式，将所述全局特征序列与每个所述帧特征序列进行拼接。

3.如权利要求1所述的方法，其特征在于，所述帧特征序列为梅尔倒谱系数mfcc特征序列或滤波器组fbank特征序列。

4.如权利要求1～3任一所述的方法，其特征在于，所述RNN模型采用简单循环神经网络simple RNN模型、长短期记忆网络LSTM模型或门控循环单元GRU模型。

5.一种语音识别装置，其特征在于，所述装置包括：

6.如权利要求5所述的装置，其特征在于，所述拼接模块，具体用于按照帧特征序列在前，全局特征序列在后的方式，或者，按照全局特征序列在前，帧特征序列在后的方式，将所述全局特征序列与每个所述帧特征序列进行拼接。

7.如权利要求5所述的装置，其特征在于，所述帧特征序列为梅尔倒谱系数mfcc特征序列或滤波器组fbank特征序列。

8.如权利要求5～7任一所述的装置，其特征在于，所述RNN模型采用简单循环神经网络simple RNN模型、长短期记忆网络LSTM模型或门控循环单元GRU模型。

9.一种非易失性计算机存储介质，其特征在于，所述计算机存储介质存储有可执行程序，该可执行程序被处理器执行实现权利要求1～4任一所述的方法。

10.一种语音识别设备，其特征在于，所述设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1～4任一权利要求所述方法的步骤。