CN114121004A

CN114121004A - 基于深度学习的语音识别方法、系统、介质及设备

Info

Publication number: CN114121004A
Application number: CN202111389704.9A
Authority: CN
Inventors: 李强; 朱勇; 王尧; 叶东翔
Original assignee: Barrot Wireless Co Ltd
Current assignee: Barrot Wireless Co Ltd
Priority date: 2021-11-23
Filing date: 2021-11-23
Publication date: 2022-03-01

Abstract

本申请公开了一种基于深度学习的语音识别方法、系统、介质及设备，属于音频解码技术领域，该方法包括：在音频接收端对音频码流解码时，仅进行至标准解码流程中的变换域噪声整形解码步骤，获取音频码流对应的离散余弦变换谱系数；计算音频码流的信噪比；根据信噪比的大小，对离散余弦变换谱系数进行特征提取，获得相应的特征系数；根据预先训练的深度神经网络模型对特征系数进行声纹识别处理；若声纹识别的结果与用户匹配，则根据深度神经网络模型对特征系数进行语音关键词识别处理，得到音频码流对应的关键词概率。本申请省去复杂、运算量大的音频解码步骤与音频时频转换的步骤，节省功耗，提高关键词的识别速度。

Description

基于深度学习的语音识别方法、系统、介质及设备

技术领域

本申请涉及音频解码技术领域，尤其涉及一种基于深度学习的语音识别方法、系统、介质及设备。

背景技术

现有技术中，无线音频有很多典型的应用场景，譬如说基于蓝牙的遥控器，其在智能家居产品中使用十分广泛，其大概流程如下：用户发出语音控制命令，如‘打开空调’，经麦克采集、模数转换、音频预处理和音频编码器生成音频压缩包，最后通过无线通信模块发送出去；接收端无线通信模块收到音频压缩包，调用音频解码器生成音频PCM，经关键词识别模块识别出关键词，如‘打开空调’，再将其转换成对应的控制信号来控制家电。其中在音频解码端，对用户语音命令中的关键词进行识别的过程中，在音频解码器的解码过程中涉及频域到时域的转换，而在关键词识别的模块中，又涉及到时域到频域的转换，因为这两个部分的运算量较大，互为逆操作，使得在用户语音中的关键词识别时速度较慢，同时不利于在低功耗语音识别设备中进行部署。同时，在用户语音控制过程中，也存在设备对用户语音的误识别，最后导致设备错误开启的问题。

发明内容

针对现有技术中，在音频接收端对语音信号中的关键词进行识别时，对部分运算量较大的处理过程进行反复运算，导致关键词的识别速度较慢，增加功耗以及避免设备对用户语音误识别，出现的错误开启的问题，本申请提出一种基于深度学习的语音识别方法、系统、介质及设备。

在本申请的一个技术方案中，提供一种基于深度学习的语音识别方法，包括：在音频接收端对音频码流解码时，仅进行至标准解码流程中的变换域噪声整形解码步骤，获取音频码流对应的离散余弦变换谱系数；计算音频码流的信噪比；根据信噪比的大小，对离散余弦变换谱系数进行特征提取，获得相应的特征系数；根据预先训练的深度神经网络模型对特征系数进行声纹识别处理；若声纹识别的结果与用户匹配，则根据深度神经网络模型对特征系数进行语音关键词识别处理，得到音频码流对应的关键词概率。

可选的，根据信噪比的大小，对离散余弦变换谱系数进行特征提取，获得相应的特征系数，包括：当信噪比大于预设信噪比门限时，对离散余弦变换谱系数进行特征提取，得到梅尔频率倒谱系数作为特征系数；当信噪比小于或等于预设信噪比门限时，对离散余弦变换谱系数进行特征提取，得到伽马通频率倒谱系数作为特征系数。

可选的，仅进行至标准解码流程中的变换域噪声整形解码步骤，获取音频码流对应的离散余弦变换谱系数，包括：根据标准解码流程对音频码流进行解码，依次进行码流解析、算术与残差解码、噪声填充与全局增益、时域噪声整形解码以及变换域噪声整形解码后，获得离散余弦变换谱系数，其中，该实际解码过程不包括频域与时域的转换过程以及长期后置滤波器的处理过程。

可选的，对离散余弦变换谱系数进行特征提取，得到相应的特征系数，包括：在频域内对离散余弦变换谱系数进行预加重处理，并在预加重处理后，直接进行能量谱运算处理，省略掉预加重处理与能量谱运算处理之间的时域到频域的转换过程。

可选的，预加重处理包括：在预建立的预加重系数表中提取相应的预加重系数；根据预加重系数对离散余弦变换谱系数进行预加重处理，其中预加重系数与离散余弦变换谱系数一一对应。

可选的，在音频接收端对音频码流进行解码之前，还包括：获取多个音频文件分别对应的特征系数；根据特征系数和音频文件对应的关键词，对深度网络模型进行训练，获得深度神经网络模型参数，使得当将特征系数输入到深度神经网络模型后，通过深度神经网络模型参数的设定，得到特征系数对应的关键词的准确率大于或等于预设阈值。

可选的，获取多个音频文件分别对应的特征系数，包括：计算音频文件对应的信噪比；当信噪比大于预设信噪比门限时，获取音频文件对应的梅尔频率倒谱系数；当信噪比小于或等于预设信噪比门限时，获取音频文件对应的伽马通频率倒谱系数。

在本申请的一个技术方案中，提供一种基于深度学习的语音识别系统，包括：音频解码模块，其对音频码流进行解码时，仅进行至标准解码流程中的变换域噪声整形解码步骤，获取音频码流对应的离散余弦变换谱系数；信噪比计算模块，其对音频码流的信噪比进行计算；特征提取模块，其根据信噪比的大小，对离散余弦变换谱系数进行特征提取，获得相应的特征系数，特征系数包括梅尔频率倒谱系数和、或伽马通频率倒谱系数；声纹识别模块，其根据预先训练的深度神经网络模型对特征系数进行声纹识别处理；语音识别模块，若声纹识别的结果与用户匹配，其根据深度神经网络模型对特征系数进行语音关键词识别处理，得到音频码流对应的关键词概率。

在本申请的一个技术方案中，提供一种计算机可读存储介质，其中，存储介质存储有计算机指令，计算机指令被操作以执行方案一中的基于深度学习的语音识别方法。

在本申请的一个技术方案中，提供一种计算机设备，其包括处理器和存储器，存储器存储有计算机指令，其中：处理器操作计算机指令以执行方案一中的基于深度学习的语音识别方法。

本申请的有益效果是：本申请通过对需要解码的音频码流只进行部分解码过程，获取中间参数；通过预训练的深度神经网络模型对中间参数进行处理，得到该音频码流对应的关键词，从而省去复杂、运算量大的解码步骤，节省功耗，提高关键词的识别速度，同时进行用户的声纹识别，避免设备对用户语音命令错误识别，导致错误开启。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示出了在蓝牙接收端的音频码流处理流程图；

图2示出了本申请基于深度学习的语音识别方法的一个实施方式的流程示意图；

图3示出了LC3音频解码器的标准解码流程；

图4示出了关键词识别模块的标准识别流程；

图5示出了本申请预加重处理的预加重频率相应曲线示意图；

图6示出了本申请基于深度学习的关键词识别方法的一个实例的流程示意图；

图7示出了本申请基于深度学习的关键词识别系统的一个实施方式的示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的产品或设备不必限于清楚地列出的哪些单元，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它单元。

目前主流的蓝牙音频编解码器如下：SBC：A2DP协议强制要求，使用最为广泛，是所有的蓝牙音频设备必须支持的，但音质一般；AAC-LC:音质较好且应用较为广泛，很多主流的手机都支持，但与SBC相比，内存占用较大，且运算复杂度高，很多蓝牙设备都基于嵌入式平台，电池容量有限，处理器运算能力较差且内存有限，而且，其专利费较高；aptX系列：音质较好，但码率很高，aptX需要码率384kbps，而aptX-HD的码率为576kbps，且为高通独有的技术，较为封闭；LDAC:音质较好，但码率也很高，分别是330kbps，660kbps和990kbps，由于蓝牙设备所处的无线环境特别复杂，稳定支持如此高的码率有一定的困难，且为索尼独有的技术，也很封闭；LHDC：音质较好，但码率也很高，典型的包括400kbps，600kbp和900kbps，如此高的码率，对于蓝牙的基带/射频设计提出了很高的要求。基于上述原因，蓝牙国际联盟Bluetooth Sig联合众多厂商推出了LC3，主要面向低功耗蓝牙，也可以用于经典蓝牙，其具有较低延迟、较高的音质和编码增益以及在蓝牙领域无专利费的优点，受到广大厂商的关注。其中LC3音频编解码器主要面向低功耗蓝牙，对功耗的要求较高。因此，在LC3音频编解码器的应用中，降低功耗成为一个关键。

目前无线音频的应用较广，尤其在智能家居的语音控制方面。现有技术中，例如，基于蓝牙技术的遥控器在对空调进行语音控制的流程大致如下：

首先，用户发出语音控制指令，如“打开空调”，该语音命令经过麦克风的采集、模数转换、音频预处理以及音频编码器编码后生成音频压缩包，最后通过无线通信模块将该音频压缩包发送出去。然后在接收端，无线通信模块接收到该音频压缩包后，调用音频解码器进行解码，得到音频PCM，并通过关键词识别模块进行关键词识别，最终得到“打开空调”的指令，进而控制空调进行打开。

图1示出了在蓝牙接收端的音频码流处理流程图。其中，在蓝牙接收端的音频解码器和关键词识别模块是最关键的两个模块，其中，在音频解码器的处理过程包括：码流解析；算术与残差解码、噪声填充和全局增益；时域噪声整形解码；变换域噪声整形解码；频域到时域转换，即低延迟改进型离散余弦逆变换以及长期后置滤波器的滤波过程。在关键词识别模块的处理流程包括：特征提取和深度神经网络处理以及相应的后处理。其中，关键词特征提取部分包括：预加重处理；加窗处理；时域到频域转换，通常为离散傅里叶变换处理；能量谱；滤波器组；对数变换以及离散余弦变换，最终生成特征系数，例如，Mel滤波器组，生成对应的梅尔频率倒谱系数（Mel-Frequency Cepstral Coefficients，MFCC）。通过深度神经网络处理以及相应的后处理，根据特征系数，例如梅尔频率倒谱系数得到音频码流对应的关键词。

通过上述说明可知，在音频解码器的解码过程和关键词识别模块的关键词特征提取过程中，存在频域到时域转换和时域到频域转换的逆操作，进行频域到时域的转换或者时域到频域的转换需要消耗较大的运算量，造成较大的功耗。

针对上述问题，本申请通过在音频接收端的音频解码器的解码过程中，对音频码流只进行一部分标准的解码流程，在获得音频码流对应的离散余弦变换谱系数后，不再进行后续的频域到时域的转换过程，同样在关键词识别模块中，也就不需要进行时域到频域的转换过程，进而将这两个运算量较高的步骤省略，降低运算量，加快语音关键词的识别过程。同时，在关键词识别的过程中，增加声纹识别的处理，对语音指令是否为用户本人发出进行确认，避免控制的设备错误启动的问题。

针对上述问题，本申请提出一种基于深度学习的语音识别方法，包括：在音频接收端对音频码流解码时，仅进行至标准解码流程中的变换域噪声整形解码步骤，获取音频码流对应的离散余弦变换谱系数；计算音频码流的信噪比；根据信噪比的大小，对离散余弦变换谱系数进行特征提取，获得相应的特征系数，特征系数包括梅尔频率倒谱系数和、或伽马通频率倒谱系数（Gammatone Frequency Cepstral Coefficients，GFCC）；根据预先训练的深度神经网络模型对特征系数进行声纹识别处理；若声纹识别的结果与用户匹配，则根据深度神经网络模型对特征系数进行语音关键词识别处理，得到音频码流对应的关键词概率。

本申请的语音识别方法，通过将音频解码器中的频域到时域转换的步骤删除，进而省略掉关键词识别过程中的时域到频域的转换过程，降低运算量，加快关键词的识别速度。通过利用音频解码器得出的离散余弦变换谱系数利用深度神经网络模型进行处理，直接得到对应的语音关键词。其中，需要预先根据离散余弦变换谱系数和其对应的关键词对深度网络模型进行预训练，使得深度网络模型对离散余弦变换谱系数的处理结果的准确性提高，进而得到准确的关键词。另外，处理的音频码流的信噪比进行判断和区分，对于不同信噪比的用户语音进行对应不同的处理，得到对应的梅尔频率倒谱系数和、或伽马通频率倒谱系数，从而提高用户语音识别的准确度，提高系统的鲁棒性。再者，通过声纹识别，对用户语音的来源进行确认，避免该语音指令不是用户本人，但却控制设备进行相应的动作，即设备误启动的问题。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

图2示出了本申请基于深度学习的语音识别方法的一个实施方式的流程示意图。

在图2所示的实施方式中，本申请的基于深度学习的语音识别方法包括：过程S201，在音频接收端对音频码流解码时，仅进行至标准解码流程中的变换域噪声整形解码步骤，获取音频码流对应的离散余弦变换谱系数。

在该实施方式中，在对音频码流进行解码时，按照标准解码流程进行解码，但只进行一部分标准的解码流程，只要获得该音频码流对应的离散余弦变换谱系数即可。从而省略掉部分解码流程，节省解码器的算力和功耗。

在该可选实施例中，图3示出了LC3音频解码器的标准解码流程。如图3所示，标准的音频解码器的解码流程包括：码流解析；算术与残差解码、噪声填充和全局增益；时域噪声整形解码、变换域噪声整形解码；频域到时域的转换以及长期后置滤波器滤波过程。其中，频域到时域的转换过程为低延迟改进型离散余弦逆变换，与关键词识别过程中的时域到频域的转换互为逆操作。因此，在本申请的方法中，本身请对音频码流的解码流程进行到变换域噪声整形解码后，在进行频域到时域转换的操作之前便结束，得到音频码流对应的离散余弦变换谱系数即可。

本申请的基于深度学习的关键词识别方法在音频解码的过程中，将运算量较大的频域到时域转换以及长期后置滤波器的滤波过程省略，直接得到音频解码的离散余弦变换谱系数这一中间结果，通过对离散余弦变换谱系数进行后续的关键词识别流程，从而降低功耗，节省算力。

在图2所示的实施方式中，本申请的基于深度学习的语音识别方法包括：过程S202，计算音频码流的信噪比。

在该实施方式中，在语音识别过程中，用户所处的环境各种各样，因此用户语音在不同的环境下，例如安静的环境或者嘈杂的环境，进行语音识别时，根据噪声环境的不同，分别进行不同的处理，进而保证用户语音识别的准确性，提高语音识别系统的鲁棒性。在特征提取过程中，梅尔频率倒谱系数MFCC适合高信噪比环境，但在低信噪比的环境中，进行语音识别的效果较差；而以Gammatone滤波器为基础的伽马通频率倒谱系数GFCC（GammatoneFrequency Cepstral Coefficients），在低信噪比的环境下的效果较好。因此，本申请通过对信噪比进行判断，在语音识别过程中，进行不同的特征系数的选择，提高语音识别的准确率和识别过程的鲁棒性。

计算信噪比的具体方法，实例如下：

噪声能量估计：基于MDCT谱系数的能量谱（计算方法参考特征提取模块），搜索最小值作为噪声能量估计；

；

语音能量估计：基于MDCT谱系数的能量谱，计算语音频带的能量谱平均值，作为语音能量估计；

语音的能量主要集中在300Hz ~ 3400Hz的频带中，映射到MDCT谱系数索引为6~68；

计算信噪比：

语音质量判决：如果SNR大于设定信噪比门限，则视为纯净语音，否则视为带噪语音。

通过对语音信噪比的计算，对语音质量进行判断，根据不同的语音环境，采用不同的处理时段，提高语音识别的准确性，以及语音识别过程的鲁棒性。

在图2所示的实施方式中，本申请的基于深度学习的语音识别方法包括：过程S203，根据信噪比的大小，对离散余弦变换谱系数进行特征提取，获得相应的特征系数。

在该实施方式中，根据信噪比的不同，对离散余弦变换谱系数进行特征提取时，采用不同的处理方式。进而获得对应的特征系数，包括梅尔频率倒谱系数和、或伽马通频率倒谱系数。

在该可选实施例中，在得到音频码流对应的信噪比后，比较信噪比与预设信噪比门限的大小关系。其中，当信噪比大于预设信噪比门限时，因为梅尔频率倒谱系数适应于信噪比高的环境，因此在此时，根据对离散余弦变换谱系数进行特征提取，得到梅尔频率倒谱系数。当信噪比小于或等于预设信噪比门限时，在低信噪比的环境下，因为梅尔频率倒谱系数在低信噪比的环境中的识别效果较差，因此此时对对离散余弦变换谱系数进行特征提取，得到伽马通频率倒谱系数。其中，伽马通频率倒谱系数具有较佳的抗噪性能，通过，伽马通频率倒谱系数的使用，能够有效提高语音识别的准确性，以及整个识别过程的鲁棒性。需要说明的是，关于预设信噪比门限的设置，可根据语音识别过程中的经验值进行合理设置，其中对于具体预设信噪信噪比门限的数值，本申请不进行具体限制。

在该实施方式中，因为在音频解码器端没有进行频域到时域的转换以及长期后置滤波器的滤波过程，而直接得到离散余弦变换谱系数，因此，在声纹识别和关键词识别模块中，也需要对原来的标准识别流程进行调整。

可选的，在频域内对离散余弦变换谱系数进行特征提取，得到相应的特征系数，包括：对离散余弦变换谱系数进行预加重处理，并在预加重处理后，直接进行能量谱运算处理，省略掉预加重处理与能量谱运算处理之间的时域到频域的转换过程。

图4示出了关键词识别模块的标准识别流程。如图4所示，在关键词识别中的特征提取部分，包括：预加重；加窗；时域到频域转换，通常为离散傅里叶变换；能量谱；滤波器组；对数变换；离散余弦变换，生成相应的特征系数。其中，根据不同的信噪比与预设信噪比门限的比较结果，采用不同的滤波器组。其中，当信噪比大于预设信噪比门限时，采用Mel滤波器组，进行处理得到梅尔频率倒谱系数，简称MFCC；当信噪比小于或等于预设信噪比门限时，采用Gammatone滤波器，进行处理得到伽马通频率倒谱系数。根据音频解码端音频码流解码过程的更新，对应的，对识别流程进行调整。其中，因为在解码流程中不进行频域到时域的转换过程，相应的，在关键词的识别过程中，也就不进行时域到频域的转换过程，从而节省算力，降低功耗。其中，调整后，在声纹识别和关键词识别模块中，特征提取部分的流程为：预加重；能量谱；可选滤波器组；对数变换；离散余弦变换，生成梅尔频率倒谱系数或者伽马通频率倒谱系数。

可选的，预加重处理包括：在预建立的预加重系数表中提取相应的预加重系数；根据预加重系数对离散余弦变换谱系数进行预加重处理，其中预加重系数与离散余弦变换谱系数一一对应。图5示出了本申请预加重处理的预加重频率相应曲线示意图。其中，如图5所示，横轴表示的是频率值，纵轴表示的是增益值。因为在一段音频中，主要能量集中的低频，而高频部分衰减较快，为了在关键词识别的过程中低频部分和高频部分的能量谱较为平坦，进行预加重处理，使得对低频能量进行衰减了，对高频能量进行加重。

在该可选实施例中，在接收端进行解码得到的离散余弦变换谱系数并没有经过频域到时域的转换，因此在声纹识别和关键词识别模块的识别过程中，对离散余弦变换谱系数的预加重处理也需要对应的进行调整。即在频域内对离散余弦谱系数预加重处理。首先在预建立的预加重系数表中提取相应的预加重系数，根据一一对应的关系，根据预加重系数对离散余弦变换谱系数进行预加重处理。

具体的，以16KHz采样率为例，将预加重频率响应按照50Hz间隔存为预加重系数表，p(0)，p(1)，p(2)，…，p(159)。离散余弦变换谱系数MDCT的谱系数共160个，

是160。

根据预加重公式，进行预加重处理，具体如下：

。

本申请的方法，在声纹识别和关键词识别模块的特征提取流程中，由于在发送端进行音频编码时，已经进行过加窗步骤，同时因为时域到频域和频域到时域的转换过程互为逆操作，因此将标准流程中的加窗和时域到频域的转换过程进行省略，从而降低功耗。

在本申请的一个实例中，下面对声纹识别和关键词识别模块中特征提取过程的其他流程进行简单介绍，如下：

在能量谱过程中，首先生成伪谱系数：

，

其中，在当

或

时，

。

接下来，接着生成能量谱：此步与上一步在具体实施例中可以合并，进一步节省运算，为了叙述方便分开。

。

需要说明的是，本发明并不限制是否使用伪谱系数，直接使用MDCT离散余弦变换谱系数也能生成能量谱做关键词识别，但由于MDCT伪谱系数的能量分布与傅里叶变换谱系数的能量分布有更好的对应关系，使用伪谱来计算能量谱可以提高训练与识别的性能。

在Mel滤波器组的处理过程如下：

将频谱能量经过梅尔滤波器组计算得到每个通道的能量

梅尔滤波器组是由一系列的三角滤波器连接而成，

是第m个梅尔滤波器，此属于成熟的技术，此处不再赘述。

对数变换过程如下：

。

离散余弦变换过程：生成梅尔频率倒谱系数，简称MFCC，计算公式如下：

，D是MFCC特征的维数。

在图2所示的实施方式中，本申请的基于深度学习的语音识别方法包括：过程S204，根据预先训练的深度神经网络模型对特征系数进行声纹识别处理。

在该实施方式中，为了避免在用户语音控制过程中，也存在设备对用户语音的误识别，最后导致设备错误开启的问题，本申请的语音识别方法对接收的语音进行声纹识别，在确认是用户发出的语音后，才会执行相应的语音指令，避免其他无关语音的干扰，导致设备错误开启的问题。

在图2所示的实施方式中，本申请的基于深度学习的语音识别方法包括：过程S205，若声纹识别的结果与用户匹配，则根据深度神经网络模型对特征系数进行语音关键词识别处理，得到音频码流对应的关键词概率。

在该实施方式中，在声纹识别的结果确定是用户发出的语音命令后，通过预先训练好的深度神经网络模型对特征系数进行处理，根据特征系数与关键词的对应关系，得到音频码流对应的关键词概率。之后的关键词处理过程中，在音频接收端的关键词处理模块根据关键词概率确定最终的关键词，进而控制相应的设备进行动作。例如，本申请的关语音识别方法对一段音频码流进行处理后，获得空调的“打开”的关键词概率为90%，获得“升温”的关键词概率为10%，因此，之后的语音关键词处理模块根据关键词概率，确定关键词为打开，进而控制空调进行空调打开的操作。其中，关于后续的关键词处模块根据该关键词概率进行的后续处理，本申请不进行具体限制。

需要说明的是，特征系数包括梅尔频率倒谱系数和伽马通频率倒谱系数，根据上述语音信噪比判断结果的不同，在进行声纹识别和关键词识别的过程中，对应采用不同的特征系数，进行后续的处理。

在该可选实施例中，会预先对深度神经网络模型进行训练，其中在模型的训练过程中，对大量的语音素材的音频文件在离线的PC或服务器上进行处理，得到音频文件对应的梅尔频率倒谱系数，以梅尔频率倒谱系数及其对应的音频文件关键词为训练样本，建立梅尔频率倒谱系数与关键词的对应关系。其中，在PC或服务器中提取音频文件的梅尔频率倒谱系数获取原理，可参见上述描述的音频解码过程，具体情况，可进行适应调整。需要说明的是，对音频文件的处理设备，例如PC或者相关服务器可直接设置在深度神经网络模型中，进而在进行处理时，直接将音频文件输入到深度神经网络模型中进行训练，建立特征系数与关键词的对应关系，获得深度神经网络模型参数，供以后关键词的具体推理过程进行使用。

其中，在进行模型训练结果的检验时，在根据深度神经网络模型参数对模型设定后，将一定数量的音频文件输入到模型，统计音频文件与其对应关键词的对应关系，例如，当对应准确的音频文件测试样本数量占据总文本数量的比例不小于预设阈值时，则认为此时设定的深度神经网络模型参数设定正确，符合要求。具体的，预设阈值可选择95%。此时根据该深度神经网络模型参数进行模型设定后，在具体的关键词识别过程中，通过深度神经网络模型对梅尔频率倒谱系数进行处理，获得其对应的关键词的准确率也将大于或等于95%，以保证在根据深度神经网络模型获得对应的关键词的准确性。其中，深度神经网络模型可选择卷积神经网络，简称CNN；深度神经网络，简称DNN；循环神经网络，简称RNN；长短时记忆网络，简称LSTM，其中以上只是部分深度神经网络的示例，关于具体的深度神经网络的选用，本申请不进行具体限制。

具体的，在对深度神经网络模型进行训练，获得深度神经网络模型参数后，在后续具体的声纹识别和关键词推理过程中，根据该神经网络模型参数对具体识别过程中的深度网络模型进行设置，进而对音频码流对应的关键词进行推理，进而提高关键词推理过程的处理速度和关键词识别的准确率。

在该可选实施例中，在进行深度神经网络模型的训练时，可对训练的音频文件按照信噪比进行分类，例如，可分为低噪声音频数据和高噪声音频数据。在利用低噪声音频数据进行训练时，得到的是梅尔频率倒谱系数对应的模型参数；在利用高噪声音频数据进行训练时，得到的是伽马通频率倒谱系数对应的模型参数。

本申请对深度神经网络模型的训练方法，基于对音频文件进行离散余弦变换，并在该基础上获得相应的特征系数。而现有技术中提到的神经网络模型是基于快速傅里叶变换，并在此基础上获得特征系数。另外，本申请的语音识别方法，在此训练方法的基础上，在进行实际的关键词的识别时，能够较大的节省音频解码和特征提取过程的运算量，避免现有技术中，频域到时域以及时域到频域的转换过程。降低功耗，节省算力。

图6示出了本申请基于深度学习的语音识别方法的一个实例的流程示意图。如图6所示，在本申请的方法中，与现有技术相比，在解码流程中省略了频域到时域的转换过程，在特征识别的过程中，也相对应的省略了时域到频域的转换过程，通过将这两个需要较大运算能力和功耗的步骤省略，进而节省算力，加快关键词的识别过程。

本申请既可以用于低功耗蓝牙音频，也可以用于经典蓝牙。既可以用于蓝牙领域，还可以用于其他无线通信领域，特别是关键词识别；充分利用音频解码器已有的信息与现有的算法模块，通过省略解码过程中的低延迟改进型离散余弦逆变换和长期后置滤波器的处理过程，进而降低了解码器的运算复杂度，通过省略加窗和时频转换的处理过程，又降低了关键词识别特征提取模块的运算复杂度；基于上，较大的节省了功耗，延长了设备的使用时间。节省了相关模块需要的程序空间和代码空间，降低了设备的成本。本申请的方法可应用在蓝牙遥控器与智能家居的组合中，通过蓝牙遥控器控制并编码后的音频码流进行语音关键词识别，实现对手机、智能家居等设备的控制。其中，以上及其应用情况，均在本申请的保护范围内。

本申请的基于深度学习的语音识别方法将音频码流的标准解码流程中的运算量较大的频域到时域的转换过程进行省略，对应的将关键词识别过程中的时域向频域转换的省略，通过直接根据离散余弦变换谱系数进行识别，得到相应的特征系数，通过预先训练好的深度神经网络模型对特征系数进行处理，得到该音频码流对应的关键词。本申请的方法将关键词识别过程中的运算量较大的过程省略，节省算力，降低功耗，提高关键词的识别速度。尤其对功耗有严格要求的低功耗蓝牙，具有较大的意义。另外，本申请通过深度神经网络模型进行关键词的识别，保证关键词识别的准确性。

图7示出了本申请基于深度学习的语音识别系统的一个实施方式的示意图。

在图7所示的实施方式中，本申请的基于深度学习的关键词识别系统包括：音频解码模块701，其对音频码流进行解码时，仅进行至标准解码流程中的变换域噪声整形解码步骤，获取音频码流对应的离散余弦变换谱系数；信噪比计算模块702，其对音频码流的信噪比进行计算；特征提取模块703，其根据信噪比的大小，对离散余弦变换谱系数进行特征提取，获得相应的特征系数，特征系数包括梅尔频率倒谱系数和、或伽马通频率倒谱系数；声纹识别模块704，其根据预先训练的深度神经网络模型对特征系数进行声纹识别处理；语音识别模块705，若声纹识别的结果与用户匹配，其根据深度神经网络模型对特征系数进行语音关键词识别处理，得到音频码流对应的关键词概率。

在该实施方式中，通过将音频解码器中的频域到时域转换的步骤删除，进而省略掉关键词识别过程中的时域到频域的转换过程，降低运算量，加快关键词的识别速度。通过利用音频解码器得出的离散余弦变换谱系数做特征提取，并基于MFCC特征利用深度神经网络模型进行处理，直接得到对应的关键词概率。其中，在深度神经网络模型对梅尔频率倒谱系数MFCC特征进行关键词的推理时，会根据预先确定好的深度神经网络模型参数进行模型设置，进而提高关键词推理过程的处理速度和准确性。其中，本申请的基于深度学习的关键词识别系统的运行原理与上述的基于深度学习的关键词识别方法的原理类似，不再进行赘述。

在本申请的一个具体实施方式中，一种计算机可读存储介质，其存储有计算机指令，其中计算机指令被操作以执行任一实施例描述的基于深度学习的语音识别方法。其中，该存储介质可直接在硬件中、在由处理器执行的软件模块中或在两者的组合中。

软件模块可驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可装卸盘、CD-ROM或此项技术中已知的任何其它形式的存储介质中。示范性存储介质耦合到处理器，使得处理器可从存储介质读取信息和向存储介质写入信息。

处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application Specific Integrated Circuit，简称：ASIC)、现场可编程门阵列（英文：Field Programmable Gate Array，简称：FPGA）或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合等。通用处理器可以是微处理器，但在替代方案中，处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合，例如DSP与微处理器的组合、多个微处理器、结合DSP核心的一个或一个以上微处理器或任何其它此类配置。在替代方案中，存储介质可与处理器成一体式。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替代方案中，处理器和存储介质可作为离散组件驻留在用户终端中。

在本申请的一个具体实施方式中，一种计算机设备，其包括处理器和存储器，存储器存储有计算机指令，其中：处理器操作计算机指令以执行任一实施例描述的基于深度学习的语音识别方法。

在本申请所提供的实施方式中，应该理解到，所揭露的装置，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上仅为本申请的实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种基于深度学习的语音识别方法，其特征在于，包括：

在音频接收端对音频码流解码时，仅进行至标准解码流程中的变换域噪声整形解码步骤，获取所述音频码流对应的离散余弦变换谱系数；

计算所述音频码流的信噪比；

根据所述信噪比的大小，对所述离散余弦变换谱系数进行特征提取，获得相应的特征系数；

根据预先训练的深度神经网络模型对所述特征系数进行声纹识别处理；

若所述声纹识别的结果与用户匹配，则根据所述深度神经网络模型对所述特征系数进行语音关键词识别处理，得到所述音频码流对应的关键词概率。

2.根据权利要求1所述的基于深度学习的语音识别方法，其特征在于，所述根据所述信噪比的大小，对所述离散余弦变换谱系数进行特征提取，获得相应的特征系数，包括：

当所述信噪比大于预设信噪比门限时，对所述离散余弦变换谱系数进行特征提取，得到梅尔频率倒谱系数作为所述特征系数；

当所述信噪比小于或等于所述预设信噪比门限时，对所述离散余弦变换谱系数进行特征提取，得到伽马通频率倒谱系数作为所述特征系数。

3.根据权利要求1所述的基于深度学习的语音识别方法，其特征在于，所述仅进行至标准解码流程中的变换域噪声整形解码步骤，获取所述音频码流对应的离散余弦变换谱系数，包括：

根据所述标准解码流程对所述音频码流进行解码，依次进行码流解析、算术与残差解码、噪声填充与全局增益、时域噪声整形解码以及所述变换域噪声整形解码后，获得所述离散余弦变换谱系数，其中，该实际解码过程不包括频域与时域的转换过程以及长期后置滤波器的处理过程。

4.根据权利要求1或2所述的基于深度学习的语音识别方法，其特征在于，所述对所述离散余弦变换谱系数进行特征提取，得到相应的特征系数，包括：

在频域内对所述离散余弦变换谱系数进行预加重处理，并在所述预加重处理后，直接进行能量谱运算处理，省略掉所述预加重处理与所述能量谱运算处理之间的时域到频域的转换过程。

5.根据权利要求4所述的基于深度学习的语音识别方法，其特征在于，所述预加重处理包括：

在预建立的预加重系数表中提取相应的预加重系数；

根据所述预加重系数对所述离散余弦变换谱系数进行预加重处理，其中所述预加重系数与所述离散余弦变换谱系数一一对应。

6.根据权利要求1所述的基于深度学习的语音识别方法，其特征在于，所述在音频接收端对音频码流进行解码之前，还包括：

获取多个音频文件分别对应的所述特征系数；

根据所述特征系数和所述音频文件对应的关键词，对深度网络模型进行训练，获得深度神经网络模型参数，使得当将所述特征系数输入到所述深度神经网络模型后，通过深度神经网络模型参数的设定，得到所述特征系数对应的关键词的准确率大于或等于预设阈值。

7.根据权利要求6所述的基于深度学习的语音识别方法，其特征在于，所述获取多个音频文件分别对应的所述特征系数，包括：

计算所述音频文件对应的信噪比；

当所述信噪比大于预设信噪比门限时，获取所述音频文件对应的梅尔频率倒谱系数；

当所述信噪比小于或等于所述预设信噪比门限时，获取所述音频文件对应的伽马通频率倒谱系数。

8.一种基于深度学习的语音识别系统，其特征在于，包括：

音频解码模块，其对音频码流进行解码时，仅进行至标准解码流程中的变换域噪声整形解码步骤，获取所述音频码流对应的离散余弦变换谱系数；

信噪比计算模块，其对所述音频码流的信噪比进行计算；

特征提取模块，其根据所述信噪比的大小，对所述离散余弦变换谱系数进行特征提取，获得相应的特征系数，所述特征系数包括梅尔频率倒谱系数和/或伽马通频率倒谱系数；

声纹识别模块，其根据预先训练的深度神经网络模型对所述特征系数进行声纹识别处理；

语音识别模块，若所述声纹识别的结果与用户匹配，其根据所述深度神经网络模型对所述特征系数进行语音关键词识别处理，得到所述音频码流对应的关键词概率。

9.一种计算机可读存储介质，其存储有计算机指令，其中计算机指令被操作以执行权利要求1-7任一项所述的基于深度学习的语音识别方法。

10.一种计算机设备，其包括处理器和存储器，所述存储器存储有计算机指令，其中：所述处理器操作计算机指令以执行权利要求1-7任一项所述的基于深度学习的语音识别方法。