CN114360513A

CN114360513A - 一种音频识别方法、装置、计算设备及存储介质

Info

Publication number: CN114360513A
Application number: CN202011057608.XA
Authority: CN
Inventors: 窦文; 张李秋; 李超
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Chengdu ICT Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Chengdu ICT Co Ltd
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2022-04-15

Abstract

本发明实施例公开了一种音频识别方法、装置、计算设备及存储介质，该方法可以包括：获取第一音频中的语音音频，语音音频包括多帧语音音频信号；基于语音音频和目标耳蜗听觉模型，确定与多帧语音音频信号相关的伽玛通频率倒谱信息；其中，伽玛通频率倒谱信息包括多帧语音音频信号中相邻的至少两帧语音音频信号的关联伽玛通频率倒谱信息和多帧语音音频信号中每帧语音音频信号的伽玛通频率倒谱信息；根据伽玛通频率倒谱信息和每帧语音音频信号的基音频率特征，识别语音音频中至少一个目标对象对应的音频。以解决现有技术中音频识别效率低的问题。

Description

一种音频识别方法、装置、计算设备及存储介质

技术领域

本发明实施例涉及语音识别技术领域，尤其涉及一种音频识别方法、装置、计算设备及存储介质。

背景技术

语音识别(Voice Recognition)是深度学习算法应用最广泛的主要研究领域之一，一般包括语种识别、说话人识别、关键词检出三类。其中，说话人识别(SpeakerRecognition)又称声纹识别，包括说话人辨认和说话人确认。

目前，在语音识别过程中，通常使用隐马尔可夫模型(Hidden Markov Model，HMM)或高斯混合模型(Gaussian Mixture Model，GMM)对音频进行识别。但是，这两种识别模型属于浅层学习网络算法，在一些场景下并不适用，例如在海量的语音环境中，语音中包含大量的来源不同的噪声、信道干扰及不同口音等干扰因素，导致在低信噪比的情况下往往会呈现出识别率降低的趋势，因此，通过上述音频识别方式进行音频识别，效率过低，且较难满足实际应用需求。

发明内容

本发明实施例提供一种音频识别方法、装置、计算设备及存储介质，以解决现有技术中音频识别效率低的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种音频识别方法，该方法可以包括：

获取第一音频中的语音音频，语音音频包括多帧语音音频信号；

基于语音音频和目标耳蜗听觉模型，确定与多帧语音音频信号相关的伽玛通频率倒谱信息；其中，伽玛通频率倒谱信息包括多帧语音音频信号中相邻的至少两帧语音音频信号的关联伽玛通频率倒谱信息和多帧语音音频信号中每帧语音音频信号的伽玛通频率倒谱信息；

根据伽玛通频率倒谱信息和每帧语音音频信号的基音频率特征，识别语音音频中至少一个目标对象对应的音频。

由此，本发明实施例中，通过目标耳蜗听觉模型，生成伽玛通频率倒谱信息，这里，耳蜗听觉模型模拟了人耳将语音音频转换为基底膜运动的多通道表示音频，以及将基底膜运动的多通道表示音频转换为到达耳蜗核的神经活动模式的多通道表示音频的过程，还原了人耳在感知方面的相互作用。耳蜗听觉模型中使用的gammatone滤波器对于含噪声的语音，能够较好的提取出其中的语音特征。因此，使用耳蜗听觉模型生成的伽玛通频率倒谱信息具有较好的抗噪性能。

接着，本发明实施例为了引入语音音频间的动态信息，计算多帧语音音频信号中相邻的至少两帧语音音频信号的关联伽玛通频率倒谱信息，即一阶差分伽玛通频率倒谱信息和二阶差分伽玛通频率倒谱信息，保留语音帧与帧之间的关联信息。本申请同时选择语音基音频率特征一起组合，将原始语音中的辨义信息进行保留。

然后，本发明实施例选择的组合语音特征即伽玛通频率倒谱信息和每帧语音音频信号的基音频率特征，包含的语音信息丰富，可辨别的精度高，且具有良好的抗噪性能，能够解决实际的使用过程中，用于可以识别带有噪声和音频源复杂的语音，提高音频识别效率。

在一种可能的实施例中，上述涉及的获取第一音频中的语音音频的步骤具体可以包括：

对第一音频进行分帧处理，得到第二音频；

利用谱减法对第二音频进行降噪，得到降噪后的第三音频；

基于对数频谱距离的端点检测，提取第三音频中包含有话的音频片段；

将包含有话的音频片段确定为语音音频。

基于此，在另一种可能的实施例中，上述涉及的对第一音频进行分帧处理，得到第二音频的步骤，具体可以包括：

按照预设帧移长度，划分第一音频中每帧音频信号对应的帧长，得到具有重叠区域的音频信号；

将具有重叠区域的音频信号对应的音频确定为第二音频。

在又一种可能的实施例中，上述涉及的利用谱减法对第二音频进行降噪，得到降噪后的第三音频的步骤，具体可以包括：

根据第二音频中每个音频信号对应的相角值和谱减后幅值，对第二音频进行降噪，得到降噪后的第三音频；其中，

谱减后幅值由第二音频中每个音频信号的幅值和第一预设噪声帧的平均能量确定。

在再一种可能的实施例中，上述涉及的基于对数频谱距离的端点检测，提取第三音频中包含有话的音频片段的步骤，具体可以包括：

根据第三音频中每帧音频信号与第二预设噪声帧的对数频谱距离，将对数频谱距离小于或者等于预设阈值的第一音频信号确定为目标噪声帧；

提取第三音频中除了目标噪声帧之外的第一音频帧，并确定与第一音频帧对应的音频片段；其中，

对数频谱距离由第三音频中每帧音频信号的对数频谱和第二预设噪声帧的对数频谱确定。

另外，在再一种可能的实施例中，上述涉及的基于语音音频和目标耳蜗听觉模型，确定与多帧语音音频信号相关的伽玛通频率倒谱信息的步骤，具体可以包括：

获取语音音频中每帧语音音频信号的谱线能量；

将谱线能量输入到目标耳蜗听觉模型中，得到每帧语音音频信号的伽玛通频率倒谱信息；

将每帧语音音频信号的伽玛通频率倒谱信息，确定每帧语音音频信号与相邻的至少一帧语音音频信号的关联伽玛通频率倒谱信息；其中，

关联伽玛通频率倒谱信息包括每帧语音音频信号的伽玛通频率倒谱信息相关的一阶差分伽玛通频率倒谱信息和二阶差分伽玛通频率倒谱信息。

另外，在再一种可能的实施例中，在上述涉及的识别语音音频中至少一个目标对象对应的音频之前，该方法还可以包括：

根据每帧语音音频信号的采样频率和基音周期，得到每帧语音音频信号的基音频率特征。

基于此，在再一种可能的实施例中，在上述涉及的根据伽玛通频率倒谱信息和每帧语音音频信号的基音频率特征，识别语音音频中至少一个目标对象对应的音频的步骤中，具体可以包括：

根据所述每帧语音音频信号的伽玛通频率倒谱信息、关联伽玛通频率倒谱信息和所述每帧语音音频信号的基音频率特征，得到所述每帧语音音频信号的声学特征信息基音；将声学特征信息输入到第一循环神经网络模型中，得到结果信息，结果信息包括识别语音音频中至少一个目标对象对应的音频；其中，

第一循环神经网络模型由第一样本集训练，第一样本集包括多个样本声学特征信息，样本声学特征信息包括多个样本帧语音音频信号中每个样本帧语音音频信号的伽玛通频率倒谱信息和基音频率特征。

基于此，在再一种可能的实施例中，上述涉及的音频识别方法还可以包括：

在检测到结果信息不满足第一预设条件的情况下，基于结果信息、第一样本集和第二样本集对第一循环神经网络模型进行训练，直至满足第二预设条件，得到训练后的第二网络模型，第二网络模型用于识别语音音频中至少一个目标对象对应的音频；

其中，第二样本集包括区别于第一样本中的多个样本声学特征信息。

这里，第一循环神经网络模型或者第二网络模型包括长短期记忆循环网络。

第二方面，本发明实施例提供了一种音频识别装置，该装置可以包括：

获取模块，用于获取第一音频中的语音音频，语音音频包括多帧语音音频信号；

处理模块，用于基于语音音频和目标耳蜗听觉模型，确定与多帧语音音频信号相关的伽玛通频率倒谱信息；其中，伽玛通频率倒谱信息包括多帧语音音频信号中相邻的至少两帧语音音频信号的关联伽玛通频率倒谱信息和多帧语音音频信号中每帧语音音频信号的伽玛通频率倒谱信息；

识别模块，用于根据伽玛通频率倒谱信息和每帧语音音频信号的基音频率特征，识别语音音频中至少一个目标对象对应的音频。

第三方面，本发明实施例提供了一种计算设备，包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序，计算机程序被处理器执行时实现如第一方面所示的音频识别方法。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，若计算机程序在计算机中执行，则令计算机执行如第一方面所示的音频识别方法。

附图说明

从下面结合附图对本发明的具体实施方式的描述中可以更好地理解本发明其中，相同或相似的附图标记表示相同或相似的特征。

图1为本发明实施例提供的一种音频识别系统架构示意图；

图2为本发明实施例提供的一种音频识别方法的流程图；

图3为本发明实施例提供的一种分针处理结构流程图；

图4为本发明实施例提供的一种基本谱减法原理示意图；

图5为本发明实施例提供的一种谱减法降噪性能中无噪语音的示意图；

图6为本发明实施例提供的一种谱减法降噪性能中添加噪声语音的示意图；

图7为本发明实施例提供的一种谱减法降噪性能中经过谱减法降噪后的语音音频的示意图；

图8为本发明实施例提供的一种无噪语音输出Gammatone系数的示意图；

图9为本发明实施例提供的一种带噪语音输出Gammatone系数的示意图；

图10为本发明实施例提供的一种语音信号提取的基音频率特征示意图；

图11为本发明实施例提供的另一种语音信号提供给的基音频率特征示意图；

图12为本发明实施例提供的一种LSTM循环网络的结构示意图；

图13为本发明实施例提供的一种音频识别装置结构示意图；

图14为本发明实施例提供的一种计算设备的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，语音识别包括语种识别、说话人识别和关键词检出三类。虽然语音识别在近些年取得了巨大进步，但是在说话人识别方向，仍然存在一些不足。其中，说话人识别能够达到的效果，与人的语音识别能力还是有一定的差距。特别是处于海量的语音环境的情况下，语音音频中包含大量来源不同的噪声、信道干扰及不同口音等干扰因素，人类辨别特定语音(如特定的说话人、特定的语言以及特定的文字等)的能力要远远好于现有的说话人识别。现有的说话人识别在低信噪比的情况下往往会呈现出识别率降低的趋势，即抗噪性能较差。实际应用中的语音往往含有噪声，若抗噪性能差则会使应用失去实际使用价值。

基于此，本发明实施例提出了一种音频识别方法、装置、计算设备及存储介质，以解决现有技术中音频识别效率低的问题。

首先，本发明实施例提供了一种音频识别系统架构，具体结合图1进行详细说明。

图1为本发明实施例提供的一种音频识别系统架构示意图。

如图1所示，本发明实施例中提出一种基于耳蜗听觉模型和循环神经网络的说话人识别方法，针对实际应用中音频往往含有噪声的使用情境。基于此，该音频识别系统可以包括预处理模块10，特征提取模块20，特征融合模块30以及说话人识别模块40。

其中，预处理模块10用于对音频分帧、降噪处理以及有话段的语音提取；特征提取模块20用于提取基音频率特征和伽玛通频率倒谱信息即(Gammatone Frequency CepstrumCoefficient，GFCC)特征；特征融合模块30用于一阶差分GFCC及二阶差分GFCC系数计算，以及与基音频率特征融合；说话人识别模块40用于根据模型对语音音频进行识别。

由此，本发明实施例可以在预处理模块10使用谱减法除噪，减弱了噪声对语音识别的干扰。谱减法利用加性噪声与语音不相关的特点，在假设噪声是统计平稳的前提下，用无语音间隙测算到的噪声频谱估计值取代有语音期间噪声的频谱，与含噪语音频谱相减，从而获得语音频谱的估计值。谱减法的算法简单、运算量小，便于实际的应用场景。对语音进行降噪之后，使用基于对数倒谱距离的端点检测方法对语音中的有话段和无话段进行了判别，并提取其中的有话段进行后续特征提取与识别。由于去除了无话段(噪声段)的信号进行后续训练与检测，减小了需要处理的计算量，提高了检测效率。

本发明实施例的特征提取模块20可以在提取语音音频部分，使用耳蜗听觉模型，利用耳蜗听觉模型使用的伽马通(Gammatone)滤波器，生成GFCC特征，并加入了一阶差分GFCC和二阶差分GFCC，引入帧与帧之间的动态信息。耳蜗听觉模型模拟了人耳将语音信号转换为基底膜运动的多通道表示信号，和将基底膜运动的多通道表示信号转换为到达耳蜗核的神经活动模式的多通道表示信号的过程，还原了人耳在感知方面的相互作用。因此使用耳蜗听觉模型生成的GFCC特征具有较好的抗噪性能。本发明实施例的特征融合模块30，可以将基音频率特征和伽玛通频率倒谱信息一起组合，将原始语音中的辨义信息进行保留，提取的语音音频包含的语音信息更加丰富。

本发明实施例的说话人识别模块40在确定循环神经网络模型和识别语音音频中至少一个目标对象的部分，可以根据语音时序中包含的信息，选择长短期记忆网络(LongShort-Term Memory，LSTM)作为检测分类器，LSTM保留了较长持续时间内的积累信息，并且积累的时间尺度可以动态的改变，适合实际应用场景下的说话人识别。

基于上述系统架构，本发明实施例针对音频识别方法进行详细说明，具体如图2所示。

图2为本发明实施例提供的一种音频识别方法的流程图。

如图2所示，该音频识别方法具体可以包括步骤210-步骤230，具体如下所示：

首先，步骤210，获取第一音频中的语音音频，语音音频包括多帧语音音频信号；接着，步骤220，基于语音音频和目标耳蜗听觉模型，确定与多帧语音音频信号相关的伽玛通频率倒谱信息；其中，伽玛通频率倒谱信息包括多帧语音音频信号中相邻的至少两帧语音音频信号的关联伽玛通频率倒谱信息和多帧语音音频信号中每帧语音音频信号的伽玛通频率倒谱信息；然后，步骤230，根据伽玛通频率倒谱信息和每帧语音音频信号的基音频率特征，识别语音音频中至少一个目标对象对应的音频。

由此，下面分别对上述步骤210-步骤230进行详细说明，具体如下所示：

首先，涉及步骤210，具体可以包括：

步骤2101，对第一音频进行分帧处理，得到第二音频；

步骤2102，利用谱减法对第二音频进行降噪，得到降噪后的第三音频；

步骤2103，基于对数频谱距离的端点检测，提取第三音频中包含有话的音频片段；将包含有话的音频片段确定为语音音频。

其中，对上述涉及的步骤2101-步骤2103分别进行描述：

涉及步骤2101，具体可以包括：按照预设帧移长度，划分第一音频中每帧音频信号对应的帧长，得到具有重叠区域的音频信号；

将具有重叠区域的音频信号对应的音频确定为第二音频。

下面通过一个例子对第一音频进行分帧处理进行说明：

读取第一音频文件，由于音频信号在短时间范围内特性具有稳定性，因此，需要将第一音频分帧，后续计算都基于分帧后的音频，如图3所示，假设未分帧的第一音频为x(n)，将第一音频分成帧长为10～30毫秒ms间的信号帧x_i(m)。为了保留第一音频中每帧音频信号与每帧音频信号之间的关联性，在相邻两帧间会设置重叠部分，重叠部分一般选择帧长的一半。对于一个长为M的第一音频的音频信号的分帧处理计算如公式(1)所示：

f_n＝(M-wlen+inc)/inc

＝(M-wlen)/inc+1 (1)

其中，f_n为信号帧分帧后的结果，wlen为每一帧的帧长，Inc为帧移，即帧移动的长度。另外，上述涉及的重叠部分overlap的计算如公式(2)所示：

overlap＝wlen-inc (2)

涉及步骤2102，具体可以包括：根据第二音频中每个音频信号对应的相角值和谱减后幅值，对第二音频进行降噪，得到降噪后的第三音频；其中，谱减后幅值由第二音频中每个音频信号的幅值和第一预设噪声帧的平均能量确定。

接上述步骤2101的例子，对第二音频的降噪过程进行说明：

如图4所示，显示了基本谱减法的原理。对第一音频分帧后，得到第二音频，使用谱减法对第二音频降噪。如分帧的帧长为N，选择最开始的NIS帧(即选取的至少一个帧的总数)作为前导无语帧(即第一预设噪声帧)。对任何一帧语音信号x_i(m)做离散傅里叶变换(Fast Fourier Transformation，FFT)后可以通过公式(3)所示：

要对x_i(k)求出每个音频信号分量的幅值和相角，幅值是|x_i(n)|，它的相角如公式(4)确定：

接着，计算前导无话段的平均能量：

谱减算法如公式(6)所示：

求出了谱减后幅值为|x_i(k)|，结合了保存的

就能经快速傅里叶逆变换(Inverse Fast Fourier Transform， IFFT)求出谱减后的语音序列即第三音频

其中，利用了第三音频对相位不灵敏的特性，把谱减前的相位角信息直接用到谱减后的信号中。

基于此，如图5-图7示出了谱减法降噪性能在实际中应用的效果示意图，如图5所示，是无噪语音的示意图。图6是检测时选择对语音添加5dB的噪声。图7是在经过谱减法降噪后的语音，可以参照图5和图7可知，噪声部分有效滤除，且语音部分未受到干扰，效果良好。

涉及步骤2103，具体可以包括：根据第三音频中每帧音频信号与第二预设噪声帧的对数频谱距离，将对数频谱距离小于或者等于预设阈值的第一音频信号确定为目标噪声帧；

接上述步骤2102的例子，对第三音频进行对数倒谱距离的端点检测过程进行说明：

通过对数频谱距离的端点检测方式提取第三音频中的有话段即与第一音频帧对应的音频片段，去除无话段(或噪声段)即目标噪声帧对应的音频片段，以便后续对有话段与无话段(噪声段)做不同的处理，判断有话段与无话段(噪声段)步骤如下：

第一，用NIS个前导无语帧计算目标噪声帧平均频谱p_noise(k)，将降噪后的第i帧语音信号记为P_i(n)，可以通过公式(7)实现：

进一步，可通过公式(8)计算目标噪声帧的对数频谱：

第二，可通过公式(9)计算每个第一音频帧的对数频谱：

第三，可通过公式(10)计算每个第一音频帧与目标噪声帧的对数频谱距离：

这里，N2只取正频率部分，当帧长为N时，N2＝N/2+1。

第四，设置无话段计数参数counter与对数频谱距离的阈值TH_d。每当输入一帧后，可通过公式(10)计算出该帧的对数频谱距离d_spec，判断d_spec是否小于TH_d。

若d_spec小于TH_d，认为该帧是噪声帧，即counter＝counter+1，噪声标记参数NoiseFlag＝1；如果d_spec大于TH_d，counter＝0，NoiseFlag＝0。

第五，为了保证确定有话帧对应的有话端点位置，还需要判断counter是否还小于最小噪声段长度，如果是，则是有话帧，标记SpeechFlag＝1；否则，为无话帧，SpeechFlag＝0。整个语音检测每帧是否为有话帧后，可利用SpeechFlag确定有话段端点位置。

由此，本发明实施例在预处理部分首先使用谱减法对语音降噪。谱减法利用加性噪声与语音不相关的特点，在假设噪声是统计平稳的前提下，用无语音间隙测算到的噪声频谱估计值取代有语音期间噪声的频谱，与含噪语音频谱相减，从而获得语音频谱的估计值。对语音进行降噪之后，使用基于对数倒谱距离的端点检测方法对语音中的有话段和无话段进行判别，提取其中的有话段进行后续特征提取与识别。

另外，谱减法降噪减弱了噪声对语音识别的干扰。谱减法的算法简单、运算量小，便于实际的应用场景。然后使用对数倒谱距离的端点检测方法对语音中的有话段和无话段进行了判别，并提取其中的有话段进行后续检测，由于去除了无话段(噪声段)的信号进行后续训练与检测，减小了需要处理的计算量，提高了检测效率。

基于此，涉及步骤220，具体可以包括：获取语音音频中每帧语音音频信号的谱线能量；

这里，接上述步骤210的例子，结合下述示例进行详细说明：

通过得到每帧语音音频信号的伽玛通频率倒谱信息可以作为对有话段进行GFCC特征提取的过程之一，具体可以通过如下方式进行提取：

由于后续算法处理时只针对有话段进行检测，将经过端点检测预处理模块的信号只保留有语音信号，记为d(n)，第i帧的语音音频信号记为d_i(n)。按照公式(11)所示对d_i(n)做傅里叶变换：

D_i(k)＝FT[d_i(n)] (11)

在公式(11)后，通过公式(12)对计算出的D_i(k)计算谱线能量：

E_i(k)＝[D_i(k)]² (12)

将计算出的谱线能量通过目标耳蜗听觉模型，得到Gammatone系数。目标耳蜗听觉模型中使用的Gammatone滤波器可以模拟人耳将接收的语音信号转换为基底膜运动的多通道表示信号。Gammatone滤波器脉冲响应定义如公式(13)所示：

gt(t)＝at^(n-1)exp(-2pbt)cos(2pf_ct+φ) (13)

另外，人耳听觉相对于听觉滤波器的等效矩形带宽(Equivalent RectangularBandwidth，ERB)可以如公式(14)所示：

ERB＝24.7(4.37f_c/1000+1) (14)

这里，公式(13)和公式(14)共同定义了Gammatone滤波器组。

如图8和图9显示了在无噪语音与带噪语音中，使用目标耳蜗听觉模型输出的Gammatone系数，可以看见图8中的80区域和图9中的90区域，在噪声的影响下，Gammatone系数的特性未被改变，依然能够有效反映语音的声学特性。

将Gammatone滤波器的频域响应记为H_m(k)，通过公式(15)计算通过Gammatone滤波器的能量，即将每帧的能量谱E_i(k)与H_m(k)相乘并相加：

把Gammatone滤波器的能量取对数后，通过公式(16)计算离散余弦变换算法(Discrete Cosine Transform，DCT)，得到了GFCC特征：

以及，在执行步骤230之前，该方法还可以包括：

接上述步骤220中的示例，结合下述例子对确定基音频率特征的过程进行详细说明：

由于，步骤230针对有话段进行检测，将经过端点检测预处理模块的信号只保留有语音信号，记为d(n)，第i帧的语音信号记为d_i(n)。按照公式(17)所示对d_i(n)做傅里叶变换：

D_i(k)＝FT[d_i(n)] (17)

再对D_i(k)做傅里叶逆变换：

其中，公式(17)和(18)中的d_i(n)是信号d(n)的倒谱。

若每帧语音音频信号d(n)的基音频率范围为[f_dmin,f_dmax]，f_s是信号的采样频率，可以通过公式(19)计算在倒谱域上f_dmin对应的基音周期(样点值)。

P_max＝f_s/f_dmin (19)

接着通过公式(20)计算f_dmax对应的基音周期(样点值)。

P_min＝f_s/f_dmax (20)

其中，[P_min,P_max]是倒频率，需要在倒频率范围内寻找倒谱函数的最大值。倒谱函数最大值对应的样点数就是第i帧语音信号的基音周期T₀(i)，对应的基音频率可通过公式(21)确定：

F₀(i)＝f_s/T₀(i)(21)

将所有帧数对应的基音频率特征记为TF₀＝{F₀(1),F₀(2),…,F₀(m)}，m是有话段部分的帧数。

图10和图11显示了语音信号提取的基音频率特征，图10中的语音信号未进行有话段提取，但可以看到图11中的基音频率特征信息只存在于有话段部分，可以进一步去除无话段的信号干扰，提高识别性能。

然后，涉及步骤230，具体可以包括：

根据伽玛通频率倒谱信息和每帧语音音频信号的基音频率特征，得到每帧语音音频信号的声学特征信息；

将声学特征信息输入到第一循环神经网络模型中，得到结果信息，结果信息包括识别语音音频中至少一个目标对象对应的音频；其中，

基于此，接上述步骤210中的示例，结合下面示例对步骤230进行详细说明：

首先，确定伽玛通频率倒谱信息中的一阶差分GFCC与二阶差分GFCC，具体可以包括：

gfcc(i)表示信号的d(n)中第i帧中提取出的GFCC系数，将所有有话段帧的GFCC特征组合记为GFCC＝{gfcc(1),gfcc(2),…,gfcc(m)}。

从上述过程中可以看到，GFCC特征包含了每帧语音音频信号中的信息，没有融入帧与帧之间的关联信息，可能在一些带有噪声或其他干扰的说话人语音识别的场景中并不适用，由此，本发明实施例中还提供了另一种方式，即对GFCC特征计算一阶差分与二阶差分，引入帧与帧之间的关系。一阶差分包含的为相邻两帧之间的联系，二阶差分包含的为相邻三帧之间的联系，以适应不同说话人语音识别的场景。

基于此，可以通过公式(22)对GFCC特征计算一阶差分GFCC特征1gfcc(i)。

gfcc(i)＝gfcc(i+1)-gf(i) (22)

然后计算二阶差分GFCC特征2gfcc(i)。

2gfcc(i)＝1gfcc(i+1)-1gfcc(i)

＝gfcc(i+2)-2gfcc(i+1)+gfcc(i) (23)

其中，将各帧的一阶差分1GFCC组合，得到1GFCC＝{1gfcc(1)，1gfcc(2)，……，1gfcc(m)}；二阶差分2GFCC组合，得到2GFCC＝{2gfcc(1)，2gfcc(2)，……，2gfcc(m)}。

基于此，将有话段语音每一帧计算得出的基音频率特征、GFCC特征、一阶差分GFCC和二阶差分GFCC组合，得到组合声学特征feature＝{TF₀，GFCC，1GFCC，2GFCC}，每一帧的声学特征记为fe_i＝{F₀(i)，gfcc(i)，1gfcc(i)，2gfcc(i)}。

由此，本发明实施例中提取的语音特征中部分，使用了目标耳蜗听觉模型，利用目标耳蜗听觉模型使用的Gammatone滤波器，生成GFCC特征，并计算一阶差分GFCC和二阶差分GFCC，引入帧与帧之间的动态信息。本申请同时选择语音基音频率特征一起组合，将原始语音中的辨义信息进行保留。

另外，上述涉及的第一循环神经网络模型或者第二循环神经网络模型包括长短期记忆循环网络即LSTM循环网络。基于此，第一循环神经网络模型(或者第二循环神经网络模型)可以通过下述方式进行训练，具体如下所示：

在确定别语音音频中至少一个目标对象对应的音频的过程中，可以使用LSTM循环网络识别。这里，LSTM循环网络是专门用于处理序列的神经网络，因此，对语音这一类信号识别更为有效，LSTM循环网络“细胞”框图如图12所示。将第一音频分为训练集和测试集，训练集用于训练网络优化模型参数，测试集用于说话人识别方法性能测试。

在LSTM循环网络中，除了具有外部的RNN循环外，还具有内部的“LSTM细胞”循环，细胞彼此间循环连接，代替一般循环网络中普通隐藏单元。每个单元有相同的输入输出，但与普通循环网络细胞相比有更多的参数和控制信息流动的门控单元系统。最重要的组成部分是状态单元

其具有线性自环，自环的权重(或相关联的时间常数)由遗忘门(ForgetGate)f_i ^(t)，由sigmoid单元将权重设置为0和1之间的值，可以通过公式(24)将训练集语音融合好的组合声学特征Fe^(t)作为当前细胞的输入向量：

其中，h^(t)是当前隐藏层向量，包含所有LSTM细胞的输出。b^f、U^f、W^f分别是偏置、输入权重和遗忘门的循环权重。LSTM细胞内部状态可以通过公式(25)-公式(28)如下方式更新：

外部输入门(External Input Gate)单元

以类似遗忘门的方式更新，其自身的更新方式可通过下述公式(26)实现：

LSTM细胞的输出

也可以由输出门(Output Gate)

关闭(使用sigmoid单元作为门控)：

将训练集提取的组合声学特征输入LSTM循环网络，直到网络模型参数不再更新，表明模型已训练完毕。

基于此，在一种可能的情况下，模型还需进行训练，其中，可以依照特征提取与特征融合模块步骤将测试集语音组合特征提取出，输入训练好的模型中进行识别，输出识别结果。若识别率不理想，可增加训练集语音数量即第二样本，重复模型生成步骤进行模型参数优化。

这样，具体可以执行如下步骤：

在检测到结果信息不满足第一预设条件的情况下，基于结果信息、第一样本集和第二样本集对第一循环神经网络模型进行训练，直至满足第二预设条件，得到训练后的第二循环神经网络模型，第二循环神经网络模型用于识别语音音频中至少一个目标对象对应的音频；

由此，在模型生成与说话人识别部分，针对语音时序中包含的信息，选择了适合语音信号处理的LSTM作为检测分类器，适合处理像语音信号这类序列数据，保留了较长持续时间内的积累信息，让普通RNN遗忘的旧状态利用起来，并且积累的时间尺度可以动态的改变，提升识别方法的检测精度与效率，适合实际应用场景下的说话人识别。

综上，与目前的语音识别技术相比有更强的抗噪性能，适合实际应用中语音往往含有噪声的使用情境。本发明实施例在预处理部分使用降噪以及端点检测方法对语音中的有话段和无话段进行了判别，通过基于耳蜗听觉模型提取Gammatone频率倒谱系数GFCC特征，并与基音频率特征一起组合，得到的语音特征包含的信息丰富。在模型生成与说话人识别部分，针对语音时序中包含的信息，选择了适合语音信号处理的长短期记忆模型LSTM作为识别模型，适合实际应用场景下的说话人识别。

基于上述音频识别方法，本发明实施例还提供了一种音频识别装置，具体结合图13进行说明。

图13为本发明实施例提供的一种音频识别装置结构示意图。

如图13所示，该音频识别装置130应用于计算设备，计算设备可以为终端设备和/或服务器。其中，该音频识别装置130具体可以包括：

获取模块1301，用于获取第一音频中的语音音频，语音音频包括多帧语音音频信号；

处理模块1302，用于基于语音音频和目标耳蜗听觉模型，确定与多帧语音音频信号相关的伽玛通频率倒谱信息；其中，伽玛通频率倒谱信息包括多帧语音音频信号中相邻的至少两帧语音音频信号的关联伽玛通频率倒谱信息和多帧语音音频信号中每帧语音音频信号的伽玛通频率倒谱信息；

识别模块1303，用于根据伽玛通频率倒谱信息和每帧语音音频信号的基音频率特征，识别语音音频中至少一个目标对象对应的音频。

由此，本发明实施例使用谱减法除噪，减弱了噪声对语音识别的干扰。谱减法利用加性噪声与语音不相关的特点，在假设噪声是统计平稳的前提下，用无语音间隙测算到的噪声频谱估计值取代有语音期间噪声的频谱，与含噪语音频谱相减，从而获得语音频谱的估计值。谱减法的算法简单、运算量小，便于实际的应用场景。对语音进行降噪之后，使用基于对数倒谱距离的端点检测方法对语音中的有话段和无话段进行了判别，并提取其中的有话段进行后续特征提取与识别。由于去除了无话段(噪声段)的信号进行后续训练与检测，减小了需要处理的计算量，提高了检测效率。

在一种可能的实施例中，获取模块1301具体可以用于，对第一音频进行分帧处理，得到第二音频；

利用谱减法对第二音频进行降噪，得到降噪后的第三音频；

将包含有话的音频片段确定为语音音频。

在另一种可能的实施例中，获取模块1301具体可以用于，按照预设帧移长度，划分第一音频中每帧音频信号对应的帧长，得到具有重叠区域的音频信号；

将具有重叠区域的音频信号对应的音频确定为第二音频。

或者，根据第二音频中每个音频信号对应的相角值和谱减后幅值，对第二音频进行降噪，得到降噪后的第三音频；其中，

或者，根据第三音频中每帧音频信号与第二预设噪声帧的对数频谱距离，将对数频谱距离小于或者等于预设阈值的第一音频信号确定为目标噪声帧；

在又一种可能的实施例中，本处理模块1302具体可以用于，获取语音音频中每帧语音音频信号的谱线能量；

在另一种可能的实施例中，本发明实施例中的音频处理模块130还包括，提取模块1304，用于根据每帧语音音频信号的采样频率和基音周期，得到每帧语音音频信号的基音频率特征。

在又一种可能的实施例中，识别模块1303具体可以用于，

在再一种可能的实施例中，本发明实施例中的音频处理模块130还包括，训练模块1305，用于在检测到结果信息不满足第一预设条件的情况下，基于结果信息、第一样本集和第二样本集对第一循环神经网络模型进行训练，直至满足第二预设条件，得到训练后的第二循环神经网络模型，第二循环神经网络模型用于识别语音音频中至少一个目标对象对应的音频；

本发明实施例中的第一循环神经网络模型或者第二循环神经网络模型包括长短期记忆循环网络。

由此，本发明实施例可以在提取语音音频部分，使用耳蜗听觉模型，利用耳蜗听觉模型使用的伽马通(Gammatone)滤波器，生成GFCC特征，并加入了一阶差分GFCC和二阶差分GFCC，引入帧与帧之间的动态信息。耳蜗听觉模型模拟了人耳将语音信号转换为基底膜运动的多通道表示信号，和将基底膜运动的多通道表示信号转换为到达耳蜗核的神经活动模式的多通道表示信号的过程，还原了人耳在感知方面的相互作用。因此使用耳蜗听觉模型生成的GFCC特征具有较好的抗噪性能。本发明实施例还可以将基音频率特征和伽玛通频率倒谱信息一起组合，将原始语音中的辨义信息进行保留，提取的语音音频包含的语音信息更加丰富。

本发明实施例的在确定循环神经网络模型和识别语音音频中至少一个目标对象的部分，可以根据语音时序中包含的信息，选择长短期记忆网络(Long Short-TermMemory，LSTM)作为检测分类器，LSTM保留了较长持续时间内的积累信息，并且积累的时间尺度可以动态的改变，适合实际应用场景下的说话人识别。

如图14所示，该计算设备1400包括但不限于：射频单元1401、网络模块1402、音频输出单元1403、输入单元1404、传感器1405、显示单元1406、用户输入单元1407、接口单元1408、存储器1409、处理器1410、以及电源1411等部件。本领域技术人员可以理解，图14中示出的计算设备结构并不构成对计算设备的限定，计算设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本发明实施例中，计算设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

应理解的是，本发明实施例中，射频单元1401可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行资源接收后，给处理器1410处理；另外，将上行的资源发送给基站。通常，射频单元1401包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元1401还可以通过无线通信系统与网络和其他设备通信。

计算设备通过网络模块1402为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元1403可以将射频单元1401或网络模块1402接收的或者在存储器1409中存储的音频资源转换成音频信号并且输出为声音。而且，音频输出单元1403还可以提供与计算设备1400执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元1403包括扬声器、蜂鸣器以及受话器等。

输入单元1404用于接收音频或视频信号。输入单元1404可以包括图形处理器(Graphics Processing Unit，GPU)14041和麦克风14042，图形处理器14041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像资源进行处理。处理后的图像帧可以显示在显示单元1407上。经图形处理器14041处理后的图像帧可以存储在存储器1409(或其它存储介质)中或者经由射频单元1401或网络模块1402进行发送。麦克风14042可以接收声音，并且能够将这样的声音处理为音频资源。处理后的音频资源可以在电话通话模式的情况下转换为可经由射频单元1401发送到移动通信基站的格式输出。

计算设备1400还包括至少一种传感器1405，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板14061的亮度，接近传感器可在计算设备1400移动到耳边时，关闭显示面板14061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别计算设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器1405还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元1406用于显示由用户输入的信息或提供给用户的信息。显示单元1406可包括显示面板14061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板14061。

用户输入单元1407可用于接收输入的数字或字符信息，以及产生与计算设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元1407包括触控面板14071以及其他输入设备14072。触控面板14071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板14071上或在触控面板14071附近的操作)。触控面板14071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1410，接收处理器1410发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板14071。除了触控面板14071，用户输入单元1407还可以包括其他输入设备14072。具体地，其他输入设备14072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板14071可覆盖在显示面板14061上，当触控面板14071检测到在其上或附近的触摸操作后，传送给处理器1410以确定触摸事件的类型，随后处理器1410根据触摸事件的类型在显示面板14061上提供相应的视觉输出。虽然在图14中，触控面板14071与显示面板14061是作为两个独立的部件来实现计算设备的输入和输出功能，但是在某些实施例中，可以将触控面板14071与显示面板14061集成而实现计算设备的输入和输出功能，具体此处不做限定。

接口单元1408为外部装置与计算设备1400连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线资源端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元1408可以用于接收来自外部装置的输入(例如，资源信息、电力等等)并且将接收到的输入传输到计算设备1400内的一个或多个元件或者可以用于在计算设备1400和外部装置之间传输资源。

存储器1409可用于存储软件程序以及各种资源。存储器1409可主要包括存储程序区和存储资源区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储资源区可存储根据手机的使用所创建的资源(比如音频资源、电话本等)等。此外，存储器1409可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器1410是计算设备的控制中心，利用各种接口和线路连接整个计算设备的各个部分，通过运行或执行存储在存储器1409内的软件程序和/或模块，以及调用存储在存储器1409内的资源，执行计算设备的各种功能和处理资源，从而对计算设备进行整体监控。处理器1410可包括一个或多个处理单元；优选的，处理器1410可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1410中。

计算设备1400还可以包括给各个部件供电的电源1411(比如电池)，优选的，电源1411可以通过电源管理系统与处理器1410逻辑连接，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外，计算设备1400包括一些未示出的功能模块，在此不再赘述。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，当计算机程序在计算机中执行时，令计算机执行本发明实施例的音频识别方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台计算设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种音频识别方法，其特征在于，所述方法包括：

获取第一音频中的语音音频，所述语音音频包括多帧语音音频信号；

基于所述语音音频和目标耳蜗听觉模型，确定与所述多帧语音音频信号相关的伽玛通频率倒谱信息；其中，所述伽玛通频率倒谱信息包括所述多帧语音音频信号中相邻的至少两帧语音音频信号的关联伽玛通频率倒谱信息和所述多帧语音音频信号中每帧语音音频信号的伽玛通频率倒谱信息；

根据所述伽玛通频率倒谱信息和所述每帧语音音频信号的基音频率特征，识别所述语音音频中至少一个目标对象对应的音频。

2.根据权利要求1所述的方法，其特征在于，所述获取第一音频中的语音音频，包括：

对所述第一音频进行分帧处理，得到第二音频；

利用谱减法对所述第二音频进行降噪，得到降噪后的第三音频；

基于对数频谱距离的端点检测，提取所述第三音频中包含有话的音频片段；

将所述包含有话的音频片段确定为所述语音音频。

3.根据权利要求2所述的方法，其特征在于，所述对所述第一音频进行分帧处理，得到第二音频，包括：

按照预设帧移长度，划分所述第一音频中每帧音频信号对应的帧长，得到具有重叠区域的音频信号；

将所述具有重叠区域的音频信号对应的音频确定为所述第二音频。

4.根据权利要求3所述的方法，其特征在于，所述利用谱减法对所述第二音频进行降噪，得到降噪后的第三音频，包括：

根据所述第二音频中每个音频信号对应的相角值和谱减后幅值，对所述第二音频进行降噪，得到降噪后的第三音频；其中，

所述谱减后幅值由所述第二音频中每个音频信号的幅值和第一预设噪声帧的平均能量确定。

5.根据权利要求4所述的方法，其特征在于，所述基于对数频谱距离的端点检测，提取所述第三音频中包含有话的音频片段，包括：

根据所述第三音频中每帧音频信号与第二预设噪声帧的对数频谱距离，将所述对数频谱距离小于或者等于预设阈值的第一音频信号确定为目标噪声帧；

提取所述第三音频中除了所述目标噪声帧之外的第一音频帧，并确定与所述第一音频帧对应的音频片段；其中，

所述对数频谱距离由所述第三音频中每帧音频信号的对数频谱和所述第二预设噪声帧的对数频谱确定。

6.根据权利要求1所述的方法，其特征在于，所述基于所述语音音频和目标耳蜗听觉模型，确定与所述多帧语音音频信号相关的伽玛通频率倒谱信息，包括：

获取所述语音音频中每帧语音音频信号的谱线能量；

将所述谱线能量输入到所述目标耳蜗听觉模型中，得到所述每帧语音音频信号的伽玛通频率倒谱信息；

根据所述每帧语音音频信号的伽玛通频率倒谱信息，确定所述每帧语音音频信号与相邻的至少一帧语音音频信号的关联伽玛通频率倒谱信息；其中，

所述关联伽玛通频率倒谱信息包括所述每帧语音音频信号的伽玛通频率倒谱信息相关的一阶差分伽玛通频率倒谱信息和二阶差分伽玛通频率倒谱信息。

7.根据权利要求1或6所述的方法，其特征在于，在所述识别所述语音音频中至少一个目标对象对应的音频之前，所述方法还包括：

根据所述每帧语音音频信号的采样频率和基音周期，得到所述每帧语音音频信号的基音频率特征。

8.根据权利要求6所述的方法，其特征在于，所述根据所述伽玛通频率倒谱信息和所述每帧语音音频信号的基音频率特征，识别所述语音音频中至少一个目标对象对应的音频，包括：

根据所述每帧语音音频信号的伽玛通频率倒谱信息、关联伽玛通频率倒谱信息和所述每帧语音音频信号的基音频率特征，得到所述每帧语音音频信号的声学特征信息；

将所述声学特征信息输入到第一循环神经网络模型中，得到结果信息，所述结果信息包括识别所述语音音频中至少一个目标对象对应的音频；其中，

所述第一循环神经网络模型由第一样本集训练，所述第一样本集包括多个样本声学特征信息，所述样本声学特征信息包括多个样本帧语音音频信号中每个样本帧语音音频信号的伽玛通频率倒谱信息和基音频率特征。

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

在检测到所述结果信息不满足第一预设条件的情况下，基于所述结果信息、所述第一样本集和第二样本集对所述第一循环神经网络模型进行训练，直至满足第二预设条件，得到训练后的第二循环神经网络模型，所述第二循环神经网络模型用于识别所述语音音频中至少一个目标对象对应的音频；

其中，所述第二样本集包括区别于所述第一样本中的多个样本声学特征信息。

10.根据权利要求8或9所述的方法，其特征在于，所述第一循环神经网络模型或者所述第二循环神经网络模型包括长短期记忆循环网络。

11.一种音频识别装置，所述装置包括：

获取模块，用于获取第一音频中的语音音频，所述语音音频包括多帧语音音频信号；

处理模块，用于基于所述语音音频和目标耳蜗听觉模型，确定与所述多帧语音音频信号相关的伽玛通频率倒谱信息；其中，所述伽玛通频率倒谱信息包括所述多帧语音音频信号中相邻的至少两帧语音音频信号的关联伽玛通频率倒谱信息和所述多帧语音音频信号中每帧语音音频信号的伽玛通频率倒谱信息；

识别模块，用于根据所述伽玛通频率倒谱信息和所述每帧语音音频信号的基音频率特征，识别所述语音音频中至少一个目标对象对应的音频。

12.一种计算设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1-10所述的音频识别方法。

13.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，若计算机程序在计算机中执行，则令计算机执行如权利要求1-10所述的音频识别方法。