CN112908303A

CN112908303A - 音频信号的处理方法、装置以及电子设备

Info

Publication number: CN112908303A
Application number: CN202110118842.7A
Authority: CN
Inventors: 李泽轩
Original assignee: Guangdong Youbisheng Technology Co ltd
Current assignee: Guangdong Youbisheng Technology Co ltd
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2021-06-04

Abstract

本申请实施例提供一种音频信号的处理方法、装置以及电子设备，所述方法包括：获取输入的音频信号；对所述输入的音频信号进行特征提取，获得第一特征向量；对所述第一特征向量进行矩阵转换，获得第二特征向量；基于所述第一特征向量和所述第二特征向量，获得语谱图。所述方法得到的语谱图中能够将音频信号的上下文信息融合在一起，有利于提高语音识别率，提高人机交互体验。

Description

音频信号的处理方法、装置以及电子设备

技术领域

本申请涉及语音识别技术领域，特别涉及一种音频信号的处理方法、装置以及电子设备。

背景技术

在智能化潮流的背景下，智能语音设备如语音机器人、人机交互设备等，广泛地应用于家居、餐厅、工作、车辆等领域。通常情况下，在人机交互时，用户需要发出唤醒词语音(如唤醒词等)，以唤醒智能语音设备。因此，语音识别是作为人机交互的重要环节之一。特别在餐厅等环境中，环境噪声比较复杂，如何准确地识别出唤醒词语音是提高人机交互体验的问题之一。

现有的语音识别方法是，对采集到的音频信号(或语音信号)进行傅里叶变换等处理，以得到音频信号的频率谱，然后以频率的能量作为频率谱的深度信息，以得到彩色的语谱图，然后对语谱图进行识别，以实现语音识别。现有的语音识别方法得到的语谱图中由于没有将音频信号的上下文信息进行融合，从而导致语音识别的准确度较低，使得人机交互体验感较差。

发明内容

本申请提供了一种音频信号的处理方法、装置以及电子设备，所述方法得到的语谱图中能够将音频信号的上下文信息融合在一起，有利于提高语音识别率，提高人机交互体验。

第一方面，本申请提供了一种音频信号的处理方法，包括：

获取输入的音频信号；

对所述输入的音频信号进行特征提取，获得第一特征向量；

对所述第一特征向量进行矩阵转换，获得第二特征向量；

基于所述第一特征向量和所述第二特征向量，获得语谱图。

其中一种可能的实现方式中，所述输入的音频信号包括多帧音频段，所述对所述输入的音频信号进行特征提取，获得第一特征向量，包括：

分别对每一帧的所述音频段进行特征提取，获得由多个第一特征向量组成的第一特征矩阵；

和/或，所述对所述第一特征向量进行矩阵转换，获得第二特征向量，包括：

将所述第一特征矩阵进行转置，获得由多个第二特征向量组成的第二特征矩阵。

其中一种可能的实现方式中，所述基于所述第一特征向量和所述第二特征向量，获得语谱图，包括：

利用所述第一特征矩阵与所述第二特征矩阵的乘积结果，确定语谱图。

其中一种可能的实现方式中，所述第一特征向量包括梅尔频率倒谱系数、一阶微分系数以及加速系数，所述对所述输入的音频信号进行特征提取，获得第一特征向量，包括：

对所述输入的音频信号进行梅尔频率倒谱系数特征提取，获得多个梅尔频率倒谱系数；

对所述多个梅尔频率倒谱系数进行差分运算，获得多个一阶微分系数以及多个加速系数。

其中一种可能的实现方式中，在所述对所述输入的音频信号进行特征提取，获得第一特征向量之前，所述方法还包括：

对所述输入的音频信号进行预处理，获得预处理后的音频信号，其中，所述预处理包括归一化处理、预加重处理、分帧处理、加窗处理中的一种或多种。

第二方面，本申请提供一种音频信号的处理方法，包括：

输入样本音频信号；

利用如第一方面所述的方法，基于所述输入的样本音频信号，获得到样本语谱图；

利用所述样本语谱图对语音识别模型进行训练。

第三方面，本申请提供一种音频信号的处理方法，包括：

输入待识别音频信号；

利用如第一方面所述的方法，基于所述输入的待识别音频信号，获得到待识别语谱图；

将所述待识别语谱图输入已训练的语音识别模型中进行处理后，获得识别结果。

第四方面，本申请提供一种音频信号的处理装置，所述装置包括：

音频信号获取模块，用于获取输入的音频信号；

特征提取模块，用于对所述输入的音频信号进行特征提取，获得第一特征向量；

矩阵转换模块，用于对所述第一特征向量进行矩阵转换，获得第二特征向量；

语谱图获得模块，用于基于所述第一特征向量和所述第二特征向量，获得语谱图。

第五方面，本申请提供一种音频信号的处理装置，包括：

样本音频信号输入模块，用于输入样本音频信号；

样本语谱图获得模块，用于利用如第一方面所述的方法，基于所述输入的样本音频信号，获得到样本语谱图；

训练模块，用于利用所述样本语谱图对语音识别模型进行训练。

第六方面，本申请提供一种音频信号的处理装置，包括：

待识别音频信号输入模块，用于输入待识别音频信号；

待识别语谱图获得模块，用于利用如第一方面所述的方法，基于所述输入的待识别音频信号，获得到待识别语谱图；

识别模块，用于将所述待识别语谱图输入已训练的语音识别模型中进行处理后，获得识别结果。

第七方面，本申请提供一种电子设备，包括：

一个或多个处理器；存储器；以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述设备执行时，使得所述设备执行如第一方面、第二方面或第三方面的方法。

第八方面，本申请提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如第一方面、第二方面或第三方面所述的方法。

第九方面，本申请提供一种计算机程序，当所述计算机程序被计算机执行时，用于执行第一方面、第二方面或第三方面所述的方法。

在一种可能的设计中，第九方面中的程序可以全部或者部分存储在与处理器封装在一起的存储介质上，也可以部分或者全部存储在不与处理器封装在一起的存储器上。

附图说明

图1为本申请音频信号的处理方法一个实施例的方法示意图；

图2为本申请音频信号的处理方法一个实施例的流程示意图；

图3为本申请音频信号的处理方法中获得语谱图的流程示意图；

图4为本申请音频信号的处理方法中梅尔滤波频率示意图；

图5为本申请音频信号的处理方法另一个实施例的方法示意图；

图6为本申请中一个实施例语音识别模型的训练与预测示意图；

图7为本申请中音频信号的处理方法另一个实施例的方法示意图；

图8为本申请音频信号的处理装置一个实施例的结构示意图；

图9为本申请音频信号的处理装置另一个实施例的结构示意图；

图10为本申请音频信号的处理装置另一个实施例的结构示意图；

图11为本申请电子设备一个实施例的结构示意图。

具体实施方式

本申请的实施方式部分使用的术语仅用于对本申请的具体实施例进行解释，而非旨在限定本申请。

为此，本申请提出一种音频信号的处理方法、装置以及电子设备，所述方法得到的语谱图中能够将音频信号的上下文信息融合在一起，有利于提高语音识别率，提高人机交互体验。

图1为本申请音频信号的处理方法一个实施例的方法示意图，如图1所示，上述音频信号的处理方法可以包括：

S101、获取输入的音频信号。

本实施例中，所述音频信号的处理方法可以应用于智能语音设备如语音机器人或人机交互设备等，以实现人机交互。在图1所示的方法实施例中，所述音频信号的处理方法可以用于从输入的音频信号(或语音信号)中处理得到语谱图，也就是说，所述音频信号的处理方法可以是语谱图的获取方法。不同于现有技术的是，本申请实施例提供的所述方法得到的语谱图中能够将音频信号的上下文信息融合在一起，有利于提高语音识别率，提高人机交互体验。

步骤S101中，所述输入的音频信号可以包括由语音传感器(或声音传感器)采集得到的音频信号或语音信号。所述输入的音频信号可以包括由用户发出的待识别音频信号(或待识别语音信号)，以用于唤醒智能语音设备。所述输入的音频信号可以包括用于对语音识别模型进行训练的样本音频信号(或样本语音信号)，其可以包含唤醒词音频信号或非唤醒词音频信号等。

S102、对所述输入的音频信号进行特征提取，获得第一特征向量。

优选地，所述第一特征向量可以包括多个特征。例如，所述第一特征向量可以包括多个梅尔频率倒谱系数特征(即MFCC特征，Mel-Frequency Cepstral Coefficients)，以及根据所述梅尔频率倒谱系数特征得到的多个一阶微分系数以及多个加速系数等。例如，所述第一特征向量可以包括13个梅尔频率倒谱系数特征(即MFCC特征，Mel-FrequencyCepstral Coefficients)、13个一阶微分系数以及13个加速系数等。

在其他可选的实施例中，所述第一特征向量可以包括多个线性预测倒谱系数特征(即LPCC特征，Linear Predictive Cepstral Coding)，或者其他特征等，在此不受限制。

S103、对所述第一特征向量进行矩阵转换，获得第二特征向量。

优选地，步骤S103中，对所述第一特征向量进行矩阵转置，以得到第二特征向量。也就是说，所述第一特征向量与所述第二特征向量互为转置矩阵。

S104、基于所述第一特征向量和所述第二特征向量，获得语谱图。

优选地，步骤S104中，所述第一特征向量与所述第二特征向量相乘，得到所述语谱图。也就是说，所述第一特征向量与所述第二特征向量进行点乘，得到的乘积之后作为所述语谱图中的像素点的像素值，因此，所述语谱图中的像素点将音频信号的上下文信息融合在一起，有利于提高语音识别率，提高人机交互体验。

其中一种可能的实现方式中，如图2所示，在步骤S102之前，所述方法还包括：

S105、对所述输入的音频信号进行预处理，获得预处理后的音频信号。

需要指出的是，所述预处理可以包括归一化处理、预加重处理、分帧处理、加窗处理中的其中一种或多种。可选地，所述预处理还可以包括去噪处理或端点检测处理等，在此不做限制。

可选地，步骤S105可以包括：

S201、读取所述输入的音频信号；

S202、对所述读取的音频信号进行归一化处理，以得到归一化处理后的音频信号；

S203、对所述归一化处理后的音频信号进行预加重处理，以得到预加重后的音频信号；

S204、对所述预加重后的音频信号进行分帧处理，以得到多帧音频段；

S205、对每一帧所述音频段进行加窗处理，以得到加窗处理后的多帧音频段。

具体地，步骤S101中，所述输入的音频信号可以为音频文件，如以WAV(Wave Form)格式存储的音频文件(如波形声音文件)等。在步骤S201中，可以读取输入的音频信号的文件头(如WAV文件头等)，获取音频信号的位数以及采样率等参数信息，并读取到实际的音频信号(如实际音频数据等)，其中，读取到音频信号中可以包含音频数组以及音频的最大数值等。在步骤S202中，将读取到的音频数组除以音频的最大数值，以得到归一化处理后的音频信号。

在步骤S203中，将归一化处理后的音频信号通过一个高通滤波器，以增强音频信号中的高频部分，并保持在低频到高频的整个频段中，能够使用同样的信噪比求频谱，实现对音频信号的预加重处理。

选取的高通滤波器传递函数为：

y(n)＝x(n)-a*x(n-1)

其中预加重系数为0.97。

在步骤S204中，对音频信号进行分帧处理的过程具体如下。

在给定的音频样本文件(如预加重后的音频信号)中，按照某一个固定的时间长度分割，分割后的每一片样本，称之为一帧，这里需要区分时域波形中的帧，分割后的一帧是分析提取梅尔频率倒谱系数特征的样本，而时域波形中的帧是时域尺度上对音频的采样而取到的样本。

分帧是先将N个采样点集合成一个观测单位，也就是分割后的帧。通常情况下N的取值为512或256，涵盖的时间约为20-30ms。也可以根据特定的需要进行N值和窗口间隔的调整。为了避免相邻两帧的变化过大，会让两相邻帧之间有一段重叠区域，此重叠区域包含了M个取样点，一般M的值约为N的1/2或1/3。

举例地，在语音识别中所采用的信号采样频率一般为8kHz或16kHz。以8kHz来说，若帧长度为256个采样点，则对应的时间长度是256/8000×1000＝32ms。

在本实施例中，在步骤S204中，对预加重后的音频信号按照32ms的时间长度分割，帧移设置为16ms。对于超过2秒的音频信号，只取前两秒部分的音频信号进行分帧处理，对于不足2秒的音频信号，补足到2秒的音频信号再进行分帧处理。对于采样率为16000的2秒的音频信号，分帧处理后可得到124帧音频段。

在步骤S205中，对分帧处理后得到的每帧音频段均进行加窗处理，以增加帧左端与右端的连续性，减少频谱泄露。优选地，加窗处理中的窗口函数为Hamming窗(汉明窗)函数。

假设分帧后的音频信号为S(n),n＝0,1,2…,N-1，其中N为帧的大小，那么加窗处理过程则为：

S’(n)＝S(n)*W(n)

其中，S’(n)为加窗处理后的音频信号，S(n)为音频信号，W(n)为窗口函数。

W(n)满足函数公式：

不同的a值会产生不同的汉明窗，一般情况下a取值0.46。

其中一种可能的实现方式中，在步骤S205之后，所述方法还可以包括：

S206、对加窗处理后的每帧音频段进行傅里叶变换处理，以得到每帧音频段的频谱，并每帧音频段的频谱取模平方得到音频信号的功率谱。

由于音频信号在时域上的变换通常很难看出信号特性，所以通常将音频信号转换为频域上的能量分布来观察，不同的能量分布，代表不同语音的特性。所以在对每帧音频段进行了加窗处理后，还需要再经过步骤S206中快速傅里叶变换处理，以得到每帧音频段的频谱，然后对每帧音频段的频谱取模平方，得到音频信号的功率谱(或频谱)。

其中一种可能的实现方式中，步骤S102，可以包括：

S301、对所述输入的音频信号进行梅尔频率倒谱系数特征提取，获得多个梅尔频率倒谱系数；

S302、对所述多个梅尔频率倒谱系数进行差分运算，获得多个一阶微分系数以及多个加速系数。

优选地，在步骤S301中，可以将上述傅里叶变换处理后得到的音频信号的频谱(如线性频谱)进行梅尔频率倒谱系数特征提取，以获得多个梅尔频率倒谱系数。可以理解的是，所述音频信号中的每帧音频段均可以处理得到第一特征向量，例如，由124帧音频段可以处理得到124个第一特征向量，其中，每个所述第一特征向量可以包括13个梅尔频率倒谱系数、13个一阶微分系数以及13个加速系数等。

进一步地，步骤S301可以包括：

S3011、对所述音频信号的频谱进行梅尔滤波处理，获得梅尔频谱；

S3012、对所述梅尔频谱进行离散余弦变换处理，以获得多个梅尔频率倒谱系数。

步骤S3011中，可以采用Mel滤波器对所述音频信号的频谱进行梅尔滤波处理，将音频信号的频谱(如线性频谱)映射到基于听觉感知的Mel非线性频谱中，以得到梅尔频谱(即Mel频谱)，梅尔频谱可以包括基于听觉感知的Mel非线性频谱。在梅尔领域内，人类对音调的感知度为线性关系。举例来说，如果两段音频信号的Mel频率相差两倍，则人耳听起来两者的音调也相差两倍。Mel滤波器的本质其实是一个尺度规则，通常是将能量通过一组Mel尺度的三角形滤波器组进行处理，如定义有M个滤波器的滤波器组，采用的滤波器可以为三角滤波器，中心频率为f(m),m＝1,2…M，M通常取22-26，如图4所示，f(m)之间的间隔随着m值的减小而缩小，随着m值的增大而增宽。

具体地，从频率转换到Mel频率的转换公式为：

其中f为音频信号的频率，单位赫兹(Hz)。

步骤S3012中，对所述梅尔频谱进行离散余弦变换，即对所述梅尔频谱进行了一个傅里叶变换的逆变换，以得到多个倒谱系数，可采用以下公式进行离散余弦变换处理。

由此可以得到26个倒谱系数，然后，取其中[2:13]个倒谱系数，第1个用能量的对数代替，这13个值即为13个梅尔频率倒谱系数(如MFCC倒谱系数)，因此，每一帧的音频段均可以处理得到13个梅尔频率倒谱系数。

值得一提的是，语音的静态特性可以通过梅尔频率倒谱系数来描述，语音的动态特性可以通过梅尔频率倒谱系数的差分谱来描述。因此，在步骤S302中，对所述多个梅尔频率倒谱系数进行差分运算，获得多个一阶微分系数以及多个加速系数，即所述第一特征向量中可以包含多个梅尔频率倒谱系数、多个一阶微分系数以及多个加速系数，从而将语音的静态特征与动态特征相结合，有利于提高语音识别率。

可选地，步骤S302中，可以采用以下公式对所述多个梅尔频率倒谱系数进行差分运算，

上式中，d(t)表示第t个一阶微分系数，c(t)表示第t个梅尔频率倒谱系数，Q表示梅尔频率倒谱系数的阶数，K表示一阶导数的时间差，可取1或2。将上式的结果再代入即可得到加速系数。

由此，对应于每一帧音频段的所述第一特征向量中均可以包含多个特征参数，如13个梅尔频率倒谱系数、13个一阶微分系数以及13个加速系数等特征参数。

其中一种可能的实现方式中，如图3所示，步骤S102中，可以包括：

S401、分别对每一帧的所述音频段进行特征提取，获得由多个第一特征向量组成的第一特征矩阵。

步骤S103中，可以包括：

S402、将所述第一特征矩阵进行转置，获得由多个第二特征向量组成的第二特征矩阵；

步骤S104中，可以包括：

S403、利用所述第一特征矩阵与所述第二特征矩阵的乘积结果，确定语谱图。

也就是说，所述第一特征矩阵可以表示为多帧语音段*特征向量的矩阵，如124帧语音段*39个特征参数的矩阵等。

举例地，步骤S401中，所述音频信号中可以包含124帧音频段，每一帧音频段对应一个第一特征向量，所述第一特征矩阵由124个第一特征向量组成。每一个所述第一特征向量中可以包括39个特征参数(如13个梅尔频率倒谱系数、13个一阶微分系数以及13个加速系数)，因此，所述第一特征矩阵可以表示为由124*39的特征参数组成的矩阵。

需要指出的是，如图3所示的语谱图的形状为正方形，为了便于对语音识别模型的训练。在其他可选地实施例中，所述语谱图的形状可以为长方形，或其他形状等，在此不受限制。

步骤S402中，将所述第一特征矩阵进行转置，即可得到第二特征矩阵，也就是说，所述第一特征矩阵与所述第二特征矩阵互为转置矩阵。

步骤S403中，由于每一帧音频段对应的第一特征向量均与包括本身的所有特征向量进行点乘，得到的乘积之和作为语谱图中像素点的像素值。优选地，所述第一特征矩阵与所述第二特征矩阵的乘积结果可以直接作为语谱图，因此，所述语谱图为对称矩阵，所述语谱图上每个像素点的像素值都融合了音频信号的上下文信息，因此，有利于提高语音识别率。可选地，所述第一特征矩阵与所述第二特征矩阵的乘积结果可以再进行一些处理(例如噪声处理、校正处理等图像处理)后得到语谱图，以提高识别精度。

其中一种可能的实现方式中，在步骤S105中，所述方法还可以包括：对所述输入的音频信号进行去噪处理，以得到去噪后的音频信号。其中，对所述音频信号进行去噪处理的过程或步骤具体如下。

举例地，由于餐厅环境下，噪声比较集中，音频信号的信噪比较低，其中音频信号的特征信息主要集中在低频部分，而噪声主要集中在高频部分，因此，可以采用小波去噪技术进行分解以去除音频信号中的高频部分的噪声，进行降噪，以提高信噪比。

具体地，首先，综合考虑信号降噪效果所要求的光滑性和相似性，选择Daubechies小波基。其次，对于某种特定的小波基，阶数不同表征信号局部特点的能力也不同。一般情况下，阶数越高表征信号局部特点的能力就越强，但是计算量也会相应变大，当阶数高于5阶时，提高小波基阶数对提高小波基表征音频信号局部特征能力的影响并不大。所以小波基阶数选为5。再次，确定小波变换次数。当音频信号中噪声含量多时，小波变换尺度要大一些，即小波变换次数要多一些，但计算量也会相应变大；当音频信号中噪声含量少时，小波变换尺度可以小一些，即小波变换次数可以少一些，计算量也会相应减少。故选择了比较适中的三层，然后进行小波分解。根据以上选定的小波变换参数进行小波变换，得到各个不同频带的子波，即近似系数和细节系数。最后用软阈值法对各小波系数进行阈值处理，得到处理后的系数矩阵实现对音频信号进行去噪处理。

其中一种可能的实现方式中，在步骤S105中，所述方法还可以包括：对分帧处理后的每帧音频段进行端点检测(如基于谱距离的端点检测等)，以确定每帧音频段的起始点和结束点，其具体过程或原理具体如下。

谱距离法的原理是依据每帧音频信号和噪声信号二者的倒谱距离长度值的差异性来判定的，以倒谱距离作为特征参数设定双门限值来进行判断，因为在餐厅这种复杂噪声环境下，使用能量作为输入特征参数不能有效的进行端点检测，此时使用倒谱距离作为参数，能够提高算法检测的正确性。

具体步骤如下:

a.从音频信号数据集中随机选择一段音频信号，通常音频信号中有效音频信号出现前会有一段噪声帧，那么可以将这一段噪声帧的倒谱系数当做噪声信号的倒谱系数，记为C；

b.计算出各帧信号对应的倒谱值d’_cep，由公式

计算得到，

其中，c’_n表示向量C的倒谱系数，p表示倒谱系数的阶数。

c.得出各帧信号的倒谱距离参数值d’_cep，再经由门限阈值判定的方式来测定音频信号的采样初始点和结束点；

d.因为噪声信号的种类非常多且无规律可循，所以要想得到准确的检测值，向量C必须适应噪声信号的变化，故采用自适应，将上一帧的倒谱向量值定义为C，并公式

C＝αC+(1+α)C_i进行调整

其中，α为时间调整因子；i是上一信号帧的编号，C是本帧信号的倒谱向量。

e.确定出检测的门限阈值，采用动态判定的方式来设定门限阈值T1和T2，由公式

T_i＝d_cep1*k_i计算得到，

其中，d_cep1是噪声信号倒谱估算值，k_i是门限T的系数，为了确保门限阈值T2>T1，则K1＝1,K2＝2。

f.依据得到的每帧信号的dcep来进行检测，如果此帧的倒谱距离值和门限阈值满足dcep>T1，那么把当前位置记为起始点start，然后接着算出各帧信号的倒谱距离值，假如在记录帧起始点start之后，有连续超过两帧的音频信号的dcep都比第二个门限阈值T2大，那可以认定记录帧起始点start是音频信号的开始点，如果不能够满足上述条件，则要接着对剩下的各帧信号进行搜索计算。音频信号的终止点也是依据同样的理论计算得出。在进行端点检测的时候，门限阈值T2>T1，因为T1的值较小，因而它对于信号的变化很敏感，信号的特征参数值很容易就会高于该值，而高于设定的第一个门限阈值不能完全认定该点是信号的采样起始点，它也有可能是瞬时出现的噪声导致的，所以必须要有另一个门限闭值T2，由于门限阈值T1的值较大，要高于它，信号的能量参数必须要达到一定的强度值，因此当连续超过两帧信号的dcep高于该门限时，则可以认为该点就是音频信号的采样起始点。

可以理解的是，上述实施例中的部分或全部步骤骤或操作仅是示例，本申请实施例还可以执行其它操作或者各种操作的变形。此外，各个步骤可以按照上述实施例呈现的不同的顺序来执行，并且有可能并非要执行上述实施例中的全部操作。

如图5所示为本申请音频信号的处理方法另一个实施例的方法示意图。如图5所示，所述音频信号的处理方法可以包括：

S501、输入样本音频信号；

S502、基于所述输入的样本音频信号，获得到样本语谱图；

S503、利用所述样本语谱图对语音识别模型进行训练。

可以理解的是，图5所示方法实施例的音频信号的处理方法可以用于对语音识别模型进行训练，以得到训练后的语音识别模型，也就是说，图5所示方法实施例的音频信号的处理方法可以是语音识别模型的训练方法。

优选地，步骤S502中，利用如图1所示方法实施例提供的所述音频信号的处理方法(即语谱图的获取方法)，对所述输入的样本音频信号进行处理，获得到样本语谱图，具体步骤和/或原理可以参考如图1所示方法实施例提供的所述音频信号的处理方法，在此不再赘述。

在本实施例中，图6为本申请语音识别模型的训练与预测示意图，所述语音识别模型优选为卷积神经网络模型，如resnet网络模型等。

具体地，所述样本语谱图可以采用上述图1所示方法实施例中的步骤或原理对一个或多个样本音频信号进行处理得到。例如，可以采集多个样本音频信号，并按预设比例划分为唤醒词音频信号(正样本)和非唤醒词语音样本(负样本)，以制成训练样本，以分别得到唤醒词样本语谱图以及非唤醒词样本语谱图。优选地，唤醒词样本语谱图以及非唤醒词样本语谱图按照8：1：1的比例划分为训练集、验证集和测试集，训练集被输入至语音识别模型中进行训练，每个训练轮次后都用验证集对语音识别模型进行评价，以得到评价结果最优的语音识别模型，在训练完毕后，利用评价结果最优的语音识别模型对测试集进行分类，以得到识别准确率。

如图7所示为本申请音频信号的处理方法另一个实施例的方法示意图。如图7所示，所述音频信号的处理方法可以包括：

S601、输入待识别音频信号；

S602、基于所述输入的待识别音频信号，获得到待识别语谱图；

S603、将所述待识别语谱图输入已训练的语音识别模型中进行处理后，获得识别结果。

步骤S601中，待识别音频信号可以包括由用户发出的待识别语音。

可以理解的是，图7所示方法实施例的音频信号的处理方法可以用于识别用户发出的待识别音频信号，也就是说，图7所示方法实施例的音频信号的处理方法可以是语音识别方法。

优选地，步骤S602中，利用如图1所示方法实施例提供的所述音频信号的处理方法(即语谱图的获取方法)，对所述输入的待识别音频信号进行处理，获得到待识别语谱图，具体步骤和/或原理可以参考如图1所示方法实施例提供的所述音频信号的处理方法，在此不再赘述。

优选地，步骤S603中，所述语音识别模型可以由如图5所示方法实施例提供的所述音频信号的处理方法(即语音识别模型的训练方法)训练得到，具体步骤和或/原理可以参考如图5所示方法实施例提供的所述音频信号的处理方法，在此不再赘述。

具体地，步骤S603中，所述识别结果可以包括第一分类类别和第二分类类别，例如，第一分类类别为唤醒词，第二分类类别为非唤醒词。将所述待识别语谱图输入所述语音识别模型中，输出相应的识别结果(如第一分类类别或第二分类类别)。

在识别结果为唤醒词的情况下，所述方法还可以包括，对智能语音设备进行唤醒，以唤醒语音设备。在识别结果为非唤醒词的情况下，则不唤醒智能语音设备，可以通过语音、画面等提示用户重新发出音频信号等。

如图8所示，本申请提供一种音频信号的处理装置100，所述装置100包括：

音频信号获取模块110，用于获取输入的音频信号；

特征提取模块120，用于对所述输入的音频信号进行特征提取，获得第一特征向量；

矩阵转换模块130，用于对所述第一特征向量进行矩阵转换，获得第二特征向量；

语谱图获得模块140，用于基于所述第一特征向量和所述第二特征向量，获得语谱图。

其中一种可能的实现方式中，所述输入的音频信号包括多帧音频段，所述特征提取特征120包括：

所述矩阵转换模块130，包括：

将所述第一特征矩阵进行转置，获得由多个第二特征向量组成的第二特征矩阵；

所述语谱图获得模块140，包括：

将所述第一特征矩阵与所述第二特征矩阵相乘，获得语谱图。

其中一种可能的实现方式中，所述第一特征向量包括梅尔频率倒谱系数、一阶微分系数以及加速系数，所述特征提取模块120，包括：

其中一种可能的实现方式中，所述装置100还包括：

预处理模块150，用于对所述输入的音频信号进行预处理，获得预处理后的音频信号，其中，所述预处理包括归一化处理、预加重处理、分帧处理、加窗处理中的一种或多种。

图8所示实施例提供的音频信号的处理装置100可用于执行本申请图1所示方法实施例的技术方案，其实现原理和技术效果可以进一步参考方法实施例中的相关描述。

如图9所示，本申请还提供了一种音频信号的处理装置200，所述装置200可以包括：

样本音频信号输入模块210，用于输入样本音频信号；

样本语谱图获得模块220，用于利用如图1所示方法实施例提供的所述方法，基于所述输入的样本音频信号，获得到样本语谱图；

训练模块230，用于利用所述样本语谱图对语音识别模型进行训练。

图9所示实施例提供的音频信号的处理装置200可用于执行本申请图5所示方法实施例的技术方案，其实现原理和技术效果可以进一步参考方法实施例中的相关描述。

如图10所示，本申请还提供了一种音频信号的处理装置，所述装置300可以包括：

待识别音频信号输入模块310，用于输入待识别音频信号；

待识别语谱图获得模块320，用于利用如图1所示方法实施例提供的所述方法，基于所述输入的待识别音频信号，获得到待识别语谱图；

识别模块330，用于将所述待识别语谱图输入已训练的语音识别模型中进行处理后，获得识别结果。

所述语音识别模型可以由如图5所示方法实施例提供的所述方法训练得到，在此不再赘述。

图10所示实施例提供的音频信号的处理装置300可用于执行本申请图7所示方法实施例的技术方案，其实现原理和技术效果可以进一步参考方法实施例中的相关描述。

应理解以上图所示的音频信号的处理装置100、音频信号的处理装置200以及音频信号的处理装置300的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块以软件通过处理元件调用的形式实现，部分模块通过硬件的形式实现。例如，特征提取模块可以为单独设立的处理元件，也可以集成在电子设备的某一个芯片中实现。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit；以下简称：ASIC)，或，一个或多个微处理器(Digital Singnal Processor；以下简称：DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array；以下简称：FPGA)等。再如，这些模块可以集成在一起，以片上系统(System-On-a-Chip；以下简称：SOC)的形式实现。

图11为本申请电子设备一个实施例的结构示意图，如图11所示，上述设备可以包括：

一个或多个处理器；存储器；以及一个或多个计算机程序；

其中上述一个或多个计算机程序被存储在上述存储器中，上述一个或多个计算机程序包括指令，当上述指令被上述设备执行时，使得上述设备执行以下步骤：

获取输入的音频信号；

对所述输入的音频信号进行特征提取，获得第一特征向量；

对所述第一特征向量进行矩阵转换，获得第二特征向量；

基于所述第一特征向量和所述第二特征向量，获得语谱图。

其中一种可能的实现方式中，所述输入的音频信号包括多帧音频段，当上述指令被上述设备执行时，使得上述设备执行所述对所述输入的音频信号进行特征提取，获得第一特征向量，包括：

所述对所述第一特征向量进行矩阵转换，获得第二特征向量，包括：

所述基于所述第一特征向量和所述第二特征向量，获得语谱图，包括：

其中一种可能的实现方式中，所述第一特征向量包括梅尔频率倒谱系数、一阶微分系数以及加速系数，当上述指令被上述设备执行时，使得上述设备执行所述对所述输入的音频信号进行特征提取，获得第一特征向量，包括：

其中一种可能的实现方式中，当上述指令被上述设备执行时，使得上述设备执行在所述对所述输入的音频信号进行特征提取，获得第一特征向量之前，所述设备还执行：

其中一种可能的实现方式中，当上述指令被上述设备执行时，使得上述设备执行步骤：

输入样本音频信号；

利用如图1所示方法实施例提供的音频信号的处理方法，基于所述输入的样本音频信号，获得到样本语谱图；

利用所述样本语谱图对语音识别模型进行训练。

输入待识别音频信号；

利用如图1所示方法实施例提供的音频信号的处理方法，基于所述输入的待识别音频信号，获得到待识别语谱图；

图11所示的电子设备可以是智能语音设备也可以是内置于上述电子设备的电路设备。该设备可以用于执行本申请图1所示实施例提供的方法中的功能/步骤。或者，所述设备可以用于执行本申请图5所示实施例提供的方法中的功能/步骤。或者，所述设备可以用于执行本申请图7所示实施例提供的方法中的功能/步骤。

如图11所示，电子设备900包括处理器910和存储器920。其中，处理器910和存储器920之间可以通过内部连接通路互相通信，传递控制和/或数据信号，该存储器920用于存储计算机程序，该处理器910用于从该存储器920中调用并运行该计算机程序。

上述存储器920可以是只读存储器(read-only memory，ROM)、可存储静态信息和指令的其它类型的静态存储设备、随机存取存储器(random access memory，RAM)或可存储信息和指令的其它类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)、只读光盘(compactdisc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其它磁存储设备，或者还可以是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其它介质等。

上述处理器910可以和存储器920可以合成一个处理装置，更常见的是彼此独立的部件，处理器910用于执行存储器920中存储的程序代码来实现上述功能。具体实现时，该存储器920也可以集成在处理器910中，或者，独立于处理器910。

应理解，图11所示的电子设备900能够实现本申请图1、图5或图7所示实施例提供的方法的各个过程。电子设备900中的各个模块的操作和/或功能，分别为了实现上述方法实施例中的相应流程。具体可参见本申请图1、图5或图7所示方法实施例中的描述，为避免重复，此处适当省略详细描述。

应理解，图11所示的电子设备900中的处理器910可以是片上系统SOC，该处理器910中可以包括中央处理器(Central Processing Unit；以下简称：CPU)，还可以进一步包括其他类型的处理器，例如：图像处理器(Graphics Processing Unit；以下简称：GPU)等。

总之，处理器910内部的各部分处理器或处理单元可以共同配合实现之前的方法流程，且各部分处理器或处理单元相应的软件程序可存储在存储器920中。

本申请还提供一种电子设备，所述设备包括存储介质和中央处理器，所述存储介质可以是非易失性存储介质，所述存储介质中存储有计算机可执行程序，所述中央处理器与所述非易失性存储介质连接，并执行所述计算机可执行程序以实现本申请图1、图5或图7所示实施例提供的方法。

以上各实施例中，涉及的处理器可以例如包括CPU、DSP、微控制器或数字信号处理器，还可包括GPU、嵌入式神经网络处理器(Neural-network Process Units；以下简称：NPU)和图像信号处理器(Image Signal Processing；以下简称：ISP)，该处理器还可包括必要的硬件加速器或逻辑处理硬件电路，如ASIC，或一个或多个用于控制本申请技术方案程序执行的集成电路等。此外，处理器可以具有操作一个或多个软件程序的功能，软件程序可以存储在存储介质中。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行本申请图1、图5或图7所示实施例提供的方法。

本申请实施例还提供一种计算机程序产品，该计算机程序产品包括计算机程序，当其在计算机上运行时，使得计算机执行本申请图1、图5或图7所示实施例提供的方法。

本申请实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达，是指的这些项中的任意组合，包括单项或复数项的任意组合。例如，a，b和c中的至少一项可以表示：a，b，c，a和b，a和c，b和c或a和b和c，其中a，b，c可以是单个，也可以是多个。

本领域普通技术人员可以意识到，本文中公开的实施例中描述的各单元及算法步骤，能够以电子硬件、计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，任一功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory；以下简称：ROM)、随机存取存储器(Random Access Memory；以下简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种音频信号的处理方法，其特征在于，所述方法包括：

获取输入的音频信号；

对所述输入的音频信号进行特征提取，获得第一特征向量；

对所述第一特征向量进行矩阵转换，获得第二特征向量；

基于所述第一特征向量和所述第二特征向量，获得语谱图。

2.根据权利要求1所述的方法，其特征在于，所述输入的音频信号包括多帧音频段，所述对所述输入的音频信号进行特征提取，获得第一特征向量，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述第一特征向量和所述第二特征向量，获得语谱图，包括：

4.根据权利要求1所述的方法，其特征在于，所述第一特征向量包括梅尔频率倒谱系数、一阶微分系数以及加速系数，所述对所述输入的音频信号进行特征提取，获得第一特征向量，包括：

5.根据权利要求1至3任一项所述的方法，其特征在于，在所述对所述输入的音频信号进行特征提取，获得第一特征向量之前，所述方法还包括：

6.一种音频信号的处理方法，其特征在于，包括：

输入样本音频信号；

利用如权利要求1至5任一项所述的方法，基于所述输入的样本音频信号，获得到样本语谱图；

利用所述样本语谱图对语音识别模型进行训练。

7.一种音频信号的处理方法，其特征在于，包括：

输入待识别音频信号；

利用如权利要求1至5任一项所述的方法，基于所述输入的待识别音频信号，获得到待识别语谱图；

8.一种音频信号的处理装置，其特征在于，所述装置包括：

音频信号获取模块，用于获取输入的音频信号；

9.一种音频信号的处理装置，其特征在于，包括：

样本音频信号输入模块，用于输入样本音频信号；

样本语谱图获得模块，用于利用如权利要求1至5任一项所述的方法，基于所述输入的样本音频信号，获得到样本语谱图；

10.一种音频信号的处理装置，其特征在于，包括：

待识别音频信号输入模块，用于输入待识别音频信号；

待识别语谱图获得模块，用于利用如权利要求1至5任一项所述的方法，基于所述输入的待识别音频信号，获得到待识别语谱图；

11.一种电子设备，其特征在于，包括：

一个或多个处理器；存储器；以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述设备执行时，使得所述设备执行如权利要求1至7任一项所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如权利要求1至7任一项所述的方法。