CN107689223A

CN107689223A - 一种音频识别方法及装置

Info

Publication number: CN107689223A
Application number: CN201710765506.5A
Authority: CN
Inventors: 黄锐; 张楠赓
Original assignee: Canaan Creative Co Ltd
Current assignee: Canaan Bright Sight Co Ltd
Priority date: 2017-08-30
Filing date: 2017-08-30
Publication date: 2018-02-13

Abstract

本发明公开了一种音频识别方法及装置，用以在噪声干扰或存在多个声源时依然获得很好的实时音频跟踪与处理能力，提高音频识别的准确度。所述方法包括：在接收到多路音频信号后，从所述多路音频信号中选取N路音频信号；获取所述N路音频信号对应的N张卷积特征图；获取所述N路音频信号对应的N个梅尔频率倒谱系数特征；根据获取的所述N张卷积特征图与所述N个梅尔频率倒谱系数特征计算出音频分类与识别结果。采用本发明所提供的方案，能够同时收集多路音频，实现多个声源音频的实时定向、实时跟踪以及实时识别，从而，在噪声干扰或存在多个声源时依然获得很好的实时音频跟踪与处理能力，提高音频识别的准确度。

Description

一种音频识别方法及装置

技术领域

本发明涉及互联网技术领域，特别涉及一种音频识别方法及装置。

背景技术

利用一些设备实现未知音频的识别，成为一种新的应用趋势。音频识别技术能够应用于听歌识曲、声音文字转换、在线翻译等各种场景下，为人们的工作生活提供了便利。

在现有技术中，通过一声音采集设备采集周围的音频信息，并对音频信息进行处理，从而得到音频的最终识别结果，但是，由于采集音频时，要采集的目标声源的位置和数量是不可控的，因此，采集过程中不可避免的要受到噪声的影响，从而降低了音频识别的准确度；其次，当存在多个声源时，现有的音频识别方案的识别效果也不理想，因此，如何提出一种音频识别方法，用以在噪声干扰或存在多个声源时依然获得很好的实时音频跟踪与处理能力，提高音频识别的准确度，是一亟待解决的技术问题。

发明内容

本发明提供一种音频识别方法及装置，用以在噪声干扰或存在多个声源时依然获得很好的实时音频跟踪与处理能力，提高音频识别的准确度。

本发明提供一种音频识别方法，包括：

在接收到多路音频信号后，从所述多路音频信号中选取N路音频信号；

获取所述N路音频信号对应的N张卷积特征图；

获取所述N路音频信号对应的N个梅尔频率倒谱系数特征；

根据获取的所述N张卷积特征图与所述N个梅尔频率倒谱系数特征计算出音频分类与识别结果。

本发明的有益效果在于：能够同时收集多路音频，实现多个声源音频的实时定向、实时跟踪以及实时识别，从而，在噪声干扰或存在多个声源时依然获得很好的实时音频跟踪与处理能力，提高音频识别的准确度。

在一个实施例中，所述获取所述N路音频信号对应的N张卷积特征图，包括：

对所述N路音频信号进行多倍增益；

计算所述多倍增益后的N路音频信号的频谱；

根据所述频谱获取所述N路音频信号对应的N张语谱图；

根据所述N张语谱图获取所述N路音频信号对应的N张卷积特征图。

在一个实施例中，获取所述N路音频信号对应的N个梅尔频率倒谱系数特征，包括：

对所述N路音频信号进行多倍增益；

计算所述多倍增益后的N路音频信号的频谱；

根据所述频谱获取N个梅尔频率倒谱系数特征。

在一个实施例中，所述对所述N路音频信号进行多倍增益，包括：

获取所述N路音频信号的入射角度；

对所述入射角度对应的N路音频信号进行多倍增益；

对除所述入射角度对应的N路音频信号之外的其他音频信号进行抑制。

在一个实施例中，所述对所述N路音频信号进行多倍增益时所采用的算法为时间延迟波束形成算法与Frost波束形成算法。

在一个实施例中，根据所述频谱获取所述N路音频信号对应的N张语谱图，包括：

将每路音频信号在预设时间内得到的频谱中的时间作为x轴，频率作为y轴，能量作为z轴进行数据放置；

当达到预设时间后，得到N张以x轴为图像宽，y轴为图像高，z轴为图像颜色的语谱图。

本发明还提供一种音频识别装置，包括：

选取模块，用于在接收到多路音频信号后，从所述多路音频信号中选取N路音频信号；

第一获取模块，用于获取所述N路音频信号对应的N张卷积特征图；

第二获取模块，用于获取所述N路音频信号对应的N个梅尔频率倒谱系数特征；

计算模块，用于根据获取的所述N张卷积特征图与所述N个梅尔频率倒谱系数特征计算出音频分类与识别结果。

在一个实施例中，第一获取模块，包括：

第一增益子模块，用于对所述N路音频信号进行多倍增益；

第一计算子模块，用于计算所述多倍增益后的N路音频信号的频谱；

第一获取子模块，用于根据所述频谱获取所述N路音频信号对应的N张语谱图；

第二获取子模块，用于根据所述N张语谱图获取所述N路音频信号对应的N张卷积特征图。

在一个实施例中，第二获取模块，包括：

第二增益子模块，用于对所述N路音频信号进行多倍增益；

第二计算子模块，用于计算所述多倍增益后的N路音频信号的频谱；

第三获取子模块，用于根据所述频谱获取N个梅尔频率倒谱系数特征。

在一个实施例中，所述第一增益子模块或所述第二增益子模块，包括：

获取所述N路音频信号的入射角度；

对所述入射角度对应的根据所述N路音频的入射角度对所述N路音频信号进行多倍增益；

在一个实施例中，所述第一获取子模块，包括：

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明一实施例中音频识别方法的流程图；

图2为本发明一实施例中音频识别方法的流程图；

图3为本发明一实施例中音频识别方法的流程图；

图4为本发明一实施例中音频识别方法的流程图；

图5为本发明一实施例中音频识别方法的流程图；

图6为本发明一实施例中音频识别装置的框图；

图7为本发明一实施例中音频识别装置的框图；

图8为本发明一实施例中音频识别装置的框图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

图1为本发明一实施例中音频识别方法的流程图，如图1所示，该方法包括如下步骤S11-S14：

在步骤S11中，在接收到多路音频信号后，从多路音频信号中选取N路音频信号；

在步骤S12中，获取N路音频信号对应的N张卷积特征图；

在步骤S13中，获取N路音频信号对应的N个梅尔频率倒谱系数特征；

在步骤S14中，根据获取的N张卷积特征图与N个梅尔频率倒谱系数特征计算出音频分类与识别结果。

本发明中，在接收到多路音频信号后，从多路音频信号中选取N路音频信号。其中，N路音频信号可以根据N个预设的角度进行选取，即选取入射角度与预设的角度相同的音频信号。

例如，当N＝8时，则从接收到的音频信号中选取8路音频信号，然后获取8路音频信号对应的8张语谱图。

其中，可根据如下方式得到8路音频信号对应的8张语谱图：

对8路音频信号进行多倍增益；计算多倍增益后的8路音频信号的频谱；将每路音频信号在预设时间内得到的频谱中的时间作为x轴，频率作为y轴，能量作为z轴进行数据放置；当达到预设时间后，得到8张以x轴为图像宽，y轴为图像高，z轴为图像颜色的语谱图。

在获取8张语谱图后，根据这8张语谱图计算上述8路音频信号对应的8张卷积特征图。

获取8路音频信号对应的8个梅尔频率倒谱系数特征。然后根据计算得到的8路音频信号对应的8张卷积特征图与8个梅尔频率倒谱系数特征计算出音频分类与识别结果。

其中，音频分类与识别结果可根据一全连接神经网络来实现，具体如下：

每一路音频信号对应的梅尔频率倒谱系数特征与卷积特征图通过8选1数据选择器时分复用输入至全连接神经网络中。使用预训练的权重对语谱图进行二维卷积计算，进行归一化处理。然后对数据进行偏置，使用激活函数对卷积结果进行处理，进行池化。

需要说明的是，以上流程仅为计算1层的流程，实际上会进行3-100次上述操作，具体次数取决于实际应用所使用的卷积神经网络模型，对应3层至100层的卷积人工神经网络。

其中，归一化计算是避免训练过程过拟合，加速训练速度。

偏置计算本质是将数据乘以偏置系数后再加上偏置常量。模型允许用户进行选择配置，且能自定义。池化分为均值池化和最大值池化，用于减少数据的规模，用户可配置。

全连接神经网络单元的计算在算法模型上严格是卷积神经网络算法的最后一层进行的计算，这里单独分出来做成硬件计算模块。其主要流程是对上一层计算的结果结合预训练的权重参数，经过特定激活函数进行计算，到达下一层。以上流程仅为计算1层的流程。其中全连接人工神经网络的层数为F层，F的范围为1至5层，F优选2层。其中，可通过相应的激活函数激活全连接神经网络，且全连接神经网络使用的模型允许用户进行选择配置，且能自定义。本质上全连接神经网络单元是一个分类器，计算完毕后，所获得的分类结果即最终音频分类与识别结果。

在一个实施例中，如图2所示，上述步骤S12可被实施为如下步骤S21-S23：

在步骤S21中，对N路音频信号进行多倍增益；

在步骤S22中，计算多倍增益后的N路音频信号的频谱；

在步骤S23中，根据频谱获取N路音频信号对应的N张语谱图；

在步骤S24中，根据N张语谱图计算N路音频信号对应的N张卷积特征图。

对N个(N优选值为8)方向上指向的音频信号进行多倍增益。然后对多倍增益后的N路音频信号进行FFT计算，得出N路音频信号的频谱，频谱的频率范围为0kHz至10kHz。当音频信息为语音类信息时，其中优选0kHz至3kHz为语音类应用的配置。

在得到N路音频信号的频谱之后，根据音频信号的频谱获得N张宽度为W，高度为H的语谱图。其中W为经过的FFT时间窗数，范围为256至2048之间的任意整数(W优选1024)，经历的总时间为D×W毫秒。而H为FFT所使用的点数，范围是集合{256，512，1024，2048}四个整数，(H优选512点)。

然后根据N张语谱图获取N路音频信号对应的N张卷积特征图。

在一个实施例中，如图3所示，上述步骤S13可被实施为如下步骤S31-S33：

在步骤S31中，对N路音频信号进行多倍增益；

在步骤S32中，计算多倍增益后的N路音频信号的频谱；

在步骤S33中，根据频谱获取N个梅尔频率倒谱系数特征。

在计算得到多倍增益后的N路音频信号的频谱之后，还可以根据该频谱获取N个梅尔频率倒谱系数特征。

在一个实施例中，如图4所示，上述步骤S31可被实施为如下步骤S41-S42：

在步骤S41中，获取N路音频信号的入射角度；

在步骤S42中，对所述入射角度对应的N路音频信号进行多倍增益；

在步骤S43中，对除所述入射角度对应的N路音频信号之外的其他音频信号进行抑制。

在对N路音频信号进行多倍增益时，需要先获取N路音频信号的入射角度，从而根据入射角度确定要进行多倍增益的音频信号。除其他入射角度上的音频信号则被视为背景噪声,对其他入射角度上的音频信号进行抑制。

在具体应用中，该入射角度信息会在音频识别系统中的声源定向设备中滞留一定的时间(通常为1.5秒)，从而便于跟踪间歇音频信号。

对N路音频信号进行多倍增益时所采用的算法为时间延迟波束形成(Time DelayBeamforming)算法与Frost波束形成(Frost Beamforming)算法。

使用这两种算法可以使N个(N优选值为8)方向上指向的音频信号获得多倍增益，并且使得其余方向上的背景噪音获得抑制，这就是多倍增益与去噪的原理。

其中Frost波束形成(Frost Beamforming)算法效果上优于时间延迟波束形成(Time Delay Beamforming)算法，而时间延迟波束形成(Time Delay Beamforming)算法在计算速度上优于Frost波束形成(Frost Beamforming)算法，本领域技术人员可以根据应用场景的不同灵活选择不同的算法。

在一个实施例中，如图5所示，上述步骤S23可被实施为如下步骤S51-S52：

在步骤S51中，将每路音频信号在预设时间内得到的频谱中的时间作为x轴，频率作为y轴，能量作为z轴进行数据放置；

在步骤S52中，当达到预设时间后，得到N张以x轴为图像宽，y轴为图像高，z轴为图像颜色的语谱图。

获得语谱图具体步骤如下：

将每次FFT计算的功率谱以时间为x轴，频率为y轴，能量为z轴进行数据放置，采集D乘W时间后，以x轴为图像宽，y轴为图像高，z轴为图像颜色，获得宽度为W，高度为H的彩色语谱图。其中共有N路(N优选值为8)信号，所以会产生N张语谱图。语谱图是一个可滑动的窗，每一次FFT计算都会使得该滑动窗向x轴正方向移动D毫秒。

图6为本发明一实施例中音频识别装置的框图，如图6所示，该装置包括如下模块：

选取模块61，用于在接收到多路音频信号后，从所述多路音频信号中选取N路音频信号；

第一获取模块62，用于获取所述N路音频信号对应的N张卷积特征图；

第二获取模块63，用于获取所述N路音频信号对应的N个梅尔频率倒谱系数特征；

计算模块64，用于根据获取的所述N张卷积特征图与所述N个梅尔频率倒谱系数特征计算出音频分类与识别结果。

在一个实施例中，如图7所示，第一获取模块62，包括：

第一增益子模块71，用于对所述N路音频信号进行多倍增益；

第一计算子模块72，用于计算所述多倍增益后的N路音频信号的频谱；

第一获取子模块73，用于根据所述频谱获取所述N路音频信号对应的N张语谱图；

第二获取子模块74，用于根据所述N张语谱图获取所述N路音频信号对应的N张卷积特征图。

在一个实施例中，如图8所示，第二获取模块63，包括：

第二增益子模块81，用于对所述N路音频信号进行多倍增益；

第二计算子模块82，用于计算所述多倍增益后的N路音频信号的频谱；

第三获取子模块83，用于根据所述频谱获取N个梅尔频率倒谱系数特征。

获取所述N路音频信号的入射角度；

在一个实施例中，所述第一获取子模块，包括：

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种音频识别方法，其特征在于，包括：

获取所述N路音频信号对应的N张卷积特征图；

获取所述N路音频信号对应的N个梅尔频率倒谱系数特征；

2.如权利要求1所述的方法，其特征在于，所述获取所述N路音频信号对应的N张卷积特征图，包括：

对所述N路音频信号进行多倍增益；

计算所述多倍增益后的N路音频信号的频谱；

根据所述频谱获取所述N路音频信号对应的N张语谱图；

3.如权利要求1所述的方法，其特征在于，获取所述N路音频信号对应的N个梅尔频率倒谱系数特征，包括：

对所述N路音频信号进行多倍增益；

计算所述多倍增益后的N路音频信号的频谱；

根据所述频谱获取N个梅尔频率倒谱系数特征。

4.如权利要求2或3所述的方法，其特征在于，所述对所述N路音频信号进行多倍增益，包括：

获取所述N路音频信号的入射角度；

对所述入射角度对应的N路音频信号进行多倍增益；

5.如权利要求4所述的方法，其特征在于，所述对所述N路音频信号进行多倍增益时所采用的算法为时间延迟波束形成算法与Frost波束形成算法。

6.如权利要求2所述的方法，其特征在于，根据所述频谱获取所述N路音频信号对应的N张语谱图，包括：

7.一种音频识别装置，其特征在于，包括：

8.如权利要求7所述的装置，其特征在于，第一获取模块，包括：

第一增益子模块，用于对所述N路音频信号进行多倍增益；

9.如权利要求7所述的装置，其特征在于，第二获取模块，包括：

第二增益子模块，用于对所述N路音频信号进行多倍增益；

10.如权利要求8或9所述的装置，其特征在于，所述第一增益子模块或所述第二增益子模块，包括：

获取所述N路音频信号的入射角度；

对所述入射角度对应的N路音频信号进行多倍增益；

11.如权利要求10所述的装置，其特征在于，所述对所述N路音频信号进行多倍增益时所采用的算法为时间延迟波束形成算法与Frost波束形成算法。

12.如权利要求8所述的装置，其特征在于，所述第一获取子模块，包括：