CN114265009A

CN114265009A - 基于深度学习的音频检测和定位方法、系统及智能终端

Info

Publication number: CN114265009A
Application number: CN202111310320.3A
Authority: CN
Inventors: 尤学强
Original assignee: Zhuhai Huilian Technology Co ltd
Current assignee: Zhuhai Huilian Technology Co ltd
Priority date: 2021-11-05
Filing date: 2021-11-05
Publication date: 2022-04-01

Abstract

本发明实施例公开了基于深度学习的音频检测和定位方法、系统及智能终端，其中包括以下步骤：构建并训练CNN神经网络和DNN神经网络；输入实时检测数据，对所述检测数据进行MFCC特征提取，将MFCC特征提取的数据输入CNN神经网络，输出音频方向判断结果；将所述MFCC特征提取的数据输入DNN神经网络，输出音频检测判断结果。本发明实施例能够实现对音频的检测和定位。

Description

基于深度学习的音频检测和定位方法、系统及智能终端

技术领域

本发明涉及音频检测领域，特别涉及一种基于深度学习的音频检测和定位方法、系统及智能终端。

背景技术

自然界中一切振动的物体都会发出声音，从雷鸣、台风、海啸，到鸟鸣、动物叫声、物种运动的声音，再到街市闹巷、工业机器运转声、娱乐游戏等等。声音的种类十分丰富，按照人类的语义将所意味的事件进行归纳，声音事件种类繁多但并不是所有事件都对人类进行的任务有意义，人类对音频事件进行按需检测。作为人类主要获取信息来源的听觉，从音频中自动发掘信息可以增强人类处理信息的能力，音频事件的检测不但可以辅助人类的视觉，甚至可以在无光的极端场景作为人类获取信息的主要能力。随着计算机科学技术的发展，机器学习诞生到深度学习的出现，工程的技术偏向于智能化，拥有语音检测的智能终端更是人们需求率较高的产品，传统语音分类更多是基于HMM的后验概率和声学模型去对语音进行检测任务，深度学习的监督学习和无监督学习大量应用成功案例说明更加智能化的语音检测技术更是人们需要的。

现有方案缺点：

1、音频检测技术，在于模型的构建和训练数据的筛选，以及声学三音素的建模，在最后结果的输出上往往需要帧对齐来保证结果的准确，而普通智能终端设备应用这种语音检测技术时，其庞大的计算资源应用使其无法使用这种语音检测技术，让小计算资源设备望而却步。

2、传统音频方向判断，根据音频多种因素搭建场景，只能针对个人的习惯建模抓取音频方向，这样建立的应用层在普遍性上有很大的缺陷，无法大规模使用。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种基于深度学习的音频检测和定位方法，能够实现对音频的检测和定位。

本发明还提出一种基于深度学习的音频检测和定位系统。

本发明还提出一种实现上述方法的智能终端。

根据本发明的第一方面实施例的基于深度学习的音频检测和定位方法，包括以下步骤：构建并训练CNN神经网络和DNN神经网络；输入实时检测数据，对所述检测数据进行MFCC特征提取，将MFCC特征提取的数据输入CNN神经网络，输出音频方向判断结果；将所述MFCC特征提取的数据输入DNN神经网络，输出音频检测判断结果。

根据本发明实施例的基于深度学习的音频检测和定位方法，至少具有如下有益效果：本发明实施例的音频方向判断通过神经网络CNN建模，经过MFCC特征提取送入后续的CNN网络得到判断结果，对比于传统音频判断方法神经网络方法结构简单，对外界条件音素要求简单，通过内部的训练可为用户提前判断好音频方向告知用户。

根据本发明的一些实施例，构建并训练CNN神经网络包括：获取数据集，所述数据集被标注声源位置特征；对所述数据集根据分类进行独热编码标签；基于所述数据集训练可分离CNN神经网络，所述可分离CNN神经网络根据分类个数建立通道数，得到已训练的CNN神经网络。

根据本发明的一些实施例，所述声源位置特征包括：上、下、前左、前右、后方、左后方、右后方。

根据本发明的一些实施例，构建并训练DNN神经网络包括：收集应用场景的音频数据，对训练数据进行独热编码和MFCC特征的并行处理，生成正负样本的标签和MFCC特征参数；将所述MFCC特征参数和生成的标签输入所述DNN神经网络，输出标签预测值得分概率；根据所述标签预测值得分概率调整所述DNN神经网络的权重。

根据本发明的一些实施例，对训练数据进行MFCC特征处理包括：对训练数据进行分帧操作后进行帧重叠操作，将每个训练样本的长度固定为第一长度；所述DNN神经网络的输入维度为固定的第二长度；对输入的第二长度的一个训练样本提取MFCC特征，再对所述训练样本以帧为单位进行帧延拓，得到长度为第二长度的MFCC特征参数。现有的方法无法支撑模型在小计算资源下得到应用，无法在短时输入中学到长时信息并有良好的上下文时序性，实验和终端应用证明本方法的可用性。本实施例的方法采用帧重叠的特征提取，可以改变模型在短时输入中获取的信息量，在计算资源上对比庞大的模型架构更具有优势。本发明实施例的方法计算资源占用小可以在多数智能终端设备上应用，利用帧重叠的方法训练模型，让模型可以在短时的数据输入下学到长时的数据特征，有较好的上下文能力和时序性，利用人为标注数据通过神经网络可分离CNN构建音频方向分类器，实时检测自动为用户判断音频来源方向。

根据本发明的一些实施例，所述根据所述标签预测值得分概率调整所述DNN神经网络的权重包括：通过损失函数交叉熵计算得出预测值和真实值之间的差值，并通过所述差值调整所述DNN神经网络的权重。

根据本发明的第二方面实施例的基于深度学习的音频检测和定位系统，包括：构建模块，用于构建并训练CNN神经网络和DNN神经网络；音频方向判断模块，用于输入实时检测数据，对所述检测数据进行MFCC特征提取，将MFCC特征提取的数据输入CNN神经网络，输出音频方向判断结果；音频检测模块，用于将所述MFCC特征提取的数据输入DNN神经网络，输出音频检测判断结果。

根据本发明实施例的基于深度学习的音频检测和定位系统，至少具有如下有益效果：本发明实施例的音频方向判断通过神经网络CNN建模，经过MFCC特征提取送入后续的CNN网络得到判断结果，对比于传统音频判断方法神经网络方法结构简单，对外界条件音素要求简单，通过内部的训练可为用户提前判断好音频方向告知用户。

根据本发明的一些实施例，所述构建模块包括CNN神经网络模块，用于获取数据集，所述数据集被标注声源位置特征；对所述数据集根据分类进行独热编码标签；基于所述数据集训练可分离CNN神经网络，所述可分离CNN神经网络根据分类个数建立通道数，得到已训练的CNN神经网络。

根据本发明的一些实施例，所述构建模块包括DNN神经网络模块，用于收集应用场景的音频数据，对训练数据进行独热编码和MFCC特征的并行处理，生成正负样本的标签和MFCC特征参数；将所述MFCC特征参数和生成的标签输入所述DNN神经网络，输出标签预测值得分概率；根据所述标签预测值得分概率调整所述DNN神经网络的权重。

根据本发明的第三方面实施例的智能终端，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被所述处理器执行时实现本发明的第一方面实施例中任一项的方法。

由于本发明实施例的智能终端的存储器存储有用于执行如本发明第一方面中任一项所述的基于深度学习的音频检测和定位方法的计算机程序，因此具有本发明第一方面的所有有益效果。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例的音频方向判断示意图；

图2为现有模型训练方法示意图；

图3为本发明实施例的帧重叠操作示意图；

图4为本发明实施例训练端的前向传播示意图；

图5为本发明实施例训练端的反向传播示意图；

图6为本发明实施例的实现端实现音频检测示意图；

图7为本发明实施例的训练用于音频检测的DNN神经网络示意图；

图8为本发明实施例的DNN神经网络实现音频检测的示意图；

图9为本发明实施例的游戏模式枪声和枪声方向判断示意图；

图10为本发明实施例的系统的模块示意框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个及两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

术语解释：

CNN：ConvolutionalNeuralNetworks卷积神经网络；

DNN：Dynamic Neural Network深度神经网络；

MFCC：Mel Frequency Cepstrum Coefficient梅尔倒频谱系数；

One-Hot:独热编码；

Relu：激活函数的一种Rectified Linear Unit线性整流单元；

Softmax：Softmax with cross-entropy loss激活函数和损失函数的一种；

HRTF:Head Related Transfer Function头部相关输出函数；

DOA：direction of arrival波束到达。

本发明实施例提出一种基于深度学习的音频检测和定位方法，主要包括以下步骤：构建并训练CNN神经网络和DNN神经网络；输入实时检测数据，对检测数据进行MFCC特征提取，将MFCC特征提取的数据输入CNN神经网络，输出音频方向判断结果；将MFCC特征提取的数据输入DNN神经网络，输出音频检测判断结果。

一、音频方向判断。

立体声双声道顾名思义就是有两个声道，即左声道右声道，人的耳朵能大致分辨声音的方向和距离，就是因为有两个耳朵，因为一定方向距离位置传来的声音到达两个耳朵的先后顺序以及强弱是有差别的，两个耳朵正是分辨出了这些微小差异并传输给大脑，让大脑处理以后判断出声源的方向和距离。双声道就是利用这个原理，让两个声道的声音很微小的不同步不同强弱，使人的大脑对扬声器(或耳机等传声设备)的声音产生方向性，继而产生空间感、临场感。

参照图1，本发明实施例的方法用深度学习可分离CNN神经网络对立体声音频建模，通过建立立体声数据集对可分离CNN模型进行拟合，数据集的分布特征为上、下、前左、前右、后方、左后方、右后方声源位置均被人为标注过并验证，用数据训练神经网络可分离CNN模型的辨别力，应用可分离CNN针对分类的个数建立通道数，多少分类就应用多少输入通道，这样可独立各个方向音频的训练，对比于传统CNN也会减少参数量的产生对小资源表现更友好，根据通道数量计算，参数量约传统CNN的1/通道数量，数据集根据分类样别进行One-Hot编码标签，模型训练使用动态学习率先升高后下降，隐藏层之间的连接激活函数均为Relu，输出层激活函数为Softmax。

二、音频检测。

参照图2，模型训练方法传统方法：把每段音频整体输入，获取特征信息，每段音频都是独立的个体没有关联性，这样的拟合输入在DNN神经网络上获取上下文信息只能通过加大输入的维度增加输入层的神经元个数，这样的处理会使我们的模型变大对计算资源的占用变大，使得模型在应用端对小计算资源的智能终端设备不友好，无法在小维度输入下保持良好的获取上下文信息的能力，从而无法做到在较小的计算资源上达到长时的学习上文信息的效果。总结来说在小计算资源小样本在传统方法上表现得不友好，训练端的样本上下文不连续性无法将模型拟合出联系上下文信息的能力。

参照图3，本发明实施例采用帧重叠训练方法：对样本以25ms一帧的分帧操作，然后对每个待学习样本进行帧重叠操作，每个待学习样本的长度统一为固定的300ms，本方法的模型固定输入维度为200ms，对于固定维度输入学到大于输入维度的信息需要做帧延拓，例如如果想学到300ms样本的输入信息，在不改变输入维度大小的情况下使用了帧重叠，通过帧重叠来建立小维度输入并学习长维度信息，本方法在MFCC特征转换上采取的帧长和帧重叠为25ms和10ms和前面提到的25ms一帧的分帧相对应，由此参数可以知道在输入一个样本200ms的基础上提取MFCC特征再对该样本以帧为单位延拓10ms个单位循环10次就得到了尺寸为200ms的MFCC特征但是所有MFCC特征包含的是300ms的MFCC特征参数，这样既保持了上下文的连续性也做到了低维度的输入可学习高维度的信息。

在构建端，本发明实施例收集应用场景的实时数据，构建DNN神经网络模型，把所有模型训练数据截取成固定长度，保证输入数据的维度大小统一。为了保证训练数据的上下文连续性，MFCC特征参数应用帧重叠的方法生成特征参数，所谓的帧重叠就是每次输入维度恒定大小，在这个固定维度下只有一帧是新数据其余的帧都是过去的数据，这样即使是短时小样本的方式也可以学习到一定长时样本的上下文特征从而具有时序性，本方法应用的所有损失函数均为交叉熵，在构建端网络应用的传播方式为前向传播和后向传播，前向传播更新损失函数，后向传播更新权重参数，最后由Softmax输出判别的概率得分。

参照图4，本发明实施例的传播方式为前向传播。训练数据经过One-Hot编码和MFCC特征的并行处理，生成正负样本的标签和MFCC特征参数，生成标签和特征参数送入DNN神经网络输出One-Hot编码后的标签预测参照图值得分概率，例如我们标注正样本的标签是0、负样本标签是1，经过神经网络DNN的前向传播最后输出正样本标签为0的概率得分、负样本标签为1的概率得分。

参照图5，训练端反向传播示意图，由图4前向传播得到的结果反向传播去更新DNN神经网络的权重，由预测值减去真实值得到之间的差值，通过差值去调整DNN神经网络的权重，计算预测值和真实值之间的差值由算是函数loss交叉熵计算得出。在训练端前向传播每一次预测值的输出都有一次反向传播去更新DNN神经网络的权重，通过反复迭代得到想要的音频检测模型参数。

参照图6，本发明实施例拿到训练端的模型参数构建应用实现端，应用实现端舍弃One-Hot编码过程，把输入的数据提取MFCC特征参数，送入DNN神经网络由激活函数Softmax输出得到判别分类的概率得分。

参照图7和图8，图7图8为训练端和实现端的音频检测模块流程图，区别在与训练端存在两种传播方式前向传播和反向传播，训练端的意义在于学习出模型检测的权重参数，而实现端只存在一种传播方式前向传播，意义在于可以利用学习的参数，完成音频检测的任务。

现有方案缺点及本方法改进点：

1、音频检测技术，在于模型的构建和训练数据的筛选，以及声学三音素的建模，在最后结果的输出上往往需要帧对齐来保证结果的准确，而普通智能终端设备应用这种语音检测技术时，其庞大的计算资源应用使其无法使用这种语音检测技术，让小计算资源设备望而却步；

2、本发明实施例的方法为了解决音频检测在小资源智能终端设备上的应用，在智能终端设备生存周期内实时检测直到智能终端设备的生存周期结束，同时占用计算资源小在功耗上也有很大的提升，可以用户带来更好的使用体验。

3、传统音频方向判断，根据音频多种因素搭建场景，只能针对个人的习惯建模抓取音频方向，这样建立的应用层在普遍性上有很大的缺陷，无法大规模使用。

4、本方法音频方向判断，所有数据均为人为标注并通过大量验证360度全角度的对音频标注数据，例：60度-音频1，对此建立python字典数据集打标签，对大样本人群进行数据采集，通过可分离CNN模型的训练学习，拟合出对全角度音频的分类器。

参照图9，在游戏模式下结合音频方向判断模块和音频检测模块实现游戏中的枪声检测和定位功能，对游戏中的音频实时检测，对检测数据进行MFCC特征提取把提取的特征送入下游的神经网络CNN模型进行音频方向判断的检测，同时把音频方向判断模块的MFCC特征输入到音频检测模块，传入下游的神经网络DNN中进行音频检测，两个模块进行并行任务处理，最后得到音频位置和游戏枪声，结合起来就是游戏枪声出现在哪个位置。

本实施例针对游戏枪声、枪声的来源方向做了相应的智能终端实现并在TWS无线耳机上成功应用，本实施例应用了当下火热的深度学习技术，利用深度学习的神经网络实现音频端到端的检测功能，输入一段音频输出对音频检测的概率得分。

与前述实施例相对应，本发明还提供了系统的实施例。对于系统实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。

参照图10，本发明实施例还提出一种基于深度学习的音频检测和定位系统，包括：构建模块，用于构建并训练CNN神经网络和DNN神经网络；音频方向判断模块，用于输入实时检测数据，对检测数据进行MFCC特征提取，将MFCC特征提取的数据输入CNN神经网络，输出音频方向判断结果；音频检测模块，用于将MFCC特征提取的数据输入DNN神经网络，输出音频检测判断结果。

在一些实施例中，本发明实施例的构建模块包括CNN神经网络模块，用于获取数据集，该数据集被标注声源位置特征；对数据集根据分类进行独热编码标签；基于数据集训练可分离CNN神经网络，该可分离CNN神经网络根据分类个数建立通道数，得到已训练的CNN神经网络。

在一些实施例中，本发明实施例的构建模块包括DNN神经网络模块，用于收集应用场景的音频数据，对训练数据进行独热编码和MFCC特征的并行处理，生成正负样本的标签和MFCC特征参数；将MFCC特征参数和生成的标签输入DNN神经网络，输出标签预测值得分概率；根据标签预测值得分概率调整所述DNN神经网络的权重。

尽管本文描述了具体实施方案，但是本领域中的普通技术人员将认识到，许多其它修改或另选的实施方案同样处于本公开的范围内。例如，结合特定设备或组件描述的功能和/或处理能力中的任一项可以由任何其它设备或部件来执行。另外，虽然已根据本公开的实施方案描述了各种例示性具体实施和架构，但是本领域中的普通技术人员将认识到，对本文所述的例示性具体实施和架构的许多其它修改也处于本公开的范围内。

上文参考根据示例性实施方案所述的系统、方法、系统和/或计算机程序产品的框图和流程图描述了本公开的某些方面。应当理解，框图和流程图中的一个或多个块以及框图和流程图中的块的组合可分别通过执行计算机可执行程序指令来实现。同样，根据一些实施方案，框图和流程图中的一些块可能无需按示出的顺序执行，或者可以无需全部执行。另外，超出框图和流程图中的块所示的那些部件和/或操作以外的附加部件和/或操作可存在于某些实施方案中。

因此，框图和流程图中的块支持用于执行指定功能的装置的组合、用于执行指定功能的元件或步骤的组合以及用于执行指定功能的程序指令装置。还应当理解，框图和流程图中的每个块以及框图和流程图中的块的组合可以由执行特定功能、元件或步骤的专用硬件计算机系统或者专用硬件和计算机指令的组合来实现。

本文所述的程序模块、应用程序等可包括一个或多个软件组件，包括例如软件对象、方法、数据结构等。每个此类软件组件可包括计算机可执行指令，所述计算机可执行指令响应于执行而使本文所述的功能的至少一部分(例如，本文所述的例示性方法的一种或多种操作)被执行。

软件组件可以用各种编程语言中的任一种来编码。一种例示性编程语言可以为低级编程语言，诸如与特定硬件体系结构和/或操作系统平台相关联的汇编语言。包括汇编语言指令的软件组件可能需要在由硬件架构和/或平台执行之前由汇编程序转换为可执行的机器代码。另一种示例性编程语言可以为更高级的编程语言，其可以跨多种架构移植。包括更高级编程语言的软件组件在执行之前可能需要由解释器或编译器转换为中间表示。编程语言的其它示例包括但不限于宏语言、外壳或命令语言、作业控制语言、脚本语言、数据库查询或搜索语言、或报告编写语言。在一个或多个示例性实施方案中，包含上述编程语言示例中的一者的指令的软件组件可直接由操作系统或其它软件组件执行，而无需首先转换成另一种形式。

软件组件可存储为文件或其它数据存储构造。具有相似类型或相关功能的软件组件可一起存储在诸如特定的目录、文件夹或库中。软件组件可为静态的(例如，预设的或固定的)或动态的(例如，在执行时创建或修改的)。

上面结合附图对本发明实施例作了详细说明，但是本发明不限于上述实施例，在所属技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于深度学习的音频检测和定位方法，其特征在于，包括以下步骤：

构建并训练CNN神经网络和DNN神经网络；

输入实时检测数据，对所述检测数据进行MFCC特征提取，将MFCC特征提取的数据输入CNN神经网络，输出音频方向判断结果；

将所述MFCC特征提取的数据输入DNN神经网络，输出音频检测判断结果。

2.根据权利要求1所述的基于深度学习的音频检测和定位方法，其特征在于，构建并训练CNN神经网络包括：

获取数据集，所述数据集被标注声源位置特征；

对所述数据集根据分类进行独热编码标签；

基于所述数据集训练可分离CNN神经网络，所述可分离CNN神经网络根据分类个数建立通道数，得到已训练的CNN神经网络。

3.根据权利要求2所述的基于深度学习的音频检测和定位方法，其特征在于，所述声源位置特征包括：上、下、前左、前右、后方、左后方、右后方。

4.根据权利要求1所述的基于深度学习的音频检测和定位方法，其特征在于，构建并训练DNN神经网络包括：

收集应用场景的音频数据，对训练数据进行独热编码和MFCC特征的并行处理，生成正负样本的标签和MFCC特征参数；

将所述MFCC特征参数和生成的标签输入所述DNN神经网络，输出标签预测值得分概率；

根据所述标签预测值得分概率调整所述DNN神经网络的权重。

5.根据权利要求4所述的基于深度学习的音频检测和定位方法，其特征在于，对训练数据进行MFCC特征处理包括：

对训练数据进行分帧操作后进行帧重叠操作，将每个训练样本的长度固定为第一长度；

所述DNN神经网络的输入维度为固定的第二长度；

对输入的第二长度的一个训练样本提取MFCC特征，再对所述训练样本以帧为单位进行帧延拓，得到长度为第二长度的MFCC特征参数。

6.根据权利要求4所述的基于深度学习的音频检测和定位方法，其特征在于，所述根据所述标签预测值得分概率调整所述DNN神经网络的权重包括：通过损失函数交叉熵计算得出预测值和真实值之间的差值，并通过所述差值调整所述DNN神经网络的权重。

7.一种基于深度学习的音频检测和定位系统，其特征在于，包括：

构建模块，用于构建并训练CNN神经网络和DNN神经网络；

音频方向判断模块，用于输入实时检测数据，对所述检测数据进行MFCC特征提取，将MFCC特征提取的数据输入CNN神经网络，输出音频方向判断结果；

音频检测模块，用于将所述MFCC特征提取的数据输入DNN神经网络，输出音频检测判断结果。

8.根据权利要求7所述的基于深度学习的音频检测和定位系统，其特征在于，所述构建模块包括CNN神经网络模块，用于获取数据集，所述数据集被标注声源位置特征；对所述数据集根据分类进行独热编码标签；基于所述数据集训练可分离CNN神经网络，所述可分离CNN神经网络根据分类个数建立通道数，得到已训练的CNN神经网络。

9.根据权利要求7所述的基于深度学习的音频检测和定位系统，其特征在于，所述构建模块包括DNN神经网络模块，用于收集应用场景的音频数据，对训练数据进行独热编码和MFCC特征的并行处理，生成正负样本的标签和MFCC特征参数；将所述MFCC特征参数和生成的标签输入所述DNN神经网络，输出标签预测值得分概率；根据所述标签预测值得分概率调整所述DNN神经网络的权重。

10.一种智能终端，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被所述处理器执行时实现权利要求1至6中任一项的方法。