CN112770222A

CN112770222A - 音频处理方法和装置

Info

Publication number: CN112770222A
Application number: CN202011585187.8A
Authority: CN
Inventors: 李晓
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2021-05-07

Abstract

本发明公开音频处理方法和装置，其中，一种音频处理方法，包括：响应于异形环麦克风阵列获取到2N路第一音频，将所述2N路第一音频组成两组第二音频，其中，所述异形环麦克风阵列是由2N个方向各一个麦克风组成的异形环2N麦克风阵列，其中，N为大于1的自然数；对所述N路第二音频分别进行处理获取所述N路第二音频中的有效音频；将所述两路第二音频中的有效音频合并为一路第三音频，并对所述第三音频进行处理后输出。通过组建异形环麦克风阵列，从而可以解决传统麦克风阵列对硬件结构的严格要求，进一步地，充分利用获取到的音频，从而可以减少算法中计算维度，提高语音处理实时率。

Description

音频处理方法和装置

技术领域

本发明属于音频处理技术领域，尤其涉及音频处理方法和装置。

背景技术

麦克风阵列方案(常见于耳机/手机/会议系统的)：求得DOA(direction ofarrival，波达方向)后，利用得到的角度信息进行特定方向的波束形成语音增强，如FB(fixed beamforming，固定波束形成)、GSC(generalized sidelobecancellation，广义旁瓣抑制器)等；

传统多通道信号处理方法：不需要直接的DOA角度信息，利用BSS(blindsourceseparation，盲源分离)、MWF(multichannel wiener filter，多通道维纳滤波)、MVDR(minimum variance distortionless response，最小方差无失真响应)等多通道信号处。

麦克风阵列方案不能解决异形麦，非标准麦克风阵列结构；

多通道信号处理方法不能准确的估计短时非平稳噪声。

发明内容

本发明实施例提供一种音频处理方法和装置，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种音频处理方法，包括：响应于异形环麦克风阵列获取到2N路第一音频，将所述2N路第一音频组成两组第二音频，其中，所述异形环麦克风阵列是由2N个方向各一个麦克风组成的异形环2N麦克风阵列，其中，N为大于1的自然数；对所述N路第二音频分别进行处理获取所述N路第二音频中的有效音频；将所述两路第二音频中的有效音频合并为一路第三音频，并对所述第三音频进行处理后输出。

第二方面，本发明实施例提供一种音频处理装置，包括：获取组成程序模块，配置为响应于异形环麦克风阵列获取到2N路第一音频，将所述2N路第一音频组成两组第二音频，其中，所述异形环麦克风阵列是由2N个方向各一个麦克风组成的异形环2N麦克风阵列，其中，N为大于1的自然数；处理获取程序模块，配置为对所述N路第二音频分别进行处理获取所述N路第二音频中的有效音频；合并处理模块，配置为将所述两路第二音频中的有效音频合并为一路第三音频，并对所述第三音频进行处理后输出。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的音频处理方法的步骤。

第四方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行本发明任一实施例的音频处理方法的步骤。

本申请的方法和装置通过组建异形环麦克风阵列，从而可以解决传统麦克风阵列对硬件结构的严格要求，进一步地，充分利用获取到的音频，从而可以减少算法中计算维度，提高语音处理实时率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种音频处理方法的流程图；

图2为本发明一实施例提供的音频处理方法的一个具体示例的异形环四麦克风图；

图3为本发明一实施例提供的音频处理方法的一个具体示例的数据流图；

图4为本发明一实施例提供的音频处理方法的一个具体示例的音频处理流程图；

图5为本发明一实施例提供的一种音频处理装置的框图；

图6是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，其示出了本申请的音频处理方法一实施例的流程图。

如图1所示，在步骤101中，响应于异形环麦克风阵列获取到2N路第一音频，将所述2N路第一音频组成两组第二音频，其中，所述异形环麦克风阵列是由2N个方向各一个麦克风组成的异形环2N麦克风阵列，其中，N为大于1的自然数；

在步骤102中，对所述N路第二音频分别进行处理获取所述N路第二音频中的有效音频；

在步骤103中，将所述两路第二音频中的有效音频合并为一路第三音频，并对所述第三音频进行处理后输出。

在本实施例中，对于步骤101，音频处理装置响应于异形环麦克风阵列获取到2N路第一音频，将2N路第一音频组成两组第二音频，其中，异形环麦克风阵列是由2N个方向各一个麦克风组成的异形环2N麦克风阵列，其中，N为大于1的自然数，例如，将异形环麦克风阵列放到用户腰间的情况下，前后左右各有一个麦克风组成异形环四麦克风阵列，在获取到音频后，将四个麦克风通道音频相邻的两个通道的音频组成两组两通道音频，例如，前右后左四个麦克风分别为MIC1、MIC2、MIC3和MIC4，可以将MIC1和MIC2分为一组，MIC3和MIC4分为一组，也可以将MIC1和MIC4分为一组，MIC2和MIC3分为一组。

之后，对于步骤102，音频处理装置对N路第二音频分别进行处理获取N路第二音频中的有效音频，例如，对N路第二音频分别进行回声消除、去混响、盲源分离、自适应波束成形和神经网络降噪等处理获取N路第二音频中的有效音频。

最后，对于步骤103，音频处理装置将两路第二音频中的有效音频合并为一路第三音频，并对第三音频进行处理后输出。例如，再次对第三音频进行自适应波束成形和神经网络降噪等音频处理，最后再进行自动语音增幅，调节最终输出音频效果。

本实施例的方法通过组建异形环麦克风阵列，从而可以解决传统麦克风阵列对硬件结构的严格要求，进一步地，充分利用获取到的音频，从而可以减少算法中计算维度，提高语音处理实时率。

在上述实施例所述的方法中，所述将所述2N路第一音频组成两组第二音频包括：

将2N路第一音频拆分成两组N通道第二音频，其中，两组N通道第二音频均由相邻通道的N路第一音频组成，例如，2N路第一音频为四路第一音频，四路第一音频分别为MIC1、MIC2、MIC3和MIC4，其中，MIC1和MIC2以及MIC4相邻，那么可以将MIC1和MIC2分为一组或将MIC1和MIC4分为一组；例如，在MIC1和MIC2分为一组的情况下，将MIC3和MIC4分为一组；在MIC1和MIC4分为一组的情况下，将MIC2和MIC3分为一组。

本实施例的方法通过将将2N路第一音频拆分成两组N通道第二音频进行处理，从而可以充分利用音频信息，提高语音处理实时率。

在上述实施例所述的方法中，所述对第二音频进行处理包括：前端信号处理和一级神经网络降噪。

在上述实施例所述的方法中，所述前端信号处理包括：回声消除、去混响、盲源分离和一级自动波束成形，例如，使用回声消除、去混响和盲源分离进行前端信号处理，来尽可能的提高信噪比，然后经过自动波束成形增强目标人声方向信噪，再通过上述实施例的一级神经网络降噪消除音频中噪声成分。

本实施例的方法通过分别对两路音频进行前端信号处理和一级神经网络降噪，从而可以充分利用音频信息，减少算法中计算维度。

在上述实施例所述的方法中，所述对第三音频进行处理包括：

二级自动波束成形，二级神经网络降噪和自动语音增益，例如，分别从两组音频中得到处理过的第二音频，再进行二级自动波束成形，二级神经网络降噪，最终把多个方向的麦克风采集到的音频合成一路信噪比较高的音频再进行自动语音增益。

本实施例的方法通过对音频进行二级自动波束成形，二级神经网络降噪和自动语音增益，从而可以最大程度的将采集到的音频中的有效音频成分分离。

在上述实施例所述的方法中，所述一级神经网络降噪和所述二级神经网络降噪均采用通过纯净语音集和特定噪声集训练后的语言模型消除特定噪声。

在上述任一实施例所述的方法中，N为2，所述异形环2N麦克风阵列为异形环四麦克风阵列。

本实施例的方法通过基于异形环四麦克风阵列，从而可以解决传统麦克风阵列对硬件结构的严格要求。

需要说明的是，上述方法步骤并不用于限制各步骤的执行顺序，实际上，某些步骤可能会同时执行或者以与步骤限定的相反的顺序执行，本申请在此没有限制。

下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明，以使本领域技术人员更好地理解本申请的方案。

发明人在实现本申请的过程中发现现有技术中存在的缺陷主要是由以下原因导致的：

麦克风阵列方案通过标准的麦克风结构，利用多通道音频固有有相位关系对特定方向的目标进行增强，对其他方向进行抑制。当麦克风结构不能满足算法要求时，算法不生效。

多通道信号处理方法，因为传统的噪声估计算法多数均基于假设，分析时间段内的噪声比语音更为平稳，即噪声变化速率比语音慢，因此无法准确和及时地估得突变的非平稳噪声。

发明人还发现，目前市面上少有异形麦克风阵列产品，多数厂商因为没有成熟算法解决方案牺牲硬件结构，没办法使用基于产品定制的异形麦克风阵列方案。算法流程和方法不易被想到。

本申请的方案主要从以下几个方面入手进行设计和优化：

为了满足厂商的特定需求，基于将麦克风阵列放在腰间或者其他特殊应用场景，四个方向各一个麦克风，组成异形环麦。而现在标准麦克风阵列显然不能满足需求，现有算法效果功能十分有限。传统多通道降噪算法不能结合实际产品对音频有更好的降噪效果，通用性较差。

如图2、图3和图4所示，异形环麦的应用场景下，将会有2-3个麦克风采集到信噪比较高的声源信息。相邻麦克风间的信噪比较接近。算法中将四个通道音频分为两组，相邻通道组成两组两通道音频(例如，MIC1和MIC2，MIC3和MIC4分别为一组)。这样做的好处是可以充分利用每个麦克风信息的同时，减少后续算法中矩阵维度，减少计算力，提高语音处理实时率。

上述每两通道组成的音频分别经过回声消除、去混响、盲源分离、波束形成等，用于提高所述多通道带噪对话语音的信噪比。每两路得到的一路音频通过已经通过纯净语音集和特定噪声集训练后的语言模型消除特定噪声。将每组输出的一路音频再次进行前端信号处理提升信噪，然后通过上述神经网络降噪模型降噪，最后通过自动增益模块，输出一路处理后的音频。

通过上述描述，将4路麦克风中的有效语音信息合成为一路，二级信噪提升和降噪和保证最终语音质量。

步骤1：通道分组：

Mic1和mic2，mic3和mic4分别组成两通道音频。

步骤2：前端信号处理：

包括不限于回声处理，去混响，盲源分离，自动波束形成。

步骤3：二级自动波束形成和神经网络降噪：

一级神经网络初步降噪后，再进行二级自动波束形成，二级神经网络降噪。

步骤4：自动语音增益：

最后进行自动语音增益，调节最终输出音频效果。

发明人在实现本发明的过程中发现达到更深层次的效果：

技术要点1：本发明是基于异形环4麦。

效果1：解决传统麦克风阵列对硬件结构的严格要求。

技术要点2：将4mic进行分组处理。

效果2：充分利用4mic中的语音信息，减少算法中计算维度，提高语音处理实时率。

技术要点3：使用AEC(回声消除)、WPE(去混响)、盲源分离(BSS)进行前端信号处理，尽可能提高信噪比。然后经过自动波束成形增强目标人声方向信噪。然后通过一级神经网络消除语音中噪声成分。分别从两组结果中得到一个通道的音频，再进行二阶波束形成和神经网络降噪。最终把4个面向不同方向的mic采集到的音频合成一路信噪比较高的音频到自动增益模块。

效果3：充分利用4mic中的语音信息，减少算法中计算维度，提高语音处理实时率。二级前端信号处理提升信噪比和二级神经网络降噪，最大程度将4mic采集到的原始数据中有效语音成分分离。

请参考图5，其示出了本发明一实施例提供的音频处理装置的框图。

如图5所示，音频处理装置500，包括获取组成程序模块510、处理获取程序模块520和合并处理程序模块530。

其中，获取组成程序模块510，配置为响应于异形环麦克风阵列获取到2N路第一音频，将所述2N路第一音频组成两组第二音频，其中，所述异形环麦克风阵列是由2N个方向各一个麦克风组成的异形环2N麦克风阵列，其中，N为大于1的自然数；处理获取程序模块520，配置为对所述N路第二音频分别进行处理获取所述N路第二音频中的有效音频；合并处理程序模块530，配置为将所述两路第二音频中的有效音频合并为一路第三音频，并对所述第三音频进行处理后输出。

应当理解，图5中记载的诸模块与参考图1中描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图5中的诸模块，在此不再赘述。

值得注意的是，本公开的实施例中的模块并不用于限制本公开的方案，例如获取组成程序模块可以描述为响应于异形环麦克风阵列获取到2N路第一音频，将所述2N路第一音频组成两组第二音频，其中，所述异形环麦克风阵列是由2N个方向各一个麦克风组成的异形环2N麦克风阵列，其中，N为大于1的自然数的模块。另外，还可以通过硬件处理器来实现相关功能模块，例如获取组成程序模块块也可以用处理器实现，在此不再赘述。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的音频处理方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

响应于异形环麦克风阵列获取到2N路第一音频，将所述2N路第一音频组成两组第二音频，其中，所述异形环麦克风阵列是由2N个方向各一个麦克风组成的异形环2N麦克风阵列，其中，N为大于1的自然数；

对所述N路第二音频分别进行处理获取所述N路第二音频中的有效音频；

将所述两路第二音频中的有效音频合并为一路第三音频，并对所述第三音频进行处理后输出。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据音频处理装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至音频处理装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项音频处理方法。

图6是本发明实施例提供的电子设备的结构示意图，如图6所示，该设备包括：一个或多个处理器610以及存储器620，图6中以一个处理器610为例。音频处理方法的设备还可以包括：输入装置630和输出装置640。处理器610、存储器620、输入装置630和输出装置640可以通过总线或者其他方式连接，图6中以通过总线连接为例。存储器620为上述的非易失性计算机可读存储介质。处理器610通过运行存储在存储器620中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例音频处理方法。输入装置630可接收输入的数字或字符信息，以及产生与通讯补偿装置的用户设置以及功能控制有关的键信号输入。输出装置640可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于音频处理装置中，用于客户端，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种音频处理方法，包括：

2.根据权利要求1所述的方法，其中，所述将所述2N路第一音频组成两组第二音频包括：

将所述2N路第一音频拆分成两组N通道第二音频，其中，两组所述N通道第二音频均由相邻通道的N路第一音频组成。

3.根据权利要求1所述的方法，其中，所述对第二音频进行处理包括：前端信号处理和一级神经网络降噪。

4.根据权利要求2所述的方法，其中，所述前端信号处理包括：回声消除、去混响、盲源分离和一级自动波束成形。

5.根据权利要求3所述的方法，其中，所述对第三音频进行处理包括：

二级自动波束成形，二级神经网络降噪和自动语音增益。

6.根据权利要求5所述的方法，其中，所述一级神经网络降噪和所述二级神经网络降噪均采用通过纯净语音集和特定噪声集训练后的语言模型消除特定噪声。

7.根据权利要求1-6中任一项所述的方法，其中，N为2，所述异形环2N麦克风阵列为异形环四麦克风阵列。

8.一种音频处理装置，包括：

获取组成程序模块，配置为响应于异形环麦克风阵列获取到2N路第一音频，将所述2N路第一音频组成两组第二音频，其中，所述异形环麦克风阵列是由2N个方向各一个麦克风组成的异形环2N麦克风阵列，其中，N为大于1的自然数；

处理获取程序模块，配置为对所述N路第二音频分别进行处理获取所述N路第二音频中的有效音频；

合并处理程序模块，配置为将所述两路第二音频中的有效音频合并为一路第三音频，并对所述第三音频进行处理后输出。

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至7任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。