CN110379439A

CN110379439A - 一种音频处理的方法以及相关装置

Info

Publication number: CN110379439A
Application number: CN201910669537.XA
Authority: CN
Inventors: 张明远
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-07-23
Filing date: 2019-07-23
Publication date: 2019-10-25
Anticipated expiration: 2039-07-23
Also published as: CN110379439B

Abstract

本申请实施例通过麦克风阵列获取音频数据后进行声源定位和定向增强，通过单指向麦克风获取噪声数据，然后通过噪声数据对定向增强后的音频数据进行滤波，得到去噪后的音频数据，能够很好地抑制非声源方向的噪音，有效过滤掉声源中的环境噪音，更好的对音频数据进行滤波，为后端输出更加清晰的音频数据，从而提高后端语音识别的准确率。

Description

一种音频处理的方法以及相关装置

技术领域

本申请涉及通信技术领域，尤其涉及一种音频处理的方法以及相关装置。

背景技术

通过麦克风阵列收集声音是现代技术中一个热门的领域。麦克风阵列通常可以应用在语音控制设备(智能音箱、智能电视等)、语音通话设备、监听监视设备等，这些设备通过麦克风阵列收集声音，形成声音数据。麦克风阵列可以是圆形阵列、方形阵列等，麦克风的种类可以是全向麦克风。

目前麦克风阵列若需要对声音进行定向增强，一般是通过传统的声源定位算法和定向增强算法计算出声源的方向，同时对声源的方向进行声音增强，非声源方向声音进行抑制。

然而目前的算法并不能很好地抑制非声源方向的噪音。

发明内容

本申请实施例提供了一种音频处理的方法以及相关装置，用于解决目前的算法并不能很好地抑制非声源方向的噪音的技术问题。

有鉴于此，本申请实施例第一方面提供一种音频处理的方法，包括：

获取第一音频数据，所述第一音频数据为通过麦克风阵列获取到的音频数据；

对所述第一音频数据进行声源定位和定向增强，得到第二音频数据；

获取噪声数据，所述噪声数据为通过指向噪声方向的单指向麦克风获取到的音频数据；

根据所述噪声数据对所述第二音频数据进行滤波，得到第三音频数据。

在一种可能的设计中，在本申请实施例第一方面的一种实现方式中，得到第三音频数据之后，所述方法还包括：根据第三音频数据播放声音。

在一种可能的设计中，在本申请实施例第一方面的一种实现方式中，得到第三音频数据之后，所述方法还包括：通过第三音频数据和视频数据合成音视频数据。

本申请实施例第二方面提供了一种音频处理的装置，包括：

获取单元，用于获取第一音频数据，所述第一音频数据为通过麦克风阵列获取到的音频数据；

处理单元，用于对所述第一音频数据进行声源定位和定向增强，得到第二音频数据；

获取单元，还用于获取噪声数据，所述噪声数据为通过指向噪声方向的单指向麦克风获取到的音频数据；

处理单元，还用于根据所述噪声数据对所述第二音频数据进行滤波，得到第三音频数据。

在一种可能的设计中，在本申请实施例第二方面的一种实现方式中，所述处理单元还用于：通过所述第二音频数据的自谱密度除以所述第二音频数据的自谱密度与所述噪声数据的自谱密度之和，得到滤波表达式；根据所述滤波表达式和所述第二音频数据计算所述第三音频数据。

在一种可能的设计中，在本申请实施例第二方面的一种实现方式中，所述处理单元还用于：

根据声源定位算法确定所述第一音频数据中声源的角度；

根据所述声源的角度确定导向矢量；

获取多麦克滤波器矩阵；

根据所述导向矢量和所述多麦克滤波器矩阵确定所述麦克风阵列在不同方向的增益向量；

根据所述增益向量和所述第一音频数据确定所述第二音频数据。

在一种可能的设计中，在本申请实施例第二方面的一种实现方式中，所述处理单元还用于：根据所述第三音频数据进行语音识别。

在一种可能的设计中，在本申请实施例第二方面的一种实现方式中，所述处理单元还用于：根据第三音频数据播放声音。

在一种可能的设计中，在本申请实施例第二方面的一种实现方式中，所述处理单元还用于：通过第三音频数据和视频数据合成音视频数据。

本申请实施例第三方面提供一种终端设备，包括：一个或一个以上中央处理器，存储器，麦克风阵列，单指向麦克风；

所述存储器为短暂存储存储器或持久存储存储器；

所述中央处理器配置为与所述存储器通信，执行所述存储器中的指令操作以执行第一方面的方法；

所述麦克风阵列与所述中央处理器连接，用于获取第一音频数据；

所述单指向麦克风与所述中央处理器连接，用于获取噪音数据。

本申请实施例第四方面提供一种计算机可读存储介质，包括指令，当所述指令在计算机上运行时，使得计算机执行如第一方面的方法。

本申请第五方面提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行如第一方面的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

附图说明

图1为本申请实施例中麦克风布置示意图；

图2为本申请实施例中全向麦克风的拾音增益图；

图3为本申请实施例中单指向麦克风的拾音增益图；

图4为本申请实施例中音频处理方法的流程图；

图5为本申请实施例提供的音频处理方法的一个实施例的流程图；

图6为第二音频数据的示意图；

图7为第三音频数据的示意图；

图8为本申请实施例中均匀线形差分麦克风阵列算法的原理图；

图9为麦克风阵列的增益向量图；

图10为本申请实施例提供的音频处理方法的一个可选实施例的流程图；

图11为本申请实施例应用在智能电视机的示意图；

图12为本申请实施例提供的音频处理方法的一个可选实施例的流程图；

图13为本申请实施例应用于语音通话设备的示意图；

图14为本申请实施例提供的音频处理方法的一个可选实施例的流程图；

图15为本申请实施例应用于监听监视设备的示意图；

图16为本申请实施例提供的音频处理的装置的示意图；

图17为本申请实施例提供的终端设备的示意图。

具体实施方式

本申请实施例提供了一种音频处理的方法以及相关装置，用于解决目前的算法并不能很好地抑制非声源方向的噪音的技术问题。本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，智能音箱越来越成为智能家居的中心控制装置，人们通过向智能音箱说话，输入语音指令，便能够实现智能家居的控制，十分方便。而智能音箱大部分是通过麦克风阵列对用户语音拾取。这些麦克风阵列通常由多颗麦克风组成，多颗麦克风的种类相同，性能相同，可以全部是全向麦克风，也可以全部是单指向的麦克风。

可以理解的是，本申请实施例中音频处理的方法以及相关装置可以应用在智能音箱，智能电视等语音控制设备，还可以应用在手机，电脑等语音通话设备，也可以应用在录音监听设备。应用在这些设备的情况类似，均是设置麦克风阵列以及单指向麦克风，并结合本申请实施例的音频处理的方法进行过滤，得到去除噪音后的音频。具体实现方式可参考下面对本申请实施例应用在智能音箱的详细描述。

请参阅图1，图1为本申请实施例中麦克风布置示意图。本申请实施例中对音频采集的设备不仅包括麦克风阵列，还包括单指向麦克风。本申请实施例中，麦克风阵列用于采集包括声源的音频数据，单指向麦克风指向噪声方向，用于采集噪声数据，从而在音频数据中除去噪声数据。

在本申请实施例中，麦克风阵列成线形排列，并且每个麦克风之间的间距相等，麦克风数量为5颗。这些麦克风阵列用于采集包括声源的音频数据，并将这些音频数据输入处理器做进一步处理。麦克风的种类、性能均不做限定。在实际应用中，麦克风阵列还可以是圆形，或者可以是其他固定相对位置构型的麦克风阵列，具体此处对麦克风的分布不做限定。在实际应用中，麦克风的间距可以不相等，也可以相等。在实际应用中，麦克风的数量可以是任意数量，具体不做限定。

图2为本申请实施例中全向麦克风的拾音增益图，全向麦克风对全部方向的声音信号都进行采集，不管说话的人在哪里对着麦克风说话，前后左右，从0°到360°，所有的这些声音都会以相同的灵敏度被拾取。由全向麦克风组成的麦克风阵列，也是对全部方向的声音信号进行收集。

在本申请实施例中，单指向麦克风的种类、性能均不做限定。单指向麦克风可以安装在设备的任意位置，并指向噪声方向。可以理解的是，可以预先设置单指向麦克风的方向，例如，当单指向麦克风设置在地铁的语音问答机，一般认为声源方向为问答机前方用户站立的方向，非声源方向都是噪声方向，可以分别设置单指向麦克风，又例如，当单指向麦克风设置在智能音箱时，一般认为声源方向为音箱正前方和侧前方，而非声源方向为噪声方向，可以分别设置单指向麦克风。单指向麦克风的数量具体不做限定，可以是一个，也可以是多个，根据噪声的方向和实际情况具体设定。

图3为本申请实施例中单指向麦克风的拾音增益图。单指向麦克风仅仅接收从指定方向来的声音。对于指定方向，单指向麦克风能够进行无削弱的接收，对于非声源方向的声音，单指向麦克风则会进行一些削弱和衰减。如图3所示，340度为该单指向麦克风指定的方向，在该方向下，单指向麦克风能够完全无削弱地接收声音，而非声源方向则是受到了不同程度的削弱。

在本申请实施例中，麦克风阵列和单指向麦克风都连接到处理器，用于将收集到的音频数据输入到处理器，以进行下一步处理。处理器运行指令实现本申请实施例提供的音频处理的方法，可以输出去除噪声后的音频数据，然后根据实际应用对音频数据进行进一步处理，例如，应用在语音通话设备时，则输出到通话的另一方的设备，使得对方设备播放去除噪声后的音频，提升通话体验，又例如应用在语音控制设备时，进一步做语音识别等处理，实现语音控制，如智能音箱控制播放歌曲、控制其他智能家居，或者智能电视控制播放的节目等。应用到监听监视设备时，可以将去除噪声后的音频数据与视频数据结合，生成音视频数据以供播放。

根据如图1所示的麦克风布置方式，本申请实施例的音频处理方法如图4所示，图4为本申请实施例中音频处理方法的流程图。请参阅图4，声源由麦克风阵列收集，即麦克风阵列收集到包含声源的音频数据，然后进行声源定位和定向增强处理，增强处理后的音频数据准备进行降噪处理。另一方面，单指向麦克风收集到包含噪声的音频数据，然后发送给处理器，处理器根据该噪声数据对增强处理后的音频数据进行噪声估计，得到降噪后的增强降噪语音。总体流程如下：

(1)声源发出语音，麦克风阵列通过声源定位算法计算出声源方向。同时可以通过Beamforming算法对该方向声音进行语音增强。

(2)单指向麦克风指向噪音方向(或非语音方向)，同步采集到周围环境的噪声数据(非语音数据)，用这个数据来做噪声估计。

(3)利用单指向麦克风估计的噪声数据对增强后的音频数据进行噪声估计，得到最终增强降噪的语音。

实际应用中如智能电视机，电视中内置了一个线形的麦克风阵列，人们可以通过语音对电视机下命令切换到不同的频道。但是由于环境噪声较大，通常这个麦克风阵列的到的语音信号伴随很多噪声。我们可以用一颗或多颗单指向的麦克风指向电视上方或侧方，实时采集环境噪音，通过该噪声估计的实际值，来滤除麦克风阵列增强后的音频数据。从而得到较为纯净的信号。

在本申请实施例中，麦克风阵列采集包含声源的音频数据和单指向麦克风采集噪声数据可以同时进行，也可以不同时进行，同时进行能够达到更好的去噪效果。同步采集噪声数据能够确切保证去除的噪音数据为与麦克风阵列收集到的音频数据在时间上对应，则能够准确去除当前的噪音。

下面将对本申请实施例提供的音频处理方法进行详细的描述。请参阅图5，图5为本申请实施例提供的音频处理方法的一个实施例的流程图，该流程包括以下步骤：

501、获取第一音频数据，第一音频数据为通过麦克风阵列获取到的音频数据；

在本申请实施例中，可以通过麦克风阵列获取到第一音频数据。麦克风阵列中包括一个或多个麦克风，每个麦克风都能接收音频数据，将这些音频数据结合起来组成第一音频数据。

可以理解的是，在麦克风阵列与处理器的连接实现方式上，可以是麦克风阵列通过总线与处理器连接，或者麦克风阵列中的每个麦克风单独与处理器连接，具体连接方式此处不做限定。麦克风阵列与处理器的连接可以是直接连接，也可以是间接连接，耦合连接，例如通过存储器间接连接。

可以理解的是，麦克风获取到的第一音频数据可以直接发送到处理器做下一步处理，也可以存储到存储器，等到处理器读取处理。本申请实施例中，获取第一音频数据可以是处理器读取存储器中的第一音频数据，也可以是直接获取麦克风阵列的第一音频数据。

在本申请实施例中，第一音频数据可以带有时间标识，以便于与噪声数据同步。

502、对第一音频数据进行声源定位和定向增强，得到第二音频数据；

在本申请实施例中，可以通过声源定位算法计算出声源方向，计算出声源方向后可以通过定向增强算法对该方向的音频进行语音增强。进行声源定位的声源定位算法可以是基于最大输出功率的可控波束形成技术、基于高分辨率谱图估计技术和基于声音时间差(time-delay estimation，TDE)的声源定位技术，可以根据实际情况具体选择声源定位算法进行声源定位，具体此处不做限定。

可以理解的是，定向增强算法可以采用波束成形算法(Beamforming)，例如固定波束成型算法、自适应波束成型算法等，也可以采用机器学习的方法，具体可以根据实际情况配置，具体此处不做限定。

经过声源定位和定向增强后，第一音频数据转换为第二音频数据。

503、获取噪声数据，噪声数据为通过指向噪声方向的单指向麦克风获取到的音频数据；

在本申请实施例中，可以通过指向噪声方向的单指向麦克风获取噪声数据。单指向麦克风获取到的噪声数据可以直接发送到处理器，也可以存储在存储器中等待读取。处理器获取噪声数据可以是直接从单指向麦克风中获取，也可以是从存储器中读取保存的噪声数据。

可以理解的是，噪声数据中可以带有时间标识，以便于与麦克风阵列的音频数据同步。

在本申请实施例中，单指向麦克风的指向可以预先设置，也可以自适应设置，非声源方向都可以认为是噪声方向。例如，智能电视机，电视中内置了一个线形的麦克风阵列，人们可以通过语音对电视机下命令切换到不同的频道，而电视机前方为声源方向，则电视机上方下方后方和侧方都是噪声方向。

可以理解的是，单指向麦克风可以为一个或多个。当单指向麦克风为多个的时候，可以将单指向麦克风获取到的音频数据综合起来作为噪声数据。

504、根据噪声数据对第二音频数据进行滤波，得到第三音频数据。

在本申请实施例中，滤波方法可以设计维纳滤波器降噪，或者采用自适应滤波方法进行降噪，具体此处不做限定。

将第二音频数据和噪声数据输入至维纳滤波器后可以得到第三音频数据，即第二音频数据经过滤波处理后得到第三音频数据。通过第二音频数据和噪声数据可以计算得到滤波器的滤波表达式。

得到第三音频数据后，可以进行语音识别，也可以进行音频播放，在实际应用中，还可以将音频数据和视频数据结合成音视频数据，具体此处不做限定。

可选地，在上述图5对应的各个实施例的基础上，本申请实施例提供的音频处理方法的一个可选实施例中，根据噪声数据对第二音频数据进行滤波，得到第三音频数据包括：

通过第二音频数据的自谱密度除以第二音频数据的自谱密度与噪声数据的自谱密度之和，得到滤波表达式；

根据滤波表达式和第二音频数据计算第三音频数据。

在本申请实施例中，具体可以采用单通道维纳滤波算法进行滤波，其滤波表达式为：

其中，表示第二音频数据的自谱密度，表示噪声数据的自谱密度，h(f)表示滤波器的滤波表达式。

通过单通道维纳滤波算法对第二音频数据进行滤波，可以得到第三音频数据，第三音频数据为干净的语音信号。

图6为第二音频数据的示意图，可以看出，第二音频数据还包括很多噪声，经过声源定位和定向增强后的音频数据在声源方向增益较大，但是声源方向还会包含许多噪声，需要进一步滤波。

图7为第三音频数据的示意图，可以看出，结合第二音频数据和噪声数据对第二音频数据进行滤波后，得到的第三音频数据噪声基本消除，留下声源的音频数据，达到去躁的效果。

从图6和图7的对比可以看出，通过单指向麦克风对麦克风阵列的音频数据进行去躁的效果很明显，能够去除大部分噪声数据。

可选地，在上述图5对应的各个实施例的基础上，本申请实施例提供的音频处理方法的一个可选实施例中，对第一音频数据进行声源定位和定向增强，得到第二音频数据包括：

根据声源定位算法确定第一音频数据中声源的角度；

根据声源的角度确定导向矢量；

获取多麦克滤波器矩阵；

根据导向矢量和多麦克滤波器矩阵确定麦克风阵列在不同方向的增益向量；

根据增益向量和第一音频数据确定第二音频数据。

在本申请实施例中，在0度到180度，麦克风阵列由五颗均匀的线形麦克风组成，采用均匀线形差分麦克风阵列算法，麦克风个数M等于5，如图1所示。此外另设置一个单指向麦克风用于收集噪音数据。

在本申请实施例中，首先根据声源定位算法确定第一音频数据中声源的角度。可以理解的是，声源定位算法具体不做限定。

图8为本申请实施例中均匀线形差分麦克风阵列算法的原理图。根据图8，首先确定导向矢量d。

在开阔、无反射的声学环境中，当声源于阵列指间之间的距离远大于麦克风的间距时，其对应的传递向量是由一个声源方位函数决定的，对于均匀线形麦克风阵列，传递函数向量可以表示为：

其中，θ_d为声源相对麦克风阵列的角度，ω＝2Πf表示角频率，f是声音频率。τ₀＝σ/c，σ为麦克风间距，c是空气中声音的传播速度。

h(w)是一个滤波器矩阵，针对M个麦克风设置M组滤波系数，通过设置不同的滤波系数组合达到对某个方向的声音进行增强，对某个方向的声音进行衰减的作用，从而称作滤波器矩阵。多麦克滤波器矩阵h(w)的表达式为：

h(ω)＝[H₁(ω)H₂(ω)...H_M(ω)]^T

其中，H_M(ω)表示第M个麦克风的滤波系数。

根据滤波器矩阵和导向矢量可以确定麦克风阵列在不同方向的增益向量。根据增益向量计算公式可以计算得出，增益向量计算公式为：

其中，B为麦克风阵列在θ方向的增益向量，d^H中的H表示数学运算共轭转置。通过增益向量计算公式可以计算出麦克风阵列在θ方向的增益向量，从而调节麦克风阵列在不同方向的拾音，使得麦克风阵列在声源方向的拾音更加突出，达到定向增强的效果。

在本申请实施例中，取麦克风阵列中的麦克风数量M为5，通过声源定位算法得到声源相对麦克风阵列的角度为θ_d，则可以计算得出麦克风阵列在θ方向的增益向量从而调节麦克风阵列在不同方向的拾音。假设通过声源定位算法得到声源相对麦克风阵列的角度为0度，则得到的增益向量图如图9所示。图9为麦克风阵列的增益向量图(拾音增益图)。麦克风阵列对0度方向进行拾音，非声源方向经过空间过滤衰减掉，从而达到抑制非语音方向噪声的目的。由于不同麦克风位置不同，它们接收到同一个声源发出的声波的声压存在差值，由于个方向声波到达麦克风的时间差有所不同，不同麦克风对不同方向声波的相应也自然不同，麦克风阵列波束形成获得空间指向性的原理就是通过测量声压的微分获得的指向性。

由图9可以看到，经过定向增强后的麦克风阵列将0度目标方向的语音信号放大，此时180度方向的噪声信号并没有完全抑制，进一步地，可以在这种情况下利用单指向麦克风做噪声估计，得到去除噪声后的音频。

可选地，在上述图5对应的各个实施例的基础上，本申请实施例还提供音频处理方法的一个可选实施例，请参阅图10，图10为本申请实施例提供的音频处理方法的一个可选实施例的流程图，该流程包括以下步骤：

1001、获取第一音频数据，第一音频数据为通过麦克风阵列获取到的音频数据；

在本申请实施例中，步骤1001与前述图5所示实施例中步骤501类似，此处不再赘述。

1002、对第一音频数据进行声源定位和定向增强，得到第二音频数据；

在本申请实施例中，步骤1002与前述图5所示实施例中步骤502类似，此处不再赘述。

1003、获取噪声数据，噪声数据为通过指向噪声方向的单指向麦克风获取到的音频数据；

在本申请实施例中，步骤1003与前述图5所示实施例中步骤503类似，此处不再赘述。

1004、根据噪声数据对第二音频数据进行滤波，得到第三音频数据。

在本申请实施例中，步骤1004与前述图5所示实施例中步骤504类似，此处不再赘述。

1005、根据第三音频数据进行语音识别。

在本申请实施例中，主要应用在智能音箱和智能电视机，或者是其他与语音控制设备，例如智能投影仪、智能门铃等。这些设备获取到第三音频数据之后，可以通过语音识别算法进行语音识别，从而识别出第三音频数据中语音的含义，并进行相应的处理。

图11为本申请实施例应用在智能电视机的示意图。可以看出，用户对智能电视机说出“调高音量”，则麦克风阵列会拾取包括这些语音的音频数据，并进行定向增强，同时单指向麦克风能够拾取噪音数据，然后通过噪音数据对定向增强后的音频数据进行噪声分析去噪，从而得到去噪后的音频数据。智能电视机对这些去噪后的第三音频数据进行语音识别时，因为第三音频数据中的噪音比较少，因此能够更加准确快速地识别得到该语音指令，从而根据该语音指令进行音量调节。

可选地，在上述图5对应的各个实施例的基础上，本申请实施例还提供音频处理方法的一个可选实施例，请参阅图12，图12为本申请实施例提供的音频处理方法的一个可选实施例的流程图，该流程包括以下步骤：

1201、获取第一音频数据，第一音频数据为通过麦克风阵列获取到的音频数据；

在本申请实施例中，步骤1201与前述图5所示实施例中步骤501类似，此处不再赘述。

1202、对第一音频数据进行声源定位和定向增强，得到第二音频数据；

在本申请实施例中，步骤1202与前述图5所示实施例中步骤502类似，此处不再赘述。

1203、获取噪声数据，噪声数据为通过指向噪声方向的单指向麦克风获取到的音频数据；

在本申请实施例中，步骤1203与前述图5所示实施例中步骤503类似，此处不再赘述。

1204、根据噪声数据对第二音频数据进行滤波，得到第三音频数据。

在本申请实施例中，步骤1204与前述图5所示实施例中步骤504类似，此处不再赘述。

1205、根据第三音频数据播放声音。

在本申请实施例中，主要应用在语音通话设备，例如对讲机、手机等，在实际应用中，还可以是其他设备，具体此处不做限定。这些设备获取到第三音频数据之后，可以通过喇叭等模块将音频数据播放，从而达到通话效果。

图13为本申请实施例应用于语音通话设备的示意图。语音通话设备对第二音频数据进行去噪处理，得到第三音频数据后，将第三音频数据发送到另一语音通话设备，另一语音通话设备根据第三音频数据播放声音，从而声源可以到达远在千里之外的另一语音通话设备播放。在本申请实施例中，该传输的第三音频数据是经过去噪之后的音频数据，播放出来的声音更加纯净和清楚，使得用户有更好的通话体验。

可选地，在上述图5对应的各个实施例的基础上，本申请实施例还提供音频处理方法的一个可选实施例，请参阅图14，图14为本申请实施例提供的音频处理方法的一个可选实施例的流程图，该流程包括以下步骤：

1401、获取第一音频数据，第一音频数据为通过麦克风阵列获取到的音频数据；

在本申请实施例中，步骤1401与前述图5所示实施例中步骤501类似，此处不再赘述。

1402、对第一音频数据进行声源定位和定向增强，得到第二音频数据；

在本申请实施例中，步骤1402与前述图5所示实施例中步骤502类似，此处不再赘述。

1403、获取噪声数据，噪声数据为通过指向噪声方向的单指向麦克风获取到的音频数据；

在本申请实施例中，步骤1403与前述图5所示实施例中步骤503类似，此处不再赘述。

1404、根据噪声数据对第二音频数据进行滤波，得到第三音频数据。

在本申请实施例中，步骤1404与前述图5所示实施例中步骤504类似，此处不再赘述。

1405、通过第三音频数据和视频数据合成音视频数据。

在本申请实施例中，主要应用在监听监视设备，例如监视摄像头、防盗摄像头等，在实际应用中，还可以是录像机、摄像机、行车记录仪等，具体此处不做限定。这些设备获取到第三音频数据之后，可以通过第三音频数据和视频数据合成音视频数据，例如合成MP4格式的视频文件等。

图15为本申请实施例应用于监听监视设备的示意图，例如是摄像头与麦克风的搭配设备，麦克风设备得到第三音频数据后，与摄像头获取到的视频数据可以结合，通过处理器合成音视频数据，当需要查看录像时，用户可以打开这个音视频，从而在观看视频的时候能够听到同步的声音。此外，还可以将这个音视频数据发送到别的设备进行播放。

可以理解的是，第三音频数据和视频数据中可以带有时间标识，用于声音与画面的同步。

图16为本申请实施例提供的音频处理的装置的示意图，请参阅图16，本申请实施例还提供一种音频处理的装置1600，包括：

获取单元1601，用于获取第一音频数据，所述第一音频数据为通过麦克风阵列获取到的音频数据；

处理单元1602，用于对所述第一音频数据进行声源定位和定向增强，得到第二音频数据；

获取单元1601，还用于获取噪声数据，所述噪声数据为通过指向噪声方向的单指向麦克风获取到的音频数据；

处理单元1602，还用于根据所述噪声数据对所述第二音频数据进行滤波，得到第三音频数据。

可选地，在上述图16对应的各个实施例的基础上，本申请实施例提供的音频处理装置的一个可选实施例中，处理单元1602还用于：通过第二音频数据的自谱密度除以第二音频数据的自谱密度与噪声数据的自谱密度之和，得到滤波表达式；根据滤波表达式和第二音频数据计算第三音频数据。

可选地，在上述图16对应的各个实施例的基础上，本申请实施例提供的音频处理装置的一个可选实施例中，处理单元1602还用于：

根据声源定位算法确定第一音频数据中声源的角度；

根据声源的角度确定导向矢量；

获取多麦克滤波器矩阵；

根据增益向量和第一音频数据确定第二音频数据。

根据第三音频数据进行语音识别。

根据第三音频数据播放声音。

通过第三音频数据和视频数据合成音视频数据。

图17为本申请实施例提供的终端设备的示意图，请参阅图17，本申请实施例还提供一种终端设备，包括：一个或一个以上中央处理器1701，存储器，麦克风阵列1702，单指向麦克风1703；

存储器为短暂存储存储器或持久存储存储器；

中央处理器配置1701为与存储器通信，执行存储器中的指令操作以执行上述实施例的方法；

麦克风阵列1702与中央处理器1701连接，用于获取第一音频数据；

单指向麦克风1703与中央处理器1701连接，用于获取噪音数据。

麦克风阵列1702中的麦克风可以均匀线形排列或者呈圆形排列。

麦克风阵列1702中的麦克风可以都是全向麦克风或者都是单指向麦克风。

在本申请实施例中，中央处理器1701具体用于：

获取第一音频数据，第一音频数据为通过麦克风阵列获取到的音频数据；

对第一音频数据进行声源定位和定向增强，得到第二音频数据；

获取噪声数据，噪声数据为通过指向噪声方向的单指向麦克风获取到的音频数据；

根据噪声数据对第二音频数据进行滤波，得到第三音频数据。

在本申请实施例中，中央处理器1701还用于：

通过第二音频数据的自谱密度除以第二音频数据的自谱密度与噪声数据的自谱密度之和，得到滤波表达式；根据滤波表达式和第二音频数据计算第三音频数据。

在本申请实施例中，中央处理器1701还用于：

根据声源定位算法确定第一音频数据中声源的角度；

根据声源的角度确定导向矢量；

获取多麦克滤波器矩阵；

根据增益向量和第一音频数据确定第二音频数据。

在本申请实施例中，中央处理器1701还用于：根据第三音频数据进行语音识别。

在本申请实施例中，中央处理器1701还用于：根据第三音频数据播放声音。

在本申请实施例中，中央处理器1701还用于：通过第三音频数据和视频数据合成音视频数据。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种音频处理的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述噪声数据对所述第二音频数据进行滤波，得到第三音频数据包括：

通过所述第二音频数据的自谱密度除以所述第二音频数据的自谱密度与所述噪声数据的自谱密度之和，得到滤波表达式；

根据所述滤波表达式和所述第二音频数据计算所述第三音频数据。

3.根据权利要求1所述的方法，其特征在于，所述对所述第一音频数据进行声源定位和定向增强，得到第二音频数据包括：

根据声源定位算法确定所述第一音频数据中声源的角度；

根据所述声源的角度确定导向矢量；

获取多麦克滤波器矩阵；

4.根据权利要求1所述的方法，其特征在于，所述根据所述噪声数据对所述第二音频数据进行滤波，得到第三音频数据之后，所述方法还包括：

根据所述第三音频数据进行语音识别。

5.一种音频处理的装置，其特征在于，包括：

6.一种终端设备，其特征在于，包括：一个或一个以上中央处理器，存储器，麦克风阵列，单指向麦克风；

所述存储器为短暂存储存储器或持久存储存储器；

所述中央处理器配置为与所述存储器通信，执行所述存储器中的指令操作以执行权利要求1至4中任意一项所述的方法；

7.根据权利要求6所述的终端设备，其特征在于，所述麦克风阵列均匀线形排列或所述麦克风阵列圆形排列。

8.根据权利要求6所述的终端设备，其特征在于，所述麦克风阵列中的麦克风为全向麦克风。

9.根据权利要求6所述的终端设备，其特征在于，所述麦克风阵列中的麦克风为单指向麦克风。

10.一种计算机可读存储介质，其特征在于，包括指令，当所述指令在计算机上运行时，使得计算机执行如权利要求1至4中任意一项所述的方法。