CN113767432A

CN113767432A - 音频处理方法、音频处理装置、电子设备

Info

Publication number: CN113767432A
Application number: CN202080030168.0A
Authority: CN
Inventors: 莫品西; 边云锋; 刘洋
Original assignee: SZ DJI Technology Co Ltd
Current assignee: SZ DJI Technology Co Ltd
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2021-12-07
Also published as: WO2022000174A1

Abstract

一种音频处理方法，包括：获取待处理音频信号，该待处理音频信号包括不同频率的音频分量(S101)；确定每个所述音频分量对应的声源方向(S102)；基于所述声源方向与目标方向的匹配度，调整所述音频分量的增益(S103)；基于调整增益后的所述音频分量合成目标音频信号(S104)。该音频处理方法实现了任意方向的指向性拾音。

Description

音频处理方法、音频处理装置、电子设备

技术领域

本申请涉及音频处理技术领域，尤其涉及一种音频处理方法、音频处理装置、电子设备及计算机可读存储介质。

背景技术

指向性拾音是一种仅对指定方向来源的声音进行拾取的技术，该技术被广泛的应用在专业录音和影视等行业。但随着自媒体、Vlog等多媒体应用的兴起，普通消费者群体对指向性拾音的需求也有所增加。

发明内容

有鉴于此，本申请提供一种音频处理方法、音频处理装置、电子设备及计算机可读存储介质，以实现任意方向的指向性拾音。

本申请第一方面提供一种音频处理方法，包括：

获取待处理音频信号，其中，所述待处理音频信号包括不同频率的音频分量；

确定每个所述音频分量对应的声源方向；

基于所述声源方向与目标方向的匹配度，调整所述音频分量的增益；

基于调整增益后的所述音频分量合成目标音频信号。

本申请第二方面提供一种音频处理装置，包括：处理器与存储有计算机程序的存储器；

所述处理器在执行所述计算机程序时实现以下步骤：

确定每个所述音频分量对应的声源方向；

基于调整增益后的所述音频分量合成目标音频信号。

本申请第三方面提供一种电子设备，包括：处理器与存储有计算机程序的存储器；

所述处理器在执行所述计算机程序时实现以下步骤：

确定每个所述音频分量对应的声源方向；

基于声源方向与目标方向的匹配度，调整所述音频分量的增益；

基于调整增益后的所述音频分量合成目标音频信号。

本申请第四方面提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序；所述计算机程序被处理器执行时实现上述第一方面所述的音频处理方法。

本申请实施例提供的音频处理方法，关注到待处理音频信号所包括的不同频率的音频分量，针对每个音频分量，分别确定其声源方向，并可以根据声源方向与目标方向的匹配度，调整音频分量的增益，从而使得合成的目标音频信号中，来源于目标方向的声音能够更加突出，实现了指向性拾音。并且，由于可以对不同频率的音频分量进行增益调整，因此不同频率上的指向性灵活可控。此外，目标方向可以根据需求灵活设定，因此可以实现任意方向的指向性拾音。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种音频处理方法的流程图。

图2是本申请实施例提供的一种音频处理方法的算法框图。

图3是本申请实施例提供的一种音频处理装置的结构示意图。

图4是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

指向性拾音，即对指定方向的声音进行拾取。随着自媒体、vlog等多媒体应用的兴起，指向性拾音的需求在普通消费者群体中也逐渐增加。

指向性拾音主要有两种实现方式。一种是通过物理结构的设计来实现指向性，如枪式麦克风。这种实现方式通常涉及较复杂的声学结构，且往往需要一定的体积，不具有便携性，本申请对此种实现方式不作过多讨论。

另一种是基于算法来实现指向性拾音，比如基于麦克风阵列的波束形成算法。基于麦克风阵列的波束形成算法可以对任意感兴趣的方向进行指向性拾音，从原理上看，该算法在确定感兴趣方向后，可以通过对麦克风阵列中各个麦克风采集的音频信号进行相位和/或幅度的调整，以使各个麦克风采集的音频信号均往感兴趣方向上增强，再对各个调整后的音频信号进行加权，合成最终需要的音频信号，实现指向性拾音。

申请人发现，上述的波束形成算法虽然能够对任一方向进行指向性拾音，但其指向性性能需依赖麦克风阵列的尺寸和麦克风位置布置，较强的指向性需要以较大尺寸的麦克风阵列为基础，不合理的麦克风位置布置也会导致部分频段指向性不满足要求。并且，上述的波束形成算法在各频率上的指向性强度不一，往往在高频信号上才有较好的指向性，低频信号则几乎没有指向性。

鉴于波束形成算法具有上述缺点，本申请实施例提出一种音频处理方法，在实现指向性拾音的同时，各频率上的指向性也可以按需灵活设定，且该方法只需小型的麦克风阵列或至少两个的麦克风即可满足强指向性的需求。可以参见图1，图1是本申请实施例提供的一种音频处理方法的流程图。

该音频处理方法可以应用于各种具有拾音功能的电子设备，包括但不限于手机、照相机、摄像机、运动相机、云台相机、录音笔、话筒、穿戴电子设备、智能音箱、智能家电、监控、智能机器人等。该方法也可以应用于有处理能力的音频处理装置，该音频处理装置可以用于对其他设备所采集的音频信号进行后处理。

本申请实施例所提供的方法包括以下步骤：

步骤101、获取待处理音频信号。

其中，所述待处理音频信号包括不同频率的音频分量。

步骤102、确定每个音频分量对应的声源方向。

步骤103、基于所述声源方向与目标方向的匹配度，调整所述音频分量的增益；

步骤104、基于调整增益后的所述音频分量合成目标音频信号。

在一个声场中，可以通过至少两个麦克风对该声场的声音进行采集。对于待处理音频信号，其可以是该声场中任一麦克风采集的音频信号，也可以是利用该声场中的若干个麦克风采集的音频信号合成的音频信号。

待处理音频信号包括不同频率的音频分量。在确定待处理音频信号所包含的音频分量时，或者说，在确定待处理音频信号的频率构成时，可以有多种实施方式。在一种实施方式中，可以对待处理音频信号进行傅里叶变换，将待处理音频信号从时域变换至频域，从而确定其所包含的不同频率的音频分量。在其他的实施方式中，还可以采用滤波法、子代分析法等作为傅里叶变换的替代手段，这些替代手段同样可以确定出该待处理音频信号所包括的音频分量。

针对每个频率的音频分量，可以确定其对应的声源方向。在确定音频分量的声源方向时，可以基于声源定位算法确定。可选的声源定位算法有多种，比如波束形成算法、到达时间差估计算法、差分麦克风阵列算法等。根据任一种声源定位算法，利用该声场中至少两个麦克风采集的音频信号，可以计算出该声场中各频率的音频分量对应的声源方向。在一种实施方式中，声源方向可以用周角和/或俯仰角表示。

上述的至少两个麦克风，由于该至少两个麦克风采集的音频信号主要参与声源方向的计算，因此可以将该至少两个麦克风称为定向麦克风。而对于待处理音频信号，其可以是利用定向麦克风采集的音频信号中的一个或多个得到的。比如，在一种实施中，待处理音频信号可以是定向麦克风所采集的音频信号中信噪比最高的音频信号。又比如，待处理音频信号可以是定向麦克风所采集的音频信号合成的音频信号。在另一种实施方式中，待处理音频信号还可以是根据定向麦克风以外的其他麦克风采集的音频信号得到的。

为方便理解，可以举个例子。比如，麦克风阵列可以包括6个麦克风，可以选择其中的3个麦克风作为定向麦克风，则待处理音频信号可以是利用该3个定向麦克风采集的音频信号得到的，也可以是根据另外3个麦克风采集的音频信号得到的。又比如，在另一个例子中，待处理音频信号还可以是根据该麦克风阵列外的其它麦克风采集的音频信号确定的，其他的麦克风还可以是其他设备上的麦克风。

需要注意的是，由于方向是一个相对的概念，因此在表示一个方向时，通常可以先确定一个基准，该基准可以是一个基准的方向，也可以是一个作为基准的坐标系等等。而方向的具体表达方式有多种，在实际工程应用中，一个方向可以对应一个角度，可以对应一个角度所落入的范围(如东南西北、前后左右、区间)，也可以对应一个矢量，或者对应一个坐标(通过该坐标与基准点坐标可以确定方向)。当然，也还有其他的方式可以表示方向，在此不一一列举。

目标方向可以是用户的感兴趣方向。在一种实施方式中，其可以是用户设定的方向。比如用户可以与应用了本申请所提供的方法的电子设备进行交互，通过输入方向信息来设定目标方向。在另一种实施方式中，上述的电子设备可以具有位姿信息可变化的摄像头，电子设备可以获取摄像头的位姿信息，从而确定摄像头的朝向，并可以将目标方向设定为与该摄像头的朝向相匹配。

对于位姿信息可变化的摄像头，其可以对应多种实施方式。比如，电子设备可以配备云台，云台上安装摄像头，则摄像头可在云台的控制下全方位的转动。又比如，摄像头可以安装在滑轨上，通过电机驱动摄像头在滑轨上滑动。当然，还有其他的实施方式，即摄像头是可相对于机体运动的，都属于本申请所提及的位姿信息可变化的摄像头。

在确定每个音频分量对应的声源方向后，可以根据声源方向与目标方向的匹配度，调整音频分量的增益。在一种实施方式中，可以对声源方向与目标方向的匹配度高的音频分量进行增益调整，比如可以提高匹配度高的音频分量的增益。在另一种实施方式中，还可以对匹配度低的音频分量进行增益调整，比如降低匹配度低的音频分量的增益。当然，也可以同时提高匹配度高的音频分量的增益和降低匹配度低的音频分量的增益。

考虑到一些特殊的需求，用户可能希望对目标方向的声音进行削弱，则在一种实施方式中，可以对声源方向与目标方向的匹配度高的音频分量进行增益的降低，或者对匹配度低的音频分量进行增益的提高，又或者同时降低匹配度高的音频分量的增益和提高匹配度低的音频分量的增益。

关于声源方向与目标方向的匹配度，其是用于表征声源方向与目标方向之间的差异的。在一种实施方式中，匹配度可以是根据声源方向与目标方向的差值确定的。例如，可以设定一个差值阈值，当声源方向与目标方向的差值小于该差值阈值，则认为该声源方向与目标方向的匹配度高。在另一种实施方式中，声源方向与目标方向之间的差异也可以通过其他方式表达，比如可以通过级别来表达这种差异，如声源方向落入第三区间，目标方向在第一区间，第一区间与第三区间之间间隔了第二区间，则可以确定声源方向与目标方向之间的差异是二级。当然，还有其他多种表达方式，在此不一一列举。

对不同频率的音频分量进行增益调整后，可以基于增益调整后的音频分量合成目标音频信号。目标音频信号的合成可以认为是从频域到时域的变换，其在具体实现时有多种方式，比如可以通过傅里叶逆变换实现，当然，也可以有其他的方式。

本申请实施例提供的音频处理方法，关注到待处理音频信号所包括的不同频率的音频分量，针对每个音频分量，分别确定其声源方向，并可以根据声源方向与目标方向的匹配度，调整音频分量的增益，从而使得合成的目标音频信号中，来源于目标方向的声音能够更加突出，实现了指向性拾音。并且，由于可以对不同频率的音频分量进行增益调整，因此不同频率上的指向性灵活可控。此外，目标方向可以根据需求灵活设定，因此可以实现任意方向的指向性拾音。相比基于波束形成算法实现的指向性拾音，本申请实施例提供的方法只需小型的麦克风阵列或少量(两个以上)的麦克风即可满足强指向性的需求。

在具体调整音频分量的增益时，可以根据声源方向与目标方向的匹配度，确定音频分量的增益系数，从而通过该增益系数对音频分量进行增益调整。而对于增益系数，在一种实施方式中，可以根据预设对应关系确定。预设对应关系可以是匹配度与增益系数的对应关系，因此在确定音频分量的匹配度后，就可以通过该预设对应关系确定该匹配度所对应的增益系数。

预设对应关系在具体设定时，可以根据需求灵活调整。比如，可以使预设对应关系中，匹配度越高，增益系数越大，即匹配度与增益系数正相关。

并且，考虑到增益系数随匹配度的变化过于剧烈时，比如匹配度落入某个范围内对应的增益系数较高，而只要稍微落出该范围，对应的增益系数就迅速降低，如此，合成出的目标音频信号虽然指向性很强，但其他非目标方向的声音将被过度削弱，使音频整体较为生硬、不自然。因此，可以使增益系数随匹配度变化的变化步长小于或等于指定变化量，换言之，即匹配度变化一个单位时，增益系数相应的变化量小于或等于指定变化量，从而使得增益系数的变化相对平滑，合成的目标音频信号听起来也可以更加自然

在一种实施方式中，预设对应关系还可以是声源方向与增益系数的对应关系，即在确定某个音频分量的增益系数时，可以根据该音频分量的声源方向，基于预设对应关系确定该声源方向对应的增益系数。在该实施方式中，预设对应关系在设定时，增益系数需要根据声源方向与目标方向的匹配关系来设定。举个例子，比如目标方向是12点钟，则可以在预设对应关系中设定12点钟的声源方向对应的增益系数是1，11点钟的声源方向对应的增益系数是0.8，10点中的声源方向对应的增益系数是0.5……

可见，在上述实施方式中，虽然预设对应关系中的两个变化参数是声源方向与增益系数，不包括声源方向与目标方向的匹配度，但声源方向所对应的增益系数在数值大小上与该声源方向与目标方向的匹配度是相适应的。

预设对应关系在表现形式上也有多种，其中的一种表现形式可以是函数，该函数可以根据需求自由的设定，而该函数可以反映增益系数随声源方向的变化。在一种设定方式中，增益系数可以随声源方向的变化而连续且平滑的变化。

考虑现实场景中，人对低频声音与高频声音在方向上的感知度是不同的。对于低频声音，由于低频具有较强的绕射能力，因此人耳对低频声音来自哪个方向并不是很敏感，即低频声音的方向感并不突出。而对于高频声音，人耳对其方向感有较灵敏的感知度。因此，为使合成出的目标音频信号在收听效果上更接近现实场景中的收听效果，对于音频分量的增益调整，除了关注该音频分量的声源方向与目标方向的匹配度以外，还可以关注该音频分量的频率，即可以根据音频分量在方向上的匹配度以及该音频分量的频率对该音频分量的增益进行调整。

在一种实施方式中，预设对应关系还可以是增益系数与声源方向、频率这两个参数的对应关系，即在该预设对应关系中，只有音频分量的频率与声源方向确定时，该音频分量的增益系数才唯一确定。如此，在设定该预设对应关系时，可以将低频部分对应的指向性设定得弱一些，高频部分的指向性设定的强一些，比如可以在声源方向相同的基础上，设定对低频对应的增益系数小于高频对应的增益系数。如此，基于该预设对应关系合成的目标音频信号可以在收听效果上更符合人耳的实际听感。

在一种实施方式中，待处理音频信号可以是原始音频信号的一个音频帧，即待处理音频信号可以是对原始音频信号进行分帧处理得到的。该音频帧包括预设个数的采样点，可以将该音频帧称为第一音频帧。相应的，合成的目标音频信号也是一个音频帧，该音频帧与第一音频帧相对应，可以称为第二音频帧。

之所以对原始音频信号进行分帧，是因为信号从时域变换至频域时，变换算法要求输入的信号是平稳的。而在一个帧的时长内，可以认为一个信号是平稳的，因此，可以按照设定的帧长，对原始音频信号进行分帧处理，得到原始音频信号的多个音频帧，而待处理音频信号可以是该多个音频帧中的任一个。

在一种实施方式中，第一音频帧中采样点的个数可以是2的幂次方，以便于在分析第一音频帧(待处理音频信号)所包含的音频分量时，可以采用快速傅里叶变换FFT进行加速计算。

考虑到分帧所得的音频帧往往是非周期性信号，此时若直接进行频谱分析，将容易出现频谱泄漏的现象。因此，在一种实施方式中，可以在分析第一音频帧的频谱之前，将第一音频帧调制为周期性信号。而调制为周期性信号的具体做法，可以是对第一音频帧加分析窗，即将第一音频帧与分析窗的窗函数相乘。该分析窗的窗函数可以是正弦窗、汉宁窗等。

在上述的实施方式中，待处理音频信号是原始音频信号的一个音频帧(第一音频帧)，合成的目标音频信号相应的也只是一个音频帧(第二音频帧)。由于对原始音频信号进行分帧时，帧移(相邻两帧之间采样点的个数)总是小于帧长(一帧内采样点的个数)的，因此音频帧与音频帧之间会有重叠的采样点。鉴于此，在对各个第一音频帧进行处理并合成得到对应的第二音频帧后，可以通过重叠相加法Overlap-add对第二音频帧进行处理，将第二音频帧与前一音频帧重叠的采样点进行累加。

进一步的，考虑前后音频帧之间直接累加，重叠的部分可能有幅值突变，为使最终还原出的完整的音频信号是平滑的，可以在进行累加之前，消除第二音频帧两端幅值的畸变。消除幅值畸变的具体手段，可以是对第二音频帧加合成窗。合成窗的窗函数也有多种选择，比如正弦窗或者汉宁窗等。

需要说明的是，在一种场景中，待处理音频信号可以有多路，每一路待处理音频信号都可以通过本申请实施例提供的音频处理方法进行处理，每一路待处理音频信号所进行的指向性处理所针对的目标方向可以相同也可以不同。比如，可以有两路待处理音频信号，其中一路待处理音频信号可以是针对前方进行指向性拾音的，另一路待处理音频信号可以是针对后方进行指向性拾音的。

下面提供一个相对详尽的实施例，可以参见图2，图2是本申请实施例提供的一种音频处理方法的算法框图。

在一个场景中，可以通过麦克风阵列对同一声场的声音进行采集。比如麦克风阵列中可以包含M个麦克风，M≥2，则第m个麦克风采集到的时域的音频信号可以用x_m(t)表示，其中m为麦克风序号，m＝1,2,…,M，t为采样离散时间序列，t＝1,2,…。原始音频信号(待处理音频信号为原始音频信号的一个音频帧)可以用s_i(t)表示，i表示第i路原始音频信号。

可以以L为帧移，N为帧长，对原始音频信号s_i(t)以及各个麦克风采集的音频信号x_m(t)进行分帧处理，得到原始音频信号对应的第一音频帧s_i(n)_l和麦克风采集的音频信号对应的音频帧x_m(n)_l。其中，n是一个帧信号内的时间序列，n＝1,2,…,N；l是帧序列，l＝1,2,…。

分别对麦克风采集的音频信号对应的音频帧x_m(n)_l与第一音频帧s_i(n)_l进行加分析窗，得到x'_m(n)_l和s'_i(n)_l。将加分析窗后的x'_m(n)_l和s'_i(n)_l分别输入FFT模块，得到时域音频帧x'_m(n)_l和s'_i(n)_l各自对应的频谱X_m(k)_l与S_i(k)_l，其中，k表示离散频谱序列，k＝1,2,…,N。

将各个麦克风对应的频谱X_m(k)_l输入声源定位模块(如图2所示，包括X₁(k)_l、…、X_M-1(k)_l、X_M(k)_l)，在声源定位模块中，基于麦克风阵列的声源定位算法，可以确定该声场中不同频率的音频分量对应的声源方向。其中，频率序号为k的音频分量所对应的声源方向可以用俯仰角Ψ(k)与周角θ(k)表示。

增益系数确定模块包括预设对应关系，该预设对应关系可以是增益系数与声源方向、频率这两个参数的对应关系，在本实施例中，可以用函数G_i(θ,Ψ,k)表示。该函数G_i(θ,Ψ,k)可以灵活的设定，具体的设定方式可以参考前文中关于预设对应关系的设定。

针对每个音频分量S_i(k)_l，可以将该音频分量的声源方向(周角θ(k)、俯仰角Ψ(k))与频率序号k输入增益系数确定模块，从而可以基于函数G_i(θ,Ψ,k)确定出该音频分量S_i(k)_l的增益系数G_i(k)＝G_i(θ(k),Ψ(k),k)。

将G_i(k)与S_i(k)_l输入音频分量增益调整模块，根据该增益系数G_i(k)对音频分量S_i(k)_l进行处理，即使两者相乘，S_i(k)_l＝S_i(k)_l G_i(k)。

将增益调整后的各音频分量S_i(k)_l输入快速傅里叶逆变换IFFT模块，从频域变换回时域，得到时域音频帧s'_i(n)_l。相应的，可以对各个s'_i(n)_l加合成窗，得到s”_i(n)_l。将各个加合成窗后的音频帧s”_i(n)_l通过重叠相加法Overlap-add还原出的音频帧s_i(n)_l。利用各个音频帧s_i(n)_l可以合成最终完整的目标音频信号。

以上为对本申请实施例提供的音频处理方法的详细说明。下面请参见图3，图3是本申请实施例提供的一种音频处理装置的结构示意图。该音频处理装置可以包括：处理器310与存储有计算机程序的存储器320；

所述处理器在执行所述计算机程序时实现以下步骤：

确定每个所述音频分量对应的声源方向；

基于调整增益后的所述音频分量合成目标音频信号。

可选的，所述处理器在执行所述基于声源方向与目标方向的匹配度，调整所述音频分量的增益时，具体用于基于声源方向与目标方向的匹配度，确定所述音频分量的增益系数，并根据所述增益系数调整所述音频分量的增益。

可选的，所述音频分量的增益系数是根据预设对应关系确定的，所述预设对应关系是所述匹配度与所述增益系数的对应关系。

可选的，所述预设对应关系中，声源方向对应的增益系数与所述匹配度正相关。

可选的，所述预设对应关系中，所述增益系数在所述匹配度变化一个单位时对应的变化量小于或等于指定变化量。

可选的，所述匹配度是根据所述声源方向与所述目标方向的差值确定的。

可选的，所述处理器在执行所述根据所述基于所述声源方向与目标方向的匹配度，调整所述音频分量的增益时，具体用于根据所述声源方向与目标方向的匹配度以及所述音频分量的频率，调整所述音频分量的增益。

可选的，所述声源方向是基于声源定位算法，利用至少两个麦克风对同一声场采集的音频信号确定的。

可选的，所述声源定位算法包括以下任一种：波束形成算法、到达时间差估计算法、差分麦克风阵列算法。

可选的，所述待处理音频信号是利用所述至少两个麦克风采集的音频信号中的一个或多个得到的。

可选的，所述待处理音频信号是所述至少两个麦克风采集的音频信号中信噪比最高的音频信号。

可选的，所述待处理音频信号是利用所述至少两个麦克风采集的音频信号合成得到的。

可选的，所述待处理音频信号是根据所述至少两个麦克风以外的其他麦克风采集的音频信号得到的。

可选的，所述待处理音频信号是包括预设个数的采样点的第一音频帧，所述目标音频信号是与所述第一音频帧对应的第二音频帧。

可选的，所述预设个数为2的幂次方。

可选的，所述不同频率的音频分量是对所述第一音频帧进行快速傅里叶变换确定的。

可选的，所述处理器还用于，在确定所述第一音频帧包括的不同频率的音频分量之前，将所述第一音频帧调制为周期性信号。

可选的，所述处理器在执行所述将所述第一音频帧调制为周期性信号时，具体用于对所述第一音频帧加分析窗。

可选的，所述第二音频帧与前一音频帧重叠的采样点进行了累加。

可选的，所述处理器还用于，在将所述第二音频帧与前一音频帧重叠的采样点进行累加之前，消除所述第二音频帧两端幅值的畸变。

可选的，所述处理器在执行所述消除所述第二音频帧两端幅值的畸变时，具体用于对所述第二音频帧加合成窗。

可选的，所述目标方向是根据用户输入的方向信息设定的。

可选的，装载于电子设备，所述电子设备具有位姿信息可变化的摄像头，所述目标方向是根据所述摄像头的朝向确定的。

可选的，所述声源方向包括：周角和/或俯仰角。

本申请实施例提供的音频处理装置，关注到待处理音频信号所包括的不同频率的音频分量，针对每个音频分量，分别确定其声源方向，并可以根据声源方向与目标方向的匹配度，调整音频分量的增益，从而使得合成的目标音频信号中，来源于目标方向的声音能够更加突出，实现了指向性拾音。并且，由于可以对不同频率的音频分量进行增益调整，因此不同频率上的指向性灵活可控。此外，目标方向可以根据需求灵活设定，因此可以实现任意方向的指向性拾音。相比基于波束形成算法实现的指向性拾音，本申请实施例提供的装置只需小型的麦克风阵列或少量(两个以上)的麦克风即可满足强指向性的需求。

以上所提供的音频处理装置的各种实施方式的具体实现，可以参见本申请实施例提供的音频处理方法的相关说明，在此不再赘述。

下面请参见图4，图4是本申请实施例提供的一种电子设备的结构示意图。该电子设备包括：处理器410与存储有计算机程序的存储器420；

所述处理器在执行所述计算机程序时实现以下步骤：

确定每个所述音频分量对应的声源方向；

基于调整增益后的所述音频分量合成目标音频信号。

可选的，还包括：至少两个麦克风；

所述声源方向是基于声源定位算法，利用所述至少两个麦克风对同一声场采集的音频信号确定的。

可选的，所述预设个数为2的幂次方。

可选的，所述目标方向是根据用户输入的方向信息设定的。

可选的，还包括：摄像头，所述摄像头可相对于所述电子设备运动，所述目标方向是根据所述摄像头的朝向确定的。

可选的，所述声源方向包括：周角和/或俯仰角。

本申请实施例提供的电子设备，关注到待处理音频信号所包括的不同频率的音频分量，针对每个音频分量，分别确定其声源方向，并可以根据声源方向与目标方向的匹配度，调整音频分量的增益，从而使得合成的目标音频信号中，来源于目标方向的声音能够更加突出，实现了指向性拾音。并且，由于可以对不同频率的音频分量进行增益调整，因此不同频率上的指向性灵活可控。此外，目标方向可以根据需求灵活设定，因此可以实现任意方向的指向性拾音。相比基于波束形成算法实现的指向性拾音，本申请实施例提供的电子设备只需小型的麦克风阵列或少量(两个以上)的麦克风即可满足强指向性的需求。

以上所提供的电子设备的各种实施方式的具体实现，可以参见本申请实施例提供的电子设备的相关说明，在此不再赘述。

以上实施例中对每个步骤分别提供了多种实施方式，至于每个步骤具体采用哪种实施方式，在不存在冲突或矛盾的基础上，本领域技术人员可以根据实际情况自由选择或组合，由此构成各种不同的实施例。而本申请文件限于篇幅，未对各种不同的实施例展开说明，但可以理解的是，各种不同的实施例也属于本申请实施例公开的范围。

本申请实施例可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可用存储介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于：相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本申请实施例所提供的方法、装置、设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种音频处理方法，其特征在于，包括：

确定每个所述音频分量对应的声源方向；

基于调整增益后的所述音频分量合成目标音频信号。

2.根据权利要求1所述的音频处理方法，其特征在于，所述基于声源方向与目标方向的匹配度，调整所述音频分量的增益，包括：

基于声源方向与目标方向的匹配度，确定所述音频分量的增益系数，并根据所述增益系数调整所述音频分量的增益。

3.根据权利要求2所述的音频处理方法，其特征在于，所述音频分量的增益系数是根据预设对应关系确定的，所述预设对应关系是所述匹配度与所述增益系数的对应关系。

4.根据权利要求3所述的音频处理方法，其特征在于，所述预设对应关系中，声源方向对应的增益系数与所述匹配度正相关。

5.根据权利要求3所述的音频处理方法，其特征在于，所述预设对应关系中，所述增益系数在所述匹配度变化一个单位时对应的变化量小于或等于指定变化量。

6.根据权利要求1所述的音频处理方法，其特征在于，所述匹配度是根据所述声源方向与所述目标方向的差值确定的。

7.根据权利要求1所述的音频处理方法，其特征在于，根据所述基于所述声源方向与目标方向的匹配度，调整所述音频分量的增益，包括：

根据所述声源方向与目标方向的匹配度以及所述音频分量的频率，调整所述音频分量的增益。

8.根据权利要求1所述的音频处理方法，其特征在于，所述声源方向是基于声源定位算法，利用至少两个麦克风对同一声场采集的音频信号确定的。

9.根据权利要求8所述的音频处理方法，其特征在于，所述声源定位算法包括以下任一种：波束形成算法、到达时间差估计算法、差分麦克风阵列算法。

10.根据权利要求8所述的音频处理方法，其特征在于，所述待处理音频信号是利用所述至少两个麦克风采集的音频信号中的一个或多个得到的。

11.根据权利要求10所述的音频处理方法，其特征在于，所述待处理音频信号是所述至少两个麦克风采集的音频信号中信噪比最高的音频信号。

12.根据权利要求10所述的音频处理方法，其特征在于，所述待处理音频信号是利用所述至少两个麦克风采集的音频信号合成得到的。

13.根据权利要求8所述的音频处理方法，其特征在于，所述待处理音频信号是根据所述至少两个麦克风以外的其他麦克风采集的音频信号得到的。

14.根据权利要求1所述的音频处理方法，其特征在于，所述待处理音频信号是包括预设个数的采样点的第一音频帧，所述目标音频信号是与所述第一音频帧对应的第二音频帧。

15.根据权利要求14所述的音频处理方法，其特征在于，所述预设个数为2的幂次方。

16.根据权利要求15所述的音频处理方法，其特征在于，所述不同频率的音频分量是对所述第一音频帧进行快速傅里叶变换确定的。

17.根据权利要求14所述的音频处理方法，其特征在于，在确定所述第一音频帧包括的不同频率的音频分量之前，还包括：

将所述第一音频帧调制为周期性信号。

18.根据权利要求17所述的音频处理方法，其特征在于，所述将所述第一音频帧调制为周期性信号，包括：

对所述第一音频帧加分析窗。

19.根据权利要求14所述的音频处理方法，其特征在于，所述第二音频帧与前一音频帧重叠的采样点进行了累加。

20.根据权利要求19所述的音频处理方法，其特征在于，在将所述第二音频帧与前一音频帧重叠的采样点进行累加之前，还包括：

消除所述第二音频帧两端幅值的畸变。

21.根据权利要求20所述的音频处理方法，其特征在于，所述消除所述第二音频帧两端幅值的畸变，包括：

对所述第二音频帧加合成窗。

22.根据权利要求1所述的音频处理方法，其特征在于，所述目标方向是根据用户输入的方向信息设定的。

23.根据权利要求1所述的音频处理方法，其特征在于，应用于电子设备，所述电子设备具有位姿信息可变化的摄像头，所述目标方向是根据所述摄像头的朝向确定的。

24.根据权利要求1所述的音频处理方法，其特征在于，所述声源方向包括：周角和/或俯仰角。

25.一种音频处理装置，其特征在于，包括：处理器与存储有计算机程序的存储器；

所述处理器在执行所述计算机程序时实现以下步骤：

确定每个所述音频分量对应的声源方向；

基于调整增益后的所述音频分量合成目标音频信号。

26.根据权利要求25所述的音频处理装置，其特征在于，所述处理器在执行所述基于声源方向与目标方向的匹配度，调整所述音频分量的增益时，具体用于基于声源方向与目标方向的匹配度，确定所述音频分量的增益系数，并根据所述增益系数调整所述音频分量的增益。

27.根据权利要求26所述的音频处理装置，其特征在于，所述音频分量的增益系数是根据预设对应关系确定的，所述预设对应关系是所述匹配度与所述增益系数的对应关系。

28.根据权利要求27所述的音频处理装置，其特征在于，所述预设对应关系中，声源方向对应的增益系数与所述匹配度正相关。

29.根据权利要求27所述的音频处理装置，其特征在于，所述预设对应关系中，所述增益系数在所述匹配度变化一个单位时对应的变化量小于或等于指定变化量。

30.根据权利要求25所述的音频处理装置，其特征在于，所述匹配度是根据所述声源方向与所述目标方向的差值确定的。

31.根据权利要求25所述的音频处理装置，其特征在于，所述处理器在执行所述根据所述基于所述声源方向与目标方向的匹配度，调整所述音频分量的增益时，具体用于根据所述声源方向与目标方向的匹配度以及所述音频分量的频率，调整所述音频分量的增益。

32.根据权利要求25所述的音频处理装置，其特征在于，所述声源方向是基于声源定位算法，利用至少两个麦克风对同一声场采集的音频信号确定的。

33.根据权利要求32所述的音频处理装置，其特征在于，所述声源定位算法包括以下任一种：波束形成算法、到达时间差估计算法、差分麦克风阵列算法。

34.根据权利要求32所述的音频处理装置，其特征在于，所述待处理音频信号是利用所述至少两个麦克风采集的音频信号中的一个或多个得到的。

35.根据权利要求34所述的音频处理装置，其特征在于，所述待处理音频信号是所述至少两个麦克风采集的音频信号中信噪比最高的音频信号。

36.根据权利要求34所述的音频处理装置，其特征在于，所述待处理音频信号是利用所述至少两个麦克风采集的音频信号合成得到的。

37.根据权利要求32所述的音频处理装置，其特征在于，所述待处理音频信号是根据所述至少两个麦克风以外的其他麦克风采集的音频信号得到的。

38.根据权利要求25所述的音频处理装置，其特征在于，所述待处理音频信号是包括预设个数的采样点的第一音频帧，所述目标音频信号是与所述第一音频帧对应的第二音频帧。

39.根据权利要求38所述的音频处理装置，其特征在于，所述预设个数为2的幂次方。

40.根据权利要求39所述的音频处理装置，其特征在于，所述不同频率的音频分量是对所述第一音频帧进行快速傅里叶变换确定的。

41.根据权利要求38所述的音频处理装置，其特征在于，所述处理器还用于，在确定所述第一音频帧包括的不同频率的音频分量之前，将所述第一音频帧调制为周期性信号。

42.根据权利要求41所述的音频处理装置，其特征在于，所述处理器在执行所述将所述第一音频帧调制为周期性信号时，具体用于对所述第一音频帧加分析窗。

43.根据权利要求38所述的音频处理装置，其特征在于，所述第二音频帧与前一音频帧重叠的采样点进行了累加。

44.根据权利要求43所述的音频处理装置，其特征在于，所述处理器还用于，在将所述第二音频帧与前一音频帧重叠的采样点进行累加之前，消除所述第二音频帧两端幅值的畸变。

45.根据权利要求44所述的音频处理装置，其特征在于，所述处理器在执行所述消除所述第二音频帧两端幅值的畸变时，具体用于对所述第二音频帧加合成窗。

46.根据权利要求25所述的音频处理装置，其特征在于，所述目标方向是根据用户输入的方向信息设定的。

47.根据权利要求25所述的音频处理装置，其特征在于，装载于电子设备，所述电子设备具有位姿信息可变化的摄像头，所述目标方向是根据所述摄像头的朝向确定的。

48.根据权利要求25所述的音频处理装置，其特征在于，所述声源方向包括：周角和/或俯仰角。

49.一种电子设备，其特征在于，包括：处理器与存储有计算机程序的存储器；

所述处理器在执行所述计算机程序时实现以下步骤：

确定每个所述音频分量对应的声源方向；

基于调整增益后的所述音频分量合成目标音频信号。

50.根据权利要求49所述的电子设备，其特征在于，所述处理器在执行所述基于声源方向与目标方向的匹配度，调整所述音频分量的增益时，具体用于基于声源方向与目标方向的匹配度，确定所述音频分量的增益系数，并根据所述增益系数调整所述音频分量的增益。

51.根据权利要求50所述的电子设备，其特征在于，所述音频分量的增益系数是根据预设对应关系确定的，所述预设对应关系是所述匹配度与所述增益系数的对应关系。

52.根据权利要求51所述的电子设备，其特征在于，所述预设对应关系中，声源方向对应的增益系数与所述匹配度正相关。

53.根据权利要求51所述的电子设备，其特征在于，所述预设对应关系中，所述增益系数在所述匹配度变化一个单位时对应的变化量小于或等于指定变化量。

54.根据权利要求49所述的电子设备，其特征在于，所述匹配度是根据所述声源方向与所述目标方向的差值确定的。

55.根据权利要求49所述的电子设备，其特征在于，所述处理器在执行所述根据所述基于所述声源方向与目标方向的匹配度，调整所述音频分量的增益时，具体用于根据所述声源方向与目标方向的匹配度以及所述音频分量的频率，调整所述音频分量的增益。

56.根据权利要求49所述的电子设备，其特征在于，还包括：至少两个麦克风；

57.根据权利要求56所述的电子设备，其特征在于，所述声源定位算法包括以下任一种：波束形成算法、到达时间差估计算法、差分麦克风阵列算法。

58.根据权利要求56所述的电子设备，其特征在于，所述待处理音频信号是利用所述至少两个麦克风采集的音频信号中的一个或多个得到的。

59.根据权利要求58所述的电子设备，其特征在于，所述待处理音频信号是所述至少两个麦克风采集的音频信号中信噪比最高的音频信号。

60.根据权利要求58所述的电子设备，其特征在于，所述待处理音频信号是利用所述至少两个麦克风采集的音频信号合成得到的。

61.根据权利要求56所述的电子设备，其特征在于，所述待处理音频信号是根据所述至少两个麦克风以外的其他麦克风采集的音频信号得到的。

62.根据权利要求49所述的电子设备，其特征在于，所述待处理音频信号是包括预设个数的采样点的第一音频帧，所述目标音频信号是与所述第一音频帧对应的第二音频帧。

63.根据权利要求62所述的电子设备，其特征在于，所述预设个数为2的幂次方。

64.根据权利要求63所述的电子设备，其特征在于，所述不同频率的音频分量是对所述第一音频帧进行快速傅里叶变换确定的。

65.根据权利要求62所述的电子设备，其特征在于，所述处理器还用于，在确定所述第一音频帧包括的不同频率的音频分量之前，将所述第一音频帧调制为周期性信号。

66.根据权利要求65所述的电子设备，其特征在于，所述处理器在执行所述将所述第一音频帧调制为周期性信号时，具体用于对所述第一音频帧加分析窗。

67.根据权利要求62所述的电子设备，其特征在于，所述第二音频帧与前一音频帧重叠的采样点进行了累加。

68.根据权利要求67所述的电子设备，其特征在于，所述处理器还用于，在将所述第二音频帧与前一音频帧重叠的采样点进行累加之前，消除所述第二音频帧两端幅值的畸变。

69.根据权利要求68所述的电子设备，其特征在于，所述处理器在执行所述消除所述第二音频帧两端幅值的畸变时，具体用于对所述第二音频帧加合成窗。

70.根据权利要求49所述的电子设备，其特征在于，所述目标方向是根据用户输入的方向信息设定的。

71.根据权利要求49所述的电子设备，其特征在于，还包括：摄像头，所述摄像头可相对于所述电子设备运动，所述目标方向是根据所述摄像头的朝向确定的。

72.根据权利要求49所述的电子设备，其特征在于，所述声源方向包括：周角和/或俯仰角。

73.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序；所述计算机程序被处理器执行时实现如权利要求1-24任一项所述的音频处理方法。