CN117098032A

CN117098032A - 音频处理方法、电子设备及计算机可读存储介质

Info

Publication number: CN117098032A
Application number: CN202310827656.XA
Authority: CN
Inventors: 刘洋; 莫品西; 边云锋; 薛政
Original assignee: SZ DJI Technology Co Ltd
Current assignee: SZ DJI Technology Co Ltd
Priority date: 2020-05-28
Filing date: 2020-05-28
Publication date: 2023-11-21
Also published as: US20230088467A1; CN113994426A; CN113994426B; WO2021237565A1

Abstract

本申请公开了一种音频处理方法，包括：获取镜头与多个麦克风之间的相对位姿信息，其中，该镜头可相对于多个麦克风中的至少一个麦克风运动；获取多个麦克风分别采集的原始音频信号；根据相对位姿信息确定原始音频信号对应的权重信息；根据权重信息对原始音频信号进行合成，得到目标音频信号，其中，目标音频信号与镜头拍摄的影像相匹配。本申请公开的方法，解决了录制出的音频所指示的音源方向与镜头所拍摄的影像不匹配的问题。

Description

音频处理方法、电子设备及计算机可读存储介质

技术领域

本申请涉及音频处理技术领域，尤其涉及一种音频处理方法、电子设备及计算机可读存储介质。

背景技术

在如云台相机、监控摄像头等电子设备上，镜头可以在电机的驱动下运动。出于防止噪声干扰和避免镜头结构过于复杂的考虑，用于采集音频的麦克风通常不设置在镜头上，而是设置在其他不随镜头转动的部件上。如此，当镜头转动时，其所拍摄影像的视角也会相应的改变，但麦克风采集的音频所指示的音源方向却无法适应所拍摄影像的视角变化，导致所拍摄的视频在视觉和听觉上给用户的方位感不一致。

发明内容

为解决上述录制出的音频所指示的音源方向与镜头所拍摄的影像不匹配的问题，本申请实施例提供了一种音频处理方法、电子设备及计算机可读存储介质。

本申请实施例第一方面提供了一种音频处理方法，包括：

获取镜头与多个麦克风之间的相对位姿信息，其中，所述镜头可相对于所述多个麦克风中的至少一个麦克风运动；

获取多个所述麦克风分别采集的原始音频信号；

根据所述相对位姿信息确定所述原始音频信号对应的权重信息；

根据所述权重信息对所述原始音频信号进行合成，得到目标音频信号，其中，所述目标音频信号用于与所述镜头拍摄的影像配合播放。

本申请实施例第二方面提供了一种音频处理方法，包括：

获取多个麦克风分别采集的原始音频信号；

根据所述原始音频信号对应的初始权重信息，对所述原始音频信号进行合成，得到目标音频信号，其中，所述目标音频信号用于与镜头拍摄的影像配合播放；

在所述镜头相对于所述多个麦克风中的至少一个麦克风运动时，获取所述镜头与所述多个麦克风之间的相对位姿信息，根据所述相对位姿信息对所述初始权重信息进行调整。

本申请实施例第三方面提供了一种电子设备，包括：机体，设置在所述机体上的镜头、多个麦克风、处理器与存储有计算机程序的存储器；其中，所述镜头可相对于所述多个麦克风中的至少一个麦克风运动；

所述处理器在执行所述计算机程序时实现以下步骤：

获取所述镜头与多个所述麦克风之间的相对位姿信息；

获取多个所述麦克风分别采集的原始音频信号；

本申请实施例第四方面提供了一种电子设备，包括：机体，设置在所述机体上的镜头、多个麦克风、处理器与存储有计算机程序的存储器；其中，所述镜头可相对于所述多个麦克风中的至少一个麦克风运动；

所述处理器在执行所述计算机程序时实现以下步骤：

获取多个所述麦克风分别采集的原始音频信号；

根据所述原始音频信号对应的初始权重信息，对所述原始音频信号进行合成，得到目标音频信号，其中，所述目标音频信号用于与所述镜头拍摄的影像配合播放；

本申请实施例第五方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时上述第一方面提供的任一种音频处理方法。

本申请实施例第六方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时上述第二方面提供的任一种音频处理方法。

本申请实施例提供了一种音频处理方法，在利用多个麦克风分别采集的原始音频信号进行目标音频信号的合成时，原始音频信号对应的权重信息是根据镜头与该原始音频信号对应的麦克风的相对位姿信息确定的，如此，即便镜头在相对于麦克风运动后所拍摄影像的视角会发生变化，但基于该相对位姿信息合成得到的目标音频信号仍然可以与镜头拍摄的影像相匹配，给用户带来视觉和听觉上方位感的一致性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种简化后的云台相机的俯视图。

图2A是本申请实施例提供的镜头转动前的视频拍摄的场景示意图。

图2B是本申请实施例提供的镜头转动后的视频拍摄的场景示意图

图3是本申请实施例提供的一种音频处理方法的流程图。

图4是本申请实施例提供的另一种简化后的云台相机的俯视图。

图5是本申请实施例提供的另一种音频处理方法的流程图。

图6是本申请实施例提供的一种示例性电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

具有视频拍摄功能的电子设备都配备有镜头与麦克风。其中，镜头，也可以说是摄像头或者相机，可以用于拍摄影像，麦克风可以用于采集音频，拍摄的影像与采集的音频按照某种格式封装后，便可以得到视频(音视频)。

为方便，本申请实施例将具有视频拍摄功能的电子设备称为拍摄设备。传统的拍摄设备，其镜头都是固定的，当用户想要拍摄不同位置的对象时，只能手动的调整拍摄设备的位置，使镜头能够对准想要拍摄的对象。但随着科技的发展，出现了一些新的拍摄设备，这些拍摄设备的镜头不再是固定不动的，而是可以在电机的驱动下自主的运动或转动。这种具有可运动的镜头的拍摄设备有很多，比如无人机(搭载有云台)、云台相机、监控摄像头、机器人、全景摄像头等等。

可以以云台相机为例进行说明。云台相机的镜头具有运动的能力。比如在启用智能跟踪拍摄的功能时，镜头可以锁定目标并自动的跟随目标转动，又比如，在用户输入转动指令后，镜头可以在转动指令的指示下进行转动。

出于防止云台噪声干扰和避免镜头结构过于复杂的考虑，用于采集音频的麦克风通常不设置在镜头上，而是设置在如云台底座等不随镜头转动的其他部件上。如此，当云台相机的镜头转动时，其所拍摄影像的视角也会相应的改变，但麦克风采集的音频所指示的音源方向却无法适应所拍摄影像的视角变化，导致所拍摄的视频在视觉和听觉上给用户的方位感是不一致的，这很大程度上影响了用户的体验，甚至会使某些用户产生头晕等不良反应。

可以参考图1，图1是本申请实施例提供的一种简化后的云台相机的俯视图。该云台相机配置了三个麦克风，分别为第一麦克风、第二麦克风与第三麦克风，三个麦克风以三角形的布局安装在云台底座上。在三个麦克风所构成的三角形中心是镜头所在的位置，该镜头可以360°的旋转。

由于人是依靠左右耳收听到的声音的差异来分辨声音的方位的，所以录制的音频至少需要有两个声道才可以体现出立体感。而多声道音频的录制可以利用多个麦克风协同录制来实现。具体的，在录音时可以使多个麦克风同时录制(采集)，进一步的，可以利用录制得到的多个音频合成不同声道的音频。以图1中的三个麦克风为例，若录制的声道包括左声道与右声道，则左声道的音频信号D_L与右声道的音频信号D_R可以通过以下方式合成得到：

D_L＝w_1LD₁+w_2LD₂+w_3LD₃

D_R＝w_1RD₁+w_2RD₂+w_3RD₃

其中，D_i表示第i个麦克风采集的原始音频信号(i＝1,2,3)，wi表示第i个麦克风对应的权重值。需要注意的是，每个麦克风对应有两个权重值，一个权重值对应左声道，一个权重值对应右声道。如第一麦克风对应有两个权重值w_1L与w_1R，w_1L对应左声道，w_1R对应右声道。相应的，第二麦克风也对应有两个权重值w_2L与w_2R，第三麦克风也对应有两个权重值w_3L与w_3R。

这些权重值是在前期工作中预先确定的固定的值。确定的方式通常是，先指定一个方向作为默认的镜头朝向(下简称默认朝向)，再结合该默认朝向与麦克风的布局确定各个麦克风采集的音频信号对应的权重值。

为便于理解，下面结合图1提供一个关于权重值如何确定的例子。如图1所示，若将第三麦克风相对于镜头所在的方向(图中箭头)指定为默认朝向，那么，第一麦克风相对于默认朝向位于左侧，可以为对应左声道的权重值w_1L设定一个合适的非0值，而对应右声道的权重值w_1R可以设定为0，即认为第一麦克风采集的音频信号不需要参与D_R的合成。类似的，第二麦克风相对于默认朝向位于右侧，可以为对应右声道的权重值w_2R设定一个合适的非0值，而对应左声道的权重值w_2L可以设定为0，即认为第二麦克风采集的音频信号不需要参与D_L的合成。如此，D_L与D_R的合成方式可以简化为：

D_L＝w_1LD₁+w_3LD₃

D_R＝w_2RD₂+w_3RD₃

由于上述的麦克风对应的权重值是在认定镜头的朝向为默认朝向下确定的，所以只有镜头的实际朝向与默认朝向相一致(也可以接近)时，合成出的音频信号所指示的音源方向才与所拍摄影像的视角相匹配，换言之，若镜头的实际朝向与默认朝向不一致，合成出的音频信号所指示的音源方向就与所拍摄影像的视角不相匹配。

可以举一个具体的视频拍摄的例子。可以参见图2A与图2B，图中包括图1所示的云台相机。在图2A所示的场景中，若云台相机由用户A操控，在刚开始视频拍摄时，用户B在发言，用户A对用户B进行拍摄。但拍了一段时间后，用户A发现用户C的表情很有趣，于是用户A操控镜头转动至对准用户C(该镜头转动的过程云台相机本体不转动)，如图2B所示。

录制的音频所指示的音源方向总是与默认朝向相匹配的。实际中，音源(用户B)所在的方向在第三麦克风相对于镜头所在的方向，即正好是默认朝向，所以录制出的音频所指示的音源方向是视角的正前方。在对用户B进行录制时，由于镜头的实际朝向也正好与默认朝向一致，所以录制出的音频所指示的音源方向与镜头所拍摄的影像是相匹配的，具体到本例子中，即影像看到的是正前方的用户B在说话，听到的音频也指示出音源是在正前方。但在对用户C进行拍摄时，由于麦克风的位置没有发生变化，合成音频的方式也相同，因此录制出的音频所指示的音源方向仍然是视角的正前方，但由于镜头的实际朝向已经偏离了默认朝向，因此录制出的音频所指示的音源方向与镜头所拍摄的影像是不匹配的，具体到本例子中，即影像看到的是正前方的用户C，他在听左边的用户B说话，但听到的音频却指示出音源是在前方，仿佛说话的其实是用户C。

为解决上述问题，本申请实施例提供了一种音频处理方法。该音频处理方法可以应用于上述的具有视频拍摄功能的电子设备，该电子设备包括镜头与多个麦克风，其中，多个可以理解为至少两个。该电子设备的镜头可以相对于多个麦克风中的至少一个麦克风运动，即不排除多个麦克风中有部分麦克风是设置在镜头上(即可以跟随镜头运动)的可能。可以参见图3，图3是本申请实施例提供的一种音频处理方法的流程图。该方法包括：

S301、获取镜头与多个麦克风之间的相对位姿信息。

S302、获取多个麦克风分别采集的原始音频信号。

S303、根据所述相对位姿信息确定所述原始音频信号对应的权重信息。

S304、根据所述权重信息对所述原始音频信号进行合成，得到目标音频信号。

在步骤S304中，合成得到的目标音频信号可以用于与镜头拍摄的影像配合播放。具体的，如前文所述，目标音频信号可以与镜头拍摄的影像按照某种视频格式封装在一起，从而形成视频文件，而该视频文件在被解封装播放时，目标音频信号可以与镜头拍摄的影像配合播放。换言之，目标音频信号可以是所录制的视频的音频部分，其可以与镜头所拍摄的影像构成音视频。

在本申请实施例提供的音频处理方法中，各个麦克风所采集的原始音频信号对应的权重信息不再是预先确定且固定不变的。原始音频信号对应的权重信息是根据相对位姿信息确定的。而相对位姿信息，是镜头与多个麦克风之间的相对位姿信息，其可以反映出镜头与麦克风在方向与位置上的相对关系。并且，该相对位姿信息可以在镜头相对于麦克风发生运动后相应的更新，使得在步骤S301中获取到的相对位姿信息能够反映实时的镜头与麦克风之间的相对位姿。

关于相对位姿信息的确定，在具体实施时可以有多种实施方式。在一种实施方式中，相对位姿信息可以根据麦克风方位与镜头的位姿确定。麦克风方位可以是麦克风相对于镜头所在的方向，具体的，其可以根据镜头的位置与麦克风的位置确定。可以参考图4，图4是本申请实施例提供的另一种简化后的云台相机的俯视图。其中，镜头的位置可以是点a所在的位置(实际中位置可以是一个坐标)，第一麦克风的位置可以是点b所在的位置，则第一麦克风的麦克风方位可以是从a点指向b点的方向，其可以根据a点与b点的坐标(该坐标可以是相对于机体的坐标)确定。其他麦克风的麦克风方位也可以按照相同的方式确定，在此不一一展开说明。

关于镜头的位姿，其可以包括镜头的位置和/或朝向。镜头的位置可以是镜头相对于机体所在的位置，镜头的朝向与所拍摄的影像的视角相对应。在一种实施方式中，镜头可以通过云台装载于机体上(可以是各种设备、平台的机体)，麦克风可以固定设置于该机体上，则在云台的控制下，镜头可以相对于麦克风运动，此时，可以根据云台的姿态信息确定相对位姿信息。具体的，可以根据云台的姿态信息确定镜头的位姿，从而可以根据镜头的位姿结合麦克风方位确定相对位姿信息。

镜头在云台控制下的运动可以包括转动和移动。在很多场景中，云台控制下的镜头都是在转动，在该转动的过程中，变化的主要是镜头的朝向，镜头相对于机体的位置可能并没有变化，又或者说变化很小。但考虑到一些场景中，镜头在云台的控制下也可以发生相对于机体的移动，比如一些机器人配备的镜头，可以在云台的控制下伸长、探出、滑动等。在该镜头移动的过程中，镜头相对于机体的位置是在变化的，即镜头相对于麦克风的位置也在变化，此时，根据云台的姿态信息还可以确定镜头的位置。

由前文可知，为使录制的音频能够有立体感，录制的音频至少需要有两个声道的音频信号，而在步骤S304中，合成得到的目标音频信号可以用于在至少两个声道中的一个声道上播放，该目标音频信号所对应的声道可以称为目标声道。

声道是在不同的空间位置录制或播放的声音通道，其具有对应的方位。比如常见的双声道，其包括左声道与右声道，其中“左”与“右”描述的都是该声道对应的方位。但“左”与“右”所描述的方位是一个相对方位，该相对方位对应的实际方位需要根据基准方向确定。比如基准方向可以是面对的方向，当面对北向时，相对方位左对应的实际方位是西向，相对方位右对应的实际方位是东向，而当面对东向时，相对方位左对应的实际方位是北向，相对方位右对应的实际方位是南向。

目标声道的方位也有相对方位与实际方位两种，但考虑到相对方位并不是绝对方位，其在具体实施时不方便直接使用，因此本申请所描述的“目标声道对应的方位”是指目标声道对应的实际方位。目标声道对应的方位可以根据基准方向确定，基准方向可以是镜头的朝向。

为便于理解，可以再次参考图1，若录制的音频包括左声道与右声道，当目标声道是左声道时，在图1中，镜头的朝向是6点钟方向，则是则左声道对应的方位可以确定是3点钟方向；当目标声道是右声道时，右声道对应的方位可以确定是9点钟方向。

目标音频信号需要根据原始音频信号对应的权重信息来合成。而一个原始音频信号的权重信息，其实质可以表征该原始音频信号在目标音频信号的合成中所作出的贡献度(也可以说是在目标音频信号的合成中所占的比重)。对于一个原始音频信号在目标音频信号的合成中所作出的贡献度(权重信息)，在一种实施方式中，可以根据该原始音频信号对应的麦克风与镜头之间的相对位姿信息与目标声道对应的方位来确定。

在根据麦克风的相对位姿信息与目标声道对应的方位来确定该麦克风采集的原始音频信号对应的权重信息时，具体的，可以根据该相对位姿信息与目标声道对应的方位，确定该麦克风的麦克风方位与目标声道对应的方位的偏差信息，再根据该偏差信息确定对应的权重信息。可以再次参考图4，以目标声道为右声道为例，目标声道对应的方位大致是11点钟方向，而第一麦克风的麦克风方位大致在10点钟方向，可以用一个偏差信息来表征10点钟方向偏离11点钟方向的程度，从而根据该偏差信息，可以确定第一麦克风所采集的原始音频信号在目标音频信号的合成中对应的权重信息。

对于偏差信息，其具体可以有多种表现形式。在一种实施方式中，偏差信息可以是麦克风方位与目标声道对应的方位之间的夹角(为方便指代，后文中将此种夹角称为偏差夹角)。当然，也有其他的实施方式，比如可以预先设定一种用于表示这种偏差的级别，如上述图4中，若目标声道是右声道，则第一麦克风的麦克风方位(10点钟方向)偏离目标声道对应的方位(11点钟方向)的程度可以是1级，若目标声道是左声道，则第一麦克风的麦克风方位(10点钟方向)偏离目标声道对应的方位(5点钟方向)的程度可以是5级。

根据偏差信息可以确定权重信息。在一种实施方式中，当偏差信息用上述的偏差夹角表示时，原始音频信号对应的权重信息可以是根据该偏差夹角的余弦值确定。

仍然可以以图4进行举例，若录制的声道包括左声道与右声道，目标声道是左声道，则目标音频信号对应左声道的音频信号D_L，其可以通过以下方式合成得到：

D_L＝w_1LD₁+w_2LD₂+w_3LD₃

其中，D_i表示第i个麦克风采集的原始音频信号(i＝1,2,3)，wiL表示第i个麦克风采集的原始音频信号对应的权重信息。

考虑到第一麦克风相对于镜头的朝向是在右边，而目标声道是左声道，若用上述的偏差夹角来表示这种偏差，则与第一麦克风对应的偏差夹角在图4中即为θ₁。由于当偏差夹角大于90°时，就表明该麦克风的麦克风方位与目标声道对应的方位已经属于相反的方向，因此，容易理解，该麦克风采集的原始音频信号在目标音频信号的合成中应当参与度降低，即该原始音频信号对应的权重信息应当减少。而在一种实施方式中，可以预设一个角度阈值为90°，当某个麦克风对应的偏差夹角大于该角度阈值时，确定该麦克风采集的原始音频信号的权重信息为0。

如图4中的第一麦克风，其对应的偏差夹角θ₁已经大于90°，因此，可以使第一麦克风采集的原始音频信号D₁对应的权重信息w_1L＝0，也就是使D₁不参与D_L的合成。如此，左声道的音频信号D_L的合成方式可以简化为以下式子：

D_L＝w_2LD₂+w_3LD₃

对于w_2L与w_3L，可以参考以下式子：

w_2L＝cosθ₂/(cosθ₂+cosθ₃)

w_3L＝cosθ₃/(cosθ₂+cosθ₃)

其中，θ₂是第二麦克风对应的偏差夹角，θ₃是第三麦克风对应的偏差夹角。

可以理解的，偏差夹角的余弦值反映的是与麦克风方位同向的单位向量在目标声道对应的方位上的投影，当麦克风方位与目标声道对应的方位之间的偏差越小，该麦克风对应的偏差夹角的余弦值就越大，相应的，该麦克风采集的原始音频信号对应的权重信息也越大。

在上述的w_2L与w_3L的计算式子中，分别对w_2L与w_3L进行了归一化处理。权重信息的归一化处理，可以使合成得到的目标音频信号在幅值水平上更合理。

需要说明的是，本申请实施例提供的音频处理方法，在确定原始音频信号对应的权重信息时，可以针对每个麦克风采集的原始音频信号都确定对应的权重信息，如上述图4对应的例子中，可以对D₁、D₂和D₃都确定对应的权重信息，得到w_1L＝0，而w_2L与w_3L是非0的其他值。在另一种实施方式中，也可以根据相对位姿信息，先判断哪些麦克风采集的原始音频信号将参与目标音频信号的合成，再确定这些将参与目标音频信号合成的原始音频信号对应的权重信息即可。比如上述图4对应的例子，可以先根据相对位姿信息判断出第一麦克风对应的麦克风方位是与目标声道对应的方位相背离的，因此，可以确定仅第二麦克风采集的原始音频信号D₂与第三麦克风采集的原始音频信号D₃参与目标音频信号D_L的合成，因此，只需确定D₂和D₃各自对应的权重信息即可。

容易理解，虽然本申请实施例以至少两个声道中的一个声道对应的目标音频信号的角度进行说明，但实际应用中，各个声道对应的音频信号都可以通过本申请提供的方法合成得到。如上述图4对应例子，若目标声道是右声道，待合成的目标音频信号是右声道的音频信号D_R，其可以通过以下式子合成得到：

D_R＝w_1RD₁+w_2RD₂+w_3RD₃

w_1R＝cosθ₁/cosθ₁

w_2R＝0

w_3R＝0

上述式子的得出，可以参考图4以及前文中关于合成目标音频信号D_L的相关说明，在此不再赘述。

在合成音频信号D_L与D_R后，使D_L在左声道播放，D_R在右声道播放，便可以产生与所拍摄影像的视角相匹配的听觉方位感。

本申请实施例提供的音频处理方法，在利用多个麦克风分别采集的原始音频信号进行目标音频信号的合成时，原始音频信号对应的权重信息是根据镜头与该原始音频信号对应的麦克风的相对位姿信息确定的，如此，即便镜头在相对于麦克风运动后所拍摄影像的视角会发生变化，但基于该相对位姿信息合成得到的目标音频信号仍然可以与镜头拍摄的影像相匹配，给用户带来视觉和听觉上方位感的一致性。

在上述的各种实施方式中，所描述的“镜头的朝向”是指镜头的实际朝向，根据该镜头的朝向，经过一系列处理后，最终可以合成与所拍摄的影像在方位感上具有一致性的目标音频信号。但考虑到一种特殊场景，在该特殊场景中，用户并不希望录制的音频与拍摄的影像在方位感上保持一致，而是希望录制的音频所指示的音源方向是某一个指定的方向。

为便于理解上述特殊场景，可以结合前文中的图2A和图2B的例子进行说明。若采用上述所提供的音频处理方法对音频进行处理，则在音频配合所拍摄的影像播放时，在视角从对准用户B转动至对准用户C时，用户可以感知到音频所指示的音源方向从正前方变为左边，音频与影像在方位感上是一致的。但出于某种原因，用户A现在希望在视角从对准用户B转动至对准用户C时，音频所指示的音源方向可以从正前方变为右边。

针对用户A的这种特殊需求，本申请实施例提供一种实施方式，可以开放“镜头的朝向”给用户进行设置，此时用户所设置的“镜头的朝向”实际是一个虚拟朝向，该虚拟朝向与镜头的实际朝向是相互独立、没有关联的。设置的虚拟朝向可以用于指导目标音频信号的合成。

可以继续上述图2A和图2B的例子，若用户A希望在视角对准用户C时，音频所指示的音源方向是右边，则用户A可以将“镜头的朝向”设置为3点钟方向，此时，不断发言的用户B(在6点钟方向)相对于设置的虚拟朝向在右边，则合成的音频所指示的音源方向也是右边，从而实现了用户A的目的。

开放“镜头的朝向”供用户进行设置，可以使合成的音频具有用户期望的方位感，可以更好的适应不同用户的需求。

以上为对本申请实施例提供的一种音频处理方法的详细说明。

下面请参见图5，图5是本申请实施例提供的另一种音频处理方法的流程图。该方法包括：

S501、获取多个麦克风分别采集的原始音频信号；

S502、根据所述原始音频信号对应的初始权重信息，对所述原始音频信号进行合成，得到目标音频信号。

其中，所述目标音频信号用于与镜头拍摄的影像配合播放；

S503、在所述镜头相对于所述多个麦克风中的至少一个麦克风运动时，获取所述镜头与所述多个麦克风之间的相对位姿信息，根据所述相对位姿信息对所述初始权重信息进行调整。

所述镜头通过云台装载于机体，所述麦克风固定设置于所述机体；

所述相对位姿信息是根据所述云台的姿态信息确定的。

可选的，所述相对位姿信息是根据麦克风方位与所述镜头的位姿确定的。

可选的，所述镜头的位姿包括所述镜头的朝向和/或所述镜头的位置。

可选的，所述目标音频信号用于在至少两个声道中的一个目标声道上播放。

可选的，所述根据所述相对位姿信息对所述初始权重信息进行调整，包括：

根据所述相对位姿信息与所述目标声道对应的方位，对所述初始权重信息进行调整；其中，所述目标声道对应的方位是根据所述镜头的朝向确定的。

可选的，所述根据所述相对位姿信息与所述目标声道对应的方位，对所述初始权重信息进行调整，包括：

根据所述相对位姿信息与所述目标声道对应的方位，确定麦克风方位与所述目标声道对应的方位的偏差信息，根据所述偏差信息确定新的所述权重信息，根据新的所述权重信息对所述初始权重信息进行调整。

可选的，所述偏差信息包括所述麦克风方位与所述目标声道对应的方位之间的夹角。

可选的，新的所述权重信息是根据所述夹角的余弦值确定的。

可选的，若所述夹角大于预设角度，确定所述麦克风对应的原始音频信号在所述目标音频信号的合成中对应的新的所述权重信息为零。

可选的，新的所述权重信息经过了归一化处理。

可选的，所述镜头的朝向包括用户设定的虚拟朝向，所述虚拟朝向是与所述镜头的实际朝向相互独立的。

可选的，所述至少两个声道包括左声道与右声道。

本申请实施例提供的音频处理方法，在利用各个麦克风采集的原始音频信号进行目标音频信号的合成时，原始音频信号对应的权重信息是根据相对位姿信息对该原始音频信号对应初始权重信息进行调整得到的，其中，相对位姿信息可以反映镜头与该原始音频信号对应的麦克风之间在方向与位置上的相对关系，如此，即便镜头在相对于麦克风运动后所拍摄影像的视角会发生变化，但基于该相对位姿信息合成得到的目标音频信号仍然可以与镜头拍摄的影像相匹配，给用户带来视觉和听觉上方位感的一致性。

以上所提供的各种实施方式下的音频处理方法，其具体实现方式可以参考前文中对第一种音频处理方法的相应说明，在此不再赘述。

下面请参见图6，图6是本申请实施例提供的一种示例性电子设备的结构示意图。该示例性的电子设备包括：机体601，设置在所述机体上的镜头602、多个麦克风603、处理器与存储有计算机程序的存储器；其中，所述镜头602可相对于所述多个麦克风603中的至少一个麦克风603运动。

所述处理器在执行所述计算机程序时实现以下步骤：

获取所述镜头与多个所述麦克风之间的相对位姿信息；

获取多个所述麦克风分别采集的原始音频信号；

可选的，还包括：云台，所述镜头通过所述云台装载于所述机体，所述麦克风固定设置于所述机体；

所述相对位姿信息是根据所述云台的姿态信息确定的。

可选的，所述处理器执行所述根据所述相对位姿信息确定所述原始音频信号对应的权重信息时，具体用于根据所述相对位姿信息与所述目标声道对应的方位，确定所述权重信息；其中，所述目标声道对应的方位是根据所述镜头的朝向确定的。

可选的，所述处理器执行所述根据所述相对位姿信息与所述目标声道对应的方位，确定所述权重信息时，具体用于根据所述相对位姿信息与所述目标声道对应的方位，确定麦克风方位与所述目标声道对应的方位的偏差信息，根据所述偏差信息确定所述权重信息。

可选的，所述权重信息是根据所述夹角的余弦值确定的。

可选的，若所述夹角大于预设角度，确定所述麦克风对应的原始音频信号在所述目标音频信号的合成中对应的权重信息为零。

可选的，所述权重信息经过了归一化处理。

可选的，所述至少两个声道包括左声道与右声道。

可选的，还包括：多个扬声器，一个扬声器对应一个所述声道。

可选的，所述电子设备是以下任一种：无人机、云台相机、监控摄像头、全景摄像头、机器人。

本申请实施例提供的电子设备，在利用多个麦克风分别采集的原始音频信号进行目标音频信号的合成时，原始音频信号对应的权重信息是根据镜头与该原始音频信号对应的麦克风的相对位姿信息确定的，如此，即便镜头在相对于麦克风运动后所拍摄影像的视角会发生变化，但基于该相对位姿信息合成得到的目标音频信号仍然可以与镜头拍摄的影像相匹配，给用户带来视觉和听觉上方位感的一致性。

以上所提供的各种实施方式下的电子设备，其具体实现方式可以参考前文中对第一种音频处理方法的相应说明，在此不再赘述。

本申请实施例还提供一种电子设备，仍然可以参考图6。该电子设备包括：机体601，设置在所述机体601上的镜头602、多个麦克风603、处理器与存储有计算机程序的存储器；其中，所述镜头602可相对于所述多个麦克风603中的至少一个麦克风603运动。

所述处理器在执行所述计算机程序时实现以下步骤：

获取多个所述麦克风分别采集的原始音频信号；

所述相对位姿信息是根据所述云台的姿态信息确定的。

可选的，所述处理器执行所述根据所述相对位姿信息对所述初始权重信息进行调整时，具体用于根据所述相对位姿信息与所述目标声道对应的方位，对所述初始权重信息进行调整；其中，所述目标声道对应的方位是根据所述镜头的朝向确定的。

可选的，所述处理器执行所述根据所述相对位姿信息与所述目标声道对应的方位，对所述初始权重信息进行调整时，具体用于根据所述相对位姿信息与所述目标声道对应的方位，确定麦克风方位与所述目标声道对应的方位的偏差信息，根据所述偏差信息确定新的所述权重信息，根据新的所述权重信息对所述初始权重信息进行调整。

可选的，新的所述权重信息经过了归一化处理。

可选的，所述至少两个声道包括左声道与右声道。

本申请实施例提供的电子设备，在利用各个麦克风采集的原始音频信号进行目标音频信号的合成时，原始音频信号对应的权重信息是根据相对位姿信息对该原始音频信号对应初始权重信息进行调整得到的，其中，相对位姿信息可以反映镜头与该原始音频信号对应的麦克风之间在方向与位置上的相对关系，如此，即便镜头在相对于麦克风运动后所拍摄影像的视角会发生变化，但基于该相对位姿信息合成得到的目标音频信号仍然可以与镜头拍摄的影像相匹配，给用户带来视觉和听觉上方位感的一致性。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时可以实现上述各种实施方式下的第一种音频处理方法。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时可以实现上述各种实施方式下的第二种音频处理方法。

以上实施例中提供的技术特征，只要不存在冲突或矛盾，本领域技术人员可以根据实际情况对各个技术特征进行组合，从而构成各种不同的实施例。而本申请文件限于篇幅，未对各种不同的实施例展开说明，但可以理解的是，各种不同的实施例也属于本申请实施例公开的范围。

本申请实施例可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可用存储介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于：相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本申请实施例所提供的方法和装置进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种音频处理方法，其特征在于，包括：

获取多个所述麦克风分别采集的原始音频信号；

根据所述权重信息对所述原始音频信号进行合成，得到目标音频信号，其中，所述目标音频信号与所述镜头拍摄的影像相匹配。

2.根据权利要求1所述的音频处理方法，其特征在于，所述镜头通过云台装载于机体，所述麦克风固定设置于所述机体；

所述相对位姿信息是根据所述云台的姿态信息确定的。

3.根据权利要求1所述的音频处理方法，其特征在于，所述相对位姿信息是根据麦克风方位与所述镜头的位姿确定的，所述镜头的位姿包括所述镜头的朝向和/或所述镜头的位置。

4.根据权利要求1所述的音频处理方法，其特征在于，所述目标音频信号用于在至少两个声道中的一个目标声道上播放，其中，所述至少两个声道包括左声道与右声道。

5.根据权利要求4所述的音频处理方法，其特征在于，所述根据所述相对位姿信息确定所述原始音频信号对应的权重信息，包括：

根据所述相对位姿信息与所述目标声道对应的方位，确定所述权重信息；其中，所述目标声道对应的方位是根据所述镜头的朝向确定的。

6.根据权利要求5所述的音频处理方法，其特征在于，所述根据所述相对位姿信息与所述目标声道对应的方位，确定所述权重信息，包括：

根据所述相对位姿信息与所述目标声道对应的方位，确定麦克风方位与所述目标声道对应的方位的偏差信息，根据所述偏差信息确定所述权重信息。

7.根据权利要求6所述的音频处理方法，其特征在于，所述偏差信息包括所述麦克风方位与所述目标声道对应的方位之间的夹角。

8.根据权利要求7所述的音频处理方法，其特征在于，所述权重信息是根据所述夹角的余弦值确定的。

9.根据权利要求8所述的音频处理方法，其特征在于，若所述夹角大于预设角度，确定所述麦克风对应的原始音频信号在所述目标音频信号的合成中对应的权重信息为零。

10.根据权利要求5所述的音频处理方法，其特征在于，所述镜头的朝向包括用户设定的虚拟朝向，所述虚拟朝向是与所述镜头的实际朝向相互独立的。

11.根据权利要求1所述的音频处理方法，其特征在于，所述权重信息经过了归一化处理。

12.一种音频处理方法，其特征在于，包括：

获取多个麦克风分别采集的原始音频信号；

基于镜头的位姿确定待合成的目标音频信号的目标声道对应的方位，其中，所述镜头可相对于所述多个麦克风中的至少一个麦克风运动；

确定所述多个麦克风中至少一个麦克风的方位与所述目标声道对应的方位的偏差信息；

基于所述偏差信息确定所述原始音频信号对应的权重信息，包括：若所述多个麦克风中至少一个麦克风的方位与所述目标声道的方位之间的偏差减小，则增加所述麦克风采集的所述原始音频信号的权重，或，若所述多个麦克风中至少一个麦克风的方位与所述目标声道的方位之间的偏差增大，则降低所述麦克风采集的所述原始音频信号的权重；

根据所述权重信息对所述原始音频信号进行合成，得到所述目标音频信号，其中，所述目标音频信号与所述镜头拍摄的影像相匹配。

13.根据权利要求12所述的音频处理方法，其特征在于，若所述偏差信息表明所述多个麦克风中至少一个麦克风的方位与所述目标声道对应的方位相背离，确定所述麦克风对应的原始音频信号在所述目标音频信号的合成中对应的权重信息为零。

14.一种电子设备，其特征在于，包括：机体，设置在所述机体上的镜头、多个麦克风、处理器与存储有计算机程序的存储器；其中，所述镜头可相对于所述多个麦克风中的至少一个麦克风运动；

所述处理器用于实现如权利要求1-13任一项所述的方法。

15.根据权利要求14所述的电子设备，其特征在于，所述电子设备是以下任一种：无人机、云台相机、监控摄像头、全景摄像头、机器人。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至13任一项所述的音频处理方法。