CN117499837A

CN117499837A - 音频处理方法、装置以及音频播放设备

Info

Publication number: CN117499837A
Application number: CN202210887663.4A
Authority: CN
Inventors: 练添富
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2022-07-26
Filing date: 2022-07-26
Publication date: 2024-02-02

Abstract

本申请实施例公开了一种音频处理方法、装置以及音频播放设备。方法包括：获取多个第一麦克风各自采集的音频信号，以得到多路音频信号；获取目标声源方位；基于目标声源方位以及多路音频信号进行波束成形处理，得到目标声源方位对应的声音信号；根据声音信号进行声音透传。从而通过上述方式使得，在确定目标声源方位后，可以再通过波束成形方式得到表征所述目标声源方位的声音信号的波束成形信号，以借助该波束成形信号进行声音透传，从而使得用户可以能够清晰的听到目标声源方位的声音。

Description

音频处理方法、装置以及音频播放设备

技术领域

本申请涉及音频处理领域，更具体地，涉及一种音频处理方法、装置以及音频播放设备。

背景技术

随着音频处理技术的发展，音频播放设备可以对采集到的音频进行透传，以便用户可以听到周围环境所发出的声音。但是，在相关的方式中，还存在用户所听到的声源方位的声音不够清晰的问题。

发明内容

鉴于上述问题，本申请提出了一种音频处理方法、装置以及音频播放设备，以改善上述问题。

第一方面，本申请提供了一种音频处理方法，应用于音频播放设备，所述音频播放设备包括多个第一麦克风，所述方法包括：获取所述多个第一麦克风各自采集的音频信号，以得到多路音频信号；基于所述多路音频信号得到所述多路音频信号之间的延时；获取目标声源方位；基于所述目标声源方位以及所述多路音频信号进行波束成形处理，得到所述目标声源方位对应的声音信号；根据所述声音信号进行声音透传。

第二方面，本申请提供了一种音频处理装置，运行于音频播放设备，所述音频播放设备包括多个第一麦克风，所述装置包括：音频信号获取单元，用于获取所述多个第一麦克风各自采集的音频信号，以得到多路音频信号；延时获取单元，用于基于所述多路音频信号得到所述多路音频信号之间的延时；声源方位获取单元，用于获取目标声源方位；波束成形单元，用于基于所述目标声源方位以及所述多路音频信号进行波束成形处理，得到所述目标声源方位对应的声音信号；音频处理单元，用于根据所述声音信号进行声音透传。

第三方面，本申请提供了一种音频播放设备，包括一个或多个处理器以及存储器；一个或多个程序，其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行上述的方法。

第四方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码运行时执行上述的方法。

本申请提供的一种音频处理方法、装置以及音频播放设备，在音频播放设备包括多个第一麦克风的情况下，获取多个第一麦克风各自采集的音频信号，以得到多路音频信号。在得到目标声源方位后，基于目标声源方位以及延时进行波束成形处理，得到表征所述目标声源方位的声音信号波束成形信号，最后根据所述声音信号进行声音透传。从而通过上述方式使得，在确定目标声源方位后，可以再通过波束成形方式得到表征所述目标声源方位的声音信号的波束成形信号，以借助该波束成形信号进行声音透传，从而使得用户可以能够清晰的听到目标声源方位的声音。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请实施例提供的音频处理方法的一种应用场景的示意图；

图2示出了本申请实施例提供的音频处理方法的另一种应用场景的示意图；

图3示出了本申请实施例提出的一种音频处理方法的流程图；

图4示出了本申请实施例中多个第一麦克风采集的音频信号对应有延时的示意图；

图5示出了本申请实施例中所生成的波束成形信号的示意图；

图6示出了本申请另一实施例提出的一种音频处理方法的流程图；

图7示出了本申请实施例中对声源的声音信号进行透传的示意图；

图8示出了本申请实施例中对多个声源的声音信号进行透传的示意图；

图9示出了本申请实施例中音频信号的处理流向的示意图；

图10示出了本申请实施例中对目标声源方位的声音信号进行增强的示意图；

图11示出了本申请实施例中对目标声源方位以外方位的声音信号进行抑制的示意图；

图12示出了本申请再一实施例提出的一种音频处理方法的流程图；

图13示出了本申请实施例中多个第一麦克风受风噪影响的示意图；

图14示出了本申请又一实施例提出的一种音频处理方法的流程图；

图15示出了本申请一实施例提出的一种音频处理装置的结构框图；

图16是本申请实施例的用于保存或者携带实现根据本申请实施例的音频处理方法的程序代码的存储单元；

图17示出了本申请实时中的用于保存或者携带实现根据本申请实施例的音频处理方法的程序代码的存储单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。本申请中的“多个”在没有特别说明的情况下是指大于或等于两个的情况。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在音频播放设备对所处环境的声音进行采集的过程中，为了抑制环境中的噪声，音频播放设备可以通过降噪的方式来消除所采集的音频信号中的噪声。另外，音频播放设备也可以将所采集的音频信号透传给用户。但是，发明人在对相关的音频播放设备的研究中发现，相关的音频播放设备无论是进行降噪处理还是进行声音的透传，都是全指向的，进而就使得音频播放设备无法针对性的仅对部分方向进行声音的透传，以及针对性的仅对部分方向的声音进行降噪处理。

因此，发明人提出了本申请中的一种音频处理方法、装置以及音频播放设备，在音频播放设备包括多个第一麦克风的情况下，获取多个第一麦克风各自采集的音频信号，以得到多路音频信号。确定目标声源方位，基于目标声源方位以及多路音频信进行波束成形处理，得到与目标声源方位对应的声音信号，根据声音信号进行声音透传。

从而通过上述方式使得，在确定目标声源方位后，可以再通过波束成形方式得到与目标声源方位对于的声音信号，以借助该声音信号进行声音透传，从而使得用户可以能够清晰的听到目标声源方位的声音。

下面先对本申请实施例涉及的一种场景进行介绍。

如图1所示，在图1所示的场景中的音频播放设备100包括有前馈麦克风101、反馈麦克风102以及喇叭103。其中，前馈麦克风101用于采集音频播放设备所处环境中的声音，反馈麦克风102用于采集喇叭103所播放的声音(也用于采集包括环境音经过被动降噪进入耳道的部分)，喇叭103则用于对麦克风采集的音频数据以及PCM(Pulse Code Modulation)音频数据进行播放。其中，PCM音频数据为与音频播放设备建立连接的设备所发送的用于音频播放设备进行播放的数据。如图2所示，在另外一种场景中，还包括反馈降噪滤波器104、噪声识别与消除模块105以及均衡器106。其中，反馈降噪滤波器104可用于对反馈麦克风102所采集的音频数据进行降噪处理。噪声识别与消除模块105则可用于对前馈麦克风101所采集的音频数据进行降噪处理。

需要说明的是，在本申请实施例中，前馈麦克风的数量可以包括两个甚至更多。并且，本申请的一些实施例中涉及的多个第一麦克风可以均为前馈麦克风，而反馈麦克风则可以理解为后续实施例中的第二麦克风；在一些实施例中第一麦克风也可以是通话麦克风，也就是多个第一麦克风可以包括前馈麦克风和/或通话麦克风，当然在一些实施例中通话麦克风和前馈麦克风也可以共用。另外，在本申请实施例中，音频播放设备可以为无线耳机，例如TWS(True Wireless Stereo，真无线立体声)耳机(例如具有两只无线耳机及无线耳机充电盒)、或头戴式无线耳机，或者，也可以为其他同时具备降噪以及声音透传功能的设备。

下面将结合附图具体描述本申请的各实施例。

请参阅图3，本申请实施例提供的一种音频处理方法，应用于音频播放设备，音频播放设备包括多个第一麦克风，方法包括：

S110：获取多个第一麦克风各自采集的音频信号，以得到多路音频信号。

在本申请实施例中，多个第一麦克风为用于采集环境音的麦克风。其中，多个第一麦克风的数量可以为两个甚至更多。并且，在本申请实施例中，多个第一麦克风可以在多种时机下开始采集音频信号。

作为一种方式，多个第一麦克风可以在音频播放设备开始工作后，就开始采集音频信号。其中，音频播放设备开始工作可以理解为音频播放设备开始对存储在本地的音频数据进行播放，也可以理解为音频播放设备与电子设备建立无线连接，或者还可以理解为音频播放设备开始对电子设备传输来的音频数据进行播放。其中，电子设备可以为智能手机、平板电脑等。

作为另外一种方式，可以在检测到当前触发指定场景时，控制多个第一麦克风开始采集音频信号。需要说明的是，在本申请实施例中，第一麦克风采集所处环境的声音采集的一个作用是用于对目标声源处的声音进行指向性的透传。但是，音频播放设备的用户并不是在所有情况下都需要清晰的听到声源处的声音，因此，在触发指定场景时，再控制多个第一麦克风开始采集音频信号，可以提升音频处理的灵活性。

其中，指定场景也可以理解为音频播放设备的用户当前所处的环境。可选的，指定场景可以包括行走场景以及室内场景。需要说明的是，在音频播放设备为无线耳机的情况下，用户会将无线耳机佩戴在耳朵中，那么在行走场景下，用户会携带音频播放设备走路，在这种情况下，触发多个第一麦克风进行音频信号的采集有利于用户在佩戴无线耳机的情况下，依然可以清晰的听到周围的声音。再者，依然是音频播放设备为无线耳机的情况下，若用户佩戴无线耳机坐在室内，通过多个第一麦克风进行音频信号的采集可以使得用户能够听到其他用户所发出的声音。其中，在无线耳机设置有加速度传感器的情况下，若检测到持续指定时长的加速度则确定佩戴无线耳机的用户正在行走，对应的，也就确定当前处于行走场景。

另外，在无线耳机与电子设备建立有无线连接的情况下，还可以通过电子设备来确定当前是否处于指定场景。

以耳机为例，在一些实施例中，可以在确定两个耳机均处于佩戴状态的情况下启动S110。在一些实施例中，也可以在开启主动降噪模式的情况下启动S110。在一些实施例中，可以在两个耳机均处于佩戴状态且开启主动降噪模式的情况下启动S110。在上述情况下由于双耳佩戴和/或进行了主动降噪对环境音消除较大，因此进行定向透传更有必要。

可选的，在电子设备配置有加速度传感器的情况下，电子设备可以通过其配置的加速度传感器来检测电子设备的加速度变化情况，进而确定携带电子设备的用户是否处于行走状态。若处于行走状态，则向音频播放设备发送处于行走状态的信息，音频播放设备在接收到该信息时则可以确定当前处于行走场景，进而控制多个第一麦克风开始进行音频信号的采集。再者，电子设备也可以在检测到当前静止放置于一平面时，确定当前处于室内场景，然后向音频播放设备发送处于室内场景的信息，音频播放设备在接收到该信息时则可以确定当前处于室内场景，进而控制多个第一麦克风开始进行音频信号的采集。

可选的，电子设备在配置有定位器件的情况下，电子设备还可以通过定位器件来确定电子设备所处的位置，进而根据所处的位置来确定当前所处的场景。例如，若电子设备通过定位器件检测到当前在道路上，则可以确定当前处于行走场景。若电子设备通过定位器件检测到当前处于楼宇处，则确定当前处于室内场景。

其中，在多个第一麦克风开始进行音频信号采集后，可以将每个麦克风采集的音频信号作为一路音频信号，进而得到多路音频信号。

S120：获取目标声源方位。

在本申请实施例中，可以有多种的获取目标声源方位的方式。

作为一种方式，可以基于延时以及多个第一麦克风之间的距离，得到目标声源方位。在这种方式中，在得到多路音频信号的延时后，可以进一步的获取多路音频信号之间的延时的预设约束条件。该预设约束条件表征延时与目标声源方位以及多个第一麦克风之间的距离的对应关系，进而基于预设约束条件以及延时得到目标声源方位。

其中，预设约束条件可以表示为：

其中，d为多个第一麦克风之间的距离，θ为声源的方位，c为光速。

在这种情况下，声源的方位则可以表示为：

需要说明的是，在一些情况下，音频播放设备可以理解为一个独立的设备。例如，音频播放设备可以理解为一对无线耳机中的任一一个无线耳机。再者，音频播放设备也可以理解为一对无线耳机的组合。

在一些实施例中，在音频播放设备理解为一对无线耳机中的任一一个无线耳机，且多个第一麦克风的数量大于两个的的情况下，多个第一麦克风则可以等距离的排布在该一个无线耳机中。在音频播放设备也可以理解为一对无线耳机的组合的情况下，多个第一麦克风既可以等距离的排布在该一个无线耳机中，也可以分布在两个无线耳机中。其中，在多个第一麦克风既分布在两个无线耳机中的情况下，多个麦克风的数量可以为两个。再者，在多个第一麦克风既分布在两个无线耳机中的情况下，多个第一麦克风之间的距离可以为头的平均宽度，或者也可以为两个无线耳机实时测量的间距。

其中，在音频播放设备也可以理解为一对无线耳机的组合的情况下，可以响应于所述第一耳机和所述第二耳机均处于佩戴状态，获取所述多个第一麦克风各自采集的音频信号，以得到多路音频信号。需要说明的是，其中的第一耳机和第二耳机分别用于佩戴在用户的两个耳朵上，在这种情况下，当第一耳机和第二耳机均处于佩戴的状态下，用户并不能直接的听到周围的声音，进而在第一耳机和第二耳机均处于佩戴状态的情况下，再触发得到多路音频信号，可以使得本申请实施例提供的音频处理方法的触发时机更加的灵活，也更加贴合用户的实际使用需求。

作为另外一种方式，可以由用户选择目标声源方位。

在这种方式中，在电子设备中可以提供有方位配置界面。在该方位配置界面中，用户可以选择有需要进行声音透传的方位。其中，电子设备在获取得到用户选择的拾音方位后，可以将该拾音方位传输给音频播放设备，以便音频播放设备存储在本地，当然也可以存储在电子设备中，电子设备连接到该音频播放设备后调取对应的目标声源方位。其中，音频播放设备可以将接收到的拾音方位存储在指定位置。在这种情况下，音频播放设备可以查询该指定位置是否存储有数据，来确定是否有手动输入的拾音方位。在这种情况下，若音频播放设备检测到该指定位置存储有数据，则确定有手动输入的适应方位，进而会将手动输入的拾音方位作为目标声源方位。

作为一种方式，在方位配置界面中提供有可供用户选择的方位角度。在这种情况下，用户可以从可供用户选择的方位角度中选择方位角度作为拾音方位。例如，在方位配置界面中提供的可供用户选择的方位角度包括10°、20°、30°、40°......、180°。在这种情况下，若用户选择了80°，则音频播放设备可以将80°作为拾音方位。作为另外一种方式，在方位配置界面中可以提供有可用用户选择的方位词，并且，电子设备还存储有方位词所对应的方位角度，在这种情况下，在获取到用户所选择的方位词后，则可以根据用户所选择的方位词来得到对应的方位角度以作为拾音方位。示例性的，可用用户选择的方位词可包括正前方、右前方、右侧、右后方、后侧、左后方、左侧以及左前方。在这种情况下，若用户选择的方位词为后侧，则会将后侧所对应的方位角度作为拾音方位。并且，用户可以选择多个方位词，在这种情况下，则会将该多个方位词各自对应的方位角度均作为拾音方位。

S130：基于目标声源方位以及多路音频信号进行波束成形处理，得到目标声源方位对应的声音信号。

在进行波束成形处理的过程中，可以先基于多路音频信号得到延时。然后再基于目标声源方位以及延时进行波束成形处理。那么基于目标声源方位以及延时进行波束成形处理，得到目标声源方位对应的声音信号(例如表征所述目标声源方位的声音信号的波束成形信号)。

作为一种方式，需要说明的是，多个音频播放设备可以是等间距的排布在音频播放设备中，在这种情况下，声源所发出的声音到达每个第一麦克风的时间是不同的，而声源发出的声音到达每个第一麦克风的时间的差，则可以理解为本申请实施例中多路音频信号之间的延时。示例性的，如图4所示，多个第一麦克风包括麦克风1和麦克风2，其中麦克风2相比麦克风1更靠近声源，在这种情况下，从声源处发出的声音会先被麦克风2接收到，进而也就使得麦克风1所采集的音频信号会比麦克风2所采集的音频信号有延时。

作为一种方式，可以获取多路音频信号的互相关参数，其中，互相关参数的值与多路音频信号之间的延时对应，进而，可以基于互相关参数的峰值得到多路音频信号之间的延时。其中，互相关参数用于表征两路音频信号之间的相关性。示例性的，请再参阅图4，若麦克风2采集的音频信号表示为m₁(t)＝s(t)，则麦克风1采集的音频信号则可以表示为m₀(t)＝s(t+τ)。其中，τ则表征麦克风1采集的音频信号和麦克风2采集的音频信号之间的延时。可选的，多路音频信号的互相关参数则可以表示为：

在得到上述的互相干参数的表达式之后，再获取该互相关参数的最大值，进而将最大值所对应的τ作为多路音频信号之间的延时。

需要说明的是，波束成形处理是对不同来波方向的进行响应。可选的，在本申请实施例中，可以基于下列公式来进行波束成形处理，其中，用于波束成形处理的公式可以为：

其中，α(θ)为方向向量，可以表示为：

其中，N表示第一麦克风的数量，d表示多个第一麦克风之间的距离之间，θ表示声源的方位，λ是声波波长。ω为方向向量，可以表示为α(θ₀)，其中，θ₀为参考方向。

可以理解的，对于目标声源方位为用户选择的拾音方位的情况下，可以根据用户选定的声源方位计算延时并应用到波束成形中，在此不做赘述。

S140：根据声音信号进行声音透传。

需要说明的是，在本申请实施例中，通过波束成形处理所得到的声音信号中携带有表征目标声源的方位的信息。在这种情况下，音频播放设备则可以根据声音信号来确定需要进行声音透传的方向。其中，声音透传可以理解为声音信号会直接通过音频播放设备的喇叭进行播放。示例性的，如图5所示，为本申请实施例所生成的一种波束成形信号，如图5所示，波束成形信号可以表现为图5中所示的波束图。其中，在波束图中方位80°处的衰减为0，则80°处为目标声源方位。在这种情况下，则可以对80°处对应的声音信号进行透传。

本实施例提供的一种音频处理方法，在音频播放设备包括多个第一麦克风的情况下，获取多个第一麦克风各自采集的音频信号，以得到多路音频信号。在得到目标声源方位后，基于目标声源方位以及延时进行波束成形处理，得到表征目标声源方位的声音信号波束成形信号，最后根据声音信号进行声音透传。从而通过上述方式使得，在确定目标声源方位后，可以再通过波束成形方式得到表征目标声源方位的声音信号的波束成形信号，以借助该波束成形信号进行声音透传，从而使得用户可以能够清晰的听到目标声源方位的声音。

请参阅图6，本申请实施例提供的一种音频处理方法，应用于音频播放设备，音频播放设备包括多个第一麦克风，方法包括：

S210：获取多个第一麦克风各自采集的音频信号，以得到多路音频信号。

需要说明的是，音频播放设备的一个作用是用于对电子设备所传输来的音频数据进行播放。若音频播放设备再通过多个第一麦克风各自采集的音频信号，以得到多路音频信号，则会增加音频播放设备的电量消耗。那么作为一种方式，音频播放设备在获取多个第一麦克风各自采集的音频信号之前可以先获取音频播放设备的电量，在检测到音频播放设备的电量高于电量阈值的情况下，则会执行获取多个第一麦克风各自采集的音频信号，以得到多路音频信号。若检测到音频播放设备的电量不高于电量阈值的情况下，则不会通过多个第一麦克风进行音频信号的采集，以降低音频播放设备的电量消耗。

S220：获取目标声源方位。

S230：基于目标声源方位以及多路音频信号进行波束成形处理，得到目标声源方位对应的声音信号。

S240：对目标声源方位的声音信号进行降噪抑制处理得到降噪后的目标声音信号。

S250：对目标声音信号进行播放。

需要说明的是，S210可以对应S110，S220可以对应S120，S230可以对应S130，在上述不同实施例中对应的描述可以相互适用。S240和S250可以是对S140的进一步细化的实现方式。对于目标声源方向的声音信号中依然会携带有一定的噪声，在这种情况下，通过对目标声源方位的声音信号进行降噪抑制(Noise Suppression,NS)处理可以进一步的降低目标声源方位的声音中的噪声，有利于用户更加的清晰的听到目标声源方向的声音。作为一种方式，对目标声源方位的声音信号进行降噪抑制处理得到目标声音信号，对目标声音信号进行播放，包括：通过预先训练的神经网络模型对目标声源方位的声音信号中的噪声进行识别；从目标声源方位的声音信号中消除识别出的噪声信号，以得到降噪后的目标声音信号，对降噪后的目标声音信号进行播放。在这种方式中，可以预先对初始的神经网络模型进行训练，进而得到目标声源方位的声音信号中的噪声进行识别的神经网络模型。在训练过程中，可以获取预先收集好的噪声音频数据库，然后将该噪声音频数据库作为训练数据对初始的神经网络模型进行训练。其中，噪声音频数据库中所记录的音频内容可以为需要进行过滤的音频内容，在这种情况下，可以通过改变噪声音频数据库中的音频内容而对对神经网络模型所能识别的噪声进行改变。

可选的，可以建立多个噪声音频数据库，然后基于该多个噪音音频数据库训练得到多个神经网络模型。其中，多个噪声音频数据库各自所包括的噪音不同，对应的，通过该多个噪声音频数据库所训练出的神经网络模型所能识别的噪音也会不同。在这种情况下，可以由用户预先配置所需识别的噪声的类型，进而可以通过该类型来匹配出适配的神经网络模型，然后通过该适配的神经网络模型对目标声源方位的声音信号中的噪声进行识别。

在一些实施例中，可以通过预先训练的神经网络模型对声音信号中的特定声音信号进行识别，筛选出特定声音信号得到目标声音信号，然后对目标声音信号进行播放实现透传。该特定声音信号可以是通过前期训练筛选的，例如可以设置与安全有关的声音作为特定声音，比如汽车/摩托等的喇叭声、求救声、报警声。也可以是与日常沟通有关的特定声音，例如打招呼的关键词、特定人声。此外，还可以通过用户选择来设置需要被透传的特定声音，从而避免在用户听歌或通话时目标声源方位的所有声音都透传给用户，造成对用户不必要的干扰，只透传上述特定的声音，可以在满足用户需求或者保障用户安全等情况下又可以减低对用户使用耳机的干扰。

在一些实施例中，可以在检测到有预设声音信号时才启动获取多个第一麦克风各自采集的音频信号，以得到多路音频信号的步骤，上述预设声音信号可以与上述特定声音信号相同或不同，从而可以降低功耗。

需要说明的是，为了降低对音频播放设备的存储空间的占用。可以将所有可选的神经网络模型均存储在与音频播放设备配对的电子设备中。在从所有可选的神经网络模型中得到适配的神经网络模型后，可以将适配的神经网络模型传输到音频播放设备中进行存储。并且，音频播放设备中存储有历史确定的适配的神经网络模型的情况下，会使用最新确定的适配的神经网络模型覆盖历史确定的适配的神经网络模型。

在对目标声源方向的声音信号进行识别的过程中，可以先获取对目标声源方向的声音信号的特征向量，然后将该特征向量输入到神经网络模型中，以识别是否存在噪声。其中，在本申请实施例中，可以基于MFCC(Mel频率倒谱系数)的方式提取目标声源方向的声音信号的特征向量。

作为一种方式，音频播放设备还可以通过多路音频信号中的至少一路信号得到环境音信号，然后对环境音信号进行降噪处理，得到降噪后的环境音信号。在这种方式下，将目标声源方位的声音信号与对环境音信号进行降噪的反相声音信号进行混合，得到混合后的声音信号，对混合后的声音信号进行播放。在这种方式下，因为是对混合后的声音信号进行播放，所以既可以实现对目标声源方位的声音信号进行透传，又可以实现对音频播放设备所采集到其他方向的环境音进行降噪。示例性的，如图7所示，用户周围的区域可以区分为区域S1和区域S2，其中，区域S1为对应于目标声源方向的区域，区域S2为目标声源方向以外方向对应的区域。经过本实施例提供的音频处理方法的处理，音频播放设备则可以实现区域S1所传输来的声音信号透传给用户，以及区域S2传输来的声音进行降噪处理。

再者需要说明的是，在本申请实施例中，所识别出的目标声源的数量可以为多个。那么在所识别处的目标声源有多个的情况下，对于多个目标声源方位的声音信号均可以进行透传。示例性的，如图8所示，用户周围的区域可以划分为区域S3、区域S4、区域S5、区域S6、区域S7以及区域S8。其中，区域S3为检测到目标声源1对应的区域，区域S4为检测到目标声源2对应的区域，区域S5为检测到目标声源3对应的区域。在图8所示的情况下，音频播放设备则会对区域S3、区域S4以及区域S5的声音信号进行透传，而对区域S6、区域S7以及区域S8声音信号进行降噪处理。

可选的，在本申请实施例中，可以通过通过ANC(Active Noise Cancellation)主动降噪的方式对环境音信号进行降噪处理。可以理解的，主动降噪一般为全向的降噪，因此可以在对环境音信号进行主动降噪的基础上，对目标声源方向的声音信号进行透传，从而可以实现对目标声源方向的声音信号进行透传，对其他方向声音信号进行降噪的效果。

在一些实施例中，既可以对目标声源方位对应的声音信号进行降噪抑制处理，又可以获取环境音信号并对获取到的环境音信号进行降噪处理。在这种实施方式中，在通过多个第一麦克风各自采集的音频信号得到多路音频信号，以及获取得到目标声源方位之后，基于该目标声源方位以及该多路音频信号进行波束成形处理，得到目标声源方位对应的声音信号。对于目标声源方位的声音信号则会对声音信号进行降噪抑制处理得到降噪后的目标声音信号，并对该目标声源信号进行播放。并且，还会通过该多路音频信号中的至少一路信号得到环境音信号，或通过第二麦克风采集环境音信号。在得到环境音信号后，根据环境音信号生成反相降噪信号，并播放该反相降噪信号。在该实施方式中，通过既对目标声源方位的声音信号进行降噪抑制处理，又对环境音信号进行主动降噪，进而使得用户可以更加清晰的听到声源方位的声音。

在一些实施例中，可以通过多路音频信号中的至少一路信号得到环境音信号，或者，通过第二麦克风采集环境音信号，其中多个第一麦克风可以包括前馈(feedforward,FF)麦克风和通话麦克风中的至少一个，第二麦克风可以包括后馈(feedback，FB)麦克风，根据环境音信号生成反相降噪信号，播放反相降噪信号。

也就是说，用于主动降噪的环境音信号可以通过前馈麦克风来采集，也可以通过通话麦克风来采集，还可以通过反馈麦克风来采集，需要注意的是，通过反馈麦克风进行主动降噪时由于会将扬声器播放的音频信号一起降噪处理，因此需要对扬声器播放的音频信号进行进行预补偿处理，从而补偿音质。

示例性的，如图9所示，第一麦克风可以为前述的前馈麦克风，第二麦克风可以为前述的反馈麦克风，那么第一麦克风采集的音频信号一方面会用于得到环境音信号，然后对环境音信号进行降噪处理(如图9中的前馈降噪滤波)。另一方面，第一麦克风采集的音频信号还会用于进行目标声源方位的声源角度估计，再进行波束成形处理。

需要说明的是，对于目标声源方向的声音信号还可以通过对齐的方式进行增强。其中，对声音信号进行对齐可以理解为在时域上进行对齐，对应的，将对于需要进行降噪处理的声音信号，则可以通过错开的方式进行抑制，其中，声音信号进行错开也可以理解为在时域上进行错开。示例性的，如图10所示，麦克风1采集的音频信号相比麦克风2采集的音频信号会有延时，在计算得到的延时以及目标声源方位后，则可以将目标声源方向的声音信号进行对齐，以将目标声源方位的声音信号进行增强。其中，增强可以理解为将对齐的声音信号的强度进行叠加，以增加目标声源方位的声音信号的强度。再者，在如图11所示，声音信号相互错开的情况下，在声音强度上则不会有叠加，进而相对于叠加增强的目标声源方位的声音信号则可以理解为受到了抑制。

本实施例提供的一种音频处理方法，从而通过上述方式使得，在确定目标声源方位后，可以再通过波束成形方式得到表征目标声源方位的声音信号的波束成形信号，以借助该波束成形信号进行声音透传，从而使得用户可以清晰的听到目标声源方位的声音。并且，在本实施例中，对于目标声源方位的声音信号还会进一步的进行降噪处理，进而有利于使得用户所听到的关于目标声源方位的声音可以更为清晰，或能够提供用户所需的声音或者特定的声音。

请参阅图12，本申请实施例提供的一种音频处理方法，应用于音频播放设备，音频播放设备包括多个第一麦克风，方法包括：

S310：获取多个第一麦克风各自采集的音频信号，以得到多路参考音频信号。

S320：获取多路参考音频信号中每两路音频信号之间的互相关参数。

需要说明的是，在音频播放设备周围存在风噪的情况下，会使得某两个第一麦克风所采集的音频信号的互相性降低。具体地，若在多个第一麦克风中，存在有第一麦克风感受到的风噪比另外的第一麦克风感受到的风噪更大，则会使得该两个第一麦克风采集的音频信号的互相性较低。而若两个第一麦克风采集的音频信号之间的互相性越大，则该两个麦克风所感受到的风噪越小，进而该两个第一麦克风受到风噪的影响也就越小。在这种情况下，则可以获取每两个第一麦克风所采集的音频信号之间的互相关参数，与基于每两个第一麦克风所采集的音频信号之间的互相关参数来选取目标麦克风。

S330：获取对应的互相关参数满足目标条件的两路音频信号对应的麦克风为目标麦克风。

其中，目标条件为用于选取目标麦克风的条件。在本实施例中，对应的互相关参数满足目标条件的两路音频信号为受到风噪最小的第一麦克风。因此，通过这种方式，可以选择受到风噪最小的第一麦克风所采集的音频信号以进行后续的处理，进而有利于避免目标声源方位的声音信号的清晰度受到影响。如图13所示，音频播放设备包括有第一麦克风10、第一麦克风11以及第一麦克风12。其中，音频播放设备周围的风如图12中虚线箭头所示的方向吹向音频播放设备。那么在这种情况下，第一麦克风10和第一麦克风11所采集的音频信号之间的互相关参数，以及第一麦克风12和第一麦克风10所采集的音频信号之间的互相关参数，均为小于第一麦克风12和第一麦克风11所采集的音频信号之间的互相关参数，在这种情况下，音频播放设备则会通过第一麦克风12和第一麦克风11来得到后续所需的多路音频信号。

S340：获取目标麦克风采集的音频信号作为多路音频信号。

S350：基于多路音频信号得到多路音频信号之间的延时。

S360：获取目标声源方位。

需要说明的是，在本申请实施例中，音频播放设备除了可以通过对多个第一麦克风采集的音频信号进行处理，以确定目标声源方位外，还可以由用户自己来手动输入目标声源方位。作为一种方式，基于延时以及多个第一麦克风之间的距离，得到目标声源方位之前还包括：检测是否有手动输入的拾音方位，若检测到没有手动输入的拾音方位，则执行基于延时以及多个第一麦克风之间的距离，得到目标声源方位，若检测到有手动输入的适应方位，将手动输入的拾音方位作为目标声源方位。

作为一种方式，其中，音频播放设备可以将接收到的拾音方位(手动输入的拾音方位)存储在指定位置。在这种情况下，音频播放设备可以检测该指定位置是否存储有数据，来确定是否有手动输入的拾音方位。在这种情况下，若音频播放设备确定该指定位置存储有数据，则确定有手动输入的适应方位，进而会将手动输入的拾音方位作为目标声源方位。

S370：基于目标声源方位以及延时进行波束成形处理，得到表征目标声源方位的声音信号的波束成形信号。

S380：根据波束成形信号进行声音透传。

本实施例提供的一种音频处理方法，从而通过上述方式使得，在确定目标声源方位后，可以再通过波束成形方式得到表征目标声源方位的声音信号的波束成形信号(例如得到目标声源方位对应的声源信号)，以借助该波束成形信号进行声音透传，从而使得用户可以能够清晰的听到目标声源方位的声音。并且，在本实施例中，在音频播放设备包括第一麦克风、第二麦克风以及第三麦克风的情况下，可以选取当前进行音频采集受风噪影响相对更小的麦克风进行多个音频信号的采集，有利于避免风噪影响目标声源方向的声音的清晰度。

请参阅图14，本申请实施例提供的一种音频处理方法，应用于音频播放设备，音频播放设备包括多个第一麦克风，方法包括：

S410：获取多个第一麦克风各自采集的音频信号，以得到多路音频信号。

S420：获取目标声源方位，目标声源方位包括由用户选择的第一目标声源方位，以及基于延时以及多个第一麦克风之间的距离确定的第二目标声源方位。

S430：基于第一目标声源方位以及多路音频信号进行波速成形处理，得到第一目标声源方位对应的第一声音信号。

S440：基于第二目标声源方位以及多路音频信号进行波速成形处理，得到第二目标声源方位对应的第二声音信号。

S450：播放第一声音信号。

S460：对第二声音信号进行噪声抑制处理，并播放噪声抑制处理后的声音信号。

可以理解的，第二声音信号可以是任意方位的声音信号，也就是说哪个方位有声音产生就会产生对应的第二声音信号，从而可以使得音频播放设备实时的获取周围的环境音，然而如果对获取的所有环境音都进行透传可能不利于用户对耳机设备的使用，特别是在通话或者播放音乐的过程中。因此对第二声音信号进行噪声抑制，可以筛选出特定声音信号进行透传从而减低对用户使用耳机的干扰；而对于第一声音信号由于是用户选择的拾音方位对应的声音信号，表明用户对该方位比较重视，因此可以不用再对第一声音信号中的声音进行筛选，直接进行播放。上述两种目标声源方位的结合可以即满足实时透传周围特定声音信号又可以保障完整透传用户重点想要关注方位的声音信号，从而更能满足用户的需求，也能够在保障用户使用耳机和透传环境音之间形成一定的平衡。

请参阅图15，本申请实施例提供的一种音频处理装置400，运行于音频播放设备，音频播放设备包括多个第一麦克风，装置400包括：

音频信号获取单元410，用于获取多个第一麦克风各自采集的音频信号，以得到多路音频信号；

声源方位获取单元420，用于获取目标声源方位；

波束成形单元430，用于基于所述目标声源方位以及所述多路音频信号进行波束成形处理，得到所述目标声源方位对应的声音信号；

音频处理单元440，用于根据所述声音信号进行声音透传。

作为一种方式，音频处理单元440，具体用于播放所述声音信号；或者，对所述声音信号进行降噪抑制处理得到降噪后的目标声音信号；对所述目标声音信号进行播放。

可选的，音频处理单元440，具体用于通过预先训练的神经网络模型对所述声音信号中的噪声进行识别；从目标声源方位的声音信号中消除识别出的噪声信号，以得到降噪后的所述目标声音信号。

音频处理单元440，还用于通过所述多路音频信号中的至少一路信号得到环境音信号，或通过第二麦克风采集环境音信号，其中所述多个第一麦克风包括前馈麦克风和通话麦克风中的至少一个，所述第二麦克风包括后馈麦克风；根据所述环境音信号生成反相降噪信号；播放所述反相降噪信号。

作为一种方式，声源方位获取单元420，具体用于基于所述多路音频信号得到所述多路音频信号之间的延时；基于所述延时以及所述多个第一麦克风之间的距离，确定所述目标声源方位。可选的，声源方位获取单元420，具体用于所述基于所述多路音频信号得到所述多路音频信号之间的延时，包括：获取所述多路音频信号的互相关参数，所述互相关参数的值与所述多路音频信号之间的延时对应；基于所述互相关参数的峰值得到所述多路音频信号之间的延时。可选的，声源方位获取单元420，具体用于获取所述多路音频信号之间的延时的预设约束条件，所述预设约束条件表征所述延时与目标声源方位以及多个第一麦克风之间的距离的对应关系；基于所述预设约束条件以及所述延时得到所述目标声源方位。

可选的，声源方位获取单元420，还用于确定是否有用户选择的拾音方位；若无，则执行所述基于所述延时以及所述多个第一麦克风之间的距离，得到目标声源方位；若有，将所述用户选择的拾音方位作为所述目标声源方位。

作为一种方式，声源方位获取单元420，具体用于根据用户选择的拾音方位确定所述目标声源方位。

作为一种方式，所述目标声源方位包括由用户选择的第一目标声源方位和基于所述延时以及所述多个第一麦克风之间的距离，确定的第二目标声源方位。波束成形单元430，具体用于基于所述第一目标声源方位以及所述多路音频信号进行波速成形处理，得到所述第一目标声源方位对应的第一声音信号，基于所述第二目标声源方位以及所述多路音频信号进行波速成形处理，得到所述第二目标声源方位对应的第二声音信号。对应的，音频处理单元440，具体用于播放所述第一声音信号；对所述第二声音信号进行噪声抑制处理，并播放噪声抑制处理后的声音信号。

作为一种方式，延时获取单元420，具体用于获取多路音频信号的互相关参数，互相关参数的值与多路音频信号之间的延时对应；基于互相关参数的峰值得到多路音频信号之间的延时。

作为一种方式，声源方位获取单元420，具体用于获取多路音频信号之间的延时的预设约束条件，预设约束条件表征延时与目标声源方位以及多个第一麦克风之间的距离的对应关系；基于预设约束条件以及延时得到目标声源方位。

作为一种方式，音频信号获取单元410，具体用于获取第一麦克风、第二麦克风以及第三麦克风采集的音频信号；获取第一麦克风、第二麦克风以及第三麦克风中每两个麦克风所采集的音频信号之间的互相关参数；若多个第一麦克风各自采集的音频信号之间的互相关参数的值最大，则将多个第一麦克风各自采集的音频信号，作为多路音频信号。

作为一种方式，声源方位获取单元420，具体用于检测是否有手动输入的拾音方位；若检测到没有手动输入的拾音方位，则执行基于延时以及多个第一麦克风之间的距离，得到目标声源方位；若检测到有手动输入的适应方位，将手动输入的拾音方位作为目标声源方位。

本实施例提供的一种音频处理装置，从而通过上述方式使得，在确定目标声源方位后，可以再通过波束成形方式得到表征目标声源方位的声音信号的波束成形信号，以借助该波束成形信号进行声音透传，从而使得用户可以能够清晰的听到目标声源方位的声音。

需要说明的是，本申请中装置实施例与前述方法实施例是相互对应的，装置实施例中具体的原理可以参见前述方法实施例中的内容，此处不再赘述。

请参阅图16，基于上述的音频处理方法、装置，本申请实施例还提供的另一种可以执行前述音频处理方法的音频播放设备2000。音频播放设备2000包括相互耦合的一个或多个(图中仅示出一个)处理器202、存储器204、网络模块206、传感器模块208以及音频采集装置210。其中，该存储器204中存储有可以执行前述实施例中内容的程序，而处理器202可以执行该存储器204中存储的程序。

其中，处理器202可以包括一个或者多个处理核。处理器202利用各种接口和线路连接整个音频播放设备2000内的各个部分，通过运行或执行存储在存储器204内的指令、程序、代码集或指令集，以及调用存储在存储器204内的数据，执行音频播放设备2000的各种功能和处理数据。可选地，处理器202可以采用数字信号处理(Digital SignalProcessing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器202可集成中央处理器(Central Processing Unit，CPU)、图像处理器(Graphics ProcessingUnit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器202中，单独通过一块通信芯片进行实现。

存储器204可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器204可用于存储指令、程序、代码、代码集或指令集。存储器204可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。

所述网络模块206用于实现音频播放设备2000与其他设备之间的信息交互，例如，传输设备控制指令、操纵请求指令以及状态信息获取指令等。而当音频播放设备200具体为不同的设备时，其对应的网络模块206可能会有不同。

传感器模块208可以包括至少一种传感器。具体地，传感器模块208可包括但并不限于：光传感器、运动传感器、压力传感器、红外热传感器、距离传感器、加速度传感器、以及其他传感器。

其中，压力传感器可以检测由按压在音频播放设备2000产生的压力的传感器。即，压力传感器检测由用户和音频播放设备之间的接触或按压产生的压力，例如由用户的耳朵与移动终端之间的接触或按压产生的压力。因此，压力传感器可以用来确定在用户与音频播放设备2000之间是否发生了接触或者按压，以及压力的大小。

其中，加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别音频播放设备2000姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等。另外，音频播放设备2000还可配置陀螺仪、气压计、湿度计、温度计等其他传感器，在此不再赘述。

音频采集装置210，用于进行音频信号采集。可选的，音频采集装置210包括有多个音频采集器件。该音频采集器件可以为麦克风。

作为一种方式，音频播放设备2000的网络模块为射频模块，该射频模块用于接收以及发送电磁波，实现电磁波与电信号的相互转换，从而与通讯网络或者其他设备进行通讯。所述射频模块可包括各种现有的用于执行这些功能的电路元件，例如，天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(SIM)卡、存储器等等。例如，该射频模块可以通过发送或者接收的电磁波与外部设备进行信息交互，进而接收外部设备所发送的音频信号。

再者，音频播放设备2000还可以包括有图像采集器件以进行图像采集。例如，可以通过该图像采集器件拍摄视频、静态图片或者动态图片。

请参考图17，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质900中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质900可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质900包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质900具有执行上述方法中的任何方法步骤的程序代码910的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码910可以例如以适当形式进行压缩。

综上所述，本申请提供的一种音频处理方法、装置以及音频播放设备，在音频播放设备包括多个第一麦克风的情况下，获取多个第一麦克风各自采集的音频信号，以得到多路音频信号。在得到目标声源方位后，基于目标声源方位以及延时进行波束成形处理，得到表征所述目标声源方位的声音信号波束成形信号，最后根据所述声音信号进行声音透传。从而通过上述方式使得，在确定目标声源方位后，可以再通过波束成形方式得到表征所述目标声源方位的声音信号的波束成形信号，以借助该波束成形信号进行声音透传，从而使得用户可以能够清晰的听到目标声源方位的声音。

从而通过上述方式使得，除了可以通过音频播放设备本身的音频采集装置进行音频信号采集外，还可以借助外部设备的音频采集装置进行音频信号采集，从而使得音频播放设备可以借助外部设备采集得到更多有效的音频信号，进而在确定录制方向后，可以将音频播放设备和外部设备共同采集的音频信号(第三音频信号)中与录制方向对应的目标音频信号进行突出，以便可以实现提升特定对象的声音清晰度。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种音频处理方法，其特征在于，应用于音频播放设备，所述音频播放设备包括多个第一麦克风，所述方法包括：

获取所述多个第一麦克风各自采集的音频信号，以得到多路音频信号；

获取目标声源方位；

基于所述目标声源方位以及所述多路音频信号进行波束成形处理，得到所述目标声源方位对应的声音信号；

根据所述声音信号进行声音透传。

2.根据权利要求1所述的方法，其特征在于，所述根据所述声音信号进行声音透传，包括：

对所述声音信号进行降噪抑制处理得到降噪后的目标声音信号，

对所述目标声音信号进行播放；或者，

播放所述声音信号。

3.根据权利要求2所述的方法，其特征在于，所述对所述目标声源方位的声音信号进行降噪处理得到降噪后的目标声音信号，包括：

通过预先训练的神经网络模型对所述声音信号中的噪声进行识别；

从目标声源方位的声音信号中消除识别出的噪声信号，以得到降噪后的所述目标声音信号。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

通过所述多路音频信号中的至少一路信号得到环境音信号，或通过第二麦克风采集环境音信号，其中所述多个第一麦克风包括前馈麦克风和通话麦克风中的至少一个，所述第二麦克风包括后馈麦克风；

根据所述环境音信号生成反相降噪信号；

播放所述反相降噪信号。

5.根据权利要求1所述的方法，其特征在于，所述获取目标声源方位，包括：基于所述多路音频信号得到所述多路音频信号之间的延时；

基于所述延时以及所述多个第一麦克风之间的距离，确定所述目标声源方位。

6.根据权利要求5所述的方法，其特征在于，

所述基于所述多路音频信号得到所述多路音频信号之间的延时，包括：

获取所述多路音频信号的互相关参数，所述互相关参数的值与所述多路音频信号之间的延时对应；

基于所述互相关参数的峰值得到所述多路音频信号之间的延时。

7.根据权利要求6所述的方法，其特征在于，所述基于所述延时以及所述多个第一麦克风之间的距离，确定所述目标声源方位，包括：

获取所述多路音频信号之间的延时的预设约束条件，所述预设约束条件表征所述延时与目标声源方位以及多个第一麦克风之间的距离的对应关系；

基于所述预设约束条件以及所述延时得到所述目标声源方位。

8.根据权利要求5所述的方法，其特征在于，所述基于所述延时以及所述多个第一麦克风之间的距离，得到目标声源方位之前还包括：

确定是否有用户选择的拾音方位；

若无，则执行所述基于所述延时以及所述多个第一麦克风之间的距离，得到目标声源方位；

若有，将所述用户选择的拾音方位作为所述目标声源方位。

9.根据权利要求1所述的方法，其特征在于，所述获取目标声源方位，包括：

根据用户选择的拾音方位确定所述目标声源方位。

10.根据权利要求1所述的方法，其特征在于，所述目标声源方位包括由用户选择的第一目标声源方位和基于所述延时以及所述多个第一麦克风之间的距离，确定的第二目标声源方位；

所述基于所述目标声源方位以及所述多路音频信号进行波束成形处理，得到所述目标声源方位对应的声音信号，包括：

基于所述第一目标声源方位以及所述多路音频信号进行波速成形处理，得到所述第一目标声源方位对应的第一声音信号；

基于所述第二目标声源方位以及所述多路音频信号进行波速成形处理，得到所述第二目标声源方位对应的第二声音信号；

所述根据所述声音信号进行声音透传，包括：

播放所述第一声音信号；

对所述第二声音信号进行噪声抑制处理，并播放噪声抑制处理后的声音信号。

11.根据权利要求1所述的方法，其特征在于，所述获取所述多个第一麦克风各自采集的音频信号，以得到多路音频信号，包括：

获取所述多个第一麦克风各自采集的音频信号，以得到多路参考音频信号；

获取所述多路参考音频信号中每两路音频信号之间的互相关参数；

获取对应的互相关参数满足目标条件的两路音频信号对应的麦克风为目标麦克风；

获取所述目标麦克风采集的音频信号作为多路音频信号。

12.根据权利要求11所述的方法，其特征在于，所述目标条件包括对应的互相关参数最大。

13.根据权利要求1所述的方法，其特征在于，所述音频播放设备包括第一耳机以及第二耳机；所述根据所述声音信号进行声音透传之前，还包括：

确定所述第一耳机和所述第二耳机均处于佩戴状态。

14.一种音频处理装置，其特征在于，运行于音频播放设备，所述音频播放设备包括多个第一麦克风，所述装置包括：

音频信号获取单元，用于获取所述多个第一麦克风各自采集的音频信号，以得到多路音频信号；

声源方位获取单元，用于获取目标声源方位；

波束成形单元，用于基于所述目标声源方位以及所述多路音频信号进行波束成形处理，得到所述目标声源方位对应的声音信号；

音频处理单元，用于根据所述声音信号进行声音透传。

15.一种音频播放设备，其特征在于，包括一个或多个处理器以及存储器；

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行权利要求1-13任一所述的方法。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码运行时执行权利要求1-13任一所述的方法。