CN114333886A

CN114333886A - 音频处理方法、装置、电子设备及存储介质

Info

Publication number: CN114333886A
Application number: CN202111582189.6A
Authority: CN
Inventors: 凌华东
Original assignee: Realme Mobile Telecommunications Shenzhen Co Ltd
Current assignee: Realme Mobile Telecommunications Shenzhen Co Ltd
Priority date: 2021-12-22
Filing date: 2021-12-22
Publication date: 2022-04-12

Abstract

本申请实施例公开了一种音频处理方法、装置、电子设备及存储介质。该方法可应用于第一耳机，第一耳机中设置有第一麦克风，第二耳机中设置有第二麦克风，所述第一耳机与第二耳机属于同一耳机设备；所述方法包括：通过第一麦克风采集第一音频信号；接收第二耳机发送的第二音频信号，第二音频信号为第二耳机通过第二麦克风采集的音频信号；将第一音频信号与所述第二音频信号进行比对，以识别出佩戴第一耳机及第二耳机的佩戴者发出的语音信号；将目标语音信号发送至终端设备。上述的音频处理方法、装置、电子设备及存储介质，能够准确识别出第一耳机及第二耳机采集的音频信号中的有用人声，满足了利用耳机设备采集到清晰的用户语音的用户需求。

Description

音频处理方法、装置、电子设备及存储介质

技术领域

本申请涉及音频处理技术领域，具体涉及一种音频处理方法、装置、电子设备及存储介质。

背景技术

随着电子科技技术的发展，耳机设备已成为用户在日常及工作中不可缺少的电子设备，用户可以利用耳机设备收听音频、进行语音通话等。在利用耳机设备采集用户语音并传输到终端设备的场景中，由于耳机设备无法准确定位出声源位置，导致无法区分出有用的人声及环境中的嘈杂噪声，因此，无法满足利用耳机设备采集到清晰的用户语音的用户需求。

发明内容

本申请实施例公开了一种音频处理方法、装置、电子设备及存储介质，能够准确识别出第一耳机及第二耳机采集的音频信号中的有用人声，满足了利用耳机设备采集到清晰的用户语音的用户需求。

本申请实施例公开了一种音频处理方法，应用于第一耳机，所述第一耳机与第二耳机通信连接，所述第一耳机中设置有第一麦克风，所述第二耳机中设置有第二麦克风，所述第一耳机与第二耳机属于同一耳机设备，所述耳机设备还与终端设备通信连接；所述方法包括：

通过所述第一麦克风采集第一音频信号；

接收所述第二耳机发送的第二音频信号，所述第二音频信号为所述第二耳机通过所述第二麦克风采集的音频信号；

将所述第一音频信号与所述第二音频信号进行比对，以得到所述第一音频信号与所述第二音频信号中比对结果处于误差范围内的音频信号，作为目标语音信号，其中，所述目标语音信号为佩戴所述第一耳机及第二耳机的佩戴者发出的语音信号；

将所述目标语音信号发送至所述终端设备。

本申请实施例公开了一种音频处理方法，应用于终端设备，所述终端设备与耳机设备通信连接，所述耳机设备包括第一耳机及第二耳机，所述第一耳机中设置有第一麦克风，所述第二耳机中设置有第二麦克风；所述方法包括：

分别接收所述第一耳机发送的第一音频信号，以及所述二耳机发送的第二音频信号，其中，所述第一音频信号为所述第一耳机通过所述第一麦克风采集的音频信号，所述第二音频信号为所述第二耳机通过所述第二麦克风采集的音频信号；

将所述第一音频信号与所述第二音频信号进行比对，以得到所述第一音频信号与所述第二音频信号中比对结果处于误差范围内的音频信号，作为目标语音信号。

本申请实施例公开了一种音频处理装置，应用于第一耳机，所述第一耳机与第二耳机通信连接，所述第一耳机中设置有第一麦克风，所述第二耳机中设置有第二麦克风，所述第一耳机与第二耳机属于同一耳机设备，所述耳机设备还与终端设备通信连接；所述装置包括：

采集模块，用于通过所述第一麦克风采集第一音频信号；

接收模块，用于接收所述第二耳机发送的第二音频信号，所述第二音频信号为所述第二耳机通过所述第二麦克风采集的音频信号；

比对模块，用于将所述第一音频信号与所述第二音频信号进行比对，以得到所述第一音频信号与所述第二音频信号中比对结果处于误差范围内的音频信号，作为目标语音信号，其中，所述目标语音信号为佩戴所述第一耳机及第二耳机的佩戴者发出的语音信号；

发送模块，用于将所述目标语音信号发送至所述终端设备。

本申请实施例公开了一种音频处理装置，应用于终端设备，所述终端设备与耳机设备通信连接，所述耳机设备包括第一耳机及第二耳机，所述第一耳机中设置有第一麦克风，所述第二耳机中设置有第二麦克风；所述装置包括：

接收模块，用于分别接收所述第一耳机发送的第一音频信号，以及所述第二耳机发送的第二音频信号，其中，所述第一音频信号为所述第一耳机通过所述第一麦克风采集的音频信号，所述第二音频信号为所述第二耳机通过所述第二麦克风采集的音频信号；

比对模块，用于将所述第一音频信号与所述第二音频信号进行比对，以得到所述第一音频信号与所述第二音频信号中比对结果处于误差范围内的音频信号，作为目标语音信号。

本申请实施例公开了一种电子设备，包括存储器及处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器实现如上任一所述的方法。

本申请实施例公开了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上任一所述的方法。

本申请实施例提供的音频处理方法、装置、电子设备及存储介质，耳机设备中的第一耳机通过第一麦克风采集第一音频信号，耳机设备中的第二耳机通过第二麦克风采集第二音频信号，通过将第一音频信号与第二音频信号进行比对，以得到第一音频信号与所述第二音频信号中比对结果处于误差范围内的音频信号，作为目标语音信号，该目标语音信号即为佩戴第一耳机及第二耳机的佩戴者发出的语音信号，能够准确识别出第一耳机及第二耳机采集的音频信号中的有用人声，满足了利用耳机设备采集到清晰的用户语音的用户需求。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中音频处理方法的应用场景图；

图2为一个实施例中音频处理方法的流程图；

图3A为一个实施例中佩戴者佩戴耳机设备并进行语音采集的示意图；

图3B为一个实施例中第一音频信号及第二音频信号的示意图；

图4为另一个实施例中音频处理方法的流程图；

图5为又一个实施例中音频处理方法的流程图；

图6为再一个实施例中音频处理方法的流程图；

图7为一个实施例中音频处理装置的框图；

图8为另一个实施例中音频处理装置的框图；

图9为一个实施例中电子设备的结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请实施例及附图中的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说，在不脱离本申请的范围的情况下，可以将第一耳机称为第二耳机，且类似地，可将第二耳机称为第一耳机。第一耳机和第二耳机两者都是耳机，但其不是同一只耳机。需要说明的是，本申请所涉及的术语“多个”等指的是两个及两个以上。

在利用耳机设备采集用户语音并传输到终端设备的场景中，例如利用耳机设备进行语音通话的场景、利用耳机设备进行录音的场景等，耳机设备通常只利用其中的一只耳机上的麦克风进行拾音。而对于通过一只耳机上的麦克风采集的音频信号进行降噪的方案是与该耳机上设置的麦克风数量息息相关的。在相关技术中通常采用Beamforing(波束成形)定向拾音技术对麦克风采集的音频信号进行降噪，该技术需要在耳机上设置两个以上的麦克风，且两个以上的麦克风之间的距离需要满足最小距离的要求(一般为两个麦克风的拾音孔距离≥20毫米)，对于耳机的结构设计要求高，且增加了成本。

而在耳机上只设置一个麦克风时，在对一只耳机的麦克风采集的音频信号进行降噪时，只采用该耳机上的麦克风，因此无法实现Beamforing技术进行声源定位，从而导致在嘈杂环境下，无法区分出有用的人声及环境中的嘈杂噪声，无法满足利用耳机设备采集到清晰的用户语音的用户需求。

本申请实施例公开了一种音频处理方法、装置、电子设备及存储介质，能够准确识别出第一耳机及第二耳机采集的音频信号中的有用人声，满足了利用耳机设备采集到清晰的用户语音的用户需求，且降低了对于耳机的结构设计要求及成本。

图1为一个实施例中音频处理方法的应用场景图。如图1所示，耳机设备10可与终端设备20建立通信连接，其中，耳机设备10可包括但不限于入耳式耳机、耳塞式耳机等无线耳机，进一步地，耳机设备10可以是真无线立体声(True Wireless Stereo，TWS)蓝牙耳机等。终端设备20可包括但不限于可穿戴设备、车载终端、手机、平板电脑、笔记本电脑PC(Personal Computer，个人电脑)、PDA(Personal Digital Assistant，个人数字助理)等设备。

耳机设备10可与终端设备20之间建立的通信连接可包括蓝牙、WiFi等无线通信连接，也可以是通过耳机线连接的有线通信连接等。其中，蓝牙连接可包括但不限于基于经典蓝牙协议建立的经典蓝牙连接、基于BLE(Bluetooth Low Energy，蓝牙低功耗)协议建立的BLE连接，以及基于BLE Audio(Bluetooth Low Energy Audio，蓝牙低功耗音频)协议建立的LE Audio蓝牙连接等中的至少一种。其中，经典蓝牙协议通常泛指在蓝牙协议4.0版本以下的蓝牙协议，BLE协议通常泛指在蓝牙协议4.0版本以上的蓝牙协议。而BLE Audio技术则是解决了利用BLE连接只能传输数据量较小的数据，而不能传输音频数据的问题，BLEAudio协议支持LC3(Low Complexity Communications Codec，低功耗音频编解码)编码的音频数据，使得音频数据的传输能够更好地兼顾功耗、实时性及音质等各方面的问题。

耳机设备10可包括第一耳机110及第二耳机120，其中，第一耳机110可以是左耳机，第二耳机120可以是右耳机，或第一耳机110可以是右耳机，第二耳机120可以是左耳机。第一耳机110与第二耳机120之间可建立通信连接，例如蓝牙连接等，以实现第一耳机110与第二耳机120之间的数据传输。

在本申请实施例中，第一耳机110中可设置有第一麦克风，第二耳机120中可设置有第二麦克风。第一麦克风与第二麦克风可分别设置在第一耳机110与第二耳机120中相同的位置(即佩戴时相对应的位置)，例如，可设置在相对于扬声器相同的位置。

在佩戴者同时佩戴第一耳机110及第二耳机120，并利用耳机设备10进行语音采集的场景下，第一耳机110可通过第一麦克风采集第一音频信号，第二耳机120可通过第二麦克风采集第二音频信号，并向采集的第二音频信号发送给第一耳机110。第一耳机110可接收第二耳机120发送的第二音频信号，并将通过第一麦克风采集的第一音频信号与接收的第二音频信号进行比对，以得到第一音频信号与第二音频信号中比对结果处于误差范围内的音频信号，作为目标语音信号。其中，由于佩戴者同时佩戴第一耳机110及第二耳机120时，第一麦克风与第二麦克风距离人嘴的位置可相同或接近相同，因此通过比对误别到的目标语音信号可作为佩戴第一耳机110及第二耳机120的佩戴者发出的语音信号。第一耳机110可将目标语音信号发送至终端设备120。

如图2所示，在一个实施例中，提供一种音频处理方法，可应用于上述的第一耳机，该方法可包括以下步骤：

步骤210，通过第一麦克风采集第一音频信号。

步骤220，接收第二耳机发送的第二音频信号，该第二音频信号为第二耳机通过第二麦克风采集的音频信号。

在一些实施例中，在需要利用耳机设备进行语音采集的场景(如通话场景、录音场景、语音人机交互场景等，但不限于此)下，终端设备可向耳机设备(即第一耳机及第二耳机)发送语音采集指令。第一耳机若接收到终端设备发送的语音采集指令，可根据该语音采集指令控制第一麦克风采集第一音频信号，该第一音频信号即为第一麦克风所采集的音频信号。该第一音频信号中可能包括佩戴耳机设备的佩戴者发出的语音信号，还可能包括周围环境中的声音信号(如周围环境中其它用户发出的语音信号、周围环境中的其它声音等)。

同理，第二耳机接收到终端设备发送的语音采集指令，也可通过第二麦克风采集第二音频信号，该第二音频信号即为第二麦克风所采集的音频信号。可第一音频信号类似，第二音频信号中也可能包括佩戴耳机设备的佩戴者发出的语音信号，以及周围环境中的声音信号。可选地，第二耳机可将第二麦克风采集到的第二音频信号实时发送给第一耳机，再由第一耳机进行有用人声(即佩戴者发出的语音信号)的识别。

在一些实施例中，第一耳机可以是耳机设备中的主耳机，第二耳机可以是耳机设备中的从耳机，该主耳机可指的是耳机设备与终端设备直接建立蓝牙通信链路的耳机，从耳机可指的是对主耳机与终端设备之间的蓝牙通信链路进行监听的耳机，或从耳机可指的是由主耳机转发与终端设备之间传输的数据的耳机，即从耳机从不直接与终端设备建立蓝牙通信链路的耳机。可选地，该蓝牙通信链路可包括但不限于ACL(AsynchronousConnectionless，异步无连接链路)和/或SCO(Synchronous Connection Oriented，面向连接的同步链路)等物理链路，或者包括建立上层协议连接的传输链路，如A2DP(AdvancedAudio Distribution Profile，蓝牙音频传输模型协定)、HFP(Hands-free Profile，免提协议)等连接。通过主耳机进行有用人声的识别可保证耳机设备处理逻辑的统一性，提高了音频处理准确性及效率。需要说明的是，在其它的实施例中，第一耳机也可以是从耳机，第二耳机为主耳机，在此不作限定。

步骤230，将第一音频信号与第二音频信号进行比对，以得到第一音频信号与第二音频信号中比对结果处于误差范围内的音频信号，作为目标语音信号。

由于第一麦克风及第二麦克风分别设置在第一耳机及第二耳机中相同的位置，在佩戴者同时佩戴第一耳机及第二耳机时，第一麦克风及第二麦克风与佩戴者的嘴巴位置的距离相同或接近相同，因此，若是佩戴者发出的语音信号，第一麦克风及第二麦克风可在同一时间段内采集到相同或接近相同的音频信号。而对于周围环境中的其它声源所产生的声音，由于与第一麦克风及第二麦克风之间的距离不同，因此第一麦克风及第二麦克风针对周围环境中的其它声源产生的声音所采集到的音频信号的区别较大。

第一耳机可将第一麦克风采集的第一音频信号与第二耳机发送的第二音频信号进行比对，以得到第一音频信号与第二音频信号中比对结果处于误差范围内的音频信号，该比对结果处于误差范围内的音频信号即为第一麦克风及第二麦克风采集到的相同或接近相同的音频信号。可将该第一音频信号与第二音频信号中比对结果处于误差范围内的音频信号，确定为目标语音信号，目标语音信号即佩戴第一耳机及第二耳机的佩戴者发出的语音信号。

图3A为一个实施例中佩戴者佩戴耳机设备并进行语音采集的示意图。如图3A所示，佩戴者分别佩戴耳机A及耳机B，由于耳机A及耳机B上的麦克风设置的位置相同，因此，耳机A及耳机B上的麦克风与人嘴之间的距离相同或近似相同，而耳机A及耳机B上的麦克风与周围环境中的其它声源(如声源N)之间的距离明显差别较大。因此，在耳机A及耳机B同时通过麦克风采集音频信号的情况下，若采集到的是人嘴发出的语音信号，则耳机A及耳机B通过麦克风采集到的音频信号之间是相同或近似相同的；若采集到的是周围环境中的其它声源发出的声音，则耳机A及耳机B通过麦克风采集到的音频信号之间区别比较大。通过将耳机A与耳机B通过麦克风采集的音频信号进行比对的方式可以准确区分出采集的音频信号中包含的有用人声以及周围环境中产生的噪声。

在一些实施例中，将第一音频信号与第二音频信号进行比对，可包括将第一音频信号与第二音频信号的相位、频率及幅度等进行比对。其中，相位可用于描述音频信号的波形变化，通过相位可获知音频信号中如波峰、波谷等特定波形标度在音频信号中的位置；频率可用于表示音频信号在单位时间内完成周期性变化的次数；幅度可用于表示音频信号相对于平衡位置的最大振幅。

上述的误差范围可包括相位误差范围、频率误差范围及幅度误差范围，第一耳机可将第一音频信号与第二音频信号的相位、频率及幅度等进行比对，以得到第一音频信号与第二音频信号中，相位差值处于相位误差范围、频率差值处于频率误差范围且幅度差值处于幅度误差范围的音频信号，并将该得到的音频信号作为目标语音信号。若在第一音频信号与第二音频信号中，各自存在一段音频信号之间的相位差值处于相位误差范围、频率差值处于频率误差范围且幅度差值处于幅度误差范围，说明这两段音频信号相当，即可认为是佩戴者的嘴巴所发出的语音信号。

示例性地，图3B为一个实施例中第一音频信号及第二音频信号的示意图。如图3B所示，第一耳机将第一音频信号与第二音频信号进行比对，可确定第一音频信号中的音频信号312与第二音频信号中的音频信号322之间的相位差值处于相位误差范围、频率差值处于频率误差范围且幅度差值处于幅度误差范围，则第一音频信号中的音频信号312与第二音频信号中的音频信号322可被认定为是佩戴者的嘴巴所发出的语音信号，即目标语音信号。而第一音频信号中的音频信号314与第二音频信号中的音频信号324之间的区别较大，二者之间的比对结果不处于误差范围内，则第一音频信号中的音频信号314与第二音频信号中的音频信号324可被认定为是周围环境中产生的噪声信号。

步骤240，将目标语音信号发送至终端设备。

第一耳机在识别出目标语音信号后，可将目标语音信号发送至终端设备。作为一种实施方式，第一耳机可从第一音频信号和/或第二音频信号中截取目标语音信号，并将截取的目标语音信号发送至终端设备。

作为另一种实施例中，第一耳机也可对第一音频信号和/或第二音频信号中的目标语音信号进行增强处理，并对第一音频信号和/或第二音频信号中的噪声信号进行降噪处理，再将处理后的音频信号发送给终端设备。

具体地，第一耳机可对第一音频信号中包含的目标语音信号进行增强处理，并对第一音频信号中除目标语音信号以外的其它音频信号进行衰减处理，得到第一处理音频信号，并将第一处理音频信号发送至终端设备；和/或，第一耳机可对第二音频信号中包含的目标语音信号进行增强处理，并对第二音频信号中除目标语音信号以外的其它音频信号进行衰减处理，得到第二处理音频信号，并将第二处理音频信号发送至终端设备。实现对目标语音信号的保留及增强，并滤除采集的音频信号中包含的噪声信号，从而可保证传输到终端设备的音频信号为清晰的用户语音，满足了利用耳机设备采集到清晰的用户语音的用户需求。

在本申请实施例中，第一耳机通过第一麦克风采集第一音频信号，第二耳机通过第二麦克风采集第二音频信号，通过将第一音频信号与第二音频信号进行比对，以得到第一音频信号与所述第二音频信号中比对结果处于误差范围内的音频信号，作为目标语音信号，该目标语音信号即为佩戴第一耳机及第二耳机的佩戴者发出的语音信号，能够准确识别出第一耳机及第二耳机采集的音频信号中的有用人声，满足了利用耳机设备采集到清晰的用户语音的用户需求。且只需要在第一耳机及第二耳机上各设置一个麦克风，实现方式简单，降低了对于耳机的结构设计要求及成本。

如图4所示，在另一个实施例中，提供一种音频处理方法，可应用于上述的第一耳机，该方法可包括以下步骤：

步骤402，接收终端设备发送的业务处理请求，若根据该业务处理请求确定当前处于通话场景，则通过第一麦克风采集第一音频信号。

本申请实施例中提供的音频处理方法可应用于对上行通话语音的降噪处理。在终端设备检测到有通话业务时，终端设备可向耳机设备(即第一耳机与第二耳机)发送与通话业务对应的业务处理请求。第一耳机接收终端设备发送的业务处理请求，可对该业务处理请求进行解析，以得到业务信息(如业务名称、业务类型等信息)。第一耳机可根据该业务信息判断当前是否处于通话场景，若根据该业务信息确定终端设备当前正在进行通话业务，则可确定当前处于通话场景。在确定当前处于通话场景的情况下，可采用本申请实施例所提供的音频处理方法对通过麦克风采集的音频信号进行处理，从而可提高通话质量。

步骤404，接收第二耳机发送的第二音频信号，该第二音频信号为第二耳机通过第二麦克风采集的音频信号。

步骤402～404的描述可参考上述各实施例中的相关描述，在此不再赘述。

步骤406，根据延迟时间对第一音频信号进行延迟处理。

在一些实施例中，第二耳机将通过第二麦克风采集的第二音频信号实时发送给第一耳机，第一耳机可将实时接收到的第二音频信号与通过第一麦克风实时采集的第一音频信号进行比对。由于第二耳机与第一耳机之间具有传输时延，因此，若是第一耳机直接将实时接收到的第二音频信号与通过第一麦克风实时采集的第一音频信号进行比对，会导致进行比对的音频信号不是在同一时刻采集的音频信号。例如，第一耳机与第二耳机之间具有3毫秒的传输时延，第一耳机通过第一麦克风采集到第4毫秒的第一音频信号才能接收到第二耳机通过第二麦克风在第1毫秒采集到的第二音频信号，若是直接进行比对(即将第1毫秒采集到的第二音频信号与第3毫秒采集到的第一音频信号)则不能准确识别出佩戴者发出的语音信号。

在本申请实施例中，第一耳机可先根据延迟时间对第一音频信号进行延迟处理，该延迟时间可用于表征第二耳机将第二音频信号传输到第一耳机的时间(即第一耳机与第二耳机之间的传输时延)，再将延迟处理后的第一音频信号与第二音频信号进行比对，从而可使用比对的第一音频信号与第二音频信号在时间轴上是相同或接近相同，以提高识别出佩戴者发出的语音信号的准确性。

例如，第一耳机与第二耳机之间具有3毫秒的传输时延，则第一耳机可将通过第一麦克风采集的第一音频信号进行3毫秒的延迟处理，从而可保证在接收到第二耳机通过第二麦克风在第1毫秒采集到的第二音频信号时，可将通过第一麦克风在第1毫秒采集的第一音频信号与该第二麦克风在第1毫秒采集到的第二音频信号进行比对。

在一些实施例中，延迟时间可以是预先设置的固定时间值，延迟时间可以是通过大量的测试所得到的时间值。可选地，在对第一耳机与第二耳机之间的传输时延进行测试时，可将第一耳机与第二耳机放置在距离测试端相同的位置处，即第一麦克风及第二麦克风与测试端的距离可相同。该测试端可以是能够输出测试音频数据的音频输出设备(如音箱等)，也可以是测试人员的嘴巴(即测试人员可佩戴第一耳机及第二耳机进行测试)。

测试端可输出测试音频数据，该测试音频数据可以是预设的特定音频信号，例如1KHz(千赫兹)的音频信号。第一耳机可通过第一麦克风采集测试端输出的测试音频数据，得到第一测试音频信号，第二耳机可通过第二麦克风采集测试端输出的测试音频数据，得到第二测试音频信号。第二耳机可将通过第二麦克风采集得到的第二测试音频信号发送给第一耳机，第一耳机接收第二耳机发送的第二测试音频信号，该第二测试音频信号即为第二耳机通过第二麦克风采集测试端输出的测试音频数据得到的。第一耳机可将第一测试音频信号与第二测试音频信号进行比对，并确定第一测试音频信号与第二测试音频信号之间的相对时间差，作为延迟时间。

作为一种具体实施方式，第一耳机可将第一测试音频信号与第二测试音频信号进行比对，得到第一测试音频信号与第二测试音频信号之间的相位差，并根据该相位差确定第一测试音频信号与第二测试音频信号之间的相对时间差。

第一耳机可对第一测试音频信号与第二测试音频信号中包含的特定音频信号进行识别，并确定第一测试音频信号中包含的特定音频信号，与第二测试音频信号中包含的特定音频信号之间的相位差。例如，可识别第一测试音频信号中包含的1KHz的音频信号以及第二测试音频信号中包含的1KHz的音频信号，并确定第一测试音频信号中包含的1KHz的音频信号与第二测试音频信号中包含的1KHz的音频信号之间的相位差。可将该相位差转化为相对时间差，相对时间差可与相位差呈正相关关系，相位差越大，相对时间差越大。具体地，可利用相位差及时间差的转换公式，根据该特定音频信号的频率及相位差，计算相对时间差。该相对时间差可作为延迟时间，即第一耳机与第二耳机之间的传输时延。

可选地，可采用上述的测试方式重复测试多次，以得到多个相对时间差，并将该多个相对时间差求平均，得到延迟时间。进一步地，也可针对不同的信号传输场景进行测试，以分别得到不同信号传输场景下的延迟时间。例如，可分别在信号传输优秀场景、信号传输良好场景及信号传输差场景的场景下进行测试，在不同的信号传输场景下周围环境中包含不同程度的信号干扰，其中，信号传输优秀场景中周围环境的信号干扰程度可小于信号传输良好场景中周围环境的信号干扰程度，信号传输良好场景中周围环境的信号干扰程度可小于信号传输差场景中周围环境的信号干扰程度。在第一耳机根据延迟时间对第一音频信号进行延迟处理之前，可先分析当前周围环境的信号干扰程度，并根据该信号干扰程度确定当前所处的信号传输场景，可获取当前所处的信号传输场景对应的延迟时间，再根据该延迟时间对第一音频信号进行延迟处理。可提高对第一音频信号进行延迟处理的准确性，进一步保证比对的第一音频信号与第二音频信号在相同的时间轴，提高识别有用人声的准确性。

作为另一种实施方式，上述的延迟时间也可以实时测试得到。第二耳机在接收到语音采集指令后，可先第一耳机发送测试信号，该测试信号可携带有发送时间戳，第二耳机接收到测试信号后，可确定接收到该测试信号的接收时刻与该发送时间戳之间的时间差，即为延迟时间。进一步地，测试信号可以是人耳无法感知的音频信号，也可以是其它信号，在此不作限定，可避免对佩戴者产生影响。实时测试得到第一耳机与第二耳机之间的传输时延，可提高对第一音频信号进行延迟处理的准确性，进一步保证比对的第一音频信号与第二音频信号在相同的时间轴，提高识别有用人声的准确性。

步骤408，将延迟处理后的第一音频信号与第二音频信号进行比对，以得到延迟处理后的第一音频信号与第二音频信号中比对结果处于误差范围内的音频信号，作为目标语音信号。

步骤408的描述可参考上述各实施例中的相关描述，在此不再重复赘述。

在一些实施例中，上述的误差范围也可以是预先设置的，可通过大量的测试得到。误差范围是通过将第一耳机及第二耳机放置在安静环境中，比对第一麦克风采集得到的第一测试语音信号及第二麦克风采集得到的第二测试语音信号确定的；其中，第一测试语音信号为第一麦克风采集佩戴第一耳机及第二耳机的佩戴者发出的测试语音得到的，第二测试语音信号为第二麦克风采集佩戴第一耳机及第二耳机的佩戴者发出的测试语音得到的；该安静环境指的是环境噪声小于分贝阈值的环境。

为了更加准确地模拟用户在真实场景下利用耳机设备采集语音信号的情况，测试者可佩戴第一耳机及第二耳机并进入到安静环境中，测试者可发出测试语音，在该安静环境下，测试者发出的测试语音可以被第一耳机及第二耳机上的麦克风清晰且完整地采集，而不会受到周围环境中噪声的影响，以保证确定的误差范围的准确性。第一耳机可通过第一麦克风采集测试者发出的测试语音，得到第一测试语音信号，第二耳机也可通过第二麦克风采集测试者发出的测试语音，得到第二测试语音信号。可选地，第一耳机及第二耳机可分别将第一测试语音信号及第二测试语音信号发送至测试设备，测试设备可将第一测试语音信号及第二测试语音信号进行比对，得到第一测试语音信号与第二测试语音信号之间的误差范围。因为第一耳机与第二耳机传输数据到测试设备的时间是相同的，所以测试设备可直接将第一测试语音信号及第二测试语音信号进行比对，而不需要再对第一测试语音信号或第二测试语音信号进行延迟处理，可提高测试效率及准确性。

在一些实施例中，测试者可发生不同的测试语音(如不同频率、不同幅度等的测试语音)，针对每一次发出的测试语音均可采用上述的方式测试得到得相应的误差范围，可对测试得到的多个误差范围求取平均值，得到耳机设备实际进行语音采集时所使用的误差范围。可将该误差范围写入第一耳机及第二耳机的存储器中，在第一耳机对延迟处理后的第一音频信号及第二音频信号进行比对时，可从存储器中获取该误差范围，并判断延迟处理后的第一音频信号与第二音频信号中是否存在比对结果处于该误差范围的音频信号。

在其它的实施例中，除了对第一音频信号进行延迟处理以外，也可采用其它方式解决第一音频信号与第二音频信号之间的延迟问题。可选地，第一耳机可每隔固定时间段对通过第一麦克风采集的第一音频信号以及接收到第二音频信号进行比对，该固定时间段内接收到的第二音频信号对应的采集时间轴与固定时间段内通过第一麦克风采集的第一音频信号对应的采集时间轴可相同。

例如，每隔3秒对通过第一麦克风采集的第一音频信号以及接收到第二音频信号进行比对，可将通过第一麦克风采集的前3秒(1～3秒)的第一音频信号，与前3秒(1～3秒)接收到的第二音频信号进行比对，该前3秒接收到的第二音频信号即为第二耳机通过第二麦克风在前3秒所采集的第二音频信号。按照固定时间段进行比对可消除传输时延带来的比对错误，使得比对的第一音频信号与第二音频信号在时间轴上是对齐的，提高了识别有用人声的准确性。需要说明的是，也可采用其它方式解决第一音频信号与第二音频信号之间的延迟问题，并不仅限于上述的几种方式。

步骤410，将目标语音信号发送至终端设备。

步骤410的描述可参考上述各实施例中的相关描述，在此不再重复赘述。

在本申请实施例中，第一耳机可对第一音频信号进行延迟处理，再将延迟处理后的第一音频信号与接收的第二音频信号进行比对，保证了比对的第一音频信号与第二音频信号在相同的时间轴，提高识别有用人声的准确性。且只需要在第一耳机及第二耳机上各设置一个麦克风，实现方式简单，降低了对于耳机的结构设计要求及成本。

在一些实施例中，上述的音频处理方法也可在终端设备中实现。如图5所示，提供另一种音频处理方法，可应用于上述的终端设备，该方法可包括以下步骤：

步骤510，分别接收第一耳机发送的第一音频信号，以及第二耳机发送的第二音频信号，其中，该第一音频信号为第一耳机通过第一麦克风采集的音频信号，该第二音频信号为第二耳机通过第二麦克风采集的音频信号。

步骤520，将第一音频信号与第二音频信号进行比对，以得到第一音频信号与第二音频信号中比对结果处于误差范围内的音频信号，作为目标语音信号。

第一耳机通过第一麦克风采集第一音频信号，并可将采集的第一音频信号发送给终端设备，第二耳机通过第二麦克风采集第二音频信号，并可将采集的第二音频信号发送给终端设备。终端设备可将接收的第一音频信号及第二音频信号进行比对，以得到第一音频信号与第二音频信号中比对结果处于误差范围内的音频信号，作为目标语音信号。其实现原理与第一耳机比对第一音频信号与第二音频信号的原理类似，可参考上述各实施例中的相关描述，在此不再赘述。与在第一耳机中比对第一音频信号与第二音频信号不同的时，第一耳机发送第一音频信号到终端设备，与第二耳机发送第二音频信号到终端设备的传输时延相同，因此终端设备不需要对第一音频信号进行延迟处理。

在一个实施例中，误差范围包括：相位误差范围、频率误差范围及幅度误差范围。第一音频信号与所述第二音频信号中比对结果处于误差范围内的音频信号，包括：第一音频信号与所述第二音频信号中，相位差值处于相位误差范围、频率差值处于频率误差范围且幅度差值处于幅度误差范围的音频信号。

在一个实施例中，误差范围是通过将第一耳机及第二耳机放置在安静环境中，比对第一麦克风采集得到的第一测试语音信号及第二麦克风采集得到的第二测试语音信号确定的；其中，第一测试语音信号为第一麦克风采集佩戴第一耳机及第二耳机的佩戴者发出的测试语音得到的，第二测试语音信号为第二麦克风采集佩戴第一耳机及第二耳机的测试者发出的测试语音得到的；安静环境指的是环境噪声小于分贝阈值的环境。

在本申请实施例中，终端设备能够准确识别出第一耳机及第二耳机采集的音频信号中的有用人声，满足了利用耳机设备采集到清晰的用户语音的用户需求。且只需要在第一耳机及第二耳机上各设置一个麦克风，实现方式简单，降低了对于耳机的结构设计要求及成本。

如图6所示，在另一个实施例中，提供一种音频处理方法，可应用于上述的终端设备，该方法可包括以下步骤：

步骤602，若检测到有通话业务，则向第一耳机及第二耳机发送与通话业务对应的业务处理请求，以使第一耳机及第二耳机在根据业务处理请求确定当前处于通话场景，分别通过第一麦克风采集第一音频信号及通过第二麦克风采集第二音频信号。

步骤604，分别接收第一耳机发送的第一音频信号，以及第二耳机发送的第二音频信号。

步骤606，将第一音频信号与第二音频信号进行比对，以得到第一音频信号与所述第二音频信号中比对结果处于误差范围内的音频信号，作为目标语音信号。

步骤608，将目标语音信号发送至与终端设备进行语音通话的目标设备。

在一个实施例中，该音频处理方法还包括：对第一音频信号中包含的所述目标语音信号进行增强处理，并对第一音频信号中除目标语音信号以外的其它音频信号进行衰减处理，得到第一处理音频信号；和/或，对第二音频信号中包含的目标语音信号进行增强处理，并对第二音频信号中除目标语音信号以外的其它音频信号进行衰减处理，得到第二处理音频信号。

在一个实施例中，可将处理得到的第一处理音频信号和/或第二处理音频信号发送至与终端设备进行语音通话的目标设备，可提高通话质量。

需要说明的是，本申请实施例中提供的应用于终端设备的音频处理方法的描述，可参考上述各实施例中提供的应用于第一耳机的音频处理方法的相关描述，在此不再一一赘述。

在本申请实施例中，终端设备能够准确识别出第一耳机及第二耳机采集的音频信号中的有用人声，提高了通话质量。且只需要在第一耳机及第二耳机上各设置一个麦克风，实现方式简单，降低了对于耳机的结构设计要求及成本。

如图7所示，在一个实施例中，提供一种音频处理装置700，应用于上述的第一耳机。该音频处理装置700可包括采集模块710、接收模块720、比对模块730及发送模块740。

采集模块710，用于通过第一麦克风采集第一音频信号。

接收模块720，用于接收第二耳机发送的第二音频信号，第二音频信号为第二耳机通过第二麦克风采集的音频信号。

比对模块730，用于将第一音频信号与第二音频信号进行比对，以得到第一音频信号与第二音频信号中比对结果处于误差范围内的音频信号，作为目标语音信号，其中，目标语音信号为佩戴第一耳机及第二耳机的佩戴者发出的语音信号。

在一个实施例中，误差范围包括：相位误差范围、频率误差范围及幅度误差范围；第一音频信号与第二音频信号中比对结果处于误差范围内的音频信号，包括：第一音频信号与所述第二音频信号中，相位差值处于所述相位误差范围、频率差值处于频率误差范围且幅度差值处于所述幅度误差范围的音频信号。

发送模块740，用于将目标语音信号发送至终端设备。

在一个实施例中，发送模块740，还用于对第一音频信号中包含的目标语音信号进行增强处理，并对第一音频信号中除目标语音信号以外的其它音频信号进行衰减处理，得到第一处理音频信号，并将第一处理音频信号发送至终端设备；和/或，还用于对第二音频信号中包含的目标语音信号进行增强处理，并对第二音频信号中除目标语音信号以外的其它音频信号进行衰减处理，得到第二处理音频信号，并将第二处理音频信号发送至终端设备。

在一个实施例中，上述的音频处理装置700除了包括采集模块710、接收模块720、比对模块730及发送模块740，还包括场景确定模块及延迟模块。

场景确定模块，用于接收终端设备发送的业务处理请求，若根据业务处理请求确定当前处于通话场景，则通过采集模块710执行通过第一麦克风采集第一音频信号的步骤。

延迟模块，用于根据延迟时间对第一音频信号进行延迟处理；延迟时间用于表征第二耳机将所述第二音频信号传输到第一耳机的时间。

比对模块730，还用于将延迟处理后的第一音频信号与第二音频信号进行比对，以得到延迟处理后的第一音频信号与第二音频信号中比对结果处于误差范围内的音频信号，作为目标语音信号。

在一个实施例中，音频处理装置700还包括测试模块。

测试模块，用于通过第一麦克风采集测试端输出的测试音频数据，得到第一测试音频信号；接收第二耳机发送的第二测试音频信号，第二测试音频信号是第二耳机通过第二麦克风采集测试端输出的测试音频数据得到的；其中，第一麦克风及第二麦克风与测试端的距离相同；以及用于将第一测试音频信号与第二测试音频信号进行比对，并确定第一测试音频信号与第二测试音频信号之间的相对时间差，作为延迟时间。

在一个实施例中，测试模块，还用于将第一测试音频信号与第二测试音频信号进行比对，得到第一测试音频信号与第二测试音频信号之间的相位差；根据相位差确定第一测试音频信号与第二测试音频信号之间的相对时间差。

在一个实施例中，误差范围是通过将第一耳机及第二耳机放置在安静环境中，比对第一麦克风采集得到的第一测试语音信号及第二麦克风采集得到的第二测试语音信号确定的；其中，第一测试语音信号为第一麦克风采集佩戴第一耳机及第二耳机的测试者发出的测试语音得到的，第二测试语音信号为第二麦克风采集佩戴所述第一耳机及第二耳机的佩戴者发出的测试语音得到的；安静环境指的是环境噪声小于分贝阈值的环境。

如图8所示，在一个实施例中，提供一种音频处理装置800，可应用于上述的终端设备。该音频处理装置800可包括接收模块810及比对模块820。

接收模块810，用于分别接收第一耳机发送的第一音频信号，以及第二耳机发送的第二音频信号，其中，第一音频信号为第一耳机通过第一麦克风采集的音频信号，第二音频信号为第二耳机通过第二麦克风采集的音频信号。

比对模块820，用于将第一音频信号与第二音频信号进行比对，以得到第一音频信号与第二音频信号中比对结果处于误差范围内的音频信号，作为目标语音信号。

在一个实施例中，误差范围包括：相位误差范围、频率误差范围及幅度误差范围；第一音频信号与第二音频信号中比对结果处于误差范围内的音频信号，包括：第一音频信号与第二音频信号中，相位差值处于相位误差范围、频率差值处于频率误差范围且幅度差值处于幅度误差范围的音频信号。

在一个实施例中，误差范围是通过将第一耳机及第二耳机放置在安静环境中，比对第一麦克风采集得到的第一测试语音信号及第二麦克风采集得到的第二测试语音信号确定的；其中，第一测试语音信号为第一麦克风采集佩戴第一耳机及第二耳机的测试者发出的测试语音得到的，第二测试语音信号为第二麦克风采集佩戴第一耳机及第二耳机的佩戴者发出的测试语音得到的；安静环境指的是环境噪声小于分贝阈值的环境。

在一个实施例中，上述的音频处理装置800，还包括业务处理模块及发送模块。

业务处理模块，用于若检测到有通话业务，则向第一耳机及第二耳机发送与通话业务对应的业务处理请求，以使第一耳机及第二耳机在根据业务处理请求确定当前处于通话场景，分别通过第一麦克风采集第一音频信号及通过第二麦克风采集第二音频信号。

发送模块，用于将目标语音信号发送至与终端设备进行语音通话的目标设备。

在一个实施例中，上述的音频处理装置800，还包括增强及衰减模块。

增强及衰减模块，用于对第一音频信号中包含的目标语音信号进行增强处理，并对第一音频信号中除目标语音信号以外的其它音频信号进行衰减处理，得到第一处理音频信号；和/或，对第二音频信号中包含的目标语音信号进行增强处理，并对第二音频信号中除目标语音信号以外的其它音频信号进行衰减处理，得到第二处理音频信号。

图9为一个实施例中电子设备的结构框图。如图9所示，电子设备900可以包括一个或多个如下部件：处理器910、与处理器910耦合的存储器920，其中存储器920可存储有一个或多个计算机程序，一个或多个计算机程序可以被配置为由一个或多个处理器910执行时实现如上述各实施例描述的应用于第一耳机的方法。

处理器910可以包括一个或者多个处理核。处理器910利用各种接口和线路连接整个电子设备900内的各个部分，通过运行或执行存储在存储器920内的指令、程序、代码集或指令集，以及调用存储在存储器920内的数据，执行电子设备900的各种功能和处理数据。可选地，处理器910可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器910可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器910中，单独通过一块通信芯片进行实现。

存储器920可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory，ROM)。存储器920可用于存储指令、程序、代码、代码集或指令集。存储器920可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等。存储数据区还可以存储电子设备900在使用中所创建的数据等。

可以理解地，电子设备900可包括比上述结构框图中更多或更少的结构元件，例如，包括电源模块、物理按键、WiFi(Wireless Fidelity，无线保真)模块、扬声器、蓝牙模块、传感器等，还可在此不进行限定。

本申请实施例公开一种电子设备，包括处理器、与处理器耦合的存储器，其中存储器可存储有一个或多个计算机程序，一个或多个计算机程序可以被配置为由一个或多个处理器执行时实现如上述各实施例描述的应用于终端设备的方法。

本申请实施例公开一种计算机可读存储介质，其存储计算机程序，其中，该计算机程序被处理器执行时实现如上述实施例描述的应用于第一耳机的方法。

本申请实施例公开一种计算机可读存储介质，其存储计算机程序，其中，该计算机程序被处理器执行时实现如上述实施例描述的应用于终端设备的方法。

本申请实施例公开一种计算机程序产品，该计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，且该计算机程序可被处理器执行时实现如上述各实施例描述的应用于第一耳机的方法。

本申请实施例公开一种计算机程序产品，该计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，且该计算机程序可被处理器执行时实现如上述各实施例描述的应用于终端设备的方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、ROM等。

如此处所使用的对存储器、存储、数据库或其它介质的任何引用可包括非易失性和/或易失性存储器。合适的非易失性存储器可包括ROM、可编程ROM(Programmable ROM，PROM)、可擦除PROM(Erasable PROM，EPROM)、电可擦除PROM(Electrically ErasablePROM，EEPROM)或闪存。易失性存储器可包括随机存取存储器(random access memory，RAM)，它用作外部高速缓冲存储器。作为说明而非局限，RAM可为多种形式，诸如静态RAM(Static RAM，SRAM)、动态RAM(Dynamic Random Access Memory，DRAM)、同步DRAM(synchronous DRAM，SDRAM)、双倍数据率SDRAM(Double Data Rate SDRAM，DDR SDRAM)、增强型SDRAM(Enhanced Synchronous DRAM，ESDRAM)、同步链路DRAM(Synchlink DRAM，SLDRAM)、存储器总线直接RAM(Rambus DRAM，RDRAM)及直接存储器总线动态RAM(DirectRambus DRAM，DRDRAM)。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定特征、结构或特性可以以任意适合的方式结合在一个或多个实施例中。本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在本申请的各种实施例中，应理解，上述各过程的序号的大小并不意味着执行顺序的必然先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

在本申请各实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可获取的存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分，可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等，具体可以是计算机设备中的处理器)执行本申请的各个实施例上述方法的部分或全部步骤。

以上对本申请实施例公开的一种音频处理方法、装置、电子设备及存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种音频处理方法，其特征在于，应用于第一耳机，所述第一耳机与第二耳机通信连接，所述第一耳机中设置有第一麦克风，所述第二耳机中设置有第二麦克风，所述第一耳机与第二耳机属于同一耳机设备，所述耳机设备还与终端设备通信连接；所述方法包括：

通过所述第一麦克风采集第一音频信号；

将所述目标语音信号发送至所述终端设备。

2.根据权利要求1所述的方法，其特征在于，在所述将所述第一音频信号与所述第二音频信号进行比对之前，所述方法还包括：

根据延迟时间对所述第一音频信号进行延迟处理；所述延迟时间用于表征所述第二耳机将所述第二音频信号传输到所述第一耳机的时间；

所述将所述第一音频信号与所述第二音频信号进行比对，以得到所述第一音频信号与所述第二音频信号中比对结果处于误差范围内的音频信号，作为目标语音信号，包括：

将延迟处理后的第一音频信号与所述第二音频信号进行比对，以得到所述延迟处理后的第一音频信号与所述第二音频信号中比对结果处于误差范围内的音频信号，作为目标语音信号。

3.根据权利要求2所述的方法，其特征在于，在所述通过所述第一麦克风采集第一音频信号之前，所述方法还包括：

通过所述第一麦克风采集测试端输出的测试音频数据，得到第一测试音频信号；

接收所述第二耳机发送的第二测试音频信号，所述第二测试音频信号是所述第二耳机通过所述第二麦克风采集所述测试端输出的所述测试音频数据得到的；其中，所述第一麦克风及所述第二麦克风与所述测试端的距离相同；

将所述第一测试音频信号与所述第二测试音频信号进行比对，并确定所述第一测试音频信号与所述第二测试音频信号之间的相对时间差，作为延迟时间。

4.根据权利要求3所述的方法，其特征在于，所述将所述第一测试音频信号与所述第二测试音频信号进行比对，并确定所述第一测试音频信号与所述第二测试音频信号之间的相对时间差，包括：

将所述第一测试音频信号与所述第二测试音频信号进行比对，得到所述第一测试音频信号与所述第二测试音频信号之间的相位差；

根据所述相位差确定所述第一测试音频信号与所述第二测试音频信号之间的相对时间差。

5.根据权利要求1～4任一所述的方法，其特征在于，所述误差范围包括：相位误差范围、频率误差范围及幅度误差范围；

所述第一音频信号与所述第二音频信号中比对结果处于误差范围内的音频信号，包括：所述第一音频信号与所述第二音频信号中，相位差值处于所述相位误差范围、频率差值处于所述频率误差范围且幅度差值处于所述幅度误差范围的音频信号。

6.根据权利要求1～4任一所述的方法，其特征在于，所述误差范围是通过将所述第一耳机及第二耳机放置在安静环境中，比对所述第一麦克风采集得到的第一测试语音信号及所述第二麦克风采集得到的第二测试语音信号确定的；其中，所述第一测试语音信号为所述第一麦克风采集佩戴所述第一耳机及第二耳机的测试者发出的测试语音得到的，所述第二测试语音信号为所述第二麦克风采集佩戴所述第一耳机及第二耳机的佩戴者发出的测试语音得到的；所述安静环境指的是环境噪声小于分贝阈值的环境。

7.根据权利要求1～4任一所述的方法，其特征在于，所述将所述目标语音信号发送至所述终端设备，包括：

对所述第一音频信号中包含的所述目标语音信号进行增强处理，并对所述第一音频信号中除所述目标语音信号以外的其它音频信号进行衰减处理，得到第一处理音频信号，并将所述第一处理音频信号发送至所述终端设备；和/或，

对所述第二音频信号中包含的所述目标语音信号进行增强处理，并对所述第二音频信号中除所述目标语音信号以外的其它音频信号进行衰减处理，得到第二处理音频信号，并将所述第二处理音频信号发送至所述终端设备。

8.根据权利要求1～4任一所述的方法，其特征在于，在所述通过所述第一麦克风采集第一音频信号之前，所述方法还包括：

接收所述终端设备发送的业务处理请求；

若根据所述业务处理请求确定当前处于通话场景，则执行所述通过所述第一麦克风采集第一音频信号的步骤。

9.一种音频处理方法，其特征在于，应用于终端设备，所述终端设备与耳机设备通信连接，所述耳机设备包括第一耳机及第二耳机，所述第一耳机中设置有第一麦克风，所述第二耳机中设置有第二麦克风；所述方法包括：

10.根据权利要求9所述的方法，其特征在于，所述误差范围包括：相位误差范围、频率误差范围及幅度误差范围；

11.根据权利要求9所述的方法，其特征在于，所述误差范围是通过将所述第一耳机及第二耳机放置在安静环境中，比对所述第一麦克风采集得到的第一测试语音信号及所述第二麦克风采集得到的第二测试语音信号确定的；其中，所述第一测试语音信号为所述第一麦克风采集佩戴所述第一耳机及第二耳机的佩戴者发出的测试语音得到的，所述第二测试语音信号为所述第二麦克风采集佩戴所述第一耳机及第二耳机的测试者发出的测试语音得到的；所述安静环境指的是环境噪声小于分贝阈值的环境。

12.根据权利要求9～11任一所述的方法，其特征在于，所述方法还包括：

对所述第一音频信号中包含的所述目标语音信号进行增强处理，并对所述第一音频信号中除所述目标语音信号以外的其它音频信号进行衰减处理，得到第一处理音频信号；和/或，

对所述第二音频信号中包含的所述目标语音信号进行增强处理，并对所述第二音频信号中除所述目标语音信号以外的其它音频信号进行衰减处理，得到第二处理音频信号。

13.根据权利要求9～11任一所述的方法，其特征在于，在所述分别接收所述第一耳机发送的第一音频信号，以及所述二耳机发送的第二音频信号之前，所述方法还包括：

若检测到有通话业务，则向所述第一耳机及第二耳机发送与所述通话业务对应的业务处理请求，以使所述第一耳机及第二耳机在根据所述业务处理请求确定当前处于通话场景，分别通过所述第一麦克风采集第一音频信号及通过所述第二麦克风采集第二音频信号；

在所述得到所述第一音频信号与所述第二音频信号中比对结果处于误差范围内的音频信号，作为目标语音信号之后，所述方法还包括：

将所述目标语音信号发送至与所述终端设备进行语音通话的目标设备。

14.一种音频处理装置，其特征在于，应用于第一耳机，所述第一耳机与第二耳机通信连接，所述第一耳机中设置有第一麦克风，所述第二耳机中设置有第二麦克风，所述第一耳机与第二耳机属于同一耳机设备，所述耳机设备还与终端设备通信连接；所述装置包括：

采集模块，用于通过所述第一麦克风采集第一音频信号；

发送模块，用于将所述目标语音信号发送至所述终端设备。

15.一种音频处理装置，其特征在于，应用于终端设备，所述终端设备与耳机设备通信连接，所述耳机设备包括第一耳机及第二耳机，所述第一耳机中设置有第一麦克风，所述第二耳机中设置有第二麦克风；所述装置包括：

16.一种电子设备，其特征在于，包括存储器及处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器实现如权利要求1～8或9～13任一所述的方法。

17.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1～8或9～13任一所述的方法。