CN110931027A

CN110931027A - 音频处理方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN110931027A
Application number: CN201811090353.XA
Authority: CN
Inventors: 杨磊; 王维钦; 方兵晓; 李云川; 王立众; 朱恒; 马振昌
Original assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Current assignee: Beijing Samsung Telecom R&D Center; Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Priority date: 2018-09-18
Filing date: 2018-09-18
Publication date: 2020-03-27
Also published as: WO2020060206A1

Abstract

本申请实施例提供了一种音频处理的方法、装置、电子设备及计算机可读存储介质，涉及语音增强技术领域，该方法包括：获取空气传导音频采集设备采集的第一音频信号以及体传导音频采集设备采集到的第二音频信号，然后基于第一音频信号以及第二音频信号之间的信号相关性，对第一音频信号以及第二音频信号进行语音增强处理，得到语音增强处理后待输出的音频信号。本申请实施例实现了对耳机的音频采集设备采集到的信号进行音频增强，可以得到效果更好的音频信号，以进行语音传输或者语音识别等应用。

Description

音频处理方法、装置、电子设备及计算机可读存储介质

技术领域

本申请涉及语音增强技术领域，具体而言，本申请涉及一种音频处理方法、装置、电子设备及计算机可读存储介质。

背景技术

随着信息技术的发展，耳机技术也随之发展。拥有两个音频采集设备(空气传导音频采集设备和体传导音频采集设备)的耳机应运而生。其中空气传导音频采集设备采集到的声音容易受到周围环境的干扰，因此采集到的声音中可能包含很多噪声，而体传导音频采集设备采集到的声音是通过身体组织传导(如骨传导)得到的，因此体传导音频采集设备采集到噪声较少，甚至不会采集到噪声。

由于空气传导音频采集设备采集到的声音容易受到环境噪声的影响，因此空气传导采集到的声音为全频带的。而体传导音频采集设备采集到的声音是通过身体组织传导采集到的，因此即体传导音频采集设备采集到的声音高频部分丢失。因此设置有两个音频采集设备的耳机如何利用两个音频采集设备的不同特性得到效果更好的语音信号，并进行语音传输或者语音识别等应用成为一个关键问题。

发明内容

本申请提供了一种音频处理方法、装置、电子设备及计算机可读存储介质，用于利用耳机的两个音频采集设备的不同特性得到效果更好的语音信号，以进行语音传输或者语音识别等应用。具体技术方案如下所示：

第一方面，提供了一种音频处理方法，该方法包括：

获取空气传导音频采集设备采集的第一音频信号以及体传导音频采集设备采集到的第二音频信号；

基于第一音频信号以及第二音频信号之间的信号相关性，对第一音频信号以及第二音频信号进行语音增强处理，得到语音增强处理后待输出的音频信号。

第二方面，提供了一种音频处理的装置，该装置包括：

第一获取模块，用于获取空气传导音频采集设备采集的第一音频信号以及体传导音频采集设备采集到的第二音频信号；

语音增强处理模块，用于基于第一音频信号以及第二音频信号之间的信号相关性，对第一获取模块获取到的第一音频信号以及第二音频信号进行语音增强处理，得到语音增强处理后待输出的音频信号。

第三方面，提供了一种电子设备，包括：空气传导音频采集设备、体传导音频采集设备、音频信号播放设备、处理器及存储器；其中，

空气传导音频采集设备，用于采集通过空气传导的第一音频信号；

体传导音频采集设备，用于采集通过身体组织传导的第二音频信号；

音频信号播放设备，用于播放音频信号；

存储器，配置用于存储机器可读指令，指令在由处理器执行时，使得处理器执行第一方面所示的音频处理的方法。

第四方面，提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现第一方面所示的音频处理的方法。

第五方面，提供了另一种音频处理的方法，包括：

对第二音频信号进行环境音抵消处理；

基于第一音频信号以及环境音抵消处理后的第二音频信号，确定待输出的音频信号。

第六方面，提供了另一种音频处理的装置，包括：

第二获取模块，用于获取空气传导音频采集设备采集的第一音频信号以及体传导音频采集设备采集到的第二音频信号；

环境音抵消处理模块，用于对第二获取模块获取到的第二音频信号进行环境音抵消处理；

确定模块，用于基于第二获取模块获取到的第一音频信号以及环境音抵消处理模块进行环境音抵消处理后的第二音频信号，确定待输出的音频信号。

第七方面，提供了一种电子设备，包括：空气传导音频采集设备、体传导音频采集设备、音频信号播放设备、处理器及存储器；其中，

音频信号播放设备，用于播放音频信号；

存储器，配置用于存储机器可读指令，指令在由处理器执行时，使得处理器执行第五方面所示的音频处理的方法。

第八方面，提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现第五方面所示的音频处理的方法。

本申请实施例提供的技术方案带来的有益效果是：

本申请提供了一种音频处理方法、装置、电子设备及计算机可读存储介质，本申请通过获取空气传导音频采集设备采集的第一音频信号以及体传导音频采集设备采集到的第二音频信号，能够基于第一音频信号以及第二音频信号之间的信号相关性，对第一音频信号以及第二音频信号进行语音增强处理，得到语音增强处理后待输出的音频信号，即基于空气传导音频采集设备采集到的音频信号与体传导音频采集设备采集到的音频信号的相关性，进行空气传导音频采集设备采集到的音频信号以及体传导音频采集设备采集到的音频信号的语音增强处理，从而可以得到效果更好的语音信号，以进行语音传输或者语音识别等应用。

本申请提供了一种音频处理方法、装置、电子设备及计算机可读存储介质，本申请获取空气传导音频采集设备采集的第一音频信号以及体传导音频采集设备采集到的第二音频信号，然后对第二音频信号进行环境音抵消处理，并基于第一音频信号以及环境音抵消处理后的第二音频信号，确定待输出的音频信号。即通过先对体传导音频采集设备采集到的音频信号进行环境音抵消处理，得到不包含环境音的语音信号，并基于将空气传导音频采集设备采集到的音频信号以及环境音抵消处理后的体传导音频采集设备采集到的音频信号得到待输出信号，从而可以得到效果更好的音频信号，以进行语音传输或者语音识别等应用。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为使用传统耳机时，通话对端用户听不清通话语音或者无法准确识别语音指令的示意图；

图2为使用拥有体传导音频采集设备的耳机时，通话对端用户能够听清通话语音或者能够准确识别语音指令的示意图；

图3为现有技术中进行语音增强处理的流程示意图；

图4为设置有空气传导音频采集设备和体传导音频采集设备的耳机的一种结构示意图；

图5为本申请实施例中一种音频处理的方法流程示意图；

图6为本申请实施例中另一种音频处理的方法流程示意图；

图7a为实施例一中的第一个具体实例中音频处理的方法流程示意图；

图7b为本申请实施例一种音频处理的总流程示意图；

图7c为本申请实施例一中音频处理的具体实现流程示意图；

图7d为通过联合语音估计计算最终的语音频谱幅度的示意图；

图7e为实施例一中的第二个具体实例的方法流程示意图；

图7f为实施例一中的第三个具体实例的方法流程示意图；

图8a为通过环境音抵消处理以及语音增强处理实现音频增强的流程示意图；

图8b为本申请实施例二中音频处理的方法流程示意图；

图8c为本申请实施例基于设定的滤波器进行滤波以及更新滤波器参数的示意图；

图9a为本申请实施例二中语音激活检测的示意图；

图9b为本申请实施例二中语音激活检测的方法流程示意图；

图9c为基于相关系数序列确定当前语音是否处于激活状态的示意图；

图9d为相关系数序列示意图；

图10a为本申请实施例三中音频处理的方法流程示意图；

图10b为本申请实施例四中第一个具体实例的示意图；

图10c为本申请实施例四中第二个具体实例的示意图；

图11为本申请实施例中电子设备的结构示意图；

图12为本申请实施例中电子设备的计算系统的框图；

图13为本申请实施例中一种音频处理的装置结构示意图；

图14为本申请实施例中另一种音频处理的装置结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

随着耳机技术的发展，现在的耳机包括拥有一个空气传导音频采集设备的传统耳机和设置有两个音频采集设备的耳机两种。在本申请中，音频信号包括：语音信号和/或噪声信号等。

对于拥有一个空气传导音频采集设备的传统耳机，当外界不存在噪声或者噪声很小的时，不论进行语音通话或者进行语音识别，其效果都不存在问题。但是当外界存在较大的语音干扰或者噪声的时候，就会存在语音识别时语音拾取不清楚的问题，尤其在低信噪比和有语音干扰的情况下。例如图1的场景中，在两个人通电话的过程中，佩戴耳机的用户周围如果环境噪声很大，比如周围有火车噪声或者周围人声很吵杂，音频信号发送方用户(佩戴耳机的用户)通过通信链路发送音频到通话对端，通话对端接收音频信号，可能会有听不清楚通话语音的情况；再比如在环境噪声很大或者旁边有人声的环境中，由于噪声和干扰语音的干扰，语音识别应用接收语音指令，也经常无法准确识别出用户的语音指令。

对于设置有两个音频采集设备(空气传导音频采集设备和体传导音频采集设备)的耳机，如图2所示的场景下，体传导音频采集设备(位置可以位于耳内，也可以位于耳外，如果位于耳内，则可以称为耳内音频采集设备)可能有物理隔绝，此外采集到的音频信号是人在发声的时候通过身体组织传导(如骨传导)被体传导音频采集设备采集到的，因此采集到的噪声信号很少，甚至不会采集到噪声信号，这样在通话时将音频信号发送至通话对端，并且发送到通话对端的语音是干净的语音，很容易被对方理解。同样当语音用于语音识别的时候，将语音发送至语音识别的应用，由于语音识别应用接收到的语音没有噪声和干扰语音，识别率会更高。

对于设置有空气传导和体传导两个音频采集设备的耳机，空气传导音频采集设备(可以为耳外音频采集设备)容易受到周围环境噪声的干扰，采集到的音频信号会含有很多噪声信号，但是相对于体传导音频采集设备(可以为耳内音频采集设备)采集到的语音而言，空气传导音频采集设备采集到的信号是全频带的。这是因为体传导音频采集设备拾取的语音信号是通过身体组织传导的，传导的信号经过了类似低通滤波的过程。体传导音频采集设备因为用户在使用耳机时，从物理上隔绝了绝大多数的耳外噪声(例如耳塞与外耳道的紧密贴合)，因此采集到的音频信号是干净的语音信号，不含有噪声，但是经过了身体组织的“低通滤波”，使得高频丢失，空气传导音频采集设备采集到的音频信号的频谱以及体传导音频采集设备采集到的音频信号的频谱不同。

现有技术中，拥有空气传导音频采集设备和体传导音频采集设备两个音频采集设备的耳机，通过利用这两个音频采集设备的不同特性得到效果更好的语音信号，从而进行语音传输或者语音识别等应用，其大致过程是：将体传导音频采集设备拾取的音频信号和空气传导音频采集设备拾取的音频信号作为单独的两路信号分别进行处理，例如分别都经过滤波器进行语音的降噪处理等，然后将处理后的结果叠加集成为一个最终的音频信号，然后将得到的音频信号传输给与耳机连接的终端设备(终端设备可以为与耳机通过蓝牙或有线等方式连接的手机等)。如果在通话场景，与耳机连接的终端设备可以将该最终叠加成的音频信号发送给通话对端；如果在语音识别场景，与耳机连接的终端设备可以根据最终叠加成的音频信号来识别用户指令。但是这样的处理还是存在很多问题。具体如下：

现有技术的问题一：对于拥有两个音频采集设备的耳机的信号处理，在将音频信号传输给连接的终端设备之前，传统的方法是把两个音频采集设备采集到的音频信号分别进行降噪和语音增强处理，然后将两个音频采集设备采集到的音频信号叠加，具体如图3所示，将体传导音频采集设备采集到的音频信号以及空气传导音频采集设备采集到的音频信号分别通过快速傅里叶变换(Fast Fourier Transformation，FFT)、信号噪声估计处理、信号语音估计处理、反傅里叶变换(Inverse Fast Fourier Transform，IFFT)，并将IFFT后的体传导音频采集设备对应的音频信号通过低通滤波处理，将IFFT后的空气传导音频采集设备对应的音频信号通过高通滤波处理，并将通过滤波后的两个信号进行叠加，得到输出信号，该输出信号输出到与耳机连接的手机等终端设备，由终端设备传输给通话对端或进行语音识别、录音等相应应用。这种方法并没有考虑到空气传导音频采集设备和体传导音频采集设备采集到的信号的相关性。这种相关性主要来源于：不论是体传导音频采集设备或者是空气传导音频采集设备采集到的音频信号，他们的声源都是说话人，只是两者经过了不同的传播路径，空气传导音频采集设备直接经由空气传播，被空气传导音频采集设备采集到，因为环境中含有环境噪声，所以空气传导音频采集设备在采集到说话人的语音的同时，同样拾取了环境噪声，体传导音频采集设备则是说话人的语音经过身体组织传导直接传导到体传导音频采集设备，被体传导音频采集设备采集到的。因此实际上，空气传导音频采集设备和体传导音频采集设备采集到的语音音频具有很高的相关性。这种相关性可以更好帮助我们做进行语音检测和语音降噪，如果能利用两者的相关性，可以得到更好的语音增强效果。而现有技术中并未利用语音的相关性进行语音增强，因此现有技术中进行语音增强的效果较差。

现有技术的问题二：现有的拥有两个音频采集设备的耳机，在本地播放音频给使用用户时，是以消除本地环境噪声得到干净的语音为最大的目的，这种降噪方式通常利用空气传导音频采集设备采集到的环境噪声，通过在音频信号播放设备(例如，耳机扬声器)内播放相位相反的噪声来达到消除环境噪声的目的，这种传统的消除环境噪声的方法，有效的消除了本地的环境噪声，提高了用户听音的体验，但也引来另外一个问题，就是如果用户旁边有汽车或者有人说话时，降噪算法会把周围的声音也当成噪声给抑制掉，从而导致安全问题或沟通问题。例如在某个场景中，用户在使用耳机时，且旁边有汽车靠近时，由于耳机消除了环境噪声，汽车的声音也被当成环境声音给消除掉了，使用用户无法听到汽车的声音，从而可能导致事故的发生。

为了解决现有技术的问题二，拥有两个音频采集设备的耳机可能会设计有周围环境声音(Ambient Sound，AS)模式，也就是环境声模式，在开启这种模式的情况下，空气传导音频采集设备能够采集到耳外的环境声音，再通过耳机的扬声器播放出来，使得使用用户可以听到打招呼或者有汽车靠近等的周围环境的声音，如果体传导音频采集设备位于耳内，那么体传导音频采集设备采集到音频信号包括：通过身体组织传导的语音以及耳机的扬声器播放的音频信号，这种AS模式可以避免安全问题或者沟通的问题。如图4所示，为一种耳机结构示意图，体传导音频采集设备和音频信号播放设备(耳机扬声器)均位于耳内，空气传导音频采集设备位于耳外，耳机扬声器播放空气传导音频采集设备采集的音频信号，体传导音频采集设备采集通过身体组织传导的语音和耳机扬声器播放的音频信号，空气传导音频采集设备采集外部音频信号。

但是如果体传导音频采集设备位于耳内，这种设计有AS模式的耳机同样存在问题，具体的：使用用户在开启AS模式的时候，体传导音频采集设备采集到的音频信号由两部分组成，一部分是由空气传导音频采集设备录制的，通过音频信号播放设备(例如，耳内扬声器)播放的声音(包括人声和环境噪声)，另一部分是使用用户发出的经由身体组织传导被体传导音频采集设备接收采集到的声音。这样，因为体传导音频采集设备采集到的音频中包含了环境声、空气传导音频采集设备采集到的用户语音、通过身体组织传导的用户语音(可以称为体传导语音)，这样体传导音频采集设备采集到的音频不再是干净的通话语音了(体传导语音)，从而同样可能导致语音通话的对端无法听清用户的声音，或者终端设备无法准确地识别用户的语音指令，所以，带有体传导音频采集设备以及空气传导音频采集设备两个音频采集设备的耳机，传统的降噪算法是不适用的或者说不尽如人意的。

由于耳机的物理结构与耳道贴合，耳外噪声是被隔绝的，在AS模式不开启的情况下，体传导音频采集设备采集到的耳机使用用户发出的声音并不包含噪声，通过骨传导音频信号的高频部分丢失了；由于空气传导音频采集设备采集到的耳机使用用户发出的通过空气传播的音频中包含了噪声，因此空气传导音频采集设备采集到的音频为全频带的；在AS模式开启的情况下，空气传导音频采集设备采集到的音频信号要通过音频信号播放设备(例如，耳机扬声器)进行播放，因此在AS模式开启的情况下，体传导音频采集设备采集到的音频信号中包含的噪声信号是需要被消除的。

对于现有技术中存在的语音增强效果不够理想的问题，本申请实施例通过利用体传导音频采集设备采集到的信号与空气传导音频采集设备采集到的信号的相关性，对噪声进行抑制，增强了语音的质量，实现了更清晰的语音通话，提高了通话过程中上行语音信号的性能，此外，在语音识别应用中，终端设备可以准确地识别出增强语音质量后的用户指令，提高了语音识别的准确性；对于未开启环境声模式容易造成安全事故或者开启环境模式但是语音通话质量差或者无法准确识别语音指令的问题，本申请在AS模式下通过添加自适应滤波器恢复体传导音频采集设备采集的信号，在说话人能听清环境声音的情况下，消除发送到对端的音频中的环境噪声，让接收者听不见发送端的环境噪声，实现更清晰的语音通话，提高通话过程中上行语音信号的性能，此外，在语音识别应用中，由于消除了环境噪声，终端设备可以准确地识别出用户指令，提高了语音识别的准确性。

具体地，为了解决现有技术中存在的语音增强效果不够理解的问题，本申请实施例提供了一种音频处理的方法，该方法可以应用于拥有空气传导音频采集设备和体传导音频采集设备的耳机，如图5所示，其中，

步骤S801、获取空气传导音频采集设备采集的第一音频信号以及体传导音频采集设备采集到的第二音频信号。

步骤S802、基于第一音频信号以及第二音频信号之间的信号相关性，对第一音频信号以及第二音频信号进行语音增强处理，得到语音增强处理后待输出的音频信号。

对于本申请实施例，与耳机连接的终端设备可以获取该语音增强处理后待输出的音频信号，并将该音频信号输出至通话对端，或者将该音频信号输出至语音识别应用，进行语音识别；或者将该音频信号输出至即时通信应用，作为语音信息发送至通信对端；或者将该音频信号进行录制。在本申请实施例中并不限定终端设备接收到音频信号的具体处理。

具体地，步骤S802中基于第一音频信号以及第二音频信号之间的信号相关性，对第一音频信号以及第二音频信号进行语音增强处理，包括：步骤S8021(图中未示出)、步骤S8022(图中未示出)以及步骤S8023(图中未标注)，其中，

步骤S8021、对第一音频信号和第二音频信号分别进行噪声估计。

步骤S8022、根据第一音频信号和第二音频信号对应的噪声估计结果，分别对第一音频信号和第二音频信号进行语音频谱估计。

步骤S8023、根据第一音频信号和第二音频信号对应的语音频谱估计结果，对第一音频信号和第二音频信号进行语音增强处理。

具体地，步骤S8021中对第一音频信号进行噪声估计，包括：步骤S8021a(图中未示出)-步骤S8021b(图中未示出)，其中，

步骤S8021a、确定第一音频信号对应的语音存在先验概率。

步骤S8021b、基于语音存在先验概率，对第一音频信号进行噪声估计。

具体地，步骤S8021a包括步骤S8021a1(图中未示出)以及步骤S8021a2(图中未示出)，其中，

步骤S8021a1、确定第一音频信号和第二音频信号间的信号频率幅度比。

步骤S8021a2、基于信号频率幅度比，确定第一音频信号对应的语音存在先验概率。

具体地，步骤S8021b包括步骤S8021b1(图中未示出)以及步骤S8021b2(图中未示出)，其中，

步骤S8021b1、基于语音存在先验概率，确定对应的语音存在后验概率。

步骤S8021b2、基于语音存在后验概率，对第一音频信号进行噪声估计。

具体地，步骤S8023中根据第一音频信号和第二音频信号对应的语音频谱估计结果，对第一音频信号和第二音频信号进行语音增强处理，包括：步骤S8023a(图中未示出)，其中，

步骤S8023a、根据第一音频信号和第二音频信号对应的噪声估计结果，以及第一音频信号和第二音频信号对应的语音频谱估计结果，对第一音频信号和第二音频信号进行语音增强处理。

具体地，步骤S8023a包括步骤S8023a1(图中未示出)以及步骤S8023a2(图中未示出)，其中，

步骤S8023a1、根据第一音频信号和第二音频信号对应的噪声估计结果，以及第一音频信号和第二音频信号对应的语音频谱估计结果，对第一音频信号和第二音频信号进行联合语音频谱估计。

步骤S8023a2、根据得到的联合语音频谱估计结果，得到语音增强处理后待输出的音频信号。

具体地，步骤S8023a1包括步骤S8023a11(图中未示出)-步骤S8023a12(图中未示出)，其中，

步骤S8023a11、根据均值为第一音频信号的语音频谱估计结果，方差为第一音频信号的噪声估计结果的第一高斯分布模型，以及均值为第二音频信号的语音频谱估计结果，方差为第二音频信号的噪声估计结果的第二高斯分布模型，确定第三高斯分布模型的均值。

步骤S8023a12、根据第三高斯分布模型的均值，确定对第一音频信号和第二音频信号进行联合语音频谱估计的联合语音频谱估计结果。

在一个可能的实现方式中，对第一音频信号以及第二音频信号进行语音增强处理之前，包括步骤Sa(图中未示出)，其中，

步骤Sa、对第二音频信号进行环境音抵消处理，得到环境音抵消处理后的第二音频信号。

具体地，对第一音频信号以及第二音频信号进行语音增强处理，包括步骤Sb(图中未示出)，其中，

步骤Sb、对第一音频信号以及环境音抵消处理后的第二音频信号进行语音增强处理。

具体地，步骤Sa中对第二音频信号进行环境音抵消处理，包括：步骤Sa1(图中未示出)以及步骤Sa2(图中未示出)，其中，

步骤Sa1、获取音频信号播放设备待播放的第三音频信号。

步骤Sa2、通过第三音频信号对第二音频信号进行环境音抵消处理，得到环境音抵消处理后的第二音频信号。

具体地，步骤Sa2中通过第三音频信号对第二音频信号进行环境音抵消处理，包括：检测当前是否处于语音激活状态，语音激活状态表征用户正在发出语音；若检测到处于语音激活状态，则执行通过第三音频信号对第二音频信号进行环境音抵消处理的步骤。

具体地，检测当前是否处于语音激活状态，包括：根据第二音频信号和/或第三音频信号，确定音频信号播放设备信道和/或体传导音频采集设备信道是否处于语音激活状态；若至少一个信道处于语音激活状态，则根据第二音频信号与第三音频信号之间的信号相关性，确定当前是否处于语音激活状态。

本申请实施例提供了一种音频处理的方法，本申请实施例通过获取空气传导音频采集设备采集的第一音频信号以及体传导音频采集设备采集到的第二音频信号，能够基于第一音频信号以及第二音频信号之间的信号相关性，对第一音频信号以及第二音频信号进行语音增强处理，得到语音增强处理后待输出的音频信号，即基于空气传导音频采集设备采集到的音频信号与体传导音频采集设备采集到的音频信号的相关性，进行空气传导音频采集设备采集到的音频信号以及体传导音频采集设备采集到的音频信号进行语音增强处理，从而可以得到效果更好的语音信号，以进行语音传输或者语音识别等应用。

对于未开启环境声模式容易造成安全事故或者开启环境模式但是语音通话质量差或者语音识别不准确的问题，本申请提供了另一种音频处理的方法，可以应用于拥有两个音频采集设备的电子设备，如图6所示，其中，

步骤S901、获取空气传导音频采集设备采集的第一音频信号以及体传导音频采集设备采集到的第二音频信号。

步骤S902、对第二音频信号进行环境音抵消处理。

步骤S903、基于第一音频信号以及环境音抵消处理后的第二音频信号，确定待输出的音频信号。

具体地，步骤S902包括步骤S9021(图中未示出)以及步骤S9022(图中未示出)，其中，

步骤S9021、获取音频信号播放设备待播放的第三音频信号。

步骤S9022、通过第三音频信号对第二音频信号进行环境音抵消处理，得到环境音抵消处理后的第二音频信号。

具体地，步骤S9022中通过第三音频信号对第二音频信号进行环境音抵消处理，包括：

对第三音频信号进行环境音抵消滤波处理，得到滤波处理后的信号；

从第二音频信号中去除滤波处理后的信号，得到环境音抵消处理后的第二音频信号。

具体地，通过第三音频信号对第二音频信号进行环境音抵消处理，包括：检测当前是否处于语音激活状态，语音激活状态表征用户正在发出语音；若检测到处于语音激活状态，则执行通过第三音频信号对第二音频信号进行环境音抵消处理的步骤。

在一个可能的实现方式中，还包括；若检测到当前处于语音未激活状态，则更新环境音抵消滤波处理的参数信息。

具体地，更新环境音抵消滤波处理的参数信息，包括：基于第三音频信号，确定针对第二音频信号的预测信号；根据第二音频信号以及针对第二音频信号的预测信号，更新环境音抵消滤波处理的参数信息。

具体地，根据第二音频信号与第三音频信号之间的信号相关性，确定当前是否处于语音激活状态，包括：确定第二音频信号与第三音频信号之间的相关系数序列；基于相关系数序列，确定当前是否处于语音激活状态。

具体地，基于相关系数序列，确定当前是否处于语音激活状态，包括：在相关系数序列中，确定主峰值；若相关系数序列中，主峰值前的预设延迟范围内存在另一个峰值，则确定当前处于语音激活状态。

本申请实施例提供了一种音频处理的方法，本申请实施例获取空气传导音频采集设备采集的第一音频信号以及体传导音频采集设备采集到的第二音频信号，然后对第二音频信号进行环境音抵消处理，并基于第一音频信号以及环境音抵消处理后的第二音频信号，确定待输出的音频信号。即通过先对体传导音频采集设备采集到的音频信号进行环境音抵消处理，得到不包含环境音的语音信号，并基于将空气传导音频采集设备采集到的音频信号以及环境音抵消处理后的体传导音频采集设备采集到的音频信号得到待输出信号，从而可以得到效果更好的音频信号，以进行语音传输或者语音识别等应用。

下面结合具体的实施例介绍音频处理的方法，包括实施例一、实施例二、实施例三以及实施例四，其中，实施例一用于解决现有技术问题一中未利用体传导音频采集设备采集到的音频信号以及空气传导音频采集设备采集到的音频信号的相关性，进行语音增强，导致的语音增强效果较差的问题；实施例二用于解决现有技术问题二中对于未开启环境声模式容易造成安全事故或者开启环境模式但是语音通话质量差或语音识别不准确的问题；实施例三用于同时解决上述现有技术问题一以及现有技术问题二；实施例四在实施例三的基础上介绍了两个不同应用场景下对音频信号进行处理的方式，具体详见下述实施例，其中，本申请中空气传导音频采集设备可以位于耳外，体传导音频采集设备为通过身体组织例如骨组织作为媒介进行音频采集的设备，体传导音频采集设备可以佩戴于耳内也可以佩戴于耳外，在本申请中并不限定。

实施例一

本申请实施例提供了一种音频处理的方法，包括：获取第一音频信号以及第二音频信号，第一音频信号为由耳机的空气传导音频采集设备采集到的音频信号，第二音频信号为通过身体组织(例如骨组织)传导并被耳机的体传导音频采集设备采集到的音频信号；基于第一音频信号以及第二音频信号之间的信号相关性，对第一音频信号以及第二音频信号进行语音增强处理，得到语音增强处理后的音频信号。由于第一音频信号以及第二音频信号之间的信号相关性可以体现在联合语音估计处理(语音估计处理也可以称为语音频谱估计处理)，具体详见第一个具体实例，也可以体现在语音存在先验概率计算处理，具体详见第二个具体实例；再者第一音频信号以及第二音频信号之间的相关性可以既体现在联合语音估计处理也体现在语音存在先验概率计算处理，具体详见第三个具体实例，其中，

第一个具体实例

本具体实例提供了一种音频处理的方法，如图7a所示，包括：

步骤S1001、获取空气传导音频采集设备采集的第一音频信号以及体传导音频采集设备采集到的第二音频信号。

对于本申请实施例，在使用耳机的用户(也可以称为使用用户)说话时，第一音频信号除了包括使用用户的语音信号，还可能包含环境噪声信号。在本申请实施例中并不限定。

对于本申请实施例，第二音频信号是通过身体组织传导并由体传导音频采集设备采集到的音频信号，该第二音频信号中包含使用用户的语音信号。

对于本申请实施例，若耳机的音频信号播放设备(如耳机扬声器)播放音乐，或者在通话过程中播放对端用户的通话语音，则体传导音频采集设备有可能采集到音频信号播放设备播放的音乐或通话语音。体传导音频采集设备采集到音频信号之后，可以通过回波抵消处理，消除音频信号播放设备播放的音频，得到第二音频信号。

步骤S1002、基于以下信息，进行联合语音估计处理：

第一音频信号对应的噪声方差的估计值；

第一音频信号对应的纯净语音频谱幅度的估计值；

第二音频信号对应的噪声方差的估计值；

第二音频信号对应的纯净语音频谱幅度的估计值。

对于本申请实施例，第一音频信号对应的噪声方差的估计值为第一音频信号的频域信号中的各个频点分别对应的噪声方差的估计值；第一音频信号对应的纯净语音频谱幅度的估计值为第一音频信号的频域信号中的各个频点分别对应的纯净语音频谱幅度的估计值；第二音频信号对应的噪声方差的估计值为第二音频信号的频域信号中各个频点分别对应的噪声方差的估计值；第二音频信号对应的纯净语音频域幅度的估计值为第一音频信号的频域信号中的各个频点分别对应的纯净语音频谱幅度的估计值。

在步骤S1002之前还包括：计算以下信息：

第一音频信号对应的噪声方差的估计值；

第一音频信号对应的纯净语音频谱幅度的估计值；

第二音频信号对应的噪声方差的估计值；

第二音频信号对应的纯净语音频谱幅度的估计值。

其中，第一音频信号对应的噪声方差的估计值以及第二音频信号对应的噪声方差的估计值为对第一音频信号和第二音频信号分别进行噪声估计，得到的噪声估计结果；第一音频信号对应的纯净语音频谱幅度的估计值以及第二音频信号对应的纯净语音频谱幅度的估计值为分别对第一音频信号以及第二音频信号进行语音频谱估计的语音频谱估计结果。

对于本申请实施例，可以通过现有技术中的信号噪声估计算法以及语音频谱估计算法计算第一音频信号对应的噪声方差的估计值、第一音频信号对应的纯净语音频谱幅度的估计值、第二音频信号对应的噪声方差的估计值、第二音频信号对应的纯净语音频谱幅度的估计值；也可以通过本申请中的处理方式，分别对第一音频信号以及第二音频信号进行噪声估计以及语音频谱估计，具体地：先通过语音存在先验概率计算处理，计算第一音频信号的频域信号中各个频点分别对应的语音存在先验概率(即第一音频信号对应的语音存在先验概率)，然后基于计算得到的第一音频信号的频域信号中各个频点分别对应的语音存在先验概率，并通过信号噪声估计算法以及语音频谱估计算法计算第一音频信号对应的噪声方差的估计值，以及第一音频信号对应的纯净语音频谱幅度的估计值，基于预先设定的语音存在先验概率并通过信号噪声估计算法以及语音频谱估计算法计算第二音频信号对应的噪声方差的估计值，以及第二音频信号对应的纯净语音频谱的估计值；当然也可以通过计算第一音频信号对应的语音存在先验概率的方式，实时计算第二语音信号对应的语音存在先验概率，并基于第二语音信号对应的语音存在先验概率并通过信号噪声估计算法以及语音频谱估计算法计算第二音频信号对应的噪声方差的估计值，以及第二音频信号对应的纯净语音频谱的估计值。

步骤S1003、根据得到的联合语音估计结果，得到语音增强处理后待输出的音频信号。

其中，得到的联合语音估计结果为各个频点对应最终语音频谱幅度值。在本申请实施例中，各个频点对应的最终语音频谱幅度值为语音增强后的时域信号对应的频域信号中各个频点分别对应的语音频谱幅度值。

因此，步骤S1003包括：对各个频点对应最终语音频谱幅度值进行IFFT变换，并通过叠加sine窗以及帧间重叠相加，得到语音增强后待输出的时域音频信号。

具体如图7b所示，图7b介绍了利用本申请的处理方式，对音频信号进行语音存在先验概率处理，信号噪声估计、语音频谱估计以及联合语音估计处理，具体地，分别对第一音频信号以及第二音频信号进行FFT，得到第一音频信号对应的频域信号以及第二音频信号对应的频域信号，基于第一音频信号对应的频域信号以及第二音频信号对应的频域信号，进行语音存在先验概率处理，得到第一音频信号对应的语音存在先验概率，然后基于第一音频信号对应的语音存在先验概率，对第一音频信号进行噪声估计，得到第一音频信号对应的噪声方差的估计值以及第一语音存在后验概率，并且基于预先设定的语音存在的先验概率，对第二音频信号进行噪声估计处理，得到第二音频信号对应的噪声方差的估计值以及第二语音存在后验概率，基于第一音频信号对应的噪声方差的估计值以及第一语音存在后验概率，对第一音频信号进行语音频谱估计，得到第一音频信号对应的纯净语音频谱幅度的估计值，并且基于第二音频信号对应的噪声方差的估计值以及第二语音存在后验概率，对第二音频信号进行语音频谱估计，得到第二音频信号对应的纯净语音频谱幅度的估计值，然后根据第一音频信号和第二音频信号对应的噪声估计结果，以及第一音频信号和第二音频信号对应的语音频谱估计结果，对第一音频信号和第二音频信号进行联合语音频谱估计，然后对联合估计结果，进行IFFT变换，得到语音增强后待输出的时域音频信号，即输出信号x。具体实现流程详见图7c所示，其中，图7c为本具体实例提供的音频处理方法的具体实现流程，包括：

步骤S701，分别对第一音频信号以及第二音频信号进行FFT，得到第一音频信号对应的频域信号以及第二音频信号对应的频域信号。

对第一音频信号以及第二音频信号进行噪声估计处理，之前还包括：分别对第一音频信号以及第二音频信号进行傅里叶变换，得到第一音频信号对应的频域信号以及第二音频信号对应的频域信号。

对于本申请实施例，通过加窗短时傅里叶变换，分别对第一音频信号以及第二音频信号进行计算，得到第一音频信号对应的频域信号以及第二音频信号对应的频域信号，也可以称为第一频域信号以及第二频域信号。

其中，加窗短时傅里叶变换的公式可以为：

其中，x为第一音频信号x_o或者第二音频信号x_i，w代表窗函数，在本申请实施例中窗函数w选择为sine窗，N为帧长。输出的频域信号f(k)为第一音频信号x_o对应的频域信号或者为第二音频信号x_i对应的频域信号，输出的频域信号f(k)在后面表示为向量Y，k取值为0～N-1。

例如，帧长N可以为10ms。

步骤S702，确定第一音频信号对应的语音存在先验概率。即通过语音存在先验概率计算处理，计算第一音频信号的频域信号中各个频点分别对应的语音存在先验概率。

可以先计算第一频域信号与第二频域信号的频率幅度比(Outer Inner Ratio，OIR)，也可以称为第一音频信号和第二音频信号间的信号频率幅度比；通过频率幅度比，确定第一频域信号对应的语音存在先验概率。

具体地，基于计算得到的第一频域信号与第二频域信号的OIR并通过柯西分布模型，计算第一音频信号的频域信号中各个频点分别对应的语音存在先验概率(也可以称为：第一语音存在先验概率)。

对于本申请实施例，根据经验信息，纯净语音频点幅度值大致符合均值为0的高斯分布，并且两个均值为0的高斯分布比值，符合柯西分布，因此基于OIR并通过柯西分布模型，计算第一音频信号的频域信号中各个频点分别对应的语音存在先验概率。

具体地，通过下述公式，计算第一频域信号与第二频域信号的频率幅度比：

OIR＝|Y_o|/|Y_i|；

OIR为第一频域信号与第二频域信号的频率幅度比，Y_o为第一音频信号经过时频转换后输出的第一频域信号，Y_i为第二音频信号经过时频转换后输出的第二频域信号。

通过以下公式，计算第一频域信号的频域信号中各个频点分别对应的语音存在先验概率：

其中P为语音存在先验概率的初始值向量，向量元素为频点。此语音存在先验概率初始值可以由实验统计得到(例如，4小时的实验信号序列中，在某个频点，其中2小时为语音，则语音存在概率的初始值为2小时/4小时＝0.5)，语音针对不同的硬件设备而不同。但一般规律是，第二音频信号中语音存在概率随着频率升高而快速降低，第一音频信号相对缓慢降低。g为经验系数(可以为固定值)，priOIR为信号为纯净语音时，第二音频信号与第一音频信号的频率幅度比，priOIR可以为预先统计得到。

步骤S703，基于第一音频信号对应的语音存在先验概率，对第一音频信号进行噪声估计。

进一步地，基于计算得到的第一音频信号的频域信号中各个频点分别对应的语音存在先验概率，并通过信号噪声估计算法计算第一音频信号对应的噪声方差的估计值。

具体的：基于计算得到的第一音频信号的频域信号中各个频点分别对应的语音存在先验概率，并通过信号噪声估计算法，计算第一音频信号的频域信号中各个频点分别对应的语音存在后验概率(也可以称为：第一语音存在后验概率)；基于第一语音存在后验概率，计算第一音频信号对应的噪声方差的估计值。

步骤S704，对第二音频信号进行噪声估计。

基于预先设定的语音存在先验概率，并通过信号噪声估计算法计算第二音频信号的频域信号中各个频点分别对应的后验概率(也可以称为：第二语音存在后验概率)；基于第二语音存在后验概率，计算第二音频信号对应的噪声方差的估计值。

具体地，通过下述公式(1)计算第一语音存在后验概率或者第二语音存在后验概率，通过公式(2)计算第一音频信号对应的噪声方差的估计值或者第二音频信号对应的噪声方差的估计值。

其中，P(H1|y)为语音存在后验概率，可以表征为第一语音存在后验概率，也可以表征为第二语音存在后验概率；P(H0)为语音不存在的先验概率，P(H0)＝1-P(H1)，若P(H1|y)为第一语音存在后验概率，则P(H1)为第一语音存在先验概率，P(H0)为第一语音不存在的先验概率，若P(H1|y)为第二语音存在后验概率，则P(H1)为预设的语音存在先验概率，P(H0)为第二语音不存在的先验概率；ξ为先验信噪比，可以为固定值，在本申请实施例中可以取12db；Y为频域信号，可以表征为第一频域信号或第二频域信号；σ²为上一帧估计得到的噪声方差的估计值，也可以用σ²(l-1)来表示，可以表征第一音频信号对应的噪声方差的估计值，也可以表征第二音频信号对应的噪声方差的估计值。

σ²(l)＝α*σ²(l-1)+(1-α)*[P(H0|y)|Y|²+P(H1|y)σ²(l-1)] (2)

其中，σ²(l)表示当前帧的噪声方差的估计值，也可以称为更新后的噪声方差的估计值，可以表征第一音频信号对应的噪声方差的估计值，也可以表征第二音频信号对应的噪声方差的估计值，其中，第一音频信号对应的噪声方差的估计值可以用σ_o ²来表示，第二音频信号对应的噪声方差的估计值可以用σ_i ²来表示，σ_o ²和σ_i ²用σ²表示；σ²(l-1)为上一帧计算所得的噪声方差的估计值；α为更新系数，可以为0到1间的固定值，例如可以取值为0.8；P(H0|y)表示语音不存在的后验概率，可以为第一音频信号对应的第一语音不存在的后验概率，也可以为第二音频信号的对应的第二语音不存在的后验概率；|Y|为频域信号的幅度值。

步骤S705，对第一音频信号进行语音频谱估计。

基于第一音频信号对应的噪声方差的估计值以及第一语音存在后验概率，计算第一音频信号对应的纯净语音频域幅度的估计值。

步骤S706，对第二音频信号进行语音频谱估计。

基于第二音频信号对应的噪声方差的估计值以及第二语音存在后验概率，计算第二音频信号对应的纯净语音频谱幅度的估计值。

具体地，当计算得到第一语音存在后验概率以及第一音频信号对应的噪声方差的估计值后，使用OM-LSA算法计算语音相对于采集到的原始信号(第一音频信号)的比例值G1，然后基于比例值G1，计算第一音频信号对应的纯净语音频域幅度的估计值；当计算得到第二语音存在后验概率以及第二音频信号对应的噪声方差的估计值后，使用OM-LSA算法计算语音相对于原信号采集到的原始信号(第二音频信号)的比例值G2，然后基于比例值G2，计算第二音频信号对应的纯净语音频域幅度的估计值。

具体地，通过公式(3)和(4)计算纯净语音频域幅度的估计值S，S可以为第一音频信号对应的纯净语音频域幅度的估计值S1，也可以为第二音频信号对应的纯净语音频域幅度的估计值S2，其中，

S＝G*Y (3)；

G＝G(H1)^P(H1|y)*G_min ^P(H0|y) (4)；

其中，

其中，当计算第一音频信号对应的纯净语音频域幅度的估计值S1时，公式(3)中的G为G1，Y为第一频域信号，公式(4)中的P(H1|y)为第一语音存在后验概率，P(H0|y)为第一语音不存在的后验概率，|Y|为第一音频信号对应的频域信号的幅度值，σ²为第一音频信号对应的噪声方差的估计值。

当计算第二音频信号对应的纯净语音频域幅度的估计值S2时，公式(3)中的G为G2，Y为第二频域信号，公式(4)中的P(H1|y)为第二语音存在后验概率，P(H0|y)为第二语音不存在的后验概率，|Y|为第二音频信号对应的频域信号的幅度值，σ²为第二音频信号对应的噪声方差的估计值。

G_min是一个为固定值的经验系数，为G的下限，可以选择-18db到-30db之间的一个值。

步骤S707，根据第一音频信号和第二音频信号对应的噪声估计结果，以及第一音频信号和第二音频信号对应的语音频谱估计结果，对第一音频信号和第二音频信号进行联合语音频谱估计。

在确定出第一音频信号和第二音频信号对应的噪声估计结果(第一音频信号对应的噪声方差的估计值以及第二音频信号对应的噪声方差的估计值)，以及第一音频信号和第二音频信号对应的语音频谱估计结果(第一音频信号对应的纯净语音频谱幅度的估计值、第二音频信号对应的纯净语音频谱幅度的估计值)之后，根据均值为第一音频信号的语音频谱估计结果，方差为第一音频信号的噪声估计结果的第一高斯分布模型，以及均值为第二音频信号的语音频谱估计结果，方差为第二音频信号的噪声估计结果的第二高斯分布模型，确定第三高斯分布模型的均值；根据第三高斯分布模型的均值，确定对第一音频信号和第二音频信号进行联合语音频谱估计的联合语音频谱估计结果。

对于本申请实施例，通过上述计算得到第一音频信号对应的噪声方差的估计值、第一音频信号对应的纯净语音频谱幅度的估计值、第二音频信号对应的噪声方差的估计值、第二音频信号对应的纯净语音频谱幅度的估计值，可以将第一频点语音频谱幅度看成以第一频点对应的语音频谱幅度为均值，以该第一频点对应的噪声方差的估计值为方差的高斯分布；将第二频点语音频谱幅度看成以该第二频点对应的语音频谱幅度为均值，以第二频点对应的噪声方差的估计值为方差的高斯分布，根据“两个高斯分布的乘积为一个高斯分布”，并基于上述信息，计算任一频点对应的最终的语音频谱幅度值，即新的高斯分布的均值，具体如图7d所示，其中，图中的共同概率分布是指最终的语音频谱幅度概率分布，

其中，第一频点为第一音频信号的频域信号中任一频点，则第一频点语音频谱幅度为第一频点对应的语音频谱幅度；第二频点为第二音频信号的频域信号中任一频点，则第二频点语音频谱幅度为第二频点对应的语音频谱幅度。

具体地，通过公式(5)，计算任一频点对应的最终语音频谱幅度值，即联合语音频谱估计结果。

S_io＝S_o+k*(priOIR*S_i-S_o) (5)

其中，

S_io为任一频点对应的最终语音频谱幅度值，S_o为第一音频信号对应的纯净语音频域幅度的估计值，S_i为第二音频信号对应的纯净语音频域幅度的估计值。

步骤S708，对联合语音频谱估计结果进行IFFT变换，得到语音增强后待输出的时域音频信号，即输出信号x。

具体地，可以先对各个频点对应最终语音频谱幅度值进行IFFT变换，并通过叠加sine窗以及帧间重叠相加，得到语音增强后待输出的时域音频信号。

可以根据公式(6)，计算语音增强后的时域音频信号。

其中，x(n)为语音增强后的时域音频信号，w代表窗函数，S_io(k)为语音增强后的时域信号对应的频域信号。

第二个具体实例

该具体实例提供了另一种音频处理的方法，如图7e所示，包括：

步骤S1004、获取空气传导音频采集设备采集的第一音频信号以及体传导音频采集设备采集到的第二音频信号。

步骤S1005、基于第一音频信号以及第二音频信号，并通过语音存在先验概率计算处理，得到语音增强处理后的音频信号。

对于本申请实施例，步骤S1005之前还包括：分别对第一音频信号以及第二音频信号进行傅里叶变换，得到第一音频信号对应的频域信号(也可以称为第一频域信号)以及第二音频信号对应的频域信号(也可以称为第二频域信号)。

具体对第一音频信号以及第二音频信号进行傅里叶变换的方式详见上述第一个具体实例，在本实例中不做限定。

对于本申请实施例，步骤S1005具体可以包括：步骤S10051(图中未示出)、步骤S10052(图中未示出)、步骤S10053(图中未示出)、步骤S10054(图中未示出)以及步骤S10055(图中未示出)，其中，

步骤S10051、确定第一音频信号对应的语音存在先验概率。

步骤S10052、基于确定出的语音存在先验概率，对第一音频信号进行噪声估计。

步骤S10053、对第二音频信号进行噪声估计。

步骤S10054、根据第一音频信号和第二音频信号对应的噪声估计结果，分别对第一音频信号和第二音频信号进行语音频谱估计。

步骤S10055、根据第一音频信号和第二音频信号对应的语音频谱估计结果，对第一音频信号和第二音频信号进行语音增强处理，得到语音增强处理后的音频信号。

对于本申请实施例，基于第一音频信号以及第二音频信号，并通过语音存在先验概率计算处理，得到第一语音存在先验概率的过程详见上述第一个具体实例，在此不再赘述。

对于本申请实施例，可以通过现有技术中语音频谱估计的方式以及语音增强处理的方式对第一音频信号以及第二音频信号进行语音频谱估计以及语音增强处理；也可以根据本申请中基于第一语音存在先验概率，并通过信号噪声估计、语音频谱估计、联合语音估计、IFFT，确定语音增强处理后的时域信号。

具体地，通过基于第一语音存在先验概率，并通过信号噪声估计、语音频谱估计、联合语音估计、IFFT，确定语音增强处理后的时域信号的具体计算方式详见上述第一个具体实例，在本实例中不在赘述。

第三个具体实例

该具体实例提供了另一种音频处理的方法，如图7f所示，包括：

步骤S1006、获取空气传导音频采集设备采集的第一音频信号以及体传导音频采集设备采集到的第二音频信号。

步骤S1007、基于第一音频信号以及第二音频信号，并通过语音存在先验概率计算处理，得到第一音频信号对应的语音存在先验概率。

在步骤S1007之前还包括：分别对第一音频信号以及第二音频信号进行傅里叶变换，得到第一音频信号对应的频域信号(也可以称为第一频域信号)以及第二音频信号对应的频域信号(也可以称为第二频域信号)。

步骤S1007具体包括：基于第一频域信号以及第二频域信号，并通过语音存在先验概率计算处理，得到第一音频信号对应的语音存在先验概率。

步骤S1008、基于以下信息，并通过联合语音估计处理，得到语音增强处理后的音频信号：

第一音频信号对应的噪声方差的估计值；

第一音频信号对应的纯净语音频谱幅度的估计值；

第二音频信号对应的噪声方差的估计值；

第二音频信号对应的纯净语音频谱幅度的估计值。

对于本申请实施例，步骤S1008之前还包括：通过步骤S1007计算得到的第一音频信号对应的语音存在先验概率，确定第一音频信号对应的噪声方差的估计值、第一音频信号对应的纯净语音频谱幅度的估计值、第二音频信号对应的噪声方差的估计值、第二音频信号对应的纯净语音频谱幅度的估计值。

具体的计算方式详见上述第一个具体实例，在此不再赘述。

进一步地步骤S1008中基于第一音频信号对应的噪声方差的估计值、第一音频信号对应的纯净语音频谱幅度的估计值、第二音频信号对应的噪声方差的估计值、以及第二音频信号对应的纯净语音频谱幅度的估计值，并通过联合语音估计处理，得到语音增强处理后的音频信号的具体计算方式详见上述第一个具体实例，在本实例中不再赘述。

实施例二

本申请实施例提供了另一种音频处理的方法，如图8a所示，将检测到的耳机的体传导音频采集设备采集到的音频信号以及音频信号播放设备(耳机扬声器)即将播放的信号，通过语音激活检测，检测当前是否处于语音激活状态，以确定使用用户当前是否正在发出语音，若检测到体传导音频采集设备信道以及耳机扬声器信道中至少一个信道处于语音激活状态，则通过设定的滤波器进行环境音抵消处理，并根据环境音抵消处理后的音频信号以及耳机的空气传导音频采集设备采集到的音频信号进行语音增强处理，得到语音增强处理后的信号，并将语音增强处理后的信号作为输出信号；若检测到体传导音频采集设备信道以及耳机扬声器信道中两个信道均处于语音未激活状态，则根据未激活状态下采集到的音频信号对该设定的滤波器的参数信息(即环境音抵消滤波处理的参数信息)进行更新，对应图中的滤波器更新。下面详细对上述内容进行介绍，具体如图8b所示，其中，

步骤S1101、获取空气传导音频采集设备采集的第一音频信号以及体传导音频采集设备采集到的第二音频信号。

对于本申请实施例，在使用用户说话时，第一音频信号除了包括使用用户的语音信号，还可能包含环境噪声信号；第二音频信号中包括通过身体组织传导并且由耳机的体传导音频采集设备采集到的语音信号，以及耳机扬声器播放并由体传导音频采集设备采集到的音频信号。

步骤S1102、获取耳机扬声器待播放的第三音频信号。

对于本申请实施例，步骤S1101与步骤S1102可以同时执行。

步骤S1103a、通过第三音频信号对第二音频信号进行环境音抵消处理，得到环境音抵消处理后的第二音频信号。

步骤S1103a之前，检测当前是否处于语音激活状态，当检测到处于语音激活状态时，确定执行步骤S1103a。

具体地，步骤S1103a中通过第三音频信号对第二音频信号进行环境音抵消处理，包括：对第三音频信号进行环境音抵消滤波处理，得到滤波处理后的信号；从第二音频信号中去除滤波处理后的信号，得到环境音抵消处理后的第二音频信号。

其中，当前处于语音激活状态表征用户当前正在发出语音。

对于本申请实施例，环境音抵消处理后的第二音频信号中不包含环境噪声，仅包含通过身体组织传导并且由体传导音频采集设备采集到的语音信号。

具体地，通过公式(7)计算环境音抵消处理后的第二音频信号：

其中，ε为环境音抵消处理后的第二音频信号；d为当当前处于语音激活状态时，耳机的体传导音频采集设备采集到的期望信号，即为第二音频信号；若当前处于语音激活状态，则y为上述滤波处理后的信号；X为第三音频信号；k为时域采样点中的第k个点，可以称为k时刻，该值为索引值；M为该设定的滤波器的阶数；w_i为滤波器的第i阶系数。

步骤S1103b、若检测到当前处于语音未激活状态，更新环境音抵消滤波处理的参数信息。

对于本申请实施例，步骤S1103a可以在步骤S1103b之前执行，也可以在步骤S1103b之后执行，在本申请实施例中不做限定。

具体地，步骤S1103b中更新环境音抵消滤波处理的参数信息，包括：基于第三音频信号，确定针对第二音频信号的预测信号；根据第二音频信号以及针对第二音频信号的预测信号，更新环境音抵消滤波处理的参数信息。

更新环境音抵消滤波处理的参数信息即更新设定的滤波器的参数信息，当当前处于语音未激活状态时，如图8c所示，将耳机扬声器即将播放的信号(即第三音频信号)X(k)，对体传导音频采集设备采集到的信号进行预测，得到预测信号(针对环境音抵消处理后的第二音频信号的预测信号)y(k)，并通过在未激活状态由体传导音频采集设备采集到的期望信号，对设定的滤波器的参数信息进行更新，即得到更新后的该设定滤波器的参数信息W，其中更新后的设定滤波器的参数信息的计算公式如公式(8)所示，其中，

W(k+1)＝W(k)+2με(k)X(K) (8)

其中，W(k)为第k时刻的滤波器系数；W(k+1)代表k的下一时刻k+1时刻的系数，也就是更新后的系数；μ是固定的经验值；ε(k)是处于未激活状态时耳机的体传导音频采集设备采集到的期望信号d(k)和预测信号y(k)的差值；其中W＝{w₁，w₂，w₃，w₄…w_M}。

步骤S1104、基于第一音频信号以及环境音抵消处理后的第二音频信号，确定待输出的音频信号。

对于本申请实施例，步骤S1104在步骤S1103a之后执行。

当语音当前处于激活状态下时，本申请实施例中的环境音抵消处理后的第二音频信号可以等同于第一实施例中的体传导音频采集设备采集到的第二音频信号。具体对第一音频信号以及环境音抵消处理后的第二音频信号进行语音增强处理的方式，详见实施例一，在本实施例中不再赘述。

进一步地，检测当前是否处于语音激活状态的具体检测方式，具体如图9a所示，分别对耳机扬声器即将播放的第三音频信号以及耳机的体传导音频采集设备采集到的第二音频信号进行语音激活检测，若至少一个处于激活状态，则确定耳机扬声器即将播放的第三音频信号以及耳机的体传导音频采集设备采集到的第二音频信号两种信号之间的相关性，即进行相关性检测，得到相关系数序列，然后检测相关系数系列的主峰值前的预设范围内是否存在另一个峰值，若存在，则确定当前处于语音激活状态，否则处于未激活状态。下面结合图9b详细对语音激活检测进行介绍，其中，

步骤S1201、对第三音频信号和/或第二音频信号，确定耳机扬声器信道和/或体传导音频采集设备信道是否处于语音激活状态。

具体地，对第三音频信号通过短时能量算法或者过零率算法，计算耳机扬声器信道是否处于语音激活状态；和/或，对第二音频信号通过短时能量算法或者过零率算法，计算体传导音频采集设备信道是否处于语音激活状态。

其中，短时能量计算公式为：

其中，S(n)为第三音频信号对应的频域信号的频点n的幅度值，或者为第二音频信号对应的频域信号中频点n的幅度值，N为帧长。

其中，过零率算法公式为：

其中，

对于本申请实施例，当短时能量值大于预设阈值或者过零率值大于预设阈值，则确定该信道处于语音激活状态

步骤S1202、若至少一个信道处于语音激活状态，则根据第三音频信号与第二音频信号之间的相关性，确定当前是否处于语音激活状态。

具体地，步骤S1202中根据第三音频信号与第二音频信号之间的相关性，确定当前是否处于语音激活状态，包括：计算第三音频信号与第二音频信号之间的相关性，得到相关系数序列；基于相关系数序列，确定当前语音是否处于激活状态。

具体地，通过公式(9)计算第三音频信号与第二音频信号之间的相关性：

其中，Cov(X，Y)为第三音频信号与第二音频信号之间的互相关值，Var[X]、Var[Y]分别为第三音频信号的信号方差值，第二音频信号的信号方差值。

具体地，基于相关系数序列，确定当前语音是否处于激活状态包括：在相关系数序列中，确定主峰值；若相关系数序列中，主峰值前的预设延迟范围内存在另一个峰值，则确定当前语音处于激活状态。

对于本申请实施例，如图9c所示，相关系数序列中，主峰值前的预设延迟范围内存在另一个峰值(对应图中的相关峰值)，则确定当前处于语音激活状态。

因为在AS模式下，用户需要听得见环境的声音，因此我们需要录制耳外噪音然后使用耳内扬声器播放，由于录制耳外音频信号然后在耳内扬声器中播放可能会有延时，这样如果使用用户当前处在说话状态的时候，说话语音会被空气传导音频采集设备采集同时被体传导音频采集设备采集，并且由于空气传导音频采集设备采集到的声音音频信号需要录制之后再在通过耳内扬声器播放，从而便存在延时；即相当于耳内语音设备采集到的音频信号由两部分组成，一部分是经过体组织传导被体传导音频采集设备采集到的信号，另一部分是经过空气传导音频采集设备采集并由耳内扬声器播放的被体传导音频采集设备采集到的部分，因此此时的音频信号在相关性的时候会出现两个峰值，而第二个峰值因为是空气传导音频采集设备采集到的音频信号的自相关，会大于经过体组织传导被体传导音频采集设备采集到的信号(不含有外耳信号的高频成分)和空气传导音频采集设备采集到的音频信号的互相关的峰值，具体如图9d所示，图9d中的(1)图中为空气传导音频采集设备采集到的音频信号；图9d中的(2)图中为耳机扬声器即将播放的音频信号；图9d中的(3)图中为耳机处于非AS模式下，由体传导音频采集设备采集到的音频信号；图9d中的(4)图中为耳机处于AS模式下，由体传导音频采集设备采集到的音频信号。

实施例三

本申请实施例提供了又一种音频处理的方法，如图10a所示，包括：

步骤S1301、获取空气传导音频采集设备采集的第一音频信号以及体传导音频采集设备采集到的第二音频信号。

步骤S1302、对第二音频信号进行环境音抵消处理，得到环境音抵消处理后的第二音频信号。

对于本申请实施例，若耳机当前所处模式为非环境声(Ambient Sound，AS)模式，则可以不对第二音频信号进行环境音抵消处理；若耳机当前所处模式为AS模式，则可以对第二音频信号进行环境音抵消处理。

步骤S1302包括：步骤S1302a(图中未示出)-步骤S1302b(图中未示出)，其中，

步骤S1302a、获取耳机扬声器待播放的第三音频信号。

步骤S1302b、通过第三音频信号对第二音频信号进行环境音抵消处理，得到环境音抵消处理后的第二音频信号。

在一个可能的实现方式中，步骤S1302b包括：步骤S1302b1(图中未示出)-步骤S1302b2(图中未示出)，其中，

步骤S1302b1、对第三音频信号进行环境音抵消滤波处理，得到滤波处理后的信号。

步骤S1302b2、从第二音频信号中去除滤波处理后的信号，得到环境音抵消处理后的第二音频信号。

具体地，步骤S1302b包括：步骤S1302b3(图中未示出)-步骤S1302b4(图中未示出)，其中，

步骤S1302b3、检测当前是否处于语音激活状态，语音激活状态表征用户正在发出语音。

具体地，步骤S1302b3具体可以包括：步骤S1302b31(图中未示出)-步骤S1302b32(图中未示出)，其中，

步骤S1302b31、根据第二音频信号和/或第三音频信号，确定耳机扬声器信道和/或体传导音频采集设备信道是否处于语音激活状态。

步骤S1302b32、若至少一个信道处于语音激活状态，则根据第二音频信号与第三音频信号之间的信号相关性，确定当前是否处于语音激活状态。

具体地，步骤S1302b32中，根据第二音频信号与第三音频信号之间的信号相关性，确定当前是否处于语音激活状态可以包括步骤Sd(图中未示出)-步骤Se(图中未示出)，其中，

步骤Sd、确定第二音频信号与第三音频信号之间的相关系数序列。

步骤Se、基于相关系数序列，确定当前是否处于语音激活状态。

具体地，步骤Se具体可以包括：步骤Se1(图中未示出)以及步骤Se2(图中未示出)，其中，

步骤Se1、在相关系数序列中，确定主峰值。

步骤Se2、若相关系数序列中，主峰值前的预设延迟范围内存在另一个峰值，则确定当前处于语音激活状态。

步骤S1302b4、若检测到处于语音激活状态，则执行通过第三音频信号对第二音频信号进行环境音抵消处理的步骤。

在一个可能的实现方式中，该方法还包括：步骤Sc(图中未示出)，其中，

步骤Sc、若检测到当前处于语音未激活状态，更新环境音抵消滤波处理的参数信息。

步骤Sc可以在步骤S1302b3之后执行。

步骤S1303、基于第一音频信号以及第二音频信号之间的信号相关性，对第一音频信号以及环境音抵消处理后的第二音频信号进行语音增强处理，得到语音增强处理后待输出的音频信号。

具体地，步骤S1303中基于第一音频信号以及第二音频信号之间的信号相关性，对第一音频信号以及环境音抵消处理后的第二音频信号进行语音增强处理，具体可以包括步骤S13031(图中未示出)、步骤S13032(图中未示出)以及步骤S13033(图中未示出)，其中，

步骤S13031、对第一音频信号和环境音抵消处理后的第二音频信号分别进行噪声估计。

具体地，步骤S13031中对第一音频信号进行噪声估计，可以包括步骤Sf(图中未示出)-步骤Sg(图中未示出)，其中，

步骤Sf、确定第一音频信号以及环境音抵消处理后的第二音频信号对应的语音存在先验概率。

具体地，步骤Sf可以包括：步骤Sf1(图中未示出)以及步骤Sf2(图中未示出)，其中，

步骤Sf1、确定第一音频信号和环境音抵消处理后的第二音频信号间的信号频率幅度比。

步骤Sf2、基于信号频率幅度比，确定第一音频信号以及环境音抵消处理后的第二音频信号对应的语音存在先验概率。

步骤Sg、基于语音存在先验概率，对第一音频信号进行噪声估计。

具体地，步骤Sg可以包括步骤Sg1(图中未示出)以及步骤Sg2(图中未示出)，其中，

步骤Sg1、基于语音存在先验概率，确定对应的语音存在后验概率。

步骤Sg2、基于语音存在后验概率，对第一音频信号进行噪声估计。

步骤S13032、根据第一音频信号和环境音抵消处理后的第二音频信号对应的噪声估计结果，分别对第一音频信号和环境音抵消处理后的第二音频信号进行语音频谱估计。

步骤S13033、根据第一音频信号和环境音抵消处理后的第二音频信号对应的语音频谱估计结果，对第一音频信号和环境音抵消处理后的第二音频信号进行语音增强处理。

具体地，步骤S13033可以包括步骤S13033a(图中未示出)，其中，

步骤S13033a、根据第一音频信号和环境音抵消处理后的第二音频信号对应的噪声估计结果，以及第一音频信号和环境音抵消处理后的第二音频信号对应的语音频谱估计结果，对第一音频信号和环境音抵消处理后的第二音频信号进行语音增强处理。

具体地，步骤S13033a可以包括步骤Sh(图中未示出)-步骤Si(图中未示出)，其中，

步骤Sh、根据第一音频信号和环境音抵消处理后的第二音频信号对应的噪声估计结果，以及第一音频信号和环境音抵消处理后的第二音频信号对应的语音频谱估计结果，对第一音频信号和环境音抵消处理后的第二音频信号进行联合语音频谱估计。

具体地，步骤Sh可以包括步骤Sh1(图中未示出)-步骤Sh2(图中未示出)，其中，

步骤Sh1、根据均值为第一音频信号的语音频谱估计结果，方差为第一音频信号的噪声估计结果的第一高斯分布模型，以及均值为环境音抵消处理后的第二音频信号的语音频谱估计结果，方差为环境音抵消处理后的第二音频信号的噪声估计结果的第二高斯分布模型，确定第三高斯分布模型的均值。

步骤Sh2、根据第三高斯分布模型的均值，确定对第一音频信号和环境音抵消处理后的第二音频信号进行联合语音频谱估计的联合语音频谱估计结果。

步骤Si、根据得到的联合语音频谱估计结果，得到语音增强处理后待输出的音频信号。

对于本申请实施例，实施例三中包含了实施例一以及实施例二的技术方案，其中实施例三中各个步骤的具体实现方式详见上述实施例一以及实施例二，在本实施例中不再赘述。

本申请实施例提出的音频处理方法，允许耳机使用者在使用耳机进行通话时，开启环境音模式，让带着耳机通话的用户也可清晰听到周围环境声，避免戴耳机打电话时对周围环境音一无所知而带来现实中的危险，实现带耳机打电话也能对周围环境音保持敏锐，让使用耳机通话体验轻松自然。此外，基于空气传导和体传导得到的音频信号的相关性，进行联合增强，针对空气传导和体传导得到的音频信号的特点(体传导采集的音频包含噪声小，但带宽不足，空气传导采集的音频带宽高，但包含大量环境噪声)，取长补短，在降噪的同时保留语音的高可懂度，让通话时对方听到的声音干净自然，提高了语音的可懂度，即使使用者位于高噪声的环境中，耳机使用者传给远端的声音也具有高可懂度。

实施例四

为了进一步地解释实施例三中的技术方案，本申请实施例包含两个具体实例，分别介绍了两种不同的应用场景下，对采集到的音频信号进行语音增强的方式，包括第一个具体实例以及第二个具体实例，其中第一个具体实例介绍了在设备使用用户在与远端通话用户进行通信的应用场景下，将采集到的音频信号进行处理后发送至与其建立通信连接的远端通话用户；第二个具体实例介绍了在基于语音进行指令识别的应用场景下，将采集到设备使用用户的音频信号进行处理后，发出语音指令并控制执行该语音指令的过程，其中本实施例中的设备使用用户为使用设置有体传导音频采集设备以及空气传导音频采集设备两个音频采集设备的耳机的用户。

第一个具体实例

该具体实例介绍了在设备使用用户在与远端通话用户进行通信的应用场景下，将采集到的音频信号进行处理后发送至与其建立通信连接的远端通话用户，具体如图10b所示，其中，

步骤一、设备使用用户与远端通话用户建立通话连接；

步骤二、设备使用用户发出通话语音，例如，“喂？”；

步骤三、当耳机处于AS模式时，对采集到的音频信号进行语音激活检测，并在激活状态下，进行环境音抵消处理；在未激活状态下，更新设定的滤波器的参数信息；

步骤四、对环境音抵消后的音频信号进行语音增强处理(包括：时频转换、噪声信号估计、语音频谱估计、联合增强以及频时转换)；

步骤五、将语音增强处理后的音频信号发送至远端通话用户；

步骤六、接收远端通话用户的语音。

第二个具体实例

该具体实例介绍了在基于语音进行指令识别的应用场景下，将采集到设备使用用户的音频信号进行处理后，发出语音指令并控制执行该语音指令的过程，如图10c所示，其中，

步骤一、设备使用用户发出语音指令，例如“打开地图”；

步骤二、当耳机处于AS模式时，对采集到的音频信号进行语音激活检测，并在激活状态下，进行环境音抵消处理；在未激活状态下，更新设定的滤波器的参数信息；

步骤三、对通过环境音抵消后的音频信号进行语音增强处理(包括：时频转换、噪声信号估计、语音频谱估计、联合增强以及频时转换)；

步骤四、识别语音增强处理后的语音指令，并执行该指令，例如“打开地图APP”。

实施例五

本申请实施例提供了一种电子设备，适用于上述方法实施例，该电子设备可以为耳机设备，如图11所示，该电子设备1400包括：空气传导音频采集设备1401、体传导音频采集设备1402、音频信号播放设备1403、处理器1404及存储器1405；其中，

空气传导音频采集设备1401，用于采集通过空气传导的第一音频信号；

体传导音频采集设备1402，用于采集通过身体组织传导的第二音频信号；

音频信号播放设备1403，用于播放音频信号；

存储器1405，配置用于存储机器可读指令，指令在由处理器1404执行时，使得处理器1404执行上述方法。

图12示意性示出了根据本公开实施例的可用于实现本公开的电子设备的计算系统的框图。如图12所示，计算系统1500包括处理器1510、计算机可读存储介质1520、输出接口1530、以及输入接口1540。该计算系统1500可以执行上面参考图5、图6、图7a、图7c、图7e、图7f、图8b、图9b、图10a描述的方法，以实现对空气传导音频采集设备采集到的信号以及体传导音频采集设备采集到的信号进行语音增强处理，以得到效果更好的音频信号，进行语音传输或者语音识别。

具体地，处理器1510例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器1510还可以包括用于缓存用途的板载存储器。处理器1810可以是用于执行参考图5、图6、图7a、图7c、图7e、图7f、图8b、图9b、图10a描述的方法流程的不同动作的单一处理单元或者是多个处理单元。

计算机可读存储介质1520，例如可以是能够包含、存储、传送、传播或传输指令的任意介质。例如，可读存储介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。可读存储介质的具体示例包括：磁存储装置，如磁带或硬盘(HDD)；光存储装置，如光盘(CD-ROM)；存储器，如随机存取存储器(RAM)或闪存；和/或有线/无线通信链路。

计算机可读存储介质1520可以包括计算机程序1521，该计算机程序1521可以包括代码/计算机可执行指令，其在由处理器1510执行时使得处理器1510执行例如上面结合图5、图6、图7a、图7c、图7e、图7f、图8b、图9b、图10a所描述的方法流程及其任何变形。计算机程序1521可被配置为具有例如包括计算机程序模块的计算机程序代码。例如，在示例实施例中，计算机程序1521中的代码可以包括一个或多个程序模块，例如包括1521A、模块1521B、……。应当注意，模块的划分方式和个数并不是固定的，本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合，当这些程序模块组合被处理器1510执行时，使得处理器1510可以执行例如上面结合图5、图6、图7a、图7c、图7e、图7f、图8b、图9b、图10a所描述的方法流程及其任何变形。

根据本公开的实施例，处理器1510可以使用输出接口1530和输入接口1540来执行上面结合图5、图6、图7a、图7c、图7e、图7f、图8b、图9b、图10a所描述的方法流程及其任何变形。

本申请实施例提供了一种电子设备，本申请实施例通过获取空气传导音频采集设备采集的第一音频信号以及体传导音频采集设备采集到的第二音频信号，能够基于第一音频信号以及第二音频信号之间的信号相关性，对第一音频信号以及第二音频信号进行语音增强处理，得到语音增强处理后待输出的音频信号，即基于空气传导音频采集设备采集到的音频信号与体传导音频采集设备采集到的音频信号的相关性，进行空气传导音频采集设备采集到的音频信号以及体传导音频采集设备采集到的音频信号进行语音增强处理，从而可以得到效果更好的语音信号，以进行语音传输或者语音识别。

本申请实施例提供了另一种电子设备，本申请实施例获取空气传导音频采集设备采集的第一音频信号以及体传导音频采集设备采集到的第二音频信号，然后对第二音频信号进行环境音抵消处理，并基于第一音频信号以及环境音抵消处理后的第二音频信号，确定待输出的音频信号。即通过先对体传导音频采集设备采集到的音频信号进行环境音抵消处理，得到不包含环境音的语音信号，并基于将空气传导音频采集设备采集到的音频信号以及环境音抵消处理后的体传导音频采集设备采集到的音频信号得到待输出信号，以进行语音传输或者语音识别，从而可以得到效果更好的音频信号，以进行语音传输或者语音识别。

实施例六

本申请实施例提供了一种音频处理的装置，如图13所示，其中音频处理的装置1600包括：第一获取模块1601、语音增强处理模块1602，其中，

第一获取模块1601，用于获取空气传导音频采集设备采集的第一音频信号以及体传导音频采集设备采集到的第二音频信号。

语音增强处理模块1602，用于基于第一音频信号以及第二音频信号之间的信号相关性，对第一获取模块1601获取到的第一音频信号以及第二音频信号进行语音增强处理，得到语音增强处理后待输出的音频信号。

本申请实施例提供了一种音频处理的装置，本申请实施例通过获取空气传导音频采集设备采集的第一音频信号以及体传导音频采集设备采集到的第二音频信号，能够基于第一音频信号以及第二音频信号之间的信号相关性，对第一音频信号以及第二音频信号进行语音增强处理，得到语音增强处理后待输出的音频信号，即基于空气传导音频采集设备采集到的音频信号与体传导音频采集设备采集到的音频信号的相关性，进行空气传导音频采集设备采集到的音频信号以及体传导音频采集设备采集到的音频信号进行语音增强处理，从而可以得到效果更好的语音信号，以进行语音传输或者语音识别。

本申请实施例适用于上述方法实施例，在此不在赘述。

实施例七

本申请实施例提供了另一种音频处理的装置，如图14所示，音频处理的装置1700包括：第二获取模块1701、环境音抵消处理模块1702、确定模块1703，其中，

第二获取模块1701，用于获取空气传导音频采集设备采集的第一音频信号以及体传导音频采集设备采集到的第二音频信号。

环境音抵消处理模块1702，用于对第二获取模块1701获取到的第二音频信号进行环境音抵消处理。

确定模块1703，用于基于第二获取模块1701获取到的第一音频信号以及环境音抵消处理模块1702进行环境音抵消处理后的第二音频信号，确定待输出的音频信号。

本申请实施例提供了一种音频处理的装置，本申请实施例获取空气传导音频采集设备采集的第一音频信号以及体传导音频采集设备采集到的第二音频信号，然后对第二音频信号进行环境音抵消处理，并基于第一音频信号以及环境音抵消处理后的第二音频信号，确定待输出的音频信号。即通过先对体传导音频采集设备采集到的音频信号进行环境音抵消处理，得到不包含环境音的语音信号，并基于将空气传导音频采集设备采集到的音频信号以及环境音抵消处理后的体传导音频采集设备采集到的音频信号得到待输出信号，以进行语音传输或者语音识别，从而可以得到效果更好的音频信号，以进行语音传输或者语音识别。

本申请实施例适用于上述方法实施例，在此不再赘述。

本技术领域技术人员可以理解，本发明包括涉及用于执行本申请中操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造，或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序，这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如，计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中，计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随即存储器)、EPROM(Erasable Programmable Read-Only Memory，可擦写可编程只读存储器)、EEPROM(Electrically Erasable ProgrammableRead-Only Memory，电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是，可读介质包括由设备(例如，计算机)以能够读的形式存储或传输信息的任何介质。

本技术领域技术人员可以理解，可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解，可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现，从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。

本技术领域技术人员可以理解，本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种音频处理方法，其特征在于，包括：

基于所述第一音频信号以及所述第二音频信号之间的信号相关性，对所述第一音频信号以及所述第二音频信号进行语音增强处理，得到语音增强处理后待输出的音频信号。

2.根据权利要求1所述的方法，其特征在于，基于所述第一音频信号以及所述第二音频信号之间的信号相关性，对所述第一音频信号以及所述第二音频信号进行语音增强处理，包括：

对所述第一音频信号和第二音频信号分别进行噪声估计；

根据第一音频信号和第二音频信号对应的噪声估计结果，分别对第一音频信号和第二音频信号进行语音频谱估计；

根据第一音频信号和第二音频信号对应的语音频谱估计结果，对第一音频信号和第二音频信号进行语音增强处理。

3.根据权利要求2所述的方法，其特征在于，对所述第一音频信号进行噪声估计，包括：

确定所述第一音频信号对应的语音存在先验概率；

基于所述语音存在先验概率，对所述第一音频信号进行噪声估计。

4.根据权利要求3所述的方法，其特征在于，确定所述第一音频信号对应的语音存在先验概率，包括：

确定第一音频信号和第二音频信号间的信号频率幅度比；

基于所述信号频率幅度比，确定所述第一音频信号对应的语音存在先验概率。

5.根据权利要求3或4所述的方法，其特征在于，基于所述语音存在先验概率，对所述第一音频信号进行噪声估计，包括：

基于所述语音存在先验概率，确定对应的语音存在后验概率；

基于所述语音存在后验概率，对所述第一音频信号进行噪声估计。

6.根据权利要求2-5任一项所述的方法，其特征在于，根据第一音频信号和第二音频信号对应的语音频谱估计结果，对第一音频信号和第二音频信号进行语音增强处理，包括：

根据第一音频信号和第二音频信号对应的噪声估计结果，以及第一音频信号和第二音频信号对应的语音频谱估计结果，对第一音频信号和第二音频信号进行语音增强处理。

7.根据权利要求6所述的方法，其特征在于，根据第一音频信号和第二音频信号对应的噪声估计结果，以及第一音频信号和第二音频信号对应的语音频谱估计结果，对第一音频信号和第二音频信号进行语音增强处理，包括：

根据第一音频信号和第二音频信号对应的噪声估计结果，以及第一音频信号和第二音频信号对应的语音频谱估计结果，对所述第一音频信号和第二音频信号进行联合语音频谱估计；

根据得到的联合语音频谱估计结果，得到语音增强处理后待输出的音频信号。

8.根据权利要求7所述的方法，其特征在于，根据第一音频信号和第二音频信号对应的噪声估计结果，以及第一音频信号和第二音频信号对应的语音频谱估计结果，对所述第一音频信号和第二音频信号进行联合语音频谱估计，包括：

根据均值为第一音频信号的语音频谱估计结果，方差为第一音频信号的噪声估计结果的第一高斯分布模型，以及均值为第二音频信号的语音频谱估计结果，方差为第二音频信号的噪声估计结果的第二高斯分布模型，确定第三高斯分布模型的均值；

根据所述第三高斯分布模型的均值，确定对所述第一音频信号和第二音频信号进行联合语音频谱估计的联合语音频谱估计结果。

9.根据权利要求1-8任一项所述的方法，其特征在于，对所述第一音频信号以及所述第二音频信号进行语音增强处理之前，包括：

对所述第二音频信号进行环境音抵消处理，得到环境音抵消处理后的第二音频信号；

对所述第一音频信号以及所述第二音频信号进行语音增强处理，包括：

对所述第一音频信号以及环境音抵消处理后的第二音频信号进行语音增强处理。

10.根据权利要求9所述的方法，其特征在于，对所述第二音频信号进行环境音抵消处理，包括：

获取音频信号播放设备待播放的第三音频信号；

通过第三音频信号对第二音频信号进行环境音抵消处理，得到环境音抵消处理后的第二音频信号。

11.根据权利要求10所述的方法，其特征在于，通过第三音频信号对第二音频信号进行环境音抵消处理，包括：

检测当前是否处于语音激活状态，所述语音激活状态表征用户正在发出语音；

若检测到处于语音激活状态，则执行所述通过第三音频信号对第二音频信号进行环境音抵消处理的步骤。

12.根据权利要求11所述的方法，其特征在于，检测当前是否处于语音激活状态，包括：

根据所述第二音频信号和/或所述第三音频信号，确定音频信号播放设备信道和/或体传导音频采集设备信道是否处于语音激活状态；

若至少一个信道处于语音激活状态，则根据所述第二音频信号与所述第三音频信号之间的信号相关性，确定当前是否处于语音激活状态。

13.一种音频处理方法，其特征在于，包括：

对所述第二音频信号进行环境音抵消处理；

基于所述第一音频信号以及环境音抵消处理后的第二音频信号，确定待输出的音频信号。

14.根据权利要求13所述的方法，其特征在于，对所述第二音频信号进行环境音抵消处理，包括：

获取音频信号播放设备待播放的第三音频信号；

15.根据权利要求14所述的方法，其特征在于，通过第三音频信号对第二音频信号进行环境音抵消处理，包括：

对所述第三音频信号进行环境音抵消滤波处理，得到滤波处理后的信号；

从所述第二音频信号中去除所述滤波处理后的信号，得到环境音抵消处理后的第二音频信号。

16.根据权利要求15所述的方法，其特征在于，通过第三音频信号对第二音频信号进行环境音抵消处理，包括：

17.根据权利要求16所述的方法，其特征在于，所述方法还包括；

若检测到当前处于语音未激活状态，则更新所述环境音抵消滤波处理的参数信息。

18.根据权利要求17所述的方法，其特征在于，更新所述环境音抵消滤波处理的参数信息，包括：

基于所述第三音频信号，确定针对所述第二音频信号的预测信号；

根据所述第二音频信号以及所述针对第二音频信号的预测信号，更新所述环境音抵消滤波处理的参数信息。

19.根据权利要求16-18任一项所述的方法，其特征在于，检测当前是否处于语音激活状态，包括：

20.根据权利要求19所述的方法，其特征在于，根据所述第二音频信号与所述第三音频信号之间的信号相关性，确定当前是否处于语音激活状态，包括：

确定所述第二音频信号与所述第三音频信号之间的相关系数序列；

基于所述相关系数序列，确定当前是否处于语音激活状态。

21.根据权利要求20所述的方法，其特征在于，基于所述相关系数序列，确定当前是否处于语音激活状态，包括：

在所述相关系数序列中，确定主峰值；

若所述相关系数序列中，所述主峰值前的预设延迟范围内存在另一个峰值，则确定当前处于语音激活状态。

22.一种音频处理装置，其特征在于，包括：

语音增强处理模块，用于基于所述第一音频信号以及所述第二音频信号之间的信号相关性，对所述第一获取模块获取到的所述第一音频信号以及所述第二音频信号进行语音增强处理，得到语音增强处理后待输出的音频信号。

23.一种音频处理装置，其特征在于，包括：

环境音抵消处理模块，用于对所述第二获取模块获取到的第二音频信号进行环境音抵消处理；

确定模块，用于基于所述第二获取模块获取到的第一音频信号以及所述环境音抵消处理模块进行环境音抵消处理后的第二音频信号，确定待输出的音频信号。

24.一种电子设备，包括：空气传导音频采集设备、体传导音频采集设备、音频信号播放设备、处理器及存储器；其中，

所述空气传导音频采集设备，用于采集通过空气传导的第一音频信号；

所述体传导音频采集设备，用于采集通过身体组织传导的第二音频信号；

所述音频信号播放设备，用于播放音频信号；

所述存储器，配置用于存储机器可读指令，所述指令在由所述处理器执行时，使得所述处理器执行权利要求1～21中任一项所述的方法。

25.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现权利要求1～21任一项所述的方法。