CN109817236A

CN109817236A - 基于场景的音频降噪方法、装置、电子设备和存储介质

Info

Publication number: CN109817236A
Application number: CN201910104712.0A
Authority: CN
Inventors: 彭定桃
Original assignee: Anker Innovations Co Ltd
Current assignee: Anker Innovations Co Ltd
Priority date: 2019-02-01
Filing date: 2019-02-01
Publication date: 2019-05-28

Abstract

本发明提供一种基于场景的音频降噪方法、装置、电子设备和存储介质。该方法包括：获取针对当前场景下的通话进行拾音得到的音频信号；对音频信号进行有效信号提取处理，得到以环境音为有效信号的第一有效信号和以通话人声为有效信号的第二有效信号；基于第一有效信号进行场景识别，得到场景识别结果；以及基于场景识别结果选择与场景识别结果相对应的降噪算法对第二有效信号进行降噪处理，得到输出信号。根据本发明实施例的基于场景的音频降噪方法、装置和电子设备基于对通话当前所在场景的识别来有针对性地针对当前场景选择适用的音频降噪方案，从而能够实现各种场景下的通话都能达到最大程度和最优化的降噪效果，提高用户的通话体验。

Description

基于场景的音频降噪方法、装置、电子设备和存储介质

技术领域

本发明涉及音频降噪技术领域，更具体地涉及一种基于场景的音频降噪方法、装置、电子设备和存储介质。

背景技术

随着移动终端的使用越来越普遍，人们总是时刻随身携带移动终端，因此有机会在各种场景下使用移动终端。当人们使用移动终端与其他人进行通信通话时，通话质量可能因为环境噪音而受到影响。现有的音频降噪方法常采用一种通用的降噪方案来实施降噪以提高处于嘈杂环境中的用户的通话体验。

然而，如前所述，用户可能在各种场景下使用移动终端进行通话，而采用通用的降噪方案可能在各种场景下都起到一定的降噪效果，但场景的差异性必然导致用户无法在各种场景中都获得清晰的通话效果。此外，耳机作为一种可穿戴便携式设备，在人们通话中使用也极为普遍。然而，采用耳机来进行通话亦存在这样的问题。

发明内容

为了解决上述问题而提出了本发明。本发明提出了一种基于场景的音频降噪方案，其基于对通话当前所在场景的识别来有针对性地针对当前场景选择适用的音频降噪方案，不同的场景采用不同的降噪处理方案，从而能够实现各种场景下的通话都能达到最大程度和最优化的降噪效果，提高用户的通话体验。下面简要描述本发明提出的基于场景的音频降噪方案，更多细节将在后续结合附图在具体实施方式中加以描述。

根据本发明一方面，提供了一种基于场景的音频降噪方法，所述方法包括：获取针对当前场景下的通话进行拾音得到的音频信号；对所述音频信号进行有效信号提取处理，得到以环境音为有效信号的第一有效信号和以通话人声为有效信号的第二有效信号；基于所述第一有效信号进行场景识别，得到场景识别结果；以及基于所述场景识别结果选择与所述场景识别结果相对应的降噪算法对所述第二有效信号进行降噪处理，得到输出信号。

在本发明的一个实施例中，所述基于所述第一有效信号进行场景识别包括：利用训练好的神经网络基于所述第一有效信号对所述当前场景进行场景识别。

在本发明的一个实施例中，所述基于所述第一有效信号进行场景识别还包括：对所述第一有效信号进行频谱分析，以结合所述频谱分析的结果进行场景识别。

在本发明的一个实施例中，所述方法还包括：基于所述场景识别结果选择与所述场景识别结果相对应的调制参数，并将所述调制参数应用于所述降噪算法，以得到所述输出信号。

根据本发明另一方面，提供了一种基于场景的音频降噪装置，所述装置包括：获取模块，用于获取针对当前场景下的通话进行拾音得到的音频信号；有效信号提取模块，用于对所述获取模块获取的所述音频信号进行有效信号提取处理，得到以环境音为有效信号的第一有效信号和以通话人声为有效信号的第二有效信号；场景识别模块，用于基于所述有效信号提取模块提取得到的所述第一有效信号进行场景识别，得到场景识别结果；以及降噪模块，用于基于所述场景识别模块识别得到的所述场景识别结果选择与所述场景识别结果相对应的降噪算法对所述有效信号提取模块提取得到的所述第二有效信号进行降噪处理，得到输出信号。

在本发明的一个实施例中，所述场景识别模块进一步用于：利用训练好的神经网络基于所述第一有效信号对所述当前场景进行场景识别。

在本发明的一个实施例中，所述场景识别模块还用于：对所述第一有效信号进行频谱分析，以结合所述频谱分析的结果进行场景识别。

在本发明的一个实施例中，所述降噪模块还用于：基于所述场景识别结果选择与所述场景识别结果相对应的调制参数，并将所述调制参数应用于所述降噪算法，以得到所述输出信号。

根据本发明又一方面，提供了一种电子设备，所述电子设备包括上述任一项所述的基于场景的音频降噪装置。

根据本发明再一方面，提供了一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序在运行时执行上述任一项所述的基于场景的音频降噪方法。

根据本发明又一方面，提供了一种计算机程序，所述计算机程序被计算机或处理器运行时用于执行上述任一项所述的基于场景的音频降噪方法，所述计算机程序还用于实现上述任一项所述的基于场景的音频降噪装置中的各模块。

根据本发明实施例的基于场景的音频降噪方法、装置和电子设备基于对通话当前所在场景的识别来有针对性地针对当前场景选择适用的音频降噪方案，不同的场景采用不同的降噪处理方案，从而能够实现各种场景下的通话都能达到最大程度和最优化的降噪效果，提高用户的通话体验。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出用于实现根据本发明实施例的基于场景的音频降噪方法、装置和系统的示例电子设备的示意性框图；

图2示出根据本发明实施例的基于场景的音频降噪方法的示意性流程图；

图3示出根据本发明实施例的基于场景的音频降噪装置的示意性框图；以及

图4示出根据本发明实施例的基于场景的音频降噪系统的示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

首先，参照图1来描述用于实现本发明实施例的基于场景的音频降噪方法、装置和系统的示例电子设备100。

如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106以及输出装置108，这些组件通过总线系统110和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。此外，所述输入装置106也可以是任何接收信息的接口。

所述输出装置108可以向外部(例如用户)输出各种信息(例如图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。此外，所述输出装置108也可以是任何其他具备输出功能的设备。

示例性地，用于实现根据本发明实施例的基于场景的音频降噪方法、装置和系统的示例电子设备可以被实现为耳机，或诸如智能手机、平板电脑等终端。

下面，将参考图2描述根据本发明实施例的基于场景的音频降噪方法200。如图2所示，基于场景的音频降噪方法200可以包括如下步骤：

在步骤S210，获取针对当前场景下的通话进行拾音得到的音频信号。

在一个实施例中，在步骤S210中所获取的针对当前场景下的通话进行拾音得到的音频信号可以为拾音设备(例如麦克风等)针对用户在当前场景下用其通信设备与另一用户进行的通话所拾音得到的音频数据。例如，某一用户A当前正在咖啡厅用其手机与另一用户B进行通话，那么，可以由用户A的手机的麦克风来采集用户A在咖啡厅的场景下的通话语音，以得到步骤S210获取的音频信号；或者，用户A可以采用耳机连接手机来进行该通话，那么，也可以由用户A的耳机的麦克风来采集其在咖啡厅的场景下的通话语音，以得到步骤S210获取的音频信号。基于该音频信号，可经过根据本发明实施例的基于场景的音频降噪方法200的后续步骤的处理，以使得与用户A通话的用户B能够不受用户A所处环境的影响而具有一个清晰的通话效果。当然，在用户B这一端，同样可以采集用户B在其场景下的通话语音，以经根据本发明实施例的基于场景的音频降噪方法200的后续步骤的处理而使用户A也同样具有清晰的通话效果。

在另一个实施例中，在步骤S210中所获取的针对当前场景下的通话进行拾音得到的音频信号也可以是针对用户在当前场景下未采用通信设备与另一用户直接当面进行的通话或多个用户之间直接当面进行的通话所拾音得到的音频数据。例如，在侦听领域，可基于某场景下的侦听装置或者在被侦听者身上安置的侦听装置来采集被侦听者与其他人(例如一个或多个同伙)之间的通话语音，然后经根据本发明实施例的基于场景的音频降噪方法200获取得到在该场景下的音频信号，并经后续步骤的处理而使侦听者得到清晰的情报信息。

在其他实施例中，在步骤S210所获取的针对当前场景下的通话进行拾音得到的音频信号还可以为其他任何需要进行降噪处理以使得获得清晰的通话语音(或不仅仅是通话语音，而是任何音频)的情形，此处不作限制。

在步骤S220，对所述音频信号进行有效信号提取处理，得到以环境音为有效信号的第一有效信号和以通话人声为有效信号的第二有效信号。

在一个实施例中，基于在步骤S210所获取的针对当前场景下的通话进行拾音得到的音频信号，可对其进行有效信号提取以得到以环境音为有效信号的第一有效信号和以通话人声为有效信号的第二有效信号。例如，可将该音频信号分为两路进行处理，一路进行第一处理以得到所述第一有效信号；另一路进行第二处理以得到所述第二有效信号。其中，第一处理可以为对该音频信号中当前场景的环境音的提取，所得到的第一有效信号可以为仅包括环境音的信号，或尽量大部分包括环境音而少部分包括通话语音或其他声音的信号，因此称为以环境音为有效信号的第一有效信号。类似地，第二处理可以为对该音频信号中通话人声的提取，所得到的第二有效信号可以为仅包括通话人声的信号，或尽量大部分包括通话人声而少部分包括环境音或其他声音的信号，因此称为以通话人声为有效信号的第二有效信号。

在一个示例中，在步骤S210所获取的针对当前场景下的通话进行拾音得到的音频信号可以由同一个拾音设备来拾取。在另一个示例中，在步骤S210所获取的针对当前场景下的通话进行拾音得到的音频信号也可以由两个拾音设备来拾取，其中：第一拾音设备拾取的所述音频信号用于进行所述第一处理；第二拾音设备拾取的所述音频信号用于进行所述第二处理。

在一个示例中，在对所述音频信号进行所述第一处理之前，可以对所述音频信号进行信号整形，整形后得到的信号用于进行所述第一处理。类似地，在对所述音频信号进行所述第二处理之前，也可以对所述音频信号进行信号整形，整形后得到的信号用于进行所述第二处理。经整形得到的信号更有利于提高有效信号提取的准确度和效率。此外，在对所述音频信号进行所述第一处理和所述第二处理之前，也可对所述音频信号进行任何其他有利于进行有效信号提取的处理，此处不作限制。

在步骤230，基于所述第一有效信号进行场景识别，得到场景识别结果。

在一个实施例中，基于在步骤S220中所得到的以环境音为有效信号的第一有效信号，可以利用训练好的神经网络对当前场景进行场景识别。例如，可以对第一有效信号进行特征提取，并将提取到的特征输入到训练好的神经网络中，由该神经网络将提取的特征与场景特征模板进行比对，以确定当前场景是何种场景(例如咖啡厅场景、办公室场景、马路场景等)，从而得到当前场景的场景识别结果。此外，还可以对所述第一有效信号进行频谱分析，以结合所述频谱分析的结果进行场景识别，提高场景识别的准确度。

在其他实施例中，基于在步骤S220中所得到的以环境音为有效信号的第一有效信号，也可以采用任何其他合适的方法对当前场景进行场景识别，本发明对此不作限制。应该理解，本发明不受具体的场景识别方法的限制，无论是现有的场景识别方法还是将来开发的场景识别方法，都可以应用于根据本发明实施例的基于场景的音频降噪方法中，并且也应包括在本发明的保护范围内。

在步骤S240，基于所述场景识别结果选择与所述场景识别结果相对应的降噪算法对所述第二有效信号进行降噪处理，得到输出信号。

在一个实施例中，基于步骤S230所得到的场景识别结果，可以基于该场景识别结果选择适合的降噪算法对步骤S220得到的以通话人声为有效信号的第二有效信号进行降噪处理，得到输出信号。此处，适合的降噪算法即为与该场景识别结果相对应的场景降噪算法。例如，在步骤S230中得到的当前场景的识别结果为咖啡厅，则在步骤S240可选择对咖啡厅降噪效果最好的降噪算法(可以命名为咖啡厅降噪算法)来对以通话人声为有效信号的第二有效信号进行降噪处理。再如，在步骤S230中得到的当前场景的识别结果为马路，则在步骤S240可选择对马路降噪效果最好的降噪算法(可以命名为马路降噪算法)来对以通话人声为有效信号的第二有效信号进行降噪处理。进一步地，还可以基于所述场景识别结果选择与所述场景识别结果相对应的调制参数，并将所述调制参数应用于前述的所选择的降噪算法，得到所述输出信号。基于所述输出信号，可得到最优化降噪的语音通话效果。

总地来说，根据本发明实施例的基于场景的音频降噪方法基于场景的不同而选择相应的降噪算法和/或调制参数，使得针对任何场景均有其特定的降噪算法和/或调制参数，相对于对所有场景通用的一套降噪方案的方法，根据本发明实施例的基于场景的音频降噪方法显然可以得到最优化的降噪效果。

基于上面的描述，根据本发明实施例的基于场景的音频降噪方法基于对通话当前所在场景的识别来有针对性地针对当前场景选择适用的音频降噪方案，从而能够实现各种场景下的通话都能达到最大程度和最优化的降噪效果，提高用户的通话体验。

以上示例性地描述了根据本发明实施例的基于场景的音频降噪方法。示例性地，根据本发明实施例的基于场景的音频降噪方法可以在具有存储器和处理器的设备、装置或者系统中实现。

此外，根据本发明实施例的基于场景的音频降噪方法可以方便地部署到智能手机、平板电脑、个人计算机、耳机、音箱等移动设备上。替代地，根据本发明实施例的基于场景的音频降噪方法还可以部署在服务器端(或云端)。替代地，根据本发明实施例的基于场景的音频降噪方法还可以分布地部署在服务器端(或云端)和个人终端处。

下面结合图3描述本发明另一方面提供的基于场景的音频降噪装置。图3示出了根据本发明实施例的基于场景的音频降噪装置300的示意性框图。

如图3所示，根据本发明实施例的基于场景的音频降噪装置300包括获取模块310、有效信号提取模块320、场景识别模块330和降噪模块340。其中，获取模块310用于获取针对当前场景下的通话进行拾音得到的音频信号。有效信号提取模块320用于对所述获取模块310获取的所述音频信号进行有效信号提取处理，得到以环境音为有效信号的第一有效信号和以通话人声为有效信号的第二有效信号。场景识别模块330用于基于所述有效信号提取模块320提取得到的所述第一有效信号进行场景识别，得到场景识别结果。降噪模块340用于基于所述场景识别模块330识别得到的所述场景识别结果选择与所述场景识别结果相对应的降噪算法对所述有效信号提取模块320提取得到的所述第二有效信号进行降噪处理，得到输出信号。所述各个模块可分别执行上文中结合图2描述的基于场景的音频降噪方法的各个步骤/功能。以下仅对基于场景的音频降噪装置300的各模块的主要功能进行描述，而省略以上已经描述过的细节内容。

在一个实施例中，获取模块310所获取的针对当前场景下的通话进行拾音得到的音频信号可以为拾音设备(例如麦克风等)针对用户在当前场景下用其通信设备与另一用户进行的通话所拾音得到的音频数据。例如，某一用户A当前正在咖啡厅用其手机与另一用户B进行通话，那么，可以由用户A的手机的麦克风来采集用户A在咖啡厅的场景下的通话语音，以由获取模块310获取得到音频信号；或者，用户A可以采用耳机连接手机来进行该通话，那么，也可以由用户A的耳机的麦克风来采集其在咖啡厅的场景下的通话语音，以由获取模块310获取得到音频信号。基于该音频信号，可经过根据本发明实施例的基于场景的音频降噪装置300的后续处理，以使得与用户A通话的用户B能够不受用户A所处环境的影响而具有一个清晰的通话效果。当然，在用户B这一端，同样可以采集用户B在其场景下的通话语音，以经根据本发明实施例的基于场景的音频降噪装置300的后续处理而使用户A也同样具有清晰的通话效果。

在另一个实施例中，在获取模块310所获取的针对当前场景下的通话进行拾音得到的音频信号也可以是针对用户在当前场景下未采用通信设备与另一用户直接当面进行的通话或多个用户之间直接当面进行的通话所拾音得到的音频数据。例如，在侦听领域，可基于某场景下的侦听装置或者在被侦听者身上安置的侦听装置来采集被侦听者与其他人(例如一个或多个同伙)之间的通话语音，然后经根据本发明实施例的基于场景的音频降噪装置300的获取模块310获取得到在该场景下的音频信号，并经装置300其余模块的后续处理而使侦听者得到清晰的情报信息。

在其他实施例中，获取模块310所获取的针对当前场景下的通话进行拾音得到的音频信号还可以为其他任何需要进行降噪处理以使得获得清晰的通话语音(或不仅仅是通话语音，而是任何音频)的情形，此处不作限制。

在一个实施例中，基于获取模块310所获取的针对当前场景下的通话进行拾音得到的音频信号，有效信号提取模块320可对其进行有效信号提取以得到以环境音为有效信号的第一有效信号和以通话人声为有效信号的第二有效信号。例如，有效信号提取模块320可进一步包括第一处理模块(未在图3中示出)和第二处理模块(未在图3中示出)，其中：所述第一处理模块可以用于对获取模块310获取的所述音频信号进行第一处理以得到所述第一有效信号；所述第二处理模块可以用于对获取模块310获取的所述音频信号进行第二处理以得到所述第二有效信号。其中，所述第一处理模块进行的第一处理可以为对该音频信号中当前场景的环境音的提取，所得到的第一有效信号可以为仅包括环境音的信号，或尽量大部分包括环境音而少部分包括通话语音或其他声音的信号，因此称为以环境音为有效信号的第一有效信号。类似地，所述第二处理模块进行的第二处理可以为对该音频信号中通话人声的提取，所得到的第二有效信号可以为仅包括通话人声的信号，或尽量大部分包括通话人声而少部分包括环境音或其他声音的信号，因此称为以通话人声为有效信号的第二有效信号。

在一个示例中，获取模块310所获取的针对当前场景下的通话进行拾音得到的音频信号可以由同一个拾音设备来拾取。在另一个示例中，获取模块310所获取的针对当前场景下的通话进行拾音得到的音频信号也可以由两个拾音设备来拾取，其中：第一拾音设备拾取的所述音频信号可以用于由所述第一处理模块进行所述第一处理；第二拾音设备拾取的所述音频信号可以用于由所述第二处理模块进行所述第二处理。

在一个示例中，所述第一处理模块还可以用于：在对所述音频信号进行所述第一处理之前，对所述音频信号进行信号整形，整形后得到的信号用于进行所述第一处理。类似地，所述第二处理模块还可以用于：在对所述音频信号进行所述第二处理之前，对所述音频信号进行信号整形，整形后得到的信号用于进行所述第二处理。经整形得到的信号更有利于提高有效信号提取的准确度和效率。此外，在对所述音频信号进行所述第一处理和所述第二处理之前，所述第一处理模块和所述第二处理模块也可分别对所述音频信号进行任何其他有利于进行有效信号提取的处理，此处不作限制。

在一个实施例中，基于有效信号提取模块320所得到的以环境音为有效信号的第一有效信号，场景识别模块330可以利用训练好的神经网络对当前场景进行场景识别。例如，场景识别模块330可以对第一有效信号进行特征提取，并将提取到的特征输入到训练好的神经网络中，由该神经网络将提取的特征与场景特征模板进行比对，以确定当前场景是何种场景(例如咖啡厅场景、办公室场景、马路场景等)，从而得到当前场景的场景识别结果。此外，场景识别模块330还可以对所述第一有效信号进行频谱分析，以结合所述频谱分析的结果进行场景识别，提高场景识别的准确度。

在其他实施例中，基于有效信号提取模块320所得到的以环境音为有效信号的第一有效信号，场景识别模块330也可以采用任何其他合适的方法对当前场景进行场景识别，本发明对此不作限制。

在一个实施例中，基于场景识别模块330所得到的场景识别结果，降噪模块340可以基于该场景识别结果选择适合的降噪算法对有效信号提取模块320得到的以通话人声为有效信号的第二有效信号进行降噪处理，得到输出信号。此处，适合的降噪算法即为与该场景识别结果相对应的场景降噪算法。例如，场景识别模块330得到的当前场景的识别结果为咖啡厅，则降噪模块340可选择对咖啡厅降噪效果最好的降噪算法(可以命名为咖啡厅降噪算法)来对以通话人声为有效信号的第二有效信号进行降噪处理。再如，场景识别模块330得到的当前场景的识别结果为马路，则降噪模块340可选择对马路降噪效果最好的降噪算法(可以命名为马路降噪算法)来对以通话人声为有效信号的第二有效信号进行降噪处理。进一步地，降噪模块340还可以基于所述场景识别结果选择与所述场景识别结果相对应的调制参数，并将所述调制参数应用于前述的所选择的降噪算法，得到所述输出信号。基于所述输出信号，可得到最优化降噪的语音通话效果。

总地来说，根据本发明实施例的基于场景的音频降噪装置基于场景的不同而选择相应的降噪算法和/或调制参数，使得针对任何场景均有其特定的降噪算法和/或调制参数，相对于对所有场景通用的一套降噪方案的方法，根据本发明实施例的基于场景的音频降噪装置显然可以得到最优化的降噪效果。

基于上面的描述，根据本发明实施例的基于场景的音频降噪装置基于对通话当前所在场景的识别来有针对性地针对当前场景选择适用的音频降噪方案，从而能够实现各种场景下的通话都能达到最大程度和最优化的降噪效果，提高用户的通话体验。

图4示出了根据本发明实施例的基于场景的音频降噪系统400的示意性框图。基于场景的音频降噪系统400包括存储装置410以及处理器420。

其中，存储装置410存储用于实现根据本发明实施例的基于场景的音频降噪方法中的相应步骤的程序。处理器420用于运行存储装置410中存储的程序，以执行根据本发明实施例的基于场景的音频降噪方法的相应步骤，并且用于实现根据本发明实施例的基于场景的音频降噪装置中的相应模块。

在一个实施例中，在所述程序被处理器420运行时使得基于场景的音频降噪系统400执行以下步骤：获取针对当前场景下的通话进行拾音得到的音频信号；对所述音频信号进行有效信号提取处理，得到以环境音为有效信号的第一有效信号和以通话人声为有效信号的第二有效信号；基于所述第一有效信号进行场景识别，得到场景识别结果；以及基于所述场景识别结果选择与所述场景识别结果相对应的降噪算法对所述第二有效信号进行降噪处理，得到输出信号。

在本发明的一个实施例中，在所述程序被处理器420运行时使得基于场景的音频降噪系统400执行的所述对所述音频信号进行有效信号提取处理包括：对所述音频信号进行第一处理以得到所述第一有效信号；以及对所述音频信号进行第二处理以得到所述第二有效信号。

在本发明的一个实施例中，所述音频信号经由两个拾音设备来拾取，其中：第一拾音设备拾取的所述音频信号用于进行所述第一处理；第二拾音设备拾取的所述音频信号用于进行所述第二处理。

在本发明的一个实施例中，在所述程序被处理器420运行时还使得基于场景的音频降噪系统400执行以下步骤：在对所述音频信号进行所述第一处理之前，对所述音频信号进行信号整形，整形后得到的信号用于进行所述第一处理。

在本发明的一个实施例中，在所述程序被处理器420运行时使得基于场景的音频降噪系统400执行的所述基于所述第一有效信号进行场景识别包括：利用训练好的神经网络基于所述第一有效信号对所述当前场景进行场景识别。

在本发明的一个实施例中，在所述程序被处理器420运行时使得基于场景的音频降噪系统400执行的所述基于所述第一有效信号进行场景识别还包括：对所述第一有效信号进行频谱分析，以结合所述频谱分析的结果进行场景识别。

在本发明的一个实施例中，在所述程序被处理器420运行时使得基于场景的音频降噪系统400执行以下步骤：基于所述场景识别结果选择与所述场景识别结果相对应的调制参数，并将所述调制参数应用于所述降噪算法，以得到所述输出信号。

此外，根据本发明实施例，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本发明实施例的基于场景的音频降噪方法的相应步骤，并且用于实现根据本发明实施例的基于场景的音频降噪装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合。

在一个实施例中，所述计算机程序指令在被计算机运行时可以实现根据本发明实施例的基于场景的音频降噪装置的各个功能模块，并且/或者可以执行根据本发明实施例的基于场景的音频降噪方法。

在一个实施例中，所述计算机程序指令在被计算机或处理器运行时使计算机或处理器执行以下步骤：获取针对当前场景下的通话进行拾音得到的音频信号；对所述音频信号进行有效信号提取处理，得到以环境音为有效信号的第一有效信号和以通话人声为有效信号的第二有效信号；基于所述第一有效信号进行场景识别，得到场景识别结果；以及基于所述场景识别结果选择与所述场景识别结果相对应的降噪算法对所述第二有效信号进行降噪处理，得到输出信号。

在本发明的一个实施例中，所述计算机程序指令在被计算机或处理器运行时使计算机或处理器执行的所述对所述音频信号进行有效信号提取处理包括：对所述音频信号进行第一处理以得到所述第一有效信号；以及对所述音频信号进行第二处理以得到所述第二有效信号。

在本发明的一个实施例中，所述计算机程序指令在被计算机或处理器运行时还使计算机或处理器执行以下步骤：在对所述音频信号进行所述第一处理之前，对所述音频信号进行信号整形，整形后得到的信号用于进行所述第一处理。

在本发明的一个实施例中，所述计算机程序指令在被计算机或处理器运行时使计算机或处理器执行的所述基于所述第一有效信号进行场景识别包括：利用训练好的神经网络基于所述第一有效信号对所述当前场景进行场景识别。

在本发明的一个实施例中，所述计算机程序指令在被计算机或处理器运行时使计算机或处理器执行的所述基于所述第一有效信号进行场景识别还包括：对所述第一有效信号进行频谱分析，以结合所述频谱分析的结果进行场景识别。

在本发明的一个实施例中，所述计算机程序指令在被计算机或处理器运行时还使计算机或处理器执行以下步骤：基于所述场景识别结果选择与所述场景识别结果相对应的调制参数，并将所述调制参数应用于所述降噪算法，以得到所述输出信号。

根据本发明实施例的基于场景的音频降噪装置中的各模块可以通过根据本发明实施例的基于场景的音频降噪的电子设备的处理器运行在存储器中存储的计算机程序指令来实现，或者可以在根据本发明实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机运行时实现。

此外，根据本发明实施例，还提供了一种计算机程序，该计算机程序可以存储在云端或本地的存储介质上。在该计算机程序被计算机或处理器运行时用于执行本发明实施例的基于场景的音频降噪方法的相应步骤，并且用于实现根据本发明实施例的基于场景的音频降噪装置中的相应模块。

此外，根据本发明实施例，还提供了一种电子设备，该电子设备可以包括上文中描述的根据本发明实施例的基于场景的音频降噪装置或根据本发明实施例的基于场景的音频降噪系统。本领域技术人员可以基于上文描述的根据本发明实施例的基于场景的音频降噪装置和根据本发明实施例的基于场景的音频降噪系统来理解根据本发明实施例的电子设备的结构和具体操作，为了简洁，此处不再赘述。

示例性地，该电子设备可以包括声电转换器，例如包括麦克风，从而用于对当前场景下的通话进行拾音而得到音频信号。在一个示例中，该电子设备可以为手机。包括根据本发明实施例的基于场景的音频降噪装置/系统的手机可以使得手机的用户在通话时不论处在何种场景，均能使得与该用户通话的用户获得清晰的通话效果。

在另一个示例中，该电子设备可以为耳机，例如具有麦克风的耳机。包括根据本发明实施例的基于场景的音频降噪装置/系统的耳机可以代替手机的听筒在手机通话中(或其他可能的场景中)使用，当用户开始使用耳机通话时，耳机可以基于所包括的根据本发明实施例的基于场景的音频降噪装置/系统实施根据本发明实施例的基于场景的音频降噪方法，使得用户在采用耳机通话时不论处在何种场景，均能使得与该用户通话的用户获得清晰的通话效果。

基于上面的描述，根据本发明实施例的基于场景的音频降噪方法、装置、系统和电子设备基于对通话当前所在场景的识别来有针对性地针对当前场景选择适用的音频降噪方案，从而能够实现各种场景下的通话都能达到最大程度和最优化的降噪效果，提高用户的通话体验。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于场景的音频降噪方法，其特征在于，所述方法包括：

获取针对当前场景下的通话进行拾音得到的音频信号；

对所述音频信号进行有效信号提取处理，得到以环境音为有效信号的第一有效信号和以通话人声为有效信号的第二有效信号；

基于所述第一有效信号进行场景识别，得到场景识别结果；以及

基于所述场景识别结果选择与所述场景识别结果相对应的降噪算法对所述第二有效信号进行降噪处理，得到输出信号。

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一有效信号进行场景识别包括：利用训练好的神经网络基于所述第一有效信号对所述当前场景进行场景识别。

3.根据权利要求2所述的方法，其特征在于，所述基于所述第一有效信号进行场景识别还包括：对所述第一有效信号进行频谱分析，以结合所述频谱分析的结果进行场景识别。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于所述场景识别结果选择与所述场景识别结果相对应的调制参数，并将所述调制参数应用于所述降噪算法，以得到所述输出信号。

5.一种基于场景的音频降噪装置，其特征在于，所述装置包括：

获取模块，用于获取针对当前场景下的通话进行拾音得到的音频信号；

有效信号提取模块，用于对所述获取模块获取的所述音频信号进行有效信号提取处理，得到以环境音为有效信号的第一有效信号和以通话人声为有效信号的第二有效信号；

场景识别模块，用于基于所述有效信号提取模块提取得到的所述第一有效信号进行场景识别，得到场景识别结果；以及

降噪模块，用于基于所述场景识别模块识别得到的所述场景识别结果选择与所述场景识别结果相对应的降噪算法对所述有效信号提取模块提取得到的所述第二有效信号进行降噪处理，得到输出信号。

6.根据权利要求5所述的装置，其特征在于，所述场景识别模块进一步用于：利用训练好的神经网络基于所述第一有效信号对所述当前场景进行场景识别。

7.根据权利要求6所述的装置，其特征在于，所述场景识别模块还用于：对所述第一有效信号进行频谱分析，以结合所述频谱分析的结果进行场景识别。

8.根据权利要求5所述的装置，其特征在于，所述降噪模块还用于：基于所述场景识别结果选择与所述场景识别结果相对应的调制参数，并将所述调制参数应用于所述降噪算法，以得到所述输出信号。

9.一种电子设备，其特征在于，所述电子设备包括如权利要求5-8中的任一项所述的基于场景的音频降噪装置。

10.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序在运行时执行如权利要求1-4中的任一项所述的基于场景的音频降噪方法。