CN112767908A

CN112767908A - 基于关键声音识别的主动降噪方法、电子设备及存储介质

Info

Publication number: CN112767908A
Application number: CN202011592903.5A
Authority: CN
Inventors: 秦宇; 喻浩文
Original assignee: Anker Innovations Co Ltd
Current assignee: Anker Innovations Co Ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-05-07
Anticipated expiration: 2040-12-29
Also published as: CN112767908B

Abstract

一种基于关键声音识别的主动降噪方法、电子设备及存储介质，所述方法包括：获取环境音频信号；利用训练好的声音识别模型识别所述环境音频信号中的关键声音，并输出所述关键声音所属的声音类别；配置与所述声音类别相对应的预先设置好的主动降噪模式，以对所述环境音频信号进行主动降噪处理。本发明能够识别环境音频信号中的特定关键声音，并输出声音类别，以及根据声音类别选择主动降噪模式，从而根据关键声音有针对性地进行主动降噪，在满足用户需求、提高用户体验的同时，还能够避免增加额外的硬件，有利于电子设备的小型化、轻型化设计。

Description

基于关键声音识别的主动降噪方法、电子设备及存储介质

技术领域

本发明涉及声音技术领域，更具体地涉及一种基于关键声音识别的主动降噪方法、电子设备及存储介质。

背景技术

环境噪声是影响耳机佩戴者音质感受的一个重要因素。在高噪声环境中佩戴耳机听音频或进行语音通信，会导致使用者的听音的质量下降，更严重的会使使用者听力受损。因此，耳机降噪受到耳机设计者和用户的关注，目前耳机降噪有两种方法：被动降噪和主动降噪。被动降噪一般是通过耳机的结构，材料设计实现耳机与外界的物理信号隔离，如入耳式这类的设计。而主动降噪是采取模拟或数字信号处理的方法，对外界噪声进行抵消，一般是利用信号反向叠加消除原理，用一个麦克接收环境噪声，计算环境噪声的反向信号，利用一个扬声器发射环境噪声的反向信号，来抵消外界噪声。

部分用户在佩戴主动降噪耳机时，可能会希望听到某些关键声音，例如自己的名字，特定的警报词语，以及其他需要引起注意的声音。此时用户希望在出现这类关键声音时主动降噪能够停止工作，或者不对这些关键声音进行降噪处理，以免遗失重要信息或者无法对危险情况及时应对，然而目前主动降噪耳机不具备这种关键声音的识别能力。

发明内容

考虑到上述问题而提出了本发明。本发明提供了一种基于关键声音识别的主动降噪方案，其通过识别关键声音来有针对性地选择适用的主动降噪模式，从而能够实现针对各种关键声音的主动降噪效果的最优化，提高了用户体验。下面简要描述本发明提出的基于关键声音识别的主动降噪方案，更多细节将在后续结合附图在具体实施方式中加以描述。

根据本发明实施例一方面，提供一种基于关键声音识别的主动降噪方法，所述方法包括：

获取环境音频信号；

利用训练好的声音识别模型识别所述环境音频信号中的关键声音，并输出所述关键声音所属的声音类别；

配置与所述声音类别相对应的预先设置好的主动降噪模式，以对所述环境音频信号进行主动降噪处理。

在一个实施例中，所述配置与所述声音类别相对应的预先设置好的主动降噪模式包括：

配置预先设置好的滤波器参数，和/或配置预先设置好的主动降噪策略。

在一个实施例中，所述预先设置好的主动降噪策略包括暂时停止主动降噪处理，和/或，对所述关键声音以外的环境噪声进行主动降噪处理。

在一个实施例中，所述对所述环境音频信号进行主动降噪处理包括：

识别所述关键声音的音质特性，对所述环境音频信号中的具有所述音质特性的声音进行声音增强处理，或对所述环境音频信号中的不具有所述音质特性的声音进行主动降噪处理，以提升所述关键声音与环境噪声的信噪比。

在一个实施例中，所述音质特性包括声音的频率、音色和声纹中的至少一个。

在一个实施例中，在所述利用训练好的声音识别模型识别所述环境音频信号所对应的声音类别之前，还包括：

对所述环境音频信号进行声音增强处理，以提升所述关键声音与环境噪声的信噪比。

在一个实施例中，所述声音增强处理包括：基于麦克风阵列波束的声音增强处理和/或基于神经网络的声音增强处理。

在一个实施例中，所述方法还包括识别所述环境音频信号所对应的场景类别，并在不同的场景类别下对不同的声音进行所述声音增强处理。

在一个实施例中，所述方法还包括识别所述环境音频信号所对应的场景类别，并根据所述场景类别调整所述主动降噪模式的主动降噪参数。

在一个实施例中，每隔预定时间基于所述声音类别配置一次所述主动降噪模式。

在一个实施例中，所述声音识别模型的训练包括：

获取用户输入的关键声音；

以所述用户输入的关键声音作为训练样本来训练所述声音识别模型。

在一个实施例中，所述以所述用户输入的关键声音作为训练样本来训练所述声音识别模型包括：

对用户输入的关键声音进行特征提取，以得到所述用户输入的关键声音的音频特征；

以所述音频特征作为输入、所述用户输入的关键声音的所对应的声音类别作为输出来训练所述声音识别模型。

根据本发明实施例另一方面，提供了一种电子设备，所述电子设备包括存储装置和处理器，所述存储装置上存储有由所述处理器运行的计算机程序，所述计算机程序在被所述处理器运行时执行本发明的基于关键声音识别的主动降噪方法。

根据本发明另一方面，提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本发明的基于关键声音识别的主动降噪方法的相应步骤。

本发明的基于关键声音识别的主动降噪方法、电子设备和存储介质能够识别环境音频信号中的特定关键声音，并输出声音类别，以及根据声音类别选择主动降噪模式，从而根据关键声音有针对性地进行主动降噪，在满足用户需求、提高用户体验的同时，还能够避免增加额外的硬件，有利于电子设备的小型化、轻型化设计。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出了根据本发明实施例的主动降噪方法的示意性流程图；

图2是根据本发明实施例的基于关键声音识别的主动降噪方法的示意性原理图；

图3是根据本发明实施例的一种前馈式降噪耳机的示意性原理图；

图4是根据本发明实施例的一种反馈式降噪耳机的示意性原理图；

图5是根据本发明的实施例的一种电子设备的示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

在下文的描述中，给出了大量具体的细节以便提供对本发明更为彻底的理解。然而，对于本领域技术人员而言显而易见的是，本发明可以无需一个或多个这些细节而得以实施。在其他的例子中，为了避免与本发明发生混淆，对于本领域公知的一些技术特征未进行描述。

应当理解的是，本发明能够以不同形式实施，而不应当解释为局限于这里提出的实施例。相反地，提供这些实施例将使公开彻底和完全，并且将本发明的范围完全地传递给本领域技术人员。

在此使用的术语的目的仅在于描述具体实施例并且不作为本发明的限制。在此使用时，单数形式的“一”、“一个”和“所述/该”也意图包括复数形式，除非上下文清楚指出另外的方式。还应明白术语“组成”和/或“包括”，当在该说明书中使用时，确定所述特征、整数、步骤、操作、元件和/或部件的存在，但不排除一个或更多其它的特征、整数、步骤、操作、元件、部件和/或组的存在或添加。在此使用时，术语“和/或”包括相关所列项目的任何及所有组合。

为了彻底理解本发明，将在下列的描述中提出详细的结构，以便阐释本发明提出的技术方案。本发明的可选实施例详细描述如下，然而除了这些详细描述外，本发明还可以具有其他实施方式。

如上所述，目前的主动降噪技术通常利用ANC控制器(ANC Controller)产生环境噪声的反相位信号，以抵消噪声信号，但是实际使用中，用户可能会希望听到某些关键声音，例如自己的名字，特定的警报词语，以及其他需要引起注意的声音。此时用户希望在出现这类关键声音时主动降噪能够停止工作，或者不对这些关键声音进行降噪处理，以免遗失重要信息或者无法对危险情况及时应对。

然而，如果在耳机上添加了降噪等级切换按键，由用户根据需求设置不同的降噪效果，则需要用户手动调节，用户体验不好；而若在耳机的机身上增加传感器，通过感应外界环境来选择降噪模式，则由于新增了传感器导致机身体积增大，成本提高；并且仅靠传感器很难准确识别外界环境，降噪参数配置无法适配真实场景，导致无法达到预期降噪效果。

针对主动降噪中存在的上述问题，本发明提供一种主动降噪方法、电子设备及存储介质，其可以基于原始设备从信号处理方法上入手，在控制成本的情况下解决主动降噪设备的关键声音识别问题。其中，所述方法包括：获取环境音频信号；利用训练好的声音识别模型识别所述环境音频信号中的关键声音，并输出所述关键声音所属的声音类别；配置与所述声音类别相对应的预先设置好的主动降噪模式，以对所述环境音频信号进行主动降噪处理。

本发明的主动降噪方法、电子设备及存储介质能够识别环境音频信号中的特定关键声音，并输出声音类别，以及根据声音类别选择主动降噪模式，从而根据关键声音有针对性地进行主动降噪，在满足用户需求、提高用户体验的同时，还能够避免增加额外的硬件，有利于电子设备的小型化、轻型化设计。

下面参考图1-图4对本发明的基于关键声音识别的主动降噪方法100进行详细解释和说明。在不冲突的前提下，本申请的各个实施例的特征可以相互结合。

如图1所示，基于关键声音识别的主动降噪方法100可以包括如下步骤：

在步骤S110，获取环境音频信号；

在步骤S120，利用训练好的声音识别模型识别所述环境音频信号中的关键声音，并输出所述关键声音所属的声音类别；以及

在步骤S130，配置与所述声音类别相对应的预先设置好的主动降噪模式，以对所述环境音频信号进行主动降噪处理。

示例性地，根据本发明实施例的主动降噪方法可以在具有存储器和处理器的主动降噪耳机中实现。

根据本发明实施例的主动降噪方法，能够根据关键声音的声音类别选择降噪模式，从而基于关键声音有针对性地进行主动降噪。

在一个实施例中，在步骤S110，可以基于拾音器实施采集所述环境音频信号，所述环境音频信号包括当前场景下的外界声音。当方法100应用于耳机设备时，所述拾音器可以为耳机设备的麦克风。麦克风接收到声音信号之后，还包括在输入处理器前或输入处理器之后对所述信号进行处理，使其成为降噪算法可操作的信号数据。

在一个实施例中，所述耳机设备为前馈式主动降噪耳机，则该麦克风为前馈式麦克风，设置于耳机设备的外侧，其采集到的环境音频信号为耳机设备外侧的噪声。由于此时麦克风接收的是纯噪声，并不接收扬声器发出的声音，因而是开环控制，不会引起任何的闭环振荡和啸叫，可以提高降噪效果。所述前馈式主动降噪耳机的原理图可以参照图3。

在另一个实施例中，所述耳机设备为反馈式主动降噪耳机，则该麦克风为反馈式麦克风，设置于耳机设备内侧、贴近人耳的位置，其采集到的环境音频信号为噪声与扬声器输出的音频叠加后的信号。由于此时麦克风更贴近人耳，因此所采集到的噪音更接近于人耳所能听到的噪音，并且，由于反馈式麦克风设置在耳机设备内侧，因而不会受到风声的干扰。所述反馈式主动降噪耳机的原理图可以参照图4。

作为示例，当所述麦克风为反馈式麦克风时，由于麦克风设置于耳机设备内侧，其采集到的噪声信号为实际环境噪声信号经过若干声学通道后传输到耳机内侧的噪声信号，因此可以对其进行处理，以获取实际的环境噪声。

此外，所述耳机设备还可以为复合式(即前馈和反馈结合式)主动降噪耳机，其结合了前馈式和反馈式的结构，麦克风同时设置在耳机设备的外侧和内侧。将前馈式和反馈式降噪相结合可以增强降噪的灵活性，从而比使用单一结构获得更好的降噪效果。

在一个实施例中，在获取所述环境音频信号之后，所述方法还包括：对所述环境音频信号进行声音增强处理，以提升关键声音和环境噪声的信噪比。例如，可以增强所采集到的环境音频信号中的所有语音信号，以便于后续从所述语音信号中提取关键声音。

进一步地，所述声音增强处理可以包括：通过降低环境噪声来提升所述关键声音和环境噪声的信噪比，或通过增强关键声音来提升所述关键声音和环境噪声的信噪比，或二者的结合。所述声音增强处理可以提高远场场景拾取关键声音的准确率。

其中，所述声音增强处理的方式包括而不限于采用麦克风阵列波束进行声音增强，或者采用基于多层神经网络的声音增强降噪技术进行声音增强。

示例性地，当采用麦克风阵列波束进行声音增强时，可通过传统时延差算法或超分辨方位估计算法获取语音声源方位之后，利用空间排列的多个麦克风形成一个指向目标说话人的波束来增强该方向的接收信号。

示例性地，当采用基于多层神经网络的语音降噪技术进行声音增强时，可以首先提出搭建特征映射深度神经网络模型，学习含噪声的语音信号和无噪声的语音信号之间的特征映射关系，进而得到增强语音信号的对数功率谱特征值；接着利用含噪声的语音信号、无噪声的语音信号和噪声信号三者的几何关系求得增强语音信号的相位信息；最后利用重叠相加原理恢复出增强后的语音信号。

在一个实施例中，可以识别环境音频信号所对应的场景类别，并在不同的场景类别下对不同的声音进行声音增强处理，以便于在不同的场景下识别不同类型的关键声音。例如，在机场场景下可以增强广播声音，在办公室场景下可以增强人声。识别环境音频信号所对应的场景类别的具体方法可以参见下文。在一个实施例中，在步骤S120中，首先对所述环境音频信号进行特征提取，以获得音频特征。

示例性地，首先将采集到的环境音频信号转换为离散数字信号。其中，拾音器采集得到的声音形式为模拟信号。可以通过模数转换器将模拟信号转换为离散数字信号，所述离散数字信号是在连续信号上采样得到的离散信号。其中，模数转换器可以将时间连续、幅值也连续的模拟量转换为时间离散、幅值也离散的数字信号。接着，对数字信号提取特征向量。

所述环境音频信号的音频特征包括且不限于音频波形中具有明显类别特色部分的特征。示例性地，所述环境音频信号特征提取包括时域、频域特征或时频特征。其中，时域特征可以包括：信号的最大值、最小值、平均值、平均幅值、有效值、方根幅值、偏度指标、峭度指标、偏态因数、峰态因数、波形因数、脉冲因数、峰值因数、裕度因数、声压级等；频域特征可以包括：频谱、频谱前若干主峰的频率、各主峰频率间隔等，时频特征可以包括：各种时域特征量与时间的关系曲线、不同时间位置的频谱、声压级与时间关系曲线、主峰频率与时间关系曲线等；对环境音频信号进行特征提取所得到的数据特征还可以包括任何其他可以表征所述环境音频信号的特征，本发明对此不作特殊限定。

示例性地，所述环境音频信号的特征提取包括对所述环境音频信号进行分帧后进行特征提取，从而减少数据量，提高处理效率。所述数据特征的提取方法包括且不限于FFT(Fast Fourier Transformation，快速傅里叶变换)，FMCC(Mel-Frequency CepstralCoefficient，梅尔频率倒谱系数)等。

例如，当采用FMCC特征提取方法时，首先可以对环境音频信号进行预加重，以增加语音的高频分辨率使信号的频谱变得平坦。接着，对预加重的环境音频信号进行分帧和加窗。之后，采用快速傅里叶变换方法得到频谱。其中，所述快速傅里叶变换将环境音频信号从时域转换为频域上的能量分布，不同的能量分布代表不同的音频特性。进行快速傅里叶变换后，每帧音频都对应于一个频谱。之后，将频谱通过Mel滤波器组得到Mel频谱，并在所述Mel频谱上进行倒谱分析，则得到所述MFCC特征。

接着，将音频特征输入所述训练好的声音识别模型，以确定其中的关键声音，并输出所述关键声音对应的声音类别。

作为示例，所述声音识别模型可以是为基于神经网络的预先训练好的声音识别模型。声音识别模型能够精确地识别出所述环境音频信号中的预设的关键声音，以使主动降噪算法能够根据关键声音的声音类别有针对性地进行主动降噪，同时不需要增加额外的硬件(如传感器等)，因此节省了硬件资源，有利于耳机等电子设备的小型化、轻型化设计。

作为示例，参照图2，所述声音识别模型的训练包括：首先获取用户输入的关键声音；接着，以所述用户输入的关键声音作为训练样本来训练所述声音识别模型。示例性地，可以通过耳机上的麦克风录入用户输入的关键声音，并通过电子设备所配置的模型训练系统训练所述声音识别模型。由此，不同的用户可以具有根据其自身需要所定制的声音识别模型。

示例性地，所述用户输入的关键声音可以包括特定的语音，如用户自己的名字、特定的警报词语等，以及其他需要注意的声音，如电话铃声、警报声等。训练好的声音识别模型可以将环境音频信号与预先录入的关键声音进行匹配，以确定环境音频信号中包含的关键声音。

在一个实施例中，用户可以根据每种关键声音的降噪需求将关键声音分为若干个类别，当训练声音识别模型时，可以以每种关键声音样本的声音类别作为输出来进行训练，使训练好的声音识别模型直接输出所识别到的关键声音的类别。例如，用户可以将自己的姓名、英文名、昵称、职称等作为一类(例如姓名类别)；将警报词语、警笛声等可能提示需要紧急避险的声音作为一类(例如警报类别)；将公交、地铁等的报站广播作为一类(例如广播类别)。

在一个实施例中，获取用户输入的关键声音之后，对其进行特征提取，并利用提取的特征训练所述声音识别模型。通过训练，声音识别模型可以判断从环境音频数据中提取的特征是否与预设关键声音的特征匹配，从而判断外界环境中是否出现了所述关键声音。

在一个实施例中，所述神经网络可以包括输入层、至少一个隐藏层和输出层。隐藏层从前一层(例如输入层)接收数据并且在发送该数据至下一层(例如输出层)之前修改该数据。隐藏层由具有与每个输入有关的权重因子的节点(或神经元)和每个节点的偏差因子组成，隐藏层可以包括不同数量的节点(或神经元)。可以通过适当地调整隐藏层中的每个节点的权重因子和偏差因子对网络进行训练。

当然，上述神经网络的架构和训练方法仅是示例性的，本发明实施例还可以采用任何其他合适的网络架构和训练方法。

如上所述，所述声音识别模型的输出为关键声音的类别，每种关键声音的类别可以对应于一种主动降噪模式。作为示例，用户可以预先配置每种关键声音类别所对应的主动降噪模式，在确定了关键声音的类别之后，则执行步骤S130，基于所述声音类别，配置与所述声音类别相对应的预先设置好的主动降噪模式，以有针对性地进行主动降噪处理。

在一个实施例中，主动降噪处理包括识别关键声音的音质特性，对环境音频信号中的具有所述音质特性的声音进行增强处理，或对环境音频信号中的不具有所述音质特性的声音进行主动降噪处理。其中，所述音质特性包括声音的频率、音色和声纹中的至少一个。例如，在办公场景、机场场景下，若识别到呼叫指定姓名的关键声音，则对具有该关键声音的音质特性的声音(例如来自同一个的声音或同一广播的声音)进行增强处理，或对其余声音进行降噪处理，以便于用户听清呼叫其姓名之后的声音。

作为示例，配置所述主动降噪模式包括配置预先设置好的滤波器参数和/或配置预先设置好的主动降噪策略。

示例性地，所述主动降噪策略包括暂时停止主动降噪处理或对除所述关键声音以外的其他声音进行降噪等，具体可以由用户根据实际需求自行配置。所述滤波器参数为ANC(Active Noise Control，主动降噪)控制器的滤波器参数。滤波器参数和主动降噪策略可以加载在电子设备的处理器内存中。所述滤波器参数和主动降噪策略的加载方式包括且不限于：固化在ROM(只读存储器)中；与降噪算法程序一起加载在RAM(随机存取存储器)或Flash(闪存)中；和/或由其他程序(如降噪算法程序)在运行过程中生成并保存在一个内存区域中。

例如，假设关键声音的声音类别为包括用户姓名、英文名、昵称、职称等的姓名类别，则预设的与该声音类别对应的主动降噪模式可以为对语音信息以外的其他环境噪声进行主动降噪，或者也可以为暂时停止主动降噪。据此，通过根据声音类别选择主动降噪模式，即可满足不同关键声音的主动降噪需求，从而实现有针对性的主动降噪。

作为示例，根据所述预先设置好的滤波器参数进行主动降噪处理包括：根据所述主动降噪模式和所述环境音频信号生成相应的抵消信号；以及输出所述抵消信号，以抵消所述环境音频信号中的需要消除的噪声。

具体地，可以由ANC控制器基于主动降噪算法根据步骤S110中采集到的环境音频信号和选定的配置好的滤波器参数生成抵消信号，并由扬声器输出为反向声波。设备外部的噪声到达主动降噪区域，如人耳佩戴处，与扬声器输出的反向声波叠加，即可以使环境噪声消除或衰减。

在一个实施例中，进一步地，声音识别模型和主动降噪算法可以是长时间相互独立运行的，主动降噪算法不需要经常接收声音识别模型输出的结果，而可以每隔预定时间接收一次识别结果并选择降噪模式，因此，声音类别模型不会增加主动降噪的时延，也就不会影响基本的降噪性能。

在一个实施例中，所述方法还包括：识别所述环境音频信号所对应的场景类别，并根据所述场景类别调整所述主动降噪模式的主动降噪参数。

其中，可以利用训练好的场景分类模型识别环境音频信号所对应的场景类别。具体地，首先，对所述环境音频信号进行特征提取，以获得音频特征。所述环境音频信号的音频特征包括且不限于音频波形中具有明显类别特色部分的特征。示例性地，所述音频特征包括时域、频域特征或时频特征。其中，时域特征可以包括：信号的最大值、最小值、平均值、平均幅值、有效值、方根幅值、偏度指标、峭度指标、偏态因数、峰态因数、波形因数、脉冲因数、峰值因数、裕度因数、声压级等；频域特征可以包括：频谱、频谱前若干主峰的频率、各主峰频率间隔等，时频特征可以包括：各种时域特征量与时间的关系曲线、不同时间位置的频谱、声压级与时间关系曲线、主峰频率与时间关系曲线等；对环境音频信号进行特征提取所得到的数据特征还可以包括任何其他可以表征所述环境音频信号的特征，本发明对此不作特殊限定。

接着，将音频特征输入所述训练好的场景分类模型，以得到所述环境音频信号对应的场景类别，并根据场景类别调整主动降噪参数。示例性地，主动降噪参数为ANC控制器的滤波器参数。由于不同的场景类别下需要实现不同的主动降噪效果，因此预先根据不同场景类别的主动降噪需求设计各自的降噪曲线，进而获得不同场景类别下的滤波器参数。

例如，假设场景类别为公交，由于公交上期望消除的噪声主要集中在第一频段，因此，可预先配置公交场景类别对应的滤波器参数为可针对在该第一频段产生抵消信号的滤波器参数。假设场景类别为办公室，由于办公室中期望消除的噪声主要集中在第二频段，因此，可预先配置办公室场景类别对应的滤波器参数为可针对在该第二频段产生抵消信号的滤波器参数。据此，通过根据场景类别选择滤波器参数，即可满足不同场景下的主动降噪需求，从而实现有针对性的主动降噪。

以上示例性地描述了根据本发明实施例的基于关键声音识别的主动降噪方法。示例性地，根据本发明实施例的基于关键声音识别的主动降噪方法可以在具有存储器和处理器的设备、装置或者系统中实现。

此外，根据本发明实施例的基于关键声音识别的主动降噪方法可以方便地部署到智能手机、平板电脑、个人计算机、音箱等移动设备上。替代地，根据本发明实施例的基于关键声音识别的主动降噪方法还可以部署在服务器端(或云端)。替代地，根据本发明实施例的基于关键声音识别的主动降噪方法还可以分布地部署在服务器端(或云端)和个人终端处。

本发明实施例的基于关键声音识别的主动降噪方法能够识别环境音频信号中的特定关键声音，并输出声音类别，以及根据声音类别选择主动降噪模式，从而根据关键声音有针对性地进行主动降噪，在满足用户需求、提高用户体验的同时，还能够避免增加额外的硬件，有利于电子设备的小型化、轻型化设计。

根据本发明的另一方面，提供了一种电子设备。参考图5，图5示出了根据本发明的实施例的电子设备500的示意性框图。

如图5所示，电子设备500包括存储装置510以及处理器520。其中，存储装置510存储用于实现根据本发明实施例的基于关键声音识别的主动降噪方法中的相应步骤的程序；处理器520用于运行存储装置510中存储的程序，以执行根据本发明实施例的基于关键声音识别的主动降噪方法的相应步骤，所述主动降噪方法的相应步骤包括：获取环境音频信号；利用训练好的声音识别模型识别所述环境音频信号中的关键声音，并输出所述关键声音所属的声音类别；配置与所述声音类别相对应的预先设置好的主动降噪模式，以对所述环境音频信号进行主动降噪处理。

在一个实施例中，所述处理器是能够进行数字信号处理的芯片，包括且不限于CPU(中央处理器)、DSP(数字信号处理器)、FPGA(现场可编程门阵列)及其相关各种外设组成的装置，能够接收外部传入的环境音频信号和关键声音的声音类别信号，产生噪声抵消信号。所述存储器具有一定内存，可以加载程序和存放数据，包括且不限于RAM(随机存取存储器)、ROM(只读存储器)、Flash(闪存)等。

在一个实施例中，所述电子设备500包括主动降噪耳机。进一步地，所述主动降噪耳机包括前馈式主动降噪耳机、反馈式主动降噪耳机或前馈和反馈结合式主动降噪耳机。

在一个实施例中，所述主动降噪耳机还包括：麦克风，用于接收所述环境音频信号。当所述主动降噪耳机为前馈式耳机时，所述麦克风设置于耳机外侧；当所述主动降噪耳机为反馈式耳机时，所述麦克风设置在耳机内侧；

ANC(主动降噪)控制器，用于根据麦克风输入的环境音频信号和基于声音分类选择的主动降噪参数产生反相噪声，ANC控制器可以看作是滤波器；

扬声器，设置在耳机内侧贴近人耳处，用于发射抵消信号，形成反相声波以抵消噪声，实现降噪的目的；

通信组件，配置为与其他设备之间进行有线或无线方式的通信。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

电源组件，为电子装置的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。

根据本发明的另一方面，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本发明实施例的基于关键声音识别的主动降噪方法的相应步骤，并且用于实现根据本发明实施例的基于关键声音识别的主动降噪装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合。

在一个实施例中，所述计算机程序指令在被计算机运行时可以执行根据本发明实施例的基于关键声音识别的主动降噪方法，包括：

获取环境音频信号；

根据本发明实施例的基于关键声音识别的主动降噪方法可以通过根据本发明实施例的电子设备的处理器运行在存储器中存储的计算机程序指令来实现，或者可以在根据本发明实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机运行时实现。

此外，根据本发明实施例，还提供了一种计算机程序，该计算机程序可以存储在云端或本地的存储介质上。在该计算机程序被计算机或处理器运行时用于执行本发明实施例的基于关键声音识别的主动降噪方法的相应步骤，并且用于实现根据本发明实施例的基于关键声音识别的主动降噪装置中的相应模块。

综上，本发明提供了一种基于关键声音识别的主动降噪方法、电子设备及存储介质，能够识别环境音频信号中的特定关键声音，并输出声音类别，以及根据声音类别选择主动降噪模式，从而根据关键声音有针对性地进行主动降噪，在满足用户需求、提高用户体验的同时，还能够避免增加额外的硬件，有利于电子设备的小型化、轻型化设计。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的物品分析设备中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于关键声音识别的主动降噪方法，其特征在于，所述方法包括：

获取环境音频信号；

2.如权利要求1所述的主动降噪方法，其特征在于，所述配置与所述声音类别相对应的预先设置好的主动降噪模式包括：

3.如权利要求2所述的主动降噪方法，其特征在于，所述预先设置好的主动降噪策略包括暂时停止主动降噪处理，和/或，对所述关键声音以外的环境噪声进行主动降噪处理。

4.如权利要求1所述的主动降噪方法，其特征在于，所述对所述环境音频信号进行主动降噪处理包括：

5.如权利要求4所述的主动降噪方法，其特征在于，所述音质特性包括声音的频率、音色和声纹中的至少一个。

6.如权利要求1所述的主动降噪方法，其特征在于，在所述利用训练好的声音识别模型识别所述环境音频信号所对应的声音类别之前，还包括：

7.如权利要求4所述的主动降噪方法，其特征在于，所述声音增强处理包括：基于麦克风阵列波束的声音增强处理和/或基于神经网络的声音增强处理。

8.如权利要求6所述的主动降噪方法，其特征在于，还包括识别所述环境音频信号所对应的场景类别，并在不同的场景类别下对不同的声音进行所述声音增强处理。

9.如权利要求1所述的主动降噪方法，其特征在于，还包括识别所述环境音频信号所对应的场景类别，并根据所述场景类别调整所述主动降噪模式的主动降噪参数。

10.如权利要求1所述的主动降噪方法，其特征在于，每隔预定时间基于所述声音类别配置一次所述主动降噪模式。

11.如权利要求1所述的主动降噪方法，其特征在于，所述声音识别模型的训练包括：

获取用户输入的关键声音；

12.如权利要求11所述的主动降噪方法，其特征在于，所述以所述用户输入的关键声音作为训练样本来训练所述声音识别模型包括：

13.一种电子设备，包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至12中任一项所述方法的步骤。

14.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至12中任一项所述方法的步骤。