CN116994599A

CN116994599A - 用于电子设备的音频降噪方法、电子设备及存储介质

Info

Publication number: CN116994599A
Application number: CN202311177922.5A
Authority: CN
Inventors: 李林峰
Original assignee: Hubei Xingji Meizu Technology Co ltd
Current assignee: Hubei Xingji Meizu Technology Co ltd
Priority date: 2023-09-13
Filing date: 2023-09-13
Publication date: 2023-11-03

Abstract

本申请提供用于电子设备的音频降噪方法，所述方法包括：根据采集的音频确定所述音频对应的语音场景；由所确定的语音场景，从预设的多个降噪模型中选择用于所述语音场景的降噪模型；以所选择的降噪模型对所述音频进行降噪处理。还提供可穿戴电子设备、语音助手系统、存储介质。根据本申请的实施例，可针对语音场景采用相适应的降噪模型。

Description

用于电子设备的音频降噪方法、电子设备及存储介质

技术领域

本申请涉及音频处理技术，更为具体地，涉及用于电子设备的音频降噪技术。

背景技术

噪声抑制或者说降噪是音频处理技术的基本构成，其主要目的在于将感兴趣的音频部分不扭曲地保留下来的同时尽可能消除混合信号中的噪声。

不同语音环境下产生的音频，其噪音背景会有所不同。但当前电子设备是通过设置在该设备中的一个降噪模型处理所有音频的降噪。该降噪模型针对不同环境，不得不考虑到诸多语音环境，可以说，该模型是一个面向广泛语音环境的较大模型。电子设备处理任意一种语音环境下的音频时，都得整个模型参与其中，对电子设备电力、计算力的消耗相对较高。此外，因该降噪模型针对了不同环境下产生的音频，降噪的精准度可能也存在改进空间。

发明内容

根据本申请的一个方面，提供用于电子设备的音频降噪方法，可至少部分地解决上述问题。

本申请所提供的用于电子设备的音频降噪方法，包括：根据采集的音频确定所述音频对应的语音场景；由所确定的语音场景，从预设的多个降噪模型中选择用于所述语音场景的降噪模型；以所选择的降噪模型对所述音频进行降噪处理。

作为示例，所述的用于电子设备的音频降噪方法中，根据采集的音频确定所述音频对应的语音场景可包括：以第一时长为单位持续地对所采集的音频进行预处理，以获得第一时长音频的M个预处理结果，其中M为整数，且M≥1；基于所获得的M个预处理结果确定所述语音场景；其中，所述预处理结果被设置为表示语音场景。

作为示例，所述的用于电子设备的音频降噪方法中，所述基于所获得的M个预处理结果确定所述语音场景可包括：将所述M个预处理结果中表示同一类语音场景的预处理结果的数量与M的比值与第一预设条件比较；确定所述比值满足所述第一预设条件，则所述类的语音场景确定为所述音频的所述语音场景。

作为示例，所述的用于电子设备的音频降噪方法中，可进一步包括监测所确定的语音场景。

作为示例，所述的用于电子设备的音频降噪方法中，所述监测所确定的语音场景，可包括：监测基于相邻的第一时长的M个预处理结果所确定的语音场景；以及如果基于在后第一时长的M个预处理结果所确定的语音场景与基于在先第一时长的M个预处理结果所确定的语音场景不同，将基于在后第一时长的M个预处理结果与第二预设条件比较以确定所述音频的当前语音场景。

作为示例，所述的用于电子设备的音频降噪方法中，所述将基于在后第一时长的M个预处理结果与第二预设条件比较以确定所述音频的当前语音场景，可包括：将基于在后第一时长的M个预处理结果中表示同一类语音场景的所述预处理结果的数量与M的比值与所述第二预设条件比较；确定所述比值满足所述第二预设条件，以所述在后第一时长的M个预处理结果所确定的语音场景作为所述当前语音场景；反之，以在先第一时长的M个预处理结果所确定的语音场景作为所述当前语音场景。

作为示例，所述的用于电子设备的音频降噪方法中，所述监测所确定的语音场景可包括：将N个所确定的语音场景中的同一种类的语音场景的数量与第三预设条件比较，其中，所述N个所确定的语音场景中的每一个是基于第一时长的M个处理结果所确定的所述音频的语音场景，以及N≥2且为整数；在所述第三预设条件被满足的情况下，将该种类的语音场景作为所述音频的语音场景。

作为示例，所述的用于电子设备的音频降噪方法中，所述以第一时长为单位持续地对所采集的音频进行预处理，可包括：音频特征提取；以及，以第一循环神经网络模型处理所提取的特征以获得预处理结果。

作为示例，所述的用于电子设备的音频降噪方法中，所述第一循环神经网络模型为长短时记忆LSTM模型，所述音频特征提取为提取音频的FBANK特征。

作为示例，所述的用于电子设备的音频降噪方法中，所述以所选择的降噪模型对所述音频进行降噪处理，可包括：在所选择的降噪模型对所述音频的特征提取与所述预处理过程中的音频特征提取一致时，所述降噪模型以所述预处理时提取的音频特征作为其音频特征。

作为示例，所述的用于电子设备的音频降噪方法中，所述语音场景例如包括以下一种或多种：播放音乐；播放视频；会议；上课；地铁；火车；马路；开车；安静。

根据本申请的另一方面，还提供电子设备，所述设备包括本体；设置于所述本体的存储器和处理器。所述存储器用于存储指令；处理器用于执行所述指令，以根据采集的音频确定所述音频对应的语音场景；由所确定的语音场景，从预设的多个降噪模型中选择用于所述语音场景的降噪模型；以所选择的降噪模型对所述音频进行降噪处理。

作为示例，所提供的电子设备，所述处理器配置为在执行所述指令时按照如下过程来根据采集的音频确定所述音频对应的语音场景：以第一时长为单位持续地对所采集的音频进行预处理，以获得第一时长音频的M个预处理结果，其中M为整数，且M≥1；基于所获得的M个预处理结果确定所述语音场景，所述预处理结果被设置为表示语音场景。

作为示例，所提供的电子设备，所述处理器被配置为在执行所述指令时通过如下过程来基于所获得的M个预处理结果确定所述语音场景：将所述M个预处理结果中表示同一类语音场景的预处理结果的数量与M的比值与第一预设条件比较；如果所述比值满足所述第一预设条件，则所述类的语音场景确定为所述音频的所述语音场景。

作为示例，所提供的电子设备，所述处理器进一步被配置为执行所述指令时监测所确定的语音场景。

作为示例，所提供的电子设备，所述处理器被配置为在执行所述指令时通过如下过程来监测所确定的语音场景：监测基于相邻的第一时长的M个预处理结果所确定的语音场景；以及如果基于在后第一时长的M个预处理结果所确定的语音场景与基于在先第一时长的M个预处理结果所确定的语音场景不同，将基于在后第一时长的M个预处理结果与第二预设条件比较以确定所述音频的当前语音场景。

作为示例，所提供的电子设备，所述处理器进一步被配置为在执行所述指令时实现：将N个所确定的语音场景中的同一种类的语音场景的数量与第三预设条件比较，其中，所述N个所确定的语音场景中的每一个是基于第一时长的M个处理结果所确定的所述音频的语音场景，以及N≥2且为整数；在所述第三预设条件被满足的情况下，将该种类的语音场景作为所述音频的语音场景。

作为示例，所提供的电子设备，所述处理器在执行所述指令时通过以下过程实现以第一时长为单位持续地对所采集的音频进行预处理：音频特征提取；以及以第一循环神经网络模型处理所提取的特征以获得预处理结果。

作为示例，所提供的电子设备，所述处理器在执行所述指令时执行：在所选择的降噪模型对所述音频的特征提取与所述预处理过程中的音频特征提取一致时，所述降噪模型以所述预处理时提取的音频特征作为其音频特征。

该电子设备还可包括设置在所述本体的音频传感器，用于采集音频。

还提供用于电子设备的语音助手系统，所述系统包括处理器和存储器，所述存储器存储指令，所述处理器用于执行所述指令以实现上文描述的音频降噪方法中的任意一种。

还提供电子设备，包括音频传感器，用于采集音频；传输模块，用于与另一电子设备通信连接以向其传输所采集的音频并接收经过所述另一电子设备降噪处理的音频数据；其中，所述另一电子设备为上文所述的电子设备中的任意一种，或者为包括所述的语音助手系统的电子设备，或者配置为能执行上文描述的音频降噪方法中的任意一种。

作为示例，所提供的电子设备可以包括智能眼镜。

还提供非暂态计算机可读存储介质，所述存储介质存储指令，在所述指令被电子设备的处理系统执行时，实现根据以上所描述的音频降噪方法中的任意一种。

还提供计算机程序产品，所述产品包括由所述电子设备执行的一个或多个程序，所述一个或多个程序包括用于实现根据以上所描述的音频降噪方法中的任意一种。

执行根据本申请所提供的用于电子设备的音频降噪方法，或采用根据本申请所提供的电子设备，可首先确定产生音频的语音场景，并据此从多个降噪模型中选择用于该语音场景的降噪模型。由于是针对语音场景的降噪模型，而非用于广泛语音环境的模型，不仅可有针对性地进行降噪处理，且占用的处理资源以及计算量都相对较少。此外，本申请的一些示例中还以“第一时长”的音频为基准判断语音场景，一方面可准确地确定语音场景，另一方面还可尽早发现场景转换的情况，从而调整降噪模型。

附图说明

结合附图参阅以下具体实施方式的详细说明，将更加充分地理解本申请，其中：

图1是一种电子设备的处理系统的结构示意图；

图2是根据本申请一些示例的用于电子设备的音频降噪的方法的流程图；

图3示意了根据采集的音频确定音频中的语音场景的示例性过程；

图4是根据本申请的一些示例的预处理的示意性过程；

图5是根据本申请一些示例的根据获得的M个预处理结果确定语音场景的过程，即，图3中步骤S302的示例性实现过程；

图6是根据本申请示例的电子设备的结构示意图；

图7是根据一种具体示例的可穿戴电子设备的结构示意图，其中，可穿戴电子设备为智能眼镜；

图8是根据本申请示例的用于电子设备的语音助手系统的结构示意图；

图9是根据本申请又一些例子的电子设备的结构示意图。

具体实施方式

为帮助本领域的技术人员能够确切地理解本申请要求保护的主题，下文将结合附图详细描述本申请的具体实施方式。

图1是一种电子设备的处理系统的结构示意图。如图1所示，该处理系统包括存储器102和处理器104；还可以包括音频传感器100，或者该电子设备外接音频传感器100。音频传感器100用于采集音频，其可包括麦克风或麦克风阵列等可捕获声音的器件，在一些例子中，该电子设备包括例如摄像头的影像获取部件，这种情况下，音频传感器100可以包括或可以是该影像获取部件中的音频捕获和处理部分。存储器102可以包括高速随机存取存储器、非易失性存储器（诸如一个或多个磁盘存储设备、闪存存储器设备）、或其他非易失性固态存储器设备中的一个或多个。可选地，存储器102还可以包括存储器的控制器，以控制该电子设备的其它部件对存储器102的访问。处理器104可以是CPU等各类能执行运算和数据处理等功能的器件。音频传感器100、存储器102以及处理器104之间可通信连接以实现该电子设备的处理系统要实现的功能。

根据一些示例，音频传感器100可采集音频，例如采集用户对该电子设备的唤醒和指令。所采集的音频由处理器102进行特征值提取、降噪等处理。在一些情况下，特征提取相关的处理也可在音频传感器100中进行。存储器102存储该电子设备的处理系统涉及的指令和数据等。

图2是根据本申请一些示例的用于电子设备的音频降噪方法的流程图。在步骤S200，根据所采集的音频确定该音频的语音场景。可由诸如麦克风等音频传感器来采集语音场景中的音频。语音场景指的是包括声音和/或语言表达的场景，声音可以来自人、也来自其他动物、物品、或设备、或操作等。示例而非限制地，本申请中，语音场景包括播放音乐、播放视频、会议、上课、地铁、火车、马路、开车、安静等场景。

在步骤S202，由所确定的语音场景，从预设的多个降噪模型中选择用于对所采集的音频进行降噪的降噪模型。本申请中，降噪模型是针对不同的语音场景而预先训练的。在常规的音频降噪处理中，降噪模型被训练为处理几乎所有场景下的音频，这样的降噪模型一方面计算力消耗大，另一方面电力消耗大，这对电子设备，尤其小型电子设备而言处理负担相对太大。根据本申请的示例，预先训练多个降噪模型，各降噪模型被训练为只针对特定的噪音环境，例如上文提到的多个语音场景。在一些情况下，也可能一个降噪模型对应一个或两三个语音场景，这种情况下，该一个或两三个语音场景可以是彼此类似的场景，例如会议场景和上课场景。

在步骤S204，以所选择的降噪模型对音频进行降噪，以输出经过降噪的音频。简单地讲，降噪处理包括语音活动检测（Voice Activity Detection，VAD）、噪声估计以及噪声抵消三部分。其中，VAD用于检测音频信号什么时候包括语音、什么时候包括噪音。噪声估计利用VAD检测的信息推断噪声谱特征。噪声抵消则根据噪声的特征从原语音中减去噪声部分。由所选择的降噪模型对音频降噪，其处理过程与已知的降噪过程类似。

在一些实施例中，所预先训练的各降噪模型均为基于神经网络的降噪模型，例如，基于RNNoise的降噪模型。应理解到，对于本申请提到的播放音乐、播放视频、会议、上课、地铁、火车、马路、开车、安静共九个语音场景的降噪模型，预先训练时所采用的训练数据都是相应环境下的音频数据。例如图2所示的方法，步骤S204中，由降噪模型对音频进行降噪处理时，该音频例如为音频传感器所采集的音频，但在一些特定条件被满足的情况下，降噪模型可能处理在步骤S200中用于确定语音场景的过程中所处理过的音频信号。

示例而非限制地，图2所示的方法可以应用在如图1所示的电子设备中，而该电子设备例如为智能手机、智能耳机、或例如为智能眼镜等可穿戴电子设备。本申请的各实施例中所提到的可穿戴电子设备包括头戴式电子设备、腕部或其他部位可佩戴的电子识备。头戴式电子设备例如智能眼镜，腕部可穿戴的电子设备例如智能手表、智能手环，其他部位可佩戴的电子设备例如智能颈环等。

所述的智能眼镜，指的是可以通过自身的数据处理能力与用户产生功能交互，或通过与手机、平板、电脑等进行数据通讯与用户产生功能交互的眼镜，包括但不限于AR眼镜、VR眼镜、MR眼镜、蓝牙眼镜等。这类智能眼镜可以是具有显示能力的，例如AR眼镜、VR眼镜、MR眼镜；也可以是不具有显示能力的，例如蓝牙眼镜。

参照图1与图2，音频传感器100采集音频，由音频传感器100或处理器104基于所采集的音频来确定该音频的语音场景（S200），其中，由音频传感器100还是处理器104确定语音场景取决于实际应用中的具体配置。处理器104依据所确定的语音场景，选择适于对所采集的音频进行降噪的降噪模型，并从存储在存储器102的多个降噪模型中调用所选择的降噪模型（S202），以对所采集的音频降噪（S204）。由于所选择的降噪模型针对当前特定语音场景，因此模型被调用时占用的处理器资源相对较少、计算量也相对较少，处理速度可以更快，电力消耗更少。此外，由于模型训练为针对特定语音场景，这就使降噪处理性能未因模型小而降低反而可能更为优异。

图3示意了根据采集的音频确定音频中的语音场景的示例性过程，即步骤S200的示例性过程。在步骤S300，以第一时长为单位持续对所采集的音频进行预处理，以获得第一时长音频的M个预处理结果，其中M为整数，且M≥1。例如，第一时长为10秒，对于所采集的音频，处理时长为10秒的一段音频，获得M个预处理结果。在步骤S302，基于所获得的M个预处理结果确定音频的语音场景，预处理结果被设置为表示语音场景，或者说，将会获得的预处理结果表示的是某类语音场景，而语音场景包括预先确定的多类语音场景。语音场景可根据实际经验和/或大数据确定，以区分采集音频时所采集的声源所在的场景，场景不同，噪音源以及噪音就有所不同。例如，本申请语音场景分类中火车场景与开会场景相比，噪音源以及噪音可能会有所不同。按照本申请的示例，语音场景预先定义，在确定语音场景的预处理过程中，已设置为预处理结果可表示语音场景。图3所示的确定音频的语音场景方法可以持续进行，例如在处理了第一段时长为10秒的音频后即处理第二段时长为10秒的音频。在一些示例中，图3所示的确定音频的语音场景方法是可配置的，例如设置为该方法执行T时长，或设置为在接收到触发信号的情况下开始执行并在执行了一定时长后结束或在收到停止信号后停止执行。

图4是根据本申请的一些示例的预处理的示意性过程，即，步骤S300的示意性过程。同时参照图4和图1，在步骤S3000，处理器104对所采集的音频信号进行FBANK特征提取处理。FBANK特征提取包括预加重、分帧加窗、傅里叶变换、梅尔滤波器组滤波以及取对数。举例来说，音频传感器100持续采集音频信号。示例地，音频采样为单通道采样，采样频率为16kHz，位宽为16位（bit）。本示例中，音频传感器100将采样的音频信号送入到处理器104中，由处理器104进行预处理以至少获得音频特征值。首先，对采集的音频信号预加重以增强其中的高频信号。随后，按照10毫秒为一帧进行分帧，但为防止频谱泄漏，分帧处理时采取前后帧部分重叠的方式，使得实际处理时是对帧长为25毫秒的音频信号进行的，其中15毫秒的音频信号为历史信息（即，15毫秒的重叠），实际只移动了10毫秒的音频信号。通过傅里叶变换将时域信号转换为频域信号，累加各时间的频域信号得到音频的语谱，再由梅尔滤波器组将频率映射到梅尔频率标度并取对数，从而获得FBANK特征。以该处理过程为例，每一帧音频（也就是每10ms的音频）对应40或80个FBANK特征。

在步骤S3002，以第一循环神经网络模型对所获得的每一帧的40或80个FBANK特征进行处理，以获得针对该帧收敛的输出值，即预处理结果。比如在第一时长为10秒的情况下，则该10秒的音频每10毫秒为一帧，共10帧。在步骤S3000可依序输出10组40或80个FBANK特征，该10组40或80个FBANK特征依序输入到第一循环神经网络模型由其进行处理，将获得并输出10个收敛的输出值，即10个预处理结果。

第一循环神经网络模型在此为长短记忆网络（Long Short Term Memory，LSTM）。本例中设置了三层LSTM。通常而言，LSTM层越多和/或参数越多，处理数据的深度与广度会相应增加。在此示意的三层LSTM只是示例，实际应用中，可依据实际需要设置LSTM的层数，例如设置为四层或二层。按照本示例，第一层LSTM的输出为第二层LSTM的输入，第二层LSTM的输出为第三层LSTM的输出，第三层LSTM的输出则被进一步按照公式（1）进行全连接处理：

Y=X×W+B (1)

其中，X是第三层LSTM的输出；W为所训练的权重矩阵，其维度为[HiddenNum,ClassNum], HiddenNum为预设值，例如取值为100，ClassNum是语音场景分类，本申请例如给出了9个场景分类，则ClassNum的值为9；B为偏置，是一维数组；Y为全连接处理后的输出。按照本申请的示例，作为输出的Y将会被例如通过Softmax函数进行归一化处理，使Y输出值的和为1，每个值具有概率意义。作为示例，表1列出了一次输出的Y值：

表1

按照表1的例子，对一帧音频的40或80个FBANK特征，由三层LSTM层以及全连接处理并由Softmax收敛之后，获得分类输出中，即，Y值中，表示开会的场景在所有语音场景中的值最大，因此可确定该帧音频在经过预处理后，获得的预处理结果表示语音场景的类别为开会。

例如，每一帧对应的时长可以为10毫秒，在第一时长为10秒的情况下，该第一时长内音频信号的预处理结果将包括10个确定的语音场景，即该具体示例中，M等于10。

在此结合图4所描述的预处理过程采用FRBANK特征提取、LSTM网络模型基于提取的特征值进行处理，并以Softmax函数收敛，实际使用中，特征提取以及神经网络处理等都可能采用其它处理方式，例如采用支持向量机（Support Vector Machine, SVM）执行分类。

图5是根据本申请一些示例的根据获得的M个预处理结果确定语音场景的过程，即，图3中步骤S302的示例性实现过程。在步骤S3020，将第一时长内的M个预处理结果中表示同一种类语音场景的预处理结果的数量与M的比值与第一预设条件比较。可以理解，M个预处理结果中各处理结果所指示的语音场景可能彼此不同、部分相同、或完全相同。在此，将M个预处理结果中表示同一种类语音场景的预处理结果中数量最多的预处理结果的数量与M的比值与第一预设条件比较。例如，共10个预处理结果中表示马路场景的预处理结果有7个，而表示地铁场景的处理结果有2个，这种情况下可计算数量最多的预处理结果的数量与M的比值。如果该比值满足第一预设条件，则进入步骤S3022，将该种类语音场景（本文中为简洁起见，也写作“该类语音场景”）确定为音频的当前语音场景。如果该比值不满足第一预设条件，则继续执行步骤S3020。该例中，第一预设条件是：第一时长内的M个预处理结果中表示同一类语音场景的预处理结果的数量L与总的预处理结果的数量M的比值应大于或等于预设百分比，预设百分比例如为70%。就本例而言，计算马路场景的数量L与M的比值L/M，为7/10，其中，M为10，表示马路场景的预处理结果共7个。可见，本例中，第一预设条件被满足，马路场景作为当前音频的语音场景；反之，如果M为10，而L为6，则第一预设条件未被满足，这种情况下，根据本申请的示例，继续执行步骤S3020。

根据本申请的又一些示例，还包括监测所确定的语音场景。对基于相邻的第一时长的M个预处理结果所确定的语音场景进行监测，并在基于在后第一时长的M个预处理结果所确定的语音场景与基于在先第一时长的M个预处理结果所确定的语音场景不同时，将基于在后第一时长的M个预处理结果与第二预设条件比较以确定音频的当前语音场景。根据一些具体示例，在步骤S3023，持续监测步骤S3022所确定的语音场景，并判断在后第一时长的M个预处理结果所确定的语音场景是否与在先第一时长的预处理结果所确定的语音场景相同，如果不同，则进入到步骤S3025，反之，继续步骤S3023。其中，该在后第一时长的M个预处理结果可为步骤S3022根据最新的第一时长的M个预处理结果所确定的语音场景。在步骤S3025，将基于相邻第一时长中的在后第一时长的预处理结果所确定的语音场景，与第二预设条件比较以确定是否以其作为音频的当前语音场景。如果步骤S3025的比较结果表明第二预设条件被满足，则说明步骤S3022所确定的该在后第一时长的预处理结果确定的语音场景应作为音频的当前语音场景，因此，继续执行步骤S3023。如果步骤S3025的比较结果是第二预设条件未被满足，则可输出反馈信号以便步骤S3022仍以在先第一时长的预处理结果所确定的语音场景作为语音的当前语音场景，同时，继续执行步骤S3023。在一个更为具体的例子中，第二预设条件为：在后第一时长内的M个预处理结果中表示同一类语音场景的预处理结果的数量L与M的比值大于或等于诸如80%的预设百分比。该具体的例子中，如果L/M大于或等于预设百分比，则第二预设条件被满足，反之，第二预设条件未被满足。

通过监测相邻第一时长的M个预处理结果所确定的语音场景，在语音场景发生转变时，可借由所设置的第二预设条件进一步判断是否的确产生了语音场景的转变，进而在肯定的情况下采用转变后的语音场景，这使得根据本申请示例的确定语音场景的过程更为可靠，相应地，后续对降噪模型的调用也会更准确。

根据本申请的另外一些示例，基于确定的N个语音场景，也就是N个基于第一时长的预处理结果所确定的语音场景，进一步以N个第一时长为单位来判断这段时间内的语音场景，其中，N≥2且为整数。具体而言，计算由步骤S3022所持续确定的N个语音场景中数量最多的同一种类语音场景的数量与N的比值，将该比值与第三预设条件比较，如步骤S4023所示。如果第三预设条件被满足，即，本例中为该比值大于设置为百分比的第三预设条件，则将该种类的语音场景作为音频的语音场景，如步骤S4025所示。否则，持续步骤S4023。例如，N为10, 每一个第一时长对应一个依照步骤S3020和S3022确定的场景，则10个第一时长对应10个语音场景，以马路场景最多为例，则计算马路场景的数量与N的比值，将该比值与第三预设条件比较以确定马路是否可作为语音场景。另外一些可能的实现例如是将N个连续的第一时长内的处理结果N×M中表示同一类语音场景的预处理结果的数量L'与N×M与预设百分比比较，以确定语音场景，其中L’是同类语音场景中数量最多的语音场景对应的数量。如果L'与N×M的比值大于预设百分比，则将与L'对应的该类语音场景作为音频的语音场景。例如，N为10，如上文所述，第一时长共有M个预处理结果，那么N个第一时长就是10×M个预处理结果，在所有10×M个预处理结果中，表示马路的场景的数量最多，为L'，则计算L'与10×M的比值，该比值大于预设百分比，则与L'对应的马路即可作为语音场景。

根据本申请一些示例的确定语音场景的过程，由每个第一时长内的音频确定音频的语音场景。这种情况下，第一时长的长短可能可调整，且可通过调整第一时长的长短来调整所确定的语音场景的时效性和准确性。比如，第一时长为10秒与第一时长为20秒比较，在语音场景发生变化时，前者可更快地变换到变化后的语音场景，而后者可能相对较慢。

在本申请的另一些示例中，通过对所确定的语音场景的监测，可进一步确保语音场景判断的准确性。如果将基于第一时长的M个处理结果确定的语音场景称为对音频语音场景的第一级确认，则根据本申请示例的监测所确定的语音场景的过程则是在第一级确认基础上对音频语音场景的进一步确认，可作为第二级确认。例如，在第一级确认出现场景转换时，根据本申请例如图5中步骤S3023和步骤S3025可进一步判断一级确认中出现的场景切换是否准确。由此，确保场景转换（例如从马路场景到地铁场景的转换）判断的正确性，避免乒乓误判出现在场景转换中。

确定了语音场景之后，即可依据所确定的语音场景，从预设的降噪模型中选择用于所确定的语音场景的降噪模型。例如，如果确定的语音场景为马路场景，则选择用于马路场景的降噪模型；在所确定的语音场景从马路场景切换到地铁场景之后，则调用用于地铁场景的降噪模型。

在使用降噪模型处理所采集的音频时，如果该降噪模型处理该音频的过程中，特征提取过程与用于确定语音场景中的预处理过程中特征提取过程完全一致，则可设置为使该降噪模型直接采用预处理过程所提取的特征，如此可节约处理时间和硬件资源。例如，用于确定语音场景中的预处理是提取音频的FBANK特征，如果降噪模型同样要对音频信号提取FBANK特征，且处理过程中的各参数设置也一致，则该降噪模型可直接采用确定语音场景中的预处理过程中所计算的BANK特征。

作为示例，降噪过程中，各降噪模型可基于每一帧音频信号计算出22个增益值。例如，如果原始输入信号为20ms的一帧的音频，带有环境噪声的混合信号（例如48Khz的采样率就是960个浮点数）。在预处理后，变换到频域时取一半值为480个值，可实际取481个值，以22个增益值对该481个值在频域上进行缩放，对应增益值大的就是放大，对应增益值小的就是抑制，如此便抑制了噪声频域信号的幅度。

进一步，原始增益有22个值，但是一帧数据有481个值，把22个子频带增益值扩展为481个增益值，扩展的方法就是在2个增益值之间按照相应的比例插入相应的值。例如其中2个增益值是10和20，则它们之间最中间的插值为15。至此得到481个增益值，与一帧计算出来的481个频域信号值相乘，得到均衡后的频域信号，在变换到时域就是降噪后的信号。

根据本申请的用于电子设备的音频降噪方法的各示例，示例而非限制地，可实现在可穿戴电子设备中，该可穿戴电子设备因此能根据不同的语音场景调用适当的降噪模型去除音频中的噪音，而不像常规技术那样，对于所有的语音场景，都采用同一个降噪模型，使得降噪效果更有针对性；此外，与适于几乎所有语音场景的降噪模型相比，针对具体场景的降噪模型更小型化，运行起来速度快、功耗少，这对可穿戴电子设备这类处理能力和电池功率有限的电子设备而言，非常有利。在此，可穿戴电子设备只是示例，根据本申请的方法还可应用在例如智能手机、平板等各类需要对音频进行降噪处理的电子设备中。

作为示例，用于电子设备的音频降噪方法例如可通过合适的计算机语言（如Java、C、C++、C#、Objective-C、Swift等）或使用常规的或面向对象的技术的脚本语言（如Python）实现为可由电子设备（例如其处理器）执行的软件代码。一些情况下，所实现的这些软件代码被载入到电子设备中，例如存储在存储器中，以便处理器执行。一些情况下，该软件代码被作为一系列指令存储在计算机可读存储介质上，以在电子设备使用时自该存储介质读取。在此，该计算机可读存储介质例如为非暂态计算机可读介质，可包括随机存取存储器(RAM)、只读存储器(ROM)、磁介质(诸如硬盘驱动器或软盘)、或光学介质(诸如光盘(CD)或DVD(数字多用盘))、闪存存储器等。计算机可读介质可为此类存储设备的任何组合。

图6是根据本申请一些示例的电子设备的结构示意图。如图6所示，该电子设备包括本体60、设置于本体的存储器64以及处理器66。可选地，还可包括音频传感器62或者该音频传感器62是设置在该电子设备本体之外，但是可与该电子设备连接以在彼此之间传输音频，还可能传输其它数据、指令等。存储器64存储指令，处理器66执行这些指令，以根据采集的音频确定所述音频对应的语音场景，由所确定的语音场景，从预设的多个降噪模型中选择用于该语音场景的降噪模型，以及以所选择的降噪模型对所述音频进行降噪处理。根据本申请的示例，该电子设备可执行上文结合图2所描述的音频降噪方法的每一个示例。

根据一个具体的例子，图6所示的电子设备为可穿戴电子设备，其本体60例如构造为框架，下文将直接以框架60来代表该可穿戴电子设备的本体。该可穿戴电子设备还可包括音频传感器62、存储器64、以及处理器66。框架60构造为该可穿戴电子设备的机械框架，该可穿戴电子设备的其它电子器件或其它零部件可设置在该机械框架或由该框架支持。音频传感器62，其设置于框架60以采集音频，音频传感器62例如为麦克风或麦克风阵列。存储器64可设置于框架60，用于存储指令，也可用于存储其它数据。处理器66设置于框架60内，设置为在音频传感器采集音频时，执行存储在存储器64中的指令，从而实现上文任意示例所描述的音频降噪方法。

图7是根据一种具体示例的可穿戴电子设备的结构示意图，其中，可穿戴电子设备为智能眼镜。该智能眼镜包括框架70，以及设置在框架70内由框架70提供机械支持的音频传感器72、存储器74以及处理器76。音频传感器72、存储器74、以及处理器76在框架70上的具体位置可根据实际情况确定。虽然图中未示意，但应理解到，音频传感器72、存储器74、处理器76以及例如电池等其它智能眼镜系统用到的电子系统（例如语音助手系统），各器件或部件或零件之间是电性连接的。框架70可包括眼镜腿和镜片框。音频传感器72为麦克风或麦克风阵列，采集语音，可以理解，采集语音时周围环境中的其它声音也可能被采集，该环境便是语音环境。存储器74用于存储指令。处理器74被配置为执行由存储器74存储的指令，从而实现上文结合图2到图5所描述的任意一种音频降噪方法。

举例来说，响应于唤醒指令，智能眼镜的音频传感器72采集语音，处理器76执行存储在存储器74中的指令从而解析唤醒指令，并在需要的情况下对唤醒指令做出反馈。另一方面，处理器76执行存储在存储器74中的指令时，根据音频传感器72传送的音频信号确定音频所在的语音场景。作为示例，处理器76执行存储在存储器74中的指令时执行例如上文结合图3到图5的示例中用于确定场景的步骤，从而确定音频的语音场景。处理器76在确定了语音场景之后，即从存储器72调用用于所确定的语音场景的降噪模型。各降噪模型是实现为程序模块且也以程序指令的形式存储在存储器74中。调用了对应于所确定的语音场景的降噪模型之后，智能眼镜的处理器76便以调用的降噪模型对输入的音频降噪，从而获得降噪后的音频信号。

在结合图6、图7分别描述电子设备时，对诸如语音场景等术语的定义、对图6和图7的处理器（66、76）执行存储器（64、74）指令时所实现的具体过程，都未具体描述，这只是为了简洁，而非其它目的。本申请中对各术语的定义、相同技术特征的描述，适用本申请的各示例。

根据本申请示例的诸如智能眼镜的电子设备，与常规的这类设备相比，在接收到音频信号后因已确定了语音环境，即已确定了噪音信息，便可从预设降噪模型中有针对性地选择最为合适的降噪模型，从而实现更好的降噪效果。

图8是根据本申请示例的用于电子设备的语音助手系统的结构示意图。如图8所示，该语音助手系统包括存储器84以及处理器86。采用该语音助手系统的电子设备可包括音频传感器，或者，该语音助手系统可以包括音频传感器。存储器84存储指令，处理器86在语音助手系统被唤醒时即执行存储器84中的指令，在执行该指令过程中，实现在此描述的音频降噪方法中的任意一种以对所采集的音频降噪。该语音助手系统可以通过程序指令实现为一个或多个软件模块，从而结合到应用其的电子设备中，该电子设备例如为上文提到的电子设备中的任意一种。在一些情况下，该语音助手系统可被实现为独立的电子设备，例如语音助手设备，这种情况下，该设备例如可通信连接到其它电子设备中，以对音频进行降噪处理。

此外，本申请还提供一种电子设备。图9示意了该电子设备9的结构示意图。如图9所示，该电子设备9包括音频传感器90和传输模块92。该音频传感器90用于采集音频，该传输模块92用于与另一电子设备9'通信连接以向其传输所采集的音频并接收经过所述另一电子设备降噪处理的音频数据，其可以是有线传输模块或无线传输模块，无线传输模块可以是基于蓝牙协议等无线通信协议的无线通信模块。该另一电子设备9'例如上文结合图6所描述的电子设备，或其它配置能执行根据本申请的音频降噪处理方法中任意一种的电子设备，或其它包括根据本申请描述的语音助手系统的电子设备。在一些情况下，例如图9所示的电子设备例如为可穿戴电子设备，而该另一电子设备9'例如手机。

本申请各示例中，所列举的语音场景包括9个，一方面，实际应用中，并不以在此列出的为限，且划分语音场景的方式可不同于本申请；另一方面，针对语音场景设置的降噪模型可一一对应，也可一个降噪模型能处理两个或两个以上类似的语音场景，比如播放音乐与播放视频。

根据本申请，还提供非暂态计算机可度存储介质，其例如为随机存取存储器(RAM)、只读存储器(ROM)、磁介质(诸如硬盘驱动器或软盘)、或光学介质(诸如光盘(CD)或DVD(数字多用盘))、闪存存储器等。该存储介质上存储有一系列指令，该些指令是由例如通过合适的计算机语言（如Java、C、C++、C#、Objective-C、Swift等）或使用常规的或面向对象的技术的脚本语言（如Python）实现的软件代码。该些软件代码在该存储介质通信连接到例如智能眼镜的电子设备时，可由该电子设备的处理器执行，从而实现上文任意一个示例所描述的音频降噪方法。

本申请任意示例中的指令例如是由合适的计算机语言或使用常规的或面向对象的技术的脚本语言实现的软件代码。

本申请已对各示例做了描述，应理解到，各示例的特征在不互相矛盾的情况下，可相互结合实现为新的实施方式。

虽然已详细地示出并描述了本申请的具体实施例以说明本申请的原理，但应理解的是，本申请可以其它方式实施而不脱离这样的原理。

Claims

1.用于电子设备的音频降噪方法，其特征在于，所述方法包括：

根据采集的音频确定所述音频对应的语音场景，包括：

以第一时长为单位持续地对所采集的音频进行预处理，以获得第一时长音频的M个预处理结果，其中M为整数，且M≥1；并基于所获得的所述M个预处理结果确定所述语音场景；以及由所确定的语音场景，从预设的多个降噪模型中选择用于所述语音场景的降噪模型；

以所选择的降噪模型对所述音频进行降噪处理;

其中，所述预处理结果被设置为表示语音场景。

2.根据权利要求1所述的音频降噪方法，其特征在于，所述基于所获得的所述M个预处理结果确定所述语音场景，包括：

将所述M个预处理结果中表示同一种类语音场景的预处理结果的数量与M的比值与第一预设条件比较；

确定所述比值满足所述第一预设条件，所述种类的语音场景确定为所述音频的所述语音场景。

3.根据权利要求1所述的音频降噪方法，其特征在于，进一步包括监测所确定的语音场景。

4.根据权利要求3所述的音频降噪方法，其特征在于，所述监测所确定的语音场景，包括：

监测基于相邻的第一时长的M个预处理结果所确定的语音场景；以及

在基于在后第一时长的M个预处理结果所确定的语音场景与基于在先第一时长的M个预处理结果所确定的语音场景不同的情况下，将基于所述在后第一时长的M个预处理结果与第二预设条件比较以确定所述音频的当前语音场景。

5.根据权利要求4所述的音频降噪方法，其特征在于，所述将基于所述在后第一时长的M个预处理结果与第二预设条件比较以确定所述音频的当前语音场景，包括：

将基于所述在后第一时长的M个预处理结果中表示同一种类语音场景的所述预处理结果的数量与M的比值与所述第二预设条件比较；

确定所述比值满足所述第二预设条件，以所述在后第一时长的M个预处理结果所确定的语音场景作为所述当前语音场景。

6.根据权利要求3所述的音频降噪方法，其特征在于，所述监测所确定的语音场景，包括：

将N个所确定的语音场景中的同一种类的语音场景的数量与第三预设条件比较，其中，所述N个所确定的语音场景中的每一个是基于第一时长的M个处理结果所确定的所述音频的语音场景，以及其中N≥2且为整数；

在所述第三预设条件被满足的情况下，将所述种类的语音场景作为所述音频的语音场景。

7.根据权利要求1到6中任意一项所述的音频降噪方法，其特征在于，所述以第一时长为单位持续地对所采集的音频进行预处理，包括：

提取音频特征；以及，

以第一循环神经网络模型处理所提取的特征以获得预处理结果。

8.根据权利要求7所述的音频降噪方法，其特征在于，所述第一循环神经网络模型为长短时记忆LSTM模型，所述提取音频特征为提取所述音频的FBANK特征。

9.根据权利要求7所述的音频降噪方法，其特征在于，所述以所选择的降噪模型对所述音频进行降噪处理，包括：

在所选择的降噪模型对所述音频的特征提取与所述预处理过程中的对所述音频特征的提取一致时，所述降噪模型以所述预处理时提取的所述音频特征作为其音频特征。

10.根据权利求1所述的音频降噪方法，其特征在于，所述语音场景包括以下一种或多种：

播放音乐；播放视频；会议；上课；地铁；火车；马路；开车；安静。

11.电子设备，其特征在于，所述设备包括：

本体；

存储器，其设置于所述本体，用于存储指令；

处理器，其设置于所述本体，用于执行所述指令，以：

根据采集的音频，确定所述音频对应的语音场景；

由所确定的语音场景，从预设的多个降噪模型中选择用于所述语音场景的降噪模型；

以所选择的降噪模型对所述音频进行降噪处理；

其中，所述处理器设置为在执行所述指令时按照如下过程来根据采集的音频确定所述音频对应的语音场景：

以第一时长为单位持续地对所采集的音频进行预处理，以获得第一时长音频的M个预处理结果，其中M为整数，且M≥1；

基于所获得的所述M个预处理结果确定所述语音场景；

其中，所述预处理结果被设置为表示语音场景。

12.根据权利要求11所述的电子设备，其特征在于，所述处理器被配置为在执行所述指令时通过如下过程来基于所获得的所述M个预处理结果确定所述语音场景：

如果所述比值满足所述第一预设条件，则所述种类的语音场景确定为所述音频的所述语音场景。

13.根据权利要求11所述的电子设备，其特征在于，所述处理器进一步被配置为执行所述指令时监测所确定的语音场景。

14.根据权利要求13所述的电子设备，其特征在于，所述处理器被配置为在执行所述指令时通过如下过程来监测所确定的语音场景：

如果基于在后第一时长的M个预处理结果所确定的语音场景与基于在先第一时长的M个预处理结果所确定的语音场景不同，将基于所述在后第一时长的M个预处理结果与第二预设条件比较以确定所述音频的当前语音场景。

15.根据权利要求13所述的电子设备，其特征在于，所述处理器进一步被配置为在执行所述指令时实现：

16.根据权利要求11所述的电子设备，其特征在于，所述处理器在执行所述指令时通过以下过程实现以第一时长为单位持续地对所采集的音频进行预处理：

提取音频特征；以及

17.根据权利要求16所述的电子设备，其特征在于，所述处理器在执行所述指令时：

18.根据权利要求11所述的电子设备，其特征在于，所述电子设备还包括设置于所述本体的音频传感器，用于采集所述音频。

19.用于电子设备的语音助手系统，其特征在于，所述系统包括处理器和存储器，所述存储器存储指令，所述处理器用于执行所述指令以实现根据权利要求1到权利要求10中任意一项所述的方法。

20.电子设备，其特征在于，其包括：

音频传感器，用于采集音频；

传输模块，用于与另一电子设备通信连接以向其传输所采集的音频，并接收经过所述另一电子设备降噪处理的音频数据；

其中，所述另一电子设备为根据权利要求11到权利要求17中任意一项所述的电子设备，或者为包括根据权利要求19所述的语音助手系统的电子设备，或被配置为能执行根据权利要求1到权利要求10中任意一项所述的方法。

21.根据权利要求11或20所述的电子设备，其特征在于，所述电子设备包括智能眼镜。

22.非暂态计算机可读存储介质，其特征在于，所述存储介质存储指令，在所述指令被电子设备执行时，实现根据权利要求1到权利要求10中任意一项所述的方法。