CN114067776A

CN114067776A - 电子设备及其音频降噪方法和介质

Info

Publication number: CN114067776A
Application number: CN202011063921.4A
Authority: CN
Inventors: 于超; 赵安; 彭璐; 刘兴宇; 杨悦; 张柏雄; 杨舒; 吴义镇
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-07-31
Filing date: 2020-09-30
Publication date: 2022-02-18

Abstract

本申请的实施例提供一种音频降噪方法及其电子设备和介质，涉及人工智能(Artificial Intelligence，AI)领域的语音识别技术。本申请的音频降噪方法，包括：在第一电子设备采集各模态数据(例如，事件感应数据、环境图像和环境声音)后，第一电子设备分别计算各模态数据表示第一电子设备处于第一场景的单模场景概率；同时，第一电子设备确定对应各模态数据的多个权值，并基于多个权值，将对应各模态数据的不同单模场景概率进行融合，得到表示第一电子设备处于第一场景的融合场景概率。在融合场景概率满足第一场景的识别条件的情况下，第一电子设备确定音频降噪模式为与第一场景对应的降噪模式。

Description

电子设备及其音频降噪方法和介质

本申请要求在2020年07月31日提交的申请号为“202010759885.9”，申请名称为“电子设备及其音频降噪方法和介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能领域的语音识别技术。尤其涉及一种电子设备及其音频降噪方法和介质。

背景技术

目前的耳机的主动降噪技术，只能基于单模态数据(例如，环境声音)进行场景识别，进而对耳机设置降噪模式。而与耳机连接的电子设备都配置有多种传感器，可以通过传感器以及内置应用采集当前环境的各模态数据(例如，事件感应数据、环境图像和环境声音)。目前急需一种能够将各模态数据进行融合计算，识别出当前环境的场景，再对耳机设置降噪模式的技术。

同时，现有的各模态数据进行融合计算技术，采用的是为每个模态数据分配固定权值，或者是通过手动方式调节权值，并未采用人工智能技术调节权值。在进行融合计算时，过度依赖专家知识，未考虑存在模态数据偏差以及模态数据动态变化的因此，因此，融合计算的结果往往不准确。

发明内容

本申请实施例提供一种电子设备及其音频降噪方法和介质，以提高音频降噪的灵活度和准确度。

本申请的第一方面提供了一种电子设备的音频降噪方法，包括：获取电子设备的事件感应数据；在未能根据事件感应数据确定电子设备所处的场景类型的情况下，获取电子设备当前采集到的音频和场景图像，并基于获取的音频的音频特征和场景图像的图像特征确定电子设备所处的场景类型；根据确定的场景类型确定电子设备的音频降噪模式。

在上述第一方面的一种可能的实现中，在根据事件感应数据确定出电子设备所处的场景类型的情况下，根据确定的场景类型确定电子设备的音频降噪模式。

在该方法中，电子设备可以是任何一种终端设备，例如手机，在用户打开手机的地铁乘车应用程序扫码进入地铁站后，手机通过监测该地铁乘车应用程序获取了事件感应数据，并根据该事件感应数据确定手机当前处于地铁场景。手机获取地铁场景对应的音频降噪模式后，对降噪耳机配置该音频降噪模式实现音频降噪。

在用户通过刷公交卡进入地铁站后，由于手机无法获取事件感应数据，手机通过自身的摄像头以及降噪耳机的麦克风采集地铁场景的场景噪声和场景图像。这里的场景噪声就是音频。手机通过对场景噪声和场景图像分别提取音频特征和图像特征，通过音频特征和图像特征确定手机当前处于地铁场景，对降噪耳机配置地铁场景对应的音频降噪模式实现音频降噪。

在上述第一方面的一种可能的实现中，事件感应数据为电子设备检测到电子设备的应用程序的运行结果。

在上述第一方面的一种可能的实现中，在应用程序的运行结果为电子设备的共享单车应用程序运行扫码骑行的情况下，确定电子设备所处的场景类型为户外骑行场景。

在上述第一方面的一种可能的实现中，事件感应数据为电子设备的传感器的运行结果。

在上述第一方面的一种可能的实现中，在传感器为气压传感器的情况下，当气压传感器的运行结果为低气压环境时，确定电子设备所处的场景类型为低气压场景。

在该方法中，手机除了监测自身安装的应用程序，还可以通过监测自身的传感器的运行结果获取事件感应数据。

在上述第一方面的一种可能的实现中，通过以下方式获取音频的音频特征：

通过线性预测器从音频中分离出第一频段范围部分和第二频段范围部分，其中，第一频段范围部分包含的频段的频率低于第二频段范围部分包含的频段的频率；

将从第一频段范围部分中提取的第一音频特征和从第二频段范围部分中提取的第二音频特征中的至少一种，作为音频的音频特征。

在上述第一方面的一种可能的实现中，将第一音频特征和第二音频特征进行融合得到音频特征。

在该方法中，通过融合的方式，同时采用第一音频特征和第二音频特征进行音频识别。例如，在第一音频特征和第二音频特征分别是MFCC特征参数和时频特征参数的情况下，可以将两者进行线性融合，组合成特征向量。或者将二者进行归一化处理后再进行线性融合，还可以将二者进行加权后再进行线性融合，组合成特征向量。对特征向量计算其对应的特征值，在计算出的特征值与第二音频类型对应的特征值之间的差异大于第二匹配度阈值的情况下，则音频的类型为第二音频类型。

在上述第一方面的一种可能的实现中，通过模拟人耳耳蜗感知能力的音频特征提取算法从第一频段范围部分中提取第一音频特征；

模拟人耳耳蜗感知能力的音频特征提取算法为梅尔频率倒谱系数MFCC提取法，并且第一音频特征为梅尔频率倒谱系数MFCC。

对音频中的声道信号进行梅尔倒谱系数MFCC的提取，使得提取出来的MFCC特征参数免受高频谐波的干扰，可以更好的描述该音频的发声物体的声道特性。

在上述第一方面的一种可能的实现中，通过小波变换从第二频段范围部分中提取第二音频特征，其中第二音频特征为通过小波变换得到的时频特征。

通过多尺度小波变换对该音频中通过线性预测器分离出来的声源信号进行时频特征参数提取，可以有效表征该音频的发声物体的声源特性。

在上述第一方面的一种可能的实现中，第一频段范围部分表征发出音频的发声物体的声道的特征，第二频段范围部分表征发声物体的声源的特征。

在上述第一方面的一种可能的实现中，通过线性预测器从音频中分离出第一频段范围部分和第二频段范围部分，包括：

通过线性预测器从音频中分离出第一频段范围部分，并将分离出第一频段范围部分后音频的剩余部分，作为第二频段范围部分。

在上述第一方面的一种可能的实现中，将场景图像转化为RGB颜色空间格式的转换图像。

在上述第一方面的一种可能的实现中，通过图像识别神经网络模型从转换图像中提取图像特征。

在上述第一方面的一种可能的实现中，根据预设的分帧阈值将音频和场景图像进行分帧，使得音频特征和图像特征的维度相同。

在上述第一方面的一种可能的实现中，并基于获取的音频的音频特征和场景图像的图像特征确定电子设备所处的场景类型，包括：

将音频特征和图像特征进行融合得到融合音频特征，并将融合音频特征与场景类型对应的场景特征进行匹配，并在匹配度大于匹配度阈值时，确定电子设备所处的场景类型；

在根据融合音频特征确定出电子设备所处的场景类型的情况下，根据确定的场景类型确定电子设备的音频降噪模式。

例如，用户佩戴降噪耳机搭乘地铁，用户通过刷公交卡的方式进入地铁，此时，手机无法通过事件感应数据获取场景。因此，降噪耳机通过麦克风采集地铁内的音频，在音频强度超过降噪耳机内预设的声强阈值的情况下，降噪耳机对音频提取MFCC特征参数，同时手机的摄像头拍摄地铁的场景图像，对场景图像提取图像特征。最后，根据音频特征和图像特征识别出场景类型，即地铁场景，并通过地铁场景对应的降噪模式配置降噪耳机进行降噪。

本申请的第二方面提供了一种电子设备，其特征在于，包括：

处理器，处理器和存储器耦合，存储器存储有程序指令，当存储器存储的程序指令被处理器执行时使得电子设备执行前述第一方面提供的任一方法。

本申请的第三方面提供了一种计算机可读介质，其特征在于，计算机可读介质上存储有指令，该指令在计算机上执行时使计算机执行前述第一方面提供的任一方法。

本申请的第四方面提供了一种第一电子设备的音频降噪方法，其特征在于，包括：

第一电子设备获取用于场景识别的多个模态的数据；

第一电子设备分别计算各模态的数据表示第一电子设备处于第一场景的单模场景概率；

第一电子设备确定对应各模态数据的多个权值，并基于多个权值，将对应各模态数据的不同单模场景概率进行融合，得到表示第一电子设备处于第一场景的融合场景概率，其中，同一模态的数据所属的预设数据范围不同，进行融合时所用的权值不同；

在融合场景概率满足第一场景的识别条件的情况下，第一电子设备确定音频降噪模式为与第一场景对应的降噪模式。

在该方法中，第一电子设备可以是手机，除了上述第一方面中的音频和图像数据，第一电子设备还可以通过采集各模态数据(例如，事件感应数据、环境图像和环境声音)进行场景识别，在完成采集后，通过训练好的模型来进行各模态数据的融合，根据融合结果得到场景识别结果。

在上述第四方面的一种可能的实现中，多个模态的数据包括下列中的至少一种：

第一电子设备上运行的应用程序的运行结果，第一电子设备上传感器的运行结果，第一电子设备上传感器的检测数据，第一电子设备采集到的图像数据，第一电子设备采集到的音频数据，第一电子设备接收到的WIFI信号，以及与第一电子设备通信连接的基站的基站信号。

在上述第四方面的一种可能的实现中，在应用程序的运行结果包括共享单车应用程序运行了扫码骑行、地铁出行应用程序扫码进入地铁站；并且

第一电子设备上传感器的运行结果包括在传感器为心率传感器的情况下心率传感器的运行结果为睡眠状态；并且

第一电子设备上传感器的检测数据包括光照传感器采集到的光照数据、加速度传感器采集到的第一电子设备的加速度、气压传感器采集的气压数据中的至少一种。

在上述第四方面的一种可能的实现中，多个模态包括第一模态，并且对应第一模态的多个预设数据范围包括第一预设数据范围和第二预设数据范围，其中在计算第一场景的融合场景概率时，属于第一预设数据范围的第一模态数据的单模场景概率大于属于第二预设数据范围的第一模态数据的单模场景概率，并且对应第一预设数据范围的权值大于对应第二预设数据范围的权值。

在该方法中，以模态数据为光照数据为例，可以对模态数据进行区间划分，例如，将模态数据划分为第一预设数据范围和第二预设数据范围，并对第一预设数据范围和第二预设数据范围分别获取其单模场景概率。

在上述第四方面的一种可能的实现中，第一电子设备基于神经网络模型对应各模态数据的不同单模场景概率进行融合，得到表示第一电子设备处于第一场景的融合场景概率。

在上述第四方面的一种可能的实现中，通过以下方式训练神经网络模型中用于确定各模态数据的权值的权值映射子模型：

获取属于第一模态的多个样本数据和多个样本数据分别对应的期望单模场景概率；

将属于第一模态的多个样本数据按照数值大小进行降序排列；

将排序后的样本数据按预定数量均分为多个数据预设范围，其中多个数据预设范围包括第一预设数据范围和第二预设数据范围；

计算各数据预设范围的平均值或者中值，并将平均值或者中值输入权值映射子模型中；

通过将权值映射子模型的输出与期望单模场景概率进行比较，调整权值映射子模型的系数。

在该方法中，以模态数据为光照数据为例，可以将光照数据按升序或者降序的方式排列，降低光照数据的离散度。同时，将光照数据按数量均分为第一预设数据范围(k1)和第二预设数据范围(k2)，可以避免光照数据过于集中。对于第一预设数据范围(k1)和第二预设数据范围(k2)可以分别训练出与其对应的权值w1和w2。

在上述第四方面的一种可能的实现中，在确定对应各模态数据的多个权值，并基于多个权值，将对应各模态数据的不同单模场景概率进行融合之前，对单模场景概率进行筛选，去除数值属于单模场景概率的中值范围内的单模场景概率。。

在上述第四方面的一种可能的实现中，还包括：

第一电子设备向第二电子设备发送降噪模式。

在上述第四方面的一种可能的实现中，第一电子设备为手机，第二电子设备为耳机。

在上述第四方面的一种可能的实现中，第一电子设备能够通过第一模式获取M个模态的数据，并通过第二模式获取N个模态的数据，其中，M和N为正整数，并且M小于或者等于N；并且

在第一模式下，第一电子设备获取M个模态数据开启的器件数量少于第一电子设备在第二模式下获取N个模态的数据开启的器件数量。

在该方法中，手机在识别室外场景的情况下，手机可以在低功耗模式下(第一模式)，通过光照传感器采集光照数据，在光照数据符合准确度阈值的情况下，手机启动高功耗的采集方式(第二模式)，手机除了可以通过麦克风和摄像头采集场景声音和场景图像对应的模态数据，还可以通过加速度传感器采集加速度、气压传感器采集气压数据进行室外场景的识别。

本申请的第五方面提供了一种第一电子设备的音频降噪方法，其特征在于，包括：

第一电子设备通过低功耗的采集方式持续采集第一场景的第一数据；

在第一数据的符合预设的第一准确度阈值的情况下，第一电子设备通过高功耗的采集方式采集用于识别第一场景的多个模态的第二数据；

第一电子设备分别计算多个模态的第二数据表示第一电子设备处于第一场景的单模场景概率；

第一电子设备确定对应第二数据的多个权值，并基于多个权值，将对应多个模态的第二数据的不同单模场景概率进行融合，得到表示第一电子设备处于第一场景的融合场景概率；

本申请的第六方面提供了一种电子设备，其特征在于，包括：

存储器，存储有指令；以及

至少一个处理器，被配置为访问存储器，并被配置为执行存储器上的指令以执行操作，操作包括：

获取用于场景识别的多个模态的数据；

分别计算各模态的数据表示电子设备处于第一场景的单模场景概率；

确定对应各模态数据的多个权值，并基于多个权值，将对应各模态数据的不同单模场景概率进行融合，得到表示电子设备处于第一场景的融合场景概率，其中，同一模态的数据所属的预设数据范围不同，进行融合时所用的权值不同；

在融合场景概率满足第一场景的识别条件的情况下，确定音频降噪模式为与第一场景对应的降噪模式。

本申请的第七方面一种计算机可读介质，其特征在于，计算机可读介质上存储有指令，该指令在计算机上执行时使计算机执行前述第四方面的音频降噪方法。

附图说明

图1根据本申请的一些实施例，示出了一种通过本申请提供的音频降噪的场景；

图2a根据本申请的一些实施例，示出了一种通过本申请提供的音频降噪系统的硬件结构图；

图2b根据本申请的一些实施例，示出了另一种通过本申请提供的音频降噪系统的硬件结构图；

图3a根据本申请的一些实施例，示出了音频降噪的过程；

图3b根据本申请的一些实施例，示出了从场景噪声获取该场景噪声对应的场景概率向量的过程；

图3c根据本申请的一些实施例，示出了从场景图像获取该场景图像对应的场景概率向量的过程；

图3d根据本申请的一些实施例，示出了场景噪声的场景概率向量和场景图像的场景概率向量进行融合计算得出融合场景的概率的过程；

图4根据本申请的一些实施例，示出了另一种通过本申请提供的音频降噪的场景；

图5根据本申请的一些实施例，示出了一种场景识别装置的结构示意图；

图6根据本申请的一些实施例，示出了一种用于融合计算的多模态模型的示意图；

图7根据本申请的一些实施例，示出了一种训练多模态模型中的权值映射子模型的流程图；

图8根据本申请的一些实施例，示出了一种使用光照数据训练多模态模型中的权值映射子模型的示意图；

图9根据本申请的一些实施例，示出了一种使用多模态模型进行融合计算的流程图；

图10根据本申请的一些实施例，示出了一种通过多模态模型获取各模态数据的权值的示意图；

图11根据本申请的一些实施例，示出了另一种音频降噪的过程；

图12根据本申请的一些实施例，示出了一种电子设备的模块结构图；

图13根据本申请的一些实施例，示出了一种终端设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请的实施方式作进一步地详细描述。

图1根据本申请的一些实施例，示出了一种音频降噪方法的应用场景图。如图1所示，在用户佩戴耳机200且耳机200与终端设备100通信连接的情况下，终端设备100通过获取用户所在环境的相关数据识别出当前场景。例如，在一些实施例中，终端设备100先通过监测自身安装的应用程序(Application，APP)的运行结果或者内部的传感器获取事件感应数据(如感应到的户外骑行事件、搭乘地铁事件、睡眠事件等)，并根据该事件感应数据识别出当前场景，如果通过事件感应数据未识别出场景，则终端设备100通过耳机200或自身的麦克风，以及自身的摄像头分别采集的当前环境的场景噪声和场景图像，终端设备100将上述场景噪声和场景图像发送给服务器300，服务器300根据场景噪声和场景图像识别出当前场景后，根据当前场景获取该场景对应的降噪模式并返回给手机100，然后手机100通过对耳机200设置降噪模式，从而实现降噪的效果。在本申请的一些实施例中，可以对用户所在的当前环境分别提取环境噪音以及环境图像，根据环境噪音以及环境图像获取对应的概率向量，将两者的概率向量进行融合计算后，识别出当前环境对应的场景。通过上述实施方式，能够更加准确地识别出当前环境对应的场景，并使用与该场景对应的降噪模式进行降噪。再例如，在本申请的另外一些实施例中，服务器300还可以根据包括上述事件感应数据、环境噪音以及环境图像的各模态数据，获取对应各单模特数据所表示的某一场景的单模场景概率，然后通过多模态融合模型对单模场景概率进行融合计算后，识别出当前环境对应的场景。

本申请中的降噪模式是指终端设备100对耳机200设置一种声音模式，通过该声音模式生成对抗噪声的声音信号以将其消除。

上述根据场景噪声和场景图像识别出场景，包括：采集场景噪声和采集场景图像，对该场景噪声和场景图像分别提取场景噪声特征和场景图像特征，将场景噪声特征和场景图像特征分别输入噪声神经网络模型和图像神经网络模型，获取场景噪声的场景概率向量和场景图像的场景概率向量，将上述两个场景概率向量经过融合算法后，得到融合场景概率向量，根据该融合场景概率向量，判断出用户所处的场景。这里的场景噪声的场景概率向量以及场景图像的场景概率向量，是指将场景噪声以及场景图像通过一个向量的形式来表示其对应的场景的概率；融合场景概率向量是指将场景噪声的场景概率向量和场景图像的场景概率向量进行融合计算后，获得的对应的场景的概率。在该噪声神经网络模型以及图像神经网络模型中，针对输入的场景噪声和场景图像的特征，可以获得至少一个多维的场景概率向量。其中，场景概率向量中的每一个维度代表了一种场景概率。

下面结合图2a至图4来详细说明本申请的一些实施例所提供的音频降噪方法。

实施例一

图2a示出了根据本申请的实施例的一种音频降噪系统10。系统10包括：终端设备100，耳机200和服务器300。

可以理解，终端设备100可以能够使用耳机的各种电子设备，例如，包括但不限于，膝上型计算机、台式计算机、平板计算机、手机、服务器、可穿戴设备、头戴式显示器、移动电子邮件设备、便携式游戏机、便携式音乐播放器、阅读器设备、或能够访问网络的其他电子设备。在一些实施方式中，本申请的实施例也可以应用于由用户穿戴的可穿戴设备。例如，智能手表、手环、首饰(例如，做成诸如耳环、手镯等装饰性物品的设备)或眼镜等，或者作为手表、手环、首饰或眼镜等的一部分。

耳机200可以包括但不限于带有麦克风201以及扬声器202的各种模拟耳机或数字耳机。并且可以是有线耳机，也可以是无线耳机。

服务器300可以是硬件服务器，也可以植入虚拟化环境中，例如，根据本申请的一些实施例，服务器300可以是在包括一个或多个其他虚拟机的硬件服务器上执行的虚拟机。根据本申请的一些实施例，服务器300可以通过网络与终端设备100进行交互，例如向终端设备100发送数据和/或从终端设备100接收数据。

终端设备100可以通过获取事件感应数据识别出当前场景，例如，终端设备100检测到用户使用安装的地铁出行APP执行了刷卡进站的操作，则终端设备100判断用户现在处于地铁场景；再如，终端设备100通过基于全球定位系统(Global Positioning System，GPS)的传感器103，获取用户在一段时间内的移动速度接近跑步的速度后，则终端设备100判断用户现在处于户外跑步场景。在一些实施例中，当终端设备100无法直接通过监测自身安装的应用程序的运行结果或者内部的传感器获取当前场景相关的数据的情况下，终端设备100还可以通过耳机200的麦克风201或者自身的麦克风101和自身的摄像头102采集当前环境的场景噪声和场景图像。将场景噪声和场景图像发送给服务器300，服务器300对该场景噪声和场景图像分别提取的特征，将特征输入场景搜索模型，通过场景搜索模型分别获取场景噪声和场景图像对应的场景概率向量，将场景概率向量经过融合算法后，获取融合场景概率向量，根据该融合场景概率向量，判断出当前场景。

在服务器300判断出当前场景后，将该当前场景发送给终端设备100，终端设备100获取并对耳机200设置该场景对应的降噪模式，实现降噪的效果。终端设备100可以从服务器300获取场景对应的降噪模式。在一些实施例中，终端设备100的存储器中也可以存储场景对应的降噪模式。

在一些实施例中，服务器300可以先训练出用于识别场景噪声的噪声神经网络模型以及用于识别场景图形的图像神经网络模型。具体地，通过终端设备100采集当前环境的场景噪声和场景图像，然后将该场景噪声和场景图像发送给服务器300，服务器300对该场景噪声提取场景噪声特征，对场景图像提取场景图像特征后，分别输入噪声神经网络模型以及图像神经网络模型后获得场景噪声的场景概率向量以及场景图像的场景概率向量，将上述两个场景概率向量经过融合算法后，获取融合场景概率向量，根据该融合场景概率向量，判断出当前场景。

在一些实施例中，服务器300还可以保存、收集和更新各个场景以及场景对应的降噪模式。在一些实施例中，服务器300从与其通信的各个终端设备100处或从各个降噪模式的开发者处收集各个场景以及场景对应的降噪模式。例如，服务器200检测到与其通信连接的终端设备100保存的场景以及场景对应的降噪模式与服务器300中保存的数量或者类型不同时，服务器300可以从该终端设备100获取场景以及场景对应的降噪模式。再如，降噪模式的开发可以定期将新创建的场景以及场景对应的降噪模式，更新至服务器300。

此外，在一些实施例中，服务器300还可以基于终端设备100的请求或者以定期推送的方式，为各终端设备100同步场景，服务器300也可以为各终端设备100上已经存在的场景同步该场景对应的降噪模式。例如，开发者更新了场景以及场景对应的降噪模式后向服务器300上报，则服务器300可以将这些更新后的场景以及场景对应的降噪模式推送给各终端设备100；或者服务器300可以定期从终端设备100中检测到终端设备100正在使用的场景以及场景对应的降噪模式，检测完成后，服务器300可以将最新的场景以及场景对应的降噪模式发送给终端设备100。终端设备100获取到最新的场景以及场景对应的降噪模式后，可以更新保存到终端设备100的存储器中，并利用获取的场景以及场景对应的降噪模式来进行降噪。

当然，上述系统10只是本申请的一种具体实施方式，在一些实施方式中，如图2b所示，手机100也可以不与服务器300交互，而只通过处理器104执行自身的存储器105中设置的噪声以及图像的神经网络模型和场景融合算法来自行识别出当前场景，并通过当前场景获取保存在自身存储器中的与当前场景对应的降噪模式。

下面以手机100作为终端设备100的示例，结合图3a-d至图4来详细说明音频降噪的方法。

图3a示出了手机100通过耳机200识别出所处的场景，并基于该场景实现降噪的过程。

在图3a示出的实施例中，场景以及场景对应的降噪模式可以保存在手机100的存储器中，也可以是手机100从服务器300中获取并保存的，或者也可以是存储在服务器300处并且手机100可以从服务器300处查询的。这里的场景以及场景对应的降噪模式是通过具体的场景信息与其降噪模式的数据之间的对应关系的形式保存在手机100的存储器中，上述对应关系也可以通过表格、数据文件以及数据库的方式保存。

如图3a所示，实现音频降噪的技术方案包括：

S301：用户佩戴耳机200后，手机100检测到与耳机200连接，且耳机200处于工作状态，在检测到耳机200与手机100连接且处于工作状态的情况下，继续到S302。

例如，耳机200通过手机100的USB接口与手机100连接，这里的USB接口可以是微型通用串行总线(universal serial bus，USB)TypeC接口。在本申请的其他实施例中，耳机200也可以通过蓝牙或者Wi-Fi等方式与手机100建立通信连接，在此不做限制。例如，在用户打开手机100后，用户可以通过点击中音乐APP的图标来进入音乐APP，手机100检测音乐APP开始播放音乐时，确认耳机200处于工作状态，继续到S302。

S302：手机100通过监测自身安装的APP的运行结果或者内部的传感器获取事件感应数据，并根据该事件感应数据获取场景，该场景可以从手机100的存储器中获取，也可以直接从服务器300处查询。

在确定了场景并查找到降噪模式的情况下，进入S303：手机100通过设置该降噪模式进行降噪。在没有查找到降噪模式或者手机100未检测出场景的情况下，进入S304和S305。

例如，用户通过手机100安装的地铁出行APP扫码进入地铁站。这时，手机100检测到用户点击打开该地铁出行APP，并通过地铁出行APP执行了扫码进站的指令后，确认当前的事件感应数据为打开地铁乘车码扫码进入地铁站，同时，手机100获取事件感应数据对应的场景为地铁场景。

再例如，用户通过手机100安装的共享单车APP对共享单车扫码。这时，手机100检测到用户点击打开该共享单车APP，并通过共享单车APP执行了扫码开启共享单车的指令后，确认当前的事件感应数据为打开共享单车APP，同时，手机100获取事件感应数据对应的场景为户外骑行场景。

在另一个实施例中，手机100通过与其通信连接的智能手环的心动心率传感器，实时地获取用户的心动变化，当该心动变化的信息符合睡眠状态的心动信息时，手机100确认当前的场景为睡眠场景。

其他情况还包括，手机100通过其内置的气压传感器检测到用户当前处于低气压环境时，手机100确认当前的场景为低气压场景。

各种事件感应数据与对应的输出场景的关系如表1所示。

事件感应数据	场景
		开共享单车APP或小程序扫码骑行	户外骑行场景
开地铁乘车码扫码进入地铁站	地铁场景
		能手表/手环响应睡眠事件	睡眠场景
压传感器感应低气压	低气压场景

随后，手机100可以在自身的存储器中存储的场景对应的降噪模式中，查找与场景对应的降噪模式，在场景与场景对应的降噪模式通过表格的形式保存的情况下，手机100可以通过场景查找到与其对应的降噪模式。可以理解，手机100也可以从服务器300存储的场景对应的降噪模式中查找降噪模式。

如上文所述，场景对应的降噪模式也可以存储在服务器300上，通常在手机100或者在服务器300中，会预先配置一些场景以及场景对应的降噪模式，这些场景可以覆盖日常生活中的多数环境，以方便手机100可以根据预先配置的降噪模式及时切换降噪模式，然而，在一些实施例中，手机100或者服务器300中未预先配置的事件感应数据以及事件感应数据对应的场景，手机100可以通过采集场景噪声和场景图像，识别出场景噪声和场景图像对应的场景，最后获取该场景对应的降噪模式，然后通过对耳机200设置降噪模式，从而实现降噪的效果。

上文中提到的手机100未检测出场景的情况可以是如图4所示的用户通过刷公交卡进入地铁站，手机100无法通过事件感应数据获取场景。这时，手机100通过耳机200的麦克风201或者手机100的麦克风101以及摄像头102采集场景噪声以及场景图像。

S304：手机100采集当前的场景噪声，通过对场景噪声进行特征提取和场景识别获取该场景噪声对应的场景概率向量。其中，场景噪声对应的场景概率向量可以是一个N维向量的形式，该场景概率向量中的每一个维度可以表示一个具体场景的概率。下文将进行详细的介绍。

S305：手机100采集当前的场景图像，通过对场景图像进行特征提取和场景图像识别获取该场景图像的场景概率向量。其中，场景图像对应的场景概率向量的形式与上述场景噪声对应的场景概率向量相同。下文将进行详细的介绍。

S306：手机100对场景噪声的场景概率向量和场景图像的场景概率向量进行融合计算得出融合场景的概率，获取融合场景的概率对应的当前的场景。其中，可以通过矩阵转置并相乘的融合算法对场景噪声和场景图像的场景概率向量进行计算，获得融合场景的概率值。上述融合算法通过对同一段时间内的场景噪声和场景图像分帧后的概率矩阵进行融合，可以使概率值更加精确。

在获得融合场景的概率后，进入S307手机100获取场景对应的降噪模式,并对耳机200设置该降噪模式。同时，手机100进入S308，实时地监测所处场景或者噪声的变化，并根据该变化调整降噪模式。对于S307和S308的技术方案，下文将进行详细的介绍。

对于上述步骤304，在一些实施例中，计算场景噪声对应的场景概率向量的方式如图3b所示。具体包括：

S304a:手机100判断当前的场景噪声是否超过预设的声强阈值。如果当前的场景噪声超过预设的声强阈值，则进入S304b，否则，进入S304c。

手机100可以通过连接的耳机200的麦克风201采集当前的场景噪声,并将采集的噪声信号转化成数字信号。

在一些实施例中，手机100还可以通过一个包括麦克风的噪声采集装置采集当前的场景噪声，该噪声采集装置可以是手机100的一部分，或者是独立的装置，通过与手机100进行通信连接，将采集到的噪声信号发送至手机100，例如：该噪声采集装置可以是拾音器、录音话筒等。

在手机100通过连接的耳机200的麦克风201采集当前的场景噪声的同时，手机100可以对采集的场景噪声进行声强等级检测，如果场景噪声的声强没有超过预设的第一声强阈值，则可以认为当前所处的环境类似于噪声较少的室内环境，因此确定场景噪声的场景概率向量为室内场景对应的场景噪声的场景概率向量。手机100可以获取室内场景对应的室内降噪模式，配置耳机200进行降噪。手机100检测声强等级的方法包括：手机100可以通过耳机100的麦克风接收场景噪声的电压信号，通过与麦克风连接的放大器进行信号放大，接着，再通过模数转换器(Analog-to-Digital Converter，ADC)，将该被放大的信号转换成数字信号，接着，根据该数字信号的值从该分贝值对照表中查找出匹配的分贝值。该分贝值对照表可以保存在手机100的存储器内。例如，当手机100检测到当前所处场景的场景噪声的分贝值为30dB，而第一声强阈值为35dB的情况下，手机100可以直接确认场景噪声的场景概率向量为室内场景对应的场景噪声的场景概率向量。

如果当前的场景噪声的声强等级超过第一声强阈值，手机100采集当前的场景噪声，通过对场景噪声进行特征提取和场景识别获取该场景噪声对应的场景概率向量。

S304c：则确定当前场景为室内场景。

S304b：手机100获取场景噪声的语音特征。

手机100对场景噪声的噪声信号进行特征提取，得到场景噪声的语音特征，包括：通过手机100中的滤波器对噪声进行滤波，得到场景噪声中噪声的每一帧信号的频谱；将每一帧信号的频谱所指示的频率信息和强度信息，映射为一个二维向量；将多个二维向量按照时间顺序排列，得到场景噪声的语音特征，在有多个语音特征的情况下，场景噪声的语音特征就是场景噪声的语音特征向量组。这里的滤波器是用于模拟人耳耳蜗感知能力的非线性特性的设备，滤波器可以为符合梅尔特性的滤波器，本公开实施例对此不作限定。

在本申请的实施例中，手机100可以通过耳机200的麦克风采集一段采集时长内的场景噪声，例如，在采集时长为2000ms的情况下，手机100可以通过耳机200的麦克风采集2000ms时长的场景噪声，之后对2000ms时长的场景噪声进行分帧处理，也就是基于一个分帧阈值把场景噪声等分，例如，在分帧阈值为100的情况下，2000ms时长的场景噪声，可等分为100帧，每帧时长为20ms。之后，对每一帧的场景噪声，通过语音特征提取算法分别生成描述场景噪声的语音的特征向量，再按照时间顺序排列，得到特征向量T₁。该语音的特征可以为场景噪声的语音的线性预测编码(Linear Predictive Coding，LPC)特征、线性预测倒谱系数(Linear Predictive Cepstral Coefficients，LPCC)特征和梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients，MFCC)特征或者线性预测梅尔频率倒谱系数(Linear Prediction Based Mel Frequency Cepstral Coefficient，LBPMFCC)特征。生成的T₁中的每一个特征向量可以是一个二维向量(h1,h2)，h1,h2可以是表示描述场景噪声的语音的某些特征的值，比如场景噪声的语音的频率和强度。

S304d：手机100将场景噪声的语音特征输入噪声神经网络模型计算出场景噪声对应的场景概率向量。

在本申请的实施例中，将提取出的场景噪声的特征向量T₁，输入训练好的噪声神经网络的模型，利用模型计算出特征向量T₁对应的场景概率向量T_A。这里的噪声神经网络模型可以是S304d中训练好的模型。场景概率向量T_A可以通过一个六维向量来表示，T_A＝(A_noisy A_plane A_train A_bus A_metro A_indoor),其中A_noisy表示人声嘈杂场景的概率，A_plane表示飞机场景的概率，A_train表示火车场景的概率，A_bus表示公交车场景的概率，A_metro表示地铁场景的概率，A_indoor表示室内场景的概率。可以理解，A_noisy-A_indoor可以通过一个数值来表示对应的场景的概率，例如T_A＝(0.4 0 0.1 0.9 0.3 1)。

在一些实施例中，场景噪声的噪声神经网络模型可以是已经训练好的神经网络模型，手机100可以直接将场景噪声的语音特征输入该模型获取对应的场景概率向量。这里的噪声神经网络可以为卷积神经网络(Convolutional Neural Network，CNN)、深度神经网络(Deep Neural Networks,DNN)、循环神经网络(Recurrent Neural Network，RNN)和时间递归神经网络(Long Short-Term Memory，LSTM)等。在噪声神经网络为卷积神经网络的情况下，可以对该神经网络配置多个输出节点，每一个输出节点匹配一种与噪声对应的场景的类别，可以预先设定哪个输出节点对应哪种场景的类别。每个输出节点的输出值用于表示与该输出节点对应的场景的概率。在本申请的实施例中，噪声神经网络模型可以包括人声嘈杂场景，飞机场景，火车场景，公交车场景，地铁场景以及室内场景这六个场景的输出节点。对该噪声神经网络模型的训练过程可以包括：通过将上述六个场景中的地铁场景对应的场景噪声的语音特征输入该噪声神经网络模型，然后将模型的训练结果(即地铁场景下采集到的场景噪声对应的场景概率向量)和表示地铁场景的数据进行比较，求出误差(即二者之间的差值)，根据该误差来更新模型的权重。直至最后模型输出表征地铁场景的数据时，认为模型训练完成。可以理解，还可以输入其他场景下的场景噪声的语音特征对模型进行训练，从而在大量的样本场景的训练中，通过不断的调整权重，在输出的误差达到一个很小的值时(例如，满足预定误差阈值)，认为神经网络模型收敛，训练出了噪声神经网络模型。

在本申请的另一些实施例中，手机100还可以通过线性预测的方法将场景噪声中的低频部分(表征发出该场景噪声的发声物体的声道的特征)和高频谐波部分(表征发出该场景噪声的发声物体的声源的特征)进行分离，再对分离出来的低频部分和高频谐波部分分别采用对应的特征提取算法进行特征提取，得到对应于该音频低频部分(以下简称为声道信号)的低音频特征和对应于高频谐波部分(以下简称为声源信号)的高音频特征。最后将声道信号的低音频特征和声源信号的高音频特征进行融合得到场景噪声的语音特征。

例如，以手机100对地铁场景下的场景噪声的特征参数提取为例，在一些实施例中，手机100利用阶线性预测器来分离出地铁场景中采集到的场景噪声中的声道信号。通过求出地铁场景下的场景噪声与声道信号的差值，即可得到地铁场景下的场景噪声中的声源信号。

之后，手机100对从场景噪声中分离出来的声道信号和声源信号分别进行特征提取。例如，采用如S304c中描述的特征提取方式，对地铁场景下分离出来的声道信号进行MFCC提取，获取声道信号对应的MFCC特征向量。对地铁场景下分离出来的声源信号，手机100采用多尺度小波变换对其进行时频特征向量提取。

可以理解，也可以通过其他模拟人耳耳蜗感知能力的音频特征提取算法来提取上述声道信号的声道特征，例如线性预测倒谱系数(Linear Prediction CepstrumCoefficien，LPCC)提取算法。除了小波变换，也可以采用其他算法提取声源信号中的时频特征向量，在此不做限制，例如，基音周期的提取方法。

最后，手机100将声道信号中提取的MFCC特征向量和声源信号中提取的时频特征向量进行融合，得到场景噪声的语音特征。例如，在一些实施例中，可以将MFCC特征向量与时频特征向量进行线性融合，组合成特征向量，或者将二者进行归一化处理后再进行线性融合，还可以将二者进行加权后再进行线性融合。在其他实施例中，也可以将二者进行非线性融合，例如将二者进行相乘运算。在具体实现过程中，可以根据需要预先设定融合规则，本方案对此不做限定。

此外，在另一些实施例中，在手机100对从地铁场景下的场景噪声中分离出来的声道信号和声源信号后，可以仅对声道信号进行MFCC提取，获取声道信号对应的MFCC特征向量。将该MFCC特征向量作为地铁场景下的场景噪声的语音特征。也可以仅对声源信号采用多尺度小波变换对其进行时频特征向量提取，将声源信号的时频特征向量作为地铁场景下的场景噪声的语音特征。

对于上述步骤S305，在一些实施例中，通过对场景图像进行特征提取和场景图像识别获取该场景图像的场景概率向量的过程如图3c所示。具体包括：

S305a：手机100获取当前的场景图像。

手机100通过自身的摄像头采集当前的场景图像。在一些实施例中，手机100还可以通过一个包括摄像头的图像采集装置采集当前的场景图像，该图像采集装置可以是手机100的一部分，或者是独立的装置，通过与手机100进行通信连接，将采集到的场景图像发送至手机100，例如：该图像采集装置可以是具有摄像头的智能眼镜、外接摄像头等。

S305b：手机100获取场景图像的图像特征。

手机100获取场景图像的图像特征的过程包括：可以采用像素矩阵方式来表示该图像特征。以RGB颜色空间(灰度值)标准为例，一个场景图像可以表示为三个颜色通道的像素矩阵，比如R通道像素矩阵、G通道像素矩阵和B通道像素矩阵。这里，R通道像素矩阵中每个数值代表相应像素点在R通道的分量值，G通道像素矩阵和B通道像素矩阵同理。将每一帧场景图像的灰度值以及图像尺寸，映射为一个二维向量；将场景图像的图像特征按照时间顺序排列，得到场景图像的图像特征，在有多个场景图像的图像特征的情况下，场景图像的图像特征就是场景图像的图像特征向量组。

在本申请的实施例中，手机100可以基于如上文S304中描述的采集时长以及分帧阈值，通过摄像头采集一段2000ms时长的场景图像的视频，同时，将场景图像的视频等分为100帧，每帧时长为20ms。之后，对每一帧的场景图像，可以通过残差网络Resnet-34算法，再按照时间顺序排列生成场景图像的特征向量T₂，这里的T₂中的每一个特征向量可以是一个二维向量(h3,h4)，h3,h4可以是表示描述场景图像的某些特征的值，比如h3可以是灰度值，h4图像尺寸的数值。

S305c：手机100将场景图像的图像特征输入图像神经网络模型计算出图像特征对应的场景概率向量。

在本申请的实施例中，将提取出的特征向量T₂输入一个图像神经网络模型，利用神经网络模型计算出特征向量T₂对应的场景概率向量T_V。T_V＝(V_noisy V_plane V_train V_bus V_metroV_in的oor)，其中V_noisy表示人声嘈杂场景的概率，V_plane表示飞机场景的概率，V_train表示火车场景的概率，V_bus表示公交车场景的概率，V_metro表示地铁场景的概率，V_in的oor表示室内场景的概率。

图像神经网络模型的输出结构与噪声神经网络模型相同，也可以包括人声嘈杂场景，飞机场景，火车场景，公交车场景，地铁场景以及室内场景这六个场景的输出节点。根据场景图像的图像特征对图像神经网络模型进行迭代训练的过程，与对噪声神经网络模型进行迭代训练的过程同理，例如，通过将上述六个场景中的地铁场景对应的场景图像的图像特征输入该图像神经网络模型，然后将模型的训练结果表示地铁场景的数据进行比较，求出误差，根据该误差来更新模型的权重。直至最后模型输出表征地铁场景的数据时，认为模型训练完成。

对于上述步骤S306，在一些实施例中，手机100对场景噪声的场景概率向量和场景图像的场景概率向量进行融合计算得出融合场景的概率，获取融合场景的概率对应的当前的场景的过程如图3d所示，具体包括：

在手机100通过对场景噪声和场景图像的识别，获取场景噪声和场景图像对应的场景概率向量后，手机100对场景噪声和场景图像的场景概率向量进行融合计算，获取当前的场景。

S306a：获取场景噪声的场景概率向量和场景图像的场景概率向量对应的概率矩阵。

这里的场景噪声和场景图像是通过同一个采集时长采集并且按照同一个分帧阈值进行采集、分帧后获取的，场景噪声的场景概率向量T_A和场景图像对应的场景概率向量T_V所组成的向量的矩阵的维度也是相同的，在本申请的实施例中，例如，噪声神经网络模型以及图像神经网络模型生成的每个向量T_A和T_V都是六维的，在分帧阈值为100的情况下，也就是这里的N＝100，T_A和T_V所组成的向量的矩阵的大小是[100,6]。通过将T_A和T_V所组成的向量的矩阵进行融合计算，得到场景融合概率向量。

噪声场景的概率矩阵：

场景图像的概率矩阵：

S306b：获取场景噪声和场景图像的概率矩阵对应的概率向量组。

场景融合概率向量的融合计算的算法如下，分别对噪声场景和图像场景的概率矩阵提取列向量，可得到噪声场景和图像场景的概率向量组。

场景噪声的概率向量组可以表示为：

场景图像的概率向量组可以表示为：

其中：

和

是场景噪声以及场景图像的概率向量组的另一个表示方式。

X∈{noisy，plane，train，bus，metro，indoor}

这里的X表示人声嘈杂场景,飞机场景，火车场景，公交车场景，地铁场景，室内场景这六种具体场景。X的取值范围与上文中噪声场景和图像场景的神经网络模型的输出节点对应。

S306c：将场景噪声的概率向量组转置后点乘场景图像的概率向量组，计算出融合场景概率向量。

对场景噪声的概率向量组的每个向量进行转置，然后点乘上场景图像的概率向量组，进行融合计算，可得到最终的融合场景概率向量F_X。

其中F_noisy表示融合场景中人声嘈杂场景的概率，F_plane表示飞机场景的概率，F_train表示火车场景的概率，F_bus表示公交车场景的概率，F_metro表示地铁场景的概率，F_in的oor表示室内场景的概率。

每一个融合场景中具体场景的概率的值可以通过如下公式计算出：

X∈{noisy，plane，train，bus，metro，indoor}

可以理解，在X＝noisy的情况下，将场景噪声的概率向量组中的

进行转置得到

与场景图像的概率向量组中

进行点乘，获得融合场景中人声嘈杂场景的概率，通过点乘计算，可以先将场景噪声和场景图像中每一帧对应的人声嘈杂场景概率相乘，再将每一帧相乘的结果相加得到融合场景中人声嘈杂场景的概率。

S306d：根据融合场景概率向量确定输出场景，获取输出场景对应的降噪模式。

计算得到融合场景概率向量之后，可以根据向量中的各个具体场景的概率值确定输出场景，确定的方法是：如果融合场景概率向量中有具体场景概率超过概率阈值，则取超过概率阈值最大的一个作为输出场景，如果没有场景概率超过概率阈值则输出场景为其他场景。例如：在F_X＝(0 1 2 4 1 3)的情况下，如果在概率阈值为3的情况下，则F_X表示手机100当前所处的场景为公交车场景，如表2所示。

表2

以理解，除了表2中的场景，在本申请的一些实施例中，还可以加入自定义的场景，这些自定义的场景可以如表3所示。在无法确定输出场景或者输出场景对应的降噪模式不存在的情况下，可以选择其他场景对应的默认降噪模式对耳机200设置，实现降噪功能。

表3

户外骑行场景	户外骑行降噪模式
		眠场景	睡眠降噪模式
气压场景	低气压降噪模式

S307：手机100根据识别出的场景，获取场景对应的降噪模式，将降噪模式和场景噪声的语音特征输入一个降噪神经网络模型，计算出场景噪声的语音特征对应的降噪特征，将降噪特征输入耳机200的麦克风201进行降噪。

在本申请的实施例中，这里的降噪神经网络可以为深度神经网络，手机100可以基于S304d中采集的每一帧的场景噪声，通过语音特征提取算法分别生成描述场景噪声的语音特征，得到特征值P₁。生成的P₁中的每一个特征值可以是一个二维数组(p1,p2)，p1，p2可以是表示描述场景噪声的语音的某些特征的值，比如场景噪声的语音的相位和振幅。同时，降噪神经网络把每个场景对应的降噪模式确定为权重因子a，根据权重因子a，对场景噪声的特征值P₁进行加权运算，得到降噪特征H₁，这里的降噪特征H₁包含经过加权运算后的场景噪声的语音的相位和振幅，之后，将降噪特征H₁输入耳机200的麦克风201后输出一个与降噪特征H₁中的相位相反，振幅相同的声音进行降噪。

其中，每个场景噪声对应的降噪特征也可以由对降噪神经网络进行迭代训练来确定，该降噪神经网络可以为一个三层的神经网络，其第一层作为输入层，第二层作为隐藏层，第三层作为输出层。在构建好降噪神经网络的模型之后，可以将每个场景噪声的语音特征以及每个场景对应的降噪模式作为模型的输入，以对该降噪神经网络进行迭代训练，以构建该模型。该模型输入节点的个数可以为两个，分别为场景噪声的语音特征以及每个场景对应的降噪模式，其中，降噪模式作为权重因子；该模型输出节点的个数可以为一个，输出节点对应一种场景噪声的降噪特征。该输出节点的输出值，降噪特征与输入的降噪模式以及计算出的场景噪声的语音特征可以采用如下函数表示:H₁＝a·P₁。这里的权重因子a会根据场景对应的降噪模式的变化而取不同的值，为了防止在有些场景下完全抵消了场景噪声后，会带来不良的影响，例如，在场景为户外骑行的情况下，如果大幅度或者完全抵消了场景噪声，会给用户带来不安全的风险，在本申请的实施例中，在降噪模式为地铁降噪模式的情况下，权重因子a可以为1，在降噪模式为户外骑行降噪模式的情况下，权重因子a可以为0.5。在P₁＝(3，5)的情况下，在降噪模式为地铁降噪模式的情况下，通过耳机200的麦克风201输出的声音为P₁＝1·(-3，5)＝(-3，5)；在降噪模式为户外骑行降噪模式的情况下，通过耳机200的麦克风201输出的声音为P₁＝0.5·(-3，5)＝(-1.5，2.5)。

S308：当手机100所处的场景或者噪声发生变化时，手机100实时地更新降噪模式或者关闭降噪模式。

在本申请的实施例中，手机100已经对耳机200设置完降噪模式，当手机100所处的场景发生变化时，手机100也可以根据场景的变化，实时地更新降噪模式。例如，在一些实施例中，在手机100检测到用户使用安装的地铁出行APP刷卡进站后，确认手机100处于地铁场景。在手机100对耳机200设置了地铁降噪模式后，手机100检测到用户使用安装的地铁出行APP执行了刷卡出站的操作，之后，用户使用手机100安装的共享单车APP扫码骑行，则手机100判断现处于户外骑行场景，并对耳机200设置户外骑行场景对应的户外骑行降噪模式。再如：当手机100所处的场景未发生变化，但所处的场景中的场景噪声发生变化，如上文所述，手机100对耳机200设置了地铁降噪模式，同时，手机100还实时地检测当前场景下的场景噪声的声强，如果声强超过第二声强阈值且手机100并未检测到用户使用安装的地铁出行APP执行了刷卡出站的操作，则手机100可以再次进行场景噪声的识别，并将场景噪声和场景图像进行融合计算，获取更新后的场景噪声和场景图像对应的场景以及该场景的降噪模式，对耳机200再一次设置降噪模式。这里手机100检测当前所处场景下的场景噪声的声强的方法可以与S304中的方法相同，例如：手机100检测到当前所处场景的场景噪声的分贝值为80dB，而第二声强阈值为70dB的情况下，手机100可以再次执行场景噪声的识别，并将场景噪声的识别结果与当前的场景图像进程融合计算。可以理解，这时，场景图像并没有发生变化。

在一些实施例中，当用户取下并关闭耳机200后，对耳机200设置的降噪模式随之关闭。

图5示出了根据本申请的实施例的一种识别场景噪声以及场景图像操作的场景识别装置500。场景识别装置500包括：声强检测模块501，声音特征提取模块502，场景噪声识别模块503，图像特征提取模块504，场景图像识别模块505，融合场景识别模块506。可以理解，场景识别装置500可以位于服务器300中，也可以位于手机100中，又或者场景识别装置500中的部分模块位于服务器300中，另一部分模块位于手机100中。

声强检测模块501，声强检测模块501中保存有第一声强阈值以及第二声强阈值。当手机100对场景噪声进行声强等级检测，如果没有超过第一声强阈值，则可以直接确认场景噪声的场景概率向量为室内场景概率向量。当手机100已经对耳机200设置了降噪模式，同时，手机100还实时地检测当前场景下的场景噪声的声强，如果声强超过第二声强阈值，则手机100可以再次进行场景噪声的识别。

声音特征提取模块502，声音特征提取模块502用于对场景噪声提取线性预测梅尔频率倒谱系数特征，并按时间顺序组成场景噪声的语音特征。

场景噪声识别模块503，场景噪声识别模块503中可以预先配置有训练完的噪声神经网络模型，将场景噪声的语音特征输入模型后，获取场景噪声的场景概率向量。

图像特征提取模块504，图像特征提取模块504用于对场景图像提取图像的灰度值以及图像尺寸的特征，并按时间顺序组成场景图像的特征。

场景图像识别模块505，场景图像识别模块505中可以预先配置有训练完的图像神经网络模型，将场景图像的特征输入模型后，获取场景图像的场景概率向量。

融合场景识别模块506，用于对场景噪声和场景图像的场景概率向量进行融合计算得出融合场景的概率，获取融合场景的概率对应的当前的场景。

实施例二

在上述实施例描述的降噪方案中，可以通过手机100上的各种传感器和APP运行结果获取事件感应数据来识别场景，并在事件感应数据无法识别出场景的情况下，采集环境图像和环境声音来进行场景识别，在该识别过程中需要融合环境图像和环境声音的识别结果，得到最终的场景。而融合环境图像和环境声音是通过矩阵向量这种方式计算得到结果的。可以理解，在本申请的其他实施例中，对于这种涉及各模态数据(例如，事件感应数据、环境图像和环境声音)的场景识别，可以通过训练好的模型来进行各模态数据的融合，根据融合结果得到场景识别结果。

例如，各种模态的测量数据可以包括上述各种事件感应数据、环境图像和环境声音，也可以包括光照传感器采集到的光照数据、WIFI信号、基站信号等。在模型对各模态数据进行融合时，每个模态的数据具有相应的权值，例如，对于包括光照数据、WIFI信号、基站信号、环境图像和环境声音的一个多模态模型，其在对这些数据所表示的场景进行融合过程中，各模态数据表示当前场景为室内场景概率和权值如下表4所示：

	光照数据	WIFI信号	基站信号	环境图像	环境声音
						内场景概率	0.8	0.7	0.7	0.4	0.8
值	0.25	0.3	0.2	0	0.25

因此，多模态模型可以得出手机100和耳机200目前所处的场景为室内的概率为：0.8*0.25+0.7*0.3+0.7*0.2+0.4*0+0.8*0.25＝0.75，假如室内场景的场景阈值为0.6，则此处可以确定手机100和耳机200当前所处的场景为室内场景。然后采用对应识别出的室内场景的降噪模式对耳机200进行降噪。

在本申请的实施例中，上述各模态数据的权值是根据测量到的各模态数据所表示场景的概率所处的概率区间来进行实时调整的，并不是固定权值或者经验值。例如，上述光照数据表示室内场景概率为0.8时，其权值为0.25，而当其表示室内场景概率为0.5时，此时光照数据无法确定是哪种场景，为场景识别贡献较小或者无贡献，则其权值较室内场景概率为0.8时变小，如变为0.1或者0。相较于现有技术中权值固定或者权值是经验值的方案，本申请公开的随场景概率可调整的权值，具有更好的鲁棒性，进而多模态模型的场景识别准确度更高。

下面基于图1所示的降噪系统，结合图6至8，介绍多模态模型中的权值映射子模型的训练和场景的识别的过程。

可以理解，与上述实施例不同的是，对于图1所示的降噪系统，服务器300可以训练出用于从单模态数据中提取出单模场景概率的单模态模型和用于将单模场景概率进行融合的多模态模型。然后，将训练好的单模态模型和多模态模型移植到手机100中用于场景识别。

其中，单模场景概率是指基于某一模态的数据确定的手机100或者说耳机200处于某一场景的概率，例如，上述表4中，将光照数据输入对光照数据进行分析的单模态模型后，得到当前场景为室内的概率为0.8，该概率值即为单模场景概率。而多模态模型用于对上述表4中5个模态数据得到的5个单模场景概率继续融合，其最后输出概率值0.75，即输出融合场景概率，其表示当前场景为室内的概率为0.75。在本申请的实施例中，多模态模型对多个单模场景概率进行融合时，会获取每个模态数据的权值，如前所述，对于同一模态的数据，所属的数据范围不同，其权值可以不同，故多模态模型会根据数据的大小确定该模态数据的权值。这些权值可以预先基于单模态模型训练得到，下面将详细介绍多模态模型(包括多模态模型中的权值映射子模型)和单模态模型的训练。

图7根据本申请的实施例，示出了一种多模态模型中的权值映射子模型的训练过程。在服务器300对权值映射子模型获取权值的方法进行训练之前，如图6所示，首先，服务器300获取手机100采集的各种原始数据，如：环境声音、环境图像、光照数据、WIFI信号、基站数据以及移动速度等。然后，将采集的各种原始数据输入各自对应的单模态模型获取单模场景概率。最后，将单模场景概率对多模态模型中的权值映射子模型进行训练。可以理解，在多模态模型中，权值映射子模型用于确定由各单模场景模型输出的各单模场景概率的权值。

如图7所示，多模态模型中的权值映射子模型的训练过程包括：

S701：服务器300获取用于训练的原始数据。

可以理解，这里的原始数据可以是手机100采集到的或者从其他途径获取到的数据。如前所述的事件感应数据、环境图像和环境声音，也可以包括光照传感器采集到的光照数据以及通过手机100的通信模块采集的WIFI信号、基站信号等。

S702：服务器300将获取的原始数据输入对应的单模态模型中，得到对应的单模场景概率。

可以理解，为了方便理解和描述，此处以将一种模态的数据输入一种单模态模型为例进行说明。但是，可以理解，在实际训练中，可以将多模态的数据同时输入多个单模态模型中，得到各模态数据对应的单模场景概率。

例如，以光照数据为例，服务器200可以与手机100通信，访问手机100的光照传感器，通过光照传感器包含的光敏元件，获取当前场景的光照数据。然后，服务器200将光照数据输入光照数据的单模态模型(下文称为光照模型)，假设该光照模型的单模场景概率表示当前场景为室内的概率。具体地，如图8所示，假如将100个光照数据x1，x2，…，x100，输入到光照模型中，输出得到100个单模场景概率。单模场景概率的数值用于表示属于某一场景(如室内场景)的概率，其数值越大则表示属于该场景的概率越高，反之，则表示属于该场景的概率越低。例如，100个光照数据对应的单模场景概率可以是[0.98,…0.11,…,0.34]。在一些实施例中，也可以取其他数量的光照数据，例如：1000个。

可以理解，上述光照数据也可以是通过手机100预先采集并上传保存在服务器200的存储区域内的。

在本申请实施例中，单模态模型，如光照模型可以是通过训练获得的神经网络模型。在一些实施例中，其训练方法可以包括：

服务器100可以将光照数据输入光照模型进行训练。例如，光照数据可以是，当用户在室外行走时，手机100通过光照传感器采集当前场景的光照数据。然后，手机100将光照数据发送给服务器200，服务器200将其输入光照模型，然后将模型的输出(即室外场景下采集到的光照数据对应的单模场景概率)和表征室外场景的光照数据所对应的期望单模场景概率进行比较，求出误差(即二者之间的差值)，然后根据误差调整光照模型的参数，例如通过损失函数对光照模型的参数进行调整，直到光照模型输出的单模场景概率与输入的光照数据的期望单模场景概率之间的误差小于预定阈值或者说满足需求才认为模型训练完成。

可以理解，此处也可以获取其他模态数据的单模场景概率，例如，将100个WIFI信号输入图6所示的WIFI信号模型中，输出得到100个WIFI信号的单模场景概率。

S703：服务器200对单模场景概率进行预处理。

为了避免用于训练的单模场景概率过于离散，在本申请实施例中可以对单模场景概率进行降序排列。服务器200先将根据单模场景概率的数值大小将其降序排列；然后将单模场景概率按其数量平均分为多个区间。服务器200采用按单模场景概率的数量而不是以单模场景概率的数值大小进行区间均分的原因是防止数据集中，导致有些区间没有数值。用按单模场景概率的数量进行区间均分还可以减小过拟合问题，降低模型输出对小差异输入的敏感性。

具体地，在一些实施例中，对单模场景概率进行预处理的过程包括：

a)服务器200按单模场景概率的数值大小将其降序排列

例如，服务器200将上述100个光照数据的单模场景概率进行降序排列，并重新标记为p1,p2,…,p100。使得单模场景概率呈线性排列,例如，[0.98,…0.34,…,0.11]。也就是使得单模场景概率按其数值大小从高到低排列。

在本申请的另一个实施例中，也可以将单模场景概率的数值大小按照升序排列，这样使得单模场景概率的数值大小从低到高排列。

b)服务器200将单模场景概率按其数量平均分为多个区间

例如，服务器200将上述100个降序排列的单模场景概率按其数量平均分为k个区间，例如在k为5的情况下，包括k1,k2,…,k5，其中每一个区间包括20个单模场景概率。可以理解，在一些实施例中，也可以取其他正整数，如取k＝10。

S704：服务器200将预处理后的单模场景概率输入多模态模型中进行权值映射子模型的训练。

例如，服务器200将上述5个区间中的光照数据的单模场景概率作为输入值k，将100个光照数据的单模场景概率对应的期望单模场景概率作为结果y，对权值映射子模型的预测函数：

的权值w进行训练。在上述预测函数中，w是以多维向量的形式表示的权值，其维度可以与用于训练的单模场景概率的区间一一对应。例如，在输入值k分为5个区间的情况下，训练后获得w可以是[w1,w2,w3,w4,w5]。T表示对w进行转置，而b是待训练的权值映射子模型的参数。-w^Tk+b，表示基于输入值k的线性回归，也就是输入值k通过参数b来预测其对应的结果。由于线性回归的输出值的范围可以是(-∞，∞+)，也就负无穷大到正无穷大，而单模场景概率对应的权值的范围要在(0，1)之间，因此，通过

可以使得最终的输出结果在(0，1)之间。

在服务器200使用步骤a和b中的光照数据的单模场景概率完成权值映射子模型的权值w以及参数b的训练后，当服务器200将光照数据对应的单模场景概率输入训练好的多模态模型的权值映射子模型后，可以获得光照数据的单模场景概率对应的权值。

对于权值映射子模型来说，首先，对于不同的单模态模型输出的单模场景概率，权值映射子模型可以输出与其对应的权值。例如，以光照模型的单模场景概率为例，将其输入权值映射子模型后，可以获取光照模型的单模场景概率对应的权值W_光照。同理，对于WIFI信号模型的单模场景概率来说，权值映射子模型输出其对应的权值W_wifi。

其次，对于同一单模态模型，其输出的单模场景概率的数值不同，单模场景概率输入权值映射子模型后，获取的权值也会不同。例如，以光照模型的单模场景概率为例，单模场景概率为[0.98和0.11]，将上述的[0.98和0.11]输入权值映射子模型后，可以输出W_光照1＝0.8，W_光照2＝0.2。

同时，对于同一单模态模型的单模场景概率，根据上述的步骤b，在对权值映射子模型进行训练时，会将单模场景概率分为多个区间后，再输入权值映射子模型进行训练，在训练的过程中，对于同一个区间内的单模场景概率，其对应的权值可以是相同的。模型训练完成后，将多个单模态模型的单模场景概率输入权值映射子模型后，权值映射子模型如果判断其属于同一区间，则输出的权值可以是相同的。例如，以光照模型的单模场景概率为例，单模场景概率为[0.98和0.96]，将上述的[0.98和0.96]输入权值映射子模型后，可以输出W_光照1＝W_光照2＝0.8。

此外，在识别不同场景的情况下，对于同一种单模态模型的输入数据，将其输入单模态模型后计算出的单模场景概率，可以是不同的；并且在将上述单模场景概率输入多模态模型的权值映射子模型后，其对应的权值也可以不同。例如，对于同一个光照数据，在进行室外场景识别的情况下，将其输入光照模型后，获得的单模场景概率可以是0.91，因此，在将0.91输入多模态模型的权值映射子模型后，其对应的权值可以是W_光照＝0.8。而在进行室内场景识别的情况下，将其输入光照模型后，获得的单模场景概率可以是0.21，因此，通过输入多模态模型的权值映射子模型获得的权值权值可以是W_光照＝0.11。

可以理解上述数值都是示例性的，在使用上述模型进行场景识别的情况下，单模场景概率以及权值可以根据场景不同而变化。

虽然在S704中以光照数据为例，但是，对于其他的单模态模型的单模场景概率，都可以训练出与其对应的多模态模型的权值映射子模型来，也就是说，可以将每个模态数据对应的单模场景概率作为训练数据，对权值映射子模型进行训练。在完成训练后，多模态模型可以接收多个模态数据对应的单模场景概率作为输入数据，对每一种模态数据的单模场景概率获取其对应的权值，然后通过融合加权平均计算的方式，计算出融合场景概率，进而识别出场景。

例如，在本申请的另一个实施例中，用于多模态模型的训练的数据是从手机100通过麦克风和摄像头采集的环境声音和环境图像。

在通过图7的S701至S703将环境声音和环境图像对应的转化为单模场景概率后，在通过S704对多模态模型的权值映射子模型进行训练的时候，手机100还可以将如表1中描述的事件感应数据，例如使用打开地铁乘车码扫码进入地铁站对应的事件感应数据，对多模态模型的权值获取进行训练。使得多模态模型还可以根据事件感应数据来调整环境声音和环境图像对应的单模场景概率的权值。

例如，在使用该多模态模型进行场景识别时，手机100将环境声音和环境图像以及事件感应数据输入该多模态模型后，在多模态模型可以通过事件感应数据获取当前场景为地铁场景时，则多模态模型可以提高环境声音和环境图像对应的单模场景概率的权值。使得经过融合计算后的环境声音和环境图像对应的融合场景概率更加准确。

上述的多模态模型中权值映射子模型可以采用逻辑回归(Logistic Regression，LR)分类模型实现，在本发明的另一些实施例中，权值映射子模型还可以采用其他分类模型，例如：梯度决策树(Gradient Boosting Decision Tree，GBDT)分类模型。

可以理解，除了使用光照数据对上述多模态模型的权值映射子模型进行训练之外，还可以使用移动速度、WIFI信号、基站信号、环境图像、环境声音等。其训练的过程与光照数据相同，这里不再赘述。

在服务器200上训练好包括权值映射子模型的多模态模型以及单模态模型后，可以建立一个Android工程，将该模型通过前述工程中的模型读取接口读取并解析该模型，然后编译生成APK(Android application package，Android应用程序包)文件，安装到手机100中，完成模型的移植。

下面继续参考图6并结合图9和图10，以手机100采集到的用户的移动速度、光照数据、WIFI信号、基站信号、环境图像、环境声音为例，使用上述训练好的多模态模型，对识别场景的过程进行介绍。具体地，识别场景的过程包括：

S901：手机100通过自身的传感器或者应用程序采集数据。

除了光照数据，手机100还可以通过自身的加速度传感器采集水平方向上的加速度，通过加速度测量用户的移动速度。同理，手机100也可以通过GPS模块获取用户的移动速度。

S902:手机100将采集的数据分别输入单模态模型，获取对应的单模场景概率。

接着以用户的移动速度为例，手机100将S901中采集的移动速度输入移动速度模型，获取其对应的单模场景概率。这里的移动速度模型也是单模态模型，其单模场景概率与光照模型相同，也是一个单模场景概率。单模场景概率的范围在0至1之间，单模场景概率用于表示一个场景的概率，其数值越大则表示属于该场景的概率越高，反之，则表示属于该场景的概率越低。

上述移动速度模型也可以是通过训练获得的神经网络模型，其训练方法可以与上述光照模型的训练方法相同。

S903:手机100将单模场景概率输入多模态模型，多模态模型对单模场景概率进行鲁棒性增强处理。

可以理解，鲁棒性增强处理是指多模态模型对单模场景概率进行融合计算之前，对单模场景概率进行筛选，去除那些单模场景概率的数值处于单模场景概率的范围的中值附近的单模场景概率。去除上述单模场景概率后，可以减少上述单模场景概率对多模态模型进行融合计算的影响，增加融合计算的准确度。以光照数据的单模场景概率为例，当用户位于建筑物入口这种之内外临界状态时，光照模型的单模场景概率会接近单模场景概率的中值范围，例如位于0.4至0.6之间，因此，当光照模型输出的单模场景概率0.4至0.6之间时，该单模场景概率不用于进行融合计算。

S904:多模态模型将单模场景概率以及其对应的权值进行融合加权平均计算，获取各个单模场景概率对应的融合场景概率，进而识别出场景。

完成训练的多模态模型，可以根据实际输入的单模场景概率获取其对应的权值，并且，单模场景概率的数值不同，其对应的权值也不同。

以光照模型的单模场景概率为例，当光照模型的单模场景概率输入多模态模型后，可以获取其对应的权值为W_光照，该W_光照作为光照模型的单模场景概率进行融合加权平均的权值。对于不同的光照模型的单模场景概率，概率1和概率2，其对应的权值可以是W_光照1和W_光照2。

对于移动速度，WIFI信号、基站信号以及环境声音和环境图像，将其输入多模态模型后，也可以获得对应的W_速度、W_wifi、W_基站以及W_声音和W_图像。

之后，多模态模型将光照数据，移动速度，基站信号以及环境声音和环境图像对应的单模场景概率及其对应的权值通过加权公式：移动速度的单模场景概率*W_速度+光照数据的单模场景概率*W_光照+WIFI信号的单模场景概率*W_wifi+基站的单模场景概率*W_基站+环境声音的单模场景概率*W_声音+环境图像的单模场景概率*W_图像，获得融合场景概率。各个单模场景概率表示当前场景为室内场景概率和权值如下表5所示，在各个单模场景概率不同的情况下，其对应的权值也会相应地调整，因此得到的融合场景概率也不同。

	光照数据	移动速度	WIFI信号	基站信号	环境图像	环境声音
							内场景概率	0.8	0.9	0.7	0.7	0.4	0.8
值	0.20	0.05	0.3	0.2	0	0.25
							内场景概率	0.9	0.6	0.3	0.6	0.2	0.3
值	0.50	0.10	0.05	0.2	0.05	0.1

当室内场景的场景阈值为0.6时，对于第一组数据，其融合场景概率为0.755时，手机100确认当前场景为室内场景。对于第二组数据，其融合场景概率为0.91时，手机100确认当前场景为室内场景。

可以理解，手机100除了根据上述的光照数据、移动速度、WIFI信号、基站信号、环境图像、环境声音，使用如图6的方式识别出当前环境是否为室内场景。手机100还可以采集，例如，气压数据，用户的生物特征数据等。并结合上述的光照数据、移动速度、WIFI信号、基站信号、环境图像、环境声音识别出当前环境是否属于上述表2和表3描述的场景。

下面介绍本申请的另一个实施例中的音频降噪的场景，该场景包括由手机100，耳机200以及服务器300组成的系统10，相比于手机100通过如摄像头和麦克风持续采集环境图像和环境声音的不同之处在于，手机100可以通过低功耗的采集方式持续采集当前环境的数据，在通过低功耗的采集方式采集的数据的结果符合准确度阈值的情况下，手机100启动高功耗的采集方式，通过高功耗的采集方式获取用户所在当前环境的数据，再将数据进行融合计算，识别出当前场景。最后，耳机200使用与该当前场景对应的降噪模式进行降噪。本申请中的降噪模式是指终端设备100对耳机200设置一种声音模式，通过该声音模式生成对抗噪声的声音信号以将其消除。

例如，手机100与耳机200通信连接后，手机100可以通过WIFI模块持续采集当前WIFI的信号强度，在无法检测到当前WIFI的信号强度或者当前WIFI的信号强度小于信号强度阈值时，手机100确认用户当前位于室外。这时，手机100在持续检测WIFI的信号强度的同时，通过加速度传感器获取用户的移动速度，通过光照传感器获取室外光的光照数据等，并将上述采集的数据进行融合计算识别出当前场景。

服务器300可以基于手机100的请求或者以定期推送的方式，为各手机100同步用于融合计算的多模态模型，服务器300也可以为各手机100上已经存在的多模态模型同步该多模态模型。例如，开发者更新了多模态模型后向服务器300上报，则服务器300可以将这些更新后的多模态模型推送给各手机100；或者服务器300可以定期从手机100中检测到手机100正在使用的多模态模型，检测完成后，服务器300可以将最新的多模态模型发送给手机100。手机100获取到最新的多模态模型后，可以更新保存到手机100的存储器中。

当然，上述系统10只是本申请的一种具体实施方式，在一些实施方式中，服务器300还可以定期地训练自身保存的多模态模型，并将训练完成的多模态模型推送给终端设备100；终端设备100也可以定期地从服务器300处更新自身的多模态模型。

下面通过图11和图12，以手机100通过图6中描述的模型进行场景识别，并对耳机200设置降噪模式，来详细说明一种音频降噪方法。在该音频降噪方法中，手机100通过低功耗的采集方式持续采集当前环境的数据，在采集到的数据的结果符合准确度阈值的情况下，手机100再通过高功耗的采集方式采集当前环境的数据。接着，手机100通过图6中描述的模型识别出场景后，对耳机200设置降噪模式进行降噪。

如图11所示，实现音频降噪的技术方案包括：

S1101：用户佩戴耳机200后，手机100检测到与耳机200连接，且耳机200处于工作状态，在检测到耳机200与手机100连接且处于工作状态的情况下，继续到S1102。这里的S1101与图3a中的S301相同。

S1102：手机100通过低功耗的采集方式持续采集当前环境的数据。

参照图12，这里手机100持续执行低功耗的采集方式的模式，可以是手机100连续不断地执行低功耗的采集方式。手机100也可以将低功耗的采集方式设置为每隔一个时间段执行一次，例如，手机100设置低功耗的采集方式每1秒执行一次，直至手机100关闭。

例如，用户通过手机100安装的地铁出行APP扫码进入地铁站。这时，手机100可以通过其包含的低功耗的采集方式持续检测用户是否点击打开该地铁出行APP，并通过地铁出行APP执行了扫码进站的指令。

再例如，手机100通过耳机200的麦克风或者自身的麦克风持续对环境声音持续进行声强等级检测，这里的声强等级检测的过程可以同S304a中描述的相同，这里不再重复描述。

S1103：在通过低功耗的采集方式采集的数据的结果符合预设的准确度阈值的情况下，手机100执行S1104，否则手机100重新回到S1102，继续通过低功耗的采集方式持续进行数据采集。

例如，当用户处于地铁中，手机100通过如声强等级检测这类的低功耗的采集方式采集环境声音时，其中，声强等级检测的结果是否符合预设的声强阈值的判断过程也可以与S304a中描述的相同，但是不同之处在于，在当前的环境声音没有超过预设的声强阈值的情况下，手机100重新回到S603，重新进行低功耗的采集方式。如果超过预设的声强阈值，则进入S605，手机100执行高功耗的采集方式。

再如，在低功耗的采集方式为检测手机100的地铁出行APP是否执行扫码进入地铁站的情况下，上述准确度阈值可以是，手机100的地铁出行APP是否执行了扫码进站的指令。

再如，手机100可以通过采集的WIFI信号获取了WIFI信号强度，将该WIFI信号强度与预设的WIFI信号强度阈值进行比较。WIFI信号强度的单位是dBm(分贝毫瓦，decibelrelative to one milliwatt)，WIFI信号强度使用负数表示，越接近0信号就越好，比如A信号的强度是-40dBm，B信号的强度是-60dBm，那么A信号强于B信号。手机100的存储器中可以保存有预设的WIFI信号强度阈值，如(-75dBm至-50dBm)，如果手机100获取的WIFI信号强度为-20dBm，则手机100的确定当前场景的WIFI信号极佳，可以初步判定用户位于室内，接下来，手机100可以进入S1105，通过高功耗的采集方式来获取当前环境的数据。

S1104：手机100通过高功耗的采集方式采集当前环境的数据。

例如，手机100通过麦克风和摄像头采集场景声音和场景图像与图3中获取场景声音和场景图像的过程相同，这里不再重复描述。

例如，对于用户的速度，环境光的光照数据以及基站信息来说，手机100在通过如采集WIFI信号这种低功耗的采集方式初步确认了用户位于室内后，手机100可以访问自身的加速度传感器，通过加速度传感器检测水平方向上的加速度，通过加速度测量用户的移动速度。同理，手机100可以通过访问自身的光照传感器，通过光照传感器包含的光敏元件，获取当前场景的光照数据。手机100还可以通过自身的天线访问基站，获取基站信息。

S1105：手机100对通过高功耗的采集方式采集的当前环境的数据进行融合计算得出融合场景概率。

对于S1105的技术方案，与图9描述的相同。

S1106：手机100是否可以根据获取的融合场景概率判断出对应的场景后，如果可以，则手机100进入S1107手机100获取该场景对应的降噪模式,并对耳机200设置该降噪模式。在S907执行完成后，手机100返回S1103，继续执行低功耗的采集方式；如果手机100无法判断出获取的融合场景概率对应的场景，同样地，手机100返回S1103，继续执行低功耗的采集方式。

S1107：手机100获取场景对应的降噪模式,并对耳机200设置该降噪模式。这里的S907与上文中的S307相同，这里不再重复描述。

例如，在手机100判断出当前场景是地铁场景，并对耳机200设置了降噪模式后，手机100仍旧通过低功耗的采集方式持续进行一次数据采集。这时，如果用户在接下来的一个小时内，始终在乘坐地铁，那么手机100在一个小时内将不会执行高功耗的采集方式。直到手机100通过低功耗的采集方式，采集的结果发生变化时，才会再次执行高功耗的采集方式。相对于手机100在上述一个小时内，持续执行高功耗的采集方式，如，手机100每30秒执行一次高功耗的采集方式，可以降低手机100的功耗，并同时可以保证手机100进行融合场景识别的准确度。

在手机100判断出当前场景是室内场景，并对耳机200设置了降噪模式后，手机100仍旧通过低功耗的采集方式持续进行数据采集。这时，如果用户在接下来的一个小时内，始终位于室内，那么手机100将不会执行高功耗的采集方式。此时，直到手机100通过低功耗的采集方式，获取的结果发生变化时，如：手机100通过采集环境光检测到当前的光照数据超过光照数据阈值时，才会再次执行高功耗的采集方式。

另一个实施例中，在手机100判断出当前场景是室内场景，并对耳机200设置了降噪模式后，手机100仍旧通过低功耗的采集方式持续进行一次数据采集，同时，手机100还可以根据一个执行间隔(如每隔30秒一次)执行高功耗的采集方式，以采集数据进行场景识别。例如，在用户处于室外运动状态中(如，跑步)时，这时，手机100除了执行低功耗的采集方式进行数据采集(如，WIFI信号)之外，同时，手机100每隔30秒执行一次高功耗的采集方式采集数据(如，声音，图像)，进行融合场景的识别。以便在用户100跑步过程中，手机100可以根据用户周围环境发生变化而设置耳机200的降噪模式。

图13示出了根据本申请的实施例的终端设备100的结构示意图。

终端设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键1100，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本申请实施例示意的结构并不构成对终端设备100的具体限定。在本申请另一些实施例中，终端设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(APPlication processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

可以理解的是，本申请实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对终端设备100的结构限定。在本申请另一些实施例中，终端设备100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块140用于从充电器接收充电输入。电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，显示屏194，摄像头193，和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量，电池循环次数，电池健康状态(漏电，阻抗)等参数。在其他一些实施例中，电源管理模块141也可以设置于处理器110中。在另一些实施例中，电源管理模块141和充电管理模块140也可以设置于同一个器件中。

终端设备100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。终端设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在终端设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A，受话器170B等)输出声音信号，或通过显示屏194显示图像或视频。在一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器110，与移动通信模块150或其他功能模块设置在同一个器件中。

无线通信模块160可以提供应用在终端设备100上的包括无线局域网(wirelesslocal area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等的无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，终端设备100的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得终端设备100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(codedivision multiple access，CDMA)，宽带码分多址(wideband code division multipleaccess，WCDMA)，时分码分多址(time-division code division multiple access，TD-SCDMA)，长期演进(long term evolution，LTE)，BT，GNSS，WLAN，NFC，FM，和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system，GPS)，全球导航卫星系统(global navigation satellite system，GLONASS)，北斗卫星导航系统(beidounavigation satellite system，BDS)，准天顶卫星系统(quasi-zenith satellitesystem，QZSS)和/或星基增强系统(satellite based augmentation systems，SBAS)。

终端设备100通过GPU，显示屏194，以及应用处理器等实现显示功能。显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquidcrystal display，LCD)，有机发光二极管(organic light-emitting diode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emittingdiode的，AMOLED)，柔性发光二极管(flex light-emitting diode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot light emitting diodes，QLED)等。在一些实施例中，终端设备100可以包括1个或N个显示屏194，N为大于1的正整数。

终端设备100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。在一些实施例中，摄像头193可以是本申请实施例中的摄像头102，用采集当前环境的场景图像。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展终端设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储终端设备100使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。处理器110通过运行存储在内部存储器121的指令，和/或存储在设置于处理器中的存储器的指令，执行终端设备100的各种功能应用以及数据处理。在一些实施例中，内部存储器121可以用于存储本申请实施例中的噪声神经网络模型以及图像神经网络模型的训练器，以及与场景对应的降噪模式。

终端设备100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。终端设备100可以通过扬声器170A收听音乐，或收听免提通话。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当终端设备100接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。终端设备100可以设置至少一个麦克风170C。在另一些实施例中，终端设备100可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，终端设备100还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。在一些实施例中，麦克风170C可以是本申请实施例中的麦克风101,用于采集终端设备100所在的当前环境的场景噪声。

耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

在一些实施例中，传感器模块180可以是本申请实施例中的传感器103，用于通过感知事件感应数据判断终端设备100所处的场景。

指纹传感器180H用于采集指纹。终端设备100可以利用采集的指纹特性实现指纹解锁，访问应用锁，指纹拍照，指纹接听来电等。

触摸传感器180K，也称“触控器件”。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器180K也可以设置于终端设备100的表面，与显示屏194所处的位置不同。

按键1100包括开机键，音量键等。按键1100可以是机械按键。也可以是触摸式按键。终端设备100可以接收按键输入，产生与终端设备100的用户设置以及功能控制有关的键信号输入。

马达191可以产生振动提示。马达191可以用于来电振动提示，也可以用于触摸振动反馈。例如，作用于不同应用(例如拍照，音频播放等)的触摸操作，可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作，马达191也可对应不同的振动反馈效果。不同的应用场景(例如：时间提醒，接收信息，闹钟，游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。

指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。

SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195，或从SIM卡接口195拔出，实现和终端设备100的接触和分离。终端设备100可以支持1个或N个SIM卡接口，N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡，Micro SIM卡，SIM卡等。同一个SIM卡接口195可以同时插入多张卡。所述多张卡的类型可以相同，也可以不同。SIM卡接口195也可以兼容不同类型的SIM卡。SIM卡接口195也可以兼容外部存储卡。终端设备100通过SIM卡和网络交互，实现通话以及数据通信等功能。在一些实施例中，终端设备100采用eSIM，即：嵌入式SIM卡。eSIM卡可以嵌在终端设备100中，不能和终端设备100分离。

应当理解的是，虽然在本文中可能使用了术语“第一”、“第二”等等来描述各个特征，但是这些特征不应当受这些术语限制。使用这些术语仅仅是为了进行区分，而不能理解为指示或暗示相对重要性。举例来说，在不背离示例性实施例的范围的情况下，第一特征可以被称为第二特征，并且类似地第二特征可以被称为第一特征。

此外，各种操作将以最有助于理解说明性实施例的方式被描述为多个彼此分离的操作；然而，描述的顺序不应被解释为暗示这些操作必须依赖描述的顺序，其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序也可以被重新安排。当所描述的操作完成时，所述处理可以被终止，但是还可以具有未包括在附图中的附加操作。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

说明书中对“一个实施例”，“实施例”，“说明性实施例”等的引用表示所描述的实施例可以包括特定特征、结构或性质，但是每个实施例也可能或不是必需包括特定的特征、结构或性质。而且，这些短语不一定是针对同一实施例。此外，当结合具体实施例描述特定特征，本领域技术人员的知识能够影响到这些特征与其他实施例的结合，无论这些实施例是否被明确描述。

除非上下文另有规定，否则术语“包含”、“具有”和“包括”是同义词。短语“A/B”表示“A或B”。短语“A和/或B”表示“(A)、(B)或(A和B)”。

如本文所使用的，术语“模块”可以指代，作为其中的一部分，或者包括：用于运行一个或多个软件或固件程序的存储器(共享、专用或组)，专用集成电路(ASIC)，电子电路和/或处理器(共享、专用或组)，组合逻辑电路，和/或提供所述功能的其他合适组件。

在附图中，可能以特定布置和/或顺序示出了一些结构或方法特征。然而，应当理解的是，这样的特定布置和/或排序不是必需的。而是，在一些实施例中，这些特征可以以不同于说明性附图中所示的方式和/或顺序来进行说明。另外，特定附图中所包含得结构或方法特征并不意味着所有实施例都需要包含这样的特征，在一些实施例中，可以不包含这些特征，或者可以将这些特征与其他特征进行组合。

上面结合附图对本申请的实施例做了详细说明，但本申请技术方案的使用不仅仅局限于本专利实施例中提及的各种应用，各种结构和变型都可以参考本申请技术方案轻易地实施，以达到本文中提及的各种有益效果。在本领域普通技术人员所具备的知识范围内，在不脱离本申请宗旨的前提下做出的各种变化，均应归属于本申请专利涵盖范围。

Claims

1.一种第一电子设备的音频降噪方法，其特征在于，包括：

所述第一电子设备获取用于场景识别的多个模态的数据；

所述第一电子设备分别计算各模态的数据表示所述第一电子设备处于第一场景的单模场景概率；

所述第一电子设备确定对应各模态数据的多个权值，并基于所述多个权值，将对应各模态数据的不同单模场景概率进行融合，得到表示所述第一电子设备处于所述第一场景的融合场景概率，其中，同一模态的数据所属的预设数据范围不同，进行所述融合时所用的权值不同；

在所述融合场景概率满足所述第一场景的识别条件的情况下，所述第一电子设备确定音频降噪模式为与所述第一场景对应的降噪模式。

2.根据权利要求1所述的音频降噪方法，其特征在于，所述多个模态的数据包括下列中的至少一种：

所述第一电子设备上运行的应用程序的运行结果，所述第一电子设备上传感器的运行结果，所述第一电子设备上传感器的检测数据，所述第一电子设备采集到的图像数据，所述第一电子设备采集到的音频数据，所述第一电子设备接收到的WIFI信号，以及与所述第一电子设备通信连接的基站的基站信号。

3.根据权利要求2所述的音频降噪方法，其特征在于，在所述应用程序的运行结果包括共享单车应用程序运行了扫码骑行、地铁出行应用程序扫码进入地铁站；并且

所述第一电子设备上传感器的运行结果包括在所述传感器为心率传感器的情况下所述心率传感器的运行结果为睡眠状态；并且

所述第一电子设备上传感器的检测数据包括光照传感器采集到的光照数据、加速度传感器采集到的第一电子设备的加速度、气压传感器采集的气压数据中的至少一种。

4.根据权利要求1所述的音频降噪方法，其特征在于，所述多个模态包括第一模态，并且对应所述第一模态的多个预设数据范围包括第一预设数据范围和第二预设数据范围，其中在计算所述第一场景的所述融合场景概率时，属于第一预设数据范围的第一模态数据的所述单模场景概率大于属于第二预设数据范围的第一模态数据的所述单模场景概率，并且对应所述第一预设数据范围的所述权值大于对应所述第二预设数据范围的所述权值。

5.根据权利要求4所述的音频降噪方法，其特征在于，所述第一电子设备基于神经网络模型对应各模态数据的不同单模场景概率进行融合，得到表示所述第一电子设备处于所述第一场景的融合场景概率。

6.根据权利要求4或5所述的音频降噪方法，其特征在于，通过以下方式训练所述神经网络模型中用于确定各模态数据的权值的权值映射子模型：

获取属于第一模态的多个样本数据和所述多个样本数据分别对应的期望单模场景概率；

将所述属于第一模态的多个样本数据按照数值大小进行降序排列；

将排序后的所述样本数据按预定数量均分为多个数据预设范围，其中所述多个数据预设范围包括所述第一预设数据范围和第二预设数据范围；

计算各数据预设范围的平均值或者中值，并将所述平均值或者中值输入权值映射子模型中；

通过将所述权值映射子模型的输出与所述期望单模场景概率进行比较，调整所述权值映射子模型的系数。

7.根据权利要求1所述的音频降噪方法，其特征在于，在确定对应各模态数据的多个权值，并基于所述多个权值，将对应各模态数据的不同单模场景概率进行融合之前，对所述单模场景概率进行筛选，去除数值属于所述单模场景概率的中值范围内的所述单模场景概率。

8.根据权利要求1所述的音频降噪方法，其特征在于，还包括：

所述第一电子设备向第二电子设备发送降噪模式。

9.根据权利要求1所述的音频降噪方法，其特征在于，所述第一电子设备为手机，第二电子设备为耳机。

10.根据权利要求1所述的音频降噪方法，其特征在于，所述第一电子设备能够通过第一模式获取M个模态的数据，并通过第二模式获取N个模态的数据，其中，M和N为正整数，并且M小于或者等于N；并且

在第一模式下，所述第一电子设备获取所述M个模态数据开启的器件数量少于所述第一电子设备在第二模式下获取所述N个模态的数据开启的器件数量。

11.一种第一电子设备的音频降噪方法，其特征在于，包括：

所述第一电子设备通过低功耗的采集方式持续采集第一场景的第一数据；

在所述第一数据的符合预设的第一准确度阈值的情况下，所述第一电子设备通过高功耗的采集方式采集用于识别第一场景的多个模态的第二数据；

所述第一电子设备分别计算所述多个模态的第二数据表示所述第一电子设备处于第一场景的单模场景概率；

所述第一电子设备确定对应第二数据的多个权值，并基于所述多个权值，将对应多个模态的第二数据的不同单模场景概率进行融合，得到表示所述第一电子设备处于所述第一场景的融合场景概率；

12.一种电子设备，其特征在于，包括：

存储器，存储有指令；以及

至少一个处理器，被配置为访问所述存储器，并被配置为执行所述存储器上的指令以执行操作，所述操作包括：

获取用于场景识别的多个模态的数据；

分别计算各模态的数据表示所述电子设备处于第一场景的单模场景概率；

确定对应各模态数据的多个权值，并基于所述多个权值，将对应各模态数据的不同单模场景概率进行融合，得到表示所述电子设备处于所述第一场景的融合场景概率，其中，同一模态的数据所属的预设数据范围不同，进行所述融合时所用的权值不同；

在所述融合场景概率满足所述第一场景的识别条件的情况下，确定音频降噪模式为与所述第一场景对应的降噪模式。

13.一种计算机可读介质，其特征在于，所述计算机可读介质上存储有指令，该指令在计算机上执行时使计算机执行权利要求1至10中任一项所述的音频降噪方法。