CN117667001A

CN117667001A - 一种音量调节方法、电子设备及系统

Info

Publication number: CN117667001A
Application number: CN202211067066.3A
Authority: CN
Inventors: 鲍光照; 王春鹏; 庞立臣
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2022-09-01
Filing date: 2022-09-01
Publication date: 2024-03-08
Also published as: WO2024046416A1

Abstract

本申请提供了一种音量调节方法、电子设备及系统，该方法包括：电子设备响应于开始听力测试的用户操作，分别通过多个音量播放预设音频；多个音量包括第一音量；基于针对第一音量的确定操作，确定用户的听力水平为第一音量对应的第一听力水平；在通过发声装置播放下行信号时，通过至少一个麦克风采集下行信号和环境噪音信号；在采集的下行信号和采集的环境噪音信号中的至少一个改变时，基于第一听力水平将发声装置的播放音量由第一声音等级调节为第二声音等级。实施本申请实施例，电子设备可以基于环境噪音信号、下行信号和用户的听力水平调整发声装置的播放音量，提高用户体验。

Description

一种音量调节方法、电子设备及系统

技术领域

本申请实施例涉及终端技术，尤其涉及一种音量调节方法、电子设备及系统。

背景技术

日常生活中，用户使用终端设备(包括但不限于手机、眼镜、开放式耳机等)在公共场景(如电梯、会议室等)通话或者听音乐时，经常会被旁边的人听到通话或者音乐内容，存在个人隐私被泄露或者干扰他人的风险。

如何智能调节终端设备的播放音量是当前及未来的研究方向。

发明内容

本申请提供了一种音量调节方法、电子设备及系统，在该音量调节方法中，该方法可以基于环境噪音信号、下行信号和用户的听力水平调整下行信号的播放音量，提高用户体验。

第一方面，本申请实施例提供了一种音量调节方法，应用于电子设备，电子设备包括发声装置和至少一个麦克风，该方法包括：

电子设备响应于开始听力测试的用户操作，分别通过多个音量播放预设音频；多个音量包括第一音量；

电子设备基于针对第一音量的确定操作，确定用户的听力水平为第一音量对应的第一听力水平；

电子设备在通过发声装置播放下行信号时，通过至少一个麦克风采集下行信号和环境噪音信号；

电子设备在采集的下行信号和采集的环境噪音信号中的至少一个改变时，基于第一听力水平将发声装置的播放音量由第一声音等级调节为第二声音等级。

本申请实施例中，电子设备可以基于用户在听力测试中的确定操作，确定用户的听力水平；进而，基于用户的听力水平，在采集的下行信号和采集的环境噪音信号中的至少一个改变时调节发声装置的播放音量。可见，该播放音量是综合考虑了环境噪音信号、下行信号和用户的听力水平确定的音量，可以满足用户的个体差异性需求以及减少环境噪音的影响，可以提高用户体验感。

结合第一方面，在一种可能的实现方式中，第一音量越大，第二声音等级的等级越高。

本申请实施例中，用户在听力水平测试中选择的第一音量的音量越大，则在用户实际使用电子设备的过程中，电子设备播放下行信号的声音等级越高。该方法可以满足不同用户的听力需求。

结合第一方面，在一种可能的实现方式中，第一音量为用户在当前环境中的舒适音量或者能够听清的最低音量。

本申请实施例中，用户在听力水平测试中可以基于用户个人需求选择第一音量。例如用户希望电子设备播放的下行信号的音量为其感到舒适的音量，则用户可以在将其在当前环境感到舒适音量确定为第一音量；又例如，用户希望电子设备播放的下行信号的音量为其能够听清的最低音量，则用户可以将其在当前环境下能够听清的最低音量确定为第一音量。该方法可以满足用户对音量的不同需求。

结合第一方面，在一种可能的实现方式中，改变后的环境噪音信号的能量越大，第二声音等级的等级越高。

本申请实施例中，电子设备可以在环境噪音信号的能量变化时，自动调节发声装置的声音等级。例如，环境噪音信号的能量变大，也即是噪音增强，则电子设备可以将发声装置的声音等级调节至较高的等级，以避免环境噪音信号使用户听不清下行信号。

结合第一方面，在一种可能的实现方式中，电子设备在下行信号和环境噪音信号中的至少一个改变时，将发声装置的播放音量由第一声音等级调节为第二声音等级，包括：

电子设备在第一声音等级与第二声音等级相差第一预设等级数时，将发声装置的播放音量调整为第二声音等级。

电子设备在第一声音等级与第二声音等级相差第二预设等级数时，将发声装置的播放音量调整为第三声音等级；第三声音等级高于第一声音等级且低于第二声音等级。

在本申请实施例中，电子设备可以在第一声音等级与第二声音等级相差第二预设等级数时，将第一声音等级逐步调节至第二声音等级。假设第一声音等级低于第二声音等级，则电子设备可以先将发声装置的播放音量调整为第三声音等级；第三声音等级高于第一声音等级且低于第二声音等级；再将发声装置的播放音量由第三声音等级调节为第二声音等级。此处仅以第三声音等级作为一次中间调节作为示例性说明，在其他实施例中发声装置由第一声音等级调节至第二声音等级也可以经过多次中间调节。第一声音等级高于第二声音等级的情况与上述调整类似，可以将第一声音等级逐步调低至第二声音等级。该方法可以避免突然的音量调节造成用户的听力体验不适。

结合第一方面，在一种可能的实现方式中，方法还包括

电子设备响应于针对第一应用的用户操作，在第一环境条件下通过发声装置按照第二音量播放第一应用对应的下行信号；

电子设备响应于针对第二应用的用户操作，在第一环境条件下通过发声装置按照第三音量播放第二应用对应的下行信号；

第二音量不等于第三音量。

在本申请实施例中，电子设备可以针对不同的应用有不同的音量调节，该方法可以满足用户对不同应用的听力需求。

例如，不同应用对应不同的目标模型，在同一环境条件时不同目标模型输出的声音等级不同，则电子设备播放的下行信号的音量不同。

结合第一方面，在一种可能的实现方式中，第一应用为通话类应用，第二应用为音乐类应用，第二音量大于第三音量。

本申请实施例中，考虑到用户对通话类应用的听清的需求较高，将通话类应用的下行信号的音量调整的较大，因此，在相同环境下，电子设备针对通话类应用的播放音量大于音乐类应用的播放音量。

结合第一方面，在一种可能的实现方式中，方法还包括：

电子设备将第一听力水平对应的预置模型确定为目标模型；目标模型为通过符合第一听力水平的用户的用户数据训练得到的；用户数据包括第一听力水平的用户在第二环境条件下的目标声音等级，以及第二环境条件下采集的下行信号和环境噪音信号的能量差值；

电子设备将改变后的下行信号和改变后的环境噪音信号的能量差值输入目标模型，得到第二声音等级。

结合第一方面，在一种可能的实现方式中，改变后的下行信号包括N个第一子带信号，改变后的环境噪音信号包括N个第二子带信号，N为正整数；N个第一子带信号与N个第二子带信号一一对应；相互对应的第一子带信号和第二子带信号组成一组信号；

改变后的下行信号和改变后的环境噪音信号的能量差值包括N组信号的能量差值。

本申请实施例中，将改变后的下行信号和改变后的环境噪音信号的能量差值作为目标模型的输入数据，该能量差值可以包括上述噪音信号的分频段信号和上述下行信号的分频段信号的能量差值，下行信号中分频段信号中的任一频段的信号的分贝值大于掩蔽效应中的掩蔽阈值则该下行信号可被用户听到。该方法基于掩蔽效应，可以在调整过程中保证调节后的音量满足人耳的听力需求，避免掩蔽声的干扰。

结合第一方面，在一种可能的实现方式中，用户数据还包括目标声音等级前若干时刻的发声装置播放音量；电子设备将改变后的下行信号和改变后的环境噪音信号的能量差值输入目标模型，得到第二声音等级，包括：

电子设备将改变后的下行信号和改变后的环境噪音信号的能量差值和前若干时刻的发声装置播放音量输入目标模型，得到第二声音等级。

结合第一方面，在一种可能的实现方式中，在将发声装置的播放音量调整为第二声音等级之后，方法还包括：

电子设备响应于用户调节音量键的操作，将发声装置的播放音量调整为目标声音等级；

电子设备存储改变后的下行信号和改变后的环境噪音信号的能量差值和目标声音等级；

电子设备以改变后的下行信号和改变后的环境噪音信号的能量差值和目标声音等级为样本数据训练目标模型。

本申请实施例中，电子设备可以采集用户手动调节音量键的操作时调节的目标声音等级以及上述音量差值作为样本数据对目标模型进行训练。该方法可以使电子设备越来越符合用户习惯，提高用户体验。

结合第一方面，在一种可能的实现方式中，至少一个麦克风包括第一麦克风和第二麦克风，第一麦克风与发声装置的距离小于第二麦克风与发声装置的距离，第一麦克风用于采集下行信号，第二麦克风用于采集环境噪音信号。

第二方面，本申请实施例提供了另一种音量调节方法，应用于电子设备，电子设备包括发声装置和至少一个麦克风，方法包括：

电子设备在采集的下行信号和采集的环境噪音信号中的至少一个改变时，基于第一听力水平将发声装置的播放音量由第一声音等级调节为第二声音等级，第一听力水平为电子设备的用户对应的听力水平。

第三方面，本申请实施例提供了一种音量调节装置，装置包括处理模块、发声装置和至少一个麦克风：

发声装置，用于分别通过多个音量播放预设音频；多个音量包括第一音量；

处理模块，用于基于针对第一音量的确定操作，确定用户的听力水平为第一音量对应的第一听力水平；

至少一个麦克风用于，在发声装置播放下行信号时采集下行信号和环境噪音信号；

发声装置，用于在采集的下行信号和采集的环境噪音信号中的至少一个改变时，基于第一听力水平将播放音量由第一声音等级调节为第二声音等级。

结合第三方面，在一种可能的实现方式中，第一音量越大，第二声音等级的等级越高；

结合第三方面，在一种可能的实现方式中，第一音量为用户在当前环境中能够听清的最低音量或者舒适音量。

结合第三方面，在一种可能的实现方式中，改变后的环境噪音信号的能量越大，第二声音等级的等级越高。

结合第三方面，在一种可能的实现方式中，发声装置，具体用于在第一声音等级与第二声音等级相差第一预设等级数时通过第二声音等级播放下行信号。

结合第三方面，在一种可能的实现方式中，发声装置，具体用于在第一声音等级与第二声音等级相差第二预设等级数时，通过第三声音等级播放下行信号；第三声音等级高于第一声音等级且低于第二声音等级。

结合第三方面，在一种可能的实现方式中，发声装置用于在第一环境条件下通过按照第二音量播放第一应用对应的下行信号；

发声装置用于在第一环境条件下按照第三音量播放第二应用对应的下行信号；第二音量不等于第三音量。

结合第三方面，在一种可能的实现方式中，第一应用为通话类应用，第二应用为音乐类应用，第二音量大于第三音量。

结合第三方面，在一种可能的实现方式中，处理模块，用于：

将第一听力水平对应的预置模型确定为目标模型；目标模型为通过符合第一听力水平的用户的用户数据训练得到的；用户数据包括第一听力水平的用户在第二环境条件下的目标声音等级，以及第二环境条件下采集的下行信号和环境噪音信号的能量差值；

将改变后的下行信号和改变后的环境噪音信号的能量差值输入目标模型，得到第二声音等级。

结合第三方面，在一种可能的实现方式中，改变后的下行信号包括N个第一子带信号，改变后的环境噪音信号包括N个第二子带信号，N为正整数；N个第一子带信号与N个第二子带信号一一对应；相互对应的第一子带信号和第二子带信号组成一组信号；

结合第三方面，在一种可能的实现方式中，用户数据还包括目标声音等级前若干时刻的发声装置播放音量；

处理模块，用于：将改变后的下行信号和改变后的环境噪音信号的能量差值和前若干时刻的发声装置播放音量输入目标模型，得到第二声音等级。

结合第三方面，在一种可能的实现方式中，

发声装置用于，响应于用户调节音量键的操作，将发声装置的播放音量调整为目标声音等级；

处理模块用于，存储改变后的下行信号和改变后的环境噪音信号的能量差值和目标声音等级；

处理模块用于，以改变后的下行信号和改变后的环境噪音信号的能量差值和目标声音等级为样本数据训练目标模型。

结合第三方面，在一种可能的实现方式中，至少一个麦克风包括第一麦克风和第二麦克风，第一麦克风与发声装置的距离小于第二麦克风与发声装置的距离，第一麦克风用于采集下行信号，第二麦克风用于采集环境噪音信号。

第四方面，本申请实施例提供了一种电子设备，包括一个或多个功能模块，该一个或多个功能模块可用于执行如上述任一方面中或任一方面中任一可能的实现方式中的音量调节方法。

第五方面，本申请提供了一种计算机存储介质，包括计算机指令，当计算机指令在电子设备上运行时，使得通信装置执行上述任一方面中或任一方面中任一可能的实现方式中的音量调节方法。

第六方面，本申请提供了一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行上述任一方面中或任一方面中任一可能的实现方式中的音量调节方法。

第七方面，本申请提供了一种芯片，包括：处理器和接口，所述处理器和接口相互配合，使得所述芯片执行上述任一方面中或任一方面中任一可能的实现方式中的音量调节方法。

可以理解地，上述第四方面提供的电子设备、第五方面提供的计算机可读存储介质、第六方面提供的计算机程序产品、第七方面提供的芯片均用于执行本申请实施例所提供的方法。因此，其所能达到的有益效果可参考对应方法中的有益效果，此处不再赘述。

附图说明

图1是本申请实施例提供的一种对语音信号加窗的示意图；

图2是本申请实施例提供的一种掩蔽效应的示意图；

图3是本申请实施例提供的电子设备100的硬件结构示意图；

图4是本申请实施例提供的手机的一种硬件形态示意图；

图5是本申请实施例提供的眼镜的一种硬件形态示意图；

图6是本申请实施例提供的一种电子设备100的软件结构框图；

图7是本申请实施例提供的一种音量调节方法的整体流程示意图；

图8是本申请实施例提供的一种预置模型跟听力水平的对应关系图；

图9是本申请实施例提供的一种预置模型的训练过程的示意图；

图10是本申请实施例提供的一次训练过程的示意图；

图11是本申请提供的一种音量调节方法的整体流程示意图；

图12A至图12F为本申请实施例示例性示出的用户在电子设备进行听力测试时的一些界面图；

图13是本申请实施例提供的一种对底麦采集的信号进行分帧和加窗的示意图；

图14是本申请实施例提供的一种对顶麦采集的信号进行分帧和加窗的示意图；

图15是本申请实施例提供的一种分子带处理的示意图；

图16是本申请实施例提供的一种声音等级与播放音量的对应关系的示意图；

图17是本申请实施例提供的一种输出声音等级随着环境变化的示意图；

图18是本申请实施例提供的一种不同电子设备在同一环境中通话的播放音量对比图；

图19是本申请实施例提供的一种用户通话过程中的音量调节过程的示意图；

图20是本申请实施例提供的一种电子设备使用不同应用时调节的声音等级的对比图；

图21是本申请实施例提供的电子设备自学习前在第一环境条件下通话的部分应用界面；

图22是本申请实施例提供的电子设备自学习后在第一环境条件下通话的部分应用界面。

具体实施方式

下面将结合附图对本申请实施例中的技术方案进行清楚、详尽地描述。其中，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；文本中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，另外，在本申请实施例的描述中，“多个”是指两个或多于两个。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为暗示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征，在本申请实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

本申请以下实施例中的术语“用户界面(user interface，UI)”，是应用程序或操作系统与用户之间进行交互和信息交换的介质接口，它实现信息的内部形式与用户可以接受形式之间的转换。用户界面是通过java、可扩展标记语言(extensible markuplanguage，XML)等特定计算机语言编写的源代码，界面源代码在电子设备上经过解析，渲染，最终呈现为用户可以识别的内容。用户界面常用的表现形式是图形用户界面(graphicuser interface，GUI)，是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的文本、图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素。

以下先介绍本申请实施例涉及的部分技术术语。

1，分帧

通常情况下，语音具备时变的性质，即语音信号特性是随时间变化的，是一个非平稳随机过程。但是，从另一方面来看，语音信号虽然具有时变的性质，在短时间内其特性可以视为是稳定的。因此可以将语音信号分成时间较短的帧，每帧中可将其看做稳态信号。例如帧长一般可以取25毫秒。为了避免相邻两帧的变化过大，可以通过帧之间相互重叠的方式弥补，相邻两帧起始位置的时间差叫帧移。通常，帧移可以取帧长的一半，或固定为取10毫秒。

2，加窗

通常在对语音信号进行分帧后，需要对语音信号进行加窗操作以减轻频谱泄漏。其中，加窗操作即将语音信号与一个窗函数相乘，常用的窗函数有矩形窗、汉明窗和汉宁窗，可根据不同的情况选择不同的窗函数。

请参见图1，图1为示例性示出的对一帧语音信号加窗的示意图。如图1所示，图1中的坐标横轴为时间，纵轴为振幅；图1中的(a)为加窗前的语音信号的波形图；图1中的(b)为窗函数的波形图；图1中的(c)为加窗后的语音信号的波形图。可见，对一帧语音信号进行加窗处理后，该帧语音信号的幅度在两端渐变到0，加窗后一帧语音信号的两端部分被削弱。

3，掩蔽效应

一个较弱的声音(被掩蔽音)的听觉感受被另一个较强的声音(掩蔽音)影响的现象称为人耳的“掩蔽效应”。掩蔽效应是人耳的另一个重要生理特征。如果在一段较窄的频段上存在两种声音信号，当一个强度大于另一个时，则人耳的听觉阈值将提高，人耳朵可以听到大音量的声音信号，而其附近频率小音量的声音信号却听不到，好像是小音量信号被大音量信号掩蔽掉了。其中，人耳的听觉阈值(即可听阈)为声音能被人耳感知到的最低声压级。

请参见图2，图2是本申请实施例提供的一种掩蔽效应的示意图。如图2所示，该坐标系的横轴为频率，单位为赫兹(Hz)，纵轴为声压级，单位为分贝(dB)；图2中以实线代表可听阈，以斜线矩形代表掩蔽声，以虚线代表掩蔽阈值，以空白矩形代表被掩蔽声。在没有掩蔽声的情况下，声音的声压级大于可听阈即可被人耳听见，由图2可见，被掩蔽声的声压级均大于可听阈，因此在没有掩蔽声的情况下，人耳可以听见被掩蔽声；而当掩蔽声出现后，掩蔽声附近频率的声音的声压级需大于掩蔽阈值才可被人耳听见，由图2可见，被掩蔽声的声压级均小于掩蔽阈值，因此当掩蔽声出现后，人耳本来听见的被掩蔽声，变得听不见了。此时，只要被掩蔽声中有声音的声压级大于掩蔽阈值，以图2为例，即三个被掩蔽声中至少一个被掩蔽声的声音大于掩蔽阈值，人耳即可听见被掩蔽声。

图3示出了电子设备100的硬件结构示意图。

下面以电子设备100为例对实施例进行具体说明。应该理解的是，电子设备100可以具有比图中所示的更多的或者更少的部件，可以组合两个或多个的部件，或者可以具有不同的部件配置。图中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。

电子设备100可以包括：处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

其中，控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

I2C接口是一种双向同步串行总线，包括一根串行数据线(serial data line，SDA)和一根串行时钟线(derail clock line，SCL)。在一些实施例中，处理器110可以包含多组I2C总线。处理器110可以通过不同的I2C总线接口分别耦合触摸传感器180K，充电器，闪光灯，摄像头193等。例如：处理器110可以通过I2C接口耦合触摸传感器180K，使处理器110与触摸传感器180K通过I2C总线接口通信，实现电子设备100的触摸功能。

I2S接口可以用于音频通信。在一些实施例中，处理器110可以包含多组I2S总线。处理器110可以通过I2S总线与音频模块170耦合，实现处理器110与音频模块170之间的通信。在一些实施例中，音频模块170可以通过I2S接口向无线通信模块160传递音频信号，实现通过蓝牙耳机接听电话的功能。

PCM接口也可以用于音频通信，将模拟信号抽样，量化和编码。在一些实施例中，音频模块170与无线通信模块160可以通过PCM总线接口耦合。在一些实施例中，音频模块170也可以通过PCM接口向无线通信模块160传递音频信号，实现通过蓝牙耳机接听电话的功能。所述I2S接口和所述PCM接口都可以用于音频通信。

UART接口是一种通用串行数据总线，用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中，UART接口通常被用于连接处理器110与无线通信模块160。例如：处理器110通过UART接口与无线通信模块160中的蓝牙模块通信，实现蓝牙功能。在一些实施例中，音频模块170可以通过UART接口向无线通信模块160传递音频信号，实现通过蓝牙耳机播放音乐的功能。

MIPI接口可以被用于连接处理器110与显示屏194，摄像头193等外围器件。MIPI接口包括摄像头串行接口(camera serial interface，CSI)，显示屏串行接口(displayserial interface，DSI)等。在一些实施例中，处理器110和摄像头193通过CSI接口通信，实现电子设备100的拍摄功能。处理器110和显示屏194通过DSI接口通信，实现电子设备100的显示功能。

GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号，也可被配置为数据信号。在一些实施例中，GPIO接口可以用于连接处理器110与摄像头193，显示屏194，无线通信模块160，音频模块170，传感器模块180等。GPIO接口还可以被配置为I2C接口，I2S接口，UART接口，MIPI接口等。

SIM卡接口可以被用于与SIM卡接口195通信，实现传送数据到SIM卡或读取SIM卡中数据的功能。

USB接口130是符合USB标准规范的接口，具体可以是Mini USB接口，Micro USB接口，USB Type C接口等。USB接口130可以用于连接充电器为电子设备100充电，也可以用于电子设备100与外围设备之间传输数据。也可以用于连接耳机，通过耳机播放音频。该接口还可以用于连接其他电子设备，例如AR设备等。

可以理解的是，本申请实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备100的结构限定。在本申请另一些实施例中，电子设备100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，外部存储器，显示屏194，摄像头193，和无线通信模块160等供电。

电子设备100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A，受话器170B等)输出声音信号，或通过显示屏194显示图像或视频。在一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器110，与移动通信模块150或其他功能模块设置在同一个器件中。

无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，电子设备100的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得电子设备100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(codedivision multiple access，CDMA)，宽带码分多址(wideband code division multipleaccess，WCDMA)，时分码分多址(time-division code division multiple access，TD-SCDMA)，长期演进(long term evolution，LTE)，BT，GNSS，WLAN，NFC，FM，和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system，GPS)，全球导航卫星系统(global navigation satellite system，GLONASS)，北斗卫星导航系统(beidounavigation satellite system，BDS)，准天顶卫星系统(quasi-zenith satellitesystem，QZSS)和/或星基增强系统(satellite based augmentation systems，SBAS)。

电子设备100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emittingdiode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode，AMOLED)，柔性发光二极管(flex light-emittingdiode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot lightemitting diodes，QLED)等。在一些实施例中，电子设备100可以包括1个或N个显示屏194，N为大于1的正整数。

电子设备100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，电子设备100可以包括1个或N个摄像头193，N为大于1的正整数。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当电子设备100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样，电子设备100可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，从而执行电子设备100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用(比如人脸识别功能，指纹识别功能、移动支付功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如人脸信息模板数据，指纹信息模板等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universalflash storage，UFS)等。

电子设备100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

在本申请实施例中，电子设备可以通过发声装置播放声音信号。其中，发声装置可以为下述扬声器170A，也可以为下述受话器170B，还可以为连接电子设备的外部设备，如耳机和眼镜等，此处不作限定。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170A收听音乐，或收听免提通话。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中，电子设备100可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，电子设备100还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

压力传感器180A用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多，如电阻式压力传感器，电感式压力传感器，电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A，电极之间的电容改变。电子设备100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194，电子设备100根据压力传感器180A检测所述触摸操作强度。电子设备100也可以根据压力传感器180A的检测信号计算触摸的位置。在一些实施例中，作用于相同触摸位置，但不同触摸操作强度的触摸操作，可以对应不同的操作指令。例如：当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时，执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时，执行新建短消息的指令。

陀螺仪传感器180B可以用于确定电子设备100的运动姿态。在一些实施例中，可以通过陀螺仪传感器180B确定电子设备100围绕三个轴(即，x，y和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。示例性的，当按下快门，陀螺仪传感器180B检测电子设备100抖动的角度，根据角度计算出镜头模组需要补偿的距离，让镜头通过反向运动抵消电子设备100的抖动，实现防抖。陀螺仪传感器180B还可以用于导航，体感游戏场景。

气压传感器180C用于测量气压。在一些实施例中，电子设备100通过气压传感器180C测得的气压值计算海拔高度，辅助定位和导航。

磁传感器180D包括霍尔传感器。电子设备100可以利用磁传感器180D检测翻盖皮套的开合。在一些实施例中，当电子设备100是翻盖机时，电子设备100可以根据磁传感器180D检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态，设置翻盖自动解锁等特性。

加速度传感器180E可检测电子设备100在各个方向上(一般为三轴)加速度的大小。当电子设备100静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态，应用于横竖屏切换，计步器等应用。

距离传感器180F，用于测量距离。电子设备100可以通过红外或激光测量距离。在一些实施例中，拍摄场景，电子设备100可以利用距离传感器180F测距以实现快速对焦。

接近光传感器180G可以包括例如发光二极管(LED)和光检测器，例如光电二极管。发光二极管可以是红外发光二极管。电子设备100通过发光二极管向外发射红外光。电子设备100使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时，可以确定电子设备100附近有物体。当检测到不充分的反射光时，电子设备100可以确定电子设备100附近没有物体。电子设备100可以利用接近光传感器180G检测用户手持电子设备100贴近耳朵通话，以便自动熄灭屏幕达到省电的目的。接近光传感器180G也可用于皮套模式，口袋模式自动解锁与锁屏。

环境光传感器180L用于感知环境光亮度。电子设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合，检测电子设备100是否在口袋里，以防误触。

指纹传感器180H用于采集指纹。电子设备100可以利用采集的指纹特性实现指纹解锁，访问应用锁，指纹拍照，指纹接听来电等。

温度传感器180J用于检测温度。在一些实施例中，电子设备100利用温度传感器180J检测的温度，执行温度处理策略。例如，当温度传感器180J上报的温度超过阈值，电子设备100执行降低位于温度传感器180J附近的处理器的性能，以便降低功耗实施热保护。在另一些实施例中，当温度低于另一阈值时，电子设备100对电池142加热，以避免低温导致电子设备100异常关机。在其他一些实施例中，当温度低于又一阈值时，电子设备100对电池142的输出电压执行升压，以避免低温导致的异常关机。

触摸传感器180K，也称“触控面板”。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器180K也可以设置于电子设备100的表面，与显示屏194所处的位置不同。

按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备100可以接收按键输入，产生与电子设备100的用户设置以及功能控制有关的键信号输入。

马达191可以产生振动提示。马达191可以用于来电振动提示，也可以用于触摸振动反馈。例如，作用于不同应用(例如拍照，音频播放等)的触摸操作，可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作，马达191也可对应不同的振动反馈效果。不同的应用场景(例如：时间提醒，接收信息，闹钟，游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。

指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于合成请求，未接来电，通知等。

SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195，或从SIM卡接口195拔出，实现和电子设备100的接触和分离。电子设备100可以支持1个或N个SIM卡接口，N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡，Micro SIM卡，SIM卡等。同一个SIM卡接口195可以同时插入多张卡。所述多张卡的类型可以相同，也可以不同。SIM卡接口195也可以兼容不同类型的SIM卡。SIM卡接口195也可以兼容外部存储卡。电子设备100通过SIM卡和网络交互，实现通话以及数据通信等功能。

本申请实施例中，电子设备100可以通过处理器110执行本申请实施例提供的音量调节方法。

本申请实施例中，上述电子设备100可以包括两个麦克风，其中，一个麦克风用于获取噪音信号；另一个麦克风用于获取下行信号。例如，电子设备100可以为图4所示的手机或者图5所示的眼镜。其中，下行信号为电子设备通过发声装置播放的音频；例如在通话中，下行信号为电子设备通过听筒播放的通话对方的声音；又例如在收听歌曲时，下行信号为电子设备播放的歌曲。

请参见图4，图4示例性示出了手机的一种硬件形态。手机可以通过多种播放形式播放下行信号，例如听筒和耳机等，不同的播放形式可以对应不同的预置模型或音量调节方法。以下以听筒为例介绍手机采集下行信号和噪音信号的过程。

如图4所示，手机的一个麦克风位于听筒一侧；手机的另一个麦克风位于听筒对侧。为方便描述，本申请实施例中将位于听筒一侧的麦克风称为顶部麦克风(简称，顶麦)；将位于听筒对侧的麦克风称为底部麦克风(简称，底麦)。可以理解的，顶麦与听筒的位置靠近，可以更好的采集到听筒播放的下行信号。因此，本申请的一些实施例中可以将顶麦采集到的信号作为下行信号，将底麦采集的信号作为噪音信号。

需要说明的是，在本申请的其它一些实施例中，手机可以从顶麦采集的信号中确定下行信号，例如手机从顶麦采集的信号中识别噪音信号并去除噪音信号，得到下行信号；又例如，手机将顶麦采集的信号和底部麦克风采集的信号进行对比，将顶麦采集的信号和底部麦克风采集的信号中的差异部分作为下行信号。

另外，如图4所示，手机还可以包括音量键，其中，标有(+)的一侧为音量键的音量增加键；标有(-)的一侧为音量键的音量减小键。其中，音量键用于调整听筒或扬声器的声音等级。例如，该手机包括10个声音等级，等级越高则播放音量越大；用户可以通过按音量增加键确定更高等级的声音等级，使得播放音量变大。

请参见图5，图5示例性示出了眼镜的一种硬件形态。如图5所示，眼镜的两个眼镜腿可以分别设置有两个麦克风和听筒。如图5所示，由于第二麦克风与听筒位置较近，因此第二麦克风用于获取下行信号，第一麦克风用于获取噪音信号。

需要说明的是，本申请的一些实施例中可以将第二麦克风采集到的信号作为下行信号，将第一麦克风采集的信号作为噪音信号。在本申请的其它一些实施例中，可以从第二麦克风采集的信号中确定下行信号，例如从第二麦克风采集的信号中识别噪音信号并去除噪音信号，得到下行信号；又例如，将第二麦克风采集的信号和底部麦克风采集的信号进行对比，将第二麦克风采集的信号和底部麦克风采集的信号中的差异部分作为下行信号。

图6为本申请实施例公开的一种电子设备100的软件结构框图。

分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将系统分为四层，从上至下分别为应用程序层，应用程序框架层，运行时(Runtime)和系统库，以及内核层。

应用程序层可以包括一系列应用程序包。

如图6所示，应用程序层还包括通话防漏音模块，应用程序包可以包括相机，图库，日历，通话，地图，导航，WLAN，蓝牙，音乐，视频，短信息等应用程序(也可以称为应用)。

其中，通话防漏音模块用于通话过程中调节下行信号的播放音量。通话防漏音模块具体可以包括如图7所示的听力水平测试模型、音频计算模块和自学习模块等，其中，听力水平测试模型、音频计算模块和自学习模块等的具体内容可以参见下文中的相关内容，此处不做赘述。

应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。

如图6所示，应用程序框架层可以包括窗口管理器，内容提供器，视图系统，电话管理器，资源管理器，通知管理器等。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。

视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

电话管理器用于提供电子设备100的通信功能。例如通话状态的管理(包括接通，挂断等)。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话界面形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，电子设备振动，指示灯闪烁等。

运行时(Runtime)包括核心库和虚拟机。Runtime负责系统的调度和管理。

核心库包含两部分：一部分是编程语言(例如，jave语言)需要调用的功能函数，另一部分是系统的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的编程文件(例如，jave文件)执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

系统库可以包括多个功能模块。例如：表面管理器(surface manager)，媒体库(Media Libraries)，三维图形处理库(例如：OpenGL ES)，二维图形引擎(例如：SGL)等。

表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了二维(2-Dimensional，2D)和三维(3-Dimensional，3D)图层的融合。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如:MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。

三维图形处理库用于实现3D图形绘图，图像渲染，合成，和图层处理等。

2D图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动，虚拟卡驱动。

下面结合捕获拍照场景，示例性说明电子设备100软件以及硬件的工作流程。

当触摸传感器180K接收到触摸操作，相应的硬件中断被发给内核层。内核层将触摸操作加工成原始输入事件(包括触摸坐标，触摸操作的时间戳等信息)。原始输入事件被存储在内核层。应用程序框架层从内核层获取原始输入事件，识别该输入事件所对应的控件。以该触摸操作是触摸单击操作，该单击操作所对应的控件为相机应用图标的控件为例，相机应用调用应用框架层的接口，启动相机应用，进而通过调用内核层启动摄像头驱动，通过摄像头193捕获静态图像或视频。

首先，结合图7，介绍本申请一些实施例提供的音量调节方法的整体流程。

如图7所示，电子设备可以包括信号获取模块、听力水平测试模块、音量计算模块、自学习模块和音量调节模块。其中，信号获取模块可以包括噪音信号获取器和下行信号获取器，例如该噪音信号获取器和下行信号获取器可以为电子设备100的麦克风；又例如，下行信号获取器可以为图4所示的手机的顶麦，噪音信号获取器可以为图4所示的手机的底麦；又例如，下行信号获取器可以为图5所示的眼镜的第一麦克风，噪音信号获取器可以为图5所示的眼镜的第二麦克风。

音量计算模块可以基于噪音信号获取器获取的噪音信号跟下行信号获取器获取的下行信号的差异，确定特征向量，其中，特征向量可以包括上述噪音信号的分频段信号和上述下行信号的分频段信号的能量差值，下行信号中分频段信号中的任一频段的信号的分贝值大于掩蔽效应中的掩蔽阈值则该下行信号可被用户听到；将该特征向量输入目标模型，可以得到输出声音等级，电子设备的声音等级包括该输出声音等级。其中，目标模型可以是基于播放音频对应的应用、播放音频的播放方式以及用户确定的，具体可参见下文中的相关内容。

音量调整模块可以将电子设备基于输出声音等级调整下行信号的播放音量。其中，声音等级用于调整音频的播放音量；电子设备可以按照不同的声音等级播放音频，电子设备按照不同的声音等级播放音频时音频的播放音量不同，具体可参见图16中的相关描述。

其中，目标模型可以是听力水平测试模块基于用户的听力水平从若干个预置模型中确定的一个预置模型；目标模型也可以播放音频对应的应用对应的预置模型。听力水平测试模块用于测试用户的听力水平，用户的听力水平对应的预置模型即为目标模型。自学习模块用于基于用户的使用数据对目标模型进行训练，以更新目标模型，使该目标模型的输出结果更符合用户的使用习惯。

接下来，介绍预置模型的原理。

请参见图8，图8示例性示出了K个预置模型跟听力水平的对应关系，其中，K为正整数。如图8所示，听力水平测试模块可以将用户的听力水平分为K个听力水平，分别为听力水平1、听力水平2至听力水平K。每一个听力水平与一个预置模型相对应，例如，听力水平1对应的预置模型为预置模型1，听力水平2对应的预置模型为预置模型2，听力水平K对应的预置模型为预置模型K。例如，听力水平1为年龄段1的听力水平，则预置模型1为可以输出满足年龄段1的听力需求的模型；听力水平2为年龄段2的听力水平，则预置模型2为可以输出满足年龄段2的听力需求的模型。

需要说明的是，由于每一个预置模型可以是基于该听力水平对应的用户训练集训练得到的，因此，预置模块可以满足其对应的用户的听力需求。

其中，用户训练集包括多个特征向量和每一个特征向量对应的目标声音等级，每一个特征向量是基于上行信号和噪音信号的差异得到的。其中，该目标声音等级可以为用户的舒适声音等级或用户能听清的最低声音等级。例如，电子设备按照第一声音等级播放音频，用户认为该音频的播放音量舒适，则第一声音等级为用户的舒适声音等级；电子设备按照第一声音等级播放音频，用户觉得该音频的播放音量为其能听清的最低音量，则第一声音等级为用户能听清的最低声音等级。

可以理解的，若目标声音等级为舒适声音等级，则基于该目标声音等级训练的预置模型的输出声音等级为用户的舒适声音等级。若目标声音等级为用户能听清的最低声音等级，则基于该目标声音等级训练的预置模型的输出声音等级为用户能听清的最低声音等级或较低的声音等级。

以下示例性以舒适声音等级为例介绍用户训练集的获取过程。

首先，可以采集若干人在不同场景下的舒适声音等级以及对应该音量的下行信号和噪音信号。这里所述的场景维度包括环境噪声的大小、类型、播放不同的音源等等。进而，基于下行信号和噪音信号，计算每一个舒适声音等级对应的特征向量，那么，一个舒适声音等级和该舒适声音等级对应的特征向量可以作为用户训练集的一条训练数据，该舒适声音等级即为上述目标声音等级，从而得到用户训练集。需要说明的是，为避免音量的短时波动，还可以对前后两帧语音的舒适声音等级进行平滑处理。

需要说明的是，不同听力水平对应的用户训练集可以基于不同听力水平的用户数据得到的。例如年龄段1的听力水平为听力水平1，则听力水平1对应的用户训练集即是基于年龄段1的舒适声音等级以及对应该音量的下行信号和噪音信号得到的；又例如年龄段2的听力水平为听力水平2，则听力水平2对应的用户训练集即是基于年龄段2的舒适声音等级以及对应该音量的下行信号和噪音信号得到的。

以下示例性以预置模型1为例，介绍预置模型的训练过程。

请参见图9，电子设备可以先获取听力水平1的用户训练集，该用户训练集可以包括多条训练数据，例如多条训练数据包括第j条训练数据，第j条训练数据包括第j帧下行信号的输入数据和目标声音等级。电子设备可以基于每一条训练数据对初始预置模型进行训练，在损失满足预设条件时结束训练，得到预置模型1。

请参见图10，图10以第j条训练数据为例介绍一次训练过程。第j条训练数据包括第j帧下行信号的输入数据和目标声音等级a，其中，第j帧下行信号的输入数据可以包括第j帧下行信号前若干时刻听筒的声音等级和第j帧下行信号的特征向量，第j帧下行信号的特征向量是基于第j帧下行信号和第j帧噪音信号的差异得到的。电子设备将第j条训练数据输入初始预置模型，得到输出声音等级b；电子设备将目标声音等级a和输出声音等级b进行对比，得到目标声音等级a和输出声音等级b的损失；将该损失反馈值初始预置模型。

需要说明的是，在其他一些实施例中，第j帧下行信号的输入数据也可以不包括第j帧下行信号前若干时刻听筒的声音等级。本申请实施例中，输入数据包括前若干时刻听筒的声音等级是为了音量变化平滑，避免突然音量增大过多或降低太多的情况。

可以理解的，上述预置模型只是对用户的音量使用习惯大数据的平均值建模；本申请实施例提供的音量调节方法考虑到实际用户个体之间听力水平和听音习惯差异较大，根据每个用户的使用历史，自适应学习和更新上述预置模型，以达到用户使用越多，音量调节越准的效果，从而满足每个用户个性化的需求。

具体地，电子设备可以在用户实际使用过程中，记录用户每次手动调节音量时的特征向量、调节后的声音等级和调节前若干个时刻的声音等级，其中，特征向量为用户手动调节音量时采集的下行信号和噪音信号的差异；电子设备可以将特征向量、调节后的声音等级和调节前若干个时刻的声音等级作为一条训练数据，存储在自学习训练集中，其中，特征向量和调节前若干个时刻的声音等级为输入数据，调节后的声音等级为目标声音等级。进而，电子设备可以在该自学习训练集中训练数据条数满足预设数量时，在合适的时机(例如夜间时)基于该自学习训练集对目标模型进行训练。例如，电子设备在用户点击图12A所示的用户界面21中的同意控件212时，在用户每次通话过程中，检测用户在通话过程中的音量调节操作，在用户进行音量调节操作时，将该此时的下行信号和噪音信号得到的特征向量、用户调节后的声音等级和调节前若干个时刻的声音等级保存作为一条训练数据。

在另一种实现中，电子设备也可以将目标模型和自学习训练集发送至服务器，由服务器利用该自学习训练集对目标模型进行训练；服务器再将训练后的目标模型发送至电子设备。

在一些实施例中，电子设备上不同的应用可以对应不同的预置模型，例如应用1对应的预置模型为模型1、模型2和模型3，应用2对应的预置模型为模型4、模型5和模型6；进而，电子设备可以基于用户的听力水平从应用对应的预置模型中确定应用对应的目标模型；基于该目标模型对该应用播放的音频进行音量调节。其中，模型1、模型2和模型3是基于不同听力水平的用户使用应用1时的用户数据训练得到的，模型4、模型5和模型6是基于不同听力水平的用户使用应用2时的用户数据训练得到的，训练过程可以参见上文中的相关描述，此处不再赘述。

其中，应用1可以为通话类应用，该应用具备通话功能，用户可通过该软件与其他用户进行视频通信或者语音通信，例如手机系统自带的通话应用或者畅连等；应用2可以为音乐类应用，该应用具备播放音频的功能，例如手机系统自带的音频软件或华为音乐、华为视频等。可以理解的，一般情况下，用户对通话类应用的保密要求较高，会将通话类应用的下行信号的音量调整的较小，因此，在相同环境下，通话类应用的目标模型输出的声音等级低于音乐类应用输出的声音等级。

在一种实现中，电子设备中的听力测试结果可以用于多个应用，即一个听力水平可以分别对应不同应用的预置模型。例如电子设备在确定用户A的听力水平为听力水平1时，可以确定应用1对应的目标模型为模型1，应用2对应的目标模型为3。

在另一种实现中，电子设备可以针对不同的应用配置有不同的听力水平测试。例如，应用1对应的听力测试为听力测试1，应用2对应的听力测试为听力测试2，假设用户A在听力测试1的测试结果为听力水平3，在听力测试2的测试结果为听力水平2，其中，听力水平3对应的目标模型为模型3，听力水平2对应的目标模型为模型5，则应用1对应的目标模型为模型3，应用2对应的目标模型为模型5。

本申请实施例提供的音量调节方法可以应用于多种场景，例如通话场景，如用户通过手机或眼镜接听来电；或者听歌场景，如用户佩戴眼镜听歌等，此处不做限制。

以下以电子设备为手机，用户通过手机接听来电的场景为例，对本申请实施例提供的音量调节方法进行详细介绍。

请参见图11，图11是本申请提供的一种音量调节方法的整体流程示意图。该方法可以包括以下步骤：

步骤S101:电子设备响应于开始听力测试的用户操作，按照不同音量播放预设音频。

其中，音量可以为播放音量或声音等级；每一个音量与一个预设的听力水平相对应。例如电子设备分别按照5分贝、15分贝、25分贝和35分贝的播放音量播放预设音频，每一个播放音量对应一个听力水平。又例如电子设备按照不同的预设声音等级播放预设音频，如电子设备包括10个声音等级，预设声音等级为10个声音等级中的5个声音等级，5个音频分别与5个听力水平相对应。其中，声音等级越高时听筒播放的音频的响度越大。

在一些实施例中，电子设备的系统设置可以包括通话防漏音功能选项；因此，用户可以通过针对该通话防漏音功能选项的用户操作开启通话防漏音功能，相应的，电子设备在检测到该用户操作时，响应于该用户操作，按照不同音量播放预设音频。其中，预设音频可以为一段新闻或音乐等，此处不作限定。

在一种实现中，电子设备可以按照从低到高的音量播放同一内容的预设音频。需要说明的是，电子设备如果按照从高到低的音量播放同一内容的预设音频，用户由于在高音量播放预设音频时已经听清音频内容，该方法会对用户判断低音量是否能够听清音频内容的准确性造成影响。

请参见图12A至图12F，图12A至图12F为本申请实施例示例性示出的用户在电子设备进行听力测试时的一些界面图。

图12A示例性示出了电子设备的系统设置中的一个用户界面21，该用户界面21包括防漏音开关211和同意控件212。该防漏音开关211用于开启通话防漏音功能，防漏音开关211下面显示有提示信息“为了匹配您的最近听力曲线，开启此功能需要先进行听力水平测试”；同意控件212用于获取用户的音量使用信息，该音量使用信息用于对目标模型的训练。

如图12A所示，电子设备在检测到用户针对防漏音开关211的用户操作时，响应于该用户操作，电子设备可以显示如图12B所示的用户界面22。该用户界面22显示有提示信息“即将按照音量1播放预设语音，请保持日常通话姿势收听听筒播放的语音，并在语音播放结束后确定是否采用该音量”。其中，音量1可以为最低音量。可以理解的，用户在看到用户界面22的提示信息后可以将手机放置耳边，等待语音播放。

进而，电子设备在显示用户界面22的若干秒后可以按照音量1开始播放预设音频；在播放结束后，电子设备可以显示如图12C所示的用户界面23，该用户界面23可以包括满意控件231和不满意控件232。其中，满意控件231用于指示音量1为用户满意的音量；不满意控件232用于指示音量1为用户不满意的音量。可以理解的，用户可以在语音播放结束时，查看手机界面，在看到手机显示如图12C所示的用户界面23时，基于语音播放过程中的用户体验，选择相应选项。

例如，用户感觉音量1声音太小，则可以点击不满意控件232，那么，电子设备在检测到用户针对不满意控件232的用户操作时，响应于该用户操作，可以显示如图12D所示的用户界面24。用户界面24显示有提示信息“即将按照音量2播放预设语音，请保持日常通话姿势收听听筒播放的语音，并在语音播放结束后确定是否采用该音量”。其中，音量2可以为比音量1音量高一个等级的音量，例如电子设备的音量分为五个等级，音量从低到高分别为音量1、音量2、音量3、音量4、音量5。

进而，电子设备在显示用户界面24的若干秒后可以按照音量2开始播放预设音频；在播放结束后，电子设备可以显示如图12E所示的用户界面25，该用户界面25可以包括满意控件251和不满意控件252。其中，满意控件251用于指示音量2为用户满意的音量；不满意控件252用于指示音量2为用户不满意的音量。

例如，用户感觉音量2符合其听力需求，则可以点击满意控件251，那么，电子设备在检测到用户针对满意控件251的用户操作时，响应于该用户操作，显示如图12F所示的用户界面26。用户界面26显示有提示信息“感谢您的配合，已完成听力测试！将基于音量2对您在通话过程中听筒音量进行智能调节，以保证您的信息安全”。

在一些实施例中，电子设备在检测到针对不满意控件的用户操作时，可以按照下一个音量播放预设音频，例如电子设备在检测到用户针对音量1的不满意控件232的用户操作时，按照音量2播放预设语音继续听力测试。电子设备在检测到针对满意控件的用户操作时，确定该满意控件指示的音量为用户满意的音量，电子设备可以结束听力测试，例如电子设备检测到用户针对音量2的满意控件251的用户操作时，确定音量2为用户满意的音量，显示如图12F所示的用户界面26，不再进行听力测试。

在另一些实施例中，电子设备在检测到针对满意控件的用户操作时，可以继续进行听力测试，完成所有音量的测试。例如所有音量包括音量1至音量5，音量1为最低音量，音量5为最高音量，电子设备可以按照所有音量播放预设，并显示类似于如图12C所示的用户界面23以供用户对每一个音量进行选择，在检测到用户完成所有音量的选择后，结束听力测试。

步骤S102:电子设备基于针对不同音量的用户操作，确定用户的听力水平。

在一些实施例中，电子设备响应于用户对某一音量的满意操作，将该音量对应的听力水平确定为用户的听力水平。例如，如图12A至图12F所示，电子设备检测到用户针对用户界面25上的满意控件251的用户操作时，将音量2确定为用户满意的音量；则电子设备可以将音量2对应的听力水平2确定为用户听力水平。

例如，若音量1至音量5依次为从低到高的播放音量，则听力较佳的用户可能会选择音量1，而听力较差的用户可能会选择音量5。其中，音量1对应的听力水平为听力最差的用户的听力水平；音量5对应的听力水平可以为听力最佳的用户的听力水平。

步骤S103:电子设备基于用户的听力水平，从多个预置模型中确定目标模型。

其中，听力水平和预置模型为一一对应的关系。如图8所示，每一个听力水平对应一个预置模型。例如，听力水平2对应的预置模型为预置模型2，则电子设备在确定用户的听力水平为听力水平2时，电子设备可以将预置模型2确定为目标模型。

例如，假设步骤S101中听力测试中包括5个音量，则电子设备可以预置有5个预置模型，5个预置模型分别对应5个音量对应的听力水平。进而，在用户选中其中一个音量时，也即是从5个预置模型中选中了目标模型。本申请实施例对电子设备听力测试的音量个数以及预置模型的个数不作限定。

可以理解的，上述不同音量用于区分用户的听力水平；用户听力水平用于确定预置模型。

步骤S104:电子设备在检测到接听来电的用户操作时，开启手机的顶部麦克风和底部麦克风，得到噪音信号和下行信号。

其中，顶部麦克风(即顶麦)和底部麦克风(底麦)的位置可以如图4所示。

在一些实施例中，电子设备在接收到来电时，可以显示通话界面；进而，电子设备在检测到接听来电的用户操作时，可以响应于该用户操作，通过听筒播放下行信号，开启手机的顶部麦克风和底部麦克风；电子设备可以将顶麦采集的信号作为下行信号，将底麦采集的信号作为噪音信号。

需要说明的是，由于顶麦和听筒的位置接近，因此，本申请实施例中将顶麦采集的信号作为采集的下行信号。

步骤S105:电子设备基于噪音信号和下行信号，得到至少一帧下行信号的特征向量。

在一些实施例中，电子设备可以计算下行信号和该帧下行信号对应的噪音信号的能量差值，将该能量差值作为该帧下行信号的特征向量。其中，该帧下行信号和该帧噪音信号分别为顶部麦克风和底部麦克风在同一时刻采集的信号；能量差值可以为该帧下行信号和该帧噪音信号在多个频段上的能量差值。

在一种实现中，电子设备可以对麦克风采集的噪声信号和下行信号，分别进行分帧、加窗处理，得到M帧噪音信号和M帧下行信号，也即是M组音频信号，其中，M为正整数，每一组音频信号包括同一时刻采集的下行信号和噪音信号；进而，电子设备分别对每组音频信号中的下行信号和噪音信号进行分子带处理，得到下行信号的N个信号子带和噪音信号的N个信号子带，其中，N为大于1的整数；进而，电子设备计算每一帧音频信号中的每一个信号子带信号对应的噪音信号和下行信号的能量差值，得到每一组音频信号对应的N维的特征向量。其中，分子带处理是将一帧信号分成频段不同的多个信号，每一个子带信号的频段不同。

假设M组音频信号中包括第i组音频信号，以下示例性以第i组音频信号为例介绍计算特征向量的过程。

请参见图13，图13是本申请实施例提供的一种对底麦采集的信号进行分帧和加窗的示意图。如图13所示，电子设备将底麦采集的信号进行分帧和加窗后，可以得到M帧噪音信号，其中，M帧噪音信号包括第i帧噪音信号，i≤M。

请参见图14，图14是本申请实施例提供的一种对顶麦采集的信号进行分帧和加窗的示意图。如图14所示，电子设备将顶麦采集的信号进行分帧和加窗后，可以得到M帧下行信号，其中，M帧下行信号包括第i帧下行信号。

进而，如图15所示，电子设备可以分别将第i帧噪音信号和第i帧下行信号分别进行分子带处理，得到第i帧噪音信号对应的N个子带信号和第i帧下行信号对应的N个子带信号。其中，第i帧噪音信号和第i帧下行信号的子带数相等，第i帧噪音信号的一个子带信号和第i帧下行信号的一个子带信号的频段相同，例如第i帧噪音信号的第一子带信号与第i帧下行信号的第一子带信号频段相同，第i帧噪音信号的第二子带信号与第i帧下行信号的第二子带信号频段相同，以此类推，第i帧噪音信号的第N子带信号与第i帧下行信号的第N子带信号频段相同。

最后，电子设备可以分别将第i帧噪音信号和第i帧下行信号相同频段的子带信号的能量进行相减，例如，将第i帧噪音信号的第一子带信号的能量减去第i帧下行信号的第一子带信号的能量得到d₁，将第i帧噪音信号的第二子带信号的能量减去第i帧下行信号的第二子带信号的能量得到d₂，以此类推，将第i帧噪音信号的第N子带信号的能量减去第i帧下行信号的第N子带信号的能量得到d_N，从而可以得到第i帧下行信号的N维特征向量为[d₁,d₂,…,d_N]^T。其中上标T代表向量或者矩阵的转置。

步骤S106:电子设备将至少一帧下行信号的特征向量将输入目标模型，得到输出声音等级。

其中，电子设备的声音等级包括该输出声音等级；声音等级用于调整听筒的播放音量。其中，声音等级可以为下行信号的声压级，例如以分贝为单位。其中，声音等级越高，听筒的播放音量越大。例如手机音量键可以调节的音量包括10挡，即用户将手机从最低音量调整至最高音量可以按10次音量增加键；该10挡依次可以分别为声音等级1、声音等级2直至声音等级10，则输出声音等级为声音等级1至声音等级10中的一个声音等级。其中，声音等级1等级最低，播放音量最小；声音等级10等级最高，播放音量最大。

在一些实施例中，在至少一帧下行信号的特征向量为一帧下行信号的特征向量时，电子设备可以将该帧下行信号的特征向量和该帧下行信号的前若干时刻听筒的声音等级输入目标模型，得到输出声音等级。例如，至少一帧下行信号的特征向量为第i帧下行信号的特征向量为[d₁,d₂,…,d_N]^T，那么电子设备可以将第i帧下行信号的特征向量输入目标模型，得到输出声音等级。

在另一些实施例中，至少一帧下行信号的特征向量包括多帧下行信号的特征向量，则电子设备可以先从多帧下行信号的特征向量中选择一帧下行信号的特征向量，将该帧下行信号的特征向量和该帧下行信号的前若干时刻听筒的声音等级输入目标模型，得到输出声音等级。

其中，输出声音等级为电子设备预测的用户在当前环境能够听清的最低声音等级或舒适声音等级。

需要说明的是，在一些实施例中，用户听不清音量1播放的语音，听得清音量2播放的语音，用户选择音量2，相应的，电子设备将预置模型2确定为目标模型，则预置模型2的输出声音等级是用户能听清的最低声音等级。该方法中，电子设备在不同环境中采集的下行信号和噪音信号不同，输入目标模型的特征向量不同，因此目标模型输出不同的音量，该输出声音等级为用户在当前环境能听清的最低声音等级，该方法可以保证用户通话过程中的信息安全，避免被外人听到通话内容。

在另一些实施例中，用户听得清音量1播放的语音，但是用户认为音量2听起来更舒适，更符合他的音量要求，则预置模型2的输出声音等级是用户的舒适声音等级。该方法中电子设备在不同环境中采集的下行信号和噪音信号不同，输入目标模型的特征向量不同，因此目标模型输出不同的音量，该输出声音等级为用户在当前环境用户能听清的舒适声音等级，可以提高用户通话过程中的用户体验。

步骤S107:电子设备基于输出声音等级播放下行信号。

在一些实施例中，电子设备在得到输出声音等级后，将该输出声音等级与电子设备播放下行信号的当前声音等级进行对比；在输出声音等级与当前声音等级的差值大于预设阈值时，将当前声音等级调整至输出声音等级，也即是，将当前声音等级调整至输出声音等级。

例如电子设备的声音等级包括10个等级，从低到高依次为声音等级1至声音等级10，每个声音等级的分贝差值为5分贝。假设当前声音等级为声音等级1，输出声音等级为声音等级3，预设阈值为2级声音等级，则电子设备将当前声音等级由声音等级1调整至声音等级3，也就是说，电子设备可以将下行信号的分贝值增加10分贝后通过听筒播放。

其中，同一声音等级的各个频段的下行信号的音量不同。

请参见图16，图16示例性示出了部分频段的下行信号。图16示例性示出了三个频段的下行信号，位于纵坐标上的三个三角形用于标识声音等级1时三个频段的下行信号的声压级；位于纵坐标上的三个圆形用于标识声音等级1时三个频段的下行信号的声压级。如图16所示，图16示例性的示出了三个频段的下行信号在同一声音等级时音量不同。

如图16所示，电子设备将当前声音等级由声音等级1调整至声音等级3后，其中，声音等级3的等级高于声音等级1的等级；假设每一个声音等级相差5分贝，则当前声音等级由声音等级1调整至声音等级3时每一个频段的下行信号的播放音量均增高10分贝。可以理解的，若该电子设备为手机，该手机的音量键可以调节的音量为10挡，则手机自动将当前声音等级由声音等级1调整至声音等级3，与用户手动连按两下音量增加键的效果相同。

需要说明的是，电子设备的声音等级还可以为10个或15个，此处不作限定。

在另一些实施例中，电子设备可以在基于预设时长内的多个输出声音等级与当前声音等级的差值均大于预设阈值时，才将当前声音等级调整至输出声音等级。可以理解的，该方法可以避免数据波动导致音量频繁调节带来的负面影响。

需要说明的是，电子设备针对不同听力水平的用户时，按照同一声音等级播放同一下行信号时播放音量可以不同。例如听力水平1的用户使用电子设备时，电子设备通过声音等级1播放频段A的下行信号，此时该下行信号的播放音量为音量1；听力水平2的用户使用电子设备时，电子设备通过声音等级1播放频段A的下行信号，此时该下行信号的播放音量为音量2；音量1的分贝值不等于音量2的分贝值。

以下示例性介绍几个应用场景。

(一)同一用户使用同一电子设备在不同环境中通话。

假设用户A通过如上文所述的听力水平测试，在电子设备上选择了自己能听清的最低音量作为满意音量，该满意音量对应的预置模型即为目标模型。那么，该目标模型用于在不同环境下输出用户A能听清的最低声音等级，该电子设备可以在不同环境中调节听筒播放音量为用户能听清的最低音量。

当用户A在不同环境中进行通话时，由于环境中的噪音信号的大小不同，电子设备在不同场景下得到的特征向量不同，电子设备将不同的特征向量将输入目标模型，得到输出声音等级也不同。

请参见图17，图17为本申请实施例提供的一种输出声音等级随着环境变化的示意图。

如图17中的(A)所示，假设用户A位于嘈杂环境中通过电子设备进行通话时，例如食堂或路上等环境，此时分贝值最高的噪音信号为第一噪音信号，第一噪音信号的音量为噪音音量1，则电子设备可以基于目标模型得到声音等级1，声音等级1具体用于调整各个频段的下行信号的播放音量(分贝值)。图17中示例性的以频段A的下行信号为例进行说明，在电子设备调节听筒的声音等级为声音等级1后，频段A的下行信号的播放音量为播放音量1。可见，播放音量1的分贝值大于此时第一噪音信号造成的掩蔽阈值。

如图17中的(B)所示，假设用户A位于安静环境中通过电子设备进行通话时，例如会议室等环境，此时分贝值最高的噪音信号为第二噪音信号，第二噪音信号的音量为噪音音量2，则电子设备可以基于目标模型得到声音等级2，声音等级2具体用于调整各个频段的下行信号的播放音量。图17中示例性的以频段A的下行信号为例进行说明，在电子设备调节听筒的声音等级为声音等级1后，频段A的下行信号的播放音量为播放音量2。可见，播放音量2的分贝值大于此时第二噪音信号造成的掩蔽阈值。

对比图17中的(A)和(B)可见，第二噪音信号的噪音音量2比第一噪音信号的噪音音量1小了a分贝，播放音量2比播放音量1小了b分贝；播放音量1和播放音量2均高于当时环境下的掩蔽阈值。可见，在用户A在较安静的环境时基于目标模型得到的播放音量比在较嘈杂的环境时基于目标模型的得到的播放音量低，也就是说，电子设备可以基于目标模型，在较安静环境时调低下行信号的播放音量，在较嘈杂环境时调高下行信号的播放音量，且保持下行信号的播放音量一直高于掩蔽阈值，使得下行信号的播放音量在任何环境下均为用户可听清的最低音量。

(二)不同用户使用不同电子设备在同一环境中通话。

假设用户A为年龄段1，用户A通过如上文所述的听力水平测试，选择了自己能听清的最低音量(如音量3)作为满意音量，该满意音量对应的预置模型为预置模型3；用户B为年龄段2，用户B通过如上文所述的听力水平测试，选择了自己能听清的最低声音等级(如音量1)作为满意音量，该满意音量对应的预置模型为预置模型1。其中，音量3大于音量1。

图18中示例性示出了以频段A的下行信号，如图18所示，当用户A和用户B位于同一环境进行通话时，用户A的电子设备基于预置模型3得到的播放音量的分贝值大于用户B基于预置模型1得到的播放音量的分贝值；用户A的电子设备的播放音量和用户B的电子设备的播放音量均大于掩蔽阈值。

可见，用户可以基于听力水平测试选择满足自身听力需求的预置模型，相应的，电子设备可以基于用户选择的预置模型得到满足用户听力需求的声音等级，将下行信号的播放音量调整至声音等级对应的播放音量，以满足不同人群的听力需求。

(三)用户使用同一电子设备在噪音差距较大的两个环境中通话。

在一些实施例中，电子设备可以在用户分别处于在噪音差距较大的两个环境中时，通过目标模型缓慢调节音量。其中，目标模型可以参见上文中的说明，此处不再赘述。

需要说明的是，以下以通话过程为例进行说明，其他场景例如播放音乐等场景同样适用。

例如，用户在通话过程中，由安静环境移动至嘈杂环境，电子设备可以缓慢升高听筒播放下行信号的声音等级，直至将听筒的声音等级升高至嘈杂环境时对应的声音等级；又例如，用户在通话过程中，由嘈杂环境移动至安静环境，电子设备可以缓慢降低听筒播放下行信号的声音等级，直至将听筒的声音等级降低至安静环境时对应的声音等级。

请参见图19，图19示例性示出了用户通话过程中的音量调节过程。图19所示的用户界面31、用户界面32和用户界面33分别为用户与鲍勃(Bob)通话过程中用户的电子设备上显示的界面图。其中，用户界面31为通话00:07时的用户界面，用户界面32为通话00:09时的用户界面，用户界面33为通话00:11时的用户界面。

由于用户在通话00:07时处于安静环境，因此，电子设备基于该环境下采集的下行信号、噪音信号，通过目标模型可以得到声音等级2。由用户界面31可见，电子设备在用户在通话00:07时通过声音等级2播放下行信号。

用户在通话00:07后环境变得嘈杂，例如用户移动位置或者当前环境开始播放音乐等情况，电子设备基于嘈杂环境下采集的下行信号和噪音信号，通过目标模型得到声音等级4。电子设备可以在通话00:09时先将听筒的播放声音等级调节至声音等级3，如用户界面32所示；进而，再在通话00:11时将听筒的播放声音等级调节至声音等级4，如用户界面33所示。可以理解的，该方法可以避免突然调节多个等级的音量时用户听觉感到不适的情况。

需要说明的是，用户界面31至用户界面33仅为本申请实施例提供的一种示例性界面，其目的仅是为了清楚的展示当前界面的声音等级，不应造成对本申请实施例的限制；电子设备在实际调节音量的过程，也可以不显示如图19中用户界面31至用户界面33中的音量调节部分，也就是说，电子设备可以在自动调节音量时不显示听筒的声音等级。

(四)用户在同一电子设备操作不同的应用。

在一些实施例中，电子设备上不同的应用可以对应不同的目标模型；进而，电子设备可以基于应用对应的目标模型，对该应用播放的音频进行音量调节。例如，电子设备上安装有通话应用和音乐应用；其中，通话应用对应第一目标模型，音乐应用对应第二目标模型，那么，用户在同一环境中使用通话应用进行通话，通话时通话对方声音的播放音量是基于第一目标模型得到的，而使用音乐应用进行播放时，音乐应用播放的歌曲音量是基于第二目标模型得到的，上述通话对方声音的播放音量和上述歌曲音量可以是不同音量。

请参见图20，图20示例性示出了用户通过同一电子设备使用不同应用时电子设备调节的声音等级。以下示例性以通话应用和音乐应用为例，假设通话应用对应的第一目标应用为用户能听清的最低音量对应的预设模型；音乐应用对应的第二目标应用为用户最舒适的音量对应的预设模型。可以理解的，该用户可能认为通话内容的保密性高于音乐，因此希望通话时的音量尽可能的小。

如图20所示，电子设备基于采集的下行信号和噪音信号，通过第一目标应用得到的听筒播放音量的声音等级为声音等级3，即如用户界面41所示，电子设备通过声音等级3播放通话对方Bob的声音；在与用户界面41同一环境条件下，电子设备基于采集的下行信号和噪音信号，通过第二目标应用得到的播放歌曲音量的声音等级为声音等级4，即如用户界面42所示，电子设备通过声音等级4播放音乐应用中的歌曲。也就是说，用户使用电子设备在同一环境下通过不同的应用播放音频时，听到的音频的音量大小是不同的，例如在同一环境下通话时听到的听筒播放的对方声音比同一环境下使用音乐应用听到的耳机的音乐的音量小。

需要说明的是，用户界面41至用户界面41仅为本申请实施例提供的一种示例性界面，其目的仅是为了清楚的展示当前界面的声音等级，不应造成对本申请实施例的限制。也就是说，电子设备在实际调节音量的过程，也可以不显示如图20中用户界面41至用户界面42中的音量调节部分，即电子设备可以在自动调节音量时不显示声音等级。

(五)电子设备可以基于用户习惯调整目标模型。

在一些实施例中，电子设备可以在用户实际使用过程中，记录用户每次手动调节音量时的用户数据，例如该数据可以包括特征向量、调节后的声音等级和调节前若干个时刻的声音等级等；进而，电子设备基于上述用户数据作为训练数据对目标模型进行训练，以使该目标模型符合用户习惯。

以下以通话过程为例进行说明。假设电子设备通过目标模型在用户通话过程中自动调节音量，但是用户多次都手动将该声音等级调低。

图21示例性示出了2022年8月1日时在第一环境条件下用户通过电子设备与Bob进行通话的部分应用界面。如图21所示，用户界面51示例性示出了电子设备在第一环境条件下通过目标模型调节后的声音等级4；由于用户觉得该音量较大，因此如用户界面52所示，用户通过手动按压音量键中的音量降低(-)键，电子设备响应于该用户操作，将听筒播放下行信号的音量调节至声音等级3。

电子设备可以将图21所示的场景对应的用户数据，如当时确定的特征向量以及调节后的声音等级和调节前若干个时刻的声音等级等确定一条训练数据，基于该条训练数据对目标模型进行训练。

假设电子设备在2022年8月1日至2022年8月5日之间基于至少一条训练数据对目标模型进行训练，得到训练后的目标模型。在2022年8月5日时，用户又在第一环境条件下通过该电子设备与Bob进行通话，电子设备基于训练后的目标模型可以得到声音等级3。如图22所示，电子设备在用户与Bob通话00:02秒时已经将听筒的播放音量调整至声音等级3。因此，用户可以不需要手动调节音量。可以理解的，用户可以基于使用经验，发现自己手动调节音量的次数逐渐减少，电子设备播放的音量越来越符合自己的使用习惯。

需要说明的是，上述五个应用场景可以任意组合或单独出现在使用本申请实施例的音量调节方法的电子设备的使用过程中，此处不做限定。

本申请实施例还提供了一种电子设备，电子设备包括一个或多个处理器和一个或多个存储器；其中，一个或多个存储器与一个或多个处理器耦合，一个或多个存储器用于存储计算机程序代码，计算机程序代码包括计算机指令，当一个或多个处理器执行计算机指令时，使得电子设备执行上述实施例描述的方法。

本申请实施例还提供了一种包含指令的计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备执行上述实施例描述的方法。

本申请实施例还提供了一种计算机可读存储介质，包括指令，当指令在电子设备上运行时，使得电子设备执行上述实施例描述的方法。

可以理解的是，本申请的各实施方式可以任意进行组合，以实现不同的技术效果。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid StateDisk)等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。

总之，以上所述仅为本申请技术方案的实施例而已，并非用于限定本申请的保护范围。凡根据本申请的揭露，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种音量调节方法，其特征在于，应用于电子设备，所述电子设备包括发声装置和至少一个麦克风，所述方法包括：

所述电子设备响应于开始听力测试的用户操作，分别通过多个音量播放预设音频；所述多个音量包括第一音量；

所述电子设备基于针对所述第一音量的确定操作，确定用户的听力水平为所述第一音量对应的第一听力水平；

所述电子设备在通过所述发声装置播放下行信号时，通过所述至少一个麦克风采集下行信号和环境噪音信号；

所述电子设备在采集的下行信号和采集的环境噪音信号中的至少一个改变时，基于所述第一听力水平将所述发声装置的播放音量由第一声音等级调节为第二声音等级。

2.根据权利要求1所述的方法，其特征在于，所述第一音量越大，所述第二声音等级的等级越高。

3.根据权利要求1或2所述的方法，其特征在于，所述第一音量为所述用户在当前环境中的舒适音量或者能够听清的最低音量。

4.根据权利要求1-3任一项所述的方法，其特征在于，改变后的环境噪音信号的能量越大，所述第二声音等级的等级越高。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述电子设备在下行信号和环境噪音信号中的至少一个改变时，将所述发声装置的播放音量由第一声音等级调节为第二声音等级，包括：

所述电子设备在所述第一声音等级与所述第二声音等级相差第一预设等级数时，将所述发声装置的播放音量调整为所述第二声音等级。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述电子设备在下行信号和环境噪音信号中的至少一个改变时，将所述发声装置的播放音量由第一声音等级调节为第二声音等级，包括：

所述电子设备在所述第一声音等级与所述第二声音等级相差第二预设等级数时，将所述发声装置的播放音量调整为第三声音等级；所述第三声音等级高于所述第一声音等级且低于所述第二声音等级。

7.根据权利要求1-6任一项所述的方法，其特征在于，所述方法还包括：

所述电子设备响应于针对第一应用的用户操作，在第一环境条件下通过所述发声装置按照第二音量播放所述第一应用对应的下行信号；

所述电子设备响应于针对第二应用的用户操作，在所述第一环境条件下通过所述发声装置按照第三音量播放所述第二应用对应的下行信号；

所述第二音量不等于所述第三音量。

8.根据权利要求7所述的方法，其特征在于，所述第一应用为通话类应用，所述第二应用为音乐类应用，所述第二音量大于所述第三音量。

9.根据权利要求1-8任一项所述的方法，其特征在于，所述方法还包括：

所述电子设备将所述第一听力水平对应的预置模型确定为目标模型；所述目标模型为通过符合所述第一听力水平的用户的用户数据训练得到的；所述用户数据包括所述第一听力水平的用户在第二环境条件下的目标声音等级，以及所述第二环境条件下采集的下行信号和环境噪音信号的能量差值；

所述电子设备将改变后的下行信号和所述改变后的环境噪音信号的能量差值输入所述目标模型，得到所述第二声音等级。

10.根据权利要求9所述的方法，所述改变后的下行信号包括N个第一子带信号，所述改变后的环境噪音信号包括所述N个第二子带信号，所述N为正整数；所述N个第一子带信号与所述N个第二子带信号一一对应；相互对应的第一子带信号和第二子带信号组成一组信号；

所述改变后的下行信号和所述改变后的环境噪音信号的能量差值包括所述N组信号的能量差值。

11.根据权利要求9或10所述的方法，其特征在于，所述用户数据还包括所述目标声音等级前若干时刻的发声装置播放音量；所述电子设备将所述改变后的下行信号和所述改变后的环境噪音信号的能量差值输入所述目标模型，得到所述第二声音等级，包括：

所述电子设备将所述改变后的下行信号和所述改变后的环境噪音信号的能量差值和所述前若干时刻的发声装置播放音量输入所述目标模型，得到所述第二声音等级。

12.根据权利要求9-11所述的方法，其特征在于，在所述将所述发声装置的播放音量调整为所述第二声音等级之后，所述方法还包括：

所述电子设备响应于用户调节音量键的操作，将所述发声装置的播放音量调整为目标声音等级；

所述电子设备存储所述改变后的下行信号和所述改变后的环境噪音信号的能量差值和所述目标声音等级；

所述电子设备以所述改变后的下行信号和所述改变后的环境噪音信号的能量差值和所述目标声音等级为样本数据训练所述目标模型。

13.根据权利要求1-12任一项所述的方法，其特征在于，所述至少一个麦克风包括第一麦克风和第二麦克风，所述第一麦克风与所述发声装置的距离小于所述第二麦克风与所述发声装置的距离，所述第一麦克风用于采集下行信号，所述第二麦克风用于采集环境噪音信号。

14.一种音量调节装置，其特征在于，所述装置包括处理模块、发声装置和至少一个麦克风：

所述发声装置，用于分别通过多个音量播放预设音频；所述多个音量包括第一音量；

所述处理模块，用于基于针对所述第一音量的确定操作，确定用户的听力水平为所述第一音量对应的第一听力水平；

所述至少一个麦克风用于，在所述发声装置播放下行信号时采集下行信号和环境噪音信号；

所述发声装置，用于在采集的下行信号和采集的环境噪音信号中的至少一个改变时，基于所述第一听力水平将播放音量由第一声音等级调节为第二声音等级。

15.根据权利要求14所述的装置，其特征在于，所述第一音量越大，所述第二声音等级的等级越高。

16.根据权利要求15所述的装置，其特征在于，所述第一音量为所述用户在当前环境中能够听清的最低音量或者舒适音量。

17.根据权利要求14-16任一项所述的装置，其特征在于，改变后的环境噪音信号的能量越大，所述第二声音等级的等级越高。

18.根据权利要求14-17任一项所述的装置，其特征在于，所述发声装置，具体用于在所述第一声音等级与所述第二声音等级相差第一预设等级数时通过所述第二声音等级播放下行信号。

19.根据权利要求14-18任一项所述的装置，其特征在于，所述发声装置，具体用于在所述第一声音等级与所述第二声音等级相差第二预设等级数时，通过所述第三声音等级播放下行信号；所述第三声音等级高于所述第一声音等级且低于所述第二声音等级。

20.根据权利要求14-19任一项所述的装置，其特征在于，所述发声装置用于在第一环境条件下通过按照第二音量播放所述第一应用对应的下行信号；

所述发声装置用于在所述第一环境条件下按照第三音量播放所述第二应用对应的下行信号；所述第二音量不等于所述第三音量。

21.一种电子设备，其特征在于，所述电子设备包括一个或多个处理器和一个或多个存储器；其中，所述一个或多个存储器与所述一个或多个处理器耦合，所述一个或多个存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，当所述一个或多个处理器执行所述计算机指令时，使得所述电子设备执行如权利要求1-13中任一项所述的方法。

22.一种计算机可读存储介质，包括指令，其特征在于，当所述指令在电子设备上运行时，使得所述电子设备执行如权利要求1-13中任一项所述的方法。