CN112269559A

CN112269559A - 音量调整方法、装置、电子设备及存储介质

Info

Publication number: CN112269559A
Application number: CN202011159325.6A
Authority: CN
Inventors: 徐俊; 高露; 罗智; 王丹; 李运锋; 丁超
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2020-10-26
Filing date: 2020-10-26
Publication date: 2021-01-26
Anticipated expiration: 2040-10-26
Also published as: CN112269559B

Abstract

本申请公开了音量调整方法、装置、电子设备及存储介质，属于计算机技术领域。方法包括：采集当前时刻的音频信息，音频信息中包括按照第一音量播放目标内容的目标声音数据；基于当前时刻的音频信息和第一音量，计算当前时刻的嘈杂度，嘈杂度指示音频信息中除目标声音数据之外的其他声音数据对目标声音数据的干扰程度；基于当前时刻的嘈杂度，确定音量调整值；根据音量调整值，对第一音量进行调整，得到调整之后的目标音量，按照目标音量播放目标内容。基于当前时刻的嘈杂度调整第一音量，得到目标音量，使得目标音量与当前时刻的环境匹配度较高，能够改善目标内容的播放效果；且该方法无需用户手动调整音量，能够提高音量调整的效率和准确性。

Description

音量调整方法、装置、电子设备及存储介质

技术领域

本申请实施例涉及计算机技术领域，特别涉及一种音量调整方法、装置、电子设备及存储介质。

背景技术

随着计算机技术的不断发展，越来越多的电子设备逐渐应用在人们的日常生活中，其中，叫号设备为人们生活中必不可少的设备之一。例如，在餐厅排队用餐时，需要在叫号设备上取号，等待叫号设备叫到取到的号码后再进行用餐。因此，亟需一种音量调整方法对叫号设备的音量进行调整。

相关技术中，以餐厅的叫号设备的叫号音量的调整为例，工作人员对叫号设备的音量进行手动调整。该音量调整过程是工作人员基于自身的主观意识对音量进行手动调整，音量调整的过程不够智能，容易增加工作人员的工作量，而且还会降低音量调整的效率。

发明内容

本申请实施例提供了一种音量调整方法、装置、电子设备及存储介质，可用于解决相关技术中的问题。所述技术方案如下：

一方面，本申请实施例提供了一种音量调整方法，所述方法包括：

采集当前时刻的音频信息，所述音频信息中包括按照第一音量播放目标内容的目标声音数据；

基于所述当前时刻的音频信息和所述第一音量，计算所述当前时刻的嘈杂度，所述嘈杂度用于指示所述音频信息中除所述目标声音数据之外的其他声音数据对所述目标声音数据的干扰程度；

基于所述当前时刻的嘈杂度，确定音量调整值；

根据所述音量调整值，对所述第一音量进行调整，得到调整之后的目标音量，按照所述目标音量播放所述目标内容。

在一种可能的实现方式中，所述基于所述当前时刻的音频信息和所述第一音量，计算所述当前时刻的嘈杂度，包括：

确定所述当前时刻的音频信息对应的第二音量；

根据所述第二音量和所述第一音量，计算所述当前时刻的嘈杂度。

在一种可能的实现方式中，所述基于所述当前时刻的嘈杂度，确定音量调整值，包括：

基于所述当前时刻的嘈杂度和与所述第一音量匹配的嘈杂度，计算嘈杂度差值；

基于所述嘈杂度差值以及所述嘈杂度差值和音量调整值之间的对应关系，确定音量调整值。

在一种可能的实现方式中，所述采集当前时刻的音频信息之前，所述方法还包括：

响应于所述当前时刻为第一时刻，获取所述当前时刻的排队等位对象数量和所述当前时刻的目标视频帧，所述目标视频帧为处于所述当前时刻的目标场景的视频帧；

基于所述当前时刻的排队等位对象数量和所述当前时刻的目标视频帧，确定所述第一音量；

或者，响应于所述当前时刻为第二时刻，获取所述第一音量，所述第二时刻晚于所述第一时刻。

在一种可能的实现方式中，所述基于所述当前时刻的排队等位对象数量和所述当前时刻的目标视频帧，确定所述第一音量，包括：

对所述目标视频帧进行识别，得到所述目标视频帧包括的对象数量；

基于所述当前时刻的排队等位对象数量和所述目标视频帧包括的对象数量，确定目标音量范围；

基于所述目标音量范围，确定所述第一音量。

在一种可能的实现方式中，所述基于所述当前时刻的排队等位对象数量和所述目标视频帧包括的对象数量，确定目标音量范围，包括：

响应于所述排队等位对象数量满足第一阈值，所述目标视频帧包括的对象数量满足第二阈值，将第一音量范围确定为所述目标音量范围；

响应于所述排队等位对象数量满足所述第一阈值，所述目标视频帧包括的对象数量不满足所述第二阈值，将第二音量范围确定为所述目标音量范围，所述第二音量范围小于所述第一音量范围；

响应于所述排队等位对象数量不满足所述第一阈值，所述目标视频帧包括的对象数量满足所述第二阈值，将第三音量范围确定为所述目标音量范围，所述第三音量范围小于所述第二音量范围；

响应于所述排队等位对象数量不满足所述第一阈值，所述目标视频帧包括的对象数量不满足所述第二阈值，将第四音量范围确定为所述目标音量范围，所述第四音量范围小于所述第三音量范围。

在一种可能的实现方式中，所述获取所述当前时刻的排队等位对象数量，包括：

获取所述当前时刻的排队对象数量和排队进度；

基于所述当前时刻的排队对象数量和排队进度，计算所述当前时刻的排队等位对象数量。

另一方面，本申请实施例提供了一种音量调整装置，所述装置包括：

采集模块，用于采集当前时刻的音频信息，所述音频信息中包括按照第一音量播放目标内容的目标声音数据；

计算模块，用于基于所述当前时刻的音频信息和所述第一音量，计算所述当前时刻的嘈杂度，所述嘈杂度用于指示所述音频信息中除所述目标声音数据之外的其他声音数据对所述目标声音数据的干扰程度；

确定模块，用于基于所述当前时刻的嘈杂度，确定音量调整值；

调整模块，用于根据所述音量调整值，对所述第一音量进行调整，得到调整之后的目标音量；

播放模块，用于按照所述目标音量播放所述目标内容。

在一种可能的实现方式中，所述计算模块，用于确定所述当前时刻的音频信息对应的第二音量；根据所述第二音量和所述第一音量，计算所述当前时刻的嘈杂度。

在一种可能的实现方式中，所述确定模块，用于基于所述当前时刻的嘈杂度和与所述第一音量匹配的嘈杂度，计算嘈杂度差值；基于所述嘈杂度差值以及所述嘈杂度差值和音量调整值之间的对应关系，确定音量调整值。

在一种可能的实现方式中，所述装置还包括：

获取模块，用于响应于所述当前时刻为第一时刻，获取所述当前时刻的排队等位对象数量和所述当前时刻的目标视频帧，所述目标视频帧为处于所述当前时刻的目标场景的视频帧；

所述确定模块，还用于基于所述当前时刻的排队等位对象数量和所述当前时刻的目标视频帧，确定所述第一音量；或者，响应于所述当前时刻为第二时刻，获取所述第一音量，所述第二时刻晚于所述第一时刻。

在一种可能的实现方式中，所述确定模块，用于对所述目标视频帧进行识别，得到所述目标视频帧包括的对象数量；

基于所述目标音量范围，确定所述第一音量。

在一种可能的实现方式中，所述确定模块，用于响应于所述排队等位对象数量满足第一阈值，所述目标视频帧包括的对象数量满足第二阈值，将第一音量范围确定为所述目标音量范围；

在一种可能的实现方式中，所述获取模块，用于获取所述当前时刻的排队对象数量和排队进度；

另一方面，本申请实施例提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现上述任一所述的音量调整方法。

另一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现上述任一所述的音量调整方法。

另一方面，还提供一种计算机程序或计算机程序产品，所述计算机程序或计算机程序产品包括：计算机指令，所述计算机指令由处理器加载并执行，以实现上述任一所述的音量调整方法。

本申请实施例提供的技术方案至少带来如下有益效果：

本申请实施例提供的技术方案基于当前时刻的嘈杂度对第一音量进行调整，以得到调整之后的目标音量，使得确定的目标音量与当前时刻的环境需求的音量之间的匹配度较高，能够改善目标内容的播放效果。而且，该音量调整方法不需要用户手动进行音量调整，能够提高音量调整的效率和准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种音量调整方法的实施环境示意图；

图2是本申请实施例提供的一种音量调整方法的流程图；

图3是本申请实施例提供的一种音量调整方法的流程图；

图4是本申请实施例提供的一种音量调整装置的结构示意图；

图5是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

图1是本申请实施例提供的一种音量调整方法的实施环境示意图，如图1所示，该实施环境包括：电子设备101。

电子设备101可以是智能手机、台式计算机、平板电脑、电子书阅读器、MP3(MovingPicture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器和膝上型便携计算机中的至少一种。电子设备101用于执行本申请提供的音量调整方法。

电子设备101可以泛指多个电子设备中的一个，本实施例仅以电子设备101来举例说明。本领域技术人员可以知晓，上述电子设备101的数量可以更多或更少。比如上述电子设备101可以仅为一个，或者上述电子设备101为几十个或几百个，或者更多数量，本申请实施例对电子设备的数量和设备类型不加以限定。

基于上述实施环境，本申请实施例提供了一种音量调整方法，以图2所示的本申请实施例提供的一种音量调整方法的流程图为例，该方法可由图1中的电子设备101执行。如图2所示，该方法包括下述步骤：

在步骤201中，采集当前时刻的音频信息，该音频信息中包括按照第一音量播放目标内容的目标声音数据。

在本申请实施例中，该电子设备为一种排队叫号设备。例如，该电子设备为餐厅中的排队叫号设备，或者为银行使用的排队叫号设备，或者为医院使用的排队叫号设备，或者为其他具有排队叫号需求的场所使用的叫号设备，本申请实施例对该排队叫号设备的使用场所不加以限定。本申请实施例的音量调整方法以餐厅的排队叫号设备的音量调整方法为例进行说明，其它场所的排队叫号设备的音量调整方法与该餐厅的排队叫号设备的音量调整方法一致，在此不再赘述。

在一种可能的实现方式中，电子设备中包括麦克风装置，该麦克风装置用于采集每一个时刻的音频信息，电子设备还可以将该麦克风采集的每一时刻的音频信息存储在电子设备的存储空间中，以便后续提取某一时刻的音频信息。其中，每一个时刻的音频信息的存储过程如下：

电子设备将其存储空间分为多个目标存储空间，每一个目标存储空间用于存储每一个时刻的音频信息。示例性地，第一个目标存储空间用于存储第一时刻的音频信息，第二个目标存储空间用于存储第二时刻的音频信息。

在一种可能的实现方式中，电子设备基于当前时刻对应的时间，确定当前时刻对应的目标存储空间，从该目标存储空间中提取出当前时刻的音频信息，也即是电子设备获取到当前时刻的音频信息。

在一种可能的实现方式中，由于当前时刻的音频信息中包括按照第一音量播放目标内容的目标声音数据，因此，在采集当前时刻的音频信息之前，还需要确定第一音量，确定出第一音量之后，按照第一音量播放目标内容的目标声音数据，电子设备才可以采集到包括按照第一音量播放目标内容的目标声音数据的音频信息。示例性地，第一音量为63分贝，则电子设备采集到的音频信息中包括按照63分贝播放目标内容的目标声音数据。

在步骤202中，基于当前时刻的音频信息和第一音量，计算当前时刻的嘈杂度。

其中，嘈杂度用于指示音频信息中除目标声音数据之外的其他声音数据对目标声音数据的干扰程度。

在一种可能的实现方式中，基于当前时刻的音频信息和第一音量，计算当前时刻的嘈杂度包括下述步骤2021至步骤2022。

步骤2021、确定当前时刻的音频信息对应的第二音量。

在一种可能的实现方式中，电子设备可以对上述步骤201获取到的当前时刻的音频信息进行处理，以得到该音频信息对应的第二音量。示例性地，电子设备中安装有用于确定音量的应用程序，该应用程序可以是分贝器，也可以是其他类型的应用程序，本申请实施例对此不加以限定。在获取到当前时刻的音频信息之后，基于当前时刻的音频信息和该用于确定音量的应用程序，确定当前时刻的音频信息对应的第二音量。例如，该确定音量的应用程序为分贝器，利用该分贝器确定当前时刻的音频信息对应的第二音量，得到的第二音量为90分贝。

步骤2022、根据第二音量和第一音量，计算当前时刻的嘈杂度。

在一种可能的实现方式中，根据音频信息对应的第二音量和第一音量，将该音频信息对应的第二音量和第一音量相减，得到的即为当前时刻的嘈杂度。示例性地，第二音量为90分贝，第一音量为63分贝，则该当前时刻的嘈杂度为第二音量和第一音量的差值，也即是27分贝。

需要说明的是，还可以基于其它方式确定当前时刻的嘈杂度，本申请实施例对此不加以限定。

在步骤203中，基于当前时刻的嘈杂度，确定音量调整值。

在一种可能的实现方式中，基于当前时刻的嘈杂度，确定音量调整值的过程包括下述步骤2031至步骤2032。

步骤2031、基于当前时刻的嘈杂度和与第一音量匹配的嘈杂度，计算嘈杂度差值。

在一种可能的实现方式中，电子设备中存储有第一音量和与第一音量匹配的嘈杂度之间的对应关系，第一音量和与第一音量匹配的嘈杂度之间的对应关系可以保证在与第一音量匹配的嘈杂度下发出的第一音量的声音数据可以被清楚的听到。例如，第一音量和与第一音量匹配的嘈杂度之间的对应关系如下述表一所示。

表一

第一音量	与第一音量匹配的嘈杂度
		0分贝-20分贝	0分贝
20分贝-40分贝	10分贝
		40分贝-60分贝	20分贝
60分贝-80分贝	30分贝
		80分贝-100分贝	40分贝

如上述表一所示，当第一音量在0分贝-20分贝之间时，与第一音量匹配的嘈杂度为0分贝；当第一音量在20分贝-40分贝之间时，与第一音量匹配的嘈杂度为10分贝；当第一音量在40分贝-60分贝之间时，与第一音量匹配的嘈杂度为20分贝；当第一音量在60分贝-80分贝之间时，与第一音量匹配的嘈杂度为30分贝；当第一音量在80分贝-100分贝之间时，与第一音量匹配的嘈杂度为40分贝。

需要说明的是，上述表一仅为第一音量和与第一音量匹配的嘈杂度的对应关系的举例说明，该第一音量和与第一音量匹配的嘈杂度的对应关系可以基于经验进行设置，也可以基于不同的应用场景进行调整，本申请实施例对该第一音量和与第一音量匹配的嘈杂度的对应关系不进行限定。

在一种可能的实现方式中，基于第一音量以及与第一音量匹配的嘈杂度的对应关系，确定与第一音量匹配的嘈杂度。计算上述步骤202得到的当前时刻的嘈杂度和与第一音量匹配的嘈杂度之间的差值，将该差值确定为嘈杂度差值。

示例性地，第一音量为63分贝，由上述表一可知与第一音量匹配的嘈杂度为30分贝，上述步骤202得到的当前时刻的嘈杂度为27分贝，则该当前时刻的嘈杂度和与第一音量匹配的嘈杂度之间的差值为27-30＝-3分贝，也即是嘈杂度差值为-3分贝。

步骤2032、根据嘈杂度差值以及嘈杂度差值和音量调整值之间的对应关系，确定音量调整值。

在一种可能的实现方式中，该电子设备中存储有嘈杂度差值与音量调增值之间的对应关系。该对应关系如下表二所示。

表二

嘈杂度差值	音量调整值
		…	…
(-10，-5)分贝	-2步长
		(-5，-1)分贝	-1步长
0分贝	0
		(1,5)分贝	+1步长
(5,10)分贝	+2步长
		…	…

如上述表二所示，当嘈杂度差值在(-10，-5)分贝时，对应的音量调整值为-2步长；当嘈杂度差值在(-5，-1)分贝时，对应的音量调整值为-1步长；当嘈杂度差值为0分贝时，对应的音量调整值为0，也即是第一音量不需要进行调整；当嘈杂度差值在(1，5)分贝时，对应的音量调整值为1步长；当嘈杂度差值在(5，10)分贝时，对应的音量调整值为2步长。

需要说明的是，上述表二仅为嘈杂度差值和音量调整值的对应关系的举例说明，该嘈杂度差值和音量调整值的对应关系可以基于经验进行设置，也可以基于不同的应用场景进行调整，本申请实施例对该嘈杂度差值和音量调整值的对应关系不进行限定。

还需要说明的是，上述表二中的1步长可以是1分贝，也可以是10分贝，1步长的取值可以基于经验进行设置，也可以基于不同的应用场景进行调整，本申请实施例对该1步长的取值不做限定。

示例性地，上述步骤2031计算得到的嘈杂度差值为-3分贝，则该嘈杂度差值对应的音量调整值为-1步长。

在一种可能的实现方式中，响应于当前时刻的嘈杂度和与第一音量匹配的嘈杂度之间的嘈杂度差值为零时，也即是当前时刻的嘈杂度和与第一音量匹配的嘈杂度一致，则无需确定与嘈杂度差值对应的音量调整值，也就无需对第一音量进行调整，按照第一音量播放目标内容即可。示例性地，第一音量为63分贝，由上述表一可知与第一音量匹配的嘈杂度为30分贝，当前时刻的嘈杂度为30分贝，由于当前时刻的嘈杂度和与第一音量匹配的嘈杂度一致，也即是嘈杂度差值为0，因此，无需对第一音量进行调整，按照第一音量播放目标内容即可。

在步骤204中，根据音量调整值，对第一音量进行调整，得到调整之后的目标音量，按照目标音量播放目标内容。

在一种可能的实现方式中，基于上述步骤203确定的音量调整值，对该第一音量进行调整，得到调整后的目标音量。

示例性地，上述步骤203确定的音量调整值为-1步长，上述确定的当前时刻的声音数据对应的第一音量为63分贝，以1步长为1分贝为例，将该第一音量减少1分贝，得到的音量即为调整后的目标音量，也即是调整之后的目标音量为62分贝。

在一种可能的实现方式中，电子设备确定出目标音量之后，还可以按照目标音量播放目标内容。目标内容为基于当前时刻的排队等位情况生成的内容，如当前时刻的排队等位情况为该第56号顾客用餐，则目标内容为“请第56号顾客用餐”，电子设备生成该目标内容对应的声音数据，播放该目标内容对应的声音数据，播放的目标内容对应的声音数据的音量，也即是分贝值为62分贝。

上述方法基于当前时刻的嘈杂度对当前时刻第一音量进行调整，以得到调整之后的目标音量，使得确定的目标音量与当前时刻的环境需求的音量之间的匹配度较高，能够改善目标内容的播放效果。而且，该音量调整方法不需要用户手动进行音量调整，能够提高音量调整的效率和准确性。

在示例性实施例中，本申请实施例针对下述两种情况提供了确定第一音量的方式。

第一种情况、响应于当前时刻为第一时刻，确定第一音量，包括：获取当前时刻的排队等位对象数量和当前时刻的目标视频帧，该目标视频帧为处于当前时刻的目标场景的视频帧；基于当前时刻的排队等位数量和当前时刻的目标视频帧，确定第一音量。其中，第一时刻为第一个播放目标内容的声音数据的时刻。

在一种可能的实现方式中，获取当前时刻的排队等位对象数量包括下述步骤1至步骤2。

步骤1、获取当前时刻对应的排队对象数量和排队进度。

在一种可能的实现方式中，电子设备获取每一个时刻的排队对象数量和每一个时刻的排队进度，将获取的每一个时刻的排队对象数量和排队进度存储在该时刻对应的目标存储空间中。例如，第一时刻的排队对象数量和排队进度存储在第一个目标存储空间中，第二时刻的排队对象数量和排队进度存储在第二个目标存储空间中。其中，排队对象数量为当前排到的号码，排队进度为已经叫到的号码。示例性地，当前排到的号码为100，也即是排队对象数量为100人，已经叫到第40号，也即是排队进度为40。

在一种可能的实现方式中，电子设备确定当前时刻对应的时间后，从其存储空间中确定当前时刻对应的目标存储空间，从该目标存储空间中提取当前时刻的排队对象数量和排队进度。

例如，基于当前时刻对应的时间，确定当前时刻对应的存储空间为第一个目标存储空间，从该第一个目标存储空间中提取当前时刻的排队对象数量和排队进度。如排队对象数量为100，排队进度为40。

步骤2、基于当前时刻的排队对象数量和排队进度，计算当前时刻的排队等位对象数量。

在一种可能的实现方式中，基于当前时刻的排队对象数量和排队进度的差值，确定当前时刻的排队等位对象数量。

例如，上述步骤1获取到的当前时刻的排队对象数量为100，排队进度为40，根据当前时刻的排队对象数量和排队进度之间的差值，计算当前时刻的排队等位对象数量。也即是100-40＝60，当前时刻的排队等位对象数量为60。

在一种可能的实现方式中，当前时刻的目标视频帧的获取过程有如下两种实现方式：

实现方式一、基于电子设备中包括的摄像装置，获取当前时刻的目标视频帧。

在一种可能的实现方式中，电子设备中还包括摄像装置，该摄像装置用于获取目标场景(例如餐厅门口)的每一个时刻对应的视频帧，电子设备还可以将每一个时刻对应的视频帧存储在该时刻对应的音频信息、排队对象数量和排队进度所在的目标存储空间中。如第一时刻的视频帧存储在第一个目标存储空间中，第二时刻的视频帧存储在第二个目标存储空间中。

在一种可能的实现方式中，电子设备确定当前时刻之后，从其存储空间中确定当前时刻对应的目标存储空间，从该目标存储空间中提取当前时刻对应的视频帧，将该视频帧确定为目标视频帧。

实现方式二、电子设备中不包括摄像装置时，基于电子设备和摄像装置的交互获取当前时刻的目标视频帧。

在一种可能的实现方式中，当电子设备中不包括摄像装置时，电子设备需要通过目标场景(餐厅门口)安装的摄像装置获取当前时刻的目标视频帧。此时，目标场景(餐厅门口)安装的摄像装置和电子设备通过有线网络或者无线网络进行通信连接。电子设备可以通过与摄像装置交互的方式获取当前时刻对应的目标视频帧。电子设备通过与摄像装置交互的方式获取当前时刻对应的目标视频帧的过程如下：

电子设备向摄像装置发送获取请求，该获取请求中携带当前时刻对应的时间。摄像装置接收到电子设备发送的获取请求后，对该获取请求进行解析，得到该获取请求中携带的当前时刻对应的时间，基于该当前时刻对应的时间从摄像装置的存储空间中提取当前时刻对应的视频帧，将该视频帧发送至电子设备，也即是电子设备获取到当前时刻对应的视频帧。

示例性地，当前时刻对应的时间为2020年7月14日14:52，也即是电子设备向摄像装置发送的获取请求中携带的时间为2020年7月14日14:52。摄像装置接收到获取请求后，基于获取请求中携带的时间，提取该时间对应的视频帧，也即是提取2020年7月14日14:52对应的视频帧，将该视频帧发送至电子设备，也即是电子设备接收到当前时刻对应的目标视频帧。

需要说明的是，响应于电子设备中包括摄像装置时，按照上述实现方式一获取当前时刻的目标视频帧；响应于电子设备中不包括摄像装置时，按照上述实现方式二获取当前时刻的目标视频帧。

在一种可能的实现方式中，电子设备基于上述得到的当前时刻的排队等位对象数量和目标视频帧，确定当前时刻播放的目标内容的第一音量的过程包括下述步骤一至步骤三。

步骤一、对目标视频帧进行识别，得到目标视频帧包括的对象数量。

在一种可能的实现方式中，对目标视频帧进行识别，得到目标视频帧包括的对象数量的过程如下：

将目标视频帧输入人脸识别模型，该人脸识别模型用于识别该目标视频帧中的人脸；基于人脸识别模型的输出结果，得到该目标视频帧中包括的人脸数目，也即是获取到该目标视频帧中包括的对象数量。

在一种可能的实现方式中，将目标视频帧输入人脸识别模型之前，还需要对人脸识别模型进行训练，以使得该人脸识别模型的识别结果更加准确。该人脸识别模型的训练过程包括下述步骤1至步骤2。

步骤1、获取多张图片和每张图片中包括的人脸数目。

在一种可能的实现方式中，该多张图片可以从网页中下载得到，也可以由用户进行上传而得到，本申请实施例对该多张图片的获取方式不做限定。

步骤2、基于多张图片和每张图片中包括的人脸数目，对初始人脸识别模型进行训练，得到人脸识别模型。

其中，该初始人脸识别模型是能够进行人脸识别的任意类型的神经网络模型，本申请实施例对初始人脸识别模型的类型不做限定。例如，该初始人脸识别模型是深度残差神经网络(ImageNet Large Scale Visual Recognition Challenge，ILSVRC)，或者是卷积神经网络(Visual Geometry Group，VGG19)。

步骤二、基于当前时刻的排队等位对象数量和目标视频帧包括的对象数量，确定目标音量范围。

在一种可能的实现方式中，将该电子设备的音量分为多个音量范围，每个音量范围对应的音量区间不同。如将电子设备的音量分为四个音量范围，分别为第一音量范围、第二音量范围、第三音量范围和第四音量范围。其中，第一音量范围、第二音量范围、第三音量范围和第四音量范围之间的关系如下：第一音量范围大于第二音量范围，第二音量范围大于第三音量范围，第三音量范围大于第四音量范围。示例性地，第一音量范围为75分贝-100分贝，第二音量范围为50分贝-75分贝，第三音量范围为25分贝-50分贝，第四音量范围为0分贝-25分贝。当然，该电子设备的音量还可以分为其他数目个音量范围，每个音量范围也可以对应其他的音量区间，本申请实施例仅以上述四个音量范围以及每个音量范围对应的音量区间为例进行说明，并不用来限制本申请中的音量范围。

在一种可能的实现方式中，基于当前时刻的排队等位对象数量和目标视频帧包括的对象数量确定目标音量范围包括下述四种情况。

情况一、响应于排队等位对象数量满足第一阈值，目标视频帧包括的对象数量满足第二阈值，将第一音量范围确定为目标音量范围。

示例性地，第一阈值为50，第二阈值为80，排队等位对象数量为60，目标视频帧包括的对象数量为100，由于排队等位对象数量满足第一阈值，且目标视频帧包括的对象数量满足第二阈值，则将第一音量范围确定为目标音量范围。

情况二、响应于排队等位对象数量满足第一阈值，目标视频帧包括的对象数量不满足第二阈值，将第二音量范围确定为目标音量范围。

示例性地，第一阈值为50，第二阈值为80，排队等位对象数量为60，目标视频帧包括的对象数量为70，由于排队等位对象数量满足第一阈值，且目标视频帧包括的对象数量不满足第二阈值，则将第二音量范围确定为目标音量范围。

情况三、响应于排队等位对象数量不满足第一阈值，目标视频帧包括的对象数量满足第二阈值，将第三音量范围确定为目标音量范围。

示例性地，第一阈值为50，第二阈值为80，排队等位对象数量为40，目标视频帧包括的对象数量为100，由于排队等位对象数量不满足第一阈值，且目标视频帧包括的对象数量满足第二阈值，则将第三音量范围确定为目标音量范围。

情况四、响应于排队等位对象数量不满足第一阈值，目标视频帧包括的对象数量不满足第二阈值，将第四音量范围确定为目标音量范围。

示例性地，第一阈值为50，第二阈值为80，排队等位对象数量为40，目标视频帧包括的对象数量为70，由于排队等位对象数量不满足第一阈值，且目标视频帧包括的对象数量不满足第二阈值，则将第四音量范围确定为目标音量范围。

步骤三、基于目标音量范围，确定第一音量。

在一种可能的实现方式中，电子设备中还设置有音量确定方式，该音量确定方式用于基于目标音量范围确定第一音量。例如，可以将目标音量范围的中位数确定为第一音量，也可以将目标音量范围的平均数确定为第一音量，也可以通过其它的确定方式确定第一音量，本申请实施例对此不加以限定。

在一种可能的实现方式中，以该目标音量范围为第二音量范围，将目标音量范围的中位数确定为第一音量为例，也即是目标音量范围为50分贝-75分贝，确定的第一音量为63分贝。

第二种情况、响应于当前时刻为第二时刻，确定第一音量，包括：获取存储的第一音量，第二时刻晚于第一时刻。

在一种可能的实现方式中，每一个时刻播放的目标内容的声音数据对应的音量都存储在电子设备的存储空间中。例如，第一时刻播放的目标内容的声音数据对应的音量存储在第一个目标存储空间中，第二时刻播放的目标内容的声音数据对应的音量存储在第二个目标存储空间中。响应于当前时刻为第二时刻，也即是当前时刻不是第一个播放目标内容的时刻，则在电子设备的存储空间中获取当前时刻播放的目标内容的目标声音数据对应的第一音量，也即是电子设备确定第一音量。其中，第二时刻晚于第一时刻。

在一种可能的实现方式中，确定出第一音量之后，电子设备中的麦克风装置可以按照第一音量播放目标内容的目标声音数据，也即是电子设备在确定出第一音量后，利用该麦克风装置播放目标声音数据，该目标声音数据的音量为第一音量。例如，目标内容为“请第55号顾客用餐”，基于该目标内容生成目标声音数据，播放该目标声音数据，该目标声音数据的音量为63分贝。

图3为本申请实施例提供的一种音量调整方法的流程图。如图3所示，基于当前时刻的排队对象数量和当前时刻的排队进度，确定当前时刻的排队等位对象数量；基于当前时刻的目标视频帧确定目标视频帧中包括的对象数量。基于当前时刻的排队等位对象数量和目标视频帧中包括的对象数量，确定第一音量。采集当前时刻的音频信息，音频信息中包括按照第一音量播放目标内容的目标声音数据，对音频信息进行处理得到音频信息对应的第二音量，基于第一音量和第二音量，得到当前时刻的嘈杂度；基于该嘈杂度对该第一音量进行调整，得到目标音量。也即是基于当前时刻的嘈杂度对当前时刻的第一音量进行调整，得到目标音量。

图4所示为本申请实施例提供的一种音量调整装置的结构示意图，如图4所示，该装置包括：

采集模块401，用于采集当前时刻的音频信息，该音频信息中包括按照第一音量播放目标内容的目标声音数据；

计算模块402，用于基于该当前时刻的音频信息和该第一音量，计算该当前时刻的嘈杂度，该嘈杂度用于指示该音频信息中除该目标声音数据之外的其他声音数据对该目标声音数据的干扰程度；

确定模块403，用于基于该当前时刻的嘈杂度，确定音量调整值；

调整模块404，用于根据该音量调整值，对该第一音量进行调整，得到调整之后的目标音量；

播放模块405，用于按照该目标音量播放该目标内容。

在一种可能的实现方式中，该计算模块402，用于确定该当前时刻的音频信息对应的第二音量；根据该第二音量和该第一音量，计算该当前时刻的嘈杂度。

在一种可能的实现方式中，该确定模块403，用于基于该当前时刻的嘈杂度和与该第一音量匹配的嘈杂度，计算嘈杂度差值；基于该嘈杂度差值以及该嘈杂度差值和音量调整值之间的对应关系，确定音量调整值。

在一种可能的实现方式中，该装置还包括：

获取模块，用于响应于该当前时刻为第一时刻，获取该当前时刻的排队等位对象数量和该当前时刻的目标视频帧，该目标视频帧为处于该当前时刻的目标场景的视频帧；

该确定模块403，还用于基于该当前时刻的排队等位对象数量和该当前时刻的目标视频帧，确定该第一音量；或者，响应于该当前时刻为第二时刻，获取该第一音量，该第二时刻晚于该第一时刻。

在一种可能的实现方式中，该确定模块403，用于对该目标视频帧进行识别，得到该目标视频帧包括的对象数量；基于该当前时刻的排队等位对象数量和该目标视频帧包括的对象数量，确定目标音量范围；基于该目标音量范围，确定第一音量。

在一种可能的实现方式中，该确定模块403，用于响应于该排队等位对象数量满足第一阈值，该目标视频帧包括的对象数量满足第二阈值，将第一音量范围确定为该目标音量范围；响应于该排队等位对象数量满足该第一阈值，该目标视频帧包括的对象数量不满足该第二阈值，将第二音量范围确定为该目标音量范围，该第二音量范围小于该第一音量范围；响应于该排队等位对象数量不满足该第一阈值，该目标视频帧包括的对象数量满足该第二阈值，将第三音量范围确定为该目标音量范围，该第三音量范围小于该第二音量范围；响应于该排队等位对象数量不满足该第一阈值，该目标视频帧包括的对象数量不满足该第二阈值，将第四音量范围确定为该目标音量范围，该第四音量范围小于该第三音量范围。

在一种可能的实现方式中，该获取模块，用于获取该当前时刻的排队对象数量和排队进度；基于该当前时刻的排队对象数量和排队进度，计算该当前时刻的排队等位对象数量。

上述装置基于当前时刻的嘈杂度对第一音量进行调整，以得到调整之后的目标音量，使得确定的目标音量与当前时刻的环境需求的音量之间的匹配度较高，能够改善目标内容的播放效果。而且，该音量调整方法不需要用户手动进行音量调整，能够提高音量调整的效率和准确性。

需要说明的是：上述实施例提供的音量调整装置在进行音量调整时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将音量调整装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的音量调整装置与音量调整方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图5是本申请实施例提供的一种电子设备的结构示意图。该电子设备500可以是：智能手机、平板电脑、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。电子设备500还可能被称为用户设备、便携式电子设备、膝上型电子设备、台式电子设备等其他名称。

通常，电子设备500包括有：一个或多个处理器501和一个或多个存储器502。

处理器501可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器501可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器501也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器501可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器501还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器502可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器502还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器502中的非暂态的计算机可读存储介质用于存储至少一个程序代码，该至少一个程序代码用于被处理器501所执行以实现本申请中方法实施例提供的音量调整方法。

在一些实施例中，电子设备500还可选包括有：外围设备接口503和至少一个外围设备。处理器501、存储器502和外围设备接口503之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口503相连。具体地，外围设备包括：射频电路504、显示屏505、摄像头506、音频电路507、定位组件508和电源509中的至少一种。

外围设备接口503可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器501和存储器502。在一些实施例中，处理器501、存储器502和外围设备接口503被集成在同一芯片或电路板上；在一些其他实施例中，处理器501、存储器502和外围设备接口503中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路504用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路504通过电磁信号与通信网络以及其他通信设备进行通信。射频电路504将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路504包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路504可以通过至少一种无线通信协议来与其它电子设备进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路504还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏505用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏505是触摸显示屏时，显示屏505还具有采集在显示屏505的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器501进行处理。此时，显示屏505还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏505可以为一个，设置电子设备500的前面板；在另一些实施例中，显示屏505可以为至少两个，分别设置在电子设备500的不同表面或呈折叠设计；在再一些实施例中，显示屏505可以是柔性显示屏，设置在电子设备500的弯曲表面上或折叠面上。甚至，显示屏505还可以设置成非矩形的不规则图形，也即异形屏。显示屏505可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode，有机发光二极管)等材质制备。

摄像头组件506用于采集图像或视频。可选地，摄像头组件506包括前置摄像头和后置摄像头。通常，前置摄像头设置在电子设备的前面板，后置摄像头设置在电子设备的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件506还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路507可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器501进行处理，或者输入至射频电路504以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在电子设备500的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器501或射频电路504的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路507还可以包括耳机插孔。

定位组件508用于定位电子设备500的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件508可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源509用于为电子设备500中的各个组件进行供电。电源509可以是交流电、直流电、一次性电池或可充电电池。当电源509包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，电子设备500还包括有一个或多个传感器510。该一个或多个传感器150包括但不限于：加速度传感器511、陀螺仪传感器512、压力传感器513、指纹传感器514、光学传感器515以及接近传感器516。

加速度传感器511可以检测以电子设备500建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器511可以用于检测重力加速度在三个坐标轴上的分量。处理器501可以根据加速度传感器511采集的重力加速度信号，控制显示屏505以横向视图或纵向视图进行用户界面的显示。加速度传感器511还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器512可以检测电子设备500的机体方向及转动角度，陀螺仪传感器512可以与加速度传感器511协同采集用户对电子设备500的3D动作。处理器501根据陀螺仪传感器512采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器513可以设置在电子设备500的侧边框和/或显示屏505的下层。当压力传感器513设置在电子设备500的侧边框时，可以检测用户对电子设备500的握持信号，由处理器501根据压力传感器513采集的握持信号进行左右手识别或快捷操作。当压力传感器513设置在显示屏505的下层时，由处理器501根据用户对显示屏505的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器514用于采集用户的指纹，由处理器501根据指纹传感器514采集到的指纹识别用户的身份，或者，由指纹传感器514根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器501授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器514可以被设置电子设备500的正面、背面或侧面。当电子设备500上设置有物理按键或厂商Logo时，指纹传感器514可以与物理按键或厂商Logo集成在一起。

光学传感器515用于采集环境光强度。在一个实施例中，处理器501可以根据光学传感器515采集的环境光强度，控制显示屏505的显示亮度。具体地，当环境光强度较高时，调高显示屏505的显示亮度；当环境光强度较低时，调低显示屏505的显示亮度。在另一个实施例中，处理器501还可以根据光学传感器515采集的环境光强度，动态调整摄像头组件506的拍摄参数。

接近传感器516，也称距离传感器，通常设置在电子设备500的前面板。接近传感器516用于采集用户与电子设备500的正面之间的距离。在一个实施例中，当接近传感器516检测到用户与电子设备500的正面之间的距离逐渐变小时，由处理器501控制显示屏505从亮屏状态切换为息屏状态；当接近传感器516检测到用户与电子设备500的正面之间的距离逐渐变大时，由处理器501控制显示屏505从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图5中示出的结构并不构成对电子设备500的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条程序代码，该至少一条程序代码由计算机设备的处理器加载并执行，以实现上述任一种音量调整方法。

在示例性实施例中，还提供一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括：计算机指令，该计算机指令由处理器加载并执行，以实现上述任一种音量调整方法。

可选地，上述计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-OnlyMemory，CD-ROM)、磁带、软盘和光数据存储设备等。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种音量调整方法，其特征在于，所述方法包括：

基于所述当前时刻的嘈杂度，确定音量调整值；

2.根据权利要求1所述的方法，其特征在于，所述基于所述当前时刻的音频信息和所述第一音量，计算所述当前时刻的嘈杂度，包括：

确定所述当前时刻的音频信息对应的第二音量；

3.根据权利要求1或2所述的方法，其特征在于，所述基于所述当前时刻的嘈杂度，确定音量调整值，包括：

4.根据权利要求1所述的方法，其特征在于，所述采集当前时刻的音频信息之前，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述当前时刻的排队等位对象数量和所述当前时刻的目标视频帧，确定所述第一音量，包括：

基于所述目标音量范围，确定所述第一音量。

6.根据权利要求5所述的方法，其特征在于，所述基于所述当前时刻的排队等位对象数量和所述目标视频帧包括的对象数量，确定目标音量范围，包括：

7.根据权利要求4至6任一所述的方法，其特征在于，所述获取所述当前时刻的排队等位对象数量，包括：

获取所述当前时刻的排队对象数量和排队进度；

8.一种音量调整装置，其特征在于，所述装置包括：

播放模块，用于按照所述目标音量播放所述目标内容。

9.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现如权利要求1至7任一所述的音量调整方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现如权利要求1至7任一所述的音量调整方法。