CN110347367B

CN110347367B - 音量调节方法、终端设备、存储介质及电子设备

Info

Publication number: CN110347367B
Application number: CN201910634983.7A
Authority: CN
Inventors: 赵涛涛
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd; Shanghai Xiaodu Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Shanghai Xiaodu Technology Co Ltd
Priority date: 2019-07-15
Filing date: 2019-07-15
Publication date: 2023-06-20
Anticipated expiration: 2039-07-15
Also published as: US11068235B2; JP2021015265A; CN110347367A; US20210019110A1; JP7033156B2

Abstract

本发明提供一种音量调节方法、终端设备、存储介质及电子设备。本发明提供的音量调节方法，包括：先获取当前环境的环境声音，确定环境声音中所包含的主体声音，其中，主体声音为环境声音中所包括的所有声音类型中预设声音特性最强的声音，然后根据主体声音以及预设声音调节规则对音频声音的音量进行调节。本发明提供的音量调节方法，可以使得终端设备在不同工作环境下，能够采用适应的调节方式对音量进行控制，以为用户输出符合用户当前需求的音量。

Description

音量调节方法、终端设备、存储介质及电子设备

技术领域

本发明涉及音量控制技术领域，尤其涉及一种音量调节方法、终端设备、存储介质及电子设备。

背景技术

随着电子技术的发展，智能音箱已经逐步成为人们日常生活中的常用电器，用户除了可以利用智能音箱进行播放音乐之外，还可以通过语音与智能音箱进行交互

目前，智能音箱可以实现的功能包括点播歌曲、上网购物，或是了解天气预报，此外，它还可以对智能家居设备进行控制，比如打开窗帘、设置冰箱温度、提前让热水器升温等。

但是，智能音箱在播放引导话术和资源时，往往只能以一个固定的音量来播放，除非用户对智能音箱发送调节指令，智能音箱才能调节音量，这很不智能，影响用户体验。

发明内容

本发明提供一种音量调节方法、终端设备、存储介质及电子设备，以使得终端设备在不同工作环境下，能够采用适应的调节方式对音量进行控制，以为用户输出符合用户当前需求的音量。

第一方面，本发明提供一种音量调节方法，应用于终端设备，所述方法包括：

获取当前环境的环境声音；

确定所述环境声音中所包含的主体声音，其中，所述主体声音为所述环境声音中所包括的所有声音类型中预设声音特性最强的声音，所述声音类型包括：音频声音、人声声音以及设备声音，其中，所述音频声音为所述终端设备播放的声音；

根据所述主体声音以及预设声音调节规则对所述音频声音的音量进行调节。

在一种可能的设计中，所述根据所述主体声音以及预设声音调节规则对所述音频声音的音量进行调节，包括：

当所述主体声音为所述人声声音时，计算监测到所述人声声音的持续时长；

若所述持续时长超过第一预设时长时，将所述音频声音的音量调小。

在一种可能的设计中，在所述将所述音频声音的音量调小之后，还包括：

若所述人声声音停止时长超过第二预设时长时，将所述音频声音的音量调节至原先音量。

当所述主体声音为所述设备声音时，计算监测到所述设备声音的持续时长；

若所述持续时长超过第三预设时长时，将所述音频声音的音量调小。

若所述设备声音停止时长超过第四预设时长时，将所述音频声音的音量调节至原先音量。

当所述主体声音无法确定时，将所述音频声音的音量调小。

根据所述环境声音中调节指令声音确定发声对象的身份信息；

根据所述身份信息以及所述预设声音调节规则确定声音调节幅度。

在一种可能的设计中，在所述根据所述主体声音以及预设声音调节规则对所述音频声音的音量进行调节之后，还包括：

若在预设第五时长内接收到所述调节指令声音，并且所述调节指令声音用于指示所述终端设备与最近一次声音调节的方向相反，则所述终端设备停止对所述音频声音进行自动调节。

第二方面，本发明还提供一种终端设备，包括：

获取模块，用于获取当前环境的环境声音；

处理模块，用于确定所述环境声音中所包含的主体声音，其中，所述主体声音为所述环境声音中所包括的所有声音类型中预设声音特性最强的声音，所述声音类型包括：音频声音、人声声音以及设备声音，其中，所述音频声音为所述终端设备播放的声音；

调节模块，用于根据所述主体声音以及预设声音调节规则对所述音频声音的音量进行调节。

在一种可能的设计中，所述调节模块，具体用于：

在一种可能的设计中，所述调节模块，还用于若所述人声声音停止时长超过第二预设时长时，将所述音频声音的音量调节至原先音量。

在一种可能的设计中，所述调节模块，具体用于：

在一种可能的设计中，所述调节模块，还用于若所述设备声音停止时长超过第四预设时长时，将所述音频声音的音量调节至原先音量。

在一种可能的设计中，所述调节模块，具体用于：

当所述主体声音无法确定时，将所述音频声音的音量调小。

在一种可能的设计中，所述处理模块，具体用于：

在一种可能的设计中，所述调节模块，还用于若在预设第五时长内接收到所述调节指令声音，并且所述调节指令声音用于指示所述终端设备与最近一次声音调节的方向相反，则所述终端设备停止对所述音频声音进行自动调节。

第三方面，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面中任意一种可能的音量调节方法。

第四方面，本发明还提供一种电子设备，包括：

处理器；以及，

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行第一方面中任意一种可能的音量调节方法。

本发明提供的一种音量调节方法、终端设备、存储介质及电子设备，通过确定终端设备所获取到的环境声音中所包含的主体声音，并根据主体声音以及预设声音调节规则对音频声音的音量进行适应性的调节，从而使得终端设备在不同工作环境下，能够采用适应的调节方式对音量进行控制，以为用户输出符合用户当前需求的音量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明根据一示例性实施例示出的音量调节方法的应用场景图；

图2是本发明根据一示例性实施例示出的音量调节方法的流程示意图；

图3是本发明根据另一示例性实施例示出的音量调节方法的流程示意图；

图4是本发明根据一示例性实施例示出的终端设备的结构示意图；

图5是本发明根据一示例性实施例示出的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明根据一示例性实施例示出的音量调节方法的应用场景图。如图1所示，本实施例提供的音量调节方法应用于终端设备，其中，该终端设备可以为具有拾音功能以及声音播放功能的电子设备，例如，可以为智能音箱、智能手机、个人电脑以及智能机器人等，值得说明的，在本实施例中，并不对终端设备的具体形式进行限定。但是，为了对本申请的实现原理进行详细说明，可以选取智能音箱101进行举例说明。考虑到智能音箱101会被设置在不同的场景中，例如安静的家中或者嘈杂的商场，因此，智能音箱101所获取到的环境声音通常是各种声音的混合声，例如，包括智能音箱101自身所发出的音频声音，用户102发出的人声声音，以及其他外部设备(例如：电视机103，个人电脑104等)发出的设备声音。

其中，智能音箱101上还设置有麦克风1011，麦克风1011用于收取当前环境的环境声音。

在麦克风1011成功拾音之后，确定环境声音中所包含的主体声音，其中，主体声音为环境声音中所包括的所有声音类型中预设声音特性最强的声音，例如，可以为响度最响的声音、频率最高的声音或者是声音持续时间最长的声音。可选的，上述的声音类型可以是包括：音频声音、人声声音以及设备声音，其中，音频声音为智能音箱101播放的声音，例如智能音箱101当前播放的音乐的声音。

最后，根据主体声音以及预设声音调节规则对音频声音的音量进行调节。值得说明的，在日常生活中，人与人在进行对话时，说话的声音一般是保持在一个固定的范围，如果说话的场景比较安静，说话的音量很偏低一些；如果说话的场景比较嘈杂，有很多其它干扰，则说话的音量会稍高一些，其基本的原则是让说话的对象可以听清。但是，智能音箱101在播放引导话术和资源时，往往只能以一个固定的音量来播放。而在本实施例中，智能音箱101在进行音频播放前，先通过确定当前环境的环境声音中的主体声音，然后再根据主体声音以及预设声音调节规则对智能音箱101所播放的音频声音的音量进行适应性的调节。

图2是本发明根据一示例性实施例示出的音量调节方法的流程示意图。如图2所示，本实施例提供的音量调节方法，包括：

步骤201、获取当前环境的环境声音。

具体的，可以是通过终端设备，例如智能音箱上的麦克风来收取用户发出的环境声音。其中，环境声音通常包括各种不同类型声音，例如：包括智能音箱自身所发出的音频声音，用户发出的人声声音，以及其他外部设备发出的设备声音。

其中，上述人声声音具体可以为人在说话，或者是多人在对话所发出的声音，可选的，可以记录此时人声声音的音量大小。其他外部设备发出的设备声音可以为例如电视声音，或者其它设备播放的音频声音，可选的，可以记录此时设备声音的音量的大小。而智能音箱自身所发出的音频声音可以为智能音箱工作时，对外播放引导话术，或者是播放音视频资源的声音。

可选的，当智能音箱处于工作状态时，智能音箱中的音量监控模块，例如麦克风会监控当前工作环境，并且收录当前播放环境下的全部音量。然后，再对收集到的环境声音，进行实时分析，首先会过滤掉智能音箱自身的音频声音，保留下此时播放环境中的其它声音，其中，需要理解的，在智能音箱进行播放音频时，智能音箱会预先获取到所要播放的音频的声音信息，而通过预设获取到的声音信息就可以从复杂的环境声音中过滤掉智能音箱自身的音频声音。

此外，还可以是通过收集不同设备、不同用户的声音样本，然后将收集到的声音样本输入至神经网络模型中进行学习和训练，从而利用神经网络模型环境声音中各个声音类型进行区分。

此外，针对上述的人声声音还可以是通过语音识别的方式进行获取，当通过语音识别的方式识别到语音信息，则认为是人声声音。而由于电视之类的设备也会播报语音，则可以通过声音频率进行区分，根据人体发生的声音频率和电子设备发声的声音频率之间的区别进行人声声音和设备声音之间的区别。

步骤202、确定环境声音中所包含的主体声音。

具体地，在智能音箱的麦克风成功拾音之后，确定环境声音中所包含的主体声音，其中，主体声音为环境声音中所包括的所有声音类型中预设声音特性最强的声音，例如，可以为响度最响的声音、频率最高的声音或者是声音持续时间最长的声音。

步骤203、根据主体声音以及预设声音调节规则对音频声音的音量进行调节。

最后，根据主体声音以及预设声音调节规则对音频声音的音量进行调节。其中，可选的，具体声音调节规则如下所示：

在一种可能的情况中，当主体声音为人声声音时，计算监测到人声声音的持续时长，若持续时长超过第一预设时长时，将音频声音的音量调小。而若人声声音停止时长超过第二预设时长时，则将音频声音的音量调节至原先音量。

具体的，可以是从开始监控到人声声音，例如对话的声音开始计算，如果人声声音持续了2分钟，则主动降低智能音箱的音量，让人可以更舒适的进行对话。而当监控到人不再说话，并且持续1分钟之后，此时背景声音趋于静音环境时，智能音箱的音量逐渐恢复到调整之前的状态。

在另一种可能的情况中，当主体声音为设备声音时，计算监测到设备声音的持续时长，若持续时长超过第三预设时长时，将音频声音的音量调小。而若设备声音停止时长超过第四预设时长时，则将音频声音的音量调节至原先音量。

具体的，可以是从开始监控到其它设备的设备声音开始计算，如果其它设备播放的设备声音持续2分钟，则主动降低智能音箱的音量，让人可以更清晰的听到其它设备的声音，其中，智能音箱的声音可以弱化到背景音。但是，当其它设备的声音被关闭，并且，持续1分钟未监控到其它设备的声音时，则调整智能音箱播放音频声音的音量，逐渐恢复到调整之前的状态。

在另一种可能的情况中，当主体声音无法确定时，则将音频声音的音量调小。例如，智能音箱所获取到的环境声音为嘈杂声音，此时背景声音比较杂乱，无法判断出哪种声音占主导地位。由于在该环境下，声音已经非常复杂，为了避免智能音箱的声音使得环境声音更加嘈杂，则此时，智能音箱可以立刻把音量调节小一些，从而使得降低环境声音的嘈杂度。

此外，若在预设第五时长内接收到调节指令声音，并且调节指令声音用于指示终端设备与最近一次声音调节的方向相反，则终端设备停止对音频声音进行自动调节。例如，如果音量调小或者调大之后，用户在5分钟之内主动进行了反向的调整，则后续不再对该台设备应用上述的音量调整策略，防止用户使用场景不同，而导致音量调整策略不适配此场景。

在本实施例中，通过确定终端设备所获取到的环境声音中所包含的主体声音，并根据主体声音以及预设声音调节规则对音频声音的音量进行适应性的调节，从而使得终端设备在不同工作环境下，能够采用适应的调节方式对音量进行控制，以为用户输出符合用户当前需求的音量。

图3是本发明根据另一示例性实施例示出的音量调节方法的流程示意图。如图3所示，本实施例提供的音量调节方法，包括：

步骤301、获取当前环境的环境声音。

步骤302、确定环境声音中所包含的主体声音。

值得说明的，本实施例中步骤301-步骤302的具体描述可以参照图2所示实施例中步骤201-步骤202的描述，此处不再进行赘述。

步骤303、根据环境声音中调节指令声音确定发声对象的身份信息。

考虑到每个用户声音的感知程度不同，在根据用户指令进行声音调节之前，需要先获取发声对象的身份信息，其中，可选的，身份信息可以根据用户的年龄阶段进行划分，例如，身份信息可以包括：儿童类型、青年类型以及老人类型。

而对于根据唤醒声音指令确定用户的身份类型的具体方式，可以是先确定唤醒声音指令的音色信息、响度信息以及频率信息，然后根据预设分类规则、音色信息、响度信息以及频率信息确定身份类型。值得理解的，对于不同年龄段的用户，通常发出的声音特性也是不同的，例如，对于老人，通常是声音响度会比较低，而对于年轻人的声音响度会比较高，而对于儿童则是声音频率会比较高。

此外，还可以是通过收集不同年龄段的声音样本，然后将收集到的声音样本输入至神经网络模型中进行学习和训练，从而利用神经网络模型对输入的唤醒声音指令的发声对象的身份类型进行确定。

步骤304、根据身份信息以及预设声音调节规则确定声音调节幅度。

在确认用户的身份信息之后，根据不同的身份信息采用不同的声音调节方案可以使得所采用的调节方案可以使用于不同类型用户的用户特性。其中，值得说明的，例如确认用户的身份信息为老人用户，则可以在响应于老人发出的“播放音乐”唤醒声音指令进行播放音乐时，将播放音乐的音量调节的比较大，例如可以为等级30，而在响应于儿童发出的“播放音乐”唤醒声音指令进行播放音乐时，将播放音乐的音量调节的比较小，例如可以为等级20。值得说明的，在本实施例中，声音等级的数值，例如20或者30只是为了进行示例性说明，可以根据实际终端设备的音量设定规则进行适配。

此外，还可以在响应于老人发出的“大点声”唤醒声音指令进行音量调高时，将每次音量调节的幅度设定较大，例如可以每次调节为等级5，而在响应于儿童发出的“大点声”唤醒声音指令进行音量调高时，将每次音量调节的幅度设定较小，例如可以每次调节为等级2。值得说明的，在本实施例中，声音等级的数值，例如5或者2只是为了进行示例性说明，可以根据实际终端设备的音量设定规则进行适配。

在本实施例中，通过先获取用户输入的调节指令声音，然后再根据调节指令声音确定用户的不同年龄阶段的身份信息，最后根据身份类型以及预设声音调节规则对终端设备发出的音频声音的播放音量进行调节，从而使得终端设备的音量调节可以适用于对声音具有不同敏感度的用户，以及可以提高用户进行音量调节的效率。

图4是本发明根据一示例性实施例示出的终端设备的结构示意图。如图4所示，本实施例提供的终端设备，包括：

获取模块401，用于获取当前环境的环境声音；

处理模块402，用于确定所述环境声音中所包含的主体声音，其中，所述主体声音为所述环境声音中所包括的所有声音类型中预设声音特性最强的声音，所述声音类型包括：音频声音、人声声音以及设备声音，其中，所述音频声音为所述终端设备播放的声音；

调节模块403，用于根据所述主体声音以及预设声音调节规则对所述音频声音的音量进行调节。

在一种可能的设计中，所述调节模块403，具体用于：

在一种可能的设计中，所述调节模块403，还用于若所述设备声音停止时长超过第四预设时长时，将所述音频声音的音量调节至原先音量。

在一种可能的设计中，所述调节模块403，具体用于：

当所述主体声音无法确定时，将所述音频声音的音量调小。

在一种可能的设计中，所述处理模块402，具体用于：

在一种可能的设计中，所述调节模块403，还用于若在预设第五时长内接收到所述调节指令声音，并且所述调节指令声音用于指示所述终端设备与最近一次声音调节的方向相反，则所述终端设备停止对所述音频声音进行自动调节。

以上后端处理模块402可以被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(digital singnal processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(Central Processing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

值得说明地，图4所示实施例中的终端设备，可用于执行上述图2-图3所示实施例中的方法，具体实现方式和技术效果类似，这里不再进行赘述。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述任一项方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图5是本发明根据一示例性实施例示出的电子设备的结构示意图。如图5所示，本实施例提供的电子设备500，包括：

处理器501以及存储器502；其中：

存储器502，用于存储计算机程序，该存储器还可以是闪存。

处理器501，用于执行存储器存储的执行指令，以实现上述方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。

可选地，存储器502既可以是独立的，也可以跟处理器501集成在一起。

当所述存储器502是独立于处理器501之外的器件时，所述电子设备还可以包括：

总线503，用于连接所述存储器502和处理器501。

本实施例还提供一种程序产品，该程序产品包括计算机程序，该计算机程序存储在可读存储介质中。电子设备的至少一个处理器可以从可读存储介质读取该计算机程序，至少一个处理器执行该计算机程序使得电子设备实施上述的各种实施方式提供的方法。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或对其中部分或全部技术特征进行等同替换；而这些修改或替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种音量调节方法，其特征在于，应用于终端设备，所述方法包括：

获取当前环境的环境声音；

根据所述主体声音以及第一预设声音调节规则对所述音频声音的音量进行调节；

若在预设第五时长内接收到环境声音中调节指令声音，并且所述调节指令声音用于指示所述终端设备与最近一次声音调节的方向相反，则所述终端设备停止对所述音频声音进行自动调节；

所述方法，还包括：

确定所述调节指令声音的音色信息、响度信息以及频率信息，根据预设分类规则、所述音色信息、响度信息以及频率信息确定发声对象的身份类型，所述身份类型根据用户的年龄阶段进行划分；

根据所述身份类型以及第二预设声音调节规则确定响应所述调节指令的声音调节幅度，其中，年龄阶段大的用户对应的声音调节幅度大于年龄阶段小的用户对应的声音调节幅度。

2.根据权利要求1所述的音量调节方法，其特征在于，所述根据所述主体声音以及第一预设声音调节规则对所述音频声音的音量进行调节，包括：

3.根据权利要求2所述的音量调节方法，其特征在于，在所述将所述音频声音的音量调小之后，还包括：

4.根据权利要求1所述的音量调节方法，其特征在于，所述根据所述主体声音以及第一预设声音调节规则对所述音频声音的音量进行调节，包括：

5.根据权利要求4所述的音量调节方法，其特征在于，在所述将所述音频声音的音量调小之后，还包括：

6.根据权利要求1所述的音量调节方法，其特征在于，所述根据所述主体声音以及第一预设声音调节规则对所述音频声音的音量进行调节，包括：

当所述主体声音无法确定时，将所述音频声音的音量调小。

7.一种终端设备，其特征在于，包括：

获取模块，用于获取当前环境的环境声音；

调节模块，用于根据所述主体声音以及预设声音调节规则对所述音频声音的音量进行调节；

所述处理模块，还用于根据所述环境声音中调节指令声音确定发声对象的身份信息，所述身份信息根据用户的年龄阶段进行划分；

根据所述身份信息以及第二预设声音调节规则确定响应所述调节指令的声音调节幅度，其中，年龄阶段大的用户对应的声音调节幅度大于年龄阶段小的用户对应的声音调节幅度。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-6任一项所述的音量调节方法。

9.一种电子设备，其特征在于，包括：

处理器；以及，

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至6中任一项所述的音量调节方法。