CN110392298B

CN110392298B - 一种音量调节方法、装置、设备及介质

Info

Publication number: CN110392298B
Application number: CN201810367876.8A
Authority: CN
Inventors: 邓朔
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-04-23
Filing date: 2018-04-23
Publication date: 2021-09-28
Anticipated expiration: 2038-04-23
Also published as: CN110392298A

Abstract

本发明公开了一种音量调节方法、装置、设备及介质，应用于音视频数据处理技术领域，用以解决现有技术中通过手动发起音量调节指令来调节音视频播放设备的音量时，可能影响用户收听音频或者观看视频的体验的问题。该方法为：获取音视频播放设备采集的图像；根据本次获得的图像中的人脸信息和上次获得的图像中的人脸信息，确定音量调节倍数；根据音量调节倍数和音视频播放设备的当前音量，调节音视频播放设备的音量，从而实现了对音视频播放设备的音量的自动调节，简化了调节音视频播放设备的音量的操作，有效地提高了用户收听音频或者观看视频的体验。

Description

一种音量调节方法、装置、设备及介质

技术领域

本发明涉及音视频数据处理技术领域，尤其涉及一种音量调节方法、装置、设备及介质。

背景技术

目前，在收听音频或者观看视频的过程中，用户通常需要借助遥控器、鼠标或音量控制键等手动发起音量调节指令，以此来调节音视频播放设备的音量。

然而，这种通过手动发起音量调节指令来调节音视频播放设备的音量的方法，很可能会影响用户收听音频或者观看视频的体验，而且，随着对遥控器、鼠标或音量控制键等的按压操作的次数的增加，损耗越来越大，使用寿命也越来越短。

发明内容

本发明实施例提供了一种音量调节方法、装置、设备及介质，用以简化音量调节操作，尽可能地减少了对遥控器、鼠标或音量控制键等的损耗，从而延长了遥控器、鼠标或音量控制键等的使用寿命。

本发明实施例提供的具体技术方案如下：

第一方面，本发明实施例提供了一种音量调节方法，包括：

获取音视频播放设备采集的图像；

根据本次获得的图像中的人脸信息和上次获得的图像中的人脸信息，确定音量调节倍数；

根据音量调节倍数和音视频播放设备的当前音量，调节音视频播放设备的音量。

较佳的，根据本次获得的图像中的人脸信息和上次获得的图像中的人脸信息，确定音量调节倍数，包括：

检测本次获得的图像中的参考人脸区域；

确定本次获得的图像中的参考人脸区域与上次获得的图像中的参考人脸区域之间的区域面积比例；

根据区域面积比例，确定音量调节倍数。

较佳的，检测本次获得的图像中的参考人脸区域，包括：

若在本次获得的图像中检测出一个人脸区域，则确定检测出的人脸区域为参考人脸区域；

若在本次获得的图像中检测出至少两个人脸区域，则选取对应的区域面积最大的人脸区域为参考人脸区域。

较佳的，若音视频播放设备为移动终端，则还包括：

多次获取移动终端的运动参考数据，并根据多次获得的运动参考数据的变化特征，确定移动终端处于稳定状态。

较佳的，根据多次获得的运动参考数据的变化特征，确定移动终端处于稳定状态，包括：

确定每一次获得的运动参考数据与第一次获得的运动参考数据之间的运动变化量；

若连续N次确定出的运动变化量均不大于第一变化量阈值，则确定移动终端处于稳定状态，其中，N为大于1的整数。

较佳的，移动终端的运动参考数据为以下任意一种：加速度值，移动终端与人脸之间的距离，移动终端的位置坐标。

较佳的，若音视频播放设备为移动终端，则还包括：

多次获取移动终端的环境光参考数据，并根据多次获得的环境光参考数据的变化特征，确定移动终端所处的环境处于稳定状态。

较佳的，根据多次获得的环境光参考数据的变化特征，确定移动终端所处的环境处于稳定状态，包括：

确定每一次获得的环境光参考数据与第一次获得的环境光参考数据之间的环境光变化量；

若连续M次确定出的环境光变化量均不大于第二变化量阈值，则确定移动终端所处的环境处于稳定状态，其中M为大于1的整数。

较佳的，采用以下方式获得移动终端的环境光参考数据：

获取移动终端采集的环境图像；

将环境图像转换成灰度图像；

确定灰度图像的灰度平均值为移动终端的环境光参考数据。

较佳的，若音视频播放设备为移动终端，则还包括：

多次获取移动终端的环境光参考数据，并根据多次获得的环境光参考数据之间的变化特征，确定移动终端所处的环境处于稳定状态。

第二方面，本发明实施例提供了一种音量调节装置，包括：

图像获取单元，用于获取音视频播放设备采集的图像；

倍数确定单元，用于根据本次获得的图像中的人脸信息和上次获得的图像中的人脸信息，确定音量调节倍数；

音量调节单元，用于根据音量调节倍数和音视频播放设备的当前音量，调节音视频播放设备的音量。

较佳的，在根据本次获得的图像中的人脸信息和上次获得的图像中的人脸信息，确定音量调节倍数时，倍数确定单元具体用于：

检测本次获得的图像中的参考人脸区域；

根据区域面积比例，确定音量调节倍数。

较佳的，在检测本次获得的图像中的参考人脸区域时，倍数确定单元具体用于：

较佳的，若音视频播放设备为移动终端，则还包括：

第一稳态检测单元，用于多次获取移动终端的运动参考数据，并根据多次获得的运动参考数据的变化特征，确定移动终端处于稳定状态。

较佳的，在根据多次获得的运动参考数据的变化特征，确定移动终端处于稳定状态时，第一稳态检测单元具体用于：

较佳的，第一稳态检测单元获得的移动终端的运动参考数据为以下任意一种：加速度值，移动终端与人脸之间的距离，移动终端的位置坐标。

较佳的，若音视频播放设备为移动终端，则还包括：

第二稳态检测单元，用于多次获取移动终端的环境光参考数据，并根据多次获得的环境光参考数据的变化特征，确定移动终端所处的环境处于稳定状态。

较佳的，在根据多次获得的环境光参考数据的变化特征，确定移动终端所处的环境处于稳定状态时，第二稳态检测单元具体用于：

较佳的，第二稳态检测单元用于采用以下方式获得移动终端的环境光参考数据：

获取移动终端采集的环境图像；

将环境图像转换成灰度图像；

确定灰度图像的灰度平均值为移动终端的环境光参考数据。

较佳的，若音视频播放设备为移动终端，则还包括：

第三方面，本发明实施例提供了一种音量调节设备，包括存储器、处理器和存储在存储器上的计算机程序，处理器执行计算机程序时实现上述音量调节方法的步骤。

第四方面，本发明实施例提供了一种非易失性计算机存储介质，该非易失性计算机存储介质存储有可执行程序，该可执行程序被处理器执行实现上述音量调节方法的步骤。

本发明实施例的有益效果如下：

本发明实施例中，根据获得的图像中的人脸信息确定音量调节倍数后，即可根据确定出的音量调节倍数和当前音量，调节音量调节设备的音量，从而实现了对音量调节设备的音量的自动调节，不仅简化了调节音量调节设备的音量的操作，有效地提高了用户收听音频和观看视频的体验，而且，也尽可能地减少了对遥控器、鼠标或音量控制键等的损耗，从而延长了遥控器、鼠标或音量控制键等的使用寿命。

附图说明

图1为本发明实施例中提供的移动终端的硬件结构示意图；

图2为本发明实施例中提供的音量调节方法的流程示意图；

图3为本发明实施例中提供的音量调节方法的具体流程示意图；

图4为本发明实施例中提供的音量调节装置的功能结构示意图；

图5为本发明实施例中提供的音量调节设备的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，并不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明实施例提供的一种音量调节方法、装置、设备及介质不仅可以应用于音视频播放场景，还可以应用于其他所有涉及到音量调节的场景，比如，通话的音量调节场景等，在此不作具体限定。

为了便于理解本发明，首先对本发明实施例中涉及的部分技术用语进行说明。

运动参考数据，为能够体现移动终端的运动状态的数据，比如，加速度值、移动终端与人脸之间的距离、移动终端的位置坐标等。

环境光参考数据，为能够体现移动终端所处的环境状态的数据，比如，灰度平均值等。

音视频播放设备，为能够播放音视频的设备，例如，智能电视机、台式电脑、笔记本电脑、移动终端、或者其它能够实现上述功能的设备等。本发明实施例中，主要以音视频播放设备是移动终端为例进行说明，下面对本发明实施例中的移动终端进行详细说明。

移动终端，为可以安装视频播放应用，并且能够将已安装的视频播放应用所提供的视频信息进行显示的设备。例如，手机、平板电脑、个人数字助理(Personal DigitalAssistant，PDA)、或者其它能够实现上述功能的设备等。

具体的，参阅图1所示，本发明实施例中的移动终端可以包括处理器111、存储器112、显示单元113、输入单元114、摄像头115、重力加速度传感器116、接近光传感器117、环境光传感器118、射频(Radio Frequency，RF)电路119、音频电路120、扬声器121、麦克风122、无线保真(Wireless Fidelity，WiFi)模块123、蓝牙模块124、外部接口125和电源126等部件。需要说明的是，处理器111和存储器112可以在同一芯片上实现，也可以在独立的芯片上分别实现，图1仅以在独立的芯片上分别实现为例。

其中，处理器111，是移动终端的控制中心，利用各类接口和线路与移动终端中的其他部件和单元连接，通过运行或执行存储在存储器112内的指令以及调用存储在存储器112内的数据，执行移动终端具备的各种功能和处理数据，从而对移动终端进行整体监控。可选的，处理器190可包括一个或多个处理单元，优选的，处理器111可以集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信等，需要说明的是，调制解调处理器也可以不集成在处理器111中，可以作为独立的部件部署在移动终端中。在一些实施例中，处理器、存储器、可以在单一芯片上实现，在一些实施例中，他们也可以在独立的芯片上分别实现。在本发明实施例中，处理器111还用于调用存储器112中的指令以实现本发明示例性实施方式的音量调节方法的步骤。

存储器112，可用于存储指令和数据，主要包括存储指令区和存储数据区，其中，存储数据区可存储触摸手势与应用程序功能之间的关联关系以及移动终端的使用数据等；存储指令区可存储操作系统、至少一个功能所需的指令等，指令可使处理器111执行本发明示例性实施方式的音量调节方法的步骤。此外，存储器112可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件等。

显示单元113，用于显示用户输入的信息、提供给用户的信息或移动终端的各类菜单等，显示单元113可以包括显示面板1131。显示面板1131可以采用液晶显示屏(LiquidCrystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置。本发明实施例中，显示单元113主要用于显示安装在移动终端上的视频播放应用播放的视频。

输入单元114，用于接收输入的数字或字符等信息，并产生与移动终端的用户设置以及功能控制有关的键信号输入，具体地，输入单元114包括触控面板1141和其他输入设备1142，其中，触控面板1141，也称为触摸屏，用于采集用户在其上或附近的触摸操作(比如，用户使用手指、触摸笔等任何适合的物体或附件，在触控面板1141上或在触控面板1141附近执行的操作)，并根据预先设定的程序驱动相应的连接装置，触控面板1141可以检测用户的触摸操作，确定触摸操作对应的信号，并将这些信号转换成触点坐标发送给处理器111，以及接收处理器111下发的命令并加以执行，此外，触控面板1141可以提供移动终端和用户之间的输入界面和输出界面，可以采用电阻式、电容式、红外线和表面声波等多种类型实现；其他输入设备1142可以包括但不限于物理键盘、功能键(比如音量控制按键、开关机按键等)、轨迹球、鼠标和操作杆等中的一种或多种。

当然，触控面板1141可覆盖显示面板1131，当触控面板1141检测到在其上或附近的触摸操作后，传送给处理器111以确定该触摸操作对应的触摸事件的类型，随后处理器111根据触摸事件的类型在显示面板1131上提供相应的视觉输出。在具体实施时，触控面板1141和显示面板1131可以集成为一个部件实现移动终端的输入、输出和显示功能，也可以作为两个独立的部件分别实现移动终端的输入、输出功能和显示功能，图1中仅以触控面板1141和显示面板1131可以作为两个独立的部件为例。

摄像头115，可以包括前置摄像头和后置摄像头，用于拍摄图像，本发明实施例中，摄像头115用于拍摄图像和移动终端所处环境的环境图像。

重力加速度传感器116，可以检测各个方向上(一般为三轴)的加速度值，还可以用于检测移动终端静止时的重力大小和方向，可用于识别移动终端姿态的应用(比如，横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如，计步器、敲击)等。在本发明实施例中，重力加速度传感器116用于获取移动终端的加速度值。

接近光传感器117，用于当移动终端距离用户较近时(比如，当用户正在打电话时靠近耳朵)关闭并禁用触摸屏以避免用户对触摸屏的误操作。

环境光传感器118，用于当移动终端位于用户口袋里或其他黑暗区域时保持触摸屏关闭，以防止移动终端在锁定状态时消耗不必要的电池功耗或被误操作，在一些实施例中，接近光传感器和环境光传感器可以集成在一个部件中，也可以作为两个独立的部件。

优选的，移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。虽然图1示出了接近光传感器和环境光传感器，但是可以理解的是，其并不属于移动终端的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

RF电路119，可用于收发信息或通话过程中信号的接收和发送，特别地，可以将基站的下行信息接收后发送给处理器111处理，另外，将移动终端的上行信息发送给基站。通常情况下，RF电路119包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low Noise Amplifier，LNA)、双工器等。此外，RF电路119还可以通过无线通信与网络设备和其他设备通信。无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(Global System of Mobile communication，GSM)、通用分组无线服务(GeneralPacket Radio Service，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access，WCDMA)、长期演进(Long TermEvolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

音频电路120、扬声器121、麦克风122可提供用户与移动终端之间的音频接口，音频电路120可将接收到的音频数据转换后的电信号，传输到扬声器121，由扬声器121转换为声音信号输出，另一方面，麦克风122将收集的声音信号转换为电信号，由音频电路120接收后转换为音频数据，再将音频数据输出处理器111处理后经RF电路119发送给另一移动终端，或者将音频数据输出至存储器112以便进一步处理，音频电路120也可以包括耳机插孔1201，用于提供音频电路120和耳机之间的连接接口。

WiFi模块123，采用的是短距离无线传输技术，移动终端通过WiFi模块123帮助用户收发电子邮件、浏览网页和访问流式媒体等，为用户提供了无线宽带互联网访问。可以理解的是，虽然图1示出了WiFi模块123，但其并不属于移动终端的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

蓝牙模块124，采用的是短距离无线通讯技术，利用蓝牙模块124能够有效地简化掌上电脑、笔记本电脑和手机等移动终端之间的通信，也能够成功地简化移动设备与因特网(Internet)之间的通信，使移动终端与Internet之间的数据传输变得更加迅速高效，为无线通信拓宽道路。可以理解的是，虽然图1示出了蓝牙模块124，但是可以理解的是，其并不属于移动终端的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

外部接口125，可以是标准的Micro USB接口，也可以是多针连接器，可以用于连接其他设备与移动终端进行通信，也可以用于连接充电器为移动设备充电。

电源126，比如电池，用于给移动终端中的各个部件供电，优选的，电源126可以通过电源管理系统127与处理器111逻辑相连，从而通过电源管理系统127实现充电、放电、以及功耗管理等功能。

本领域技术人员可以理解，图1仅仅是移动终端的举例，并不构成对移动终端的限定，可以包括比图示的移动终端更多或更少的部件，或者某些部件的组合，或者不同的部件。

在介绍了本发明实施例中涉及的部分技术用语之后，接下来，对本发明示例性实施方式的音量调节方法进行简单说明。参阅图2所示，本发明示例性实施方式的音量调节方法的流程如下：

步骤201：获取音视频播放设备采集的图像。

在实际应用中，可以预先设置一个音量调节周期，确定到达音量调节周期时，触发音视频播放设备通过摄像头采集图像，并获取音视频播放设备采集的图像。较佳的，在大多数情况下，用户会在音视频播放设备的前方收听音频或观看视频，基于此，为了提高采集的图像的有效性，可以通过音视频播放设备的前置摄像头来采集图像，例如，若预先设置的音量调节周期为30秒，则确定到达30秒时，触发音视频播放设备通过前置摄像头采集图像，并获取音视频播放设备采集的图像。

步骤202：根据本次获得的图像中的人脸信息和上次获得的图像中的人脸信息，确定音量调节倍数。

优选的，为了降低计算量，提高人脸信息的获取效率，在获取音视频播放设备采集的图像之后，还可以将本次获得的图像的分辨率降低至设定分辨率，比如，降低至360P。在降低本次获得的图像的分辨率之后，可以采用但不限于以下方式来确定音量调节倍数：

首先，检测本次获得的图像中的人脸区域，具体的，可以采用基于特征空间的人脸检测方法、基于人工神经网络的人脸检测方法、基于概率模型的人脸检测方法、基于支撑向量机的人脸检测方法和基于深度学习的人脸检测方法等方法中的任意一种来检测本次获得的图像中的人脸区域，在此不作具体限定。

然后，根据检测出的人脸区域，确定本次获得的图像中的参考人脸区域。具体的，若检测出一个人脸区域，则确定检测出的人脸区域为本次获得的图像中的参考人脸区域；若在本次获得的图像中检测出至少两个人脸区域，则选取对应的区域面积最大的人脸区域为所述参考人脸区域。即，若本次获得的图像中的所有人脸区域的区域面积的集合为

其中，i为当前音量调节周期，k为本次获得的图像中的人脸区域的个数且大于等于1，则确定本次获得的图像中的参考人脸区域为区域面积集合

中最大区域面积

对应的人脸区域。

其次，确定本次获得的图像中的参考人脸区域与上次获得的图像中的参考人脸区域之间的区域面积比例。具体的，可以采用公式(1)来确定区域面积比例：

在公式(1)中，S为区域面积比例；i为当前音量调节周期；k为本次(即当前音量调节周期)获得的图像中的人脸区域的个数且大于等于1；

为本次获得的图像中的参考人脸区域的区域面积；i-1为上一个音量调节周期；m为上次(即上一个音量调节周期)获得的图像中的人脸区域的个数且大于等于1；

为上次获得的图像中的参考人脸区域的区域面积。

最后，根据区域面积比例，确定音量调节倍数。具体的，可以直接将区域面积比例确定为音量调节倍数，即T＝S，其中，T为音量调节倍数，S为区域面积比例；也可以将区域面积比例乘以比例系数后确定为音量调节倍数，即T＝A*S，其中，T为音量调节倍数，A为比例系数，S为区域面积比例，在此不作具体限定。在本发明实施例中，仅以T＝S为例进行说明。

步骤203：根据音量调节倍数和音视频播放设备的当前音量，调节音视频播放设备的音量。

在具体实施时，为了尽可能地避免在音量调节过程中出现的音视频播放设备的音量变化较为剧烈的问题，可以采用公式(2)来调节音视频播放设备的音量，从而实现音量的平滑过渡：

在公式(2)中，Vol_i为目标音量；Vol_i-1为当前音量；1和0.5可以根据经验值设置为固定值；δ为平滑系数，可以根据经验值设置为默认值，也可以由用户根据个人喜好进行自定义设置，在此不作具体限定；T为音量调节倍数。

采用本发明实施例中提供的上述音量调节方法，不仅能够自动获取图像，而且，还可以根据本次获得的图像中的人脸信息和上次获得的图像中的人脸信息，确定出音量调节倍数，从而根据确定出的音量调节倍数和当前音量，调节音视频播放设备的音量，进而实现了对音视频播放设备的音量的自动调节，不仅简化了调节音视频播放设备的音量的操作，有效地提高了用户收听音频和观看视频的体验，而且，也尽可能地减少了对遥控器、鼠标或音量控制键等的损耗，从而延长了遥控器、鼠标或音量控制键等的使用寿命，此外，在调节音视频播放设备的音量的过程中采用了平滑过渡方式，尽可能地降低了音量变化给用户带来的不适。

然而，在实际应用中，用户经常在相对运动的状态下收听音频或观看视频，比如，在跑步机上跑步时听音乐、看视频等，在这种相对运动的状态下，音量调节对用户的影响可能会比较小，若单一地以周期性的方式来调节音量，很可能存在由于调节频率过于频繁而影响用户收听音频或观看视频的体验的问题，基于此，本发明实施例中，若音视频播放设备为移动终端，还可以在获取移动终端采集的图像之前进行稳态检测，若根据稳态检测结果确定用户当前在相对运动的状态下观看视频，则可以结束本次音量调节流程，等待下一个音量调节周期的到来，若根据稳态检测结果确定用户当前在相对稳定的状态下观看视频，则可以继续采用上述音量调节方法来调节音视频播放设备的音量，较佳的，在进行稳态检测时可以采用但不限于以下方式：

方式一：终端状态检测法，具体为，多次获取移动终端的运动参考数据，若根据多次获得的运动参考数据的变化特征，确定移动终端处于稳定状态，则可以确定用户当前在相对稳定的状态下观看视频。

较佳的，在获取移动终端的运动参考数据时可以按照第一间隔来获取，比如，每间隔2秒，获取一次移动终端的运动参考数据，并确定每一次获得的运动参考数据与第一次获得的运动参考数据之间的运动变化量，若连续N次确定出的运动变化量均不大于第一变化量阈值(可以取值为±5％)，则确定移动终端处于稳定状态，其中，N为大于1的整数。具体的，可以按照第一间隔，每获取一次移动终端的运动参考数据，确定一次运动变化量，也可以按照第一间隔，多次获取移动终端的运动参考数据后，再分别确定每一个运动变化量，在此不作具体限定。

此外，本发明实施例中，移动终端的运动参考数据可以为加速度值、移动终端与人脸之间的距离和移动终端的位置坐标中的任意一种，具体的，加速度值可以通过移动终端的重力加速度传感器获取，移动终端与人脸之间的距离可以通过移动终端的距离传感器获取，位置坐标可以通过全球定位系统(Global Positioning System，GPS)信号获取。

方式二：环境光检测法，即多次获取移动终端的环境光参考数据，若根据多次获得的环境光参考数据的变化特征，确定移动终端所处的环境处于稳定状态，则可以确定用户当前在相对稳定的状态下观看视频。

较佳的，在获取移动终端的环境光参考数据时可以按照第二间隔来获取，比如，每间隔2秒，获取一次移动终端的环境光参考数据，并确定每一次获得的环境光参考数据与第一次获得的环境光参考数据之间的环境光变化量，若连续M次确定出的环境光变化量均不大于第二变化量阈值(可以取值为±5％)，则确定移动终端所处的环境处于稳定状态，其中M为大于1的整数。具体的，可以按照第二间隔，每获取一次移动终端的环境光参考数据，确定一次环境光变化量，也可以按照第二间隔，多次获取移动终端的环境光参考数据后，再分别确定每一个环境光变化量，在此不作具体限定。

此外，本发明实施例中，每次获取移动终端的环境光参考数据时可以采用但不限于以下方式：获取移动终端采集的环境图像，并将环境图像转换成灰度图像，以及确定灰度图像的灰度平均值为移动终端的环境光参考数据。优选的，由于频繁的环境光检测会消耗大量的计算性能，因此，本发明实施例中，在获取到移动终端通过前置摄像头采集的环境图像之后，可以利用移动终端中的图形处理器(Graphics Processing Unit，GPU)进行图像处理，利用移动终端中的中央处理器(Central Processing Unit，CPU)对进行数据处理，具体的，可以利用CPU将获得的环境图像转换为开放图形库(Open Graphics Library，OpenGL)可识别的纹理数据，并写入显存中，利用GPU从显存中读取纹理数据，并对纹理数据进行降采样处理，以及，将降采样处理后的纹理数据转换为灰度数据并写入显存中，利用CPU从显存中读取灰度数据，并确定灰度数据的灰度平均值。可选的，利用GPU从显存中读取纹理数据，并对纹理数据进行降采样处理后，还可以直接利用GPU将降采样处理后的纹理数据写入显存中，而利用CPU从显存中读取降采样处理后的纹理数据，并将降采样处理后的纹理数据转换为灰度数据，从而确定出灰度数据的灰度平均值。

值得说的是，在实际应用中，用户很可能会将移动终端固定在某个位置而用户在移动，在这种情况下，移动终端的运动参考数据始终保持不变，无法根据移动终端的运动参考数据来确定用户当前是否在相对稳定的状态下收听音频或观看视频，基于此，为了尽可能地避免由于移动终端被用户固定而无法根据移动终端的运动参考数据确定用户当前是否在相对稳定的状态下收听音频或观看视频，在进行稳态检测时，还可以将上述方式一和上述方式二相结合，即：

方式三：终端状态检测和环境光检测相结合的检测方法，具体为，获取移动终端的运动参考数据和环境光参考数据，若根据获得的运动参考数据确定移动终端处于稳定状态，且根据获得的环境光参考数据确定移动终端所处的环境处于稳定状态，则可以确定用户当前在相对稳定的状态下观看视频。

采用本发明实施例中提供的上述稳态检测方法，能够过滤掉一些对音量调节需求不是很强烈的场景，减少了用户在相对运动的状态下观看视频的过程中的音量调节次数，尽可能地避免了当用户在相对运动的状态下观看视频时由于调节频率过于频繁而影响用户观看视频的体验的问题，从而有效地提高了音量调节的有效性。

在实际应用中，用户通常会在音视频播放设备上安装腾讯视频、爱奇艺视频、搜狐视频和优酷视频等视频播放应用，并通过视频播放应用来观看视频，当然，用户也会在音视频播放设备上安装QQ音乐、酷我音乐、网易云音乐等音频播放应用，并通过音频播放应用来收听音频，基于此，下面以安装在移动终端上的腾讯视频为具体应用场景对上述实施例作进一步详细说明，具体的，参阅图3所示，在用户通过腾讯视频观看视频的过程中采用的音量调节方法的具体流程如下：

步骤301：确定到达音量调节周期时，触发移动终端通过重力加速度传感器每隔2秒采集一次加速度值。

步骤302：多次获取移动终端采集的加速度值，并确定出每一次获得的加速度值与第一次获得的加速度值之间的加速度变化量。

步骤303：判断连续N次(比如5次)确定出的加速度变化量是否均不大于±5％；若是，则执行步骤305；若否，则执行步骤304。

步骤304：确定用户当前在相对运动的状态下观看视频，并结束本次音量调节流程，返回步骤301。

步骤305：触发移动终端开启前置摄像头，并通过前置摄像头每隔2秒采集一次环境图像。

步骤306：多次获取移动终端采集的环境图像，并将获得的各个环境图像转换成灰度图像，以及确定各个灰度图像的灰度平均值。

具体的，针对获得的每一个环境图像，可以利用移动终端中的CPU将获得的环境图像转换为OpenGL可识别的纹理数据，并写入显存中，利用移动终端中的GPU从显存中读取纹理数据，并对纹理数据进行降采样处理，以及，将降采样处理后的纹理数据转换为灰度数据并写入显存中，CPU从显存中读取灰度数据，并确定灰度数据的灰度平均值。当然，也可以在利用移动终端中的GPU从显存中读取纹理数据，并对纹理数据进行降采样处理之后，直接将降采样处理后的纹理数据写入显存中，而利用移动终端中的CPU从显存中读取降采样处理后的纹理数据，并将降采样处理后的纹理数据转换为灰度数据，从而确定出灰度数据的灰度平均值。

步骤307：判断连续M次(比如5次)确定出的灰度平均值是否均不大于±5％；若是，则执行步骤308；若否，则执行步骤304。

步骤308：触发移动终端通过前置摄像头采集图像，并获取移动终端采集的图像。

步骤309：将本次获得的图像的分辨率降低至360P，并检测降低分辨率后的图像中的人脸区域。

步骤310：判断检测出的人脸区域的个数是否大于等于1；若是，则执行步骤311；若否，则结束本次音量调节流程，返回步骤301。

步骤311：从检测出的人脸区域中选取参考人脸区域，并确定本次获得的图像中的参考人脸区域与上次获得的图像中的参考人脸区域之间的区域面积比例。

具体的，若本次获得的图像中的所有人脸区域的区域面积的集合为

其中，i为当前音量调节周期，k为本次获得的图像中的人脸区域的个数且大于等于1，则可以确定本次获得的图像中的参考人脸区域为最大区域面积

对应的人脸区域。进一步地，在确定本次获得的图像中的参考人脸区域之后，可以采用上述公式(1)来确定区域面积比例。

步骤312：根据区域面积比例，确定音量调节倍数，并根据音量调节倍数和移动终端的当前音量调节移动终端的音量，返回步骤301。

具体的，可以直接将区域面积比例确定为音量调节倍数，即T＝S，其中，T为音量调节倍数，S为区域面积比例。进一步的，在确定音量调节倍数之后，可以采用上述采用公式(2)来调节移动终端的音量，从而实现从当前音量到目标音量的平滑过渡。

基于同一发明构思，本发明实施例还提供了一种音量调节装置，参阅图4所示，该音量调节装置至少包括：

图像获取单元401，用于获取音视频播放设备采集的图像；

倍数确定单元402，用于根据本次获得的图像中的人脸信息和上次获得的图像中的人脸信息，确定音量调节倍数；

音量调节单元403，用于根据音量调节倍数和音视频播放设备的当前音量，调节音视频播放设备的音量。

较佳的，在根据本次获得的图像中的人脸信息和上次获得的图像中的人脸信息，确定音量调节倍数时，倍数确定单元402具体用于：

检测本次获得的图像中的参考人脸区域；

根据区域面积比例，确定音量调节倍数。

较佳的，在检测本次获得的图像中的参考人脸区域时，倍数确定单元402具体用于：

较佳的，若音视频播放设备为移动终端，则还包括：

第一稳态检测单元404，用于多次获取移动终端的运动参考数据，并根据多次获得的运动参考数据的变化特征，确定移动终端处于稳定状态。

较佳的，在根据多次获得的运动参考数据的变化特征，确定移动终端处于稳定状态时，第一稳态检测单元404具体用于：

较佳的，第一稳态检测单元404获得的移动终端的运动参考数据为以下任意一种：加速度值，移动终端与人脸之间的距离，移动终端的位置坐标。

较佳的，若音视频播放设备为移动终端，则还包括：

第二稳态检测单元405，用于多次获取移动终端的环境光参考数据，并根据多次获得的环境光参考数据的变化特征，确定移动终端所处的环境处于稳定状态。

较佳的，在根据多次获得的环境光参考数据的变化特征，确定移动终端所处的环境处于稳定状态时，第二稳态检测单元405具体用于：

较佳的，第二稳态检测单元405用于采用以下方式获得移动终端的环境光参考数据：

获取移动终端采集的环境图像；

将环境图像转换成灰度图像；

确定灰度图像的灰度平均值为移动终端的环境光参考数据。

较佳的，若音视频播放设备为移动终端，则还包括：

需要说明的是，由于上述音量调节装置解决技术问题的原理与上述音量调节方法相似，因此，上述音量调节装置的实施可以参见上述音量调节方法的实施，重复之处不再赘述。

此外，本发明实施例还提供了一种音量调节设备，参阅图5所示，该音量调节设备至少包括：存储器501、处理器502和存储在存储器502上的计算机程序，处理器502执行该计算机程序时实现上述音量调节方法的步骤。

较佳的，该音量调节设备还可以包括输入装置503和输出装置504等。输入装置503可以包括触控笔、键盘、鼠标、触摸屏等；输出装置504可以包括显示设备，如液晶显示器(Liquid Crystal Display，LCD)、阴极射线管(Cathode Ray Tube，CRT)，触摸屏等。

本发明实施例中不限定存储器501，处理器502、输入装置503和输出装置504之间的具体连接介质。本发明实施例在图5中以存储器501，处理器502、输入装置503和输出装置504之间通过总线505连接，总线505在图5中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。其中，总线505可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

接下来，对本发明示例性实施方式的非易失性计算机可读存储介质进行介绍。本发明实施例提供了一种非易失性计算机可读存储介质，该非易失性计算机可读存储介质存储有计算机可执行指令，该可执行程序被处理器执行实现上述音量调节方法的步骤。具体地，该可执行程序可以内置在音量调节设备中，这样，音量调节设备就可以通过执行内置的可执行程序实现上述音量调节方法的步骤，当然，该可执行程序也可以作为一个应用软件下载并安装到音量调节设备上，这样，音量调节设备就可以通过下载并安装的可执行程序实现上述音量调节方法的步骤。

此外，本发明实施例提供的音量调节方法还可以实现为一种程序产品，该程序产品包括程序代码，当该程序产品可以在移动终端上运行时，该程序代码用于使音量调节设备执行上述音量调节方法的步骤。

较佳的，本发明实施例提供的程序产品可以采用一个或多个可读介质的任意组合，其中，可读介质可以是可读信号介质或者可读存储介质，而可读存储介质可以是但不限于是电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合，具体地，可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

较佳的，本发明实施例提供的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，还可以在计算设备上运行。然而，本发明实施例提供的程序产品不限于此，在本发明实施例中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络连接到用户计算设备，诸如通过局域网(LAN)或广域网(WAN)连接到用户计算设备；或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种音量调节方法，其特征在于，包括：

获取音视频播放设备采集的图像；

根据所述音量调节倍数和所述音视频播放设备的当前音量，调节所述音视频播放设备的音量；

所述方法还包括：

若所述音视频播放设备为移动终端，则在确定所述移动终端处于稳定状态时，继续执行所述获取音视频播放设备采集的图像的步骤；

所述确定所述移动终端处于稳定状态，包括：

多次获取所述移动终端的运动参考数据，并根据多次获得的运动参考数据的变化特征，确定所述移动终端处于稳定状态；和/或

多次获取所述移动终端的环境光参考数据，确定每一次获得的环境光参考数据与第一次获得的环境光参考数据之间的环境光变化量；若连续M次确定出的环境光变化量均不大于第二变化量阈值，则确定所述移动终端所处的环境处于稳定状态，其中M为大于1的整数。

2.如权利要求1所述的音量调节方法，其特征在于，根据本次获得的图像中的人脸信息和上次获得的图像中的人脸信息，确定音量调节倍数，包括：

检测本次获得的图像中的参考人脸区域；

根据所述区域面积比例，确定所述音量调节倍数。

3.如权利要求2所述的音量调节方法，其特征在于，检测本次获得的图像中的参考人脸区域，包括：

若在本次获得的图像中检测出一个人脸区域，则确定检测出的所述人脸区域为所述参考人脸区域；

若在本次获得的图像中检测出至少两个人脸区域，则选取对应的区域面积最大的人脸区域为所述参考人脸区域。

4.如权利要求1所述的音量调节方法，其特征在于，根据多次获得的运动参考数据的变化特征，确定所述移动终端处于稳定状态，包括：

若连续N次确定出的运动变化量均不大于第一变化量阈值，则确定所述移动终端处于稳定状态，其中，N为大于1的整数。

5.如权利要求4所述的音量调节方法，其特征在于，所述移动终端的运动参考数据为以下任意一种：加速度值，所述移动终端与人脸之间的距离，所述移动终端的位置坐标。

6.如权利要求1所述的音量调节方法，其特征在于，包括采用以下方式获得所述移动终端的环境光参考数据：

获取所述移动终端采集的环境图像；

将所述环境图像转换成灰度图像；

确定所述灰度图像的灰度平均值为所述移动终端的环境光参考数据。

7.一种音量调节装置，其特征在于，包括：

图像获取单元，用于获取音视频播放设备采集的图像；

音量调节单元，用于根据所述音量调节倍数和所述音视频播放设备的当前音量，调节所述音视频播放设备的音量；

若所述音视频播放设备为移动终端，则还包括：

第一稳态检测单元，用于在所述图像获取单元获取音视频播放设备采集的图像之前，多次获取所述移动终端的运动参考数据，并根据多次获得的运动参考数据的变化特征，确定所述移动终端处于稳定状态；和/或

第二稳态检测单元，用于在所述图像获取单元获取音视频播放设备采集的图像之前，多次获取所述移动终端的环境光参考数据，并确定每一次获得的环境光参考数据与第一次获得的环境光参考数据之间的环境光变化量；若连续M次确定出的环境光变化量均不大于第二变化量阈值，则确定所述移动终端所处的环境处于稳定状态，其中M为大于1的整数；

若所述第一稳态检测单元和/或所述第二稳态检测单元确定所述移动终端处于稳定状态，则通过所述图像获取单元继续获取所述音视频播放设备采集的图像。

8.一种音量调节设备，其特征在于，包括存储器、处理器和存储在所述存储器上的计算机程序，所述处理器执行所述计算机程序时实现权利要求1-6任一项所述的音量调节方法的步骤。

9.一种非易失性计算机存储介质，其特征在于，所述非易失性计算机存储介质存储有可执行程序，所述可执行程序被处理器执行实现权利要求1-6任一项所述的音量调节方法的步骤。