CN105979358A

CN105979358A - 一种音量调节方法、装置和智能终端

Info

Publication number: CN105979358A
Application number: CN201610292050.0A
Authority: CN
Inventors: 纪开虎; 仲维
Original assignee: Qingdao Hisense Electronics Co Ltd
Current assignee: Qingdao Hisense Electronics Co Ltd
Priority date: 2016-05-05
Filing date: 2016-05-05
Publication date: 2016-09-28

Abstract

本发明实施例提供了一种音量调节方法、装置和智能终端，涉及电子技术领域，用以至少解决用户在不同场景下智能终端无法自动调节音量的问题，包括将预设时间内的N个拍摄时刻中每个拍摄时刻，第一摄像头和第二摄像头分别同时拍摄的图像合成至少一张三维立体图像；在预设时间内，对所述至少一张三维立体图像进行人体识别处理，获取每个三维立体图像包含的人体轮廓信息；根据每个三维立体图像包含的人体轮廓信息以及用户行为库中包括的至少一张行为标准图像，从用户行为库中确定目标行为标准图像；根据所述目标行为标准图像以及预设音量适配库中行为标准图像与预设调整策略之间的对应关系，对智能终端的音量进行调整。本发明实施例用于智能终端中。

Description

一种音量调节方法、装置和智能终端

技术领域

本发明实施例涉及电子技术领域，尤其涉及一种音量调节方法、装置和智能终端。

背景技术

随着智能电视发展趋势，在对智能电视的操控方面，用户体验已经成为衡量智能电视标准的重要依据。智能电视的音量自动调节功能，作为用户体验的一个关键体验点，越来越多的得到了智能电视用户的期待。一般通过对智能电视用户行为的判断，实现智能电视的音量自动调节。

现有技术中，一方面，智能电视的音量自动调节功能，大多只能利用红外检测模块、图像识别模块检测用户与智能电视之间的距离。并根据用户与智能电视之间的距离实现智能电视的音量自动调节，例如，四川长虹电器股份有限公司采用红外检测的方式对智能电视用户的实时距离进行检测，并依此进行音量的自动调节青岛歌尔声学科技有限公司申请的公开号为CN104378564A的申请文件公开了“智能电视自动调节音量方法”，该申请文件首先系统检测用户与智能电视之间的用户完成智能电视音量设置时的初始距离及用户与智能电视之间的实时距离，并将初始距离与实时距离进行比较，当实时距离大于初始距离时，系统自动在初始音量的基础上进行音量递增，当实时距离小于初始距离时，系统自动在初始音量的基础上进行音量递减的音量自动调节方法。

但是，上述申请文件的音量自动调节方法判断的依据是根据用户距离智能电视的远近，由于人体恒定温度一般在37度，会发出特定波长的红外线，一般通过红外检测的方式探测人体发射的红外线，从而获取用户与智能电视之间的距离，但是红外检测的方式容易受到各种热源干扰且红外穿透能力差，人体红外辐射容易被遮挡，不易被接收等问题。并且上述申请文件中只有唯一的一个距离因素作为音量调节的依据，无法在用户距离不变的前提条件下，其他条件发生变化后，比如，用户当前不在观看智能电视，用户在接听电话等条件下，帮助用户自动调节音量，满足用户在此应用场景下需要自动调节音量的需求。

发明内容

本发明的实施例提供一种音量调节方法、装置和智能终端，用以至少解决用户在不同场景下智能终端无法自动调节音量的问题。

为达到上述目的，本发明的实施例采用如下技术方案：

第一方面，本发明实施例提供一种音量调节方法，包括：

将预设时间内的N个拍摄时刻中每个拍摄时刻，第一摄像头和第二摄像头分别同时拍摄的包含用户行为的图像合成至少一张三维立体图像；

在预设时间内，对所述至少一张三维立体图像进行人体识别处理，获取每个三维立体图像包含的人体轮廓信息；

根据每个三维立体图像包含的人体轮廓信息以及用户行为库中包括的至少一张行为标准图像包含的人体特征信息，从所述用户行为库中确定目标行为标准图像；

根据所述目标行为标准图像以及预设调整策略对智能终端的音量进行调整。

第二方面，本发明实施例提供一种音量调节装置，包括：

合成单元，用于将预设时间内的N个拍摄时刻中每个拍摄时刻，第一摄像头和第二摄像头分别同时拍摄的包含用户行为的图像合成至少一张三维立体图像；

获取单元，用于在预设时间内，对所述至少一张三维立体图像进行人体识别处理，获取每个三维立体图像包含的人体轮廓信息；

确定单元，用于根据每个三维立体图像包含的人体轮廓信息以及用户行为库中包括的至少一张行为标准图像包含的人体特征信息，从所述用户行为库中确定目标行为标准图像；

调整单元，用于根据所述目标行为标准图像以及预设调整策略对智能终端的音量进行调整。

第三方面，本发明实施例提供一种智能终端，所述智能终端包括处理器、存储器、系统总线和通信接口、平行设置在所述智能终端上的第一摄像头和第二摄像头，运行在所述智能终端处理器上的音量调节装置和声音播放终端；

其中，所述第一摄像头和第二摄像头处于同一水平线上；

所述第一摄像头和第二摄像头，用于在预设时间拍摄至少一张包含用户行为的图像；

所述存储器用于存储计算机执行指令，所述处理器与所述存储器通过所述系统总线连接，当所述智能终端运行时，所述处理器执行所述存储器存储的所述计算机执行指令，以使所述智能终端执行如本发明实施例第一方面所提到任何一种实现方式所述的音量调节方法。

本发明实施例提供一种音量调节方法，通过将预设时间内的N个拍摄时刻中每个拍摄时刻，第一摄像头和第二摄像头分别同时拍摄的包含用户行为的图像合成至少一张三维立体图像，并提取所述至少一张三维立体图像中每个三维立体图像包含的人体轮廓信息，并根据每个三维立体图像包含的人体轮廓信息从用户行为库中获取目标行为标准图像，由于每个行为标准图像在用户行为库中对应一个预设调整策略，故可以根据所述目标行为标准图像从用户行为库中获取与所述目标行为标准图像对应的预设调整策略，对智能终端的音量进行调整，本发明实施例提供的方法可以根据用户行为对智能终端的音量进行调整，该方法简单，且通过三维立体图像确定目标行为标准图像的方式精确度高。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a为本发明实施例提供的一种智能终端的结构示意图；

图1b为本发明实施例提供的一种音量调节方法的流程示意图一；

图2为本发明实施例提供的一种音量调节方法的流程示意图二；

图3a为本发明实施例提供的第一图像中任意一个像素点为中心像素点建立预设窗口的示意图；

图3b为本发明实施例提供的第一图像中任意一个像素点为中心像素点建立预设窗口与第二图像进行匹配的示意图；

图3c为本发明实施例提供的第一图像中任意一个像素点为中心像素点建立预设窗口与第二图像匹配结果示意图；

图4为本发明实施例提供的一种音量调节方法的流程示意图三；

图5为本发明实施例提供的一种音量调节装置的结构示意图一；

图6为本发明实施例提供的一种音量调节装置的结构示意图二；

图7为本发明实施例提供的一种音量调节装置的结构示意图三。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的一种音量调节方法可以由智能终端来执行，参见图1a，图1a示出了一种智能终端的硬件示意图。该智能终端包括一个或多个处理器40(图中仅示出一个)、存储器41、通信接口43、通信总线42以及显示屏44以及拍摄装置(图中未示出)，该拍摄装置包括两个摄像头，分别为第一摄像头和第二摄像头。所述第一摄像头和第二摄像头平行设置在所述智能终端。本领域普通技术人员可以理解，图1a所示的结构仅为示意，其并不对智能终端4的结构造成限定。例如，智能终端4还可包括比图1a中所示更多或者更少的组件，或者具有与图1a所示不同的配置。

其中，所述第一摄像头和第二摄像头处于同一水平线上；

所述第一摄像头和第二摄像头，用于在预设时间拍摄至少一张包含用户行为的图像。

通信总线42用于智能终端4中各组成部件之间的通信。通信接口43用于插接外部设备，例如鼠标及键盘等，以接收用户输入的信息。

显示屏44用于显示智能终端识别出的目标手势操作以及目标手势操作对应的操作界面以及操作界面中显示出的音量调节菜单。

存储器41可用于存储软件程序以及模块，数据库，如本发明实施例中的用户行为库、人脸特征库以及预设音量适配库以及对所述至少一张三维立体图像进行人体识别处理以及对智能终端的音量进行调整对应的程序指令/模块。存储器41可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器41可进一步包括相对于处理器40远程设置的存储器，这些远程存储器可以通过网络连接至智能终端4。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器40通过运行存储在存储器41内的软件程序以及模块，从而执行各种功能应用以及数据处理，例如，处理器40通过调用存储器41中的对智能终端的音量进行调整的方法的应用程序，以实现快速而准确的对智能终端的音量进行调整。

该智能终端可以为平板电脑、笔记本电脑、UMPC(Ultra-mobilePersonal Computer，超级移动个人计算机)、上网本、PDA(Personal DigitalAssistant，个人数字助理)以及智能电视等终端设备。

本发明实施例提供一种音量调节方法，如图1b所示，包括：

S101、将预设时间内的N个拍摄时刻中每个拍摄时刻，第一摄像头和第二摄像头分别同时拍摄的包含用户行为的图像合成至少一张三维立体图像；

S102、在预设时间内，对所述至少一张三维立体图像进行人体识别处理，获取每个三维立体图像包含的人体轮廓信息；

S103、根据每个三维立体图像包含的人体轮廓信息以及用户行为库中包括的至少一张行为标准图像包含的人体特征信息，从所述用户行为库中确定目标行为标准图像；所述行为标准图像包括用户所处的场景以及用户在所述场景下的动作行为；

S104、根据所述目标行为标准图像以及预设音量适配库中行为标准图像与预设调整策略之间的对应关系，对智能终端的音量进行调整。

本发明实施例的一种音量调节方法的执行主体为智能终端的处理器，该智能终端可以为电视、电脑等，本发明实施例对此不作限定，该第一摄像头和第二摄像头用于获取用户行为的图像，该第一摄像头和第二摄像头可以是在智能终端上设置的摄像头，也可以是设置在智能终端外与所述智能终端的处理器相连的摄像头。

本发明实施例中，该第一摄像头和第二摄像头感应用户是否在终端前具有用户行为(例如，用户是否在打电话、用户是否不在智能终端附近)，当第一摄像头和第二摄像头感应到用户的用户行为时，获取预设时间内用户产生用户行为时的至少一张图像，另外，也可通过用户手动输入用户行为控制终端的开始信息，如用户按下在终端遥控器中设置启动手势识别技术的启动按键，再获取到所述启动按键触发的启动指令后，处理器控制所述第一摄像头和第二摄像头获取用户产生用户行为时的至少一张图像。

其中，预设时间是指用户完成一个用户行为大概所需要的时间，可以是整个用户行为全部完成的时间，也可以是用户行为的主要部分的完成时间等，预设时间可以提前设定，如可将所述预设时间设置为200ms-500ms；具体可通过设置在所述处理器中的定时器以实现。在200ms-500ms的时间段内，将获取到的含用户行为的图像按获取的先后顺序缓存在终端的存储器中，在需要识别的时候，通过处理器从存储器中获取，由于第一摄像头和第二摄像头在1s内可以拍摄10～60个图像帧，优选的，是25～30个图像帧，由于第一摄像头和第二摄像头拍摄的用户行为是一个动态过程，故每一帧图像帧是有差异的，故在选择合成三维立体图像时，通过选取第一摄像头和第二摄像头在同一时刻拍摄的一帧图像，这样可以避免形成的三维立体图像与实际用户行为之间的差异，提高了识别精确性。

其中，根据摄像头的拍摄性能，在预设时间内总共包含L个拍摄时刻，每个拍摄时刻第一摄像头和第二摄像头都拍摄有照片，可以选取N个拍摄时刻所述第一摄像头和第二摄像头分别同时拍摄的包含用户行为的图像合成N张三维立体图像，也可以选取N个拍摄时刻所述第一摄像头和第二摄像头分别同时拍摄的包含用户行为的图像合成N张三维立体图像，其中，L>N。

图像即为摄像头拍摄的一张图片，图像帧则为固定时间内连续拍摄的一系列图片，图像帧序列由一系列图像组成。

当然，在选择合成三维立体图像时，可以选择第一摄像头连续拍摄的几张图像以及第二摄像头连续拍摄的几张图像中每一张图像均合成三维立体图像(其中，第二摄像头拍摄的每张图像的时间均与第一摄像头中在同一时刻拍摄的照片对应)。

其中，对于将第一摄像头和第二摄像头在同一时刻分别拍摄的至少一张包含用户行为的图像合成三维立体图像的方式，本发明实施例对此不进行限定，由于对于第一摄像头和第二摄像头在预设时间内拍摄的每张图像合成三维立体图像的方式和原理均相同，本发明实施例仅以第一图像和第二图像为例进行说明，其中，第一图像和第二图像分别为在预设时间内由第一摄像头和第一摄像头在同一时刻分别拍摄的图像中的至少一张，并不具有任何指示性含义。

其中，本发明实施例对所述用户行为不进行限定，用于可以根据自己的习惯进行设置。例如，打电话；举办宴会等等。

其中，本发明实施例中用户行为库包括的至少一张行为标准图像，可以为智能终端出厂时厂商存储在智能终端用户行为库中的行为标准图像，也可以是用户自己根据自己的习惯在用户行为库中利用第一摄像头或者第二摄像头基于特定场景下的用户行为添加的图片。

其中，本发明实施例中的人体轮廓信息包括人体轮廓的图像信息，其它信息均不包括，即轮廓的图形。

本发明实施例对预设时间内的N个拍摄时刻中每个拍摄时刻，第一摄像头和第二摄像头分别同时拍摄的包含用户行为的图像合成至少一张三维立体图像的方式不进行限定，示例性的，如图2所示，步骤S101可以通过以下方式实现：

S1011、获取所述第一图像中的每个像素点；

其中，对于获取第一图像的每个像素点的具体方式，本发明实施例在此不再赘述，可以通过现有技术来实现，例如，粒子滤波。

获取到第一图像的每个像素点以后，可以以所述第一图像和第二图像设置坐标系，则第一图像和第二图像上的每个像素点均可以用坐标的形式表示，当然还可以存在其他方式用以唯一标记第一图像和第二图像上相应的像素点，本发明实施例在此不再赘述。

需要说明的是，在获取三维立体图像的时候，还可以先提取所述第一图像的用户行为轮廓，在提取到用户行为轮廓以后，获取所述第一图像的用户行为轮廓中的每个像素点，基于每个所述用户行为轮廓中的每个像素点执行步骤S1012，这样可以进一步提高识别精度，避免在三维立体图像中引入背景或者干扰。

S1012、以所述第一图像的每个像素点为中心像素点建立预设窗口；其中，所述预设窗口包含按照预设距离，以所述中心像素点为中心的M个像素点；

为了清楚的介绍像素点与预设窗口之间的关系，如图3a所示，图3a为本发明实施例提供的一种以第一图像中任意一个像素点为中心像素点建立预设窗口的示意图，其预设窗口可以通过以所述中心像素点为中心，在所述中心像素点四周(上、下、左、由)各延长L个长度单位所包含的区域，即所述预设距离为2L，则上述M个像素点即为以所述中心像素点四周各延长L个长度单位所包含的区域内的所有像素点；本发明实施例对所述L的具体大小不进行限定，可以根据实际需要达到的精度进行设定。

S1013、获取所述预设窗口的像素值；

由于预设窗口内包含M个像素点，故所述预设窗口的像素值为M个像素点像素值的总和，对于计算每个像素值的具体方式本发明实施例在此不再赘述，例如，若所述预设窗口为以任意一个像素点为中心像素点向左向右各一个像素点，则该预设窗口内包含5个像素点，该预设窗口的像素值为5个像素点像素值的总和。

S1014、根据所述预设窗口的像素值，从所述第三图像中提取与所述预设窗口的像素值差异值最小的区域为目标区域。

由于对于第一图像中每个像素点，以该像素点为中心像素点建立预设窗口，并根据预设窗口的像素值从所述第二图像中查到的目标区域的方式和原理均相同，故本发明实施例仅以第一像素点为中心像素点为例进行说明，该第一像素点为第二图像中的任意一个像素点，并不具有指示性含义。

示例性的，如图4所示，步骤S1014可以通过以下方式实现：

S10141、确定所述第一像素点在所述第一图像中的坐标，并以所述第一像素点为中心像素点建立预设窗口。

如图3a所示；该图3a中黑色实心方框为以第一像素点为中心像素点，在黑色实心方框外的边框(即图3a中指示的预设窗口)为以该第一像素点为中心像素点建立的预设窗口，其中，该预设窗口的大小可以根据实际需要达到的精度进行设定，本发明实施例在此不再赘述。

S10142、在保持所述第一像素点纵坐标不变的情况下，从所述第二图像中选取每个候选区域，所述候选区域的窗口距离与所述第一预设窗口大小相同，且所述候选区域为以所述第二图像中任意一个像素点为中心像素点建立的，所述候选区域内的每个像素点的纵坐标与所述第一像素点的纵坐标相同；

其中，所述候选区域的窗口距离是指候选区域内任意一个中心像素点，按照预设距离2L，以所述中心像素点为中心，在所述中心像素点四周(上、下、左、由)各延长L个长度单位所包含的区域。

S10143、计算每个所述候选区域的像素值，所述像素值是指候选区域内所有像素点的灰度值之和；

S10144、将所述候选区域的像素值与所述预设窗口的像素值的差异值最小的候选区域确定为目标区域。

其中，当获取到第一像素点的坐标时，可以将所述第一像素点从第二图像指向第一图像的方向，保持纵坐标不变的情况下，将第一像素点遍历所述第二图像中与所述第一像素点纵坐标相同，但横坐标不同的任何一个像素点，即将第一像素点保持纵坐标不变，将第一像素点从横轴沿第二图像指向第一图像的方向移动，并可以通过SAD(Sum of Absolute Difference)或SSD(Sumof Squared Difference)算法matching方式从第二图像中提取与所述预设窗口的像素值差异值最小的区域为目标区域。

示例性的，如图3b所示，图3b中示例出将第一像素点保持纵坐标不变时，从横轴沿第二图像指向第一图像的方向，将第一像素点移动时，第一像素点的像素值与第二图像中在与第一像素点纵坐标相同的每个像素点为中心像素点构成的预设窗口的像素值之间的差异值，由图3c可知，在d点所述第二图像中的预设窗口的像素值与第一像素点的像素值之间的差异值最小，故d点对应的预设窗口则为本发明实施例中的目标区域。

当然，为了减少计算量，在获取到第一像素点的坐标以后，可以从所述二图像中与所述第一像素点纵坐标相同，大于等于横坐标的候选区域中选取目标区域。

当然，本发明实施例也可以基于第二图像，在第一图像中选取与第二图像中任意一个像素点构建的预设窗口的像素值差异最小的区域为目标区域，此时，应按照第一图像指向第二图像的方向，保持纵坐标不变的情况下，将第二图像中的每个像素点构成的预设窗口遍历所述第一图像的候选区域，以获取目标区域。

S1015、确定每个所述目标区域的中心像素点；

S1016、将每个所述第一图像的中心像素点与所述目标区域的中心像素点进行匹配，获取与所述第一图像对应的三维立体图像。

优选的，为了提高识别精度，需要提取出所述第一图像中的用户行为轮廓，在此用户行为轮廓的基础上，获取每一个像素点的像素信息，并从三维立体图像中获取与之对应的像素点距离信息，由于用户的用户行为应处于同一平面，因而拥有相近的像素点距离信息，故在识别之前，可以对三维立体图像中用户行为对应的像素点距离进行均值操作，以便用户行为轮廓内的用户行为与背景等干扰信息进行分离，从而高精度的提取出用户的用户行为。

需要说明的是，本发明实施例中每个三维立体图像的大小均和与合成所述三维立体图像的二维图像的大小相同，所述第一图像中的每个像素点对应的最小差异值则为在三维立体图像各像素值。

本发明实施例对步骤S103的具体实现方式不进行限定。

示例性的，一种实现方式中，步骤S103可以包括：

S1031A、将每个三维立体图像包含的人体轮廓信息进行调整，形成N个与标准图像大小相等的图像，其中，所述图像中包含人体轮廓信息；

其中，本发明实施例对所述将每个三维立体图像包含的人体轮廓信息进行调整的方式不进行限定，例如，可以是按照人体的轮廓信息根据距离放缩后，形成和标准图像相似大小的图像信息。

S1032A、在预设时间内，计算M个目标图像中每个目标图像包含的人体轮廓信息与用户行为库中的至少一个行为标准图像中包含的人体特征信息之间的相似度；其中，M≤N；

其中，所述M个目标图像为按照预设周期，在预设时间内从所述N个图像中选择的。

本发明实施例对所述预设周期不进行限定，示例性的，该预设周期可以为0.5S。

S1033A、在预设时间内，若确定所述M个目标图像中每个目标图像包含的人体轮廓信息与第一行为标准图像包含的人体特征信息之间的相似度均大于等于预设阈值，则将所述第一行为标准图像确定为目标行为标准图像。

计算每个目标图像包含的人体轮廓信息与第一行为标准图像包含的人体特征信息之间的相似度时，可以采用灰度识别或者特征值匹配等图像识别算法。

需要说明的是，在生成人体的轮廓信息时首先利用背景差分法和阴影消除技术在三维立体图像中提取运动或者静止的人体轮廓，将时变的2D轮廓形状转换为对应的ID距离向量特征信息处理。

通过上述实现方式，可以利用多组图像的相似度比对，进一步提高用户的目标行为标准图像的准确度，进一步增加用户与智能电视的交互性，提高了音量调节的精度以及用户体验。另一种实现方式中，为了精确快速的从所述用户行为库中获取目标行为标准图像，在所述智能终端中还设置有人脸特征库，所述人脸特征库包括至少一张图片，所述图片中包含人脸信息，所述用户行为库还包括所述人脸特征库中包含的每张图片对应的至少一张行为标准图像。

所述步骤S103可以包括：

S1031B、根据所述每个三维立体图像包含的人体轮廓信息从人脸特征库中获取目标图片以及所述目标图片对应的至少一张行为标准图像；所述目标图片为所述人脸特征库中包含的每个图片所包含的人脸信息与每个三维立体图像包含的人体轮廓信息匹配的图片；

S1032B、在预设时间内，计算M个目标图像中每个目标图像包含的人体轮廓信息与所述目标图片对应的至少一张行为标准图像中包含的人体特征信息之间的相似度；

采用灰度识别或者特征值匹配等图像识别算法，计算M个目标图像中每个目标图像包含的人体轮廓信息和目标图片对应的至少一张行为标准图像中包含的人体特征信息的相似度。

S1033B、若确定预设时间所述M个目标图像中每个目标图像包含的人体轮廓信息与第一行为标准图像中包含的人体特征信息之间的相似度均大于等于预设阈值，则将所述第一行为标准图像确定为目标行为标准图像。

通过该实现方式，可以通过处理器直接从人脸特征库选择出对智能终端进行操控的目标用户对应的目标图片，由于目标图片对应的行为标准图像的数量小于用户行为库中的数量，这样可以进一步缩小计算每个三维立体图像与用户行为库中每个行为标准图像中包含的人体特征信息之间的相似度的范围，不仅缩小了获取目标行为标识图像的时间，而且提高了智能电视音量调节的精度。

本发明实施例对所述预设阈值不进行限定，用户可以根据需要进行设置，示例性的，本发明实施例中的预设阈值可以为90％或95％。

进一步可选的，本发明实施例还提供一种实现方式：

S1031C、在预设时间内，若确定所述M个目标图像中每个目标图像包含的人体轮廓信息在用户行为库中不存在匹配的目标行为标准图像，则将所述智能终端的音量调节至初始值。

其中，本发明实施例中的初始值是指自动调整音量之前的音量值。

其中，本发明实施例对所述预设音量适配库中行为标准图像与预设调整策略之间的对应关系不进行限定。由于对于调节智能终端音量的方式存在多种预设调整策略，不同的调整策略对应不同的调整方式以及调整结果，本发明实施例对此不进行限定，示例性的，本发明实施例中的预设调整策略可以为行为标准图像与目标音量的对应关系，也可以为每个场景以及用户在所述场景下的动作行为与音量调整方式的对应关系；或者可以为每个行为标准图像与音量调整方式之间的对应关系，下面分别进行说明。

示例性的，第一方面，步骤S104可以通过以下方式实现：

S1041A、根据所述目标行为标准图像从预设音量适配库中预设的行为标准图像与目标音量的对应关系中确定与所述目标行为标准图像对应的目标音量；

S1042A、根据所述目标音量，将智能终端的音量调整至所述目标音量。

其中，本发明实施例对预设音量适配库中预设的行为标准图像与目标音量的对应关系的存储方式不进行限定，可以是以表格形式存储，如表1所示，也可以是以其他方式进行存储。

表1 预设音量适配库中可以包含如下行为标准图像：

行为标准图像	音量值
		行为标准图像1-1	音量值1
行为标准图像1-2	音量值2
		行为标准图像1-3	音量值3
行为标准图像1-4	音量值4
		行为标准图像1-5	音量值5
行为标准图像1-6	音量值6

其中，本发明实施例对所述行为标准图像中具体包含的用户所处的场景以及用户在所述场景下的动作行为不进行限定，用户可以根据需要进行设置。例如，该行为标准图像1-5可以包含的场景为用户在打电话，此时可以将音量适配库中该为行为标准图像1-5对应的音量值设置为音量值5，该行为标准图像1-1可以包含的场景为智能终端的摄像头检测范围内没有任何用户，则可以将该行为标准图像1-1对应的音量值设置为音量值1。当然所述行为标准图像1-2还可以包含的场景为用户未打电话时的场景，这样当智能终端的摄像头获取的行为标准图像为1-5时，该智能终端的处理器将智能终端的音量调整为音量值5，当智能终端的摄像头获取的行为标准图像为1-2时，该智能终端的处理器将智能终端的音量调整为音量值2。当然具体的音量值可以根据用户平时的习惯进行设置，本发明实施例对此不进行限定，当用户在打电话时，具体的音量值可以设置为不影响用户打电话时的音量值，或者静音。当用户不接打电话时，可以将具体的音量值设置为用户可以听到的值。

当然，表1所示的每种手势对应的操作指令可以由用户进行修改。

示例性的，第二方面，步骤S104可以通过以下方式实现：

S1041B、获取所述目标行为标准图像所指示的场景以及用户在所述场景下的动作行为；

S1042B、根据所述目标行为标准图像所指示的场景以及用户在所述场景下的动作行为以及所述预设音量适配库中每个场景以及用户在所述场景下的动作行为与音量调整方式之间的对应关系，对所述智能终端当前的音量进行调整，所述音量调整方式用于指示增大或递减智能终端的音量。

表2 预设音量适配库中可以包含如下行为标准图像：

行为标准图像	调整方式
		行为标准图像2-1	音量增大
行为标准图像2-2	音量增大
		行为标准图像2-3	音量减小
行为标准图像2-4	音量减小
		行为标准图像2-5	音量减小
行为标准图像2-6	音量增大

其中，本发明实施例对所述获取目标行为标准图像所指示的场景以及用户在所述场景下的动作行为的具体方式不进行限定。由于用户行为库中预先存储的每一张行为标准图像所指示的场景和动作都可以通过用户通过眼睛自己确定，故可以通过用户自己确定的每一张行为标准图像所指示的场景和动作所对应的音量值或者调整方式。

其中，本发明实施例对所述行为标准图像中具体包含的用户所处的场景以及用户在所述场景下的动作行为不进行限定，用户可以根据需要进行设置。例如，该行为标准图像2-5可以包含的场景为用户在打电话，此时可以根据音量适配库中该为行为标准图像2-5对应的音量调整方式减小智能终端的音量，该行为标准图像2-1可以包含的场景为智能终端的摄像头检测范围内没有任何用户，则可将该行为标准图像2-1对应的音量调整方式设置为音量增大，此时当智能终端的摄像头获取的行为标准图像中指示的用户行为与所述行为标准图像2-1匹配，则可以根据音量适配库中该为行为标准图像2-1对应的音量调整方式增大智能终端的音量。

示例性的，第三方面，步骤S104可以通过以下方式实现：

S1041C、根据所述目标行为标准图像以及所述预设音量适配库中每个行为标准图像与音量调整方式之间的对应关系，对所述智能终端当前的音量进行调整，所述音量调整方式用于指示增大或递减智能终端的音量。

当然，需要说明的是，本发明实施例中增大智能终端的音量和减小智能终端的音量时还可以对每个调整方式设置一个最大目标音量或最小目标音量，即一个行为标准图像对应的调整方式为增大音量，当音量增大至最大目标音量后，便停止增大，当减小至最小目标音量后便停止减小。具体最大目标音量或最小目标音量的数值，用户可以根据需要进行设置，本发明实施例对此不进行限定。

进一步可选的，步骤S102可以通过以下步骤实现，由于对于从每张三维立体图像中获取三维立体图像的人体轮廓信息的方式和原理均相同，故本发明实施例仅以第一三维立体图像为例进行说明，所述第一三维立体图像为所述至少一张三维立体图像中的任意一个三维立体图像，并不具有任何指示性含义：

本发明实施例对步骤S102的具体实现方式不进行限定，仅是示例性的，步骤S102可以通过以下方式实现：

S1021、从所述第一三维立体图像中提取人体的特征信息；

S1022、从所述人体的特征信息中提取人体轮廓；

S1023、将所述人体轮廓转换为对应的矩阵的特征向量，生成人体的人体轮廓信息。

如图5所示，本发明实施例还提供一种音量调节装置，如图5所示，该音量调节装置中的各个功能单元与上述实施例中提供的一种音量调节方法相对应，具体可以参考本发明的上述实施例中的描述，本发明实施例在此不再赘述。如图5所示，该一种音量调节装置50包括：

合成单元501，用于将预设时间内的N个拍摄时刻中每个拍摄时刻，第一摄像头和第二摄像头分别同时拍摄的包含用户行为的图像合成至少一张三维立体图像；

获取单元502，用于在预设时间内，对所述至少一张三维立体图像进行人体识别处理，获取每个三维立体图像包含的人体轮廓信息；

确定单元503，用于根据每个三维立体图像包含的人体轮廓信息以及用户行为库中包括的至少一张行为标准图像包含的人体特征信息，从所述用户行为库中确定目标行为标准图像；

调整单元504，用于根据所述目标行为标准图像以及预设调整策略对智能终端的音量进行调整。

进一步可选的，如图6所示，所述确定单元503，包括：

调整模块5031A，用于将每个三维立体图像包含的人体轮廓信息进行调整，形成N个与标准图像大小相等的图像，其中，所述图像中包含人体轮廓信息；

第一计算模块5032A，用于在预设时间内，计算M个目标图像中每个目标图像包含的人体轮廓信息与用户行为库中的至少一个行为标准图像中包含的人体特征信息之间的相似度；其中，所述M个目标图像为按照预设周期，在预设时间内从所述N个图像中选择的；

第一确定模块5033A，用于在预设时间内，若确定所述M个目标图像中每个目标图像包含的人体轮廓信息与第一行为标准图像包含的人体特征信息之间的相似度均大于等于预设阈值，则将所述第一行为标准图像确定为目标行为标准图像。

进一步可选的，所述智能终端还包括人脸特征库，所述人脸特征库包括至少一张图片，所述图片中包含人脸信息，所述用户行为库还包括所述人脸特征库中包含的每张图片对应的至少一张行为标准图像；

相应的，如图6所示，所述确定单元503，包括：

第一获取模块5031B，用于根据所述每个三维立体图像包含的人体轮廓信息从人脸特征库中获取目标图片以及所述目标图片对应的至少一张行为标准图像；所述目标图片为所述人脸特征库中包含的每个图片所包含的人脸信息与每个三维立体图像包含的人体轮廓信息匹配的图片；

第二计算模块5032B，用于在预设时间内，计算M个目标图像中每个目标图像包含的人体轮廓信息与所述目标图片对应的至少一张行为标准图像中包含的人体特征信息之间的相似度；

第二确定模块5033B，用于若确定预设时间所述M个目标图像中每个目标图像包含的人体轮廓信息与第一行为标准图像中包含的人体特征信息之间的相似度均大于等于预设阈值，则将所述第一行为标准图像确定为目标行为标准图像。

进一步可选的，所述音量调节装置50还包括：

调节单元505，用于在预设时间内，若确定所述M个目标图像中每个目标图像包含的人体轮廓信息在用户行为库中不存在匹配的目标行为标准图像，则将所述智能终端的音量调节至初始值。

进一步优选的，如图7所示，所述调整单元504，包括：

第三确定模块5041A，用于根据所述目标行为标准图像从预设音量适配库中预设的行为标准图像与目标音量的对应关系中确定与所述目标行为标准图像对应的目标音量；

第一调整模块5042A，用于根据所述目标音量，将智能终端的音量调整至所述目标音量；或，

第二获取模块5041B，用于获取所述目标行为标准图像所指示的场景以及用户在所述场景下的动作行为；

第一调节模块5042B，用于根据所述目标行为标准图像所指示的场景以及用户在所述场景下的动作行为以及所述预设音量适配库中每个场景以及用户在所述场景下的动作行为与音量调整方式之间的对应关系，对所述智能终端当前的音量进行调整，所述音量调整方式用于指示增大或递减智能终端的音量；或；

第二调节模块5041C，用于根据所述目标行为标准图像以及所述预设音量适配库中每个行为标准图像与音量调整方式之间的对应关系，对所述智能终端当前的音量进行调整，所述音量调整方式用于指示增大或递减智能终端的音量。

进一步可选的，对于第一三维立体图像，所述第一三维立体图像为所述至少一张三维立体图像中的任意一个三维立体图像；

相应的，所述获取单元具体用于：

从所述第一三维立体图像中提取人体的特征信息；

从所述人体的特征信息中提取人体轮廓；

将所述人体轮廓转换为对应的矩阵的特征向量，生成人体的人体轮廓信息。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种音量调节方法，其特征在于，包括：

对所述至少一张三维立体图像进行人体识别处理，获取每个三维立体图像包含的人体轮廓信息；

根据每个三维立体图像包含的人体轮廓信息以及用户行为库中包括的至少一张行为标准图像包含的人体特征信息，从所述用户行为库中确定目标行为标准图像；所述行为标准图像包括用户所处的场景以及用户在所述场景下的动作行为；

根据所述目标行为标准图像以及预设音量适配库中行为标准图像与预设调整策略之间的对应关系，对智能终端的音量进行调整。

2.根据权利要求1所述的方法，其特征在于，所述根据每个三维立体图像包含的人体轮廓信息以及用户行为库中包括的至少一个行为标准图像包含的人体特征信息，从所述用户行为库中确定目标行为标准图像，包括：

将每个三维立体图像包含的人体轮廓信息进行调整，形成N个与标准图像大小相等的图像；

在预设时间内，计算M个目标图像中每个目标图像包含的人体轮廓信息与用户行为库中的至少一个行为标准图像中包含的人体特征信息之间的相似度；其中，M≤N；

若确定所述M个目标图像中每个目标图像包含的人体轮廓信息与第一行为标准图像包含的人体特征信息之间的相似度均大于等于预设阈值，则将所述第一行为标准图像确定为目标行为标准图像。

3.根据权利要求2所述的方法，其特征在于，所述智能终端还包括人脸特征库，所述人脸特征库包括至少一张图片，所述图片中包含人脸信息，所述用户行为库还包括所述人脸特征库中包含的每张图片对应的至少一张行为标准图像；

相应的，所述根据每个三维立体图像包含的人体轮廓信息以及用户行为库中包括的至少一张行为标准图像包含的人体特征信息，从所述用户行为库中确定目标行为标准图像，包括：

根据所述每个三维立体图像包含的人体轮廓信息从人脸特征库中获取目标图片以及所述目标图片对应的至少一张行为标准图像；所述目标图片为所述人脸特征库中包含的每个图片所包含的人脸信息与每个三维立体图像包含的人体轮廓信息匹配的图片；

计算M个目标图像中每个目标图像包含的人体轮廓信息与所述目标图片对应的至少一张行为标准图像中包含的人体特征信息之间的相似度；

若确定预设时间内所述M个目标图像中每个目标图像包含的人体轮廓信息与第一行为标准图像中包含的人体特征信息之间的相似度均大于等于预设阈值，则将所述第一行为标准图像确定为目标行为标准图像。

4.根据权利要求2或3所述的方法，其特征在于，在预设时间内，若确定所述M个目标图像中每个目标图像包含的人体轮廓信息在用户行为库中不存在匹配的目标行为标准图像，则将所述智能终端的音量调节至初始值。

5.根据权利要求1所述的方法，其特征在于，所述根据所述目标行为标准图像以及预设音量适配库中行为标准图像与预设调整策略之间的对应关系，对智能终端的音量进行调整，包括：

根据所述目标行为标准图像从预设音量适配库中预设的行为标准图像与目标音量的对应关系中确定与所述目标行为标准图像对应的目标音量；

根据所述目标音量，将智能终端的音量调整至所述目标音量；或，

获取所述目标行为标准图像所指示的场景以及用户在所述场景下的动作行为；

根据所述目标行为标准图像所指示的场景以及用户在所述场景下的动作行为以及所述预设音量适配库中每个场景以及用户在所述场景下的动作行为与音量调整方式之间的对应关系，对所述智能终端当前的音量进行调整，所述音量调整方式用于指示增大或递减智能终端的音量；或；

根据所述目标行为标准图像以及所述预设音量适配库中每个行为标准图像与音量调整方式之间的对应关系，对所述智能终端当前的音量进行调整，所述音量调整方式用于指示增大或递减智能终端的音量。

6.根据权利要求1-5任意一项所述的方法，其特征在于，对于第一三维立体图像，所述第一三维立体图像为所述至少一张三维立体图像中的任意一个三维立体图像；

对所述第一三维立体图像进行人体识别处理，获取所述第一三维立体图像的人体轮廓信息，包括：

从所述第一三维立体图像中提取人体的特征信息；

从所述人体的特征信息中提取人体轮廓；

将所述人体轮廓转换为对应的矩阵的特征向量，生成人体的轮廓信息。

7.一种音量调节装置，其特征在于，包括：

获取单元，用于对所述至少一张三维立体图像进行人体识别处理，获取每个三维立体图像包含的人体轮廓信息；

8.根据权利要求7所述的装置，其特征在于，所述确定单元，包括：

调整模块，用于将每个三维立体图像包含的人体轮廓信息进行调整，形成N个与标准图像大小相等的图像，其中，所述图像中包含人体轮廓信息；

第一计算模块，用于计算M个目标图像中每个目标图像包含的人体轮廓信息与用户行为库中的至少一个行为标准图像中包含的人体特征信息之间的相似度；其中，M≤N；

第一确定模块，用于在预设时间内，若确定所述M个目标图像中每个目标图像包含的人体轮廓信息与第一行为标准图像包含的人体特征信息之间的相似度均大于等于预设阈值，则将所述第一行为标准图像确定为目标行为标准图像。

9.根据权利要求8所述的装置，其特征在于，所述智能终端还包括人脸特征库，所述人脸特征库包括至少一张图片，所述图片中包含人脸信息，所述用户行为库还包括所述人脸特征库中包含的每张图片对应的至少一张行为标准图像；

相应的，所述确定单元，包括：

第一获取模块，用于根据所述每个三维立体图像包含的人体轮廓信息从人脸特征库中获取目标图片以及所述目标图片对应的至少一张行为标准图像；所述目标图片为所述人脸特征库中包含的每个图片所包含的人脸信息与每个三维立体图像包含的人体轮廓信息匹配的图片；

第二计算模块，用于在预设时间内，计算M个目标图像中每个目标图像包含的人体轮廓信息与所述目标图片对应的至少一张行为标准图像中包含的人体特征信息之间的相似度；

第二确定模块，用于若确定预设时间所述M个目标图像中每个目标图像包含的人体轮廓信息与第一行为标准图像中包含的人体特征信息之间的相似度均大于等于预设阈值，则将所述第一行为标准图像确定为目标行为标准图像。

10.根据权利要求8或9所述的装置，其特征在于，所述装置还包括：

调节单元，用于在预设时间内，若确定所述M个目标图像中每个目标图像包含的人体轮廓信息在用户行为库中不存在匹配的目标行为标准图像，则将所述智能终端的音量调节至初始值。

11.根据权利要求7所述的装置，其特征在于，所述调整单元，包括：

第三确定模块，用于根据所述目标行为标准图像从预设音量适配库中预设的行为标准图像与目标音量的对应关系中确定与所述目标行为标准图像对应的目标音量；

第一调整模块，用于根据所述目标音量，将智能终端的音量调整至所述目标音量；或，

第二获取模块，用于获取所述目标行为标准图像所指示的场景以及用户在所述场景下的动作行为；

第一调节模块，用于根据所述目标行为标准图像所指示的场景以及用户在所述场景下的动作行为以及所述预设音量适配库中每个场景以及用户在所述场景下的动作行为与音量调整方式之间的对应关系，对所述智能终端当前的音量进行调整，所述音量调整方式用于指示增大或递减智能终端的音量；或；

第二调节模块，用于根据所述目标行为标准图像以及所述预设音量适配库中每个行为标准图像与音量调整方式之间的对应关系，对所述智能终端当前的音量进行调整，所述音量调整方式用于指示增大或递减智能终端的音量。

12.根据权利要求7-11任意一项所述的装置，其特征在于，对于第一三维立体图像，所述第一三维立体图像为所述至少一张三维立体图像中的任意一个三维立体图像；

相应的，所述获取单元具体用于：

从所述第一三维立体图像中提取人体的特征信息；

从所述人体的特征信息中提取人体轮廓；

13.一种智能终端，其特征在于，所述智能终端包括处理器、存储器、系统总线和通信接口、平行设置在所述智能终端上的第一摄像头和第二摄像头，运行在所述智能终端处理器上的音量调节装置和声音播放终端；

其中，所述第一摄像头和第二摄像头处于同一水平线上；

所述存储器用于存储计算机执行指令，所述处理器与所述存储器通过所述系统总线连接，当所述智能终端运行时，所述处理器执行所述存储器存储的所述计算机执行指令，以使所述智能终端执行如权利要求1-6任意一项所述的音量调节方法。