CN108391162B

CN108391162B - 音量调整方法及装置、存储介质、电子设备

Info

Publication number: CN108391162B
Application number: CN201810096032.4A
Authority: CN
Inventors: 花群; 吴子扬; 舒翔; 严亚路
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2018-01-31
Filing date: 2018-01-31
Publication date: 2021-12-03
Anticipated expiration: 2038-01-31
Also published as: CN108391162A

Abstract

本公开提供一种音量调整方法及装置、存储介质、电子设备。该方法包括：获取至少两张观影图像，分别从每张观影图像中截取出人体图像区域；利用各人体图像区域分析用户的当前行为动作，所述当前行为动作用于表示用户的当前观影状态；当所述当前行为动作相对上次行为动作发生变化时，根据所述变化进行音量调整。如此方案，有助于提高音量调整的灵活性，使其满足用户的多样化需求，提高用户体验。

Description

音量调整方法及装置、存储介质、电子设备

技术领域

本公开涉及智能控制技术领域，具体地，涉及一种音量调整方法及装置、存储介质、电子设备。

背景技术

随着智能技术的不断发展，智能设备在日常生活中也越来越普及，尤其是智能家居中各种智能设备的出现，大大的提高了家庭生活的便利性。以智能家居中的电视机为例，可以为用户提供人机交互、多屏互动、内容共享等多种个性化智能服务，提高用户的使用体验。

为了进一步提高用户体验，现有技术提供一种自动调节电视机音量的方案，具体地，可以基于电视节目的输入音量、外界环境的噪声音量，利用电视内部的AVC(英文：Automatic Volume Control，中文：自动音量控制Auto Volume Control)实现音量的自动调节。通常，电视节目的输入音量越小、外界环境的噪声音量越大，AVC可以控制调大电视机的输出音量。

如此方案，将输入音量和外界音量作为唯一的音量调整标准，灵活性较差，无法适应用户的多样化需求。

发明内容

本公开的主要目的是提供一种音量调整方法及装置、存储介质、电子设备，有助于提高音量调整的灵活性，使其满足用户的多样化需求，提高用户体验。

为了实现上述目的，本公开提供一种音量调整方法，所述方法包括：

获取至少两张观影图像，分别从每张观影图像中截取出人体图像区域；

利用各人体图像区域分析用户的当前行为动作，所述当前行为动作用于表示用户的当前观影状态；

当所述当前行为动作相对上次行为动作发生变化时，根据所述变化进行音量调整。

可选地，所述行为动作包括整体行为动作和/或局部行为动作，所述整体行为动作包括站立、坐姿、躺卧中的至少一种，所述局部行为动作包括四肢动作、头部动作、眼部动作中的至少一种。

可选地，所述利用各人体图像区域分析用户的当前行为动作，包括：

将所述人体图像区域作为输入，经预先构建的动作响应模型处理后，输出用户的动作区域响应图，所述动作区域响应图用于标识发生动作变化的区域；

划分所述动作区域响应图中的响应区域，将响应值不低于预设值的响应区域确定为待识别区域，所述响应值用于表示动作变化的幅度；

将所述待识别区域作为输入，经预先构建的动作分类模型处理后，输出所述待识别区域表示的当前行为动作。

可选地，所述将所述人体图像区域作为输入，包括：

将所述人体图像区域进行无损放大后，作为所述动作响应模型的输入。

可选地，所述观影图像中包括至少两名用户，获得每名用户的动作区域响应图，并划分出各动作区域响应图中的响应区域后，所述方法还包括：

判断所述响应区域的面积是否与预设面积相符；

如果所述响应区域的面积与所述预设面积相符，则保留该响应区域所属的动作区域响应图；

判断是否仅保留一名用户的动作区域响应图；

如果仅保留一名用户的动作区域响应图，则将该动作区域响应图确定为当前动作区域响应图；

所述将响应值不低于预设值的响应区域确定为待识别区域，包括：将所述当前动作区域响应图中响应值不低于预设值的响应区域确定为待识别区域。

可选地，如果保留至少两名用户的动作区域响应图，所述方法还包括：

获取每名用户的人体图像区域在所述观影图像中的位置，将靠近中心区域的用户确定为当前用户，将当前用户的动作区域响应图确定为当前动作区域响应图；

或者，

将响应值最大的响应区域所属的动作区域响应图，确定为当前动作区域响应图；

或者，

从每个保留的动作区域响应图中确定出各自的待识别区域，通过所述动作分类模型得到各待识别区域表示的行为动作，将优先级最高的行为动作确定为所述当前行为动作。

本公开提供一种音量调整装置，所述装置包括：

人体图像区域截取模块，用于获取至少两张观影图像，分别从每张观影图像中截取出人体图像区域；

当前行为动作分析模块，用于利用各人体图像区域分析用户的当前行为动作，所述当前行为动作用于表示用户的当前观影状态；

音量调整模块，用于当所述当前行为动作相对上次行为动作发生变化时，根据所述变化进行音量调整。

可选地，所述当前行为动作分析模块包括：

动作区域响应图输出模块，用于将所述人体图像区域作为输入，经预先构建的动作响应模型处理后，输出用户的动作区域响应图，所述动作区域响应图用于标识发生动作变化的区域；

待识别区域确定模块，用于划分所述动作区域响应图中的响应区域，将响应值不低于预设值的响应区域确定为待识别区域，所述响应值用于表示动作变化的幅度；

当前行为动作输出模块，用于将所述待识别区域作为输入，经预先构建的动作分类模型处理后，输出所述待识别区域表示的当前行为动作。

可选地，所述当前行为动作分析模块还包括：

无损放大模块，用于将所述人体图像区域进行无损放大后，作为所述动作响应模型的输入。

可选地，所述观影图像中包括至少两名用户，获得每名用户的动作区域响应图，并划分出各动作区域响应图中的响应区域后，所述当前行为动作分析模块还包括：

当前动作区域响应图确定模块，用于判断所述响应区域的面积是否与预设面积相符；如果所述响应区域的面积与所述预设面积相符，则保留该响应区域所属的动作区域响应图；判断是否仅保留一名用户的动作区域响应图；如果仅保留一名用户的动作区域响应图，则将该动作区域响应图确定为当前动作区域响应图；

所述待识别区域确定模块，用于将所述当前动作区域响应图中响应值不低于预设值的响应区域确定为待识别区域。

可选地，如果保留至少两名用户的动作区域响应图，

所述当前动作区域响应图确定模块，还用于获取每名用户的人体图像区域在所述观影图像中的位置，将靠近中心区域的用户确定为当前用户，将当前用户的动作区域响应图确定为当前动作区域响应图；

或者，

所述当前动作区域响应图确定模块，还用于将响应值最大的响应区域所属的动作区域响应图，确定为当前动作区域响应图；

或者，

所述当前行为动作分析模块还包括：当前行为动作确定模块，用于从每个保留的动作区域响应图中确定出各自的待识别区域，通过所述动作分类模型得到各待识别区域表示的行为动作，将优先级最高的行为动作确定为所述当前行为动作。

本公开提供一种存储介质，其中存储有多条指令，所述指令由处理器加载，执行上述音量调整方法的步骤。

本公开提供一种电子设备，所述电子设备包括；

上述的存储介质；以及

处理器，用于执行所述存储介质中的指令。

本公开方案中，可以将用户观影状态作为音量调整的依据，观影状态可以具体体现为用户的行为动作，即，可以根据用户行为动作的变化，进行音量调整。具体地，可以获取至少两张观影图像，利用从每张观影图像中截取出的人体图像区域，分析得到用户的当前行为动作，当用户的当前行为动作相对上次行为动作发生变化时，可以根据该变化进行音量调整。如此方案，有助于提高音量调整的灵活性，使其满足用户的多样化需求，提高用户体验。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1为本公开方案音量调整方法的流程示意图；

图2为本公开方案中分析用户的当前行为动作的流程示意图；

图3为本公开方案音量调整装置的构成示意图；

图4为本公开方案用于音量调整的电子设备的结构示意图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

参见图1，示出了本公开音量调整方法的流程示意图。可以包括以下步骤：

S101，获取至少两张观影图像，分别从每张观影图像中截取出人体图像区域。

发明人结合实际应用发现，用户在不同观影状态下，对音量大小的需求有所不同。举例来说，用户观影时从坐姿变为躺卧，通常是想要放松休息，此时希望音量调小；再例如，用户观影时眼部从睁开或偶尔眨动变为长时间闭合，通常是进入睡眠状态，此时希望音量调小；再例如，用户观影时手臂从自然下垂变为长时间上举至耳朵附近，通常是在接打电话，此时希望音量调小，等等，由此可知，用户观影状态可以作为音量调整的一个依据。可以理解地，本公开方案中的长时间可以理解为超过预设时长，例如，预设时长为10s，本公开方案对此可不做具体限定。

本公开方案中，用户的观影状态可以具体体现为用户的行为动作，可以获取用户的观影图像，并从中截取出人体图像区域，分析人体图像区域得到用户的行为动作，以便根据行为动作的变化进行音量调整。截取人体图像区域的方式可参照相关技术实现，此处不做详述。

作为一种示例，可以通过安装在影音播放设备旁边的摄像装置，获取用户的观影图像。例如，摄像装置可以体现为摄像机，可以通过摄像机实时采集用户的观影视频，再从中提取观影图像；或者，摄像装置可以体现为照相机，照相机可以每隔一段时间拍摄一幅观影图像。本公开方案对摄像装置的安装位置、摄像装置的具体表现形式、获取观影图像的方式、相邻观影图像之间的时间间隔等可不做限定，只要通过摄像装置能够获取到影音播放设备所在空间的用户的观影图像即可。

S102，利用各人体图像区域分析用户的当前行为动作，所述当前行为动作用于表示用户的当前观影状态。

本公开方案中，用户的行为动作可以体现为整体行为动作和/或局部行为动作。举例来说，整体行为动作可以包括站立、坐姿、躺卧中的至少一种，局部行为动作可以包括四肢动作、头部动作、眼部动作中的至少一种。

作为一种示例，本公开方案至少可以通过以下方式分析用户的当前行为动作：

方式一

可以获取人体图像区域在观影图像中的面积和位置，据此确定用户的当前行为动作。举例来说，相同位置时，可以通过面积大小判断用户的当前行为动作是站立还是坐姿，通常站立的面积大于坐姿的面积；相同行为动作时，可以通过面积大小判断用户距离影音播放设备的远近，即位置远近，通常距离近的面积大于距离远的面积。

方式二

通过模型处理的方式分析用户的当前行为动作。具体可参见图2所示流程示意图，可以包括以下步骤：

S201，将所述人体图像区域作为输入，经预先构建的动作响应模型处理后，输出用户的动作区域响应图，所述动作区域响应图用于标识发生动作变化的区域。

基于至少两张观影图像，可以截取出至少两个人体图像区域，按照观影图像的拍摄时序，本公开方案可以将至少两个人体图像区域视为一个短视频序列，将该短视频序列作为动作响应模型的输入，经模型处理后可以得到短视频序列对应的动作区域响应图。其中，动作区域响应图可以标识出发生动作变化的区域在哪，并通过响应值表示该区域的动作变化的幅度大小。

作为一种示例，动作响应模型的神经网络结构可以体现为AlexNet、ResNet等，本公开方案对此可不做限定。具体地，可以基于预先采集的样本，训练得到以人体图像区域形成短视频序列为输入，以动作区域响应图为输出的动作响应模型，具体的模型训练过程可参照相关训练技术实现，此处不做详述。

在实际应用过程中，短视频序列包括的人体图像区域数量越多，对应的动作区域响应图的精准度越高，可以结合实际应用需求设置人体图像区域的数量，即观影图像的数量，本公开方案对此可不做具体限定。例如，可以采集16张观影图像，进而截取出16个人体图像区域，形成短视频序列。

作为一种示例，为了捕捉到更多细微的动作变化，例如眨眼、垂头等行为动作，可以先对人体图像区域进行超分辨图像无损放大处理，再将放大处理后的人体图像区域输入动作响应模型。举例来说，可以通过基本放大模型进行无损放大处理，本公开方案对此可不做具体限定。

在实际应用过程中，可以结合摄像装置的分辨率、无损放大处理的目标分辨率，对人体图像区域进行多级放大。举例来说，摄像装置的分辨率为200*200，若目标分辨率为1000*1000，则可级联5阶的基本放大模型，以上一级的输出直接作为下一级的输入，进行5次无损放大处理。或者，在实际应用过程中，也可以设置固定的级联阶数，例如，级联阶数为4。本公开方案对摄像装置的分辨率、目标分辨率、级联阶数等可不做限定，具体可结合实际应用需求确定。

S202，划分所述动作区域响应图中的响应区域，将响应值不低于预设值的响应区域确定为待识别区域，所述响应值用于表示动作变化的幅度。

得到动作区域响应图后，可以根据响应值划分出不同的响应区域。通常，响应区域的响应值越大，该区域的行为动作的幅度就越大，本公开方案可以将响应值不低于预设值的响应区域确定为待识别区域，有助于过滤掉非关键的行为动作区域，保留关键的行为动作区域。

在实际应用过程中，身体稍微晃动、光线稍微变换等情况，也可能会体现在动作区域响应图中，针对于此，本公开方案可以基于预设值、多个人体图像区域形成的短视频序列，降低这些情况对行为动作分析产生的影响。举例来说，当采用16个人体图像区域形成的短视频序列作为模型输入时，身体的稍微晃动可能只体现在其中少数几个人体图像区域中，故在模型输出的动作区域响应图中，身体晃动这一行为动作对应的响应区域的响应值通常较低，通过预设值可以过滤掉这个响应区域。

S203，将所述待识别区域作为输入，经预先构建的动作分类模型处理后，输出所述待识别区域表示的当前行为动作。

获得待识别区域后，可以将待识别区域作为动作分类模型的输入，经模型处理后得到待识别区域表示的当前行为动作。具体地，可以基于预先采集的样本，训练得到以动作区域响应图中得到的待识别区域为输入，以行为动作为输出的动作分类模型，具体的模型训练过程可参照相关训练技术实现，此处不做详述。

举例来说，当动作分类模型输出的当前行为动作为用户手臂上举至耳朵附近时，表示用户可能在接打电话；当动作分类模型输出的当前行为动作为用户头部自然下垂时，表示用户可能处于睡眠状态；当动作分类模型输出的当前行为动作为用户眼睛闭合时，表示用户可能处于睡眠状态。

如此，便可与之前分析得到的上次行为动作进行比较，判断当前行为动作相对上次行为动作是否发生变化，进而根据变化确定出音量调整方案。可以理解地，可以基于之前采集的观影图像，按照上述两种方式分析得到上次行为动作，此处不再详述。

S103，当所述当前行为动作相对上次行为动作发生变化时，根据所述变化进行音量调整。

作为一种示例，本公开方案中的行为动作发生变化，可以体现为以下两种情况：

情况一，保持一种行为动作不变，但是位置发生变化

作为一种示例，用户的位置发生变化，可以是相对影音播放设备的远近距离发生变化，但方位基本保持不变。例如，用户保持站立姿势，从距离影音播放设备近的位置走向距离影音播放设备远的位置，为了保证用户对声音感知的一致性，可以将音量调大。

作为一种示例，用户的位置发生变化，可以是相对影音播放设备的方位发送变化。例如，用户保持站立姿势，从影音播放设备的左侧位置走向影音播放设备的右侧位置，为了保证用户对声音感知的一致性，可以将用户所在方位的音量调大，使用户所在位置始终对应最佳声源。

在实际应用过程中，可以在监测到用户位置发生变化时，实时进行音量调整；或者，可以在监测到用户位置发生变化，且在变化后的位置停留一定时长后，再进行音量调整。本公开方案对音量调整的时机、一定时长的取值等可不做限定，具体可结合实际应用需求确定。

情况二，从一种行为动作变化为另一种行为动作。

作为一种示例，可以是从一种整体行为动作变为另一种整体行为动作。例如，用户从站立变为坐姿，通常情况下，用户处于坐姿时注意力更多的集中在影音播放设备上，此时可以将音量调大。

作为一种示例，可以是从一种局部行为动作变为另一种局部行为动作。例如，眼部从睁开变为闭合，通常情况下，眼部处于闭合状态，尤其是长时间闭合时，用户可能已进入睡觉状态，此时可以将音量调小。

在实际应用过程中，可以在监测到用户行为动作发生变化时，实时进行音量调整，例如，S102得到的当前行为动作为坐姿，若上次行为动作为站立，经比较发现行为动作发生变化，可以实时将音量调大。或者，可以在监测到用户行为动作发生变化，且持续指定时长后再进行音量调整，例如，S102得到的当前行为动作为眼部闭合，若上次行为动作为眼睛睁开，经比较发现行为动作发生变化，这一变化可能是眼睛正常眨动，也可能是进入睡眠状态，为了提高音量调整的准确性，可以在监测到眼部闭合时开始计时，如果眼部持续保持闭合状态的时间超过指定时长，则可判定用户进入睡觉状态，可以将音量调小。

可以理解地，不论是整体行为动作发生变化，还是局部行为动作发生变化，均可按照上文介绍，实时进行音量调整或者滞后进行音量调整，本公开方案对音量调整的时机、指定时长的取值等可不做限定，具体可结合实际应用需求确定。

需要说明的是，行为动作变化对应的音量调整方案、音量调整值等，可以由用户根据需求进行个性化设置，也可以对大量样本进行统计分析后进行系统默认设置，本公开方案对此可不做具体限定。

综上，本公开方案可以将用户的行为动作，视为用户观影状态的一种具体表现，进而根据行为动作的变化进行音量调整，有助于简化音量调整的操作过程，提高音量调整的灵活性，使其满足用户的多样化需求，提高用户体验。

在实际应用过程中，一张观影图像中可能包括至少两名用户，即，影音播放设备所在空间存在至少两名用户，本公开方案可通过以下方式确定出用于调节音量的当前行为动作。

通常，每张观影图像中可以截取出至少两名用户的人体图像区域，按照图2所示方法可以获得每名用户的动作区域响应图，即，可以得到至少两张动作区域响应图。

首先，可以根据各动作区域响应图中响应区域的面积大小，确定用于调节音量的行为动作。具体地，可以判断响应区域的面积是否与预设面积相符；如果响应区域的面积与预设面积相符，可以保留该响应区域所属的动作区域响应图；判断是否仅保留一名用户的动作区域响应图；如果仅保留一名用户的动作区域响应图，则可将该动作区域响应图确定为当前动作区域响应图；将当前动作区域响应图中响应值不低于预设值的响应区域确定为待识别区域；将待识别区域输入动作分类模型，得到待识别区域表示的当前行为动作，根据该当前行为动作的变化进行音量调整。

通常，短时间内的行为动作对应的响应区域不会很大，例如，响应区域的面积为图片高度的1/4、图片宽度的1/4，对于图片来说这个响应区域过大，可以过滤掉这种过大响应区域所属的动作区域响应图。此外，如果响应区域过小，例如，响应区域的面积为图片高度的1/100、图片宽度的1/100，对于图片来说这个响应区域基本不可见，故可过滤掉这种过小响应区域所属的动作区域响应图。故，可以设置预设面积，对过大响应区域、过小响应区域进行干扰过滤，本公开方案对预设面积的取值可不做具体限定，上文所举示例中，预设面积可以为摄像装置分辨率的1/1000～1/16。

本公开方案中，响应区域的面积与预设面积相符，指的是响应区域的面积不超出预设面积规定的范围。

经上述判断，如果仅保留了一名用户的动作区域响应图，则可将该用户的动作区域响应图确定为当前动作区域响应图，从中确定出待识别区域，通过动作分类模型得到用于调节音量的当前行为动作。

经上述判断，如果保留了至少两名用户的动作区域响应图，则可按照以下原则确定用于调节音量的当前行为动作：

1.根据位置优先级确定当前行为动作

通常，靠近观影图像中心区域的用户，其注意力会更多的集中在影音播放设备上，故可将位置优先级设置为：位于观影图像中心的用户的优先级高于位于观影图像边缘的用户。

对应于此，可以获取每名用户的人体图像区域在观影图像中的位置，将靠近中心区域的用户确定为当前用户，将当前用户的动作区域响应图确定为当前动作区域响应图，可以从当前动作区域响应图中确定出待识别区域，通过动作分类模型得到当前行为动作。

2.根据动作幅度优先级确定当前行为动作

作为一种示例，动作幅度优先级可以设置为：动作幅度越大，即响应区域的响应值越大，该响应区域所属的动作区域响应图的优先级越高。

对应于此，可以将响应值最大的响应区域所属的动作区域响应图，确定为当前动作区域响应图，进而从当前动作区域响应图中确定出待识别区域，通过动作分类模型得到当前行为动作。

3.根据动作优先级确定当前行为动作

可以设置不同行为动作之间的优先级，依据优先级高的行为动作进行音量调整。例如，坐姿用户的优先级高于站姿用户。

对应于此，可以从每个保留的动作区域响应图中确定出各自的待识别区域，通过动作分类模型得到各待识别区域表示的行为动作，将优先级最高的行为动作确定为当前行为动作。

参见图3，示出了本公开音量调整装置的构成示意图。所述装置可以包括：

人体图像区域截取模块301，用于获取至少两张观影图像，分别从每张观影图像中截取出人体图像区域；

当前行为动作分析模块302，用于利用各人体图像区域分析用户的当前行为动作，所述当前行为动作用于表示用户的当前观影状态；

音量调整模块303，用于当所述当前行为动作相对上次行为动作发生变化时，根据所述变化进行音量调整。

可选地，所述当前行为动作分析模块包括：

可选地，所述当前行为动作分析模块还包括：

可选地，如果保留至少两名用户的动作区域响应图，

或者，

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

参见图4，示出了本公开用于音量调整的电子设备400的结构示意图。参照图4，电子设备400包括处理组件401，其进一步包括一个或多个处理器，以及由存储介质402所代表的存储设备资源，用于存储可由处理组件401的执行的指令，例如应用程序。存储介质402中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件401被配置为执行指令，以执行上述音量调整方法。

电子设备400还可以包括一个电源组件403，被配置为执行电子设备400的电源管理；一个有线或无线网络接口404，被配置为将电子设备400连接到网络；和一个输入输出(I/O)接口405。电子设备400可以操作基于存储在存储介质402的操作系统，例如WindowsServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种音量调整方法，其特征在于，所述方法包括：

利用各人体图像区域分析用户的当前行为动作，包括：当观影图像中有至少两名用户时，分别获得各用户的动作区域响应图，并判断各动作区域响应图中响应区域的面积与预设面积是否相符，如果相符则保留该响应区域所属的动作区域响应图，并根据所保留的动作区域响应图中的响应区域分析当前行为动作；所述当前行为动作用于表示用户的当前观影状态，所述动作区域响应图用于标识发生动作变化的区域；

2.根据权利要求1所述的方法，其特征在于，所述行为动作包括整体行为动作和/或局部行为动作，所述整体行为动作包括站立、坐姿、躺卧中的至少一种，所述局部行为动作包括四肢动作、头部动作、眼部动作中的至少一种。

3.根据权利要求1所述的方法，其特征在于，所述利用各人体图像区域分析用户的当前行为动作，包括：

将所述人体图像区域作为输入，经预先构建的动作响应模型处理后，输出用户的动作区域响应图；

4.根据权利要求3所述的方法，其特征在于，所述将所述人体图像区域作为输入，包括：

5.根据权利要求3或4所述的方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，如果保留至少两名用户的动作区域响应图，所述方法还包括：

或者，

7.一种音量调整装置，其特征在于，所述装置包括：

当前行为动作分析模块，利用各人体图像区域分析用户的当前行为动作，包括：当观影图像中有至少两名用户时，分别获得各用户的动作区域响应图，并判断各动作区域响应图中响应区域的面积与预设面积是否相符，如果相符则保留该响应区域所属的动作区域响应图，并根据所保留的动作区域响应图中的响应区域分析当前行为动作；所述当前行为动作用于表示用户的当前观影状态，所述动作区域响应图用于标识发生动作变化的区域；

8.根据权利要求7所述的装置，其特征在于，所述行为动作包括整体行为动作和/或局部行为动作，所述整体行为动作包括站立、坐姿、躺卧中的至少一种，所述局部行为动作包括四肢动作、头部动作、眼部动作中的至少一种。

9.根据权利要求7所述的装置，其特征在于，所述当前行为动作分析模块包括：

动作区域响应图输出模块，用于将所述人体图像区域作为输入，经预先构建的动作响应模型处理后，输出用户的动作区域响应图；

10.根据权利要求9所述的装置，其特征在于，所述当前行为动作分析模块还包括：

11.根据权利要求9或10所述的装置，其特征在于，所述观影图像中包括至少两名用户，获得每名用户的动作区域响应图，并划分出各动作区域响应图中的响应区域后，所述当前行为动作分析模块还包括：

12.根据权利要求11所述的装置，其特征在于，如果保留至少两名用户的动作区域响应图，

或者，

13.一种存储介质，其中存储有多条指令，其特征在于，所述指令由处理器加载，执行权利要求1至6任一项所述方法的步骤。

14.一种电子设备，其特征在于，所述电子设备包括：

权利要求13所述的存储介质；以及

处理器，用于执行所述存储介质中的指令。