CN112380972A

CN112380972A - 一种应用于电视场景的音量调节方法

Info

Publication number: CN112380972A
Application number: CN202011261065.3A
Authority: CN
Inventors: 高岚; 谢涛; 邹军
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2020-11-12
Filing date: 2020-11-12
Publication date: 2021-02-19
Anticipated expiration: 2040-11-12
Also published as: CN112380972B

Abstract

本发明公开了一种应用于电视场景的音量调节方法，包括实时获取用户画面，调用预先训练完毕的人脸检测模型和人脸关键点检测模型对用户画面进行检测识别，得到用户人脸信息；根据用户人脸信息，判断用户是否在观看电视；对用户画面进行单帧和多帧处理，获取用户的当前状态信息，包括位置距离信息、位置角度信息和场景信息；根据所获得的用户当前状态信息，对电视机的音量进行调节。本发明的技术方案对用户画面进行单帧和多帧相结合的处理方式，并根据用户位置的距离和角度，以及用户的状态场景，自动为用户调节舒适的音量，让智能电视更加智能，并提高了智能电视音量调节的快捷性和准确性，从而提升了用户体验度。

Description

一种应用于电视场景的音量调节方法

技术领域

本发明涉及图像处理技术领域，特别涉及一种应用于电视场景的音量调节方法。

背景技术

AI技术的大力发展推动了各行业智能化的发展进程，硬件、算法与数据共同发展，使得AI技术在各行各业获得越来越广泛的应用。在电视领域中，更是利用AI技术为电视赋予更多的能力。如何提升用户的电视场景交互体验，如何为用户提供更加智能便捷的服务，一直都是重点研究的方向。

在电视观看过程中，电视画面和声音是影响用户观影体验的两个重要因素。当前大多数用户调节声音，主要还是通过遥控器端或者语音来操控音量的调节，这两种方式都是用户根据自身或者周边环境的实际情况来主动操控音量。电视端如何根据用户情况主动为用户调节音量，成为了研究方向。基于这样的目的，电视自动调节音量技术近几年也开始发展，一种基于外界环境，如外部噪声、来电通话等语音场景来判断；一种基于电视内部数据，如预设表单、节目类型等等。AI技术更多在第一种基于外界环境的自动调节音量技术上赋予更多的能力。

在基于外界环境中，一种是基于图像技术，通过计算图像中人物的方向和相对距离进行声音调节，这种方式会计算多帧图像来获取位置信息数据，实时性稍差，同时忽略了用户的一些场景，如聊天场景、通话场景；另一种是基于语音技术，分析语音场景，根据不同场景调节音量，当用户在安静情况下，无法自动调节音量。因此，现有的电视音量调节方法存在不能自动进行调节、以及不能够进行及时、有效调节的缺点。

发明内容

为解决现有技术中存在的问题，本发明的目的是提供一种应用于电视场景的音量调节方法，在图像技术的基础上，利用单帧图像及多帧图像处理，获取用户的位置距离信息、位置角度信息和场景信息，并通过获取的相应信息为用户自动调节并恢复音量，从而提高用户体验度。

为实现上述目的，本发明采用的技术方案是：

一种应用于电视场景的实时智能音量调节方法，包括

实时获取用户画面，调用预先训练完毕的人脸检测模型和人脸关键点检测模型对用户画面进行检测识别，得到用户人脸信息；根据用户人脸信息，判断用户是否在观看电视；对用户画面进行单帧和多帧处理，获取用户的当前状态信息，包括位置距离信息、位置角度信息和场景信息；根据所获得的用户当前状态信息，对电视机的音量进行调节。

进一步地，所述用户人脸信息包括人脸位置坐标、人脸关键点坐标和姿态角的角度数据。

进一步地，所述姿态角包括航向角、俯仰角和横滚角。

进一步地，所述判断用户是否在观看电视的方法为：预先设置航向角和俯视角的阈值，当检测到所述用户人脸信息的航向角和俯视角均小于该阈值时，则判定用户在观看电视。

进一步地，所述方法中，对用户画面进行单帧处理时，通过人脸宽度、瞳距与距离之间的比例关系，利用用户人脸信息计算用户的位置距离信息。

进一步地，所述方法中，对用户画面进行单帧处理时，通过相机成像原理进行标定获得用户的位置角度信息。

进一步地，通过所述相机成像原理对用户的位置角度信息进行标定的公式为：

cmos＝pix_x/screen_width*camera_x (公式一)

其中，cmos为用户在相机感光元器件的成像位置；pix_x为用户在屏幕中显示的位置；screen_width—屏幕的宽度；camera_x为相机固件中的成像尺寸；

angle＝arctan(cmos/J) (公式二)

angle为用户相对于相机的位置角度；J为相机焦距；

通过上述公式计算出用户的位置角度信息。

进一步地，所述方法中，当用户的场景信息为说话场景时，获取用户语音信息，根据所获取的用户语音信息判断用户是否处于该场景，并根据场景所对应的用户当前状态对电视机的音量进行自动调节。

进一步地，所述人脸关键点检测模型为卷积神经网络，该神经网络的训练过程包括以下步骤：

步骤A、针对神经网络输入特点，收集预设数量的人脸图像样本；

步骤B、对每一张人脸图像样本，通过软件和人工处理提取出人脸106个关键点信息；

步骤C、针对所获取的图像样本及其样本信息，将其生成tensorflow支持的tfrecord格式的训练文件和验证文件；

步骤D、利用训练文件对模型进行训练，以生成预先确定的人脸关键点检测模型，并利用验证文件对生成的人脸关键点检测模型进行验证；

步骤E、对模型loss至和预设阈值进行比较，若模型loss未下降到预设阈值，则增加人脸图像样本，或者调试模型参数，重复步骤A-D；若模型loss下降到预设阈值，或者训练步数达到一定的步数，则训练完成。

本发明的有益效果是：

本发明在用户观影过程中，根据用户位置的距离和角度，以及用户的状态场景，自动为用户调节舒适的音量，让智能电视更加智能，从而增加用户体验的乐趣。且对用户画面进行单帧和多帧相结合的处理方式，利用一帧图像获取用户位置信息数据，达到毫秒级响应，解决现有的基于图像调节音量的延迟性问题，进一步提升自动调节的精度；利用多帧图像判断用户的当前场景，利用多模态的信息数据，为用户自动调节音量，从而提高电视音量调节的智能化、及快捷准确性。

附图说明

图1为本发明实施例应用于电视场景的音量调节方法的流程图。

图2为本发明实施例相机成像原理示意图。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。

下面结合附图1-2对本发明的具体实施方式进行说明。

如图1所示，本发明实施例提供了一种应用于电视场景的音量调节方法，对用户图像信息进行图像处理，判断当前用户的位置信息和观影场景，自动调节电视音量的技术。通过图像识别技术获取用户人脸信息，包括人脸位置、人脸关键点坐标、人脸姿态角信息。通过这些信息，我们可以在单帧图像数据上计算出人物与电视之间的角度信息、距离信息，另在连续多帧图像数据上判断用户的嘴部动作，进而判断用户是否在聊天或者通话这样的简单场景，根据判断结果对电视音量进行调节并恢复。该方法具体包括以下步骤：

步骤S101、实时获取用户画面，调用预先训练完毕的人脸检测模型和人脸关键点检测模型对用户画面进行检测识别，得到用户人脸信息。

通过电视机上的摄像头持续获取1080P(1920*1080)的用户画面图像，调用预先训练完毕的人脸检测模型和人脸关键点检测模型对用户画面进行检测识别，实时得到用户的人脸信息，包括用户的人脸位置坐标、人脸106点关键点坐标和三个姿态角的角度数据，其中，三个姿态角包括航向角、俯仰角和横滚角。

步骤S102、根据用户人脸信息，判断用户是否在观看电视。

预先设置航向角和俯视角的阈值，当检测到所述用户人脸信息的航向角和俯视角均小于该阈值时，则判定用户在观看电视；若否，则判定用户未在观看电视，则返回步骤S101，重新对用户画面进行获取。本实施例通过对姿态角进行分析，得出用户面部是否朝向电视，即是否在观看电视。在这个前提下，对人脸数据进行分析，判断用户状态。

本方法中，系统分为单帧图像处理和多帧图像处理，分别处理用户不同的当前状态信息，并根据用户当前状态信息，对电视机的音量进行调节。本实施例仅对电视的音量进行调节，而音效不变。

步骤S103、对用户画面进行单帧处理，计算用户的位置距离信息和位置角度信息，根据计算结果对电视机的音量进行调节。

利用位置距离信息和位置角度信息调节音量；通过多次试验中得到的人脸宽度、瞳距与距离之间的比例关系，直接利用人脸大小和瞳距数据，计算出用户的位置距离信息。在已知摄像头的焦距、成像面积和镜头角度范围后，根据如图2所示的相机成像原理便可标定用户位置，确定用户位置角度信息。

相对位置的计算公式如式1-1、1-2所示。

cmos＝pix_x/screen_width*camera_x (1-1)

式1-1中，

cmos—用户在相机感光元器件的成像位置；

pix_x–用户在屏幕中显示的位置；

screen_width—屏幕的宽度；

camera_x—相机固件中的成像尺寸。

angle＝arctan(cmos/J) (1-2)

式1-2中，

angle—用户相对于相机的位置(用角度来表示)；

J—相机焦距。

通过以上公式，可计算出用户的位置角度信息。

得到用户位置和距离后，再通过简单的逻辑关系判断处理，调节两侧的喇叭音量。即，用户距离越近，两侧喇叭音量越小；用户位置越靠近哪侧喇叭，哪侧的喇叭音量降低，另一侧的音量提高。另外，通过实时获取用户画面，对用户的位置和距离进行检测，判断用户是否移动位置，若是，则根据用户位置分别调节两侧喇叭的音量；若否，则进入步骤S104，判断用户是否处于聊天或通话的说话场景。

步骤S104、对用户画面进行多帧处理，检测用户当前场景，根据所检测用户场景对电视机的音量进行调节。利用场景信息调节音量，场景信息的判断需要多帧处理，系统通过说话检测应用服务，对人脸的脸部轮廓和嘴部的关键点数据进行计算比对，分析判断当前用户的嘴部行为：打哈欠、吃东西以及说话。

如图1所示，现以说话场景的处理过程进行说明，当用户的场景信息为说话场景时，获取用户语音信息，根据所获取的用户语音信息判断用户是否处于该场景；若是，则将音量调低一级，若否，则不进行音量调整。例如，当说话检测应用服务发出用户说话的数据信号，同时系统的麦克设备检测到用户语音信息，则表示用户处在通话或者聊天的说话场景中，系统的喇叭模块在接收到相关信号后将喇叭音量调低一级。另外，当检测到结束通话或聊天，系统自动将喇叭音量进行恢复。如果在未恢复音量过程中，用户通过遥控器或者语音触发音量调节，系统则响应用户主动的音量调节。

在本实施例中，所述步骤S102中，调用预先训练完毕的人脸检测模型和人脸关键点检测模型对用户画面进行检测识别；其预先训练完毕的人脸关键点检测模型为卷积神经网络，基础网络采用基于tensorflow的mobilenet神经网络。该神经网络的训练过程如下：

A、针对神经网络输入特点，收集预设数量的人脸图像样本，例如，收集整理约10w张人脸图像样本，统一设置成224*224*3的图像大小；

B、对每一张人脸图像样本，通过软件和人工处理提取出人脸106个关键点信息；提取出人脸关键点信息以及图像样本本身的图像大小和图像格式等信息；

C、针对上述两步获取的图像样本及其样本信息，将其生成tensorflow支持的tfrecord格式的训练文件和验证文件，训练文件和验证文件的图像数据不同，但其存储的图像格式和图像信息格式相同。

D、利用训练文件对模型进行训练，以生成预先确定的人脸关键点检测模型，并利用验证文件对生成的人脸关键点检测模型进行验证；

E、若模型loss未下降到预设阈值0.1时，则增加人脸图像样本，或者调试模型参数，重复执行上述步骤A、B、C、D、E，直到训练完成。

F、若模型loss下降到预设阈值，或者训练步数达到一定的步数，则训练完成，例如，设置预设阈值为0.1，预设步数为2万步，当达到其预设数值时，完成训练。

本实施例中，预先训练完毕的人脸检测模型的训练过程，同上述人脸关键点检测模型的训练过程，现不进行赘述。

通过本发明的一种应用于电视场景的实时智能音量调节方法，在用户观影过程中，根据用户位置的距离和角度，以及用户的状态场景，自动为用户调节舒适的音量，让Android智能电视更加智能，更能增加用户体验的乐趣。

以上所述实施例仅表达了本发明的具体实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种应用于电视场景的音量调节方法，其特征在于，包括

实时获取用户画面，调用预先训练完毕的人脸检测模型和人脸关键点检测模型对用户画面进行检测识别，得到用户人脸信息；

根据用户人脸信息，判断用户是否在观看电视；

对用户画面进行单帧和多帧处理，获取用户的当前状态信息，包括位置距离信息、位置角度信息和场景信息；

根据所获得的用户当前状态信息，对电视机的音量进行调节。

2.根据权利要求1所述的方法，其特征在于，所述用户人脸信息包括人脸位置坐标、人脸关键点坐标和姿态角的角度数据。

3.根据权利要求2所述的方法，其特征在于，所述姿态角包括航向角、俯仰角和横滚角。

4.根据权利要求3所述的方法，其特征在于，所述判断用户是否在观看电视的方法为：预先设置航向角和俯视角的阈值，当检测到所述用户人脸信息的航向角和俯视角均小于该阈值时，则判定用户在观看电视。

5.根据权利要求1所述的方法，其特征在于，所述方法中，对用户画面进行单帧处理时，通过人脸宽度、瞳距与距离之间的比例关系，利用用户人脸信息计算用户的位置距离信息。

6.根据权利要求1所述的方法，其特征在于，所述方法中，对用户画面进行单帧处理时，通过相机成像原理进行标定获得用户的位置角度信息。

7.根据权利要求6所述的方法，其特征在于，通过所述相机成像原理对用户的位置角度信息进行标定的公式为：

cmos＝pix_x/screen_width*camera_x (公式一)

angle＝arctan(cmos/J) (公式二)

angle为用户相对于相机的位置角度；J为相机焦距；

通过上述公式计算出用户的位置角度信息。

8.根据权利要求1所述的方法，其特征在于，所述方法中，当用户的场景信息为说话场景时，获取用户语音信息，根据所获取的用户语音信息判断用户是否处于该场景，并根据场景所对应的用户当前状态对电视机的音量进行自动调节。

9.根据权利要求1所述的方法，其特征在于，所述人脸关键点检测模型为卷积神经网络，该神经网络的训练过程包括以下步骤：