CN113778233B

CN113778233B - 一种操控显示设备的方法、装置及可读介质

Info

Publication number: CN113778233B
Application number: CN202111089176.5A
Authority: CN
Inventors: 杨帆
Original assignee: Guangdong Meishi Technology Co ltd
Current assignee: Guangdong Meishi Technology Co ltd
Priority date: 2021-09-16
Filing date: 2021-09-16
Publication date: 2022-04-05
Anticipated expiration: 2041-09-16
Also published as: CN113778233A

Abstract

本发明主要公开了一种操控显示设备的方法，对预设范围的图像进行人体关键点检测，并将所有人体关键点分组关联为单个人的人体关键点，检测具有第一预设动作的单个人的人体关键点为目标用户，然后根据目标用户的人体关键点确定目标用户的第一人脸框区域，并对第一人脸框区域进行人脸检测获得第二人脸框区域，根据第二人脸框区域与图像的关系生成变换指令，使目标用户在图像中的坐标位置和面积占比均达到预设值，利用目标检测法检测通过摄像头采集的图像而获得所有人的人体框；根据所有人体框确定目标用户的人体框，并只对该人体框区域进行人体关键点检测，获得目标用户的人体关键点。快速且准确操控大屏幕。

Description

一种操控显示设备的方法、装置及可读介质

技术领域

本发明涉及电子信息技术领域，特别涉及一种操控显示设备的方法、装置及可读介质。

背景技术

在人机交互领域中，通常需要进行识别人体姿态，主要通过算法获得某个人的人体关键点，然后将该人体的人体关键点输入到分类器从而判断该人体姿态类别；现有技术中，人体关键点的检测方法大致有top-down和bottom-up两种方法，其中，利用bottom-up方法检测时，检测速度虽然很快，但其准确率较差。利用top-down方法检测时，准确率虽然较高，但其检测速率太慢。例如，一些智能电视跳舞指导等场景下，当用户的人体姿态需要被电视机识别时，经常出现电视机反馈操作信息时反应慢或出错的现象，带来极差的用户体验。

发明内容

为解决前述的至少一个技术问题，本公开在第一方面提出了一种操控显示设备的方法，包括：对获得的预设范围的图像进行人体关键点检测，并将检测到的所有人体关键点分组关联为单个人的人体关键点，检测具有第一预设动作的单个人的人体关键点为目标用户，第一预设动作用于指示目标用户想要对显示设备进行工作状态控制；响应于检测到的第一预设动作，根据目标用户的人体关键点确定目标用户的第一人脸框区域，并对第一人脸框区域进行人脸检测而获得目标用户的第二人脸框区域，第二人脸框区域的大小不同于第一人脸框区域的大小；根据目标用户的第二人脸框区域与图像的关系生成变换指令，变换指令用于指示摄像头旋转拍摄角度或变换拍摄倍率，使目标用户在图像中的坐标位置和面积占比均达到预设值，利用目标检测法检测通过摄像头采集的图像而获得所有人的人体框；根据所有人体框确定目标用户的人体框，并只对图像中目标用户人体框区域进行人体关键点检测，获得目标用户的人体关键点，并根据目标用户的人体关键点对应的人体姿态，生成操控显示设备的指令。

优选的，“对获得的预设范围的图像进行人体关键点检测，并将检测到的所有人体关键点分组关联为单个人的人体关键点”之前还包括：获取通过摄像头采集全部的预设范围的图像信息；其中，显示设备为大屏幕，预设范围是根据大屏幕的长度和摄像头变焦的倍数获得的；摄像头位于大屏幕正上方，摄像头采集全部预设范围的图像时，摄像头位于初始状态，可以拍摄到全部预设范围内的人。

优选的，“对第一人脸框区域进行人脸检测而获得目标用户的第二人脸框区域”之后还包括：获得第二人脸框区域的人脸特征信息，并与预设的人脸特征信息进行匹配，若匹配成功，则确定目标用户是具有操控显示设备权限的目标用户。

优选的，“根据目标用户的第二人脸框区域与图像的关系生成变换指令，变换指令用于指示摄像头旋转拍摄角度或变换拍摄倍率，使目标用户在图像中的坐标位置和面积占比均达到预设值”包括：根据第二人脸框区域与图像的位置关系生成旋转指令，旋转指令用于指示摄像头水平或垂直旋转，使得目标用户位于图像的中间位置；根据第二人脸框区域的面积与图像的面积的比例关系生成变倍指令，变倍指令用于指示摄像头变换拍摄倍率，使得第二人脸框区域的面积与图像的面积的比例达到预设范围值；且先生成旋转指令再生成变倍指令。

优选的，“根据所有人体框确定目标用户的人体框”包括：判断获得的所有人体框的数量为1时，确定该人体框为目标用户的人体框；判断获得的所有人体框数量大于1时，计算目标用户的第二人脸框区域分别与每一个人体框区域的重叠率，确定重叠率最高的人体框为目标用户的人体框。

优选的，“根据所有人体框确定目标用户的人体框”包括：计算目标用户的第二人脸框区域分别与每一个人体框区域的重叠率，确定重叠率最高的人体框为目标用户的人体框。

优选的，当重叠率最高的人体框的数量大于1时，对所有重叠率最高的人体框区域进行人体关键点检测；判断检测到的人体关键点中人脸的关键点是否位于第二人脸框区域内；若是，则为目标用户的人体框。

优选的，“根据所有人体框确定目标用户的人体框”还包括：判断获得的所有人体框的数量为0时，生成变换指令并发送给摄像头，变换指令用于指示摄像头旋转拍摄角度或变换拍摄倍率；接收通过摄像头拍摄的图像信息，判断对图像信息人脸识别的人脸特征值与预设人脸特征值是否匹配；若匹配成功，则确定该人脸为具有操作权限的目标用户。

本公开在第二方面提出了一种操控显示设备的装置，包括：目标用户确定模块，用于对获得的预设范围的图像进行人体关键点检测，并将检测到的所有人体关键点分组关联为单个人的人体关键点，检测具有第一预设动作的单个人的人体关键点为目标用户，第一预设动作用于指示目标用户想要对显示设备进行工作状态控制；目标用户人脸框确定模块，用于响应于检测到的第一预设动作，根据目标用户的人体关键点确定目标用户的第一人脸框区域，并对第一人脸框区域进行人脸检测而获得目标用户的第二人脸框区域，第二人脸框区域的大小不同于第一人脸框区域的大小；所有人体框确定模块，用于根据目标用户的第二人脸框区域与图像的关系生成变换指令，变换指令用于指示摄像头旋转拍摄角度或变换拍摄倍率，使目标用户在图像中的坐标位置和面积占比均达到预设值，利用目标检测法检测通过摄像头采集的图像而获得所有人的人体框；目标用户人体姿态确定模块，用于根据所有人体框确定目标用户的人体框，并只对图像中目标用户人体框区域进行人体关键点检测，获得目标用户的人体关键点，并根据目标用户的人体关键点对应的人体姿态，生成操控显示设备的指令。

本公开在第三方面提出了一种计算机可读介质，所述计算机可读介质中存储有计算机程序，所述计算机程序由处理模块加载并执行以实现上述任一所述的方法的步骤。

本公开的一些技术效果在于：通过对获得的全部预设范围的图像进行人体关键点检测，并将检测到的所有人体关键点分组关联为单个人的人体关键点，检测具有第一预设动作的单个人的人体关键点为目标用户，第一预设动作用于指示目标用户想要对显示设备进行工作状态控制；这个方法便于能够快速从预设范围内众多人中找到想要操作显示设备的目标用户。再响应于检测到的第一预设动作，根据目标用户的人体关键点确定目标用户的第一人脸框区域，并对第一人脸框区域进行人脸检测而获得目标用户的第二人脸框区域，第二人脸框区域的大小不同于第一人脸框区域的大小；通过已检测到的人体关键点在图像中的坐标位置获得不是很精确的第一人脸框，大大缩小了检测目标用户所需的检测范围，利用不太精确的第一人脸框区域快速找到精确的第二人脸框区域，便于后面快速提取该目标用户的人脸特征值，进而便于判断该目标用户是否具有操作权限。也便于后续确定目标用户的人体框。接着根据目标用户的第二人脸框区域与图像的关系生成变换指令，变换指令用于指示摄像头旋转拍摄角度或变换拍摄倍率，使目标用户在图像中的坐标位置和面积占比均达到预设值，使得寻找目标用户的检测范围进一步缩小，数据处理量也变小，这样，一方面可以排除掉大部分背景里的干扰对象，另一方面可以减少后续处理图像信息的计算量。也可以锁定目标用户不易丢失，然后利用目标检测法检测通过摄像头采集的图像而获得所有人的人体框；接着根据所有人体框确定目标用户的人体框，并只对图像中目标用户人体框区域进行人体关键点检测，进而获得目标用户的人体关键点，并根据目标用户的人体关键点对应的人体姿态，生成操控显示设备的指令。这样只需要对目标用户的人体框区域进行人体关键点检测，大大增加了检测速率，且这种检测精度又高。不仅可以快速检测到目标用户的人体关键点，且巧妙利用摄像头以及人体框使得识别的准确率也很高。最终能够快速且精准操控显示设备。

附图说明

为更好地理解本公开的技术方案，可参考下列的、用于对现有技术或实施例进行辅助说明的附图。这些附图将对现有技术或本公开部分实施例中，涉及到的产品或方法有选择地进行展示。这些附图的基本信息如下：

图1为本申请实施例可以应用于其中的示例性系统架构图；

图2为本申请的实施例可以应用于其中的示例性应用场景图；

图3为本申请的一种操控显示设备的方法的一个实施例的流程图。

具体实施方式

下文将对本公开涉及的技术手段或技术效果作进一步的展开描述，显然，所提供的实施例(或实施方式)仅是本公开意旨涵盖的部分实施方式，而并非全部。基于本公开中的实施例以及图文的明示或暗示，本领域技术人员在没有作出创造性劳动的前提下所能获得的所有其他实施例，都将在本公开请求保护的范围之内。

现有的操控显示设备的方法中一些方法准确率可以达到但是操控速度太慢；或者操控速度够快但是准确度又不高；或者操控方法需要配备其他硬件产品，不太便利；这种方法一般应用于智能电视辅导教学跳舞或玩游戏等一些简单场景中，而无法应用于指挥中心等这种对操控速度和准确度都要求很高的场景。

对此，本申请公开了一种操控显示设备的方法、装置及可读介质。本申请实施例提供的操控显示设备的方法能够应用在各行各业的指挥中心等需要通过操控显示设备的大屏幕来达到快速且精确的人机交互目的的场景，例如应急指挥调度中心、公安指挥调度中心、交通指挥调度中心、能源指挥调度中心、智慧城市指挥调度中心等领域中，通过操控大屏幕来控制调度系统，比如切换分布式信号源，接管信号源里的鼠标，从而对信号源里的内容进行任意操作。指挥中心作为指挥调度控制的中枢大脑，对于社会治理和民生发展发挥着极其重要的作用，对操控的准确度和速度都要求很高。对此，本公开实施例的操控大屏的方法无需使用任何复杂的控制设备或穿戴设传感器，仅以活体人的行为识别即可快速且精准的完成对指挥中心大屏控制权的接管和操控，通过简单的隔空手势操作高效实现人与大屏内容做信号上屏、切换、缩放等快速且精准的交互操作控制。当然，本公开的方法也可以应用于上述要求不高的一般性应用场景中。

如图1示出了可以应用本公开的操控显示设备的方法或操控显示设备的装置的示例性系统架构。为了便于描述，只是示出了与本公开相关的部分。

如图1所示，系统架构100可以包括带云台111的摄像头110、AI服务器120以及分布式调度和图像综合管理平台130。其中分布式调度和图像综合管理平台包括指挥台和显示设备131。示例性的，显示设备131为大屏幕131，带云台111的摄像头110通过串口线和USB线连接AI服务器120，AI服务器120再通过网线连接分布式调度和图像综合管理平台的指挥台和显示设备131。摄像头110拍摄的图像信息通过USB线传输发送给AI服务器120，AI服务器120对接收的图像信息进行处理、分析和决策后生成信息或命令，AI服务器120再通过串口线将生成的命令发回给带云台的摄像头，使得摄像头能够控制云台进行水平或垂直旋转或摄像头变换倍率。AI服务器也可将信息通过网口发送给分布式调度和图像综合管理平台。分布式调度和图像综合管理平台接收信息，并使大屏幕显示相应的操作反馈等。

指挥中心等场景下一般需要大画面、多彩色、高亮度、高分辨率的显示效果。示例性的，显示设备130为大屏幕显示屏130，大屏幕显示屏130可以指的是直观式彩电或背投式投影电视中的大屏幕，通常，屏幕的对角线尺寸都在40英寸以上。大屏幕显示屏130的显示面可以是平板状的，也可以是弯曲状的。大屏幕显示屏130也可以是拼接式的，在次不受限制。

本实施例中，带云台的摄像头位于大屏幕的正上方。云台是承载摄像头的装置，接收AI服务器的命令后可使得摄像头进行水平和垂直两个方向旋转，也可使得摄像头自动变换倍率或焦距。

目标用户可以使用手势隔空通过摄像头与AI服务器进行交互，然后AI服务器与大屏幕进行信息交互，从而实现手势隔空操控大屏幕。其中，AI服务器可以是一台服务器，或若干台服务器组成的服务器集群或云计算中心。AI服务器能够为显示设备提供各种服务，对于显示设备上不同的应用程序，AI服务器可以认为是提供相应网络服务的后台服务器，可以认为本申请公开的方法主要由该AI服务器侧来执行。

如图2，其示出了本公开一实施例下的应用场景图。分别有大屏幕131，位于大屏幕131上方的带云台111摄像头110，以及位于大屏幕131前方的可操作范围140。可操作范围140大致上是一个环形状的区域。目标用户可以在操作范围140内对大屏幕131进行操控。如果不在可操作范围140内，例如，如果距离大屏幕131太远时，识别手势可能会出错，则可能会造成操控错误。如果距离大屏幕太近时，目标用户可能无法观察到大屏幕的全部内容，不利于目标用户操控大屏幕。本实施例中，大屏幕131的宽度为8米，变焦摄像头的镜头为15倍变焦镜头，根据大屏幕131的宽度和变焦摄像头110的镜头的变焦倍数可计算得到该实施例中的可操作范围140为距离大屏幕4米到10米的环形范围。

如图3，其示出了根据本公开的一种操控显示设备的方法的一个实施例的流程图。一种操控显示设备的方法，所述方法包括以下步骤：

S10：对获得的预设范围的图像进行人体关键点检测，并将检测到的所有人体关键点分组关联为单个人的人体关键点，检测具有第一预设动作的单个人的人体关键点为目标用户，第一预设动作用于指示目标用户想要对显示设备进行工作状态控制；

“对获得的预设范围的图像进行人体关键点检测，并将检测到的所有人体关键点分组关联为单个人的人体关键点”之前还包括：获取通过摄像头采集的全部预设范围的图像信息；其中，显示设备为大屏幕，预设范围是根据大屏幕的长度和摄像头变焦的倍数获得的；摄像头位于大屏幕正上方，摄像头采集全部预设范围的图像时，摄像头位于初始状态，可拍摄到全部预设范围内的人。

本实施例中，预设范围就是上述可操作范围140，没有人操控大屏幕时，即没有人接管大屏幕时，带云台的摄像头一直保持在初始状态，初始状态包括初始位置和初始焦距倍率，该实施例中，摄像头的初始位置是摄像头保持在左右方向的正中间，且持续的俯视拍摄预设范围内的场景。初始焦距倍率指的是摄像头的焦距的倍数保持在初始焦距下，使得摄像头可以拍摄到全部预设范围内的人的图像，且保证拍摄的图像清晰。也就是说带云台的摄像头一直保持在初始状态时，摄像头位于初始位置且焦距倍率保持在初始焦距倍率下。此时，摄像头可拍摄到全部的预设范围的场景人物，也就可以拍摄到预设范围内的所有人，且保证拍摄的图像清晰，分辨率高。

该实施例中，刚开始未有人接管或操控大屏幕时，摄像头保持在初始状态下，摄像头持续的连续实时将拍摄到的全部预设范围内的图像信息发送给AI服务器，AI服务器接收到摄像头发来的图像信息后，对获得的全部的预设范围的图像进行人体关键点检测，并将检测到的所有人体关键点分组关联为单个人的人体关键点，就可以获得多个单人的人体关键点。对获得的全部的预设范围的图像进行人体关键点检测，即先将获得的图像中的所有的人体关键点检测出来，此时还不知道哪些人体关键点属于同一个人的，然后再将检测到的所有人体关键点进行分组关联为单个人的人体关键点，这样通过分组关联，将属于同一个人的人体关键点分组关联起来，就得到了一个个单人的人体关键点，组成了一个个人。此时获得的人体关键点实际上是每个人的每一个人体关键点在图像中的位置坐标，这种获得单人的人体关键点的方法对通过摄像头获得的预设范围的图像只需要处理一遍，检测速度很快，而且检测速度不会随着预设范围内的人数的增加而变化。便于快速获得图像中每个人的人体关键点。方便后续在图像中快速找到想要操作大屏幕的目标用户的大概位置。缩小寻找目标用户的范围。

然后，检测具有第一预设动作的单个人的人体关键点为目标用户，第一预设动作用于指示目标用户想要对显示设备进行工作状态控制；第一预设动作是预先设置的任意人体动作， AI服务器可以预先以列表的形式设置与该动作对应的指令是想要控制大屏幕的工作状态。一实施例中，第一预设动作是挥手。AI服务器预先设置识别到挥手动作时，对应的生成想要控制大屏幕的工作状态的指令。摄像头将拍摄到的连续多帧图片连续不断发送给AI服务器，AI服务器对接收到的上述图片进行S10步骤的处理， AI服务器将上述检测到的单人的人体关键点通过骨骼行为识别模型预测，获得每一个人的动作的类别。例如当有人挥手时，通过骨骼行为识别模型就会得到该动作是挥手。此时，就检测到了第一预设动作。第一预设动作也可以是其他动作，在此不做限制。

S20：响应于检测到的第一预设动作，根据目标用户的人体关键点确定目标用户的第一人脸框区域，并对第一人脸框区域进行人脸检测而获得目标用户的第二人脸框区域，第二人脸框区域的大小不同于第一人脸框区域的大小；

“对第一人脸框区域进行人脸检测而获得目标用户的第二人脸框区域”之后还包括：获得第二人脸框区域的人脸特征信息，并与预设的人脸特征信息进行匹配，若匹配成功，则确定目标用户是具有操控显示设备权限的目标用户。

当AI服务器检测到第一预设动作时，AI服务器根据目标用户的人体关键点确定目标用户的第一人脸框区域，具体的，上述目标用户的人体关键点是每一个人体关键点在图像中的位置坐标，本实施例中，这些人体关键点包括身体的18个关键点以及双手的21个关键点，例如头顶、五官、颈部、四肢主要关节部位以及手上的各关节等； AI服务器根据人体关键点在图像中的位置坐标中的属于人脸区域的关键点的位置坐标，计算得到一个大致的包围人脸的矩形框，这个矩形框就形成第一人脸框。一实施例中，根据两耳朵在图像中的位置坐标计算得到两个耳朵之间的距离，并以此为第一人脸框的长度，根据鼻子在图像中的位置坐标与眼睛在图像中的位置坐标计算得到图像中眼睛与鼻子的距离，并以此距离的4倍为第一人脸框区域的宽度。并以鼻子在图像中的位置坐标为该第一人脸框区域的中心位置。这样就获得了第一人脸框在图像中的位置坐标，获得了第一人脸框。

然后只需要对第一人脸框区域进行人脸检测而获得目标用户的第二人脸框，第二人脸框区域的大小不同于第一人脸框区域的大小；获得上述第一人脸框区域，实际上是获得了第一人脸框的四个拐角点在图像中的坐标，然后利用目标检测算法对图像中第一人脸框区域进行人脸检测，获得另一个矩形框就是第二人脸框。一般来说，第二人脸框也是包围人脸的矩形框，但第二人脸框区域的大小不同于第一人脸框区域的大小，第二人脸框比第一人脸框更加精确，第二人脸框区域的面积一般小于第一人脸框区域的面积。这样AI服务器就快速找到了目标用户的精确的人脸框，也就是第二人脸框在图像中的坐标位置。

获得第二人脸框后，再通过人脸识别模型提取该人脸的特征信息。获得第二人脸框区域的人脸特征信息，并与预设的人脸特征信息进行匹配，若匹配成功，则确定目标用户是具有操控显示设备权限的目标用户。预设的人脸特征信息是指AI服务器提前存储的具有操作大屏幕权限的人的人脸特征信息，可以是具有操作大屏幕权限的人通过设置在大屏幕上的APP提取录入的人脸；也可以是AI服务器通过键盘或大屏幕等接收的具有操作大屏幕权限的人的人脸特征信息。那么，AI服务器就提前存储了具有操作大屏幕权限的人的人脸特征值，也就是存储了预设的人脸特征值。将获得的第二人脸框区域的人脸特征信息与预设的人脸特征信息进行相似性比对，若相似性达到95%以上，表示第二人脸框区域的人与预设的人是同一个人，那么这个人就具备操作大屏幕的权限，则AI服务器就会确定该目标用户是具有操控显示设备权限的目标用户。如果图像中每个人的人脸特征值与预设的人脸特征值都不匹配，也就是图像中所有人都没有操作权限，则回到步骤S10 ；

S30：根据目标用户的第二人脸框区域与图像的关系生成变换指令，变换指令用于指示摄像头旋转拍摄角度或变换拍摄倍率，使目标用户在图像中的坐标位置和面积占比均达到预设值，利用目标检测法检测通过摄像头采集的图像而获得所有人的人体框；

“根据目标用户的第二人脸框区域与图像的关系生成变换指令，变换指令用于指示摄像头旋转拍摄角度或变换拍摄倍率，使目标用户在图像中的坐标位置和面积占比均达到预设值”包括：根据第二人脸框区域与图像的位置关系生成旋转指令，旋转指令用于指示摄像头水平或垂直旋转，使得目标用户位于图像的中间位置；根据第二人脸框区域的面积与图像的面积的比例关系生成变倍指令，变倍指令用于指示摄像头变换拍摄倍率，使得第二人脸框区域的面积与图像的面积的比例达到预设范围值；且先生成旋转指令再生成变倍指令。

AI服务器确定了上述目标用户具备操作大屏幕的权限后。AI服务器会根据目标用户的第二人脸框区域与图像的位置关系，判断是否生成旋转指令并发送给摄像头，旋转指令用于指示摄像头进行水平旋转或者垂直旋转，使得目标用户位于图像的中间位置。具体的，AI服务器会根据目标用户的第二人体框在图像中的位置来调节云台，使目标用户始终保持在画面的中间位置。本实施例中，计算出目标用户第二人脸框的中心点坐标和图像的中心点坐标，判断目标用户第二人脸框的中心点的横坐标相对图像的中心点横坐标的左右偏移量大于50像素值时，AI服务器则发送向左或向右旋转转的串口指令给摄像头，使得云台和摄像头左右转动，直到调整到目标用户第二人脸框的中心点的横坐标相对图像的中心点横坐标的左右偏移量小于50像素值时，停止给摄像头发送旋转指令。垂直方向也是同理，总体上使得目标用户整个身体保持在图像的中间位置。

上述当目标用户被调整至图像的中间位置后，AI服务器根据目标用户的第二人脸框区域的面积在图像中的占比，判断是否给摄像头发送变倍指令，变倍指令包括放大倍率的指令和缩小倍率的指令。本实施例中，当目标用户的第二人脸框区域的面积在图像中的占比小于0.02时，AI服务器给摄像头发送放大倍率的串口指令，使得摄像头旋转镜头而放大倍率，直到目标用户的第二人脸框区域的面积在图像中的占比大于0.02且小于0.06时，停止给摄像头发送变倍指令。当目标用户的第二人脸框区域的面积在图像中的占比大于0.06时，AI服务器给摄像头发送缩小倍率的串口指令，使得摄像头旋转镜头而缩小倍率，直到目标用户的第二人脸框区域的面积在图像中的占比小于0.06且大于0.02时，停止给摄像头发送变倍指令。

此时，由于目标用户已经位于图像的中间位置，且目标用户的第二人脸框在图像中的占比达到0.02到0.06之间，很大程度的减少了通过摄像头获得的图像中的人的数量。这样即能减少后续步骤的计算量，又能减少图像中其他人或物的干扰；图像中包含目标用户或者可能还包含距离目标用户比较近的人，但是已经将距离目标用户比较远的人排除在外。

然后，利用目标检测法检测通过摄像头采集的图像而获得图像中所有人的人体框；获得图像中所有人的人体框区域。这里利用目标检测算法可以准确得到图像中每个人的人体框。目标检测算法可以是任一目标检测算法，本实施例中，利用人体检测模块，检测图像中所有人的人体框。人体框大致是一个包围图像中人体的矩形框，人体框实际上是这个矩形框的四个拐角在图像中的坐标位置信息。此时的图像已经是摄像头调整后拍摄的图像，大大缩小了检测目标用户的范围，排除了一些干扰，很大程度降低了AI服务器运算量，加快了大屏幕反馈速度。

其他实施例中，S30也可以是，先利用目标检测法检测通过摄像头采集的图像而获得所有人的人体框，再根据目标用户的第二人脸框区域与图像的关系生成变换指令，变换指令用于指示摄像头旋转拍摄角度或变换拍摄倍率，使目标用户在图像中的坐标位置和面积占比均达到预设值，使得目标用户位于图像的中间位置且在图像中的占比达到预设值；本公开包括了这两种实施例，包括了上述两种顺序的实施方式。

S40：根据所有人体框确定目标用户的人体框，并只对图像中目标用户人体框区域进行人体关键点检测，获得目标用户的人体关键点，并根据目标用户的人体关键点对应的人体姿态，生成操控显示设备的指令。

“根据所有人体框确定目标用户的人体框”包括：判断获得的所有人体框的数量为1时，确定该人体框为目标用户的人体框。此时，这里通过摄像头获得的图像已经不是全部预设范围的图像，而是摄像头调整后拍摄的图像。通过摄像头获得的图像中只有目标用户一个人，已经将预设范围内距离目标用户较远的其他人排除在外，仅仅需要对图像中目标用户的人体框区域做人体关键点检测，并识别人体姿态，就可获得目标用户的人体姿态。大大缩小了检测范围，而且检测精度也很精确。

“根据所有人体框确定目标用户的人体框”还包括：判断获得的所有人体框数量大于1时，计算目标用户的第二人脸框区域分别与每一个人体框区域的重叠率，确定重叠率最高的人体框为目标用户的人体框。此时，距离目标用户近的有一些人，通过判断第二人脸框与每一个人体框的重叠率最高的为目标用户的人体框，还是只需要对图像中目标用户的人体框区域进行人体关键点检测及识别人体姿态，大大减小了数据处理量，能够快速识别目标用户的人体姿态，而且先确定目标用户的人体框，再识别人体关键点，使得识别人体姿态的准确率很高，这样就能够既快速又能够精确的识别目标用户的人体姿态。进而能够快速又精确的操控大屏幕。重叠率具体计算方法包括，计算第二人脸框区域与每一个人体框区域相交的面积，计算第二人脸框区域与每一个人体框区域相并的面积，然后计算相交的面积与相并的面积的比值，这个比值就是重叠率。

当重叠率最高的人体框的数量大于1时，对所有重叠率最高的人体框区域进行人体关键点检测；判断检测到的人体关键点中人脸的关键点是否位于第二人脸框区域内；若是，则为目标用户的人体框。此时，有一个人距离目标用户特别近，且目标用户的人脸框位于这个人的人体框内，这样可能使得重叠率最高的有多个，此时，识别图像的人体关键点时获得了人体关键点在图像中的位置坐标，人体关键点又包括脸部的关键点，那么也就获得了脸部关键点位于图像的位置坐标，判断重叠率最高的人的脸部关键点位于图像的位置坐标是否在第二人脸框内，如果是，则对应的该人体框就是目标用户的人体框。

“根据所有人体框确定目标用户的人体框”还包括：判断获得的所有人体框的数量为0时，生成变换指令并发送给摄像头，变换指令用于指示摄像头旋转拍摄角度或变换拍摄倍率；接收通过摄像头拍摄的图像信息，判断对图像信息人脸识别的人脸特征值与预设人脸特征值是否匹配；若匹配成功，则确定该人脸为具有操作权限的目标用户。人体框的数量为0时，目标用户已经不在图像中，通过先生成旋转指令，使得指示摄像头旋转并判断对图像进行人脸识别的人脸特征值与预设人脸特征值是否匹配，以便匹配成功快速找到目标用户，若匹配不成功，在生成变倍指令，使得指示摄像头变换倍率并判断对图像进行人脸识别的人脸特征值与预设人脸特征值是否匹配，以便匹配成功快速找到目标用户。由于对图像信息进行人脸识别时，必须先进行人脸检测，就获得的该人脸的人脸框信息。那么上述确定该人脸为具有操作权限的目标用户后，继续根据该人脸框与图像的关系生成变换指令，变换指令用于指示摄像头旋转拍摄角度或变换拍摄倍率，使目标用户在图像中的坐标位置和面积占比均达到预设值，利用目标检测法检测通过摄像头采集的图像而获得所有人的人体框；再根据所有人体框确定目标用户的人体框，并只对图像中目标用户人体框区域进行人体关键点检测，进而获得目标用户的人体关键点，并根据目标用户的人体关键点对应的人体姿态，生成操控显示设备的指令。

另一实施例中“根据所有人体框确定目标用户的人体框”也可以是包括直接计算目标用户的第二人脸框区域分别与每一个人体框区域的重叠率，确定重叠率最高的人体框为目标用户的人体框。重叠率具体计算方法与上述实施例的方法相同，重叠率具体计算方法包括，计算第二人脸框区域与每一个人体框区域相交的面积，计算第二人脸框区域与每一个人体框区域相并的面积，然后计算相交的面积与相并的面积的比值，这个比值就是重叠率，判断重叠率最高的对应的人体框就是目标用户的人体框。此实施例中，不需要判断人体框的数量，直接判断目标用户的第二人脸框区域分别与每一个人体框区域的重叠率，确定重叠率最高的人体框为目标用户的人体框。也能够快速又精准识别目标用户的人体姿态，并快速精准操控大屏幕。这里重叠率的计算方法都适用于其他实施例中。

获得目标用户的人体框后，只对图像中目标用户人体框区域进行人体关键点检测，进而获得目标用户的人体关键点，并根据目标用户的人体关键点对应的人体姿态，生成操控显示设备的指令。本实施例中，采用单人的人体关键点检测法对图像中目标用户人体框区域进行检测，获得该目标用户的人体关键点信息。仅对目标用户即操作者做人体关键点检测，检测处理身体18个关键点，双手分别是21个关键点；操作者做动作时，AI服务器会收集这些关键点的坐标从而分析其意图，比如当操作者做了一个挥手的动作，服务器会对每几帧的关键点的数据进行分类，输出的结果就是之前定义的意图类别，然后根据意图发相应的操作信号给分布式调度和图像综合管理平台，它会在大屏上做出相应的操作。通过局部处理关键点的这种方法，大大提高了AI服务器的处理速度和识别准确率。

本公开在第三方面提出了一种计算机可读介质，所述计算机可读介质中存储有计算机程序，所述计算机程序由处理模块加载并执行以实现所述的获取方法的步骤。本领域技术人员可以理解的是，实施例中的全部或部分步骤，可以通过计算机程序来指令相关的硬件实现，该程序可以存储于计算机可读介质中，可读介质可以包括闪存盘、移动硬盘、只读存储器、随机存取器、磁盘或光盘等各种可以存储程序代码的介质。

在符合本领域技术人员的知识和能力水平范围内，本文提及的各种实施例或者技术特征在不冲突的情况下，可以相互组合而作为另外一些可选实施例，这些并未被一一罗列出来的、由有限数量的技术特征组合形成的有限数量的可选实施例，仍属于本公开揭露的技术范围内，亦是本领域技术人员结合附图和上文所能理解或推断而得出的。

另外，多数实施例的描述是基于不同的重点而展开的，如需进一步理解未详述之处，可参照现有技术的相关内容、本文的其他相关描述或发明意旨进行合理地推理。

再次强调，上文所列举的实施例，为本公开较为典型的、较佳实施例，仅用于详细说明、解释本公开的技术方案，以便于读者理解，并不用以限制本公开请求保护的范围或者应用。在本公开的精神和原则之内所作的任何修改、等同替换、改进等而获得的技术方案，都应被涵盖在本公开请求保护的范围之内。

Claims

1.一种操控显示设备的方法，其特征在于，包括：对获得的预设范围的图像进行人体关键点检测，并将检测到的所有人体关键点分组关联为单个人的人体关键点，检测具有第一预设动作的单个人的人体关键点为目标用户，第一预设动作用于指示目标用户想要对显示设备进行工作状态控制；响应于检测到的第一预设动作，根据目标用户的人体关键点确定目标用户的第一人脸框区域，并对第一人脸框区域进行人脸检测而获得目标用户的第二人脸框区域，第二人脸框区域的大小不同于第一人脸框区域的大小；根据目标用户的第二人脸框区域与图像的关系生成变换指令，变换指令用于指示摄像头旋转拍摄角度或变换拍摄倍率，使目标用户在图像中的坐标位置和面积占比均达到预设值，利用目标检测法检测通过摄像头采集的图像而获得所有人的人体框；根据所有人体框确定目标用户的人体框，并只对图像中目标用户人体框区域进行人体关键点检测，获得目标用户的人体关键点，并根据目标用户的人体关键点对应的人体姿态，生成操控显示设备的指令。

2.根据权利要求1所述的方法，其特征在于，“对获得的预设范围的图像进行人体关键点检测，并将检测到的所有人体关键点分组关联为单个人的人体关键点”之前还包括：获取通过摄像头采集全部的预设范围的图像信息；其中，显示设备为大屏幕，预设范围是根据大屏幕的长度和摄像头变焦的倍数获得的；摄像头位于大屏幕正上方，摄像头采集全部预设范围的图像时，摄像头位于初始状态，可以拍摄到全部预设范围内的人。

3.根据权利要求1所述的方法，其特征在于，“对第一人脸框区域进行人脸检测而获得目标用户的第二人脸框区域”之后还包括：获得第二人脸框区域的人脸特征信息，并与预设的人脸特征信息进行匹配，若匹配成功，则确定目标用户是具有操控显示设备权限的目标用户。

4.根据权利要求1所述的方法，其特征在于，“根据目标用户的第二人脸框区域与图像的关系生成变换指令，变换指令用于指示摄像头旋转拍摄角度或变换拍摄倍率，使目标用户在图像中的坐标位置和面积占比均达到预设值”包括：根据第二人脸框区域与图像的位置关系生成旋转指令，旋转指令用于指示摄像头水平或垂直旋转，使得目标用户位于图像的中间位置；根据第二人脸框区域的面积与图像的面积的比例关系生成变倍指令，变倍指令用于指示摄像头变换拍摄倍率，使得第二人脸框区域的面积与图像的面积的比例达到预设范围值；且先生成旋转指令再生成变倍指令。

5.根据权利要求1所述的方法，其特征在于，“根据所有人体框确定目标用户的人体框”包括：判断获得的所有人体框的数量为1时，确定该人体框为目标用户的人体框；判断获得的所有人体框数量大于1时，计算目标用户的第二人脸框区域分别与每一个人体框区域的重叠率，确定重叠率最高的人体框为目标用户的人体框。

6.根据权利要求1所述的方法，其特征在于，“根据所有人体框确定目标用户的人体框”包括：计算目标用户的第二人脸框区域分别与每一个人体框区域的重叠率，确定重叠率最高的人体框为目标用户的人体框。

7.根据权利要求6所述的方法，其特征在于，当重叠率最高的人体框的数量大于1时，对所有重叠率最高的人体框区域进行人体关键点检测；

判断检测到的人体关键点中人脸的关键点是否位于第二人脸框区域内；若是，则为目标用户的人体框。

8.根据权利要求1所述的方法，其特征在于，“根据所有人体框确定目标用户的人体框”还包括：判断获得的所有人体框的数量为0时，生成变换指令并发送给摄像头，变换指令用于指示摄像头旋转拍摄角度或变换拍摄倍率；接收通过摄像头拍摄的图像信息，判断对图像信息人脸识别的人脸特征值与预设人脸特征值是否匹配；若匹配成功，则确定该人脸为具有操作权限的目标用户。

9.一种操控显示设备的装置，其特征在于，包括：目标用户确定模块，用于对获得的预设范围的图像进行人体关键点检测，并将检测到的所有人体关键点分组关联为单个人的人体关键点，检测具有第一预设动作的单个人的人体关键点为目标用户，第一预设动作用于指示目标用户想要对显示设备进行工作状态控制；目标用户人脸框确定模块，用于响应于检测到的第一预设动作，根据目标用户的人体关键点确定目标用户的第一人脸框区域，并对第一人脸框区域进行人脸检测而获得目标用户的第二人脸框区域，第二人脸框区域的大小不同于第一人脸框区域的大小；所有人体框确定模块，用于根据目标用户的第二人脸框区域与图像的关系生成变换指令，变换指令用于指示摄像头旋转拍摄角度或变换拍摄倍率，使目标用户在图像中的坐标位置和面积占比均达到预设值，利用目标检测法检测通过摄像头采集的图像而获得所有人的人体框；目标用户人体姿态确定模块，用于根据所有人体框确定目标用户的人体框，并只对图像中目标用户人体框区域进行人体关键点检测，获得目标用户的人体关键点，并根据目标用户的人体关键点对应的人体姿态，生成操控显示设备的指令。

10.一种计算机可读介质，其特征在于：所述计算机可读介质中存储有计算机程序，所述计算机程序由处理模块加载并执行以实现权利要求1至8任一所述的方法的步骤。