CN113784045B

CN113784045B - 聚焦互动方法、装置、介质和电子设备

Info

Publication number: CN113784045B
Application number: CN202111015179.4A
Authority: CN
Inventors: 黄劲; 黄钢; 王珂晟; 曹明路; 许巧龄
Original assignee: Beijing Anbo Shengying Education Technology Co ltd
Current assignee: Beijing Anbo Shengying Education Technology Co ltd
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2023-08-22
Anticipated expiration: 2041-08-31
Also published as: CN113784045A

Abstract

本公开提供了一种聚焦互动方法、装置、介质和电子设备，所述方法包括：获取授课教师在直播课堂中的视频图像；基于所述视频图像获得所述授课教师的手势类型和手势关键点位置；响应于所述手势类型满足预设手势类型，在所述视频图像中基于所述手势关键点位置和所述预设手势类型确定与所述预设手势类型相关的目标对象的聚焦区域；控制摄像头聚焦至所述目标对象的聚焦区域。本公开在摄像头前的授课教师通过简单的手势控制摄像头聚焦至目标对象，提高了控制的简易性和目标对象的清晰度，进而提高了直播教学效果。

Description

聚焦互动方法、装置、介质和电子设备

技术领域

本公开涉及图像处理领域，具体而言，涉及一种聚焦互动方法、装置、介质和电子设备。

背景技术

随着计算机技术的发展，基于互联网的直播教学开始兴起，而一种结合多媒体技术的全景智能黑板也随着直播教学应运而生，直播教学中通常采用摄像头实现基于互联网的实时远程教学。在直播课堂的现场中，为了提高直播教学的可用性，降低使用成本，通常采用一台固定机位的摄像头，采用固定摄像参数对直播课堂的教学内容进行拍摄。

但是，由于摄像头的局限性，采用单一固定机位和固定摄像参数的摄像头，很难兼顾多个展示内容的清晰性。

因此，本公开提供了一种聚焦互动方法，以解决上述技术问题之一。

发明内容

本公开的目的在于提供一种聚焦互动方法、装置、介质和电子设备，能够解决上述提到的至少一个技术问题。具体方案如下：

根据本公开的具体实施方式，第一方面，本公开提供一种聚焦互动方法，包括：

获取授课教师在直播课堂中的视频图像；

基于所述视频图像获得所述授课教师的手势类型和手势关键点位置；

响应于所述手势类型满足预设手势类型，在所述视频图像中基于所述手势关键点位置和所述预设手势类型确定与所述预设手势类型相关的目标对象的聚焦区域；

控制摄像头聚焦至所述目标对象的聚焦区域。

根据本公开的具体实施方式，第二方面，本公开提供一种聚焦互动装置，包括：

获取单元，用于获取授课教师在直播课堂中的视频图像；

获得单元，用于基于所述视频图像获得所述授课教师的手势类型和手势关键点位置；

响应单元，用于响应于所述手势类型满足预设手势类型，在所述视频图像中基于所述手势关键点位置和所述预设手势类型确定与所述预设手势类型相关的目标对象的聚焦区域；

聚焦单元，用于控制摄像头聚焦至所述目标对象的聚焦区域。

根据本公开的具体实施方式，第三方面，本公开提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如上任一项所述聚焦互动方法。

根据本公开的具体实施方式，第四方面，本公开提供一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上任一项所述聚焦互动方法。

本公开实施例的上述方案与现有技术相比，至少具有以下有益效果：

附图说明

图1A示出了根据本公开实施例的聚焦互动的示意图；

图1B示出了根据本公开实施例的聚焦互动方法的流程图；

图2A示出了根据本公开实施例的获得授课教师的手势类型和手势关键点位置方法的流程图；

图2B示出了根据本公开实施例的物体手势类型的手势骨骼图像的示意图；

图2C示出了根据本公开实施例的人物手势类型的手势骨骼图像的示意图；

图2D示出了根据本公开实施例的黑板手势类型的手势骨骼图像的示意图；

图3示出了根据本公开实施例的确定聚焦区域方法的流程图；

图4示出了根据本公开实施例的聚焦互动装置的单元框图；

图5示出了根据本公开实施例提供的一种电子设备连接结构示意图。

具体实施方式

为了使本公开的目的、技术方案和优点更加清楚，下面将结合附图对本公开作进一步地详细描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本公开保护的范围。

在本公开实施例中使用的术语是仅仅出于描述预设实施例的目的，而非旨在限制本公开。在本公开实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应当理解，尽管在本公开实施例中可能采用术语第一、第二、第三等来描述，但这些描述不应限于这些术语。这些术语仅用来将描述区分开。例如，在不脱离本公开实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者装置中还存在另外的相同要素。

下面结合附图详细说明本公开的可选实施例。

实施例1

对本公开提供的实施例，即一种聚焦互动方法的实施例。

如图1A所示，本公开实施例授课教师站在直播课堂的讲台前授课，一台固定机位的摄像头设置在讲台前前方对直播课堂的教学过程进行直播。授课教师通过预设手势传达的信息控制该摄像头聚焦至预设对象，通过聚焦互动方法实现控制聚焦的目的。

下面结合图1B对本公开实施例进行详细说明。

步骤S101，获取授课教师在直播课堂中的视频图像。

在直播课堂中，设置授课教师前方的摄像头通过视频方式记录授课教师的授课过程。而视频是由连续采集的一帧帧视频图像组成。本公开实施例通过分析直播课堂中的视频图像获取授课教师的预设手势信息。

步骤S102，基于所述视频图像获得所述授课教师的手势类型和手势关键点位置。

本公开实施例将授课教师的手势分成了多种手势类型，以便通过手势类型确定聚焦的目标对象。所述预设手势类型包括：黑板手势类型、人物手势类型或物体手势类型。黑板手势类型用于确定聚焦的目标对象为黑板，比如，授课教师手心向上的手势属于黑板手势类型，聚焦黑板；人物手势类型用于确定聚焦的目标对象为人物，比如授课教师将手心朝向摄像头，则该手势属于人物手势类型，聚焦授课教师或到讲台前发言的学生；物体手势类型用于确定聚焦的目标对象为物体，比如授课教师将食指指向教具，则该手势属于物体手势类型，聚焦授课教师在授课过程中使用的教具。

本公开实施例中，手势关键点位置是授课教师打出手势时，在视频图像中授课教师手部具有的坐标位置。手势关键点位置决定聚焦区域中聚焦中心位置。

例如，物体手势类型的手势骨骼图像，如图2B所示，将食指第一关节点和食指指尖点确定为手势关键点；两个手势关键点指向的物体区域也就是聚焦区域，因而也就能够确定聚焦中心位置。

例如，人物手势类型的手势骨骼图像，如图2C所示，将中间掌骨两端C1和C2确定为手势关键点位置；两个手势关键点位置的中心点位置C3在目标人物上的正投影位置确定为聚焦中心位置。

例如，黑板手势类型的手势骨骼图像，如图2D所示，手势关键点位置位于食指对应的掌骨两端位置D1和D2，两个手势关键点位置的中心点位置D3在目标黑板上的正投影位置确定为聚焦中心位置。

步骤S103，响应于所述授课教师的手势类型满足预设手势类型，在所述视频图像中基于所述手势关键点位置和所述预设手势类型确定与所述预设手势类型相关的目标对象的聚焦区域。

确定了授课教师的手势类型满足预设手势类型，可以理解为在所述视频图像中确定了与预设手势类型相关的目标对象。那么，在视频图像中，通过图像识别，能够获得目标对象的图像，进而通过手势关键点位置确定目标对象的聚焦区域。

步骤S104，控制摄像头聚焦至所述目标对象的聚焦区域。

摄像头聚焦至所述目标对象的聚焦区域，可以理解为，在聚焦后的视频图像中，目标对象是最清晰的。

本公开实施例，在摄像头前的授课教师通过简单的手势控制摄像头聚焦至目标对象，提高了控制的简易性和目标对象的清晰度，进而提高了直播教学效果。

在一个具体实施例中，所述方法还包括以下步骤：

步骤S105，在控制摄像头聚焦至所述目标对象的聚焦区域后，输出聚焦完成的提示音。

若输出聚焦完成的提示音，用于通知授课教师聚焦完成，可以继续进行后续的教学工作；若在预设时间段内未输出聚焦完成的提示音，则需要授课教师再次发出聚焦目标对象的手势。从而避免聚焦错误，提高教学过程的安全性。

实施例2

本公开还提供了与上述实施例承接的具体方法实施例，用于实现如上实施例所述的方法步骤，基于相同的名称含义的解释与如上实施例相同，具有与如上实施例相同的技术效果，此处不再赘述。

如图2A所示，所述基于所述视频图像获得所述授课教师的手势类型和手势关键点位置，包括以下步骤：

步骤S201，基于所述视频图像获得所述授课教师的手势图像。

步骤S202，在所述视频图像中，基于所述手势图像确定手部的骨骼关键点位置和骨骼关键点标记。

所述骨骼关键点用于在手势图像中表征各节骨骼形态特征的坐标点。例如，各个骨骼关节的连接点，手指的指尖点。而实施例1中所述手势关键点既可以是骨骼关键点，也可以是视频图像中授课教师手部的坐标点。骨骼关键点用于建立骨骼图像以及图像匹配，而手势关键点则用去确定聚焦中心位置。

在视频图像中，骨骼关键点是以骨骼关键点位置和骨骼关键点标记的形式表示的。骨骼关键点位置是骨骼关键点在视频图像中的坐标点。骨骼关键点标记用于表明骨骼关键点在骨骼中的位置，例如，如图2B所示，食指第一关节点的骨骼关键点标记为B1，食指指尖点的骨骼关键点标记为B0。

步骤S203，基于骨骼关键点标记规则连接与所述骨骼关键点标记对应的骨骼关键点位置，获得手势骨骼图像。

所述骨骼关键点标记规则规定了骨骼关键点间的连接关系，也就是现实场景中骨骼的连接关系，例如，在实际骨骼中，食指第一关节与食指指尖是由同一块骨头相连的，因此，继续上述例子，骨骼关键点标记规则规定：骨骼关键点标记B0与骨骼关键点标记为B1连接。

基于骨骼关键点标记规则生成的手势骨骼图像能够反映出当前手部的姿态，也就是手势。避免了环境光线对识别手势的干扰，提高了手势识别的准确性。

步骤S204，响应于所述手势骨骼图像与预设手势骨骼图像的匹配关系，获得对应于所述预设手势骨骼图像的手势类型和在所述预设手势骨骼图像中预设手势关键点的第一相对位置。

所述第一相对位置是以所述预设手势骨骼图像中设置的第一参考点为坐标原点。例如，在预设手势骨骼图像中，第一参考点A1是设置在腕骨处的一个坐标点，由于腕骨会在预设手势骨骼图像中出现，具有通用性，能够作为每张预设手势骨骼图像的坐标原点。

在图像对比时，通过参考点能够为多张图像提供统一的对比基准。例如，如图2B所示，在手势骨骼图像中在腕骨处同样设置一个参考点位置A1，骨骼关键点的相对位置是以该参考点位置A1为坐标原点确定；由于参考点A1与所述第一参考点具有关联关系，因此，两张图像中的坐标点能够基于彼此的参考点进行对比或映射。

关于识别手势骨骼图像与预设手势骨骼图像的匹配关系的过程本实施例不做详述，可参照现有技术中各种实现方式实施。

在本公开实例中，在预设手势骨骼图像中设置有预设手势关键点，基于手势骨骼图像与预设手势骨骼图像的匹配关系，利用预设手势关键点确定手势图像中手势关键点。预设手势关键点可以是预设骨骼关键点中的至少一个关键点，也可以根据手势的特殊性在手部的表面设置至少一个关键点。

若手势骨骼图像与表示黑板的预设手势骨骼图像匹配，则手势类型为黑板手势类型；若手势骨骼图像与表示人物的预设手势骨骼图像匹配，则手势类型为人物手势类型；若手势骨骼图像与表示物体的预设手势骨骼图像匹配，则手势类型为物体手势类型。

步骤S205，在所述视频图像中，基于所述匹配关系将所述预设手势关键点的第一相对位置映射至所述手势骨骼图像中，获得手势关键点的第二相对位置。

所述第二相对位置是以所述手势骨骼图像中设置的第二参考点为坐标原点。

所述第二参考点与所述第一参考点相关联。例如，第一参考点标记在预设手势骨骼图像的第二块腕骨处，同样，第二参考点也标记在手势骨骼图像的第二块腕骨处。

步骤S206，基于所述手势骨骼图像中第二参考点在视频图像中的位置和所述手势关键点的相对位置确定所述手势关键点位置。

例如，在视频图像中第二参考点的位置为(n,m)，手势关键点的相对位置为(a,b)，则手势关键点位置为(n+a,m+b)。

实施例3

如图3所示，所述在所述视频图像中基于所述手势关键点位置和所述预设手势类型确定与所述预设手势类型相关的目标对象的聚焦区域，包括以下步骤：

步骤S301，在所述视频图像中基于所述预设手势类型确定所述目标对象的目标图像区域。

例如，若为黑板手势类型，则在视频图像中确定黑板的目标图像区域；若为人物手势类型，则在视频图像中确定人物的目标图像区域；若为物体手势类型，则在视频图像中确定物体的目标图像区域。

步骤S302，基于所述目标图像区域的尺寸和所述手势关键点位置确定所述目标对象的聚焦区域。

在一个具体实施例中，所述基于所述目标图像区域的尺寸和所述手势关键点位置确定所述目标对象的聚焦区域，包括以下步骤：

步骤S302a-1，响应于所述目标图像区域的尺寸大于预设尺寸，在所述目标图像区域内基于所述手势关键点位置获取所述目标对象的聚焦中心位置。

由于一些目标图像区域过大，影响摄像头的拍摄效果，为了保证图像的清晰度。本公开实施例提供了一种限制拍摄区域的技术方案，将超大的目标图像区域的尺寸限制在预设尺寸内。通过所述手势关键点位置确定摄像头的聚焦中心位置。例如，当黑板的目标图像区域的尺寸大于预设尺寸，则将黑板的目标图像区域内的手势关键点位置确定为黑板的聚焦中心位置。

如果存在多个手势关键点位置，则通过多个手势关键点位置确定一个位置，作为聚焦中心位置。该聚焦中心位置可以是手势关键点位置中的一个，也可以是非手势关键点位置。

步骤S302a-2，根据所述预设尺寸和所述聚焦中心位置获得所述目标对象的聚焦区域。

在又一个具体实施例中，所述基于所述目标图像区域的尺寸和所述手势关键点位置确定所述目标对象的聚焦区域，包括以下步骤：

步骤S302b-1，响应于所述目标图像区域的尺寸小于或等于预设尺寸，在所述目标图像区域内基于所述手势关键点位置获取所述目标对象的聚焦中心位置。

例如，如果授课教师为目标对象，当授课教师的目标图像区域的尺寸小于或等于预设尺寸，则将授课教师的目标图像区域内的手势关键点位置确定为授课教师的聚焦中心位置；如果地球仪为目标对象，当地球仪的目标图像区域的尺寸小于或等于预设尺寸，则将地球仪的目标图像区域内的手势关键点位置确定为地球仪的聚焦中心位置。

步骤S302b-2，根据所述目标图像区域的尺寸和所述聚焦中心位置获得所述目标对象的聚焦区域。

通过控制聚焦区域和聚焦中心位置提高了直播教学视频图像的清晰度，保证了教学效果。

实施例4

本公开还提供了与上述实施例承接的装置实施例，用于实现如上实施例所述的方法步骤，基于相同的名称含义的解释与如上实施例相同，具有与如上实施例相同的技术效果，此处不再赘述。

如图4所示，本公开提供一种聚焦互动装置400，包括：

获取单元401，用于获取授课教师在直播课堂中的视频图像；

获得单元402，用于基于所述视频图像获得所述授课教师的手势类型和手势关键点位置；

响应单元403，用于响应于所述手势类型满足预设手势类型，在所述视频图像中基于所述手势关键点位置和所述预设手势类型确定与所述预设手势类型相关的目标对象的聚焦区域；

聚焦单元404，用于控制摄像头聚焦至所述目标对象的聚焦区域。

可选的，所述获得单元402，包括：

第一获得子单元，用于基于所述视频图像获得所述授课教师的手势图像；

第一确定子单元，用于在所述视频图像中，基于所述手势图像确定手部的骨骼关键点位置和骨骼关键点标记；

第二获得子单元，用于基于骨骼关键点标记规则连接与所述骨骼关键点标记对应的骨骼关键点位置，获得手势骨骼图像；

第一响应子单元，用于响应于所述手势骨骼图像与预设手势骨骼图像的匹配关系，获得对应于所述预设手势骨骼图像的手势类型和在所述预设手势骨骼图像中预设手势关键点的第一相对位置，所述第一相对位置是以所述预设手势骨骼图像中设置的第一参考点为坐标原点；

第三获得子单元，用于在所述视频图像中，基于所述匹配关系将所述预设手势关键点的第一相对位置映射至所述手势骨骼图像中，获得手势关键点的第二相对位置，所述第二相对位置是以所述手势骨骼图像中设置的第二参考点为坐标原点，所述第二参考点与所述第一参考点相关联；

第二确定子单元，用于基于所述手势骨骼图像中第二参考点在视频图像中的位置和所述手势关键点的相对位置确定所述手势关键点位置。

可选的，所述响应单元403，包括：

第三确定子单元，用于在所述视频图像中基于所述预设手势类型确定所述目标对象的目标图像区域；

第四确定子单元，用于基于所述目标图像区域的尺寸和所述手势关键点位置确定所述目标对象的聚焦区域。

可选的，所述第四确定子单元，包括：

第二响应子单元，用于响应于所述目标图像区域的尺寸大于预设尺寸，在所述目标图像区域内基于所述手势关键点位置获取所述目标对象的聚焦中心位置；

第四获得子单元，用于根据所述预设尺寸和所述聚焦中心位置获得所述目标对象的聚焦区域。

可选的，所述第四确定子单元，包括：

第三响应子单元，用于响应于所述目标图像区域的尺寸小于或等于预设尺寸，在所述目标图像区域内基于所述手势关键点位置获取所述目标对象的聚焦中心位置；

第五获得子单元，用于根据所述目标图像区域的尺寸和所述聚焦中心位置获得所述目标对象的聚焦区域。

可选的，所述装置还包括：

提示单元，用于在控制摄像头聚焦至所述目标对象的聚焦区域后，输出聚焦完成的提示音。

可选的，所述预设手势类型包括：黑板手势类型、人物手势类型或物体手势类型。

本公开实施例在摄像头前的授课教师通过简单的手势控制摄像头聚焦至目标对象，提高了控制的简易性和目标对象的清晰度，进而提高了直播教学效果。

实施例5

如图5所示，本实施例提供一种电子设备，所述电子设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上实施例所述的方法步骤。

实施例6

本公开实施例提供了一种非易失性计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行如上实施例所述的方法步骤。

实施例7

下面参考图5，其示出了适于用来实现本公开实施例的电子设备的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图5示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图5所示，电子设备可以包括处理装置(例如中央处理器、图形处理器等)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储装置508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有电子设备操作所需的各种程序和数据。处理装置501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

通常，以下装置可以连接至I/O接口505：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置506；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置507；包括例如磁带、硬盘等的存储装置508；以及通信装置509。通信装置509可以允许电子设备与其他设备进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的电子设备，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置509从网络上被下载和安装，或者从存储装置508被安装，或者从ROM 502被安装。在该计算机程序被处理装置501执行时，执行本公开实施例的方法中限定的上述功能。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定。

Claims

1.一种聚焦互动方法，其特征在于，包括：

获取授课教师在直播课堂中的视频图像；

控制摄像头聚焦至所述目标对象的聚焦区域；

其中，所述基于所述视频图像获得所述授课教师的手势类型和手势关键点位置，包括：

基于所述视频图像获得所述授课教师的手势图像；

在所述视频图像中，基于所述手势图像确定手部的骨骼关键点位置和骨骼关键点标记；

基于骨骼关键点标记规则连接与所述骨骼关键点标记对应的骨骼关键点位置，获得手势骨骼图像；

响应于所述手势骨骼图像与预设手势骨骼图像的匹配关系，获得对应于所述预设手势骨骼图像的手势类型和在所述预设手势骨骼图像中预设手势关键点的第一相对位置，所述第一相对位置是以所述预设手势骨骼图像中设置的第一参考点为坐标原点；

在所述视频图像中，基于所述匹配关系将所述预设手势关键点的第一相对位置映射至所述手势骨骼图像中，获得手势关键点的第二相对位置，所述第二相对位置是以所述手势骨骼图像中设置的第二参考点为坐标原点，所述第二参考点与所述第一参考点相关联；

基于所述手势骨骼图像中第二参考点在视频图像中的位置和所述手势关键点的相对位置确定所述手势关键点位置。

2.根据权利要求1所述的方法，其特征在于，所述在所述视频图像中基于所述手势关键点位置和所述预设手势类型确定与所述预设手势类型相关的目标对象的聚焦区域，包括：

在所述视频图像中基于所述预设手势类型确定所述目标对象的

目标图像区域；

基于所述目标图像区域的尺寸和所述手势关键点位置确定所述目标对象的聚焦区域。

3.根据权利要求2所述的方法，其特征在于，所述基于所述目标图像区域的尺寸和所述手势关键点位置确定所述目标对象的聚焦区域，包括：

响应于所述目标图像区域的尺寸大于预设尺寸，在所述目标图像区域内基于所述手势关键点位置获取所述目标对象的聚焦中心位置；

根据所述预设尺寸和所述聚焦中心位置获得所述目标对象的聚焦区域。

4.根据权利要求2所述的方法，其特征在于，所述基于所述目标图像区域的尺寸和所述手势关键点位置确定所述目标对象的聚焦区域，包括：

响应于所述目标图像区域的尺寸小于或等于预设尺寸，在所述目标图像区域内基于所述手势关键点位置获取所述目标对象的聚焦中心位置；

根据所述目标图像区域的尺寸和所述聚焦中心位置获得所述目标对象的聚焦区域。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在控制摄像头聚焦至所述目标对象的聚焦区域后，输出聚焦完成的提示音。

6.根据权利要求1所述的方法，其特征在于，所述预设手势类型包括：黑板手势类型、人物手势类型或物体手势类型。

7.一种聚焦互动装置，其特征在于，包括：

获取单元，用于获取授课教师在直播课堂中的视频图像；

响应单元，用于响应于所述手势类型满足预设手势类型，在所述视频图像中基于所述手势关键点位置和所述预设手势类型确定与

所述预设手势类型相关的目标对象的聚焦区域；

聚焦单元，用于控制摄像头聚焦至所述目标对象的聚焦区域；

其中，所述获得单元包括：

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-6中任一项所述的方法。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-6中任一项所述的方法。