CN114845056B

CN114845056B - 一种辅助摄影机器人

Info

Publication number: CN114845056B
Application number: CN202210467015.3A
Authority: CN
Inventors: 史元春; 罗慧一; 喻纯
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2022-04-29
Filing date: 2022-04-29
Publication date: 2023-06-06
Anticipated expiration: 2042-04-29
Also published as: CN114845056A

Abstract

本发明提供了一种辅助摄影机器人，包括：移动装置、支撑装置、显示屏、连接组件、旋转装置、拍摄装置和处理器；所述移动装置用于移动所述辅助摄影机器人；所述旋转装置用于调整所述拍摄装置的朝向；所述显示屏用于显示所述拍摄装置所采集的图像；所述处理器用于基于采集到的用户操作生成相应的控制指令。本发明实施例提供的辅助摄影机器人，具有移动和旋转功能，能够满足用户的大部分拍摄需求；其主要由用户决策拍摄装置的姿态，不需要引入复杂的处理算法，在现阶段即可有效实现辅助摄影，帮助用户方便快捷且独立地完成远景自拍工作，降低拍摄成本，提高拍摄效率。

Description

一种辅助摄影机器人

技术领域

本发明涉及人机交互技术领域，具体而言，涉及一种辅助摄影机器人。

背景技术

近年来，随着数码相机的普及以及各种视频平台的崛起，越来越多的普通人成为内容创作者，拍摄图片或者视频，记录生活、分享生活或者直播。拍照拍视频逐渐成为日常生产生活的重要组成部分。

目前，内容生产者在拍摄过程中主要面临人力成本、时间成本等问题。专业摄影师人工成本较高，很多个人内容生产者由于价格、人力等原因缺少其他人帮忙拍摄，往往需要一个人承担起摄影师、演员的多重角色，这也就意味着需要耗费大量时间和精力在摄影师和被拍摄者之间进行切换。

不论是由摄影师进行拍摄的价格成本、人力成本，还是一个人完成拍摄的时间成本，都给内容生产增加了表达的门槛，限制了很多内容生产者的创作效率与质量。受限于当前的拍照模式，如何帮助内容生产者高效地完成高质量的拍摄仍是一个亟待解决的问题。

发明内容

为解决上述问题，本发明实施例的目的在于提供一种辅助摄影机器人。

本发明实施例提供了一种辅助摄影机器人，包括：移动装置、支撑装置、显示屏、连接组件、旋转装置、拍摄装置和处理器；

所述移动装置设置在所述支撑装置的底部，用于移动所述辅助摄影机器人；

所述连接组件设置在所述支撑装置的上部，用于设置所述旋转装置；

所述拍摄装置通过所述旋转装置设置在所述连接组件上；所述旋转装置用于调整所述拍摄装置的朝向；

所述显示屏设置在所述支撑装置上，并与所述拍摄装置相连，用于显示所述拍摄装置所采集的图像；

所述处理器与所述移动装置、所述旋转装置、所述拍摄装置相连，用于基于采集到的用户操作生成相应的控制指令，控制所述移动装置移动、控制所述旋转装置转动或控制所述拍摄装置的操作行为。

可选地，所述连接组件包括升降装置，所述升降装置用于调整所述拍摄装置的高度；

所述处理器还与所述升降装置相连，在所述控制指令为调整高度的情况下，控制所述升降装置执行升降操作。

可选地，所述移动装置包括n个驱动轮，所述支撑装置至少包括n个支撑杆，n≥3；

所述驱动轮设置在相应的所述支撑杆的底部。

可选地，所述移动装置还包括n个竖直设置的轮轴；

所述驱动轮通过相应的所述轮轴与所述支撑杆相连，所述驱动轮能够围绕所述轮轴转动，以调整所述驱动轮的运动方向；所述驱动轮的运动方向包括所述支撑装置底部轮廓的切线方向。

可选地，辅助摄影机器人还包括：语音采集装置；所述处理器与所述语音采集装置相连；

所述语音采集装置用于采用用户发出的语音数据；

所述处理器还用于基于所述语音数据生成相应的控制指令。

可选地，所述处理器基于采集到的用户操作生成相应的控制指令，包括：

响应于用户的粗调操作生成相应的粗调指令，基于所述粗调指令控制所述移动装置或所述旋转装置动作；

之后响应于用户的微调操作生成相应的微调指令，基于所述微调指令控制所述移动装置或所述旋转装置动作；

最后响应于用户的拍摄操作生成相应的相机基础指令，基于所述相机基础指令控制所述拍摄装置的操作行为。

可选地，所述粗调指令包括：到用户面前、转向用户、到指定位置中的至少一种；

所述微调指令包括：向前/后移动、向左/右移动、向上/下移动、顺时针/逆时针旋转、顺时针/逆时针倾斜、俯/仰、放大/缩小中的至少一种；

所述相机基础命令包括：拍照、延时拍照、开始录像、延时录像、停止录像、回到相机画面中的至少一种。

可选地，所述处理器基于采集到的用户操作生成相应的控制指令，还包括：

响应于用户的还原操作生成相应的还原指令，基于所述还原指令还原所述旋转装置的角度、还原所述拍摄装置的画面大小或者还原所述辅助摄影机器人的高度；所述还原指令包括倾斜还原、俯仰还原、缩放还原、高度还原、全部还原中的至少一种。

可选地，所述微调操作为手势操作。

可选地，所述响应于用户的微调操作生成相应的微调指令，包括：

获取所述拍摄装置所采集的图像，从所述图像中提取出所述用户的当前手势数据，所述当前手势数据包括手部的多个关键点的坐标；

根据所述当前手势数据中多个所述关键点的坐标确定所述当前手势数据的手势类型；

在所述当前手势数据的手势类型为运动手势的情况下，确定所述当前手势数据的变化程度，并生成用于连续控制所述移动装置或所述旋转装置的微调指令；所述微调指令的类型与所述当前手势数据的手势类型相一致，所述微调指令的控制量与所述当前手势数据的变化程度之间为正相关关系。

可选地，所述关键点的坐标为所述拍摄装置的绝对坐标系中的绝对坐标；

所述根据所述当前手势数据中多个所述关键点的坐标确定所述当前手势数据的手势类型，包括：

将所述当前手势数据中多个所述关键点的绝对坐标转换为相对坐标系中的相对坐标；在手势类型保持不变的情况下，所述相对坐标系能够保持不变；

根据多个所述关键点的相对坐标确定所述当前手势数据的手势类型。

可选地，所述相对坐标系为以手掌表面和掌心朝向为基准所确定的坐标系，所述掌心朝向为垂直于所述手掌表面的方向。

可选地，在所述将所述当前手势数据中多个所述关键点的绝对坐标转换为相对坐标系中的相对坐标之前，所述处理器还用于：

确定所述手掌表面中的第一向量；

确定所述手掌表面中，位于以所述第一向量为法向量的平面中的第二向量；

确定垂直于所述第一向量和所述第二向量的第三向量；

确定所述第一向量、第二向量和第三向量对应的单位向量基，基于所述单位向量基建立所述相对坐标系。

可选地，所述确定所述当前手势数据的变化程度，包括：

在所述当前手势数据的手势类型为移动手势的情况下，确定在所述当前手势数据的移动方向上，所述当前手势数据与第一历史手势数据之间的位移变化量，将所述位移变化量作为所述当前手势数据的变化程度；所述微调指令用于控制所述移动装置；

在所述当前手势数据的手势类型为旋转手势的情况下，确定在所述当前手势数据的旋转方向上，所述当前手势数据与第二历史手势数据之间的角度变化量，将所述角度变化量作为所述当前手势数据的变化程度；所述微调指令用于控制所述旋转装置；

其中，所述移动手势、所述旋转手势均为一种运动手势。

可选地，所述移动手势为沿掌心朝向移动的手势；

所述确定在所述当前手势数据的移动方向上，所述当前手势数据与第一历史手势数据之间的位移变化量，包括：

确定所述当前手势数据对应的掌心朝向d；

确定所述当前手势数据与第一历史手势数据之间有效关键点的位移，所述有效关键点为多个所述关键点中的一个，且所述有效关键点的位移满足：

其中，所述当前手势数据为T时刻的手势数据，所述第一历史手势数据为t₁时刻的手势数据，

表示所述当前手势数据中有效关键点i的绝对坐标，/>

表示所述第一历史手势数据中有效关键点i的绝对坐标，<,>表示向量内积，Distance_i(T；t₁，d)表示有效关键点i的位移；

基于至少一个所述有效关键点的位移确定所述当前手势数据与第一历史手势数据之间的位移变化量。

可选地，所述旋转手势为围绕目标手指转动的手势；

所述确定在所述当前手势数据的旋转方向上，所述当前手势数据与第二历史手势数据之间的角度变化量，包括：

确定所述当前手势数据中所述目标手指的朝向d_rota；

根据所述当前手势数据确定与所述朝向d_rota不平行的当前向量，并根据所述第二历史手势数据确定与所述朝向d_rota不平行的历史向量；所述当前向量和所述历史向量为采用相同方式从相应的手势数据中所确定的向量；

确定所述当前向量和所述历史向量分别投影至以所述朝向d_rota为法向量的平面所确定的当前投影向量

和历史投影向量/>

将所述当前投影向量

与所述历史投影向量/>

之间的夹角作为所述当前手势数据与第二历史手势数据之间的角度变化量。

可选地，所述处理器还用于：

确定方向指示值，基于所述方向指示值的正负确定所述旋转手势的旋转方向；所述方向指示值满足：

其中，所述当前手势数据为T时刻的手势数据，所述第二历史手势数据为t₂时刻的手势数据，RotationDirection(T；t₂)表示所述方向指示值，×表示向量叉乘。

可选地，所述处理器还用于：

在所述当前手势数据的手势类型为停止手势的情况下，生成用于暂停控制所述移动装置和所述旋转装置的停止指令。

可选地，所述手势类型包括移动手势、旋转手势、缩放手势、停止手势中的至少一种；

所述移动手势为多个手指张开的情况下，沿掌心朝向移动的手势；

所述旋转手势为目标手指张开的情况下，保持所述目标手指位置不变并围绕所述目标手指转动的手势；

所述缩放手势为多个手指张开的情况下，沿掌心朝向移动的手势，且所述缩放手势与所述移动手势为分别由左右手所触发的手势；

所述停止手势为所有手指均收起的手势。

本发明实施例提供的方案中，设有能够移动拍摄装置位置的移动装置以及调整拍摄装置朝向的旋转装置；处理器能够响应用户操作，使得用户通过执行相应的用户操作可以改变多自由度地改变拍摄装置的姿态；并且，显示屏可以实时显示拍摄装置所采集的图像，用户基于该显示屏所显示的图像可以指引辅助摄影机器人调整姿态，直至拍摄装置能够采集到比较理想的图像。该辅助摄影机器人具有移动和旋转功能，能够满足用户的大部分拍摄需求；其主要由用户决策拍摄装置的姿态，不需要引入复杂的处理算法，在现阶段即可有效实现辅助摄影，帮助用户方便快捷且独立地完成远景自拍工作，降低拍摄成本，提高拍摄效率。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例所提供的辅助摄影机器人的一种结构示意图；

图2示出了本发明实施例所提供的辅助拍摄场景的过程示意图；

图3示出了本发明实施例所提供处理器控制辅助摄影机器人的流程图；

图4示出了本发明实施例所提供的手部关节点的一种示意图；

图5示出了本发明实施例所提供用户手势的一种示意图；

图6示出了本发明实施例所提供的用户手势的详细示意图；

图7示出了本发明实施例所提供的建立相对坐标系的示意图。

图标：

10-移动装置、20-支撑装置、30-显示屏、40-连接组件、50-旋转装置、60-拍摄装置、70-处理器、80-语音采集装置、11-驱动轮、12-轮轴、21-支撑杆。

具体实施方式

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

为了能够辅助用户摄影，当前的一种处理方式是基于人工智能等技术实现自动拍摄。例如，智能跟随功能是目前机器辅助拍摄最广泛的应用，机器人具有智能跟随功能，通过自主决策使目标始终处于画面中，从而利用机器人的智慧捕捉运动的影像。但这类机器人的移动能力有限，导致辅助拍摄能力大大受限；智能跟拍无人机虽然具有较强的移动能力，但其拍摄视角是空中视角，只适用于部分场景，无法应对绝大多数拍摄所需的正常视角。另外，部分研究是让机器人成为一个具备审美、性格等特征的摄影师，让机器人自动构图并拍摄。这类研究是人类研发机器人的终极目标，虽然愿景十分美好，但是在目前的技术背景下，还难以真正走入市场的应用。

本发明实施例中，提供一种能够在用户自主控制下移动且调整相机朝向的辅助摄影机器人，不需要机器人具有较高级的智能或处理能力，即可实现辅助摄影。参见图1所示，该辅助摄影机器人包括：移动装置10、支撑装置20、显示屏30、连接组件40、旋转装置50、拍摄装置60和处理器70。

其中，移动装置10设置在支撑装置20的底部，用于移动辅助摄影机器人；连接组件40设置在支撑装置20的上部，用于设置旋转装置50；拍摄装置60通过旋转装置50设置在连接组件40上；旋转装置50用于调整拍摄装置60的朝向；显示屏30设置在支撑装置20上，并与拍摄装置60相连，用于显示拍摄装置60所采集的图像；处理器70与移动装置10、旋转装置50、拍摄装置60相连，用于基于采集到的用户操作生成相应的控制指令，控制移动装置10移动、控制旋转装置50转动或控制拍摄装置60的操作行为。

本发明实施例中，支撑装置20为该辅助摄影机器人的主要框架，起到支撑其上方部件的作用，例如其可以支撑连接组件40、旋转装置50、拍摄装置60，也可以对显示屏30起到支撑作用。移动装置10位于该支撑装置20的底部，通过移动该支撑装置20可以达到移动整个辅助摄影机器人的效果。一般情况下，该移动装置10在地面上移动，使得该辅助摄影机器人能够在地面上左右、前后移动等。

连接组件40起到连接支撑装置20和旋转装置50的作用。可选地，该连接组件40可以包括升降装置，该升降装置能够调整支撑装置20与旋转装置50之间的距离，从而实现调整拍摄装置60的高度。例如，该连接组件40可以为具有直线电机或丝杆的平台，旋转装置50设置在该平台上，随着平台上下移动来调整该旋转装置50的高度。

拍摄装置60设置在旋转装置50上，该旋转装置50可以沿至少一个转轴转动，从而可以调整拍摄装置60的姿态，即可以调整拍摄装置60的朝向，从而调整拍摄装置60的取景范围。该拍摄装置60可以为相机，该旋转装置50可以改变拍摄装置60的俯仰角(Pitch)和滚动角(Roll，也可称为倾斜角)，其还可以改变拍摄装置60的偏航角(Yaw，也可称为朝向角)；例如，该旋转装置50具体可以为自动云台等。

显示屏30设置在支撑装置20上，能够实时显示拍摄装置60采集到的图像。其中，显示屏30的朝向与拍摄装置60的朝向可以是一致的，使得用户站在该辅助摄影机器人时，拍摄装置60可以采集到包含用户的图像，且用户可以看到显示屏30所显示的图像，从而调整拍摄装置60的取景范围。其中，在连接组件40能够调节高度的情况下，该显示屏30的高度可以不随拍摄装置60的高度变换而变化。

处理器70用于实现人机交互，以使得用户可以控制该辅助摄影机器人。该处理器70与移动装置10、旋转装置50、拍摄装置60相连，可以控制移动装置10、旋转装置50、拍摄装置60。具体地，用户通过向该辅助摄影机器人执行用户操作，可以向该辅助摄影机器人触发需要控制辅助摄影机器人的信号，处理器70基于该用户操作的具体属性生成相应的控制指令，实现控制。其中，该用户操作可以为基于语音操作、手势操作、或者借助遥控器等外部设备所输入的操作，本实施例对此不做限定。对于不同的用户操作，可以生成不同的控制指令。例如，在控制指令为移动指令时，处理器70可以控制移动装置10移动；在控制指令为旋转指令时，处理器70可以控制旋转装置50移动；在控制指令为拍照等拍摄装置60的操作行为时，处理器70可以控制拍摄装置60执行相应的操作行为。例如，该操作行为可以包括：开机、关机、拍照、延时拍照、开始录像、结束录像、延时开始录像中的至少一种。

其中，在连接组件40包括升降装置的情况下，该处理器70还与升降装置相连，在控制指令为调整高度的情况下，控制升降装置执行升降操作，以调整拍摄装置60的高度。

本发明实施例提供的一种辅助摄影机器人，设有能够移动拍摄装置60位置的移动装置10以及调整拍摄装置60朝向的旋转装置50；处理器能够响应用户操作，使得用户通过执行相应的用户操作可以改变多自由度地改变拍摄装置60的姿态；并且，显示屏30可以实时显示拍摄装置60所采集的图像，用户基于该显示屏所显示的图像可以指引辅助摄影机器人调整姿态，直至拍摄装置60能够采集到比较理想的图像。该辅助摄影机器人具有移动和旋转功能，能够满足用户的大部分拍摄需求；其主要由用户决策拍摄装置60的姿态，不需要引入复杂的处理算法，在现阶段即可有效实现辅助摄影，帮助用户方便快捷且独立地完成远景自拍工作，降低拍摄成本，提高拍摄效率。

可选地，参见图1所示，该移动装置10包括n个驱动轮11，支撑装置20至少包括n个支撑杆21，n≥3；驱动轮11设置在相应的支撑杆21的底部。本发明实施例中，基于n个驱动轮11来移动辅助摄影机器人；其中，支撑装置20为多支撑杆的结构，每个支撑杆21的底部设有移动轮，至少部分移动轮为具有驱动功能的驱动轮11。即，支撑杆21的数量大于或等于驱动轮11的数量。例如，如图1所示，n＝3，即移动装置10包括3个驱动轮11，支撑装置20包括3个支撑杆21，驱动轮11与支撑杆21一一对应。其中，该支撑杆21可以具有伸缩功能，通过同时伸缩所有的支撑杆21，也可以调节拍摄装置60的高度。如图1所示，该支撑装置20为三脚架式的结构。

可选地，在调整拍摄装置60的偏航角时，可以基于旋转装置50进行调整，或者，也可基于多个驱动轮实现调整偏航角。参见图1所示，移动装置10还包括n个竖直设置的轮轴12；驱动轮11通过相应的轮轴12与支撑杆21相连，驱动轮11能够围绕轮轴12转动，以调整驱动轮11的运动方向；该驱动轮11的运动方向包括支撑装置20底部轮廓的切线方向。

本发明实施例中，支撑装置20的底部轮廓也为多个驱动轮11的分布形状，该底部轮廓可看作一个圆形，驱动轮11能够沿多中运动方向运动，例如向前运动、向右运动等；并且，该驱动轮11还能够沿该底部轮廓的切线方向运动。在所有驱动轮11均沿该切线方向且同向(例如，均顺时针转动、均逆时针转动等)运动时，可以带动整个辅助摄影机器人围绕中心轴转动，从而改变拍摄装置60的偏航角。

可选地，本发明实施例提供的辅助摄影机器人可以接收用户通过语音方式触发的用户操作，即处理器70能够对用户语音作出响应。参见图1所示，该辅助摄影机器人还包括：语音采集装置80；处理器70与语音采集装置80相连；语音采集装置80用于采用用户发出的语音数据；处理器70还用于基于语音数据生成相应的控制指令。

本发明实施例中，该语音采集装置80可以是麦克风等能够采集声音的装置，用户发出声音后，该语音采集装置80可以采集的到相应的语音数据，处理器70通过对该语音数据进行语音识别，即可提取出该语音数据中的语义，进而生成相应的控制指令。例如，用户发出“向前1米”的语音，处理器70通过识别该语音可以生成用于控制移动装置10向前移动1米的控制指令，从而实现将该辅助摄影机器人向前移动1米。

此外，用户还可以通过手势触发相应的用户操作。具体地，拍摄装置10或者其他相机可以采集该用户的手部姿态，基于不同的手部姿态生成相应的控制指令。例如，该拍摄装置10可以为深度相机，通过采集用户手部的深度信息，处理器70可以识别出手部的位置、形状等，进而生成相应的控制指令。

可选地，本发明实施例提供的该辅助摄影机器人主要应用在辅助摄影场景中，用户利用该辅助摄影机器人，可以经过先粗调、再细调，最后确定拍摄的三个阶段，完成整个拍摄行为。图2示意性示出了这三个阶段，具体地，处理器70基于采集到的用户操作生成相应的控制指令，包括：

第一阶段，粗定拍摄画面：响应于用户的粗调操作生成相应的粗调指令，基于粗调指令控制移动装置10或旋转装置50动作。其中，用户根据脑海中对画面的构思让机器人经过一个大的移动到达目标点附近；例如，用户通过语音等用户操作来控制移动装置10，使得辅助摄影机器人能够移动到目标点附近。

第二阶段，Control-Feedback Loop(控制-反馈循环)：响应于用户的微调操作生成相应的微调指令，基于微调指令控制移动装置10或旋转装置50动作。其中，用户通过显示屏30画面的实时反馈，经过自己大脑对于审美的预判，指引机器人进行微调，如此循环数次，直到微调效果满意后；例如，用户可以控制移动装置10来微调辅助摄影机器人的位置，通过控制旋转装置50来微调辅助摄影机器人的朝向。这也与现实中的拍照流程类似，真人摄影师与模特进行拍摄时，往往也是双方先粗调确定画面的大致内容与结构，然后进行微调。

第三阶段，完成拍摄：响应于用户的拍摄操作生成相应的相机基础指令，基于相机基础指令控制拍摄装置60的操作行为。其中，用户确定相机实时画面符合自己的要求，下达拍照、录像等指令，完成拍照交互；例如，用户向辅助摄影机器人下达拍照命令，处理器70控制拍摄装置60执行拍照的操作，实现拍照。

本发明实施例中，在不同的阶段，用户可以执行相应的用户操作以能够生成相应的指令。具体地，该用户操作可以包括粗调操作、微调操作和拍摄操作，分别对应三个阶段。在第一阶段，用户可以通过粗调操作实现对辅助摄影机器人的粗调；例如，调整辅助摄影机器人的位置。在第二阶段，用户可以通过微调操作实现对辅助摄影机器人的微调，例如微调辅助摄影机器人的位置、朝向等。在第三阶段，用户可以通过拍摄操作实现对辅助摄影机器人的拍摄控制，即控制拍摄装置60的操作行为，例如，控制拍摄装置60拍照、摄影等。

需要说明的是，本实施例中的“粗调”和“微调”是相对而言的概念，即“粗调”所调节的幅度相对较大，而“微调”所调节的幅度相对较小。并且，本领域技术人员可以理解，粗调指令并不一定比微调指令的调节幅度大。例如，在极端的场景下，“粗调”为“向后移动10cm”，而在另一场景下，微调为“向后移动20cm”，这也是被允许的。

如上图2所示，为了完成辅助拍摄，需要经过三个阶段。相应地，在这三个阶段的过程中，用户主要需要输入以下几种指令：

(1)粗调指令：粗调指令是一种快捷命令，用于摄影初期帮助用户快速调整机器人的位置和转向，目标是帮助用户快速验证想法，筛选可行的拍摄方案。主要在第一阶段使用该粗调指令，粗调指令包括：到用户面前、转向用户、到指定位置中的至少一种。

(2)微调指令：微调指令用于让用户根据显示器中相机画面的实时反馈，对画面进行深入的优化调整，目标是让画面达到更理想的拍摄效果，实现画面调整。其中，可以通过移动或转动实现画面调整，主要在第二阶段使用该微调指令，微调指令包括：向前/后移动、向左/右移动、向上/下移动、顺时针/逆时针旋转、顺时针/逆时针倾斜、俯/仰、放大/缩小中的至少一种。

(3)相机基础指令：用于控制相机进行拍摄的命令，例如拍照、录像、回到相机画面等。目标是让相机的状态达到用户期望的运行状态。主要在第三阶段使用该相机基础指令，相机基础命令包括：拍照、延时拍照、开始录像、延时录像、停止录像、回到相机画面中的至少一种。

此外可选地，在每一阶段中，也可以对部分功能进行还原。具体地，处理器70基于采集到的用户操作生成相应的控制指令，还包括：响应于用户的还原操作生成相应的还原指令，基于还原指令还原旋转装置50的角度、还原拍摄装置60的画面大小或者还原辅助摄影机器人的高度。

本发明实施例中，还原指令用于还原镜头的自由度和缩放，目标是增强辅助摄影机器人的可控制性，便于快速还原。该还原指令包括倾斜还原、俯仰还原、缩放还原、高度还原、全部还原中的至少一种。

此外，在录像过程中，用户基于其他的运镜指令还可以控制机器人及相机的运动，目标是达到用户期望的运镜效果。

本发明实施例中，可以基于语音在多个阶段对辅助摄影机器人进行控制。其中，在第一阶段和第三阶段使用语音指令，难度不高；而辅助摄影场景下用户-机器人的交互难点集中在第二阶段画面微调上。如何辅助用户更好地完成画面微调是辅助摄影场景下的关键问题，也是辅助摄影场景中交互的难点。

在采用语音控制的方式实现第二阶段的微调时，用户需要通过语音向摄影机器人发出指令。在这种情况下，发明人发现，当控制辅助摄影机器人的指令涉及到方向时，例如“向左一点”，需要用户自主地区分左右，导致用户在涉及到左右的指令时会有略微的迟疑，甚至将左右说反。并且，用户发出的类似“向左一点”的语音指令难以被摄影机器人准确地响应，机器人并不能准确确定用户所表达的“一点”为多少。

虽然用户也可以发出准确的语音指令，例如“向前1米”、“向后20cm”等，但是，对于被拍摄的用户而言，用户并没法直接得到一个机器人该移动多少米或旋转多少度的明确数值，导致难以实现准确控制。造成这一点的原因主要有两方面，其一是因为被拍摄者(即用户)并不知道想要达到心目中的拍摄效果需要移动多少明确的数值，只能不断根据屏幕中相机画面的反馈进行判断；其二是因为人无法像机器人一样准确测量明确的数值，只能根据以往经验进行估计。

这种语音控制方式难以通过一次或少次地微调得到所需效果，一般需要用户间断性地多次输入语音指令来控制机器人的运动，既耗时又耗力，也难以准确达到自己想要的效果，

本发明实施例中，该辅助摄影机器人允许用户通过手势输入控制指令，利用手势能够直观快速地表达方向的特点，可以避免用户区分左右，且手势能够直观快速且连续地表达需要控制的控制量(例如位移距离的大小、旋转角度的大小等)，利用连续表达的手势能够实现高效控制。

例如，该本发明实施例提供的辅助摄影机器人可以基于语音和手势完成拍摄任务。具体地，该辅助摄影机器人的一种命令集可参见下表1所示：

表1

可选地，参见图3所示，处理器70基于采集到的用户操作生成相应的控制指令，可以包括以下步骤：

步骤301：获取拍摄装置所采集的图像，从图像中提取出用户的当前手势数据，当前手势数据包括手部的多个关键点的坐标。

本发明实施例中，用户站在拍摄装置60的取景范围内时，可以完成相应的手势；拍摄装置60可以采集到包含用户的图像，从该图中可以提取出用户的手势数据；具体地，通过图像识别等技术可以确定该用户手部多个关键点的坐标，形成相应的手势数据；其中，由于可以采集在不同时刻的手势数据，本实施例将拍摄装置60当前采集到的手势数据称为当前手势数据。例如，该拍摄装置60为深度相机，基于该深度相机可以采集用户手部的多个关键点的三维坐标，从而生成手势数据。

步骤302：根据当前手势数据中多个关键点的坐标确定当前手势数据的手势类型。

本发明实施例中，允许用户基于至少一种类型的手势实现对辅助摄影机器人的控制，即手势对应有相应的手势类型。本发明实施例中，手势类型是基于手势所能够起到的控制功能所分类得到的类型，不同的手势类型实现不同的控制功能。例如，手势类型包括移动手势、旋转手势、缩放手势、停止手势中的至少一种，该移动手势用于控制辅助摄影机器人移动，例如控制移动装置10移动、或者控制升降装置升降；旋转手势用于控制辅助摄影机器人转动，例如控制旋转装置50旋转、或者控制驱动轮11沿切线方向移动等；缩放手势用于控制拍摄装置60采集画面的大小，停止手势用于暂停控制辅助摄影机器人。

其中，不同的手势类型中，多个关键点的坐标具有不同的特点。为了能够比较准确地区分多种手势类型，可以选取多个在不同手势类型下具有不同相对姿态的关键点。本发明实施例中，可以通过手指的不同姿态来区分不同的手势类型。例如，本发明实施例所涉及的多个关键点至少包括在不同手势类型下姿态固定的关键点(例如掌心关键点、腕部关键点等)以及至少一个手指上的关键点(例如指尖关键点)。

例如，可以从手部各关节点中选取本实施例所需的关键点。参见图4所示，手部至少包含24个关节点，其包括腕部关节点(Wrist)、掌心关节点(Palm)以及五根手指上的关节点；其中，拇指(Thumb)涉及从拇指指根(Thumb0)到拇指指尖(ThumbTip)共5个关节点，食指(Index)涉及从食指指根(Index1)到食指指尖(IndexTip)共4个关节点，中指(Middle)涉及从中指指根(Middle1)到中指指尖(MiddleTip)共4个关节点，无名指(Ring)涉及从无名指指根(Ring1)到无名指指尖(RingTip)共4个关节点，小指(Pinky)涉及从小指指根(Pinky0)到小指指尖(PinkyTip)共5个关节点。其中，可以将序号为0或1的关节点作为指根关节点，将序号为Tip的关节点作为指尖关节点。例如，拇指的指根关节点可以为Thumb0或Thumb1，拇指的指间关节点为ThumbTip。其中，每个关节点均可作为相应的关键点。

其中，可以用多个关键点的坐标表示手势数据。例如，关键点i的坐标为s_i，且s_i＝(x_i,y_i,z_i)，i＝1,2,…,n，n为关键点的数量，例如n＝24。该手势数据可以表示为n个关键点坐标的集合，即手势数据S满足：S＝{s₁,s₂,…,s_n}。当用户执行某种类型的手势时，采集到的当前手势数据符合该类型的手势的特点，从而可以基于当前手势数据确定相应的手势类型，进而确定用户当前正在展现什么类型的手势。

步骤303：在当前手势数据的手势类型为运动手势的情况下，确定当前手势数据的变化程度，并生成用于连续控制移动装置10或旋转装置50的微调指令；微调指令的类型与当前手势数据的手势类型相一致，微调指令的控制量与当前手势数据的变化程度之间为正相关关系。

本发明实施例中，手势类型至少可以分为运动手势和停止手势，运动手势指的是用户需要基于该类型的手势控制移动装置10运动的手势，相应地，停止手势指的是用户需要基于该类型的手势控制辅助摄影机器人静止的手势，即移动装置10、旋转装置50等都不工作。在当前手势数据的手势类型为运动手势的情况下，生成用于控制辅助摄影机器人运动的微调指令，该微调指令用于实现对辅助摄影机器人的连续控制。具体地，若当前的手势为移动手势，该微调指令可以用于控制移动装置10运动；若当前的手势为旋转手势，该微调指令可以用于控制旋转装置50转动。

其中，微调指令至少包括类型和控制量两种属性；本实施例中，微调指令的类型与手势类型相一致，即每一类的手势类型对应一类微调指令。例如，运动手势的手势类型可以为移动手势或旋转手势，相应地，微调指令为连续控制移动装置10移动的指令，或者连续控制旋转装置50旋转的指令。

“向前1米”等语音指令是间隔性的指令，需要间断地多次输入指令，交互效率较低。而微调指令能够提高交互效率。例如，利用多个连续时刻的手势数据可以实现在该多个连续时刻内连续控制辅助摄影机器人的移动速度，交互效率较高。

目前，部分方案利用语音持续时间实现连续控制；或者，设计多种不同的静止手势，通过该静止手势的持续时间实现对辅助摄影机器人的连续控制。例如，用户张开手掌向前表示控制辅助摄影机器人向前移动，通过用户执行该张开手掌向前的手势的持续时间来确定辅助摄影机器人向前移动的时间，其中，辅助摄影机器人的移动速度一般是固定的。而在辅助摄影场景中，第二阶段为精细化的微调控制，在精细的空间位置调控中，机器人的移动速度通常不会设置过快以避免错过目标点。

究其根本，这种重复相同的手势进行机器人导航的方法的底层逻辑是以时间换空间，通过手势的持续时间来控制机器人的移动距离，因此难免会带来效率不高的问题，与通过语音持续时间或命令间隔时间来控制机器人移动距离的方式较为类似，都是线性关系。而根据费茨定律(Fitts Law)，使用移动手势到达目标位置的时间MT_TF与使得机器人到达目标位置时手需要移动的距离D_TF成对数关系，比线性关系更优，可实现更高的操控效率。因此，本发明实施例以当前手势数据的变化程度确定微调指令的控制量，例如将运动手势的移动速度与移动装置10的移动速度之间建立映射关系，将运动手势的旋转速度与旋转装置50的旋转速度之间建立映射关系，该微调指令具有较高的操控效率。

此外可选地，处理器70还用于：在当前手势数据的手势类型为停止手势的情况下，生成用于暂停控制辅助摄影机器人的停止指令。本发明实施例通过设置停止手势，使得用户可以在触发运动手势之后，通过触发该停止手势来调整手部的位置，之后继续执行该运动手势，为用户提供更多的操作空间。

本发明实施例提供的辅助摄影机器人，预先设置运动手势，用户通过执行该运动手势可以输入相应的微调指令，从而控制辅助摄影机器人的运动。通过当前手势数据可以确定运动手势的变化程度，并基于该变化程度正相关地确定微调指令的控制量，从而在运动手势的变化程度与辅助摄影机器人的物理量变化之间建立增益的映射关系，例如在运动手势的移动速度或旋转速度与辅助摄影机器人的移动速度或旋转速度之间建立映射关系，实现用户在辅助摄影机器人前能够连续、自由灵活、高效地控制该辅助摄影机器人。

可选地，本发明实施例中，该手势类型包括移动手势、旋转手势、缩放手势、停止手势中的至少一种。

其中，移动手势为多个手指张开的情况下，沿掌心朝向移动的手势；旋转手势为目标手指张开的情况下，保持目标手指位置不变并围绕目标手指转动的手势；缩放手势为多个手指张开的情况下，沿掌心朝向移动的手势，且缩放手势与移动手势为分别由左右手所触发的手势；停止手势为所有手指均收起的手势。

在辅助摄影场景中，用户主要需要控制移动装置10移动以及旋转装置50的角度，故需要设置移动手势和旋转手势；此外，也可以设置缩放手势，以能够缩放辅助摄影机器人所采集到的画面大小。其中，移动手势、旋转手势、缩放手势均为一种运动手势。为了方便用户直观地确定控制方向，例如确定移动方向、旋转方向等，本实施例将掌心朝向对应的移动方向作为移动手势的移动方向，将沿目标手指转动时的转动方向作为旋转手势的旋转方向。

具体地，参见图5所示，图5中的左图表示移动手势，其多指伸直(例如，五指伸直)，自然合拢；用户触发该移动手势后，沿此时的掌心朝向(即图5中的掌心方向)移动，即可控制辅助摄影机器人移动，例如控制移动装置10移动；其中，可以顺着掌心朝向移动(如图5中向左移动手掌)，也可以逆着掌心朝向移动(如图5中向右移动手掌)，本实施例对此不做限定。

图5中的中间图表示一种旋转手势，即选取一个手指作为目标手指，该目标手指张开伸直，除该目标手指之外的其他手指收起；以该目标手指为转轴转动整个手掌，转动过程中目标手指的位置基本是不变的；一般情况下，目标手指可以为食指或拇指，图5中以食指作为目标手指为例示出。

图5中的右图表示停止手势，五指都攥于掌心，一种握拳的手势。

此外，左手和右手也可以代表不同的手势。本发明实施例中，缩放手势与移动手势相似，二者均为在多个手指张开的情况下，沿掌心朝向移动的手势，区别在于二者由不同的手掌触发。例如，移动惯用手(例如，右手)，触发移动手势；而移动非惯用手(例如，左手)，触发缩放手势。

例如，本发明实施例提供的一种手势集可参见图6所示，图6中以用户与辅助摄影机器人之间的方向为y轴方向为例。其中，对于移动手势，用户手掌的掌心朝向沿y轴，通过沿y轴移动手掌可以触发向前移动或向后移动的移动手势；用户的掌心朝向沿x轴，通过沿x轴移动手掌可以触发向左移动或向右移动的移动手势；用户的掌心朝向沿z轴，通过沿z轴移动手掌可以触发向上移动或向下移动的移动手势。本领域技术人员可以理解，在向前、向后移动时，手掌的掌心朝向可以朝向前(y轴负方向)，也可以朝向后(y轴正方向)；在向上、向下移动时，手掌的掌心朝向可以朝向上(z轴正方向)，也可以朝向下(z轴负方向)，之后通过移动手势的坐标变化确定移动手势具体是朝向哪个方向移动。例如，用户的手掌朝上时，可以执行向上移动，也可以执行向下移动。

对于旋转手势，目标手指(例如，食指)朝向z轴正方向，以此时的目标手指为转轴转动手掌，可以生成朝向旋转的旋转手势，以控制拍摄装置60的偏航角(Yaw)；目标手指(例如，食指)朝向y轴负方向，以此时的目标手指为转轴转动手掌，可以生成倾斜旋转的旋转手势，以控制拍摄装置60的滚动角(Roll)；目标手指(例如，食指)朝向x轴负方向，以此时的目标手指为转轴转动手掌，可以生成俯仰旋转的旋转手势，以控制拍摄装置60的俯仰角(Pitch)。

对于缩放手势，由左手触发，且其与移动手势类似，都需要张开多个手指。例如，左手向左移动时为放大手势，左手向右移动时为缩小手势。

此外，为了能够区分移动手势和旋转手势，本发明实施例所涉及的多个关键点至少包括在不同手势类型下姿态固定的关键点(例如掌心关键点、腕部关键点等)、目标手指上的关键点(例如目标手指的指尖关键点)以及其他手指上的关键点(例如其他手指的指尖关键点)；例如，多个关键点包含五个手指上的关键点。

虽然三维空间中手势的姿态有许多，但本发明实施例所采用的移动手势、缩放手势、停止手势等，以掌心的朝向代表移动方向，以沿目标手指转动时的转动方向来指示辅助摄影机器人转动，这些运动手势与用户的日常操作习惯相一致，能够保证交互的自然性。

可选地，本发明实施例中，关键点的坐标为拍摄装置60的绝对坐标系中的绝对坐标。例如，通过拍摄装置60确定每个关键点的坐标，该坐标为在该拍摄装置60的三维绝对坐标系中的坐标，其为一种绝对坐标。当用户的手掌发生移动或转动时，即使手势类型未发生变化，其对应的关键点的绝对坐标也会发生变化，从而影响确定当前手势数据的手势类型。本发明实施例中，以相对坐标来确定当前手势数据的手势类型。具体地，处理器70执行上述步骤302“根据当前手势数据中多个关键点的坐标确定当前手势数据的手势类型”的过程可以包括步骤A2和步骤A4：

步骤A2：将当前手势数据中多个关键点的绝对坐标转换为相对坐标系中的相对坐标；在手势类型保持不变的情况下，该相对坐标系能够保持不变。

步骤A4：根据多个关键点的相对坐标确定当前手势数据的手势类型。

本发明实施例中，每种手势类型对应相应的手势姿态，当用户在执行某种手势类型的手势时，其手部的手势姿态是不变的(手部的位置可能发生变化)；其中，该手势姿态包括手部多个关键点之间的相对姿态。本发明实施例所建立的相对坐标系，其在手势类型保持不变的情况下，自身也能够保持不变。例如，可以选取其中两个关键点作为相对坐标系的其中一个轴，基于此来确定相对坐标系的另外两个轴，从而建立三维的相对坐标系。在该相对坐标系下，用户持续执行某一手势类型的手势时，关键点的相对坐标能够保持不变；即，对于每一手势类型，关键点具有一种相对坐标，从而基于该关键点的相对坐标能够更简洁、准确地表示手势类型，提高确定手势类型的准确度。

可选地，该相对坐标系为以手掌表面和掌心朝向为基准所确定的坐标系，掌心朝向为垂直于手掌表面的方向。

本发明实施例以手掌表面和掌心朝向为基准确定相对坐标系。当用户在执行不同类型的手势时，一般只会改变手指的姿态，例如从伸直手指改为收起手指等，但在改变不同类型的手势时手掌表面及掌心基本不发生变化，本实施例基于手掌表面和掌心朝向建立相对坐标系，可以更好地表示各个关键点的相对坐标，且在手势类型发生变化时也能够快速确定关键点的相对坐标。

并且，对于不同手势类型的手势，其相对坐标系基本上是相同的，即使手势移动或在三维空间中自由旋转，也不影响建立相对坐标系。即，在同一种相对坐标系下，可以有效且统一地表达不同手势类型中多个关键点的坐标，进而能够基于关键点的相对坐标准确地对不同的手势类型进行区分，可以准确地识别出当前手势数据的手势类型。

可选地，在上述步骤A2之前处理器70还用于建立相对坐标系，该建立相对坐标系的过程具体包括步骤A11-A14：

步骤A11：确定手掌表面中的第一向量。

步骤A12：确定手掌表面中，位于以第一向量为法向量的平面中的第二向量。

步骤A13：确定垂直于第一向量和第二向量的第三向量。

步骤A14：确定第一向量、第二向量和第三向量对应的单位向量基，基于单位向量基建立相对坐标系。

本发明实施例中，该相对坐标系是基于手掌表面和手掌朝向所建立的坐标系，且手掌朝向垂直于该手掌表面，故可以先在手掌表面内确定两个垂直的向量。由于从手部的关键点中，难以直接提取出两个垂直的向量，本实施例以投影的方式确定两个垂直的向量，即第一向量和第二向量。

具体地，基于手掌表面中的两个关键点确定第一向量，例如，参见图4所示，以关节点为关键点为例，用户完成各种手势的过程中，其腕部关键点(Wrist)、掌心关键点(Palm)、各个手指的指根关键点(例如，Thumb0、Pinky0等)一般始终位于手掌表面，此时可以从中选取两个关键点，将这两个关键点之间的向量作为第一向量。并且，确定以该第一向量为法向量的平面，该平面与手掌表面之间的共线即可作为第二向量。例如，基于手掌表面中另外两个关键点确定与该第一向量不平行的其他向量A，将该其他向量A到以第一向量为法向量的平面的投影作为第二向量。在确定手掌表面中的第一向量和第二向量之后，即可确定垂直于该手掌表面的第三向量；例如，通过向量叉乘的方式可以确定第三向量。进而，基于互相垂直的第一向量、第二向量、第三向量可以确定三维坐标系的单位向量基，基于该单位向量基所确定的坐标系即为相对坐标系。

例如，参见图7所示，本实施例将腕部关节(Wrist)作为坐标原点，构建相对坐标系。具体地，以腕部关节(Wrist)指向掌心关节(Palm)朝向作为x轴，以手掌表面上垂直于x轴并指向拇指一侧方向作为y轴；以垂直于手掌表面的方向作为z轴。其中，腕部关节(Wrist)指向掌心关节(Palm)的向量可以作为第一向量x；并且，可以将腕部关节(Wrist)到拇指指根关节(Thumb0)之间的向量作为其他向量A，该向量A到以第一向量x为法向量的平面的投影即为第二向量y。以s₀表示腕部关节的绝对坐标，s₁表示掌心关节的绝对坐标，s₂表示拇指指根关节的绝对坐标，则三个向量x、y、z满足下式：

其中<,>表示向量内积，×表示向量叉乘。对三个向量x、y、z进行归一化后所得到的单位向量基为{e_x＝x/‖x‖，e_y＝y/‖y‖，e_z＝z/‖z‖}，进而可以建立相对坐标系。

此外可选地，本发明实施例中，相对坐标系的原点一般选取手掌表面内的关键点，例如腕部关键点、掌心关键点或指根关键点等。此时，原绝对坐标系中的任一关键点可投影至该相对坐标系中，且当前手势数据中多个关键点的相对坐标满足：

p_i＝(<s_i-s₀,e_x>,<s_i-s₀,e_y>,<s_i-s₀,e_z>) (1)

其中，p_i表示关键点i的相对坐标，s_i表示关键点i的绝对坐标，s₀表示腕部关键点、掌心关键点或指根关键点的绝对坐标，{e_x，e_y，e_z}为单位向量基，<,>表示向量内积；腕部关键点、掌心关键点、指根关键点均为多个关键点中的一个。

将多个关键点的相对坐标组合在一起即可形成用于确定手势类型的基本特征。例如，若采用图4所示的24个关节点表示关键点，则该基本特征

可以表示为：

可选地，可以基于预设的分类模型确定当前手势数据的手势类型。或者，在确定关键点相对坐标的情况下，上述步骤A4“根据多个关键点的相对坐标确定当前手势数据的手势类型”，包括步骤A41-A42：

步骤A41：确定当前手势数据中多个关键点的相对坐标与每种手势类型对应的标准姿态之间的相似度，标准姿态包括在相应的手势类型下多个关键点在相对坐标系中的标准坐标。

步骤A42：将大于预设阈值的相似度所对应的手势类型作为当前手势数据的手势类型。

本发明实施例中，当用户执行某种手势类型的手势后，即使用户移动或旋转手掌，关键点的相对坐标是不变的。因此，可以预先确定每种手势类型对应的多个关键点的标准坐标，以该标准坐标为基准来确定当前手势数据属于哪种手势类型。

例如，本发明实施例设置移动手势、旋转手势和停止手势(如图5所示的三种手势)，对于每一种手势，可以预先采集多个用户在不同角度位置时采集到的关键点的相对坐标进行平均，得到在相应手势类型下每个关键点的标准坐标。将当前手势数据中多个关键点的相对坐标作为该当前手势数据的基本特征

将每种手势类型下多个关键点的标准坐标作为该手势类型的标准特征/>

例如，若关键点的数量为24个，则该标准特征可记为：

其中，h_i表示每个关键点的标准坐标。

分别确定该基本特征

与每种手势类型的标准特征/>

之间的相似度，此时识别手势类型是一个基本的二分类问题。若当前手势数据的基本特征/>

与某手势类型的标准特征

之间的相似度大于某一预设阈值时，则认为此时手势为该该手势类型。例如，可以将欧几里得相似度作为度量指标，计算两个手势的各相应关节点的欧几里得距离并求平均，归一化至[0,1]范围即得到二者之间的相似度/>

在上述任一实施例的基础上，发明人发现，经实验结果表明，在辅助摄影场景中用户更偏好恒定的速度增益，因此可以将速度的映射转化为距离(或角度)的映射，通过距离(或角度)的变化实现对辅助摄影机器人的连续控制。上述步骤303“确定当前手势数据的变化程度”，包括步骤B1和/或步骤B2：

步骤B1：在当前手势数据的手势类型为移动手势的情况下，确定在当前手势数据的移动方向上，当前手势数据与第一历史手势数据之间的位移变化量，将位移变化量作为当前手势数据的变化程度。微调指令用于控制移动装置10。

步骤B2：在当前手势数据的手势类型为旋转手势的情况下，确定在当前手势数据的旋转方向上，当前手势数据与第二历史手势数据之间的角度变化量，将角度变化量作为当前手势数据的变化程度。微调指令用于控制旋转装置50。

本发明实施例中，移动手势、旋转手势均为一种运动手势，在不同类型的运动手势的情况下，基于不同的方式确定当前手势数据的变化程度。具体地，如步骤B1所示，若当前手势数据为移动手势，即用户在执行移动手势时，确定该当前手势数据之前的历史手势数据，即第一历史手势数据，将该当前手势数据与第一历史手势数据之间的位移变化量作为当前手势数据的变化程度，即以位移变化量生成微调指令的控制量。

或者，如步骤B2所示，若当前手势数据为旋转手势，即用户在执行旋转手势时，确定该当前手势数据之前的历史手势数据，即第二历史手势数据，将该当前手势数据与第二历史手势数据之间的角度变化量作为当前手势数据的变化程度，即以角度变化量生成微调指令的控制量。

可选地，该移动手势为沿掌心朝向移动的手势；例如，参见图5所示，该移动手势为多个手指张开的情况下，沿掌心朝向移动的手势。上述步骤B1“确定在当前手势数据的移动方向上，当前手势数据与第一历史手势数据之间的位移变化量”可以包括步骤B11-B13：

步骤B11：确定当前手势数据对应的掌心朝向d。

本发明实施例中，移动手势为沿掌心朝向移动的手势时，该掌心朝向能够代表移动的方向，此时需要确定该掌心朝向对应的向量d。例如，在建立上述相对坐标系的情况下，可以用第三向量z表示该掌心朝向d，即d＝z。

步骤B12：确定当前手势数据与第一历史手势数据之间有效关键点的位移，有效关键点为多个关键点中的一个，且有效关键点的位移满足：

其中，当前手势数据为T时刻的手势数据，第一历史手势数据为t₁时刻的手势数据，

表示当前手势数据中有效关键点i的绝对坐标，/>

表示第一历史手势数据中有效关键点i的绝对坐标，<,>表示向量内积，Distance_i(T；t₁,d)表示有效关键点i的位移。

本发明实施例中，当前手势数据为T时刻的手势数据，第一历史手势数据为t₁时刻的手势数据，该t₁时刻早于T时刻；例如，该第一历史手势数据可以为当前手势数据的前m帧数据(例如，m＝1)。本实施例中，从多个关键点中选取至少一个作为有效关键点，基于两个手势数据(即当前手势数据和第一历史手势数据)中同一个有效关键点的位移向量

来确定，有效关键点沿掌心朝向d的位移，即从t₁时刻到T时刻，该有效关键点的移动距离表示为Distance_i(T；t₁,d)。

本领域技术人员可以理解，若该距离Distance_i(T；t₁,d)为正，则说明用户的手掌是朝向该掌心朝向d正向移动的；相反地，若该距离Distance_i(T；t₁,d)为负，则说明用户的手掌是朝向该掌心朝向d的相反方向移动的。

步骤B13：基于至少一个有效关键点的位移确定当前手势数据与第一历史手势数据之间的位移变化量。

本发明实施例中，可以选取其中一个关键点作为有效关键点，即关键点的数量为一个，例如，将掌心关键点(或腕部关键点)作为有效关键点；此时，可以直接将该有效关键点的位移作为当前手势数据与第一历史手势数据之间的位移变化量。或者，若有效关键点的数量为多个，则可以将多个有效关键点的位移平均值作为当前手势数据与第一历史手势数据之间的位移变化量。

本发明实施例中，利用位移变化量(例如，Distance_i(T；t₁,d))和掌心朝向d，可以准确描述移动手势的方向和移动量，从而可以生成相应的微调指令。例如，掌心朝向d表示朝向左侧时，基于该位移变化量的正负确定向左移动或向右移动，并基于该位移变化量的大小确定微调指令的控制量大小，实现对辅助摄影机器人的左右移动控制。

可选地，微调指令的控制量与当前手势数据的变化程度之间为正比例关系。本发明实施例中，在当前的手势为移动手势时，所生成的微调指令的控制量表示辅助摄影机器人的移动距离，例如移动装置10的移动距离，该控制量可表示为：

f_t＝w_t·x

其中x是该位移变化量，f_t为映射的辅助摄影机器人移动距离，即控制量；系数w_t为可调整的超参数常量。

若缩放手势与该移动手势相似，只是左右手的区分，则在当前为缩放手势时，也可基于相同的方式确定位移变化量，并基于位移的方向来确定当前是放大手势还是缩小手势，本实施例对此不做赘述。

可选地，旋转手势为围绕目标手指转动的手势；例如，参见图5所示，旋转手势为目标手指张开的情况下，保持目标手指位置不变并围绕目标手指转动的手势。上述步骤B2“确定在当前手势数据的旋转方向上，当前手势数据与第二历史手势数据之间的角度变化量”可以包括步骤B21-B24：

步骤B21：确定当前手势数据中目标手指的朝向d_rota。

本发明实施例中，当前手势数据中，至少包括位于目标手指中的两个关键点，基于这两个关键点的绝对坐标可以确定该目标手指的朝向。一般情况下，当前手势数据中可以包含指根关键点和指尖关键点的坐标。例如，将食指作为目标手指，即手势是以食指为旋转轴所触发的，此时可以由食指上的指根关键点(Index1)与指尖关键点(IndexTip)的绝对坐标相减得到食指的朝向，记为d_rota。

步骤B22：根据当前手势数据确定与朝向d_rota不平行的当前向量，并根据第二历史手势数据确定与朝向d_rota不平行的历史向量；当前向量和历史向量为采用相同方式从相应的手势数据中所确定的向量。

步骤B23：确定当前向量和历史向量分别投影至以朝向d_rota为法向量的平面所确定的当前投影向量

和历史投影向量/>

步骤B24：将当前投影向量

与历史投影向量/>

之间的夹角作为当前手势数据与第二历史手势数据之间的角度变化量。

本发明实施例中，为了方便计算围绕目标手指的旋转角度，基于与该朝向d_rota不平行的向量在以朝向d_rota为法向量的平面中的投影向量来确定旋转角度。具体地，如上述步骤B22-B24所示，对于当前手势数据与之前的第二历史手势数据，采用相同的方式从中选择与朝向d_rota不平行的向量；例如，选取食指指根关节(Index1)指向掌心关节(Palm)的向量。从当前手势数据中所确定的向量称为当前向量，从第二历史手势数据中所确定的向量称为历史向量。基于投影公式可确定，当前向量、历史向量在以朝向d_rota为法向量的平面中的投影向量。例如，选取食指指根关节(Index1)指向掌心关节(Palm)的向量：s_palm-s_index1＝(x_palm-x_index1,y_palm-y_index1,z_palm-z_index1)，该向量投影到以朝向d_rota为法向量的平面上，投影向量v_rota为：

相应地，本实施例以

表示当前投影向量，以/>

表示历史投影向量。其中，当前手势数据为T时刻的手势数据，第二历史手势数据为t₂时刻的手势数据，t₂时刻早于T时刻。例如，该第二历史手势数据可以为当前手势数据的前m帧数据(例如，m＝1)，或者，第二历史手势数据为在触发该旋转手势的初始时刻所采集到的手势数据。

从t₂时刻到T时刻，用户以目标手指的方向d_rota为转轴的旋转角度为当前投影向量

与历史投影向量/>

之间的夹角，且该夹角满足：

该夹角RotationAngle(T；t₂)即可作为当前手势数据与第二历史手势数据之间的角度变化量。

此外可选地，由于上式(5)所确定的夹角为正，仅基于此不能确定旋转手势的旋转方向，故本发明实施例中，处理器70还用于执行以下步骤B25：

步骤B25：确定方向指示值，基于方向指示值的正负确定旋转手势的旋转方向；方向指示值满足：

其中，当前手势数据为T时刻的手势数据，第二历史手势数据为t₂时刻的手势数据，RotationDirection(T；t₂)表示该方向指示值，×表示向量叉乘。

本发明实施例中，基于该方向指示值可以确定旋转手势。具体地，当该方向指示值为正时，表示旋转方向为逆时针旋转，否则为顺时针旋转。

类似地，对于旋转手势，微调指令的控制量与当前手势数据的变化程度之间为正比例关系。本发明实施例中，在当前的手势为旋转手势时，所生成的微调指令的控制量表示辅助摄影机器人的旋转角度，例如旋转装置50的旋转角度，该控制量可表示为：

f_r＝w_r·θ

其中θ是该角度变化量，f_r为映射的辅助摄影机器人旋转角度，即控制量；系数w_r为可调整的超参数常量；例如，w_r＝1。

本发明实施例中，处理器70利用手势数据中包含的关键点的绝对坐标，可以准确快速地确定位移变化量或角度变化量，能够实现快速响应。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换的技术方案，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种辅助摄影机器人，其特征在于，包括：移动装置(10)、支撑装置(20)、显示屏(30)、连接组件(40)、旋转装置(50)、拍摄装置(60)和处理器(70)；

所述移动装置(10)设置在所述支撑装置(20)的底部，用于移动所述辅助摄影机器人；

所述连接组件(40)设置在所述支撑装置(20)的上部，用于设置所述旋转装置(50)；

所述拍摄装置(60)通过所述旋转装置(50)设置在所述连接组件(40)上；所述旋转装置(50)用于调整所述拍摄装置(60)的朝向；

所述显示屏(30)设置在所述支撑装置(20)上，并与所述拍摄装置(60)相连，用于显示所述拍摄装置(60)所采集的图像；

所述处理器(70)与所述移动装置(10)、所述旋转装置(50)、所述拍摄装置(60)相连，用于基于采集到的用户操作生成相应的控制指令，控制所述移动装置(10)移动、控制所述旋转装置(50)转动或控制所述拍摄装置(60)的操作行为；

其中，所述处理器(70)基于采集到的用户操作生成相应的控制指令，包括：响应于用户的微调操作生成相应的微调指令，基于所述微调指令控制所述移动装置(10)或所述旋转装置(50)动作；

所述响应于用户的微调操作生成相应的微调指令，包括：

获取所述拍摄装置(60)所采集的图像，从所述图像中提取出所述用户的当前手势数据，所述当前手势数据包括手部的多个关键点的坐标；

根据所述当前手势数据中多个所述关键点的坐标确定所述当前手势数据的手势类型；以及

在所述当前手势数据的手势类型为运动手势的情况下，确定所述当前手势数据的变化程度，并生成用于连续控制所述移动装置(10)或所述旋转装置(50)的微调指令；所述微调指令的类型与所述当前手势数据的手势类型相一致，所述微调指令的控制量与所述当前手势数据的变化程度之间为正相关关系；

所述确定所述当前手势数据的变化程度，包括：

在所述当前手势数据的手势类型为旋转手势的情况下，确定在所述当前手势数据的旋转方向上，所述当前手势数据与第二历史手势数据之间的角度变化量，将所述角度变化量作为所述当前手势数据的变化程度；所述微调指令用于控制所述旋转装置；其中，所述旋转手势为一种运动手势，且所述旋转手势为围绕目标手指转动的手势；

并且，所述确定在所述当前手势数据的旋转方向上，所述当前手势数据与第二历史手势数据之间的角度变化量，包括：

确定所述当前手势数据中所述目标手指的朝向d_rota；

和历史投影向量/>

将所述当前投影向量

与所述历史投影向量/>

之间的夹角作为所述当前手势数据与第二历史手势数据之间的角度变化量。/>

2.根据权利要求1所述的辅助摄影机器人，其特征在于，所述连接组件(40)包括升降装置，所述升降装置用于调整所述拍摄装置(60)的高度；

所述处理器(70)还与所述升降装置相连，在所述控制指令为调整高度的情况下，控制所述升降装置执行升降操作。

3.根据权利要求1所述的辅助摄影机器人，其特征在于，所述移动装置(10)包括n个驱动轮(11)，所述支撑装置(20)至少包括n个支撑杆(21)，n≥3；

所述驱动轮(11)设置在相应的所述支撑杆(21)的底部。

4.根据权利要求3所述的辅助摄影机器人，其特征在于，所述移动装置(10)还包括n个竖直设置的轮轴(12)；

所述驱动轮(11)通过相应的所述轮轴(12)与所述支撑杆(21)相连，所述驱动轮(11)能够围绕所述轮轴(12)转动，以调整所述驱动轮(11)的运动方向；所述驱动轮(11)的运动方向包括所述支撑装置(20)底部轮廓的切线方向。

5.根据权利要求1所述的辅助摄影机器人，其特征在于，还包括：语音采集装置(80)；所述处理器(70)与所述语音采集装置(80)相连；

所述语音采集装置(80)用于采用用户发出的语音数据；

所述处理器(70)还用于基于所述语音数据生成相应的控制指令。

6.根据权利要求1所述的辅助摄影机器人，其特征在于，所述处理器(70)基于采集到的用户操作生成相应的控制指令，还包括：

响应于用户的粗调操作生成相应的粗调指令，基于所述粗调指令控制所述移动装置(10)或所述旋转装置(50)动作；

之后执行所述响应于用户的微调操作生成相应的微调指令，基于所述微调指令控制所述移动装置(10)或所述旋转装置(50)动作的步骤；

最后响应于用户的拍摄操作生成相应的相机基础指令，基于所述相机基础指令控制所述拍摄装置(60)的操作行为。

7.根据权利要求6所述的辅助摄影机器人，其特征在于，

所述粗调指令包括：到用户面前、转向用户、到指定位置中的至少一种；

8.根据权利要求6所述的辅助摄影机器人，其特征在于，所述处理器(70)基于采集到的用户操作生成相应的控制指令，还包括：

响应于用户的还原操作生成相应的还原指令，基于所述还原指令还原所述旋转装置(50)的角度、还原所述拍摄装置(60)的画面大小或者还原所述辅助摄影机器人的高度；所述还原指令包括倾斜还原、俯仰还原、缩放还原、高度还原、全部还原中的至少一种。

9.根据权利要求6所述的辅助摄影机器人，其特征在于，所述微调操作为手势操作。