CN109981964B

CN109981964B - 基于机器人的拍摄方法、拍摄装置及机器人

Info

Publication number: CN109981964B
Application number: CN201711447198.8A
Authority: CN
Inventors: 熊友军; 刘锐
Original assignee: Ubtech Robotics Corp
Current assignee: Beijing Youbixuan Intelligent Robot Co ltd; Ubtech Robotics Corp
Priority date: 2017-12-27
Filing date: 2017-12-27
Publication date: 2021-07-27
Anticipated expiration: 2037-12-27
Also published as: CN109981964A

Abstract

本发明适用于机器人技术领域，提供了一种基于机器人的拍摄方法、拍摄装置及机器人，包括：获取语音指令，确定所述语音指令中声音的声源方向；获取所述声源方向的图像信息，并基于所述声源方向的图像信息进行人脸的面部特征点检测；根据所述面部特征点检测的结果，对所述声源方向的图像信息进行过滤，确定待拍摄对象；基于确定的待拍摄对象，执行所述语音指令所对应的操作。通过上述方法能够快速确定待拍摄的用户，从而有效执行用户的指令。

Description

基于机器人的拍摄方法、拍摄装置及机器人

技术领域

本发明属于机器人技术领域，尤其涉及一种基于机器人的拍摄方法、拍摄装置及机器人。

背景技术

随着社会生产力的发展和多媒体处理技术的进步，人们对机器人功能的要求越来越高，期望机器人能“听”、能“看”、能“动”。在实际应用中，机器人经常需要和人进行语音以及操作交互。

现有技术中，可通过声源定位技术实现机器人的听觉功能，从而定位指令人所在位置，机器人可以为当前声源方向的用户拍摄图像，然而，当同一个空间中有多人，其中的用户发出拍照指令后，机器人无法快速准确的从多个人中确定待拍摄的用户，从而导致无法准确执行用户指令。

发明内容

有鉴于此，本发明实施例提供了一种基于机器人的拍摄方法、拍摄装置及机器人，以解决现有技术中当同一个空间中有多人，其中的用户发出拍照指令后，机器人无法快速准确的从多个人中确定待拍摄的用户，从而导致无法有效执行用户指令的问题。

本发明第一方面提供了一种基于机器人的拍摄方法，所述基于机器人的拍摄方法包括：

获取语音指令，确定所述语音指令中声音的声源方向；

获取所述声源方向的图像信息，并基于所述声源方向的图像信息进行人脸的面部特征点检测；

根据所述面部特征点检测的结果，对所述声源方向的图像信息进行过滤，确定待拍摄对象；

基于确定的待拍摄对象，执行所述语音指令所对应的操作。

结合第一方面，在第一方面的第一种可能实现方式中，所述获取所述声源方向的图像信息，并基于所述声源方向的图像信息进行人脸的面部特征点检测的步骤，包括：

根据所述声源方向，调整摄像头云台的朝向；

或者，根据所述声源方向，调整所述机器人的朝向。

结合第一方面,在第一方面的第二种可能实现的方式中，所述根据所述面部特征点检测的结果，对所述声源方向的图像信息进行过滤，确定待拍摄对象的步骤，包括：

基于所述声源方向的图像信息，分别确定各个人脸与机器人的距离；

选取与机器人的距离最近的人脸图像；

基于所述距离最近的人脸图像，采集所述人脸图像中的面部特征点；

若采集的面部特征点的数量不小于预设数量阈值，则将所述人脸图像对应的人脸确定为基准人脸；

根据确定的基准人脸，按预设条件对所述声源方向的图像信息中的人脸过滤，确定待拍摄对象。

结合第一方面的第二种可能实现方式,在第一方面的第三种可能实现的方式中，所述根据确定的基准人脸，按预设条件对所述声源方向的图像信息中的人脸过滤，确定待拍摄对象的步骤，包括：

当所述基准人脸与机器人的距离满足第一距离条件时，过滤第一预设距离阈值以外的人脸；

当所述基准人脸与机器人的距离满足第二距离条件时，过滤第二预设距离阈值以外的人脸；

当所述基准人脸与机器人的距离满足第三距离条件时，获取摄像头当前的取景图像，不进行人脸过滤。

结合第一方面的第二种可能实现方式,在第一方面的第四种可能实现的方式中，所述基于确定的待拍摄对象，执行所述语音指令所对应的操作的步骤，包括：

当所述语音指令包括拍摄照片指令时，以基准人脸为拍摄主焦点，基于确定的待拍摄对象，拍摄照片；

当所述语音指令包括拍摄视频指令时，以基准人脸为拍摄主焦点，并与所述基准人脸保持指定的追踪距离，追踪拍摄视频。

本发明第二方面提供了一种拍摄装置，所述拍摄装置包括：

指令获取单元，用于获取语音指令，确定所述语音指令中声音的声源方向；

图像识别单元，用于获取所述声源方向的图像信息，并基于所述声源方向的图像信息进行人脸的面部特征点检测；

对象确定单元，用于根据所述面部特征点检测的结果，对所述声源方向的图像信息进行过滤，确定待拍摄对象；

指令执行单元，用于基于确定的待拍摄对象，执行所述语音指令所对应的操作。

结合第二方面，在第二方面的第一种可能实现方式中，所述图像识别单元包括：

第一朝向调整模块，用于根据所述声源方向，调整摄像头云台的朝向；

第二朝向调整模块，用于根据所述声源方向，调整所述机器人的朝向。

结合第二方面，在第二方面的第二种可能实现方式中，所述对象确定单元包括：

距离确定模块，用于基于所述声源方向的图像信息，分别确定各个人脸与机器人的距离；

图像选取模块，用于选取与机器人的距离最近的人脸图像；

特征点采集模块，用于基于所述距离最近的人脸图像，采集所述人脸图像中的面部特征点；

基准人脸确定模块，用于若采集的面部特征点的数量不小于预设数量阈值，则将所述人脸图像对应的人脸确定为基准人脸；

对象确定模块，用于根据确定的基准人脸，按预设条件对所述声源方向的图像信息中的人脸过滤，确定待拍摄对象。

结合第二方面的第二种可能实现方式，在第二方面的第三种可能实现方式中，所述对象确定模块包括：

第一过滤子模块，用于当所述基准人脸与机器人的距离满足第一距离条件时，过滤第一预设距离阈值以外的人脸；

第二过滤子模块，用于当所述基准人脸与机器人的距离满足第二距离条件时，过滤第二预设距离阈值以外的人脸；

第三过滤子模块，用于当所述基准人脸与机器人的距离满足第三距离条件时，获取摄像头当前的取景图像，不进行人脸过滤。

结合第二方面的第二种可能实现方式,在第二方面的第四种可能实现的方式中，所述指令执行单元包括：

照片拍摄模块，用于当所述语音指令包括拍摄照片指令时，以基准人脸为拍摄主焦点，基于确定的待拍摄对象，拍摄照片；

视频拍摄模块，用于当所述语音指令包括拍摄视频指令时，以基准人脸为拍摄主焦点，并与所述基准人脸保持指定的追踪距离，追踪拍摄视频。

本发明第三方面提供了一种机器人，包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上第一方面所述基于机器人的拍摄方法的步骤。

本发明第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上第一方面所述基于机器人的拍摄方法的步骤。

本发明实施例与现有技术相比存在的有益效果是：本发明实施例通过获取语音指令，确定所述语音指令中声音的声源方向，快速确定发出语音指令的用户的所在的方向，然后获取所述声源方向的图像信息，并基于所述声源方向的图像信息进行人脸的面部特征点检测，根据所述面部特征点检测的结果，对所述声源方向的图像信息进行过滤，从而有效过滤干扰对象，以便确定待拍摄对象，最后基于确定的待拍摄对象，执行所述语音指令所对应的操作。本方案通过语音指令中声音的声源方向快速确定用户的方位，再根据面部特征点的识别结果过滤干扰对象，从而快速准确地从多个人中确定待拍摄的用户，提高机器人执行指令的有效性，提高用户体验。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于机器人的拍摄方法的实现流程图；

图2是本发明实施例提供的基于机器人的拍摄方法步骤S103的一种实现流程图；

图3是本发明实施例提供的步骤S103中步骤A5的一种实现流程图；

图4是本发明实施例提供的一种基于机器人的拍摄方法步骤S104的一种实现流程图；

图5是本发明实施例提供的一种拍摄装置的结构框图；

图6是本发明实施例提供的一种机器人的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

实施例一：

图1示出了本发明实施例提供的一种基于机器人的拍摄方法的流程图，该方法流程包括步骤S101至S104。各步骤的具体实现原理详述如下：

步骤S101，获取语音指令，确定所述语音指令中声音的声源方向。

在本发明实施例中，机器人可通过控制麦克风阵列开始全方向实时拾取语音，接收语音指令，再通过麦克风阵列算法来获取所述语音指令中声音的声源方向。单个麦克风只能获取声音信息，而由多个麦克风按照一定几何位置摆放组成的麦克风阵列，不仅能够获取声音信息还能够获取声音的空间信息。其中，语音指令包括拍摄照片指令或拍摄视频指令。

可选地，为节省电量，所述步骤S101还包括唤醒机器人。具体地，检测唤醒按键是否被触发，或者，获取语音指令中的唤醒词，根据所述唤醒词唤醒机器人。在本发明实施例中，用户通过机器人上的唤醒按键唤醒机器人，或者，通过唤醒词唤醒机器人。当通过唤醒词唤醒机器人时，语音指令还包括唤醒词。具体地，当机器人识别到语音指令中唤醒词的词句含义与预设的词句含义相同时，判定所述唤醒词为唤醒指令，继而唤醒机器人。

步骤S102，获取所述声源方向的图像信息，并基于所述声源方向的图像信息进行人脸的面部特征点检测。

具体地，机器人通过摄像头获取声源方向的图像信息。在确定所述语音指令中声音的声源方向之后，机器人根据所述声源方向，通过控制云台调整摄像头的朝向，或者，当摄像头不可旋转时，根据所述声源方向控制机器人旋转，调整所述机器人的朝向。需说明的是，在本发明实施例中，摄像头可在预览模式下获取声源方向的图像信息，无需拍摄并存储图像信息，节省机器人的存储空间。

在本发明实施例中，基于所述声源方向的图像信息进行人脸的面部特征点检测，包括对所述图像信息进行人脸识别，对识别出的人脸进行面部特征点检测。其中，面部特征点检测即根据识别的人脸的图像，自动定位出面部关键特征点，如眼睛、鼻尖、嘴角点、眉毛以及人脸各部件轮廓点等，

步骤S103，根据所述面部特征点检测的结果，对所述声源方向的图像信息进行过滤，确定待拍摄对象。

在本发明实施例中，如图2所示，所述步骤S103，包括：

A1、基于所述声源方向的图像信息，分别确定各个人脸与机器人的距离。

A2、选取与机器人的距离最近的人脸图像。

A3、基于所述距离最近的人脸图像，采集所述人脸图像中的面部特征点。

A4、若采集的面部特征点的数量不小于预设数量阈值，则将所述人脸图像对应的人脸确定为基准人脸。

A5、根据确定的基准人脸，按预设条件对所述声源方向的图像信息中的人脸过滤，确定待拍摄对象。

在本发明实施例中，当识别到所述声源方向的图像信息中有不止一张人脸时，通过确定人脸与机器人的距离的远近，选取最大人脸的人脸图像采集面部特征点。具体地，与机器人的距离最近的人脸为最大人脸。

可选地，在本发明实施例中，机器人使用人脸框标记所述声源方向的图像信息中识别的人脸，对于图像信息中的多张人脸，通过判断各个人脸框的大小，选取最大人脸的人脸图像，其中，人脸框最大的为最大人脸。

可选地，如图3所示，为了准确过滤干扰人像，所述步骤A5包括：

A51、当所述基准人脸与机器人的距离满足第一距离条件时，过滤第一预设距离阈值以外的人脸。

A52、当所述基准人脸与机器人的距离满足第二距离条件时，过滤第二预设距离阈值以外的人脸。

A53、当所述基准人脸与机器人的距离满足第三距离条件时，获取摄像头当前的取景图像，不进行人脸过滤。

具体地，在本发明实施例中，可通过预先建立人脸框大小与距离远近的对照表。其中，所述距离是指机器人与识别的人脸的距离。根据识别所述基准人脸的人脸框的大小，从所述对照表中找出该人脸框对应的距离。

示例性地，当基准人脸距离机器人的距离小于1米时，过滤3米以外的人脸；当基准人脸距离机器人不小于1米且小于3米时，过滤5米以外的人脸；当基准人脸距离机器人不小于3米时，整体取景，不进行人脸过滤。

可选地，所述步骤S103还包括：

A6、若采集的面部特征点的数量小于预设数量阈值，则将所述人脸图像与预存的人脸图像进行比对匹配，若匹配成功，则将所述人脸图像对应的人脸确定为基准人脸。根据确定的基准人脸，按预设条件对所述声源方向的图像信息中的人脸过滤，确定待拍摄对象。

A7、若不匹配，将所述声源方向的图像信息中所有人脸的人脸图像，分别与预存的人脸图像进行比对匹配，将匹配的人脸图像对应的人脸确定为基准人脸。根据确定的基准人脸，按预设条件对所述声源方向的图像信息中的人脸过滤，确定待拍摄对象。

在本发明实施例中，从所述声源方向的图像信息中的多张人脸中确定一张基准人脸，根据确定的基准人脸，按预设条件对所述声源方向的图像信息中的人脸过滤，确定待拍摄对象，从而提高过滤干扰人像的准确性。

步骤S104，基于确定的待拍摄对象，执行所述语音指令所对应的操作。

在本发明实施例中，根据所述语音指令中的操作命令，对确定的待拍摄对象执行与操作命令对应的操作。例如，拍摄照片或者拍摄视频。

可选地，如图4所示，所述步骤S104包括：

B1、当所述语音指令包括拍摄照片指令时，以基准人脸为拍摄主焦点，基于确定的待拍摄对象，拍摄照片。

B2、当所述语音指令包括拍摄视频指令时，以基准人脸为拍摄主焦点，并与所述基准人脸保持指定的追踪距离，追踪拍摄视频。

其中，以基准人脸为拍摄主焦点是指保持所述基准人脸在画面中央。

本发明第一实施例中，通过获取语音指令，确定所述语音指令中声音的声源方向，快速确定发出语音指令的用户的所在的方向，然后根据所述声源方向，调整摄像头云台的朝向，或者，根据所述声源方向，调整所述机器人的朝向，以便获取所述声源方向的图像信息，并基于所述声源方向的图像信息进行人脸的面部特征点检测，根据所述面部特征点检测的结果，确定基准人脸，根据确定的基准人脸，按预设条件对所述声源方向的图像信息中的人脸过滤，确定待拍摄对象，从而有效过滤干扰对象，以便确定待拍摄对象，最后基于确定的待拍摄对象，执行所述语音指令所对应的操作，从而快速准确地从多个人中确定待拍摄的用户，提高机器人执行指令的有效性，提高用户体验。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

实施例二：

对应于上文实施例所述的基于机器人的拍摄方法，图5示出了本发明实施例提供的拍摄装置的结构框图，该装置可应用于智能终端，该智能终端可以包括经无线接入网RAN与一个或多个核心网进行通信的用户设备，该用户设备可以是智能机器人。为了便于说明，仅示出了与本发明实施例相关的部分。

参照图5，该拍摄装置包括：指令获取单元21，图像识别单元22，对象确定单元23，指令执行单元24，其中：

指令获取单元21，用于获取语音指令，确定所述语音指令中声音的声源方向；

图像识别单元22，用于获取所述声源方向的图像信息，并基于所述声源方向的图像信息进行人脸的面部特征点检测；

对象确定单元23，用于根据所述面部特征点检测的结果，对所述声源方向的图像信息进行过滤，确定待拍摄对象；

指令执行单元24，用于基于确定的待拍摄对象，执行所述语音指令所对应的操作。

可选地，所述图像识别单元22包括：

可选地，所述对象确定单元23包括：

图像选取模块，用于选取与机器人的距离最近的人脸图像；

可选地，所述对象确定模块包括：

可选地，所述指令执行单元24包括：

本发明第二实施例中，通过获取语音指令，确定所述语音指令中声音的声源方向，快速确定发出语音指令的用户的所在的方向，然后根据所述声源方向，调整摄像头云台的朝向，或者，根据所述声源方向，调整所述机器人的朝向，以便获取所述声源方向的图像信息，并基于所述声源方向的图像信息进行人脸的面部特征点检测，根据所述面部特征点检测的结果，确定基准人脸，根据确定的基准人脸，按预设条件对所述声源方向的图像信息中的人脸过滤，确定待拍摄对象，从而有效过滤干扰对象，以便确定待拍摄对象，最后基于确定的待拍摄对象，执行所述语音指令所对应的操作，从而快速准确地从多个人中确定待拍摄的用户，提高机器人执行指令的有效性，提高用户体验。

实施例三：

图6是本发明一实施例提供的机器人的示意图。如图6所示，该实施例的机器人3包括：处理器30、存储器31以及存储在所述存储器31中并可在所述处理器30上运行的计算机程序32，例如拍摄程序。所述处理器30执行所述计算机程序32时实现上述各个拍摄方法实施例中的步骤，例如图1所示的步骤101至104。或者，所述处理器30执行所述计算机程序32时实现上述各装置实施例中各模块/单元的功能，例如图5所示单元21至24的功能。

示例性的，所述计算机程序32可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器31中，并由所述处理器30执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序32在所述机器人3中的执行过程。例如，所述计算机程序32可以被分割成指令获取单元、图像识别单元、对象确定单元、指令执行单元，各单元具体功能如下：

所述机器人3可包括，但不仅限于，处理器30、存储器31。本领域技术人员可以理解，图6仅仅是机器人3的示例，并不构成对机器人3的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述机器人还可以包括输入输出设备、网络接入设备、总线等。

所称处理器30可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器31可以是所述机器人3的内部存储单元，例如机器人3的硬盘或内存。所述存储器31也可以是所述机器人3的外部存储设备，例如所述机器人3上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器31还可以既包括所述机器人3的内部存储单元也包括外部存储设备。所述存储器31用于存储所述计算机程序以及所述机器人所需的其他程序和数据。所述存储器31还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括是电载波信号和电信信号。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于机器人的拍摄方法，其特征在于，所述基于机器人的拍摄的方法包括：

获取语音指令，确定所述语音指令中声音的声源方向；

根据所述面部特征点检测的结果，对所述声源方向的图像信息进行过滤，确定待拍摄对象；所述根据所述面部特征点检测的结果，对所述声源方向的图像信息进行过滤，确定待拍摄对象的步骤，包括：

选取与机器人的距离最近的人脸图像；

根据确定的基准人脸，按预设条件对所述声源方向的图像信息中的人脸过滤，确定待拍摄对象；

基于确定的待拍摄对象，执行所述语音指令所对应的操作；所述基于确定的待拍摄对象，执行所述语音指令所对应的操作的步骤，包括：

当所述语音指令包括拍摄视频指令时，以基准人脸为拍摄主焦点，并与所述基准人脸保持指定的追踪距离，追踪拍摄视频；

其中，所述以基准人脸为拍摄主焦点是指保持所述基准人脸在画面中央。

2.如权利要求1所述的基于机器人的拍摄方法，其特征在于，所述获取所述声源方向的图像信息，并基于所述声源方向的图像信息进行人脸的面部特征点检测的步骤，包括：

根据所述声源方向，调整摄像头云台的朝向；

或者，根据所述声源方向，调整所述机器人的朝向。

3.如权利要求1所述的基于机器人的拍摄方法，其特征在于，所述根据确定的基准人脸，按预设条件对所述声源方向的图像信息中的人脸过滤，确定待拍摄对象的步骤，包括：

4.一种拍摄装置，其特征在于，所述拍摄装置包括：

对象确定单元，用于根据所述面部特征点检测的结果，对所述声源方向的图像信息进行过滤，确定待拍摄对象；所述对象确定单元包括：

图像选取模块，用于选取与机器人的距离最近的人脸图像；

对象确定模块，用于根据确定的基准人脸，按预设条件对所述声源方向的图像信息中的人脸过滤，确定待拍摄对象；

指令执行单元，用于基于确定的待拍摄对象，执行所述语音指令所对应的操作；所述指令执行单元包括：

视频拍摄模块，用于当所述语音指令包括拍摄视频指令时，以基准人脸为拍摄主焦点，并与所述基准人脸保持指定的追踪距离，追踪拍摄视频；

5.一种机器人，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至3任一项所述基于机器人的拍摄方法的步骤。

6.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至3任一项所述基于机器人的拍摄方法的步骤。