CN105116994B

CN105116994B - 基于人工智能的智能机器人追踪方法和追踪装置

Info

Publication number: CN105116994B
Application number: CN201510394608.1A
Authority: CN
Inventors: 戴腾; 李江勇; 王昕煜; 李峥; 苏航; 葛行飞; 李佳霖
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-07-07
Filing date: 2015-07-07
Publication date: 2019-05-31
Anticipated expiration: 2035-07-07
Also published as: CN105116994A

Abstract

本发明公开了一种基于人工智能的智能机器人追踪方法和装置，其中该方法包括：获取智能机器人所捕捉的画面图像，并对画面图像进行人脸检测以判断画面图像中是否有人脸；若有，则定位画面图像中的最大人脸，并对最大人脸进行身份识别；当最大人脸的身份识别成功之后，获取最大人脸的位置坐标；以及根据位置坐标调整智能机器人以使最大人脸位于智能机器人中摄像头所捕捉的画面的正中间。该方法通过检测并识别最大人脸，可以使得智能机器人能够并准确地判断待交互的用户，并通过增加智能机器人的运动自由度，使得智能机器人更接近人脸，并使得智能机器人在机械运动时更加生动形象。

Description

基于人工智能的智能机器人追踪方法和追踪装置

技术领域

本发明涉及智能终端技术领域，尤其涉及一种基于人工智能(ArtificialIntelligence，简称：AI)的智能机器人追踪方法和追踪装置。

背景技术

智能机器人面临着的世界是一个可以提供复杂多变信息的世界，要使得智能机器人为人类服务就需要它对各种应用环境都具有相应的信息获取方式和处理方法，同时还需要它可以根据环境的变化做出不同的决策。而智能机器人一般通过传感器来输入外部环境信息，并根据输入的外部环境信息以做出相应的操作。

随着人们对智能机器人要求的不断提高，希望智能机器人能够实现更多的智能操作，例如，可通过人脸检测技术，能够检测到智能机器人当前画面中的人脸，并能够通过机械运动跟踪用户。但是，上述智能机器人与用户交互时只有人脸检测，即任何人都可以与智能机器人进行交互，然而在多用户环境下，可能导致智能机器人混乱，不能及时并准确地判断与哪个用户进行交互，同时，由于上述智能机器人的运动自由度的限制，导致在机械运动时不太自然，导致智能机器人缺乏活力。

发明内容

本发明的目的旨在至少在一定程度上解决上述的技术问题之一。

为此，本发明的第一个目的在于提出一种基于人工智能的智能机器人追踪方法。该方法通过检测并识别最大人脸，可以使得智能机器人能够并准确地判断待交互的用户，并通过增加智能机器人的运动自由度，使得智能机器人更接近人脸，并使得智能机器人在机械运动时更加生动形象。

本发明的第二个目的在于提出一种基于人工智能的智能机器人追踪装置。

为了实现上述目的，本发明第一方面实施例的基于人工智能的智能机器人追踪方法，包括：获取所述智能机器人所捕捉的画面图像，并对所述画面图像进行人脸检测以判断所述画面图像中是否有人脸；如果判断所述画面图像中有人脸，则定位所述画面图像中的最大人脸，并对所述最大人脸进行身份识别；当所述最大人脸的身份识别成功之后，获取所述最大人脸的位置坐标；以及根据所述位置坐标调整所述智能机器人以使所述最大人脸位于所述智能机器人中摄像头所捕捉的画面的正中间。

本发明实施例的基于人工智能的智能机器人追踪方法，可获取智能机器人所捕捉的画面图像，并对画面图像进行人脸检测以判断画面图像中是否有人脸，若有，则定位画面图像中的最大人脸，并对最大人脸进行身份识别，当最大人脸的身份识别成功之后，获取最大人脸的位置坐标，并根据位置坐标调整智能机器人以使最大人脸位于智能机器人中摄像头所捕捉的画面的正中间，至少具有以下优点：(1)通过检测并识别最大人脸，避免了多用户环境下智能机器人无法准确判断与哪个用户进行交互的现象的发生，使得智能机器人能够并准确地判断待交互的用户，并提高了人机交互的专一性；(2)通过增加智能机器人的运动自由度(如身体左右转动、头部左右转动、头部上下转动)，使得智能机器人更接近人脸，并使得智能机器人在机械运动时更加生动形象。

为了实现上述目的，本发明第二方面实施例的基于人工智能的智能机器人追踪装置，包括：第一获取模块，用于获取所述智能机器人所捕捉的画面图像；第一检测模块，用于对所述画面图像进行人脸检测以判断所述画面图像中是否有人脸；识别模块，用于在所述第一检测模块判断所述画面图像中有人脸时，定位所述画面图像中的最大人脸，并对所述最大人脸进行身份识别；第二获取模块，用于在所述最大人脸的身份识别成功之后，获取所述最大人脸的位置坐标；以及调整模块，用于根据所述位置坐标调整所述智能机器人以使所述最大人脸位于所述智能机器人中摄像头所捕捉的画面的正中间。

本发明实施例的基于人工智能的智能机器人追踪装置，可通过第一获取模块获取智能机器人所捕捉的画面图像，第一检测模块对画面图像进行人脸检测以判断画面图像中是否有人脸，若有，则识别模块定位画面图像中的最大人脸，并对最大人脸进行身份识别，当最大人脸的身份识别成功之后，第二获取模块获取最大人脸的位置坐标，调整模块根据位置坐标调整智能机器人以使最大人脸位于智能机器人中摄像头所捕捉的画面的正中间，至少具有以下优点：(1)通过检测并识别最大人脸，避免了多用户环境下智能机器人无法准确判断与哪个用户进行交互的现象的发生，使得智能机器人能够并准确地判断待交互的用户，并提高了人机交互的专一性；(2)通过增加智能机器人的运动自由度(如身体左右转动、头部左右转动、头部上下转动)，使得智能机器人更接近人脸，并使得智能机器人在机械运动时更加生动形象。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本发明一个实施例的基于人工智能的智能机器人追踪方法的流程图；

图2是根据本发明另一个实施例的基于人工智能的智能机器人追踪方法的流程图；

图3是根据本发明一个具体实施例的根据声源定位结果控制智能机器人移动到声源位置的流程图；

图4是在图3的示例基础上根据声源定位结果控制智能机器人移动到声源位置的另一个流程图；

图5是根据本发明一个实施例的基于人工智能的智能机器人追踪装置的结构框图；

图6是根据本发明另一个实施例的基于人工智能的智能机器人追踪装置的结构框图；以及

图7是根据本发明又一个实施例的基于人工智能的智能机器人追踪装置的结构框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述根据本发明实施例的基于人工智能的智能机器人追踪方法和装置。

图1是根据本发明一个实施例的基于人工智能的智能机器人追踪方法的流程图。如图1所示，该基于人工智能的智能机器人追踪方法可以包括：

S101，获取智能机器人所捕捉的画面图像，并对画面图像进行人脸检测以判断画面图像中是否有人脸。

具体地，假设智能机器人具有摄像头，可通过摄像头捕捉智能机器人周围的画面，在摄像头捕捉到周围的画面图像之后，可对该画面图像进行人脸检测，检测画面图像中是否有人脸。可以理解，在检测到画面图像中没有人脸时，可控制智能机器人继续捕捉周围的画面。

需要说明的是，在本发明的一个实施例中，在对画面图像进行人脸检测以判断画面图像中是否有人脸之前，该基于人工智能的智能机器人追踪方法还可包括：捕捉用户的人脸图像；获取用户的人脸图像的脸部特征，并将用户的脸部特征作为预设脸部特征；建立用户的脸部特征与用户身份的对应关系。更具体地，在判断智能机器人捕捉的画面图像中是否有人脸之前，可先获取用户的人脸图像的脸部特征，并将该脸部特征作为预设脸部特征，也就是说，在判断智能机器人捕捉的画面图像中是否有人脸之前，可预先建立脸部特征库，以为后续的身份识别功能的实现提供识别依据。

S102，如果判断画面图像中有人脸，则定位画面图像中的最大人脸，并对最大人脸进行身份识别。

具体地，在判断画面图像中有人脸时，可对捕捉到的图像中的每个人脸所对应的矩形框进行大小比对，得到这些矩形框中矩形面积最大的矩形框，该矩形框所对应的人脸即为最大人脸，之后，可对该最大人脸进行身份识别。

具体而言，在本发明的实施例中，对最大人脸进行身份识别的具体实现过程可如下：获取最大人脸的脸部特征；判断最大人脸的脸部特征与预设脸部特征是否匹配；如果最大人脸的脸部特征与预设脸部特征匹配，则确定最大人脸的身份识别成功，并根据对应关系确定最大人脸对应的用户身份。可以理解，如果最大人脸的脸部特征与预设脸部特征不匹配，则确定最大人脸的用户身份验证失败，智能机器人进入待机状态。由此，在检测到最大的人脸之后，对最大人脸进行身份识别，以实现通过智能机器人对用户的身份进行识别的功能，并且通过检测并识别最大人脸，避免了多用户环境下智能机器人无法准确判断与哪个用户进行交互的现象的发生。

需要说明的是，本发明实施例的人脸检测技术不是对捕捉到的每一张图片都进行人脸检测，而是一旦检测到人脸后，智能机器人会存储当前人脸的特征，于是在下一张图片中根据存储的人脸特征直接追踪上一次的人脸，由此，提高了人脸捕获的效率。

S103，当最大人脸的身份识别成功之后，获取最大人脸的位置坐标。

具体而言，在本发明的实施例中，获取最大人脸的位置坐标的具体实现过程可为：根据画面的左上顶点为原点建立平面直角坐标系，其中，画面的水平向右方向为平面直角坐标系的X轴正方向，画面的竖直向下方向为平面直角坐标系的Y轴正方向；根据最大人脸和平面直角坐标系确定最大人脸的位置坐标，其中，位置坐标包括第一坐标点和第二坐标点，第一坐标点为最大人脸的正中央的横坐标，第二坐标点为最大人脸的正中央的纵坐标。此外，本发明实施例的画面可理解为智能机器人中摄像头所捕捉的画面。

更具体地，可以画面的左上顶点为原点、画面的水平向右方向为X轴正方向、画面的竖直向下方向为Y轴正方向，建立平面直角坐标系，之后，可获取画面的宽度和高度，并根据该画面的宽度和高度、与平面直角坐标系即可确定最大人脸的位置坐标点。

S104，根据位置坐标调整智能机器人以使最大人脸位于智能机器人中摄像头所捕捉的画面的正中间。

具体而言，在本发明的实施例中，根据位置坐标调整智能机器人以使最大人脸位于智能机器人中摄像头所捕捉的画面的正中间的具体实现过程可如下：获取画面的宽度和高度；根据画面的宽度和高度以及最大人脸的第一坐标点和第二坐标点，分别计算智能机器人的水平偏移量和俯仰偏移量；根据水平偏移量水平调整智能机器人的头部，并根据俯仰偏移量上下调整智能机器人的头部，以使最大人脸位于智能机器人中摄像头所捕捉的画面的正中间。

更具体地，可先根据画面的宽度以及最大人脸的第一坐标点通过以下式(1)计算智能机器人的水平偏移量horizontal_delta：

horizontal_delta＝(x-width/2)*180/width (1)

其中，上述式(1)中的x为最大人脸的第一坐标点，width为画面的宽度。

在计算水平偏移量的同时，还可根据画面的高度以及最大人脸的第二坐标点通过以下式(2)计算智能机器人的俯仰偏移量vertical_delta：

vertical_delta＝(y-height/2)*180/height (2)

在计算出水平偏移量和俯仰偏移量之后，可根据水平偏移量水平调整智能机器人的头部，并根据俯仰偏移量上下调整智能机器人的头部，以使最大人脸位于智能机器人中摄像头所捕捉的画面的正中间。例如，当x＝width/2时，horizontal_delta＝0，此时人脸在水平正中央，那么智能机器人不需要水平旋转；当x<width/2时，horizontal_delta为负值，则表示智能机器人的头部需要向左水平旋转，旋转幅度为horizotal_delta；当x>width/2时，horizontal_delta为正值，则表示智能机器人的头部需要向右水平旋转，旋转幅度为horizotal_delta。又如，当y＝height/2时，vertical_delta＝0，此时人脸在竖直方向正中央，那么智能机器人不需要上下调整；当y<height/2时，vertical_delta为负值，则表示智能机器人的头部需要向下调整，调整幅度为vertical_delta；当y>height/2时，vertical_delta为正值，则表示智能机器人的头部需要向上调整，调整幅度为vertical_delta。由此，可根据水平偏移量和俯仰偏移量来调整智能机器人的头部，以使最大人脸位于摄像头所捕捉的画面的正中间。

需要说明的是，在根据偏移量调整智能机器人的过程中，为了避免智能机器人频繁运动，可设置水平阈值min_horizontal和俯仰阈值min_vertical：若水平偏移量abs(horizontal_delta)<min_horizontal，则智能机器人不运动；否则，智能机器人头部水平旋转horizontal_delta；若俯仰偏移量abs(vertical_delta)<min_vertical，则智能机器人不运动；否则，智能机器人头部俯仰旋转vertical_delta。其中abs表示绝对值。

此时，智能机器人很可能只是脸朝向用户，但身体、头部都旋转了一定的角度，并不是很自然，需要进一步调整。需要说明的是，在本发明的实施例中，该基于人工智能的智能机器人追踪方法还可包括：在智能机器人回复用户的请求之前，根据最大人脸的位置调整智能机器人以使智能机器人的身体和脸部同时面对用户。更具体地，可通过以下方式以使智能机器人的身体和脸部同时面对用户：1)智能机器人在回复用户的请求时，关闭人脸检测，开始运动；2)如果智能机器人的头部水平偏移量为一定值horizontal_angle，则控制智能机器人的身体水平旋转horizontal_angle，头部反方向水平旋转horizontal_angle；3)对于智能机器人的头部俯仰偏移量不做处理。由此，可使得智能机器人身体、脸同时冲着用户，从而使得智能机器人与用户说话时姿势更加自然。

图2是根据本发明另一个实施例的基于人工智能的智能机器人追踪方法的流程图。如图2所示，该基于人工智能的智能机器人追踪方法可以包括：

S201，检测智能机器人周围的至少一个声源。

例如，可通过ManyEars声源定位技术来检测智能机器人周围的声音，具体地，可根据麦克风阵列来采集声源信号，之后可对声源信号进行有效音频信号检测，并且还可通过ManyEars技术将检测到的多个声源进行分离以得到多个独立的声源。其中，本实施例的术语“至少一个”可理解为一个或多个。

S202，当检测到的至少一个声源的其中一个声源满足预设声源条件时，对其中一个声源进行定位，并根据定位结果控制智能机器人移动至其中一个声源的位置。

具体地，当检测到声源中的某个声源满足预设声源条件时，可通过ManyEars技术中的声源定位运算对上述某个声源进行定位，之后可根据定位结果控制智能机器人移动到该声源的位置，以实现智能机器人追踪声源的目的。具体而言，在本发明的实施例中，可通过以下步骤检测至少一个声源的其中一个声源满足预设声源条件：获取其中一个声源的响度，并判断其中一个声源的响度是否大于响度阈值；如果判断其中一个声源的响度大于响度阈值，则进一步判断其中一个声源的持续时间是否大于或等于时间阈值；以及如果判断其中一个声源的持续时间大于或等于时间阈值，则检测其中一个声源满足预设声源条件。其中，可以理解，上述响度阈值和时间阈值均为预先设定的阈值，可根据实际情况(如人类音量与动物音量的区别、人类发出的音量的范围等)而做出的预先设置值。

更具体地，可先获取至少一个声源中的每个声源的音量大小，之后可判断每个声源的音量大小是否大于响度阈值max_volume，若是，则可认为该声源为最大声源，之后可获取该最大声源的持续时间，并判断该最大声源的持续时间是否大于或等于时间阈值max_time，若是，则可检测该最大声源满足预设声源条件。其中，当声源的音量大小小于或等于响度阈值max_volume，或者，声源的持续时间小于时间阈值max_time时，智能机器人都将会忽略这样的声源。

当检测到满足预设声源条件的声源时，可控制智能机器人移动到该声源的位置。具体地，在本发明的实施例中，如图3所示，对其中一个声源进行定位，并根据定位结果控制智能机器人移动至其中一个声源的位置的具体实现方式可包括：获取其中一个声源的第一位置坐标和智能机器人的第二位置坐标(S301)；根据第一位置坐标和第二位置坐标计算第一位置坐标与第二位置坐标的水平角度差(S302)；判断水平角度差是否大于水平角度阈值(S303)；如果判断水平角度差大于水平角度阈值，则根据水平角度差和水平角度阈值计算智能机器人的身体的水平旋转角度，并根据身体的水平旋转角度控制智能机器人的身体进行水平旋转，以及根据水平角度阈值水平旋转智能机器人的头部(S304)；如果判断水平角度差小于或等于水平角度阈值，则根据水平角度差控制智能机器人的头部水平旋转至其中一个声源的位置(S305)。

更具体地，可通过声源定位技术获取上述其中一个声源的第一位置坐标和智能机器人的当前第二位置坐标，之后可根据这两个位置坐标计算两者之间的水平角度差，并判断该水平角度差delta_angle是否大于水平角度阈值horizontal_angle，若是，则先控制智能机器人水平转动身体，转动角度为delta_angle-horizontal_angle，即水平角度差-水平角度阈值，之后，可控制智能机器人的头部进行水平转动，转动角度为水平角度阈值horizontal_angle；当判断水平角度差小于或等于水平角度阈值时，只可水平转动智能机器人的头部到指定位置即可，转动角度为水平角度差。

需要说明的是，在根据定位结果控制智能机器人进行机械运动时，可先控制智能机器人进行水平方向的运动，在水平方向的运行之后可进行俯仰方向的运动。因此，当智能机器人水平旋转完成之后，还需判断是否需要俯仰方向的运动，即如图4所示，在图3的基础上，根据定位结果控制智能机器人移动至其中一个声源的位置的实现方式还可包括如下步骤：根据第一位置坐标和第二位置坐标计算第一位置坐标与第二位置坐标的俯仰角度差(S406)；判断俯仰角度差是否大于俯仰角度阈值(S407)；如果判断俯仰角度差大于俯仰角度阈值，则根据俯仰角度差控制智能机器人的头部俯仰旋转至其中一个声源的位置(S408)；如果判断俯仰角度差小于或等于俯仰角度阈值，则控制智能机器人的头部保持不动(S409)。

具体地，在计算出上述其中一个声源与智能机器人的俯仰角度差之后，可判断仰角度差delta是否大于俯仰角度阈值vertical_angle，若是，则控制智能机器人的头部俯仰旋转到指定位置，旋转角度为俯仰角度阈值；否则，控制智能机器人的头部保持不变，即不旋转。可以理解，当俯仰旋转完毕后，智能机器人的声源定位结束，此时会关闭声源定位，启动人脸检测，并进行机械运动，以追踪正在说话的用户。

S203，当智能机器人移动至其中一个声源的位置时，获取智能机器人所捕捉的画面图像。

S204，对画面图像进行人脸检测以判断画面图像中是否有人脸。

S205，如果判断画面图像中有人脸，则定位画面图像中的最大人脸，并对最大人脸进行身份识别。

S206，当最大人脸的身份识别成功之后，获取最大人脸的位置坐标。

S207，根据位置坐标调整智能机器人以使最大人脸位于智能机器人中摄像头所捕捉的画面的正中间。

本发明实施例的基于人工智能的智能机器人追踪方法，在获取智能机器人所捕捉的画面图像之前，可先检测智能机器人周围的至少一个声源，当检测到的至少一个声源的其中一个声源满足预设声源条件时，对其中一个声源进行定位，并根据定位结果控制智能机器人移动至其中一个声源的位置，并在智能机器人移动至其中一个声源的位置时，获取智能机器人所捕捉的画面图像，使得智能机器人先通过声源定位到说话人的位置，然后在通过人脸定位到最大人脸的用户，使得智能机器人的用户追踪更加精确，扩展了智能机器人的追踪功能。

为了实现上述实施例，本发明还提出了一种基于人工智能的智能机器人追踪装置。

图5是根据本发明一个实施例的基于人工智能的智能机器人追踪装置的结构框图。如图5所示，该基于人工智能的智能机器人追踪装置可以包括：第一获取模块10、检测模块20、识别模块30、第二获取模块40和调整模块50。

具体地，第一获取模块10可用于获取智能机器人所捕捉的画面图像。检测模块20可用于对画面图像进行人脸检测以判断画面图像中是否有人脸。

更具体地，假设智能机器人具有摄像头，第一获取模块10可通过摄像头捕捉智能机器人周围的画面，在摄像头捕捉到周围的画面图像之后，检测模块20可对该画面图像进行人脸检测，检测画面图像中是否有人脸。可以理解，在检测到画面图像中没有人脸时，可控制智能机器人继续捕捉周围的画面。

进一步的，在本发明的一个实施例中，如图6所示，该基于人工智能的智能机器人追踪装置还可包括：捕捉模块60、第二获取模块70和建立模块80。具体地，捕捉模块60可用于捕捉用户的人脸图像。第二获取模块70可用于用于获取用户的人脸图像的脸部特征，并将用户的脸部特征作为预设脸部特征。建立模块80可用于建立用户的脸部特征与用户身份的对应关系。更具体地，在检测模块20判断智能机器人捕捉的画面图像中是否有人脸之前，捕捉模块60可先获取用户的人脸图像的脸部特征，之后，第二获取模块70将该脸部特征作为预设脸部特征，也就是说，在判断智能机器人捕捉的画面图像中是否有人脸之前，可预先建立脸部特征库，以为后续的身份识别功能的实现提供识别依据。

识别模块30可用于在检测模块20判断画面图像中有人脸时，定位画面图像中的最大人脸，并对最大人脸进行身份识别。更具体地，在检测模块20判断画面图像中有人脸时，识别模块30可对捕捉到的图像中的每个人脸所对应的矩形框进行大小比对，得到这些矩形框中矩形面积最大的矩形框，该矩形框所对应的人脸即为最大人脸，之后，可对该最大人脸进行身份识别。

具体而言，在本发明的实施例中，识别模块30对最大人脸进行身份识别的具体实现过程可如下：获取最大人脸的脸部特征；判断最大人脸的脸部特征与预设脸部特征是否匹配；如果最大人脸的脸部特征与预设脸部特征匹配，则根据对应关系确定最大人脸对应的用户身份。可以理解，如果最大人脸的脸部特征与预设脸部特征不匹配，则确定最大人脸的用户身份验证失败，智能机器人进入待机状态。由此，在检测到最大的人脸之后，对最大人脸进行身份识别，以实现通过智能机器人对用户的身份进行识别的功能，并且通过检测并识别最大人脸，避免了多用户环境下智能机器人无法准确判断与哪个用户进行交互的现象的发生。

第二获取模块40可用于获取最大人脸的位置坐标。具体而言，在本发明的实施例中，第二获取模块40获取最大人脸的位置坐标的具体实现过程可如下：根据画面的左上顶点为原点建立平面直角坐标系，其中，画面的水平向右方向为平面直角坐标系的X轴正方向，画面的竖直向下方向为平面直角坐标系的Y轴正方向；根据最大人脸和平面直角坐标系确定最大人脸的位置坐标，其中，位置坐标包括第一坐标点和第二坐标点，第一坐标点为最大人脸的正中央的横坐标，第二坐标点为最大人脸的正中央的纵坐标。此外，本发明实施例的画面可理解为智能机器人中摄像头所捕捉的画面。

更具体地，第二获取模块40可以画面的左上顶点为原点、画面的水平向右方向为X轴正方向、画面的竖直向下方向为Y轴正方向，建立平面直角坐标系，之后，可获取画面的宽度和高度，并根据该画面的宽度和高度、与平面直角坐标系即可确定最大人脸的位置坐标点。

调整模块50可用于根据位置坐标调整智能机器人以使最大人脸位于智能机器人中摄像头所捕捉的画面的正中间。具体而言，在本发明的实施例中，调整模块50根据位置坐标调整智能机器人以使最大人脸位于智能机器人中摄像头所捕捉的画面的正中间的具体实现过程可如下：获取画面的宽度和高度；根据画面的宽度和高度以及最大人脸的第一坐标点和第二坐标点，分别计算智能机器人的水平偏移量和俯仰偏移量；根据水平偏移量水平调整智能机器人的头部，并根据俯仰偏移量上下调整智能机器人的头部，以使最大人脸位于智能机器人中摄像头所捕捉的画面的正中间。

更具体地，调整模块50可先根据画面的宽度以及最大人脸的第一坐标点通过以下式(1)计算智能机器人的水平偏移量horizontal_delta：

horizontal_delta＝(x-width/2)*180/width (1)

调整模块50在计算水平偏移量的同时，还可根据画面的高度以及最大人脸的第二坐标点通过以下式(2)计算智能机器人的俯仰偏移量vertical_delta：

vertical_delta＝(y-height/2)*180/height (2)

调整模块50在计算出水平偏移量和俯仰偏移量之后，可根据水平偏移量水平调整智能机器人的头部，并根据俯仰偏移量上下调整智能机器人的头部，以使最大人脸位于智能机器人中摄像头所捕捉的画面的正中间。例如，当x＝width/2时，horizontal_delta＝0，此时人脸在水平正中央，那么智能机器人不需要水平旋转；当x<width/2时，horizontal_delta为负值，则表示智能机器人的头部需要向左水平旋转，旋转幅度为horizotal_delta；当x>width/2时，horizontal_delta为正值，则表示智能机器人的头部需要向右水平旋转，旋转幅度为horizotal_delta。又如，当y＝height/2时，vertical_delta＝0，此时人脸在竖直方向正中央，那么智能机器人不需要上下调整；当y<height/2时，vertical_delta为负值，则表示智能机器人的头部需要向下调整，调整幅度为vertical_delta；当y>height/2时，vertical_delta为正值，则表示智能机器人的头部需要向上调整，调整幅度为vertical_delta。由此，可根据水平偏移量和俯仰偏移量来调整智能机器人的头部，以使最大人脸位于摄像头所捕捉的画面的正中间。

此时，智能机器人很可能只是脸朝向用户，但身体、头部都旋转了一定的角度，并不是很自然，需要进一步调整。需要说明的是，在本发明的实施例中，调整模块50还可用于在智能机器人回复用户的请求之前，根据最大人脸的位置调整智能机器人以使智能机器人的身体和脸部同时面对用户。更具体地，调整模块50可通过以下方式以使智能机器人的身体和脸部同时面对用户：1)智能机器人在回复用户的请求时，关闭人脸检测，开始运动；2)如果智能机器人的头部水平偏移量为一定值horizontal_angle，则控制智能机器人的身体水平旋转horizontal_angle，头部反方向水平旋转horizontal_angle；3)对于智能机器人的头部俯仰偏移量不做处理。由此，可使得智能机器人身体、脸同时冲着用户，从而使得智能机器人与用户说话时姿势更加自然。

本发明实施例的基于人工智能的智能机器人追踪装置，可通过第一获取模块获取智能机器人所捕捉的画面图像，检测模块对画面图像进行人脸检测以判断画面图像中是否有人脸，若有，则识别模块定位画面图像中的最大人脸，并对最大人脸进行身份识别，当最大人脸的身份识别成功之后，第二获取模块获取最大人脸的位置坐标，调整模块根据位置坐标调整智能机器人以使最大人脸位于智能机器人中摄像头所捕捉的画面的正中间，至少具有以下优点：(1)通过检测并识别最大人脸，避免了多用户环境下智能机器人无法准确判断与哪个用户进行交互的现象的发生，使得智能机器人能够并准确地判断待交互的用户，并提高了人机交互的专一性；(2)通过增加智能机器人的运动自由度(如身体左右转动、头部左右转动、头部上下转动)，使得智能机器人更接近人脸，并使得智能机器人在机械运动时更加生动形象。

进一步的，在本发明的一个实施例中，如图7所示，该基于人工智能的智能机器人追踪装置还可包括：第二检测模块90和控制模块100。

具体地，第二检测模块90在第一获取模块10获取智能机器人所捕捉的画面图像之前，检测智能机器人周围的至少一个声源。例如，在第一获取模块10获取智能机器人所捕捉的画面图像之前，第二检测模块90可通过ManyEars声源定位技术来检测智能机器人周围的声音，具体地，可根据麦克风阵列来采集声源信号，之后可对声源信号进行有效音频信号检测，并且还可通过ManyEars技术将检测到的多个声源进行分离以得到多个独立的声源。其中，本实施例的术语“至少一个”可理解为一个或多个。

具体而言，在本发明的实施例中，第二检测模块90可通过以下步骤检测所述至少一个声源的其中一个声源满足预设声源条件：获取其中一个声源的响度，并判断其中一个声源的响度是否大于响度阈值；如果判断其中一个声源的响度大于响度阈值，则进一步判断其中一个声源的持续时间是否大于或等于时间阈值；以及如果判断其中一个声源的持续时间大于或等于时间阈值，则检测其中一个声源满足预设声源条件。其中，可以理解，上述响度阈值和时间阈值均为预先设定的阈值，可根据实际情况(如人类音量与动物音量的区别、人类发出的音量的范围等)而做出的预先设置值。

更具体地，第二检测模块90可先获取至少一个声源中的每个声源的音量大小，之后可判断每个声源的音量大小是否大于响度阈值max_volume，若是，则可认为该声源为最大声源，之后可获取该最大声源的持续时间，并判断该最大声源的持续时间是否大于或等于时间阈值max_time，若是，则可检测该最大声源满足预设声源条件。其中，当声源的音量大小小于或等于响度阈值max_volume，或者，声源的持续时间小于时间阈值max_time时，智能机器人都将会忽略这样的声源。

控制模块100可用于在第二检测模块90检测到的至少一个声源的其中一个声源满足预设声源条件时，对其中一个声源进行定位，并根据定位结果控制智能机器人移动至其中一个声源的位置。具体而言，在本发明的实施例中，控制模块100对其中一个声源进行定位，并根据定位结果控制智能机器人移动至其中一个声源的位置的具体实现方式可如下：获取其中一个声源的第一位置坐标和智能机器人的第二位置坐标；根据第一位置坐标和第二位置坐标计算第一位置坐标与第二位置坐标的水平角度差；判断水平角度差是否大于水平角度阈值；如果判断水平角度差大于水平角度阈值，则根据水平角度差和水平角度阈值计算智能机器人的身体的水平旋转角度，并根据身体的水平旋转角度控制智能机器人的身体进行水平旋转，以及根据水平角度阈值水平旋转智能机器人的头部；如果判断水平角度差小于或等于水平角度阈值，则根据水平角度差控制智能机器人的头部水平旋转至其中一个声源的位置。

更具体地，控制模块100可通过声源定位技术获取上述其中一个声源的第一位置坐标和智能机器人的当前第二位置坐标，之后可根据这两个位置坐标计算两者之间的水平角度差，并判断该水平角度差delta_angle是否大于水平角度阈值horizontal_angle，若是，则先控制智能机器人水平转动身体，转动角度为delta_angle-horizontal_angle，即水平角度差-水平角度阈值，之后，可控制智能机器人的头部进行水平转动，转动角度为水平角度阈值horizontal_angle；当判断水平角度差小于或等于水平角度阈值时，只可水平转动智能机器人的头部到指定位置即可，转动角度为水平角度差。

需要说明的是，在根据定位结果控制智能机器人进行机械运动时，可先控制智能机器人进行水平方向的运动，在水平方向的运行之后可进行俯仰方向的运动。因此，当智能机器人水平旋转完成之后，控制模块100还需判断是否需要俯仰方向的运动，具体地，控制模块100还可用于：根据第一位置坐标和第二位置坐标计算第一位置坐标与第二位置坐标的俯仰角度差；判断俯仰角度差是否大于俯仰角度阈值；如果判断俯仰角度差大于俯仰角度阈值，则根据俯仰角度差控制智能机器人的头部俯仰旋转至其中一个声源的位置；如果判断俯仰角度差小于或等于俯仰角度阈值，则控制智能机器人的头部保持不动。

更具体地，在计算出上述其中一个声源与智能机器人的俯仰角度差之后，控制模块100可判断仰角度差delta是否大于俯仰角度阈值vertical_angle，若是，则控制智能机器人的头部俯仰旋转到指定位置，旋转角度为俯仰角度阈值；否则，控制智能机器人的头部保持不变，即不旋转。可以理解，当俯仰旋转完毕后，智能机器人的声源定位结束，此时会关闭声源定位，启动人脸检测，并进行机械运动，以追踪正在说话的用户。

在本发明的实施例中，第一获取模块10还可用于在智能机器人移动至其中一个声源的位置时，获取智能机器人所捕捉的画面图像。

由此，在获取智能机器人所捕捉的画面图像之前，第二检测模块可检测智能机器人周围的至少一个声源，当检测到的至少一个声源的其中一个声源满足预设声源条件时，控制模块对其中一个声源进行定位，并根据定位结果控制智能机器人移动至其中一个声源的位置，并在智能机器人移动至其中一个声源的位置时，获取智能机器人所捕捉的画面图像，使得智能机器人先通过声源定位到说话人的位置，然后在通过人脸定位到最大人脸的用户，使得智能机器人的用户追踪更加精确，扩展了智能机器人的追踪功能。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于人工智能的智能机器人追踪方法，其特征在于，包括以下步骤：

检测所述智能机器人周围的至少一个声源；

当检测到的所述至少一个声源的其中一个声源满足预设声源条件时，对所述其中一个声源进行定位，并根据定位结果控制所述智能机器人移动至所述其中一个声源的位置，其中，所述满足预设声源条件包括声源的响度大于响度阈值和声源的持续时间大于或等于时间阈值；

当所述智能机器人移动至所述其中一个声源的位置时，获取所述智能机器人所捕捉的画面图像，并对所述画面图像进行人脸检测以判断所述画面图像中是否有人脸；

如果判断所述画面图像中有人脸，则定位所述画面图像中的最大人脸，并对所述最大人脸进行身份识别；

当所述最大人脸的身份识别成功之后，获取所述最大人脸的位置坐标；以及

根据所述位置坐标调整所述智能机器人以使所述最大人脸位于所述智能机器人中摄像头所捕捉的画面的正中间；

在所述智能机器人回复用户的请求之前，根据所述最大人脸的位置调整所述智能机器人以使所述智能机器人的身体和脸部同时面对用户；

其中，通过以下方式以使所述智能机器人的身体和脸部同时面对用户：

所述智能机器人在回复所述用户的请求时，关闭人脸检测，开始运动；

如果所述智能机器人的头部水平偏移量为目标值horizontal_angle，则控制所述智能机器人的身体水平旋转所述目标值horizontal_angle，头部反方向水平旋转所述目标值horizontal_angle；

对于所述智能机器人的头部俯仰偏移量不做处理；

其中，所述智能机器人追踪方法在检测到人脸后，存储当前人脸的特征，并在下一张图片中根据存储的人脸特征直接追踪上一次的人脸。

2.如权利要求1所述的方法，其特征在于，在对所述画面图像进行人脸检测以判断所述画面图像中是否有人脸之前，所述方法还包括：

捕捉用户的人脸图像；

获取所述用户的人脸图像的脸部特征，并将所述用户的脸部特征作为预设脸部特征；

建立所述用户的脸部特征与用户身份的对应关系。

3.如权利要求2所述的方法，其特征在于，对所述最大人脸进行身份识别，具体包括：

获取所述最大人脸的脸部特征；

判断所述最大人脸的脸部特征与所述预设脸部特征是否匹配；

如果所述最大人脸的脸部特征与所述预设脸部特征匹配，则确定所述最大人脸的身份识别成功，并根据所述对应关系确定所述最大人脸对应的用户身份。

4.如权利要求1所述的方法，其特征在于，获取所述最大人脸的位置坐标，具体包括：

根据所述画面的左上顶点为原点建立平面直角坐标系，其中，所述画面的水平向右方向为所述平面直角坐标系的X轴正方向，所述画面的竖直向下方向为所述平面直角坐标系的Y轴正方向；

根据所述最大人脸和所述平面直角坐标系确定所述最大人脸的位置坐标，其中，所述位置坐标包括第一坐标点和第二坐标点，所述第一坐标点为所述最大人脸的正中央的横坐标，所述第二坐标点为所述最大人脸的正中央的纵坐标。

5.如权利要求4所述的方法，其特征在于，根据所述位置坐标调整所述智能机器人以使所述最大人脸位于所述智能机器人中摄像头所捕捉的画面的正中间，具体包括：

获取所述画面的宽度和高度；

根据所述画面的宽度和高度以及所述最大人脸的所述第一坐标点和第二坐标点，分别计算所述智能机器人的水平偏移量和俯仰偏移量；

根据所述水平偏移量水平调整所述智能机器人的头部，并根据所述俯仰偏移量上下调整所述智能机器人的头部，以使所述最大人脸位于所述智能机器人中摄像头所捕捉的画面的正中间。

6.如权利要求1所述的方法，其特征在于，通过以下步骤检测所述至少一个声源的其中一个声源满足预设声源条件：

获取所述其中一个声源的响度，并判断所述其中一个声源的响度是否大于响度阈值；

如果判断所述其中一个声源的响度大于所述响度阈值，则进一步判断所述其中一个声源的持续时间是否大于或等于时间阈值；以及

如果判断所述其中一个声源的持续时间大于或等于所述时间阈值，则检测所述其中一个声源满足所述预设声源条件。

7.如权利要求1所述的方法，其特征在于，对所述其中一个声源进行定位，并根据定位结果控制所述智能机器人移动至所述其中一个声源的位置，具体包括：

获取所述其中一个声源的第一位置坐标和所述智能机器人的第二位置坐标；

根据所述第一位置坐标和所述第二位置坐标计算所述第一位置坐标与所述第二位置坐标的水平角度差；

判断所述水平角度差是否大于水平角度阈值；

如果判断所述水平角度差大于所述水平角度阈值，则根据所述水平角度差和水平角度阈值计算所述智能机器人的身体的水平旋转角度，并根据所述身体的水平旋转角度控制所述智能机器人的身体进行水平旋转，以及根据所述水平角度阈值水平旋转所述智能机器人的头部；

如果判断所述水平角度差小于或等于所述水平角度阈值，则根据所述水平角度差控制所述智能机器人的头部水平旋转至所述其中一个声源的位置。

8.如权利要求7所述的方法，其特征在于，对所述其中一个声源进行定位，并根据定位结果控制所述智能机器人移动至所述其中一个声源的位置，还具体包括：

根据所述第一位置坐标和所述第二位置坐标计算所述第一位置坐标与所述第二位置坐标的俯仰角度差；

判断所述俯仰角度差是否大于俯仰角度阈值；

如果判断所述俯仰角度差大于所述俯仰角度阈值，则根据所述俯仰角度差控制所述智能机器人的头部俯仰旋转至所述其中一个声源的位置；

如果判断所述俯仰角度差小于或等于所述俯仰角度阈值，则控制所述智能机器人的头部保持不动。

9.一种基于人工智能的智能机器人追踪装置，其特征在于，包括：

第二检测模块，用于检测所述智能机器人周围的至少一个声源；

控制模块，用于在所述第二检测模块检测到的所述至少一个声源的其中一个声源满足预设声源条件时，对所述其中一个声源进行定位，并根据定位结果控制所述智能机器人移动至所述其中一个声源的位置，其中，所述满足预设声源条件包括声源的响度大于响度阈值和声源的持续时间大于或等于时间阈值；

第一获取模块，用于在所述智能机器人移动至所述其中一个声源的位置时，获取所述智能机器人所捕捉的画面图像；

第一检测模块，用于对所述画面图像进行人脸检测以判断所述画面图像中是否有人脸；

识别模块，用于在所述第一检测模块判断所述画面图像中有人脸时，定位所述画面图像中的最大人脸，并对所述最大人脸进行身份识别；

第二获取模块，用于在所述最大人脸的身份识别成功之后，获取所述最大人脸的位置坐标；

调整模块，用于根据所述位置坐标调整所述智能机器人以使所述最大人脸位于所述智能机器人中摄像头所捕捉的画面的正中间；

所述调整模块还用于在所述智能机器人回复用户的请求之前，根据所述最大人脸的位置调整所述智能机器人以使所述智能机器人的身体和脸部同时面对用户；

其中，所述调整模块通过以下方式以使所述智能机器人的身体和脸部同时面对用户：

对于所述智能机器人的头部俯仰偏移量不做处理；

其中，所述智能机器人追踪装置在检测到人脸后，存储当前人脸的特征，并在下一张图片中根据存储的人脸特征直接追踪上一次的人脸。

10.如权利要求9所述的装置，其特征在于，还包括：

捕捉模块，用于捕捉用户的人脸图像；

第三获取模块，用于获取所述用户的人脸图像的脸部特征，并将所述用户的脸部特征作为预设脸部特征；

建立模块，用于建立所述用户的脸部特征与用户身份的对应关系。

11.如权利要求10所述的装置，其特征在于，所述识别模块具体用于：

获取所述最大人脸的脸部特征；

12.如权利要求9所述的装置，其特征在于，所述第二获取模块具体用于：

13.如权利要求12所述的装置，其特征在于，所述调整模块具体用于：

获取所述画面的宽度和高度；

14.如权利要求9所述的装置，其特征在于，所述第二检测模块具体用于：

15.如权利要求9所述的装置，其特征在于，所述控制模块具体用于：

判断所述水平角度差是否大于水平角度阈值；

16.如权利要求15所述的装置，其特征在于，所述控制模块还具体用于：

判断所述俯仰角度差是否大于俯仰角度阈值；