CN105116920A

CN105116920A - 基于人工智能的智能机器人追踪方法、装置及智能机器人

Info

Publication number: CN105116920A
Application number: CN201510394607.7A
Authority: CN
Inventors: 戴腾; 李江勇; 王昕煜; 李峥; 苏航; 葛行飞; 李佳霖
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-07-07
Filing date: 2015-07-07
Publication date: 2015-12-02
Anticipated expiration: 2035-07-07
Also published as: CN105116920B

Abstract

本发明公开了一种基于人工智能的智能机器人追踪方法、装置及智能机器人，其中方法包括：检测智能机器人周围的至少一个声源；当检测到的至少一个声源的其中一个声源满足预设声源条件时，对其中一个声源进行定位，并根据定位结果控制智能机器人移动至上述声源的位置；当智能机器人移动至上述的位置时，判断其中一个声源的位置的附近是否有人脸；若有，则识别人脸中的最大人脸，并定位最大人脸的位置；根据最大人脸的位置调整智能机器人以使最大人脸位于智能机器人中摄像头所捕捉的画面的正中间。该方法结合声源定位和人脸检测等多方面技术来实现用户的追踪定位，提高智能机器人的定位效果，提高准确性，使得智能机器人能够主动寻找用户。

Description

基于人工智能的智能机器人追踪方法、装置及智能机器人

技术领域

本发明涉及智能终端技术领域，尤其涉及一种基于人工智能(ArtificialIntelligence，简称：AI)的智能机器人追踪方法、追踪装置以及一种具有该追踪装置的智能机器人。

背景技术

智能机器人面临着的世界是一个可以提供复杂多变信息的世界，要使得智能机器人为人类服务就需要它对各种应用环境都具有相应的信息获取方式和处理方法，同时还需要它可以根据环境的变化做出不同的决策。而智能机器人一般通过传感器来输入外部环境信息，并根据输入的外部环境信息以做出相应的操作。

随着人们对智能机器人要求的不断提高，希望智能机器人能够实现更多的智能操作，例如，可通过声源定位技术实现用户的定位、或者通过颜色识别来实现导航追踪功能等。但是，可以看出，上述定位追踪一般都是通过智能机器人的某一方面的技术来实现的，而这种实现方式往往比较片面，准确性低，导致定位效果比较差。

发明内容

本发明的目的旨在至少在一定程度上解决上述的技术问题之一。

为此，本发明的第一个目的在于提出一种基于人工智能的智能机器人追踪方法。该方法同时结合声源定位和人脸检测等多方面技术来实现用户的追踪定位，提高了智能机器人的定位效果，提高了准确性，并且使得智能机器人具有听觉、视觉、机械运动的能力，能够主动寻找用户，使得人机交互更加有趣。

本发明的第二个目的在于提出一种基于人工智能的智能机器人追踪装置。

本发明的第三个目的在于提出一种智能机器人。

为了实现上述目的，本发明第一方面实施例的基于人工智能的智能机器人追踪方法，包括：检测所述智能机器人周围的至少一个声源；当检测到的所述至少一个声源的其中一个声源满足预设声源条件时，对所述其中一个声源进行定位，并根据定位结果控制所述智能机器人移动至所述其中一个声源的位置；当所述智能机器人移动至所述其中一个声源的位置时，判断所述其中一个声源的位置的附近是否有人脸；如果判断所述其中一个声源的位置的附近有人脸，则识别所述人脸中的最大人脸，并定位所述最大人脸的位置；以及根据所述最大人脸的位置调整所述智能机器人以使所述最大人脸位于所述智能机器人中摄像头所捕捉的画面的正中间。

本发明实施例的基于人工智能的智能机器人追踪方法，可检测智能机器人周围的声源，当检测到的声源中某个声源满足预设声源条件时，对该声源进行定位，并根据定位结果控制智能机器人移动至该声源的位置，当智能机器人移动至该声源的位置时，判断该声源的位置的附近是否有人脸，若有，则识别人脸中的最大人脸，并定位最大人脸的位置，以及根据最大人脸的位置调整智能机器人以使最大人脸位于智能机器人中摄像头所捕捉的画面的正中间，至少具有以下优点：(1)通过上述声源定位和人脸检测，使得智能机器人不再仅仅是机械设备，使得智能机器人具有听觉、视觉、机械运动的能力，能够主动寻找用户，使得人机交互更加有趣；(2)在控制智能机器人进行机械运动时，机械运动的自由度有3维(如身体左右转动、头部左右转动、头部上下转动)，使得智能机器人更接近人脸，运动起来更加生动形象；(3)同时结合声源定位和人脸检测等多方面技术来实现用户的追踪定位，提高了智能机器人的定位效果，提高了准确性。

为了实现上述目的，本发明第二方面实施例的基于人工智能的智能机器人追踪装置，包括：检测模块，用于检测所述智能机器人周围的至少一个声源；控制模块，用于在所述检测模块检测到的所述至少一个声源的其中一个声源满足预设声源条件时，对所述其中一个声源进行定位，并根据定位结果控制所述智能机器人移动至所述其中一个声源的位置；判断模块，用于在所述智能机器人移动至所述其中一个声源的位置时，判断所述其中一个声源的位置的附近是否有人脸；定位模块，用于在所述判断模块判断所述其中一个声源的位置的附近有人脸时，识别所述人脸中的最大人脸，并定位所述最大人脸的位置；以及调整模块，用于根据所述最大人脸的位置调整所述智能机器人以使所述最大人脸位于所述智能机器人中摄像头所捕捉的画面的正中间。

本发明实施例的基于人工智能的智能机器人追踪装置，可通过检测模块检测智能机器人周围的声源，当检测到的声源中某个声源满足预设声源条件时，控制模块对该声源进行定位，并根据定位结果控制智能机器人移动至该声源的位置，当智能机器人移动至该声源的位置时，判断模块判断该声源的位置的附近是否有人脸，若有，则定位模块识别人脸中的最大人脸，并定位最大人脸的位置，调整模块根据最大人脸的位置调整智能机器人以使最大人脸位于智能机器人中摄像头所捕捉的画面的正中间，至少具有以下优点：(1)通过上述声源定位和人脸检测，使得智能机器人不再仅仅是机械设备，使得智能机器人具有听觉、视觉、机械运动的能力，能够主动寻找用户，使得人机交互更加有趣；(2)在控制智能机器人进行机械运动时，机械运动的自由度有3维(如身体左右转动、头部左右转动、头部上下转动)，使得智能机器人更接近人脸，运动起来更加生动形象；(3)同时结合声源定位和人脸检测等多方面技术来实现用户的追踪定位，提高了智能机器人的定位效果，提高了准确性。

为了实现上述目的，本发明第三方面实施例的智能机器人，包括：本发明第二方面实施例的基于人工智能的智能机器人追踪装置。

本发明实施例的智能机器人，可通过追踪装置中的检测模块检测智能机器人周围的声源，当检测到的声源中某个声源满足预设声源条件时，控制模块对该声源进行定位，并根据定位结果控制智能机器人移动至该声源的位置，当智能机器人移动至该声源的位置时，判断模块判断该声源的位置的附近是否有人脸，若有，则定位模块识别人脸中的最大人脸，并定位最大人脸的位置，调整模块根据最大人脸的位置调整智能机器人以使最大人脸位于智能机器人中摄像头所捕捉的画面的正中间，至少具有以下优点：(1)通过上述声源定位和人脸检测，使得智能机器人不再仅仅是机械设备，使得智能机器人具有听觉、视觉、机械运动的能力，能够主动寻找用户，使得人机交互更加有趣；(2)在控制智能机器人进行机械运动时，机械运动的自由度有3维(如身体左右转动、头部左右转动、头部上下转动)，使得智能机器人更接近人脸，运动起来更加生动形象；(3)同时结合声源定位和人脸检测等多方面技术来实现用户的追踪定位，提高了智能机器人的定位效果，提高了准确性。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本发明一个实施例的基于人工智能的智能机器人追踪方法的流程图；

图2是根据本发明一个具体实施例的根据声源定位结果控制智能机器人移动到声源位置的流程图；

图3是在图2的示例基础上根据声源定位结果控制智能机器人移动到声源位置的另一个流程图；

图4是根据本发明一个实施例的基于人工智能的智能机器人追踪装置的结构框图；

图5是根据本发明一个实施例的检测模块的结构框图；以及

图6是根据本发明一个实施例的控制模块的结构框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述根据本发明实施例的基于人工智能的智能机器人追踪方法、追踪装置和具有该追踪装置的智能机器人。

图1是根据本发明一个实施例的基于人工智能的智能机器人追踪方法的流程图。如图1所示，该基于人工智能的智能机器人追踪方法可以包括：

S101，检测智能机器人周围的至少一个声源。

例如，可通过ManyEars声源定位技术来检测智能机器人周围的声音，具体地，可根据麦克风阵列来采集声源信号，之后可对声源信号进行有效音频信号检测，并且还可通过ManyEars技术将检测到的多个声源进行分离以得到多个独立的声源。其中，本实施例的术语“至少一个”可理解为一个或多个。

S102，当检测到的至少一个声源的其中一个声源满足预设声源条件时，对其中一个声源进行定位，并根据定位结果控制智能机器人移动至其中一个声源的位置。

具体地，当检测到声源中的某个声源满足预设声源条件时，可通过ManyEars技术中的声源定位运算对上述某个声源进行定位，之后可根据定位结果控制智能机器人移动到该声源的位置，以实现智能机器人追踪声源的目的。

具体而言，在本发明的实施例中，可通过以下步骤检测至少一个声源的其中一个声源满足预设声源条件：获取其中一个声源的响度，并判断其中一个声源的响度是否大于响度阈值；如果判断其中一个声源的响度大于响度阈值，则进一步判断其中一个声源的持续时间是否大于或等于时间阈值；以及如果判断其中一个声源的持续时间大于或等于时间阈值，则检测其中一个声源满足预设声源条件。其中，可以理解，上述响度阈值和时间阈值均为预先设定的阈值，可根据实际情况(如人类音量与动物音量的区别、人类发出的音量的范围等)而做出的预先设置值。

更具体地，可先获取至少一个声源中的每个声源的音量大小，之后可判断每个声源的音量大小是否大于响度阈值max_volume，若是，则可认为该声源为最大声源，之后可获取该最大声源的持续时间，并判断该最大声源的持续时间是否大于或等于时间阈值max_time，若是，则可检测该最大声源满足预设声源条件。其中，当声源的音量大小小于或等于响度阈值max_volume，或者，声源的持续时间小于时间阈值max_time时，智能机器人都将会忽略这样的声源。

当检测到满足预设声源条件的声源时，可控制智能机器人移动到该声源的位置。具体地，在本发明的实施例中，如图2所示，对其中一个声源进行定位，并根据定位结果控制智能机器人移动至其中一个声源的位置的具体实现方式可包括：获取其中一个声源的第一位置坐标和智能机器人的第二位置坐标(S201)；根据第一位置坐标和第二位置坐标计算第一位置坐标与第二位置坐标的水平角度差(S202)；判断水平角度差是否大于水平角度阈值(S203)；如果判断水平角度差大于水平角度阈值，则根据水平角度差和水平角度阈值计算智能机器人的身体的水平旋转角度，并根据身体的水平旋转角度控制智能机器人的身体进行水平旋转，以及根据水平角度阈值水平旋转智能机器人的头部(S204)；如果判断水平角度差小于或等于水平角度阈值，则根据水平角度差控制智能机器人的头部水平旋转至其中一个声源的位置(S205)。

更具体地，可通过声源定位技术获取上述其中一个声源的第一位置坐标和智能机器人的当前第二位置坐标，之后可根据这两个位置坐标计算两者之间的水平角度差，并判断该水平角度差delta_angle是否大于水平角度阈值horizontal_angle，若是，则先控制智能机器人水平转动身体，转动角度为delta_angle-horizontal_angle，即水平角度差-水平角度阈值，之后，可控制智能机器人的头部进行水平转动，转动角度为水平角度阈值horizontal_angle；当判断水平角度差小于或等于水平角度阈值时，只可水平转动智能机器人的头部到指定位置即可，转动角度为水平角度差。

需要说明的是，在根据定位结果控制智能机器人进行机械运动时，可先控制智能机器人进行水平方向的运动，在水平方向的运行之后可进行俯仰方向的运动。因此，当智能机器人水平旋转完成之后，还需判断是否需要俯仰方向的运动，即如图3所示，在图2的基础上，根据定位结果控制智能机器人移动至其中一个声源的位置的实现方式还可包括如下步骤：根据第一位置坐标和第二位置坐标计算第一位置坐标与第二位置坐标的俯仰角度差(S306)；判断俯仰角度差是否大于俯仰角度阈值(S307)；如果判断俯仰角度差大于俯仰角度阈值，则根据俯仰角度差控制智能机器人的头部俯仰旋转至其中一个声源的位置(S308)；如果判断俯仰角度差小于或等于俯仰角度阈值，则控制智能机器人的头部保持不动(S309)。

具体地，在计算出上述其中一个声源与智能机器人的俯仰角度差之后，可判断仰角度差delta是否大于俯仰角度阈值vertical_angle，若是，则控制智能机器人的头部俯仰旋转到指定位置，旋转角度为俯仰角度阈值；否则，控制智能机器人的头部保持不变，即不旋转。可以理解，当俯仰旋转完毕后，智能机器人的声源定位结束，此时会关闭声源定位，启动人脸检测，并进行机械运动，以追踪正在说话的用户，具体地可参照后续描述。

S103，当智能机器人移动至其中一个声源的位置时，判断其中一个声源的位置的附近是否有人脸。

具体地，当完成声源定位之后，可通过智能机器人的摄像头捕捉该声源位置的附近是否有人脸。例如，可通过摄像头捕捉声源位置附近的图片，之后不断地将捕捉到的图片输入到人脸检测算法中以进行人脸识别并检测。

S104，如果判断其中一个声源的位置的附近有人脸，则识别人脸中的最大人脸，并定位最大人脸的位置。

具体地，在判断其中一个声源的位置的附近有人脸时，可对捕捉到的图片中的每个人脸所对应的矩形框进行大小比对，得到这些矩形框中矩形面积最大的矩形框，该矩形框所对应的人脸即为最大人脸，之后，可对该最大人脸进行位置定位。

具体而言，在本发明的实施例中，定位最大人脸的位置的具体实现过程可如下：根据画面的左上顶点为原点建立平面直角坐标系，其中，画面的水平向右方向为平面直角坐标系的X轴正方向，画面的竖直向下方向为平面直角坐标系的Y轴正方向；根据最大人脸和平面直角坐标系确定最大人脸的位置，其中，位置包括第一坐标点和第二坐标点，第一坐标点为最大人脸的正中央的横坐标，第二坐标点为最大人脸的正中央的纵坐标。此外，本发明实施例的画面可理解为智能机器人中摄像头所捕捉的画面。

更具体地，可以画面的左上顶点为原点、画面的水平向右方向为X轴正方向、画面的竖直向下方向为Y轴正方向，建立平面直角坐标系，之后，可获取画面的宽度和高度，并根据该画面的宽度和高度、与平面直角坐标系即可确定最大人脸的位置坐标点。

需要说明的是，本发明实施例的人脸检测技术不是对捕捉到的每一张图片都进行人脸检测，而是一旦检测到人脸后，智能机器人会存储当前人脸的特征，于是在下一张图片中根据存储的人脸特征直接追踪上一次的人脸，由此，提高了人脸捕获的效率。

S105，根据最大人脸的位置调整智能机器人以使最大人脸位于智能机器人中摄像头所捕捉的画面的正中间。

具体而言，在本发明的实施例中，根据最大人脸的位置调整智能机器人以使最大人脸位于智能机器人中摄像头所捕捉的画面的正中间的具体实现过程可如下：获取画面的宽度和高度；根据画面的宽度和高度以及最大人脸的第一坐标点和第二坐标点，分别计算智能机器人的水平偏移量和俯仰偏移量；根据水平偏移量水平调整智能机器人的头部，并根据俯仰偏移量上下调整智能机器人的头部，以使最大人脸位于智能机器人中摄像头所捕捉的画面的正中间。

更具体地，可先根据画面的宽度以及最大人脸的第一坐标点通过以下式(1)计算智能机器人的水平偏移量horizontal_delta：

horizontal_delta＝(x-width/2)*180/width(1)

其中，上述式(1)中的x为最大人脸的第一坐标点，width为画面的宽度。

在计算水平偏移量的同时，还可根据画面的高度以及最大人脸的第二坐标点通过以下式(2)计算智能机器人的俯仰偏移量vertical_delta：

vertical_delta＝(y-height/2)*180/height(2)

在计算出水平偏移量和俯仰偏移量之后，可根据水平偏移量水平调整智能机器人的头部，并根据俯仰偏移量上下调整智能机器人的头部，以使最大人脸位于智能机器人中摄像头所捕捉的画面的正中间。例如，当x＝width/2时，horizontal_delta＝0，此时人脸在水平正中央，那么智能机器人不需要水平旋转；当x<width/2时，horizontal_delta为负值，则表示智能机器人的头部需要向左水平旋转，旋转幅度为horizotal_delta；当x>width/2时，horizontal_delta为正值，则表示智能机器人的头部需要向右水平旋转，旋转幅度为horizotal_delta。又如，当y＝height/2时，vertical_delta＝0，此时人脸在竖直方向正中央，那么智能机器人不需要上下调整；当y<height/2时，vertical_delta为负值，则表示智能机器人的头部需要向下调整，调整幅度为vertical_delta；当y>height/2时，vertical_delta为正值，则表示智能机器人的头部需要向上调整，调整幅度为vertical_delta。由此，可根据水平偏移量和俯仰偏移量来调整智能机器人的头部，以使最大人脸位于摄像头所捕捉的画面的正中间。

需要说明的是，在根据偏移量调整智能机器人的过程中，为了避免智能机器人频繁运动，可设置水平阈值min_horizontal和俯仰阈值min_vertical：若abs(horizontal_delta)<min_horizontal，则智能机器人不运动；否则，智能机器人头部水平旋转horizontal_delta；若abs(vertical_delta)<min_vertical，则智能机器人不运动；否则，智能机器人头部俯仰旋转vertical_delta。其中abs表示绝对值。

此时，智能机器人很可能只是脸朝向用户，但身体、头部都旋转了一定的角度，并不是很自然，需要进一步调整。需要说明的是，在本发明的实施例中，该基于人工智能的智能机器人追踪方法还可包括：在智能机器人回复用户的请求之前，根据最大人脸的位置调整智能机器人以使智能机器人的身体和脸部同时面对用户。更具体地，可通过以下方式以使智能机器人的身体和脸部同时面对用户：1)智能机器人在回复用户的请求时，关闭人脸检测，开始运动；2)如果智能机器人的头部水平偏移量为horizontal_angle(如上述的水平角度阈值)，则控制智能机器人的身体水平旋转horizontal_angle，头部反方向水平旋转horizontal_angle；3)对于智能机器人的头部俯仰偏移量不做处理。由此，可使得智能机器人身体、脸同时冲着用户，从而使得智能机器人与用户说话时姿势更加自然。

需要说明的是，在智能机器人完成一次追踪结束时，此时人脸检测已关闭，智能机器人重新开始声源定位，若没有声源，则智能机器人继续待机，若有声源，则重新开始声源定位算法的运行。

为了实现上述实施例，本发明还提出了一种基于人工智能的智能机器人追踪装置。

图4是根据本发明一个实施例的基于人工智能的智能机器人追踪装置的结构框图。如图4所示，该基于人工智能的智能机器人追踪装置可以包括：检测模块10、控制模块20、判断模块30、定位模块40和调整模块50。

具体地，检测模块10可用于检测智能机器人周围的至少一个声源。例如，检测模块10可通过ManyEars声源定位技术来检测智能机器人周围的声音，更具体地，检测模块10可根据麦克风阵列来采集声源信号，之后可对声源信号进行有效音频信号检测，并且还可通过ManyEars技术将检测到的多个声源进行分离以得到多个独立的声源。其中，本实施例的术语“至少一个”可理解为一个或多个。

具体而言，在本发明的一个实施例中，如图5所示，该检测模块10可包括获取单元11、第一判断单元12、第二判断单元13和检测单元14。

更具体地，获取单元11可用于获取其中一个声源的响度。第一判断单元12可用于判断其中一个声源的响度是否大于响度阈值。第二判断单元13可用于在第一判断单元12判断其中一个声源的响度大于响度阈值时，进一步判断其中一个声源的持续时间是否大于或等于时间阈值。检测单元14可用于在第二判断单元13判断其中一个声源的持续时间大于或等于时间阈值时，检测其中一个声源满足预设声源条件。其中，可以理解，上述响度阈值和时间阈值均为预先设定的阈值，可根据实际情况(如人类音量与动物音量的区别、人类发出的音量的范围等)而做出的预先设置值。

更具体地，首先，获取单元11可获取至少一个声源中的每个声源的音量大小，之后，第一判断单元12判断每个声源的音量大小是否大于响度阈值max_volume，若是，则可认为该声源为最大声源，之后第二判断单元13可获取该最大声源的持续时间，并判断该最大声源的持续时间是否大于或等于时间阈值max_time，若是，则检测单元14可检测该最大声源满足预设声源条件。其中，当声源的音量大小小于或等于响度阈值max_volume，或者，声源的持续时间小于时间阈值max_time时，智能机器人都将会忽略这样的声源。

控制模块20可用于在检测模块10检测到的至少一个声源的其中一个声源满足预设声源条件时，对其中一个声源进行定位，并根据定位结果控制智能机器人移动至其中一个声源的位置。

具体而言，在本发明的一个实施例中，如图6所示，该控制模块20可包括：获取单元21、计算单元22、判断单元23和控制单元24。

更具体地，获取单元21可用于获取其中一个声源的第一位置坐标和智能机器人的第二位置坐标。计算单元22可用于根据第一位置坐标和第二位置坐标计算第一位置坐标与第二位置坐标的水平角度差。判断单元23可用于判断水平角度差是否大于水平角度阈值。控制单元24可用于在判断单元23判断水平角度差大于水平角度阈值时，根据水平角度差和水平角度阈值计算智能机器人的身体的水平旋转角度，并根据身体的水平旋转角度控制智能机器人的身体进行水平旋转，以及根据水平角度阈值水平旋转智能机器人的头部。

其中，在本发明的实施例中，控制单元24还可用于在判断单元23判断水平角度差小于或等于水平角度阈值时，根据水平角度差控制智能机器人的头部水平旋转至其中一个声源的位置。

更具体地，获取单元21可通过声源定位技术获取上述其中一个声源的第一位置坐标和智能机器人的当前第二位置坐标，之后计算单元22可根据这两个位置坐标计算两者之间的水平角度差，判断单元23判断该水平角度差delta_angle是否大于水平角度阈值horizontal_angle，若是，控制单元24则先控制智能机器人水平转动身体，转动角度为delta_angle-horizontal_angle，即水平角度差-水平角度阈值，之后，可控制智能机器人的头部进行水平转动，转动角度为水平角度阈值horizontal_angle；当判断单元23判断水平角度差小于或等于水平角度阈值时，控制单元24只可水平转动智能机器人的头部到指定位置即可，转动角度为水平角度差。

需要说明的是，在根据定位结果控制智能机器人进行机械运动时，可先控制智能机器人进行水平方向的运动，在水平方向的运行之后可进行俯仰方向的运动。因此，当智能机器人水平旋转完成之后，还需判断是否需要俯仰方向的运动。可选的，在本发明的实施例中，计算单元22还可用于根据第一位置坐标和第二位置坐标计算第一位置坐标与第二位置坐标的俯仰角度差。判断单元23还可用于判断俯仰角度差是否大于俯仰角度阈值。控制单元24还可用于在判断单元23判断俯仰角度差大于俯仰角度阈值时，根据俯仰角度差控制智能机器人的头部俯仰旋转至其中一个声源的位置，以及在判断单元23判断俯仰角度差小于或等于俯仰角度阈值时，控制智能机器人的头部保持不动。

更具体地，在计算单元22计算出上述其中一个声源与智能机器人的俯仰角度差之后，判断单元23可判断仰角度差delta是否大于俯仰角度阈值vertical_angle，若是，则控制单元24控制智能机器人的头部俯仰旋转到指定位置，旋转角度为俯仰角度阈值；否则，控制单元24控制智能机器人的头部保持不变，即不旋转。可以理解，当俯仰旋转完毕后，智能机器人的声源定位结束，此时会关闭声源定位，启动人脸检测，并进行机械运动，以追踪正在说话的用户，具体地可参照后续描述。

判断模块30可用于在智能机器人移动至其中一个声源的位置时，判断其中一个声源的位置的附近是否有人脸。更具体地，当完成声源定位之后，判断模块30可通过智能机器人的摄像头捕捉该声源位置的附近是否有人脸。例如，判断模块30可通过摄像头捕捉声源位置附近的图片，之后不断地将捕捉到的图片输入到人脸检测算法中以进行人脸识别并检测。

定位模块40可用于在判断模块30判断其中一个声源的位置的附近有人脸时，识别人脸中的最大人脸，并定位最大人脸的位置。更具体地，在判断模块30判断其中一个声源的位置的附近有人脸时，定位模块40可对捕捉到的图片中的每个人脸所对应的矩形框进行大小比对，得到这些矩形框中矩形面积最大的矩形框，该矩形框所对应的人脸即为最大人脸，之后，可对该最大人脸进行位置定位。具体而言，在本发明的实施例中，定位模块40定位最大人脸的位置的具体实现过程可如下：根据画面的左上顶点为原点建立平面直角坐标系，其中，画面的水平向右方向为平面直角坐标系的X轴正方向，画面的竖直向下方向为平面直角坐标系的Y轴正方向；根据最大人脸和平面直角坐标系确定最大人脸的位置，其中，位置包括第一坐标点和第二坐标点，第一坐标点为最大人脸的正中央的横坐标，第二坐标点为最大人脸的正中央的纵坐标。此外，本发明实施例的画面可理解为智能机器人中摄像头所捕捉的画面。

更具体地，定位模块40可以画面的左上顶点为原点、画面的水平向右方向为X轴正方向、画面的竖直向下方向为Y轴正方向，建立平面直角坐标系，之后，可获取画面的宽度和高度，并根据该画面的宽度和高度、与平面直角坐标系即可确定最大人脸的位置坐标点。

调整模块50可用于根据最大人脸的位置调整智能机器人以使最大人脸位于智能机器人中摄像头所捕捉的画面的正中间。具体而言，在本发明的实施例中，调整模块50可具体用于：获取画面的宽度和高度；根据画面的宽度和高度以及最大人脸的第一坐标点和第二坐标点，分别计算智能机器人的水平偏移量和俯仰偏移量；根据水平偏移量水平调整智能机器人的头部，并根据俯仰偏移量上下调整智能机器人的头部，以使最大人脸位于智能机器人中摄像头所捕捉的画面的正中间。

更具体地，调整模块50可先根据画面的宽度以及最大人脸的第一坐标点通过以下式(1)计算智能机器人的水平偏移量horizontal_delta：

horizontal_delta＝(x-width/2)*180/width(1)

调整模块50在计算水平偏移量的同时，还可根据画面的高度以及最大人脸的第二坐标点通过以下式(2)计算智能机器人的俯仰偏移量vertical_delta：

vertical_delta＝(y-height/2)*180/height(2)

调整模块50在计算出水平偏移量和俯仰偏移量之后，可根据水平偏移量水平调整智能机器人的头部，并根据俯仰偏移量上下调整智能机器人的头部，以使最大人脸位于智能机器人中摄像头所捕捉的画面的正中间。例如，当x＝width/2时，horizontal_delta＝0，此时人脸在水平正中央，那么智能机器人不需要水平旋转；当x<width/2时，horizontal_delta为负值，则表示智能机器人的头部需要向左水平旋转，旋转幅度为horizotal_delta；当x>width/2时，horizontal_delta为正值，则表示智能机器人的头部需要向右水平旋转，旋转幅度为horizotal_delta。又如，当y＝height/2时，vertical_delta＝0，此时人脸在竖直方向正中央，那么智能机器人不需要上下调整；当y<height/2时，vertical_delta为负值，则表示智能机器人的头部需要向下调整，调整幅度为vertical_delta；当y>height/2时，vertical_delta为正值，则表示智能机器人的头部需要向上调整，调整幅度为vertical_delta。由此，可根据水平偏移量和俯仰偏移量来调整智能机器人的头部，以使最大人脸位于摄像头所捕捉的画面的正中间。

此时，智能机器人很可能只是脸朝向用户，但身体、头部都旋转了一定的角度，并不是很自然，需要进一步调整。需要说明的是，在本发明的实施例中，调整模块50还可用于在智能机器人回复用户的请求之前，根据最大人脸的位置调整智能机器人以使智能机器人的身体和脸部同时面对用户。更具体地，调整模块50可通过以下方式以使智能机器人的身体和脸部同时面对用户：1)智能机器人在回复用户的请求时，关闭人脸检测，开始运动；2)如果智能机器人的头部水平偏移量为horizontal_angle(如上述的水平角度阈值)，则控制智能机器人的身体水平旋转horizontal_angle，头部反方向水平旋转horizontal_angle；3)对于智能机器人的头部俯仰偏移量不做处理。由此，可使得智能机器人身体、脸同时冲着用户，从而使得智能机器人与用户说话时姿势更加自然。

为了实现上述实施例，本发明还提出了一种智能机器人，该智能机器人包括上述任一个实施例的基于人工智能的智能机器人追踪装置。

根据本发明实施例的智能机器人，可通过追踪装置中的检测模块检测智能机器人周围的声源，当检测到的声源中某个声源满足预设声源条件时，控制模块对该声源进行定位，并根据定位结果控制智能机器人移动至该声源的位置，当智能机器人移动至该声源的位置时，判断模块判断该声源的位置的附近是否有人脸，若有，则定位模块识别人脸中的最大人脸，并定位最大人脸的位置，调整模块根据最大人脸的位置调整智能机器人以使最大人脸位于智能机器人中摄像头所捕捉的画面的正中间，至少具有以下优点：(1)通过上述声源定位和人脸检测，使得智能机器人不再仅仅是机械设备，使得智能机器人具有听觉、视觉、机械运动的能力，能够主动寻找用户，使得人机交互更加有趣；(2)在控制智能机器人进行机械运动时，机械运动的自由度有3维(如身体左右转动、头部左右转动、头部上下转动)，使得智能机器人更接近人脸，运动起来更加生动形象；(3)同时结合声源定位和人脸检测等多方面技术来实现用户的追踪定位，提高了智能机器人的定位效果，提高了准确性。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于人工智能的智能机器人追踪方法，其特征在于，包括以下步骤：

检测所述智能机器人周围的至少一个声源；

当检测到的所述至少一个声源的其中一个声源满足预设声源条件时，对所述其中一个声源进行定位，并根据定位结果控制所述智能机器人移动至所述其中一个声源的位置；

当所述智能机器人移动至所述其中一个声源的位置时，判断所述其中一个声源的位置的附近是否有人脸；

如果判断所述其中一个声源的位置的附近有人脸，则识别所述人脸中的最大人脸，并定位所述最大人脸的位置；以及

根据所述最大人脸的位置调整所述智能机器人以使所述最大人脸位于所述智能机器人中摄像头所捕捉的画面的正中间。

2.如权利要求1所述的基于人工智能的智能机器人追踪方法，其特征在于，通过以下步骤检测所述至少一个声源的其中一个声源满足预设声源条件：

获取所述其中一个声源的响度，并判断所述其中一个声源的响度是否大于响度阈值；

如果判断所述其中一个声源的响度大于所述响度阈值，则进一步判断所述其中一个声源的持续时间是否大于或等于时间阈值；以及

如果判断所述其中一个声源的持续时间大于或等于所述时间阈值，则检测所述其中一个声源满足所述预设声源条件。

3.如权利要求1所述的基于人工智能的智能机器人追踪方法，其特征在于，对所述其中一个声源进行定位，并根据定位结果控制所述智能机器人移动至所述其中一个声源的位置，具体包括：

获取所述其中一个声源的第一位置坐标和所述智能机器人的第二位置坐标；

根据所述第一位置坐标和所述第二位置坐标计算所述第一位置坐标与所述第二位置坐标的水平角度差；

判断所述水平角度差是否大于水平角度阈值；

如果判断所述水平角度差大于所述水平角度阈值，则根据所述水平角度差和水平角度阈值计算所述智能机器人的身体的水平旋转角度，并根据所述身体的水平旋转角度控制所述智能机器人的身体进行水平旋转，以及根据所述水平角度阈值水平旋转所述智能机器人的头部；

如果判断所述水平角度差小于或等于所述水平角度阈值，则根据所述水平角度差控制所述智能机器人的头部水平旋转至所述其中一个声源的位置。

4.如权利要求3所述的基于人工智能的智能机器人追踪方法，其特征在于，对所述其中一个声源进行定位，并根据定位结果控制所述智能机器人移动至所述其中一个声源的位置，还具体包括：

根据所述第一位置坐标和所述第二位置坐标计算所述第一位置坐标与所述第二位置坐标的俯仰角度差；

判断所述俯仰角度差是否大于俯仰角度阈值；

如果判断所述俯仰角度差大于所述俯仰角度阈值，则根据所述俯仰角度差控制所述智能机器人的头部俯仰旋转至所述其中一个声源的位置；

如果判断所述俯仰角度差小于或等于所述俯仰角度阈值，则控制所述智能机器人的头部保持不动。

5.如权利要求1所述的基于人工智能的智能机器人追踪方法，其特征在于，定位所述最大人脸的位置具体包括：

根据所述画面的左上顶点为原点建立平面直角坐标系，其中，所述画面的水平向右方向为所述平面直角坐标系的X轴正方向，所述画面的竖直向下方向为所述平面直角坐标系的Y轴正方向；

根据所述最大人脸和所述平面直角坐标系确定所述最大人脸的位置，其中，所述位置包括第一坐标点和第二坐标点，所述第一坐标点为所述最大人脸的正中央的横坐标，所述第二坐标点为所述最大人脸的正中央的纵坐标。

6.如权利要求5所述的基于人工智能的智能机器人追踪方法，其特征在于，根据所述最大人脸的位置调整所述智能机器人以使所述最大人脸位于所述智能机器人中摄像头所捕捉的画面的正中间，具体包括：

获取所述画面的宽度和高度；

根据所述画面的宽度和高度以及所述最大人脸的所述第一坐标点和第二坐标点，分别计算所述智能机器人的水平偏移量和俯仰偏移量；

根据所述水平偏移量水平调整所述智能机器人的头部，并根据所述俯仰偏移量上下调整所述智能机器人的头部，以使所述最大人脸位于所述智能机器人中摄像头所捕捉的画面的正中间。

7.如权利要求1-6中任一项所述的基于人工智能的智能机器人追踪方法，其特征在于，还包括：

在所述智能机器人回复用户的请求之前，根据所述最大人脸的位置调整所述智能机器人以使所述智能机器人的身体和脸部同时面对用户。

8.一种基于人工智能的智能机器人追踪装置，其特征在于，包括：

检测模块，用于检测所述智能机器人周围的至少一个声源；

控制模块，用于在所述检测模块检测到的所述至少一个声源的其中一个声源满足预设声源条件时，对所述其中一个声源进行定位，并根据定位结果控制所述智能机器人移动至所述其中一个声源的位置；

判断模块，用于在所述智能机器人移动至所述其中一个声源的位置时，判断所述其中一个声源的位置的附近是否有人脸；

定位模块，用于在所述判断模块判断所述其中一个声源的位置的附近有人脸时，识别所述人脸中的最大人脸，并定位所述最大人脸的位置；以及

调整模块，用于根据所述最大人脸的位置调整所述智能机器人以使所述最大人脸位于所述智能机器人中摄像头所捕捉的画面的正中间。

9.如权利要求8所述的基于人工智能的智能机器人追踪装置，其特征在于，所述检测模块包括：

获取单元，用于获取所述其中一个声源的响度；

第一判断单元，用于判断所述其中一个声源的响度是否大于响度阈值；

第二判断单元，用于在所述第一判断单元判断所述其中一个声源的响度大于所述响度阈值时，进一步判断所述其中一个声源的持续时间是否大于或等于时间阈值；以及

检测单元，用于在所述第二判断单元判断所述其中一个声源的持续时间大于或等于所述时间阈值时，检测所述其中一个声源满足所述预设声源条件。

10.如权利要求8所述的基于人工智能的智能机器人追踪装置，其特征在于，所述控制模块包括：

获取单元，用于获取所述其中一个声源的第一位置坐标和所述智能机器人的第二位置坐标；

计算单元，用于根据所述第一位置坐标和所述第二位置坐标计算所述第一位置坐标与所述第二位置坐标的水平角度差；

判断单元，用于判断所述水平角度差是否大于水平角度阈值；

控制单元，用于在所述判断单元判断所述水平角度差大于所述水平角度阈值时，根据所述水平角度差和水平角度阈值计算所述智能机器人的身体的水平旋转角度，并根据所述身体的水平旋转角度控制所述智能机器人的身体进行水平旋转，以及根据所述水平角度阈值水平旋转所述智能机器人的头部；

所述控制单元还用于在所述判断单元判断所述水平角度差小于或等于所述水平角度阈值时，根据所述水平角度差控制所述智能机器人的头部水平旋转至所述其中一个声源的位置。

11.如权利要求10所述的基于人工智能的智能机器人追踪装置，其特征在于，

所述计算单元还用于根据所述第一位置坐标和所述第二位置坐标计算所述第一位置坐标与所述第二位置坐标的俯仰角度差；

所述判断单元还用于判断所述俯仰角度差是否大于俯仰角度阈值；

所述控制单元还用于在所述判断单元判断所述俯仰角度差大于所述俯仰角度阈值时，根据所述俯仰角度差控制所述智能机器人的头部俯仰旋转至所述其中一个声源的位置，以及在所述判断单元判断所述俯仰角度差小于或等于所述俯仰角度阈值时，控制所述智能机器人的头部保持不动。

12.如权利要求8所述的基于人工智能的智能机器人追踪装置，其特征在于，所述定位模块具体用于：

13.如权利要求12所述的基于人工智能的智能机器人追踪装置，其特征在于，所述调整模块具体用于：

获取所述画面的宽度和高度；

14.如权利要求8-13中任一项所述的基于人工智能的智能机器人追踪装置，其特征在于，所述调整模块还用于在所述智能机器人回复用户的请求之前，根据所述最大人脸的位置调整所述智能机器人以使所述智能机器人的身体和脸部同时面对用户。

15.一种智能机器人，其特征在于，包括：如权利要求8-14中任一项所述的基于人工智能的智能机器人追踪装置。