CN111241922B

CN111241922B - 一种机器人及其控制方法、计算机可读存储介质

Info

Publication number: CN111241922B
Application number: CN201911384200.0A
Authority: CN
Inventors: 黄冠文; 程骏; 庞建新; 谭欢; 熊友军
Original assignee: Ubtech Robotics Corp
Current assignee: Ubtech Robotics Corp
Priority date: 2019-12-28
Filing date: 2019-12-28
Publication date: 2024-04-26
Anticipated expiration: 2039-12-28
Also published as: CN111241922A

Abstract

本申请公开了一种机器人及其控制方法、计算机可读存储介质，其中，该机器人的控制方法包括：从采集的待检测图像中的获取至少一个人脸信息；从至少一个人脸信息中获取对应的至少一个嘴唇信息；将至少一个嘴唇信息输入至预设深度学习模型，以对至少一个嘴唇信息进行分类，以进一步确定正在说话的说话人脸区域；控制机器人转动至朝向说话人脸区域，并开启语音识别功能。通过上述方式，一方面能够在多人同时交互时，准确定位正在说话的用户，另一方面能够避免噪声对机器人的干扰，提高了用户人机交互体验。

Description

一种机器人及其控制方法、计算机可读存储介质

技术领域

本申请涉及图像处理技术领域，特别是涉及一种机器人及其控制方法、计算机可读存储介质。

背景技术

随着人工智能的发展和进步，人机交互越来越得到广泛的应用。现有的机器人可以做到获取用户的语音信息进行处理，并与用户完成对话。其主要是通过声源进行定位，以进一步确定说话人的方向，并转动朝向说话人进行语音对话。

但是，在面对一群人或者有噪声干扰时，机器人并不能准确的判断声源的方向，造成“你对它说话，它却面对别人”的“不礼貌”行为，降低了用户人机交互的体验。

发明内容

为解决上述问题，本申请提供了一种机器人及其控制方法、计算机可读存储介质，一方面能够在多人同时交互时，准确定位正在说话的用户，另一方面能够避免噪声对机器人的干扰，提高了用户人机交互体验。

本申请采用的一个技术方案是：提供一种机器人的控制方法，该方法包括：从采集的待检测图像中的获取至少一个人脸信息；从至少一个人脸信息中获取对应的至少一个嘴唇信息；将至少一个嘴唇信息输入至预设深度学习模型，以对至少一个嘴唇信息进行分类，以进一步确定正在说话的说话人脸区域；控制机器人转动至朝向说话人脸区域，并开启语音识别功能。

其中，人脸信息包括人脸框坐标、人脸特征点坐标、嘴唇框坐标、嘴唇特征点坐标、人脸ID中的至少一个，人脸ID用于表示对应人脸信息的身份。

其中，从至少一个人脸信息中获取对应的至少一个嘴唇信息，包括：根据至少一个人脸信息中的目标人脸信息确定对应的目标人脸区域；获取目标人脸区域的特征点信息；判断目标人脸信息和/或特征点信息是否满足设定约束条件；若满足，则确定目标人脸区域中的嘴唇信息。

其中，确定目标人脸区域中的嘴唇信息，包括：根据目标人脸信息确定人脸ID；其中，人脸ID用于表示对应人脸信息的身份；根据目标人脸区域中的特征点信息确定嘴唇特征向量；将嘴唇特征向量对应人脸ID进行存储。

其中，将至少一个嘴唇信息输入至预设深度学习模型，以对至少一个嘴唇信息进行分类，以进一步确定正在说话的说话人脸区域，包括：在对应人脸ID存储的嘴唇特征向量的数量满足设定数量要求时，将对应人脸ID存储的多个嘴唇特征向量输入至预设深度学习模型，以对多个嘴唇特征向量进行分类，以进一步确定目标人脸区域是否为正在说话的说话人脸区域。

其中，根据目标人脸区域中的特征点信息确定嘴唇特征向量，包括：根据目标人脸区域中的特征点信息，确定嘴唇框坐标；根据嘴唇框坐标获取嘴唇图像；对嘴唇图像进行编码，以得到嘴唇特征向量。

其中，控制机器人转动至朝向说话人脸区域，并开启语音识别功能，包括：获取说话人脸区域的人脸框坐标；获取机器人的当前朝向与人脸框坐标之间的偏转角；根据偏转角控制机器人转动至朝向说话人脸区域；开启语音识别功能。

本申请采用的另一个技术方案是：提供一种机器人，该机器人包括相互连接的处理器和存储器，存储器用于存储程序数据，处理器用于执行程序数据以实现如上述的方法。

本申请采用的另一个技术方案是：提供一种计算机可读存储介质，该计算机可读存储介质中存储有程序数据，程序数据在被处理器执行时，用以实现如上述的方法。

本申请提供的机器人的控制方法包括：从采集的待检测图像中的获取至少一个人脸信息；从采集的待检测图像中的获取至少一个人脸信息；从至少一个人脸信息中获取对应的至少一个嘴唇信息；将至少一个嘴唇信息输入至预设深度学习模型，以对至少一个嘴唇信息进行分类，以进一步确定正在说话的说话人脸区域；控制机器人转动至朝向说话人脸区域，并开启语音识别功能。通过上述方式，能够基于图像识别来判断人群中是谁来说话，进而控制机器人转动与说话的人面对面交流，一方面避免了通过声源判断时，外界的噪声对机器人的干扰，另一方面适用于多人交互时，能够准确的找准当前正在说话的目标用户，提高了用户人机交互体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。其中：

图1是本申请提供的机器人的控制方法一实施例的流程示意图；

图2是本申请一实施例中步骤12的流程示意图；

图3是本申请提供的人脸区域的第一示意图；

图4是本申请提供的人脸区域的第二示意图；

图5是本申请一实施例中步骤24的流程示意图；

图6是本申请一实施例中步骤52的流程示意图；

图7是本申请一实施例中步骤14的流程示意图；

图8是本申请提供的机器人一实施例的结构示意图；

图9是本申请提供的计算机可读存储介质一实施例的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。可以理解的是，此处所描述的具体实施例仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

参阅图1，图1是本申请提供的机器人的控制方法一实施例的流程示意图，该方法包括：

步骤11：从采集的待检测图像中的获取至少一个人脸信息。

可选地，在一实施例中，可以在获取到声音信息之后再开启图像采集功能采集待检测图像。

其中，该待检测图像一般是机器人上安装的摄像头采集的图像，例如，该摄像头可以安装于机器人的头部眼睛位置，或者头部中央位置。具体地，该待检测图像可以是单独的一帧图像，也可以是视频流中连续的多帧图像。

可选地，该人脸信息包括人脸框坐标、人脸特征点坐标、嘴唇框坐标、嘴唇特征点坐标、人脸ID中的至少一个。

具体地，可以采用人脸检测算法、人脸特征点定位算法和IOU算法(一种评估目标检测算法精度的算法)获得人脸信息，包括人脸框坐标、人脸特征点坐标、嘴唇特征点坐标、嘴唇框坐标、人脸ID号等，人脸ID用于表示对应人脸信息的身份。

其中，人脸框可以是一个矩形或其他设定形状的框体，以矩形为例，人脸框坐标可以是该矩形框体四个顶角的坐标。

其中，人脸特征点坐标是人脸中的一些特征点的坐标，例如眼睛、眉毛、鼻子等。

其中，嘴唇框可以是一个矩形或其他设定形状的框体，以矩形为例，嘴唇框坐标可以是该矩形框体四个顶角的坐标。

其中，该嘴唇特征点坐标是嘴唇中的一些特征点的坐标，例如嘴角。

步骤12：从至少一个人脸信息中获取对应的至少一个嘴唇信息。

可选地，如图2所示，图2是本申请一实施例中步骤12的流程示意图，步骤12可以包括：

步骤21：根据至少一个人脸信息中的目标人脸信息确定对应的目标人脸区域。

由于在本步骤中只需要识别出人脸的位置，所以可以采用较为简单的人脸识别方法，例如像素识别算法、基于深度学习的模型匹配算法等。

具体地，可以采用上述的人脸检测算法、人脸特征点定位算法和IOU算法(一种评估目标检测算法精度的算法)获得人脸信息，将得到的人脸框坐标作为人脸区域。

可以理解地，人脸区域的数量可以是一个或者多个，本申请的实施例主要是应用于多个的情况，下面的步骤中的目标人脸区域是多个人脸区域中的一个。值得注意的是，若只有一个人脸区域，也可以采用本实施例的方法来进行确认。

步骤22：获取目标人脸区域的特征点信息。

一般特征点通常分为视觉特征、像素统计特征、人脸图像变换系数特征、人脸图像代数特征等。人脸特征提取就是针对人脸的某些特征进行的。人脸特征提取，也称人脸表征，它是对人脸进行特征建模的过程。人脸特征提取的方法归纳起来分为两大类：一种是基于知识的表征方法；另外一种是基于代数特征或统计学习的表征方法。

基于知识的表征方法主要是根据人脸器官的形状描述以及他们之间的距离特性来获得有助于人脸分类的特征数据，其特征分量通常包括特征点间的欧氏距离、曲率和角度等。人脸由眼睛、鼻子、嘴、下巴等局部构成，对这些局部和它们之间结构关系的几何描述，可作为识别人脸的重要特征，这些特征被称为几何特征。基于知识的人脸表征主要包括基于几何特征的方法和模板匹配法。

步骤23：判断目标人脸信息和/或特征点信息是否满足设定约束条件。

可选地，这里的设定约束条件可以是人脸区域的像素值、人脸区域与待检测图像的边缘之间的距离、人脸区域的朝向。

其中，可以判断目标人脸区域的像素值是否大于设定像素阈值，例如，该设定像素阈值可以是50*50，若该目标人脸区域的像素值大于50*50，则确定目标人脸区域满足约束条件。

其中，可以判断目标人脸区域与待检测图像的边缘之间的距离是否大于设定距离阈值。

如图3所示，图3是本申请提供的人脸区域的第一示意图，其中包括人脸区域A和人脸区域B，人脸区域A与待检测图像短边的距离为a1，与待检测图像的长边的距离为a2，人脸区域B与待检测图像短边的距离为b1，与待检测图像的长边的距离为b2。

因此，可以判断a1、a2、b1、b2的距离是否大于设定距离阈值，其中，该设定距离阈值可以像素为单位，例如10个像素，假设a1、a2、b1大于设定距离阈值，b2小于设定距离阈值，那么可以确定人脸区域A满足设定约束条件，人脸区域B不满足设定约束条件。

其中，可以判断目标人脸区域的朝向是否在设定角度阈值之内。

如图4所示，图4是本申请提供的人脸区域的第二示意图，其中可以待检测图像为基准定义一水平角度区域，如-45°-45°，并判断人脸的朝向是否在该角度区域内，具体可以通过两眼的中垂线是否在该区域内来进行判断。若在该区域内，则确定人脸区域满足设定约束条件。

步骤24：确定目标人脸区域中的嘴唇信息。

在一可选的实施例中，如图5所示，图5是本申请一实施例中步骤24的流程示意图，步骤24可以包括：

步骤51：根据目标人脸信息确定人脸ID；其中，人脸ID用于表示对应人脸信息的身份。

其中，可以通过人脸识别算法确定人脸信息的归属。具体地，在获取到一个人脸信息后，确定数据库中是否有对应的人脸ID，若没有，需要新建一个人脸ID，即一个人脸ID对应的一个人脸。

步骤52：根据目标人脸区域中的特征点信息确定嘴唇特征向量。

可选地，如图6所示，图6是本申请一实施例中步骤52的流程示意图，步骤52可以包括：

步骤61：根据目标人脸区域中的特征点信息，确定嘴唇框坐标。

步骤62：根据嘴唇框坐标获取嘴唇图像。

步骤63：对嘴唇图像进行编码，以得到嘴唇特征向量。

可选地，将嘴唇图像输入至CAE(Convolutional Auto-Encode，卷积自编码器)中进行编码得到嘴唇特征向量。

步骤53：将嘴唇特征向量对应人脸ID进行存储。

具体地，如果该嘴唇特征向量有对应的人脸ID，则将该嘴唇特征向量存储于对应该人脸ID的存储区域中，如果该嘴唇特征向量没有对应的人脸ID，则新建一个人脸ID，并在内存中开辟一个对应该人脸ID的存储区域，用于存储与该人脸ID对应的嘴唇特征向量。

步骤13：将至少一个嘴唇信息输入至预设深度学习模型，以对至少一个嘴唇信息进行分类，以进一步确定正在说话的说话人脸区域。

可选地，在对应人脸ID存储的嘴唇特征向量的数量满足设定数量要求时，将对应人脸ID存储的多个嘴唇特征向量输入至预设深度学习模型，以对多个嘴唇特征向量进行分类，以进一步确定目标人脸区域是否为正在说话的说话人脸区域。

在一具体的实施例中，该设定数量可以是10个，在对应人脸ID存储的嘴唇特征向量的数量达到10个时，将设定数量个嘴唇特征向量输入至预先训练的神经网络中进行分类训练，以确定目标人脸区域中的嘴唇状态信息。具体地，可以输入至LSTM(长短期记忆)神经网络进行分类训练，最终确定该目标人脸区域的嘴唇状态是说话状态还是非说话状态。

可选地，该深度学习模型可以是基于大量的数据采用监督训练方式训练得到的。例如，获取大量的嘴唇特征数据，并对每个嘴唇特征数据进行标签(标签包括说话、未说话两种)，然后将大量的数据输入至深度学习模型中进行训练。

在待检测区域中包含多个人脸区域时，每个人脸区域均采用上述的方式来判断是否为说话状态，最终确定说话人脸区域。

在一般情况下，多个人脸区域中只有一个说话人脸区域，若确定有多个说话人脸区域时，可以根据每个区域的说话可能性比重来确定最可能是说话状态的一个人脸区域。

步骤14：控制机器人转动至朝向说话人脸区域，并开启语音识别功能。

可选地，如图7所示，图7是本申请一实施例中步骤14的流程示意图，步骤14可以包括：

步骤71：获取说话人脸区域的人脸框坐标。

人脸框坐标可以采用上述的方式获得，这里不再赘述。

步骤72：获取机器人的当前朝向与人脸框坐标之间的偏转角。

一般地，机器人在采集待检测图像时，摄像头的朝向即为机器人的朝向，由于机器人的数据处理过程的时间可以忽略不计，所以将此时的机器人朝向作为初始朝向，然后通过人脸框坐标与机器人之间的连线、与机器人初始朝向之间的夹角作为偏转角。

步骤73：根据偏转角控制机器人转动至朝向说话人脸区域。

步骤74：开启语音识别功能。

可选地，本实施例中并不限制步骤74的执行顺序，例如，在获取到声音信息或者待检测图像时，就开启语音识别功能进行对话，同时通过上述的算法控制机器人的转动。

通过上述方式，本实施例提供的机器人的控制方法包括：从采集的待检测图像中的获取至少一个人脸信息；从至少一个人脸信息中获取对应的至少一个嘴唇信息；将至少一个嘴唇信息输入至预设深度学习模型，以对至少一个嘴唇信息进行分类，以进一步确定正在说话的说话人脸区域；控制机器人转动至朝向说话人脸区域，并开启语音识别功能。通过上述方式，能够基于图像识别来判断人群中是谁来说话，进而控制机器人转动与说话的人面对面交流，一方面避免了通过声源判断时，外界的噪声对机器人的干扰，另一方面适用于多人交互时，能够准确的找准当前正在说话的目标用户，提高了用户人机交互体验。

参阅图8，图8是本申请提供的机器人一实施例的结构示意图，该机器人80包括相互连接的处理器81和存储器82，存储器82用于存储程序数据，处理器81用于执行程序数据以实现如下的方法：

从采集的待检测图像中的获取至少一个人脸信息；从至少一个人脸信息中获取对应的至少一个嘴唇信息；将至少一个嘴唇信息输入至预设深度学习模型，以对至少一个嘴唇信息进行分类，以进一步确定正在说话的说话人脸区域；控制机器人转动至朝向说话人脸区域，并开启语音识别功能。

可选地，该机器人80还包括摄像头，用于采集带检测图像，该摄像头一般设置于机器人80头部，如头部中央、两眼之间，若该机器人80不是人形机器人，也可以设置在机器人80运动方向的前部中央位置。

可选地，该机器人80还包括驱动器，连接处理器81，用于在该处理器81的控制下驱动机器人80的各个部件进行运动，如机械臂运动、头部转动等。

参阅图9，图9是本申请提供的计算机可读存储介质一实施例的结构示意图，该计算机可读存储介质90中存储有程序数据91，该程序数据在被处理器执行时，用于实现以下方法步骤：

可选地，在上述机器人和计算机可读存储介质的实施例中，程序数据在被处理器执行时，还用于执行：根据至少一个人脸信息中的目标人脸信息确定对应的目标人脸区域；获取目标人脸区域的特征点信息；判断目标人脸信息和/或特征点信息是否满足设定约束条件；若满足，则确定目标人脸区域中的嘴唇信息。

可选地，在上述机器人和计算机可读存储介质的实施例中，程序数据在被处理器执行时，还用于执行：根据目标人脸信息确定人脸ID；其中，人脸ID用于表示对应人脸信息的身份；根据目标人脸区域中的特征点信息确定嘴唇特征向量；将嘴唇特征向量对应人脸ID进行存储。

可选地，在上述机器人和计算机可读存储介质的实施例中，程序数据在被处理器执行时，还用于执行：在对应人脸ID存储的嘴唇特征向量的数量满足设定数量要求时，将对应人脸ID存储的多个嘴唇特征向量输入至预设深度学习模型，以对多个嘴唇特征向量进行分类，以进一步确定目标人脸区域是否为正在说话的说话人脸区域。

可选地，在上述机器人和计算机可读存储介质的实施例中，程序数据在被处理器执行时，还用于执行：根据目标人脸区域中的特征点信息，确定嘴唇框坐标；根据嘴唇框坐标获取嘴唇图像；对嘴唇图像进行编码，以得到嘴唇特征向量。

可选地，在上述机器人和计算机可读存储介质的实施例中，程序数据在被处理器执行时，还用于执行：获取说话人脸区域的人脸框坐标；获取机器人的当前朝向与人脸框坐标之间的偏转角；根据偏转角控制机器人转动至朝向说话人脸区域；开启语音识别功能。

在本申请所提供的几个实施方式中，应该理解到，所揭露的方法以及设备，可以通过其它的方式实现。例如，以上所描述的设备实施方式仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是根据本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种机器人的控制方法，其特征在于，所述方法包括：

从采集的待检测图像中的获取至少一个人脸信息，并开启语音识别功能；

根据所述至少一个人脸信息中的目标人脸信息确定对应的目标人脸区域；

获取所述目标人脸区域的特征点信息；

根据所述目标人脸信息判断所述目标人脸区域的像素值是否大于设定像素阈值；和/或根据所述目标人脸信息判断所述目标人脸区域与所述待检测图像的边缘之间的距离是否大于设定距离阈值；和/或根据所述特征点信息判断所述目标人脸区域的朝向是否在设定角度阈值之内；

若是，则确定所述目标人脸区域中的嘴唇信息；

将所述至少一个嘴唇信息输入至预设深度学习模型，以对所述至少一个嘴唇信息进行分类，以进一步确定正在说话的多个说话人脸区域；

根据每一所述说话人脸区域的说话可能性比重确定目标说话人脸区域；

获取所述目标说话人脸区域的人脸框坐标；

获取所述机器人的当前朝向与所述人脸框坐标之间的偏转角；

根据所述偏转角控制所述机器人转动至朝向所述目标说话人脸区域，以使所述机器人与所述目标说话人脸区域的目标用户进行对话。

2.根据权利要求1所述的方法，其特征在于，

所述人脸信息包括人脸框坐标、人脸特征点坐标、嘴唇框坐标、嘴唇特征点坐标、人脸ID中的至少一个，所述人脸ID用于表示对应人脸信息的身份。

3.根据权利要求1所述的方法，其特征在于，

所述确定所述目标人脸区域中的嘴唇信息，包括：

根据所述目标人脸信息确定人脸ID；其中，所述人脸ID用于表示对应人脸信息的身份；

根据所述目标人脸区域中的特征点信息确定嘴唇特征向量；

将所述嘴唇特征向量对应所述人脸ID进行存储。

4.根据权利要求3所述的方法，其特征在于，

所述将所述至少一个嘴唇信息输入至预设深度学习模型，以对所述至少一个嘴唇信息进行分类，以进一步确定正在说话的说话人脸区域，包括：

在对应所述人脸ID存储的所述嘴唇特征向量的数量满足设定数量要求时，将对应所述人脸ID存储的多个嘴唇特征向量输入至预设深度学习模型，以对所述多个嘴唇特征向量进行分类，以进一步确定所述目标人脸区域是否为正在说话的说话人脸区域。

5.根据权利要求3所述的方法，其特征在于，

所述根据所述目标人脸区域中的特征点信息确定嘴唇特征向量，包括：

根据所述目标人脸区域中的特征点信息，确定嘴唇框坐标；

根据所述嘴唇框坐标获取嘴唇图像；

对所述嘴唇图像进行编码，以得到嘴唇特征向量。

6.一种机器人，其特征在于，所述机器人包括相互连接的处理器和存储器，所述存储器用于存储程序数据，所述处理器用于执行所述程序数据以实现如权利要求1-5任一项所述的方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序数据，所述程序数据在被处理器执行时，用以实现如权利要求1-5任一项所述的方法。