CN105957521B

CN105957521B - 一种用于机器人的语音和图像复合交互执行方法及系统

Info

Publication number: CN105957521B
Application number: CN201610107985.7A
Authority: CN
Inventors: 王运志
Original assignee: Qingdao Krund Robot Co ltd
Current assignee: Qingdao Luteng Intelligent Equipment Technology Co ltd
Priority date: 2016-02-29
Filing date: 2016-02-29
Publication date: 2020-07-10
Anticipated expiration: 2036-02-29
Also published as: CN105957521A

Abstract

本发明涉及一种用于机器人的语音和图像复合交互执行方法及系统，所述方法包括：步骤一：机器人探测周围的声音，并对声源进行定位；步骤二：机器人探测周围的人脸，对人脸进行定位，并将人脸的定位与声源的定位进行比较和匹配，过滤掉干扰声源，初步确定语音声源，初步确定语音命令；步骤三：机器人检测周围人体目标，并对人体目标进行跟踪，识别肢体命令，并与初步确定的语音命令进行比较和匹配，过滤干扰语音命令，确定有效的用户命令，步骤四：机器人根据用户命令执行相应的操作。使机器人在复杂背景下更加准确地理解用户命令，仍可精确识别出向机器人发出的用户命令，鲁棒性更强，更智能、更有效地同人类用户进行交互。

Description

一种用于机器人的语音和图像复合交互执行方法及系统

技术领域

本发明涉及机器人领域，特别涉及一种用于机器人的语音和图像复合交互执行方法及系统。

背景技术

为实现机器人和人类用户交互，现有技术有的通过语音识别用户命令的技术，由于所处的真实环境较为复杂，同时存在其他用户的语音干扰和环境中的非语音干扰(如电视、音箱的声源等)，多个用户都发出语音信号，只是有的向机器人发出语音命令，有的则在做交谈等与机器人无关的行为.所以声定位结果可能既包含发出语音命令的用户，又包含干扰声源。从包含干扰声源的复杂环境中准确定位用户声源是语音命令识别的一个难点，给语音命令识别增加了困难，基于人体运动分析来识别用户命令技术也有不足。运动目标检测是人体运动分析的基础步骤，但目前仍没有快速鲁棒的运动目标检测方法。一个主要原因是由于动态环境中采集的图像序列很容易受到各种干扰，这些干扰包括光照变化、背景干扰、目标影子干扰、目标被遮挡、摄像机运动、目标与环境颜色类似等。目前处理遮挡等干扰问题的算法往往也存在计算复杂度高，运算量较大的问题。

发明内容

本发明的目的在于提供一种用于机器人的语音和图像复合交互执行方法及系统，提高对用户命令识别的精度和鲁棒性。

本发明提供了一种用于机器人的语音和图像复合交互执行方法，包括：

步骤一：机器人探测周围的声音，并对声源进行定位；

步骤二：机器人探测周围的人脸，对人脸进行定位，并将人脸的定位与声源的定位进行比较和匹配，过滤掉干扰声源，初步确定语音声源，初步确定语音命令；

步骤三：机器人检测周围人体目标，并对人体目标进行跟踪，识别肢体命令，并与初步确定的语音命令进行比较和匹配，过滤干扰语音命令，确定有效的用户命令，

步骤四：机器人根据用户命令执行相应的操作.

步骤二中，对声源的周围进行人脸识别，若声源的位置周围检测到人脸信号，则该声源为语音声源，机器人对该语音声源分析识别语音命令；若声源的位置周围未检测到人脸信号，则该声源为干扰声源，将该声源过滤。

步骤二中，对机器人周围的所有人脸进行识别，若声源的位置与人脸的位置有重合，则该声源为语音声源，机器人对该语音声源分析识别语音命令；若声源的位置与人脸的位置没有重合，则该声源为干扰声源，将该声源过滤.

步骤三中，若语音声源处检测到的肢体命令与该语音声源确定的语音命令一致，则该语音声源的命令为有效的用户命令，若有效声源处检测到的肢体命令与该有效声源确定的语音命令不一致，则为干扰语音命令，将该命令过滤。

机器人采用基于视觉的人体运动分析来进行运动目标检测、运动目标分类、人体运动跟踪以及行为识别与描述。

步骤三中，利用摄像头提取人体目标，并对人体目标进行跟踪，然后提取人体骨架，确定人体的主干和肢体，分析人体的肢体动作，识别肢体命令。

一种具有上述方法的系统，所述系统包括：

声音探测识别单元，进行声音探测，对声源进行定位；

图像探测识别单元，探测机器人视场的图像信息，在图像中进行人脸检测识别，并识别和跟踪人体目标，对人体的肢体动作进行分析，识别出肢体命令；

控制单元，比较声源和人脸的位置识别语音声源，比较语音声源的语音命令和肢体命令确定用户命令；

执行单元，执行用户命令。

所述图像探测识别单元包括人脸识别单元和肢体命令识别单元。所述人脸识别单元和声音探测识别单元组成用户命令识别单元.

本发明将不同识别技术进行复合，发挥各自优点，弥补各自的不足，提高对用户命令识别的精度和鲁棒性，将语音识别技术和人脸检测识别技术复合实现用户语音命令识别，进一步复合肢体命令的识别提高机器人对用户命令的准确识别，在更准确识别用户命令的基础上，采用机器人机电动作执行系统完成机器人相应的动作，更好地完成用户交与的任务。可使机器人在复杂背景下更加准确地理解用户命令，克服了语音识别和图像识别各自的不足。当同时存在多个人类用户的复杂环境下，该系统仍可精确识别出向机器人发出的用户命令，鲁棒性更强，更智能、更有效地同人类用户进行交互。

附图说明

图1是语音命令识别流程

图2是肢体命令识别流程

图3是语音命令和肢体命令结合的控制流程

具体实施方式

将结合附图描述根据本发明的恒压涨紧装置和履带式机器人的具体实施方式。下面的详细描述和附图用于示例性地说明本发明的原理，本发明不限于所描述的优选实施例，本发明的范围由权利要求书限定。

如图1-3所示，本发明所述一种用于机器人的语音和图像复合交互执行方法，包括如下步骤：

步骤一：机器人探测周围的声音，并对声源进行定位；即检测机器人周围的所有声音；

步骤二：机器人探测周围的人脸，对人脸进行定位，并将人脸的定位与声源的定位进行比较和匹配，过滤掉干扰声源，初步确定语音声源，初步确定语音命令；可以过滤掉环境中的那些没有检测到人脸的、非人类用户干扰声源(如电视、音箱的声源等)；

步骤三：机器人检测周围人体目标，并对人体目标进行跟踪，识别肢体命令，并与初步确定的语音命令进行比较和匹配，过滤干扰语音命令，确定有效的用户命令，可以过滤掉环境中的检测到人脸但是不是向机器人发出命令的人类用户干扰声源；

步骤四：机器人根据用户命令执行相应的操作.完成机器人所需的相应动作，如头部的抬头、低头和转动动作，如手臂的抬起、放下动作，如机器人身体前进、后退和转动动作等。

即将人脸检测识别结果和声音定位结果进行复合，消除那些没有检测到人脸的非人类用户的干扰声源.由于存在人类用户干扰声源，虽然在声探测中见到声源存在，且声源位置还处于某个人脸区域，但该用户没有向机器人发出需要执行的命令，也是需要剔除的干扰声源.对于人类用户干扰声源，常用的方法是识别所有用户声源的语音信号逐一辨别。如果用户声源语音识别结果是命令，则是需要交互的用户声源；如果语音识别结果不是命令，则为人类用户干扰声源，予以剔除。本发明复合了基于视觉的人体运动分析命令识别系统，所以在识别所有用户语音信号时，还复合人体肢体命令识别结果对用户干扰声源进行筛除。当所识别的用户声源识别结果是命令，同时该人脸所在的人体检测到对应语音命令的肢体命令，则语音命令和肢体命令形成了匹配对应关系，则此时可断定该用户声源所发命令是用户命令，需要执行。反之，如果语音命令识别结果和肢体命令识别结果不能匹配对应，则认为该用户声源是干扰声源，予以剔除。

或者步骤二中，只对声源的周围进行人脸识别，若声源的位置周围检测到人脸信号，则该声源为语音声源，机器人对该语音声源分析识别语音命令；若声源的位置周围未检测到人脸信号，则该声源为干扰声源，将该声源过滤。

机器人采用基于视觉的人体运动分析来进行运动目标检测、运动目标分类、人体运动跟踪以及行为识别与描述。利用摄像头优选红外摄像头提取人体目标，并对人体目标进行跟踪，然后提取人体骨架，确定人体的主干和肢体，分析人体的肢体动作，识别肢体命令。

图像探测识别单元主要由摄像头、识别分析处理软件等组成。图像探测识别单元主要功能是探测机器人前方视场的图像信息，在图像中进行人脸检测识别，并识别和跟踪人体目标，对人体的肢体动作进行分析，识别出肢体命令。

在图像探测识别系统识别肢体命令的过程中，首先利用红外摄像头提取人体目标，并对人体目标进行跟踪。然后提取人体骨架，确定人体的主干和肢体。在对人体进行跟踪的同时，分析人体的肢体动作，识别肢体命令。当语音探测识别系统识别到语音命令时，将同时间该人体识别的肢体命令和对应人体用户的语音识别命令结果进行比较，看所识别的肢体命令是否和语音识别命令相对应。如果二者相对应，则采用肢体命令识别印证了语音命令识别，说明当前的人体用户确实发出了所识别的语音命令。反之，如果二者不相对应，则不能采用肢体命令识别印证了语音命令识别，说明当前的人体用户没有发出了所识别的语音命令，当前的人体用户是干扰用户语音声源。

本发明将语音识别技术和人体行为分析技术进行复合，提供一个采用语音命令识别和图像肢体命令识别的复合人机交互执行系统，该系统在复杂环境下识别用户命令的精度更高，鲁棒性更强，能更有效地同用户进行交互，完成用户交与的任务。

本发明采用声音探测识别单元检测多个声源，采用人脸识别系统对检测到的多声源进行筛选，将可能的非用户干扰声源进行去除。再采用图像探测识别系统，探测和跟踪人体目标，对人体运动进行分析，识别所跟踪人体的肢体命令。将对用户肢体命令的识别结果和采用人脸识别修正后的语音命令识别结果进行复合，进一步剔除干扰用户声源，准确确定发出命令的用户声源，并对用户所发命令采用机器人机电动作执行系统予以完成，实现有效的人机交互。

本发明所述一种具有上述方法的系统，所述系统包括：

声音探测识别单元，进行声音探测，对声源进行定位；

图像探测识别单元，探测机器人视场的图像信息，在图像中进行人脸检测识别，并识别和跟踪人体目标，对人体的肢体动作进行分析，识别出肢体命令；所述图像探测识别单元包括人脸识别单元和肢体命令识别单元，

执行单元，执行用户命令。

或者本发明所述一种具有上述方法的系统，所述系统包括：语音命令识别单元和肢体命令识别单元，所述语音命令识别单元包括声音探测识别单元和人脸识别单元，其功能是在复杂背景中，识别语音信号中的命令，所述肢体命令识别单元和人脸识别单元是通过图像探测识别单元实现的。

如图1所示，本发明通过复合了人脸检测识别和声音识别来在复杂环境中识别语音命令。在语音识别过程中，声音探测识别单元进行声音探测，对声源进行定位，在真实的复杂环境中同时存在其他用户的语音干扰和非语音干扰(如电视、音箱的声源等)，所以声音定位结果既包含发出语音命令的用户声源，又包含干扰声源。在声音定位的同时，图像探测识别单元的人脸识别单元对机器人前方进行图像探测，从图像中检测识别人脸目标，由于人类用户发命令的声源是口的位置，口的位置和人脸区域重合，所以人类用户声源所在区域往往和某个检测到的人脸区域重合，根据这个条件对人类用户的语音声源和非语音干扰声源进行鉴别。如果所探测到的声源区域和某个检测到的人脸区域重合，则说明该声源是人类用户语音声源.如果所探测到的声源区域不和某个检测到的人脸区域重合，则说明该声源是非用户干扰声源，需要剔除。在筛选出语音声源后，还需确定那个用户语音声源给机器人发出了命令。所以要对每个语音声源进行语音识别，对每个语音声源进行理解，并将语音识别结果和肢体命令识别结果进行复合。当同时存在多个人类用户的复杂环境下，该系统仍可精确识别出向机器人发出的用户命令，鲁棒性更强，更智能、更有效地同人类用户进行交互。

如图2所示，本发明的图像探测识别单元中的肢体命令识别单元对人体的运动进行分析，理解人体目标的肢体动作，识别出用户所发出的肢体命令。在肢体命令识别过程中，先用红外摄像头检测人体目标，并对人体目标进行跟踪。再对检测到的人体目标提取人体骨架，确定人体的主干和肢体。在对人体进行跟踪的同时，分析理解人体的肢体动作，识别肢体的命令。例如用户向机器人发出“向前走”的语音命令时，用户会向机器人做招手的肢体动作。机器人通过语音识别用户所发的“向前走”的语音命令，通过人体运动分析识别出用户人体的手部做出了招手的肢体命令。将两个识别结果进行复合，当语音命令和肢体命令对应上了，则准确识别了用户的命令。

如图3所示，本发明将语音命令识别和图像理解的肢体命令识别进行复合，以更好地进行人机交互。采用声音探测识别检测多个声源，采用人脸检测识别对检测到的多声源进行筛选，将非语音干扰声源进行去除，得到多个人类语音声源需进一步筛选，以找到发出语音命令的用户声源。采用图像探测识别单元探测和跟踪多个人体目标。对每个人体目标进行运动分析，识别所跟踪每个人体目标的肢体动作。由于语音声源也来自人体，所以每个检测到的用户语音声源都会和某个检测到的人体相对应。将相对应声源的语音命令识别结果和对应人体的肢体命令识别结果进行复合比较，如果语音识别到的命令和肢体动作识别到的命令是一致的，例如用户语音发出“向前走”的命令，对该用户身体的肢体命令识别中也出现招手的肢体命令，则语音命令识别结果和肢体命令识别结果匹配对应上了，这时就可断定该人类用户向机器人发出了相应的语音命令，机器人将调用机电动作执行系统完成用户命令规定的内容。如果相对应声源的语音识别结果和对应人体的肢体识别结果进行复合比较后，或者是语音信号中没有识别出语音命令，或者是肢体识别中没有识别出肢体命令，或者语音识别的命令和肢体动作识别到的命令不匹配对应，以上三种情况出现一种都说明该用户语音声源没有向机器人发出需要执行的命令，则该语音声源是人类用户干扰声源，将被剔除。至此，在采用语音命令识别和肢体命令识别复合后，在复杂环境中机器人可更准确地识别用户命令，使人机交互的鲁棒性得以提高.

如前所述，尽管说明中已经参考附图对本发明的示例性实施例进行了说明，但是本发明不限于上述各具体实施方式，还可以有许多其他实施例方式，本发明的范围应当由权利要求书及其等同含义来限定。

Claims

1.一种用于机器人的语音和图像复合交互执行方法，其特征在于，包括：

步骤一：机器人探测周围的声音，并对声源进行定位；

步骤四：机器人根据用户命令执行相应的操作；

其中步骤二中，对声源的周围进行人脸识别，若声源的位置周围检测到人脸信号，则该声源为语音声源，机器人对该语音声源分析识别语音命令；若声源的位置周围未检测到人脸信号，则该声源为干扰声源，将该声源过滤；或者对机器人周围的所有人脸进行识别，若声源的位置与人脸的位置有重合，则该声源为语音声源，机器人对该语音声源分析识别语音命令；若声源的位置与人脸的位置没有重合，则该声源为干扰声源，将该声源过滤。

2.根据权利要求1所述的一种用于机器人的语音和图像复合交互执行方法，其特征在于：步骤三中，若语音声源处检测到的肢体命令与该语音声源确定的语音命令一致，则该语音声源的命令为有效的用户命令，若有效声源处检测到的肢体命令与该有效声源确定的语音命令不一致，则为干扰语音命令，将该命令过滤。

3.根据权利要求2所述的一种用于机器人的语音和图像复合交互执行方法，其特征在于：机器人采用基于视觉的人体运动分析来进行运动目标检测、运动目标分类、人体运动跟踪以及行为识别与描述。

4.根据权利要求3所述的一种用于机器人的语音和图像复合交互执行方法，其特征在于：步骤三中，利用摄像头提取人体目标，并对人体目标进行跟踪，然后提取人体骨架，确定人体的主干和肢体，分析人体的肢体动作，识别肢体命令。

5.一种用于执行权利要求1-4任一所述方法的系统，其特征在于，所述系统包括：

声音探测识别单元，进行声音探测，对声源进行定位；

执行单元，执行用户命令。

6.根据权利要求5所述的系统，其特征在于：所述图像探测识别单元包括人脸识别单元和肢体命令识别单元。

7.根据权利要求6所述的系统，其特征在于：所述人脸识别单元和声音探测识别单元组成用户命令识别单元。