CN111341350A

CN111341350A - 人机交互控制方法、系统、智能机器人及存储介质

Info

Publication number: CN111341350A
Application number: CN202010056302.6A
Authority: CN
Inventors: 王华洋; 黄华; 周院平; 孙信中; 矫人全
Original assignee: Nanjing Aoto Electronics Co ltd
Current assignee: Nanjing Aoto Electronics Co ltd
Priority date: 2020-01-18
Filing date: 2020-01-18
Publication date: 2020-06-26

Abstract

本发明涉及人机交互控制方法、系统、智能机器人及存储介质，其中，方法包括，获取音频信号；判断获取的音频信号中是否有语音；当判断获取的音频信号中含有语音时，获取预设方向的多帧现场图像；对获取的现场图像进行人脸检测，判断是否存在人脸；当判断现场图像中存在人脸时，对多帧现场图像进行嘴唇检测，得到多帧嘴唇轮廓；判断多帧嘴唇轮廓是否符合预设的嘴唇变化状态，如果结果为是，则确定现场图像中的人脸所属用户具有交互意图。本申请提供的人机交互控制方案，可以对用户的交互意图进行识别判断，避免了对环境噪音以及非交互意图的用户进行交互，可以提升人机交互体验；并能有效降低不必要的数据处理，降低系统开销。

Description

人机交互控制方法、系统、智能机器人及存储介质

技术领域

本发明涉及人机交互领域，特别是涉及一种人机交互控制方法、系统、智能机器人及存储介质。

背景技术

随着人工智能技术的不断发展，在越来越多的场景中，都采用了人工智能技术，来与用户进行交互，以提供各种各样的服务。其中，人脸识别和语音识别，因为比较贴合人们正常的交流习惯，而在人机交互中占有重要的地位。

目前的人机交互过程中，机器人只要识别到人脸，或者，接收到语音，就会进行反馈。也就是说，机器人默认，识别到的用户，就是具有交互意图的用户。然而在实际场景中，可能会同时存在多人以及机器播报的声音，受到图像/音频的获取角度、获取范围以及随机出现的特点的影响，机器人识别的人脸可能是路过的或者远处的用户，接收到的语音可能是远处的人声或者机器人的播报声音，机器人无法确定识别到的用户是否具有交互的意图，而会导致随机响应的混乱现象，极大的影响了人机交互的体验。

同时，因为无法确定识别到的用户是否具有交互的意图，机器人会对大量无关的图像/语音进行响应，导致机器人进行了很多不必要的数据处理，增加了系统开销。

发明内容

基于此，有必要针对现有人机交互过程中无法确定识别到的用户是否具有交互意图，而存在的人机交互体验差、系统开销大的问题，提供一种人机交互控制方法、系统、智能机器人及存储介质。

本申请一实施例提供了一种人机交互控制方法，包括：

获取音频信号；

判断获取的音频信号中是否有语音；

当判断获取的音频信号中含有语音时，获取预设方向的多帧现场图像；

对获取的现场图像进行人脸检测，判断是否存在人脸；

当判断现场图像中存在人脸时，对多帧现场图像进行嘴唇检测，得到多帧嘴唇轮廓；

判断多帧嘴唇轮廓是否符合预设的嘴唇变化状态，如果结果为是，则确定现场图像中的人脸所属用户具有交互意图。

在一些实施例中，所述获取音频信号的步骤，具体为，获取预设方向上的音频信号。

在一些实施例中，在所述当判断现场图像中存在人脸时，对多帧现场图像进行嘴唇检测，得到多帧嘴唇轮廓的步骤之前，还包括；

对检测出的人脸进行人脸质量评估，当检测出的人脸满足预设人脸质量要求时，才能判断为现场图像中存在人脸。

计算人脸角度，当人脸角度属于预设人脸角度范围阈值内时，才能判断为现场图像中存在人脸。

在一些实施例中，所述方法还包括：对获取的音频信号进行响应。

本申请一实施例还提供了一种人机交互控制系统，包括：

音频拾取单元，用于获取音频信号；

语音判别单元，用于判断获取的音频信号中是否有语音；

图像获取单元，用于当判断获取的音频信号中含有语音时，获取预设方向的多帧现场图像；

人脸检测单元，用于对获取的现场图像进行人脸检测，判断是否存在人脸；

嘴唇检测单元，用于当判断现场图像中存在人脸时，对多帧现场图像进行嘴唇检测，得到多帧嘴唇轮廓；

交互意图判定单元，用于判断多帧嘴唇轮廓是否符合预设的嘴唇变化状态，如果结果为是，则确定现场图像中的人脸所属用户具有交互意图。

在一些实施例中，所述人脸检测单元，还用于计算人脸与智能机器人的正前方之间的偏差角度，当人脸的偏差角度位于偏差角度范围内时，才能判断为现场图像中存在人脸。

在一些实施例中，所述图像获取单元，还用于实时拍摄现场图像，并进行缓存；当语音判别单元判断获取的音频信号中含有语音时，所述图像获取单元，从缓存的数据中，读取预设方向的多帧现场图像。

本申请另一实施例提供了一种智能机器人，包含前述任一项实施例所述的人机交互控制系统。

本申请一实施例还提供了一种机器可读存储介质，其上存储有计算机程序，其中所述计算机程序在由处理器执行时实现前述任一项实施例所述的人机交互控制方法。

本申请实施例提供的人机交互控制方法，首先对获取的音频信号进行语音的检测，只有检测有语音时，才会进行人脸检测；并对检测出来的人脸进行嘴唇检测，通过嘴唇轮廓的变化，来判断是否有用户具有交互意图；只有判断认为用户具有交互意图时，才会对音频信号进行响应。本申请提供的人机交互控制方法，可以对用户的交互意图进行识别判断，避免了对环境噪音以及非交互意图的用户进行交互，可以提升人机交互体验；并能有效降低不必要的数据处理，降低系统开销。

附图说明

图1为本申请一实施例的人机交互控制方法的流程示意图；

图2为本申请另一实施例的人机交互控制方法的流程示意图；

图3为本申请一实施例的人机交互控制系统的架构示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行详细描述。需要说明的是，在不冲突的情况下，本申请的实施方式及实施方式中的特征可以相互组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施方式的目的，不是旨在于限制本发明。

如图1所示，本申请一实施例公开了人机交互控制方法，包括：

S100，获取音频信号；

人机交互控制方法，可以由一个系统来执行，也可以由一个智能机器人来执行。下面以智能机器人作为执行主体为例，对本实施例的人机交互控制方法做具体描述。可以理解的是，人机交互控制方法，也可以由一个人机交互控制系统来执行，该系统可以包括相互通信连接的前端和后台，前端可以是直接面向用户的智能机器人，后台可以是用于处理数据的服务器。

智能机器人上可以设置有音频拾取单元，比如麦克风，用于获取音频信号。

在一些实施例中，智能机器人可以具有明显的交互方向，只有当用户处于智能机器人的交互方向上时，该用户才有更大的可能具有交互意图。智能机器人上的音频拾取单元，可以具体采用定向麦克风阵列，只能获取预设方向上的音频信号。为了降低其他方向上的音频的干扰，在获取预设方向上的音频信号时，还可以对预设方向上的音频信号进行增强，对其他方向的音频信号进行抑制。

在一些实施例中，一些用户可能并不会注意智能机器人的交互方向，为了避免遗漏点此类具有交互意图，但不在智能机器人的交互方向的用户，智能机器人的音频拾取单元，也可以获取全部方向上的音频信号，而不限定在特定方向上。同时，音频拾取单元，还可以获得声源的方位，以便于后续处理时，能够让智能机器人转向声源的方位，面对用户，获取对应方位的现场图像，以及对音频信号进行响应，提升人机交互体验。

S200，判断获取的音频信号中是否有语音；

判断获取的音频信号中是否有语音，可以使用现有的多种实现方案。示例的，可以对音频信号直接进行语音识别，判断是否有识别出来的语音内容；如果没有识别出的语音内容，则认为该音频信号中没有语音，就可以终止后续的处理，不对音频信号进行相响应。反之，如果识别出来有语音内容，则判断音频信号中有语音，需要进入后续步骤，进行进一步的判断与处理。

在一些实施例中，也可以使用VAD（Voice Activity Detection，语音获得检测，也称为语音端点检测、语音边界检测）技术，来判断音频信号中是否有语音。VAD技术，可以分为两部分，一是特征提取，二是语音/非语音的分类判别。VAD使用的特征，可以是能量特征（比如短时能量、过零率等）、频域特征、倒谱特征（比如MFCC，Mel Frequency CepstrumCoefficient，梅尔频率倒谱系数）、谐波特征、长时特征中的一种或者多种。语音/非语音的分类判别，可以采用门限、统计模型或者机器学习等不同的准则。统计模型，可以是混合高斯模型GMM、拉普拉斯分布、伽马分布、隐马尔可夫模型HMM等统计模型中的一种。机器学习，可以利用训练数据，训练得到一个对应场景的分类判别模型。示例的，可以利用机器学习，构建一个深度神经网络模型DNN、通用背景的模型UBM或者支持向量机SVM，用于进行语音/非语音的分类判别。示例的，在一种VAD方案中，采用基于短时能量和过零率的双门限的方案。

S300，当判断获取的音频信号中含有语音时，获取预设方向的多帧现场图像；

S400，对获取的现场图像进行人脸检测，判断是否存在人脸；

当判断音频信号中含有语音时，需要继续判断，音频信号中的语音，是来自智能机器人附近的用户，还是远处的用户，亦或是机器人的声音，也就是判断，智能机器人附近是否有用户。因此，当判断音频信号中含有语音时，智能机器人需要获取预设方向的多帧现场图像，以用于后续的人脸检测和嘴唇检测。

智能机器人上可以设置有摄像头，需要在预设方向上获取现场图像。预设方向，可以根据智能机器人的交互方向进行确定，比如，将交互方向作为获取现场图像的预设方向；也可以依据声源的方位来确定，比如，当智能机器人在获取音频信号时，可以同步获取声源的方位，那么，可以将声源的方位，作为获取现场图像的预设方案。当根据声源的方位来确定预设方向时，在获取现场图像时，可以将摄像头或者智能机器人转到声源的方位，然后再用摄像头拍摄多帧现场图像。

可以理解的是，在一些实施例中，智能机器人的摄像头，可以实时拍摄现场图像，并进行缓存；只有当判断获取的音频信号中含有语音时，才会从缓存的数据中，读取预设方向的多帧现场图像，用于后续的处理。

获取到现场图像之后，需要进行人脸检测，以判断现场图像中是否存在人脸。人脸检测的实现方案，可以采用现有的人脸检测方法，比如模板匹配方法、形状与边缘方法、纹理特征方法、颜色特征方法、支持向量机、隐马尔可夫模型、Adaboost算法、神经网络结构等。

示例的，可以仅对获取的多组现场图像中的一帧现场图像，进行人脸检测，只要有一帧现场图像存在人脸，即可判断现场图像中存在人脸；只有所有现场图像中均没有检测到人脸，才判断现场图像中不存在人脸。

示例的，也可以对获取的多帧现场图像，均进行人脸检测。可以预设一个存在人脸的数量阈值，当检测出人脸的现场图像帧数大于存在人脸的数量阈值时，才会判断现场图像中存在人脸。如此，只有在预设方向上稳定出现的用户的人脸，才会用于后续的处理；可以避免在预设方向上偶然出现的、路过的用户引发的误判。

为了提升人脸检测的精度，避免出现误判，在步骤S400中，对检测出的人脸，还可以进行人脸质量评估，只有满足预设人脸质量要求的人脸，才能判断为现场图像中存在人脸。可以采用现有的人脸质量评估方法，来进行人脸质量评估，比如基于面部对称性、清晰度、亮度质量和图像分辨率四个面部特征的加权得分，或者基于Patch的面部图像质量评估算法，或者使用低层级特征估计面部图像质量方法，或者基于卷积神经网络的面部图像质量评估方法。

在一些实施例中，现场图像中可能出现有多张人脸，此时，还可以计算人脸与智能机器人的正前方之间的偏差角度；可以预设一个偏差角度范围，只有人脸的偏差角度位于偏差角度范围内的，才能判断为现场图像中存在人脸。以智能机器人的正前方为中心，智能机器人与人脸之间的连线与正前方之间的夹角，即为人脸与智能机器人的正前方之间的偏差角度。示例的，偏差角度范围可以是±10°。根据实际需要偏差角度范围，也可以是其他数值。

在一些情况下，智能机器人在获取音频信号时，可以同步获取声源的方位；同时，智能机器人可以直接获取一个大范围内的现场图像，而不需要转向到声源的方位。此时，当现场图像中出现有多张人脸时，可以计算人脸与声源的方位之间的偏差角度。类似的，可以预设一个偏差角度范围，只有人脸的偏差角度位于偏差角度范围内的，才能判断为现场图像中存在人脸。

在一些实施例中，当现场图像中可能出现有多张人脸时，也可以计算人脸角度，预设一个人脸角度范围阈值，只有人脸角度属于人脸角度范围阈值内时，才能判断为现场图像中存在人脸。人脸角度，就是人脸朝向偏离人脸与智能机器人之间的连线的角度。一般而言，当一个用户需要与智能机器人进行交互时，用户会对着智能机器人。因此，通过人脸角度，可以识别出哪些人脸时面对智能机器人，哪些人脸是偏离智能机器人的，只有人脸角度属于人脸角度范围阈值内的，才能判断为现场图像中存在人脸；对于不属于人脸角度范围阈值的人脸，就不需要进行后续的嘴唇检测以及判断，在判断现场图像总是否存在人脸时，可以忽略这些不属于人脸角度范围阈值的人脸。

人脸角度，可以采用常用的人脸姿态估计算法，比如基于模型的方法、基于表观的方法、基于分类的方法等，采用欧拉角、旋转矩阵、旋转向量、四元数等特征量中的一个，来表征人脸角度。

S500，当判断现场图像中存在人脸时，对多帧现场图像进行嘴唇检测，得到多帧嘴唇轮廓；

S600，判断多帧嘴唇轮廓是否符合预设的嘴唇变化状态，如果结果为是，则确定现场图像中的人脸所属用户具有交互意图。

当判断现场图像中存在人脸之后，即可从多帧现场图像中，获得多帧人脸。从多帧人脸中，提取嘴唇轮廓。嘴唇轮廓的提取，可以使用常规的嘴唇轮廓提取方法，比如基于像素的方法、基于嘴唇轮廓模型的方法或者混合特征提取的方法等。本申请对于嘴唇轮廓的提取方法，并没具体限制，只要能够企图出嘴唇轮廓即可。

利用多帧嘴唇轮廓，进行唇动识别，与预设的嘴唇变化状态进行比较。预设的嘴唇变化状态，是基于说话时嘴唇轮廓的变化而设置的。说话时，嘴唇轮廓会有张开、收缩、闭合等变化。示例的预设的嘴唇变化状态，可以是张开-收缩/闭合-张开这样的连续状态变化。如果多帧嘴唇轮廓，符合这样的张开-收缩/闭合-张开的连续状态变化，则可以认为多帧嘴唇轮廓符合预设的嘴唇变化状态，判断结果为是。那么，现场图像中的人脸所属用户，就很有极大可能是发出语音的人，也就是具有交互意图的人，就需要对获取的音频信号进行响应。

在一些实施例中，如图2所示，人机交互控制方法还包括，S700，对获取的音频信号进行响应。

对音频信号的响应，可以是对音频信号进行语音识别，然后根据语音识别的结果，得到响应数据，根据响应数据进行对应的响应操作。示例的，如果语音识别结果显示，用户在进行业务问询，则可以在业务数据库中搜索答案，作为响应数据，并根据答案答复用户，比如语音播报或者在显示屏上进行显示。如果语音识别结果显示，用户需要办理某种业务，则根据业务逻辑，可以进行取号操作，或者引导到对应的业务窗口，或者直接进行业务办理。

在对音频信号进行响应之前，还可以对具有交互意图的用户的人脸进行人脸识别，获取用户的身份信息。在对音频信号进行响应时，可以结合用户的身份信息，进行响应。

在一些实施例中，现场图像中可能仍然存在多张人脸，步骤S500中，对所有人脸均进行嘴唇检测，得到对应各个人脸的多帧嘴唇轮廓；S600，针对每个人脸的多帧嘴唇轮廓，判断多帧嘴唇轮廓是否符合预设的嘴唇变化状态，如果结果为是，则确定对应的人脸所属用户具有交互意图，需要对获取的音频信号进行响应。

如果步骤S600中，有多个人脸所属用户均具有交互意图，则可以对这些多个人脸分别进行人脸识别，获取用户的身份信息；根据用户身份信息，确定响应优先级；优先响应优先级高的用户。响应时，可以将智能机器人转向优先级高的用户，让智能机器人面对进行响应的用户。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请实施例所必须的。

如图3所示，本申请一实施例公开了人机交互控制系统，包括：

音频拾取单元100，用于获取音频信号；

语音判别单元200，用于判断获取的音频信号中是否有语音；

图像获取单元300，用于当判断获取的音频信号中含有语音时，获取预设方向的多帧现场图像；

人脸检测单元400，用于对获取的现场图像进行人脸检测，判断是否存在人脸；

嘴唇检测单元500，用于当判断现场图像中存在人脸时，对多帧现场图像进行嘴唇检测，得到多帧嘴唇轮廓；

交互意图判定单元600，用于判断多帧嘴唇轮廓是否符合预设的嘴唇变化状态，如果结果为是，则确定现场图像中的人脸所属用户具有交互意图。

音频拾取单元100、语音判别单元200、图像获取单元300、人脸检测单元400、嘴唇检测单元500及交互意图判定单元600的具体工作方式及原理，可以参见前面方法实施例中的描述，在此不再赘述。

在一些实施例中，人脸检测单元400，还用于对检测出的人脸进行人脸质量评估，当检测出的人脸满足预设人脸质量要求时，才能判断为现场图像中存在人脸。如此，可以提升人脸检测的精度，避免出现误判。

在一些实施例中，人脸检测单元400，还用于计算人脸与智能机器人的正前方之间的偏差角度，当人脸的偏差角度位于偏差角度范围内时，才能判断为现场图像中存在人脸。

在一些实施例中，人脸检测单元400，还用于计算人脸角度，当人脸角度属于人脸角度范围阈值内时，才能判断为现场图像中存在人脸。

人机交互控制系统还可以包括，响应处理单元700，用于对音频信号进行响应。

在一些应用场景中，人机交互控制系统可以包括前端的智能机器人和后台的服务器，智能机器人与服务器通信连接；其中，音频拾取单元100、图像获取单元300可以设置在智能机器人上，语音判别单元200、人脸检测单元400、嘴唇检测单元500、交互意图判定单元600可以设置在后台的服务器上。如此，可以利用后台的服务器来进行数据的处理与分析，降低智能机器人上的数据处理性能要求，降低智能机器人的成本，方便人机交互控制系统的布设与扩展。

在一些实施例中，图像获取单元300可以实时拍摄现场图像，并进行缓存；只有当语音判别单元200判断获取的音频信号中含有语音时，图像获取单元300才会从缓存的数据中，读取预设方向的多帧现场图像，用于后续的处理。

本申请实施例提供的人机交互控制系统，首先对获取的音频信号进行语音的检测，只有检测有语音时，才会进行人脸检测；并对检测出来的人脸进行嘴唇检测，通过嘴唇轮廓的变化，来判断是否有用户具有交互意图；只有判断认为用户具有交互意图时，才会对音频信号进行响应。本申请提供的人机交互控制方法，可以对用户的交互意图进行识别判断，避免了对环境噪音以及非交互意图的用户进行交互，可以提升人机交互体验；并能有效降低不必要的数据处理，降低系统开销。

本申请一实施例还提供一种智能机器人，可以包括有前述人机交互控制系统。

本申请一实施例提供一种机器可读存储介质，其上存储有计算机程序，其中所述计算机程序在由处理器执行时实现上述任一实施例所述的人机交互控制方法。

所述系统/计算机装置集成的部件/模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施方式方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，所述计算机程序在被处理器执行时，可实现上述各个方法实施方式的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器 (ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

在本发明所提供的几个具体实施方式中，应该理解到，所揭露的系统和方法，可以通过其它的方式实现。例如，以上所描述的系统实施方式仅仅是示意性的，例如，所述部件的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

另外，在本发明各个实施例中的各功能模块/部件可以集成在相同处理模块/部件中，也可以是各个模块/部件单独物理存在，也可以两个或两个以上模块/部件集成在相同模块/部件中。上述集成的模块/部件既可以采用硬件的形式实现，也可以采用硬件加软件功能模块/部件的形式实现。

对于本领域技术人员而言，显然本发明实施例不限于上述示范性实施例的细节，而且在不背离本发明实施例的精神或基本特征的情况下，能够以其他的具体形式实现本发明实施例。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明实施例的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明实施例内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统、装置或终端权利要求中陈述的多个单元、模块或装置也可以由同一个单元、模块或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种人机交互控制方法，其特征在于，包括：

获取音频信号；

判断获取的音频信号中是否有语音；

对获取的现场图像进行人脸检测，判断是否存在人脸；

2.根据权利要求1所述的人机交互控制方法，其特征在于，所述获取音频信号的步骤，具体为，获取预设方向上的音频信号。

3.根据权利要求1所述的人机交互控制方法，其特征在于，在所述当判断现场图像中存在人脸时，对多帧现场图像进行嘴唇检测，得到多帧嘴唇轮廓的步骤之前，还包括；

4.根据权利要求3所述的人机交互控制方法，其特征在于，在所述当判断现场图像中存在人脸时，对多帧现场图像进行嘴唇检测，得到多帧嘴唇轮廓的步骤之前，还包括；

5.根据权利要求1所述的人机交互控制方法，其特征在于，所述方法还包括：对获取的音频信号进行响应。

6.一种人机交互控制系统，其特征在于，包括：

音频拾取单元，用于获取音频信号；

语音判别单元，用于判断获取的音频信号中是否有语音；

7.根据权利要求6所述的人机交互控制系统，其特征在于，所述人脸检测单元，还用于计算人脸与智能机器人的正前方之间的偏差角度，当人脸的偏差角度位于偏差角度范围内时，才能判断为现场图像中存在人脸。

8.根据权利要求6所述的人机交互控制系统，其特征在于，所述图像获取单元，还用于实时拍摄现场图像，并进行缓存；当语音判别单元判断获取的音频信号中含有语音时，所述图像获取单元，从缓存的数据中，读取预设方向的多帧现场图像。

9.一种智能机器人，其特征在于，包含权利要求6-8任一项所述的人机交互控制系统。

10.一种机器可读存储介质，其上存储有计算机程序，其中所述计算机程序在由处理器执行时实现权利要求1-5任一项所述的人机交互控制方法。