CN111722700A

CN111722700A - 一种人机交互方法及人机交互设备

Info

Publication number: CN111722700A
Application number: CN201910217067.3A
Authority: CN
Inventors: 齐国强; 阮志峰
Original assignee: TCL Research America Inc
Current assignee: TCL Corp; TCL Research America Inc
Priority date: 2019-03-21
Filing date: 2019-03-21
Publication date: 2020-09-29

Abstract

本发明适用于计算机技术领域，提供了一种人机交互方法及人机交互设备，包括：当检测到触发交互的指令时，获取交互对象的图像信息；将所述图像信息输入预设的级联神经网络模型进行处理，得到所述交互对象的识别结果；其中，所述神经网络模型是基于YOLO算法对图像样本集训练得到，在训练过程中，所述级联神经网络模型的输入为图像样本集中标记了识别结果类型的样本图像信息，所述级联神经网络模型的输出为所述样本图像信息的识别结果；所述识别结果包括肢体动作识别结果、脸部识别结果以及手势识别结果；基于所述交互对象的识别结果确定目标交互指令。上述方法，能够交全面完整的获取交互对象的信息，可以准确的获取用户的意图，提升人机交互效果。

Description

一种人机交互方法及人机交互设备

技术领域

本发明属于计算机技术领域，尤其涉及一种人机交互方法及人机交互设备。

背景技术

人工智能技术的快速发展，使得智能机器人得以快速的进入到我们的生产生活中，同时，在物联网和虚拟现实技术领域，对于人机交互技术的需求也在与日俱增。目前主流的人机交互的方式有基于触摸屏的触摸式交互、基于语音识别和语音合成技术的语音交互、基于体感技术和动作识别的体感交互以及基于以人的生命体征作为识别依据的生物识别交互。

但是上述交互方法能够交互的信息普遍有限，不能全面完整的获取交互对象的信息，交互的类容和形式单一，导致无法准确地获取交互对象的意图，人机交互效果差。

发明内容

有鉴于此，本发明实施例提供了一种人机交互方法及人机交互设备，以解决现有技术中无法准确的获取交互对象的意图，人机交互效果差的问题。

本发明实施例的第一方面提供了一种人机交互方法，包括：

当检测到触发交互的指令时，获取交互对象的图像信息；其中，所述图像信息包括脸部图像和肢体图像；

将所述图像信息输入预设的级联神经网络模型进行处理，得到所述交互对象的识别结果；其中，所述神经网络模型是基于YOLO算法对图像样本集训练得到，在训练过程中，所述级联神经网络模型的输入为图像样本集中标记了识别结果类型的样本图像信息，所述级联神经网络模型的输出为所述样本图像信息的识别结果；所述识别结果包括肢体动作识别结果、脸部识别结果以及手势识别结果；

基于所述交互对象的识别结果确定目标交互指令。

本发明实施例的第二方面提供了一种人机交互设备，包括：

获取单元，用于当检测到触发交互的指令时，获取交互对象的图像信息；其中，所述图像信息包括脸部图像和肢体图像；

处理单元，用于将所述图像信息输入预设的级联神经网络模型进行处理，得到所述交互对象的识别结果；其中，所述神经网络模型是基于YOLO算法对图像样本集训练得到，在训练过程中，所述级联神经网络模型的输入为图像样本集中标记了识别结果类型的样本图像信息，所述级联神经网络模型的输出为所述样本图像信息的识别结果；所述识别结果包括肢体动作识别结果、脸部识别结果以及手势识别结果；

确定单元，用于基于所述交互对象的识别结果确定目标交互指令。

本发明实施例的第三方面提供了一种人机交互设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的人机交互方法的步骤。

本发明实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述的人机交互方法的步骤。

本发明实施例中，当检测到触发交互的指令时，获取交互对象的图像信息；其中，所述图像信息包括脸部图像和肢体图像；将所述图像信息输入预设的级联神经网络模型进行处理，得到所述交互对象的识别结果；其中，所述神经网络模型是基于YOLO算法对图像样本集训练得到，在训练过程中，所述级联神经网络模型的输入为图像样本集中标记了识别结果类型的样本图像信息，所述级联神经网络模型的输出为所述样本图像信息的识别结果；所述识别结果包括肢体动作识别结果、脸部识别结果以及手势识别结果；基于所述交互对象的识别结果确定目标交互指令。上述方法，通过预设的级联神经网络模型对图像信息进行处理，得到肢体动作识别结果、脸部识别结果以及手势识别结果，从肢体、脸部和手势多个方面进行识别，能够交全面完整的获取交互对象的信息，可以准确的获取用户的意图，提升人机交互效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是图1是本发明实施例提供的一种人机交互方法的实现流程图；

图2是本发明实施例提供的身体的14个关键点的示意图；

图3是本发明实施例提供的脸部的68个关键点的示意图；

图4是本发明实施例提供的手部的21个关键点的示意图；

图5是本发明实施例提供的一种人机交互方法中S102的具体实现流程图；

图6是本发明实施例提供的一种人机交互方法中S103的具体实现流程图；

图7是本发明实施例提供的一种人机交互方法中S104～S105的具体实现流程图；

图8是本发明实施例提供的另一种人机交互方法的实现流程图；

图9是本发明实施例提供的再一种人机交互方法的实现流程图；

图10是本发明一实施例提供的一种人机交互设备的示意图；

图11是本发明一实施例提供的一种人机交互设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

请参见图1，图1是本发明实施例提供的一种人机交互方法的实现流程图。本实施例中人机交互方法的执行主体为人机交互设备。如图所示的人机交互方法可包括：

S101：当检测到触发交互的指令时，获取交互对象的图像信息；其中，所述图像信息包括脸部图像和肢体图像。

人机交互设备检测触发交互的指令，其中，触发交互的方式可以是由交互对象触发的，例如交互对象通过点击人机交互设备显示屏幕上的虚拟按钮触发交互或者通过语音触发交互；触发交互的方式也可以是人机交互设备在检测到当前满足预设条件时自动触发的，例如人机交互设备通过传感器识别到预设的范围内有交互对象接近自动触发交互，此处对于触发交互的方式不做限制。触发交互后生成触发交互的指令。

人机交互设备检测到触发交互的指令，可以通过人机交互设备上安装的摄像头进行图像捕捉，采集交互对象的图像信息。采集交互对象图像信息的方法包括但不限于拍照、拍摄视频、实时录像等。为了能够全面完整的获取交互对象的信息，采集到的交互对象的图像信息至少应包括交互对象的脸部图像和肢体图像。

在本实施例中，当获取到交互对象的图像信息时，可以基于交互对象的图像信息获取交互对象的信息，则执行S102～S103；当没有获取到交互对象的图像信息时，无法基于交互对象的图像信息获取交互对象的信息，此时为了可以继续进行交互，执行S104～S105。

S102：将所述图像信息输入预设的级联神经网络模型进行处理，得到所述交互对象的识别结果；其中，所述神经网络模型是基于YOLO算法对图像样本集训练得到，在训练过程中，所述级联神经网络模型的输入为图像样本集中标记了识别结果类型的样本图像信息，所述级联神经网络模型的输出为所述样本图像信息的识别结果；所述识别结果包括肢体动作识别结果、脸部识别结果以及手势识别结果。

人机交互设备预先设置了级联神经网络模型，级联神经网络模型包括依次处理图像信息的多级神经网络，每级神经网络也可以包括多个神经网络。虽然使用一个神经网络也是可以得到交互对象的识别结果的，但是一个神经网络得到的识别结果往往是不准确的，通过级联神经网络模型可以准确的得到交互对象的识别结果，并且可以有针对性的对各个神经网络分别进行训练，这样保证了每个神经网络性能的可靠性，也方便在后期应用中有针对的进行优化，同时提高了整体系统的性能、精度和灵活性。

本实施例中的级联神经网络神经网络模型中包括第1级神经网络到第n级神经网络，将图像信息输入至第1级神经网络中进行处理，得到第1级神经网络输出的关键信息；将第1级神经网络输出的关键信息输入至第2级神经网络中进行处理，得到第2级神经网络输出的关键信息；将第2级神经网络输出的关键信息输入至第3级神经网络中进行处理，得到第3级神经网络输出的关键信息；按上述操作依次执行，直至得到第n级神经网络输出的关键信息，确定图像信息的识别结果。

预设的神经网络模型可以包括输入层、隐含层、输出层(损失函数层)。输入层包括一个输入层节点，用于从外部接收输入的图像信息。隐含层用于对图像信息进行处理，提取图像信息的识别结果。输出层用于输出图像信息的识别结果。本实施例中，预设的神经网络模型是基于YOLO算法对图像样本集训练得到，在训练过程中，级联神经网络模型的输入为图像样本集中标记了识别结果类型的样本图像信息，所述级联神经网络模型的输出为样本图像信息的识别结果。

其中，级联神经网络模型中的每个神经网络都可以基于YOLO算法进行训练。YOLO算法全称是You Only Look Once：Unified,Real-Time Object Detection，You Only LookOnce说的是只需要一次卷积神经网络(CNN)运算，Unified指的是这是一个统一的框架，提供端到端(end to end)的预测，而Real-Time体现是Yolo算法速度快。YOLO算法采用一个单独的CNN模型实现end-to-end的目标检测：首先将输入图片resize，然后送入CNN网络，最后处理网络预测结果得到检测的目标。相比R-CNN算法，其是一个统一的框架，其速度更快，而且YOLO的训练过程也是端到端(end to end)的。本实施例中，直接从图像信息中提取候选区域，通过整幅图形特征来预测目标位置和概率，将目标检测问题转化为回归问题，实现了端到端(end to end)的检测。

具体地说，YOLO的CNN网络将输入的图片分割成S*S网格，然后每个单元格负责去检测那些中心点落在该格子内的目标。每个单元格会预测B个边界框(bounding box)以及边界框的置信度(confidence score)。所谓置信度其实包含两个方面，一是这个边界框含有目标的可能性大小，二是这个边界框的准确度。前者记为Pr(object)，当该边界框是背景时(即不包含目标)，此时Pr(object)＝0。而当该边界框包含目标时，Pr(object)＝1。边界框的准确度可以用预测框与实际框(ground truth)的交并比(intersection over union，IOU)来表征，记为IOU。因此置信度可以定义为Pr(object)×IOU。很多人可能将Yolo的置信度看成边界框是否含有目标的概率，但是其实它是两个因子的乘积，预测框的准确度也反映在里面。边界框的大小与位置可以用4个值来表征：(x,y,h,w)，其中(x,y)是边界框的中心坐标，而和是边界框的宽与高。还有一点要注意，中心坐标的预测值(x,y)是相对于每个单元格左上角坐标点的偏移值，并且单位是相对于单元格大小的。而边界框的w和h预测值是相对于整个图片的宽与高的比例，这样理论上4个元素的大小应该在[0,1]范围。这样，每个边界框的预测值实际上包含5个元素：(x,y,w,h,confidence)，其中前4个表征边界框的大小与位置，而最后一个值是置信度。

每个bounding box都对应一个confidence score，如果grid cell里面没有object，confidence就是0，如果有，则confidence score等于预测的box和ground truth的IOU值。如果一个object的ground truth的中心点坐标在一个grid cell中，那么这个gridcell就是包含这个object，也就是说这个object的预测就由该grid cell负责。每个gridcell都预测C个类别概率，表示一个grid cell在包含object的条件下属于某个类别的概率。

下面以训练识别肢体动作的模型为例，对该模型的训练过程简单进行说明，在训练检测方法中，将检测分为三个过程：提取候选框、目标检测、目标检测与定位，本领域技术人员可以理解，其中的参数仅为该实施例中的一种情况。具体步骤如下：

A1：提取候选框。

将输入的图像划分为13x13个单元格(grid cell)，每个grid cell预测5个bounding boxes，每个bounding box都包含5个预测值：x,y,w,h和confidence，x,y就是bounding box的中心坐标，w和h进行归一化(分别除以图像的w和h，这样最后的w和h就在0到1范围)。另外，每个bounding box都预测2个类别的概率(分类为：手部，脸部)。

A2：目标检测。

首先对候选框进行目标检测，预测每个bounding box中存在目标的置信度Conf(Object)，将不存在目标物的候选框置信度为零。

其中，Pr(Object)表示是否有目标物落入候选款对应的单元格中。若有，单元格对应的候选框的目标置信度为，否则，认定候选框中没有目标物，Conf(Object)＝0。

表示预测框与真实框的交并比。

A3：目标检测与定位。

对存在目标物体的候选框进行分类检测，预测目标物是各类目标的条件概率Pr(Class|Object)，则候选框中包含各类别的置信度Conf(Class)：

Pr(Class|Object)表示grid cell在包含object的条件下属于某个类别的概率，对每个bounding box预测其中包含目标的概率以及边界框的位置，则每个候选框输出的预测值为[X,Y,W,H,Conf(Object),Conf(class)],其中X,Y为预测框中心相对于单元格边界的偏移，W,H为预测框相对于振幅图像之比，对于输入的每幅图片，得到的为向量：

MxNxBx[X,Y,W,H,Conf(Object),Conf(class)]，再通过后处理网络，回归出待检测物体的坐标和类别。

人机交互设备将图像信息输入预设的级联神经网络模型进行处理，得到交互对象的识别结果，在训练过程中，所述级联神经网络模型的输入为图像样本集中标记了识别结果类型的样本图像信息，所述级联神经网络模型的输出为样本图像信息的识别结果。

其中，识别结果包括肢体动作识别结果、脸部识别结果以及手势识别结果。肢体动作识别结果可以包括根据人体骨骼关键点分布确定的身体的14个关键点以及肢体动作的分类，身体的14个关键点如图2所示；脸部识别结果可以包括脸部的68个关键点以及脸部表情的分类，脸部表情的分类可以包括快乐、伤心、恐惧、愤怒、惊讶和厌恶等等，脸部的68个关键点如图3所示；手势识别结果可以包括手部的21个关键点以及手势的分类，其中，两只手各为21点，每只手部的21个关键点如图4所示。其中，肢体动作识别结果、脸部识别结果以及手势识别结果并不限于包括身体关键点、脸部关键点以及手势关键点，可以包括身体关键区域、脸部关键区域、手势关键区域或者可以包括身体关键线信息、脸部关键线信息、手势关键线信息等等，本实施例中以身体关键点、脸部关键点以及手势关键点为例，是因为使用关键点信息可以提高处理速度和效率，不需要进行复杂的分析和计算，同时关键点信息更便于提取。

其中，n为自然数，n大于等于2，n具体的取值要根据实际的实施情况来确定，如结合要获取到的识别结果的精度以及人机交互设备本身的运算能力、硬件条件等情况进行设置，此处不做限制。

进一步地，所述级联神经网络模型包括级联的第一神经网络、第二神经网络以及第三神经网络，为了高效、准确地获取到交互对象的识别结果，S102可以包括S1021～S1023，如图5所示，S1021～S1023包括：

S1021：将所述图像信息输入所述级联神经网络模型，通过所述第一神经网络进行处理，得到人体区域信息。

在对图像信息进行识别的过程中，级联神经网络的级数n越小则人机交互设备的负担越小，识别的速度也更快，但是，级联神经网络的级数n越大则识别的结果越精准，所以为了兼顾识别结果的精准以及减少设备的负担，本实施例中，级联神经网络模型包括级联的第一神经网络、第二神经网络以及第三神经网络。其中，第一神经网络、第二神经网络以及第三神经网络也是基于YOLO算法对训练集训练得到的，训练方法与S102中的训练方法相同，此处不再赘述。

人机交互设备将图像信息输入级联神经网络模型，第一神经网络进行处理，第一神经网络可以命名为BDNet(body detect net)，主要负责人体检测，在复杂的环境中检测出人体框的位置(body box)得到人体区域信息。其中第一神经网络的输入为图像样本集中的样本图像信息，第一神经网络的输出为人体区域信息。

S1022：将所述人体区域信息输入所述第二神经网络进行处理，得到脸部区域信息、手部区域信息。

人机交互设备将人体区域信息进行图像大小变换的处理(resize)，可以将人体区域信息的图像resize到300*300的大小后输入第二神经网络，第二神经网络进行处理，第二神经网络可以命名为MNet(multi-task net)，主要负责脸部检测和手部检测，在人体区域信息的图像中检测出脸部预测框(face box)和手部预测框(hand box)，得到脸部区域信息、手部区域信息。其中第二神经网络的输入为图像样本集中的样本人体区域信息的图像信息，第二神经网络的输出为脸部区域信息、手部区域信息。

S1023：将所述人体区域信息、所述脸部区域信息、所述手部区域信息输入所述第三神经网络进行处理，得到肢体识别结果、脸部识别结果以及手部识别结果。

人机交互设备将人体区域信息、脸部区域信息、手部区域信息输入第三神经网络，第三神经网络进行处理，第三神经网络中可以包括三个神经网络，分别负责获取肢体识别结果、脸部识别结果以及手部识别结果，分别可以为BLNet(body landmark net)、FNet(face landmark net)以及HNet(hand landmark net)。将手部区域信息输入到BLNet中进行处理，从而得到肢体识别结果；将脸部区域信息输入到FNet中进行处理，从而得到脸部识别结果；将手部区域信息输入到HNet中进行处理，从而得到手部识别结果。

S103：基于所述交互对象的识别结果确定目标交互指令。

人机交互设备预先设置识别结果与交互指令的对应关系，人机交互设备基于交互对象的识别结果以及识别结果与交互指令的对应关系，确定目标交互指令。例如，人机交互设备预先设置识别结果中，肢体动作识别结果为站立举手、脸部识别结果为微笑、手势识别结果为五指张开时，对应的交互指令为语音播放“你好，很高兴认识你”，则当交互对象的识别结果为肢体动作识别结果为站立举手、脸部识别结果为微笑、手势识别结果为五指张开时，基于人机交互设备预先设置识别结果与交互指令的对应关系，可以确定目标交互指令为语音播放“你好，很高兴认识你”。

进一步地，为了使得交互对象体验个性化的人机交互，所述脸部识别结果用于标识身份信息，S103可以包括S1031～S1032，如图6所示，S1031～S1032具体如下：

S1031：当从预置的身份信息中获取到与所述脸部识别结果标识的身份信息匹配的身份信息时，基于交互信息与身份信息之间的预设对应关系，获取所述身份信息对应的预设交互信息；其中，所述预设交互信息包括预设交互指令以及每个所述预设交互指令对应的预设肢体识别结果、预设脸部识别结果、预设手部识别结果。

人机交互设备预先设置了身份信息，每个预设的身份信息对应的预先设置了交互信息，预设交互信息包括预设交互指令以及每个预设交互指令对应的预设肢体识别结果、预设脸部识别结果、预设手部识别结果。每个预设的身份信息对应设置的交互信息可以通过交互对象自定义设置，交互对象识别身份信息后，进入设置模式，通过虚拟按钮设置预设交互指令以及每个预设交互指令对应的预设肢体识别结果、预设脸部识别结果、预设手部识别结果。例如，交互对象进入设置模式后，可以出现预设的交互指令按钮，包括“播放音乐”“语音播放提示信息”等等，交互对象选择“播放音乐”交互指令，然后对“播放音乐”交互指令对应的预设肢体识别结果、预设脸部识别结果、预设手部识别结果进行设置，可以设置预设肢体识别结果为“跳”、预设脸部识别结果为“大笑”、预设手部识别结果为“五指张开”。

由于脸部识别结果用于标识身份信息，人机交互设备基于脸部识别结果获取脸部识别结果标识的身份信息，从预置的身份信息中获取到与脸部识别结果标识的身份信息匹配的身份信息，基于交互信息与身份信息之间的预设对应关系，获取身份信息对应的预设交互信息。这样，交互对象的身份信息被识别后，即可以获取到身份信息对应的预设交互指令以及每个预设交互指令对应的预设肢体识别结果、预设脸部识别结果、预设手部识别结果。

S1032：从所述预设交互信息中获取与所述交互对象的识别结果匹配的预设肢体识别结果、预设脸部识别结果、预设手部识别结果，基于所述预设交互信息确定所述匹配的预设肢体识别结果、所述匹配的预设脸部识别结果、所述匹配的预设手部识别结果对应的交互指令。

人机交互设备从预设交互信息中获取与交互对象的识别结果匹配的预设肢体识别结果、预设脸部识别结果、预设手部识别结果，由于预设交互信息包括预设交互指令以及每个预设交互指令对应的预设肢体识别结果、预设脸部识别结果、预设手部识别结果，所以基于预设交互信息确定匹配的预设肢体识别结果、匹配的预设脸部识别结果、匹配的预设手部识别结果对应的交互指令。

进一步地，当从预置的身份信息中没有获取到与脸部识别结果标识的身份信息匹配的身份信息时，此种情况下说明该交互对象为首次进行人机交互或者没有进行过预设交互信息设置，此时，可以提示交互对象进行身份信息的登记进而进行个性化设置。

本发明实施例中，当检测到触发交互的指令时，获取交互对象的图像信息；其中，所述图像信息包括脸部图像和肢体图像；将所述图像信息输入预设的级联神经网络模型进行处理，得到所述交互对象的识别结果；其中，所述神经网络模型是基于YOLO算法对图像样本集训练得到，在训练过程中，所述级联神经网络模型的输入为图像样本集中标记了识别结果类型的样本图像信息，所述级联神经网络模型的输出为样本图像信息的识别结果；所述识别结果包括肢体动作识别结果、脸部识别结果以及手势识别结果；基于所述交互对象的识别结果确定目标交互指令。上述方法，能够交全面完整的获取交互对象的信息，可以准确的获取用户的意图，提升人机交互效果。

进一步地，在本实施例中，为了在没有获取到所述图像信息时依然可以进行人机交互，当没有获取到所述图像信息时，如图7所示，在S101之后，在没有获取到交互对象的图像信息时，还可以执行S104～S105，S104～S105具体如下：

S104：当没有获取到所述图像信息时，获取语音交互指令。

人机交互设备获取图像信息，可能会出现无法获取到图像信息的情况，例如，图像获取的设备出现故障问题或者环境光线较暗无法获取图像等等情况。当人机交互设备没有获取到图像信息时，为了保证能够继续进行人机交互，人机交互设备进入语音交互模式，获取交互对象的语音交互指令。

S105：基于所述语音交互指令进行交互。

人机交互设备对语音交互指令进行识别，可以将语音交互指令转换为文字指令。根据交互指令进行交互。请参见图8，图8是本发明实施例提供的另一种人机交互方法的实现流程图。本实施例中人机交互方法的执行主体为人机交互设备。本实施例中S201～S203与上一实施例中的S101～S103相同，具体请参见上一实施例中的S101～S103，如图9所示，在S203之后，还可以执行S204～S205，此外，S203和S204～S205也可以同时执行，或者S203也可以在S204～S205之后执行，S204～S205具体如下：

S204：基于所述交互对象的识别结果生成所述交互对象的动画。

人机交互设备对交互对象的识别结果实时计算并且输出，进行渲染生成交互对象的动画。交互对象的动画可以是二维动画，也可以是三维动画。交互对象的动画包括交互对象的肢体动画、表情动画以及手势动画。

S205：显示所述交互对象的动画。

机器人在显示屏幕上显示交互对象的动画。本实施方式中，基于所述交互对象的识别结果生成所述交互对象的动画，显示所述交互对象的动画。通过这种方式，交互对象可以在显示屏幕上实时看到自己的肢体、手势动作以及表情，增强了人机交互的趣味性，提升了人机交互的用户体验。

请参见图9，图9是本发明实施例提供的另一种人机交互方法的实现流程图。本实施例中人机交互方法的执行主体为人机交互设备。本实施例中S301～S303与第一实施例中的S101～S103相同，具体请参见第一实施例中的S101～S103，如图9所示，在S303之后，可以执行S304～S305，此外，S303和S304～S305也可以同时执行，或者S303也可以在S304～S305之后执行，S304～S305具体如下：

S304：基于脸部识别结果与交互主题的预设对应关系，获取所述交互对象的脸部识别结果对应的目标交互主题。

人机交互设备预先设置脸部识别结果与交互主题的对应关系，其中，交互主题即为交互风格，交互主题可以包括交互时屏幕显示的整体色调、语音交互时的声音类型、播放音乐的音乐种类等等。脸部识别结果可以为表情等。交互主题以及脸部识别结果与交互主题的对应关系可以由交互对象预先设置，例如，交互对象设置脸部识别结果为“大笑”时，可以选择对应的语音交互的声音为“欢快的女声”、也可以选择交互时的屏幕显示为“彩色主题”等等。

人机交互设备基于脸部识别结果与交互主题的预设对应关系，获取交互对象的脸部识别结果对应的目标交互主题。

S305：基于所述目标交互主题更新交互主题模式。

人机交互设备基于目标交互主题更新交互主题模式。本实施方式中，基于脸部识别结果与交互主题的预设对应关系，获取交互对象的脸部识别结果对应的目标交互主题，基于目标交互主题更新交互主题模式。实现了根据脸部识别结果自动更换主题，提升了用户交互体验。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

请参见图10，图10是本发明一实施例提供的一种人机交互设备的示意图。包括的各单元用于执行图1、图5～图9对应的实施例中的各步骤。具体请参阅图1、图5～图9各自对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。参见图10，人机交互设备10包括：

获取单元1010，用于当检测到触发交互的指令时，获取交互对象的图像信息；其中，所述图像信息包括脸部图像和肢体图像；

处理单元1020，用于将所述图像信息输入预设的级联神经网络模型进行处理，得到所述交互对象的识别结果；其中，所述神经网络模型是基于YOLO算法对图像样本集训练得到，在训练过程中，所述级联神经网络模型的输入为图像样本集中标记了识别结果类型的样本图像信息，所述级联神经网络模型的输出为所述样本图像信息的识别结果；所述识别结果包括肢体动作识别结果、脸部识别结果以及手势识别结果；

确定单元1030，用于基于所述交互对象的识别结果确定目标交互指令。

进一步地，所述级联神经网络模型包括级联的第一神经网络、第二神经网络以及第三神经网络；所述处理单元1020，包括：

第一处理单元，用于将所述图像信息输入所述级联神经网络模型，通过所述第一神经网络进行处理，得到人体区域信息；

第二处理单元，用于将所述人体区域信息输入所述第二神经网络进行处理，得到脸部区域信息、手部区域信息；

第三处理单元，用于将所述人体区域信息、所述脸部区域信息、所述手部区域信息输入所述第三神经网络进行处理，得到肢体识别结果、脸部识别结果以及手部识别结果。

进一步地，所述脸部识别结果用于标识身份信息；所述确定单元1030还用于：

当从预置的身份信息中获取到与所述脸部识别结果标识的身份信息匹配的身份信息时，基于交互信息与身份信息之间的预设对应关系，获取所述身份信息对应的预设交互信息；其中，所述预设交互信息包括预设交互指令以及每个所述预设交互指令对应的预设肢体识别结果、预设脸部识别结果、预设手部识别结果；

从所述预设交互信息中获取与所述交互对象的识别结果匹配的预设肢体识别结果、预设脸部识别结果、预设手部识别结果，基于所述预设交互信息确定所述匹配的预设肢体识别结果、所述匹配的预设脸部识别结果、所述匹配的预设手部识别结果对应的交互指令。

进一步地，所述人机交互设备还包括：

生成单元，用于基于所述交互对象的识别结果生成所述交互对象的动画；

显示单元，用于显示所述交互对象的动画。

进一步地，所述人机交互设备还包括：

第一获取单元，用于基于脸部识别结果与交互主题的预设对应关系，获取所述交互对象的脸部识别结果对应的目标交互主题；

更新单元，用于基于所述目标交互主题更新交互主题模式。

进一步地，所述人机交互设备还包括：

第二获取单元，用于当没有获取到所述图像信息时，获取语音交互指令；

第四处理单元，用于基于所述语音交互指令进行交互。

请参加图11，图11是本发明一实施例提供的一种人机交互设备的示意图。如图11所示，该实施例的人机交互设备11包括：处理器110、存储器111以及存储在所述存储器111中并可在所述处理器110上运行的计算机程序112，例如人机交互程序。所述处理器110执行所述计算机程序112时实现上述各个人机交互方法实施例中的步骤，例如图1所示的步骤101至103。或者，所述处理器110执行所述计算机程序112时实现上述各装置实施例中各单元的功能，例如图10所示模块1010至1030的功能。

示例性的，所述计算机程序112可以被分割成一个或多个单元，所述一个或者多个单元被存储在所述存储器111中，并由所述处理器110执行，以完成本发明。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序112在所述人机交互设备11中的执行过程。例如，所述计算机程序112可以被分割成获取单元、处理单元、确定单元，各单元具体功能如下：

所述人机交互设备11可包括，但不仅限于，处理器110、存储器111。本领域技术人员可以理解，图11仅仅是人机交互设备11的示例，并不构成对人机交互设备11的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述人机交互设备11还可以包括输入输出设备、网络接入设备、总线等。

所称处理器110可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器111可以是所述人机交互设备11的内部存储单元，例如人机交互设备11的硬盘或内存。所述存储器111也可以是所述人机交互设备11的外部存储设备，例如所述人机交互设备11上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(FlashCard)等。进一步地，所述存储器111还可以既包括所述人机交互设备11的内部存储单元也包括外部存储设备。所述存储器111用于存储所述计算机程序以及所述人机交互设备11所需的其他程序和数据。所述存储器111还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种人机交互方法，其特征在于，包括：

基于所述交互对象的识别结果确定目标交互指令。

2.如权利要求1所述的人机交互方法，其特征在于，所述级联神经网络模型包括级联的第一神经网络、第二神经网络以及第三神经网络；所述将所述图像信息输入预设的级联神经网络模型，得到所述交互对象的识别结果，包括：

将所述图像信息输入所述级联神经网络模型，通过所述第一神经网络进行处理，得到人体区域信息；

将所述人体区域信息输入所述第二神经网络进行处理，得到脸部区域信息、手部区域信息；

将所述人体区域信息、所述脸部区域信息、所述手部区域信息输入所述第三神经网络进行处理，得到肢体识别结果、脸部识别结果以及手部识别结果。

3.如权利要求1-2任一项所述的人机交互方法，其特征在于，所述脸部识别结果用于标识身份信息；所述基于所述交互对象的识别结果确定目标交互指令，包括：

4.如权利要求1所述的人机交互方法，其特征在于，在所述将所述图像信息输入预设的级联神经网络模型进行处理，得到所述交互对象的识别结果之后，还包括：

基于所述交互对象的识别结果生成所述交互对象的动画；

显示所述交互对象的动画。

5.如权利要求1所述的人机交互方法，其特征在于，在所述将所述图像信息输入预设的级联神经网络模型进行处理，得到所述交互对象的识别结果之后，还包括：

基于脸部识别结果与交互主题的预设对应关系，获取所述交互对象的脸部识别结果对应的目标交互主题；

基于所述目标交互主题更新交互主题模式。

6.如权利要求1-2、4-5任一项所述的人机交互方法，其特征在于，在所述当检测到触发交互的指令时，获取交互对象的图像信息之后，还包括：

当没有获取到所述图像信息时，获取语音交互指令；

基于所述语音交互指令进行交互。

7.一种人机交互设备，其特征在于，包括：

8.如权利要求7所述的人机交互设备，其特征在于，所述级联神经网络模型包括级联的第一神经网络、第二神经网络以及第三神经网络；所述处理单元，包括：

9.一种人机交互设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述方法的步骤。