CN106125911B

CN106125911B - 用于机器的人机交互学习方法及机器

Info

Publication number: CN106125911B
Application number: CN201610428438.9A
Authority: CN
Inventors: 杨德刚; 牛建伟; 都大龙; 曹立新
Original assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Current assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date: 2016-06-16
Filing date: 2016-06-16
Publication date: 2020-02-11
Anticipated expiration: 2036-06-16
Also published as: CN106125911A

Abstract

本申请公开了一种用于机器的人机交互学习方法及机器。用于机器的人机交互学习方法包括：经由机器的人机接口接收第一信号；经由所述人机接口接收用于监督第一信号的第二信号，所述第二信号与所述机器针对所述第一信号应采取的操作的操控指令相关联；以及将所述第一信号与所述操控指令进行匹配，建立用于所述机器的人机交互模式。根据本申请实施例提供的技术方案，通过第一信号与控制指令匹配，能够解决传统人机交互的单一化问题，获得用户可定制的个性化交互的效果。

Description

用于机器的人机交互学习方法及机器

技术领域

本公开一般涉及人机交互领域，尤其涉及用于机器的人机交互学习方法及机器。

背景技术

目前，家电、玩具、机器人等机器设备采用生产商预制好的交互方式，比如语音命令、人脸跟踪、手势命令和按键操作等，产品出厂后交互方式固定不变，用户使用过程中需要学习和适应其提供的交互方式。这使得用户难以按照个人喜欢的方式操控机器。并且，日常用设备来自不同厂商，其交互方式有差别，给用户带来比较大的使用负担。

发明内容

鉴于现有技术中的上述缺陷或不足，期望提供一种用户选择和定制的个性化的交互方式。本申请提供了一种用于机器的人机交互学习方法及机器。

第一方面，提供一种用于机器的人机交互学习方法，所述方法包括：经由机器的人机接口接收第一信号；经由所述人机接口接收用于监督第一信号的第二信号，所述第二信号与所述机器针对所述第一信号应采取的操作的操控指令相关联；以及将所述第一信号与所述操控指令进行匹配，建立用于所述机器的人机交互模式。

第二方面，提供一种机器，所述装置包括：

人机接口，

用于接收第一信号；用于接收用于监督第一信号的第二信号，所述第二信号与所述机器针对所述第一信号应采取的操作的操控指令相关联；

处理器，用于将所述第一信号与所述操控指令进行匹配，建立用于所述机器的人机交互模式；以及

存储器，用于保存所述人机交互模式数据。

根据本申请实施例提供的技术方案，通过第一信号与控制指令匹配，能够解决传统人机交互的单一化问题，获得用户可定制的个性化交互方式。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出了根据本申请一实施例的人机交互学习方法流程图。

图2示出了根据本申请另一实施例的人机交互学习方法的示例性流程图。

图3a示出了根据本申请一实施例的初始的学习样本分布示意图。

图3b示出了根据本申请一实施例的进行区分处理后的学习样本分布示意图。

图3c示出了根据本申请一实施例的增加易错样本后的学习样本分布示意图。

图4示出了根据本申请一实施例的机器结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

请参考图1，示出了根据本申请实施例的人机交互学习方法流程图。

如图1所示，在步骤101中，经由机器的人机接口接收第一信号。

接着，在步骤102中，经由所述人机接口接收用于监督第一信号的第二信号，所述第二信号与所述机器针对所述第一信号应采取的操作的操控指令相关联。

在一些优选实施例中，人机接口包括以下至少一项：按键、麦克风和摄像头，并且所述第一信号和第二信号包括如下任一种信号或其组合：按键信号、经由麦克风接收的语音信号、经由摄像头接收的图像信号。

在一些优选实施例中，步骤102的第一信号与第二信号的接收间隔不超过预定时间。并且，第一信号与所述第二信号属于不同类型的信号。例如，第一信号为语音信号时，第二信号可以是按键信号或图像信号。

本实施例中，支持的学习交互形式可以有:图像-按键、语音-按键、图像-语音、语音-图像等，其中每个组合的前一个表示数据的输入，后一个为学习过程提供监督信号。例如图像-按键表示学习过程中的输入是视频图像，学习的监督信号来自按键。

在一些优选实施例中，步骤102的操控指令为如下任一种或多种控制指令：控制所述机器执行与所述第二信号相应的动作；控制所述机器通过扬声器输出与所述第二信号相应的语音；以及控制所述机器通过显示面板输出与所述第二信号相应的图像。

最后，在步骤103中，将所述第一信号与所述操控指令进行匹配，建立用于所述机器的人机交互模式。

在一些优选实施例中，步骤103的进一步包括：提取所述第一信号的特征；以及将所述特征与所述操控指令进行匹配。

具体地，例如在图像-按键交互方式学习过程中，主要提取视频中人脸、手势、头肩、人体姿态等特征信息。当学习的输入是语音的时候，特征可以是语音频谱、梅尔频率倒谱系数(MFCC)、共振峰、短时能量特征、基音抖动和闪烁、谐波噪声比等，或者其组合。

在一些优选实施例中，将所述人机交互模式发送到云服务器以供同步到多个设备。用户定制好的交互方式及其意义通过云端同步到多个设备，使日常使用更加方便。比如用户在空调上面通过空调的摄像头输入学习得到的开机手势可以上传到云端，然后在玩具上面同步下来，这样当玩具检测到相同的手势后也可执行开机操作。

在一些优选实施例中，机器为如下任一种设备：可穿戴设备、便携式设备、智能终端、智能家电设备、安防监控设备、电子玩具。

应当注意，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。例如，可以先进行步骤102再进行步骤101。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。例如，步骤101与步骤102可合并为一个步骤。

进一步请参考图2，为了便于理解，下面列举具体实施例说明，本实施例中，第一信号为图像信号，作为监督信号的第二信号为按键信号。学习过程中，录制一段视频(步骤201)，再从按键得到该段视频表示的实际意义即接收第二信号(步骤202)，例如开机，上述图像-按键数据对作为一组数据输入到学习系统中，并提取视频图像的特征(步骤203)，将该特征与开机操控指令匹配(步骤204)，当有足够多的数据能够获得这一交互模式的足够多的区分性的时候(步骤205)，保存该交互模式至交互库中(步骤206)，以便后续使用。使用时，视频图像中识别到相同特征，启动相应的交互控制，即开机。

在图像-按键交互方式学习过程中，主要提取视频中人脸、手势、头肩、人体姿态等信息，综合处理后通过学习算法学习得到具有区分性的特征表示，以与系统中其他的交互命令区分，并将特征表示加入到系统的交互库中，更新交互库。

对于步骤205，请参考图3a、图3b和图3c。其中，图3a示出了根据本申请一实施例的初始的学习样本分布示意图，图3b示出了根据本申请一实施例的进行区分处理后的学习样本分布示意图，图3c示出了根据本申请一实施例的增加易错样本后的学习样本分布示意图。

当学习交互方式的时候，以当前整个系统中的各种交互方式的学习样本为基础，该样本可以是多次收集得到。并利用内置的学习算法学习具有区分性的特征，比如交互方式初始的学习样本分布如3(a)所示，分别以方形、三角形和圆形等方式代表三类不同交互方式，系统难以区分该不同类交互方式，经内置的算法处理后得到样本特征分布如3(b)所示，每类交互模式已经区分开。得到的区分性结合系统的决策算法可确定每类交互模式的学习准确率，作为当前的交互模式学习结果。

同时系统的决策算法具有动态的调整决策边界的能力，如一种手势交互方式的识别准确率是95％，由于学习过程中该模式的手势学习样本比较单一，多样性不足，导致在新的环境或者手势微小差别的情况下，交互鲁棒性不足。此时，用户可继续增加更多的手势样本，重新学习得到新的决策边界。该手势样本包括其相应的意义，可以是正例或反例，如图3c中的空心方形。例如三类交互方式决策边界为图3b，增加少量新的易错样本并学习后，决策边界变为图3c，此时的交互方式的识别准确率可能变为92％，用户认可该准确率时，保存当前学习得到的交互模型用于后续使用。如果用户想保持原有准确率或者提高时，可通过增加更多的监督数据样本的方式，重新学习以提高效果。

综上，本申请的用于机器的人机交互学习方法相对传统方式，其优点在于：

首先、提供了更加个性化和人性化的交互方式，满足用户千差万别的需求。其次、降低用户学习多种不同设备的交互方式的负担，再次、扩展日常设备的使用边界，提供娱乐教育等新的使用模式。

下面参考图4，其示出了适于用来实现本申请实施例的机器的结构示意图。

如图4所示，机器包括人机接口、处理器和存储器。其中，人机接口，用于接收第一信号；和用于接收用于监督第一信号的第二信号，所述第二信号与所述机器针对所述第一信号应采取的操作的操控指令相关联；处理器，用于将所述第一信号与所述操控指令进行匹配，建立用于所述机器的人机交互模式；以及存储器，用于保存所述人机交互模式数据。

在一些优选实施例中，人机接口包括以下至少一项：按键、麦克风和摄像头，并且所述第一信号和第二信号包括如下任一种信号或其组合：按键信号、经由麦克接收的语音信号、经由摄像头接收的图像信号。作为机器输出设备可以有显示面板和/或扬声器。

在一些优选实施例中，操控指令为如下任一种或多种控制指令：控制所述机器执行与所述第二信号相应的动作；控制所述机器通过扬声器输出与所述第二信号相应的语音；以及控制所述机器通过显示面板输出与所述第二信号相应的图像。

在一些优选实施例中，第一信号与所述第二信号的接收间隔不超过预定时间。并且，第一信号与所述第二信号属于不同类型的信号。

在一些优选实施例中，处理器用于：提取所述第一信号的特征；以及将所述特征与所述操控指令进行匹配。

所述机器还包含通讯模块，将所述存储器中的所述人机交互模式发送到云服务器以供同步到多个设备。

在一些优选实施例中，该机器为如下任一种设备：可穿戴设备、便携式设备、智能终端、智能家电设备、安防监控设备、电子玩具。

通过在上述设备中应用本申请的交互学习方法，使得机器具备了娱乐、提示和教育的功能，比如可以训练冰箱摄像头识别一些种类的食材例如西红柿，然后监督信号由语音命令提供如语音发出西红柿的声音，当学习完成后，再次从视频图像中识别到西红柿时，可以将原来学习的语音播放出来，或者加入一些场景信息，比如当用户询问这是什么的时候才播放识别结果的语音。实现了图像-语音的交互方式。

特别地，根据本公开的实施例，上文参考图2描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，所述计算机程序包含用于执行图2的方法的程序代码。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中所述装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本申请的公式输入方法。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种用于机器的人机交互学习方法，其特征在于，所述方法包括：

经由机器的人机接口接收第一信号；

经由所述人机接口接收用于监督第一信号的第二信号，所述第二信号与所述机器针对所述第一信号应采取的操作的操控指令相关联；

将第一信号、第二信号作为一组学习样本输入到学习系统中，并将所述第一信号与所述操控指令进行匹配，建立用于所述机器的人机交互模式；以及

在所述学习系统中增加新的易错学习样本，使得所述人机交互模式获得足够多的区分性时，保存所述人机交互模式至交互库中，

其中，所述第一信号包括如下任一种信号或其组合：

经由麦克风接收的语音信号、经由摄像头接收的图像信号。

2.根据权利要求1所述的方法，其特征在于，所述第一信号与所述第二信号的接收间隔不超过预定时间。

3.根据权利要求1所述的方法，其特征在于，所述第一信号与所述第二信号属于不同类型的信号。

4.根据权利要求1所述的方法，其特征在于，所述人机接口包括以下至少一项：按键、麦克风和摄像头，并且所述第二信号包括如下任一种信号或其组合：

按键信号、经由麦克风接收的语音信号、经由摄像头接收的图像信号。

5.根据权利要求1所述的方法，其特征在于，所述操控指令为如下任一种或多种控制指令：

控制所述机器执行与所述第二信号相应的动作；

控制所述机器通过扬声器输出与所述第二信号相应的语音；以及

控制所述机器通过显示面板输出与所述第二信号相应的图像。

6.根据权利要求1所述的方法，其特征在于，将所述第一信号与所述操控指令进行匹配包括：

提取所述第一信号的特征；以及

将所述特征与所述操控指令进行匹配。

7.根据权利要求1所述的方法，其特征在于，所述机器为如下任一种设备：可穿戴设备、便携式设备、智能终端、智能家电设备、安防监控设备、电子玩具。

8.根据权利要求1所述的方法，其特征在于，还包括：

将所述人机交互模式发送到云服务器以供同步到多个设备。

9.一种应用于人机交互学习的机器，其特征在于，所述机器包括：

人机接口，

用于接收第一信号；

用于接收用于监督第一信号的第二信号，所述第二信号与所述机器针对所述第一信号应采取的操作的操控指令相关联；

处理器，用于将第一信号、第二信号作为一组学习样本输入到学习系统中，并将所述第一信号与所述操控指令进行匹配，建立用于所述机器的人机交互模式；以及

存储器，用于在所述学习系统中增加新的易错学习样本，当所述人机交互模式获得足够多的区分性时，保存所述人机交互模式数据至交互库中，

其中，所述第一信号包括如下任一种信号或其组合：

经由麦克风接收的语音信号、经由摄像头接收的图像信号。

10.根据权利要求9所述的机器，其特征在于，所述第一信号与所述第二信号的接收间隔不超过预定时间。

11.根据权利要求9所述的机器，其特征在于，所述第一信号与所述第二信号属于不同类型的信号。

12.根据权利要求9所述的机器，其特征在于，所述人机接口包括以下至少一项：按键、麦克风和摄像头，并且所述第二信号包括如下任一种信号或其组合：

按键信号、经由麦克接收的语音信号、经由摄像头接收的图像信号。

13.根据权利要求9所述的机器，其特征在于，所述操控指令为如下任一种或多种控制指令：

控制所述机器执行与所述第二信号相应的动作；

14.根据权利要求9所述的机器，其特征在于，所述处理器用于：

提取所述第一信号的特征；以及

将所述特征与所述操控指令进行匹配。

15.根据权利要求9所述的机器，其特征在于，所述机器为如下任一种设备：可穿戴设备、便携式设备、智能终端、智能家电设备、安防监控设备、电子玩具。

16.根据权利要求9所述的机器，其特征在于，所述机器还包含通讯模块，将所述存储器中的所述人机交互模式发送到云服务器以供同步到多个设备。