CN106502382A

CN106502382A - 用于智能机器人的主动交互方法和系统

Info

Publication number: CN106502382A
Application number: CN201610838470.4A
Authority: CN
Inventors: 韦克礼
Original assignee: Beijing Guangnian Wuxian Technology Co Ltd
Current assignee: Beijing Guangnian Wuxian Technology Co Ltd
Priority date: 2016-09-21
Filing date: 2016-09-21
Publication date: 2017-03-15
Anticipated expiration: 2036-09-21
Also published as: CN106502382B

Abstract

本发明提供一种用于智能机器人的主动交互方法，其包括以下步骤：图像捕获步骤，捕获当前场景中的图像，以得到图像数据；视觉语义解析步骤，通过视觉语义模型对所述图像数据进行视觉语义的识别；发起主动交互判断步骤，判断针对图像数据所识别出的视觉语义是否符合发起主动交互的条件，并在符合发起主动交互的情况下，主动发起交互。本发明的用于智能机器人的主动交互方法和系统可以根据视觉语义的分析来判断当前是否需要主动交互，使得智能机器人的类人化程度更高，与人类的交互更灵活。

Description

用于智能机器人的主动交互方法和系统

技术领域

本发明涉及智能机器人领域，具体地说，涉及一种用于智能机器人的主动交互方法和系统。

背景技术

目前，在人机交互过程中，通常都是用户主动发起交互，机器人根据用户输入的多模态数据所代表的含义回答问题或者进行一些动作的输出。有的时候，用户处于情绪低落或者其他情况，而并未进行任何输入，例如长时间的没有发出任何声音或者动作。在这种情况下，现有的人机交互技术仅仅是简单的等待用户的进一步输入。可见，现有智能机器人的交互灵活度较差，类人性较低，带给用户的体验效果也较差。

因此，需要一种能够进行人机主动交互的技术方案。

发明内容

本发明的目的在于解决现有技术中不能进行人机主动交互的技术问题，提供了一种用于智能机器人的主动交互方法。所述方法包括以下步骤：

图像捕获步骤，捕获当前场景中的图像，以得到图像数据；

视觉语义解析步骤，通过视觉语义模型对所述图像数据进行视觉语义的识别；

发起主动交互判断步骤，判断针对图像数据所识别出的视觉语义是否符合发起主动交互的条件，并在符合发起主动交互的情况下，主动发起交互。

根据本发明的用于智能机器人的主动交互方法，优选的是，所述视觉语义模型是通过如下步骤建立的：

建立初始模型；

针对输入的图像标注出视觉语义训练数据；

基于深度学习技术训练所述初始模型。

根据本发明的一个实施例的用于智能机器人的主动交互方法，优选的是，在判断发起主动交互步骤中，判断针对图像数据所识别出的当前视觉语义是否为特定时间内的特定事件。

根据本发明的一个实施例的用于智能机器人的主动交互方法，优选的是，在判断发起主动交互步骤中，判断针对图像数据所识别出的当前视觉语义是否为用户处于特定的状态。

根据本发明的一个实施例的用于智能机器人的主动交互方法，优选的是，在判断发起主动交互步骤中，判断针对图像数据所识别出的当前视觉语义是否为特定的场景。

根据本发明的另一个方面，还提供了一种用于智能机器人的主动交互系统，所述系统包括以下单元：

图像捕获单元，其用以使机器人捕获当前场景中的图像，以得到图像数据；

视觉语义解析单元，其用以通过视觉语义模型对所述图像数据进行视觉语义的识别；

发起主动交互判断单元，其用以判断针对图像数据所识别出的视觉语义是否符合发起主动交互的条件，并在符合发起主动交互的情况下，由机器人主动发起交互。

根据本发明的用于智能机器人的主动交互系统，优选的是，所述视觉语义模型是通过如下步骤建立的：

建立初始模型；

针对输入的图像标注出视觉语义训练数据；

基于深度学习技术训练所述初始模型。

根据本发明的用于智能机器人的主动交互系统，优选的是，在发起主动交互判断单元中，还包括用以判断针对图像数据所识别出的当前视觉语义是否为特定时间内的特定事件的单元。

根据本发明的用于智能机器人的主动交互系统，优选的是，在发起主动交互判断单元中，还包括用以判断针对图像数据所识别出的当前视觉语义是否为用户处于特定的状态的单元。

根据本发明的用于智能机器人的主动交互系统，优选的是，在发起主动交互判断单元中，还包括用以判断针对图像数据所识别出的当前视觉语义是否为特定的场景的单元。

本发明的有益之处在于，由于本发明的用于智能机器人的主动交互方法和系统可以根据视觉语义的分析来判断当前是否需要主动交互，使得智能机器人的类人化程度更高，与人类的交互更灵活。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例共同用于解释本发明，并不构成对本发明的限制。在附图中：

图1为根据本发明的一个实施例的面向智能机器人的主动交互方法的流程图；

图2显示了根据本发明的一个实施例的面向智能机器人的主动交互方法中进行视觉语义建模的方法流程图；

图3显示了根据本发明的一个实施例的面向智能机器人的主动交互方法中判断是否进行主动交互的方法流程图；以及

图4显示了根据本发明的一个实施例的面向智能机器人的主动交互系统的结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，以下结合附图对本发明实施例作进一步地详细说明。

如图1所示，其中显示了根据本发明实施例的面向智能机器人的主动交互方法的流程图。根据本发明的主动交互方法开始于步骤S101。在步骤S101中，执行图像捕获操作。具体地，智能能机器人可捕获当前场景中的图像，并通过图像处理得到相应的图像数据。例如，图像数据中包括当前用户的姿态、表情以及用户周围的环境等信息。

针对所捕获的当前场景图像，其可以进行进一步的分类。例如针对人体图像，需要识别面部特征、表情特征等等。而对于物体图像，需要识别出是属于哪一类物体如文具、玩具、宠物等等。对于背景图像，需要识别出环境特征、天气、地理位置等等。而对于捕获的一系列动作，需要识别出人发出这些动作与语音配合的意图特征等。当然，场景图像中还包括了其他特征，这里不一一赘述。

在捕获当前图像的时候，作为对图像识别的补充，机器人系统还可以监听声音，从而在进行图像识别的同时对监听到的与当前场景图像对应的语音进行语音特征识别，进一步还可以通过语音识别系统将监听到的语音按照语义、声调、语气等进行识别。也就是说，语音特征的识别还包括语义识别、语调识别、语气识别等等。语音数据的输入可以帮助系统进行更准确的视觉语义识别。

接下来，在步骤S102中，进行视觉语义解析。智能机器人可通过已经得到训练的视觉语义模型对图像数据进行视觉语义的识别。视觉语义指的是机器人通过图像识别相关技术，识别出相关的人、人相关特征、动作、手势、物体等等以及他们之间的关系，并推断出整个图像的语义。例如，机器人通过图像识别相关技术识别出相关的人、人的相关特征、动作、手势、物体特征等，并通过推断过程来推测所捕获的图像所代表的语义或者含义。

根据本发明的视觉语义模型的建立和训练一般包括如下步骤，如图2所示。

在步骤S201中，系统建立初始模型。机器人操作系统内部在开始建立视觉语义初始模型时，先根据最基本的一些图像样本数据给出对应的语义关联。随后，例如通过神经网络学习算法对随后输入的图像进行语义关联。具体说，可以在步骤S202中，针对输入的图像数据标注出视觉语义训练数据。例如，针对捕获的图像为用户的表情比较沮丧，并且发出叹息声。这时，系统会对此类图片数据进行标注，用“沮丧”这样的文本数据或者其他能够代表此类感情的静态图片或图标或其他标记来对该图像资料进行标注。

这里可以通过语音识别对图像识别语义进行辅助，实际应用中，进行视觉语义识别时也可以不需要进行语音识别。在这种情况下，即使用户没有发出其他要进行交互的指令时，机器人操作系统也能识别出当前用户的情感状态，从而在合适的时候发起主动交互。

在步骤S203中，基于深度学习技术并结合所标注的视觉语义训练数据来训练所建立的初始模型。由于前述的视觉语义模型是初始建立的，它们仅代表以后进行学习训练的基本构架，根据初始模型的结构，系统可以通过机器人的深度学习过程，不断地丰富模型的内容。最后所训练得到的视觉语义模型可以解释图像、声音以及输入的文本。深度学习是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本。

为了提高视觉识别的准确性，视觉语义模型训练中，可采用卷积神经网络算法进行视觉特征的提取和分析。可基于卷积神经网络算法对所捕获的当前场景图像进行视觉特征识别。

卷积网络最初是受视觉神经机制的启发而设计的，是为识别二维形状而设计的一个多层感知器。由于这种网络结构对平移、比例缩放、倾斜或者其它形式的变形具有高度不变性，因此，在图像识别技术领域，卷积网络得到广泛应用。

卷积神经网络在模式分类领域，由于该网络避免了对图像的复杂前期预处理，可以直接输入原始图像，因而得到了更为广泛的应用。卷积神经网络以其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性，其布局更接近于实际的生物神经网络，权值共享降低了网络的复杂性，特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度。

本发明对所采集到的图像信息进行特征识别，例如识别出场景图像中针对人物图像的身份特征、物体图像的主题特征、人发出一系列动作的意图特征以及背景图像中的其它特征等，同时对模型中的数据进行标注，从而训练成熟的视觉语义模型。

在步骤S103中，对是否要发起主动交互操作进行判断。根据上述通过模型识别出的视觉语义来判断当前是否符合发起主动交互的条件。触发主动交互的条件包括以下几种情况。如图3所示，判断针对图像数据所识别出的当前视觉语义是否为特定时间内的特定事件(S301)。例如，在早上8点钟要起床的时候、晚上用户下班回家或者周末时准备健身等特定事件发生时，系统触发主动交互操作。

第二种触发主动交互的条件是判断针对图像数据所识别出的当前视觉语义是否为用户处于特定的状态(S302)。例如，在长达几分钟的时间里，系统所捕获的图像经过视觉语义识别的结果均是“XXX现在很沮丧、悲伤或者无聊”。这时，系统会触发主动交互，例如多模态输出语音、动作等数据，来安抚交互对象，并引导对象进行交谈。或者，根据交互的结果，主动播放音乐等。

第三种触发主动交互的条件是判断针对图像数据所识别出的当前视觉语义是否为特定的场景。例如，主动抓拍过程中，如果视觉语义识别的场景为机器人认为比较美的景色或者用户的动作表情被认为是难得一见的，则主动进行交互，发出语音，同时启动照相机的拍照功能。

最后，在步骤S104中，当上述任何一种触发条件满足时，机器人便会进行主动交互。在发起主动交互的过程中，机器人可以多模态的方式进行输出，不限于语音，还包括动作、音频等的多模态输出方式。

由于本发明的方法描述的是在计算机系统中实现的。该计算机系统例如可以设置在机器人的控制核心处理器中。例如，本文所述的方法可以实现为能以控制逻辑来执行的软件，其由机器人控制系统中的CPU来执行。本文所述的功能可以实现为存储在非暂时性有形计算机可读介质中的程序指令集合。当以这种方式实现时，该计算机程序包括一组指令，当该组指令由计算机运行时其促使计算机执行能实施上述功能的方法。可编程逻辑可以暂时或永久地安装在非暂时性有形计算机可读介质中，例如只读存储器芯片、计算机存储器、磁盘或其他存储介质。除了以软件来实现之外，本文所述的逻辑可利用分立部件、集成电路、与可编程逻辑设备(诸如，现场可编程门阵列(FPGA)或微处理器)结合使用的可编程逻辑，或者包括它们任意组合的任何其他设备来体现。所有此类实施例旨在落入本发明的范围之内。

根据本发明的另一个方面，还提供了一种用于智能机器人的主动交互系统400。该系统包括以下单元：

图像捕获单元401，其用以使机器人捕获当前场景中的图像，以得到图像数据；

视觉语义解析单元402，其用以通过视觉语义模型对所述图像数据进行视觉语义的识别；

发起主动交互判断单元403，其用以判断针对图像数据所识别出的视觉语义是否符合发起主动交互的条件，并在符合发起主动交互的情况下，由机器人主动发起交互。

根据本发明的用于智能机器人的主动交互系统400，优选的是，所述视觉语义模型是通过如下步骤建立的：

建立初始模型；

针对输入的图像标注出视觉语义训练数据；

基于深度学习技术训练所述初始模型。

根据本发明的用于智能机器人的主动交互系统，优选的是，在发起主动交互判断单元中，还包括用以判断针对图像数据所识别出的当前视觉语义是否为特定时间内的特定事件的单元404。

根据本发明的用于智能机器人的主动交互系统，优选的是，在发起主动交互判断单元中，还包括用以判断针对图像数据所识别出的当前视觉语义是否为用户处于特定的状态的单元405。

根据本发明的用于智能机器人的主动交互系统，优选的是，在发起主动交互判断单元中，还包括用以判断针对图像数据所识别出的当前视觉语义是否为特定的场景的单元406。

应该理解的是，本发明所公开的实施例不限于这里所公开的特定结构、处理步骤或材料，而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是，在此使用的术语仅用于描述特定实施例的目的，而并不意味着限制。

说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。

虽然本发明所公开的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所公开的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种用于智能机器人的主动交互方法，其特征在于，所述方法包括以下步骤：

图像捕获步骤，捕获当前场景中的图像，以得到图像数据；

2.如权利要求1所述的用于智能机器人的主动交互方法，其特征在于，所述视觉语义模型是通过如下步骤建立的：

建立初始模型；

针对输入的图像标注出视觉语义训练数据；

基于深度学习技术训练所述初始模型。

3.如权利要求2所述的用于智能机器人的主动交互方法，其特征在于，在判断发起主动交互步骤中，判断针对图像数据所识别出的当前视觉语义是否为特定时间内的特定事件。

4.如权利要求2所述的用于智能机器人的主动交互方法，其特征在于，在判断发起主动交互步骤中，判断针对图像数据所识别出的当前视觉语义是否为用户处于特定的状态。

5.如权利要求2所述的用于智能机器人的主动交互方法，其特征在于，在判断发起主动交互步骤中，判断针对图像数据所识别出的当前视觉语义是否为特定的场景。

6.一种用于智能机器人的主动交互系统，其特征在于，所述系统包括以下单元：

7.如权利要求1所述的用于智能机器人的主动交互系统，其特征在于，所述视觉语义模型是通过如下步骤建立的：

建立初始模型；

针对输入的图像标注出视觉语义训练数据；

基于深度学习技术训练所述初始模型。

8.如权利要求7所述的用于智能机器人的主动交互系统，其特征在于，在发起主动交互判断单元中，还包括用以判断针对图像数据所识别出的当前视觉语义是否为特定时间内的特定事件的单元。

9.如权利要求7所述的用于智能机器人的主动交互系统，其特征在于，在发起主动交互判断单元中，还包括用以判断针对图像数据所识别出的当前视觉语义是否为用户处于特定的状态的单元。

10.如权利要求7所述的用于智能机器人的主动交互系统，其特征在于，在发起主动交互判断单元中，还包括用以判断针对图像数据所识别出的当前视觉语义是否为特定的场景的单元。