CN106845624A

CN106845624A - 与智能机器人的应用程序有关的多模态交互方法及系统

Info

Publication number: CN106845624A
Application number: CN201611173954.8A
Authority: CN
Inventors: 郭家
Original assignee: Beijing Guangnian Wuxian Technology Co Ltd
Current assignee: Beijing Guangnian Wuxian Technology Co Ltd
Priority date: 2016-12-16
Filing date: 2016-12-16
Publication date: 2017-06-13

Abstract

本发明公开了一种与智能机器人的应用程序有关的多模态交互方法及系统。其中，该方法包括：接收用户的多模态输入指令，对所述多模态输入指令分析，基于分析结果进行用户意图的筛选和匹配，所述用户意图包括与应用程序有关的操作表达；生成并向用户输出多模态意图确认信息，以获取针对目标应用程序的操作指令。根据本发明方法，能够使机器人在用户以语音或动作发出模糊指令时，通过输出意图确认信息的方式来获取准确的指令，执行与指令对应的应用程序操作，提高了机器人的智能性和拟人性。

Description

与智能机器人的应用程序有关的多模态交互方法及系统

技术领域

本发明涉及智能机器人领域，尤其涉及一种与智能机器人的应用程序有关的多模态交互方法及系统，

背景技术

随着智能机器人产品的逐渐普及，更多的智能机器人走进家庭，成为孩子的玩伴和大人的管家。

在现有技术中，考虑到智能机器人的使用便利性，某些智能机器人不包括键盘、鼠标和触控屏等硬件输入设备，用户下达命令给机器人时，往往是通过语言或动作等方式来实现。但是，由于用户的语言和动作的不确定性，这些语言和动作会存在多种含义，机器人在接收到采用上述方式下达的用户指令时，无法明确用户真实目的，执行的指令往往与用户的意图不相匹配。因此，现有的机器人的智能性和拟人性较差，无法准确地执行与用户真实意图相关的指令，降低了用户体验性。

因此，亟需提供一种能够使智能机器人准确执行用户真实意图的指令、提高智能机器人的智能性和拟人性的解决方案。

发明内容

本发明所要解决的技术问题之一是需要提供一种使智能机器人准确执行用户真实意图的指令、提高智能机器人的智能性和拟人性的解决方案。

为了解决上述技术问题，本申请的实施例首先提供了一种与智能机器人的应用程序有关的多模态交互方法，该方法包括：接收用户的多模态输入指令，对所述多模态输入指令分析，基于分析结果进行用户意图的筛选和匹配，所述用户意图包括与应用程序有关的操作表达；生成并向用户输出多模态意图确认信息，以获取针对目标应用程序的操作指令。

在一个实施例中，所述智能机器人安装有机器人操作系统，所述应用程序运行在机器人操作系统中。

在一个实施例中，该方法还包括：获取用户响应所述多模态意图确认信息的反馈信息，根据所述反馈信息启停所述目标应用程序。

在一个实施例中，在存在多个用户意图时，根据用户的习惯信息、上下文信息和/或场景信息对多个用户意图进行评分，以生成多模态意图确认信息。

在一个实施例中，若存在两个以上的评分超过设定阈值的用户意图，则生成与这些用户意图相关的用户意图选择模式的多模态意图确认信息；否则，生成与用户意图相关的用户意图判定模式的多模态意图确认信息。

本发明实施例还提供了一种与智能机器人的应用程序有关的多模态交互系统，该多模态交互系统包括：多模态输入指令分析模块，其用于接收用户的多模态输入指令，对所述多模态输入指令分析；用户意图筛选匹配模块，其用于基于分析结果进行用户意图的筛选和匹配，所述用户意图包括与应用程序有关的操作表达；目标应用程序获取模块，其用于生成并向用户输出多模态意图确认信息，以获取针对目标应用程序的操作指令。

在一个实施例中，该多模态交互系统还包括：应用程序操作模块，其用于获取用户响应所述多模态意图确认信息的反馈信息，根据所述反馈信息启停所述目标应用程序。

在一个实施例中，所述用户意图筛选匹配模块，其进一步用于在存在多个用户意图时，根据用户的习惯信息、上下文信息和/或场景信息对多个用户意图进行评分，以生成多模态意图确认信息。

在一个实施例中，所述目标应用程序获取模块，其进一步用于在存在两个以上的评分超过设定阈值的用户意图时，则生成与这些用户意图相关的用户意图选择模式的多模态意图确认信息；否则，生成与用户意图相关的用户意图判定模式的多模态意图确认信息。

与现有技术相比，上述方案中的一个或多个实施例可以具有如下优点或有益效果：

本发明的实施例提供了一种与智能机器人的应用程序有关的多模态交互方法，智能机器人在接收了用户的多模态输入指令后，对多模态输入指令进行分析，然后基于分析结果进行用户意图的筛选和匹配，生成并向用户输出多模态意图确认信息，根据用户反馈的确认信息以获取针对目标应用程序的操作指令。由此，在用户以语音或动作发出模糊指令时，机器人能够通过输出意图确认信息的方式来获取准确的指令，执行与指令对应的应用程序操作，提高了机器人的智能性和拟人性。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明的技术方案而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构和/或流程来实现和获得。

附图说明

附图用来提供对本申请的技术方案或现有技术的进一步理解，并且构成说明书的一部分。其中，表达本申请实施例的附图与本申请的实施例一起用于解释本申请的技术方案，但并不构成对本申请技术方案的限制。

图1为本申请实施例一的与智能机器人的应用程序有关的多模态交互方法的流程示意图。

图2为本申请实施例二的与智能机器人的应用程序有关的多模态交互方法的流程示意图。

图3为本申请实施例三的与智能机器人的应用程序有关的多模态交互系统的结构示意图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成相应技术效果的实现过程能充分理解并据以实施。本申请实施例以及实施例中的各个特征，在不相冲突前提下可以相互结合，所形成的技术方案均在本发明的保护范围之内。

另外，附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

在现有的智能机器人中，大多数机器人是通过语音识别或动作识别的方式来执行用户下达的命令，但是这种命令执行方式与通过键盘或触控屏获取命令并执行命令的方式相比，语音和动作含义的模糊性和多样性导致机器人在识别命令的准确度上存在问题，往往最后执行的应用程序的操作并不是用户的真实意图，给用户带来非常不好的体验，机器人的智能性和拟人性还有待提高。

本发明实施例提供了解决上述问题的方案，在智能机器人接收到用户的多模态输入指令后会先进行指令分析和用户意图的匹配和筛选。本发明实施例为了防止筛选出的指令信息准确度低的问题，智能机器人本身具有主动询问的功能，针对匹配得到的模糊意图生成有关的确认信息输出给用户，以获取具体操作指令。通过上面的技术方案，能够使机器人更好地完成与用户真实意图匹配的指令，使机器人更加智能。需要说明的是，本例中的智能机器人安装有机器人操作系统，该系统配置较高能够更好地实现机器人的各个功能，这些应用程序也都是在机器人操作系统中运行的。

进一步，机器人获取用户针对确认信息反馈的信息，然后基于反馈信息来启停对应的目标应用程序。需要说明的是，除了开启和暂停目标应用程序以外，还可以包括对应用程序进行处理的其他操作。

另外，在对用户意图进行匹配和筛选时，优先根据用户的习惯、用户与机器人对话时的上下文信息和场景信息中的至少一方面对筛选出的多个用户意图进行评分，然后将评分超过预定阈值的用户意图确定出来，这样的评分方式能够将较为准确的用户意图进一步筛选出来，为后面生成用户意图确认信息做好基础。根据评分超过预定阈值的用户意图数量来生成不同模式的确认信息，例如“你要查天气还是要查航班？”、“你是否要查天气？”。

实施例一

图1为根据本发明实施例一的与智能机器人的应用程序有关的多模态交互方法的流程示意图，该多模态交互方法优选由机器人操作系统的环境中执行，其中涉及到的应用程序运行在该智能机器人操作系统中。下面参考图1来说明本发明实施例的各个步骤，该实施例的方法主要包括以下步骤。

在步骤S110中，接收用户的多模态输入指令，对多模态输入指令分析。

多模态输入指令主要来自于用户输入的指令，这些多模态输入指令包括文本数据、音频数据、视频数据、图像数据以及用于使机器人能够输出一定动作或执行软件或硬件的程序指令。由于本发明实施例中的智能机器人为没有键盘、鼠标和触摸屏等硬件输入设备的、适用于与用户进行语音、图像和动作交互的机器人，因此此步骤的多模态输入指令主要为语音数据、视频数据和图像数据。

在该实施例中，机器人调用声音采集设备及动作捕捉设备，持续监听和捕捉用户的语音以及肢体动作，在用户说出问题、意图信息或通过动作表达提出的问题和意图时，机器人通过声音采集设备采集用户的声音或通过动作捕捉设备捕捉到用户肢体动作的图像。随后，对接收到的多模态输入指令进行解析，具体解析结果可以包括识别多模态输入指令的多模态输入指令所表征的意思表达，也可以包括数据属性。

针对不同的多模态输入数据，解析处理的复杂程度和过程完全不同。如获取的信息为声音信息，则机器人将该多模态数据提交到本地的ASR引擎或云端服务器的ASR引擎或本地和云端服务器混合的ASR和VPR(声纹识别，Voiceprint Recognition)引擎。这些引擎采用ASR技术将语音数据转换成文本信息。具体先对多模态输入数据进行例如去噪之类的预处理，然后将预处理后的语音信息进行语音识别的综合分析，生成与语音信息对应的文本信息。进一步来说，在识别过程中要根据语音识别的模型，将预先存储的语音模板与输入的语音信号的特征进行比较，根据一定的搜索和匹配策略，找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义，通过查表就可以给出识别结果。若获取的信息为图像数据，则基于该二维图像通过动作分析技术来解析得到人体姿态。

在步骤S120中，基于分析结果进行用户意图的筛选和匹配。其中用户意图包括与应用程序有关的操作表达。

如上步骤S110中通过对多模态数据进行分析得到的信息一般只是与语音信息对应的文本信息或者是与用户动作对应的人体姿态信息，但这些信息隐含表达的用户意图具体是什么，还需要进行进一步的筛选和匹配后机器人才能够了解。以语音信息为例，通过语音识别得到的分析结果是“明天去上海旅游怎么样”，机器人解析得到上述内容后将其中的重点信息例如“明天”、“去上海”、“旅游”提取出来，以这些信息为指引从预设的用户意图数据库中筛选出匹配的用户意图，例如“查询明天上海的天气”、“查询明天上海的航班”和“查询明天上海的旅游景区”等用户意图。需要说明的是，在该数据库中可以针对每个具体应用程序对应多个关键词的方式来存储用户意图。

在步骤S130中，判断用户意图的数量是否大于1，若大于，则执行步骤S140，否则，执行步骤S150。此处的用户意图的数量判断主要是确定来自用户的多模态输入指令是否为模糊指令。容易理解，若机器人通过筛选和匹配得到两个以上的用户意图，则表明多模态输入指令对机器人来说是模糊的、不具备准确性。如果机器人不进行上述的判断，在面对多个用户意图的情况下，会出现混乱而不知道执行哪个用户意图对应的应用程序操作，或者是随机执行一个用户意图对应的应用程序操作，这样无论是机器人内部程序处理能力方面还是在直接反映给用户的用户体验方面，都没有任何好处。通过上面的判断，也为机器人下一步的具体执行流程进行了指导。

在步骤S140中，生成并向用户输出多模态意图确认信息，以获取针对目标应用程序的操作指令。

在筛选和匹配出的用户意图的数量为两个以上时，则机器人根据用户意图生成多模态意图确认信息供用户确认。在本例中，可采取的方式就是将这些用户意图以列举的方式生成多模态意图确认信息向用户发问，让用户从中选择一个符合其真实意图的内容。例如，还是针对上面的步骤S120中举出的例子，在筛选出了“查询明天上海的天气”、“查询明天上海的航班”和“查询明天上海的旅游景区”三个用户意图时，则生成如下意图确认信息“你是要查询明天上海的天气、查询明天上海的航班还是要查询明天上海的旅游景区？”，然后通过语音方式将上述信息发送给用户，用户根据上面的内容告知机器人其真实意图，从而使机器人获取针对目标应用程序的操作指令。

在步骤S150中，根据用户意图执行目标应用程序的操作指令。

在确定匹配的只是一个用户意图的情况下，一般可以认为用户发出的多模态输入指令是清楚的，则智能机器人直接根据该匹配的用户意图执行目标应用程序的操作指令即可。

实施例二

图2为根据本发明实施例二的与智能机器人的应用程序有关的多模态交互方法的流程示意图，同样，该多模态交互方法优选在机器人操作系统的环境中执行，其中涉及到的应用程序运行在该智能机器人操作系统中。本实施例的方法主要包括以下步骤，其中，将与实施例一相似的步骤以相同的标号标注，且不再赘述其具体内容，仅对区别步骤进行具体描述。

在步骤S130中，判断用户意图的数量是否大于1，若大于，则执行步骤S210，否则，执行步骤S230。需要注意的是，在根据分析结果筛选出一个用户意图时，不像实施例一那样直接开始根据用户意图执行目标应用程序的操作，而是要生成一个多模态意图确认信息，这种设置主要考虑到由于多模态形式的数据所表达的内容存在一定程度的模糊性，单单是按照解析得到的用户意图来执行目标应用程序的相应操作，不免在应用程序的执行准确度上会产生问题，因此，在执行该用户意图对应的目标应用程序的操作之前，也要得到用户对该用户意图的确认。

在步骤S210中，在存在多个用户意图时，根据用户的习惯信息、上下文信息和/或场景信息对多个用户意图进行评分。

在机器人长期与用户进行交互完成任务的过程中，会收集大量有关用户的习惯信息，例如，用户的语言习惯信息、用户的生活情绪习惯信息、用户的生活动作习惯信息、用户的身体健康状况信息和支付偏好等与应用数据对应的用户数据。上下文信息是指位置、动作、历史记录等信息，反映了与对象相关的一些属性信息，它起源于进行数据采集或测量并将其表示出来的服务。还有，某些机器人在使用的过程中会预先配置应用场景，例如家庭娱乐、亲情关爱、家庭服务、宠物照看、家居环境、身体健康、家庭安全、能源管理等场景。因此，为了更好地评判出更符合真实状态的用户意图，在获取了多个用户意图时，可以从用户习惯信息、上下文信息和应用场景信息中选择至少一个因素对每个用户意图进行评分。以用户习惯信息为例，在存在例如“打开音乐程序”、“打开跳舞程序”和“打开拍照程序”这三个用户意图时，根据用户习惯信息解析得到用户在当前时段会听音乐，因此在对上面三个用户意图进行打分时，“打开音乐程序”的评分最高，“打开拍照程序”的评分最低。

在步骤S220中，判断超过设定阈值的用户意图的数量是否大于等于2，若是则执行步骤S240，否则执行步骤S230。通过将每个用户的评分与设定阈值进行对比，从多个用户意图中将更为符合真实状态的用户意图筛选出来，便于后面生成多模态意图确认信息。

在步骤S230中，若超过设定阈值的用户意图仅为一个，则生成与用户意图相关的用户意图判定模式的多模态意图确认信息。其中涉及的判定模式的多模态意图确认信息主要是以“是不是”来提问的询问语句，用户只需要回答“是”和“否”即可。例如，在超过设定阈值的用户意图为“打开音乐程序”，则向用户发出“是不是要打开音乐程序”的意图确认信息。

在步骤S240中，若存在两个以上的评分超过设定阈值的用户意图，则生成与这些用户意图相关的用户意图选择模式的多模态意图确认信息。其中涉及到的选择模式的多模态意图确认信息以列举的形式来提问的询问语句，用户从中选择合适的用户意图。例如，在超过设定阈值的用户意图为“打开音乐程序”和“打开跳舞程序”，则向用户发出“是要打开音乐程序还要打开跳舞程序”的意图确认信息。

在步骤S250中，获取用户响应所述多模态意图确认信息的反馈信息，根据反馈信息启停所述目标应用程序。

在一个例子中，用户根据多模态意图确认信息反馈给机器人语音信息，机器人通过语音识别技术来确定用户真实的意图，根据反馈信息来启停对应的目标应用程序。

根据本发明实施例，在用户以语音或动作发出模糊指令时，机器人能够通过输出意图确认信息的方式来获取准确的指令，执行与指令对应的应用程序操作，提高了机器人的智能性和拟人性。

实施例三

图3为根据本发明的实施例三的与智能机器人的应用程序有关的多模态交互系统3的结构示意图。如图3所示，本申请实施例的多模态交互系统3主要包括：多模态输入指令分析模块310、用户意图筛选匹配模块320、目标应用程序获取模块330和应用程序操作模块340。上述智能机器人安装有机器人操作系统，且应用程序运行在机器人操作系统中。

多模态输入指令分析模块310，其用于接收用户的多模态输入指令，对所述多模态输入指令分析。

用户意图筛选匹配模块320，其用于基于分析结果进行用户意图的筛选和匹配，所述用户意图包括与应用程序有关的操作表达。用户意图筛选匹配模块320，其进一步用于在存在多个用户意图时，根据用户的习惯信息、上下文信息和/或场景信息对多个用户意图进行评分，以生成多模态意图确认信息。

目标应用程序获取模块330，其用于生成并向用户输出多模态意图确认信息，以获取针对目标应用程序的操作指令。目标应用程序获取模块330，其进一步用于在存在两个以上的评分超过设定阈值的用户意图时，则生成与这些用户意图相关的用户意图选择模式的多模态意图确认信息；否则，生成与用户意图相关的用户意图判定模式的多模态意图确认信息。

应用程序操作模块340，其用于获取用户响应所述多模态意图确认信息的反馈信息，根据所述反馈信息启停所述目标应用程序。

通过合理设置，本实施例的多模态交互系统3可以执行实施例一和实施例二的各个步骤，此处不再赘述。

由于本发明的方法描述的是在计算机系统中实现的。该计算机系统例如可以设置在机器人的控制核心处理器中。例如，本文所述的方法可以实现为能以控制逻辑来执行的软件，其由机器人操作系统中的CPU来执行。本文所述的功能可以实现为存储在非暂时性有形计算机可读介质中的程序指令集合。当以这种方式实现时，该计算机程序包括一组指令，当该组指令由计算机运行时其促使计算机执行能实施上述功能的方法。可编程逻辑可以暂时或永久地安装在非暂时性有形计算机可读介质中，例如只读存储器芯片、计算机存储器、磁盘或其他存储介质。除了以软件来实现之外，本文所述的逻辑可利用分立部件、集成电路、与可编程逻辑设备(诸如，现场可编程门阵列(FPGA)或微处理器)结合使用的可编程逻辑，或者包括它们任意组合的任何其他设备来体现。所有此类实施例旨在落入本发明的范围之内。

应该理解的是，本发明所公开的实施例不限于这里所公开的特定结构、处理步骤或材料，而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是，在此使用的术语仅用于描述特定实施例的目的，而并不意味着限制。

说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。

虽然本发明所公开的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所公开的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种与智能机器人的应用程序有关的多模态交互方法，该方法包括：

接收用户的多模态输入指令，对所述多模态输入指令分析，基于分析结果进行用户意图的筛选和匹配，所述用户意图包括与应用程序有关的操作表达；

生成并向用户输出多模态意图确认信息，以获取针对目标应用程序的操作指令。

2.根据权利要求1所述的多模态交互方法，其特征在于，

所述智能机器人安装有机器人操作系统，所述应用程序运行在机器人操作系统中。

3.根据权利要求1或2所述的多模态交互方法，其特征在于，该方法还包括：

获取用户响应所述多模态意图确认信息的反馈信息，根据所述反馈信息启停所述目标应用程序。

4.根据权利要求1～3中任一项所述的多模态交互方法，其特征在于，

在存在多个用户意图时，根据用户的习惯信息、上下文信息和/或场景信息对多个用户意图进行评分，以生成多模态意图确认信息。

5.根据权利要求4所述的多模态交互方法，其特征在于，

若存在两个以上的评分超过设定阈值的用户意图，则生成与这些用户意图相关的用户意图选择模式的多模态意图确认信息；否则，生成与用户意图相关的用户意图判定模式的多模态意图确认信息。

6.一种与智能机器人的应用程序有关的多模态交互系统，该多模态交互系统包括：

多模态输入指令分析模块，其用于接收用户的多模态输入指令，对所述多模态输入指令分析；

用户意图筛选匹配模块，其用于基于分析结果进行用户意图的筛选和匹配，所述用户意图包括与应用程序有关的操作表达；

目标应用程序获取模块，其用于生成并向用户输出多模态意图确认信息，以获取针对目标应用程序的操作指令。

7.根据权利要求6所述的多模态交互系统，其特征在于，

8.根据权利要求6或7所述的多模态交互系统，其特征在于，该多模态交互系统还包括：

应用程序操作模块，其用于获取用户响应所述多模态意图确认信息的反馈信息，根据所述反馈信息启停所述目标应用程序。

9.根据权利要求6～8中任一项所述的多模态交互系统，其特征在于，所述用户意图筛选匹配模块，其进一步用于在存在多个用户意图时，根据用户的习惯信息、上下文信息和/或场景信息对多个用户意图进行评分，以生成多模态意图确认信息。

10.根据权利要求9所述的多模态交互系统，其特征在于，所述目标应用程序获取模块，其进一步用于在存在两个以上的评分超过设定阈值的用户意图时，则生成与这些用户意图相关的用户意图选择模式的多模态意图确认信息；否则，生成与用户意图相关的用户意图判定模式的多模态意图确认信息。