CN106985137A

CN106985137A - 用于智能机器人的多模态交互方法及系统

Info

Publication number: CN106985137A
Application number: CN201710137670.1A
Authority: CN
Inventors: 王鹤; 张建顺
Original assignee: Beijing Guangnian Wuxian Technology Co Ltd
Current assignee: Beijing Guangnian Wuxian Technology Co Ltd
Priority date: 2017-03-09
Filing date: 2017-03-09
Publication date: 2017-07-28
Anticipated expiration: 2037-03-09
Also published as: CN106985137B

Abstract

本发明公开了一种用于智能机器人的多模态交互方法及系统。所述智能机器人装载有机器人操作系统，该方法包括：分句处理步骤，获取多模态数据，根据多模态数据生成待输出的语音交互数据，对所述语音交互数据对应的文本数据进行分句处理；情绪数据获取步骤，解析出各分句中包含的情绪信息，并生成下位机指令集；情绪表达步骤，将下位机指令集分发至对应模态的硬件执行部件，并控制各硬件执行部件基于分句结果执行多模态输出。本发明实施例能够使机器人对一句话中的多个情绪进行展现，使机器人更具备智能性和拟人性，满足用户需求，并且增强了智能机器人的多模态交互能力，改善了用户体验。

Description

用于智能机器人的多模态交互方法及系统

技术领域

本发明涉及智能机器人领域，尤其涉及一种用于智能机器人的多模态交互方法及系统。

背景技术

随着科学技术的不断发展，信息技术、计算机技术以及人工智能技术的引入，机器人的研究已经逐步走出工业领域，逐渐扩展到了医疗、保健、家庭、娱乐以及服务行业等领域。而人们对于机器人的要求也从简单重复的机械动作提升为具有拟人问答、自主性及与其他机器人进行交互的智能机器人，人机交互也就成为决定智能机器人发展的重要因素。因此，提升智能机器人的交互能力，改善机器人的类人性和智能性，是现在亟需解决的重要问题。

发明内容

本发明所要解决的技术问题之一是需要提供一种能够在人机交互过程中基于应答语句进行多模态输出的解决方案。

为了解决上述技术问题，本申请的实施例首先提供了一种用于智能机器人的多模态交互方法，所述智能机器人装载有机器人操作系统，该方法包括：分句处理步骤，获取多模态数据，根据所述多模态数据生成待输出的语音交互数据，对所述语音交互数据对应的文本数据进行分句处理；情绪数据获取步骤，解析出各分句中包含的情绪信息，并生成下位机指令集，所述下位机指令集携带所述情绪信息；情绪表达步骤，将所述下位机指令集分发至对应模态的硬件执行部件，并控制各硬件执行部件基于分句结果执行多模态输出。

优选地，在所述情绪表达步骤中，按照所述文本数据中的分句顺序，依次执行对应的多模态输出，以展现每个分句对应的情绪表达。

优选地，在所述情绪表达步骤中，在如下任一情况下，结束情绪表达：在语音输出所述语音交互数据的过程中没有进行情绪表达，则不再展现情绪表达；若上一分句的情绪表现未完毕，则不执行新分句的情绪表达。

优选地，所述情绪信息包含基于所述语音交互数据对应的文本表征的情绪参量、语气参量和分句标识。

优选地，在所述情绪表达步骤中，控制各硬件执行部件同步执行针对同一个分句的动作、表情和/或音效的多模态输出，以展现该分句的情绪表达。

本申请的实施例还提供了一种用于智能机器人的多模态交互系统，所述智能机器人装载有机器人操作系统，该多模态交互系统包括：分句处理模块，其获取多模态数据，根据所述多模态数据生成待输出的语音交互数据，对所述语音交互数据对应的文本数据进行分句处理；情绪数据获取模块，其解析出各分句中包含的情绪信息，并生成下位机指令集，所述下位机指令集携带所述情绪信息；情绪表达模块，其将所述下位机指令集分发至对应模态的硬件执行部件，并控制各硬件执行部件基于分句结果执行多模态输出。

优选地，所述情绪表达模块，其进一步按照所述文本数据中的分句顺序，依次执行对应的多模态输出，以展现每个分句对应的情绪表达。

优选地，所述情绪表达模块，其进一步在如下任一情况下，结束情绪表达：在语音输出所述语音交互数据的过程中没有进行情绪表达，则不再展现情绪表达；若上一分句的情绪表现未完毕，则不执行新分句的情绪表达。

优选地，所述情绪表达模块，其进一步控制各硬件执行部件同步执行针对同一个分句的动作、表情和/或音效的多模态输出，以展现该分句的情绪表达。

与现有技术相比，上述方案中的一个或多个实施例可以具有如下优点或有益效果：

本发明实施例通过对待输出的语音交互数据对应的文本数据进行分句处理，解析出各分句中包含的情绪信息，并生成多组情绪数据，然后将各组情绪数据分发至对应模态的硬件执行部件，并控制各硬件执行部件基于分句结果执行多模态输出。本发明实施例能够使机器人对一句话中的多个情绪进行展现，使机器人更具备智能性和拟人性，满足用户需求，并且增强了智能机器人的多模态交互能力，改善了用户体验。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明的技术方案而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构和/或流程来实现和获得。

附图说明

附图用来提供对本申请的技术方案或现有技术的进一步理解，并且构成说明书的一部分。其中，表达本申请实施例的附图与本申请的实施例一起用于解释本申请的技术方案，但并不构成对本申请技术方案的限制。

图1为根据本发明实施例的包括多模态交互系统10的智能机器人的结构示例图。

图2为图1所示的用于智能机器人的多模态交互系统100的结构框图。

图3为根据本申请实施例的用于智能机器人的多模态交互方法的流程一的示意图。

图4为根据本申请实施例的用于智能机器人的多模态交互方法的流程二的示意图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成相应技术效果的实现过程能充分理解并据以实施。本申请实施例以及实施例中的各个特征，在不相冲突前提下可以相互结合，所形成的技术方案均在本发明的保护范围之内。

另外，附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

实施例

下面参照图1来说明本发明的一实施方式。图1是表示本发明实施例的包括多模态交互系统10的智能机器人的结构示意图。如图1所示，该智能机器人包括听觉系统(ASR)101、视觉系统102、其他模态数据输入设备10n、多模态交互系统10以及下位机20。如图1所示，听觉系统(ASR)101、视觉系统102、其他模态数据输入设备10n分别与多模态交互系统10通信连接，向多模态交互系统10发送多模态数据。这些多模态数据可以为将语音、图像、文本数据转换后的机器识别数据。考虑到上下位机的协同作用，在一个例子中，听觉系统(ASR)101、视觉系统102、其他模态数据输入设备10n、多模态交互系统10可以设置在上位机中。

听觉系统(ASR)101可以看作是语音识别系统，该系统101主要包括麦克风、A/D转换器、语音识别器等设备。在用户发出语音信息后，听觉系统(ASR)101经由麦克风采集该模拟语音信号，利用A/D转换器将将模拟语音信号转换成系统能够处理的语音信号，然后将数字语音信号输入至语音识别器中进行语音识别处理。在语音识别的过程中，先对语音信息进行预处理，然后进行特征提取和训练识别。预处理主要包括语音信号的预加重，分帧加窗和端点检测等工作。语音识别器在将待识别语音经过特征提取后的特征参数与参考模型库中的各个模式一一进行比较，将相似度最高的模式作为识别的结果输出，完成模式的匹配过程，从而实现了语音识别。

视觉系统102主要包括图像传感器和图像数字处理器等设备。图像传感器可以为CCD摄像器件或CMOS摄像器件，主要对用户当前的面部图像、姿态图像进行采集。图像数字处理器具备图像预处理功能、图像分割功能、目标特征提取功能、图像识别功能等。在对原始图像进行预处理时，一般需要执行滤波去噪、灰度修正、图像增强和几何变换等。而图像分割一般包括边缘检测、二值化、细化和边缘连接等。在执行完上面的动作之后，对目标的特征进行提取，例如提取线段、区域或特征点等。最后根据预定的算法对图像进行识别，给出定量的检测结果。

其他模态数据输入设备10n，例如可以是键盘、鼠标和触控屏，供用户向机器人直接输入文本数据。

多模态交互系统10主要是根据多模态数据生成待输出的语音交互数据，将该语音交互数据划分成多个分句，对应每个分句都生成情绪信息，并将情绪信息生成下位机指令集分发给下位机20的对应模态的硬件执行部件。多模态交互系统10在机器人说话时，控制各个硬件执行部件(后述的下位机表情模块201、下位机发声模块202和下位机动作模块203等)基于分句结果执行多模态输出进行机器人的情绪展示。这样，在人机交互时，机器人可以更好地、拟人地表达，在整个说话过程中，都有对应的情绪展示。

在一个例子中，该多模态交互系统10可以为机器人操作系统中的一个模块，如图2所示。多模态交互系统10包括分句处理模块110、情绪数据获取模块120和情绪表达模块130。分句处理模块110，其获取多模态数据，根据多模态数据生成待输出的语音交互数据，对语音交互数据对应的文本数据进行分句处理。情绪数据获取模块120，其解析出各分句中包含的情绪信息，并生成下位机指令集，下位机指令集携带情绪信息。情绪表达模块130，其将下位机指令集分发至对应模态的硬件执行部件，并控制各硬件执行部件基于分句结果执行多模态输出。

具体来说，分句处理模块110在接收到来自听觉系统(ASR)101、视觉系统102、和/或其他模态数据输入设备10n等的传输的多模态数据后，查询语音交互数据库或是根据某种预定的算法查找或确定与该多模态数据对应的语音交互数据。分句处理模块110对该语音交互数据对应的文本数据进行分句处理，将该文本数据分成包含单独情绪的短句。在执行分句处理的过程中，分句处理模块110可以根据长句中的标点符号，例如逗号、顿号和句号等来切分成短句。分句处理模块110还可以通过语义分析来切分长句中的短句，具体语义分析方法可以采用现有的技术来，此处不再赘述。在执行完分句处理之后，对每个分句设置分句标识。

在一个例子中，情绪数据获取模块120通过识别与统计分句中的情感词来判别该分句所表示的情绪信息，情绪信息包含基于语音交互数据对应的文本表征的情绪参量、语气参量和分句标识。具体地，先要对分句进行分词，然后对分离出来的词语进行情感识别。为了提高分词的效率和准确度，本实施例中定义了情感辞典数据库，其中包含大部分常用的形容情感的词汇。对于分好的词汇，进行情感分类，以确定分句的情感倾向。在识别出情感词之后，还需要对情感词前面的修饰词进行处理，以确定该种情感的强烈程度。在其他例子中，可以采用复杂的句法分析来识别分句的情感倾向，在确定分句表征的情感后生成对应的情绪参量和语气参量。该情绪参量为对应情感的，例如喜、怒、哀、乐等参量表达，而语气参量主要是语音语调，主要是指声音方面的高低、强弱、快慢及音色的等参量。其次，情绪数据获取模块120根据解析得到的情绪信息从情感表达数据库中调取下位机指令集(也可称为“情绪数据包”)，如图1所示，可以包括单独的动作指令、表情指令和声音指令，这些指令实现不同情绪表达时对应的动作、表情和/或声音。其中，情感表达数据库中关联存储情绪及实现情绪表达的指令。

情绪表达模块130按照指令的类型将下位机指令集分发至对应的下位机20的硬件模块中，控制这些硬件模块按照分句结果执行相应的操作。优选地，情绪表达模块130，其进一步按照文本数据中的分句顺序，依次执行对应的多模态输出，以展现每个分句对应的情绪表达。情绪表达模块130，其进一步在如下任一情况下，结束情绪表达：在语音输出所述语音交互数据的过程中没有进行情绪表达，则不再展现情绪表达；若上一分句的情绪表现未完毕，则不执行新分句的情绪表达。情绪表达模块130，其进一步控制各硬件执行部件同步执行针对同一个分句的动作、表情和/或音效的多模态输出，以展现该分句的情绪表达。

再次参考图1，下位机20包括下位机表情模块201、下位机发声模块202和下位机动作模块203。

下位机表情模块201接收来自情绪表达模块130的指令，根据表情指令表达出对应的面部表情。该下位机表情模块201可以为仿人头部的机构，可使用控制硬件表情输出部件进行控制实现高兴、生气、沮丧等不同的面部表情。当然，考虑到结构的简易化，该下位机表情模块201可以是表情显示屏，根据指令调用不同的表情图像或照片，并通过屏幕显示的方式展现出这些表情图像或照片。

下位机发声模块202接收到来自情绪表达模块130的指令后，根据声音指令结合要发声的文本信息进行语音合成，展现出带有情绪语音的信息。下位机发声模块202接收到声音指令后，根据其中的情绪信息进行韵律方面的分析处理，得到语音的时长、音高等韵律信息，根据这些信息在语音库中挑选最合适的语音单元，语音单元再经调整和拼接就能得到最终的语音数据。

下位机动作模块203接收到动作指令后，会解析出各个重点关节的旋转角度之类的信息，并根据这些信息驱动相应的关节进行动作。下位机动作模块203可以包括腿部机构和臂部机构，这些机构具有适当的运动关节数量，例如由直流伺服电机驱动，采用蜗轮蜗杆实现关节自锁。在下位机动作模块203解析得到需要控制哪个关节动作以及动作幅度时，则使对应的电机驱动，实现臂部和/或腿部动作。

下面参照图3来说明具体的实现流程。如图3所示，在步骤S310中，机器人获取来自听觉系统(ASR)101、视觉系统102、其他模态数据输入设备10n的多模态数据。然后在判断接收到的多模态数据的类型(步骤S320)，根据不同的数据类型，采用语音识别、文本转换、图像识别等技术来将多模态数据转换成计算机识别的数据。在步骤S330中，通过查找问答语料库的方式或其他设定算法来查找、确定对应的语音回复信息(文本信息)。通过分句处理，将回复给用户的长句划分成各个分句，并对每个分句设定分句标识(步骤S340)，以区分不同的分句，而且便于后面的基于分句的操作处理。例如，在返回给用户的语音回复信息为“明天天气很好，可以开车出去玩，但是开车对环境不好”。通过依次以设定的、不同的标点符号来确定该句中包含的分句，划分成三个分句。在步骤S350中，通过分词的方式或语义解析的方法依次解析各个分句的情绪信息。还是以“明天天气很好，可以开车出去玩，但是开车对环境不好”中的一个分句“但是开车对环境不好”为例，通过对该分句进行分词得到“但是”、“开车”、“对”、“环境”、“不好”，查询情感辞典数据库得到这几个词表现的情绪信息是消极的，因此设定情绪参量为消极(例如沮丧、难过)，语气参量为声调低沉等。最后，基于各分句的情绪信息从下位机指令集数据库中调用对应的下位机指令。

在进行语音回复数据的输出过程中，参照图4来执行相应的操作。首先在接收到下位机指令集时，先判断上一分句的语音输出是否完成(步骤S410)，若已经完成，则进一步判断上一句的情绪表达是否完成(步骤S430)，若没有完成，则进入步骤S420判断是否在进行语音输出的过程中还有情绪表达，此处的情绪表达主要指机器人面部表情或动作的情绪表达。若在步骤S420中判断在语音输出的过程中没有情绪表达，则即使对应该语音输出的过程中应控制某些硬件进行表情展示的操作，此时也暂停执行。此处主要是考虑避免与下一分句输出时的硬件冲突。另一方面，若判断在语音输出的过程中存在其他情绪表达，则进入步骤S430。在S430中，判断上一句的情绪表达是否完成，若是，则将硬件进行初始化(步骤S440)，否则继续情绪表达，不执行下一指令集中的情绪表达，此处也是考虑到硬件冲突的问题，情绪表达需要依赖于各个硬件，如上一句的情绪表达涉及机器人的手臂，需要举起手臂以表达高兴直至手臂放下，下一分句的情绪表达需要手臂横向挥动，此时的指令是以从手臂在身体两侧垂下的初始位置开始设置的执行指令，需要等待上一分句情绪表现完成。在硬件初始化后，对接收到的下位机指令集进行解析(S450)，不同的硬件模块执行对应的指令，优选地，同步执行针对同一个分句的动作、表情和/或音效的多模态输出，以展现该分句的情绪表达(S460)。

在其他例子中，需要说明的是，考虑到云计算网络可以将海量的大数据计算和大规模存储分散到大量低廉的计算设备上，根据需要提取存储空间、计算资源。因此，本发明实施例的机器人大脑可以使用云计算技术通过互联网访问“云服务器”中的几乎任何资源，而不用考虑计算能力、存储能力、带宽、可靠性和安全性等问题，因此上述的步骤S330～S350可以在云服务器中进行计算分析。机器人的多模态交互系统10此时就充当通信模块，将识别内容加到请求协议中，发送给云端服务器，云端服务器执行分句处理模块110、情绪数据获取模块120等模块类似的处理，返回结果给多模态交互系统10。多模态交互系统10根据协议解析出包含待回应的语句内容、情绪参量、语气参量和分句标识，多模态交互系统10根据这些内容调取本地存储的下位机指令。

由于本发明的方法描述的是在计算机系统中实现的。该计算机系统例如可以设置在机器人的控制核心处理器中。例如，本文所述的方法可以实现为能以控制逻辑来执行的软件，其由机器人操作系统中的CPU来执行。本文所述的功能可以实现为存储在非暂时性有形计算机可读介质中的程序指令集合。当以这种方式实现时，该计算机程序包括一组指令，当该组指令由计算机运行时其促使计算机执行能实施上述功能的方法。可编程逻辑可以暂时或永久地安装在非暂时性有形计算机可读介质中，例如只读存储器芯片、计算机存储器、磁盘或其他存储介质。除了以软件来实现之外，本文所述的逻辑可利用分立部件、集成电路、与可编程逻辑设备(诸如，现场可编程门阵列(FPGA)或微处理器)结合使用的可编程逻辑，或者包括它们任意组合的任何其他设备来体现。所有此类实施例旨在落入本发明的范围之内。

应该理解的是，本发明所公开的实施例不限于这里所公开的特定结构、处理步骤或材料，而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是，在此使用的术语仅用于描述特定实施例的目的，而并不意味着限制。

说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。

虽然本发明所公开的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所公开的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种用于智能机器人的多模态交互方法，所述智能机器人装载有机器人操作系统，该方法包括：

分句处理步骤，获取多模态数据，根据所述多模态数据生成待输出的语音交互数据，对所述语音交互数据对应的文本数据进行分句处理；

情绪数据获取步骤，解析出各分句中包含的情绪信息，并生成下位机指令集，所述下位机指令集携带所述情绪信息；

情绪表达步骤，将所述下位机指令集分发至对应模态的硬件执行部件，并控制各硬件执行部件基于分句结果执行多模态输出。

2.根据权利要求1所述的方法，其特征在于，在所述情绪表达步骤中，

按照所述文本数据中的分句顺序，依次执行对应的多模态输出，以展现每个分句对应的情绪表达。

3.根据权利要求1或2所述的方法，其特征在于，在所述情绪表达步骤中，在如下任一情况下，结束情绪表达：

在语音输出所述语音交互数据的过程中没有进行情绪表达，则不再展现情绪表达；

若上一分句的情绪表现未完毕，则不执行新分句的情绪表达。

4.根据权利要求1或2所述的方法，其特征在于，

所述情绪信息包含基于所述语音交互数据对应的文本表征的情绪参量、语气参量和分句标识。

5.根据权利要求4所述的方法，其特征在于，在所述情绪表达步骤中，

控制各硬件执行部件同步执行针对同一个分句的动作、表情和/或音效的多模态输出，以展现该分句的情绪表达。

6.一种用于智能机器人的多模态交互系统，所述智能机器人装载有机器人操作系统，该多模态交互系统包括：

分句处理模块，其获取多模态数据，根据所述多模态数据生成待输出的语音交互数据，对所述语音交互数据对应的文本数据进行分句处理；

情绪数据获取模块，其解析出各分句中包含的情绪信息，并生成下位机指令集，所述下位机指令集携带所述情绪信息；

情绪表达模块，其将所述下位机指令集分发至对应模态的硬件执行部件，并控制各硬件执行部件基于分句结果执行多模态输出。

7.根据权利要求6所述的多模态交互系统，其特征在于，

所述情绪表达模块，其进一步按照所述文本数据中的分句顺序，依次执行对应的多模态输出，以展现每个分句对应的情绪表达。

8.根据权利要求6或7所述的多模态交互系统，其特征在于，所述情绪表达模块，其进一步在如下任一情况下，结束情绪表达：

9.根据权利要求6或7所述的多模态交互系统，其特征在于，

10.根据权利要求9所述的多模态交互系统，其特征在于，

所述情绪表达模块，其进一步控制各硬件执行部件同步执行针对同一个分句的动作、表情和/或音效的多模态输出，以展现该分句的情绪表达。