CN106773923A

CN106773923A - 面向机器人的多模态情感数据交互方法及装置

Info

Publication number: CN106773923A
Application number: CN201611087474.XA
Authority: CN
Inventors: 韦克礼
Original assignee: Beijing Guangnian Wuxian Technology Co Ltd
Current assignee: Beijing Guangnian Wuxian Technology Co Ltd
Priority date: 2016-11-30
Filing date: 2016-11-30
Publication date: 2017-05-31
Anticipated expiration: 2036-11-30
Also published as: CN106773923B

Abstract

本发明提供一种面向智能机器人的多模态情感交互方法，所述方法包括以下步骤：接收多模态交互输入信息并进行解析，以获取用户输入的意图参量和用户情绪参量；结合所述意图参量和所述情绪参量生成对应于多模态交互输入信息的文本回复信息，并结合所述文本回复信息、上下文交互数据及用户情绪参量生成语音情感参量；根据所述回复文本信息及语音情感参量合成语音信息并进行输出。通过实施本发明的面向智能机器人的多模态情感数据交互方法，智能机器人同用户进行交互时，输出的TTS语音在不同情感状态下的发声效果不同，这大大提升了机器人的情感表达能力，使得机器人的智能程度也大为提高。

Description

面向机器人的多模态情感数据交互方法及装置

技术领域

本发明涉及智能机器人领域，具体地说，涉及一种面向机器人的多模态情感数据交互方法及装置。

背景技术

人类不仅具有理性思维和逻辑推理能力，更是一种具有极强情感因子的群体。过去的人机交互模式，究其本质更多的是反映理性思维的程序操控。现在随着信息科技的发展，人机交互所面对的最大困境就是如何让计算机不仅有智商，而且还具备“情感”与人类交互的情感。

未来人工智能的发展方向是机器人与人之间的感情化交互，强调情感计算。智能化的机器人在满足人类需求的同时，还应让用户对其产生一种情感上的信任和依赖。

然而，当前市场上大多数的文本到语音转换TTS技术在发声效果、情感表达等方面都非常平淡，毫无情感可言，极大地影响了人机对话的体验效果。

为提升文本到语音转换TTS的情感表达能力，需要提供一种能够让人与机器人之间的对话可以体验到类似真人般的对话效果的技术方案。

发明内容

本发明的目的在于，提供一种面向智能机器人的多模态情感交互方法和装置来解决上述技术问题。在本发明的面向智能机器人的多模态情感交互方法中，其包括以下步骤：

接收多模态交互输入信息并进行解析，以获取用户输入的意图参量和用户情绪参量；

结合所述意图参量和所述情绪参量生成对应于多模态交互输入信息的文本回复信息，并结合所述文本回复信息、上下文交互数据及用户情绪参量生成语音情感参量；

根据所述回复文本信息及语音情感参量合成语音信息并进行输出。

根据本发明的面向智能机器人的多模态情感交互方法，优选的是，所述语音情感参量包括，

所述回复文本信息的语义参量、句式参量、当前交互的情绪参量以及对当前用户的情感参量。

根据本发明的面向智能机器人的多模态情感交互方法，优选的是，所述方法包括：

结合用户情绪参量来生成当前交互的情绪参量；

基于上下文交互数据来生成对当前用户的情感参量；

通过获取所述回复文本信息的重点词汇生成所述回复文本信息的语义参量。

在接收多模态交互输入信息并进行解析的步骤中，通过采用情感词典、情感归类、机器学习的情感计算方式来生成用户输入的情绪参量。

根据本发明的另一个方面，还提供了一种面向智能机器人的多模态情感数据交互装置。所述装置包括：

接收解析单元，其用以接收多模态交互输入信息并进行解析，以获取用户输入的意图参量和情绪参量；

文本回复生成单元，其用以结合所述意图参量和所述情绪参量生成对应于多模态交互输入信息的文本回复信息，并结合所述文本回复信息、上下文交互数据及用户情绪参量生成语音情感参量；

情感输出合成单元，其用以根据所述回复文本信息及语音情感参量合成语音信息并进行输出。

根据本发明的面向智能机器人的多模态情感数据交互装置，优选的是，在情感输出合成单元中，所述语音情感参量包括，

根据本发明的面向智能机器人的多模态情感数据交互装置，优选的是，在所述装置的文本回复生成单元中，还包括以下单元：

用以结合用户情绪参量来生成当前交互的情绪参量的单元；

用以基于上下文交互数据来生成对当前用户的情感参量的单元；

用以通过获取所述回复文本信息的重点词汇生成所述回复文本信息的语义参量的单元。

根据本发明的面向智能机器人的多模态情感数据交互装置，优选的是，在所述装置的接收解析单元中，当接收多模态交互输入信息并进行解析时，通过采用情感词典、情感归类、机器学习的情感计算方式来生成用户输入的情绪参量。

通过实施本发明的面向智能机器人的多模态情感数据交互方法，智能机器人同用户进行交互时，输出的TTS语音在不同情感状态下的发声效果不同，这大大提升了机器人的情感表达能力，使得机器人的智能程度也大为提高。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例共同用于解释本发明，并不构成对本发明的限制。在附图中：

图1显示了根据本发明一个实施例的进行多模态情感输出方法的总体流程图；

图2显示了根据本发明一个实施例的回复文本信息中的各个参量组成部分的示意图；

图3显示了根据本发明一个实施例如何产生回复文本信息中的各个参量的方法流程图；以及

图4显示了根据本发明一个实施例的多模态情感输出装置的结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，以下结合附图对本发明实施例作进一步地详细说明。

如图1所示，其中显示了根据本发明原理面向智能机器人的进行多模态情感交互输出方法的流程图。

该方法开始于步骤S101，进行系统初始化工作，准备接收用户的多模态输入信息。接下来，在步骤S102中，机器人接收多模态交互输入信息并进行解析，以获取用户输入的意图参量和用户情绪参量。其中，用户的多模态输入信息例如包括通过语音表达的信息、文本输入的语句、通过表情或者特定动作表达的信息等。机器人通过多个方面的输入通道获取上述信息后，在系统内部通过解析从而获得用户输入的意图参量和用户情绪参量。在获得这些参量时，除了进行语义理解获得用户基本的意图之外，还需要进行情感分析和计算以获得用户当前的情绪状态。

例如，可以通过句法分析对用户输入的语句进行理解，得到用户的意图，即行为+数据。比如用户问“明天北京天气怎么样”，那么系统可能会计算出用户的意图为：用户行为-》“天气查询”，城市：北京，时间：明天。

针对用户的多模态输入为文本输入语句时，要获取用户当前的情绪状态，还需要系统结合上下文以及历史交互数据进行判断。例如，用户输入“明天北京天气怎么样”之前可能已经在抱怨北京的天气糟糕，那么可以分析出用户当前的情绪状态有可能是不太愿意去北京，是一种不高兴的情绪状态。

在本发明中，上下文交互数据来自于聊天模块前几轮对话的结果，部分地代表了用户当前所处场景的状态。由于在生成文本回复信息时考虑了用户的情绪参量，因此机器人产生的语音情感参量会受到用户的情绪影响。例如，用户在不高兴的情绪状态下，说“昨晚的球赛太糟糕了，***踢得真差！”机器人通过语义理解能够基本判断出用户的情绪可能是失望的、也可能是气愤的。那么，在这种情况下，系统可以进一步通过情感计算分析，例如通过采用情感词典、情感归类、机器学习等相关算法计算出用户的当前情绪，并结合上下文、历史交互等情况判断出用户当前的情感状态。

因此，在上述接收多模态交互输入信息并进行解析的步骤中，一般通过采用情感词典、情感归类、机器学习的情感计算方式来生成用户输入的情绪参量。

当然，如果通过语义理解便能准确地判断出用户的情绪状态的话，系统可以省去进一步进行情感计算的步骤，而直接根据当前通过语义理解获得的情绪参量和上下文交互数据得到要输出的语音情感参量。

接下来，在步骤S103中，系统结合所获得的意图参量和情绪参量生成对应于多模态交互输入信息的文本回复信息，并结合文本回复信息、上下文交互数据及用户情绪参量生成语音情感参量。其中，语音情感参量包括回复文本信息的语义参量、句式参量、当前交互的情绪参量以及对当前用户的情感参量。

对当前用户的情感参量表示机器人与该特定用户的亲疏关系。如果一个用户与该机器人交互的时间很长，而且对其进行过深层次的训练，使其学习并了解到用户的很多行为、生活习惯，那么机器人可以设定该用户具有情感级别最高的情感参量。在生成语音情感参量时，考虑对用户的情感参量可以使得用户与机器人之间的关系更为紧密，从而使用户对机器人的依附度更高。而如果一个用户相对于该机器人为陌生的，那么在初始阶段，机器人设定该用户具有情感级别最低的情感参量，输出语音时，可以选择礼貌的声音进行输出。由于机器人同用户均不熟悉，那么在对话过程中，机器人会随交互的轮数将情感级别提高，输出语音时，会选择更亲切的声音进行输出，从而使得用户能够感觉到机器人与用户越来越亲密的体验，进一步提高用户使用机器人进行交互的兴趣。

在本发明中，语义参量主要用以帮助机器人找出输出语句中的重点词汇，在对重点词汇发声时例如可以通过重音或升调等音调来输出。句式参量体现出机器人说话的风格，这些句式参量在特定情况下可以是随用户以及用户的情绪而变化的，不同句式在进行语音输出的语调不同，例如陈述句“你吃饭了吧”和疑问句“你吃饭了么？”，输出疑问句时，尾音应该上扬。当前交互的情绪参量是在以上步骤中通过情感计算或其他语义解析方法获得的。机器人输出的语音情感参量不一定需要保持与用户当前交互的情绪参量一致。在某些情况下，机器人的说话语气可能还与用户的相反，例如在天气查询结果为“北京天气晴朗，空气优”的时候，机器人可以以兴奋或者愉悦的情绪进行表达，从而调动起用户积极的情绪来。

在本发明中，情感文本转语音输出TTS模块结合输入的内容例如待回复的文本信息以及参数，可以合成出非常自然并带有情感风格的情感TTS。例如，在步骤S104中，根据回复文本信息及语音情感参量合成语音信息并进行输出。

最后，本方法结束于步骤S105。系统或者退出该情感输出例程，调用之前保存的应用环境参数对场景进行恢复，也可以返回到初始步骤继续进行下一个用户情感输入的处理。

本发明的有利之处在于，新的情感TTS模块与整个交互过程不再割裂，当前的TTS只根据当前输出的文本进行语音合成，并且合成是不带情感风格的，只是一个单纯平淡的机械声音。而新的情感TTS模块会结合整个交互过程中的语义理解过程、情感计算过程、上下文交互过程、多模态交互过程等进行情感TTS的合成，使TTS不仅具有了情感，而且是结合到整个上下文的交互场景中，因此更加自然、更具情感、更显真实。

如图2所示，其中显示了本发明一个实施例的回复文本信息中的各个参量组成部分的示意图。在图中，可以看出语音情感参量包括，回复文本信息的语义参量、句式参量、当前交互的情绪参量以及对当前用户的情感参量。

其中，一种实施方式中，机器人在进行回复文本信息生成时，首先要确定要生成的文本回复信息的句式，因此句式参量的获取，可以在生成回复文本信息之前即可获取，而其他三个参量的获取方式如图3所示。

在该方法中，主要包括以下步骤：

结合用户情绪参量来生成当前交互的情绪参量；

基于上下文交互数据来生成对当前用户的情感参量；

由于本发明的方法描述的是在计算机系统中实现的。该计算机系统例如可以设置在机器人的控制核心处理器中。例如，本文所述的方法可以实现为能以控制逻辑来执行的软件，其由机器人控制系统中的CPU来执行。本文所述的功能可以实现为存储在非暂时性有形计算机可读介质中的程序指令集合。当以这种方式实现时，该计算机程序包括一组指令，当该组指令由计算机运行时其促使计算机执行能实施上述功能的方法。可编程逻辑可以暂时或永久地安装在非暂时性有形计算机可读介质中，例如只读存储器芯片、计算机存储器、磁盘或其他存储介质。除了以软件来实现之外，本文所述的逻辑可利用分立部件、集成电路、与可编程逻辑设备(诸如，现场可编程门阵列(FPGA)或微处理器)结合使用的可编程逻辑，或者包括它们任意组合的任何其他设备来体现。所有此类实施例旨在落入本发明的范围之内。

因此，根据本发明的另一个方面，还提供了一种面向智能机器人的多模态情感数据交互装置。如图4所示，多模态情感数据交互装置400包括以下单元。

接收解析单元401用以接收多模态交互输入信息并进行解析，以获取用户输入的意图参量和情绪参量。

文本回复生成单元402用以结合所述意图参量和所述情绪参量生成对应于多模态交互输入信息的文本回复信息，并结合所述文本回复信息、上下文交互数据及用户情绪参量生成语音情感参量；

情感输出合成单元403用以根据所述回复文本信息及语音情感参量合成语音信息并进行输出。

根据本发明的面向智能机器人的多模态情感数据交互装置400，优选的是，在情感输出合成单元403中，所述语音情感参量包括：所述回复文本信息的语义参量、句式参量、当前交互的情绪参量以及对当前用户的情感参量。

根据本发明的面向智能机器人的多模态情感数据交互装置400，优选的是，在所述装置的文本回复生成单元402中，还包括以下单元：

用以结合用户情绪参量来生成当前交互的情绪参量的单元；

根据本发明的面向智能机器人的多模态情感数据交互装置400，优选的是，在所述装置的接收解析单元401中，当接收多模态交互输入信息并进行解析时，通过采用情感词典、情感归类、机器学习的情感计算方式来生成用户输入的情绪参量。

应该理解的是，本发明所公开的实施例不限于这里所公开的特定结构、处理步骤或材料，而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是，在此使用的术语仅用于描述特定实施例的目的，而并不意味着限制。

说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。

虽然本发明所公开的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所公开的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种面向智能机器人的多模态情感交互方法，其特征在于，所述方法包括：

2.如权利要求1所述的面向智能机器人的多模态情感交互方法，其特征在于，所述语音情感参量包括，

3.如权利要求2所述的面向智能机器人的多模态情感交互方法，其特征在于，所述方法包括：

结合用户情绪参量来生成当前交互的情绪参量；

基于上下文交互数据来生成对当前用户的情感参量；

4.如权利要求3所述的面向智能机器人的多模态情感交互方法，其特征在于，所述方法包括：

5.一种面向智能机器人的多模态情感数据交互装置，其特征在于，所述装置包括：

6.如权利要求5所述的面向智能机器人的多模态情感数据交互装置，其特征在于，在情感输出合成单元中，所述语音情感参量包括，

7.如权利要求6所述的面向智能机器人的多模态情感数据交互装置，其特征在于，在所述装置的文本回复生成单元中，还包括以下单元：

用以结合用户情绪参量来生成当前交互的情绪参量的单元；

8.如权利要求7所述的面向智能机器人的多模态情感数据交互装置，其特征在于，在所述装置的接收解析单元中，当接收多模态交互输入信息并进行解析时，通过采用情感词典、情感归类、机器学习的情感计算方式来生成用户输入的情绪参量。