CN111844055A

CN111844055A - 具有听觉、视觉、触觉与情感反馈的多模态人机交互机器人

Info

Publication number: CN111844055A
Application number: CN201910345878.1A
Authority: CN
Inventors: 陈美林
Original assignee: Meiao Shijie Xiamen Intelligent Technology Co ltd
Current assignee: Meiao Shijie Xiamen Intelligent Technology Co ltd
Priority date: 2019-04-26
Filing date: 2019-04-26
Publication date: 2020-10-30

Abstract

本公开提供了一种具有听觉、视觉、触觉与情感反馈的多模态人机交互机器人，包括获取单元，用于获取用户的语音强度值和时间长度值；组合单元，用于将该语音强度值和时间强度值进行组合得到特征值；动作单元，用于若该特征值小于预设阈值，生成手语动作数据；显示单元，用于在目标硬件设备的预设显示区域中显示虚拟机器人的形象，通过该虚拟机器人形象将该手语动作数据转换为手语输出。

Description

具有听觉、视觉、触觉与情感反馈的多模态人机交互机器人

技术领域

本发明涉及人工智能领域，特别涉及一种具有听觉、视觉、触觉与情感反馈的多模态人机交互机器人。

背景技术

随着人工智能热潮的不断升级，虚拟机器人聊天交互系统也越来越多的在各个领域受到应用。现有技术中国机器人聊天交互系统的广泛应用与模仿人类对话。但目前的机器人聊天交互系统多使用语音进行交互，特别是在应答时，使用语音对用户的提问和操作进行反馈，这样的机器人系统没有充分考虑到听力障碍人士的需求，听力障碍人士在语音交互时，无法获得有效反馈信息的问题，目前还没有解决方案。

发明内容

本公开提供一种具有听觉、视觉、触觉与情感反馈的多模态人机交互机器人，以解决听力障碍人士在语音交互时，无法获得有效反馈信息的问题。

进一步地，该动作单元还应用于，将语音应答数据进行语音切分后转换为手语动作数据。

进一步地，该动作单元还应用于，将该手语动作数据与嘴型应答数据融合进行输出。

进一步地，该动作单元还应用于，将该手语动作数据、嘴型应答数据、表情应答数据融合后进行输出。

进一步地，该虚拟机器人以如下方式的任一且不限于如下方式进行多模态交互：系统服务、平台功能、应用功能模块、应APP、主题、屏显。

进一步地，该显示单元，还用于，在该目标硬件没备的交互界面上输出该手语动作数据对应的文本信息。

进一步地，该机器人还包括：目标硬件设备，用于显示虚拟机器人形象，云端服务器，用于部署该动作单元。

本公开提供的一种具有听觉、视觉、触觉与情感反馈的多模态人机交互机器人将语音反馈信息转换为手语动作信息在指定显示区域中显示，以解决听力障碍人士在语音交互时，无法获得有效反馈信息的问题。

附图说明

图1是本公开实施例的一种具有听觉、视觉、触觉与情感反馈的多模态人机交互机器人逻辑结构示意图；

图2是本公开实施例的一种具有听觉、视觉、触觉与情感反馈的多模态人机交互机器人系统架构图；

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语″第一″、″第二″等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本公开提供了一种具有听觉、视觉、触觉与情感反馈的多模态人机交互机器人，图1是本公开实施例的一种具有听觉、视觉、触觉与情感反馈的多模态人机交互机器人逻辑结构示意图，如图1所示，包括获取单元11，用于获取用户的语音强度值和时间长度值；组合单元12，用于将该语音强度值和时间强度值进行组合得到特征值；动作单元13，用于若该特征值小于预设阈值，生成手语动作数据；显示单元14，用于在目标硬件设备的预设显示区域中显示虚拟机器人的形象，通过该虚拟机器人形象将该手语动作数据转换为手语输出。

获取单元包含有麦克风组件，也可以是包含有麦克风组件的设备，比如带有收音功能的音箱等，例如小爱音箱，也可以是镶嵌有麦克风的显示屏。麦克风获取音频信号后，由获取单元中的计算组件，例如CPU等计算音频强度值和强度持续的时间值，通过音频强度值与时间值的导数值判断音频强度的变化率，当变化率达到预定阈值时，特征值的取值为0，若变化率没有达到预定阈值，特征值为1，特征值为0表示客户能够根据音频做出反应，客户为正常用户，特征值为1表示客户不能够根据音频做出反应，设定此时的客户需要手语进行反馈。

在本公开的优选实施例中，虚拟机器人的形象可以在交互开始之前被构建并在预设显示区域中显示，用户在仅仅实施了打开交互系统这一操作之后但还未开始进行交互之前，本发明中的虚拟机器人形象已经显示在目标硬件设备的显示区域内，这一过程是可以保证交互的顺利进行。本发明中的交互对象包括但不限于两个，交互对象应当包含虚拟机器人，以及与虚拟机器人进行交丌的其他个体。当然，本发明的虚拟机器人形象也可以是用户发出了请求要求与其对话前，根据请求进行自动构建。

当用户发出交互请求并输入需要与虚拟机器人交互的内容时，获取单元可以通过目标硬件设各获取单模态和/或多模态交互指令。用户输入的交互内容的方式包括文本输入、视觉输入等。

在切分过程中，语音应答数据会被进行切分，获取每个音节，生成成语音切分数据；将语音切分数据进行文本转换，将文本内容在手语动作数据库中获取手语动作，将该手语动作输出到目标显示设备进行显示。

进一步地，图2是本公开实施例的一种具有听觉、视觉、触觉与情感反馈的多模态人机交互机器人系统架构图，如图2所示，该机器人还包括：目标硬件设备21，用于显示虚拟机器人形象，云端服务器22，用于部署该动作单元。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种具有听觉、视觉、触觉与情感反馈的多模态人机交互机器人，其特征在于，包括

获取单元，用于获取用户的语音强度值和时间长度值；

组合单元，用于将所述语音强度值和时间强度值进行组合得到特征值；

动作单元，用于若所述特征值小于预设阈值，生成手语动作数据；

显示单元，用于在目标硬件设备的预设显示区域中显示虚拟机器人的形象，通过所述虚拟机器人形象将所述手语动作数据转换为手语输出。

2.根据权利要求1所述的机器人，所述动作单元还应用于，将语音应答数据进行语音切分后转换为手语动作数据。

3.根据权利要求2所述的机器人，其特征在于，所述动作单元还应用于，将所述手语动作数据与嘴型应答数据融合进行输出。

4.根据权利要求3所述的机器人，其特征在于，所述动作单元还应用于，将所述手语动作数据、嘴型应答数据、表情应答数据融合后进行输出。

5.根据权利要求1～4所述的机器人，其特征在于，所述虚拟机器人以如下方式的任一且不限于如下方式进行多模态交互：系统服务、平台功能、应用功能模块、应APP、主题、屏显。

6.根据权利要求要求5所述的机器人，其特征在于，所述显示单元，还用于，在所述目标硬件没备的交互界面上输出所述手语动作数据对应的文本信息。

7.根据权利要求1所述的机器人，所述机器人还包括：目标硬件设备，用于显示虚拟机器人形象，云端服务器，用于部署所述动作单元。