CN116714005A

CN116714005A - 具备情感交互能力的社交机器人及系统

Info

Publication number: CN116714005A
Application number: CN202310755637.0A
Authority: CN
Inventors: 傅昌锃; 邓琪; 赵玉良; 刘志刚; 李子涵; 杨一鸣; 杨石磊
Original assignee: Northeastern University Qinhuangdao Branch
Current assignee: Northeastern University Qinhuangdao Branch
Priority date: 2023-06-26
Filing date: 2023-06-26
Publication date: 2023-09-08

Abstract

本发明公开了具备情感交互能力的社交机器人及系统，属于机器人交互技术领域，该发明的主要目的是提供一种能够在自然交互环境下进行情感识别和情感表达的机器人交互系统。通过将情感识别和情感表达进行统一，并结合多模态融合的情感表达方式和机器人形象的设计，提高表达方式与外形的符合度，增强机器人的情感表达能力和交互效果。

Description

具备情感交互能力的社交机器人及系统

技术领域

本发明涉及机器人交互技术领域，特别涉及具备情感交互能力的社交机器人及系统。

背景技术

随着人工智能和机器人技术的不断发展，社交机器人作为一种新兴的交互方式，越来越受到人们的关注和青睐。社交机器人的发展旨在提供更人性化、智能化的交互体验，为用户提供更好的服务。目前，社交机器人主要应用于娱乐、教育、医疗等领域，已经成为人机交互的重要组成部分。然而，现有的社交机器人在情感交互能力方面还存在一些问题。现有的社交机器人大多以任务驱动为主，只能实现一些既定的交互任务，在情感识别和情感表达能力上还未被完善。为了提升交互的趣味和智能度，社交机器人需要具备一定的情感交互能力，包括识别用户的情感状态，并能够采用恰当的方式对用户做出反馈。

为了解决上述问题，一些研究者提出了新的情感交互技术，以增强社交机器人的情感表达能力和交互效果。主要包括：1)情感语音合成技术：这是一种有效的情感表达方式，能够通过音调、语速、音量等参数表达出不同的情感状态；2)情感图像生成技术：这个技术可以根据用户的情感状态生成相应的情感表情，增强机器人的情感表达能力；3)情感动作生成技术：该技术能够通过分析用户的语音、文本等信息，生成相应的情感反馈。

然而，现有的情感交互机器人，未将情感表达与情感识别连接起来，即未讨论“识别后怎么表达”、“表达的决策需要基于什么识别结果”。而且，目前的技术在表达上只注重了在单模态的情感表达能力上，而未结合机器人形象来考虑多模态融合的情感表达方式。此外，当前的机器人的设计采用的是模仿动物形象，而在表达行为的设计上，由于硬件和软件的限制，无法符合其外形，且缺乏合适的自由度来表达情感。

发明内容

本发明的目的在于提供一种能够在自然交互环境下进行情感识别和情感表达的机器人交互系统，通过将情感识别和情感表达进行统一，并结合多模态融合的情感表达方式和机器人形象的设计，提高表达方式与外形的符合度，增强机器人的情感表达能力和交互效果。根据上述的问题，本发明提供具备情感交互能力的社交机器人及系统。

为实现上述目的，本发明采取的技术方案为：具备情感交互能力的社交机器人及系统，包含以下步骤：

具备情感交互能力的社交机器人，其特征在于，机器人内包括两大硬件系统，分别为一个云端服务器和一个机器人硬件部分。

其中，云端服务器中包含一套交互数据存储模块、语音识别模块、人体位置识别模块、对话模块、多模态情感识别模块、情感表达决策模块和结果回传模块；

机器人硬件部分包括基于树莓派的中心处理模块，由1条仿生尾巴、3条可活动仿生辫子和6个可活动触角组成的运动模块、由1个摄像头和1个麦克风组成的多模态信息采集模块、语音模块、眼部显示模块。

进一步地，机器人硬件和云端服务器通过TCP/IP进行通信，云端服务器负责处理复杂的任务和算法，而机器人硬件负责采集音视频信号和执行动作。

进一步地，所述云端服务器内设有深度学习相关模型。

进一步地，所述机器人内云端服务器对情感分析的具体步骤为：

S1：中心处理器初始化机器人的各个硬件模块并预置监控状态，等待对话者出现和交互开始，在该空置时间段，使用预置的运动参数模拟呼吸状态，表现生命感，同时多模态信息采集模块实时检测是否出现对话者；

S2：当对话者出现时，云端服务器传回对话人空间位置，中心处理器根据该信息进行眼球控制，执行“注目”行为，同时，通过语音模块播报欢迎语，发起交互；

S3：在交互过程中，多模态信息采集模块实时采集对话者的动作、表情和语音信息，并上传至云端服务器进行语音转文本、情感分析以及对话生成操作；

S4：分析得到情感结果和回复内容，将其传入情感表达决策模块，选择当前机器人回复应使用的情感表达方式，并将决策结果回传给机器人的中心处理模块；

S5：中心处理器根据接收到的情感表达决策结果和回复内容，选择对应的运动参数和语音参数，控制机器人的回复行为；

S6：重复S1到S5步骤，直至交互结束。

进一步地，所述步骤S1的空置时间段，为体现机器人的生命感，中心处理器根据对运动模块中所有的节点进行速度和角度控制，以体现机器人的呼吸状态。

进一步地，使用OpenCV对视野中的对话者的人脸进行框选，通过矩形框的四个坐标点确认其中心位置并计算此时对话人的人脸与机器人的身体水平夹角/>和垂直夹角/>并将该位置作为机器人的视线注目点。

进一步地，使用基于BIC(Bayesian Information Criterion)模型对语音对话进行分割，随后使用基于Deep Speech模型将每段语音转录为文本信息，最后，根据语音分割的时间戳信息，取出同样时间点的视觉信息，实现多模态时间序列对齐，对齐后的多模态信息将被送入到基于图注意力网络(GAT，Graph Attention Network)的多模态情感识别模型，进行情感分析。

进一步地，情感分析则使用基于DialogGCN所搭建的对话情感分析模型。

进一步地，所述中心处理器接收到的情感表达决策结果和回复内容与仿生辫子、尾巴和触角之间会做出相对应的配合，且仿生辫子、尾巴和触角表达方式是独立设置的。

其中，对于触角，我们使用既定情感姿态(积极、消极)，配合仿生辫子进行情感表达；

而对于仿生辫子和尾巴，分为静态和动态两种方式。静态方面有愉悦、喜爱、生气、伤心、惊讶的姿势；动态方面，我们针对开心、伤心、生气三种情感，分别利用抛物线函数、三角波函数、正弦函数设计了特定的上下运动轨迹。

进一步地，所述仿生辫子将左右两个为一组而中间一个自成一组，以半个周期差进行动作呈现。

发明的有益效果在于：

1)本发明提出了毛绒机器人的情感交互系统，其中包括结合深度学习模型的动作控制、视觉识别、语音转录、情感识别、情感表达等多个方面，毛绒机器人能够根据对话者的情感状态和语音内容生成合适的回复，并通过动作、语音和眼部动画等多种方式进行情感表达；

2)本发明提出的毛绒机器人具有仿生辫子这一外观特征，使其拥有更丰富和更独特的自由度进行动作情感表达；

3)本发明针对不同的情感设计了机器人的多模态情感表达模式，包括动作、语音、眼神，增强对话者对机器人的情感感知度；

4)本发明利用基于规则和基于深度学习模型的对话生成系统，提升机器人的语料丰富和鲁棒性；

5)本发明提出的云边协同(云端服务器和本地机器人)的框架，使机器人的功能具有更高的可扩展性和鲁棒性。

附图说明

图1为本发明的机器人整体示意图；

图2为本发明的系统结构图；

图3为本发明的运动控制算法所生成的各执行单元轨迹图；

图4为本发明的尾巴的静态情感表达姿态；

图5为本发明的辫子的静态情感表达姿态；

图6为本发明的触角的静态情感表达姿态；

图7为本发明的运动模块整体示意图。

图中：1、触角；2、仿生辫子；3、仿生尾巴；4、摄像头；5、麦克风；6、显示屏；7、运动模块；701、舵机；702、连接件；703、活动臂；704、关节点；8、机器人本体。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。

为实现上述目的，本发明所采取的技术方案如下：

根据图1-7，一种基于多传感器及深度学习模型的机器人情感交互系统，主要包含两大硬件系统，一个云端服务器和一个机器人硬件。其中，深度学习相关模型部署在云端服务器，音视频传感模块和动作执行模块集成在机器人中。云端服务器与机器人硬件通过TCP/IP进行通信。

云端服务器中包含一套交互数据存储模块、语音识别模块、人体位置识别模块、对话模块、多模态情感识别模块、情感表达决策模块和结果回传模块。其主要任务是：1)接收由机器人中的音视频传感模块传回的视频流和音频流，交互数据存储模块将按照时间戳保存至数据库中；2)用语音识别模块，将交互中所获得的音频流转换为文本信息；3)用人体位置识别模块，确定交互过程中对话者的位置信息；4)根据语音识别模块所转录的文本，利用对话模块，生成机器人的对话内容；5)根据音视频信息，使用多模态情感识别模块，识别当前对话者的情绪状态；6)根据情感识别结果和当前的交互上下文，使用情感表达决策模块，决定机器人的表达形式；7)将人体位置识别结果、对话生成结果、情感分析结果、情感决策结果组成字典并回传至机器人。

每个模块的具体工作过程如下：

视频流和音频流接收过程：机器人中的摄像头4采集视频信号(记为Raw_V)，麦克风5采集音频信号(记为Raw_A)，以实时数据流的形式通过TCP/IP传输给云端服务器。同时，为了确保音频、视频流数据的完整性和时序准确性，音视频流的数据包中均包含了时间戳信息。交互数据存储模块将按照时间戳的顺序存入数据库中。

语音识别过程：麦克风5采集到的音频信号(Raw_A)将被送入语音识别模块转录为文本。在该过程中，语音识别模块首先对Raw_A进行去噪和沉默部分分割。之后，预处理后的音频信号，将被送入训练好的语音识别模型，转换为文本信息。

人体位置识别过程：摄像头4采集到的视频信号(Raw_V)将被送入到基于YOLO的人体检测模型进行位置估计。所获得的人体空间位置(p_x,p_y,p_z)将传回给机器人，调整眼球的视线，实现“注目”行为。

对话内容生成过程：将对话的上下文信息(C)和当前的对话者发言(X_T)送入到对话生成模块中，生成回复。回复的方法为基于规则和基于深度学习模型两种混合方式，即先基于对话任务和话题关键词匹配回复，若有对应预存语料，则使用基于规则的回复；若无，则使用深度学习模型生成回复。

多模态情感识别过程：首先，该部分将对音频、文本和视频进行时序对齐与处理，即，根据沉默部分分割的时间戳，取出对应时间的音频数据和转换的文本数据，分别记为X_A，X_T，X_V。随后，将对其的多模态数据送入到训练好的多模态情感识别模块，进行句子级别的情感分析。

情感表达决策过程：情感表达决策模块可以根据情感识别结果和上下文信息，综合考虑机器人的音频、视频和动作等多种表达方式，通过多模态融合的方式进行情感表达，从而实现更加丰富和逼真的情感交互体验。最终，机器人将根据情感表达决策模块的输出，结合预先设定的规则和策略，采用相应的情感语音、表情和动作，进行情感表达。

结果回传过程：将人体位置识别结果、对话生成结果、情感分析结果、情感决策结果组成字典，并以json格式打包，通过TCP/IP回传给机器人。

机器人硬件部分包括基于树莓派的中心处理模块、运动模块7(1条仿生尾巴3，3条可活动仿生辫子2，和6个可活动触角1)、多模态信息采集模块(1个摄像头4和1个麦克风5)、语音模块、基于显示屏6的眼部显示模块。

其中，运动模块7的结构为该机器人的创新处(尤其是仿生尾巴3和仿生辫子2)。尾巴3和触角1结构为机器人提供足够的动作空间来执行复杂情感表达动作。辫子的设计为机器人提供独特性的机器人情感表达动作空间。运动模块7的每个执行单元均为由3个关节点704和3个活动臂702组成的联动结构。其中根关节点704具备旋转和水平方向自由度，其余2个子关节点704具备水平方向自由度。活动臂703之间使用舵机701进行连接，即舵机701模拟关节点704，从而实现节段在空间中的自由运动。多个节段串联后可以形成波浪形、扭动形、以及配合运动频率实现不同的复杂空间轨迹曲线,从而实现多样的情感表达。舵机701通过PWM信号进行位置控制,通过改变PWM的脉冲占空比和变化量来控制每个舵机701的角度,从而驱动关节运动,实现整体辫子和尾巴的动作。动作序列采用预设的动作库,根据输入的情感来选取匹配的动作表达。

机器人每个模块对应的工作过程如下：

中心处理：实现和云端服务器的通信，包括音视频流的上传，对话人位置信息、情感分析结果、情感表达决策结果以及回复文本的接收。此外，中心处理模块将根据接收到的结果，向各个执行机构发出指令和执行内容。

运动控制：机器人包含10个独立的动作执行模块，每个模块均是由三个关节点704构成的机械结构。中心处理模块通过设定的目标角度(θ_ang)和角速度(v_ang)，向舵机701发送对应的PWM信号来控制每个关节点704的角度和速度，从而精准地控制机器人的各个关节的运动轨迹和速度。10个动作执行模块相互配合，使机器人能够完成各种不同的动作，从而让机器人具备更多的自由度和动作表达方式，做出更加复杂多样的情感表达动作。

多模态信息采集：麦克风5和摄像头4实时采集对话者的语音、表情和动作。所采集到的多模态信息将由中心处理模块上传至云端服务器。

语音控制：中心处理模块根据从云端服务器接收到的情感表达指令和语音回复内容，选择语音情感表达方式，通过扬声器进行声音表达。

眼部控制：眼神控制主要分为两个任务，用户跟随和情感表达。对于用户跟随，中心处理器根据从云端服务器接收到的人体位置检测结果参数(p_x,p_y,p_z)，控制左右两个眼球的位置；对于情感表达，中心处理器根据从云端服务器接收到的情感表达指令，选择眼神表达方式，完成视线情感信息的传达。

机器人硬件和云端服务器协作原则如下：

机器人硬件和云端服务器通过TCP/IP进行通信，云端服务器负责处理复杂的任务和算法，而机器人硬件负责采集音视频信号和执行动作，二者通过协作实现了情感交互系统的功能。具体地，当人与机器人进行交互时，摄像头4采集视频信号和麦克风5采集音频信号，通过TCP/IP实时传输至云端服务器。数据包中包含时间戳信息，确保数据的完整性和时序准确性。云端服务器中的交互数据存储模块按照时间戳的顺序将音视频流数据存入数据库中。在云端服务器中，语音识别模块将音频信号转录为文本信息，人体位置识别模块将视频信号送入人体检测模型中，确定对话者的位置信息。对话模块将对话的上下文信息和当前对话者的发言送入对话生成模块中，生成回复。情感识别模块将对音频、视频和文本进行时序对齐和处理，并进行句子级别的情感分析。情感表达决策模块可以根据情感识别结果和上下文信息，综合考虑机器人的音频、视频和动作的多种表达方式，通过多模态融合的方式进行情感表达，实现与用户的情感交互。

该情感交互系统具体协作方案如下：

(1-1)中心处理器初始化机器人的各个硬件模块并预置监控状态，等待对话者出现和交互开始。在该空置时间段，使用预置的运动参数(包括关节点704参数和眼部控制参数)模拟呼吸状态，表现生命感。同时多模态信息采集模块实时检测是否出现对话者；

(1-2)当对话者出现时，云端服务器传回对话人空间位置，中心处理器根据该信息进行眼球控制，执行“注目”行为。同时，通过语音模块播报欢迎语，发起交互；

(1-3)在交互过程中，多模态信息采集模块实时采集对话者的动作、表情和语音信息，并上传至云端服务器进行语音转文本、情感分析以及对话生成操作；

(1-4)分析得到情感结果和回复内容，将其传入情感表达决策模块，选择当前机器人回复应使用的情感表达方式，并将决策结果回传给机器人的中心处理模块；

(1-5)中心处理器根据接收到的情感表达决策结果和回复内容，选择对应的运动参数和语音参数，控制机器人的回复行为；

(1-6)重复(1-2)到(1-5)步，直至交互结束。

上述方法中，步骤(1-5)的具体工作内容包括以下步骤：

(2-1)空置时间段，为体现机器人的生命感，中心处理器根据对运动模块7中所有的节点进行速度为/>的角度控制，以体现机器人的呼吸状态。其中，为使用异步动作提升呼吸状态的自然度，每一个执行机构的相位(nπ，n∈[-1,1])是在初始化时随机生成的。此外，中心处理器对眼部显示模块随机发送眨眼指令和视线变化指令，提升机器人生命表现力；

(2-2)使用OpenCV对视野中的对话者的人脸进行框选，通过矩形框的四个坐标点确认其中心位置并计算此时对话人的人脸与机器人的身体水平夹角/>和垂直夹角/>该位置将作为机器人的视线注目点。需要注意的是，实现注目的动作分为三段：第一阶段为转动眼球调整视线进行注目；第二阶段调整头部方向向注目点转动，同时调整眼球位置，实现持续注目；第三阶段调整身体方向，向说话人或对话人方向进行转动，实现正向注目。三个阶段并非依照顺序独立进行，而是以每段动作开始500毫秒后执行下一步的形式重叠进行，以此提升动作流畅度。随后，将运动模块7的速度增大为v_ang获取对话人注意力，并播放预设的欢迎语；

(2-3)云端服务器接收到语音流和视频流信息后，先使用基于BIC(BayesianInformation Criterion)模型对语音对话进行分割。随后使用基于Deep Speech模型将每段语音转录为文本信息。最后，根据语音分割的时间戳信息，取出同样时间点的视觉信息，实现多模态时间序列对齐。对齐后的多模态信息将被送入到基于图注意力网络(GAT，GraphAttention Network)的多模态情感识别模型，进行情感分析。同时，系统将对转录的文本抽取关键词信息，若对应内容在预存语料中存在，则基于规则生成机器人回复，否则使用Seq2Seq模型生成机器人回复。系统中的预存语料主要为预先设计的机器人相关知识库以及交互过程中所学习到的相关内容，包括对话者经历、故事等；

(2-4)情感表达决策过程主要考虑两个方面的信息：一是对话者的当前情感，即当对话者出现情绪表达行为时，机器人也需用相同的情感进行回复；二是机器人将要表达的语意内容，若所表达的内容需要特定情感表达，则使用与内容匹配的情感表达方式。文本的情感分析则使用基于DialogGCN所搭建的对话情感分析模型；

(2-5)在中心处理器中以字典形式存储各类情绪表达的执行参数，如用于动作控制的角度、速度参数以及特定动作；语音的速度、音高等参数；眼睛的情感呈现动画等。需要强调的是，在情感动作方面，仿生辫子2、尾巴3和触角1表达方式是独立设置的。对于触角1，我们使用既定情感姿态(积极、消极)，配合仿生辫子2进行情感表达；而对于仿生辫子2和尾巴3，分为静态和动态两种方式。静态方面有愉悦、喜爱、生气、伤心、惊讶的姿势；动态方面，我们针对开心、伤心、生气三种情感，分别利用抛物线函数、三角波函数、正弦函数设计了特定的上下运动轨迹。三个仿生辫子2分为两组(左右两个为一组，中间自成一组)以半个周期差进行动作呈现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.具备情感交互能力的社交机器人，其特征在于，机器人内包括两大硬件系统，分别为一个云端服务器和一个机器人硬件部分组成。

机器人硬件部分包括由机器人本体、1条仿生尾巴、3条可活动仿生辫子、6个可活动触角、1个摄像头和一1个麦克风组成的多模态信息采集模块、语音模块、眼部显示模块组成，所述1条仿生尾巴、3条可活动仿生辫子、6个可活动触角内均设有运动模块。

2.根据权利要求1所述的具备情感交互能力的社交机器人，其特征在于，机器人硬件和云端服务器通过TCP/IP进行通信，云端服务器负责处理复杂的任务和算法，而机器人硬件负责采集音视频信号和执行动作，所述云端服务器内设有深度学习相关模型。

3.根据权利要求1所述的具备情感交互能力的社交机器人，其特征在于，所述运动模块为由3个关节点和3个活动臂组成的联动结构，所述运动模块根部设有舵机和连接件与机器人本体连接。

4.根据权利要求1-3所述的社交机器人的情感交互系统，其特征在于，所述机器人内云端服务器对进行情感分析的具体步骤为：

S6：重复S1到S5步骤，直至交互结束。

5.根据权利要求4所述的社交机器人的情感交互系统，其特征在于，所述步骤S1的空置时间段，为体现机器人的生命感，中心处理器根据对运动模块中所有的节点进行速度和角度控制，以体现机器人的呼吸状态。

6.根据权利要求4所述的社交机器人的情感交互系统，其特征在于，使用OpenCV对视野中的对话者的人脸进行框选，通过矩形框的四个坐标点确认其中心位置并计算此时对话人的人脸与机器人的身体水平夹角/>和垂直夹角/>并将该位置作为机器人的视线注目点。

7.根据权利要求4所述的社交机器人的情感交互系统，其特征在于，使用基于BIC(Bayesian Information Criterion)模型对语音对话进行分割，随后使用基于DeepSpeech模型将每段语音转录为文本信息，最后，根据语音分割的时间戳信息，取出同样时间点的视觉信息，实现多模态时间序列对齐，对齐后的多模态信息将被送入到基于图注意力网络(GAT，Graph Attention Network)的多模态情感识别模型，进行情感分析。

8.根据权利要求4所述的社交机器人的情感交互系统，其特征在于，情感分析则使用基于DialogGCN所搭建的对话情感分析模型。

9.根据权利要求4所述的社交机器人的情感交互系统，其特征在于，所述中心处理器接收到的情感表达决策结果和回复内容与仿生辫子、尾巴和触角之间会做出相对应的配合，且仿生辫子、尾巴和触角表达方式是独立设置的。其中，对于触角设定情感姿态：积极与消极，配合仿生辫子进行情感表达；

10.根据权利要求9所述的社交机器人的情感交互系统，其特征在于，所述仿生辫子将左右两个为一组而中间一个自成一组，以半个周期差进行动作呈现。