CN110900617A

CN110900617A - 机器人及其操作方法

Info

Publication number: CN110900617A
Application number: CN201910862563.4A
Authority: CN
Inventors: 辛容京; 文允地
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2018-09-14
Filing date: 2019-09-12
Publication date: 2020-03-24
Anticipated expiration: 2039-09-12
Also published as: CN110900617B; US20200090393A1; EP3624442A1; KR20200034039A

Abstract

一种机器人及其操作方法，可以通过基于在视频通话期间接收的数据而识别视频通话对方的情绪信息来提供基于情绪的服务，并且通过将所识别的情绪信息映射到视频通话对方的面部信息来生成化身角色，可以自动生成表达视频通话对方的情绪的角色。

Description

机器人及其操作方法

技术领域

实施方式涉及一种机器人及其操作方法，且更具体地，涉及一种能够识别用户情绪并基于情绪提供服务的机器人及其操作方法。

背景技术

机器人已经开发用于工业用途，并且已经成为工厂自动化的一部分。随着机器人的应用领域的进一步扩展，已经开发了医疗机器人、航空机器人等，并且已经制造了可以在普通家庭中使用的家用机器人。

随着机器人的使用增加，对可以提供各种信息、娱乐和服务同时还可以在执行简单的功能之外理解用户并与用户通信的机器人的需求不断增长。

有趣且不寻常的表情符号和角色会越来越多地用于社交网络服务、文本消息、视频通话等。此外，除了使用预先制作的角色之外，人们还可以创建和使用他们自己的表情符号和化身来代表他们自己。

例如，用户可以使用他/她的面部等创建和使用独特的角色。美国专利申请公开US2018/089880A1(以下称为文献1))可能公开了可以识别拍摄用户的面部特征，并且可以生成并发送与所识别的特征相对应的化身数据。

另外，美国专利申请公开US2015/381534A1(以下称文献2)可能公开了在发送电子消息时可以在一组自画像中选择能代表用户感觉的自画像，并且可以作为文件进行发送。

然而，这些文献可以用具有独特特征(化身，自画像)的用户替换要发送的表情符号和角色，并且在扩展使用领域方面存在限制。

另外，可以发送根据用户的意图选择的特定文件，这与识别用户的真实感觉不同，并且角色不能用于基于用户情绪的其他服务。

发明内容

鉴于上述问题而完成而做出多个实施方式，其目的在于可以提供一种能够识别用户情绪并且能够提供基于情绪的服务的机器人及其操作方法。

实施方式可以提供一种能够自动生成并使用表达用户情绪的角色的机器人以及用于操作该机器人的方法。

实施方式可以提供一种情绪识别方法，通过使用借助深度学习所学习的人工智能，可以更准确地识别用户情绪。

实施方式可以提供一种能够通过将情绪识别结果反映到用户的面部来生成用户自己的情绪角色的机器人以及用于操作该机器人的方法。

实施方式可以提供一种能够通过使用所生成的情绪角色来表达情绪的机器人以及用于操作该机器人的方法。

实施方式可以提供一种能够识别视频通话参与者中的至少一者的情绪并根据所识别的情绪来生成角色的机器人以及用于操作该机器人的方法。

实施方式可以提供一种能够发送视频通话对方的情绪的机器人以及用于操作该机器人的方法。

实施方式可以提供一种在视频通话期间提供各种趣味因素的期望的机器人以及用于操作该机器人的方法。

实施方式可以提供一种能够识别视频通话参与者中的至少一者的运动并根据所识别的运动进行操作的机器人以及用于操作该机器人的方法。

为了实现上述和其他目的，根据本发明的一个实施方式的机器人及其操作方法可以通过基于在视频通话期间接收的数据识别视频通话对方的情绪信息来提供基于情绪的服务。

为了实现上述和其他目的，根据本发明的一个方面的机器人及其操作方法可以通过借助于将所识别的情绪信息映射到视频通话对方的面部信息而生成化身角色来自动生成表达视频通话对方的情绪的角色。

为了实现上述和其他目的，根据本发明的一个方面的机器人及其操作方法可以通过将预设动画角色的面部表情界标点改变成对应于所识别的情绪信息来生成化身角色。

为了实现上述和其他目的，根据本发明的一个方面的机器人及其操作方法可以响应于所识别的视频通话对方的情绪信息来调整化身角色的面部表情界标点的改变程度。根据该设定，可以通过更大程度地调整化身角色的面部表情界标点的改变程度来增强情绪表达，或者可以通过调整成更小来减轻情绪表达。

为了实现上述和其他目的，根据本发明的一个方面的机器人及其操作方法可以显示视频通话对方的存储的化身角色中的任何一个并将其用于视频通话。

为了实现上述和其他目的，根据本发明的一个方面的机器人及其操作方法可以通过将基于视频通话对方的面部信息生成的动画角色的面部表情界标点改变成对应于所识别的情绪信息来生成化身角色。

根据本发明的一个方面的机器人及其操作方法可以通过利用增强现实合成响应于关于视频通话对方的面部图像的所识别的情绪信息而生成的面部表情界标点图像来生成化身角色。

根据本发明的一个方面的机器人及其操作方法可以检测视频通话对方的运动并执行对应于视频通话对方的运动的响应动作。

根据本发明的一个方面的机器人及其操作方法可以通过将视频通话对方的所识别的情绪信息映射到视频通话对方的语音数据来生成转换后的语音数据并且输出转换后的语音数据。

这里，可以改变视频通话对方的语音数据的音调和大小中的至少一者，并且根据设置，可以通过更大程度地调整语音数据的改变程度来增强情绪表达，或者通过调整成更小来减轻情绪表达。

为了实现上述和其他目的，根据本发明的一个方面的机器人及其操作方法可以是多个情绪类别中的任何一个，或者可以是基于多个情绪类别中的每一个的概率值。

为了实现上述和其他目的，根据本发明的一个方面的机器人及其操作方法可以由机器人自身或通过情绪识别服务器执行。

情绪识别器被学习以通过多个单模态输入和多模态输入基于多个单模态输入来识别情绪信息，并输出包括针对多个单模态输入中的每一个的情绪识别结果和针对多模态输入的情绪识别结果的复杂情绪识别结果，从而更准确地识别视频通话对方的情绪。

为了实现上述和其他目的，根据本发明的一个方面的机器人及其操作方法可以包括：基于从视频通话对方机器人接收的数据识别视频通话对方的情绪信息，通过将视频通话对方的所识别的情绪信息映射到视频通话对方的包括在从视频通话对方机器人接收的数据中的面部信息来生成化身角色，并由机器人显示所生成的化身角色。

为了实现上述和其他目的，根据本发明的一个方面的机器人及其操作方法可以包括通过机器人从视频通话对方机器人接收数据，通过机器人将从视频通话对方机器人接收的数据发送到服务器，并且通过服务器将基于从视频通话对方机器人接收的数据的情绪识别结果发送到机器人。

为了实现上述和其他目的，一种机器人可以包括：通信单元，其被配置为利用视频通话对方机器人发送和接收数据；显示器，其被配置为基于从视频通话对方机器人接收的数据来显示预定图像；音频输出单元，其被配置为基于从视频通话对方机器人接收的数据来输出预定声音；以及控制器，其被配置为基于从视频通话对方机器人接收的数据来识别视频通话对方的情绪信息，通过将视频通话对方的所识别的情绪信息映射到视频通话对方的包括在从视频通话对方机器人接收的数据中的面部信息来生成化身角色，以及控制所生成的化身角色以将其显示在显示器上。

附图说明

参照附图可以详细说明布置和实施方式，在附图中相同附图标记指代相同元件，并且其中：

图1是包括根据本发明的实施方式的机器人的机器人系统的框图；

图2是表示根据本发明的实施方式的机器人的外形的正视图；

图3是根据本发明的实施方式的机器人的内部框图的示例；

图4是根据本发明的实施方式的服务器的内部框图的示例；

图5是根据本发明的实施方式的情绪识别器的内部框图的示例；

图6是用于解释根据本发明的实施方式的情绪识别的图；

图7至图10是用于解释根据本发明的实施方式的角色的表达的图；

图11是示出根据本发明的示例实施方式的机器人的操作方法的流程图；

图12是表示根据本发明的示例实施方式的机器人的操作方法的流程图；

图13是用于解释根据本发明的示例实施方式的机器人的情绪表达的图；

图14至图16是用于解释使用根据本发明的示例实施方式的机器人的视频通话的图；

图17是示出根据本发明的示例实施方式的机器人的操作方法的流程图；以及

图18至图21是示出根据本发明的示例实施方式的机器人系统的操作方法的流程图。

具体实施方式

可以参照附图详细描述本发明的示例性实施方式。可以贯穿附图使用相同的附图标记表示相同或相似的部分。可以省略对这里包含的公知功能和结构的详细描述，以避免模糊本发明的主题。现在将详细参照本发明的其示例在附图中示出的优选实施方式。在下面的描述中使用的元件中的后缀“模块”和“单元”是仅考虑到易于准备说明书而给出的，并且没有具体的含义或功能。因此，后缀“模块”和“单元”可以互换使用。

图1是包括根据本发明的实施方式的机器人的机器人系统的框图。

参照图1，机器人系统可包括家用电器10和至少一个机器人100，家用电器10具有通信模块以与其他设备、机器人100、服务器70等通信或连接到网络。

例如，家用电器10可包括具有通信模块的空调11、机器人清洁器12、冰箱13、洗衣机14、烹饪用具15等。

包括在家用电器10中的通信模块可以是Wi-Fi通信模块，但是实施方式不限于这种通信方法。

可替代地，家用电器10可以包括其他类型的通信模块或多个通信模块。例如，家用电器10可以包括NFC模块、zigbee通信模块、蓝牙通信模块等。

家用电器10可以通过Wi-Fi通信模块等连接到服务器70，并且可以支持诸如远程监控、远程控制等智能功能。

机器人系统可以包括便携式终端，诸如智能电话、平板电脑等。

用户可以在机器人系统中检查关于家用电器10、20的信息或者通过便携式终端控制家用电器10。

即使用户希望控制家用电器10或检查家中的某些信息，用户也可能不方便一直使用便携式终端。

例如，当用户不知道便携式终端的当前位置时或者当便携式终端在另一个地方时，具有以其他方式控制家用电器10的装置可能更有效。

机器人100可以接收用户的语音输入(或者音频输入)，从而直接控制家用电器10或者经由服务器70控制家用电器10。

因此，用户可以在不操作除了布置在房间、起居室等中的机器人100之外的任何其他装置的情况下控制家用电器10。

机器人系统可以包括多个物联网(IoT)设备。因此，机器人系统可以包括家用电器10、机器人100和物联网(IoT)设备。

机器人系统不限于构成网络的通信方法。

例如，家用电器10、机器人100和物联网(IoT)设备可以通过有线/无线路由器通信地连接。

另外，机器人系统中的设备可以配置成单独通信连接的网状拓扑。

机器人系统中的家用电器10可以经由有线/无线路由器与服务器70或机器人100通信。

此外，机器人系统中的家用电器10可以通过以太网与服务器70或机器人100通信。

机器人系统可以包括诸如网关的网络设备。可替代地，家中设置的机器人100中的至少一个机器人可以被配置为包括网关功能。

包括在机器人系统中的家用电器10可以直接在设备之间或通过网关进行网络连接。

家用电器10可以是网络连接的，以便能够直接或经由网关与服务器70通信。

网关可以通过以太网与服务器70或移动终端50通信。

另外，网关可以经由有线/无线路由器与服务器70或机器人100通信。

家用电器10可以将设备操作状态信息、设置值信息等发送到服务器70和/或网关。

用户可以检查与机器人系统中的家用电器10有关的信息，或者通过便携式终端或机器人100控制家用电器10。

服务器70和/或网关可以响应于通过机器人100输入的用户命令或者在机器人系统中的家用电器10中发生的特定事件而将用于控制家用电器10的信号发送到每个设备。

网关可以包括输出装置，诸如显示器、声音输出单元等。

显示器和声音输出单元(或声音输出装置)可以输出存储在网关中或者基于所接收的信号的图像和音频。例如，可以通过声音输出单元播放和输出存储在网关中的音乐文件。

显示器和声音输出单元可以输出与网关的操作有关的图像和音频信息。

服务器70可以存储和管理从家用电器10、机器人100和其他装置发送的信息。服务器70可以是由家用电器的制造商或制造商委托的公司操作的服务器。

可以将与家用电器10有关的信息发送到机器人100，并且机器人100可以显示与家用电器10有关的信息。

家用电器10可以从机器人100接收信息或接收命令。家用电器10可以将各种信息发送到服务器70，并且服务器70可以将从家用电器10接收的部分或全部信息发送到机器人100。

服务器70可以发送从家用电器10接收的信息本身，或者可以处理所接收的信息并将其发送到机器人100。

图1示出了单个服务器70的实施例，但是实施方式不限于此，并且根据本发明的系统可以与两个或更多个服务器相关联地操作。

例如，服务器70可以包括用于语音识别和处理的第一服务器，并且可以提供诸如家用电器控制的与家用电器相关的服务的第二服务器。

根据一个实施方式，第一服务器和第二服务器可以通过将信息和功能分发到多个服务器来配置，或者可以由单个集成服务器构成。

例如，用于语音识别和处理的第一服务器可以包括用于识别包括在语音信号中的单词的语音识别服务器以及用于识别包括语音信号中包括的单词的句子的含义的自然语言处理服务器。

可替代地，服务器70可以包括用于情绪识别和处理的服务器以及用于提供诸如家用电器控制的与家用电器相关的服务的服务器。用于情绪识别和处理的服务器可以通过将信息和功能分发到多个服务器来配置，或者可以由单个集成服务器构成。

图2是示出根据本发明的一个实施方式的机器人的外形的正视图。图3是根据本发明的一个实施方式的机器人的内部框图的示例。

参照图2和图3，机器人100包括主体，该主体形成外形并在其中容纳各种部件。

所述主体包括：本体101，其形成其中容纳构成机器人100的各种部件的空间；以及支撑件102，其设置在本体101的下侧并支撑本体101。

另外，机器人100可以包括设置在主体的上侧的头部110。用于显示图像的显示器182可以设置在头部110的前表面上。

在本公开中，正面方向表示+y轴方向，上下方向表示z轴方向，并且左右方向表示x轴方向。

头部110可以在特定角度范围内绕x轴旋转。

因此，当从正面观察时，头部110可以像人在上下方向上点头那样以类似的方式执行在上下方向上运动的点头操作。例如，头部110可以像人在上下方向上点头一样以类似的方式在一定范围内旋转之后执行一次或多次原始位置返回操作。

可以将在头部110中配置有对应于人的面部的显示器182的前表面的至少一部分构造成点头。

因此，在本公开中，一实施方式可以允许整个头部110在上下方向上运动。然而，除非特别描述，否则头部110的竖直点头操作可以用配置有显示器182的前表面的至少一部分在上下方向上的点头操作来代替。

本体101可以配置为可在左右方向上旋转。也就是说，本体101可以被配置为绕z轴旋转360度。

本体101还可以被配置为可在特定角度范围内绕x轴旋转，使得它可以像在上下方向上点头一样运动。在该实施例中，当本体101在上下方向上旋转时，头部110也可以绕本体101旋转所绕的轴旋转。

因此，头部110在上下方向上点头的操作可以包括当基于特定轴从前方观察时头部110自身在上下方向上旋转的实施例以及当本体101在上下方向上点头时连接到本体101的头部110旋转并与本体101一起点头的实施例。

机器人100可以包括电源单元(电源装置)，该电源单元连接到家庭中的插座并且向机器人100供电。

机器人100可以包括设置有可充电电池的电源单元，以向机器人100供电。根据一个实施方式，电源单元可以包括无线电源接收单元，用于对电池进行无线充电。

机器人100可以包括图像获取单元120(或者图像获取装置)，该图像获取单元120可以拍摄主体周围的特定范围，或者至少拍摄主体的前表面。

图像获取单元120可以拍摄主体的周围环境、外部环境等，并且可以包括摄像机模块。摄像机模块可包括数码摄像机。数码摄像机可包括：图像传感器(例如，CMOS图像传感器)，其被配置为包括至少一个光学透镜和通过穿过光学透镜的光形成图像的多个光电二极管(例如，像素)；以及数字信号处理器(DSP)，其基于从光电二极管输出的信号形成图像。数字信号处理器能够生成由静止图像和静止图像组成的运动图像。

为了拍摄效率，可以为机器人的每个部分安装多个摄像机。图像获取单元120可以包括设置在头部110的前表面中以获取主体的前部的图像的前置摄像机。然而，图像获取单元120中设置的摄像机的数量、布置、类型和拍摄范围可以不必限于此。

图像获取单元120可以拍摄机器人100的正面方向，并且可以拍摄图像以供用户识别。

由图像获取单元120拍摄和获取的图像可以存储在存储单元130(或存储器)中。

机器人100可以包括用于接收用户的语音输入的语音输入单元125。语音输入单元还可以称为声音输入单元或语音/声音输入装置。

语音输入单元125可以包括用于将模拟语音转换为数字数据的处理器，或者可以连接到处理器以将用户输入的语音信号转换为要由服务器70或控制器140识别的数据(图3)。

语音输入单元125可以包括多个麦克风以增强用户语音输入的接收准确度，并确定用户的位置。

例如，语音输入单元125可以包括至少两个麦克风。

多个麦克风(MIC)可以设置在不同的位置，并且可以获取包括语音信号的外部音频信号，以将音频信号处理为电信号。

可以使用作为输入设备的至少两个麦克风来估计产生声音的声源和用户的方向，并且随着麦克风之间的距离在物理上更加分离，方向检测的分辨率(角度)变得更高。

根据该实施方式，两个麦克风可以设置在头部110中。

可以通过在头部110的后表面中进一步包括两个麦克风来确定用户在三维空间上的位置。

参照图3，机器人100可以包括用于控制整体操作的控制器140、用于存储各种数据的存储单元130(或存储器)以及用于与诸如服务器70的其他装置发送和接收数据的通信单元190(或通信装置)。

机器人100可包括使本体101和头部110旋转的驱动单元160(或驱动装置)。驱动单元160可包括用于使本体101和头部110旋转和/或运动的多个驱动马达。

控制器140通过控制构成机器人100的图像获取单元120、驱动单元160、显示器182等来控制机器人100的整体操作。

存储单元130可以记录控制机器人100所需的各种类型的信息，并且可以包括易失性或非易失性记录介质。记录介质存储可由微处理器读取的数据，并且可包括硬盘驱动器(HDD)、固态盘(SSD)、硅盘驱动器(SDD)、ROM、RAM、CD-ROM、磁带、软盘、光学数据存储设备等。

控制器140可以通过通信单元190将机器人100的操作状态、用户输入等发送到服务器70等。

通信单元190可以包括至少一个通信模块，使得机器人100连接到因特网或特定网络。

通信单元190可以连接到家用电器10中设置的通信模块，并处理机器人100和家用电器10之间的数据发送/接收。

存储单元130可以存储用于语音识别的数据，并且控制器140可以处理用户的通过语音输入单元125接收的语音输入信号，并执行语音识别处理。

由于各种已知的语音识别算法可以用于语音识别过程，因此在本公开中会省略对语音识别过程的详细描述。

控制器140可以基于语音识别结果来控制机器人100执行特定操作。

例如，当包括在语音信号中的命令是用于控制某个家用电器的操作的命令时，控制器140可以基于包括在语音信号中的命令进行控制而将控制信号发送到控制目标家用电器。

当包括在语音信号中的命令是用于控制某个家用电器的操作的命令时，控制器140可以控制机器人的本体101在朝向控制目标家用电器的方向上旋转。

语音识别处理可以在服务器70中执行而不在机器人100中执行。

控制器140可以控制通信单元190，使得用户输入语音信号被发送到服务器70。

可替代地，可以由机器人100执行语音识别，并且可以由服务器70执行诸如自然语言处理的高级语音识别。

例如，当接收到包括预设关键字的关键字语音输入时，机器人可以从待机状态切换到操作状态。在该实施例中，机器人100可以仅执行直到关键字语音的输入的语音识别处理，并且可以通过服务器70执行后续用户语音输入的语音识别。

根据一个实施方式，控制器140可以将通过图像获取单元120获取的用户图像与存储在存储单元130中的信息进行比较，以确定用户是否是注册用户。

控制器140可以进行控制以仅对注册用户的语音输入执行特定操作。

控制器140可以基于通过图像获取单元120获取的用户图像信息来控制本体101和/或头部111的旋转。

因此，可以容易地执行用户和机器人100之间的交互和通信。

机器人100可以包括输出单元180(或输出装置)，以将某些信息显示为图像或作为声音输出某些信息。

输出单元180可以包括显示器182，用于作为图像显示对应于用户的命令输入的信息、对应于用户的命令输入的处理结果、操作模式、操作状态、错误状态等。

如上所述，显示器182可以设置在头部110的前表面处。

显示器182可以是具有带触摸板的相互层结构的触摸屏。显示器182可以用作用于通过用户的触摸输入信息的输入设备以及输出设备。

输出单元180可以包括用于输出音频信号的声音输出单元181(或声音输出装置)。声音输出单元181可以作为声音输出诸如警告声音、操作模式、操作状态和错误状态等的通知消息；对应于用户输入的命令的信息；对应于用户输入的命令的处理结果等。声音输出单元181可以将来自控制器140的电信号转换为音频信号并将该信号输出。为此目的，可以提供扬声器等。

参照图2，声音输出单元181可以设置在头部110的左侧和右侧，并且可以作为声音输出某些信息。

图2中所示的机器人的外形和结构是解释性的，并且实施方式不限于此。例如，语音输入单元125、图像获取单元120和声音输出单元181的位置和数量可以根据设计规范而变化。此外，每个部件的旋转方向和角度也可以变化。例如，与图2中所示的机器人100的旋转方向不同，整个机器人100可以在特定方向上倾斜或摇动。

机器人100可以通过有线或无线互联网功能的支持来访问因特网和计算机。

机器人100可以执行语音和视频通话功能，并且这种呼叫功能可以根据因特网协议语音(VoIP)通过使用因特网网络、移动通信网络等来执行。

控制器140可以控制显示器182以根据用户的设置来在视频通话中显示视频通话对方的图像和用户的图像，并控制声音输出单元181以基于视频通话对方的所接收到的语音信号来输出语音(或音频)。

根据一个示例性实施方式的机器人系统可以包括执行视频通话的两个或更多个机器人。

图4是根据本发明的实施方式的服务器的内部框图的示例。

参照图4，服务器70可以包括通信单元72(或通信装置)、存储单元73(或存储装置)、识别器74和处理器71。

处理器71可以控制服务器70的整体操作。

服务器70可以是由诸如机器人100的家用电器的制造商操作的服务器或由服务提供商操作的服务器，或者可以是一种云服务器。

通信单元72可以从便携式终端、诸如机器人100的家用电器、网关等接收诸如状态信息、操作信息、处理信息等的各种数据。

通信单元72可以将对应于所接收到的各种信息的数据发送到便携式设备、诸如机器人100的家用电器、网关等。

通信单元72可以包括一个或多个通信模块，诸如因特网模块、移动通信模块等。

存储单元73可以存储所接收的信息，并且可以具有用于生成相应的结果信息的数据。

存储单元73可以存储用于机器学习的数据、结果数据等。

识别器74可以用作诸如机器人100的家用电器的学习设备。

识别器74可以包括人工神经网络，例如，诸如卷积神经网络(CNN)、递归神经网络(RNN)、深度信任网络(DBN)等的深度神经网络(DNN)，并且可以学习深度神经网络(DNN)。

在根据设置学习之后，处理器71可以将诸如机器人100的家用电器的人工神经网络结构进行控制以更新未经学习的人工神经网络结构。

识别器74可以接收用于识别的输入数据，识别包含在输入数据中的对象、空间和情绪的属性，并输出结果。通信单元72可以将识别结果发送到机器人100。

识别器74可以分析并学习机器人100的使用相关数据，识别使用模式、使用环境等，并输出结果。通信单元72可以将识别结果发送到机器人100。

因此，诸如机器人100的家用电器产品可以从服务器70接收识别结果，并且通过使用所接收的识别结果来进行操作。

服务器70可以接收用户发出的语音输入信号并执行语音识别。服务器70可以包括语音识别器，并且可以包括被学习以对语音识别器输入数据执行语音识别并输出语音识别结果的人工神经网络。

服务器70可以包括用于语音识别的语音识别服务器。语音识别服务器可以包括在语音识别期间共享和执行特定处理的多个服务器。例如，语音识别服务器可以包括用于接收语音数据并将所接收的语音数据转换为文本数据的自动语音识别(ASR)服务器，以及用于从自动语音识别服务器接收文本数据并分析所接收的文本数据以确定语音命令的自然语言处理(NLP)服务器。语音识别服务器还可以包括文本到语音(TTS)服务器，用于将由自然语言处理服务器输出的文本语音识别结果转换为语音数据，并将语音数据发送到另一服务器或家用电器。

服务器70可以对输入数据执行情绪识别。服务器70可以包括情绪识别器，并且情绪识别器可以包括被学习以通过对输入数据执行情绪识别来输出情绪识别结果的人工神经网络。

服务器70可以包括用于情绪识别的情绪识别服务器。也就是说，服务器70中的至少一个服务器可以是具有用于执行情绪识别的情绪识别器的情绪识别服务器。

图5是根据本发明的实施方式的情绪识别器的内部框图的示例。

参照图5，设置在机器人100或服务器70中的情绪识别器74a可以通过使用情绪数据作为输入数据590(或者学习数据)来执行深度学习。

情绪识别器74a可以包括：单模态预处理器520，其包括用于每个模态521、522和523的多个识别器(或者识别处理器)，这些模态521、522和523被学习以识别包括在单模态输入数据中的用户情绪信息；以及多模态识别器510，其被学习以合并每个模态521、522和523的多个识别器的输出数据并识别包括在合并数据中的用户情绪信息。

情绪数据是具有关于用户情绪的信息的情绪信息数据，并且可以包括可以用于情绪识别的情绪信息，诸如图像、语音和生物信号数据。输入数据590可以是包括用户的面部的图像数据，并且更优选地，学习数据590可以包括具有用户的语音的音频数据。

情绪是感受刺激的能力，并且是接受感官刺激或印象的心灵的本质。在情绪工程中，情绪被定义为一种复杂的情绪，例如愉悦和不适，作为人体内由于环境的变化或来自外部的物理刺激而形成的高水平的心理体验。

情绪可以表示关于刺激而发生的快乐、不适等感觉，并且情绪可以被识别为N个代表性情绪状态中的任何一个。这N个代表性情绪状态可以被命名为情绪类别。

例如，情绪识别器74a可以识别六个代表性情绪类别，例如惊讶、快乐、悲伤、不快、愤怒和恐惧，并且可以作为情绪识别的结果而输出这些代表性情绪类别中的一个代表性情绪类别，或者可以输出六个代表性情绪类别中的每一个的概率值。

可替代地，情绪识别器74a可以包括指示默认情绪状态的中立情绪类别，在这种默认情绪状态中，作为可以由情绪识别器74a识别和输出的情绪，除了诸如惊讶、快乐、悲伤、不快、愤怒和恐惧之类的情绪类别之外不发生六种情绪。

绪识别器74a可以输出从惊讶、快乐、悲伤、不快、愤怒、恐惧和中立中选择的任何一种情绪类别作为情绪识别结果，或者可以作为情绪识别结果输出每种情绪类别的概率值，例如惊讶x％、快乐x％、悲伤x％、不快x％、愤怒x％、恐惧x％和中立x％。

当用户情绪被学习要识别的情绪的深度学习的人工智能模型识别时，结果被输出，作为用于学习深度学习的数据的标记值。

在真实环境中，可能存在许多用户情绪不能最终作为单个情绪输出的示例。例如，尽管用户可以用语言表达喜悦情绪，但是可以在面部表情中表达不快的情绪。人们可能经常为每个模态输出不同的情绪，例如语音、图像、文本等。

因此，当用户情绪作为最终单个情绪值被识别并输出时，或者当每个语音、图像和文本的不同情绪、矛盾情绪、类似情绪等被忽略时，可以识别出不同于用户实际感受到的感觉的情绪。

为了基于暴露给用户外部的所有信息来识别和管理每种情绪，情绪识别器74a可以识别针对语音、图像和文本的每个单模态的情绪，并且可以具有即使在多模态中也能识别情绪的结构。

情绪识别器74a可以针对每个单模态识别在特定时间点输入的用户情绪，并且可以同时将情绪复杂地识别为多模态。

每个模态521、522和523的多个识别器(或者识别处理器)可以识别和处理分别输入的单一类型单模态输入数据，并且也可以称为单模态识别器。

情绪识别器74a可以通过分离每个单模态的输入数据590来产生多个单模态输入数据。模态分离器530可以将输入数据590分离为多个单模态输入数据。

多个单模态输入数据可以包括图像单模态输入数据、语音单模态输入数据和与包括用户的运动图像数据分离的文本单模态输入数据。

例如，输入数据590可以是由用户拍摄的运动图像数据，并且运动图像数据可以包括拍摄用户的面部等的图像数据和包括用户发出的语音的音频数据。

模态分离器530可以将包括在输入数据590中的音频数据的内容分离为通过将音频数据转换为文本数据以及音频数据的声音单模态输入数据例如语音音调、幅度、高度等而获得的文本单模态输入数据531。

文本单模态输入数据可以是通过将从运动图像数据分离的语音转换为文本而获取的数据。声音单模态输入数据532可以是音频数据本身的声源文件，或者已经完成预处理的文件，例如从声源文件中去除噪声。

模态分离器530可以将包括一个或多个面部图像数据的图像单模态输入数据533从包含在输入数据590中的图像数据分离。

分离的单模态输入数据531、532和533可以被输入到单模态预处理器520，该单模态预处理器520包括用于每个模态521、522和523的多个模态识别器，这些模态521、522和523被学习以基于每个单模态输入数据531、532和533来识别用户情绪信息。

例如，文本单模态输入数据531可以输入到文本情绪识别器521(或者文本情绪识别处理器)，文本情绪识别器521通过使用文本作为学习数据来执行深度学习。

声音单模态输入数据532可以在用作语音学习数据的同时输入到执行深度学习的语音情绪识别器522(或者语音情绪识别处理器)。

包括一个或多个面部图像数据的图像单模态输入数据533可以在被用作图像学习数据的同时输入到执行深度学习的面部情绪识别器523(或者面部情绪识别处理器)。

文本情绪识别器521可以通过识别包含在转换为文本的声音到文本(STT)数据中的词汇、句子结构等来识别用户情绪。例如，当使用了与快乐相关的更多单词或者识别出表达强烈快乐程度的单词时，可以识别出快乐情绪类别的概率值高于其他情绪类别的概率值。可替代地，作为情绪识别结果，文本情绪识别器521可以直接输出快乐，该快乐是对应于所识别的文本的情绪类别。

文本情绪识别器521还可以连同情绪识别结果一起输出文本特征点向量。

语音情绪识别器522可以提取输入语音数据的特征点。语音特征点可以包括语音的音调、音量、波形等。语音情绪识别器522可以通过检测语音的音调等来确定用户情绪。

语音情绪识别器522还可以输出情绪识别结果和所检测到的语音特征点向量。

面部情绪识别器523可以通过检测输入图像数据中用户的面部区域并识别作为构成面部表情的特征点的面部表情界标点信息来识别用户的面部表情。面部情绪识别器523可以输出对应于所识别的面部表情的情绪类别或每个情绪类别的概率值，并且还输出面部特征点(面部表情界标点)矢量。

图6是用于解释根据本发明的实施方式的情绪识别的图，并且示出了面部表情的组成部分。

参照图6，面部表情界标点可以是眉毛61、眼睛62、脸颊63、前额64、鼻子65、嘴66、颌67等。

图6中的界标点(61至67)是示例性的，并且可以改变类型和数量。

例如，当为每个用户创建特定表情时，如果可以仅使用具有强烈特征的少量面部表情界标点，例如眉毛61、眼睛62和嘴66，或者可以使用具有大改变程度的面部表情界标点。

面部情绪识别器523(或者面部情绪识别处理器)可以基于面部表情界标点(61至67)的位置和形状来识别面部表情。

面部情绪识别器523可以包括已经利用包含面部表情界标点(61至67)的至少一部分的图像数据来实现深度学习的人工神经网络，从而识别用户的面部表情。

例如，当用户睁开眼睛62并大大地张开嘴66时，面部情绪识别器523可以将用户情绪确定为情绪类别中的快乐，或者可以输出具有最高快乐概率的情绪识别结果。

每个模态的多个识别器(或者多个识别处理器)可以包括对应于分别输入的单模态输入数据的输入特征的人工神经网络。多模态情绪识别器511还可以包括对应于输入数据的特征的人工神经网络。

例如，用于执行基于图像的学习和识别的面部情绪识别器523可以包括卷积神经网络(CNN)，其他情绪识别器521和522包括深度网络神经网络(DNN)，并且多模态情绪识别器511可以包括递归神经网络(RNN)的人工神经网络。

每个模态521、522和523的情绪识别器可以识别分别输入的单模态输入数据531、532和533中包括的情绪信息，并输出情绪识别结果。例如，每个模态521、522和523的情绪识别器可以输出特定数量的预设情绪类别中具有最高概率的情绪类别作为情绪识别结果，或者输出情绪类别的概率作为情绪识别结果。

每个模态521、522和523的情绪识别器可以学习和识别每个深度学习结构中的文本、语音和图像，并导出由每个单模态的特征点向量组成的中间向量值。

多模态识别器510可以利用每个语音、图像和文本的中间矢量值来执行多模态深度学习。

如上所述，由于多模态识别器510的输入是基于每个模态521、522和523的情绪识别器的输出而生成的，因此每个模态521、522和523的情绪识别器可以作为一种预处理器操作。

情绪识别器74a可以使用总共四个深度学习模型，包括针对每个模态521、522、523的三个情绪识别器的深度学习模型以及一个多模态识别器510的深度学习模型。

多模态识别器510可以包括：合并器512(或者隐藏状态合并器)，其用于组合从每个模态521、522和523的多个识别器输出的特征点矢量；以及多模态情绪识别器511，其被学习以识别包括在合并器512的输出数据中的用户情绪信息。

合并器512可以同步每个模态521、522和523的多个识别器的输出数据，并且可以组合(矢量级联)特征点矢量以输出到多模态情绪识别器511。

多模态情绪识别器511可以从输入数据识别用户情绪信息并输出情绪识别结果。

例如，多模态情绪识别器511可以输出特定数量的预设情绪类别中具有最高概率的情绪类别作为情绪识别结果，并且/或者可以输出每个情绪类别的概率值作为情绪识别结果。

因此，情绪识别器74a可以输出多个单模态情绪识别结果和一个多模态情绪识别结果。

情绪识别器74a可以输出多个单模态情绪识别结果和一个多模态情绪识别结果作为每个情绪类别的等级(概率)。

例如，情绪识别器74a可以输出惊讶、快乐、中立、悲伤、不快、愤怒和恐惧的情绪类别的概率值，并且可能概率值越高识别的情绪类别的概率越高。七种情绪类别的概率值之和可以为100％。

情绪识别器74a可以输出复合情绪识别结果，该复合情绪识别结果包括针对每个模态的多个识别器的各个情绪识别结果521、522和523以及多模态识别器511的情绪识别结果。

因此，机器人100可以基于三个单模态和一个多模态的情绪识别结果来提供情绪交换用户体验(UX)。

根据该设置，情绪识别器74a可以输出占据大部分复杂情绪识别结果的识别结果和具有最高概率值的识别结果作为最终识别结果。可替代地，机器人100的接收多个情绪识别结果的控制器140可以根据特定标准确定最终识别结果。

作为一个水平，情绪识别器74a可以识别和管理每个语音(语音音调等)、图像(面部表情等)和文本(谈话内容等)的情绪。因此，可以针对每个模态不同地处理情绪交换用户体验(UX)。

可以基于单个时间点同时输出每个单模态(语音、图像，文本)的情绪识别结果和多模态情绪识别结果。利用从单个时间点输入的语音、图像和文本，可以复杂地识别情绪，从而可以从多模态情绪中识别出针对每个单模态的矛盾情绪，以确定用户情绪倾向。因此，即使从某个模态接收到负输入，也可以通过识别整体情绪来提供对应于用户的真实情绪状态的正输入的情绪交换用户体验(UX)。

机器人100可以配备有情绪识别器74a或者与具有情绪识别器74a的服务器70通信，以便确定仅用户的单模态情绪。

可以分析仅用户的情绪模式，并且可以将每个模态的情绪识别用于情绪护理(治疗)。

在对于输入数据的每个模态具有不同识别结果的矛盾情绪的实施例中，情绪方法可能难以通过将多个情绪映射到单个情绪来分析情绪。

然而，根据本发明的示例性实施方式，可以通过多个输入和输出处理各种现实情况。

为了补充具有低性能的输入识别器，本发明可以构成这样一种识别器结构，在这种识别器结构中，多个识别器511、521、522和523通过多个输入和输出以融合方式彼此互补。

情绪识别器74a可以将语音分离为声音和含义，并且从图像和语音输入中产生包括图像、语音(声音)和STT在内的总共三个输入。

为了实现三个输入中的每一个的最佳性能，情绪识别器74a可以针对每个输入具有不同的人工神经网络模型，例如卷积神经网络(CNN)和长短期存储器(LSTM)。例如，基于图像的识别器523可以具有CNN结构，并且多模态情绪识别器511可以具有长短期记忆(LSTM)结构。因此，可以配置为每个输入特性定制的神经网络。

针对每个输入的单模态识别器521、522、523的输出可以是七个情绪类别的概率值和很好地表达情绪的特征点的矢量值。

多模态识别器510可以不是简单地通过统计方法来计算三个输入的情绪值，而是可以通过整个关节层和LSTM很好地组合表达情绪的特征点的矢量值，以帮助改善性能并覆盖现实生活中的各种情况，使得一个识别器帮助另一个识别器所具有的难题。

例如，即使当仅从难以识别面部的地方听到语音时，在情绪识别器74a中，基于语音的识别器521、522和多模态情绪识别器511也可以识别用户情绪。

由于情绪识别器74a可以通过将图像、语音和角色数据的识别结果与多模态识别结果合并来识别用户的复杂情绪状态，因此可以针对现实生活中的各种情况实现情绪识别。

图7至图10C是用于解释根据本发明的实施方式的角色的表达的图。

根据本发明的示例性实施方式的机器人100可以基于由其自身识别的情绪识别结果或从另一设备接收的情绪识别结果来生成表达特定用户情绪的化身角色。

根据该实施方式，机器人100可以通过作为增强现实将对应于关于用户的面部图像数据的所识别的情绪信息而生成的面部表情界标点图像合成来生成化身角色。例如，皱眉眼、眉毛和前额可以在他们自己的位置用增强现实覆盖用户面部图像的眼睛、眉毛和前额。因此，可以生成表达用户的不快情绪的化身角色。

可替代地，机器人100可以首先基于用户面部信息生成动画角色。还可以通过反映用户的所检测到的面部表情界标点来生成这样的动画角色。例如，在用户具有大鼻子的实施例中，可以创建具有大鼻子的动画角色。另外，机器人100可以改变所生成的动画角色的面部表情界标点以对应于所识别的情绪信息，从而生成表达用户的特定情绪的化身角色。

可替代地，机器人100可以通过改变预设动画角色的面部表情界标点以对应于所识别的情绪信息来生成化身角色。由于仅通过反映用于仅识别先前生成的动画角色中的面部表情界标点的用户特征就可以实现修改，因此可以快速且容易地生成化身角色。

例如，可以通过选择存储在(机器人100的)存储单元130中的基本动画角色中的至少一个来生成化身角色，或者可以通过通信单元190接收化身角色，并反映所选择的角色中用户的所检测到的面部表情界标点。

通过改变所生成的动画角色的面部表情界标点以对应于所识别的情绪信息，可以生成表达用户的特定情绪的化身角色。

图7至图10C示出了使用预设动画角色和少量面部表情界标点来表达七种类型的情绪类别的示例。

参照图7，可以存储对应于快乐、惊讶、不快、愤怒、恐惧、难过(或悲伤)和中立的情绪类别的默认表情。

如果用户的所识别的情绪水平较大，则可以在默认表情中大大改变特定情绪的表情程度。例如，如果快乐水平很高，则可以更广泛地改变作为快乐情绪类别的表情中包括的界标点的嘴的张开程度。

化身角色可以仅由特定的界标点组成，并且/或者可以突出显示特定的界标点，就像绘制漫画一样。

图8至图10C为了易于讨论示出了仅由眉毛、眼睛和嘴组成的化身角色。

参照图8，当用户情绪被识别为中立(或中性)时，化身角色可以被生成为微笑中立表情810。中立表情810可以被设置为当机器人100没有识别出特定的情绪执行时使用的默认表情。

当用户情绪被识别为惊讶时，化身角色可以生成为示出抬起眉毛和张开嘴的惊讶表情820。

当用户情绪被识别为不快时，化身角色可以生成为示出搭落下他的嘴角和皱眉的不快表情830。

即使它被识别为相同的情绪类别，也可以不同地生成化身角色。例如，可以根据用户的所检测到的界标指针的大小、位置以及用户情绪表达类型来不同地生成化身角色。可以根据所检测到的情绪的水平来不同地生成化身角色。

图9示出了表达愤怒情绪类别的化身角色的面部表情。参照图9的(a)和(b)，第一愤怒表情910和第二愤怒表情920可以不同地表达眼睛和嘴的形状。

图10示出了表达快乐情绪类别的化身角色的面部表情。参照图10的(a)、(b)和(c)，第一快乐表情1010、第二快乐表情1020和第三快乐表情1030可以不同地表达眼睛和嘴的形状。

如参照图7至图10所述，机器人100可以通过将所识别的用户情绪信息映射到用户面部信息来生成化身角色。

根据示例性实施方式，化身角色遵循从识别出用户情绪的时间点到表达出情绪的时间点的面部特征点(界标)。

通过以有趣的方式利用角色在情绪表达过程中绘制面部特征来创建化身角色，可以向用户提供有趣的因素并可以满足用户表达他/她的个性的愿望。

用户情绪(面部表情)可以作为任意内容生成并在以后使用。

图11是示出根据本发明的示例性实施方式的机器人的操作方法的流程图。还可以提供其他实施方式和操作。

参照图11，机器人100可以获取与用户有关的数据(S1110)。

与用户有关的数据可以是拍摄用户的运动图像数据或拍摄用户的实时运动图像数据。机器人100可以使用所存储的数据和实时输入的数据。

与用户有关的数据可以包括图像数据(包括用户的面部)和(用户发出的)语音数据。可以通过图像获取单元120的摄像机获取包括用户的面部的图像数据，并且可以通过语音输入单元125的麦克风获取用户发出的语音数据。

情绪识别器74a可以基于与用户有关的数据来识别用户情绪信息(S1120)。

情绪信息可以是上述多个情绪类别中的任何一个，或者可以是基于多个情绪类别中的每一个的概率值。也就是说，根据情绪信息的识别的情绪识别结果可以是从情绪类别中选择的情绪类别，并且/或者可以包括每个情绪类别的概率值。

机器人100可以包括情绪识别器74a，该情绪识别器74a包括被学习以基于图像数据和语音数据来识别情绪信息的人工神经网络，并且当与用户有关的数据被输入时，识别用户情绪信息。

此外，如参照图5所述，情绪识别器74a可以被学习以通过基于多个单模态输入的多个单模态输入和多模态输入来识别情绪信息，从而输出多个单模态中的每一个的情绪识别结果以及包括多模态输入的情绪识别结果的复杂的情绪识别结果。

服务器70可以包括情绪识别器74a，该情绪识别器74a包括学习的人工神经网络，该人工神经网络被输入以基于图像数据和语音数据来识别情绪信息。服务器70可以是包括情绪识别器74a以执行情绪识别的情绪识别服务器。

如参照图5所述，包括情绪识别器74a的服务器70可以包括通过单模态输入学习的多个人工神经网络，并且可以包括基于多个单模态输入通过多模态输入学习的人工神经网络。

在实施例中，识别用户情绪信息的操作S1120可以包括由机器人100将与用户有关的数据发送到情绪识别服务器70，以及在机器人100处接收来自情绪识别服务器70的情绪识别结果。

机器人100可以通过将所识别的用户情绪信息映射到与用户有关的数据中包括的用户面部信息来生成化身角色(S1130)。

化身角色可以通过反映从用户面部信息中提取的特征中的至少一个特征的角色来表达用户的个性。例如，可以通过反映从用户面部信息中提取的面部表情界标点中的至少一个来生成化身角色。如果特定用户的面部表情界标点是眼睛，则可以通过将眼睛保持为特征点来表达各种情绪。可替代地，如果将眼睛和嘴视为界标点，则可以将眼睛和嘴映射到多个样本角色，或者仅表征眼睛和嘴形状，如漫画。

机器人100可以将所生成的化身角色与用户的信息相关联地存储(S1140)，并且可以自由地使用所存储的化身角色(S1150)。

例如，可以在显示器182上显示用户的存储的化身角色中的至少一个。

根据用户命令或设置，生成的化身角色可以用作显示在机器人100的显示器182上的默认屏幕。

例如，图8的中立表情的化身角色810可以用作机器人100的默认屏幕。也就是说，所生成的化身角色中的至少一个可以用作机器人100的面部表情。相应地，用户对使用机器人的抗拒感可以降低，并且可以帮助用户感觉更友好。

用户的存储的化身角色中的至少一个可以在特定用户使用机器人100向其他人请求、命令和/或传送信息的特定情况下使用。

根据一个实施方式，当将特定数据发送到另一设备时，机器人100可以将化身角色或所识别的情绪信息与特定数据一起发送。

机器人100可以将化身角色与某些数据一起发送以直观地显示用户他或她自己，并且使用另一设备将当前特定情绪发送给另一用户。

由于化身角色的发送没有考虑图像质量的劣化和接收侧装置的硬件性能，因此机器人100可以将所识别的情绪信息与特定数据一起发送。接收侧机器人100可以通过根据硬件特性来反映所接收的情绪信息而生成并显示化身角色。因此，可以模仿用户情绪、面部表情、行为等，而不会影响或受到接收侧机器人100的身体特征的影响。

根据本发明的一个示例性实施方式，机器人100可以获取用户的图像数据和语音数据一定时间。因此，情绪识别器74a可以基于用户的图像数据和语音数据来识别用户情绪信息一定时间。

例如，情绪识别器74a可以连续地对输入数据执行特定时间的情绪识别，而不是一次执行情绪识别并结束情绪识别。

(机器人100的)控制器140可以将用户情绪信息映射到用户的图像数据，同步用户的语音数据，并生成化身角色的运动图像。

可替代地，情绪识别器74a可以在特定时间段内从输入数据执行特定周期中的多个情绪识别，并且同时或顺序地输出多个情绪识别结果。

(机器人100的)控制器140可以与所识别出的用户情绪信息相对应地调整化身角色的面部表情界标点的改变程度。

根据该设置，控制器140可以通过更大程度地调整化身角色的面部表情界标点的改变程度来增强情绪表达，并且/或者可以通过将化身角色的面部表情界标点的改变程度调整成更小来减轻情绪表达。

根据本发明的一个示例性实施方式，可以改变情绪表达以执行视频通话。

例如，在视频通话期间，可以直接表达呼叫者和接收者的情绪。不喜欢直接表达情绪的视频通话的参与者可以使用减轻情绪表达的化身角色。

在视频通话期间准确识别或强调视频通话对方的情绪的用户可以使用增强情绪表达的化身角色。因此，可以直观地识别会话内容中的情绪并且可以引起积极的交互。

可以在视频通话期间实时识别对方的情绪，从而可以设置(诸如辱骂)暴力语音以进行改进和改变。

机器人100可以基于由其自身识别的情绪识别结果并且/或者从服务器70接收的情绪识别结果来生成表达特定用户情绪的化身角色。

根据该实施方式，机器人100可以通过利用增强现实来合成与关于用户的面部图像数据的所识别的情绪信息相对应地生成的面部表情界标点图像来生成化身角色。

可替代地，机器人100可以首先基于用户面部信息来生成动画角色。还可以通过反映所检测到的用户的界标点来生成这样的动画角色。机器人100可以改变所生成的动画角色的面部表情界标点以对应于所识别的情绪信息，从而生成表达用户的特定情绪的化身角色。

可替代地，机器人100可以通过改变预设动画角色的面部表情界标点以对应于所识别的情绪信息来生成化身角色。

例如，可以通过选择存储在(机器人100的)存储单元130中或者可以通过通信单元190接收的基本动画角色中的一个，并且将所检测到的用户的面部表情界标点反映到所选择的角色中来生成。

机器人100可以检测用户的运动，响应于用户的运动确定响应动作，然后执行响应动作。

例如，控制器140可以从通过图像获取单元120获取的图像中检测用户的头部等的旋转操作。在这种情况下，响应于用户头部的旋转，控制器140可以控制机器人100以使头部沿相同方向旋转。

当检测到用户的手臂提升操作时，控制器140可以响应于手臂提升操作来确定响应动作。在具有臂的人体型机器人的实施例中，控制器140可以控制机器人响应于用户的运动而抬起其臂。在机器人100没有手臂的实施例中，机器人可以响应于用户的运动而执行诸如摇动头部或身体的替换操作。

控制器140可以考虑到机器人100的硬件来确定与用户的运动相对应的响应动作，并且进行控制以执行所确定的响应动作。

机器人100可以检测用户的运动，通过将用户情绪信息映射到用户的运动来确定响应动作，然后执行响应动作。例如，可以根据用户情绪来更多地反映或更少地反映运动。

图12是示出根据本发明的一个示例性实施方式的机器人的操作方法的流程图，并且示出视频通话中的情绪交换用户体验(UX)。图13是用于解释根据本发明的一个示例性实施方式的机器人的情绪表达的图。还可以提供其他实施方式、操作和配置。

设置在机器人100或服务器70中的情绪识别器74a可以识别用户和/或视频通话对方的情绪(S1210)。

例如，可以将情绪识别结果调平并输出为数值，例如七种代表性情绪类别(包括惊讶、快乐、难过(或悲伤)、不快、愤怒、恐惧和中立在内)的概率值。可以将情绪识别结果调平并输出为与概率值相对应而不是精确概率值分类的强/中/弱类别。

机器人100可以提取用户的特征点，并将所识别的情绪识别结果映射到特征点(S1220)。用户的特征点可以是用户的面部的界标点，并且特征点可以已经是学习过程中的数据库(DB)(S1225)。可以将新识别的用户特征点添加到数据库中并用作学习数据。

机器人100可以组合用户的水平情绪和特征点，并将该组合映射到相应的角色和动作(S1230)。

例如，机器人100可以生成表达特定情绪的化身角色的至少一部分面部，并且/或者通过组合用户的水平情绪和特征点来确定响应动作。

机器人100可以基于所生成的化身角色和所确定的响应动作来表达视频通话参与者的情绪(S1240)。这可以称为机器表达。

机器人100可以以叠加的方式显示在视频通话参与者的面部上生成的化身角色的界标点，或者显示整个生成的化身角色(S1240)。

机器人100可以执行所确定的响应动作(S1240)。

图13示出了机器人100通过作为其中一个面部表情界标点中的眉毛形状1310和摇动身体(或机器人)的动作1320来表达愉悦情绪。

根据一个实施方式，可以通过机器人执行视频通话，并且可以通过将情绪识别/表达技术与视频通话相结合来提供情绪通话服务。

机器人可以识别视频通话参与者中的至少一个的诸如快乐、悲伤、愤怒、惊讶、恐惧、中立和不快之类的情绪，将所识别的情绪映射到角色，并在通话期间显示该情绪。

根据示例性实施方式，可以在视频通话期间实时执行情绪识别，并且可以将情绪发送到对方，从而帮助人们彼此沟通。

可以通过仅能由机器人执行而不能由便携式终端等执行的运动功能来提供情绪通话服务。可以因在视频通话期间模仿参与者的运动的机器人而期望有趣的因素和锁定效应。

可以提供通过情绪识别来替换用户的特定手势和面部表情的化身。根据用户设置或用于视频通话的设备，可以在没有说话者面部的情况下实现视频通话。

图14至图16是用于解释使用根据本发明的示例性实施方式的机器人的视频通话的图。还可以提供其他实施方式和配置。

图14示出了两个人通过使用第一机器人100a和第二机器人100b来使用视频通话。

如图14所示，可以执行第一机器人100a和第二机器人100b之间的P2P视频通话。另外(与图14不同)，还可以执行机器人100和便携式终端之间的P2P视频通话。

在使用机器人100的视频通话期间，发送者和接收者的面部可以被隐藏以仅通过角色彼此通信，并且可以通过仅跟随发送者和接收者的情绪和特征点来识别角色。

识别特定用户的情绪和特征点的方法可以通过表征运动、语音和面部运动来实现。

图15示出了第二机器人100b的用户使用表达第一机器人100a的用户的情绪的角色执行视频通话的示例，第二机器人100b的用户可以基于从第一机器人100a接收的视频通话数据来识别视频通话对方的情绪，并在观看表达所识别的对方情绪的角色的同时进行视频通话。

图16示出了第一机器人100a和第二机器人100b都通过使用角色执行视频通话的示例。

在视频通话期间，通过识别用户情绪并将映射到识别结果值的各种角色显示成覆盖在说话者的面部上或通过用角色替换说话者的面部，可以容易地确定用户情绪，这样可以很容易地确定对方的情绪，并且可以预期有趣的因素和锁定效应。

在视频通话期间，可以识别用户的手势并且可以将相应的手势映射到机器人的运动，使得用户可以通过机器人的运动直观地识别对方的情绪。

在至少一个实施方式中，对于具有抗拒暴露面部和周围环境的感觉的用户，可以识别用户的面部和周围环境信息，并且可以基于所识别的信息来生成和使用角色和背景图像。因此，由于周围环境的曝光而具有对视频通话的不适感(或抗拒感)的用户也可以使用视频通话。

机器人100可以理解用户的情绪信息(特征点)，并且在改变为化身时再现情绪信息。

机器人100可以存储用户的特定习惯或情绪，并且当在视频通话期间用化身替换它时，机器人100可以用作执行简单呼叫的代理。即使当用户不在时，准确地遵循用户特征的机器人100也可以用作代理。例如，当在没有用户的情况下接收到视频通话时，接收侧机器人100可以通过使用基于主用户的面部和情绪的角色来执行引导用户不在的简单呼叫。

根据示例性实施方式，可以实时地在角色上呈现所识别的情绪信息。

例如，如果特定用户的面部表情界标点是眼睛，则可以通过将眼睛连续设置为特征点来表达各种情绪。可替代地，如果将眼睛和嘴视为界标点，则可以将眼睛和嘴映射到多个样本角色，并且/或者可以仅将眼睛和嘴形状表征为漫画。

图17是示出根据本发明的示例性实施方式的机器人的操作方法的流程图，并且示出了在执行视频通话时识别视频通话对方的情绪的机器人的操作方法。还可以提供其他实施方式和操作。

参照图17，机器人100可以从视频通话对方机器人接收视频和语音数据(S1710)，并且基于从视频通话对方机器人接收的数据识别视频通话对方的情绪信息(S1720)。

情绪信息可以是上述多个情绪类别中的任何一个，或者可以是基于多个情绪类别中的每一个的概率值。也就是说，根据情绪信息的识别的情绪识别结果可以是从情绪类别中选择的情绪类别。例如，所识别的情绪信息可以是快乐、惊讶、不快、愤怒、恐惧、悲伤和中立中的任何一种。

可替代地，根据情绪信息的识别的情绪识别结果可以包括每个情绪类别的概率值。例如，作为情绪识别结果，可以输出每个情绪类别的概率值(例如惊讶x％、快乐x％、悲伤x％、不快x％、愤怒x％、恐惧x％和中立x％)。

(机器人100的)控制器140可以将识别出的视频通话对方的情绪信息映射到从视频通话对方机器人接收的数据中包括的视频通话对方的面部信息，并生成化身角色(S1730)。

(机器人100的)控制器140可以进行控制以在显示器182上显示所生成的化身角色(S1740)。因此，机器人100的用户可以在观看表达视频通话对方的情绪的化身角色的同时直观地识别对方的情绪。

当通过机器人100与对方执行语音或视频通话时，可以通过允许机器人识别并遵循对方的个人习惯或者对方的独特的特征来表达对方的特征点(或个性)。

因此，与人类对方相比，用户可以没有对机器人100的抗拒感而感觉到类似的情绪，并且可以在与对方交谈时帮助用户沉浸在对方中。

如参照图1至图16所述，(机器人100的)控制器140可以响应于视频通话对方的所识别出的情绪信息来调整化身角色的面部表情界标点的改变程度。

根据该设置，控制器140可以通过更大程度地调整化身角色的面部表情界标点的改变程度来增强情绪表达，并且/或者可以通过更大程度地调整面部表情界标点的改变程度来减轻情绪表达，并且/或者可以通过将化身角色的面部表情界标点的改变程度调整成更小来减轻情绪表达。

控制器140可以通过改变预设动画角色的面部表情界标点来生成化身角色，以对应于所识别的情绪信息。

控制器140可以通过改变基于视频通话对方的面部信息生成的动画角色的面部表情界标点来生成化身角色，以对应于所识别的情绪信息。

控制器140可以通过将与所识别的情绪信息相对应地生成的面部表情界标点图像与关于具有增强现实的视频通话对方的面部图像合成来生成化身角色。

所生成的化身角色可以存储在存储单元130中，并且可以再次使用所存储的化身角色。

控制器140可以将所生成的化身角色与视频通话对方的信息相关联地存储。例如，当对方再次请求视频通话时，对方的呼叫请求指南和对方的化身角色中的任何一个可以显示在显示器182上。

(机器人100的)控制器140可以基于所接收的图像数据来检测视频通话对方的运动(S1750)，并且通过映射视频通话对方的所识别的情绪信息来确定响应动作(S1760)。

控制器140可以控制机器人100以执行所确定的响应动作(S1770)。

例如，在视频通话期间，当从所接收的图像识别出对方的面部并且检测到面部的运动时，控制器140可以识别对方的面部的运动方向，并控制机器人100在相应的方向上旋转。

当对方的面部的运动方向是上下方向时，控制器140可以控制机器人100沿相同方向旋转，并且当方向是左右方向时，控制器140可以根据图像反转来控制机器人100沿相反方向旋转。

根据示例性实施方式，当检测到视频通话对方的面部运动时，控制器140可以根据对方的面部运动方向不同地控制响应动作的程度。

例如，控制器140可以根据对方的面部运动方向不同地设置旋转角度，并且可以控制面部运动在上下方向上一次旋转3度并且在左右方向上一次旋转10度。

另外，如果在三秒内在图像中不存在视频通话对方的面部运动，则控制器140可以进行控制以保持面部被识别时的旋转状态，并且当该面部未被识别时返回到原始位置，使得可以反映视频通话对方的运动。

根据该实施方式，控制器140可以将所识别的视频通话对方的情绪信息映射到视频通话对方的语音数据，并生成转换后的语音数据。根据控制器140的控制，声音输出单元181可以发出所转换的语音数据。

控制器140可以基于所识别的视频通话对方的情绪信息来改变视频通话对方的语音数据的音调和大小中的至少一者。例如，当所识别的视频通话对方的情绪信息是快乐时，可以增加视频通话对方的语音数据的音调。

当所识别的视频通话对方的情绪信息不快或者当视频通话对方的所识别的话语内容中包含辱骂时，控制器140可以控制声音输出单元181以减少并输出视频通话对方的语音数据的大小。

根据设置，控制器140可以通过更大程度地调整语音数据的改变程度来增强情绪表达，或者可以通过将语音数据的改变程度调整成更小来减轻情绪表达。

因此，用户可以更强地感受到视频通话对方的情绪并且感到同情，并且/或者可以防止情绪超过必要的发送。

在至少一些实施方式中，对于暴露周围环境具有抗拒感的用户，可以生成背景图像，并且可以在生成的背景图像上显示所生成的化身角色。因此，可以防止当前用户的背景暴露给视频通话对方。

视频通话对方的情绪识别(S1720)可以由机器人100自身执行。

机器人100可以包括情绪识别器74a，该情绪识别器74a包含人工神经网络，该人工神经网络被学习以基于图像数据和语音数据识别情绪信息，并且当从视频通话对方机器人接收的数据被输入时识别视频通话对方的情绪信息。

情绪识别器74a可以被学习以通过多个单模态输入和多模态输入基于多个单模态输入来识别情绪信息，并输出包括多个单模态输入中的每一个的情绪识别结果和多模态输入的情绪识别结果的复杂情绪识别的结果。

可以在具有情绪识别器74a的情绪识别服务器70中执行视频通话对方的情绪识别(S1720)。

识别视频通话对方的情绪信息的步骤(S1720)可以包括将从视频通话对方机器人接收的数据发送到包括学习的人工神经网络的情绪识别服务器70以及从情绪识别服务器70接收情绪识别结果，该人工神经网络被输入以基于图像数据和语音数据来识别情绪信息。

如参照图5所述，情绪识别服务器70可包括由单模态输入学习的多个人工神经网络521、522和523。情绪识别服务器70可以包括基于多个单模态输入通过多模态输入学习的人工神经网络511。包括在情绪识别服务器70中的神经网络511、521、522、523可以是适合于相应输入数据的人工神经网络。

在至少一个实施方式中，机器人100可以将情绪信息映射到从声音输出单元181输出的语音。例如，机器人100可以实时识别对方的情绪，并且可以改进和改变诸如辱骂的激进声音并发送。可替代地，可以进一步强调语音内的插入以增加音量和输出。

根据示例性实施方式，通过使用从用户的语音、图像和文本识别的多模态的情绪值，可以在与用户的交互中或在与对方的视频通话中表达情绪。所识别的情绪可以表示为正/负/中立，并且/或者可以是基于被识别为七种情绪类别的概率值的信息。

可以互补地使用语音、图像和文本的情绪识别结果以及多模态情绪识别结果，从而可以进一步提高情绪识别的准确性。

可以确定以具有语音、图像和文本的不兼容情绪信息的情绪为特征的用户，并且可以将奇点数据库用于用户和机器人的情绪交换用户体验(UX)。

根据一个示例性实施方式，根据用户的情绪识别结果值，可以执行调平以通过夸大的情绪表达或被动情绪表达来增强或减弱情绪表达。

机器人100可以理解用户的情绪特征点，并且作为化身再现被识别的情绪特征点。例如，当用户笑时，用户的独特特征点(在说话者的特定情绪中的面部表情)，例如当用户笑时总是抬起的一侧嘴角，可以被识别，并且可以被映射到化身角色。

机器人100可以存储用户的特定习惯或情绪，并且当其在视频通话期间被反映用户的情绪特征点的化身替换时执行通话，就好像化身角色作为用户的代理。

图18至图21是示出根据本发明的示例性实施方式的机器人系统的操作方法的流程图。还可以提供其他实施方式和操作。

参照图18，机器人系统可包括用于执行视频通话的第一机器人100a和第二机器人100b。

第一机器人100a和第二机器人100b可以在执行视频通话的同时发送和接收视频通话所需的数据(S1810)。

例如，第二机器人100b可以从第一机器人100a接收由第一机器人100a的用户拍摄的图像数据、由第一机器人100a的用户发出的语音数据等(S1810)。之后，第一机器人100a和第二机器人100b可以在连续执行视频通话的同时发送和接收视频通话所需的数据。

从第一机器人100a接收图像数据和语音数据的第二机器人100b可以基于所接收的图像数据和语音数据识别第一机器人100a(即视频通话对方)的用户情绪(S1820)。

第二机器人100b可以设置有上述情绪识别器74a。

控制器140可以通过将视频通话对方的由情绪识别器74a输出的情绪识别结果映射到视频通话对方的基于由第一机器人100a的用户拍摄的图像数据而获取的面部信息来生成视频通话对方的化身角色(S1830)。

控制器140可以从第一机器人100a的用户拍摄的图像数据中检测视频通话对方的运动(S1840)，并且可以确定由第二机器人100b响应于视频通话对方的运动而执行的响应动作(S1850)。

此后，第二机器人100b可以在控制器140的控制下显示所生成的化身角色，并且可以通过执行响应动作来表达视频通话对方的情绪(S1860)。

因此，第二机器人100b的用户可以从由第二机器人100b显示的角色和第二机器人100b的运动直观地识别视频通话对方的情绪。

第一机器人100a可以以相同的方式识别第二机器人100b的用户情绪，基于所识别的情绪识别结果显示化身角色，并执行响应动作，从而表达第二机器人100b的用户情绪。

机器人100a、100b通常可以将用户情绪识别为语音、图像和文本，并存储用户情绪的特征点。另外，化身可以基于通常存储的用户情绪特征点信息与对方进行通信。

在使用机器人100a、100b的P2P视频通话期间，可以将用户情绪映射到化身以执行情绪化身。发送者或接收者的情绪可以实时地映射到化身，并且可以在化身角色中更加强调情绪的特征点。

在视频通话期间，可以实时识别说话者的情绪，并且映射到识别结果值的各种角色可以覆盖在说话者的脸上或者可以代替说话者，使得对方的情绪可以是容易确定的。

在视频通话期间，可以识别说话者的手势并且可以将相应的手势映射到机器人的运动，使得用户可以通过机器人的运动直观地识别对方的情绪并且可以期待有趣的因素。实施方式可以从情绪识别器74a识别用户的面部、语音、文本等的多模态情绪，并且机器人100a、100b可以通过使用检测到的情绪信息将特定情绪映射到化身角色。因此，可以通过识别对话内容的情绪来引发积极的互动。

参照图19，根据本发明的一个示例性实施方式的机器人系统可包括执行视频通话的第一机器人100a和第二机器人100b以及一个或多个情绪识别服务器70b。

图19与图18的实施方式的不同之处在于，可以在连接到第二机器人100b的情绪识别服务器70b中执行情绪识别。情绪识别服务器70b可以包括上述情绪识别器74a。

第一机器人100a和第二机器人100b可以在执行视频通话的同时发送和接收视频通话所需的数据(S1910)。

接收来自第一机器人100a的图像数据和语音数据的第二机器人100b可以将所接收的图像数据和语音数据发送到情绪识别服务器70b(S1920)。

情绪识别服务器70b可以基于所接收到的数据识别第一机器人100a(视频通话对方)的用户情绪(S1925)，并且将情绪识别结果发送到第二机器人100b(S1930)。

此后，类似地，第二机器人100b可以通过将所识别的情绪信息映射到视频通话对方的面部信息来生成视频通话对方的化身角色(S1940)。

如果从拍摄第一机器人100a的用户的图像数据中检测到视频通话对方的运动(S1950)，则第二机器人100b可以确定响应于视频通话对方的运动而执行的响应动作(S1960)。

第二机器人100b可以通过显示所生成的化身角色并执行响应动作来表达视频通话对方的情绪(S1970)。

参照图20，根据示例性实施方式的机器人系统可包括执行视频通话的第一机器人100a和第二机器人100b以及一个或多个情绪识别服务器70b。

图20与图19的实施方式的不同之处在于，在接收情绪识别结果之前执行视频通话对方的运动检测(S2025)(S2035)。

参照图20，第二机器人100b从第一机器人100a接收数据(S2010)，并将所接收的数据发送到情绪识别服务器70b(S2020)。

第二机器人100b可以基于所接收的数据检测视频通话对方的运动(S2025)。

情绪识别服务器70b可以执行情绪识别(S2030)，并将结果发送到第二机器人100b(S2035)。

当接收到情绪识别结果时(S2035)，第二机器人100b可以通过将情绪识别结果映射到用户面部信息来生成化身角色(S2040)，并且确定与视频通话对方的运动相对应的响应动作(S2040)(S2050)。

第二机器人100b可以显示所生成的化身角色，并执行响应动作以表达视频通话对方的情绪(S2060)。

参照图21，示例性实施方式的机器人系统可包括执行视频通话的第一机器人100a和第二机器人100b以及一个或多个情绪识别服务器70a。

参照图21，第一机器人100a可以获取用户相关数据，诸如包括用户的面部的数据、包括用户的话语的数据(S2110)。

第一机器人100a可以将所获取的用户相关数据发送到情绪识别服务器70a(S2115)。

情绪识别服务器70a可以基于所接收的数据来执行情绪识别(S2120)，并将结果发送到第一机器人100a(S2125)。

当接收到情绪识别结果时(S2125)，第一机器人100a可以通过将情绪识别结果映射到用户面部信息来生成化身角色(S2130)。

第一机器人100a可以将所识别的情绪信息或所生成的化身角色发送到第二机器人100b(即，视频通话对方的机器人)(S2140)，并且可以显示所生成的化身角色(S2150)。

可替代地，第一机器人100a可以显示所生成的化身角色(S2150)，然后将所识别的情绪信息或所生成的化身角色发送到第二机器人100b(S2140)。

第二机器人100b可以根据设置来显示所接收的化身角色，或者基于所接收的情绪信息来表达第一机器人100a的用户情绪。

根据至少一个实施方式，可以识别用户情绪并可以提供基于情绪的服务。

根据至少一个实施方式，通过使用通过深度学习学习的人工智能，可以更准确地识别用户情绪。

根据至少一个实施方式，可以自动生成和利用表达用户情绪的角色，从而为用户提供乐趣和易用性。

根据至少一个实施方式，通过使用表达用户情绪的角色，存在向用户和机器人之间的沟通以及用户之间的沟通添加情绪因素的效果。

根据至少一个实施方式，可以识别至少一个视频通话参与者的情绪，并且可以根据所识别的情绪生成角色，以便可以直观地检查视频通话参与者的情绪。

根据至少一个实施方式，可以通过机器人发送视频通话对方的情绪，从而可以提高用户的满意度和便利性。

根据至少一个实施方式，机器人可以识别视频通话对方的运动并执行相应的操作，从而允许人们更加有趣和方便地使用视频通话。

根据示例性实施方式的操作机器人和机器人系统的方法可以实现为处理器可读的记录介质上的处理器可读的代码。处理器可读记录介质包括各种记录装置，在这种记录装置中存储可由处理器读取的数据。可由处理器读取的记录介质的示例包括ROM、RAM、CD-ROM、磁带、软盘、光学数据存储装置等，并且还可以以通过因特网传输的载波的形式实现。另外，处理器可读记录介质可以分布在连接网络的计算机系统上，从而可以存储和执行处理器以分布式方式可读的代码。

将理解，当元件或层被称为在另一个元件或层“上”时，元件或层可以直接在另一个元件或层或介入元件或层上。相反，当元件被称为“直接在”另一个元件或层上时，没有介入元件或层存在。如这里所用的，术语“和/或”包括关联所列项中的一个或更多个的任意和全部组合。

将理解，虽然术语第一、第二、第三等在这里可以用于描述各种元件、部件、区域、层和/或段，但这些元件、部件、区域、层和/或段不应受这些术语限制。这些术语仅用于区分一个元件、部件、区域、层或段与另一个区域、层或段。由此，第一元件、部件、区域、层或段可以在不偏离本发明的示教的情况下被称为第二元件、部件、区域、层或段。

空间上相对的术语(诸如“下”、“上”等)在这里为了方便描述可以用于如附图例示的描述一个元件或特征与另一个元件或特征的关系。将理解，空间上相对的术语旨在除了包含附图中描绘的方位之外还包含使用或操作中装置的不同方位。例如，如果翻转附图中的装置，那么被描述为相对于其他元件或特征“下”的元件然后将被定向为相对于其他元件或特征“上”。由此，示例性术语“下”可以包含上方和下方方位这两者。装置可以以其他方式来定向(旋转90度或处于其他方位)，因此解释这里所用的空间上相对的描述符。

这里所用的术语仅是为了描述特定实施方式的目的且不旨在限制本发明。如此处所用的，单数形式“一”和“一个”旨在也包括复数形式，除非上下文另外清楚指示。还将理解，术语“包括”在用于本说明书中时指定所叙述特征、整数、步骤、操作、元件和/或部件的存在，但不排除一个或更多个其他特征、整数、步骤、操作、元件、部件和/或其组的存在或添加。

本公开的实施方式在这里参照是本公开的理想化实施方式(和中间结构)的示意图的剖面图来描述。由此可见，预期来自作为例如制造技术和/或公差的结果的、例示的形状的变化。由此，本公开的实施方式不应被解释为限于这里所例示的区域的特定形状，而是包括例如因制造而产生的形状的偏差。

除非另外限定，否则这里所用的所有术语(包括科技术语)具有与由本发明属于的领域中的一个普通技术人员通常理解的相同含义。还将理解，诸如在常用词典中定义的那些术语的术语应被解释为具有与它们在相关领域中的含义一致的含义，并且将不在理想化或过于正式的意义上解释，除非这里明确地如此定义。

本说明书中对“一个实施方式”、“实施方式”“示例实施方式”等的任意参考意指被关于实施方式描述的特定特征、结构或特性被包括在至少一个实施方式中。这种短语在说明书中的各种地点中的出现不是必须全部指同一实施方式。进一步地，在关于任意实施方式描述特定特征、结构或特性时，认为关于其他实施方式实现这种特征、结构或特性的本领域技术人员的权限内。

虽然已经参照本发明的若干例示性实施方式描述了实施方式，但应理解，本领域技术人员可以设计将落在本公开的原理的精神和范围内的大量其他修改例和实施方式。更具体地，各种变型例和修改例在本公开、附图以及所附权利要求的范围内的主题组合结构的组成部分和/或结构中是可以的。除了组成部分和/或结构的变型例和修改例之外，替代使用也将对本领域技术人员显而易见。

Claims

1.一种操作机器人的方法，该方法包括以下步骤：

基于从视频通话对方机器人接收的数据来识别视频通话对方的情绪信息；

通过将所识别的视频通话对方的情绪信息映射到所述视频通话对方的面部信息来生成化身角色，所述面部信息包括在从所述视频通话对方机器人接收的所述数据中；以及

显示所生成的化身角色。

2.根据权利要求1所述的方法，其中，生成化身角色的步骤包括：响应于所述视频通话对方的所识别的情绪信息，调整所述化身角色的面部表情界标点的改变程度。

3.根据权利要求2所述的方法，其中，生成化身角色的步骤包括：根据设置，通过将所述化身角色的所述面部表情界标点的改变程度调整到较高水平来增强情绪表达，并且通过将所述化身角色的所述面部表情界标点的改变程度调整到较低水平来减轻情绪表达。

4.根据权利要求1所述的方法，其中，生成化身角色的步骤包括：通过将预设动画角色的面部表情界标点改变成对应于所识别的情绪信息来生成所述化身角色。

5.根据权利要求1所述的方法，其中，生成化身角色的步骤包括：通过将基于所述视频通话对方的所述面部信息生成的动画角色的面部表情界标点改变成对应于所识别的情绪信息来生成所述化身角色。

6.根据权利要求1所述的方法，其中，生成化身角色的步骤包括：通过利用增强现实合成响应于关于所述视频通话对方的面部图像的所识别的情绪信息而生成的面部表情界标点图像来生成所述化身角色。

7.根据权利要求1所述的方法，该方法还包括以下步骤：存储所生成的化身角色。

8.根据权利要求1所述的方法，该方法还包括以下步骤：

检测所述视频通话对方的运动；

确定对应于所述视频通话对方的运动的响应动作；以及

执行所述响应动作。

9.根据权利要求1所述的方法，该方法还包括以下步骤：

通过将所述视频通话对方的所识别出的情绪信息映射到所述视频通话对方的语音数据来生成转换后的语音数据；以及

使用所述转换后的语音数据进行输出。

10.根据权利要求9所述的方法，其中，生成转换后的语音数据的步骤包括：基于所述视频通话对方的所识别出的情绪信息来改变所述视频通话对方的语音数据的音调和大小中的至少一者。

11.根据权利要求9或10所述的方法，其中，生成转换后的语音数据的步骤包括：根据设置，通过将所述语音数据的改变程度调整到较高水平来增强情绪表达，并且通过将所述语音数据的改变程度调整到较低水平来减轻情绪表达。

12.根据权利要求1所述的方法，该方法还包括以下步骤：生成背景图像，

其中，显示所生成的化身角色的步骤包括：在所生成的背景图像上显示所生成的化身角色。

13.根据权利要求1所述的方法，其中，所述机器人包括情绪识别器，所述情绪识别器包含被学习以基于图像数据和语音数据来识别情绪信息的人工神经网络，并且被配置成当从所述视频通话对方机器人接收的所述数据被输入时识别所述视频通话对方的情绪信息。

14.根据权利要求1所述的方法，其中，识别视频通话对方的情绪信息的步骤包括：

将从所述视频通话对方机器人接收的所述数据发送到情绪识别服务器，所述情绪识别器包含被学习以基于图像数据和语音数据来识别情绪信息的人工神经网络；以及

从所述情绪识别服务器接收情绪识别结果。

15.一种机器人，该机器人被配置成执行根据权利要求1至14中任一项所述的操作方法。