CN113646838A

CN113646838A - 在视频聊天过程中提供情绪修改的方法和系统

Info

Publication number: CN113646838A
Application number: CN201980094962.9A
Authority: CN
Inventors: 顾岳宁; 马元; 吴毅天; 杨磊
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2019-04-05
Filing date: 2019-04-05
Publication date: 2021-11-12
Anticipated expiration: 2039-04-05
Also published as: EP3942552A1; JP2022528691A; JP7185072B2; WO2020204948A1; KR102573465B1; KR20210146372A; CN113646838B

Abstract

本申请实施例描述了改变参与视频聊天的人的视频和音频信号以产生改变后的视频和音频信号的方法和子系统，在改变后的视频和音频信号中，提高了人的一种或多种感知情绪与人的语义情绪之间的一致性。这种方法可以包括获取与第二人进行视频聊天的第一人的视频信号和音频信号，基于视频信号确定第一人的一种或多种感知情绪，基于音频信号确定第一人的语义情绪。所述方法还包括改变视频信号以提高第一人的一种或多种感知情绪中的至少一种与第一人的语义情绪之间的一致性。

Description

在视频聊天过程中提供情绪修改的方法和系统

技术领域

本公开大体上涉及用于视频聊天过程中的方法和系统，并且在特定实施例中涉及改变参与视频聊天的人的视频和音频信号以产生改变后的视频和音频信号的方法和系统，在改变后的视频和音频信号中，提高了人的一种或多种感知情绪与人的语义情绪之间的一致性。

背景技术

汽车和其他类型车辆的驾驶员在驾驶车辆时经常使用智能手机或其他移动计算设备与他人聊天。此类聊天可以是语音聊天，也可以是视频聊天。在本文中，语音聊天是指纯音频通信，即进行语音聊天的两个人可以听到对方的声音，但不能看到对方。相比之下，视频聊天是指同时涉及进行视频聊天的两个人的音频和视频的通信，即进行视频聊天的两个人既可以听到对方，也可以看到对方。提供音频和视频信号的接收和传输的视频电话技术可以用于视频聊天。例如，视频电话产品包括苹果公司提供的FaceTime、谷歌公司提供的GoogleDuo和GoogleHangouts、微软公司提供的Skype和腾讯公司提供的微信。事实上，调查发现，10％的驾驶员表示他们驾驶车辆时曾使用智能手机进行视频聊天。这一比例在未来可能会增加，特别是随着半自动和全自动车辆越来越普遍。

路怒是车辆驾驶员表现出的攻击性或愤怒行为，是很常见的。事实上，调查发现，在过去一年里，绝大多数驾驶员在驾驶车辆时表现出了极大的愤怒。路怒可导致多种直接的不良影响。例如，对车辆驾驶员及其乘客而言，路怒可导致争吵、攻击和碰撞，造成严重的人身伤害甚至死亡。路怒也可导致某些间接的不良影响。例如，假设驾驶第一车辆的第一人正与驾驶第二车辆的第二人进行视频聊天，其中第一驾驶员发生了路怒，则第一人的愤怒可以传递给第二人和/或分散第二人的注意力，这可能会增加第二人卷入碰撞的可能性。又例如，假设驾驶第一车辆的第一人正与一个或多个他人进行业务相关的视频聊天，其中第一人发生了路怒，则第一人与一个或多个他人之间的业务关系可能遭到破坏或受到其他不良影响。

发明内容

根据本公开的一个方面，一种方法包括获取与第二人进行视频聊天的第一人的视频信号和音频信号，基于所述视频信号确定所述第一人的一种或多种感知情绪，并基于所述音频信号确定所述第一人的语义情绪。所述方法还包括改变所述视频信号以提高所述第一人的一种或多种感知情绪中的至少一种与所述第一人的语义情绪之间的一致性。

可选地，在前述任一方面中，所述基于所述视频信号确定所述第一人的一种或多种感知情绪包括基于所述视频信号检测所述第一人的面部表情或身体姿势中的至少一种；基于所述第一人的面部表情或身体姿势中的至少一种，确定所述第一人的面部表情感知情绪或身体姿势感知情绪中的至少一种。

可选地，在前述任一方面中，所述确定所述第一人的一种或多种感知情绪还基于所述音频信号，包括对所述音频信号进行音频信号处理以确定所述第一人的语音的音调、颤音或变调中的至少一种，并基于所述音频信号的音频信号处理结果，确定所述第一人的语音感知情绪。这种方法还可以包括改变所述音频信号以提高所述第一人的语音感知情绪与所述第一人的语义情绪之间的一致性。

可选地，在前述任一方面中，所述改变所述视频信号以产生改变后的视频信号包括修改所述面部表情或身体姿势中的至少一种所对应的视频信号的图像数据；所述改变所述音频信号以产生改变后的音频信号包括修改所述音调、颤音或变调中的至少一种所对应的视频信号的音频数据。

可选地，在前述任一方面中，所述方法还包括将所述改变后的视频信号和改变后的音频信号提供给与所述参与视频聊天的第二人相关联的子系统，从而使得所述第二人能够看到和听到所述第一人的图像和音频，在所述图像和音频中，提高了所述第一人的一种或多种感知情绪中的至少一种与所述第一人的语义情绪之间的一致性。

可选地，在前述任一方面中，所述基于所述音频信号确定所述第一人的语义情绪包括对所述音频信号进行自然语言处理；基于所述音频信号的自然语言处理结果，确定所述第一人的语义情绪。

可选地，在前述任一方面中，所述基于所述视频信号确定所述第一人的一种或多种感知情绪包括以下至少一种：基于所述视频信号，采用面部环状模型量化所述第一人的面部表情的积极性和活跃性；或者基于所述视频信号，采用姿势环状模型量化所述第一人的身体姿势的积极性和活跃性。进一步地，所述基于所述音频信号确定所述第一人的语义情绪包括基于所述音频信号，采用语言环状模型量化所述第一人的语言的积极性和活跃性。此外，所述改变所述视频信号以产生改变后的视频信号包括以下至少一种：改变所述视频信号的图像数据以减小所述第一人的面部表情的积极性和活跃性与所述第一人的语言的积极性和活跃性之间的差距，或者改变所述视频信号的图像数据以减小所述第一人的身体姿势的积极性和活跃性与所述第一人的语言的积极性和活跃性之间的差距。

可选地，在前述任一方面中，所述确定所述第一人的一种或多种感知情绪还基于所述音频信号，包括基于所述音频信号，采用语音环状模型量化所述第一人的语音的积极性和活跃性。所述方法还可以包括改变所述音频信号的音频数据以产生改变后的音频信号，从而减小所述第一人的语音的积极性和活跃性与所述第一人的语言的积极性和活跃性之间的差距。

根据本公开的另一方面，一种子系统包括一个或多个接口以及一个或多个处理器。所述一个或多个接口用于接收与第二人进行视频聊天的第一人的视频信号和音频信号。所述一个或多个处理器通信耦合到所述一个或多个接口，用于基于所述视频信号确定所述第一人的一种或多种感知情绪，并基于所述音频信号确定所述第一人的语义情绪。所述一个或多个处理器还用于改变所述视频信号以提高所述第一人的一种或多种感知情绪中的至少一种与所述第一人的语义情绪之间的一致性。所述子系统还可以包括：一个或多个摄像头，用于获取所述视频信号；一个或多个麦克风，用于获取所述音频信号。

可选地，在前述任一方面中，所述一个或多个处理器实现一个或多个神经网络，所述一个或多个神经网络用于基于所述视频信号确定所述第一人的感知情绪，并基于所述音频信号确定所述第一人的语义情绪。

可选地，在前述任一方面中，所述一个或多个处理器实现一个或多个神经网络，所述一个或多个神经网络用于改变所述视频信号以提高所述第一人的一种或多种感知情绪中的至少一种与所述第一人的语义情绪之间的一致性。

可选地，在前述任一方面中，为了基于所述视频信号确定所述第一人的一种或多种感知情绪，所述一个或多个处理器用于基于所述视频信号检测所述第一人的面部表情或身体姿势中的至少一种；基于所述第一人的面部表情或身体姿势中的至少一种，确定所述第一人的面部表情感知情绪或身体姿势感知情绪中的至少一种。

可选地，在前述任一方面中，所述一个或多个处理器还用于对所述音频信号进行音频信号处理以确定所述第一人的语音的音调、颤音或变调中的至少一种，并基于所述音频信号的音频信号处理结果，确定所述第一人的语音感知情绪；改变所述音频信号以提高所述第一人的语音感知情绪与所述第一人的语义情绪之间的一致性。

可选地，在前述任一方面中，所述一个或多个处理器用于修改所述面部表情或身体姿势中的至少一种所对应的视频信号的图像数据，从而改变所述视频信号以产生改变后的视频信号；修改所述音调、颤音或变调中的至少一种所对应的音频信号的音频数据，从而改变所述音频信号以产生改变后的音频信号。

可选地，在前述任一方面中，所述一个或多个处理器用于对所述音频信号进行自然语言处理；基于所述音频信号的自然语言处理结果，确定所述第一人的语义情绪。

可选地，在前述任一方面中，所述一个或多个处理器用于基于所述视频信号，采用面部环状模型量化所述第一人的面部表情的积极性和活跃性；基于所述视频信号，采用姿势环状模型量化所述第一人的身体姿势的积极性和活跃性；基于所述音频信号，采用语言环状模型量化所述第一人的语言的积极性和活跃性。此外，所述一个或多个处理器用于改变所述视频信号的图像数据以减小所述第一人的面部表情的积极性和活跃性与所述第一人的语言的积极性和活跃性之间的差距，并减小所述第一人的身体姿势的积极性和活跃性与所述第一人的语言的积极性和活跃性之间的差距。

可选地，在前述任一方面中，所述一个或多个处理器还用于基于所述音频信号，采用语音环状模型量化所述第一人的语音的积极性和活跃性；改变所述音频信号的音频数据以减小所述第一人的语音的积极性和活跃性与所述第一人的语言的积极性和活跃性之间的差距。

可选地，在前述任一方面中，所述子系统包括发射器，用于将所述改变后的视频信号和改变后的音频信号传输至与所述参与视频聊天的第二人相关联的子系统，从而使得所述第二人能够看到和听到所述第一人的视频和音频，在所述视频和音频中，提高了所述第一人的一种或多种感知情绪中的至少一种与所述第一人的语义情绪之间的一致性。

根据本公开的另一方面，提供了一种存储计算机指令的非瞬时性计算机可读介质，当所述计算机指令由一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：获取与第二人进行视频聊天的第一人的视频信号和音频信号；基于所述视频信号确定所述第一人的一种或多种感知情绪；基于所述音频信号确定所述第一人的语义情绪；改变所述视频信号以提高所述第一人的一种或多种感知情绪中的至少一种与所述第一人的语义情绪之间的一致性。所述非瞬时性计算机可读介质还可以存储计算机指令，当所述计算机指令由一个或多个处理器执行时，使得所述一个或多个处理器执行上文概述的并将在下文中进一步详述的方法的附加步骤。

提供本发明内容是为了以简化的形式介绍将在具体实施方式中进一步描述的部分概念。本发明内容不旨在识别所要求保护的标的物的关键特征或必要特征，也不意图用于帮助确定所要求保护的标的物的范围。所要求保护的主题不限于用于解决背景技术中指出的任何或所有缺点的实施方式。

附图说明

本公开各方面以示例方式说明，并且不受附图的限制，附图中类似的参考标识表示类似的元件。

图1示出了使得第一人和第二人能够进行视频聊天的示例性系统。

图2、图3和图4示出了根据本技术的各种实施例的系统，其使得第一人和第二人能够进行视频聊天，并且还修改至少第一人的音频和视频以使得第二人所听到和看到的第一人的音频和视频与第一人的实际音频和视频不同。

图5示出了根据本技术一实施例的修改子系统，其可以用于修改参与视频聊天的人的音频和视频信号。

图6示出了图5中引入的修改子系统的情绪检测器和情绪修改器的附加细节。

图7A示出了一般的环状模型。

图7B示出了面部环状模型。

图7C示出了姿势环状模型。

图7D示出了语音环状模型。

图8示出了如何将不同类型的感知情绪和语义情绪映射到环状模型，如何确定感知情绪和语义情绪之间的差距，以及如何减小这种差距以提高不同类型的感知情绪和语义情绪之间的一致性。

图9示出了概要流程图，其解释了如何利用感知情绪和语义情绪之间的差距来确定是否修改视频和音频信号的某些特征以提高感知情绪和语义情绪之间的一致性。

图10示出了用于概述根据本技术某些实施例的方法的概要流程图。

图11示出了本技术实施例适用的示例性移动计算设备的示例性部件。

具体实施方式

本技术的某些实施例改变与第二人进行视频聊天的第一人的视频和音频信号，使得为第二人播放改变后的信号时，第二人所看到和听到的与最初捕获的视频和音频信号不同。当第一人和第二人在驾驶车辆的同时进行视频聊天时，如果第一人在视频聊天时发生路怒，本技术的这些实施例能够防止第一人的愤怒传递给第二人。当驾驶车辆的第一人与一个或多个他人进行业务相关的视频聊天时，本技术的这些实施例能够防止第一人的愤怒被他人目睹，从而避免第一人与一个或多个他人之间的业务关系遭到破坏或受到其他不良影响。根据以下更详细描述的某些实施例，可以基于第一人的视频信号(可能还有音频信号)确定第一人的一种或多种感知情绪，可以基于第一人的音频信号确定第一人的语义情绪。然后，可以修改(也称为改变)第一人的视频和音频信号，使得所得到的修改后的第一人的视频和音频比第一人的感知情绪更符合第一人的语义情绪。更具体地，对视频和音频信号进行修改以减少人的一种或多种感知情绪与人的语义情绪之间的差异。

如本文中所使用的术语，感知情绪通常涉及第二人通过其感官(例如通过第二人的视觉和听觉)而意识到的第一人的情绪状态。相比之下，如本文中所使用的术语，语义情绪通常涉及第二人通过其对第一人所说的有声语言(也称为口头语言，或者更简洁地称为语言)的理解而意识到的第一人的情绪状态。在许多情况下，感知情绪和语义情绪可以在实质上一致，例如，在与第二人的交谈过程中，第一人在表达他们度过了美好的一天时微笑，并伴有积极的肢体语言。然而，在其他情况下，感知情绪和语义情绪明显不一致，例如，在与第二人的交谈过程中，第一人在表达他们度过了美好的一天时皱眉，并伴有消极的肢体语言(例如俯视、交叉双臂)。根据本技术的某些实施例，在与第二人进行视频聊天时，如果第一人在表达他们度过了美好的一天时皱眉，并伴有消极的肢体语言(例如俯视、交叉双臂等)，则改变第一人的视频，使得为第二人播放视频时，第一人的肢体语言从消极的肢体语言变为积极的肢体语言，从而第一人的肢体语言与他所使用的积极的口头语言更加一致。此外，第一人的音频也可以改变，例如，改变第一人声音的音调、颤音和/或变调，以便与他所使用的积极的口头语言更加一致。

图1示出了使得第一人和第二人能够进行视频聊天的示例性系统。在图1中，方框110A和110B表示使用各自的客户端计算设备进行视频聊天的第一人和第二人，更一般地，这些客户端计算设备在本文中也称为音频-视频(audio-video，A-V)子系统120A和120B。A-V子系统120A和120B可以统称为A-V子系统120，或者分别称为A-V子系统120。第一人和第二人110A和110B可以统称为人110，或者分别称为人110。A-V子系统120A能够获取第一人110A的视频信号和音频信号，A-V子系统120B能够获取第二人110B的视频信号和音频信号。因此，每个A-V子系统120可以包括用于获取音频信号的至少一个麦克风和用于获取视频信号的至少一个摄像头。至少一个摄像头可以是包括图像传感器(例如，互补型金属氧化物半导体(CMOS)图像传感器)的红绿蓝(RGB)/近红外(nearinfrared，NIR)摄像头，可以用于每秒捕获多个二维RGB/NIR图像(例如每秒30个图像)。至少一个其他摄像头可以是产生深度图像而非RGB/NIR图像的深度摄像头，例如，利用结构化光和/或飞行时间(time-of-flight，TOF)传感器在点云上重建3D结构等。

此外，A-V子系统120A能够为第一人110A播放第二人(例如120B)的视频和音频，并且A-V子系统120B能够为第二人110B播放第一人(例如120A)的视频和音频。因此，每个A-V子系统120可以包括至少一个用于输出可听声音的音频扬声器和至少一个用于显示视频图像的显示器。A-V子系统120A和120B其中一个或两者可以是舱内计算机系统或移动计算设备，例如但不限于智能手机、平板电脑、笔记本电脑、膝上型电脑等。音频-视频子系统120A和120B其中一个或两者或其部分还可以包括麦克风、摄像头、音频扬声器和/或显示器，其内置在车辆中，例如作为车辆娱乐系统的一部分。

当第一人和第二人110A和110B通过各自的A-V子系统120A和120B进行视频聊天时，A-V子系统120A的至少一个麦克风获取第一人110A的音频信号，A-V子系统120A的至少一个摄像头获取第一人110A的视频信号。类似地，A-V子系统120B的至少一个麦克风获取第二人110B的音频信号，A-V子系统120B的至少一个摄像头获取第二人110B的视频信号。A-V子系统120A得到的第一人110A的音频和视频信号经由一个或多个通信网络130发送到A-V子系统120B。类似地，A-V子系统120B得到的第二人110B的音频和视频信号经由一个或多个通信网络130发送到A-V子系统120B。

通信网络130可以是任何有线或无线局域网(localareanetwork，LAN)和/或广域网(wideareanetwork，WAN)，例如内联网、外联网或互联网，或其组合，但不限于此。通信网络130提供A-V子系统120之间和可选的其他设备和系统之间的通信能力就足够了。在某些实现方式中，通信网络130利用超文本传输协议(HyperTextTransportProtocol，HTTP)来传输使用传输控制协议/互联网协议(TransmissionControlProtocol/InternetProtocol，TCP/IP)的信息。HTTP允许A-V子系统120访问经由通信网络130可用的各种资源。然而，本文所述的各种实现方式不限于使用任何特定协议。

A-V子系统120A的至少一个音频扬声器利用第二人110B的音频信号来输出第二人110B的可听声音(例如所说的话)，第一人110A能够听到可听声音。A-V子系统120A的至少一个显示器利用第二人110B的视频信号来显示第二人110B的视频图像，第一人110A能够看到视频图像。类似地，A-V子系统120B的至少一个音频扬声器利用第一人110A的音频信号来输出第一人110A的可听声音(例如所说的话)，第二人110B能够听到可听声音。A-V子系统120B的至少一个显示器利用第一人110A的视频信号来显示第一人110A的视频图像，第二人110B能够看到视频图像。

通常，第一人110A的音频和视频信号(由A-V子系统120A得到)的未修改版本用于向第二人110B输出和显示第一人110A的音频和视频(利用靠近第二人110B的A-V子系统120B)。因此，在与第二人110B进行视频聊天时，如果第一人110A带有愤怒的面部表情(例如皱眉)、愤怒的身体姿势(例如拳头竖直紧握)以及愤怒的(例如高的)语调，第二人110B将看到第一人110A愤怒的面部表情和愤怒的身体姿势，并听到第一人110A愤怒的语调。应注意，如本文中所使用的术语，身体姿势也包括手势。

根据本技术的某些实施例，第一人110A的音频和视频信号在提供给A-V子系统120B之前进行了修改，使得第二人110B听到和看到的第一人110A的音频和视频与第一人110A实际的样子和声音不同。对第一人110A的音频和视频信号的这种修改可以由获取该音频和视频信号的同一A-V子系统执行。更具体地，如图2所示，A-V和修改子系统220A可以获取第一人的音频和视频信号，并在将这些信号提供给通信网络130之前修改这些信号，通信网络130将修改后的音频和视频信号提供给靠近第二人110B的A-V子系统120B。或者，对第一人110A的音频和视频信号的这种修改可以由与获取第一人110A的音频和视频信号的A-V子系统120A不同的另一子系统来执行。例如，如图3所示，修改子系统320A可以接收第一人110A的音频和视频信号，并且修改子系统320A可以在将这些信号提供给通信网络130之前修改这些信号，通信网络130将修改后的音频和视频信号提供给靠近第二人110B的A-V子系统120B。可选地，A-V子系统120A(其获取第一人110A的音频和视频信号)通过一个或多个通信网络130将第一人110A的音频和视频信号提供给修改子系统420A，然后，在修改子系统420修改这些信号之后，修改子系统420可以通过通信网络130将修改后的第一人110A的音频和视频信号提供给靠近第二人110B的A-V子系统120B。其它变化也是可能的，且在本文所述实施例的范围内。尽管在图1至图4中未示出，但是也可以将第二人110B的视频和音频信号提供给类似的修改子系统以修改这些信号，使得第二人的感知情绪与第二人110B的语义情绪更加一致。

第一人110A的音频和视频信号由A-V子系统120A(图1、图3和图4中)或A-V和修改子系统220A(图2中)捕获或以其他方式得到，也可以称为捕获的第一人110A的音频和视频信号。图5示出了从A-V子系统120A接收捕获的音频和视频信号的修改子系统520，或者是A-V和修改子系统220A的一部分。如图5所示，修改子系统520包括情绪检测块530(也可以称为情绪检测器530)和情绪修改块540(也可以称为情绪修改器540)。例如，情绪检测块530可以检测第一人110A的消极、积极和/或中性情绪。典型的消极情绪包括但不限于愤怒、紧张、分心和沮丧。例如，情绪修改器540可以修改音频和视频信号，使得修改后的音频和视频信号中的第一人110A的一种或多种感知情绪是中性或积极情绪。典型的中性或积极情绪包括但不限于快乐、平静、警觉和高兴。下面结合图6说明根据本技术的具体实施例的情绪检测器530和情绪修改器540的附加细节。

参考图6，情绪检测器530示出为包括面部检测块610(也称为面部检测器610)和面部表情识别块612(也称为面部表情识别器612)。情绪检测器530还示出为包括骨架检测块614(也称为骨架检测器614)和姿势识别块616(也称为姿势识别器616)。如图6所示，面部检测器610和骨架检测器614示出为接收视频信号602。例如，视频信号602可以是由A-V子系统120A捕获的第一人110A的视频信号，更具体地，是由其一个或多个摄像头捕获的。仍然参考图6，情绪检测器530还示出为包括音频信号处理块624(也称为音频信号处理器624或音频信号分析器624)和自然语言处理块626(也称为自然语言处理器626或自然语言分析器626)。如图6所示，音频信号分析器624和自然语言分析器626接收音频信号622。例如，音频信号622可以是由A-V子系统120A捕获的第一人110A的音频信号，或者更具体地，是由其麦克风捕获的。视频信号602和音频信号622假定为数字信号，除非另有特别说明。例如，接口603和623可以分别从摄像头和麦克风或从一个或多个其他子系统接收视频信号602和音频信号622。

根据某些实施例，面部检测器610可以检测图像内的人脸，并且还可以检测图像内的面部特征。已开发的(或将来开发的)计算机视觉技术可以用于面部检测器610来检测这些面部特征。例如，色相饱和值(Hue-Saturation-Value，HSV)颜色模型或其他某些计算机视觉技术可以用于检测图像中的人脸。特征检测模型或其他某些计算机视觉技术可以用于识别面部特征，例如但不限于眼睛、鼻子、嘴唇、下巴、脸颊、眉毛和/或前额等。特征检测还可以用于检测特定面部区域的皱纹，例如前额、嘴巴两侧和/或眼睛周围。在某些实施例中，可以使用限界框来识别人脸及其面部特征。某些待识别特征可以包含在其他特征中，例如用户面部的眼睛，在这种情况下，连续的限界框可以用于首先识别包含特征(例如面部)，然后识别被包含特征(例如一双眼睛中的每一只眼睛)。在其他实施例中，可以使用单个限界框来识别每个不同的特征。在某些实施例中，一个或多个算法库，例如OpenCV(http://opencv.willowgarage.com/wiki/)计算机视觉库和/或Dlib算法库(http://dlib.net/)可以用于识别这些面部特征并生成限界框。在某些实施例中，限界框不必是矩形，也可以是其他形状，例如但不限于椭圆形。在某些实施例中，机器学习技术，例如增强(boosting)，可以用于提高面部特征(例如眼睛、鼻子和嘴唇等)检测中的置信度。更一般地，数据集可以用于训练深度神经网络(deepneuralnetwork，DNN)和/或其他计算机模型以从图像中检测面部特征，并且训练得到的DNN和/或其他计算机模型随后可以用于面部特征识别。

一旦面部特征由面部检测器610识别到(也称为检测到)，面部表情识别器612就可以确定人的面部表情。一般来说，人脸由不同部分组成，如上所述，下巴、嘴巴、眼睛和鼻子等。这些面部特征的形状、结构和大小会随着面部表情的不同而变化。此外，随着某些面部表情，特定面部位置的皱纹可能会改变。例如，可以利用人的眼睛和嘴巴的形状来区分不同的面部表情，如可以利用人前额上的皱纹和/或类似物。至少部分地基于检测到的人的面部表情，可以由图6中的感知情绪检测器632确定人的一种或多种感知情绪。例如，可以至少部分地基于检测到的面部表情来检测到的感知情绪包括但不限于愤怒、紧张、分心、沮丧，以及快乐、平静、警觉和高兴。下面将说明某些用于量化感知情绪的技术。

骨架检测器614可以利用骨架检测模型或其他某些计算机视觉技术来识别人体部位和关节，例如但不限于手臂、手部、肘部和/或手腕等。姿势识别器616可以检测特定姿势，例如，人在驾驶车辆时是否用双手握住车辆方向盘，或者人在驾驶车辆时是否一只手臂抬起并紧握拳头。数据集可以用于训练深度神经网络(deepneuralnetwork，DNN)和/或其他计算机模型以从图像中检测人体姿势，并且训练得到的DNN和/或其他计算机模型随后可以用于姿势识别。

一旦骨架检测器614在图像中检测到人体部位，姿势识别器616就可以确定人的姿势。一般来说，人体由不同部位组成，例如头部、颈部、躯干、上臂、肘部、前臂、腕部、手部等。在某些姿势下，这些部位的整体相对位置和方向可能会发生变化。例如，一个人驾驶车辆时经常双手放在车辆方向盘上，但当他愤怒时，例如因为另一车辆的驾驶员导致这个人急停和/或急转弯等，他可能会抬起一只手臂并挥拳。从图6中可以理解，检测到的姿势也可以用于确定人的感知情绪，如姿势识别器616到感知情绪检测器632的连线所示。

如上所述，在图6中，音频信号分析器624和自然语言分析器626接收音频信号622。例如，音频信号622可以是由A-V子系统120A捕获的第一人110A的音频信号。音频信号分析器624可以分析音频信号622以检测音频信号622的各种特征，这些特征可能随着人的情绪状态而变化。例如，这些音频特征包括音调、颤音和变调。音调与信号频率有关，因此可以量化为频率。人声的音调变化通常与这个人的唤起状态相关，或者更一般地，与这个人的情绪状态相关。例如，音调的增加通常与高度唤起状态(例如愤怒、喜悦或恐惧)相关，而音调的降低通常与低唤起状态(例如悲伤或平静)相关。颤音是对人声的音调(例如基本频率)的周期性调制，以给定的速率和深度发生。颤音也与紧张有关，它通常与情绪变化相关。音调的波动增加从而产生颤音，例如可以表示快乐、痛苦或恐惧的增加。变调是每次开始说话时音调的快速改变，它超过目标几个半音，但迅速衰减到正常值。变调的使用导致音调变化增加，这与强烈的情绪和正效价相关。从图6中可以理解，音频信号分析器624执行的音频信号分析的结果也可以用于确定人的感知情绪，如音频信号分析器624到感知情绪检测器632的连线所示。从上述可以理解，特定音频特征中的某些变化可以指示积极情绪(例如快乐)或消极情绪(例如愤怒)的增加。例如，快乐或恐惧的增加都会导致音调升高。然而，通过单独或结合面部表情和/或身体姿势分析多个声音特征，对人的感知情绪的确定可能相对准确。

自然语言分析器626对音频信号622进行自然语言处理(naturallanguageprocessing，NLP)，其结果用于确定人的语义情绪，如自然语言分析器626到语义情绪检测器634的连线所示。自然语言分析器626执行的NLP可以包括语音识别，其针对人的语音提供文本表示。在自然语音中，连续的词之间几乎没有任何停顿，因此语音分割可以作为语音识别的子任务，其中语音分割包括将人的声音片段分割成多个词。自然语言分析器626可以用于识别单一语言或多种不同语言，例如英语、汉语、西班牙语、法语和德语，仅举几例。当自然语言分析器626能够针对多种不同语言执行NPL时，自然语言分析器626的输出可以包括针对人正在使用的特定语言的指示。

感知情绪检测器632可以通过一个或多个查找表(lookuptable，LUT)，基于面部表情分析器612、姿势识别器616和音频信号分析器624的输出来确定与个人相关联的一种或多种感知情绪。面部表情分析器612的输出可以指定基于人的视频信号602确定的人的一个或多个面部表情特征，姿势识别器616的输出可以指定基于人的视频信号602确定的人的一个或多个身体姿势，音频信号分析器624的输出可以指定基于音频信号622确定的一个或多个音频特征。代替LUT或者除了LUT之外，感知情绪检测器632还可以由一个或多个DNN和/或基于感知情绪训练数据训练得到的一个或多个其他计算机模型来实现，感知情绪训练数据可以包括面部表情训练数据、身体姿势训练数据、语音训练数据和/或其他感知情绪训练数据。

语义情绪检测器634可以通过一个或多个查找表(lookuptable，LUT)，基于自然语言分析器626的输出来确定与个人相关联的感知情绪。自然语言分析器626的输出可以指定基于音频信号622确定的个人所说的单词和句子，并且还可以指示所说的语言。代替LUT或者除了LUT之外，语义情绪检测器634还可以由一个或多个DNN和/或其他基于语义情绪训练数据训练得到的计算机模型来实现。

仍然参考图6，感知情绪检测器632和语义情绪检测器634的输出还示出为提供给情绪修改块540，也可以称为情绪修改器540。情绪修改器540还示出为接收捕获的视频信号602和捕获的音频信号622。情绪修改器540示出为包括面部表情修改块642、姿势修改块646和音频修改块648，也可以分别称为面部表情修改器642、姿势修改器646和音频修改器648。如上所述，感知情绪检测器632可以基于检测到的面部表情、基于视频信号602确定的检测到的身体姿势以及基于音频信号622确定的检测到的音频特征(例如音调、颤音和变调)来确定人的一种或多种感知情绪。同样如上所述，语义情绪检测器634通过NLP，基于人的口头语言来确定人的语义情绪。

根据本技术的某些实施例，面部表情修改器642修改视频信号602的面部表情图像数据以提高人的面部表情感知情绪(由感知情绪检测器632确定)与人的语义情绪(由语义情绪检测器364确定)之间的一致性。根据本技术的某些实施例，姿势修改器646修改视频信号602的图像数据以提高人的身体姿势感知情绪(由感知情绪检测器632确定)与人的语义情绪(由语义情绪检测器634确定)之间的一致性。根据本技术的某些实施例，音频修改器648修改音频信号622的音频数据以提高人的语音感知情绪(由感知情绪检测器632确定)与人的语义情绪(由语义情绪检测器634)之间的一致性。情绪修改器540示出为输出修改后的视频信号652和修改后的音频信号662。

本技术的某些实施例依赖于以下假设：在特定特征空间中，响应于环境因素和/或由环境因素引起的人的情绪与响应于语境和/或由语境引起的人的情绪明显不同，响应于环境因素和/或由环境因素引起的人的情绪与响应于语境和/或由语境引起的人的情绪之间的差异可以量化。根据某些实施例，用于量化感知情绪和语义情绪之间差异的特征空间是由唤起/效价环状模型(arousal/valancecircumplexmodel)定义的特征空间，最初由JamesRussell开发，并在1980年12月刊发的《人格与社会心理学杂志》(JournalofPersonalityandSocialPsychology)卷39(6)第1161至1178页发表了一篇题为“情绪环状模型”(Acircumplexmodelofaffect)的文章。唤起/效价环状模型(也可以更简洁地称为环状模型)表明，情绪分布在一个二维圆形空间中，包含唤起和效价。唤起对应于竖轴，效价对应于横轴，而圆心对应于中性效价和中等水平的唤起。在这个模型中，情绪状态可以表现为任何效价和唤起水平，或者表现为两个因素或其中之一的中性水平。JamesRussell和LisaFeldmanBarrett后续开发出一种修改后的唤起/效价环状模型，并在1999年5月刊发的《人格与社会心理学杂志》卷76(5)第805至819页发表了一篇题为“核心情绪、典型情绪事件以及其他所谓的情绪：解剖大象”(Coreaffect,prototypicalemotionalepisodes,andotherthingscalledemotion:dissectingtheelephant)的文章。

根据本发明的某些实施例，感知情绪检测器632采用一种或多种唤起/效价环状模型，分别基于面部表情、身体姿势和语音来确定三种感知情绪。更具体地，在某些实施例中，面部环状模型用于确定与人的面部表情相关联的唤起和效价，姿势环状模型用于确定与人的身体姿势相关联的唤起和效价，语音环状模型用于定义与人的语音相关联的唤起和效价。效价维度在横轴上表示，范围介于正效价和负效价之间。正效价和负效价(沿横轴)也分别称为愉快和不愉快情绪，或者更一般地，称为积极性。唤起维度在竖轴上表示，竖轴与“效价”横轴相交，范围介于激活和非激活之间。激活和非激活唤起(沿竖轴)也分别称为强烈和非强烈唤起，或者更一般地，称为活跃性。图7A示出了一般的环状模型，图7B示出了面部环状模型，图7C示出了姿势环状模型，图7D示出了语音环状模型。

根据本技术的某些实施例，由面部表情检测、姿势检测和语音检测算法生成的特征向量输入到DNN。面部表情检测可以由上述参考图6说明的面部检测器610和面部表情分析器612执行。面部表情检测结果可以是一个或多个面部特征向量。姿势检测可以由骨架检测器614和姿势识别器616执行。身体姿势检测结果可以是一个或多个姿势特征向量。语音检测可以由音频信号分析器624执行。语音检测结果可以是一个或多个语音特征向量。根据某些实施例，上述特征向量级联在一起并馈送到DNN。该DNN可以用于实现图6中的感知情绪检测器632。

根据本技术的某些实施例，实现感知情绪检测器632的DNN的输出为六个值，记为{aro_f，val_f，aro_p，val_p，aro_s，val_s}，其中“aro”表示唤起，“val”表示效价，下标f、p和s分别表示面部、姿势和语音。因此，存在指示人的面部表情的唤起值和效价值、指示人的身体姿势的唤起值和效价值以及指示人的语音的唤起值和效价值。根据某些实施例，这些值用于修改人的面部表情、身体姿势和/或语音，下文将进一步详细解释。术语“修改”和“改变”在本文中可互换使用。

根据本技术的某些实施例，为了量化人的语义情绪，应用基于深度学习的自然语言处理(naturallanguageprocessing，NLP)算法。主要思路是确定情绪对所识别语音的语境依赖性。在自然语言处理中，文本实例通常表示为特征空间中的向量。特征的数量通常可多达几十万，而且这些特征通常具有已知的意义。例如，实例是否包含先前在训练数据中观察到的特定词，该词是否在情绪词典中列为积极/消极词汇，等等。利用NLP算法可以估计出人的语义情绪。根据某些实施例，实现语义情绪检测器634的DNN的输出为两个值，记为{aro_sem，val_sem}，可以共同表示为Emo_sem。根据某些实施例，人的语义情绪Emo_sem用于修改人的面部表情、身体姿势和/或语音所对应的图像数据和音频数据，下文将进一步详细解释。

每种感知情绪Emoⁱ _perc记为环状模型中的一个点，其中i＝{face，pose，speech}。这使得可以将多种感知情绪映射到环状模型上，如图8所示。语义情绪Emo_sem也记为环状模型中的一个点，可以映射到相同的环状模型，也如图8所示。参考图8，标为802的“X”对应于人的感知面部情绪，标为804的“X”对应于人的感知姿势情绪，标为806的“X”对应于人的感知语音情绪。X802、804和806的位置由六个值定义，记为{aro_f，val_f，aro_p，val_p，aro_s，val_s}，如上所述。更具体地，标为802的“X”的位置由值aro_f和val_f定义，标为804的“X”的位置由值aro_p和val_p定义，标为806的“X”的位置由值aro_s和val_s定义。仍然参考图8，标为808的点对应于人的语义情绪Emo_sem。标为808的点的位置由值aro_sem和val_sem定义。

如上所述，活跃性是唤起的衡量指标，积极性是效价的衡量指标。任一感知情绪

与语义情绪Emo_sem之间的差距dist_i可以通过以下公式来计算：

感知情绪

与语义情绪Emo_sem之间的差距表示感知情绪与语义情绪的一致性程度。例如，当特定感知情绪(例如身体姿势)与语义情绪之间的差距相对较小时，表示感知情绪与语义情绪基本一致。反之，当特定感知情绪(例如身体姿势)与语义情绪之间的差距相对较大时，表示感知情绪与语义情绪基本不一致。根据某些实施例，针对每种确定的感知情绪，确定感知情绪与语义情绪之间的差距，使得确定三个差距值，分别用于面部表情、身体姿势和语音。当确定出的差距超过指定差距阈值时，将确定感知情绪与语义情绪基本不一致，并且响应于该确定，修改相应特征(例如面部表情、身体姿势或语音)以提高感知情绪与语义情绪之间的一致性。再例如，当确定出的面部感知情绪(由图8中标为802的“X”表示)与语义情绪(由图8中标为808的点表示)之间的差距大于指定差距阈值时，修改视频信号的面部图像数据以产生修改后的视频信号，其中面部感知情绪与语义情绪更加一致。反之，若确定出的面部感知情绪与语义情绪之间的差距小于指定差距阈值(也称为在指定差距阈值之内)，则不对视频信号的面部图像数据进行修改。针对身体姿势和语音，也确定相应差距，并将确定出的差距与差距阈值进行比较。比较结果用于确定是否修改视频信号的身体姿势数据和/或音频信号的语音数据。

图9的流程图概述了上述差距的确定和比较。参考图9，在步骤902中，确定一种感知情绪(面部、姿势、语音)与语义情绪之间的差距，更具体地，例如使用上述公式计算该差距。在步骤904中，将计算得到的差距与差距阈值进行比较。在步骤906中，确定计算得到的差距是否在差距阈值之内(即小于差距阈值)。若计算得到的差距不在差距阈值之内(即，若步骤906中对所述确定的回答为否)，则流程进入步骤908，并在流程进入步骤910之前，在步骤908中修改相关信号或其部分。若计算得到的差距在差距阈值之内(即，若步骤906中对所述确定的回答为是)，则流程进入步骤910，并且不对相关信号或其部分进行任何修改。以上概述的步骤可以针对不同的感知情绪(包括面部、姿势和语音)执行。

根据本技术的某些实施例，通过生成合成图像/音频来修改第一人的视频和音频以替换其原始版本。更具体地，对最初获得的第一人的视频和音频信号进行修改，以产生修改后的视频和音频信号。当修改后的视频和音频信号由第二人(或多个他人)看到和听到时，其包含与第一人的语义情绪更加一致的感知情绪。根据某些实施例，生成的图像/音频的感知情绪应尽可能接近语义情绪。

再次参考图6，情绪修改器540(更具体地，也可以称为感知情绪修改器540)示出为包括面部表情修改器642、姿势修改器646和音频修改器648。每个修改器642、646和648，也可以称为模块，利用算法通过修改所捕获的音频和视频信号中的特定数据来生成合成图像或合成音频。举个简单的例子，假设确定第一人的语义情绪为快乐，但其面部感知情绪为紧张，姿势感知情绪为不安，语音感知情绪为焦虑。通过本技术实施例，修改面部图像数据使得人的面部表情是快乐的(而不是紧张的)，修改姿势图像数据使得人的身体姿势是快乐的(而不是不安的)，修改音频数据使得人的语音是快乐的(而不是紧张的)。这种修改应实时或近实时地完成，这样在视频聊天过程中就不会有明显的滞后。

如上所述，可以使用一个或多个DNN和/或其他计算机模型来修改所捕获的视频和音频信号以产生修改后的视频和音频信号。根据特定实施例，使用生成对抗网络(generativeadversarialnetwork，GAN)来执行这种修改。GAN是一种深度神经网络架构，它包括两个神经网络，即生成神经网络和判别神经网络，在竞争中彼此冲突(因此使用术语“对抗”)。因此，判别神经网络可以视为GAN神经网络的子网络。生成神经网络生成候选项，判别神经网络对候选项进行评价。竞争以数据分布为依据。生成神经网络可以学习从潜在空间映射到感兴趣的数据分布，而判别神经网络可以区分生成神经网络产生的候选项与真实数据分布。生成神经网络的训练目标可以是增加判别神经网络的错误率(即，通过产生判别器认为非合成的新颖候选项(真实数据分布的一部分)来“欺骗”判别神经网络)。已知数据集作为判别神经网络的初始训练数据。训练判别神经网络可以包括向它提供训练数据集的样本，直到它达到可接受的精度。生成神经网络可以基于它是否成功欺骗了判别神经网络来训练。生成神经网络可以使用从预定义潜在空间(例如多元正态分布)采样的随机输入。此后，由生成神经网络合成的候选项可以由判别神经网络来评价。反向传播可以应用于两个网络，使得生成神经网络产生更好的图像，而判别神经网络更熟练地标记合成图像。生成神经网络可以是例如反卷积神经网络，而判别神经网络可以是例如卷积神经网络。在使用GAN修改视频聊天过程中的信号之前，应该对GAN进行训练。

再次参考图6，面部表情修改器642可以由GAN来实现。更具体地，GAN可以用于修改视频信号中的图像数据，以产生可用于显示人的逼真图像的修改后视频信号，其中所述图像已修改以使得人的面部和姿势感知情绪与人的语义情绪更加一致。GAN还可以用于修改音频信号，使得人的语音感知情绪与人的语义情绪更加一致。在特定实施例中，StarGAN可以用于执行图像和/或音频修改。Y.Choi等人在2018年的国际计算机视觉与模式识别会议(CVPR)上发表了一篇题为“StarGAN：用于多域图像间转译的统一生成对抗网络”(StarGAN:UnifiedGenerativeAdversarialNetworksforMulti-DomainImage-to-ImageTranslation)的文章，讨论StarGAN如何在现实中用于修改人的面部表情。使用附加和/或替代类型的神经网络和/或其他类型的计算机模型也在本文所述实施例的范围内。

仍然参考图6，GAN还可以用于实现姿势修改器646。或者，可以使用预训练视觉生成器模型来实现姿势修改器646。如图6所示，将原始视频信号602提供给骨架检测器614。原始视频信号602也可以称为原始图像流602。骨架检测器614从原始图像流中提取骨架信息。骨架信息可以表示为向量X，其存储了帧中所有的关节位置。根据一实施例，向量X与语义情绪信号相组合，语义情绪信号由向量e表示。这两个向量可以级联为向量X，并作为预训练视觉生成器模型的输入。预训练视觉生成器模型可以实现为例如具有卷积层、最大池化层、反卷积层和批量归一化层，但不限于此。预训练视觉生成器模型的输出可以用于生成修改后的视频信号652，其包括修改后的身体姿势，与语义情绪更加一致。

仍然参考图6，如上所述，原始音频信号622示出为提供给音频信号分析器624。为了使人的语音所对应的感知情绪与其语义情绪更加一致，音频信号可修改的特征包括音调、颤音、变调，但不限于此。更具体地，音调可以移位，其中音调移位表示原始语音信号的音调乘以因子α。音调的增加(α>1)通常与高度唤起状态(例如快乐)相关，而音调的降低(α<1)则与低效价(例如悲伤)相关。颤音是对音调(基本频率)的周期性调制，以给定的速率和深度发生。颤音也与紧张有关，通常认为与高度唤起相关，甚至在单元音中是情绪的重要标志。颤音可以修改以改变语音所对应的感知情绪。变调是每次开始说话时音调的快速改变(例如500毫秒)，它超过目标几个半音，但迅速衰减到正常值。变调的使用导致音调变化增加，这与强烈的情绪和正效价相关。变调也可以修改以改变语音所对应的感知情绪。音频信号还可以滤波以改变语音所对应的感知情绪，其中滤波是指加强或衰减频谱中某些区域的能量贡献的过程。例如，高度唤起的情绪往往与高频能量的增加有关，使得声音更加清亮。相较于人的语音所对应的感知情绪，当人的语义情绪对应于更低的唤起时，可以通过滤波来衰减音频信号中的高频能量，使得感知情绪与语义情绪更加一致。修改后的音频信号的情绪语调应该是可识别的，声音听起来应该是自然的，而不是合成的。如上所述，术语“修改”和“改变”在本文中可互换使用。

一个或多个处理器可以用于实现上述神经网络。在使用多个处理器时，它们可以共址或广泛干扰，或其组合。

图10的概要流程图现在将用于概述根据本技术的某些实施例的方法。参考图10，步骤1002涉及获取与第二人进行视频聊天的第一人的视频信号和音频信号。再次参考图1至图4，步骤1002可以由A-V子系统(例如120A)执行，或者更具体地，由A-V子系统的一个或多个摄像头和一个或多个麦克风执行，或者由其他某些子系统或系统执行。

再次参考图10，步骤1004涉及基于视频信号确定第一人的一种或多种感知情绪。步骤1006涉及基于音频信号确定第一人的语义情绪。如上所述，在步骤1004中可以确定的感知情绪的类型包括面部表情感知情绪、身体姿势感知情绪和语音感知情绪。

再次简要参考图5和图6，各种感知情绪可以例如由情绪检测器530确定，或者更具体地，由其感知情绪检测器632确定。更具体地，可以基于步骤1002中获取的视频信号确定第一人的面部表情和身体姿势，并由此确定第一人的面部表情感知情绪和身体姿势感知情绪。此外，可以对步骤1002中获取的音频信号进行音频信号处理以确定第一人的音调、颤音或变调中的至少一种，并且可以基于音频信号处理结果确定第一人的语音感知情绪。附加和/或替代性的变化也是可能的，且在本文所述实施例的范围内。

根据特定实施例，在步骤1004中，基于视频信号，采用面部环状模型量化第一人的面部表情的积极性和活跃性；基于视频信号，采用姿势环状模型量化第一人的身体姿势的积极性和活跃性；基于音频信号，采用语音环状模型量化第一人的语音的积极性和活跃性。

步骤1006中确定的语义情绪可以例如由情绪检测器530确定，或者更具体地，由其语义情绪检测器634确定。如上文进一步的详细解释，步骤1006可以涉及对音频信号进行自然语言处理；基于音频信号的自然语言处理结果，确定第一人的语义情绪。根据特定实施例，在步骤1006中，基于音频信号，采用语言环状模型确定第一人的语义情绪，以基于音频信号量化第一人的语言的积极性和活跃性。

再次参考图10，步骤1008涉及改变视频信号和音频信号以提高第一人的一种或多种感知情绪中的至少一种与第一人的语义情绪之间的一致性。如上文的详细说明，可以使用由一个或多个计算机实现的神经网络来执行步骤1008。其他类型的计算机实现的模型可以替代地或附加地用于执行步骤1008。步骤1008可以涉及修改视频信号中所包括的图像数据的面部表情和身体姿势，以及修改音频信号中所包括的音频数据的音调、颤音和变调中的至少一种。

根据特定实施例，步骤1008涉及改变视频信号中所包括的图像数据以减小第一人的面部表情的积极性和活跃性与第一人的语言的积极性和活跃性之间的差距。步骤1008还可以涉及改变视频信号中所包括的图像数据以减小第一人的身体姿势的积极性和活跃性与第一人的语言的积极性和活跃性之间的差距。进一步地，步骤1008还可以涉及改变音频信号中所包括的音频数据以减小第一人的语音的积极性和活跃性与第一人的语言的积极性和活跃性之间的差距。

仍然参考图10，步骤1010涉及将改变后的视频信号和改变后的音频信号提供给(例如传输至)与参与视频聊天的第二人相关联(例如靠近)的子系统(例如设备)，从而使得第二人能够看到和听到修改后的第一人的图像和音频，在修改后的图像和音频中，提高了第一人的一种或多种感知情绪中的至少一种与第一人的语义情绪之间的一致性。

例如，参考图9和图10，上述方法可以至少部分地由舱内计算机系统或移动计算设备执行，例如但不限于智能手机、平板电脑、笔记本电脑、膝上型电脑等。这些方法的步骤可以由移动计算设备单独执行；或者由移动计算设备执行，其中移动计算设备通过一个或多个通信网络与一个或多个服务器进行通信。图11示出了本技术实施例适用的示例性移动计算设备的示例性部件。这种移动计算设备可以用于例如实现A-V子系统(例如图1至图4中的120A或220A)，但不限于此。

图11示出了本文所述的本技术实施例适用的示例性移动计算设备1102。移动计算设备1102可以是智能手机，例如但不限于iPhoneTM、BlackberryTM、基于AndriodTM或WindowsTM的智能手机。移动计算设备1102还可以是平板计算设备，例如但不限于iPadTM、基于AndriodTM或WindowsTM的平板电脑。又例如，移动计算设备1102可以是iPodTouchTM等。

参考图11的框图，移动计算设备1102示出为包括摄像头1104、加速度计1106、磁力计1108、陀螺仪1110、麦克风1112、显示器1114(可以是触摸屏显示器或者非触摸屏显示器)、处理器1116、存储器1118、收发器1120、扬声器1122和驱动单元1124。这些元件中的每一个元件示出为连接到总线1128，总线1128使得各个元件能够相互通信并且将数据从一个元件传送到另一个元件。一些元件还可以在不使用总线1128的情况下相互通信。

摄像头1104可以用于获取视频信号，其包括使用移动计算设备1102的人的图像。麦克风1112可以用于产生音频信号，其指示使用移动计算设备1102的人所说的话。

加速度计1106可以用于测量相对于参考帧的线性加速度，因此可以用于检测移动计算设备1102的运动以及检测移动设备1102相对于地平线或地面的角度。磁力计1108可以用作罗盘，以确定磁北方向和相对于磁北的方向。陀螺仪1110可以用于检测移动计算设备1102的垂直和水平方向，并且可以与加速度计1106和磁力计1108一起用于获取与移动计算设备1102的方向有关的非常精确的信息。移动计算设备1102还可以包括附加传感器元件，例如但不限于环境光传感器和/或接近传感器。

显示器1114(可以是触摸屏类型的显示器或者非触摸屏类型的显示器)可以用作用户界面，以可视地向用户显示项目(例如图像、选项、指令等)，并接受来自用户的输入。显示器1114还可以用于使得移动计算设备1102的用户能够参与视频聊天。此外，移动计算设备1102可以包括附加元件，例如按键、按钮、轨迹板、轨迹球等，这些元件接受来自用户的输入。

存储器1118可以用于存储控制移动计算设备1102的软件和/或固件，以及存储通过摄像头1104捕获的图像，但不限于此。包括非易失性和易失性存储器在内的各种不同类型的存储器可以包含在移动计算设备1102中。驱动单元1124可以是例如硬盘，但不限于此，也可以用于存储控制移动计算设备1102的软件，以及存储通过摄像头1104捕获的图像，但不限于此。存储器1118和磁盘单元1124可以包括机器可读介质，其上存储有体现本文所述一个或多个方法和/或功能的一种或多种可执行指令集合(例如应用)。代替驱动单元1124，或者除了驱动单元之外，移动计算设备还可以包括固态存储设备，例如那些包括闪存或任何形式的非易失性存储器的存储设备。本文中所使用的术语“机器可读介质”应视为包括所有形式的存储介质，无论是单个介质或多种介质，例如集中式或分布式数据库和/或相关联的高速缓存和服务器；一个或多个存储设备，例如存储驱动(例如包括磁性驱动、光驱以及存储机构)以及一个或多个存储器设备或模块实例(无论是主存、处理器内部或外部的高速缓存、或缓冲器)。术语“机器可读介质”或“计算机可读介质”应视为包括任何有形非瞬时性介质，其能够存储或编码由机器执行的指令序列并且使得机器执行上述任一方法。术语“非瞬时性介质”明确包括所有形式的存储驱动(光驱、磁性驱动等)和所有形式的存储器设备(例如动态随机存取存储器(DRAM)、闪存(所有存储设计的)、静态随机存取存储器(SRAM)、磁性随机存取存储器(MRAM)、相变器等)，以及所有其他设计用于存储任何类型的信息以便后续检索的结构。

连接到天线1126的收发器1120可以用于通过例如Wi-Fi、蜂窝通信或移动卫星通信进行无线数据传输和接收。移动计算设备1102还可以通过蓝牙和/或其他无线技术进行无线通信。移动计算设备1102还可以包括多种收发器和/或多种天线。收发器1120可以包括发射器和接收器。

扬声器1122可以用于向用户提供听觉指令、反馈和/或指示，播放录音(例如音乐录音)，以及使得移动计算设备1102能够用作移动电话。扬声器1122还可以用于使得移动计算设备1102的用户能够参与视频聊天。

处理器1116可以用于例如在存储器1118和/或驱动单元1124中所存储的软件和/或固件的控制下，控制移动计算设备1102的各种其他元件。还可以存在多个处理器1116，例如中央处理器(centralprocessingunit，CPU)和图形处理器(graphicsprocessingunit，GPU)。处理器1116可以执行计算机指令(存储在非瞬时性计算机可读介质中)，以使得处理器执行用于实现本文所述的本技术实施例的步骤。

本文所述的本技术的某些实施例可以通过硬件、软件或硬件和软件两者的组合来实现。所使用的软件存储在一个或多个处理器可读存储设备上，用于对一个或多个处理器进行编程以执行本文所述的功能。处理器可读存储设备可以包括计算机可读介质，例如易失性和非易失性介质、移动和非移动介质。作为示例而非限定，计算机可读介质可以包括计算机可读存储介质和通信介质。计算机可读存储介质可以通过用于存储计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术来实现。例如，计算机可读存储介质包括随机存取存储器(RAM)、只读存储器(ROM)、电可擦可编程只读存储器(EEPROM)、闪存或其他存储器技术、只读光盘(CD-ROM)、数字通用光盘(DVD)或其他光盘存储、卡带、磁带、磁盘存储或其他磁性存储设备、或者可用于存储所需信息并可由计算机访问的任何其他介质。计算机可读介质不包括传播(propagated)、调制(modulated)或瞬时(transitory)信号。

通信介质通常在载波或其他传输机构等的传播、调制或瞬时数据信号中体现计算机可读指令、数据结构、程序模块或其他数据，并且包括任何信息传递介质。术语“调制数据信号”是指信号的一个或多个特性经设置或改变，以对信号中的信息进行编码。作为示例而非限定，通信介质包括有线介质，例如有线网络或直接有线连接，以及无线介质，例如射频(RF)和其他无线介质。上述任意组合也包括在计算机可读介质的范围之内。

在其他实施例中，部分或全部软件可以替换为专用硬件逻辑组件。例如，但不限于此，可用的硬件逻辑组件类型包括现场可编程门阵列(field-programmablegatearray，FPGA)、专用集成电路(application-specificintegratedcircuit，ASIC)、专用标准产品(application-specificstandardproduct，ASSP)、片上系统(system-on-a-chip，SOC)、复杂可编程逻辑器件(complexprogrammablelogicdevice，CPLD)、专用计算机等。在一个实施例中，实现一个或多个实施例的软件(存储在存储设备上)用于对一个或多个处理器进行编程。一个或多个处理器可以与一个或多个计算机可读介质/存储设备、外设和/或通信接口进行通信。

应理解，本公开可以具体体现为许多不同的形式且不应被解释为仅限于本文所阐述的实施例。相反，提供这些实施例是为了使本标的物详尽和完整，并将本公开充分传达给本领域技术人员。事实上，本标的物旨在覆盖包括在由所附权利要求书限定的本标的物公开的精神和范围内的这些实施例的替代物、修改和等同物。另外，在以下本标的物详细描述中，阐述了许多特定细节以便提供对本标的物的透彻理解。然而，所属领域的普通技术人员将清楚到，可以在没有这样具体细节的情况下实践本请求保护的标的物。

本文结合根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图图示和/或框图来描述本公开的各个方面。将理解，流程图图示和/或框图中每个方框以及流程图图示和/或框图中方框的组合可以通过计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以生成机器，使得所述指令通过计算机或其他可编程指令执行装置的处理器来执行，以创建用于实现流程图和/或框图中指定功能/动作的机制。

本公开的描述是为了解释和说明的目的而提供的，但并不旨在以所公开的形式为详尽说明或限制。在不偏离本公开的范围和精神的前提下，多种修改和改变对本领域技术人员而言是显而易见的。选择和描述的本公开各个方面以便更好地解释本公开的原理和实际应用，并且使本领域技术人员能够理解本公开适合预期特定用途的各种修改。

结合各种实施例对本公开进行了描述。然而，通过对附图、公开内容和所附权利要求的研究，可以理解和实现对所公开实施例的其他变化和修改，并且这些变化和修改应解释为包含在所附权利要求中。在权利要求书中，词语“包括”不排除其它元素或步骤，不定冠词“a”或者“an”不排除多个。

在本文中，应注意，图中所绘各种特征的尺寸不一定按比例绘制。

在本文中，说明书中可以引用“一实施例”、“一个实施例”、“某些实施例”或“另一个实施例”来描述不同的实施例或相同的实施例。

在本文中，连接可以是直接连接或间接连接(例如经由一个或多个其他部件)。在某些情况下，当一个元件称为连接到或耦合到另一元件时，该元件可以直接连接到另一元件，或者通过中间元件间接连接到另一元件。当一个元件称为直接连接到另一元件时，那么在该元件和另一元件之间不存在中间元素。如果两个设备直接或间接相连从而可以相互传输电子信号，它们就处于“通信中”。

在本文中，术语“基于”可以理解为“至少部分基于”。

在本文中，在没有附加上下文的情况下，使用“第一”对象、“第二”对象和“第三”对象等数字项可能不意味着对象的顺序，而是可以用于标识不同对象。

出于说明和描述的目的，提供了上述详细说明。其并非旨在穷举或限制发明标的物为所公开的精确形式。根据上述教导，许多修改和变更是可能的。选出和描述的各个实施例的目的是为了更好地解释公开技术的原理和其实际应用，因而使本领域技术人员能够更好利用各个实施例的技术和适合预期特定用途的各种变更。旨在通过所附权利要求限定范围。

虽然已经以特定于结构特征和/或方法动作的语言描述了标的物，但是应该理解的是，权利要求书定义的标的物不必局限于上面描述的具体特征或动作。相反，上述具体特征和动作公开为实现权利要求的示例形式。

Claims

1.一种方法，其特征在于，包括：

获取与第二人进行视频聊天的第一人的视频信号和音频信号；

基于所述视频信号确定所述第一人的一种或多种感知情绪；

基于所述音频信号确定所述第一人的语义情绪；

改变所述视频信号以提高所述第一人的一种或多种感知情绪中的至少一种与所述第一人的语义情绪之间的一致性。

2.根据权利要求1所述的方法，其特征在于，所述基于所述视频信号确定所述第一人的一种或多种感知情绪包括：

基于所述视频信号检测所述第一人的面部表情或身体姿势中的至少一种；

基于所述第一人的面部表情或身体姿势中的至少一种，确定所述第一人的面部表情感知情绪或身体姿势感知情绪中的至少一种。

3.根据权利要求2所述的方法，其特征在于，

所述确定所述第一人的一种或多种感知情绪还基于所述音频信号，包括对所述音频信号进行音频信号处理以确定所述第一人的语音的音调、颤音或变调中的至少一种，并基于所述音频信号的音频信号处理结果，确定所述第一人的语音感知情绪；

所述方法还包括改变所述音频信号以提高所述第一人的语音感知情绪与所述第一人的语义情绪之间的一致性。

4.根据权利要求3所述的方法，其特征在于，

所述改变所述视频信号以产生改变后的视频信号包括修改所述面部表情或身体姿势中的至少一种所对应的视频信号的图像数据；

所述改变所述音频信号以产生改变后的音频信号包括修改所述音调、颤音或变调中的至少一种所对应的视频信号的音频数据。

5.根据权利要求3或4所述的方法，其特征在于，还包括：

将所述改变后的视频信号和改变后的音频信号提供给与所述参与视频聊天的第二人相关联的子系统，从而使得所述第二人能够看到和听到所述第一人的图像和音频，在所述图像和音频中，提高了所述第一人的一种或多种感知情绪中的至少一种与所述第一人的语义情绪之间的一致性。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述基于所述音频信号确定所述第一人的语义情绪包括：

对所述音频信号进行自然语言处理；

基于所述音频信号的自然语言处理结果，确定所述第一人的语义情绪。

7.根据权利要求1至6中任一项所述的方法，其特征在于，

所述基于所述视频信号确定所述第一人的一种或多种感知情绪包括以下至少一种：

基于所述视频信号，采用面部环状模型量化所述第一人的面部表情的积极性和活跃性；或者

基于所述视频信号，采用姿势环状模型量化所述第一人的身体姿势的积极性和活跃性；

所述基于所述音频信号确定所述第一人的语义情绪包括基于所述音频信号，采用语言环状模型量化所述第一人的语言的积极性和活跃性；

所述改变所述视频信号以产生改变后的视频信号包括以下至少一种：

改变所述视频信号的图像数据以减小所述第一人的面部表情的积极性和活跃性与所述第一人的语言的积极性和活跃性之间的差距；或者

改变所述视频信号的图像数据以减小所述第一人的身体姿势的积极性和活跃性与所述第一人的语言的积极性和活跃性之间的差距。

8.根据权利要求7所述的方法，其特征在于，

所述确定所述第一人的一种或多种感知情绪还基于所述音频信号，包括基于所述音频信号，采用语音环状模型量化所述第一人的语音的积极性和活跃性；

所述方法还包括改变所述音频信号的音频数据以产生改变后的音频信号，从而减小所述第一人的语音的积极性和活跃性与所述第一人的语言的积极性和活跃性之间的差距。

9.根据权利要求8所述的方法，其特征在于，还包括：

10.一种子系统，其特征在于，包括：

一个或多个接口，用于接收与第二人进行视频聊天的第一人的视频信号和音频信号；

一个或多个处理器，通信耦合到所述一个或多个接口，用于：

基于所述视频信号确定所述第一人的一种或多种感知情绪；

基于所述音频信号确定所述第一人的语义情绪；

11.根据权利要求10所述的子系统，其特征在于，还包括：

一个或多个摄像头，用于获取所述视频信号；

一个或多个麦克风，用于获取所述音频信号。

12.根据权利要求10或11所述的子系统，其特征在于，所述一个或多个处理器实现一个或多个神经网络，所述一个或多个神经网络用于基于所述视频信号确定所述第一人的一种或多种感知情绪，并基于所述音频信号确定所述第一人的语义情绪。

13.根据权利要求10至12中任一项所述的子系统，其特征在于，所述一个或多个处理器实现一个或多个神经网络，所述一个或多个神经网络用于改变所述视频信号以提高所述第一人的一种或多种感知情绪中的至少一种与所述第一人的语义情绪之间的一致性。

14.根据权利要求10至13中任一项所述的子系统，其特征在于，为了基于所述视频信号确定所述第一人的一种或多种感知情绪，所述一个或多个处理器用于：

15.根据权利要求14所述的子系统，其特征在于，所述一个或多个处理器还用于：

对所述音频信号进行音频信号处理以确定所述第一人的语音的音调、颤音或变调中的至少一种，并基于所述音频信号的音频信号处理结果，确定所述第一人的语音感知情绪；

改变所述音频信号以提高所述第一人的语音感知情绪与所述第一人的语义情绪之间的一致性。

16.根据权利要求15所述的子系统，其特征在于，所述一个或多个处理器用于：

修改所述面部表情或身体姿势中的至少一种所对应的视频信号的图像数据，从而改变所述视频信号以产生改变后的视频信号；

修改所述音调、颤音或变调中的至少一种所对应的音频信号的音频数据，从而改变所述音频信号以产生改变后的音频信号。

17.根据权利要求10至16中任一项所述的子系统，其特征在于，所述一个或多个处理器用于：

对所述音频信号进行自然语言处理；

18.根据权利要求10至17中任一项所述的子系统，其特征在于，所述一个或多个处理器用于：

基于所述视频信号，采用面部环状模型量化所述第一人的面部表情的积极性和活跃性；

基于所述音频信号，采用语言环状模型量化所述第一人的语言的积极性和活跃性；

改变所述视频信号的图像数据以减小所述第一人的面部表情的积极性和活跃性与所述第一人的语言的积极性和活跃性之间的差距，并减小所述第一人的身体姿势的积极性和活跃性与所述第一人的语言的积极性和活跃性之间的差距。

19.根据权利要求18所述的子系统，其特征在于，所述一个或多个处理器还用于：

基于所述音频信号，采用语音环状模型量化所述第一人的语音的积极性和活跃性；

改变所述音频信号的音频数据以减小所述第一人的语音的积极性和活跃性与所述第一人的语言的积极性和活跃性之间的差距。

20.根据权利要求19所述的子系统，其特征在于，还包括：

发射器，用于将所述改变后的视频信号和改变后的音频信号传输至与所述参与视频聊天的第二人相关联的子系统，从而使得所述第二人能够看到和听到所述第一人的视频和音频，在所述视频和音频中，提高了所述第一人的一种或多种感知情绪中的至少一种与所述第一人的语义情绪之间的一致性。

21.一种存储计算机指令的非瞬时性计算机可读介质，其特征在于，当所述计算机指令由一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

基于所述视频信号确定所述第一人的一种或多种感知情绪；

基于所述音频信号确定所述第一人的语义情绪；

22.根据权利要求21所述的非瞬时性计算机可读介质，其特征在于，所述基于所述视频信号确定所述第一人的一种或多种感知情绪包括：

23.根据权利要求22所述的非瞬时性计算机可读介质，其特征在于，

当所述计算机指令由一个或多个处理器执行时，还使得所述一个或多个处理器执行所述改变所述音频信号以提高所述第一人的语音感知情绪与所述第一人的语义情绪之间的一致性的步骤。

24.根据权利要求23所述的非瞬时性计算机可读介质，其特征在于，

25.根据权利要求23或24所述的非瞬时性计算机可读介质，其特征在于，当所述计算机指令由一个或多个处理器执行时，还使得所述一个或多个处理器执行以下步骤：

26.根据权利要求21至25中任一项所述的非瞬时性计算机可读介质，其特征在于，所述基于所述音频信号确定所述第一人的语义情绪包括：

对所述音频信号进行自然语言处理；