CN112584079A

CN112584079A - 视频通话人脸呈现方法、视频通话装置及汽车

Info

Publication number: CN112584079A
Application number: CN201910944612.9A
Authority: CN
Inventors: 徐文康; 黄为; 张峻豪; 黄晓林
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2021-03-30
Also published as: US20220224860A1; WO2021063012A1; EP4027638A4; EP4027638A1

Abstract

本发明公开了人工智能领域中的一种视频通话人脸呈现的方法，包括：根据用户面部图像获取用户的脸部表情关键特征点；通过用户的脸部表情关键特征点驱动用户头部3D图像，以得到用户的目标3D头像，该用户的目标3D头像带有用户的表情；基于预设呈现角度对目标3D头像进行旋转，得到预设呈现角度的目标3D头像；将预设呈现角度的目标3D头像发送至对端视频通话设备。本发明还公开了一种视频通话装置和汽车。采用本发明实施例可使得在视频通话时对方可实时看到预设呈现角度的用户3D头像，提高了视频会议通话效果。

Description

视频通话人脸呈现方法、视频通话装置及汽车

技术领域

本发明涉及人工智能领域，尤其涉及一种视频通话人脸呈现方法、视频通话装置及汽车。

背景技术

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人，自然语言处理，计算机视觉，决策与推理，人机交互，推荐与搜索，AI基础理论等。

自动驾驶是人工智能领域的一种主流应用，自动驾驶技术依靠计算机视觉、雷达、监控装置和全球定位系统等协同合作，让机动车辆可以在不需要人类主动操作下，实现自动驾驶。自动驾驶的车辆使用各种计算系统来帮助将乘客从一个位置运输到另一位置。一些自动驾驶车辆可能要求来自操作者(诸如，领航员、驾驶员、或者乘客)的一些初始输入或者连续输入。自动驾驶车辆准许操作者从手动模操作式切换到自东驾驶模式或者介于两者之间的模式。由于自动驾驶技术无需人类来驾驶机动车辆，所以理论上能够有效避免人类的驾驶失误，减少交通事故的发生，且能够提高公路的运输效率。因此，自动驾驶技术越来越受到重视。

美国通讯运营商AT&T在一项针对2000人的调研中发现，约10％的驾驶员在开车过程中使用手机进行视频通话。当前广泛使用的车载视频通话手段，视频通话呈现效果，尤其是视角受驾驶环境影响较大。例如，驾驶员的图像在远程会议另一端呈现视角与驾驶员视频通话装置(比如手机等)的位置有很大关系，而视频通话装置随着汽车的颠簸又很大程度上影响了画面的呈现效果和视频会议的体验。

发明内容

本发明实施例提供一种视频通话人脸呈现方法、视频通话装置及汽车，采用发明实施例可使得在视频通话时对方可实时看到预设呈现角度的用户3D头像，提高了视频通话的效果。

第一方面，本发明实施例提供一种视频通话人脸呈现方法，包括：

根据用户视频通话过程中的面部图像获取用户的脸部表情关键特征点；通过用户的脸部表情关键特征点驱动用户头部3D图像，以得到用户的目标3D头像，该用户的目标3D头像带有用户的表情；基于预设目标呈现角度对目标3D头像进行旋转，得到预设呈现角度的目标3D头像；将预设呈现角度的目标3D头像发送至对端视频通话设备。

在视频通话时，基于根据用户视频通话过程中的面部图像得到的用户的脸部表情关键特征点驱动用户头部3D头像，使得视频对端用户可实时看见用户的表情；通过获取用户预设呈现角度的3D头像，并将得到的预设呈现角度的3D头像发送至对端视频通话设备，使得对方看到用户预设角度的头部图像，提高了视频通话的效果。

在一个可行的实施例中，本发明的方法还包括：根据用户面部图像构建用户头部3D图像。

在一个可行的实施例中，用户面部图像包括N张用户红外图像，N为大于0的整数，根据用户面部图像构建用户头部3D图像，包括：

根据N张用户红外图像获取第一用户头部3D点云信息；根据该第一用户头部3D点云信息构建用户头部3D图像。

在一个可行的实施例中，用户面部图像包括N张用户红外图像和用户的彩色脸部图像，N为大于0的整数，根据用户面部图像构建用户头部3D图像，包括：

根据N张用户红外图像和用户的彩色脸部图像获取第二用户头部3D点云信息；根据第二用户头部3D点云信息构建用户头部3D图像。

在一个可行的实施例中，用户面部图像还包括用户的彩色脸部图像，本发明的方法还包括：

根据用户的彩色脸部图像获取用户的脸部纹理特征，其中，根据用户头部3D点云信息构建用户头部3D图像，包括：

根据用户头部3D点云信息和用户的脸部纹理特征构建用户头部3D图像，该用户头部3D图像为彩色图像，其中，用户头部3D点云信息包括第一用户头部3D点云信息或第二用户头部3D点云信息。

在一个可行的实施例中，用户面部图像包括N张用户红外图像和用户的彩色脸部图像，根据用户面部图像构建用户头部3D图像，包括：

将用户的彩色脸部图像和N张用户红外图像输入特征提取模型中进行计算，以得到用户的3D头部点云信息和脸部纹理特征；根据用户头部3D点云信息和脸部纹理特征构建用户头部3D图像，用户头部3D图像为彩色图像。

相较于基于红外图像获取的头部3D点云信息构建的用户头部3D图像，基于根据用户彩色脸部图像和红外图像获取的头部3D点云信息和脸部纹理特征构建的用户头部3D图像呈现出用户脸部细节多，也清晰，提高了用户视频通话或者视频会议的体验。

在一个可行的实施例中，特征提取模型包括3D头部特征提取网络和纹理特征提取网络，将用户的彩色脸部图像和N张用户红外图像输入特征提取模型中进行计算，以得到用户的3D头部点云信息和脸部纹理特征，包括：

将用户的彩色脸部图像和N张用户红外图像输入到3D头部特征提取网络中进行计算，以得到用户的3D头部点云信息；将用户的彩色脸部图像输入到纹理特征提取网络中进行计算，以得到用户的脸部纹理特征。

在一个可行的实施例中，3D头部特征提取网络采用encoder-decoder架构的神经网络；将用户的彩色脸部图像和N张用户红外图像输入到3D头部特征提取网络中进行计算，以得到用户的3D头部点云信息，包括：

根据用户的彩色脸部图像和N张用户红外图像获取N个图像对，其中，N个图像对中的每对均包括一张彩色图像和用户红外图像，N个图像对中的彩色图像均为用户的彩色脸部图像，N个图像对中的红外图像分别来自于N张用户红外图像；将N个图像对输入encoder-decoder架构的神经网络中进行计算，以得到用户的3D头部点云信息。

在一个可行的实施例中，预设呈现角度是根据N张用户红外图像得到的。

在一个可行的实施例中，本发明的方法还包括：

根据彩色深度图像获取用户头部3D图像，其中，根据彩色深度图像获取用户头部3D图像，包括：

根据彩色深度图像获取用户的3D头部点云信息和脸部纹理特征；基于用户的3D头部点云信息和脸部纹理特征构建用户头部3D图像，该用户头部3D图像为彩色图像。

在一个可行的实施例中，预设呈现角度是根据彩色深度图像得到的。

在一个可行的实施例中，在视频通话的过程中，实时获取多张用户红外图像，然后基于该多张用户红外图像获取用户头部3D点云信息，然后该用户头部3D点云信息和在此之前获取的用户头部3D点云信息构建用户头部3D图像。采用实施例的方案，通过不断获取用户红外图像来构建用户头部3D图像，进而优化用户头部3D图像，提高了用户在视频通话的体验。

第二方面，本发明实施例还提供一种视频通话装置，包括：

获取单元，用于根据用户视频通话过程中的面部图像获取用户的脸部表情关键特征点；

驱动单元，用于通过用户的脸部表情关键特征点驱动用户头部3D图像，以得到用户的目标3D头像，该用户的目标3D头像带有用户的表情；

旋转单元，用于基于预设呈现角度对目标3D头像进行旋转，得到预设呈现角度的目标3D头像；

发送单元，用于将预设呈现角度的目标3D头像发送至对端视频通话设备。

在一个可行的实施例中，视频通话装置还包括：

构建单元，用于根据用户面部图像构建用户头部3D图像。

在一个可行的实施例中，用户面部图像包括N张用户红外图像，N为大于0的整数，构建单元具体用于：

根据N张用户红外图像获取第一用户头部3D点云信息；根据第一用户头部3D点云信息构建用户头部3D图像。

在一个可行的实施例中，用户面部图像包括N张用户红外图像和用户的彩色脸部图像，N为大于0的整数，构建单元具体用于：

在一个可行的实施例中，用户面部图像还包括用户的彩色脸部图像，

获取单元，还用于根据用户的彩色脸部图像获取用户的脸部纹理特征；

构建单元具体用于：

在一个可行的实施例中，用户面部图像包括N张用户红外图像和用户头部彩色图像，构建单元具体用于：

将用户头部彩色图像和N张用户红外图像输入特征提取模型中进行计算，以得到用户的3D头部点云信息和脸部纹理特征；根据用户头部3D点云信息和脸部纹理特征构建用户头部3D图像，该用户头部3D图像为彩色图像。

在一个可行的实施例中，特征提取模型包括3D头部特征提取网络和纹理特征提取网络，在将用户的彩色脸部图像和N张用户红外图像输入特征提取模型中进行计算，以得到用户的3D头部点云信息和脸部纹理特征的方面，构建单元具体用于：

在一个可行的实施例中，3D头部特征提取网络采用encoder-decoder架构的神经网络；在将用户头部的彩色图像和N张用户红外图像输入到3D头部特征提取网络中进行计算，以得到用户的3D头部点云信息的方面，构建单元具体用于：

在一个可行的实施例中，用户面部图像为彩色深度图像，获取单元还用于：根据彩色深度图像获取用户头部3D图像，

其中，在根据彩色深度图像获取用户头部3D图像的方面，构建单元具体用于：

第三方面，本发明实施例提供一种汽车，该汽车包括视频通话系统，该视频通话系统包括处理器和通信装置，该处理器与通信装置连接，

处理器，用于根据用户视频通话过程中的面部图像获取用户的脸部表情关键特征点；通过用户的脸部表情关键特征点驱动用户头部3D图像，以得到用户的目标3D头像，该用户的目标3D头像带有用户的表情；基于预设呈现角度对目标3D头像进行旋转，得到预设呈现角度的目标3D头像，并将预设呈现角度的目标3D头像传输至通信装置；

通信装置，用于将预设呈现角度的目标3D头像发送至对端视频通话设备。

在一个可行的实施例中，处理器还用于：根据用户面部图像构建用户头部3D图像。

在一个可行的实施例中，用户面部图像包括N张用户红外图像，N为大于0的整数，在根据用户面部图像构建用户头部3D图像的方面，处理器具体用于：

在一个可行的实施例中，用户面部图像包括N张用户红外图像和用户的彩色脸部图像，N为大于0的整数，在根据用户面部图像构建用户头部3D图像的方面，处理器具体用于：

在一个可行的实施例中，用户面部图像还包括用户的彩色脸部图像，处理器，还用于根据用户的彩色脸部图像获取用户的脸部纹理特征；

在根据用户面部图像构建用户头部3D图像的方面，处理器具体用于：

根据用户头部3D点云信息和用户的脸部纹理特征构建用户头部3D图像，用户头部3D图像为彩色图像，其中，用户头部3D点云信息包括第一用户头部3D点云信息或第二用户头部3D点云信息。

在一个可行的实施例中，用户面部图像包括N张用户红外图像和用户的彩色脸部图像，在根据用户面部图像构建用户头部3D图像的方面，处理器具体用于：

将用户的彩色脸部图像和N张用户红外图像输入特征提取模型中进行计算，以得到用户的3D头部点云信息和脸部纹理特征；根据用户头部3D点云信息和脸部纹理特征构建用户头部3D图像，该用户头部3D图像为彩色图像。

在一个可行的实施例中，特征提取模型包括3D头部特征提取网络和纹理特征提取网络，在将用户的彩色脸部图像和N张用户红外图像输入特征提取模型中进行计算，以得到用户的3D头部点云信息和脸部纹理特征的方面，处理器具体用于：

在一个可行的实施例中，3D头部特征提取网络采用encoder-decoder架构的神经网络；在将用户的彩色脸部图像和N张用户红外图像输入到3D头部特征提取网络中进行计算，以得到用户的3D头部点云信息的方面，处理器具体用于：

在一个可行的实施例中，视频通话系统还包括红外摄像头，该红外摄像头与处理器连接，

红外摄像头，用于获取N张用户红外图像，并将N张用户红外图像传输至处理器。

在一个可行的实施例中，处理器还用于：根据彩色深度图像获取用户头部3D图像，

其中，在根据彩色深度图像获取用户头部3D图像的方面，处理器具体用于：

在一个可行的实施例中，视频通话系统还包括深度摄像头，深度摄像头与处理器连接，

深度摄像头，用于获取彩色深度图像，并将彩色深度图像传输至处理器。

第四方面，本发明实施例提供一种系统，该系统包括汽车和服务器，其中，该汽车包括视频通话系统，该视频通话系统包括处理器和通信装置，

服务器，用于根据用户脸部图像获取用户头部3D图像；

通信装置，用于从服务器中获取用户头部3D图像，并将该用户头部3D图像传输至处理器，

在一个可行的实施例中，服务器具体用于根据用户面部图像构建用户头部3D图像。

在一个可行的实施例中，用户面部图像包括N张用户红外图像，N为大于0的整数，在根据用户面部图像构建用户头部3D图像的方面，服务器具体用于：

在一个可行的实施例中，用户面部图像包括N张用户红外图像和用户的彩色脸部图像，N为大于0的整数，在根据用户面部图像构建用户头部3D图像的方面，服务器具体用于：

在根据用户面部图像构建用户头部3D图像的方面，服务器具体用于：

在一个可行的实施例中，用户面部图像包括N张用户红外图像和用户的彩色脸部图像，在根据用户面部图像构建用户头部3D图像的方面，服务器具体用于：

在一个可行的实施例中，特征提取模型包括3D头部特征提取网络和纹理特征提取网络，在将用户的彩色脸部图像和N张用户红外图像输入特征提取模型中进行计算，以得到用户的3D头部点云信息和脸部纹理特征的方面，服务器具体用于：

在一个可行的实施例中，3D头部特征提取网络采用encoder-decoder架构的神经网络；在将用户的彩色脸部图像和N张用户红外图像输入到3D头部特征提取网络中进行计算，以得到用户的3D头部点云信息的方面，服务器具体用于：

在一个可行的实施例中，服务器还用于：根据彩色深度图像获取用户头部3D图像，

其中，在根据彩色深度图像获取用户头部3D图像的方面，服务器具体用于：

进一步地，预设呈现角度是根据彩色深度图像得到的。

本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种自动驾驶汽车的结构示意图；

图2为本发明实施例提供的一种视频通话场景示意图；

图3为本发明实施例提供的一种视频通话人脸呈现方法的流程示意图；

图4为本发明实施例提供的3D头部特征提取网络的架构示意图；

图5为本发明实施例提供的双通道跨模态特征提取网络的架构示意图；

图6为本发明实施例提供的另一种视频通话人脸呈现方法的流程示意图；

图7为本发明实施例提供的另一种视频通话人脸呈现方法的流程示意图；

图8为各摄像头在汽车内部安装位置示意图；

图9为本发明实施例提供的另一种视频通话人脸呈现方法的流程示意图；

图10为本发明实施例提供的一种视频通话装置的结构示意图；

图11为本发明实施例提供的一种视频通话系统的架构示意图；

图12为本发明实施例提供的一种系统的结构示意图；

图13为本发明实施例提供的另一种视频通话装置的结构示意图；

图14为本发明实施例提供的一种神经网络处理器的结构示意图；

图15为本发明实施例提供的一种计算机程序产品的结构示意图。

具体实施方式

下面结合附图对本申请的实施例进行描述。

图1是本发明实施例提供的车辆100的功能框图。在一个实施例中，将车辆100配置为完全或部分地自动驾驶模式。例如，车辆100可以在处于自动驾驶模式中的同时控制自身，并且可通过人为操作来确定车辆及其周边环境的当前状态，确定周边环境中的至少一个其他车辆的可能行为，并确定该其他车辆执行可能行为的可能性相对应的置信水平，基于所确定的信息来控制车辆100。在车辆100处于自动驾驶模式中时，可以将车辆100置为在没有和人交互的情况下操作。

车辆100可包括各种子系统，例如行进系统102、传感器系统104、控制系统106、一个或多个外围设备108以及电源110、计算机系统112和用户接口116。可选地，车辆100可包括更多或更少的子系统，并且每个子系统可包括多个元件。另外，车辆100的每个子系统和元件可以通过有线或者无线互连。

行进系统102可包括为车辆100提供动力运动的组件。在一个实施例中，推进系统102可包括引擎118、能量源119、传动装置120和车轮/轮胎121。引擎118可以是内燃引擎、电动机、空气压缩引擎或其他类型的引擎组合，例如汽油发动机和电动机组成的混动引擎，内燃引擎和空气压缩引擎组成的混动引擎。引擎118将能量源119转换成机械能量。

能量源119的示例包括汽油、柴油、其他基于石油的燃料、丙烷、其他基于压缩气体的燃料、乙醇、太阳能电池板、电池和其他电力来源。能量源119也可以为车辆100的其他系统提供能量。

传动装置120可以将来自引擎118的机械动力传送到车轮121。传动装置120可包括变速箱、差速器和驱动轴。在一个实施例中，传动装置120还可以包括其他器件，比如离合器。其中，驱动轴可包括可耦合到一个或多个车轮121的一个或多个轴。

传感器系统104可包括感测关于车辆100周边的环境的信息的若干个传感器。例如，传感器系统104可包括定位系统122(定位系统可以是GPS系统，也可以是北斗系统或者其他定位系统)、惯性测量单元(inertial measurement unit，IMU)124、雷达126、激光测距仪128以及相机130。传感器系统104还可包括被监视车辆100的内部系统的传感器(例如，车内空气质量监测器、燃油量表、机油温度表等)。来自这些传感器中的一个或多个的传感器数据可用于检测对象及其相应特性(位置、形状、方向、速度等)。这种检测和识别是自主车辆100的安全操作的关键功能。

定位系统122可用于估计车辆100的地理位置。IMU 124用于基于惯性加速度来感测车辆100的位置和朝向变化。在一个实施例中，IMU 124可以是加速度计和陀螺仪的组合。

雷达126可利用无线电信号来感测车辆100的周边环境内的物体。在一些实施例中，除了感测物体以外，雷达126还可用于感测物体的速度和/或前进方向。

激光测距仪128可利用激光来感测车辆100所位于的环境中的物体。在一些实施例中，激光测距仪128可包括一个或多个激光源、激光扫描器以及一个或多个检测器，以及其他系统组件。

相机130可用于捕捉车辆100的周边环境的多个图像。相机130可以是静态相机或视频相机。

控制系统106为控制车辆100及其组件的操作。控制系统106可包括各种元件，其中包括转向系统132、油门134、制动单元136、传感器融合算法138、计算机视觉系统140、路线控制系统142以及障碍物避免系统144。

转向系统132可操作来调整车辆100的前进方向。例如在一个实施例中可以为方向盘系统。

油门134用于控制引擎118的操作速度并进而控制车辆100的速度。

制动单元136用于控制车辆100减速。制动单元136可使用摩擦力来减慢车轮121。在其他实施例中，制动单元136可将车轮121的动能转换为电流。制动单元136也可采取其他形式来减慢车轮121转速从而控制车辆100的速度。

计算机视觉系统140可以操作来处理和分析由相机130捕捉的图像以便识别车辆100周边环境中的物体和/或特征。所述物体和/或特征可包括交通信号、道路边界和障碍物。计算机视觉系统140可使用物体识别算法、运动中恢复结构(Structure from Motion，SFM)算法、视频跟踪和其他计算机视觉技术。在一些实施例中，计算机视觉系统140可以用于为环境绘制地图、跟踪物体、估计物体的速度等等。

路线控制系统142用于确定车辆100的行驶路线。在一些实施例中，路线控制系统142可结合来自传感器138、GPS 122和一个或多个预定地图的数据以为车辆100确定行驶路线。

障碍物避免系统144用于识别、评估和避免或者以其他方式越过车辆100的环境中的潜在障碍物。

当然，在一个实例中，控制系统106可以增加或替换地包括除了所示出和描述的那些以外的组件。或者也可以减少一部分上述示出的组件。

车辆100通过外围设备108与外部传感器、其他车辆、其他计算机系统或用户之间进行交互。外围设备108可包括无线通信系统146、车载电脑148、麦克风150和/或扬声器152。

在一些实施例中，外围设备108提供车辆100的用户与用户接口116交互的手段。例如，车载电脑148可向车辆100的用户提供信息。用户接口116还可操作车载电脑148来接收用户的输入。车载电脑148可以通过触摸屏进行操作。在其他情况中，外围设备108可提供用于车辆100与位于车内的其它设备通信的手段。例如，麦克风150可从车辆100的用户接收音频(例如，语音命令或其他音频输入)。类似地，扬声器152可向车辆100的用户输出音频。

无线通信系统146可以直接地或者经由通信网络来与一个或多个设备无线通信。例如，无线通信系统146可使用3G蜂窝通信，例如CDMA、EVD0、GSM/GPRS，或者4G蜂窝通信，例如LTE。或者5G蜂窝通信。无线通信系统146可利用WiFi与无线局域网(wirelesslocal areanetwork，WLAN)通信。在一些实施例中，无线通信系统146可利用红外链路、蓝牙或ZigBee与设备直接通信。其他无线协议，例如各种车辆通信系统，例如，无线通信系统146可包括一个或多个专用短程通信(dedicated short range communications，DSRC)设备，这些设备可包括车辆和/或路边站台之间的公共和/或私有数据通信。

电源110可向车辆100的各种组件提供电力。在一个实施例中，电源110可以为可再充电锂离子或铅酸电池。这种电池的一个或多个电池组可被配置为电源为车辆100的各种组件提供电力。在一些实施例中，电源110和能量源119可一起实现，例如一些全电动车中那样。

车辆100的部分或所有功能受计算机系统112控制。计算机系统112可包括至少一个处理器113，处理器113执行存储在例如数据存储装置114这样的非暂态计算机可读介质中的指令115。计算机系统112还可以是采用分布式方式控制车辆100的个体组件或子系统的多个计算设备。

处理器113可以是任何常规的处理器，诸如商业可获得的CPU。替选地，该处理器可以是诸如ASIC或其它基于硬件的处理器的专用设备。尽管图1功能性地图示了处理器、存储器、和在相同块中的计算机110的其它元件，但是本领域的普通技术人员应该理解该处理器、计算机、或存储器实际上可以包括可以或者可以不存储在相同的物理外壳内的多个处理器、计算机、或存储器。例如，存储器可以是硬盘驱动器或位于不同于计算机110的外壳内的其它存储介质。因此，对处理器或计算机的引用将被理解为包括对可以或者可以不并行操作的处理器或计算机或存储器的集合的引用。不同于使用单一的处理器来执行此处所描述的步骤，诸如转向组件和减速组件的一些组件每个都可以具有其自己的处理器，所述处理器只执行与特定于组件的功能相关的计算。

在此处所描述的各个方面中，处理器可以位于远离该车辆并且与该车辆进行无线通信。在其它方面中，此处所描述的过程中的一些在布置于车辆内的处理器上执行而其它则由远程处理器执行，包括采取执行单一操纵的必要步骤。

在一些实施例中，数据存储装置114可包含指令115(例如，程序逻辑)，指令115可被处理器113执行来执行车辆100的各种功能，包括以上描述的那些功能。数据存储装置114也可包含额外的指令，包括向推进系统102、传感器系统104、控制系统106和外围设备108中的一个或多个发送数据、从其接收数据、与其交互和/或对其进行控制的指令。

除了指令115以外，数据存储装置114还可存储数据，例如道路地图、路线信息，车辆的位置、方向、速度以及其它这样的车辆数据，以及其他信息。这种信息可在车辆100在自主、半自主和/或手动模式中操作期间被车辆100和计算机系统112使用。

相机130获取用户在视频通话过程中的面部图像，计算机系统112中的处理器113执行存储器114中存储的指令115，以执行如下步骤：

根据用户在视频通话过程中的面部图像获取用户的脸部表情关键特征点；通过用户的脸部表情关键特征点驱动用户头部3D图像，以得到用户的目标3D头像，该用户的目标3D头像带有用户的表情；基于预设目标呈现角度对目标3D头像进行旋转，得到预设呈现角度的目标3D头像；将预设呈现角度的目标3D头像发送至对端视频通话设备。

用户接口116，用于向车辆100的用户提供信息或从其接收信息。可选地，用户接口116可包括在外围设备108的集合内的一个或多个输入/输出设备，例如无线通信系统146、车载电脑148、麦克风150和扬声器152。

计算机系统112可基于从各种子系统(例如，行进系统102、传感器系统104和控制系统106)以及从用户接口116接收的输入来控制车辆100的功能。例如，计算机系统112可利用来自控制系统106的输入以便控制转向单元132来避免由传感器系统104和障碍物避免系统144检测到的障碍物。在一些实施例中，计算机系统112可操作来对车辆100及其子系统的许多方面提供控制。

可选地，上述这些组件中的一个或多个可与车辆100分开安装或关联。例如，数据存储装置114可以部分或完全地与车辆1100分开存在。上述组件可以按有线和/或无线方式来通信地耦合在一起。

可选地，上述组件只是一个示例，实际应用中，上述各个模块中的组件有可能根据实际需要增添或者删除，图1不应理解为对本发明实施例的限制。

在道路行进的自动驾驶汽车，如上面的车辆100，可以识别其周围环境内的物体以确定对当前速度的调整。所述物体可以是其它车辆、交通控制设备、或者其它类型的物体。在一些示例中，可以独立地考虑每个识别的物体，并且基于物体的各自的特性，诸如它的当前速度、加速度、与车辆的间距等，可以用来确定自动驾驶汽车所要调整的速度。

可选地，自动驾驶汽车车辆100或者与自动驾驶车辆100相关联的计算设备(如图1的计算机系统112、计算机视觉系统140、数据存储装置114)可以基于所识别的物体的特性和周围环境的状态(例如，交通、雨、道路上的冰、等等)来预测所述识别的物体的行为。可选地，每一个所识别的物体都依赖于彼此的行为，因此还可以将所识别的所有物体全部一起考虑来预测单个识别的物体的行为。车辆100能够基于预测的所述识别的物体的行为来调整它的速度。换句话说，自动驾驶汽车能够基于所预测的物体的行为来确定车辆将需要调整到(例如，加速、减速、或者停止)什么稳定状态。在这个过程中，也可以考虑其它因素来确定车辆100的速度，诸如，车辆100在行驶的道路中的横向位置、道路的曲率、静态和动态物体的接近度等等。

除了提供调整自动驾驶汽车的速度的指令之外，计算设备还可以提供修改车辆100的转向角的指令，以使得自动驾驶汽车遵循给定的轨迹和/或维持与自动驾驶汽车附近的物体(例如，道路上的相邻车道中的轿车)的安全横向和纵向距离。

上述车辆100可以为轿车、卡车、摩托车、公共汽车、船、飞机、直升飞机、割草机、娱乐车、游乐场车辆、施工设备、电车、高尔夫球车、火车、和手推车等，本发明实施例不做特别的限定。

应理解，本申请中的用户可以看成驾驶员。

参见图2，图2为本发明实施例提供的一种视频通话的场景示意图。如图2所示，在驾驶时，驾驶员需要进行视频通话或者视频会议。通过摄像头获取驾驶员在视频通话或者视频会议过程中的图像，根据该面部图像获取驾驶员的脸部表情关键特征点，通过用户的脸部表情关键特征点驱动驾驶员的头部3D头像，以得到驾驶员的目标3D头像，驾驶员的目标3D头像带有驾驶员的表情，基于预设目标呈现角度对驾驶员的目标3D头像进行旋转，以得到预设呈现角度的目标3D头像。驾驶员的头部3D头像是根据驾驶员的面部图像构建的，通过通信网络将预设呈现角度的目标3D头像发送至对端视频通话设备，如图2中的b图所示。

在一个示例中，驾驶员的面部图像包括N张驾驶员脸部红外图像。可选地，N张驾驶员脸部红外图像可以为驾驶员头部多角度图像。可选地，驾驶员的头部3D头像是根据上述N张驾驶员脸部红外图像构建的。

可选地，驾驶员的面部图像包括上述N张驾驶员脸部红外图像和驾驶员脸部彩色图像，根据该N张驾驶员脸部红外图像和驾驶员脸部彩色图像构建驾驶员头部彩色3D头像。通过驾驶员的脸部表情关键点驱动驾驶员头部3D头像，以得到驾驶员的目标3D头像，该驾驶员的目标3D头像为彩色头像。

可选地，从第三方服务器中获取驾驶员头部3D头像。

可选地，预设呈现角度是根据上述N张驾驶员脸部红外图像得到的。

其中，如图2中的a图所示，驾驶员脸部彩色图像是座舱监控摄像头获取的，N张驾驶员脸部红外图像是驾驶员监控摄像头获取的。

需要指出的是，座舱监控摄像头为彩色摄像头，驾驶员监控摄像头为红外摄像头。

在一个示例中，驾驶员的面部图像为彩色深度图像，上述摄像头为深度摄像头，该深度摄像头可以为TOF摄像头，双目摄像头或者其他深度摄像头。驾驶员头部3D头像是根据该彩色深度图像得到的。可选地，上述预设呈现角度是基于深度摄像头得到的。

在此需要说明的是，实现图2所示场景的具体过程可参见下述实施例的相关描述。

参见图3，图3为本发明实施例提供的一种视频通话人脸呈现方法的流程示意图。如图3所示，该方法包括：

S301、根据用户在视频通话过程中的面部图像获取用户的脸部表情关键点。

其中，可选地，用户在视频通话过程中的面部图像包括用户红外图像，用户的脸部表情关键特征点是基于用户红外图像得到的。

S302、通过用户脸部表情关键特征点驱动用户头部3D图像，以得到用户的目标3D头像。

其中，用户的目标3D头像带有用户的表情。

进一步地，用户面部图像包括N张用户红外图像，N为大于0的整数，根据用户面部图像构建用户头部3D图像，包括：

具体地，根据用户的彩色脸部图像获取用户的脸部纹理特征具体是将用户的彩色脸部图像输入到纹理特征提取网络中进行计算，以得到用户的脸部纹理特征。

根据用户的彩色脸部图像和N张用户红外图像获取N个图像对，其中，N个图像对中的每对均包括一张彩色图像和用户红外图像，N个图像对中的彩色图像均为用户的彩色脸部图像，N个图像对中的红外图像分别来自于N张用户红外图像；将N个图像对输入encoder-decoder架构的神经网络中进行计算，以得到用户头部3D点云信息。

具体地，如图4所示，特征提取模型包括3D头部特征提取网络和纹理特征提取网络。需要说明的是，对于3D头部特征提取网络，输入的“红外”表示为用户脸部红外图像，输入的“可见光”表示为用户彩色脸部图像。3D头部特征提取网络的输入为用户脸部红外图像和用户彩色脸部图像，输出为用户头部3D点云信息。纹理特征提取模型的输入为用户彩色脸部图像，输出为用户的脸部纹理特征。

其中，如图4所示，前端特征提取模型又可称为双通道跨模态特征提取网络，该网络为基于CNN的孪生神经网络。参见图5，图5为一种双通道跨模态特征提取网络的结构示意图。该网络为基于CNN的孪生神经网络。该孪生神经网络的权重部分或者全部相同，或者孪生神经网络中的两个CNN共享权重。如图5所示，该孪生神经网络的输入数据为图像对，图像对包括用户彩色脸部图像、用户红外图像和相似标识，该相似标识用于指示用户红外图像和用户彩色脸部图像是否相同或者红外图像和彩色正脸图像是否为同一用户的图像。

图像对可表示为(Xi,Xi’,Yi)，其中，i表示该图像对为输入图像对中的第i个，Xi为彩色正脸图像，Xi’表示红外图像，Yi为该图像对中的相似标识。相似标识的不同取值用于表示对应的用户彩色脸部图像Xi和用户红外图像Xi’是否相同或是否为同一用户的图像，比如相似标识取值为0或false，表示对应的用户彩色脸部图像Xi和用户红外图像Xi’不相同或者为不同用户的图像，相似标识取值为1或true，表示对应的用户彩色脸部图像Xi和用户红外图像Xi’相同或者为同一用户的图像。

将图像对中的用户彩色脸部图像和用户红外图像分别输入到孪生神经网络中进行计算，得到用户的特征向量。然后再将该用户的特征向量输入到后端特征提取模型中进行计算，得到用户的3D头像点云信息。

在一个可行的实施例中，在使用前端特征提取模型之前，需要对孪生神经网络进行训练，以得到前端特征提取模型。

具体地，获取多个图像对，然后将多个图像对中的用户彩色脸部图像和用户红外图像分别输入到孪生神经网络模型中，计算得到特征向量；然后基于特征向量和损失函数计算损失值；最后基于损失值调整孪生神经网络模型中的权值。

按照上述方法重复对孪生神经网络模型进行训练，直至该孪生神经网络模型满足使用需求。

在双通道跨模态特征提取网络(即前端特征提取模型)中，采用的损失函数是contrastiveloss，这种损失函数可以有效的处理网络中的图相对的关系。Contrastiveloss的表达式如下：

其中，d＝||a_n-b_n||₂，代表两个样本(即用户彩色脸部图像和用户红外图像)特征的欧氏距离，y为两个样本是否匹配的标签，y＝1代表两个样本相似或者匹配，y＝0则代表不匹配，margin为设定的阈值。该损失函数的另一个优势是有效缓解了训练网络对图相对的依赖。

后端的decoder(即后端特征提取模型)则使用转置卷积层，损失函数使用了每个像素点坐标与对应的真实值之间的二范数表征。后端特征提取模型接收双通道跨模态特征提取网络提取的特征向量作为输入，输出是3D点云坐标(65536个)，即用户的3D头部的点云信息。

双通道跨模态特征提取网络在具体网络实现形式上具有一定的多样性。实现参数的共享和跨模态信息融合，可以是两个并列的卷积神经网络通过共用某些隐藏层实现，也可以是单个卷积网络，同时输入红外图像和彩色图像，实现跨模态信息的提取和融合；或者是通过正则化方法，使得两个完全并列、独立的卷积神经网络的参数尽可能相似，从而实现信息的融合。

纹理特征提取模型为普通的卷积神经网络，如ResNet,MobileNet等。为了脸部提取纹理特征，使用了双通道跨模态特征提取网络的中间层作为输出，进行纹理特征的提取。

在另一个可行的实施例中，本发明的方法还包括：

在另一个可行的实施例中，从第三服务器中获取用户头部3D图像。

S303、基于预设呈现角度对目标3D头像进行旋转，以得到预设呈现角度的目标3D头像。

其中，预设呈现角度的目标3D头像可以为呈现用户正脸的头像，或者呈现用户侧脸的头像，或者是用户其他角度的头像。

具体地，根据N张用户红外图像或彩色深度图像，确定从当前用户头部呈现角度旋转至预设呈现角度，需要对目标3D头像进行旋转的角度V，进而将目标3D头像旋转角度V，以使目标3D的呈现角度为预设呈现角度。

在另一个具体的实施例中，获取用户在车载视频通话过程中的面部图像，该面部图像包括用户彩色脸部图像和多张用户红外图像，基于该用户彩色脸部图像和多张用户红外图像构建用户头部3D图像，根据多张用户红外图像获取用户的脸部表情关键特征点；基于该用户的脸部表情关键特征点驱动用户头部3D图像，以得到目标3D头像；基于预设呈现角度对目标3D头像进行旋转，以得到预设呈现角度的目标3D头像。

其中，预设呈现角度可以是预先设置的，还可以是基于多张用户红外图像得到的。

可选地，用户彩色脸部图像为用户彩色正脸图像。

S304、将预设呈现角度的目标3D头像发送至对端视频通话设备。

可以看出，在本发明实施例的方案中，根据用户视频通话过程中的面部图像获取用户的脸部表情关键特征点；通过用户的脸部表情关键特征点驱动用户头部3D图像，以得到用户的目标3D头像，该用户的目标3D头像带有用户的表情；基于预设目标呈现角度对目标3D头像进行旋转，得到预设呈现角度的目标3D头像；将预设呈现角度的目标3D头像发送至对端视频通话设备。在视频通话时，基于根据用户视频通话过程中的面部图像得到的用户的脸部表情关键特征点驱动用户头部3D头像，使得视频对端用户可实时看见用户的表情；通过获取用户预设呈现角度的3D头像，并将得到的预设呈现角度的3D头像发送至对端视频通话设备，使得对方看到用户预设角度的头部图像，提高了视频通话的效果。

参见图6，图6为本发明实施例提供的另一种视频通话人脸呈现方法的流程示意图。如图6所示，该方法包括：

步骤1：获取用户彩色正脸图像和连续多张用户红外图像，根据用户彩色正脸图像和连续多张用户红外图像进行3D脸部特征提取，以得到用户的3D头部点云信息，并基于用户彩色正脸图像进行脸部纹理特征提取，以得到用户的脸部纹理特征；基于多张用户红外图像进行3D脸部特征提取，以得到脸部表情关键特征点。

步骤2：基于用户的3D头部点云信息和脸部纹理特征进行3D人脸构建，以得到用户头部彩色3D图像。

步骤3：基于脸部表情关键特征点驱动用户头部彩色3D图像，以得到目标3D头像，该用户的目标3D头像带有该用户的实时表情。

步骤4：基于多张用户红外图像进行头部姿态估计，得到头部姿态，然后基于头部姿态确定旋转角度，再基于旋转角度对目标3D头像进行旋转，以得到旋转后的目标3D头像，旋转后的目标3D头像为用户的正脸头像。

步骤5：显示旋转后的目标3D头像。

最后将旋转后的目标3D头像发送至对端视频通话设备。

图6所示实施例的具体过程可参见图7所示实施例的相关描述。

参见图7，图7为本发明实施例提供的另一种视频通话人脸呈现方法的流程示意图。如图7所示，该方法包括：

S701、获取用户彩色正脸图像和实时获取连续N张用户红外图像，N为大于1的整数。

其中，用户彩色正脸图像是由座舱监控摄像头采集得到的，连续N张用户红外图像是通过驾驶员监控摄像头获取的。座舱监控摄像头为高清彩色摄像头，驾驶员监控摄像头为红外摄像头。

在一个示例中，连续N张用户红外图像是通过驾驶员监控摄像头获取的具体包括：连续N张用户红外图像是由驾驶员监控摄像头直接采集得到，或者连续N张用户红外图像从用户红外视频中得到的，该用户红外视频是由驾驶员监控摄像头采集得到的。

座舱监控摄像头和驾驶员监控摄像头在汽车上的安装位置如图8所示，驾驶员监控摄像头的安装位置如图8中的①②④所示，位置①为方向盘下方、仪表盘上方位置，位置②④为座舱左、右A柱。驾驶员监控摄像头的安装原则是能够拍摄到驾驶员头部、脸部全部信息。

座舱监控摄像头的安装位置在图8中的位置③，位置③在座舱后视镜上方位置。座舱监控摄像头的安装原则是能够拍摄到整个座舱环境。

S702、根据用户彩色正脸图像和N张用户红外图像构建用户头部彩色3D图像。

具体地将用户彩色正脸图像和N张用户红外图像输入特征提取模型中进行计算，以得到用户的3D头部点云信息和脸部纹理特征；根据用户头部3D点云信息和脸部纹理特征构建用户头部彩色3D头像。

在一个可行的实施例中，特征提取模型包括3D头部特征提取网络和纹理特征提取网络，将用户彩色正脸图像和N张用户红外图像输入特征提取模型中进行计算，以得到用户头部3D点云信息和脸部纹理特征，包括：

将用户彩色正脸图像和N张用户红外图像输入到3D头部特征提取网络中进行计算，以得到用户的3D头部点云信息；将用户彩色正脸图像输入到纹理特征提取网络中进行计算，以得到用户的脸部纹理特征。

在一个可行的实施例中，3D头部特征提取网络采用encoder-decoder架构的神经网络；将用户彩色正脸图像和N张用户红外图像输入到3D头部特征提取网络中进行计算，以得到用户的3D头部点云信息，包括：

根据用户彩色正脸图像和N张用户红外图像获取N个图像对，其中，N个图像对中的每对均包括一张彩色图像和用户红外图像，N个图像对中的彩色图像均为用户彩色正脸图像，N个图像对中的红外图像分别来自于N张用户红外图像；将N个图像对输入encoder-decoder架构的神经网络中进行计算，以得到用户头部3D点云信息。

在此需要说明的是，步骤S702的具体描述可参见步骤S302的相关描述，在此不再叙述。

S703、根据N张用户红外图像获取用户的脸部表情关键特征点和旋转角度。

其中，在根据N张用户红外图像获取用户的旋转角度，具体是根据N张用户红外图像进行头部姿态估计，得到用户的头部姿态，进而根据用户的头部姿态确定旋转该头部姿态至正脸呈现视角范围的旋转角度。

S704、通过表情驱动技术和用户的脸部表情关键特征点实时驱动用户头部彩色3D头像，以得到用户的目标3D头像。

其中，该用户的目标3D头像带有该用户的实时表情。

通过表情驱动技术，使得在视频通话时，对方可实时看到用户当前的表情，提高了视频通话的体验效果。

在此需要说明的是，通过表情驱动技术和用户的脸部表情关键特征点驱动用户头部彩色3D图像为本领域的公知常识，在此不再叙述。

S705、基于旋转角度对目标3D头像进行旋转，得到旋转后的目标3D头像。

在得到旋转后的目标3D头像后，显示该旋转后的目标3D头像，该旋转后的目标3D头像可以为用户的正脸头像，并将该旋转后的目标3D头像传输至对选视频通话设备。

在一个可行的实施例中，在获取旋转后的目标3D头像后，将该3D头像发送至与该用户进行视频通话的设备上，进而实现视频通话时呈现用户的正脸。

可以看出，在本申请实施例的方案中，本方案基于车载红外摄像头(即上述实施例中的驾驶员监控摄像头)，实时捕捉驾驶员的表情，以获取红外图像，并将红外图像迁移至用户彩色图像上完成表情驱动，实现红外域与可见光跨域迁移，由于该应用场景对光线不敏感，扩大了该方案的应用范围；本方案在符合交通法规前提下，实现了在座舱监控摄像头的视野范围内，对于任意角度的驾驶员图像均可进行实时正脸呈现和表情变化，保证行车安全的同时，提升用户视频会议体验。本申请的方案基于车载环境既有资源，不需穿戴式设备，使用更简单便捷。

在另一个具体的实施例中，如图9所示，通过深度摄像头获取用户深度彩色图像；根据用户深度彩色图像构建用户头部彩色3D图像；根据用户深度彩色图像获取用户脸部表情关键特征点；根据用户脸部表情关键特征点驱动用户头部彩色3D图像，以得到用户的目标3D头像，该用户的目标3D头像带有该用户的实时表情；基于预设呈现角度对目标3D头像进行旋转，得到预设呈现角度的目标3D头像，将预设呈现角度的目标3D头像发送至对端视频通话设备。

在一个可行的实施例中，根据用户深度彩色图像构建用户头部彩色3D图像，包括：

从用户深度彩色图像中获取用户头部3D点云信息和脸部纹理特征，再将根据用户头部3D点云信息和脸部纹理特征构建用户头部彩色3D图像。

在此需要说明的是，图9所示实施例的相关描述具体可参见步骤S703-S705的相关描述，在此不再叙述。

在此需要指出的是，本发明的实施例不仅可用于车载视频通话或者车载视频会议，还可以应用于虚拟社交、AR穿戴(购物)、视频通话、全息交互，具体实现过程可参见图3、图7和图8所示实施例的相关描述。

参见图10，图10为本申请实施例提供的一种视频通话装置的结构示意图。如图10所示，该视频通话装置1000包括：

获取单元1001，用于根据用户视频通话过程中的面部图像获取用户的脸部表情关键特征点；

驱动单元1002，用于通过用户的脸部表情关键特征点驱动用户头部3D图像，以得到用户的目标3D头像，该用户的目标3D头像带有用户的表情；

旋转单元1003，用于基于预设呈现角度对目标3D头像进行旋转，得到预设呈现角度的目标3D头像；

发送单元1004，用于将预设呈现角度的目标3D头像发送至对端视频通话设备。

在一个可行的实施例中，视频通话装置1000还包括：

构建单元1005，用于根据用户面部图像构建用户头部3D图像。

在一个可行的实施例中，用户面部图像包括N张用户红外图像，N为大于0的整数，构建单元1005具体用于：

在一个可行的实施例中，用户面部图像包括N张用户红外图像和用户的彩色脸部图像，N为大于0的整数，构建单元1005具体用于：

获取单元1001，还用于根据用户的彩色脸部图像获取用户的脸部纹理特征；

构建单元1005具体用于：

在一个可行的实施例中，用户面部图像包括N张用户红外图像和用户头部彩色图像，构建单元1005具体用于：

在一个可行的实施例中，特征提取模型包括3D头部特征提取网络和纹理特征提取网络，在将用户的彩色脸部图像和N张用户红外图像输入特征提取模型中进行计算，以得到用户的3D头部点云信息和脸部纹理特征的方面，构建单元1005具体用于：

在一个可行的实施例中，3D头部特征提取网络采用encoder-decoder架构的神经网络；在将用户头部的彩色图像和N张用户红外图像输入到3D头部特征提取网络中进行计算，以得到用户的3D头部点云信息的方面，构建单元1005具体用于：

在一个可行的实施例中，用户面部图像为彩色深度图像，获取单元1001还用于：根据彩色深度图像获取用户头部3D图像，

其中，在根据彩色深度图像获取用户头部3D图像的方面，构建单元1005具体用于：

需要说明的是，上述各单元(获取单元1001、驱动单元1002、旋转单元1003、发送单元1004和构建单元1005)用于执行上述方法的相关步骤。比如获取单元1001用于执行步骤S301的相关内容，驱动单元1002和构建单元1005用于执行步骤S302的相关内容，旋转单元1003用于执行步骤S303的相关内容，发送单元1004用于执行步骤S304的相关内容。

在本实施例中，视频通话装置1000是以单元的形式来呈现。这里的“单元”可以指特定应用集成电路(application-specific integrated circuit，ASIC)，执行一个或多个软件或固件程序的处理器和存储器，集成逻辑电路，和/或其他可以提供上述功能的器件。此外，以上获取单元1001、驱动单元1002、旋转单元1003和构建单元1005可通过图13所示的视频通话装置的处理器1301来实现。

参见图11，图11为本发明实施例提供一种汽车的视频通话系统的结构示意图。如图11所示，该视频通话系统1100包括：处理器1101和通信装置1102，该处理器1101与通信装置1102连接，

处理器1101，用于根据用户视频通话过程中的面部图像获取用户的脸部表情关键特征点；通过用户的脸部表情关键特征点驱动用户头部3D图像，以得到用户的目标3D头像，该用户的目标3D头像带有用户的表情；基于预设呈现角度对目标3D头像进行旋转，得到预设呈现角度的目标3D头像，并将预设呈现角度的目标3D头像传输至通信装置；

通信装置1102，用于将预设呈现角度的目标3D头像发送至对端视频通话设备。

在一个可行的实施例中，处理器1101还用于：根据用户面部图像构建用户头部3D图像。

在一个可行的实施例中，用户面部图像包括N张用户红外图像，N为大于0的整数，在根据用户面部图像构建用户头部3D图像的方面，处理器1101具体用于：

在一个可行的实施例中，用户面部图像包括N张用户红外图像和用户的彩色脸部图像，N为大于0的整数，在根据用户面部图像构建用户头部3D图像的方面，处理器1101具体用于：

在一个可行的实施例中，用户面部图像还包括用户的彩色脸部图像，处理器1101，还用于根据用户的彩色脸部图像获取用户的脸部纹理特征；

在根据用户面部图像构建用户头部3D图像的方面，处理器1101具体用于：

在一个可行的实施例中，用户面部图像包括N张用户红外图像和用户的彩色脸部图像，在根据用户面部图像构建用户头部3D图像的方面，处理器1101具体用于：

在一个可行的实施例中，特征提取模型包括3D头部特征提取网络和纹理特征提取网络，在将用户的彩色脸部图像和N张用户红外图像输入特征提取模型中进行计算，以得到用户的3D头部点云信息和脸部纹理特征的方面，处理器1101具体用于：

在一个可行的实施例中，3D头部特征提取网络采用encoder-decoder架构的神经网络；在将用户的彩色脸部图像和N张用户红外图像输入到3D头部特征提取网络中进行计算，以得到用户的3D头部点云信息的方面，处理器1101具体用于：

在一个可行的实施例中，视频通话系统还包括彩色摄像头1105，该彩色摄像头1105与处理器1101连接，

彩色摄像头1105，用于获取用户的彩色脸部图像，并将用户的彩色脸部图像传输至处理器1101。

在一个可行的实施例中，视频通话系统还包括红外摄像头1103，该红外摄像头1103与处理器1101连接，

红外摄像头1103，用于获取N张用户红外图像，并将N张用户红外图像传输至处理器1101。

在一个可行的实施例中，处理器1101还用于：根据彩色深度图像获取用户头部3D图像，

其中，在根据彩色深度图像获取用户头部3D图像的方面，处理器1101具体用于：

在一个可行的实施例中，视频通话系统还包括深度摄像头1104，深度摄像头1104与处理器1101连接，

深度摄像头1104，用于获取彩色深度图像，并将彩色深度图像传输至处理器。

在此需要说明的是，用户的彩色正脸图像内置于处理器1101中或者从其他设备中获取，不需要通过彩色摄像头1105从外部获取，因此彩色摄像头1105用虚线框表示。

在此需要说明的是，处理器1101、通信装置1102、红外摄像头1103、深度摄像头1104、和彩色摄像头1105用于执行图3、图6、图7和图9所示实施例的相关内容。

参见图12，图12为本申请实施例提供的一种系统的结构示意图。如图12所示，该系统1200包括汽车1201和服务器1202，其中，该汽车1201包括视频通话系统1203，该视频通话系统1203包括处理器1204和通信装置1205，

服务器1202，用于根据用户脸部图像获取用户头部3D图像；

通信装置1205，用于从服务器1202中获取用户头部3D图像，并将该用户头部3D图像传输至处理器，

处理器1204，用于根据用户视频通话过程中的面部图像获取用户的脸部表情关键特征点；通过用户的脸部表情关键特征点驱动用户头部3D图像，以得到用户的目标3D头像，该用户的目标3D头像带有用户的表情；基于预设呈现角度对目标3D头像进行旋转，得到预设呈现角度的目标3D头像，并将预设呈现角度的目标3D头像传输至通信装置；

通信装置1204，用于将预设呈现角度的目标3D头像发送至对端视频通话设备。

在一个可行的实施例中，服务器1202具体用于根据用户面部图像构建用户头部3D图像。

在一个可行的实施例中，用户面部图像包括N张用户红外图像，N为大于0的整数，在根据用户面部图像构建用户头部3D图像的方面，服务器1202具体用于：

在一个可行的实施例中，用户面部图像包括N张用户红外图像和用户的彩色脸部图像，N为大于0的整数，在根据用户面部图像构建用户头部3D图像的方面，服务器1202具体用于：

在一个可行的实施例中，用户面部图像还包括用户的彩色脸部图像，服务器1202，还用于根据用户的彩色脸部图像获取用户的脸部纹理特征；

在根据用户面部图像构建用户头部3D图像的方面，服务器1202具体用于：

在一个可行的实施例中，用户面部图像包括N张用户红外图像和用户的彩色脸部图像，在根据用户面部图像构建用户头部3D图像的方面，服务器1202具体用于：

在一个可行的实施例中，特征提取模型包括3D头部特征提取网络和纹理特征提取网络，在将用户的彩色脸部图像和N张用户红外图像输入特征提取模型中进行计算，以得到用户的3D头部点云信息和脸部纹理特征的方面，服务器1202具体用于：

在一个可行的实施例中，3D头部特征提取网络采用encoder-decoder架构的神经网络；在将用户的彩色脸部图像和N张用户红外图像输入到3D头部特征提取网络中进行计算，以得到用户的3D头部点云信息的方面，服务器1202具体用于：

在一个可行的实施例中，服务器1202还用于：根据彩色深度图像获取用户头部3D图像，

其中，在根据彩色深度图像获取用户头部3D图像的方面，服务器1202具体用于：

进一步地，预设呈现角度是根据彩色深度图像得到的。

在此需要说明的是，服务器1202根据用户面部图像获取用户头部3D图像具体过程可参见步骤S302的相关描述，在此不再叙述。当然，服务器1202获取用户头部3D图像的具体方式不限于本发明。

如图13所示视频通话装置1300可以以图13中的结构来实现，该视频通话装置1300包括至少一个处理器1301，至少一个存储器1302、以及至少一个通信接口1303。所述处理器1301、所述存储器1302和所述通信接口1303通过所述通信总线连接并完成相互间的通信。

处理器1301可以是通用中央处理器(CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制以上方案程序执行的集成电路。

通信接口1303，用于与其他设备或通信网络通信，如以太网，无线接入网(RAN)，无线局域网(Wireless Local Area Networks，WLAN)等。

存储器1302可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过总线与处理器相连接。存储器也可以和处理器集成在一起。

其中，所述存储器1302用于存储执行以上方案的应用程序代码，并由处理器1301来控制执行。所述处理器1301用于执行所述存储器1302中存储的应用程序代码。

存储器1302存储的代码可执行以上提供的任一种视频通话人脸呈现方法，比如：根据用户视频通话过程中的面部图像获取用户的脸部表情关键特征点；通过用户的脸部表情关键特征点驱动用户头部3D图像，以得到用户的目标3D头像，该用户的目标3D头像带有用户的表情；基于预设目标呈现角度对目标3D头像进行旋转，得到预设呈现角度的目标3D头像；并通过通信接口1303将预设呈现角度的目标3D头像发送至对端视频通话设备。

本发明实施例还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时包括上述方法实施例中记载的任何一种视频通话人脸呈现方法的部分或全部步骤。

图14，是本发明实施例提供的一种芯片硬件结构图。

神经网络处理器NPU 50作为协处理器挂载到主CPU(Host CPU)上，由Host CPU分配任务。NPU的核心部分为运算电路50，控制器504控制运算电路503提取存储器(权重存储器或输入存储器)中的数据并进行运算。

在一些实现中，运算电路503内部包括多个处理单元(Process Engine,PE)。在一些实现中，运算电路503是二维脉动阵列。运算电路503还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中，运算电路503是通用的矩阵处理器。

举例来说，假设有输入矩阵A，权重矩阵B，输出矩阵C。运算电路从权重存储器502中取矩阵B相应的数据，并缓存在运算电路中每一个PE上。运算电路从输入存储器501中取矩阵A数据与矩阵B进行矩阵运算，得到的矩阵的部分结果或最终结果，保存在累加器508accumulator中。

向量计算单元507可以对运算电路的输出做进一步处理，如向量乘，向量加，指数运算，对数运算，大小比较等等。例如，向量计算单元507可以用于神经网络中非卷积/非FC层的网络计算，如池化(Pooling)，批归一化(Batch Normalization)，局部响应归一化(Local Response Normalization)等。

在一些实现中，向量计算单元能507将经处理的输出的向量存储到统一缓存器506。例如，向量计算单元507可以将非线性函数应用到运算电路503的输出，例如累加值的向量，用以生成激活值。在一些实现中，向量计算单元507生成归一化的值、合并值，或二者均有。在一些实现中，处理过的输出的向量能够用作到运算电路503的激活输入，例如用于在神经网络中的后续层中的使用。

本申请实施例中的特征提取过程，比如从彩色脸部图像和红外图像中提取出用户头部3D点云信息，从彩色脸部图像中提取用户脸部纹理特征等，可以有向量计算单元507或运算电路503来执行。

统一存储器506用于存放输入数据以及输出数据。

权存储单元访问控制器505(Direct Memory Access Controller，DMAC)将外部存储器中的输入数据搬运到输入存储器501和/或统一存储器506、将外部存储器中的权重数据存入权重存储器502，以及将统一存储器506中的数据存入外部存储器。

总线接口单元(Bus Interface Unit，BIU)510，用于通过总线实现主CPU、DMAC和取指存储器509之间进行交互。

与控制器504连接的取指存储器(instruction fetch buffer)509，用于存储控制器504使用的指令；

控制器504，用于调用指存储器509中缓存的指令，实现控制该运算加速器的工作过程。

控制器504调用指令存储器509中缓存的指令，以实现本申请实施例中的特征提取过程，比如从彩色脸部图像和红外图像中提取出用户头部3D点云信息，从彩色脸部图像中提取用户脸部纹理特征等。

向量计算单元507多个运算处理单元，在需要的情况下，对运算电路的输出做进一步处理，如向量乘，向量加，指数运算，对数运算，大小比较等等。主要用于神经网络中非卷积/FC层网络计算，如Pooling(池化)，Batch Normalization(批归一化)，Local ResponseNormalization(局部响应归一化)等。

控制器504连接的取指存储器(instruction fetch buffer)509，用于存储控制器504使用的指令；

一般地，统一存储器506，输入存储器501，权重存储器502以及取指存储器509均为片上(On-Chip)存储器，外部存储器为该NPU外部的存储器，该外部存储器可以为双倍数据率同步动态随机存储器(Double Data Rate Synchronous Dynamic Random AccessMemory，简称DDR SDRAM)、高带宽存储器(High Bandwidth Memory，HBM)或其他可读可写的存储器。

根据用户视频通话过程中的面部图像获取用户的脸部表情关键特征点；通过用户的脸部表情关键特征点驱动用户头部3D图像，以得到用户的目标3D头像，该用户的目标3D头像带有用户的表情；基于预设目标呈现角度对目标3D头像进行旋转，得到预设呈现角度的目标3D头像；将预设呈现角度的目标3D头像发送至对端视频通话设备等步骤由主CPU来执行。

在一些实施例中，所公开的方法可以实施为以机器可读格式被编码在计算机可读存储介质上的或者被编码在其它非瞬时性介质或者制品上的计算机程序指令。图15示意性地示出根据这里展示的至少一些实施例而布置的示例计算机程序产品的概念性局部视图，所述示例计算机程序产品包括用于在计算设备上执行计算机进程的计算机程序。在一个实施例中，示例计算机程序产品1500是使用信号承载介质1501来提供的。所述信号承载介质1501可以包括一个或多个程序指令1502，其当被一个或多个处理器运行时可以提供以上针对图3、图6、图7和图9描述的功能或者部分功能。此外，图15中的程序指令1502也描述示例指令。

在一些示例中，信号承载介质1501可以包含计算机可读介质1503,诸如但不限于，硬盘驱动器、紧密盘(CD)、数字视频光盘(DVD)、数字磁带、存储器、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等等。在一些实施方式中，信号承载介质1501可以包含计算机可记录介质1504,诸如但不限于，存储器、读/写(R/W)CD、R/W DVD、等等。在一些实施方式中，信号承载介质1501可以包含通信介质1505,诸如但不限于，数字和/或模拟通信介质(例如，光纤电缆、波导、有线通信链路、无线通信链路、等等)。因此，例如，信号承载介质1501可以由无线形式的通信介质1505(例如，遵守IEEE802.11标准或者其它传输协议的无线通信介质)来传达。一个或多个程序指令1502可以是，例如，计算机可执行指令或者逻辑实施指令。在一些示例中，诸如针对图3、图6、图7和图9描述的计算设备的计算设备可以被配置为，响应于通过计算机可读介质1503、计算机可记录介质1504、和/或通信介质1505中的一个或多个传达到计算设，的程序指令1502，提供各种操作、功能、或者动作。应该理解，这里描述的布置仅仅是用于示例的目的。因而，本领域技术人员将理解，其它布置和其它元素(例如，机器、接口、功能、顺序、和功能组等等)能够被取而代之地使用，并且一些元素可以根据所期望的结果而一并省略。另外，所描述的元素中的许多是可以被实现为离散的或者分布式的组件的、或者以任何适当的组合和位置来结合其它组件实施的功能实体。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：RandomAccess Memory，简称：RAM)、磁盘或光盘等。

以上对本发明实施例进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上上述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种视频通话人脸呈现方法，其特征在于，包括：

根据用户视频通话过程中的面部图像获取所述用户的脸部表情关键特征点；

通过所述用户的脸部表情关键特征点驱动用户头部3D图像，以得到所述用户的目标3D头像，所述用户的目标3D头像带有所述用户的表情；

基于预设呈现角度对所述目标3D头像进行旋转，得到所述预设呈现角度的目标3D头像；

将所述预设呈现角度的目标3D头像发送至对端视频通话设备。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据用户面部图像构建所述用户头部3D图像。

3.根据权利要求2所述的方法，其特征在于，所述用户面部图像包括N张用户红外图像，所述N为大于0的整数，所述根据所述用户面部图像构建所述用户头部3D图像，包括：

根据所述N张用户红外图像获取第一用户头部3D点云信息；

根据所述第一用户头部3D点云信息构建所述用户头部3D图像。

4.根据权利要求2所述的方法，其特征在于，所述用户面部图像包括N张用户红外图像和用户的彩色脸部图像，所述N为大于0的整数，所述根据所述用户面部图像构建所述用户头部3D图像，包括：

根据所述N张用户红外图像和所述用户的彩色脸部图像获取所述第二用户头部3D点云信息；

根据所述第二用户头部3D点云信息构建所述用户头部3D图像。

5.根据权利要求3或4所述的方法，其特征在于，所述用户面部图像还包括用户的彩色脸部图像，所述方法还包括：

根据所述用户的彩色脸部图像获取用户的脸部纹理特征，

根据用户头部3D点云信息构建所述用户头部3D图像，包括：

根据所述用户头部3D点云信息和所述用户的脸部纹理特征构建所述用户头部3D图像，所述用户头部3D图像为彩色图像，

其中，所述用户头部3D点云信息包括所述第一用户头部3D点云信息或所述第二用户头部3D点云信息。

6.根据权利要求2所述的方法，其特征在于，所述用户面部图像包括N张用户红外图像和用户的彩色脸部图像，所述根据所述用户面部图像构建所述用户头部3D图像，包括：

将所述用户的彩色脸部图像和所述N张用户红外图像输入特征提取模型中进行计算，以得到所述用户的3D头部点云信息和脸部纹理特征；

根据所述用户头部3D点云信息和脸部纹理特征构建所述用户头部3D头像，所述用户头部3D图像为彩色图像。

7.根据权利要求6所述的方法，其特征在于，所述特征提取模型包括3D头部特征提取网络和纹理特征提取网络，所述将所述用户的彩色脸部图像和所述N张所述用户红外图像输入特征提取模型中进行计算，以得到所述用户的3D头部点云信息和脸部纹理特征，包括：

将所述用户的彩色脸部图像和所述N张用户红外图像输入到所述3D头部特征提取网络中进行计算，以得到所述用户的3D头部点云信息；

将所述用户的彩色脸部图像输入到所述纹理特征提取网络中进行计算，以得到所述用户的脸部纹理特征。

8.根据权利要求7所述的方法，所述3D头部特征提取网络采用encoder-decoder架构的神经网络；

所述将所述用户的彩色脸部图像和所述N张用户红外图像输入到所述3D头部特征提取网络中进行计算，以得到所述用户的3D头部点云信息，包括：

根据所述用户的彩色脸部图像和所述N张用户红外图像获取N个图像对，其中，所述N个图像对中的每对均包括一张彩色图像和用户红外图像，所述N个图像对中的彩色图像均为所述用户的彩色脸部图像，所述N个图像对中的红外图像分别来自于所述N张用户红外图像；

将所述N个图像对输入所述encoder-decoder架构的神经网络中进行计算，以得到所述用户的3D头部点云信息。

9.根据权利要求3-8任一项所述的方法，其特征在于，所述预设呈现角度是根据所述N张用户红外图像得到的。

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述彩色深度图像获取所述用户头部3D图像，

其中，所述根据所述彩色深度图像获取所述用户头部3D图像，包括：

根据所述彩色深度图像获取用户的3D头部点云信息和脸部纹理特征；

基于所述用户的3D头部点云信息和脸部纹理特征构建所述用户头部3D图像，所述用户头部3D图像为彩色图像。

11.根据权利要求10所述的方法，其特征在于，所述预设呈现角度是根据所述彩色深度图像得到的。

12.一种视频通话装置，其特征在于，包括：

获取单元，用于根据用户视频通话过程中的面部图像获取所述用户的脸部表情关键特征点；

驱动单元，用于通过所述用户的脸部表情关键特征点驱动用户头部3D头像，以得到所述用户的目标3D头像，所述用户的目标3D头像带有所述用户的表情；

旋转单元，用于基于预设呈现角度对所述目标3D头像进行旋转，得到所述预设呈现角度的目标3D头像；

发送单元，用于将所述预设呈现角度的目标3D头像发送至对端视频通话设备。

13.根据权利要求12所述的装置，其特征在于，所述装置还包括：

构建单元，用于根据用户面部图像构建所述用户头部3D图像。

14.根据权利要求13所述的装置，其特征在于，所述用户面部图像包括N张用户红外图像，所述N为大于0的整数，所述构建单元具体用于：

根据所述N张用户红外图像获取第一用户头部3D点云信息；

根据所述第一用户头部3D点云信息构建所述用户头部3D图像。

15.根据权利要求13所述的装置，其特征在于，所述用户面部图像包括N张用户红外图像和用户的彩色脸部图像，所述N为大于0的整数，所述构建单元具体用于：

根据所述第二用户头部3D点云信息构建所述用户头部3D图像。

16.根据权利要求14或15所述的装置，其特征在于，所述用户面部图像还包括用户的彩色脸部图像

所述获取单元，还用于根据所述用户的彩色脸部图像获取用户的脸部纹理特征；

所述构建单元具体用于：

17.根据权利要求13所述的装置，其特征在于，所述用户面部图像包括N张用户红外图像和用户头部彩色图像，所述构建单元具体用于：

根据所述用户头部3D点云信息和脸部纹理特征构建所述用户头部3D图像，所述用户头部3D图像为彩色图像。

18.根据权利要求17所述的装置，其特征在于，所述特征提取模型包括3D头部特征提取网络和纹理特征提取网络，在将所述用户的彩色脸部图像和所述N张所述用户红外图像输入特征提取模型中进行计算，以得到所述用户的3D头部点云信息和脸部纹理特征的方面，所述构建单元具体用于：

19.根据权利要求18所述的装置，所述3D头部特征提取网络采用encoder-decoder架构的神经网络；

在将所述用户的彩色脸部图像和所述N张用户红外图像输入到所述3D头部特征提取网络中进行计算，以得到所述用户的3D头部点云信息的方面，所述构建单元具体用于：

20.根据权利要求13-19任一项所述的装置，其特征在于，所述预设呈现角度是根据所述N张用户红外图像得到的。

21.根据权利要求12所述的装置，其特征在于，所述用户面部图像为彩色深度图像，

所述获取单元还用于：根据所述彩色深度图像获取所述用户头部3D图像，

其中，在根据所述彩色深度图像获取所述用户头部3D图像的方面，所述构建单元具体用于：

22.根据权利要求10所述的方法，其特征在于，所述预设呈现角度是根据所述彩色深度图像得到的。

23.一种汽车，所述汽车包括视频通话系统，其特征在于，所述视频通话系统包括处理器和通信装置，所述处理器与所述通信装置连接，

所述处理器，用于根据用户视频通话过程中的面部图像获取所述用户的脸部表情关键特征点；通过所述用户的脸部表情关键特征点驱动用户头部3D图像，以得到所述用户的目标3D头像，所述用户的目标3D头像带有所述用户的表情；基于预设呈现角度对所述目标3D头像进行旋转，得到所述预设呈现角度的目标3D头像，并将所述预设呈现角度的目标3D头像传输至所述通信装置；

所述通信装置，用于将所述预设呈现角度的目标3D头像发送至对端视频通话设备。

24.根据权利要求23所述的汽车，其特征在于，所述处理器还用于：

根据用户面部图像构建所述用户头部3D图像。

25.根据权利要求24所述的汽车，其特征在于，所述用户面部图像包括N张用户红外图像，所述N为大于0的整数，在根据用户面部图像构建所述用户头部3D图像的方面，所述处理器具体用于：

根据所述N张用户红外图像获取第一用户头部3D点云信息；

根据所述第一用户头部3D点云信息构建所述用户头部3D图像。

26.根据权利要求24所述的汽车，其特征在于，所述用户面部图像包括N张用户红外图像和用户的彩色脸部图像，所述N为大于0的整数，在根据用户面部图像构建所述用户头部3D图像的方面，所述处理器具体用于：

根据所述第二用户头部3D点云信息构建所述用户头部3D图像。

27.根据权利要求25或26所述的汽车，其特征在于，所述用户面部图像还包括用户的彩色脸部图像，

所述处理器，还用于根据所述用户的彩色脸部图像获取用户的脸部纹理特征；

在根据用户面部图像构建所述用户头部3D图像的方面，所述处理器具体用于：

28.根据权利要求24所述的汽车，其特征在于，所述用户面部图像包括N张用户红外图像和用户的彩色脸部图像，在根据用户面部图像构建所述用户头部3D图像的方面，所述处理器具体用于：

29.根据权利要求28所述的汽车，其特征在于，所述特征提取模型包括3D头部特征提取网络和纹理特征提取网络，在将所述用户的彩色脸部图像和所述N张用户红外图像输入特征提取模型中进行计算，以得到所述用户的3D头部点云信息和脸部纹理特征的方面，所述处理器具体用于：

30.根据权利要求29所述的汽车，所述3D头部特征提取网络采用encoder-decoder架构的神经网络；

在将所述用户的彩色脸部图像和所述N张用户红外图像输入到所述3D头部特征提取网络中进行计算，以得到所述用户的3D头部点云信息的方面，所述处理器具体用于：

31.根据权利要求25-30任一项所述的汽车，其特征在于，所述预设呈现角度是根据所述N张用户红外图像得到的。

32.根据权利要求25-31任一项所述的汽车，其特征在于，所述视频通话系统还包括红外摄像头，所述红外摄像头与所述处理器连接，

所述红外摄像头，用于获取所述N张用户红外图像，并将所述N张用户红外图像传输至所述处理器。

33.根据权利要求23所述的汽车，其特征在于，所述处理器还用于：根据所述彩色深度图像获取所述用户头部3D图像，

其中，在根据所述彩色深度图像获取所述用户头部3D图像的方面，所述处理器具体用于：

34.根据权利要求33所述的汽车，其特征在于，所述预设呈现角度是根据所述彩色深度图像得到的。

35.根据权利要求33或34所述的汽车，其特征在于，所述视频通话系统还包括深度摄像头，所述深度摄像头与所述处理器连接，

所述红外摄像头，用于获取彩色深度图像，并将所述彩色深度图像传输至所述处理器。