CN115499613A

CN115499613A - 视频通话方法、装置、电子设备及存储介质

Info

Publication number: CN115499613A
Application number: CN202210991988.7A
Authority: CN
Inventors: 王玮; 胡文杰; 方世煌; 周旸旻; 丁艳燕
Original assignee: Anhui Tingjian Technology Co ltd
Current assignee: Anhui Tingjian Technology Co ltd
Priority date: 2022-08-17
Filing date: 2022-08-17
Publication date: 2022-12-20

Abstract

本申请涉及一种视频通话方法、装置、电子设备及存储介质。视频通话方法包括：确定与目标用户对应的虚拟人物形象；根据目标用户的语音数据，确定与目标用户对应的面部特征；将面部特征与虚拟人物形象进行融合，得到与目标用户对应的虚拟人物图像。该方法能够基于用户语音生成与用户说话过程匹配的虚拟人物图像，将该方法应用于远程通信过程中，可以在不依赖摄像头的情况下生成与说话人对应的头像视频，从而缓解了视频卡顿的情况，提高了视频通话的流畅度和趣味性。

Description

视频通话方法、装置、电子设备及存储介质

技术领域

本申请涉及智能语音技术领域，具体涉及一种视频通话方法、装置、电子设备及存储介质。

背景技术

随着电子科技的飞速发展，人与人之间远距离通信的方式也越来越多元化，视频沟通作为一种常用通信手段，在其中占据着重要的地位。

然而，现有的视频通话方式较为单一，且在应用时往往存在一定的局限性。例如，视频通话时，用户所处的场景并不方便开启视频通话，或者对摄像头依赖性较强，在网络信号较差时，会出现较多的卡顿情况，导致视频通话流畅度较低。因此，如何摆脱对摄像头的过分依赖，提高视频通话的流畅度和趣味性，是亟待解决的问题。

发明内容

有鉴于此，本申请提供了一种视频通话方法、装置、电子设备及存储介质，可以摆脱对摄像头的过分依赖，有效提高视频通话的流畅度和趣味性。

为实现以上目的，本申请采用如下技术方案：

本申请的第一方面提供一种视频通话方法，包括：

确定与目标用户对应的虚拟人物形象；

根据所述目标用户的语音数据，确定与所述目标用户对应的面部特征；

将所述面部特征与所述虚拟人物形象进行融合，得到与所述目标用户对应的虚拟人物图像。

可选的，所述确定与目标用户对应的虚拟人物形象，包括：

根据所述目标用户的设置或选择，确定与所述目标用户对应的虚拟人物形象；

或者，根据所述目标用户的用户信息，确定与所述目标用户对应的虚拟人物形象。

可选的，所述根据所述目标用户的语音数据，确定与所述目标用户对应的面部特征，包括：

解析所述目标用户的语音数据，得到当前文本信息和语音情绪信息；

根据所述当前文本信息和所述语音情绪信息，确定与所述目标用户对应的面部特征。

可选的，所述根据所述当前文本信息和所述语音情绪信息，确定与所述目标用户对应的面部特征，包括：

根据所述当前文本信息确定人物口型数据，根据所述语音情绪信息确定面部情绪数据；

根据所述人物口型数据和所述面部情绪数据，确定与所述目标用户对应的面部特征。

根据所述当前文本信息和所述语音情绪信息，确定与所述目标用户对应的面部特征序列；

所述将所述面部特征与所述虚拟人物形象进行融合，得到与所述目标用户对应的虚拟人物图像，包括：

将所述面部特征序列与所述虚拟人物形象进行融合，得到与所述目标用户对应的虚拟人物图像序列。

可选的，还包括：

将与所述目标用户对应的虚拟人物图像序列与所述目标用户的语音数据同步输出。

可选的，所述确定与目标用户对应的虚拟人物形象之后，所述将所述面部特征与所述虚拟人物形象进行融合之前，所述方法还包括：

获取通话信息；所述通话信息包括通话文本信息；所述通话文本信息至少包括所述目标用户在当前通话过程中的通话文本信息；

根据所述通话信息，更新所述虚拟人物形象；

所述将所述面部特征与所述虚拟人物形象进行融合，包括：

将所述面部特征与更新后的虚拟人物形象进行融合。

可选的，所述根据所述通话信息，更新所述虚拟人物形象，包括：

从所述通话信息中提取关键信息；

根据所述关键信息，更新所述虚拟人物形象。

本申请的第二方面提供一种视频通话装置，包括：

第一确定模块，用于确定与目标用户对应的虚拟人物形象；

第二确定模块，用于根据所述目标用户的语音数据，确定与所述目标用户对应的面部特征；

融合模块，用于将所述面部特征与所述虚拟人物形象进行融合，得到与所述目标用户对应的虚拟人物图像。

本申请的第三方面提供一种电子设备，包括：

处理器，以及与所述处理器相连接的存储器；

所述存储器用于存储计算机程序；

所述处理器用于调用并执行所述存储器中的所述计算机程序，以执行如本申请的第一方面所述的视频通话方法。

本申请的第四方面提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现如本申请的第一方面所述的视频通话方法的各个步骤。

本申请提供的技术方案可以包括以下有益效果：

本申请的方案中，首先确定与目标用户对应的虚拟人物形象，以通过虚拟人物形象替代目标用户本人进行虚拟视频通话。继而根据目标用户的语音数据，可以确定出与目标用户对应的面部特征。再将面部特征与虚拟人物形象进行融合，为虚拟人物形象配置与目标用户的语音数据对应的面部表情，从而得到与目标用户对应的虚拟人物图像。该方案能够基于用户语音生成与用户说话过程匹配的虚拟人物图像，将该方案应用于远程通信过程中，可以在不依赖摄像头的情况下生成与说话人对应的头像视频，从而缓解了视频卡顿的情况，提高了视频通话的流畅度和趣味性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一个实施例提供的一种视频通话方法的流程图。

图2是本申请一个实施例提供的一种视频沟通装置的结构示意图。

图3是本申请一个实施例提供的一种电子设备的结构框图。

具体实施方式

本申请实施例技术方案适用于视频通话的应用场景，该应用场景既可以是简单的双人语音或者视频通话，也可以多人参与的视频会议，还可以是线上教学等。采用本申请实施例技术方案，可以摆脱视频通话对摄像头的过分依赖，有效提高视频通话的流畅度和趣味性。

示例性的，本申请实施例技术方案可应用于硬件处理器等硬件设备，或包装成软件程序被运行，当硬件处理器执行本申请实施例技术方案的处理过程，或上述软件程序被运行时，无需使用摄像头即可实现视频通话。本申请实施例只对本申请技术方案的具体处理过程进行示例性介绍，并不对本申请技术方案的具体执行形式进行限定，任意形式的可以执行本申请技术方案处理过程的技术实现形式，都可以被本申请实施例所采用。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的实施例提出一种视频通话方法，如图1所示，该方法至少包括如下实施步骤：

S101、确定与目标用户对应的虚拟人物形象。

虚拟人物形象是一种通过现代化计算机技术构建的拟人化形象，其可以被赋予鲜明的人物设定，以代码与数据的形式在智能设备上运行。实施时，虚拟人物形象可以是二次元虚拟形象，也可以是卡通3D虚拟形象，还可以是其他能够代表人物个体的形象。

在确定与目标用户对应的虚拟人物形象之前，可以预先创建默认的虚拟人物形象，如此，在确定与目标用户对应的虚拟人物形象时，可以直接采用默认的虚拟人物形象作为与目标用户对应的虚拟人物形象；或者，可以预先创建用户与虚拟人物形象之间的对应关系，如此，在确定与目标用户对应的虚拟人物形象时，可以基于确定的目标用户以及用户与虚拟人物形象之间的对应关系，确定与目标用户对应的虚拟人物形象，例如，用户可以预先录制用户本人的视频并上传，设备侧在获取到该视频后，可以根据视频数据中人物的面部轮廓和头部数据，生成基础的3D卡通虚拟形象，从而得到与该用户对应的3D卡通虚拟形象。

需要说明的是，目标用户可以是视频通话的发起人，也可以是视频通话中除发起人以外的参与人员。

S102、根据目标用户的语音数据，确定与目标用户对应的面部特征。

其中，面部特征是表征面部动作和情绪的特征，其可以包括面部动作特征和面部情绪特征。

在获取到目标用户的语音数据后，可以根据语音数据来构建目标用户的面部特征。例如，可以根据目标用户的语音数据，提取出目标用户在提供这段语音数据时的面部表情，根据提取到的面部表情确定出与该面部表情对应的面部特征，并将其作为与目标用户对应的面部特征。如此，可以确定出与语音数据对应的面部特征，为后续目标用户的虚拟人物形象的完善奠定基础。

S103、将面部特征与虚拟人物形象进行融合，得到与目标用户对应的虚拟人物图像。

在确定了与目标用户对应的面部特征后，就可以将面部特征与虚拟人物形象进行融合，如此，可以为虚拟人物形象配置上面部表情，且该面部表情能够表达出目标用户在提供该语音数据时的面部动作和情绪，使得视频通话过程中，目标用户的虚拟人物形象更加生动，提升用户体验。

本实施例中，首先确定与目标用户对应的虚拟人物形象，以通过虚拟人物形象替代目标用户本人进行虚拟视频通话。继而根据目标用户的语音数据，可以确定出与目标用户对应的面部特征。再将面部特征与虚拟人物形象进行融合，为虚拟人物形象配置与目标用户的语音数据对应的面部表情，从而得到与目标用户对应的虚拟人物图像。该方案能够基于用户语音生成与用户说话过程匹配的虚拟人物图像，将该方案应用于远程通信过程中，可以在不依赖摄像头的情况下生成与说话人对应的头像视频，从而缓解了视频卡顿的情况，提高了视频通话的流畅度和趣味性。

一些实施例中，在确定与目标用户对应的虚拟人物形象时，可以根据目标用户的设置或选择，确定与目标用户对应的虚拟人物形象；或者，根据目标用户的用户信息，确定与目标用户对应的虚拟人物形象。

具体的，一方面，如果预先构建了用户与虚拟人物形象之间的对应关系，则可以根据目标用户的设置，将与目标用户对应的虚拟人物形象设置为该目标用户默认的虚拟人物形象，从而在确定与目标用户对应的虚拟人物形象时，可以根据目标用户的设置，确定与目标用户对应的虚拟人物形象。

由于每个用户可能拥有多重身份，例如，A公司的员工王先生，其在拥有A公司的员工身份外，还是学生小王同学的家长，则王先生具有两重身份：员工和家长。因此，在进行视频通话时，目标用户可以自行选择使用哪个虚拟人物形象。也即，在用户与虚拟人物形象的对应关系中，当用户对应有多个虚拟人物形象时，可以根据目标用户的选择，从与目标用户对应的多个虚拟人物形象中，确定目标用户选择的虚拟人物形象作为与目标用户对应的虚拟人物形象。

另一方面，还可以根据目标用户的用户信息，从预先构建的用户与虚拟人物形象的对应关系中，确定与目标用户对应的虚拟人物形象。其中，用户信息可以包括用户标识信息，用户标识信息可以是用户编码等用于表征用户身份的标识信息。如此，可以根据目标用户的用户标识信息，确定出与目标用户对应的虚拟人物形象。

此外，用户信息还可以包括姓名、性别、个性喜好、用户角色等信息。为了使确定出的虚拟人物形象与目标用户更加贴合，在根据目标用户的用户信息，确定与目标用户对应的虚拟人物形象时，可以利用目标用户的用户信息，创建新的虚拟人物形象，并将创建的虚拟人物形象作为与目标用户对应的虚拟人物形象。例如，目标用户C的用户信息包括：姓名：C，性别：女，个性喜好：爱读书，用户角色：教师；则可以根据性别创建出女性虚拟人物形象，根据个性喜好和用户角色为该女性虚拟人物形象配置爱读书的教师形象，以使得该形象与目标用户C的真实身份更加相符，在带给视频通话的参与人员更多参与感的同时，增加了更多趣味性。

一些实施例中，为了使视频通话的虚拟人物形象更加生动、真实，在根据目标用户的语音数据，确定与目标用户对应的面部特征时，可以解析目标用户的语音数据，得到当前文本信息和语音情绪信息；继而根据当前文本信息和语音情绪信息，确定与目标用户对应的面部特征。

实施时，可以通过语音情感系统实现对目标用户面部特征的解析。

具体的，在获取到目标用户的语音数据后，可以将目标用户的语音数据输入到语音情感系统中。利用语音情感系统对目标用户的语音数据进行处理，从而获取到语音数据转写后的当前文本信息和语音情绪信息，也即获取到了目标用户在提供语音数据时的语言动作和情绪。再利用当前文本信息和语音情绪信息进行融合，就可以得到与目标用户的语言动作和情绪对应的面部特征。

为了进一步提高视频通话的虚拟人物形象与目标用户的动作的一致性，在根据当前文本信息和语音情绪信息，确定与目标用户对应的面部特征时，可以根据当前文本信息确定人物口型数据，根据语音情绪信息确定面部情绪数据；进而根据人物口型数据和面部情绪数据，确定与目标用户对应的面部特征。

实施时，利用当前文本信息确定人物口型数据，可以确保视频通话过程中，虚拟人物形象的口型能够与目标用户的口型保持一致。利用语音情绪信息确定面部情绪数据，可以确保视频通话过程中虚拟人物形象的面部情绪能够与目标用户保持一致。如此，将得到的人物口型数据和面部情绪数据进行融合，就可以得到与目标用户对应的面部特征，基于得到的面部特征，可以使虚拟人物形象具备与目标用户一致的面部表情。

其中，语音情绪信息可以包括音频特征数据，音频特征数据可以包括：响度、尖锐度、均方根能量、频谱平坦度和音色等数据。

当然，本申请不仅限于此，在一些其他的实施例中，在确定面部情绪数据时，也可以预先基于卷积神经网络的学习，构建音频情绪识别模型，进而将目标用户的语音数据直接输入到训练好的音频情绪识别模型中，以获取到目标用户的面部情绪数据。

实际应用中，目标用户的语音数据通常为一段带有时间戳的语音数据，也即，在视频通话过程中，目标用户每说完一句话，设备侧即获取到一段待处理的语音数据。基于此，在根据当前文本信息和语音情绪信息，确定与目标用户对应的面部特征时，可以根据当前文本信息和语音情绪信息，确定与目标用户对应的面部特征序列。其中，得到的面部特征序列应与上述带有时间戳的语音数据的时间序列一一对应。

相应的，上述将面部特征与虚拟人物形象进行融合，得到与目标用户对应的虚拟人物图像，具体可以包括：将面部特征序列与虚拟人物形象进行融合，得到与目标用户对应的虚拟人物图像序列。如此，得到的与目标用户对应的虚拟人物图像序列与上述带有时间戳的语音数据的时间序列也一一对应，将得到的与目标用户对应的虚拟人物图像序列按照时间戳的时间序列进行播放，即可得到与目标用户的语音数据对应的虚拟人物视频内容。

一些实施例中，在得到与目标用户对应的虚拟人物图像序列后，为了使虚拟人物的面部动作与目标用户保持一致，视频通话方法还可以包括：将与目标用户对应的虚拟人物图像序列与目标用户的语音数据同步输出。如此，利用虚拟人物形象替代用户本人来进行视频，能够避免用户本人出镜，打破了视频通话对摄像头的依赖，同时，能够有效降低对网络传输能力的要求，缓解视频卡顿的情况，提高视频通话的流畅度和趣味性。此外，使虚拟人物的口型以及面部表情与语音数据的语言表达保持一致，有效提升视频参与者的用户体验。

实际应用中，不同的视频通话，对应的目标用户的身份也会存在不同。为了让目标用户的虚拟人物形象更加符合当前视频通话中目标用户的身份，以进一步提升用户体验，在上述确定与目标用户对应的虚拟人物形象之后，在将面部特征与虚拟人物形象进行融合之前，视频通话方法还可以包括：获取通话信息；其中，通话信息可以包括通话文本信息；通话文本信息至少包括目标用户在当前通话过程中通话的文本信息；进而根据通话信息，更新虚拟人物形象。

一些实施例中，在根据通话信息，更新虚拟人物形象时，可以从通话信息中提取关键信息；进而根据关键信息，更新虚拟人物形象。

关键信息可以是文本关键词。实施时，可以从目标用户在当前通话过程中通话的文本信息中提取文本关键词，从而确定目标用户的当前身份信息，进而根据目标用户的当前身份信息，更新虚拟人物形象。

其中，在根据目标用户的当前身份信息，更新虚拟人物形象之前，可以预先构建身份信息与虚拟人物形象的对应关系。

基于此，在确定了目标用户的当前身份信息之后，可以根据目标用户的当前身份信息以及预先构建的身份信息与虚拟人物形象的对应关系，确定出对应的虚拟人物形象，并将其作为更新后的虚拟人物形象。

又或者，在确定了目标用户的当前身份信息之后，可以根据目标用户的当前身份信息创建新的虚拟人物形象，并将其作为更新后的虚拟人物形象。例如，在开启视频会议时，员工D选择了默认的虚拟人物形象，但在视频会议过程中，每位参与者都进行了自我介绍，员工D介绍了自己的职业、个性喜好等信息，则在以员工D为目标用户时，可以从员工D在当前视频会议的通话的文本信息中提取到员工D的职业、个性喜好等文本关键词，从而根据这些文本关键词确定出员工D的身份信息，进而利用身份信息构建出新的符合当前视频通话场景的虚拟人物形象，并将原本员工D默认的虚拟人物形象更新为构建的新的符合当前视频通话场景的虚拟人物形象。

一些实施例中，为了使更新的虚拟人物形象更加丰富，通话信息还可以包括视频通话的基础信息。例如，视频通话为视频会议，则视频通话的基础信息可以包括：视频会议主题、参会人员的身份、视频会议背景和视频会议地点等信息。基于此，在根据通话信息，更新虚拟人物形象时，可以根据目标用户在当前通话过程中通话的文本信息以及视频通话的基础信息，更新虚拟人物形象。

相应的，关键信息可以是用户画像信息，如此，可以从目标用户在当前通话过程中通话的文本信息以及视频通话的基础信息中提取用户画像信息，以确定出新的虚拟人物形象，并将上述步骤S101中确定的虚拟人物形象更新为当前确定出的新的虚拟人物形象。

其中，用户画像信息可以包括身份信息和个性喜好信息。在确定出新的虚拟人物形象之前，可以预先构建用户画像信息与虚拟人物形象的对应关系，如此，从目标用户在当前通话过程中通话的文本信息以及视频通话的基础信息中提取到身份信息和个性喜好信息后，就可以利用用户画像信息，确定出对应的虚拟人物形象，并将其作为更新后的虚拟人物形象。

具体实施时，还可以将目标用户在当前视频通话中的个性喜好信息进行临时存储，例如，用户S在一场视频会议中提及西瓜的次数超过第一预设次数，则对西瓜这个名词进行临时存储，若提及西瓜的次数超过第二预设次数，则对西瓜这个名词进行持久化存储，并将其作为用户S的个性喜好信息。

在利用用户画像信息，确定出对应的虚拟人物形象时，可以预先构建用户画像信息与虚拟人物形象的对应关系，进而利用确定的目标用户的用户画像信息，确定出与目标用户的用户画像信息对应的虚拟人物形象。

一些实施例中，通话信息还可以包括当前通话过程中所有参与人员通话的文本信息以及通话语音数据，也即，通话信息不仅包括目标用户在当前通话过程中通话的文本信息，还包括其他参与人员通话的文本信息以及当前通话过程中的所有参与人员的通话语音数据。

实施时，可以基于通话语音数据中通话对象的语音特征对通话对象进行语音角色分离，基于通话文本信息中的场景和/或行业相关信息对通话对象进行语义角色分离并确定角色类别；进而基于语音角色分离的结果和语义角色分离的结果，确定出目标用户的用户画像信息，再根据目标用户的用户画像信息，确定出对应的虚拟人物形象，并将其作为更新后的虚拟人物形象。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

与上述视频通话方法相对应的，本申请实施例还提供一种视频通话装置，如图2所示，该装置可以包括：第一确定模块201，用于确定与目标用户对应的虚拟人物形象；第二确定模块202，用于根据目标用户的语音数据，确定与目标用户对应的面部特征；融合模块203，用于将面部特征与虚拟人物形象进行融合，得到与目标用户对应的虚拟人物图像。

可选的，在确定与目标用户对应的虚拟人物形象时，第一确定模块201，具体可以用于：根据目标用户的设置或选择，确定与目标用户对应的虚拟人物形象；或者，根据目标用户的用户信息，确定与目标用户对应的虚拟人物形象。

可选的，在根据目标用户的语音数据，确定与目标用户对应的面部特征时，第二确定模块202，具体可以用于：解析目标用户的语音数据，得到当前文本信息和语音情绪信息；根据当前文本信息和语音情绪信息，确定与目标用户对应的面部特征。

可选的，在根据当前文本信息和语音情绪信息，确定与目标用户对应的面部特征时，第二确定模块202，具体可以用于：根据当前文本信息确定人物口型数据，根据语音情绪信息确定面部情绪数据；根据人物口型数据和面部情绪数据，确定与目标用户对应的面部特征。

可选的，在根据当前文本信息和语音情绪信息，确定与目标用户对应的面部特征时，第二确定模块202，具体可以用于：根据当前文本信息和语音情绪信息，确定与目标用户对应的面部特征序列。相应的，在将面部特征与虚拟人物形象进行融合，得到与目标用户对应的虚拟人物图像时，融合模块203，具体可以用于：将面部特征序列与虚拟人物形象进行融合，得到与目标用户对应的虚拟人物图像序列。

可选的，视频通话装置还可以包括输出模块，输出模块具体可以用于：将与目标用户对应的虚拟人物图像序列与目标用户的语音数据同步输出。

可选的，视频通话装置还可以包括更新模块，更新模块具体可以用于：获取通话信息；通话信息包括通话文本信息；通话文本信息至少包括目标用户在当前通话过程中的通话文本信息；根据通话信息，更新虚拟人物形象。相应的，在将面部特征与虚拟人物形象进行融合时，融合模块203，具体可以用于：将面部特征与更新后的虚拟人物形象进行融合。

可选的，在根据通话信息，更新虚拟人物形象时，更新模块，具体可以用于：从通话信息中提取关键信息；根据关键信息，更新虚拟人物形象。

应当理解，本申请的实施例提供的视频通话装置的具体实现方式可以参考上述相应实施例所述的视频通话方法的具体实施方式，此处不再赘述。

图3所示为本申请一示例性实施例提供的用于执行视频通话方法的电子设备300的框图。

参照图3，电子设备300包括处理组件301，其进一步包括一个或多个处理器，以及由存储器302所代表的存储器资源，用于存储可由处理组件301的执行的指令，例如应用程序。存储器302中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件301被配置为执行指令，以执行上述任一实施例所介绍的视频通话方法。

电子设备300还可以包括一个电源组件被配置为执行电子设备300的电源管理，一个有线或无线网络接口被配置为将电子设备300连接到网络，和一个输入输出(I/O)接口。可以基于存储在存储器302的操作系统操作电子设备300，例如Windows ServerTM，Mac OSXTM，UnixTM，LinuxTM，FreeBSDTM或类似。

一种非临时性计算机可读存储介质，当存储介质中的指令由上述电子设备300的处理器执行时，使得上述电子设备300能够执行上述实施例介绍的任意一种视频通话方法。其中，该视频通话方法包括：确定与目标用户对应的虚拟人物形象；根据目标用户的语音数据，确定与目标用户对应的面部特征；将面部特征与虚拟人物形象进行融合，得到与目标用户对应的虚拟人物图像。

上述所有可选技术方案，可采用任意结合形成本申请的可选实施例，在此不再一一赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序校验码的介质。

需要说明的是，在本申请的描述中，术语“第一”、“第二”、“第三”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是两个或两个以上。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换等，均应包含在本申请的保护范围之内。

Claims

1.一种视频通话方法，其特征在于，包括：

确定与目标用户对应的虚拟人物形象；

2.根据权利要求1所述的方法，其特征在于，所述确定与目标用户对应的虚拟人物形象，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述目标用户的语音数据，确定与所述目标用户对应的面部特征，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述当前文本信息和所述语音情绪信息，确定与所述目标用户对应的面部特征，包括：

5.根据权利要求3所述的方法，其特征在于，所述根据所述当前文本信息和所述语音情绪信息，确定与所述目标用户对应的面部特征，包括：

6.根据权利要求5所述的方法，其特征在于，还包括：

7.根据权利要求1所述的方法，其特征在于，所述确定与目标用户对应的虚拟人物形象之后，所述将所述面部特征与所述虚拟人物形象进行融合之前，所述方法还包括：

根据所述通话信息，更新所述虚拟人物形象；

所述将所述面部特征与所述虚拟人物形象进行融合，包括：

将所述面部特征与更新后的虚拟人物形象进行融合。

8.根据权利要求7所述的方法，其特征在于，所述根据所述通话信息，更新所述虚拟人物形象，包括：

从所述通话信息中提取关键信息；

根据所述关键信息，更新所述虚拟人物形象。

9.一种视频通话装置，其特征在于，包括：

第一确定模块，用于确定与目标用户对应的虚拟人物形象；

10.一种电子设备，其特征在于，包括：

处理器，以及与所述处理器相连接的存储器；

所述存储器用于存储计算机程序；

所述处理器用于调用并执行所述存储器中的所述计算机程序，以执行如权利要求1-8任一项所述的视频通话方法。

11.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现如权利要求1-8任一项所述的视频通话方法的各个步骤。