CN115086594A

CN115086594A - 虚拟会议处理方法、装置、设备和存储介质

Info

Publication number: CN115086594A
Application number: CN202210520743.6A
Authority: CN
Inventors: 蒋雅萍; 张志鹏; 刘晓辉; 李亚鑫; 付长伟
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-05-12
Filing date: 2022-05-12
Publication date: 2022-09-20

Abstract

本申请提供一种虚拟会议处理方法、装置、设备和存储介质，该方法应用于参与虚拟会议的多个用户中第一用户的第一客户端，包括：显示包括多个用户各自的虚拟头像的虚拟会议界面，根据第一用户的人脸画面确定第一用户的表情信息；将第一用户的表情信息发送至服务器，以使服务器汇总多个用户的表情信息并将多个用户的表情信息同步至第一客户端和第二客户端，第二客户端对应于多个用户中除第一用户外的第二用户。接收服务器发送的第二用户的表情信息，根据第一用户的表情信息本地驱动第一用户对应的虚拟头像，根据第二用户的表情信息本地驱动第二用户对应的虚拟头像。实现了虚拟头像按照真实表情进行驱动的效果。

Description

虚拟会议处理方法、装置、设备和存储介质

技术领域

本发明涉及互联网技术领域，尤其涉及一种虚拟会议处理方法、装置、设备和存储介质。

背景技术

目前线上实时交流的方式主要包括三种方式：文字、音频以及视频。由于视频交流方式具有实时、高效、感受更加真实等优势，被广泛采用。

以在线会议应用为例，当多个用户参与一个在线会议时，为了增强沉浸感，每个用户客户端侧可以采集用户人脸视频，将采集的人脸视频发送至服务器，通过服务器同步到其他各个用户的客户端，从而实现各个用户的人脸视频在全部参会客户端之间的同步。当参会用户人数比较多的时候，需要传输的人脸视频较多，数据量很大，往往会出现卡顿等现象，使得人脸视频的同步性难以保证。

发明内容

本发明实施例提供一种虚拟会议处理方法、装置、设备和存储介质，用以实现更逼真的虚拟会议场景，保证虚拟会议的信息传输时效性。

第一方面，本发明实施例提供一种虚拟会议处理方法，应用于参与虚拟会议的多个用户中任意第一用户的第一客户端，所述方法包括：

显示虚拟会议界面，所述虚拟会议界面中包括所述多个用户各自对应的虚拟头像；

按照设定采样频率获取所述第一用户的人脸画面；

根据所述第一用户的人脸画面确定所述第一用户的表情信息；

将所述第一用户的表情信息发送至服务器，以使所述服务器汇总所述多个用户的表情信息，并将所述多个用户的表情信息同步至所述第一客户端和第二客户端，所述第二客户端对应于所述多个用户中除所述第一用户外的第二用户；

接收所述服务器发送的所述第二用户的表情信息。

第二方面，本发明实施例提供一种虚拟会议处理装置，应用于参与虚拟会议的多个用户中任意第一用户的第一客户端，所述装置包括：

显示模块，用于显示虚拟会议界面，所述虚拟会议界面中包括所述多个用户各自对应的虚拟头像；

确定模块，用于按照设定采样频率获取所述第一用户的人脸画面；根据所述第一用户的人脸画面确定所述第一用户的表情信息；

发送模块，用于将所述第一用户的表情信息发送至服务器，以使所述服务器汇总所述多个用户的表情信息，并将所述多个用户的表情信息同步至所述第一客户端和第二客户端，所述第二客户端对应于所述多个用户中除所述第一用户外的第二用户；

接收模块，用于接收所述服务器发送的所述用户的表情信息。

第三方面，本发明实施例提供一种电子设备，包括：存储器、处理器、通信接口、显示器；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器至少可以实现如第一方面所述的虚拟会议处理方法。

第四方面，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现如第一方面所述的虚拟会议处理方法。

第五方面，本发明实施例提供了一种虚拟会议处理方法，应用于参与虚拟会议的多个用户中任意第一用户的第一扩展现实设备，包括：

按照设定采样频率获取所述第一用户的人脸画面；

将所述第一用户的表情信息发送至服务器，以使所述服务器汇总所述多个用户的表情信息，并将所述多个用户的表情信息同步至所述第一扩展现实设备和第二扩展现实设备，所述第二扩展现实设备对应于所述多个用户中除所述第一用户外的第二用户；

接收所述服务器发送的所述第二用户的表情信息。

本发明实施例中，当多个用户通过各自的客户端进入同一虚拟会议后，可以选择各自的虚拟头像来代表自己，以其中任一用户(比如第一用户)为例，第一用户的第一客户端上可以显示与该虚拟会议对应的虚拟会议界面(或者称虚拟会议空间、虚拟会议室)，该虚拟会议界面中包括上述多个用户各自对应的虚拟头像。第一客户端按照设定采样频率采样出由终端设备的摄像头采集的第一用户的人脸画面，并根据第一用户的人脸画面确定用于驱动第一用户的虚拟头像的表情信息，将第一用户的表情信息发送至服务器。这样，服务器可以汇总得到当前每个用户的表情信息，将汇总结果发送给各客户端。这样，第一客户端不仅可以得到第一用户的表情信息，还可以得到其他第二用户的表情信息。

由此可见，在本发明实施例中，在虚拟会议场景中，参与会议的多个用户可以选择虚拟头像来代表自己，为了获取用于驱动各用户的虚拟头像的表情信息，在每个客户端侧实时采集相应用户的人脸画面、提取表情信息，将提取到的表情信息发送至服务器，由服务器汇总后发送给各客户端。由于表情信息所需传输带宽较小，表情信息可以更加实时地通过服务器同步到各客户端，从而保证了表情信息的传输时效性，降低服务器的处理负载。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种虚拟会议系统的示意图；

图2为本发明实施例提供的一种虚拟会议处理方法的流程图；

图3为本发明实施例提供的一种虚拟会议界面的示意图；

图4为本发明实施例提供的一种表情系数确定方法的流程图；

图5为本发明实施例提供的又一种虚拟会议处理方法的流程图；

图6为本发明实施例提供的又一种虚拟会议处理方法的流程图；

图7为本发明实施例提供的一种虚拟会议界面的交互示意图；

图8为本发明实施例提供的一种虚拟会议界面的交互示意图；

图9为本发明实施例提供的一种虚拟会议界面的交互示意图；

图10为本发明实施例提供的一种虚拟会议处理方法的应用示意图；

图11为本发明实施例提供的一种虚拟会议处理装置的结构示意图；

图12为本发明实施例提供的一种电子设备的结构示意图；

图13为本发明实施例提供的一种扩展现实设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图对本发明的一些实施方式作详细说明。在各实施例之间不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。

虚拟会议的目的是代替面对面的会议，即将会议从面对面变为虚拟模式，从而使人们不必前往开会的实际位置，而是可以随时随地参加。

为了使得用户在使用虚拟会议功能时能够获得更加身临其境的沉浸式体验，本发明实施例中提供了一种具有虚拟形象表情驱动的虚拟会议解决方案，使得用户在使用虚拟会议时，即使不直接采集并在虚拟会议空间中展示自己的真实头像画面，也能够通过虚拟形象感知各个参与会议的用户的表情变化。

本发明实施例提供的方案，可以由提供有虚拟会议功能的客户端来执行。

以多个用户(比如图1中示意的N个用户)参与一个虚拟会议的场景为例，图1中示意了一种虚拟会议系统的组成：由多个用户对应的多个客户端以及服务器构成。其中，每个客户端上都可以看到与该虚拟会议对应的虚拟会议界面(也可以称为虚拟会议空间、虚拟会议室)。服务器用于与各客户端进行信息传输。

图2为本发明实施例提供的一种虚拟会议处理方法的流程图，如图2所示，该虚拟会议处理方法包括如下步骤：

201、第一客户端显示虚拟会议界面，虚拟会议界面中包括多个用户各自对应的虚拟头像。

202、第一客户端按照设定采样频率获取第一用户的人脸画面，根据第一用户的人脸画面确定第一用户的表情信息。

203、第一客户端将第一用户的表情信息发送至服务器，以使服务器汇总多个用户的表情信息，并将多个用户的表情信息同步至第一客户端和第二客户端，第二客户端对应于多个用户中除第一用户外的第二用户。

204、第一客户端根据第一用户的表情信息本地驱动第一用户对应的虚拟头像。

205、第一客户端接收服务器发送的第二用户的表情信息，根据第二用户的表情信息本地驱动第二用户对应的虚拟头像。

在本实施例中，假设多个用户(比如N个用户)通过各自的客户端参与同一会议，将其中任一用户称为第一用户，其对应的客户端称为第一客户端，其他用户称为第二用户，客户端称为第二客户端。为描述方便，本实施例中仅以第一客户端为例说明每个客户端的执行过程，也就是说，第一客户端的执行过程其他客户端也执行。

可以理解的是，实际应用中，可以预先由多个用户中的某个用户组织、创建一个虚拟会议，在创建时，会输入参与会议的用户标识，会议时间，会议接入信息等信息，多个用户在会议时间到达时，接入该虚拟会议。

仅以第一用户为例，其在通过第一客户端接入该虚拟会议时，可以显示出一个虚拟会议界面，如图3所示，在该虚拟会议界面中可以包括模拟真实会议室场景的一些环境物体信息，比如图中示意的会议桌、显示屏、座位。其中，座椅的数量可以根据会议参与用户数量而设定，比如创建会议时设置参会人数为8人，则在该虚拟会议界面中显示8个座椅。这些座椅可以按照设定的放置位置规则确定对应的显示位置。

除此之外，如图3中所示，在各座椅上还可以显示有虚拟头像。当第一用户通过第一客户端接入该虚拟会议时，可以在多个座位中选择一个座位，此时，选出的座位可以关联上第一用户的用户标识，从而可以使得进入该虚拟会议的其他用户可以看到第一用户选择的座位，从而选择其他未被选择的座位。另外，如图3中所示，可选地，第一用户选择座位的方式可以是：点击意欲选择的座位上显示的虚拟头像，此时可以显示出虚拟头像列表，在该虚拟头像列表中包括多个可以选择的虚拟头像，第一用户选择某个虚拟头像并确认后，将该虚拟头像作为第一用户选用的虚拟头像，此时，被选中的虚拟头像以及触发头像选择的这个座位，都对应于第一用户，也就是说，第一用户可以通过某座位上初始显示的虚拟头像触发虚拟头像的选择操作，根据虚拟头像选择结果，便得知了第一用户选择的座位和虚拟头像。

实际应用中，各个座位上初始显示的虚拟头像可以相同或不同。可以根据虚拟头像列表中包含的虚拟头像数量以及参会用户的总数，设置是否允许不同用户选择同一虚拟头像使用。

可以理解的是，其他用户进入该虚拟会议后，也会首先执行各自对应的虚拟头像的选择操作，基于选择结果，在图3所示的虚拟会议界面中，不同座位上会关联有不同用户的用户标识和虚拟头像。每个虚拟头像实际上都会有一个对应的显示框，比如图中示意的矩形框。上述虚拟头像，可以是预先生成的3D虚拟头像，初始情况下，这些3D虚拟头像的表情被设置为默认表情状态。

在会议进行过程中，用户也可以更换自己的虚拟头像，即重新选择自己的虚拟头像，选择操作如上文所述。

在实际应用中，上述虚拟会议界面可以是服务器基于虚拟现实(VirtualReality，简称VR)、增强现实(Augmented Reality，简称AR)等技术生成的一个虚拟会议空间环境(作为上述虚拟会议界面)，当安装由上述客户端的用户终端设备支持VR、AR技术时，比如为VR头盔等设备，则通过这种用户终端设备可以看到包含上述若干三维对象的该虚拟会议界面，而如果用户终端设备不支持三维画面的显示，则可以将三维画面转换为二维画面进行显示。

在第一用户通过第一客户端进入虚拟会议后，一方面可以执行上述的虚拟头像选择操作，另一方面，可以手动或自动开启终端设备的摄像头，以采集自己的人脸画面。其中，手动是指在虚拟会议界面中可以设置有用于开启摄像头功能的按钮，第一用户自行控制该按钮的开关；自动是指在第一用户进入虚拟会议后，第一客户端默认开启上述按钮。

摄像头被开启后，可以被配置为持续采集人脸视频数据并传输给第一客户端，第一客户端可以以设定的采样频率对该人脸视频数据进行采样，得到一帧帧人脸画面，采样间隔可以根据实际需要而设定，可以设置为50毫秒等。

由于针对每帧人脸画面执行的后续操作都是一样的，本发明实施例中仅以任一帧人脸画面为例进行说明，为描述方便，统称为人脸画面。

由于该人脸画面是对第一用户进行拍摄得到的真实人脸画面，可以从中提取出反映第一用户当前表情状态的表情信息，以便基于该表情信息实时地驱动第一用户的虚拟头像，使得该虚拟头像呈现出与该表情信息相匹配的表情状态。这样，由于不同用户当前的表情各有不同，每个用户通过自己的客户端根据自己当前的表情信息在本地驱动自己的虚拟头像，最终使得各个用户通过该虚拟会议界面可以看到每个用户的虚拟头像呈现不同的表情状态，获得一种沉浸式的会议体验。其中，概括来说，本发明实施例中所说的驱动虚拟头像，是指根据表情信息调整虚拟头像的表情。

为了让其他用户看到第一用户当前的表情状态，在本发明实施例中，第一客户端除了根据第一用户的表情信息本地驱动第一用户的虚拟头像外，还将第一用户的表情信息发送至服务器。可以理解的是，各第二客户端执行同样的过程，会将此时获得的相应第二用户的表情信息都发送至服务器。服务器汇总各个客户端发送的表情信息，并将总汇结果发送给各个客户端。这样，每个客户端可以获得其他用户的表情信息，基于其他用户的表情信息在本地驱动其他用户的虚拟头像。

为便于理解，举例来说，假设用户1、用户2和用户3参与一个虚拟会议，某时刻，这三个用户各自的客户端获得相应用户的表情信息，分别发送至服务器，服务器可以将用户2和用户3的表情信息发送至用户1，同理，将用户1和用户2的表情信息发送到用户3。为方便处理，服务器也可以将用户1、用户2和用户3的表情信息汇总后，分别发送至用户1、用户2和用户3，此时，用户1的客户端收到三个用户的表情信息后，可以在本地根据三个用户的表情信息，对应地驱动三个用户的虚拟头像。由此可见，本虚拟会议场景下，是一种多对多的交流方式。其中，对于用户1来说，其客户端可以预先从服务器下载每个用户对应的虚拟头像，这样，本地就存储有各个用户的虚拟头像。

结合上述举例可知，上述步骤203和204的执行时序并无严格限定，也就是说，第一客户端即可以基于第一用户的表情信息在本地驱动第一用户的虚拟头像，同时将第一用户的表情信息发送至服务器，由服务器同步到其他第二客户端，也可以在采集到第一用户的表情信息的时候，先发送到服务器，在接收到服务器发送的汇总后的表情信息后，再执行根据第一用户的表情信息本地驱动第一用户的虚拟头像，以及根据其他第二用户的表情信息本地驱动其他第二用户的虚拟头像的操作，完成虚拟头像按照表情信息进行渲染显示的图像处理。

由于在上述交互过程中，客户端与服务器之间仅需要传输表情信息，表情信息的数据量是比较少的，所以客户端与服务器之间的传输时延是很小的，可以忽略，这样使得各个客户端之间可以实现表情的同步驱动，保证传输时效性。

可以理解的是，在会议进行中，需要在服务器、客户端间传输的信息除了上述表情信息外，还包括音频数据，即用户在会议过程中的发言语音，音频数据的传输仍旧按照传统方式在服务器和客户端之间同步传输，只是这里想要强调一点：假设第一用户当前正在发言，为了保证第一用户的虚拟头像的表情驱动效果与发音口型一致性，各客户端在驱动第一用户的虚拟头像时，需要保证音频数据与虚拟头像表情驱动效果的对齐。

下面介绍一种可选地根据第一用户的人脸画面确定第一用户的表情信息的实现方式：从第一用户的人脸画面中提取多个人脸关键点，根据多个人脸关键点确定第一用户的表情系数。也就是说，可以根据众多人脸关键点，确定对应的表情系数作为上述第一用户的表情信息。实际上，会包含很多种类(比如52个)的表情系数，不同的表情系数用于调整人脸不同位置的表情。

在人脸画面中提取的多个人脸关键点，实际上包括分别对应于不同脸部区域的关键点，比如额头、眉毛、眼睛、鼻子、嘴巴、脸颊，等等。本发明实施例中，针对不同脸部区域的关键点，提供了不同的表情系数的确定方式，参考图4。

图4为本发明实施例提供的一种表情系数确定方法的流程图，如图4所示，可以包括如下步骤：

401、将第一脸部区域的关键点输入到表情系数预测模型中，以获得与第一脸部区域的关键点对应的表情系数。

402、获取与第二脸部区域对应的预设表情系数映射关系，所述预设表情系数映射关系用于反映目标种类表情系数与相应目标关键点间距离的映射关系。

403、根据第二脸部区域的关键点，确定与目标种类表情系数对应的目标关键点间距离值。

404、根据目标关键点间距离值和所述预设表情系数映射关系，确定与第二脸部区域的关键点对应的表情系数。

在本实施例中，使用两种方式来共同完成第一用户的表情系数的确定，一种方式是使用深度学习的表情系数预测模型，另一种方式是采用映射规则的方式。

这两种方式分别适用于不同的脸部区域。概括来说，表情变化情况较为简单、对表情的精度要求较高的脸部区域，更适合采用映射规则的方式，比如人脸的上部分的眼睛、眉毛等脸部区域；而表情变化情况较为复杂、涉及到的表情系数比较多的脸部区域，更适合使用预测模型的方式，比如嘴巴、脸颊等脸部区域。

例如，比如左右眼、左右眉毛，往往只涉及到眨眼幅度(即睁眼的大小)、眼珠的上下左右移动、眉毛的移动。嘴巴，在说话是状态变化多样，即使在不说话时，也会存在很多习惯动作，比如抿唇、打哈欠等。

针对表情系数预测模型：在实际应用中，可以针对需要使用表情系数预测模型的每个脸部区域，针对性地训练出对应的一个表情系数预测模型，比如与嘴部区域对应的表情系数预测模型，与脸颊区域对应的表情系数预测模型，这样可以更加准确地完成相应脸部区域的表情系数的预测，而且模型训练更加容易。

表情系数预测模型的输入即为相应脸部区域上提取出的多个关键点，输出即为预测出的与该脸部区域对应的各种表情系数。

在实际应用中，表情系数预测模型的结构可以实现为由多个(比如5个)全连接层构成的神经网络模型。表情系数预测模型的训练过程所使用的训练样本可以通过如下方式获得：获取多个人脸图像，通过已知的表情系数识别软件对该人脸图像中的目标脸部区域(比如上述嘴部区域、脸颊区域)进行表情系数识别，得到目标脸部区域对应的表情系数，并且，对该人脸图像进行关键点提取，得到目标脸部区域对应的关键点。这样，目标脸部区域对应的关键点作为训练样本，目标脸部区域对应的表情系数作为该训练样本的监督信息，用于目标脸部区域对应的表情系数预测模型的训练。

针对表情系数映射关系：具体地，某种脸部区域会对应有多种类型的表情系数，其中，每种表情系数都可以具有一种映射关系，该映射关系可以通过映射函数曲线来表示，该曲线的一个坐标轴表示的是这种表情系数的取值，另一个坐标轴表示的是与这种表情系数对应的关键点间距离信息。举例来说，假设一种表情系数是左眼眨眼程度，与这种表情系数对应的关键点间距离信息可以是：左眼的眼睛高度与眼睛宽度的比值。其中，眼睛高度可以通过眼睛上下边界各自对应的关键点的平均距离来表示，眼睛宽度可以通过眼睛左右边界上各自对应的关键点间距离来表示。可以预先收集大量的分别包含不同眨眼状态的眼睛的图像样本，对这些图像样本进行表情识别，得到与左眼眨眼程度对应的表情系数值，并对应地提取眼部的关键点，计算出上述比值，这样就得到了大量的坐标对，其中，每对坐标由表情系数值和比值构成。对得到的大量坐标对进行拟合，便可以得到与左眼眨眼程度对应的表情系数映射函数曲线。

以上述表情系数映射函数曲线为例，在第一用户的人脸画面中提取出左眼对应的多个关键点，进而计算出左眼的眼睛高度与眼睛宽度的比值，在上述表情系数映射函数曲线中定位该比值，确定与该比值对应的函数值——表情系数值。

综上，通过使用映射规则和深度学习模型的方式，完成对不同脸部区域的表情系数的确定。基于映射规则，可以获得更加精确的结果，基于深度学习模型，可以更方便地获得预测结果，根据两者的优势以及不同脸部区域的表情变化特点，配置不同的脸部区域使用不同的方式完成表情系数的确定，兼顾了准确度和处理复杂度。

图5为本发明实施例提供的又一种虚拟会议处理方法的流程图，如图5所示，该方法包括如下步骤：

501、第一客户端显示虚拟会议界面，虚拟会议界面中包括多个用户各自对应的虚拟头像。

502、第一客户端按照设定采样频率获取第一用户的人脸画面，从第一用户的人脸画面中提取多个人脸关键点，根据多个人脸关键点确定第一用户的表情系数、头部姿态信息和头部位移信息。

在本实施例中，除了可以基于人脸关键点进行表情系数的计算外，还可以基于人脸关键点进行第一用户的头部姿态信息和/或头部位移信息的确定。其中，头部姿态信息主要是指第一用户头部的转动方向和角度，可以基于人脸关键点计算出旋转矩阵，根据旋转矩阵得到该姿态信息。关于旋转矩阵的计算可以参考现有相关技术，在此不赘述。

头部位移信息是指第一用户的头部在人脸画面中的位置移动信息，包括移动方向和移动距离。可以理解的是，相邻两帧人脸画面中，第一用户的头部位置可能会不一致，该不一致即通过该位置移动信息来反映。实际上，可以根据前一帧人脸画面中关键点的位置坐标与后一帧人脸画面中相应关键点的位置坐标的比较，来确定该位置移动信息。

503、第一客户端将第一用户的表情信息、头部姿态信息和头部位移信息发送至服务器，以使服务器汇总多个用户的表情信息、头部姿态信息和头部位移信息，并将多个用户的表情信息、头部姿态信息和头部位移信息同步至第一客户端和第二客户端，第二客户端对应于多个用户中除第一用户外的第二用户。

在本实施例中，在客户端与服务器间同步传输的除了各客户端确定的相应用户的表情系数外，还包括各客户端确定的相应用户的头部姿态信息和头部位移信息。

504、第一客户端根据第一用户的表情信息本地驱动第一用户对应的虚拟头像，根据第一用户的头部姿态信息对第一用户的虚拟头像进行姿态调整，根据第一用户的头部位移信息对第一用户的虚拟头像在相应显示窗口中的显示位置进行调整。

505、第一客户端接收服务器发送的第二用户的表情信息、头部姿态信息和头部位移信息，根据第二用户的表情信息本地驱动第二用户对应的虚拟头像，根据第二用户的头部姿态信息对第二用户的虚拟头像进行姿态调整，根据第二用户的头部位移信息对第二用户的虚拟头像在相应显示窗口中的显示位置进行调整。

以第一客户端为例，第一客户端不仅会在本地根据各个用户的表情系数完成各个用户的虚拟头像的渲染显示，还会根据各个用户的头部姿态信息和头部位移信息改变相应用户的虚拟头像的转动方向和显示位置，呈现出各用户的虚拟头像随着用户真实的脸部表情、姿态和位置的变化而变化的动态更新效果。

图6为本发明实施例提供的又一种虚拟会议处理方法的流程图，如图6所示，该方法包括如下步骤：

601、第一客户端显示虚拟会议界面，虚拟会议界面中包括多个用户各自对应的虚拟头像。

602、第一客户端按照设定采样频率获取第一用户的人脸画面，根据第一用户的人脸画面确定第一用户的表情信息。

603、若第一用户为发言人，则第一客户端对第一用户的语音数据进行分析，以确定与第一用户的发言内容对应的话题类型，确定第一用户的表情信息与该话题类型是否匹配，若匹配，则执行步骤604，若不匹配，则执行步骤605。

604、第一客户端将第一用户的表情信息发送至服务器，以使服务器汇总多个用户的表情信息，并将多个用户的表情信息同步至第一客户端和第二客户端，第二客户端对应于多个用户中除第一用户外的第二用户。

605、第一客户端将与该话题类型对应的设定表情信息作为第一用户的表情信息发送至服务器，以使服务器汇总多个用户的表情信息，并将多个用户的表情信息同步至第一客户端和第二客户端。

606、第一客户端接收服务器发送的第二用户的表情信息，第一客户端根据第一用户的表情信息本地驱动第一用户对应的虚拟头像，根据第二用户的表情信息本地驱动第二用户对应的虚拟头像。

本实施例中，假设第一用户当前正在发言，则在可以用户开始发言后，第一客户端对第一用户发出的语音数据进行分析，以确定与其发言内容对应的话题类型。

可选地，可以将语音数据转换为文字内容，将文字内容输入到用于预测话题类型的预设神经网络模型中，由该神经网络模型输出话题类型预测结果。实际应用中，可以预设不同类型的话题，收集各话题对应的训练样本完成该模型的训练。比如，话题类型可以包括：工作汇报、自由讨论等话题类型，或者，话题类型可以包括：严肃话题、娱乐话题等。

可选地，也可以通过关键词的方式来识别话题。具体地，可以预先设置不同话题类型对应的常见关键词，如果第一用户的发言内容中包含某话题类型对应的关键词，则确定该话题类型是与该发言内容对应的话题类型。

另外，每种话题类型可以预先配置对应的表情信息，比如设置每种话题类型对应的每种表情系数的取值范围。

从而，在第一用户发言期间，针对该期间采样的每帧第一用户的人脸画面，在根据前述实施例所介绍的方案得到第一用户的表情系数后，可以将确定出的第一用户的表情系数与第一用户当前发言的话题类型所对应的表情系数取值范围对比，如果在该取值范围内，则认为第一用户的表情系数与该话题类型匹配，反之，则不匹配。

若匹配，则直接将从人脸画面中得到的该第一用户的表情系数发送至服务器；否则，则根据该话题类型对应的表情系数取值范围得到与该话题类型对应的一种设定的表情系数(比如随机生成一组在该取值范围内的表情系数)，将该设定表情系数作为第一用户的表情信息，发送到服务器。

基于本实施例提供的方案，可以实现在虚拟会议空间的各用户的虚拟头像表情与会议中的话题类型相匹配的效果，营造出一种内容与头像表情更融洽的沉浸式氛围。

除了上述话题类型外，可选地，影响第一用户的表情信息的可用性的因素比如还可以包括：第一用户的角色类型。具体地，可以预先设置不同角色类型与表情系数取值范围之间的对应对象，如果第一用户属于角色a，但是当前得到的第一用户的表情系数与角色a对应的表情系数取值范围不匹配，则根据该取值范围生成一个设定的表情系数，替代从人脸画面中得到的第一用户的表情系数。用户的角色可以在创建会议虚拟时配置完成。

以上各实施例中，都是基于第一用户的人脸画面来获取第一用户的表情信息(表情系数)。在一可选实施例中，还可以通过如下方式获得第一用户的表情信息：接收第一用户输入的表情关键词，根据该表情关键词生成第一用户的表情信息(表情系数)。

可以预先设置不同的表情关键词与表情系数之间的对应关系，可以提示用户可以选择输入的表情关键词，供用户按需选用。

在实际应用中，有时候会存在用户终端设备没有摄像头的情形，比如第一用户使用的终端设备为不具有摄像头的PC机，此时，第一用户可以通过输入表情关键词的方式动态调整虚拟会议界面中自己的虚拟头像的表情。

不管是基于哪种方式得到的第一用户的表情信息，第一用户可能具有调整表情信息的需求，基于此，在一可选实施例中，提供了如下的表情信息调整方式：

首先，在第一客户端中，可以与虚拟会议界面关联地显示仅第一用户可见的配置子界面，该配置子界面中包括与第一用户的表情信息对应于的表情配置项以及第一用户的虚拟头像；之后，响应于第一用户对表情配置项的配置调整操作，根据配置调整操作更新后的表情信息，在配置子界面中驱动第一用户对应的虚拟头像；之后，响应于第一用户对更新后的表情信息的确认操作，将配置子界面中显示的第一用户对应的虚拟头像迁移在虚拟会议界面中显示。

为便于理解，结合图7示例性说明。在图7中，第一用户的第一客户端上显示出虚拟会议界面701，并且在该虚拟会议界面701中显示有多个用户各自对应的虚拟头像，其中包括第一用户对应的虚拟头像A。假设当前基于对第一用户的人脸画面，提取出一组表情系数B1，此时，可选地，如图7中所示，第一客户端可以显示出图中示意的配置子界面702，该配置子界面702仅第一用户可见，即该配置子界面702不会通过服务器同步到其他客户端，仅在第一客户端中显示。在该配置子界面702中，包括用于显示表情配置项的第一区域以及用于显示第一用户的虚拟头像的第二区域。

其中，如图7中所示，一组表情系数B1由若干表情系数(比如图中示意的表情系数1、表情系数2…)构成，每种表情系数对应有一个调节条块和表示表情系数取值范围的数值轴，这个数值轴和调节条块构成与这种表情系数对应的表情配置项。从而，第一用户的表情信息将对应有多个表情配置项，分别用于调整构成该表情信息的各种表情系数。

上述第二区域内的虚拟头像可以复制于虚拟会议界面701中，并且，可以先基于由从第一用户的人脸画面中获得的由多个表情系数对该第二区域内的虚拟头像进行驱动，使得该虚拟头像呈现出对应的表情。之后，如果第一用户通过观看驱动效果而想要调整表情，则可以在第一区域内调整一些表情系数对应的调节条块，以更新对应的表情系数值，随着表情系数值的更新，可以更新第二区域内虚拟头像的表情。当用户将虚拟头像的表情调整至自己满意，可以点击图中第一区域内设置的确认按钮，触发确认操作。假设此时形成一组新的表情系数B2，将配置子界面702中显示的基于表情系数B2驱动后的虚拟头像复制到虚拟会议界面701中第一用户对应的虚拟头像显示位置处进行替换。

以上各实施例介绍了一些关于在虚拟会议界面中进行虚拟头像表情驱动的相关内容。在虚拟会议界面中，除了可以进行与虚拟头像的表情相关的操作外，还可以执行其他交互操作。下面结合以下实施例示例性说明。

如上文所述，在虚拟会议界面中除了包含有虚拟头像外，还可以包含一些与会议场景对应的对象，比如虚拟显示屏、会议桌等。

当虚拟会议界面中包括虚拟显示屏时，在一可选实施例中，可以结合该虚拟显示屏实现信息共享，从而实现真实会议室中将共享内容投屏显示在真实会议终端屏幕的模拟效果。

具体地，仍以第一客户端为例，响应于第一用户触发的信息共享操作，将共享内容呈现在虚拟显示屏中，并将呈现有共享内容的虚拟显示屏通过服务器同步至第二客户端。

为便于理解，结合图8示例性说明。在图8中，虚拟会议界面中包括虚拟显示屏801，并且，在虚拟会议界面中可以显示有操作栏，基于该操作栏中提供的各种交互功能，用户可以触发各种操作。在该操作栏中包括有用于触发信息共享操作的共享按钮802，通过触发该共享按钮802，第一用户可以选择需要共享给所有用户的共享内容803，第一客户端将共享内容803渲染显示在虚拟显示屏801上，这样第一用户便可以通过第一客户端看到共享内容803在虚拟显示屏801上显示的效果。为了让其他用户也看到该共享内容803的显示效果，第一客户端将包含共享内容803的虚拟显示屏801截图出来，发送至服务器。服务器发送至各第二客户端，各第二客户端将该截图渲染显示在本地显示的虚拟会议界面中虚拟显示屏的位置。可以理解的是，在第一用户触发信息共享操作后，第一客户端可以以设定采样频率或者基于虚拟显示屏801上显示的内容发生变化时，动态地将包含共享内容的虚拟显示屏801同步到其他客户端。

除上述信息共享功能外，在虚拟会议界面中还可以提供讨论组的功能，以满足多个用户中的部分用户在会议过程中需要进行分组讨论的需求。

仍以第一客户端为例，可选地，所述方法还包括：

根据第一用户触发的讨论组创建信息，在虚拟会议界面中显示包含对应的至少两个用户的讨论组，所述至少两个用户中包括第一用户；

将讨论组创建信息通过所述服务器同步至第二客户端，以使第二客户端生成所述讨论组；

响应于第一用户触发的切换至所述讨论组的操作，在第一客户端上显示讨论组会议界面，其中，讨论组会议界面中包括从虚拟会议界面中迁移至的所述至少两个用户的虚拟头像。

为便于理解，结合图9示例性说明。如图9中所述，在虚拟会议界面900中的操作栏中可以包含有用于创建讨论组的按钮901，第一用户通过该按钮触发创建讨论组的操作，可以输入讨论组名称、讨论组成员等信息，本实施例中假设第一用户选择了与第二用户和第三用户创建一个讨论组，名称即为讨论组1。在创建完讨论组1后，如图9中所示，第一客户端在本地的虚拟会议界面900中可以显示出一个会议列表弹框902，其中显示有目前虚拟会议中存在的各个讨论组。需要说明的是，这里可以将初始的由上述全部多个用户参与的虚拟会议也视为一个特殊的讨论组，这个讨论组的名称可以默认配置，比如图9中示意的“会议大厅”。同时，第一客户端还将上述讨论组1的创建信息发送至服务器，由服务器发送至各第二客户端，这样各第二客户端在本地的虚拟会议界面中也会显示图中示意的会议列表弹框902。

第一用户可以通过点击会议列表弹框中的讨论组1，第一客户端替换原本显示的虚拟会议界面900，而是显示讨论组1对应的虚拟会议界面903。在该虚拟会议界面903中包括第一用户、第二用户和第三用户的虚拟头像，这三个虚拟头像是从之前的虚拟会议界面中迁移来的，也就是说，在这三个用户切换到讨论组1后，之前的对应于会议大厅的虚拟会议界面中将不再包含这三个用户的虚拟头像。另外，如图9中所示，在虚拟会议界面903中，也可以包括诸如虚拟显示屏、会议桌等对象。

假设第一用户、第二用户和第三用户中的任一用户想要退出讨论组1，而切换回原来的大厅会议，则可以通过在上述会议列表弹框902中选择大厅会议即可，此时，相应客户端界面上将切换至显示与大厅会议对应的虚拟会议界面。

本发明实施例还提供一种在云端来执行的虚拟会议处理方法，在云端可以部署有若干计算节点(或者称为云服务器)，每个计算节点中都具有计算、存储等处理资源。在云端，可以组织由多个计算节点来提供某种服务，当然，一个计算节点也可以提供一种或多种服务。云端提供该服务的方式可以是对外提供服务接口，用户调用该服务接口以使用相应的服务。服务接口包括软件开发工具包(Software Development Kit，简称SDK)、应用程序接口(Application Programming Interface，简称API)等形式。

针对本发明实施例提供的方案，可以在云端形成一个提供虚拟会议服务功能的服务集群，该服务集群中可以包括至少一个计算节点即云服务器，该服务集群对外提供有服务接口，提供虚拟会议服务功能的客户端，可以调用该服务接口，与服务集群交互。具体地，本发明实施例提供的虚拟会议处理方法中，服务集群可以执行如下步骤：

生成与虚拟会议对应的虚拟会议界面；

响应于参与虚拟会议的多个用户中任一用户的客户端接入虚拟会议的请求，将虚拟会议界面发送至所述任一用户的客户端；

接收所述任一用户的客户端发送的用户表情信息，所述用户表情信息是相应客户端根据获取的相应用户的人脸画面确定出的；

汇总多个用户的表情信息；

将多个用户的表情信息同步至所述多个用户的客户端。

为便于理解，结合图10来示例性说明。以多个用户中的第一用户为例，第一用户的客户端安装在图10中示意的用户设备E1中，基于第一用户进入虚拟会议的操作，第一客户端调用服务集群E2提供的服务接口，通过用户设备E1向服务集群E2发送接入虚拟会议的请求，服务集群E2将虚拟会议对应的虚拟会议界面反馈给用户设备E1进行显示。用户设备E1的摄像头被开启，以采集第一用户的人脸画面，第一客户端根据该人脸画面确定第一用户的表情信息，将第一用户的表情信息发送至服务集群E2。其他用户执行同样的过程，则服务集群可以收到多个用户的客户端分别发送的多个用户的表情信息，之后将多个用户的表情信息的汇总结果发送给各个用户的用户设备，包括第一用户的用户设备E1。

以下将详细描述本发明的一个或多个实施例的虚拟会议处理装置。本领域技术人员可以理解，这些装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。

图11为本发明实施例提供的一种虚拟会议处理装置的结构示意图，该虚拟会议处理装置应用于参与虚拟会议的多个用户中任意第一用户的第一客户端，如图11所示，该装置包括：显示模块11、确定模块12、发送模块13、接收模块14。

显示模块11，用于显示虚拟会议界面，所述虚拟会议界面中包括所述多个用户各自对应的虚拟头像。

确定模块12，用于按照设定采样频率获取所述第一用户的人脸画面；根据所述第一用户的人脸画面确定所述第一用户的表情信息。

发送模块13，用于将所述第一用户的表情信息发送至服务器，以使所述服务器汇总所述多个用户的表情信息，并将所述多个用户的表情信息同步至所述第一客户端和第二客户端，所述第二客户端对应于所述多个用户中除所述第一用户外的第二用户。

接收模块14，用于接收所述服务器发送的所述用户的表情信息。

可选地，该装置还包括：驱动模块，用于根据所述第一用户的表情信息本地驱动所述第一用户对应的虚拟头像，以及根据所述第二用户的表情信息本地驱动所述第二用户对应的虚拟头像。

可选地，所述确定模块12具体用于：从所述第一用户的人脸画面中提取多个人脸关键点；根据所述多个人脸关键点确定所述第一用户的表情系数。

其中，所述多个人脸关键点包括分别对应于不同脸部区域的关键点，所述确定模块12具体用于：将第一脸部区域的关键点输入到表情系数预测模型中，以获得与所述第一脸部区域的关键点对应的表情系数；获取与第二脸部区域对应的预设表情系数映射关系；根据所述第二脸部区域的关键点和所述预设表情系数映射关系，确定与所述第二脸部区域的关键点对应的表情系数。

其中，所述预设表情系数映射关系用于反映目标种类表情系数与相应目标关键点间距离的映射关系；所述确定模块12具体用于：根据所述第二脸部区域的关键点，确定与所述目标种类表情系数对应的目标关键点间距离值；根据所述目标关键点间距离值和所述预设表情系数映射关系，确定与所述第二脸部区域的关键点对应的表情系数。

可选地，所述装置还包括：姿态处理模块，用于根据所述多个人脸关键点，确定所述第一用户的头部姿态信息。所述发送模块13还用于：将所述第一用户的头部姿态信息发送至所述服务器。所述接收模块14还用于：接收所述服务器发送的所述第二用户的头部姿态信息；所述驱动模块还用于：根据所述第一用户的头部姿态信息对所述第一用户的虚拟头像进行姿态调整；根据所述第二用户的头部姿态信息对所述第二用户的虚拟头像进行姿态调整。

可选地，所述装置还包括：位移处理模块，用于根据所述多个人脸关键点，确定所述第一用户的头部位移信息，所述头部位移信息是指所述第一用户的头部在所述人脸画面中的位置移动信息。所述发送模块13还用于：将所述第一用户的头部位移信息发送至所述服务器。所述接收模块14还用于：接收所述服务器发送的所述第二用户的头部位移信息。所述驱动模块还用于：根据所述第一用户的头部位移信息对所述第一用户的虚拟头像在相应显示窗口中的显示位置进行调整，根据所述第二用户的头部位移信息对所述第二用户的虚拟头像在相应显示窗口中的显示位置进行调整。

可选地，所述装置还包括：话题识别模块，用于若所述第一用户为发言人，则对所述第一用户的语音数据进行分析，以确定与所述第一用户的发言内容对应的话题类型，确定所述第一用户的表情信息与所述话题类型是否匹配。所述发送模块13还用于：若匹配，则将所述第一用户的表情信息发送至服务器；若不匹配，则将与所述话题类型对应的设定表情信息作为所述第一用户的表情信息发送至所述服务器。

可选地，所述确定模块12还用于：接收所述第一用户输入的表情关键词，根据所述表情关键词生成所述第一用户的表情信息。

可选地，所述显示模块11还用于：在所述第一客户端中，与所述虚拟会议界面关联地显示仅所述第一用户可见的配置子界面，所述配置子界面中包括与所述第一用户的表情信息对应于的表情配置项以及所述第一用户的虚拟头像。所述驱动模块还用于：响应于所述第一用户对所述表情配置项的配置调整操作，根据所述配置调整操作更新后的表情信息，在所述配置子界面中驱动所述第一用户对应的虚拟头像；响应于所述第一用户对所述更新后的表情信息的确认操作，将所述配置子界面中显示的所述第一用户对应的虚拟头像迁移在所述虚拟会议界面中显示。

可选地，所述虚拟会议界面中包括虚拟显示屏；所述显示模块11还用于：响应于所述第一用户触发的信息共享操作，将共享内容呈现在所述虚拟显示屏中。所述发送模块13还用于：将呈现有所述共享内容的虚拟显示屏通过所述服务器同步至所述第二客户端。

可选地，所述显示模块11还用于：根据所述第一用户触发的讨论组创建信息，在所述虚拟会议界面中显示包含对应的至少两个用户的讨论组，所述至少两个用户中包括所述第一用户。所述发送模块13还用于：将所述讨论组创建信息通过所述服务器同步至所述第二客户端，以使所述第二客户端生成所述讨论组。所述显示模块11还用于：响应于所述第一用户触发的切换至所述讨论组的操作，在所述第一客户端上显示讨论组会议界面，其中，所述讨论组会议界面中包括从所述虚拟会议界面中迁移至的所述至少两个用户的虚拟头像。

图11所示虚拟会议处理装置可以用于执行前述实施例中的步骤，执行过程和效果在此不再赘述。

在一个可能的设计中，上述图11所示虚拟会议处理装置的结构可实现为一电子设备。该电子设备中运行有上述客户端。如图12所示，该电子设备可以包括：处理器21、存储器22、通信接口23、显示器24。其中，存储器22上存储有可执行代码，当所述可执行代码被处理器21执行时，使处理器21至少可以实现如前述实施例中提供的虚拟会议处理方法。

本发明一些实施例提供的电子设备可以为扩展现实设备，具体可以是外接式头戴显示设备或者一体式头戴显示设备等支持XR技术的设备，其中外接式头戴显示设备需要与外部处理系统(例如计算机处理系统)配合使用。

图13示出了一种头戴式的扩展现实设备1300的内部配置结构示意图。

显示单元1301可以包括显示面板，显示面板设置在扩展现实设备1300上面向用户面部的侧表面，可以为一整块面板、或者为分别对应用户左眼和右眼的左面板和右面板。显示面板可以为电致发光(EL)元件、液晶显示器或具有类似结构的微型显示器、或者视网膜可直接显示或类似的激光扫描式显示器。需要说明的是，该显示单元1301不应该影响对用户人脸画面的采集，比如，上述显示面板应该可以透出用户的眼睛等脸部区域。

虚拟图像光学单元1302以放大方式拍摄显示单元1301所显示的图像，并允许用户按放大的虚拟图像观察所显示的图像。作为输出到显示单元1301上的显示图像，可以是从内容再现设备(蓝光光碟或DVD播放器)或流媒体服务器等数据源获得的虚拟场景的图像、或者使用外部相机1310拍摄的现实场景的图像。在本发明实施例中，显示在显示单元1301上的可以包括虚拟会议界面等。一些实施例中，虚拟图像光学单元1302可以包括透镜单元，例如球面透镜、非球面透镜、菲涅尔透镜等。

输入操作单元1303包括至少一个用来执行输入操作的操作部件，例如按键、按钮、开关或者其他具有类似功能的部件，通过操作部件接收用户指令，并且向控制单元1307输出指令。

状态信息获取单元1304用于获取使用扩展现实设备1300的用户的状态信息。状态信息获取单元1304可以包括各种类型的传感器，用于自身检测状态信息，并可以通过通信单元1305从外部设备(例如智能手机、腕表和用户穿戴的其它多功能终端)获取状态信息。状态信息获取单元1304可以获取用户的头部的位置信息和/或姿态信息。状态信息获取单元1304可以包括陀螺仪传感器、加速度传感器、全球定位系统(GPS)传感器、地磁传感器、多普勒效应传感器、红外传感器、射频场强度传感器中的一个或者多个。

通信单元1305执行与外部装置的通信处理以及通信信号的编码和解码处理。另外，控制单元1307可以从通信单元1305向外部装置发送传输数据，比如本发明实施例中的用户表情信息。

扩展现实设备1300还可以包括存储单元1306，存储单元1306可以存储应用程序或各种类型的数据。例如，用户使用扩展现实设备1300观看的内容可以存储在存储单元1306中，客户端程序可以存储在存储单元1306中。

扩展现实设备1300还可以包括控制单元1307，控制单元1307可以包括计算机处理单元(CPU)或者其他具有类似功能的设备。一些实施例中，控制单元1307可以用于执行存储单元1306存储的应用程序，或者控制单元1307还可以用于执行本发明实施例公开的各步骤。

图像处理单元1308用于执行信号处理，比如与从控制单元1307输出的图像信号相关的图像质量校正，以及将其分辨率转换为根据显示单元1301的屏幕的分辨率。然后，显示驱动单元1309依次选择显示单元1301的每行像素，并逐行依次扫描显示单元1301的每行像素，因而提供基于经信号处理的图像信号的像素信号。

扩展现实设备1300还可以包括外部相机1310。外部相机1310可以设置在扩展现实设备1300主体前表面，外部相机1310可以为一个或者多个。本发明实施例中，外部相机1310可以用于采集人脸画面。

扩展现实设备1300还可以包括声音处理单元1311，声音处理单元1311可以执行从控制单元1307输出的声音信号的声音质量校正或声音放大，以及输入声音信号的信号处理等。然后，声音输入/输出单元1312在声音处理后向外部输出声音以及输入来自麦克风的声音。

需要说明的是，图13中虚线框示出的结构或部件可以独立于扩展现实设备1300之外，例如可以设置在外部处理系统(例如计算机系统)中与扩展现实设备1300配合使用；或者，虚线框示出的结构或部件可以设置在扩展现实设备1300内部或者表面上。

另外，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现如前述实施例中提供的虚拟会议处理方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的网元可以是或者也可以不是物理上分开的。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现，当然也可以通过硬件和软件结合的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种虚拟会议处理方法，其特征在于，应用于参与虚拟会议的多个用户中任意第一用户的第一客户端，包括：

按照设定采样频率获取所述第一用户的人脸画面；

接收所述服务器发送的所述第二用户的表情信息。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述第一用户的表情信息本地驱动所述第一用户对应的虚拟头像，以及根据所述第二用户的表情信息本地驱动所述第二用户对应的虚拟头像。

3.根据权利要求1所述的方法，其特征在于，所述根据所述第一用户的人脸画面确定所述第一用户的表情信息，包括：

从所述第一用户的人脸画面中提取多个人脸关键点，所述多个人脸关键点包括分别对应于不同脸部区域的关键点；

将第一脸部区域的关键点输入到表情系数预测模型中，以获得与所述第一脸部区域的关键点对应的表情系数；

根据与第二脸部区域对应的预设表情系数映射关系，确定与所述第二脸部区域的关键点对应的表情系数。

4.根据权利要求3所述的方法，其特征在于，所述预设表情系数映射关系用于反映目标种类表情系数与相应目标关键点间距离的映射关系；

所述根据所述预设表情系数映射关系，确定与所述第二脸部区域的关键点对应的表情系数，包括：

根据所述第二脸部区域的关键点，确定与所述目标种类表情系数对应的目标关键点间距离值；

根据所述目标关键点间距离值和所述预设表情系数映射关系，确定与所述第二脸部区域的关键点对应的表情系数。

5.根据权利要求2所述的方法，其特征在于，所述方法还包括：

根据所述多个人脸关键点，确定所述第一用户的头部姿态信息；

将所述第一用户的头部姿态信息发送至所述服务器；

接收所述服务器发送的所述第二用户的头部姿态信息；

根据所述第一用户的头部姿态信息对所述第一用户的虚拟头像进行姿态调整，根据所述第二用户的头部姿态信息对所述第二用户的虚拟头像进行姿态调整。

6.根据权利要求2所述的方法，其特征在于，所述方法还包括：

根据所述多个人脸关键点，确定所述第一用户的头部位移信息，所述头部位移信息是指所述第一用户的头部在所述人脸画面中的位置移动信息；

将所述第一用户的头部位移信息发送至所述服务器；

接收所述服务器发送的所述第二用户的头部位移信息；

根据所述第一用户的头部位移信息对所述第一用户的虚拟头像在相应显示窗口中的显示位置进行调整，根据所述第二用户的头部位移信息对所述第二用户的虚拟头像在相应显示窗口中的显示位置进行调整。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

若所述第一用户为发言人，则对所述第一用户的语音数据进行分析，以确定与所述第一用户的发言内容对应的话题类型；

所述将所述第一用户的表情信息发送至服务器，包括：

确定所述第一用户的表情信息与所述话题类型是否匹配；

若匹配，则将所述第一用户的表情信息发送至服务器；

若不匹配，则将与所述话题类型对应的设定表情信息作为所述第一用户的表情信息发送至所述服务器。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在所述第一客户端中，与所述虚拟会议界面关联地显示仅所述第一用户可见的配置子界面，所述配置子界面中包括与所述第一用户的表情信息对应于的表情配置项以及所述第一用户的虚拟头像；

响应于所述第一用户对所述表情配置项的配置调整操作，根据所述配置调整操作更新后的表情信息，在所述配置子界面中驱动所述第一用户对应的虚拟头像；

响应于所述第一用户对所述更新后的表情信息的确认操作，将所述配置子界面中显示的所述第一用户对应的虚拟头像迁移在所述虚拟会议界面中显示。

9.根据权利要求1所述的方法，其特征在于，所述虚拟会议界面中包括虚拟显示屏；所述方法还包括：

响应于所述第一用户触发的信息共享操作，将共享内容呈现在所述虚拟显示屏中；

将呈现有所述共享内容的虚拟显示屏通过所述服务器同步至所述第二客户端。

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述第一用户触发的讨论组创建信息，在所述虚拟会议界面中显示包含对应的至少两个用户的讨论组，所述至少两个用户中包括所述第一用户；

将所述讨论组创建信息通过所述服务器同步至所述第二客户端，以使所述第二客户端生成所述讨论组；

响应于所述第一用户触发的切换至所述讨论组的操作，在所述第一客户端上显示讨论组会议界面，其中，所述讨论组会议界面中包括从所述虚拟会议界面中迁移至的所述至少两个用户的虚拟头像。

11.一种虚拟会议处理装置，其特征在于，应用于参与虚拟会议的多个用户中任意第一用户的第一客户端，包括：

12.一种电子设备，其特征在于，包括：存储器、处理器、通信接口、显示器；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1至10中任一项所述的虚拟会议处理方法。

13.一种非暂时性机器可读存储介质，其特征在于，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1至10中任一项所述的虚拟会议处理方法。

14.一种虚拟会议处理方法，其特征在于，应用于参与虚拟会议的多个用户中任意第一用户的第一扩展现实设备，包括：

按照设定采样频率获取所述第一用户的人脸画面；

接收所述服务器发送的所述第二用户的表情信息。