CN112839196A

CN112839196A - 一种实现在线会议的方法、装置以及存储介质

Info

Publication number: CN112839196A
Application number: CN202011614296.8A
Authority: CN
Inventors: 吴风; 赵秀娟; 谢金林; 赵迎芳
Original assignee: Orange Cloud Internet Design Co ltd; Beijing Uni Orange Technology Co ltd
Current assignee: Orange Cloud Internet Design Co ltd; Beijing Uni Orange Technology Co ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-05-25
Anticipated expiration: 2040-12-30
Also published as: CN112839196B

Abstract

本申请公开了一种实现在线会议的方法、装置以及存储介质。其中，实现在线会议的方法包括：从第一用户的终端设备接收第一用户创建和/或加入在线会议的会议请求；根据会议请求与第一用户的终端设备进行交互，并从第一用户的终端设备接收与第一用户的用户视频相关的图像数据；根据所接收的图像数据，生成与第一用户对应的虚拟人物模型，虚拟人物模型用于生成与第一用户对应的虚拟人物；以及将虚拟人物模型发送至参与在线会议的第二用户的终端设备。

Description

一种实现在线会议的方法、装置以及存储介质

技术领域

本申请涉及互联网技术领域，特别是涉及一种实现在线会议的方法、装置以及存储介质。

背景技术

随着“互联网+”的普及应用，越来越多的用户利用互联网的环境和视频会议系统来进行远程协同会议，但是现有的远程视频会议系统只能解决语音、视频和内容的问题，而不能解决肢体语言、动作、情感及交互等问题。与面对面的会议相比，现有的远程视频会议系统增加了会议相互理解的难度以及参会者之间的距离感。这种会议系统使得有些细节的问题难于在会议上进行交流和理解，使会议的时间延长，效率低下。同时当前视频会议系统传输的视频流，数据量大，对传输速率和带宽要求较高。

由于会议主持人的能力不同，会议执行的效率效果都不一样。如果没有一个专业的会议主持人，会议的开展是会有问题的。一般公司在开会时随意的指定一个主持人，结果造成会议不是延时就是没有达到预期效果。

针对现有的远程视频会议系统不能解决肢体语言、动作、情感以及交互等问题，从而增加了会议相互理解的难度以及参会者之间的距离感的技术问题，目前尚未提出有效的解决方案。

发明内容

本公开的实施例提供了一种实现在线会议的方法、装置以及存储介质，以至少解决现有的远程视频会议系统数据传输量大且不能解决肢体语言、动作、情感以及交互等问题，从而增加了会议相互理解的难度以及参会者之间的距离感的技术问题。

根据本公开实施例的一个方面，提供了一种实现在线会议的方法，用于服务器，包括：从第一用户的终端设备接收第一用户创建和/或加入在线会议的会议请求；根据所述会议请求与所述第一用户的终端设备进行交互，并从所述第一用户的终端设备接收与所述第一用户的用户视频相关的图像数据；根据所接收的图像数据，生成与所述第一用户对应的虚拟人物模型，所述虚拟人物模型用于生成与所述第一用户对应的虚拟人物；以及将所述虚拟人物模型发送至参与所述在线会议的第二用户的终端设备。

根据本公开实施例的另一个方面，提供了一种实现在线会议的方法，用于第一用户的终端设备，包括：向远程的服务器发送创建和/或加入在线会议的会议请求；基于所述会议请求与所述服务器进行交互，并从所述服务器接收参与所述在线会议的第二用户的虚拟人物模型，所述虚拟人物模型用于生成与所述第二用户对应的虚拟人物；以及根据所述虚拟人物模型生成并显示所述虚拟人物。

根据本公开实施例的另一个方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时由处理器执行以上任意一项所述的方法。

根据本公开实施例的另一个方面，还提供了一种实现在线会议的装置，用于服务器，包括：会议请求接收模块，用于从第一用户的终端设备接收第一用户创建和/或加入在线会议的会议请求；图像数据接收模块，用于根据所述会议请求与所述第一用户的终端设备进行交互，并从所述第一用户的终端设备接收与所述第一用户的用户视频相关的图像数据；虚拟人物模型生成模块，用于根据所接收的图像数据，生成与所述第一用户对应的虚拟人物模型，所述虚拟人物模型用于生成与所述第一用户对应的虚拟人物；以及虚拟人物模型发送模块，用于将所述虚拟人物模型发送至参与所述在线会议的第二用户的终端设备。

根据本公开实施例的另一个方面，还提供了一种实现在线会议的装置，用于第一用户的终端设备，包括：会议请求发送模块，用于向远程的服务器发送创建和/或加入在线会议的会议请求；虚拟人物模型接收模块，用于基于所述会议请求与所述服务器进行交互，并从所述服务器接收参与所述在线会议的第二用户的虚拟人物模型，所述虚拟人物模型用于生成与所述第二用户对应的虚拟人物；以及虚拟人物生成模块，用于根据所述虚拟人物模型生成并显示所述虚拟人物。

根据本公开实施例的另一个方面，还提供了一种实现在线会议的装置。包括：第一处理器；以及第一存储器，与所述第一处理器连接，用于为所述第一处理器提供处理以下处理步骤的指令：从第一用户的终端设备接收第一用户创建和/或加入在线会议的会议请求；根据所述会议请求与所述第一用户的终端设备进行交互，并从所述第一用户的终端设备接收与所述第一用户的用户视频相关的图像数据；根据所接收的图像数据，生成与所述第一用户对应的虚拟人物模型，所述虚拟人物模型用于生成与所述第一用户对应的虚拟人物；以及将所述虚拟人物模型发送至参与所述在线会议的第二用户的终端设备。

根据本公开实施例的另一个方面，还提供了一种实现在线会议的装置，包括：第二处理器；以及第二存储器，与所述第二处理器连接，用于为所述第二处理器提供处理以下处理步骤的指令：向远程的服务器发送创建和/或加入在线会议的会议请求；基于所述会议请求与所述服务器进行交互，并从所述服务器接收参与所述在线会议的第二用户的虚拟人物模型，所述虚拟人物模型用于生成与所述第二用户对应的虚拟人物；以及根据所述虚拟人物模型生成并显示所述虚拟人物。

从而，通过本实施例的技术方案，虚拟会议系统根据从远程的终端设备采集的第二用户的视频图像，基于虚拟现实技术生成与第二用户对应的三维的虚拟人物，并将包含虚拟人物的会议视频实时发送至各个终端设备并进行显示。从而，针对各个第二用户营造了一种身临其境的虚拟会议环境。从而第二用户可以在在线会议中与其他第二用户对应的虚拟人物进行交流和互动。并且由于虚拟人物是根据相应的用户视频生成的，因此该虚拟人物能够实时地反映出对应的用户的状态动作以及情感。从而解决了现有的远程视频会议系统不能解决肢体语言、动作、情感以及交互等问题，从而增加了会议相互理解的难度以及参会者之间的距离感的技术问题。

此外，通过本实施例的技术方案，还可以利用人工智能及音视频等技术虚拟化出智能主持人，并利用大量会议进程内容数据，对虚拟主持人进行模型训练。来实现虚拟主持人对会议进程做必要的管理和控制，以达到会议目标更明确，会议效率更高效的效果。此外，虚拟主持人子系统根据会议的目标、会议的进展及会议的议程等数据信息，利用AI深度学习网络(LSTM)，建立主持人学习模型，并进行大量的数据训练。使之能达到优秀主持人水平。并且可以依据会议内容及目标，进行必要的会议干预，使会议目标更明确，会议更高效。

并且，通过本实施例的技术方案，还可以利用托管功能使得即便是用户暂时离开在线会议，也仍然可以通过服务器的虚拟参会者子系统进行托管，从而使得其他参会者的终端设备能够继续显示该用户的虚拟人物对会议上的情况作出反馈，从而进一步方便用户的使用并增强了用户的体验。

附图说明

此处所说明的附图用来提供对本公开的进一步理解，构成本申请的一部分，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。在附图中：

图1是用于实现根据本公开实施例1所述的方法的计算设备的硬件结构框图；

图2是根据本公开实施例1所述的在线会议系统的示意图；

图3是根据本公开实施例1所述的虚拟会议系统以及虚拟会议客户端的示意图；

图4是根据本公开实施例1的第一个方面所述的实现在线会议的方法的流程示意图；

图5是根据本公开实施例1所述的虚拟第二用户子系统抽取的虚拟第二用户模型的示意图；

图6是根据本公开实施例1所述的虚拟会议系统生成的虚拟会议场景的示意图；

图7是根据本公开实施例1的第二个方面所述的实现在线会议的方法的流程示意图；

图8是根据本公开实施例2的第一个方面所述的实现在线会议的装置的示意图；

图9是根据本公开实施例2的第二个方面所述的实现在线会议的装置的示意图；

图10是根据本公开实施例3的第一个方面所述的实现在线会议的装置的示意图；以及

图11是根据本公开实施例3的第二个方面所述的实现在线会议的装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本公开的技术方案，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本公开一部分的实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本公开保护的范围。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本实施例，还提供了一种实现在线会议的方法的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的计算设备中执行。图1示出了一种用于实现在线会议的方法的计算设备的硬件结构框图。如图1所示，计算设备可以包括一个或多个处理器(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器、以及用于通信功能的传输装置。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算设备还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算设备中的其他元件中的任意一个内。如本公开实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器可用于存储应用软件的软件程序以及模块，如本公开实施例中的实现在线会议的方法对应的程序指令/数据存储装置，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的实现在线会议的方法。存储器可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算设备的通信供应商提供的无线网络。在一个实例中，传输装置包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算设备的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图1所示的计算设备可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算设备中的部件的类型。

图2是根据本实施例所述的在线会议系统的示意图。参照图2所示，该系统包括：服务器200以及终端设备110～130。服务器200设置有虚拟会议系统，用于向终端设备110～130的用户310～330提供在线会议的服务。此外，图3示出了虚拟会议系统以及终端设备110～130上设置的虚拟会议客户端的示意图。

参见图3所示，服务器200上设置的虚拟会议系统包括虚拟参会者子系统和虚拟主持人子系统。并且终端设备110～130上设置有虚拟会议客户端。

其中，终端设备110～130上的虚拟会议客户端通过终端设备110～130上的摄像头以及麦克风采集用户310～330的视频图像以及语音音频。并且，终端设备110～130的虚拟会议客户端会与服务器200的虚拟会议系统交互，从而分别向各自的用户310～330显示虚拟会议场景，并在虚拟会议场景中显示参会者的虚拟人物。

虚拟会议系统基于虚拟现实的技术生成虚拟的会议场景模型，并根据虚拟会议客户端传输的数据信息，基于虚拟现实技术生成与用户310～330对应的虚拟人物模型。然后虚拟会议系统将基于虚拟现实生成的虚拟人物模型以及会议场景模型发送至终端设备110～130。并通过终端设备110～130上的虚拟会议客户端根据虚拟人物模型以及会议场景模型生成相应的虚拟人物以及虚拟会议场景并进行显示。

其中，进一步参考图3所示，虚拟会议系统包括虚拟参会者子系统和虚拟主持人子系统。其中，

虚拟参会者子系统利用虚拟现实生成虚拟人物模型以及会议场景模型，并将虚拟人物模型以及会议场景模型发送至终端设备110～130的虚拟会议客户端。并且进一步地，虚拟参会者子系统还可以从终端设备110～130的虚拟会议客户端接收相应的用户310～330的用户特征数据以及用户音频数据，并将接收的用户特征数据以及用户音频数据发送至其他终端设备110～130的虚拟会议客户端。从而实现参会者在虚拟环境中的实时交互，使得用户可以在虚拟环境中参与会议。从而用户310～330的参会状态、表情以及动作，都可以用VI与音视频及VR等技术，在会议场景中虚拟化出来，以实现虚拟会议中身临其境交互的效果。

虚拟主持人子系统利用人工智能及音视频等技术虚拟化出智能主持人，并利用大量会议进程内容数据，对虚拟主持人进行模型训练。来实现虚拟主持人对会议进程做必要的管理和控制，以达到会议目标更明确，会议效率更高效的效果。此外，虚拟主持人子系统根据会议的目标、会议的进展及会议的议程等数据信息，利用AI深度学习网络(LSTM)，建立主持人学习模型，并进行大量的数据训练。使之能达到优秀主持人水平。并且可以依据会议内容及目标，进行必要的会议干预，使会议目标更明确，会议更高效。

需要说明的是，图2系统中的服务器200和终端设备110～130均可适用上面所述的硬件结构。

在上述运行环境下，根据本实施例的第一个方面，提供了一种实现在线会议的方法，该方法由图2中所示的服务器200实现。图4示出了该方法的流程示意图，参考图4所示，该方法包括：

S402：从第一用户的终端设备接收第一用户创建和/或加入在线会议的会议请求；

S404：根据会议请求与第一用户的终端设备进行交互，并从第一用户的终端设备接收与第一用户的用户视频相关的图像数据；

S406：根据所接收的图像数据，生成与第一用户对应的虚拟人物模型，虚拟人物模型用于生成与第一用户对应的虚拟人物；以及

S408：将虚拟人物模型发送至参与在线会议的第二用户的终端设备。

具体地，参考图2所示，当用户310～330需要进行在线会议时，可以由用户310(即第一用户)通过终端设备110上的虚拟会议客户端创建在线会议，从而用户310通过终端设备110的虚拟会议客户端向服务器200发送创建在线会议的请求。在线会议创建成功后，用户320和330(即第二用户)可以通过终端设备120和130的虚拟会议客户端向服务器200请求加入该在线会议。或者，也可以由用户320或330创建在线会议，从而用户310可以通过终端设备110向服务器200发送加入在线会议的请求。从而，服务器200可以从用户310的终端设备110接收创建或加入在线会议的会议请求(S402)。

然后服务器200上的虚拟会议系统会根据该会议请求与用户310的终端设备110上的虚拟会议客户端进行交互。例如，服务器200的虚拟会议系统会将创建的在线会议与终端设备110的虚拟会议客户端进行关联，并且向终端设备110的虚拟会议客户端发送接收用户310的图像数据的请求。响应于该请求，终端设备110的虚拟会议客户端通过摄像头采集用户310的用户视频，并根据采集的用户视频生成用户310的图像数据。该图像数据例如是从用户视频中抽取的视频帧图像，或者是对视频帧图像进行进一步压缩后的图像数据。然后，终端设备110的虚拟会议客户端将图像数据发送至服务器200，从而服务器200通过虚拟参会者子系统接收该图像数据(S404)

然后，虚拟会议系统根据所接收的图像数据，生成与用户310对应的虚拟现实的虚拟人物模型。具体参考图5所示，虚拟参会者子系统会根据从终端设备110接收的用户310的图像数据生成虚拟人物模型。例如，生成与用户310对应的第一虚拟人物模型。即，虚拟参会者子系统利用虚拟现实技术根据用户310的图像数据生成相应的三维模型作为第一虚拟人物模型(S406)。

然后，虚拟会议系统的虚拟参会者子系统会将第一虚拟人物模型发送至参与在线会议的用户320和330(即第二用户)的终端设备120和130的虚拟会议客户端。从而终端设备120和130的虚拟会议客户端会根据第一虚拟人物模型生成并显示与用户310对应的虚拟人物(S408)。

需要说明的是，对于用户320和330，服务器200也执行相应的操作。例如，虚拟参会者子系统根据用户320的图像数据生成第二虚拟人物模型，并将第二虚拟人物模型发送至终端设备110和130的虚拟会议客户端。从而由终端设备110和130的虚拟会议客户端生成与用户320对应的虚拟人物并进行显示。此外，虚拟参会者子系统根据用户330的图像数据生成第三虚拟人物模型，并将第三虚拟人物模型发送至终端设备110和120的虚拟会议客户端。从而由终端设备110和120的虚拟会议客户端生成与用户330对应的虚拟人物并进行显示。

从而终端设备110～130的虚拟会议客户端可以显示在线会议的虚拟会议场景。其中，图6示出了在线会议的虚拟会议场景的示意图。参考图6所示虚拟会议场景中包括分别与用户310～330对应的虚拟人物410～430。

从而通过这种方式，用户310可以通过终端设备110的虚拟会议客户端看到包含用户320和330的虚拟人物420和430的虚拟会议场景；用户320可以通过终端设备120的虚拟会议客户端看到包含用户310和330的虚拟人物410和430的虚拟会议场景；用户330可以通过终端设备130的虚拟会议客户端看到包含用户310和320的虚拟人物410和420的虚拟会议场景。

正如背景技术中所述，现有的远程视频会议系统只能解决语音、视频和内容的问题，而不能解决肢体语言、动作、情感及交互等问题。与面对面的会议相比，现有的远程视频会议系统增加了会议相互理解的难度以及参会者之间的距离感。这种会议系统使得有些细节的问题难于在会议上进行交流和理解，使会议的时间延长，效率低下。

针对以上所述的技术问题，通过本实施例的技术方案，虚拟会议系统根据从远程的终端设备接收的参会者的图像数据，基于虚拟现实技术生成与参会者对应的三维的虚拟人物模型，并将虚拟人物模型实时发送至各个终端设备并进行显示。从而，针对各个参会者营造了一种身临其境的虚拟会议环境。从而参会者可以在在线会议中与其他参会者对应的虚拟人物进行交流和互动。并且由于虚拟人物是根据相应的用户视频相关的图像数据生成的，因此该虚拟人物能够实时地反映出对应的用户的状态动作以及情感。从而解决了现有的远程视频会议系统不能解决肢体语言、动作、情感以及交互等问题，从而增加了会议相互理解的难度以及参会者之间的距离感的技术问题。

可选地，方法还包括：生成虚拟现实的会议场景的会议场景模型，其中会议场景模型用于生成在线会议的虚拟会议场景；以及将所述会议场景模型发送至在线会议的参会者的终端设备。

具体地，参见图5所示，虚拟参会者子系统不仅生成与各个用户310～330对应的虚拟人物模型，并且还基于虚拟现实技术生成虚拟会议的会议场景模型。例如图6示出了会议场景模型的示意图，该会议场景模型描述了用户310～330的虚拟人物410～430在会议室中进行会议。

然后，虚拟参会者子系统将会议场景模型发送至各个终端设备110～130的虚拟会议客户端。从而各个终端设备110～130的虚拟会议客户端根据接收到的会议场景模型生成虚拟会议场景，并在虚拟会议场景中显示各个用户310～330的虚拟人物410～430。

此外，尽管虚拟会议系统生成了图6所示的会议场景模型。但是该会议场景模型仅仅体现了虚拟会议的会议场景的数据模型，其并不必然等同于在各个终端设备110～130显示的虚拟会议场景。优选地，终端设备根据该会议场景模型，针对各个用户310～330分别生成虚拟人物410～430的第一视角(即，主视角)的虚拟会议场景。也就是说由用户310～330的终端设备110～130显示的虚拟会议场景是不同的。例如，由用户310的终端设备110的虚拟会议客户端的显示的虚拟会议场景包含用户320和330的虚拟人物420和430；由用户320的终端设备120的虚拟会议客户端显示的虚拟会议场景包含用户310和330的虚拟人物410和430；由用户330的终端设备130的虚拟会议客户端显示的虚拟会议场景包含用户310和320的虚拟人物410和420。从而，通过这种方式能够使用户310～330产生更加身临其境的感觉。

可选地，方法还包括：从第一用户的终端设备实时接收第一用户的用户特征数据，其中用户特征数据是根据第一用户的用户视频所生成的用户特征；以及将用户特征数据发送至第二用户的终端设备。

具体地，在会议过程中，用户310(即第一用户)的终端设备110的虚拟会议客户端实时采集用户310的用户视频。并且，终端设备110的虚拟会议客户端会根据用户视频实时生成用户310的用户特征。该用户特征数据例如包括从用户视频的视频帧图像中提取的用户310的特征点。该特征点例如可以是用户310的面部或者身体的特征点阵，也或者是用户310的眼睛和嘴巴等部位的特征点。从而该特征点可以结合用户310对应的虚拟人物模型，对用户310对应的虚拟人物410进行更新显示。

然后，终端设备110通过虚拟会议客户端将用户310的用户特征数据发送至服务器200，从而服务器200接收用户310的用户特征数据。然后服务器200将用户310的用户特征数据发送至用户320和330(即第二用户)的终端设备120和130的虚拟会议客户端。从而终端设备120和130的虚拟会议客户端会根据用户310的用户特征数据结合用户310的虚拟人物模型更新显示与用户310对应的虚拟人物。

从而用户310可以在虚拟环境中参与会议，并且用户310的参会状态、表情以及动作，都可以在会议场景中虚拟化出来。从而用户320和330可以通过视频会议中感受到用户310的状态、表情以及动作。参考用户310的用户特征数据的处理过程，虚拟参会子系统也会实时接收用户320的用户特征数据，并且将用户320的用户特征数据发送至用户310和用户330的终端设备110和130以便更新显示用户320对应的虚拟人物420。此外，虚拟参会子系统也会实时接收用户330的用户特征数据，并且将用户330的用户特征数据发送至用户310和用户320的终端设备110和120以便更新显示用户330对应的虚拟人物430。从而，通过本实施例的技术方案，可以实现在虚拟会议中身临其境交互的效果。

可选地，方法还包括：从第一用户的终端设备接收第一用户的用户音频数据；以及将用户音频数据与用户特征数据同步地发送至第二用户的终端设备。

具体地，在会议过程中，用户310(即第一用户)的终端设备110的虚拟会议客户端会通过终端设备110的麦克风采集用户310的语音音频，并将与该语音音频对应的用户音频数据发送至服务器200。从而服务器200从终端设备110的虚拟会议客户端接收该用户音频数据，并将该用户310的音频用户数据与用户特征数据同步地发送至用户320和用户330(即第二用户)的终端设备120和130。从而终端设备120和130的虚拟会议客户端会在更新显示用户310的虚拟人物410的同时，播放用户310的语音音频。从而用户320和330可以通过虚拟会议客户端听到与用户310的虚拟人物410对应的语音。而关于用户320和330，也参考用户310，虚拟会议系统以及终端设备120和130会进行相应的处理。从而使得用户310～330可以在虚拟会议中实现身临其境的交流和互动。

可选地，方法还包括：生成与在线会议相关的主持人模型，其中主持人模型用于生成在线会议的虚拟主持人；以及将主持人模型发送至第一用户的终端设备。

具体地，参考图3和图6所示，虚拟会议系统在创建在线会议时，可以通过虚拟主持人子系统为该在线会议创建主持人模型，用于生成在线会议的虚拟主持人。例如，可以在图6所示的虚拟会议场景中创建虚拟主持人400。其中，虚拟主持人子系统例如可以通过利用大量会议进程内容数据训练的人工智能模型，生成虚拟主持人的主持人模型。并将主持人模型发送到用户310的终端设备110的虚拟会议客户端。并且，终端设备110的虚拟会议客户端可以根据所接收的主持人模型生成虚拟主持人，从而使得用户310能够通过终端设备110的虚拟会议客户端看到包括有虚拟主持人的虚拟会议场景。

此外，用户320和330的终端设备120和130也可以通过虚拟会议客户端接收服务器200发送的主持人模型，从而也可以基于该主持人模型生成虚拟主持人并进行显示。从而，用户310～330可根据虚拟主持人的管理和主持，有序地发言。从而，本实施例的技术方案实现了虚拟主持人对会议进程做必要的管理和控制，从而达到会议目标更明确，会议更高效的效果。

可选地，生成所述在线会议相关的主持人模型的操作，包括：根据第一用户的用户信息确定与第一用户匹配的主持人类型；以及根据所确定的主持人类型，生成主持人模型。

具体地，参考图3和图6所示，为了进一步提高用户参与在线会议的会议体验，根据本实施例，即便是对于参加同一个在线会议的不同用户310～330，尽管虚拟主持人在同一时刻表达的语音音频的内容是相同的，但是虚拟主持人子系统也可以分别针对不同用户310～330生成不同类型的主持人模型。

例如，虚拟主持人子系统可以根据用户310(即第一用户)的用户信息对用户310进行用户画像分析，然后根据对用户310进行用户画像分析的结果，确定相应的主持人类型并生成与该主持人类型匹配的主持人模型。从而不同类型的主持人模型可以具有不同类型的服饰、相貌甚至于动作等等。然后虚拟主持人子系统将该主持人模型发送至用户310的终端设备110的虚拟会议客户端，从而由终端设备110的虚拟会议客户端生成与用户310相匹配的虚拟主持人。

此外，虚拟主持人子系统也可以根据用户320和330的用户信息，分别生成与用户320和330匹配的主持人模型并发送至用户320和330的终端设备120和130。从而由终端设备120和130分别生成与用户320和330匹配的虚拟主持人。

从而即便是在相同的会议中，不同的用户310～330也能感受到适合类型的虚拟主持人，从而提高了虚拟在线会议的用户体验。

可选地，方法还包括：生成虚拟主持人的主持人特征数据以及主持人音频数据，其中主持人特征数据用于对虚拟主持人进行更新显示；以及将主持人特征数据和主持人音频数据同步发送至第一用户的终端设备。

具体地，参考图5所示，服务器200的虚拟主持人子系统在将主持人模型发送至用户310(即第一用户)的终端设备110后，会实时生成虚拟主持人的主持人特征数据以及主持人音频数据。其中主持人特征数据例如可以是用于生成虚拟主持人的点阵数据，或者可以是虚拟主持人某些部位的特征点，从而终端设备110的虚拟会议客户端可以根据该主持人特征数据结合主持人模型数据，对虚拟主持人进行更新显示。从而可以在虚拟会议客户端显示虚拟主持人的动态图形。并且虚拟主持人子系统还可以实时生成主持人音频数据，并将该主持人音频数据与主持人特征数据同步发送至用户310的终端设备110。从而用户310的终端设备110的虚拟会议客户端可以结合虚拟主持人的动作播放虚拟主持人的语音。

此外，关于用户320和330(即第二用户)可参考用户310，虚拟主持人子系统也会分别生成相应的主持人特征数据以及主持人音频数据，并分别发送至用户320和330的终端设备120和130。从而终端120和130的虚拟会议客户端会实时更新显示虚拟主持人并播放虚拟主持人的语音。

可选地，生成虚拟主持人的主持人特征数据以及主持人音频数据的操作，包括：根据所接收的与在线会议相关的会议内容信息，生成与在线会议相关的会议脚本信息；以及根据会议脚本信息，生成主持人特征数据以及主持人音频数据。

具体地，正如上面所述，虚拟主持人子系统会利用大量会议进程内容数据对用于实现虚拟主持人的人工智能模型进行训练。从而，当用户310(即第一用户)创建在线会议室时，虚拟主持人子系统的人工智能模型可以根据用户310通过虚拟会议客户端传输的会议内容信息生成相应的会议脚本信息。其中会议内容信息例如但不限于是会议的主题、进程以及会议所讨论的议题等相关内容。

然后，在会议进行的过程当中，虚拟主持人子系统可以根据会议脚本实时地确定虚拟主持人的台词、动作以及表情，进而生成与虚拟主持人相关的主持人特征数据以及主持人音频数据。然后，虚拟主持人子系统将主持人特征数据以及主持人音频数据发送至用户310的终端设备110。

同样地，参考关于用户310的操作，对于用户320和330(即第二用户)，虚拟主持人子系统也会分别生成相应的主持人特征数据以及主持人音频数据，并将主持人特征数据和主持人音频数据发送至各自的终端设备120和130。从而用户310～330可以在虚拟主持人的主持下按照预定的会议内容进行沟通，从而使得会议目标更加明确，会议更高效。

可选地，生成虚拟主持人的主持人特征数据以及主持人音频数据的操作，包括：接收在线会议中发言者的发言者语音音频；以及根据发言者语音音频生成主持人音频数据和/或主持人特征数据。

具体地，虚拟会议系统可以在会议中实时接收用户310～330的发言语音音频，并且利用音频识别技术识别发言者的语音音频并生成相应的文本信息，利用自然语言处理技术根据该文本信息生成进行应答的应答文本，并且利用语音合成技术生成与该应答文本对应的应答语音音频。或者虚拟会议系统根据发言者的语音音频生成主持人特征数据，从而终端设备的虚拟会议客户端能够根据该主持人特征数据更新显示虚拟主持人，从而虚拟主持人能够做出对所述发言进行反应的动作，例如给出手势、摆手、点头或者摇头等。

从而通过这种方式，用户310～330可以实时与在线会议的虚拟主持人进行交互，从而增强了虚拟在线会议的用户体验。

可选地，生成虚拟主持人的主持人特征数据以及主持人音频数据的操作，还包括：根据从在线会议的参会者的终端设备接收的用户特征数据和/或用户音频数据，确定在线会议的氛围信息；以及根据所确定的氛围信息，生成主持人特征数据以及主持人音频数据。

具体地，参考图3所示，虚拟主持人子系统可以与虚拟参会者子系统进行交互，从虚拟参会者子系统实时获取终端设备110～130的虚拟会议客户端所发送的用户特征数据和/或用户音频数据。其中用户特征数据是根据参会者(即用户310～330)的用户视频所生成的用户特征，并且用户音频数据例如可以是参会者的语音音频数据。

具体地，用户特征数据例如包括从用户310～330的用户视频的视频帧图像中提取的用户310～330的特征点。该特征点例如可以是用户310～330的面部或者身体的特征点阵，也或者是用户310～330的眼睛和嘴巴等部位的特征点。

从而虚拟主持人子系统会根据获取的用户特征数据以及用户音频数据对在线会议的氛围进行分析。

例如，虚拟主持人子系统可以对用户310～330的用户特征数据进行分析，从而确定用户310～330的表情，并且根据用户310～330的表情，可以确定该参会者的情绪。例如可以根据用户310～330的特征点，确定用户310～330的情绪为以下类型中的一种情绪：平静、快乐、愤怒、沮丧以及悲哀。具体地，例如虚拟主持人子系统可以利用预先训练的人工智能模型，根据用户310～330的特征点，确定用户310～330与每一种情绪类型相关的概率，从而选取概率值最高的情绪类型，确定为用户310～330的情绪类型。

此外，虚拟主持人子系统也可以利用用户310～330的语音音频的声调和/或内容，确定用户310～330的情绪类型(参考上面所述的情绪类型)。具体地，例如虚拟主持人子系统可以利用预先训练好的人工智能模型，根据用户310～330的语音音频的声调，确定用户310～330与每一种情绪类型相关的概率，从而选取概率值最高的情绪类型，确定为用户310～330的情绪类型。或者，虚拟主持人子系统可以利用预先训练好的音频识别模型以及自然语言处理模型，对用户310～330的语音音频进行识别，进而确定用户310～330与每一种情绪类型相关的概率值，从而选取概率值最高的情绪类型，确定为用户310～330的情绪类型。

此外优选地，虚拟主持人子系统也可以对根据用户310～330的特征点、语音音频的声调以及语音音频的识别结果所确定的每一种情绪类型的概率值，分别进行加权求和，从而计算出每一种情绪类型的综合概率值，然后将综合概率值最高的情绪类型，确定为用户310～330的情绪类型。例如，关于用户310，虚拟主持人子系统根据用户310的特征点计算出用户310每一种情绪类型的概率值。然后虚拟主持人子系统根据用户310的语音音频的声调计算出用户310每一种情绪类型的概率值。然后虚拟主持人子系统根据用户310的语音音频的识别结果确定用户310的每一种情绪类型的综合概率值。最后，虚拟主持人子系统将用不同方式确定的用户310的每一种情绪类型的概率进行加权求和，从而最终确定用户310每一种情绪类型的概率。而关于用户320～330也采用同样的加权求和的方式确定其每一种情绪类型的综合概率值。

进而，虚拟主持人子系统根据用户310～330的情绪类型，确定当前会议的氛围信息。例如，当所有用户310～330中预定比例的参会者(例如过半数的参会者)的情绪类型，来确定会议当前的氛围信息。例如，当超过半数的参会者的情绪类型都是愤怒时，表明现在的会议氛围是激烈的。或者当超过半数的参会者的情绪类型是沮丧时，则表明现在的会议氛围是压抑的。

进而，虚拟主持人子系统会根据确定的氛围信息，生成虚拟主持人的主持人特征数据以及主持人音频数据。例如，虚拟参与人子系统会提前将虚拟主持人的动作模型进行分类设置，例如将用于活跃氛围的动作、将进行安抚的动作以及将平息愤怒的动作等进行分类设置。同时也将虚拟主持人发言的文本也进行相应的分类设置。

这样，当虚拟主持人子系统确定当前氛围为激烈时，会选择用于平息愤怒的动作模型以及文本信息来生成虚拟主持人的动态人物图形以及主持人语音音频。

或者当虚拟主持人子系统确定当前氛围为压抑时，会选择用于活跃氛围的动作模型以及文本信息来生成虚拟主持人的主持人特征数据以及主持人音频数据。从而，用户310～330的在终端设备110～130的虚拟会议客户端在接收到主持人特征数据和主持人音频数据后，会对显示的虚拟主持人进行更新显示，从而虚拟主持人可以做出调节氛围的动作并且发出调节氛围的语音。

从而本实施例的技术方案能够通过虚拟主持人来调节在线会议的氛围，在提高参会者的体验的同时，也有利于将会议向导向更加有利的方向。

可选地，方法还包括：响应于从第一用户的终端设备接收的与在线会议相关的托管请求，生成与第一用户的虚拟人物对应的特征数据和/或音频数据；以及将生成的与第一用户的虚拟人物对应的特征数据和/或音频数据发送至第二用户的终端设备。

具体地，在会议过程中，用户310(即第一用户)由于某些原因，可能会离开在线会议。这时候，用户310可以通过终端设备110的虚拟会议客户端向服务器200的虚拟参会者子系统发送与在线会议相关的托管请求。从而，在这种情况下，虚拟参会者子系统会代替用户310继续在该会议中进行发言和做出动作。

在托管状态下，即便是终端设备110与服务器200断开连接或者已经从该在线会议中退出，服务器200的虚拟参会者子系统也可以根据所接收的与该在线会议相关的信息，自动生成与用户310的虚拟人物410对应的特征数据和/或语音音频。

服务器200所接收的与在线会议相关的信息包括但不限于：其他用户320和330(即第二用户)的用户特征数据以及用户音频信息、与虚拟主持人对应的主持人特征数据以及主持人音频数据等。

例如，当服务器200根据其他用户320和330以及当前主持人的语音信息判定当前需要进行举手表决时，服务器200的虚拟参会者子系统会为虚拟主持人410生成举手表决的特征数据，从而发送至用户320和330的终端设备120和130，用于将用户310的虚拟人物410更新显示为做举手表决的动作。

此外，服务器200的虚拟参会者子系统也可以根据主持人音频数据或者用户320和330的用户音频数据，生成用户310的虚拟人物410的应答音频数据，并发送至用户320和330。

从而通过这种方式，即便是用户310暂时离开在线会议，也仍然可以通过服务器200的虚拟参会者子系统进行托管，从而用户320和330的终端设备120和130能够继续显示虚拟人物410对会议上的情况作出反馈，从而方便用户的使用并增强了用户的体验。

可选地，方法还包括：生成与在线会议相关的会议记录信息；以及响应于从第一用户的终端设备接收的查看在线会议记录的请求，将会议记录信息发送至第一用户的终端设备。

从而用户310可以通过终端设备110的虚拟会议客户端查询会议中的会议内容。并且，即便是在用户310暂时离开的情况下，也可以通过查询会议记录信息来了解会议的情况。

其中，与在线会议相关的信息包括但不限于：其他用户310～330(即第二用户)的用户特征数据以及用户音频信息、与虚拟主持人对应的主持人特征数据以及主持人音频数据等。

此外，根据本实施例的第二个方面，提供了一种实现在线会议的方法，该方法用于第一用户的终端设备。其中，图7示出了该方法的流程示意图，参考图7所示，该方法包括：

S702：向远程的服务器发送创建和/或加入在线会议的会议请求；

S704：基于会议请求与服务器进行交互，并从服务器接收参与在线会议的第二用户的虚拟人物模型，虚拟人物模型用于生成与第二用户对应的虚拟人物；以及

S706：根据虚拟人物模型生成并显示虚拟人物。

具体地，结合本实施例的第一个方面的内容，参考图2所示，当用户310～330需要进行在线会议时，可以由用户310(即第一用户)通过终端设备110上的虚拟会议客户端创建在线会议，从而用户310通过终端设备110的虚拟会议客户端向服务器200发送创建在线会议的请求。在线会议创建成功后，用户320和330(即第二用户)可以通过终端设备120和130的虚拟会议客户端向服务器200请求加入该在线会议。或者，也可以由用户320创建在线会议，从而用户310可以通过终端设备110向服务器200发送加入在线会议的请求。从而，服务器200可以从用户310的终端设备110接收创建或加入在线会议的会议请求(S702)。

然后，正如本实施例第一个方面所述，参考图2、图3和图5所示，服务器200上的虚拟会议系统的虚拟参会者子系统会生成与用户310～330对应的虚拟人物模型，即图5中所示的第一至第三虚拟人物模型。然后，虚拟参会者子系统会将用户320和330的虚拟人物模型(即第二和第三虚拟人物模型)发送至用户310的终端设备110的虚拟会议客户端，从而用户310的终端设备110通过虚拟会议客户端接收第二和第三虚拟人物模型(S704)。

然后，终端设备110根据所接收的第二和第三虚拟人物模型，生成与用户320对应的第二虚拟人物以及与用户330对应的第三虚拟人物，并进行显示(S706)。

需要说明的是，对于用户320的终端设备120和用户330的终端设备130，也执行相应的操作。例如终端设备120的虚拟会议客户端可以接收用户310和用户330对应的第一虚拟人物模型和第三虚拟人物模型，并生成和显示与用户310对应的第一虚拟人物以及与用户330对应的第三虚拟人物。终端设备130的虚拟会议客户端可以接收用户310和用户320对应的第一虚拟人物模型和第二虚拟人物模型，并生成和显示与用户310对应的第一虚拟人物以及与用户320对应的第二虚拟人物。

从而通过本实施例的技术方案，虚拟会议系统根据从远程的终端设备接收的参会者的图像数据，基于虚拟现实技术生成与参会者对应的三维的虚拟人物模型，并将虚拟人物模型实时发送至各个终端设备并进行显示。从而，针对各个参会者营造了一种身临其境的虚拟会议环境。从而参会者可以在在线会议中与其他参会者对应的虚拟人物进行交流和互动。并且由于虚拟人物是根据相应的用户视频相关的图像数据生成的，因此该虚拟人物能够实时地反映出对应的用户的状态动作以及情感。从而解决了现有的远程视频会议系统不能解决肢体语言、动作、情感以及交互等问题，从而增加了会议相互理解的难度以及参会者之间的距离感的技术问题。

可选地，显示虚拟人物的操作，还包括：从服务器接收虚拟现实的会议场景的会议场景模型，其中会议场景模型用于生成在线会议的虚拟会议场景；以及根据会议场景模型，生成并显示虚拟会议场景，并在虚拟会议场景中显示虚拟人物。

然后，虚拟参会者子系统会议场景模型发送至各个终端设备110～130的虚拟会议客户端。从而用户310(即第一用户)的终端设备110的虚拟会议客户端根据接收到的会议场景模型生成虚拟会议场景，并在虚拟会议场景中显示与用户320和330(即第二用户)对应的虚拟人物。

相应的，用户320的终端设备120的虚拟会议客户端根据接收到的会议场景模型生成虚拟会议场景，并在虚拟会议场景中显示与用户310和330对应的虚拟人物。相应的，用户330的终端设备130的虚拟会议客户端根据接收到的会议场景模型生成虚拟会议场景，并在虚拟会议场景中显示与用户310和320对应的虚拟人物。

可选地，显示虚拟人物的操作，还包括：从服务器接收第二用户的用户特征数据，其中用户特征数据是根据第二用户的用户视频所生成的用户特征；以及根据用户特征数据对虚拟人物进行更新显示。

具体地，参考本实施例第一个方面所述，在会议过程中，服务器200的虚拟参会者子系统会从用户320以及330(即第二用户)的终端设备120和130接收用户320以及330的用户特征数据。然后虚拟参会者子系统会将用户320和330的用户特征数据发送至用户310(即第一用户)的终端设备110的虚拟会议客户端。

从而终端设备110的虚拟会议客户端从服务器320接收用户320和330的用户特征数据，然后根据所接收的用户特征数据，结合用户320和330对应的虚拟人物模型对用户320和330对应的虚拟人物进行更新显示。从而，通过本实施例的技术方案，可以实现在虚拟会议中身临其境交互的效果。

可选地，方法还包括：从服务器接收第二用户的用户音频数据；以及在对虚拟人物进行更新显示的同时同步播放与用户音频数据对应的语音音频。

具体地，参考本实施例第一个方面所述，在会议过程中，服务器200的虚拟参会者子系统会从用户320和330(即第二用户)的终端设备120和130的虚拟会议客户端接收用户320和330的用户音频数据，并将该用户音频数据发送至用户310(即第一用户)的终端设备110。从而，用户310的终端设备110的虚拟会议客户端从服务器200接收用户320和330的用户音频数据，然后在对用户320和330对应的虚拟人物进行更新显示的同时同步播放与用户音频数据对应的语音音频。而关于用户320和330的终端设备120和130，也参考用户310的终端设备110进行相应的处理。从而使得用户310～330可以在虚拟会议中实现身临其境的交流和互动。

可选地，对虚拟人物进行更新显示的操作，包括：响应于接收到用户音频数据，根据第一用户和第二用户在在虚拟会议场景中的相对位置信息，调整虚拟会议场景的视角；以及在调整视角后的虚拟会议场景中更新显示第二用户的虚拟人物。

具体地，参考图3和图5所示，例如当用户320(即第二用户)在会议中发言的情况下，用户310(即第一用户)的终端设备110的虚拟会议客户端会从服务器200接收到用户320的用户音频数据。从而终端设备110的虚拟会议客户端会判定当前的发言人为用户320。

然后参考图6所示，终端设备110的虚拟会议客户端会根据虚拟会议场景中虚拟人物410相对于虚拟人物420的位置信息，调整待显示的虚拟会议场景的视角。例如，虚拟会议客户端根据虚拟人物410相对于虚拟人物420在虚拟会议场景中的位置信息，调整虚拟会议场景的视角，使得虚拟会议场景的视角是虚拟人物410正对虚拟人物420的第一主视角。从而用户310通过终端设备110的虚拟会议客户端看到的虚拟会议场景，是正对着虚拟人物420的视角。

此外，当终端设备110的虚拟会议客户端接收到用户330的用户音频数据时，终端设备110的虚拟会议客户端会判定当前的发言人为用户330。

然后参考图6所示，终端设备110的虚拟会议客户端会根据虚拟会议场景中虚拟人物410相对于虚拟人物430的位置信息，调整待显示的虚拟会议场景的视角。例如，虚拟会议客户端根据虚拟人物410相对于虚拟人物430在虚拟会议场景中的位置信息，调整虚拟会议场景的视角，使得虚拟会议场景的视角是虚拟人物410正对虚拟人物430的第一主视角。从而用户310通过终端设备110的虚拟会议客户端看到的虚拟会议场景，是正对着虚拟人物430的视角。

也就是说，根据本实施例的技术方案，当在线会议中有人发言时，虚拟会议客户端所显示的虚拟会议场景的视角都是不同的，都是基于虚拟会议场景中参会者与发言人的虚拟人物的相对位置调整后的视角。从而使得每个参会者都能感受到在虚拟会议场景中的相应位置观看发言人发言的感觉。并且，参考用户310，当用户320和330的终端设备110和130也进行相应的处理。从而当不同参会者发言时，虚拟会议客户端在正对不同的发言人的视角之间进行切换，从而使得用户在参加在线会议的过程中能够关注到不同的发言人，并且也进一步增强了虚拟会议的现场感以及互动感。

可选地，方法还包括：从服务器接收与在线会议相关的主持人模型，其中主持人模型用于生成在线会议的虚拟主持人；以及根据主持人模型发送生成并显示虚拟主持人。

具体地，参考图3、图5和图6所示，虚拟会议系统在创建在线会议时，可以通过虚拟主持人子系统为该在线会议创建主持人模型，用于生成在线会议的虚拟主持人。例如，可以在图6所示的虚拟会议场景中创建虚拟主持人400。其中，虚拟主持人子系统例如可以通过利用大量会议进程内容数据训练的人工智能模型，生成虚拟主持人的主持人模型。并将主持人模型发送到用户310的终端设备110的虚拟会议客户端。并且，终端设备110的虚拟会议客户端可以根据所接收的主持人模型生成虚拟主持人，从而使得用户310能够通过终端设备110的虚拟会议客户端看到包括有虚拟主持人的会议视频。

此外，用户320和330的终端设备120和130也可以通过虚拟会议客户端接收服务器200发送的主持人模型，从而也可以基于该主持人模型生成虚拟主持人并进行显示。从而，用户310～330可根据虚拟主持人的管理和主持有序地发言。从而，本实施例的技术方案实现了虚拟主持人对会议进程做必要的管理和控制，从而达到会议目标更明确，会议更高效的效果。

可选地，方法还包括：从服务器接收虚拟主持人的主持人特征数据以及主持人音频数据，其中主持人特征数据用于对虚拟主持人进行更新显示；以及根据主持人特征数据对虚拟主持人进行更新显示，并且同步播放主持人音频数据对应的语音音频。

具体地，参考图5所示，服务器200的虚拟主持人子系统在将主持人模型发送至用户310(即第一用户)的终端设备110后，会实时生成虚拟主持人的主持人特征数据以及主持人音频数据。其中主持人特征数据例如可以是用于生成虚拟主持人的点阵数据，从而终端设备110的虚拟会议客户端可以根据该主持人特征数据结合支持人模型数据，对虚拟主持人进行更新显示。从而可以在虚拟会议客户端显示虚拟主持人的动态图形。并且虚拟主持人子系统还可以实时生成主持人音频数据，并将该主持人音频数据与主持人特征数据同步发送至用户310的终端设备110。从而用户310的终端设备110的虚拟会议客户端可以结合虚拟主持人的动作播放虚拟主持人的语音。

此外，关于用户320和330(即第二用户)，参考用户310，虚拟主持人子系统也会分别生成相应的主持人特征数据以及主持人音频数据，并分别发送至用户320和330的终端设备120和130。从而终端120和130的虚拟会议客户端会实时更新显示虚拟主持人并播放虚拟主持人的语音。

此外，根据本实施例的第三个方面，还提供了一种实现在线会议的方法，用于服务器200，包括：从第一用户的终端设备接收第一用户创建和/或加入在线会议的会议请求；响应于所述会议请求，生成与所述在线会议相关的主持人模型，其中所述主持人模型用于生成所述在线会议的虚拟主持人；以及将所述主持人模型发送至所述第一用户的终端设备。其中关于虚拟主持人的进一步描述参考本实施例第一个方面和第二个方面所述。

此外，根据本实施例的第四个方面，还提供了一种实现在线会议的方法，用于第一用户(即用户310)的终端设备110，包括：向远程的服务器发送创建和/或加入在线会议的会议请求；基于所述会议请求与所述服务器进行交互，从所述服务器接收与所述在线会议相关的主持人模型，其中所述主持人模型用于生成所述在线会议的虚拟主持人；根据所述主持人模型生成并显示所述虚拟主持人。其中关于虚拟主持人的进一步描述参考本实施例第一个方面和第二个方面所述。

根据本实施例的第五个方面，提供了一种实现在线会议的方法，用于服务器200，包括：在在线会议过程中，响应于从第一用户的终端设备接收的与所述在线会议相关的托管请求，生成与所述第一用户的虚拟人物对应的特征数据和/或音频数据；以及将生成的与所述第一用户的虚拟人物对应的特征数据和/或音频数据发送至所述第二用户的终端设备。其中所述第一用户的所述特征数据用于生成与所述第一用户对应的虚拟人物。

此外，参考图1所示，根据本实施例的第六个方面，提供了一种存储介质。所述存储介质包括存储的程序，其中，在所述程序运行时由处理器执行以上任意一项所述的方法。

通过本实施例的技术方案，虚拟会议系统根据从远程的终端设备接收的参会者的图像数据，基于虚拟现实技术生成与参会者对应的三维的虚拟人物模型，并将虚拟人物模型实时发送至各个终端设备并进行显示。从而，针对各个参会者营造了一种身临其境的虚拟会议环境。从而参会者可以在在线会议中与其他参会者对应的虚拟人物进行交流和互动。并且由于虚拟人物是根据相应的用户视频相关的图像数据生成的，因此该虚拟人物能够实时地反映出对应的用户的状态动作以及情感。从而解决了现有的远程视频会议系统不能解决肢体语言、动作、情感以及交互等问题，从而增加了会议相互理解的难度以及参会者之间的距离感的技术问题。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

图8示出了根据本实施例的第一个方面所述的实现在线会议的装置800，该装置800与根据实施例1的第一个方面所述的方法相对应。参考图8所示，该装置800包括：会议请求接收模块810，用于从第一用户的终端设备接收第一用户创建和/或加入在线会议的会议请求；图像数据接收模块820，用于根据会议请求与第一用户的终端设备进行交互，并从第一用户的终端设备接收与第一用户的用户视频相关的图像数据；虚拟人物模型生成模块830，用于根据所接收的图像数据，生成与第一用户对应的虚拟人物模型，虚拟人物模型用于生成与第一用户对应的虚拟人物；以及虚拟人物模型发送模块840，用于将虚拟人物模型发送至参与在线会议的第二用户的终端设备。

可选地，装置800还包括：会议场景模型生成模块，用于生成虚拟现实的会议场景的会议场景模型，其中会议场景模型用于生成在线会议的虚拟会议场景；以及会议场景模型发送模块，用于将会议场景模型发送至在线会议的参会者的终端设备。

可选地，装置800还包括：用户特征数据接收模块，用于从第一用户的终端设备实时接收第一用户的用户特征数据，其中用户特征数据是根据第一用户的用户视频所生成的用户特征；以及用户特征数据发送模块，用于将用户特征数据发送至第二用户的终端设备。

可选地，装置800还包括：用户音频数据接收模块，用于从第一用户的终端设备接收第一用户的用户音频数据；以及用户音频数据发送模块，用于将用户音频数据与用户特征数据同步地发送至第二用户的终端设备。

可选地，装置800还包括：主持人模型生成模块，用于生成与在线会议相关的主持人模型，其中主持人模型用于生成在线会议的虚拟主持人；以及主持人模型发送模块，用于将主持人模型发送至第一用户的终端设备。

可选地，主持人模型生成模块包括：主持人类型确定子模块，用于根据第一用户的用户信息确定与第一用户匹配的主持人类型；以及主持人模型生成子模块，用于根据所确定的主持人类型，生成主持人模型。

可选地，装置800还包括：主持人数据生成模块，用于生成虚拟主持人的主持人特征数据以及主持人音频数据，其中主持人特征数据用于对虚拟主持人进行更新显示；以及主持人数据发送模块，用于将主持人特征数据和主持人音频数据同步发送至第一用户的终端设备。

可选地，主持人数据生成模块包括：会议脚本信息生成子模块，用于根据所接收的与在线会议相关的会议内容信息，生成与在线会议相关的会议脚本信息；以及第一主持人数据生成子模块，用于根据会议脚本信息，生成主持人特征数据以及主持人音频数据。

可选地，主持人数据生成模块包括：语音音频接收子模块，用于接收在线会议中发言者的发言者语音音频；以及音频数据生成子模块，用于根据发言者语音音频生成主持人音频数据。

可选地，主持人数据生成模块包括：氛围信息确定子模块，用于根据从在线会议的参会者的终端设备接收的用户特征数据和/或用户音频数据，确定在线会议的氛围信息；以及第二主持人数据生成子模块，用于根据所确定的氛围信息，生成主持人特征数据以及主持人音频数据。

可选地，装置800还包括：特征音频生成模块，用于响应于从第一用户的终端设备接收的与在线会议相关的托管请求，生成与第一用户的虚拟人物对应的特征数据和/或音频数据；以及数据发送模块，用于将生成的与第一用户的虚拟人物对应的特征数据和/或音频数据发送至第二用户的终端设备。

可选地，装置800还包括：会议记录生成模块，用于生成与在线会议相关的会议记录信息；以及会议记录发送模块，用于响应于从第一用户的终端设备接收的查看在线会议记录的请求，将会议记录信息发送至第一用户的终端设备。

此外，参考图9所示，根据本实施例的第二个方面，提供了一种实现在线会议的装置900，用于第一用户的终端设备，与实施例1第二个方面所述的方法对应，装置900包括：会议请求发送模块910，用于向远程的服务器发送创建和/或加入在线会议的会议请求；虚拟人物模型接收模块920，用于基于会议请求与服务器进行交互，并从服务器接收参与在线会议的第二用户的虚拟人物模型，虚拟人物模型用于生成与第二用户对应的虚拟人物；以及虚拟人物生成模块930，用于根据虚拟人物模型生成并显示虚拟人物。

可选地，虚拟人物生成模块930包括：会议场景模型接收子模块，用于从服务器接收虚拟现实的会议场景的会议场景模型，其中会议场景模型用于生成在线会议的虚拟会议场景；以及虚拟人物显示子模块，用于根据会议场景模型，生成并显示虚拟会议场景，并在虚拟会议场景中显示虚拟人物。

可选地，虚拟人物生成模块930包括：用户特征数据接收子模块，用于从服务器接收第二用户的用户特征数据，其中用户特征数据是根据第二用户的用户视频所生成的用户特征；以及更新显示子模块，用于根据用户特征数据对虚拟人物进行更新显示。

可选地，装置900还包括：用户音频数据接收模块，用于从服务器接收第二用户的用户音频数据；以及用户语音播放模块，用于在对虚拟人物进行更新显示的同时同步播放与用户音频数据对应的语音音频。

可选地，更新显示子模块包括：视角调整单元，用于响应于接收到用户音频数据，根据第一用户和第二用户在在虚拟会议场景中的相对位置信息，调整虚拟会议场景的视角；以及更新显示单元，用于在调整视角后的虚拟会议场景中更新显示第二用户的虚拟人物。

可选地，装置900还包括：主持人模型接收模块，用于从服务器接收与在线会议相关的主持人模型，其中主持人模型用于生成在线会议的虚拟主持人；以及主持人显示模块，用于根据主持人模型生成并显示虚拟主持人。

可选地，装置900还包括：主持人数据接收模块，用于从服务器接收虚拟主持人的主持人特征数据以及主持人音频数据，其中主持人特征数据用于对虚拟主持人进行更新显示；以及主持人更新显示模块，用于根据主持人特征数据对虚拟主持人进行更新显示，并且同步播放主持人音频数据对应的语音音频。

从而根据本实施例，虚拟会议系统根据从远程的终端设备采集的参会者的视频图像，基于虚拟现实技术生成与参会者对应的三维的虚拟人物，并将包含虚拟人物的会议视频实时发送至各个终端设备并进行显示。从而，针对各个参会者营造了一种身临其境的虚拟会议环境。从而参会者可以在在线会议中与其他参会者对应的虚拟人物进行交流和互动。并且由于虚拟人物是根据相应的用户视频生成的，因此该虚拟人物能够实时地反映出对应的用户的状态动作以及情感。从而解决了现有的远程视频会议系统不能解决肢体语言、动作、情感以及交互等问题，从而增加了会议相互理解的难度以及参会者之间的距离感的技术问题。

实施例3

图10示出了根据本实施例所述的实现在线会议装置1000，该装置1000与根据实施例1的第一个方面所述的方法相对应。参考图10所示，该装置1000包括：第一处理器1010；以及第一存储器1020，与所述处理器1010连接，用于为所述第一处理器1010提供处理以下处理步骤的指令：从第一用户的终端设备接收第一用户创建和/或加入在线会议的会议请求；根据会议请求与第一用户的终端设备进行交互，并从第一用户的终端设备接收与第一用户的用户视频相关的图像数据；根据所接收的图像数据，生成与第一用户对应的虚拟人物模型，虚拟人物模型用于生成与第一用户对应的虚拟人物；以及将虚拟人物模型发送至参与在线会议的第二用户的终端设备。

可选地，第一存储器1020还用于为第一处理器1010提供处理以下处理步骤的指令：生成虚拟现实的会议场景的会议场景模型，其中会议场景模型用于生成在线会议的虚拟会议场景；以及将会议场景模型发送至在线会议的参会者的终端设备。

可选地，第一存储器1020还用于为第一处理器1010提供处理以下处理步骤的指令：从第一用户的终端设备实时接收第一用户的用户特征数据，其中用户特征数据是根据第一用户的用户视频所生成的用户特征；以及将用户特征数据发送至第二用户的终端设备。

可选地，第一存储器1020还用于为第一处理器1010提供处理以下处理步骤的指令：从第一用户的终端设备接收第一用户的用户音频数据；以及将用户音频数据与用户特征数据同步地发送至第二用户的终端设备。

可选地，第一存储器1020还用于为第一处理器1010提供处理以下处理步骤的指令：生成与在线会议相关的主持人模型，其中主持人模型用于生成在线会议的虚拟主持人；以及将主持人模型发送至第一用户的终端设备。

可选地，生成在线会议相关的主持人模型的操作，包括：根据第一用户的用户信息确定与第一用户匹配的主持人类型；以及根据所确定的主持人类型，生成主持人模型。

可选地，第一存储器1020还用于为第一处理器1010提供处理以下处理步骤的指令：生成虚拟主持人的主持人特征数据以及主持人音频数据，其中主持人特征数据用于对虚拟主持人进行更新显示；以及将主持人特征数据和主持人音频数据同步发送至第一用户的终端设备。

可选地，生成虚拟主持人的主持人特征数据以及主持人音频数据的操作，包括：接收在线会议中发言者的发言者语音音频；以及根据发言者语音音频生成主持人音频数据。

可选地，第一存储器1020还用于为第一处理器1010提供处理以下处理步骤的指令：响应于从第一用户的终端设备接收的与在线会议相关的托管请求，生成与第一用户的虚拟人物对应的特征数据和/或音频数据；以及将生成的与第一用户的虚拟人物对应的特征数据和/或音频数据发送至第二用户的终端设备。

可选地，第一存储器1020还用于为第一处理器1010提供处理以下处理步骤的指令：生成与在线会议相关的会议记录信息；以及响应于从第一用户的终端设备接收的查看在线会议记录的请求，将会议记录信息发送至第一用户的终端设备。

根据本实施例的第二个方面，提供了一种实现在线会议的装置1100，该装置1100用于第一用户的终端设备，并且与实施例1的第二个方面的方法对应。装置1100包括：第二处理器1110；以及第二存储器1120，与第二处理器1110连接，用于为第二处理器1110提供处理以下处理步骤的指令：向远程的服务器发送创建和/或加入在线会议的会议请求；基于会议请求与服务器进行交互，并从服务器接收参与在线会议的第二用户的虚拟人物模型，虚拟人物模型用于生成与第二用户对应的虚拟人物；以及根据虚拟人物模型生成并显示虚拟人物。

可选地，第二存储器1120还用于为第二处理器1110提供处理以下处理步骤的指令：从服务器接收第二用户的用户音频数据；以及在对虚拟人物进行更新显示的同时同步播放与用户音频数据对应的语音音频。

可选地，第二存储器1120还用于为第二处理器1110提供处理以下处理步骤的指令：从服务器接收与在线会议相关的主持人模型，其中主持人模型用于生成在线会议的虚拟主持人；以及根据主持人模型生成并显示虚拟主持人。

可选地，第二存储器1120还用于为第二处理器1110提供处理以下处理步骤的指令：从服务器接收虚拟主持人的主持人特征数据以及主持人音频数据，其中主持人特征数据用于对虚拟主持人进行更新显示；以及根据主持人特征数据对虚拟主持人进行更新显示，并且同步播放主持人音频数据对应的语音音频。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种实现在线会议的方法，用于服务器，其特征在于，包括：

从第一用户的终端设备接收第一用户创建和/或加入在线会议的会议请求；

根据所述会议请求与所述第一用户的终端设备进行交互，并从所述第一用户的终端设备接收与所述第一用户的用户视频相关的图像数据；

根据所接收的图像数据，生成与所述第一用户对应的虚拟人物模型，所述虚拟人物模型用于生成与所述第一用户对应的虚拟人物；以及

将所述虚拟人物模型发送至参与所述在线会议的第二用户的终端设备。

2.根据权利要求1所述的方法，其特征在于，还包括：

生成虚拟现实的会议场景的会议场景模型，其中会议场景模型用于生成所述在线会议的虚拟会议场景；以及将所述会议场景模型发送至所述在线会议的参会者的终端设备，并且

方法还包括：生成与所述在线会议相关的会议记录信息；以及响应于从所述第一用户的终端设备接收的查看在线会议记录的请求，将所述会议记录信息发送至所述第一用户的终端设备。

3.根据权利要求1所述的方法，其特征在于，还包括：

从所述第一用户的终端设备实时接收所述第一用户的用户特征数据，其中所述用户特征数据是根据所述第一用户的用户视频所生成的用户特征；以及将所述用户特征数据发送至所述第二用户的终端设备，并且

方法还包括：从所述第一用户的终端设备接收所述第一用户的用户音频数据；以及将所述用户音频数据与所述用户特征数据同步地发送至所述第二用户的终端设备。

4.根据权利要求1所述的方法，其特征在于，还包括：

生成与所述在线会议相关的主持人模型，其中所述主持人模型用于生成所述在线会议的虚拟主持人；以及

将所述主持人模型发送至所述第一用户的终端设备。

5.根据权利要求4所述的方法，其特征在于，生成所述在线会议相关的主持人模型的操作，包括：根据所述第一用户的用户信息确定与所述第一用户匹配的主持人类型；以及根据所确定的主持人类型，生成所述主持人模型，并且

方法还包括：生成所述虚拟主持人的主持人特征数据以及主持人音频数据，其中所述主持人特征数据用于对所述虚拟主持人进行更新显示；以及将所述主持人特征数据和所述主持人音频数据同步发送至所述第一用户的终端设备。

6.根据权利要求5所述的方法，其特征在于，生成所述虚拟主持人的主持人特征数据以及主持人音频数据的操作，包括：

根据所接收的与所述在线会议相关的会议内容信息，生成与所述在线会议相关的会议脚本信息；以及根据所述会议脚本信息，生成所述主持人特征数据以及所述主持人音频数据；或者

接收所述在线会议中发言者的发言者语音音频；以及根据所述发言者语音音频生成所述主持人音频数据和/或所述主持人特征数据；或者

根据从所述在线会议的参会者的终端设备接收的用户特征数据和/或用户音频数据，确定所述在线会议的氛围信息；以及根据所确定的氛围信息，生成所述主持人特征数据以及主持人音频数据。

7.根据权利要求1所述的方法，其特征在于，还包括：

响应于从所述第一用户的终端设备接收的与所述在线会议相关的托管请求，生成与所述第一用户的虚拟人物对应的特征数据和/或音频数据；以及

将生成的与所述第一用户的虚拟人物对应的特征数据和/或音频数据发送至所述第二用户的终端设备。

8.一种实现在线会议的方法，用于第一用户的终端设备，其特征在于，包括：

向远程的服务器发送创建和/或加入在线会议的会议请求；

基于所述会议请求与所述服务器进行交互，并从所述服务器接收参与所述在线会议的第二用户的虚拟人物模型，所述虚拟人物模型用于生成与所述第二用户对应的虚拟人物；以及

根据所述虚拟人物模型生成并显示所述虚拟人物。

9.根据权利要求8所述的方法，其特征在于，显示所述虚拟人物的操作，还包括：

从所述服务器接收虚拟现实的会议场景的会议场景模型，其中会议场景模型用于生成所述在线会议的虚拟会议场景；以及根据所述会议场景模型，生成并显示所述虚拟会议场景，并在所述虚拟会议场景中显示所述虚拟人物，并且

显示所述虚拟人物的操作，还包括：从所述服务器接收所述第二用户的用户特征数据，其中所述用户特征数据是根据所述第二用户的用户视频所生成的用户特征；以及根据所述用户特征数据对所述虚拟人物进行更新显示。

10.根据权利要求9所述的方法，其特征在于，还包括：

从所述服务器接收所述第二用户的用户音频数据；以及在对所述虚拟人物进行更新显示的同时同步播放与所述用户音频数据对应的语音音频，并且

对所述虚拟人物进行更新显示的操作，包括：响应于接收到所述用户音频数据，根据所述第一用户和所述第二用户在所述在所述虚拟会议场景中的相对位置信息，调整所述虚拟会议场景的视角；以及在调整视角后的所述虚拟会议场景中更新显示所述第二用户的虚拟人物。

11.根据权利要求9或10所述的方法，其特征在于，还包括：

从所述服务器接收与所述在线会议相关的主持人模型，其中所述主持人模型用于生成所述在线会议的虚拟主持人；以及根据所述主持人模型生成并显示所述虚拟主持人，并且

方法还包括：从所述服务器接收所述虚拟主持人的主持人特征数据以及主持人音频数据，其中所述主持人特征数据用于对所述虚拟主持人进行更新显示；以及根据所述主持人特征数据对所述虚拟主持人进行更新显示，并且同步播放所述所述主持人音频数据对应的语音音频。

12.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时由处理器执行权利要求1至11中任意一项所述的方法。

13.一种实现在线会议的装置(800)，其特征在于，包括：

会议请求接收模块(810)，用于从第一用户的终端设备接收第一用户创建和/或加入在线会议的会议请求；

图像数据接收模块(820)，用于根据所述会议请求与所述第一用户的终端设备进行交互，并从所述第一用户的终端设备接收与所述第一用户的用户视频相关的图像数据；

虚拟人物模型生成模块(830)，用于根据所接收的图像数据，生成与所述第一用户对应的虚拟人物模型，所述虚拟人物模型用于生成与所述第一用户对应的虚拟人物；以及

虚拟人物模型发送模块(840)，用于将所述虚拟人物模型发送至参与所述在线会议的第二用户的终端设备。

14.一种实现在线会议的装置(900)，用于第一用户的终端设备，其特征在于，包括：

会议请求发送模块(910)，用于向远程的服务器发送创建和/或加入在线会议的会议请求；

虚拟人物模型接收模块(920)，用于基于所述会议请求与所述服务器进行交互，并从所述服务器接收参与所述在线会议的第二用户的虚拟人物模型，所述虚拟人物模型用于生成与所述第二用户对应的虚拟人物；以及

虚拟人物生成模块(930)，用于根据所述虚拟人物模型生成并显示所述虚拟人物。

15.一种实现在线会议的装置(1000)，其特征在于，包括：

第一处理器(1010)；以及

第一存储器(1020)，与所述第一处理器(1010)连接，用于为所述第一处理器(1010)提供处理以下处理步骤的指令：

16.一种实现在线会议的装置(1100)，其特征在于，包括：

第二处理器(1110)；以及

第二存储器(1120)，与所述第二处理器(1110)连接，用于为所述第二处理器(1110)提供处理以下处理步骤的指令：

向远程的服务器发送创建和/或加入在线会议的会议请求；

根据所述虚拟人物模型生成并显示所述虚拟人物。