CN118612377A

CN118612377A - 视频会议的方法、装置、电子设备及介质

Info

Publication number: CN118612377A
Application number: CN202410367580.1A
Authority: CN
Inventors: 曹裕民; 张鉴石; 李阔; 杨春晖
Original assignee: Hainan Qiantang Shilian Information Technology Co ltd
Current assignee: Hainan Qiantang Shilian Information Technology Co ltd
Priority date: 2024-03-28
Filing date: 2024-03-28
Publication date: 2024-09-06

Abstract

本发明实施例提供了视频会议的方法、装置、电子设备及介质，所述方法包括：根据目标会议终端上传的音频流，确定多个音频片段；分别生成所述多个音频片段对应的多个中间特征向量；其中，当前音频片段的第一帧特征向量为上一个音频片段的最后一帧特征向量；根据所述多个中间特征向量，进行视频流合成，得到用于呈现数字人像的视频流，并将所述视频流发送至其他会议终端。通过本发明实施例，实现了根据音频片段之间关联来合成用于呈现数字人像的视频流，提升了合成的视频流的实时性、连续性。

Description

视频会议的方法、装置、电子设备及介质

技术领域

本发明涉及视频会议技术领域，特别是涉及视频会议的方法、装置、电子设备及介质。

背景技术

随着通信技术的发展，用户对通信的质量和效率的要求越来越高，需求也越来越多样化和差异化。在视频会议场景下，用户不满足于仅仅能看到实时的视频图像，对高清晰、高质量、高稳定的视讯业务的需求越来越强烈。

在视频会议中，由会议终端将拍摄到的视频流上传到服务器，再由服务器分发给各会场的显示设备进行显示，但是鉴于会议终端的性能不同，会出现部分会议终端上传的是高清视频流、部分会议终端上传的不是高清视频流，而如果将所有的会议终端都换成高清拍摄，在视频流传输时可能因带宽波动较大等原因导致出现视频会议画面卡顿等情况。

在现有技术中，可以采用数字人技术来合成视频替换视频会议画面，进而避免出现视频会议画面卡顿等情况，而由于现有的数字人通常是离线生成的，合成视频的实时性、连续性等方面存在问题。

发明内容

鉴于上述问题，提出了以便提供克服上述问题或者至少部分地解决上述问题的视频会议的方法、装置、电子设备及介质，包括：

一种视频会议的方法，所述方法包括：

根据目标会议终端上传的音频流，确定多个音频片段；

分别生成所述多个音频片段对应的多个中间特征向量；其中，当前音频片段的第一帧特征向量为上一个音频片段的最后一帧特征向量；

根据所述多个中间特征向量，进行视频流合成，得到用于呈现数字人像的视频流，并将所述视频流发送至其他会议终端。

可选地，所述分别生成所述多个音频片段对应的多个中间特征向量，包括：

获取上一个音频片段的最后一帧特征向量；

将上一个音频片段的最后一帧特征向量确定为当前音频片段的第一帧特征向量，并生成所述当前音频片段的其他帧特征向量。

可选地，还包括：

根据所述当前音频片段的第一帧特征向量和第二帧特征向量，生成过渡帧特征向量，并插入在所述第一帧特征向量和第二帧特征向量之间。

可选地，所述根据所述当前音频片段的第一帧特征向量和第二帧特征向量，生成过渡帧特征向量，包括：

确定所述当前音频片段的第一帧特征向量和第二帧特征向量的平均值，并根据所述平均值，生成过渡帧特征向量。

可选地，在所述根据所述当前音频片段的第一帧特征向量和第二帧特征向量，生成过渡帧特征向量，并插入在所述第一帧特征向量和第二帧特征向量之间之前，还包括：

确定所述当前音频片段的第一帧特征向量和第二帧特征向量的相似度；

在所述相似度小于预设相似度的情况下，执行所述根据所述当前音频片段的第一帧特征向量和第二帧特征向量，生成过渡帧特征向量，并插入在所述第一帧特征向量和第二帧特征向量。

可选地，所述根据所述多个中间特征向量，进行视频流合成，得到用于呈现数字人像的视频流，并将所述视频流发送至其他会议终端，包括：

采用多个显卡或服务器，并行处理所述多个音频片段对应的多个中间特征向量，得到用于呈现数字人像的视频流，并按照时间顺序，将所述多个音频片段对应的视频流发送至其他会议终端。

可选地，所述根据目标会议终端上传的音频流，确定多个音频片段，包括：

接收目标会议终端上传的音频流，并在接收到的音频流的长度大于长度阈值时，将接收到的音频流确定为一个音频片段。

一种视频会议的装置，所述装置包括：

音频片段确定模块，用于根据目标会议终端上传的音频流，确定多个音频片段；

中间特征向量生成模块，用于分别生成所述多个音频片段对应的多个中间特征向量；其中，当前音频片段的第一帧特征向量为上一个音频片段的最后一帧特征向量；

视频流合成模块，用于根据所述多个中间特征向量，进行视频流合成，得到用于呈现数字人像的视频流，并将所述视频流发送至其他会议终端。

一种电子设备，包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述的方法。

一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上所述的方法。

本发明实施例具有以下优点：

在本发明实施例中，通过根据目标会议终端上传的音频流，确定多个音频片段，分别生成多个音频片段对应的多个中间特征向量，当前音频片段的第一帧特征向量为上一个音频片段的最后一帧特征向量，然后根据多个中间特征向量，进行视频流合成，得到用于呈现数字人像的视频流，并将视频流发送至其他会议终端，实现了根据音频片段之间关联来合成用于呈现数字人像的视频流，提升了合成的视频流的实时性、连续性。

附图说明

为了更清楚地说明本发明的技术方案，下面将对本发明的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一些实施例提供的一种视频会议的方法的步骤流程图；

图2a是本发明一些实施例提供的一种系统架构的示意图；

图2b是本发明一些实施例提供的另一种系统架构的示意图；

图3是本发明一些实施例提供的另一种视频会议的方法的步骤流程图；

图4是本发明一些实施例提供的另一种视频会议的方法的步骤流程图；

图5是本发明一些实施例提供的一种视频会议的装置的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1，示出了本发明一些实施例提供的一种视频会议的方法的步骤流程图，该方法可以应用于视频会议中的服务器。

在一些示例中，该服务器可以为一个服务器，也可以为多个服务器。如图2a，服务器可以包括会议服务器(如一体机、XMCU等)和视频后处理服务器(也可以为AI服务器)，会议服务器和视频后处理服务器相互连接，该方法可以部分执行于会议服务器、部分执行于视频后处理服务器，如视频流的合成的相关内容可以由视频后处理服务器执行，视频流的合成的相关内容可以包括AI处理(如确定数字人像、超分辨率重建等)和流媒体处理(如音频编解码、视频编解码)，其他内容可以由会议服务器执行。

其中，视频后处理服务器(AI服务器)是一种能够提供人工智能的数据服务器。它既可以用来支持本地应用程序和网页，也可以为云和本地服务器提供复杂的AI模型和服务。

在一些示例中，视频后处理服务器可以设置有AI会议管理模块、用户管理模块、代理服务模块。其中，AI会议管理模块可以用于对与会议服务器建立通信信道进行管理，将接收到的数据流进行计算、分类，同时对音频流编解码、视频流编解码，合成高清数字人像视频流。用户管理模块可以用于管理视频会议中的用户信息，当一个会议终端需要创建一个高清数字人像视频流的时候，在该用户管理模块会创建一个在该场视频会议中某一个会议终端的用户信息，该用户信息中使用的用户名、人像数据等，可以在会议终端开启会议时，由会议服务器同步给AI服务器，主要包括会议ID、登录会议终端时的用户ID、图像ID、会议终端的标识等。代理模块可以用于与会议服务器建立通信信道，进而可以实现文件上传、文件下载功能，当代理模块与会议服务器建立通信信道后，可以文件进行转发。

具体的，可以包括如下步骤：

步骤101，根据目标会议终端上传的音频流，确定多个音频片段。

其中，目标会议终端和其他会议终端为同一视频会议中的参会终端，如会议终端为视联网终端，也可以为其他网络终端。

在视频会议中，可以由目标会议终端采集视频流，并上传至服务器，然后由服务器将视频流发送至其他会议终端，并通过显示设备进行显示。

而在部分场景下，目标会议终端上传至服务器的视频流可能不满足需求，如目标会议终端连接的摄像头仅能采集清晰度较低的视频流，而不能采集高清视频流，又如因带宽波动较大等原因，导致目标会议终端上传的视频流可能会出现视频会议画面卡顿的情况，则可以在检测到触发事件的情况下，对视频会议的视频流进行合成，以保证视频会议的视频流能够满足需求。

在一些示例中，可以在检测到触发事件时，从一般处理模式(即直接由目标会议终端上传采集的视频流至服务器，再由服务器发送至其他会议终端)切换至AI处理模式，进而在AI处理模式下合成视频会议的视频流(即切换至由目标会议终端上传采集的音频流及后续处理)。

在本发明一些实施例中，针对目标会议终端的触发事件可以包括以下任一项：接收到所述目标会议终端发送的视频合成请求、与所述目标会议终端连接的信道的带宽波动幅度大于阈值。

在一些实施方式中，可以在目标会议终端向用户提供交互界面，用户可以通过交互界面进行手动操作，进而可以通过目标会议终端生成并向服务器发送视频合成请求，在服务器接收到视频合成请求时，即检测到触发事件。例如，在目标会议终端连接的摄像头仅能采集清晰度较低的视频流，而不能采集高清视频流的情况下，用户可以通过交互界面控制目标会议终端生成并向服务器发送视频合成请求；又如，因带宽波动较大等原因，导致目标会议终端上传的视频流出现视频会议画面卡顿的情况，用户可以通过交互界面控制目标会议终端生成并向服务器发送视频合成请求。

在另一些实施方式中，服务器可以与各个参会终端建立通信信道，服务器可以设置有带宽波动监测模块，带宽波动监测模块可以检测各通信信道的带宽波动情况，每个信道可以设有一定的带宽阈值。在视频会议开启后，服务器可以通过带宽波动监测模块检测到与目标会议终端连接的信道的带宽波动幅度是否大于阈值(如100K)，在检测到与目标会议终端连接的信道的带宽波动幅度大于阈值的情况下，则检测到触发事件。

在检测到触发事件后，服务器可以从获取目标会议终端采集的视频流(由麦克风和摄像头采集)，切换至目标会议终端采集并上传音频流，即目标会议终端不再向服务器发送视频流，而仅发送音频流。

在实际应用中，参与会议的目标会议终端可以通过麦克风采集音频，并将音频流上传至服务器，进而可以得到多个音频片段。

在本发明一些实施例中，所述根据目标会议终端上传的音频流，确定多个音频片段，包括：接收目标会议终端上传的音频流，并在接收到的音频流的长度大于长度阈值时，将接收到的音频流确定为一个音频片段。

在实际应用中，目标会议终端可以将采集的音频实时、连续上传至服务器，即音频流是实时的、连续的，服务器可以确定接收到的音频流的长度，然后判断接收到的音频流的长度是否大于长度阈值，如长度阈值为100KB。

若接收到的音频流的长度小于或等于长度阈值，则暂时不进行处理，继续接收新的音频流，若接收到的音频流大于长度阈值，则可以将接收到的音频流划分为一个音频片段，以对作为一个音频片段进行处理。

在一些示例中，在划分一个音频片段后，可以将接收到的音频流的长度清零，并重新计算接收到的音频流的长度，以划分新的音频片段。

步骤102，分别生成所述多个音频片段对应的多个中间特征向量；其中，当前音频片段的第一帧特征向量为上一个音频片段的最后一帧特征向量。

在获得音频片段后，可以通过对音频片段的分析，得到该音频片段对应的多个中间特征向量，如中间特征向量包括表情向量和动作向量。

其中，中间特征向量可以为基于3DMM(3D Morphable Model，三维可形变人脸模型)生成特征向量，每个人脸的3D模型都可以在三维空间中，通过其他人脸模板的正交加权而来，这种特征表示分解为头部的姿态、形状和表情，其优势在于分解了不同粒度的头部特征。为了提升建模精度，通常采用局部辅助模块来细化面部特征。

在一些示例中，可以获取预先存储的人像图片，如在会议开始前由用户提供的人像图片，又如采用系统提供的虚拟人像，然后可以结合人像图像和音频片段，生成与该人像图片中人像风格相应的中间特征向量。

在本发明一些实施例中，所述分别生成所述多个音频片段对应的多个中间特征向量，包括：获取上一个音频片段的最后一帧特征向量；将上一个音频片段的最后一帧特征向量确定为当前音频片段的第一帧特征向量，并生成所述当前音频片段的其他帧特征向量。

在实际应用中，多个音频片段在时间上是连续的，而前、后段生成视频拼接后会出现头部动作突变，嘴唇抖动等异常情况。

为了保证合成视频中数字人像的表情、动作等方面的连续性，则可以将上一个音频片段的最后一帧特征向量确定为当前音频片段的第一帧特征向量，进而在相邻的音频片段之间进行信息共享，即实现前音频切片生成的末帧动作与下一音频切片生成的首帧动作对齐。

在一些示例中，对于第一个音频片段，可以从预先存储的人像图像中，获取初始特征向量，作为第一帧特征向量。

如图2b，从音频流中获取音频片段，并结合从预先存储的人像图像中获取的初始3dmm特征，通过动作模块和表情模块对音频片段和初始3dmm特征进行处理，得到相应的3dmm特征(即中间特征向量)，然后采用3dmm特征进行渲染，生成针对该音频片段的图像流，并将上一个音频片段的最后一帧向量(包括表情向量和动作向量)作为当前音频片段的第一帧特征向量，实现相邻的音频片段之间的向量约束。

在本发明一些实施例中，还包括：

从视觉感官上而言，上一个音频片段的最后一帧特征向量和当前音频片段的第二帧特征向量(已将上一个音频片段的最后一帧特征向量作为第一帧特征向量)之间是连续的、相似的。

为了避免合成的前后两段数字人视频，因输入音频片段的无关联性而产生表情与动作变形，可以采用帧间平滑处理的方法，根据当前音频片段的第一帧特征向量和第二帧特征向量，生成过渡帧特征向量，在当前音频片段的第一帧特征向量和第二帧特征向量之间插入过渡帧特征向量。

在本发明一些实施例中，所述根据所述当前音频片段的第一帧特征向量和第二帧特征向量，生成过渡帧特征向量，包括：

在实际应用中，可以计算当前音频片段的第一帧特征向量和第二帧特征向量的平均值，然后可以将向量的平均值作为过渡帧特征向量。

在本发明一些实施例中，在所述根据所述当前音频片段的第一帧特征向量和第二帧特征向量，生成过渡帧特征向量，并插入在所述第一帧特征向量和第二帧特征向量之间之前，还包括：确定所述当前音频片段的第一帧特征向量和第二帧特征向量的相似度；在所述相似度小于预设相似度的情况下，执行所述根据所述当前音频片段的第一帧特征向量和第二帧特征向量，生成过渡帧特征向量，并插入在所述第一帧特征向量和第二帧特征向量。

在实际应用中，可以判断当前音频片段的第一帧特征向量和第二帧特征向量的相似度，如相似度为向量之间的余弦相似度，然后判断相似度是否小于预设相似度，在相似度小于预设相似度的情况下，才在当前音频片段的第一帧特征向量和第二帧特征向量之间插入过渡帧特征向量，在相似度大于或等于预设相似度的情况下，则无需插入过渡帧特征向量。

步骤103，根据所述多个中间特征向量，进行视频流合成，得到用于呈现数字人像的视频流，并将所述视频流发送至其他会议终端。

其中，数字人是通过计算机技术制作的类人形象或者计算机软件制作的产品。它们具备人类的外观或者行为模式，却不是现实世界中的某个人的录像，它们能独立运行和存在。数字人的本体存在于计算设备(比如电脑、手机、VR头显等)中，通过显示设备呈现出来，让人类能通过眼睛看见，或者能语音交互。它们有独立的人格设定，有特定身份，有独立的名字，有独立的人物形象，有独立的知识库可回答特定问题。

对于每个音频片段，可以采用该音频片段对应的多个中间特征向量，进行视频流合成，得到用于呈现数字人像的视频流，如采用多个中间特征向量多张图像并按照时间顺序组成视频流，无需针对不同的人物建立不同的模型，提升了数字人像合成的实时性，适应于实时视频会议场景。

在获得视频流后，可以将视频流发送至参与视频会议的其他会议终端。

在一些示例中，可以由AI服务器进行视频流的合成操作，在合成视频流后，可以将视频流发送至会议服务器，进而由会议服务器发送至终端。

在本发明一些实施例中，目标会议终端还可以上传根据目标会议终端采集的视频流生成的视频特征属性信息，该视频特征属性信息可以包含在音频流中一起发送至服务器，服务器在视频合成时，可以结合上文的中间特征向量和视频特征属性信息来合成视频流。

在一些示例中，视频特征属性信息可以包括用于动作补偿与重构的实时面部微表情信息、重要区域纹理光影信息、手部动作捕捉数据信息等。在一些示例中，还可以根据音频流生成音频特征属性信息，进而能够使得音频和视频更好融合，包括用于多模态对齐与视频生成的一维时序性信息、音频压缩/恢复推理补偿信息、与用于重点讲话时间点预测感知的关键词信息等。

在本发明一些实施例中，在目标会议终端处于第一拍摄模式下，目标会议终端采集并上传音频流(关闭视频采集，仅开启音频采集)。例如，真实说话的人像是坐姿且只暴露肩膀以上的部分、基本没有身体的肢体动作，即仅拍摄用户的肩膀以上的部分(半身拍摄模式)，这种拍摄模式下合成的数字人像也是只有上半身部分，则只需要发送音频流即可。

在本发明一些实施例中，在目标会议终端处于第二拍摄模式下，目标会议终端采集并上传音频流和视频特征属性信息(开启音频采集和视频采集，但采集的视频仅用于生成视频特征属性信息，而不上传视频流)。例如，真实说话的人像是站姿且有较多的肢体动作，即需要拍摄用户的肢体动作(全身拍摄模式)，这种拍摄模式下合成的数字人像可以是人像全身，即需要发送音频流和视频特征属性信息。

在本发明一些实施例中，可以在会议开始前，由负责主持的会议终端进行手动输入：半身或全身拍摄，也可以是由会议服务器通过获取视频会议的画面而确定的半身或全身拍摄。

在本发明一些实施例中，可以预先设置多个第三方平台，每个平台具有相应的超分模型，并可以对多个第三方平台进行性能验证，性能验证结果可以表征第三方平台进行视频合成的性能，进而可以根据性能验证结果，从多个第三方平台中选取合适的目标第三方平台，例如，根据性能验证结果，选择性能较佳的第三方平台作为目标第三方平台，进而可以调用目标第三方平台进行视频流合成。

在一些示例中，可以从会议开始时就触发循环监测，如监测的周期可以1s、2s、3s、4s、5s、6s、10s等，可以建立服务器与第三方平台的通信连接，并向第三方平台发送视频流，第三方平台可以调用脸部超分模型处理视频流，服务器进而可以获取相关参数，如相关参数包括单帧延时时间、帧率、帧分辨率、相邻帧中人像的流畅度、视频码率，然后可以根据获取到的相关参数，生成第三方平台的性能验证结果。

在一些示例中，在将视频流输入至模型前，可以进行预处理工作，具体可以预先设置固定图片尺寸，然后可以将输入第三方平台的图片调整为固定图片尺寸，进而可以将图片中人像的五官中各部分的尺寸固定，来获得大小形状较为相似的脸部，如嘴占用面积为：长度0.1cm-3cm*宽度0.1cm-3cm。

在相关技术中，是输入任一尺寸的图片，然后通过对图片分析生成对应锚框来进行图片识别，而在本发明实施例中，通过预先生成固定锚框，将输入固定尺寸的五官，节省动态生成锚框的消耗时间，进而减少计算量。

在本发明一些实施例中，可以对第三方平台中超分模型的算子进行优化，如超分模型存在有5个算子，这五个算子分别进行计算处理，得到五个数据，而本发明通过将5个算子统一为1个算子，只需要调用这一个算子即可以进行处理，实现将这个5个算子的数据融合。通过对第三方平台中超分模型的算子进行优化，可以降低模型结构的复杂度，减少中间过程繁琐小算子，优化模型将耗时较多的算法改写为简化算法，提高非推理部分计算效率。

在一些示例中，优化算子包括：奥尼克斯-生成模型算子，具体的，可以通过服务器在模型对接时，不断统一算子命名规则，同时依托gunn模型，对脸部数据集，采集特定场景的图片fintun二次渲染，优化算力。在一些示例中，可以根据相应的人脸型和会议场景等，对人脸生成的styleGAN2模型进行二次开发训练，用于提高超分人脸的清晰度。

在本发明实施例中，通过检测第三方平台处理视频帧的相关参数，进而可以根据相关参数选择合适的目标第三方平台来进行视频帧的处理，也可以根据相关参数，从当前第三方平台切换至目标第三方平台来进行视频帧的处理。例如，当监测到单帧延时时间或帧率有大波动时，可以根据单帧延时时间或帧对第三方平台进行排序，然后选取排序在前的第三方平台。

在本发明一些实施例中，所述根据所述多个中间特征向量，进行视频流合成，得到用于呈现数字人像的视频流，并将所述视频流发送至其他会议终端，包括：采用多个显卡或服务器，并行处理所述多个音频片段对应的多个中间特征向量，得到用于呈现数字人像的视频流，并按照时间顺序，将所述多个音频片段对应的视频流发送至其他会议终端。

为了提升数据处理的效率，可以将每个音频片段对应的多个中间特征向量作为一个向量组，进而将多个音频片段对应的多个向量组分发至不同的显卡或服务器中，并行进行渲染处理，得到每个音频片段对应的视频流，然后可以按照音频片段的事件顺序，向终端推送相应的视频流。

参照图3，示出了本发明一些实施例提供的另一种视频会议的方法的步骤流程图，具体可以包括如下步骤：

步骤301，根据目标会议终端上传的音频流，确定多个音频片段。

步骤302，获取上一个音频片段的最后一帧特征向量。

步骤303，将上一个音频片段的最后一帧特征向量确定为当前音频片段的第一帧特征向量，并生成所述当前音频片段的其他帧特征向量。

步骤304，根据所述当前音频片段的第一帧特征向量和第二帧特征向量，生成过渡帧特征向量，并插入在所述第一帧特征向量和第二帧特征向量之间。

步骤305，根据多个中间特征向量，进行视频流合成，得到用于呈现数字人像的视频流，并将所述视频流发送至其他会议终端。

参照图4，示出了本发明一些实施例提供的另一种视频会议的方法的步骤流程图，具体可以包括如下步骤：

步骤401，根据目标会议终端上传的音频流，确定多个音频片段。

步骤402，分别生成所述多个音频片段对应的多个中间特征向量；其中，当前音频片段的第一帧特征向量为上一个音频片段的最后一帧特征向量。

步骤403，采用多个显卡或服务器，并行处理所述多个音频片段对应的多个中间特征向量，得到用于呈现数字人像的视频流，并按照时间顺序，将所述多个音频片段对应的视频流发送至其他会议终端。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图5，示出了本发明一些实施例提供的一种视频会议的装置的结构示意图，具体可以包括如下模块：

音频片段确定模块501，用于根据目标会议终端上传的音频流，确定多个音频片段；

中间特征向量生成模块502，用于分别生成所述多个音频片段对应的多个中间特征向量；其中，当前音频片段的第一帧特征向量为上一个音频片段的最后一帧特征向量；

视频流合成模块503，用于根据所述多个中间特征向量，进行视频流合成，得到用于呈现数字人像的视频流，并将所述视频流发送至其他会议终端。

在本发明一些实施例中，所述分别生成所述多个音频片段对应的多个中间特征向量，包括：

获取上一个音频片段的最后一帧特征向量；

在本发明一些实施例中，还包括：

过渡帧特征向量插入模块，用于根据所述当前音频片段的第一帧特征向量和第二帧特征向量，生成过渡帧特征向量，并插入在所述第一帧特征向量和第二帧特征向量之间。

在本发明一些实施例中，还包括：

相似度确定模块，用于确定所述当前音频片段的第一帧特征向量和第二帧特征向量的相似度；在所述相似度小于预设相似度的情况下，调用所述过渡帧特征向量插入模块。

在本发明一些实施例中，所述根据所述多个中间特征向量，进行视频流合成，得到用于呈现数字人像的视频流，并将所述视频流发送至其他会议终端，包括：

在本发明一些实施例中，所述根据目标会议终端上传的音频流，确定多个音频片段，包括：

本发明一些实施例还提供了一种电子设备，包括处理器、存储器及存储在存储器上并能够在处理器上运行的计算机程序，计算机程序被处理器执行时实现如上的方法。

本发明一些实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储计算机程序，计算机程序被处理器执行时实现如上的方法。

本发明一些实施例还提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如上的方法。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括上述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对所提供的视频会议的方法、装置、电子设备及介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。

Claims

1.一种视频会议的方法，其特征在于，所述方法包括：

根据目标会议终端上传的音频流，确定多个音频片段；

2.根据权利要求1所述的方法，其特征在于，所述分别生成所述多个音频片段对应的多个中间特征向量，包括：

获取上一个音频片段的最后一帧特征向量；

3.根据权利要求2所述的方法，其特征在于，还包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述当前音频片段的第一帧特征向量和第二帧特征向量，生成过渡帧特征向量，包括：

5.根据权利要求3或4所述的方法，其特征在于，在所述根据所述当前音频片段的第一帧特征向量和第二帧特征向量，生成过渡帧特征向量，并插入在所述第一帧特征向量和第二帧特征向量之间之前，还包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述多个中间特征向量，进行视频流合成，得到用于呈现数字人像的视频流，并将所述视频流发送至其他会议终端，包括：

7.根据权利要求1所述的方法，其特征在于，所述根据目标会议终端上传的音频流，确定多个音频片段，包括：

8.一种视频会议的装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。