CN116708706A

CN116708706A - 低带宽视频会议实现方法、系统及装置

Info

Publication number: CN116708706A
Application number: CN202310758688.9A
Authority: CN
Inventors: 陈昀
Original assignee: Hangzhou Ezviz Software Co Ltd
Current assignee: Hangzhou Ezviz Software Co Ltd
Priority date: 2023-06-25
Filing date: 2023-06-25
Publication date: 2023-09-05

Abstract

本申请实施例公开了低带宽视频会议实现方法、系统及装置。本实施例中，在视频会议中通过首次传输时传输待驱动图片、待驱动图片的融合信息，非首次传输比如第n次传输时传输原始视频流中第n帧图片相对于待驱动图片的人脸相对运动信息，无需像现有视频会议中每次传输都传输数据量非常大的关键帧，相比现有视频会议，实现了在低带宽网络中实现高质量的视频会议。

Description

低带宽视频会议实现方法、系统及装置

技术领域

本申请涉及流媒体技术领域，特别涉及低带宽视频会议实现方法、系统及装置。

背景技术

现有视频会议中，视频图像画面采用H264等视频压缩算法编码后，再进行传输。比如，将需要发送的视频图像序列划分为多个图像组，每个图像组包括x个图像帧，每个图像组以第一个图像帧作为关键帧；在对每一图像组进行编码时，可采用帧内编码算法先对其中关键帧进行编码，得到编码后的关键帧，而剩余x-1个图像帧，以关键帧为编码参考进行编码运算；之后，将编码后的关键帧和x-1个编码后的图像帧均发送到解码端。

在目前这种视频图像传输方式中，由于关键帧不参考其他帧，而是采用帧内编码算法进行编码，其会导致编码后的关键帧的数据量非常大，远大于每个编码后的图像帧的数据量；并且，在视频图像传输中，每个图像组均需要传输一次编码后的关键帧，其会导致编码后的关键帧的数据占总码流的比例较高，常常会导致视频会议系统中带宽不足，进而导致在线人数限制以及视频卡顿等现象。

发明内容

本申请公开了低带宽视频会议实现方法、系统及装置，以实现低带宽视频会议。

一种低带宽视频会议实现方法，所述方法应用于编码端，包括：

针对当前视频会议的原始视频流，在首次向解码端传输时，向解码端传输已从所述原始视频流中选择的待驱动图片、以及所述待驱动图片的融合信息；所述待驱动图片的融合信息用于解码端合成视频流；

在第n次传输时，n表示非首次之外的任一次，向解码端传输所述原始视频流中第n帧图片相对于所述待驱动图片的人脸相对运动信息；所述人脸相对运动信息是指所述第n帧图片和所述待驱动图片中同一人脸的相对运动信息，所述人脸相对运动信息是基于第n帧图片的融合信息和待驱动图片的融合信息确定。

一种低带宽视频会议实现方法，所述方法应用于解码端，包括：

利用已获得的人体外观提取模型，对接收的待驱动图片进行下采样，得到待驱动图片的人体外观信息；

基于所述人体外观变换信息、已接收的第n帧图片相对于原始视频流中待驱动图片的人脸相对运动信息、以及待驱动图片融合信息，确定人体精细运动信息；

依据所述人体精细运动信息和所述人体外观信息，确定人体外观精细变换信息；使用人体外观合成模型对人体外观精细变换信息进行上采样，以得到合出图片，所述合成图片与第n帧图片的相似度满足设定相似度要求。

一种低带宽视频会议实现系统，所述系统包括：编码端和解码端；

其中，编码端执行上述第一种方法中的步骤；

解码端，执行上述第二种方法中的步骤。

一种低带宽视频会议实现装置，所述装置应用于编码端，包括：

提取单元，用于从所述原始视频流中选择的待驱动图片、以及所述待驱动图片的融合信息、以及，原始视频流中第n帧图片相对于所述待驱动图片的人脸相对运动信息，第n帧图片是指所述原始视频流中除所述待驱动图片之外的任一图片；

传输单元，用于针对当前视频会议的原始视频流，在首次向解码端传输时，向解码端传输已从所述原始视频流中选择的待驱动图片、以及所述待驱动图片的融合信息；所述待驱动图片的融合信息用于解码端合成视频流；以及，在第n次传输时，n表示非首次之外的任一次，向解码端传输所述原始视频流中第n帧图片相对于所述待驱动图片的人脸相对运动信息；所述人脸相对运动信息是指所述第n帧图片和所述待驱动图片中同一人脸的相对运动信息，所述人脸相对运动信息是基于第n帧图片的融合信息和待驱动图片的融合信息确定。

一种低带宽视频会议实现装置，所述装置应用于解码端，包括：

采样单元，用于利用已获得的人体外观提取模型，对接收的待驱动图片进行下采样，得到待驱动图片的人体外观信息；

处理单元，用于基于所述人体外观变换信息、已接收的第n帧图片相对于原始视频流中待驱动图片的人脸相对运动信息、以及待驱动图片融合信息，确定人体精细运动信息；以及，

依据所述人体精细运动信息和所述人体外观信息，确定人体外观精细变换信息；

合成单元，用于使用人体外观合成模型对人体外观精细变换信息进行上采样，以得到合出图片，所述合成图片与第n帧图片的相似度满足设定相似度要求。

一种电子设备，该电子设备包括：处理器和存储器；

其中，所述存储器，用于存储机器可执行指令；

所述处理器，用于读取并执行所述存储器存储的机器可执行指令，以实现如上任一方法。

由以上技术方案可知，本实施例中，在视频会议中通过首次传输时传输待驱动图片、待驱动图片的融合信息，非首次传输比如第n次传输时传输原始视频流中第n帧图片相对于待驱动图片的人脸相对运动信息，无需像现有视频会议中每次传输都传输数据量非常大的关键帧，相比现有视频会议，实现了在低带宽网络中实现高质量的视频会议。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本说明书的实施例，并与说明书一起用于解释本说明书的原理。

图1为本申请实施例提供的方法流程图；

图2为本申请实施例提供的待驱动图片的融合信息获取结构图；

图3为本申请实施例提供的第n帧图片相对于待驱动图片的人脸相对运动信息获取结构图；

图4为本申请实施例提供的另一流程图；

图5为本申请实施例提供的解码端结构示意图；

图6为本申请实施例提供的系统结构图；

图7是本申请实施例提供的装置结构示意图；

图8是本申请实施例提供的另一装置结构示意图；

图9是本申请实施例提供的装置的硬件结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

为了使本领域技术人员更好地理解本申请实施例提供的技术方案，并使本申请实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图对本申请实施例中技术方案作进一步详细的说明。

参见图1，图1为本申请实施例提供的方法流程图。本实施例主要涉及编码端和解码端，下面先以图1所示流程应用于编码端描述：

如图1所示，该流程可包括以下步骤：

步骤101，针对当前视频会议的原始视频流，在首次向解码端传输时，向解码端传输所述原始视频流中已从原始视频流中选择的待驱动图片、以及待驱动图片的融合信息。

作为一个实施例，本实施例可选择原始视频流中的首帧图片作为上述待驱动图片。当然，在其它实施例中，本实施例也可选择原始视频流中其它图片为待驱动图片，本实施例并不具体限定。

作为一个实施例，待驱动图片的融合信息用于解码端合成视频流，具体见下文描述的视频流合成方式，这里暂不赘述。

可选地，在本实施例中，待驱动图片的融合信息是基于待驱动图片中人体头肩区域确定出的区域转换矩阵和人脸表情变化量确定，这里，区域转换矩阵用于将上述人体头肩区域中K个人脸关键点坐标信息从人体头肩区域转换至指定区域，下文会举例描述如何确定待驱动图片的融合信息，这里暂不赘述。

步骤102，在第n次传输时，n表示非首次之外的任一次，向解码端传输原始视频流中第n帧图片相对于上述待驱动图片的人脸相对运动信息。

在本实施例中，第n帧图片是指在第n次传输时原本要传的图片。由于待驱动图片与原始视频流中其它图片中同一人脸可能存在较大姿态差异，本实施例使用了人脸相对运动信息(也称第n帧图片相对于上述待驱动图片的人脸相对运动信息)。这里的人脸运动信息是指第n帧图片和待驱动图片中同一人脸的相对运动信息。人脸相对运动信息是基于第n帧图片的融合信息和待驱动图片的融合信息确定，下文会举例描述，这里暂不赘述。

至此，完成图1所示流程。

通过图1所示流程可以看出，在本实施例中，在视频会议中通过首次传输时传输待驱动图片、待驱动图片的融合信息，非首次传输比如第n次传输时传输原始视频流中第n帧图片相对于待驱动图片的人脸相对运动信息，无需像现有视频会议中每次传输都传输数据量非常大的关键帧，相比现有视频会议，实现了在低带宽网络中实现高质量的视频会议。

下面对待驱动图片的融合信息进行描述：

图2举例示出了如何获得待驱动图片的融合信息的结构。如图2所示，首先，使用基于通用目标检测算法(如：SSD、YoloV3、YoloV5等)改进的头肩检测算法获取待驱动图片中人体头肩区域。

之后，将该人体头肩区域输入至人脸3D关键点检测模型，得到K个人脸关键点坐标信息(记为K个人脸3D关键点坐标x_c，k)和区域转换矩阵。该区域转换矩阵用于预测K个人脸关键点坐标信息(即人脸3D关键点坐标x_c，k)，可称为雅克比矩阵w_c，k。在本实施例中，人脸3D关键点检测模型不同于常规的人脸3D关键点检测模型，本实施例中的人脸3D关键点检测模型还添加了卷积层(输出的维度比如为9*2*K)，用于输出上述雅克比矩阵w_c，k。

再后，再基于该人体头肩区域确定人脸表情变化量，比如，将人体头肩区域输入至人头姿态检测模型，获得人脸表情变化量(记为δ_s，k)。作为一个实施例，人头姿态检测模型在输出该人脸表情变化量(记为δ_s，k)时，还会进一步输出该人体头肩区域对应的人头旋转矩阵、平移向量。

在本实施例中，人头姿态检测模型不同于常规的人头姿态检测模型，本实施例中的人头姿态检测模型还添加了卷积层(输出的维度比如为3*K)，用于输出K个人脸关键点坐标信息(即K个人脸3D关键点坐标x_c，k)对应的表情变化量δ_s，k。

最后，根据待驱动图片中人体头肩区域中K个人脸关键点坐标信息(即K个人脸3D关键点坐标x_c，k)、上述的人头旋转矩阵、平移向量、以及人脸表情变化量，确定待驱动图片的融合信息。作为一个实施例，可通过下式确定待驱动图片的融合信息：

x_s，k＝R_sx_c，k+t_s+δ_s，k；

w_s，k＝R_sw_c，k；

其中，(x_s，k、w_s，k)表示待驱动图片的融合信息，x_s，k表示融合后的关键点坐标信息，w_s，k表示融合后的雅可比矩阵；R_s表示人体头肩区域对应的人头旋转矩阵，x_c，k表示人体头肩区域中K个人脸关键点坐标信息即上述的K个人脸3D关键点坐标x_c，k，t_s表示人体头肩区域对应的平移向量，δ_s，k表示人脸表情变化量，w_c，k表示区域转换矩阵。

类似图2所示的方式，第n帧图片的融合信息也可通过如下方式得到：

首先，使用基于通用目标检测算法(如：SSD、YoloV3、YoloV5等)改进的头肩检测算法获取第n帧图片中人体头肩区域。

其次，将该人体头肩区域输入至人脸3D关键点检测模型，得到K个人脸关键点坐标信息(记为K个人脸3D关键点坐标x_c，k)和区域转换矩阵。该区域转换矩阵用于预测K个人脸关键点坐标信息(即人脸3D关键点坐标x_c，k)，可称为雅克比矩阵w_c，k。在本实施例中，人脸3D关键点检测模型不同于常规的人脸3D关键点检测模型，本实施例中的人脸3D关键点检测模型还添加了卷积层(输出的维度比如为9*2*K)，用于输出上述雅克比矩阵w_c，k。

再后，再基于该人体头肩区域确定人脸表情变化量，比如，将人体头肩区域输入至人头姿态检测模型，获得该人体头肩区域对应的人头旋转矩阵R_dn、平移向量t_dn、以及人脸表情变化量δ_dn，k。在本实施例中，人头姿态检测模型不同于常规的人头姿态检测模型，本实施例中的人头姿态检测模型还添加了卷积层(输出的维度比如为3*K)，用于输出K个人脸关键点坐标信息(即K个人脸3D关键点坐标x_c，k)对应的表情变化量δ_dn，k。

最后，根据第n帧图片中人体头肩区域中K个人脸关键点坐标信息(即K个人脸3D关键点坐标x_c，k)、上述的人头旋转矩阵、平移向量、以及人脸表情变化量，确定待驱动图片的融合信息。作为一个实施例，可通过下式确定待驱动图片的融合信息：

x_dn，k＝R_dnx_c，k+t_dn+δ_dn，k；

w_dn，k＝R_dnw_c，k；

其中，(x_dn，k、w_dn，k)表示第n帧图片的融合信息，x_dn，k表示融合后的关键点坐标信息，w_dn，k表示融合后的雅可比矩阵；R_dn表示人体头肩区域对应的人头旋转矩阵，x_c，k表示人体头肩区域中K个人脸关键点坐标信息，t_dn表示人体头肩区域对应的平移向量，δ_dn，k表示人脸表情变化量。

下面描述第n帧图片相对于待驱动图片的人脸相对运动信息：

图3举例示出了如何获得第n帧图片相对于待驱动图片的人脸相对运动信息的结构。如图3所示，本实施例是基于第n帧图片的融合信息确定。具体地，第n帧图片相对于原始视频流中待驱动图片的人脸相对运动信息可通过下式表示：

x_mn，k＝x_dn，k-x_d1，k+x_s，k；

w_mn，k＝w_dn，k×w_d1，k ^-1×w_s，k＝w_dn，k×w_k，d1×w_s，k；

其中，(x_mn，k、w_mn，k)表示第n帧图片相对于待驱动图片的人脸相对运动信息，x_mn，k表示关键点的坐标信息，w_mn，k表示雅可比矩阵，x_dn，k、w_dn，k，x_s，k、w_s，k如上描述，这里不再赘述。

下面站在解码端对本申请实施例提供的方法进行描述：

参见图4，图4为本申请实施例提供的另一方法流程图。该流程应用于解码端，如图4所示，该流程可包括以下步骤：

步骤401，利用已获得的人体外观提取模型，对接收的待驱动图片进行下采样，得到待驱动图片的人体外观信息。

比如，如图5所示，将接收的待驱动图片输入至人体外观提取模型，由该人体外观提取模型对输入图片进行1次原分辨率下采样和2次2倍下采样，得到待驱动图片的人体外观信息(记为f_s)。可选地，这里的人体外观信息f_s是一个非结构化的信息，比如是一个二维向量。

步骤402，基于上述人体外观变换信息、已接收的第n帧图片相对于原始视频流中待驱动图片的人脸相对运动信息、以及待驱动图片融合信息，确定人体精细运动信息。

可选地，在本实施例中，本步骤402具体实现时有很多实现方式，比如：

先基于已接收的第n帧图片相对于原始视频流中待驱动图片的人脸相对运动信息、以及待驱动图片融合信息确定人体粗糙运动信息，作为一个实施例，人体粗糙运动信息可采用下式计算：

n_sn，k＝w_s，k×w_mn，k ^-1×(-x_mn，k)+x_s，k

其中，n_sn，k表示人体粗糙运动信息，x_s，k、w_s，k、x_mn，k、w_mn，k如上描述。

之后，再依据人体外观信息和人体粗糙运动信息，确定人体外观变换信息。可选地，在本实施例中，可按照Pytorch中grid_sample方式，对人体外观信息和人体粗糙运动信息进行计算，得到人体外观变换信息。

最后，对人体外观变换信息使用DenseMotionNetwork模型生成人体精细运动信息(记为m_sn，k)。可选地，这里的人体精细运动信息(记为m_sn，k)可为一个矩阵。

以上只是举例描述步骤402，并非具体限定。

步骤403，依据人体精细运动信息和人体外观信息，确定人体外观精细变换信息。

可选地，在本实施例中，本步骤403具体实现时有很多实现方式，比如，

将人体外观信息(记为f_s)与人体精细运动信息m_sn，k按照Pytorch中grid_sample方式进行计算，得到人体外观精细变换信息(记为f_sm)。可选地，这里的人体外观精细变换信息(记为f_sm)可为一个矩阵。

步骤404，使用人体外观合成模型对人体外观精细变换信息f_sm进行上采样，以得到合出图片，所述合成图片与第n帧图片的相似度满足设定相似度要求。

本实施例使用人体外观合成模型对人体外观精细变换信息f_sm进行上采样，以还原出对应的图片的方式有很多，本实施例并不具体限定，只要能最终合成图片即可。该合成图片是在上述待驱动图片的基础上再结合第n帧图片相对于原始视频流中待驱动图片的人脸相对运动信息得到的，其和原始视频流中的第n帧图片的相似度满足设定相似度要求(比如大于或等于设定相似度阈值)。通过合成图片，最终相当于合成了视频流，合成的视频流和原始视频流的相似度满足相似度要求，最终实现了通过网络只需要传输待驱动图片和各帧图片相对于原始视频流中待驱动图片的人脸相对运动信息，即可实现视频会议，实现了在低带宽网络中高质量的视频会议。

至此，完成图4所示流程。

通过图4所示流程，最终实现了在解码端基于待驱动图片、待驱动图片的融合信息、以及第n帧图片相对于原始视频流中待驱动图片的人脸相对运动信息，合成了图片进行显示，保证了视频会议的顺利进行。

下面对本申请实施例提供的系统进行描述：

本实施例提供了一种低带宽视频会议实现系统，该系统可包括：编码端和解码端。其中，编码端执行图1所示方法中的步骤，解码端，执行图4所示方法中的步骤，基于图1、图4所示方法中的步骤，图6举例使出了整体系统结构图。

本申请实施例还提供了一种低带宽视频会议实现装置，该装置应用于编码端，如图7所示，该装置可包括：

本申请实施例还提供了一种低带宽视频会议实现装置，该装置应用于解码端，如图8所示，该装置可包括：

对应地，本申请实施例还提供了一种电子设备的硬件结构图，具体如图6所示，该电子设备可以为上述实施负载均衡方法的硬件设备。如图9所示，该硬件结构包括：处理器和存储器。

其中，所述存储器，用于存储机器可执行指令；

所述处理器，用于读取并执行所述存储器存储的机器可执行指令，以实现如上所示的方法实施例。

作为一个实施例，存储器可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，存储器可以是：易失存储器、非易失性存储器或者类似的存储介质。具体地，存储器可以是RAM(Radom Access Memory，随机存取存储器)、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、DVD等)，或者类似的存储介质，或者它们的组合。

至此，完成图9所示电子设备的描述。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种低带宽视频会议实现方法，其特征在于，所述方法应用于编码端，包括：

2.根据权利要求1所述的方法，其特征在于，

所述待驱动图片的融合信息是基于所述待驱动图片中人体头肩区域确定出的区域转换矩阵和人脸表情变化量确定；

所述第n帧图片的融合信息是基于第n帧帧图片中人体头肩区域确定出的区域转换矩阵和人脸表情变化量确定；

其中，区域转换矩阵用于将人体头肩区域中K个人脸关键点坐标信息从人体头肩区域转换至指定区域。

3.根据权利要求2所述的方法，其特征在于，所述区域转换矩阵通过雅可比矩阵表示。

4.根据权利要求2所述的方法，其特征在于，所述人脸表情变化量通过以下方式确定：

针对每一人体头肩区域，将该人体头肩区域输入至已训练出的人头姿态检测模型，得到该人体头肩区域对应的人脸表情变化量。

5.根据权利要求2至4任一所述的方法，其特征在于，所述待驱动图片的融合信息通过(x_s，k、w_s，k)表示，x_s，k表示待驱动图片的融合信息中的关键点坐标信息，w_s，k表示待驱动图片的融合信息中的区域转换矩阵，其中，x_s，k、w_s，k通过以下方式确定：x_s，k＝R_sx_c，k+t_s+δ_s，k；w_s，k＝R_sw_c，k；其中，R_s表示已获得的人体头肩区域对应的人头旋转矩阵，x_c，k表示人体头肩区域中K个人脸关键点坐标信息，t_s表示已获得的人体头肩区域对应的平移向量，δ_s，k表示人脸表情变化量，w_c，k表示区域转换矩阵；

所述第n帧图片的融合信息通过(x_dn，k、w_dn，k)表示，x_dn，k表示第n帧图片的融合信息中的关键点坐标信息，W_dn，k表示第n帧图片的融合信息中的区域转换矩阵，x_dn，k、w_dn，k通过以下方式确定：x_dn，k＝R_dnx_c，k+t_dn+δ_dn，k；w_dn，k＝R_dnw_c，k；其中，R_dn表示已获得的人体头肩区域对应的人头旋转矩阵，x_c，k表示人体头肩区域中K个人脸关键点坐标信息，t_dn表示已获得的人体头肩区域对应的平移向量，δ_dn，k表示人脸表情变化量。

6.根据权利要求2至4任一所述的方法，其特征在于，第n帧图片相对于原始视频流中待驱动图片的人脸相对运动信息通过(x_mn，k、w_mn，k)表示，其中，x_mn，k、w_mn，k通过下式确定：

x_mn，k＝x_dn，k-x_d1，k+x_s，k；

w_mn，k＝w_dn，k×w_d1，k ^-1×w_s，k＝w_dn，k×w_k，d1×w_s，k；

其中，x_dn，k表示第n帧图片的融合信息中的关键点坐标信息，x_s，k表示待驱动图片的融合信息中的关键点坐标信息，w_dn，k表示第n帧图片的融合信息中的区域变换矩阵，w_s，k表示待驱动图片的融合信息中的区域变换矩阵。

7.一种低带宽视频会议实现方法，其特征在于，所述方法应用于解码端，包括：

8.根据权利要求7所述的方法，其特征在于，所述基于所述人体外观变换信息、已接收的第n帧图片相对于原始视频流中待驱动图片的人脸相对运动信息、以及待驱动图片融合信息，确定人体精细运动信息包括：

基于已接收的第n帧图片相对于原始视频流中待驱动图片的人脸相对运动信息、以及待驱动图片融合信息确定人体粗糙运动信息；

依据所述人体外观信息和所述人体粗糙运动信息，确定人体外观变换信息；

依据所述人体外观变换信息并使用已获得的DenseMotionNetwork模型生成人体精细运动信息。

9.根据权利要求8所述的方法，其特征在于，所述基于已接收的第n帧图片相对于原始视频流中待驱动图片的人脸相对运动信息、以及待驱动图片融合信息确定人体粗糙运动信息包括：

通过下式确定人体粗糙运动信息：

n_sn，k＝w_s，k×w_mn，k ^-1×(-x_mn，k)+x_s，k；

n_sn，k表示人体粗糙运动信息，x_s，k、w_s，k表示待驱动图片融合信息，x_mn，k、w_mn，k表示第n帧图片相对于原始视频流中待驱动图片的人脸相对运动信息。

10.一种低带宽视频会议实现系统，其特征在于，所述系统包括：编码端和解码端；

其中，编码端执行权利要求1至6任一方法中的步骤；

解码端，执行权利要求7至9任一方法中的步骤。

11.一种低带宽视频会议实现装置，其特征在于，所述装置应用于编码端，包括：

提取单元，用于从原始视频流中选择的待驱动图片、以及所述待驱动图片的融合信息、以及，原始视频流中第n帧图片相对于所述待驱动图片的人脸相对运动信息，第n帧图片是指所述原始视频流中除所述待驱动图片之外的任一图片；

12.一种低带宽视频会议实现装置，其特征在于，所述装置应用于解码端，包括：

合成单元，用于使用人体外观合成模型对人体外观精细变换信息进行上采样，还原出对应的图片。

13.一种电子设备，其特征在于，该电子设备包括：处理器和存储器；

其中，所述存储器，用于存储机器可执行指令；

所述处理器，用于读取并执行所述存储器存储的机器可执行指令，以实现如权利要求1至9任一方法。