CN116781912A

CN116781912A - 视频传输方法、装置、计算机设备及计算机可读存储介质

Info

Publication number: CN116781912A
Application number: CN202311038657.2A
Authority: CN
Inventors: 林诗琪; 张磊; 高熙和
Original assignee: Hanbo Semiconductor Shanghai Co ltd
Current assignee: Hanbo Semiconductor Shanghai Co ltd
Priority date: 2023-08-17
Filing date: 2023-08-17
Publication date: 2023-09-19
Anticipated expiration: 2043-08-17
Also published as: CN116781912B

Abstract

本公开提供一种视频传输方法、装置、计算机设备及计算机可读存储介质。实现的方案为：一种视频传输方法，使用视频传输模型，经由视频传输模型的第一部分对多个第一图像帧进行编码，以输出分别与多个第一图像帧对应的多个潜在向量；经由视频传输模型的第二部分对多个潜在向量进行解码以输出多个第二图像帧；在所述多个第一图像帧被编码前对所述多个第一图像帧进行人脸修复或在解码时基于所述多个潜在向量进行重建并修复以形成所述多个第二图像帧。使用视频传输模型取代传统的视频编解码，来满足视频会议和直播业务对带宽和画质的需求，在保持低带宽传输需求的同时输出具有高清晰度人脸的视频。

Description

视频传输方法、装置、计算机设备及计算机可读存储介质

技术领域

本公开涉及视频处理技术领域，尤其涉及视频编解码技术和深度学习领域，特别是涉及一种视频传输方法、装置、计算机设备及计算机可读存储介质。

背景技术

近年来，视频会议和直播业务迎来大幅的增长，满足了人们的工作和娱乐需求，已经成为当代人们的一种工作和生活方式。视频传输中有两个重要而亟需解决问题。第一，视频会议和直播业务产生了巨大的视频源流，如何对视频做高效的压缩并减少带宽需求是业界最关注的问题。第二，视频会议和直播业务的用户体验和人脸的质量息息相关，如何在满足带宽需求的同时提供高清视频，增强终端用户的使用或观看体验也是非常重要的技术挑战。

在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明，否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地，除非另有指明，否则此部分中提及的问题不应认为在任何现有技术中已被公认。

发明内容

本公开提供了一种视频传输方法、装置、计算机设备及计算机可读存储介质。

根据本公开的一方面，提供一种视频传输方法，使用视频传输模型，视频传输模型包括用于第一视频处理装置的第一部分和用于第二视频处理装置的第二部分。

视频传输方法包括：经由第一视频处理装置获取与待传输的视频对应的多个第一图像帧；经由视频传输模型的第一部分对多个第一图像帧进行编码，以输出分别与多个第一图像帧对应的多个潜在向量；经由第一视频处理装置对多个潜在向量进行打包以生成视频传输信息；经由第二视频处理装置接收视频传输信息以获取多个潜在向量；经由视频传输模型的第二部分对多个潜在向量进行解码以输出多个第二图像帧；以及经由第二视频处理装置至少基于多个第二图像帧生成传输后的视频，其中，经由所述视频传输模型的第一部分在所述多个第一图像帧被编码前对所述多个第一图像帧进行人脸修复或经由所述视频传输模型的第二部分在解码时基于所述多个潜在向量进行重建并修复以形成所述多个第二图像帧。

根据本公开的另一方面，提供一种视频传输装置，使用视频传输模型，视频传输模型包括用于第一视频处理装置的第一部分和用于第二视频处理装置的第二部分。

视频传输装置包括获取模块、编码模块、打包模块、接收模块、解码模块、视频生成模块和人脸修复模块，其中获取模块被配置为经由第一视频处理装置获取与待传输的视频对应的多个第一图像帧；编码模块被配置为经由视频传输模型的第一部分对多个第一图像帧进行编码以输出与多个第一图像帧对应的潜在向量；打包模块被配置为经由第一视频处理装置对多个第一图像帧对应的潜在向量进行打包以生成视频传输信息；接收模块被配置为经由第二视频处理装置接收视频传输信息并获取多个第一图像帧对应的潜在向量；解码模块被配置为经由视频传输模型的第二部分对多个第一图像帧对应的潜在向量进行解码以输出多个第二图像帧；视频生成模块被配置为经由第二视频处理装置至少基于多个第二图像帧生成传输后的视频；人脸修复模块，被配置为经由所述视频传输模型的第一部分在所述多个第一图像帧被编码前对所述多个第一图像帧进行人脸修复或经由所述视频传输模型的第二部分在解码时基于所述多个潜在向量进行重建并修复以形成所述多个第二图像帧。

根据本公开的另一方面，提供一种计算机设备，包括：至少一个处理器；以及存储器，其上存储有计算机程序，其中，计算机程序在被处理器执行时，使处理器执行本公开如上所提供的方法。

根据本公开的另一方面，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时，使处理器执行本公开如上所提供的方法。

根据本公开的实施例，本公开旨在使用视频传输模型取代传统的视频编解码，来满足视频会议和直播业务对带宽和画质的需求，在保持低带宽传输需求的同时输出具有高清晰度人脸的视频。将视频传输模型分成了多个部分，并将其分别部署在第一视频处理装置和第二视频处理装置上，利于视频传输模型产生的潜在向量代替传统的视频编码器获得的编码信息，可以减轻视频会议和直播业务的视频传输带宽压力。

根据在下文中所描述的实施例，本公开的这些和其它方面将是清楚明白的，并且将参考在下文中所描述的实施例而被阐明。

附图说明

附图示例性地示出了实施例并且构成说明书的一部分，与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的，并不限制权利要求的范围。在所有附图中，相同的附图标记指代类似但不一定相同的要素。

图1是图示出根据示例性实施例的可以在其中实施本文描述的各种方法的示例系统的示意图；

图2是图示出根据一个示例性实施例的视频传输方法的流程图；

图3是图示出根据示例性实施例的视频传输模型的示意图；

图4是图示出根据另一个示例性实施例的视频传输方法的流程图；

图5是图示出根据另一个示例性实施例的视频传输模型的示意图；

图6是图示出根据示例性实施例的人脸修复模型训练方法的流程图；

图7是图示出根据示例性实施例的视频传输装置的示意性框图；

图8是示出了可以被用来实施本文所描述的方法的计算机设备的示例配置。

具体实施方式

在本公开中，除非另有说明，否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系，这种术语只是用于将一个元件与另一元件区分开。在一些示例中，第一要素和第二要素可以指向该要素的同一实例，而在某些情况下，基于上下文的描述，它们也可以指代不同实例。

在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的，而并非旨在进行限制。除非上下文另外明确地表明，如果不特意限定要素的数量，则该要素可以是一个也可以是多个。此外，本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。

在相关技术中，视频编解码（Video Codec）可以分为编码器（Encoder）和解码器（Decoder）。其中编码器将视频帧进行压缩编码；解码器将压缩后的视频帧还原。当前的传统编码器，比如H.264，无法很好的解决视频会议和直播业务对带宽和画质的需求。低带宽意味着高压缩比，会导致视频画质的下降。反之，高画质要求低压缩比甚至无损压缩，将会产生更高的带宽要求。

基于此，本公开提供了一种视频传输模型，视频传输模型包括用于第一视频处理装置的第一部分和用于第二视频处理装置的第二部分。

视频传输模型的第一部分用于第一视频处理装置，经由视频传输模型的第一部分对多个第一图像帧进行编码，以输出分别与多个第一图像帧对应的多个潜在向量。其中多个第一图像帧来源于待传输的视频。

视频传输模型的第二部分用于第二视频处理装置，经由视频传输模型的第二部分对多个潜在向量进行解码以输出多个第二图像帧。其中多个第二图像帧可以用于生成传输后的视频。

本公开旨在使用视频传输模型取代传统的视频编解码（Video Codec），来满足视频会议和直播业务对带宽和画质的需求，在保持低带宽传输需求的同时输出具有高清晰度人脸的视频。将视频传输模型分成了多个部分，并将其分别部署在第一视频处理装置和第二视频处理装置上，利于视频传输模型产生的潜在向量代替传统的视频编码器获得的编码信息，可以减轻视频会议和直播业务的视频传输带宽压力。

下面结合附图详细描述本公开的示例性实施例。在详细描述根据本公开实施例的视频传输方法之前，首先描述可以在其中实施本方法的示例系统。

图1是图示出根据示例性实施例的可以在其中实施本文描述的各种方法的示例系统100的示意图。

参考图1，该系统100包括客户端设备110、120，服务器130、以及将客户端设备110、120与服务器130通信地耦合的网络140。

客户端设备110和120可以包括显示屏113和114和可经由显示屏113和114显示的客户端应用（APP）111和112。客户端应用111和112可以为运行前需要下载和安装的应用程序或者作为轻量化应用程序的小程序（Lite App）。在客户端应用111和112为运行前需要下载和安装的应用程序的情况下，客户端应用111和112可以被预先安装在客户端设备110和120上并被激活。在客户端应用111和112 为小程序的情况下，用户101和102可以通过在宿主应用中搜索客户端应用111和112（例如，通过客户端应用 111和112 的名称等）或扫描客户端应用111和112的图形码（例如，条形码、二维码等）等方式，在客户端设备110和120上直接运行客户端应用111和112，而无需安装客户端应用111和112。在一些实施例中，客户端设备110和120可以是任何类型的移动计算机设备，包括移动计算机、移动电话、可穿戴式计算机设备（例如智能手表、头戴式设备，包括智能眼镜，等）或其他类型的移动设备。在一些实施例中，客户端设备110和120可以替换地是固定式计算机设备，例如台式机、服务器计算机或其他类型的固定式计算机设备。

服务器130典型地为由互联网服务提供商（ISP）或互联网内容提供商（ICP）部署的服务器。服务器130可以代表单台服务器、多台服务器的集群、分布式系统、或者提供基础云服务（诸如云数据库、云计算、云存储、云通信）的云服务器。将理解的是，虽然图1中示出服务器130与仅两个客户端设备110和120通信，但是服务器130也可以同时为多个客户端设备提供后台服务。

网络140的示例包括局域网（LAN）、广域网（WAN）、个域网（PAN）、和/或诸如互联网之类的通信网络的组合。网络140可以是有线或无线网络。在一些实施例中，使用包括超文本标记语言（HTML）、可扩展标记语言（XML）等的技术和/或格式来处理通过网络140交换的数据。此外，还可以使用诸如安全套接字层（SSL）、传输层安全（TLS）、虚拟专用网络（VPN）、网际协议安全（IPsec）等加密技术来加密所有或者一些链路。在一些实施例中，还可以使用定制和/或专用数据通信技术来取代或者补充上述数据通信技术。

为了本公开实施例的目的，在图1的示例中，客户端应用111和112可以为视频会议或直播业务应用程序。与此相应，服务器130可以是与视频会议或直播业务应用程序一起使用的服务器。该服务器130可以将视频传输数据提供给至少两个客户端设备110和120，由其中一个客户端设备110和120中运行的客户端应用111和112提供视频传输服务至另一客户端设备110和120中运行的客户端应用111和112。

图2是图示出根据一个示例性实施例的视频传输方法200的流程图。

视频传输方法200包括：

S210，经由第一视频处理装置获取与待传输的视频对应的多个第一图像帧。

在示例中，待传输的视频可以为视频会议和直播业务的实时视频流。第一图像帧可以是组成待传输的视频的最小单位。

S220，经由视频传输模型的第一部分对多个第一图像帧进行编码，以输出分别与多个第一图像帧对应的多个潜在向量（Latent Vector）。

在步骤S220对多个第一图像帧进行编码前，方法200还包括步骤S211，经由视频传输模型的第一部分对多个第一图像帧进行人脸修复，能够将低精度的人脸图像修复并编码生成高质量的潜在向量，可以理解的是，此时视频传输模型的第一部分输入第一图像帧，输出的是与第一图像帧对应的经过人脸图像修复后的高质量潜在向量。

通过在视频传输模型中进行图片空间（Image Space）与潜在空间（Latent Space）的映射，可以将经过人脸修复后的的第一图像帧映射成用于表征经过人脸修复后的第一图像帧中数据特征的潜在向量。其中经过人脸修复后的第一图像帧的图像质量高于输入的第一图像帧的图像质量，其中图像质量可以为当图像的分辨率相同时，组成图像中各个特征的色块越大（同一色块中的像素数量越多），图像质量越差。

经过人脸修复后的第一图像帧中的数据特征可以包括以下几种：

几何特征：包括人脸的形状、大小、轮廓，以及脸部的各个特征（如眼睛、鼻子、嘴巴、脸颊等）的位置、大小和形状。纹理特征：纹理特征包括人脸的皮肤纹理、皱纹、痣点等。颜色特征：颜色特征包含皮肤颜色、眼睛颜色、发色等。人的面部动态表情可以极大改变脸部的几何和纹理特征，如眉毛的弯曲度，眼睛的开闭程度，嘴巴的张合等。可以理解的是，每一个第一图像帧中的数据特征的种类可以为以上几种中的一种或多种，每一个第一图像帧中的数据特征的数量也可以为一个或多个。利用这些特征，可以帮助人脸修复模型更准确地修复第一图像帧中的人脸图像部分。

S230，经由第一视频处理装置对多个潜在向量进行打包以生成视频传输信息。

在示例中，可以对待传输的视频的每一个第一图像帧进行修复并编码，以输出分别与每一个经过人脸修复后的第一图像帧对应的高质量的潜在向量。将这些高质量的潜在向量进行打包，可以形成用于表征待传输的视频的数据特征的潜在向量集合。

S240，经由第二视频处理装置接收视频传输信息以获取多个潜在向量。

在示例中，本实施例中的第一视频处理装置和/或第二视频处理装置可以在如图1所示的客户端设备110和120上实施。视频传输信息经过网络传输，自第一视频处理装置被传输到第二视频处理装置，第二视频处理装置接收该视频传输信息后，提取潜在向量以便于进行后续的解码操作。

S250，经由视频传输模型的第二部分对多个潜在向量进行解码以输出多个第二图像帧。

S260，经由第二视频处理装置至少基于多个第二图像帧生成传输后的视频。

本公开通过将视频传输模型分成两个部分，并将第一部分和第二部分分别部署在第一视频处理装置和第二视频处理装置上，可以利于以视频传输模型产生的潜在向量代替传统的视频编码器获得的编码信息，由此可以减轻视频会议和直播业务的视频传输带宽压力。同时，在多个第一图像帧被编码前，经由视频传输模型的第一部分对多个第一图像帧进行人脸修复，能够将低精度的人脸图像修复并编码生成高质量的潜在向量，可以理解的是，此时视频传输模型的第一部分输入第一图像帧，输出高质量的潜在向量。传输后，对该高质量的潜在向量解码即可获得高精度的第二视频帧，因此能提高输出视频的画质，进而在缩小了传输带宽需求的基础上，提供了高清视频的解决方案。

图3是图示出根据示例性实施例的视频传输模型300的示意图。如图2所示的视频传输方法200使用视频传输模型300，视频传输模型300包括用于第一视频处理装置310的第一部分312和用于第二视频处理装置320的第二部分322。

在示例中，视频传输模型300可以包括卷积神经网络（Convolutional NeuralNetworks, CNN）或者变形器（Transformer）网络。视频传输模型300的第一部分312可以为以上网络的特征提取部分，同时，视频传输模型的第一部分312也可以包括以上网络的特征融合部分，用于将高清晰度的特征融合进低清晰度的图片以生成高质量的潜在向量，也即视频传输模型300中的潜在向量313为高质量的潜在向量，可以理解的是，视频传输模型的第一部分312用于提取经过人脸修复后的第一图像帧311中的特征信息以得到潜在向量313，而视频传输模型300的第二部分322可以为以上网络的上采样部分，用于将提取的特征信息，也即潜在向量313恢复成第二图像帧323。网络传输部分可以采用图1中的网络140进行，潜在向量313通过网络传输部分自第一视频处理装置310被传输至第二视频处理装置320。潜在向量313可以在一个时段内被统一打包上传至网络140，潜在向量313也可以实时通过网络140进行传输，在此不做限定。

图4是图示出根据另一个示例性实施例的视频传输方法400的流程图。视频传输方法400使用视频传输模型，视频传输模型包括用于第一视频处理装置的第一部分和用于第二视频处理装置的第二部分。

在示例中，视频传输模型可以包括卷积神经网络（Convolutional NeuralNetworks, CNN）或者变形器（Transformer）网络。视频传输模型的第一部分可以为以上网络的特征提取部分，而视频传输模型的第二部分可以为以上网络的上采样部分，同时，视频传输模型的第二部分可以包括以上网络的特征融合部分。

视频传输方法400包括：

S410，经由第一视频处理装置获取与待传输的视频对应的多个第一图像帧。

S420，经由视频传输模型的第一部分对多个第一图像帧进行编码，以输出分别与多个第一图像帧对应的多个潜在向量（Latent Vector）。

通过在视频传输模型中进行图片空间（Image Space）与潜在空间（Latent Space）的映射，可以将输入的第一图像帧映射成用于表征第一图像帧中数据特征的潜在向量。

S430，经由第一视频处理装置对多个潜在向量进行打包以生成视频传输信息。

在示例中，可以对待传输的视频的每一个第一图像帧进行编码，以输出分别与每一个第一图像帧对应的潜在向量。将这些潜在向量进行打包，可以形成用于表征一个时间段内待传输的视频的数据特征的潜在向量的集合，视频传输信息包括该潜在向量的集合。

第一图像帧中的数据特征可以包括以下几种：

S440，经由第二视频处理装置接收视频传输信息以获取多个潜在向量。

S450，经由视频传输模型的第二部分对多个潜在向量进行重建并修复。

方法400还包括步骤S451，经由视频传输模型的第二部分获取的多个重建并修复后的潜在向量进行解码以形成所述多个第二图像帧。

S460，经由第二视频处理装置至少基于多个第二图像帧生成传输后的视频。

本公开通过将视频传输模型分成两个部分，并将第一部分和第二部分分别部署在第一视频处理装置和第二视频处理装置上，可以利于以视频传输模型产生的潜在向量代替传统的视频编码器获得的编码信息，由此可以减轻视频会议和直播业务的视频传输带宽压力。同时，在解码输出多个第二图像帧后，经由视频传输模型的第二部分在解码时基于所述多个潜在向量进行重建并修复以形成所述多个第二图像帧，能够将低精度的人脸图像对应的低质量的潜在编码修复为高精度的人脸图像，因此能提高输出视频的画质，进而在缩小了传输带宽需求的基础上，提供了高清视频的解决方案。类似于如图2所示的方法200在多个第一图像帧被编码前进行人脸修复的方案，本实施例的方法400在解码输出多个第二图像帧后，视频传输模型的第二部分也能对于低质量的潜在编码进行修复和重建，将高清晰度的特征融合进低清晰度的图片，从而提升最终的视频修复效果。

图5是图示出根据另一个示例性实施例的视频传输模型500的示意图。如图4所示的视频传输方法400使用视频传输模型500，视频传输模型500包括用于第一视频处理装置510的第一部分512和用于第二视频处理装置520的第二部分522。

在示例中，视频传输模型500可以包括卷积神经网络（Convolutional NeuralNetworks, CNN）或者变形器（Transformer）网络。视频传输模型500的第一部分512可以为以上网络的特征提取部分，用于提取第一图像帧511中的特征信息以得到潜在向量513，也即视频传输模型500中的潜在向量513为修复之前的低质量的潜在向量，而视频传输模型500的第二部分522可以为以上网络的上采样部分，用于将提取的特征信息，也即潜在向量513恢复成第二图像帧523。视频传输模型的第二部分522也可以包括以上网络的特征融合部分，用于将高清晰度的特征融合进低清晰度的图片以生成高质量的潜在向量。网络传输部分可以采用图1中的网络140进行，潜在向量513通过网络传输部分自第一视频处理装置510被传输至第二视频处理装置520。潜在向量513可以在一个时段内被统一打包上传至网络140，潜在向量513也可以实时通过网络140进行传输，在此不做限定。

根据一些实施例，经由视频传输模型的第一部分对多个第一图像帧进行编码可以包括对第一图像帧进行至少一次下采样操作。经由视频传输模型的第二部分对多个潜在向量进行解码可以包括对潜在向量进行至少一次上采样操作。

在示例中，下采样操作的次数可以与上采样操作的次数相同。

在示例中，下采样操作可以采用至少一层卷积层实现，卷积层包括具有一定步幅（Stride）的卷积核，卷积过程导致的图像变小是为了提取特征。也可以采用一定步幅（Stride）的池化层实现，池化下采样是为了降低特征的维度。示例性的，可以使用最大池化（Max-pooling），其计算简单而且能够更好的保留纹理特征。上采样操作可以采用插值或者反卷积（Transposed Conv）操作。

通过下采样操作，能够对第一图像帧进行数据压缩并提取更高层次的语义特征，由此可以减轻视频会议和直播业务的视频传输带宽压力。由于数据压缩下采样操作同时能加快模型的训练和推理速度，下采样能够捕捉到第一图像帧中的核心信息，排除一些不重要的细节，通过去除不需要的细节也能够降低模型过拟合的风险。通过多次下采样，可以从不同的尺度抽取特征，从而捕捉到人脸的多尺度信息，提高模型的表现力和稳健性。

通过上采样操作，能够帮助恢复图像的细节信息，为了恢复这部分丢失的空间信息，可以在模型的后半部分进行与下采样次数相同的上采样, 这样可以将较小的特征图恢复到原始的尺度，可以在提取深层语义特征的同时，保留了丰富的空间位置信息，从而达到更好的效果。

根据一些实施例，视频传输模型可以为训练好的人脸修复模型。

在示例中，人脸修复模型可以包括至少一次下采样操作和至少一次上采样操作。示例性的，人脸修复模型可以包括三个下采样卷积层和三个上采样卷积层，下采样卷积层用于对每层输入的图像（第一层的输入为第一图像帧）进行特征提取，第一图像帧经过三个下采样卷积层后图像的维度逐渐降低。上采样卷积层用于对每层输入的图像进行分辨率恢复，经过三个上采样卷积层后图像的维度逐渐增加。可以理解的是，下采样卷积层和上采样卷积层的数量并不固定，可以根据实际需要进行选择。

直接将训练好的人脸修复模型作为视频传输模型，能够只传输模型参数和潜在向量，而不是完整的视频，可以显著减少视频传输时所需的带宽。同时由于数据量的减少，可以大大提高数据传输速度，降低延迟，从而提高用户体验。进一步的，人脸修复模型可以实时修复视频中的人脸图像质量，提高视频的质量和清晰度。

图6是图示出根据示例性实施例的人脸修复模型训练方法600的流程图。

根据一些实施例，训练好的人脸修复模型基于生成式对抗网络被训练。

生成式对抗网络（GAN）包括生成器（Generator）和判别器（Discriminator），将生成式对抗网络用于训练人脸修复模型，能够基于生成器学习到高级人脸特征，使修复的人脸看起来更自然，具有高质量的视觉效果。由于判别器的存在，生成式对抗网络可以用大量的无标签数据进行训练，这使得模型可以从大量的人脸图片中抽取有用的特征，提高修复效果。一旦训练好，生成式对抗网络的生成器可以快速地生成修复图像，满足实时修复的需求。

如图6所示，人脸修复模型训练方法600可以包括：

S610，获取第一训练数据集，第一训练数据集包括第一人脸图像和第二人脸图像，其中，第一人脸图像的图像质量低于第二人脸图像的图像质量。其中可以理解的是，当图像的分辨率相同时，组成图像中各个特征的色块越大（同一色块中的像素数量越多），图像质量越差。

在示例中，第一人脸图像可以被认为是低清晰度的人脸图像，第二人脸图像可以被认为是高清晰度的人脸图像。

S620，基于第一人脸图像对待训练的人脸修复模型进行训练，以得到第三人脸图像。

S630，确定第三人脸图像与第二人脸图像是否具有一致性。

在示例中，可以基于人脸修复模型的损失函数，缺定人脸修复模型的输出图像（也即第三人脸图像）与监督图像（也即第二人脸图像）之间的差异。通过减小人脸修复模型输出图像与监督图像之间的差距，能够提高人脸修复的精确性和效率，改善人脸修复模型的修复效果。

S640，响应于确定第三人脸图像与第二人脸图像具有一致性，获得训练好的人脸修复模型。

通过训练能够使得人脸修复模型更好的区分低清晰度的人脸图像和高清晰度的人脸图像，并将高清晰度的人脸图像中的高级人脸特征融合到低清晰度的人脸图像中，保证生成的内容既符合人脸的基本结构，又能保持原有的个体特征，使得修复出的人脸不仅完整，而且逼真。

根据一些实施例，可以当在多个第一图像帧被编码前对多个第一图像帧进行人脸修复时，对传输模型的第一部分进行二次训练。

对传输模型的第一部分进行二次训练的步骤包括：

获取第二训练数据集，第二训练数据集包括第一人脸图像、第二人脸图像和第一潜在向量，第一潜在向量被配置用于表征第二人脸图像对应的人脸特征和/或与人脸特征有关的特征参数，也即高质量人脸图像对应的人脸特征和/或与所述人脸特征有关的特征参数。基于第一人脸图像对待训练的传输模型的第一部分进行训练，以得到第二潜在向量。确定第二潜在向量与第一潜在向量是否具有一致性；以及响应于确定第二潜在向量与第一潜在向量具有一致性，获得训练好的传输模型的第一部分。

作为一种可行的实施方式，基于训练好的传输模型的第一部分，对传输模型的第二部分进行微调。

根据一些实施例，当在解码时基于多个潜在向量进行重建并修复以形成多个第二图像帧时，对传输模型的第二部分进行二次训练。

对传输模型的第二部分进行二次训练的步骤包括：

获取第三训练数据集，第三训练数据集包括第一人脸图像、第二人脸图像和第三潜在向量，第三潜在向量被配置用于表征第一人脸图像对应的人脸特征和/或与所述人脸特征有关的特征参数，也即低质量人脸图像对应的人脸特征和/或与所述人脸特征有关的特征参数。基于第三潜在向量对待训练的传输模型的第二部分进行训练，以得到第四人脸图像；确定第四人脸图像与第二人脸图像是否具有一致性；以及响应于确定第四人脸图像与第二人脸图像具有一致性，获得训练好的传输模型的第二部分。

作为一种可行的实施方式，基于训练好的传输模型的第二部分，对传输模型的第一部分进行微调。

通过单独训练传输模型的第一部分或第二部分，针对传输前进行人脸修复的方案和传输后进行人脸修复的方案，能够使得传输模型更注重人脸修复的部分，进一步提高人脸修复的精确性和效率，改善人脸修复模型的修复效果。

根据一些实施例，第一人脸图像可以由第二人脸图像进行劣化处理得到。

示例性的，可以先获取真实的高清晰度人脸图像作为第二人脸图像，再将高清晰度人脸图像进行劣化处理，得到与高清晰度人脸图像对应的低清晰度人脸图像作为第一人脸图像，其中第一人脸图像可以作为用于训练人脸修复模型而输入到其中的输入图像，第二人脸图像可以作为人脸修复模型的监督图像。

示例性的，可以采用上下采样或高斯模糊等劣化处理来得到低清晰度人脸图像。使高清晰度人脸图像与低清晰度人脸图像相互对应，便于通过高清晰度人脸图像对修复后的低清晰度人脸图像进行监督，改善人脸修复模型的修复效果。可以理解的是，本公开对于对高清晰度人脸图像的质量如何进行劣化处理不做具体限定。

根据一些实施例，多个潜在向量中的每一者包括一维向量通过这种方式，我们可以将复杂的图像信息转换成一个向量表示，通过在潜在空间利用少量的数据表示某一类型的信息，能够使用更少的信息去表达数据的本质，从而极大的缩小了传输带宽需求。

根据一些实施例，输出多个潜在向量之后，可以经由第一视频处理装置对多个潜在向量进行无损压缩。

在示例中，潜在向量可以通过无损压缩比如霍夫曼编码（Huffman Coding）进行进一步的压缩。其思想是将频繁出现的固定长度序列映射成较短的二进制序列, 而将出现频率较低的固定长度序列映射成较长的二进制序列。

通过对潜在向量进行进一步的压缩，能够使得其占用更少的带宽，同时进一步缩短数据传输的时间。

根据一些实施例，视频传输方法（如图2所示的方法200或如图4所示的方法400）还可以包括：经由第一视频处理装置获取与待传输的视频对应的语音信息；其中，经由第二视频处理装置至少基于多个第二图像帧生成传输后的视频（如图2所示的步骤S260或如图4所示的步骤S460）可以包括：获取语音信息；以及基于多个第二图像帧和语音信息生成传输后的视频。

作为一种实施方式，第一视频处理装置可以将与待传输的视频对应的语音信息与多个第一图像帧对应的潜在编码一同打包形成视频传输信息。第二视频处理装置可以接收视频传输信息，并经由该视频传输信息得到语音信息。当得到修复后的第二图像帧后，将多个第二图像帧与语音信息结合，得到最终的高清视频流。

作为一种可选的实施方式，与待传输的视频对应的语音信息也可以单独传输给第二视频处理装置，当得到修复后的第二图像帧后，可以将多个第二图像帧与语音信息结合，得到最终的高清视频流。

将图像帧和语音信息分开，一方面利于视频传输模型对图像帧进行特征提取和修复，另一方面，音频和图像能够有不同的压缩处理，可以针对每一种类型的数据，根据实际使用场景的需要进行不同程度的压缩，从而在保证视频质量的同时尽可能降低传输带宽的需求。

图7是图示出根据示例性实施例的视频传输装置700的示意性框图。

本公开还提供了一种视频传输装置700，使用视频传输模型，视频传输模型包括用于第一视频处理装置的第一部分和用于第二视频处理装置的第二部分。

视频传输模型可以包括卷积神经网络（Convolutional Neural Networks, CNN）或者变形器（Transformer）网络。视频传输模型的第一部分可以为以上网络的特征提取部分，而视频传输模型的第二部分可以为以上网络的上采样部分。

视频传输装置700包括：获取模块701、编码模块702、打包模块703、接收模块704、解码模块705、视频生成模块706和人脸修复模块707。

获取模块701，被配置为经由第一视频处理装置获取与待传输的视频对应的多个第一图像帧。在示例中，待传输的视频可以为视频会议和直播业务的实时视频流。第一图像帧是组成视频的最小单位。

编码模块702，被配置为经由视频传输模型的第一部分对多个第一图像帧进行编码以输出与多个第一图像帧对应的潜在向量。

通过视频传输模型中行图片空间（Image Space）与潜在空间（Latent Space）的映射，可以将输入的第一图像帧映射到用于表征第一图像帧中数据特征的潜在向量。

第一图像帧中的数据特征可以包括以下几种：

打包模块703，被配置为经由第一视频处理装置对多个第一图像帧对应的潜在向量进行打包以生成视频传输信息。

在示例中，可以对待传输的视频的每一帧第一图像帧进行编码，以输出分别与每一帧第一图像帧对应的潜在向量，将这些潜在向量进行打包，可以形成用于表征待传输的视频的数据特征的潜在向量集合。

接收模块704，被配置为经由第二视频处理装置接收视频传输信息并获取多个第一图像帧对应的潜在向量。

在示例中，本实施例中的第一视频处理装置和/或第二视频处理装置可以在如图1所示的客户端设备110和120上实施。视频传输信息经过网络传输，自第一视频处理装置被传输到第二视频处理装置上，第二视频处理装置接受该视频传输信息后，提取潜在向量以便于进行后续的解码操作。

解码模块705，被配置为经由视频传输模型的第二部分对多个第一图像帧对应的潜在向量进行解码以输出多个第二图像帧。

视频生成模块706，被配置为经由第二视频处理装置至少基于多个第二图像帧生成传输后的视频。

人脸修复模块707，被配置为经由视频传输模型的第一部分在多个第一图像帧被编码前对多个第一图像帧进行人脸修复或经由视频传输模型的第二部分在解码时基于多个潜在向量进行重建并修复以形成多个第二图像帧。

本公开将视频传输模型分成了两个部分，并将第一部分和第二部分分别部署在第一视频处理装置和第二视频处理装置上，利于视频传输模型产生的潜在向量代替传统的视频编码器获得的编码信息，可以减轻视频会议和直播业务的视频传输带宽压力。同时在多个第一图像帧被编码前，经由视频传输模型的第一部分在多个第一图像帧被编码前对多个第一图像帧进行人脸修复或经由视频传输模型的第二部分在解码时基于多个潜在向量进行重建并修复以形成多个第二图像帧，能提高输出视频的画质，在缩小了传输带宽需求的基础上，提供了高清视频的解决方案。

根据本公开的另一方面，还提供一种计算机设备，包括：处理器；以及存储程序的存储器，程序包括指令，指令在由处理器执行时使处理器执行上述的方法。

根据本公开的另一方面，还提供一种存储程序的非暂态计算机可读存储介质，所述程序包括指令，所述指令在由计算机设备的处理器执行时，致使所述计算机设备执行上述的方法。

在下文中，结合图8描述这样的计算机设备、非暂态计算机可读存储介质和计算机程序产品的说明性示例。

图8示出了可以被用来实施本文所描述的方法的计算机设备800的示例配置。举例来说，图1中所示的服务器130和/或客户端设备110和120可以包括类似于计算机设备800的架构。上述视频处理装置也可以全部或至少部分地由计算机设备800或类似设备或系统实现。

计算机设备800可以是各种不同类型的设备。计算机设备800的示例包括但不限于：台式计算机、服务器计算机、笔记本电脑或上网本计算机、移动设备（例如，平板电脑、蜂窝或其他无线电话（例如，智能电话）、记事本计算机、移动台）、可穿戴设备（例如，眼镜、手表）、娱乐设备（例如，娱乐器具、通信地耦合到显示设备的机顶盒、游戏机）、电视或其他显示设备、汽车计算机等等。

计算机设备800可以包括能够诸如通过系统总线814或其他适当的连接彼此通信的至少一个处理器802、存储器804、（多个）通信接口806、显示设备808、其他输入/输出（I/O）设备810以及一个或更多大容量存储设备812。

处理器802可以是单个处理单元或多个处理单元，所有处理单元可以包括单个或多个计算单元或者多个核心。处理器802可以被实施成一个或更多微处理器、微型计算机、微控制器、数字信号处理器、中央处理单元、状态机、逻辑电路和/或基于操作指令来操纵信号的任何设备。除了其他能力之外，处理器802可以被配置成获取并且执行存储在存储器804、大容量存储设备812或者其他计算机可读介质中的计算机可读指令，诸如操作系统816的程序代码、应用程序818的程序代码、其他程序820的程序代码等。

存储器804和大容量存储设备812是用于存储指令的计算机可读存储介质的示例，指令由处理器802执行来实施前面所描述的各种功能。举例来说，存储器804一般可以包括易失性存储器和非易失性存储器二者（例如RAM、ROM等等）。此外，大容量存储设备812一般可以包括硬盘驱动器、固态驱动器、可移除介质、包括外部和可移除驱动器、存储器卡、闪存、软盘、光盘（例如CD、DVD）、存储阵列、网络附属存储、存储区域网等等。存储器804和大容量存储设备812在本文中都可以被统称为存储器或计算机可读存储介质，并且可以是能够把计算机可读、处理器可执行程序指令存储为计算机程序代码的非暂态介质，计算机程序代码可以由处理器802作为被配置成实施在本文的示例中所描述的操作和功能的特定机器来执行。

多个程序可以存储在大容量存储设备812上。这些程序包括操作系统816、一个或多个应用程序818、其他程序820和程序数据822，并且它们可以被加载到存储器804以供执行。这样的应用程序或程序模块的示例可以包括例如用于实现客户端应用111和112、方法200、方法400和/或本文描述的另外的实施例的计算机程序逻辑（例如，计算机程序代码或指令）。

虽然在图8中被图示成存储在计算机设备800的存储器804中，但是模块816、818、820和822或者其部分可以使用可由计算机设备800访问的任何形式的计算机可读介质来实施。如本文所使用的，“计算机可读介质”至少包括两种类型的计算机可读介质，也就是计算机可读存储介质和通信介质。

计算机可读存储介质包括通过用于存储信息的任何方法或技术实施的易失性和非易失性、可移除和不可移除介质，信息诸如是计算机可读指令、数据结构、程序模块或者其他数据。计算机可读存储介质包括而不限于RAM、ROM、EEPROM、闪存或其他存储器技术，CD-ROM、数字通用盘（DVD）、或其他光学存储装置，磁盒、磁带、磁盘存储装置或其他磁性存储设备，或者可以被用来存储信息以供计算机设备访问的任何其他非传送介质。与此相对，通信介质可以在诸如载波或其他传送机制之类的已调制数据信号中具体实现计算机可读指令、数据结构、程序模块或其他数据。本文所定义的计算机可读存储介质不包括通信介质。

一个或更多通信接口806用于诸如通过网络、直接连接等等与其他设备交换数据。这样的通信接口可以是以下各项中的一个或多个：任何类型的网络接口（例如，网络接口卡（NIC））、有线或无线（诸如IEEE 802.11无线LAN（WLAN））无线接口、全球微波接入互操作（Wi-MAX）接口、以太网接口、通用串行总线（USB）接口、蜂窝网络接口、Bluetooth^TM接口、近场通信（NFC）接口等。通信接口806可以促进在多种网络和协议类型内的通信，其中包括有线网络（例如LAN、电缆等等）和无线网络（例如WLAN、蜂窝、卫星等等）、因特网等等。通信接口806还可以提供与诸如存储阵列、网络附属存储、存储区域网等等中的外部存储装置（未示出）的通信。

在一些示例中，可以包括诸如监视器之类的显示设备808，以用于向用户显示信息和图像。其他I/O设备810可以是接收来自用户的各种输入并且向用户提供各种输出的设备，并且可以包括触摸输入设备、手势输入设备、摄影机、键盘、遥控器、鼠标、打印机、音频输入/输出设备等等。

本文描述的技术可以由计算机设备800的这些各种配置来支持，并且不限于本文所描述的技术的具体示例。例如，该功能还可以通过使用分布式系统在“云”上全部或部分地实现。云包括和/或代表用于资源的平台。平台抽象云的硬件（例如，服务器）和软件资源的底层功能。资源可以包括在远离计算机设备800的服务器上执行计算处理时可以使用的应用和/或数据。资源还可以包括通过因特网和/或通过诸如蜂窝或Wi-Fi网络的订户网络提供的服务。平台可以抽象资源和功能以将计算机设备800与其他计算机设备连接。因此，本文描述的功能的实现可以分布在整个云内。例如，功能可以部分地在计算机设备800上以及部分地通过抽象云的功能的平台来实现。

虽然已经参照附图描述了本公开的实施例或示例，但应理解，上述的方法、系统和设备仅仅是示例性的实施例或示例，本发明的范围并不由这些实施例或示例限制，而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外，可以通过不同于本公开中描述的次序来执行各步骤。进一步地，可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进，在此描述的很多要素可以由本公开之后出现的等同要素进行替换。

Claims

1.一种视频传输方法，使用视频传输模型，所述视频传输模型包括用于第一视频处理装置的第一部分和用于第二视频处理装置的第二部分；

所述方法包括：

经由所述第一视频处理装置获取与待传输的视频对应的多个第一图像帧；

经由所述视频传输模型的第一部分对所述多个第一图像帧进行编码，以输出分别与所述多个第一图像帧对应的多个潜在向量；

经由所述第一视频处理装置对所述多个潜在向量进行打包以生成视频传输信息；

经由所述第二视频处理装置接收所述视频传输信息以获取所述多个潜在向量；

经由所述视频传输模型的第二部分对所述多个潜在向量进行解码以输出多个第二图像帧；以及

经由所述第二视频处理装置至少基于所述多个第二图像帧生成传输后的视频，其中，

经由所述视频传输模型的第一部分在所述多个第一图像帧被编码前对所述多个第一图像帧进行人脸修复或经由所述视频传输模型的第二部分在解码时基于所述多个潜在向量进行重建并修复以形成所述多个第二图像帧。

2.根据权利要求1所述的方法，其中，

所述视频传输模型为训练好的人脸修复模型。

3.根据权利要求2所述的方法，其中，

所述训练好的人脸修复模型是基于生成式对抗网络被训练的。

4.根据权利要求3所述的方法，其中，所述训练包括：

获取第一训练数据集，所述第一训练数据集包括第一人脸图像和第二人脸图像，其中，所述第一人脸图像的图像质量低于所述第二人脸图像的图像质量；

基于所述第一人脸图像对待训练的人脸修复模型进行训练，以得到第三人脸图像；

确定所述第三人脸图像与所述第二人脸图像是否具有一致性；以及

响应于确定所述第三人脸图像与所述第二人脸图像具有一致性，获得所述训练好的人脸修复模型。

5.根据权利要求4所述的方法，其中，

当在所述多个第一图像帧被编码前对所述多个第一图像帧进行人脸修复时，

对所述传输模型的第一部分进行二次训练。

6.根据权利要求5所述的方法，其中，对所述传输模型的第一部分进行二次训练的步骤包括：

获取第二训练数据集，所述第二训练数据集包括所述第一人脸图像、所述第二人脸图像和第一潜在向量，所述第一潜在向量被配置用于表征所述第二人脸图像对应的人脸特征和/或与所述人脸特征有关的特征参数；

基于所述第一人脸图像对待训练的传输模型的第一部分进行训练，以得到第二潜在向量；

确定所述第二潜在向量与所述第一潜在向量是否具有一致性；以及

响应于确定所述第二潜在向量与所述第一潜在向量具有一致性，获得训练好的传输模型的第一部分。

7.根据权利要求6所述的方法，其中，

基于训练好的传输模型的第一部分，对所述传输模型的第二部分进行微调。

8.根据权利要求4所述的方法，其中，

当在解码时基于所述多个潜在向量进行重建并修复以形成所述多个第二图像帧时，

对所述传输模型的第二部分进行二次训练。

9.根据权利要求8所述的方法，其中，对所述传输模型的第二部分进行二次训练的步骤包括：

获取第三训练数据集，所述第三训练数据集包括所述第一人脸图像、所述第二人脸图像和第三潜在向量，所述第三潜在向量被配置用于表征所述第一人脸图像对应的人脸特征和/或与所述人脸特征有关的特征参数；

基于所述第三潜在向量对待训练的传输模型的第二部分进行训练，以得到第四人脸图像；

确定所述第四人脸图像与所述第二人脸图像是否具有一致性；以及

响应于确定所述第四人脸图像与所述第二人脸图像具有一致性，获得训练好的传输模型的第二部分。

10.根据权利要求9所述的方法，其中，

基于训练好的传输模型的第二部分，对所述传输模型的第一部分进行微调。

11.根据权利要求4所述的方法，其中，

所述第一人脸图像由所述第二人脸图像进行劣化处理得到。

12.根据权利要求1所述的方法，还包括：输出所述多个潜在向量之后，经由所述第一视频处理装置对所述多个潜在向量进行无损压缩。

13.根据权利要求1所述的方法，还包括：

经由所述第一视频处理装置获取与所述待传输的视频对应的语音信息；

其中，所述经由所述第二视频处理装置至少基于所述多个第二图像帧生成传输后的视频，包括：

获取所述语音信息；以及

基于所述多个第二图像帧和所述语音信息生成所述传输后的视频。

14.一种视频传输装置，使用视频传输模型，所述视频传输模型包括用于第一视频处理装置的第一部分和用于第二视频处理装置的第二部分；

所述装置包括：

获取模块，被配置为经由所述第一视频处理装置获取与待传输的视频对应的多个第一图像帧；

编码模块，被配置为经由所述视频传输模型的第一部分对所述多个第一图像帧进行编码以输出与所述多个第一图像帧对应的潜在向量；

打包模块，被配置为经由所述第一视频处理装置对所述多个第一图像帧对应的潜在向量进行打包以生成视频传输信息；

接收模块，被配置为经由所述第二视频处理装置接收所述视频传输信息并获取所述多个第一图像帧对应的潜在向量；解码模块，被配置为经由所述视频传输模型的第二部分对所述多个第一图像帧对应的潜在向量进行解码以输出多个第二图像帧；以及

视频生成模块，被配置为经由所述第二视频处理装置至少基于所述多个第二图像帧生成传输后的视频；其中，还包括:

人脸修复模块，被配置为经由所述视频传输模型的第一部分在所述多个第一图像帧被编码前对所述多个第一图像帧进行人脸修复或经由所述视频传输模型的第二部分在解码时基于所述多个潜在向量进行重建并修复以形成所述多个第二图像帧。

15.一种计算机设备，包括：

至少一个处理器；以及

存储器，其上存储有计算机程序，

其中，所述计算机程序在被所述处理器执行时，使所述处理器执行权利要求1-13中任一项所述方法。

16.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，使所述处理器执行权利要求1-13中任一项所述方法。