CN115298710A

CN115298710A - 基于人脸复原的视频会议框架

Info

Publication number: CN115298710A
Application number: CN202180021551.4A
Authority: CN
Inventors: 蒋薇; 王炜; 刘杉
Original assignee: Tencent America LLC
Current assignee: Tencent America LLC
Priority date: 2021-01-06
Filing date: 2021-10-01
Publication date: 2022-11-04
Also published as: KR20220123101A; US11659193B2; WO2022150078A1; US20220217371A1; EP4085375A4; JP2023518307A; EP4085375A1

Abstract

包括一种包括计算机代码的方法和装置，所述计算机代码配置为使得一个或多个处理器执行以下操作：获取视频数据；从所述视频数据的至少一帧中检测至少一个人脸；从所述视频数据的所述至少一帧中确定所述至少一个人脸的人脸界标特征集合；以及至少部分地由神经网络基于确定的所述人脸界标特征集合对所述视频数据进行编码。

Description

基于人脸复原的视频会议框架

相关申请的交叉引用

本申请要求于2021年1月6日提交的美国临时申请63/134,522和于2021年9月30日提交的美国申请17/490,103的优先权，这些专利申请的全部内容通过引用并入本文中。

技术领域

本公开涉及与人脸复原(或人脸幻构)有关的视频会议，其可基于界标特征将真实细节从真实低质量(low-quality，LQ)人脸复原到高质量(high-quality，HW)人脸。

背景技术

国际标准化组织(ISO)/国际电工委员会(IEC)/电气和电子工程师协会(IEEE)正在积极地寻找基于AI的视频编码技术，尤其地关注基于深度神经网络(Deep NeuralNetwork，DNN)的技术。已经成立了各种特设小组来研究神经网络压缩(Neural NetworkCompression，NNR)、机器视频编码(Video Coding for Machine，VCM)、基于神经网络的视频编码(Neural Network-based Video Coding，NNVC)等。中国新一代人工智能产业技术创新战略联盟(AITISA)和数字音视频编解码技术标准工作组(AVS)还建立了相应的专家组来研究类似技术的标准化。

视频会议最近变得越来越重要，这通常需要低带宽传输来支持多个终端用户的联合会议。与通常的视频压缩任务相比，会议场景中的视频主要具有类似的内容，即，作为视频的主要对象并且占据整个场景的主要部分的一个或几个说话的人。不受约束的背景可以是任意复杂的、室内或室外，但这不太重要。最近，英伟达(Nvidia)公司的Maxine视频会议平台提出了基于人脸重演技术的基于AI的框架。从DNN中提取2D或3D人脸界标(例如鼻子、下巴、眼睛、比例、位置、皱纹、耳朵、几何形状等中的任何一个或多个)(在本文中，“人脸界标”和“人脸界标特征”可认为是可互换的术语)，以采集人类面部的姿态和情绪信息。将这种特征与以低频计算以采集人脸的形状和纹理的高质量特征一起发送到解码器侧，在解码器侧通过根据来自每个复原帧的姿态和表达信息传送形状和纹理来重建高质量人脸。这种框架大大减少了传输比特消耗，因为对于大多数帧，不是传输原始像素，而是仅传输与姿态和表达相关的界标特征。然而，基于重新设定的框架不能保证原始人脸外观的保真度，并且在许多情况下可能导致戏剧性的伪影。例如，该框架通常对遮挡、大运动等非常敏感，并且不能在实际的视频会议产品中稳健地使用。

因此，还存在技术缺陷，包括缺乏可压缩性、准确性，以及在其他方面与神经网络相关的信息的不必要丢弃。

发明内容

根据示例性实施例，包括一种方法和装置，所述方法和装置包括存储器和一个或多个处理器，所述存储器配置为存储计算机程序代码，所述一个或多个处理器配置为访问计算机程序代码并按照计算机程序代码的指示操作。所述计算机程序代码包括：获取代码，配置为使得所述至少一个处理器获取视频数据；检测代码，配置为使得所述至少一个处理器从所述视频数据的至少一帧中检测至少一个人脸；确定代码，配置为使得所述至少一个处理器从所述视频数据的所述至少一帧中确定所述至少一个人脸的人脸界标集合；以及编码代码，配置为使得所述至少一个处理器使得至少部分地由神经网络基于确定的所述人脸界标集合对所述视频数据进行编码。

根据示例性实施例，所述视频数据包括所述视频数据的已编码码流，并且确定所述人脸界标集合包括对至少一个下采样序列进行上采样，所述至少一个下采样序列是通过解压缩所述已编码码流而获取的。

根据示例性实施例，所述计算机程序代码还包括进一步确定代码，配置为使得所述至少一个处理器确定扩展人脸区域(Extended Face Area，EFA)，所述扩展人脸区域包括从在所述视频数据的所述至少一帧中检测到的所述至少一个人脸的区域扩展的边界区域；以及从所述EFA确定EFA特征集合；以及进一步编码代码，配置为使得所述至少一个处理器使得至少部分地由所述神经网络基于确定的所述人脸界标特征集合对所述视频数据进行编码。

根据示例性实施例，确定所述EFA和确定所述EFA特征集合包括对所述至少一个下采样序列进行上采样，所述至少一个下采样序列是通过解压缩所述已编码码流而获取的。

根据示例性实施例，确定所述EFA和确定所述EFA特征集合还包括：通过对抗生成网络重建所述EFA特征，所述EFA特征中的每一个分别对应于与所述人脸界标特征集合中的所述人脸界标特征中的一个。

根据示例性实施例，至少部分地由所述神经网络基于确定的所述人脸界标集合对所述视频数据进行编码还包括：通过聚合所述人脸界标集合、所述已重建的EFA特征和通过对所述至少一个下采样序列进行上采样而获取的上采样序列，至少部分地由所述神经网络基于确定的所述人脸界标特征集合对所述视频数据进行编码。

根据示例性实施例，来自所述视频数据的所述至少一帧的所述至少一个人脸被确定为是所述视频数据的所述至少一帧中的多个人脸中的最大的人脸。

根据示例性实施例，所述确定代码还配置为使得所述处理器：针对所述视频数据的所述至少一帧中的所述多个人脸中的每一个，从所述视频数据的所述至少一帧中确定除了所述至少一个人脸的所述人脸界标特征集合之外的多个人脸界标特征集合，以及所述编码代码还配置成使得所述处理器：至少部分地由所述神经网络基于确定的所述人脸界标集合和确定的所述多个人脸界标特征集合对所述视频数据进行编码。

附图说明

所公开的主题的其它特征、性质和各种优点将从以下详细描述和附图中更明显，其中：

图1是根据实施例的示意图的简化图示。

图2是根据实施例的示意图的简化图示。

图3是根据实施例的示意图的简化图示。

图4是根据实施例的示意图的简化图示。

图5是根据实施例的图的简化图示。

图6是根据实施例的图的简化图示。

图7是根据实施例的图的简化图示。

图8是根据实施例的图的简化图示。

图9A是根据实施例的图的简化图示。

图9B是根据实施例的图的简化图示。

图10是根据实施例的流程图的简化图示。

图11是根据实施例的流程图的简化图示。

图12是根据实施例的框图的简化图示。

图13是根据实施例的框图的简化图示。

图14是根据实施例的示意图的简化图示。

具体实施方式

下面讨论的所提出的特征可以单独使用或以任何顺序组合。此外，实施例可以由处理电路(例如，一个或多个处理器或一个或多个集成电路)来实现。在一个示例中，一个或多个处理器执行存储在非瞬时性计算机可读介质中的程序。

图1示出了根据本公开实施例的通信系统100的简化框图。通信系统100可以包括经由网络105互连的至少两个终端102和103。对于数据的单向传输，第一终端103可以在本地位置对视频数据进行编码，以便经由网络105传输到另一终端102。第二终端102可以从网络105接收另一终端的已编码的视频数据，解码已编码数据并显示恢复的视频数据。在媒体服务应用等中，单向数据传输是常见的。

图1示出了第二对终端101和104，用于支持例如在视频会议期间可能发生的已编码视频的双向传输。对于数据的双向传输，每个终端101和104可以对在本地位置采集的视频数据进行编码，以便经由网络105传输到另一个终端。每个终端101和104还可以接收由另一终端发送的已编码视频数据，可以解码已编码数据，并且可以在本地显示设备处显示恢复的视频数据。

在图1中，终端101、终端102、终端103和终端104可以被示为服务器、个人计算机和智能电话，但是本公开的原理不限于此。本公开的实施例适用于膝上型计算机、平板计算机、媒体播放器和/或专用视频会议设备。网络105表示在终端101、终端102、终端103和终端104之间传送已编码视频数据的任何数目的网络，包括例如有线和/或无线通信网络。通信网络105可以在电路交换和/或分组交换信道中交换数据。代表性网络包括电信网络、局域网、广域网和/或因特网。出于本申请的目的，除非在下文中有所解释，否则网络105的架构和拓扑对于本申请公开的操作来说可能是无关紧要的。

作为公开主题的应用的示例，图2示出了视频编码器和解码器在流式传输环境中的放置。所公开主题可同等地适用于其它支持视频的应用，包括例如视频会议、数字TV、在包括CD、DVD、存储棒等的数字介质上存储压缩视频等等。

流式传输系统可包括采集子系统203，该采集子系统203可包括视频源201，例如数字相机，以创建例如未压缩视频样本流213。相较于已编码的视频码流，该样本流213可以被强调为高数据量，并且可以由耦接到相机201的编码器202来处理。编码器202可以包括硬件、软件或其组合以允许实现或实施如下文更详细描述的所公开主题的各方面。已编码视频码流204可以存储在流式服务器205上以供将来使用，当与样本流相比时，已编码视频码流204可以被强调为较低的数据量。一个或多个流式传输客户端212和207可以访问流式传输服务器205以检索已编码视频码流204的副本208和副本206。客户端212可以包括视频解码器211，视频解码器211对已编码视频码流208的输入副本进行解码，并创建可以在显示器209或其他呈现设备(未描绘出)上呈现的输出视频样本流210。在一些流式传输系统中，可以根据某些视频编码/压缩标准对视频码流204、206和208进行编码。以上提到了这些标准的示例，并在此进一步描述。

图3可以是根据本发明实施例的视频解码器300的功能框图。

接收器302可以接收将由解码器300解码的一个或多个编解码器视频序列。在同一实施例或另一实施例中，一次接收一个已编码视频序列，其中每个已编码视频序列的解码独立于其它已编码视频序列。可以从信道301接收已编码视频序列，该信道301可以是通向存储已编码视频数据的存储设备的硬件/软件链路。接收器302可接收已编码的视频数据以及其它数据，例如，已编码音频数据和/或辅助数据流，这些数据可被转发到它们各自的使用实体(未描绘出)。接收器302可以将已编码视频序列与其它数据分开。为了防止网络抖动，缓冲存储器303可以耦接在接收器302和熵解码器/解析器304(以下称为“解析器”)之间。当接收器302从具有足够带宽和可控性的存储/转发设备或从等同步网络接收数据时，可能不需要缓冲器303，或者缓冲器303可以做得较小。为了在互联网等业务分组网络上使用，也可能需要缓冲器303，该缓冲器303可相对较大且可有利地具有自适应性大小。

视频解码器300可以包括解析器304以根据已编码视频序列重建符号313。这些符号的类别包括用于管理解码器300的操作的信息，以及用以控制显示器312等呈现设备的潜在信息，该显示器312不是解码器的整体部分，但可耦接到解码器。用于一个或多个呈现设备的控制信息可以是辅助增强信息(Supplemental Enhancement Information，SEI消息)或视频可用性信息(Video Usability Information，VUI)的参数集片段(未描绘出)。解析器304可对接收到的已编码视频序列进行解析/熵解码。已编码视频序列的编码可根据视频编码技术或标准进行，且可遵循本领域技术人员已知的各种原理，包括可变长度编码、霍夫曼编码(Huffman coding)、具有或不具有上下文灵敏度的算术编码等等。解析器304可基于对应于群组的至少一个参数，从已编码视频序列提取用于视频解码器中的像素的子群中的至少一个子群的子群参数集。子群可包括图片群组(Group of Pictures，GOP)、图片、图块、切片、宏块、编码单元(Coding Unit，CU)、块、变换单元(Transform Unit，TU)、预测单元(Prediction Unit，PU)等等。解析器还可从已编码视频序列提取信息，例如变换系数、量化器参数值、运动矢量等等。

解析器304可以对从缓冲器303接收的视频序列执行熵解码/解析操作，从而创建符号313。解析器304可以接收已编码数据，并选择性地解码特定符号313。此外，解析器304可以确定是否要将特定符号313提供给运动补偿预测单元306、缩放器/逆变换单元305、帧内预测单元307或环路滤波器311。

取决于已编码视频图片或一部分已编码视频图片的类型(例如，帧间图片和帧内图片、帧间块和帧内块)以及其它因素，符号313的重建可涉及多个不同单元。涉及哪些单元以及涉及方式可由解析器304从已编码视频序列解析的子群控制信息来控制。为了简洁起见，未描述解析器304与下文的多个单元之间的此类子群控制信息流。

除已经提及的功能块以外，解码器300可在概念上细分成如下文所描述的数个功能单元。在商业约束下运行的实际实施例中，这些单元中的许多单元彼此紧密交互并且可以至少部分地彼此集成。然而，出于描述所公开主题的目的，概念上细分成下文的功能单元是适当的。

第一单元是缩放器/逆变换单元305。缩放器/逆变换单元305从解析器304接收一个或多个符号313的量化变换系数以及控制信息，包括使用哪种变换方式、块大小、量化因子、量化缩放矩阵等。缩放器/逆变换单元305可输出包括样本值的块，该包括样本值的块可输入到聚合器310中。

缩放器/逆变换单元305的输出样本可属于帧内编码块，即，不使用来自先前重建的图片的预测性信息、但可使用来自当前图片的先前重建部分的预测性信息的块。此类预测性信息可由帧内预测单元307提供。在一些情况下，帧内预测单元307采用从(部分重建的)当前图片309提取的周围已重建信息生成大小和形状与正在重建的块相同的块。在一些情况下，聚合器310基于每个样本，将帧内预测单元307已经生成的预测信息添加到由缩放器/逆变换单元305提供的输出样本信息中。

在其它情况下，缩放器/逆变换单元305的输出样本可属于帧间编码和潜在运动补偿块。在这种情况下，运动补偿预测单元306可以访问参考图片存储器308以获取用于预测的样本。在根据属于块的符号313对提取的样本进行运动补偿之后，这些样本可以由聚合器310添加到缩放器/逆变换单元的输出(在这种情况下被称为残差样本或残差信号)，以便产生输出样本信息。运动补偿单元从参考存储器内的地址获取预测样本可受到运动矢量控制，且该运动矢量以符号313的形式而供运动补偿单元使用，该符号可以具有例如X、Y和参考图片分量。运动补偿还可以包括在使用子样本精确运动矢量时，从参考图片存储器提取的样本值的内插、运动矢量预测机制等。

聚合器310的输出样本可经受环路滤波器单元311中的各种环路滤波技术。视频压缩技术可以包括环路内滤波器技术，该环路内滤波器技术受控于包括在已编码视频码流中、并且作来自解析器304的符号313而用于环路滤波器单元311的参数。然而，视频压缩技术还可响应于在解码已编码图片或已编码视频序列的先前(按解码次序)部分期间获取的元信息，以及响应于先前重建且经过环路滤波的样本值。

环路滤波器单元311的输出可以是样本流，该样本流可以被输出到呈现设备312以及存储在参考图片存储器557中，以用于后续的帧间预测。

某些已编码图片一旦完全重建，就可用作参考图片以用于将来预测。举例来说，一旦对应于当前图片的已编码图片被完全重建，且已编码图片(通过例如解析器304)被识别为参考图片，则当前参考图片309可变为参考图片缓冲器308的一部分，且可在开始重建后续已编码图片之前重新分配新的当前图片存储器。

视频解码器300可根据例如ITU-T H.265标准中的预定视频压缩技术执行解码操作。在已编码视频序列遵循视频压缩技术或标准的语法以及视频压缩技术或标准中记录的配置文件的意义上，已编码视频序列可符合所使用的视频压缩技术或标准指定的语法。具体地说，配置文件可从视频压缩技术或标准中可用的所有工具中选择某些工具作为在该配置文件下可供使用的仅有工具。对于合规性，还要求已编码视频序列的复杂度处于视频压缩技术或标准的层级所限定的范围内。在一些情况下，层级限制最大图片大小、最大帧率、最大重建采样率(以例如每秒兆(mega)个样本为单位进行测量)、最大参考图片大小等。在一些情况下，由层级设定的限制可通过假想参考解码器(Hypothetical ReferenceDecoder，HRD)规范和在已编码视频序列中用信号表示的HRD缓冲器管理的元数据来进一步限定。

在一个实施例中，接收器302可连同已编码视频一起接收附加(冗余)数据。该附加数据可以被包括作为一个或多个已编码视频序列的一部分。该附加数据可由视频解码器300用以对数据进行适当解码和/或较准确地重建原始视频数据。附加数据可呈例如时间、空间或信噪比(signal noise ratio，SNR)增强层、冗余切片、冗余图片、前向纠错码等形式。

图4可以是根据本公开的实施例的视频编码器400的功能框图。

编码器400可以从视频源401(并非编码器的一部分)接收视频样本，视频源401可以采集将由编码器400编码的一个或多个视频图像。

视频源401可提供将由视频编码器303编码的呈数字视频样本流形式的源视频序列，该数字视频样本流可具有任何合适位深度(例如，8位、10位、12位……)、任何色彩空间(例如BT.601 Y CrCB、RGB……)和任何合适采样结构(例如Y CrCb 4:2:0、Y CrCb 4:4:4)。在媒体服务系统中，视频源401可以是存储先前准备的视频的存储设备。在视频会议系统中，视频源401可以是存储先前已准备的视频的存储设备。在视频会议系统中，视频源401可以是采集本地图像信息作为视频序列的相机。可将视频数据提供为多个单独的图片，当按顺序观看时，这些图片被赋予运动。图片自身可构建为空间像素阵列，其中取决于所用的采样结构、色彩空间等，每个像素可包括一个或多个样本。所属领域的技术人员可以很容易理解像素与样本之间的关系。下文侧重于描述样本。

根据实施例，编码器400可实时或在由应用所要求的任何其它时间约束下，将源视频序列的图片编码且压缩成已编码视频序列410。施行适当的编码速度是控制器402的一个功能。在一些实施例中，控制器控制如下文所描述的其它功能单元且在功能上耦接到所述其它功能单元。为了简洁起见，图中未描绘耦接。由控制器设置的参数可包括速率控制相关参数(图片跳过、量化器、率失真优化技术的λ值等)、图片大小、图片群组(group ofpictures，GOP)布局、最大运动矢量搜索范围等。本领域技术人员可以容易地识别控制器402的其它功能，因为这些功能涉及针对特定系统设计优化的视频编码器400。

一些视频编码器以本领域技术人员容易识别为“编码环路”的方式进行操作。作为简单的描述，编码环路可以包括编码器402(“源编码器”)(负责基于待编码的输入图片和一个或多个参考图片创建符号)的编码部分，以及嵌入于编码器400中的(本地)解码器406，解码器406重建符号以用类似于(远程)解码器创建样本数据的方式创建样本数据(因为在视频压缩技术中，符号与已编码视频码流之间的任何压缩是无损的)。将重建的样本流输入到参考图片存储器405。由于符号流的解码产生与解码器位置(本地或远程)无关的位精确结果，因此参考图片缓冲器中的内容在本地编码器与远程编码器之间也是按比特位精确对应的。换句话说，编码器的预测部分“看到”的参考图片样本与解码器将在解码期间使用预测时所“看到”的样本值完全相同。这种参考图片同步性基本原理(以及在例如因信道误差而无法维持同步性的情况下产生的漂移)对于本领域技术人员是众所周知的。

“本地”解码器406的操作可与已在上文结合图3详细描述的“远程”解码器300的操作相同。然而，另外简要参考图4，当符号可用且熵编码器408和解析器304能够无损地将符号编码/解码为已编码视频序列时，包括信道301、接收器302、缓冲器303和解析器304在内的解码器300的熵解码部分，可能无法完全在本地解码器406中实施。

此时可以观察到，除存在于解码器中的解析/熵解码之外的任何解码器技术，也必定以基本上相同的功能形式存在于对应的编码器中。可简化编码器技术的描述，因为编码器技术与全面地描述的解码器技术互逆。仅在某些区域中需要更详细的描述，并且在下文提供。

作为操作的一部分，源编码器403可以执行运动补偿预测编码。参考来自视频序列中被指定为“参考帧”的一个或多个先前已编码帧，该运动补偿预测编码对输入帧进行预测性编码。以此方式，编码引擎407对输入帧的像素块与一个或多个参考帧的像素块之间的差异进行编码，该参考帧可被选作该输入帧的一个或多个预测参考。

本地视频解码器406可基于由源编码器403创建的符号，对可指定为参考帧的帧的已编码视频数据进行解码。编码引擎407的操作可有利地为有损过程。当已编码视频数据可在视频解码器(图4中未示出)处被解码时，重建的视频序列通常可以是带有一些误差的源视频序列的副本。本地视频解码器406副本解码过程，该解码过程可由视频解码器对参考帧执行，且可使重建的参考帧存储在参考图片高速缓存405中。以此方式，编码器400可在本地存储重建的参考帧的副本，该副本与将由远端视频解码器获取的重建参考帧具有共同内容(不存在传输误差)。

预测器404可对编码引擎407执行预测搜索。即，对于将要编码的新帧，预测器404可在参考图片存储器405中搜索可作为该新图片的适当预测参考的样本数据(作为候选参考像素块)或某些元数据，例如参考图片运动矢量、块形状等。预测器404可基于样本块逐像素块操作，以找到合适的预测参考。在一些情况下，如由预测器404获取的搜索结果所确定的那样，输入图片可具有从参考图片存储器405中存储的多个参考图片取得的预测参考。

控制器402可管理视频编码器403的编码操作，包括例如设置用于对视频数据进行编码的参数和子群参数。

可在熵编码器408中对所有上述功能单元的输出进行熵编码。熵编码器(645)根据例如霍夫曼编码、可变长度编码、算术编码等本领域技术人员已知的技术对各种功能单元生成的符号进行无损压缩，从而将该符号转换成已编码视频序列。

传输器409可缓冲由熵编码器408创建的一个或多个已编码视频序列，从而为通过通信信道411进行传输做准备，该通信信道可以是通向将存储已编码的视频数据的存储设备的硬件/软件链路。传输器409可将来自视频编码器403的已编码视频数据与要传输的其它数据合并，该其它数据例如是已编码音频数据和/或辅助数据流(未示出来源)。

控制器402可管理编码器400的操作。在编码期间，控制器405可以为每个已编码图片分配某一已编码图片类型，但这可能影响可应用于相应的图片的编码技术。例如，通常可将图片分配为以下任一种图片类型：

帧内图片(I图片)，其可以是不将序列中的任何其它图片用作预测源就可被编码和解码的图片。一些视频编解码器容许不同类型的帧内图片，包括例如独立解码器刷新(Independent Decoder Refresh，“IDR”)图片。所属领域的技术人员了解I图片的变体及其相应的应用和特征。

预测性图片(P图片)，其可以是可使用帧内预测或帧间预测进行编码和解码的图片，该帧内预测或帧间预测使用至多一个运动矢量和参考索引来预测每个块的样本值。

双向预测性图片(B图片)，其可以是可使用帧内预测或帧间预测进行编码和解码的图片，该帧内预测或帧间预测使用至多两个运动矢量和参考索引来预测每个块的样本值。类似地，多个预测性图片可使用多于两个参考图片和相关联元数据以用于重建单个块。

源图片通常可在空间上细分成多个样本块(例如，4×4、8×8、4×8或16×16个样本的块)，且逐块进行编码。这些块可参考其它(已编码)块进行预测编码，该其它块由应用于块的相应图片的编码分配来确定。举例来说，I图片的块可进行非预测编码，或该块可参考同一图片的已经编码的块来进行预测编码(空间预测或帧内预测)。P图片的像素块可参考一个先前编码的参考图片通过空间预测或通过时域预测进行预测编码。B图片的块可参考一个或两个先前编码的参考图片通过空间预测或通过时域预测进行预测编码。

视频编码器400可根据例如ITU-T H.265建议书的预定视频编码技术或标准执行编码操作。在操作中，视频编码器400可执行各种压缩操作，包括利用输入视频序列中的时间和空间冗余的预测编码操作。因此，已编码视频数据可符合所用视频编码技术或标准指定的语法。

在实施例中，传输器409可在传输已编码的视频时传输附加数据。源编码器403可将此类数据作为已编码视频序列的一部分。附加数据可包括时间/空间/SNR增强层、冗余图片和切片等其它形式的冗余数据、SEI消息、VUI参数集片段等。

图5示出了在高效视频编码(是High Efficiency Video Coding，HEVC)和联合探索模型(Joint Exploration Model，JEM)中使用的帧内预测模式。为了采集自然视频中呈现的任意边缘方向，方向帧内模式的数量从HEVC中使用的33个扩展到65个。在HEVC之上的JEM中的附加方向模式如图5中的虚线箭头所示，并且平面模式和DC模式保持相同。这些更密集的方向帧内预测模式适用于所有块大小以及亮度和色度帧内预测。如图5所示，由虚线箭头标识的、与奇数帧内预测模式索引相关联的方向帧内预测模式称为奇数帧内预测模式。由实线箭头标识的、与偶数帧内预测模式索引相关联的方向帧内预测模式称为偶数帧内预测模式。在本文中，如图5中实线或虚线箭头所示的方向帧内预测模式也称为角模式(angular mode)。

在JEM中，总共有67种帧内预测模式用于亮度帧内预测。为了对帧内模式进行编码，基于相邻块的帧内模式构建大小为6的最可能模式(most probable mode，MPM)列表。如果帧内模式不在MPM列表中，则通过信号通知一个标志以指示帧内模式是否属于所选模式。在JEM-3.0中，有16个所选模式，这16个所选模式按照每四个角模式来均匀地选择。在JVET-D0114和JVET-G0060中，衍生了16个辅MPM以替换均匀选择的模式。

图6示出了用于帧内方向模式的N个参考层(reference tiers)。其中包括块单元611、段A 601、段B 602、段C 603、段D 604、段E 605、段F 606、第一参考层610、第二参考层609、第三参考层608和第四参考层607。

在HEVC和JEM以及例如H.264/AVC等其他一些标准中，用于预测当前块的参考样本被限制在最近的参考线(行或列)上。在多参考线帧内预测的方法中，对于帧内方向模式，候选参考线(行或列)的数量从1(即最近的)增加到N，其中N是大于或等于1的整数。以4x4预测单元(PU)为例，图6示出了多线帧内方向预测方法的概念。帧内方向模式可以任意选择N个参考层之一来生成预测器。换言之，预测器P(x，y)是根据参考样本S1、S2、……SN之一生成的。通过信号通知标志以指示为帧内方向模式选择了哪个参考层。如果N设置为1，则帧内方向预测方法与JEM 2.0中的传统方法相同。在图6中，参考线610、609、608和607由六段601、602、603、604、605和606以及左上参考样本组成。在本文中，参考层也称为参考线。当前块单元内左上像素的坐标为(0，0)，第一条参考线中的左上像素的坐标为(-1，-1)。

在JEM中，对于亮度分量，在生成处理之前过滤用于帧内预测样本生成的相邻样本。该过滤由给定的帧内预测模式和变换块大小控制。如果帧内预测模式为DC或变换块大小等于4x4，则不过滤相邻样本。如果给定的帧内预测模式和垂直模式(或水平模式)之间的距离大于预定义的阈值，则启用过滤处理。对于相邻样本过滤，使用[1，2，1]过滤器和双线性过滤器。

位置相关帧内预测组合(Position Dependent Intra Prediction Combination，PDPC)方法是一种帧内预测方法，该方法调用未过滤的边界参考样本和HEVC风格的具有已过滤边界参考样本的帧内预测的组合。每个位于(x，y)的预测样本pred[x][y]的计算如下：

pred[x][y]＝(wL*R_-1,y+wT*R_x,-1+wTL*R_-1,-1+(64-wL-wT-wTL)*pred[x][y]+32＞＞6 (等式2-1)

其中R_x,-1，R_-1,y分别表示位于当前样本(x，y)顶部和左侧的未过滤参考样本，R_-1,-1表示位于当前块的左上角的未过滤参考样本。权重的计算如下：

wT＝32＞＞((y＜＜1)＞＞shift) (等式2-2)

wL＝32＞＞((x＜＜1)＞＞shift) (等式2-3)

wTL＝-(wL＞＞4)-(wT＞＞4) (等式2-4)

shift＝(log2(width)+log2(height)+2)＞＞2 (等式2-5)

图7示出了图700，针对一个4x4块内的(0，0)和(1，0)位置的DC模式PDPC权重(wL，wT，wTL)。如果PDPC应用于DC、平面、水平和垂直帧内模式，则不需要额外的边界滤波器，例如HEVC DC模式边界滤波器或水平/垂直模式边缘滤波器。图7示出了应用于右上对角线模式的PDPC的参考样本R_x,-1，R_-1,y和R_-1,-1的定义。预测样本pred(x’，y’)位于预测块内的(x’，y’)处。参考样品R_x,-1的坐标x由下式给出：x＝x’+y’+1，参考样品R_-1,y的坐标y类似地由下式给出：y＝x’+y’+1。

图8示出了局部光照补偿(Local Illumination Compensation，LIC)图800，局部光照补偿基于使用比例因子(scaling factor)a和偏移(offset)b的线性模型执行光照变化。可以针对帧间模式已编码的编码单元(CU)自适应地启用或禁用局部光照补偿。

当LIC应用于CU时，利用当前CU的相邻样本及当前CU的相邻样本对应的参考样本，采用最小二乘法(least square error method)推导参数a和b。更具体地，如图8所示，使用CU的子采样(2:1子采样)相邻样本和参考图像中的对应样本(其由当前CU或子CU的运动信息标识)。IC参数被导出并被分别应用于每个预测方向。

当在合并模式下编码CU时，则以类似于合并模式下的运动信息复制的方式从相邻块复制LIC标志；否则，针对CU，用信号通知LIC标志以指示LIC是否适用。

图9A示出了在HEVC中使用的帧内预测模式900。在HEVC中，共有35种帧内预测模式，其中模式10为水平模式，模式26为垂直模式，模式2、模式18和模式34为对角线模式。由三个最可能模式(MPM)和32个剩余模式通过信号通知帧内预测模式。

图9B示出了在通用视频编码(VVC)的实施例中，总共有87种帧内预测模式，其中模式18是水平模式，模式50是垂直模式，并且模式2、模式34和模式66是对角线模式。模式-1～-10和模式67～76称为宽角帧内预测(Wide-Angle Intra Prediction，WAIP)模式。

根据以下PDPC表达式，使用帧内预测模式(DC，平面，角)和参考样本的线性组合来预测位于位置(x，y)处的预测样本pred(x，y)：

pred(x,y)＝(wL×R-1,y+wT×Rx,-1–wTL×R-1,-1+(64–wL–wT+wTL)×pred(x,y)+32)>>6

其中，Rx,-1和R-1,y分别表示位于当前样本(x，y)顶部和左侧的参考样本，R-1,-1表示位于当前块的左上角的参考样本。

对于DC模式，对于具有宽度和高度这两个维度的块，权重的计算如下：

wT＝32>>((y<<1)>>nScale),wL＝32>>((x<<1)>>nScale),wTL＝(wL>>4)+(wT>>4)

其中，nScale＝(log2(width)–2+log2(height)–2+2)>>2，其中wT表示位于上方参考线且水平坐标相同的参考样本的权重因子，wL表示位于左侧参考线且垂直坐标相同的参考样本的权重因子，wTL表示当前块的左上方的参考样本的权重因子，nScale指定权重因子沿轴递减(wL从左到右递减或wT从上到下递减)的速度，即权重因子递减率，在当前设计中nScale沿x轴(从左到右)和y轴(从上到下)是相同的。其中32表示相邻样本的初始权重因子，初始权重因子也是分配给当前CB中的左上方样本的顶部(左侧或左上方)权重，且PDPC处理中相邻样本的权重因子应为等于或小于这个初始权重因子。

对于平面模式wTL＝0，而对于水平模式wTL＝wT，并且对于垂直模式wTL＝wL，PDPC权重只能通过加法(add)和移位(shift)来计算。可以使用等式2-1进一步计算出pred(x，y)的值。

这里所提出的方法可以单独使用或以任何顺序组合。此外，所述方法(或实施例)、编码器和解码器中的每一个可以由处理电路(例如，一个或多个处理器或一个或多个集成电路)实现。在一个示例中，一个或多个处理器执行存储在非瞬时性计算机可读介质中的程序。根据实施例，术语块可被解释为预测块、编码块或编码单元，即CU。

图10示出了示例性流程图1000，并且将进一步参考图12来描述图10，图12示出了根据示例性实施例的示例性框架的工作流1200。工作流1200包括诸如人脸检测和人脸界标提取模块122、空间-时间(Spatial-Temporally，ST)下采样模块123、界标特征压缩和传输模块126、EFA特征压缩和传输模块127、人脸细节重建模块130、EFA重建模块131、视频压缩和传输模块135、ST上采样模块137，以及融合模块139之类的模块，并且工作流1200还包括各种数据121、124、125、128、129、132、133、134、136、138和140。

在S101处，给定输入视频序列X＝x₁,x₂,…，例如数据121，人脸检测和人脸界标提取模块122首先在S102处从每个视频帧x_i中确定一个或多个有效人脸。在一个实施例中，仅检测最显著(例如，最大)的人脸，在另一实施例中，检测帧中满足条件(例如，具有超过阈值的足够大的尺寸)的所有人脸。在S103中，对于x_i中的第j个人脸，确定人脸界标集合并且相应地计算人脸界标特征f_l,i,j集合，人脸界标特征f_l,i,j集合将被解码器用于复原x_i中的第j个人脸。在S103处，将所有人脸的所有人脸界标特征F_l,i＝f_l,i,1,f_l,i,2,…放置在一起作为数据124，界标特征压缩和传输模块126对数据124进行编码和传输。在S105处，同时，对于x_i中的第j个人脸，可以通过扩展原始检测到的人脸的边界区域(边界为矩形、椭圆形或细粒分割边界)以包括附加的头发、身体部位或甚至背景来计算扩展人脸区域(EFA)。在S106和S107处，可以相应地计算EFA特征f_b,i,j集合，EFA特征集合将被解码器用于复原x_i中的第j个人脸的EFA。在S107处，将所有人脸的所有EFA特征F_b,i＝f_b,i,1,f_b,i,2,…放置在一起作为数据125，EFA压缩和传输模块127对数据125进行编码和传输。

根据示例性实施例，人脸检测和人脸界标提取模块122可以使用任何人脸检测器来定位每个视频帧x_i中的人脸区域，例如通过将人脸作为特殊对象类别或专门设计用于定位人脸的其他DNN架构来定位任何对象检测DNN。人脸检测和人脸界标提取模块122还可以使用任何人脸界标检测器来为每个检测到的人脸(例如，左眼/右眼、鼻子、嘴巴等周围的界标)定位预定的人脸界标集合。在一些实施例中，一个多任务DNN可用于同时定位人脸和相关联的界标。人脸界标特征f_l,i,j可以是由人脸界标检测器计算的中间潜在表示，人脸界标检测器被直接用于定位第j个人脸的界标。还可以应用附加的DNN来进一步处理中间潜在表示并计算人脸界标特征f_l,i,j。例如，我们可以将来自与人脸部分(例如，右眼)周围的各个界标相对应的特征图的信息聚集到关于该人脸部分的关节特征中。相似性，EFA特征f_b,i,j可以是由对应于第j个人脸的人脸检测器计算的中间潜在表示。附加DNN还可以用于基于中间潜在表示来计算f_b,i,j，例如，通过强调除了实际人脸区域之外的背景区域。关于人脸检测器、人脸界标检测器、人脸界标特征提取器或EFA特征提取器特征的方法或DNN架构，各种示例性实施例可以不受限制。

根据示例性实施例，界标特征压缩和传输模块126可以使用各种方法来有效地压缩人脸界标特征。在优选实施例中，使用基于码本的机制，针对每个人脸部分(例如，右眼)可以生成码本。然后，对于特定人脸的特定人脸部分(例如，当前帧中的当前人脸的右眼)，其人脸界标特征可以通过该码本中的码字的加权组合来表示。在这种情况下，码本被存储在解码器侧，并且可能仅需要将码字的权重系数传送到解码器侧以复原人脸界标特征。类似地，EFA特征压缩和传输模块127也可以使用各种方法来压缩EFA特征。在优选实施例中，还使用EFA码本，其中，特定EFA特征由EFA码字的加权组合来表示，并且随后可能仅需要传送码字的权重系数以复原EFA特征。

另一方面，输入视频序列X＝x₁,x₂,…，即数据121，由ST下采样模块123进行ST下采样为X′＝x′₁,x′₂,…。与X相比，X′可以在空间、时间、或空间和时间两者上被下采样。当X在空间上被下采样时，每个x_i和x′_i都具有相同的时间戳，并且例如通过传统的或基于DNN的内插，从具有降低的分辨率的x_i来计算x′_i。当X在时间上被下采样时，每个x′_i对应于在不同时间戳处的x_ki，其中k是下采样频率(从X的每k帧中采样出一帧以生成X′)。当X在空间和时间上都被下采样时，例如通过传统的或基于DNN的内插，从具有降低的分辨率的、不同时间戳处的x_ki计算每一个x′_i。然后，下采样序列X′＝x′₁,x′₂,…，即数据134，可以被视为原始HQ输入X＝x_1,x₂,…的LQ版本。然后，可以由视频压缩和传输模块135编码和传输X′＝x′₁,x′₂,…。根据示例性实施例，视频压缩和传输模块135可以使用任何视频压缩框架，例如HEVC、VVC、NNVC或端到端视频编码。

在解码器侧，如参照图11的流程图1100和图12的各个模块所述，首先，在S111处接收的已编码码流在S112处被解压缩，以获取已解码的下采样序列

即数据136，已解码的EFA特征

即数据129，以及已解码的人脸界标特征

即数据128。每个已解码的帧

对应于下采样的帧x′_i。每个已解码的EFA特征

对应于EFA特征F_b,i。每个已解码的界标特征

对应于界标特征F_l,i。在S113处，已解码的下采样序列

通过ST上采样模块137以生成上采样序列

即数据138。对应于编码器尺寸，该ST上采样模块执行空间采样、时间采样、或空间和时间采样，作为ST下采样模块123中的下采样处理的逆操作。当在编码器侧使用空间下采样时，在解码器侧使用空间上采样，其中，例如，通过传统的内插或基于DNN的超分辨率方法，将每个

上采样为在相同的时间戳处的

并且

将具有与x_i相同的分辨率。当在编码器侧使用时间下采样时，在解码器侧使用时间上采样，其中，每个

都是

并且例如通过使用传统运动内插或基于DNN的帧合成方法，基于

和

计算

与

之间的附加(k-1)帧。当在编码器侧同时使用空间和时间下采样时，在解码器侧使用空间和时间上采样，其中，通过使用传统内插或基于DNN的超分辨率方法通过空间上采样来从

计算出每个

并且通过使用传统运动内插或基于DNN的帧合成方法，基于

和

进一步生成

与

之间的附加帧。

在S114处，已解码的EFA特征

通过EFA重建模块131以计算已重建的EFA的序列

即数据133，每个

包含一个EFA集合，

为帧

中的第j个人脸的EFA。已解码的界标特征

即数据128通过人脸细节重建模块130以计算复原的人脸细节的序列

即数据132。每个

包含一个人脸细节表示集合，

对应于帧

中的第j个人脸。在优选实施例中，EFA重建模块131是由剩余块和卷积层的堆栈组成的DNN。人脸细节重建模块130是以对应于不同人脸部分的界标特征为条件的条件性对抗生成网络(Conditional Generative Adversarial Network，GAN)。为了计算针对时间戳i的

EFA重建模块131可以仅使用该时间戳的已解码EFA特征

或者使用几个相邻时间戳的EFA

(n，m是任意正整数)。类似地，为了计算针对时间戳i的

人脸细节重建模块130可以仅使用该时间戳的已解码的界标特征

或者使用几个相邻时间戳的EFA

此后，在S115处，通过融合模块139将已复原的人脸细节

已重建的EFA

和上采样序列

聚合在一起，以生成最终的已重建视频序列

即数据140。融合模块可以是小型DNN，其中，为了在时间戳i处生成

融合模块可以仅使用来自相同的时间戳的

和

或者使用来自几个相邻时间戳的

和

示例性实施例可以不包括对人脸细节重建模块130、EFA重建模块131和/或融合模块139的DNN架构的任何限制。

使用EFA特征的目的是改善扩展人脸区域(例如头发、身体部位等)的重建质量。在一些实施例中，取决于重建质量与计算和传输成本之间的权衡，与EFA相关的处理可以是可选的。因此，在图12中，这种可选的处理用虚线标记，例如元件125、元件127、元件129、元件131和元件133之间标记的虚线。

此外，根据示例性实施例，在所提出的需要被训练的框架中存在多个组件，并且将参照图13描述这种训练，图13示出了根据示例性实施例的示例性训练处理的工作流1300。工作流1300包括诸如人脸检测和人脸界标提取模块223、ST下采样模块236、界标特征噪声建模模块226、EFA特征噪声建模模块227、人脸细节重建模块230、EFA重建模块231、视频噪声建模模块235、ST上采样模块237、融合模块、计算对抗损失模块241、计算重建损失模块242、计算感知损失模块243之类的模块，并且工作流1300还包括各种数据221、224、225、229、228、232、233、236、238和240。

根据示例性实施例，在所提出的需要在部署之前被训练的框架中存在多个组件，包括人脸检测器、人脸界标检测器、人脸界标特征提取器和人脸检测和人脸界标提取模块122中的EFA特征提取器、EFA重建模块131和人脸细节重建模块130。可选地，如果使用基于学习的下采样或上采样方法，则还需要预先训练ST下采样123模块和ST上采样模块137。在一个优选实施例中，所有这些组件使用基于DNN的方法，并且需要训练这些DNN的权重参数。在其他实施例中，这些组件中的一些可以使用传统的基于学习的方法，例如传统的人脸界标检测器，并且需要训练相应的模型参数。首先需要单独预训练每个基于学习的组件、基于DNN的或传统的组件，然后通过本公开中描述的训练处理联合调整这些组件。

例如，图13给出了训练处理的优选实施例的总工作流1300。为了训练，我们使用视频噪声建模模块235代替实际视频压缩和传输模块135。这是因为实际视频压缩包括例如量化的不可微处理。视频噪声建模模块235将随机噪声添加到下采样序列X′＝x′₁,x′₂,…，以在训练处理中生成已解码的下采样序列

在最终测试阶段中模拟已解码的下采样序列的真实数据分布。因此，视频噪声建模模块235所使用的噪声模型通常取决于实践中使用的实际视频压缩方法。类似地，我们用EFA特征噪声建模模块227代替EFA特征压缩和传输模块127，在训练阶段，EFA特征噪声建模模块227添加噪声至F_b,1,F_b,2,…以生成已解码的EFA特征

从而模拟实践中的实际的已解码EFA特征的数据分布。此外，将界标特征压缩和传输模块126替换为界标特征噪声建模模块226，在训练阶段，界标特征噪声建模模块226将噪声添加至F_l,1,F_l,2,…以生成已解码的界标特征

在实践中模拟已解码的界标特征的真实分布。示例性实施例计算用于训练的以下损失函数。

在训练处理中计算几种类型的损失以对可学习组件进行学习。可以在计算重建损失模块242中计算失真损失

以测量原始训练序列和重建训练序列之间的差值，例如

其中

可以是x_i和

之间的平均绝对误差(Mean AbsoluteError，MAE)或结构相似性(Structural SIMilarity，SSIM)指数。重要性权重图还可用于强调重建人脸区域或人脸区域的不同部分的失真。此外，可以在计算感知损失模块中计算感知损失

例如

其中，特征提取DNN(例如，视觉几何小组(Visual Geometry Group,VGG)骨干网络)分别基于x_i和

计算特征表示。基于x_i和

计算的特征表示的差值(例如，MSE)被用作感知损失。可以由计算对抗损失模块241计算对抗损失

例如

以测量已重建的输入

看起来自然的程度。这通过将真x或已重建的

馈送到鉴别器(其通常是类似于ResNet的分类DNN)以对其是自然的还是重建的进行分类，并且可以使用分类误差(例如，交叉熵损失)作为

失真损失

感知损失

和对抗损失

可被加权组合为联合损失

其梯度可被计算以通过反向传播更新模型参数：

其中α和β是平衡不同损失项的重要性的超参数。

需要注意的是，可以在不同时间使用不同更新频率来更新不同的组件。在一些情况下，在新的训练数据可用时，仅在部署之后周期性地或频繁地更新一些组件。在一些情况下，在部署之后仅更新部分模型参数。本公开不对优化方法、模型更新的频率或待更新的模型参数的百分比进行任何限制。

这样，工作流1200和1300中的任何一个的示例性实施例表示用于视频会议中的视频压缩和传输的新的框架，其基于通过传输LQ帧和人脸特征来提高编码效率的人脸复原，用于空间、时间或空间-时间下采样帧的灵活和通用框架，用于不同DNN架构的灵活和通用框架，以及用于容纳具有任意背景的多个人脸的灵活和通用框架。

实施例进一步表示基于人脸复原(或人脸幻构)的视频会议框架，其将真实细节从真实低质量(LQ)人脸复原到高质量(HQ)人脸。代替在人脸重演方法中依赖容易出错的形状和纹理转移，我们基于LQ人脸和人脸界标特征来复原HQ人脸的细节。本文公开的示例性框架可以保证复原的人脸的稳健质量，这对于真实产品是关键的。例如，可以仅传输下采样帧和人脸特征以降低传输成本，并且可以基于下采样帧和人脸特征在解码器侧复原HQ帧。

上述技术可以使用计算机可读指令实现为计算机软件，并且物理地存储在一个或多个计算机可读介质中，或者通过具体配置的一个或多个硬件处理器实现。例如，图14示出了适于实现所公开的主题的某些实施例的计算机系统1400。

可以使用任何合适的机器代码或计算机语言对计算机软件进行编码，任何合适的机器代码或计算机语言可以经受汇编、编译、链接或类似的机制以创建包括指令的代码，该指令可以由一个或多个计算机中央处理单元(CPU)、图形处理单元(GPU)等直接执行或通过译码、微码等执行。

指令可以在各种类型的计算机或其组件上执行，例如包括个人计算机、平板计算机、服务器、智能电话、游戏设备、物联网设备等。

图14所示的计算机系统1400的组件本质上是示例性的，并且不旨在对实施本公开实施例的计算机软件的用途或功能的范围提出任何限制。组件的配置也不应被解释为具有与计算机系统1400的示例性实施例中所示的组件中的任何一个组件或组件的组合有关的任何依赖或要求。

计算机系统1400可以包括某些人机接口输入设备。此类人机接口输入设备可以响应于一个或多个人类用户通过例如下述的输入：触觉输入(例如，击键、划动，数据手套移动)、音频输入(例如，语音、拍手)、视觉输入(例如，手势)、嗅觉输入(未描绘出)。人机接口设备还可以用于捕获不一定与人的意识输入直接相关的某些媒介，例如音频(例如，语音、音乐、环境声音)、图像(例如，扫描的图像、从静止图像相机获取摄影图像)、视频(例如二维视频、包括立体视频的三维视频)等。

输入人机接口设备可以下述中的一项或多项(每种中仅示出一个)：键盘1401、鼠标1402、触控板1403、触摸屏1410、操纵杆1405、麦克风1406、扫描仪1408、相机1407中的一个或多个。

计算机系统1400可以包括某些人机接口输出设备。这样的人机接口输出设备可以例如通过触觉输出、声音、光和气味/味道来刺激一个或多个人类用户的感官。此类人机接口输出设备可以包括触觉输出设备(例如触摸屏1410的触觉反馈或操纵杆1405，但也可以是不作为输入设备的触觉反馈设备)、音频输出设备(例如，扬声器1409、耳机(未描绘出))、视觉输出设备(例如包括CRT屏幕、LCD屏幕、等离子屏幕、OLED屏幕的屏幕1410，每种屏幕有或没有触摸屏输入功能，每种屏幕都有或没有触觉反馈功能，其中的一些屏幕能够通过例如立体图像输出之类的设备、虚拟现实眼镜(未描绘出)、全息显示器和烟箱(未描绘出)以及打印机(未描绘出)来输出二维视觉输出或超过三维的输出。

计算机系统1400也可以包括人类可访问存储设备及其关联介质：例如包括具有CD/DVD等介质1411的CD/DVD ROM/RW1420的光学介质、指状驱动器1422、可拆卸硬盘驱动器或固态驱动器1423、例如磁带和软盘之类的传统磁性介质(未描绘出)、例如安全软件狗之类的基于专用ROM/ASIC/PLD的设备(未描绘出)等。

本领域技术人员还应当理解，如结合本公开的主题所使用的术语“计算机可读介质”不涵盖传输介质、载波或其它暂时性信号。

计算机系统1400还可以包括到一个或多个通信网络1498的接口1499。网络1498例如可以是是无线网络、有线网络、光网络。网络1498可以进一步地是本地网络、广域网络、城域网络、车辆和工业网络、实时网络、延迟容忍网络等。网络的示例包括例如以太网之类的局域网、无线LAN、包括GSM、3G、4G、5G、LTE等的蜂窝网络、包括有线电视、卫星电视和地面广播电视的电视有线或无线广域数字网络、包括CANBus的车辆和工业用电视等等。某些网络1498通常需要连接到某些通用数据端口或外围总线(1450和1451)的外部网络接口适配器(例如计算机系统1400的USB端口)；如下所述，其他网络接口通常通过连接到系统总线而集成到计算机系统1400的内核中(例如，连接到PC计算机系统中的以太网接口或连接到智能手机计算机系统中的蜂窝网络接口)。计算机系统1400可以使用这些网络中的任何一个网络1498与其他实体通信。此类通信可以是仅单向接收的(例如，广播电视)、仅单向发送的(例如，连接到某些CANbus设备的CANbus)或双向的，例如，使用局域网或广域网数字网络连接到其他计算机系统。如上所述，可以在那些网络和网络接口的每一个上使用某些协议和协议栈。

上述人机接口设备、人机可访问的存储设备和网络接口可以附接到计算机系统1400的内核1440。

核心1440可以包括一个或多个中央处理单元(CPU)1441、图形处理单元(GPU)1442、现场可编程门区域(FPGA)1417形式的专用可编程处理单元、用于某些任务的硬件加速器1444等。这些设备以及只读存储器(ROM)1445、随机存取存储器(RAM)1446、例如内部非用户可访问的硬盘驱动器、SSD等之类的内部大容量存储器1447可以通过系统总线1448连接。在一些计算机系统中，可以以一个或多个物理插头的形式访问系统总线1448，以能够通过附加的CPU、GPU等进行扩展。外围设备可以直接连接到内核的系统总线1448或通过外围总线1451连接到内核的系统总线1448。外围总线的体系结构包括PCI、USB等。

CPU 1441、GPU 1442、FPGA 1443和加速器1444可以执行某些指令，这些指令组合起来可以构成上述计算机代码。该计算机代码可以存储在只读存储器1445或随机存取存储器1446中。过渡数据也可以存储在随机存取存储器1446中，而永久数据例如可以存储在内部大容量存储器1447中。可以通过使用高速缓冲存储器来实现对任何存储器设备的快速存储和检索，该高速缓冲存储器可以与一个或多个中央处理器1441、中央处理器1442、大容量存储器1447、只读存储器1445、随机存取存储器1446等紧密关联。

计算机可读介质可以在其上具有执行各种由计算机实现的操作的计算机代码。介质和计算机代码可以是出于本公开的目的而专门设计和构建的介质和计算机代码，或者介质和计算机代码可以是计算机软件领域的技术人员公知且可用的类型。

作为非限制性示例，可以由于一个或多个处理器(包括CPU、GPU、FPGA、加速器等)执行包含在一种或多种有形的计算机可读介质中的软件而使得具有架构1400，特别是内核1440的计算机系统提供功能。此类计算机可读介质可以是与如上所述的用户可访问的大容量存储相关联的介质，以及某些非暂时性内核1440的存储器，例如内核内部大容量存储器1447或ROM1445。可以将实施本公开的各种实施例的软件存储在此类设备中并由内核1440执行。根据特定需要，计算机可读介质可以包括一个或多个存储设备或芯片。软件可以使得内核1440，特别是其中的处理器(包括CPU、GPU、FPGA等)执行本文所描述的特定过程或特定过程的特定部分，包括定义存储在RAM 1446中的数据结构以及根据由软件定义的过程来修改此类数据结构。附加地或替换地，可以由于硬连线或以其他方式体现在电路(例如，加速器1444)中的逻辑而使得计算机系统提供功能，该电路可以替换软件或与软件一起运行以执行本文描述的特定过程或特定过程的特定部分。在适当的情况下，提及软件的部分可以包含逻辑，反之亦然。在适当的情况下，提及计算机可读介质的部分可以包括存储用于执行的软件的电路(例如集成电路(IC))、体现用于执行的逻辑的电路或包括两者。本公开包括硬件和软件的任何合适的组合。

尽管本公开已经描述了多个示例性实施例，但是存在落入本公开的范围内的修改、置换和各种替换等效物。因此，应当理解，本领域技术人员将能够设计出许多虽然未在本文中明确示出或描述，但体现了本公开的原理，因此落入本公开的其精神和范围内的系统和方法。

Claims

1.一种用于视频编码的方法，由至少一个处理器执行，所述方法包括：

获取视频数据；

从所述视频数据的至少一帧中检测至少一个人脸；

从所述视频数据的所述至少一帧中确定所述至少一个人脸的人脸界标特征集合；以及

至少部分地由神经网络基于确定的所述人脸界标特征集合对所述视频数据进行编码。

2.根据权利要求1所述的方法，其特征在于，所述视频数据包括所述视频数据的已编码码流。

3.根据权利要求2所述的方法，其特征在于，确定所述人脸界标特征集合包括对至少一个下采样序列进行上采样，所述至少一个下采样序列是通过解压缩所述已编码码流而获取的。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

确定扩展人脸区域EFA，所述扩展人脸区域包括从在所述视频数据的所述至少一帧中检测到的所述至少一个人脸的区域扩展的边界区域；

从所述EFA确定EFA特征集合；以及

至少部分地由所述神经网络基于确定的所述人脸界标特征集合对所述视频数据进行进一步编码。

5.根据权利要求4所述的方法，其特征在于，确定所述EFA和确定所述EFA特征集合包括对所述至少一个下采样序列进行上采样，所述至少一个下采样序列是通过解压缩所述已编码码流而获取的。

6.根据权利要求5所述的方法，其特征在于，确定所述EFA和确定所述EFA特征集合还包括：通过对抗生成网络重建所述EFA特征，所述EFA特征中的每一个分别对应于所述人脸界标特征集合中的所述人脸界标特征中的一个。

7.根据权利要求6所述的方法，其特征在于，至少部分地由所述神经网络基于确定的所述人脸界标集合对所述视频数据进行编码还包括：通过聚合所述人脸界标集合、所述已重建的EFA特征和通过对所述至少一个下采样序列进行上采样而获取的上采样序列，至少部分地由所述神经网络基于确定的所述人脸界标特征集合对所述视频数据进行编码。

8.根据权利要求7所述的方法，其特征在于，来自所述视频数据的所述至少一帧的所述至少一个人脸被确定为是所述视频数据的所述至少一帧中的多个人脸中的最大的人脸。

9.根据权利要求7所述的方法，其特征在于，所述方法还包括：

针对所述视频数据的所述至少一帧中的所述多个人脸中的每一个，从所述视频数据的所述至少一帧中确定除了所述至少一个人脸的所述人脸界标特征集合之外的多个人脸界标特征集合；以及

至少部分地由所述神经网络基于确定的所述人脸界标集合和确定的所述多个人脸界标特征集合对所述视频数据进行编码。

10.根据权利要求9所述的方法，其特征在于，所述神经网络包括深度神经网络DNN。

11.一种用于视频编码的装置，所述装置包括：

至少一个存储器，配置为存储计算机程序代码；

至少一个处理器，配置为访问所述计算机程序代码，以及按照所述计算机程序代码的指示操作，所述计算机程序代码包括：

获取代码，配置为使得所述至少一个处理器获取视频数据；

检测代码，配置为使得所述至少一个处理器从所述视频数据的至少一帧中检测至少一个人脸；

确定代码，配置为使得所述至少一个处理器从所述视频数据的所述至少一帧中确定所述至少一个人脸的人脸界标集合；以及

编码代码，配置为使得所述至少一个处理器使得至少部分地由神经网络基于确定的所述人脸界标特征集合对所述视频数据进行编码。

12.根据权利要求1所述的装置，其特征在于，所述视频数据包括所述视频数据的已编码码流。

13.根据权利要求2所述的装置，其特征在于，确定所述人脸界标特征集合包括对至少一个下采样序列进行上采样，所述至少一个下采样序列是通过解压缩所述已编码码流而获取的。

14.根据权利要求3所述的装置，其特征在于，所述计算机程序代码还包括：

进一步确定代码，配置为使所述至少一个处理器：

确定扩展人脸区域EFA，所述扩展人脸区域包括从在所述视频数据的所述至少一帧中检测到的所述至少一个人脸的区域扩展的边界区域；以及

从所述EFA确定EFA特征集合；以及

进一步编码代码，配置为使得所述至少一个处理器使得至少部分地由所述神经网络基于确定的所述人脸界标特征集合对所述视频数据进行编码。

15.根据权利要求4所述的装置，其特征在于，确定所述EFA和确定所述EFA特征集合包括对所述至少一个下采样序列进行上采样，所述至少一个下采样序列是通过解压缩所述已编码码流而获取的。

16.根据权利要求5所述的装置，其特征在于，确定所述EFA和确定所述EFA特征集合还包括：通过对抗生成网络重建所述EFA特征，所述EFA特征中的每一个分别对应于所述人脸界标特征集合中的所述人脸界标特征中的一个。

17.根据权利要求6所述的装置，其特征在于，至少部分地由神经网络基于所确定的人脸界标特征集合来编码所述视频数据还包括：通过聚合所述人脸界标集合、所述已重建的EFA特征和通过对所述至少一个下采样序列进行上采样而获取的上采样序列，至少部分地由所述神经网络基于确定的所述人脸界标特征集合对所述视频数据进行编码。

18.根据权利要求7所述的装置，其特征在于，来自所述视频数据的所述至少一帧的所述至少一个人脸被确定为是所述视频数据的所述至少一帧中的多个人脸中的最大的人脸。

19.根据权利要求7所述的装置，其特征在于，所述确定代码还配置为使得所述处理器：针对所述视频数据的所述至少一帧中的所述多个人脸中的每一个，从所述视频数据的所述至少一帧中确定除了所述至少一个人脸的所述人脸界标特征集合之外的多个人脸界标特征集合；以及

所述编码代码还配置成使得所述处理器：至少部分地由所述神经网络基于确定的所述人脸界标集合和确定的所述多个人脸界标特征集合对所述视频数据进行编码。

20.一种非瞬时性计算机可读介质，其上存储有程序，所述程序使得计算机执行处理，所述处理包括：

获取视频数据；

从所述视频数据的至少一帧中检测至少一个人脸；