CN114363623A

CN114363623A - 图像处理方法、装置、介质及电子设备

Info

Publication number: CN114363623A
Application number: CN202110926679.7A
Authority: CN
Inventors: 梁宇轩
Original assignee: Tenpay Payment Technology Co Ltd
Current assignee: Tenpay Payment Technology Co Ltd
Priority date: 2021-08-12
Filing date: 2021-08-12
Publication date: 2022-04-15
Also published as: WO2023016155A1; US20230291909A1; EP4373086A1

Abstract

本申请属于人工智能技术领域，具体涉及一种图像处理方法、图像处理装置、计算机可读介质以及电子设备。该图像处理方法包括：接收由编码端传输的视频片段的图像编码数据；对所述图像编码数据进行解码处理，得到第一视频帧、第一视频帧中的关键点以及第二视频帧中的关键点，所述关键点用于表示目标对象在视频帧中的运动姿态；根据所述第一视频帧中的关键点以及所述第二视频帧中的关键点，生成所述目标对象的运动姿态的变换信息；根据所述第一视频帧和所述变换信息生成所述第二视频帧的重构图像。

Description

图像处理方法、装置、介质及电子设备

技术领域

本申请属于人工智能技术领域，具体涉及一种图像处理方法、图像处理装置、计算机可读介质以及电子设备。

背景技术

在进行视频编码传输时，一般会以精准的像素点绘制的方式，采用基于预测编码的技术，传输像素级别的帧残差信息。尽管随着传统视频编码标准的不断演进，视频压缩性能可以得到提升，但是基于二维像素级的信号压缩方式，存在传输数据信息密度大的问题，很难在保证视频高清质量的前提下取得数量级的码率节省突破。

发明内容

本申请的目的在于提供一种图像处理方法、图像处理装置、计算机可读介质以及电子设备，至少在一定程度上克服相关技术中存在的数据传输量大、传输码率高等技术问题。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请实施例的一个方面，提供一种图像处理方法，包括：接收由编码端传输的视频片段的图像编码数据；对所述图像编码数据进行解码处理，得到第一视频帧、第一视频帧中的关键点以及第二视频帧中的关键点，所述关键点用于表示目标对象在视频帧中的运动姿态；根据所述第一视频帧中的关键点以及所述第二视频帧中的关键点，生成所述目标对象的运动姿态的变换信息；根据所述第一视频帧和所述变换信息生成所述第二视频帧的重构图像。

根据本申请实施例的一个方面，提供一种图像处理装置，包括：接收模块，被配置为接收由编码端传输的视频片段的图像编码数据；解码模块，被配置为对所述图像编码数据进行解码处理，得到第一视频帧、第一视频帧中的关键点以及第二视频帧中的关键点，所述关键点用于表示目标对象在视频帧中的运动姿态；生成模块，被配置为根据所述第一视频帧中的关键点以及所述第二视频帧中的关键点，生成所述目标对象的运动姿态的变换信息；重构模块，被配置为根据所述第一视频帧和所述变换信息生成所述第二视频帧的重构图像。

在本申请的一些实施例中，基于以上技术方案，所述目标对象的运动姿态的变换信息包括所述第一视频帧与所述第二视频帧之间的运动场；生成模块被配置为：在所述第一视频帧中的关键点与所述第二视频帧中的关键点之间建立一一对应的关键点映射关系；根据所述关键点映射关系生成各个关键点邻域的仿射变换参数；根据所述仿射变换参数、所述第一视频帧中的关键点以及所述第二视频帧中的关键点，对所述第一视频帧进行光流估计，得到所述第一视频帧与所述第二视频帧之间的运动场。

在本申请的一些实施例中，基于以上技术方案，重构模块被配置为：对所述第一视频帧进行特征提取，得到对应于不同特征深度的多个第一图像特征；根据所述变换信息分别对各个特征深度的第一图像特征进行变换处理，得到对应于不同特征深度的形变特征；对所述第一图像特征进行特征还原，得到对应于不同特征深度的第二图像特征；将对应于相同特征深度的形变特征和第二图像特征进行特征融合，并对融合后的特征进行映射处理，得到所述第二视频帧的重构图像。

在本申请的一些实施例中，基于以上技术方案，重构模块还被配置为：通过具有不同网络尺度的多个输出网络，分别对融合后的特征进行映射处理，得到所述第二视频帧的多个重构图像，所述多个重构图像具有不同的图像分辨率。

在本申请的一些实施例中，基于以上技术方案，所述装置还包括：音频获取模块，被配置为获取与所述图像编码数据相关联的音频数据；图像检测模块，被配置为对所述第二视频帧的重构图像进行关键点检测，得到目标对象在所述重构图像中的关键点；关键点确定模块，被配置为根据各个关键点在所述重构图像中的分布位置，确定位于所述目标对象内部的目标区域的关键点；位置修正模块，被配置为根据所述音频数据对所述目标区域的关键点进行位置修正，得到修正后的关键点；图像修复模块，被配置为根据修正后的关键点对所述重构图像进行局部图像修改，得到修复后的重构图像。

在本申请的一些实施例中，基于以上技术方案，所述装置还包括：第一样本获取模块，被配置为获取包括目标对象的第一图像样本以及与所述第一图像样本具有内容相关性的第二图像样本；第一样本检测模块，被配置为分别对所述第一图像样本和所述第二图像样本进行关键点检测，得到所述目标对象在所述第一图像样本中的第一关键点以及所述目标对象在所述第二图像样本中的第二关键点；第一网络获取模块，被配置为获取用于根据原始图像生成重构图像的图像生成网络以及用于判别图像是否为原始图像或者重构图像的图像判别网络；第一图像重构模块，被配置为将所述第一图像样本、所述第一关键点和所述第二关键点输入所述图像生成网络，以通过所述图像生成网络对所述第一图像样本进行图像重构处理，得到所述第二图像样本的重构图像；图像判别模块，被配置为分别将所述第二图像样本的重构图像以及所述第二图像样本输入所述图像判别网络，以通过所述图像判别网络对输入图像进行判别处理，得到所述输入图像为原始图像或者重构图像的判别信息；第一参数更新模块，被配置为根据所述判别信息交替更新所述图像生成网络和所述图像判别网络的网络参数。

在本申请的一些实施例中，基于以上技术方案，所述装置还包括：第二样本获取模块，被配置为获取包括目标对象的第三图像样本以及与所述第三图像样本具有时间相关性的第四图像样本；第二样本检测模块，被配置为分别对所述第三图像样本和所述第四图像样本进行关键点检测，得到所述目标对象在所述第三图像样本中的第三关键点以及所述目标对象在所述第四图像样本中的第四关键点；第二模型获取模块，被配置为获取用于根据原始图像生成重构图像的图像生成网络以及用于判别相似度的相似度判别网络；第二图像重构模块，被配置为将所述第三图像样本、所述第四图像样本、所述第三关键点和所述第四关键点输入所述图像生成网络，以通过所述图像生成网络分别对所述第三图像样本和所述第四图像样本进行图像重构处理，得到所述第三图像样本的重构图像和所述第四图像样本的重构图像；相似度判别模块，被配置为将所述第三图像样本的重构图像和所述第四图像样本的重构图像输入所述相似度判别网络，以通过所述相似度判别网络对输入图像进行判别处理，得到所述第三图像样本的重构图像与所述第四图像样本的重构图像的图像相似度；第二参数更新模块，被配置为根据所述图像相似度更新所述图像生成网络和所述相似度判别网络的网络参数。

根据本申请实施例的一个方面，提供一种图像处理方法，包括：获取待传输的视频片段，所述视频片段包括多个视频帧；从所述视频片段中提取包括所述目标对象的第一视频帧以及与所述第一视频帧具有内容相关性的第二视频帧；对所述视频帧进行关键点检测，得到目标对象在所述视频帧中的关键点，所述关键点用于表示所述目标对象在所述视频帧中的运动姿态；对所述第一视频帧、所述第一视频帧中的关键点以及所述第二视频帧中的关键点进行编码处理，得到图像编码数据；将所述图像编码数据传输至解码端，以使所述解码端根据所述图像编码数据生成所述第二视频帧的重构图像。

根据本申请实施例的一个方面，提供一种图像处理装置，包括：获取模块，被配置为获取待传输的视频片段，所述视频片段包括多个视频帧；提取模块，被配置为从所述视频片段中提取包括所述目标对象的第一视频帧以及与所述第一视频帧具有内容相关性的第二视频帧；检测模块，被配置为对所述视频帧进行关键点检测，得到目标对象在所述视频帧中的关键点，所述关键点用于表示所述目标对象在所述视频帧中的运动姿态；编码模块，被配置为对所述第一视频帧、所述第一视频帧中的关键点以及所述第二视频帧中的关键点进行编码处理，得到图像编码数据；传输模块，被配置为将所述图像编码数据传输至解码端，以使所述解码端根据所述图像编码数据生成所述第二视频帧的重构图像。

在本申请的一些实施例中，基于以上技术方案，检测模块被配置为：将所述视频帧输入预先训练的目标对象识别模型；通过所述目标对象识别模型对所述视频帧中的目标对象进行关键点检测，得到用于表示所述目标对象的整体运动姿态的第一关键点以及用于表示所述目标对象内部的目标区域运动姿态的第二关键点。

在本申请的一些实施例中，基于以上技术方案，所述装置还包括：样本获取模块，被配置为获取包括目标对象的图像样本以及与所述图像样本相关联的样本标签，所述样本标签用于标记所述第二关键点在所述图像样本中的位置坐标；样本输入模块，被配置为将所述图像样本以及所述样本标签输入所述目标对象识别模型；样本检测模块，被配置为通过所述目标对象识别模型对所述图像样本中的目标对象进行关键点检测，得到所述目标对象在所述图像样本中的第一关键点和第二关键点；参数更新模块，被配置为获取所述样本标签与检测得到的第二关键点之间的损失误差，并根据所述损失误差更新所述目标对象识别模型的模型参数。

在本申请的一些实施例中，基于以上技术方案，提取模块被配置为：对所述视频片段中的各个视频帧进行特征提取，得到用于表示所述视频帧的图像内容的图像特征；根据所述图像特征对所述视频帧进行聚类处理，得到由具有内容相关性的视频帧组成的聚类簇以及所述聚类簇的聚类中心；将所述聚类簇中距离所述聚类中心最近的包括目标对象的视频帧确定为第一视频帧，并将所述聚类簇中的其他视频帧确定为与所述第一视频帧具有内容相关性的第二视频帧。

在本申请的一些实施例中，基于以上技术方案，编码模块被配置为：对用于传输所述视频片段的数据传输网络进行网络检测，以确定所述数据传输网络的网络类型和网络信号强度；根据所述网络类型和网络信号强度确定所述数据传输网络是否属于弱网；若所述数据传输网络属于弱网，则对所述第一视频帧、所述第一视频帧中的关键点以及所述第二视频帧中的关键点进行编码处理；若所述数据传输网络不属于弱网，则对所述第一视频帧、所述第二视频帧、所述第一视频帧中的关键点以及所述第二视频帧中的关键点进行编码处理。

根据本申请实施例的一个方面，提供一种计算机可读介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如以上技术方案中的图像处理方法。

根据本申请实施例的一个方面，提供一种电子设备，该电子设备包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器被配置为经由执行所述可执行指令来执行如以上技术方案中的图像处理方法。

根据本申请实施例的一个方面，提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行如以上技术方案中的图像处理方法。

在本申请实施例提供的技术方案中，通过对视频帧图像中信息量极少的关键点进行编码，可以基于关键点对视频帧图像进行重构，降低传输数据量和传输码率的同时，能够提高视频图像的编解码和传输效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图。

图2示出视频编码装置和视频解码装置在流式传输环境中的放置方式。

图3示出了一个视频编码器的基本流程图，在该流程中以帧内预测为例进行说明。

图4示意性地示出了本申请实施例在视频咨询或者其他涉及视频传输的应用场景中的原理框图。

图5示意性地示出了本申请一个实施例中的图像处理方法的步骤流程图。

图6示意性地示出了本申请一个实施例中的提取视频帧的步骤流程图。

图7示意性地示出了本申请一个实施例中基于半监督学习对目标对象识别模型进行模型训练的步骤流程图。

图8示意性地示出了本申请实施例在解码端的图像处理方法的步骤流程图。

图9示意性地示出了本申请一个实施例中进行图像重构的步骤流程图。

图10示意性地示出了本申请一个实施例中的图像生成网络的网络架构图。

图11示意性地示出了本申请一个实施例中基于音频数据对重构图像进行修复的原理图。

图12示意性地示出了本申请一个实施例中对模型进行联合训练的网络架构。

图13示意性地示出了本申请实施例提供的位于解码端的图像处理装置的结构框图。

图14示意性地示出了本申请实施例提供的位于编码端的图像处理装置的结构框图。

图15示意性示出了适于用来实现本申请实施例的电子设备的计算机系统结构框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

如图1所示，系统架构100包括多个终端装置，所述终端装置可通过例如网络150彼此通信。举例来说，系统架构100可以包括通过网络150互连的第一终端装置110和第二终端装置120。在图1的实施例中，第一终端装置110和第二终端装置120执行单向数据传输。

举例来说，第一终端装置110可对视频数据(例如由终端装置110采集的视频图片流)进行编码以通过网络150传输到第二终端装置120，已编码的视频数据以一个或多个已编码视频码流形式传输，第二终端装置120可从网络150接收已编码视频数据，对已编码视频数据进行解码以恢复视频数据，并根据恢复的视频数据显示视频图片。

在本申请的一个实施例中，系统架构100可以包括执行已编码视频数据的双向传输的第三终端装置130和第四终端装置140，所述双向传输比如可以发生在视频会议期间。对于双向数据传输，第三终端装置130和第四终端装置140中的每个终端装置可对视频数据(例如由终端装置采集的视频图片流)进行编码，以通过网络150传输到第三终端装置130和第四终端装置140中的另一终端装置。第三终端装置130和第四终端装置140中的每个终端装置还可接收由第三终端装置130和第四终端装置140中的另一终端装置传输的已编码视频数据，且可对已编码视频数据进行解码以恢复视频数据，并可根据恢复的视频数据在可访问的显示装置上显示视频图片。

在图1的实施例中，第一终端装置110、第二终端装置120、第三终端装置130和第四终端装置140可为服务器、个人计算机和智能电话，但本申请公开的原理可不限于此。本申请公开的实施例适用于膝上型计算机、平板电脑、媒体播放器和/或专用视频会议设备。本申请实施例中的各个终端装置可以作为区块链节点组成区块链网络，在各个终端装置之间传输的已编码数据可以保存于该区块链网络维护的区块链上。网络150表示在第一终端装置110、第二终端装置120、第三终端装置130和第四终端装置140之间传送已编码视频数据的任何数目的网络，包括例如有线和/或无线通信网络。通信网络150可在电路交换和/或分组交换信道中交换数据。该网络可包括电信网络、局域网、广域网和/或互联网。出于本申请的目的，除非在下文中有所解释，否则网络150的架构和拓扑对于本申请公开的操作来说可能是无关紧要的。

在本申请的一个实施例中，图2示出视频编码装置和视频解码装置在流式传输环境中的放置方式。本申请所公开主题可同等地适用于其它支持视频的应用，包括例如视频会议、数字TV(television，电视机)、在包括CD、DVD、存储棒等的数字介质上存储压缩视频等等。

流式传输系统可包括采集子系统213，采集子系统213可包括数码相机等视频源201，视频源创建未压缩的视频图片流202。在实施例中，视频图片流202包括由数码相机拍摄的样本。相较于已编码的视频数据204(或已编码的视频码流204)，视频图片流202被描绘为粗线以强调高数据量的视频图片流，视频图片流202可由电子装置220处理，电子装置220包括耦接到视频源201的视频编码装置203。视频编码装置203可包括硬件、软件或软硬件组合以实现或实施如下文更详细地描述的所公开主题的各方面。相较于视频图片流202，已编码的视频数据204(或已编码的视频码流204)被描绘为细线以强调较低数据量的已编码的视频数据204(或已编码的视频码流204)，其可存储在流式传输服务器205上以供将来使用。一个或多个流式传输客户端子系统，例如图2中的客户端子系统206和客户端子系统208，可访问流式传输服务器205以检索已编码的视频数据204的副本207和副本209。客户端子系统206可包括例如电子装置230中的视频解码装置210。视频解码装置210对已编码的视频数据的传入副本207进行解码，且产生可在显示器212(例如显示屏)或另一呈现装置上呈现的输出视频图片流211。在一些流式传输系统中，可根据某些视频编码/压缩标准对已编码的视频数据204、视频数据207和视频数据209(例如视频码流)进行编码。该些标准的实施例包括ITU-T H.265。在实施例中，正在开发的视频编码标准非正式地称为下一代视频编码(Versatile Video Coding，VVC)，本申请可用于VVC标准的上下文中。

应注意，电子装置220和电子装置230可包括图中未示出的其它组件。举例来说，电子装置220可包括视频解码装置，且电子装置230还可包括视频编码装置。

在本申请的一个实施例中，以国际视频编码标准HEVC(High Efficiency VideoCoding，高效率视频编码)、VVC(Versatile Video Coding，多功能视频编码)，以及中国国家视频编码标准AVS为例，当输入一个视频帧图像之后，会根据一个块大小，将视频帧图像划分成若干个不重叠的处理单元，每个处理单元将进行类似的压缩操作。这个处理单元被称作CTU(Coding Tree Unit，编码树单元)，或者称之为LCU(Largest Coding Unit，最大编码单元)。CTU再往下可以继续进行更加精细的划分，得到一个或多个基本的编码单元CU，CU是一个编码环节中最基本的元素。以下介绍对CU进行编码时的一些概念：

预测编码(Predictive Coding)：预测编码包括了帧内预测和帧间预测等方式，原始视频信号经过选定的已重建视频信号的预测后，得到残差视频信号。编码端需要为当前CU决定选择哪一种预测编码模式，并告知解码端。其中，帧内预测是指预测的信号来自于同一图像内已经编码重建过的区域；帧间预测是指预测的信号来自已经编码过的、不同于当前图像的其它图像(称之为参考图像)。

变换及量化(Transform&Quantization)：残差视频信号经过DFT(DiscreteFourier Transform，离散傅里叶变换)、DCT(Discrete Cosine Transform，离散余弦变换)等变换操作后，将信号转换到变换域中，称之为变换系数。变换系数进一步进行有损的量化操作，丢失掉一定的信息，使得量化后的信号有利于压缩表达。在一些视频编码标准中，可能有多于一种变换方式可以选择，因此编码端也需要为当前CU选择其中的一种变换方式，并告知解码端。量化的精细程度通常由量化参数(Quantization Parameter，简称QP)来决定，QP取值较大，表示更大取值范围的系数将被量化为同一个输出，因此通常会带来更大的失真及较低的码率；相反，QP取值较小，表示较小取值范围的系数将被量化为同一个输出，因此通常会带来较小的失真，同时对应较高的码率。

熵编码(Entropy Coding)或统计编码：量化后的变换域信号将根据各个值出现的频率进行统计压缩编码，最后输出二值化(0或者1)的压缩码流。同时，编码产生其他信息，例如选择的编码模式、运动矢量数据等，也需要进行熵编码以降低码率。统计编码是一种无损的编码方式，可以有效的降低表达同样信号所需要的码率，常见的统计编码方式有变长编码(Variable Length Coding，简称VLC)或者基于上下文的二值化算术编码(ContentAdaptive Binary Arithmetic Coding，简称CABAC)。

基于上下文的自适应二进制算术编码(CABAC)过程主要包含3个步骤：二进制化、上下文建模和二进制算术编码。在对输入的语法元素进行二值化后，可以通过常规编码模式和旁路编码模式(bypass)对二元数据进行编码。旁路编码模式(Bypass Coding Mode)，它无须为每个二元位分配特定的概率模型，输入的二元位bin值直接用一个简单的旁路编码器进行编码，以加快整个编码以及解码的速度。一般情况下，不同的语法元素之间并不是完全独立的，且相同语法元素自身也具有一定的记忆性。因此，根据条件熵理论，利用其他已编码的语法元素进行条件编码，相对于独立编码或者无记忆编码能够进一步提高编码性能。这些用来作为条件的已编码符号信息称为上下文。在常规编码模式中，语法元素的二元位顺序地进入上下文模型器。编码器根据先前编码过的语法元素或二元位的值，为每一个输入的二元位分配合适的概率模型，该过程即为上下文建模。通过ctxIdxInc(contextindex increment，上下文索引增量)和ctxIdxStart(context index Start，上下文起始索引)即可定位到语法元素所对应的上下文模型。将bin值和分配的概率模型一起送入二元算术编码器进行编码后，需要根据bin值更新上下文模型，也就是编码中的自适应过程。

环路滤波(Loop Filtering)：经过变化及量化的信号会通过反量化、反变换及预测补偿的操作获得重建图像。重建图像与原始图像相比由于存在量化的影响，部分信息与原始图像有所不同，即重建图像会产生失真(Distortion)。因此，可以对重建图像进行滤波操作，例如去块效应滤波(Deblocking filter，简称DB)、SAO(Sample Adaptive Offset，自适应像素补偿)或者ALF(Adaptive Loop Filter，自适应环路滤波)等滤波器，可以有效降低量化所产生的失真程度。由于这些经过滤波后的重建图像将作为后续编码图像的参考来对将来的图像信号进行预测，因此上述的滤波操作也被称为环路滤波，即在编码环路内的滤波操作。

在本申请的一个实施例中，图3示出了一个视频编码器的基本流程图，在该流程中以帧内预测为例进行说明。其中，原始图像信号s_k[x,y]与预测图像信号

做差值运算，得到残差信号u_k[x,y]，残差信号u_k[x,y]经过变换及量化处理之后得到量化系数，量化系数一方面通过熵编码得到编码后的比特流，另一方面通过反量化及反变换处理得到重构残差信号u'_k[x,y]，预测图像信号

与重构残差信号u'_k[x,y]叠加生成图像信号

图像信号

一方面输入至帧内模式决策模块和帧内预测模块进行帧内预测处理，另一方面通过环路滤波输出重建图像信号s'_k[x,y]，重建图像信号s'_k[x,y]可以作为下一帧的参考图像进行运动估计及运动补偿预测。然后基于运动补偿预测的结果s'_r[x+m_x,y+m_y]和帧内预测结果

得到下一帧的预测图像信号

并继续重复上述过程，直至编码完成。

基于上述的编码过程，在解码端针对每一个CU，在获取到压缩码流(即比特流)之后，进行熵解码获得各种模式信息及量化系数。然后量化系数经过反量化及反变换处理得到残差信号。另一方面，根据已知的编码模式信息，可获得该CU对应的预测信号，然后将残差信号与预测信号相加之后即可得到重建信号，重建信号再经过环路滤波等操作，产生最终的输出信号。

本申请实施例的一个应用场景可以包括视频咨询服务，它是一种面向企业终端用户的网络沟通工具服务，用户可以通过安装了即时通信软件的终端设备进行两人或多人之间的实时沟通。另外，本申请实施例也可以应用于视频通话、网络直播等各种涉及视频传输的场景中，本申请实施例对此不做特殊限定。

本申请实施例可以基于人工智能技术提升视频传输中的图像清晰度问题、解决在网络不佳的状态下存在的视频模糊、体验交叉等问题，具有跨终端、安全性高、仿真度高、生成速度快、实时性强等优点。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

图4示意性地示出了本申请实施例在视频咨询或者其他涉及视频传输的应用场景中的原理框图。如图4所示，位于编码端410的发送用户可以通过摄像头等图像采集设备采集包含人脸的视频图像，并进一步通过AI编码模型对视频图像进行人脸识别，得到其中所包括的人脸关键点。在此基础上，AI编码模型可以对关键帧以及各帧视频图像中的人脸关键点进行压缩编码得到相应的图像编码数据。在将图像编码数据实时传输至解码端420后，位于解码端420的AI解码模块可以根据参考帧以及各帧视频图像的人脸关键点进行人脸重构，得到清晰度较高的人脸重构图像，从而向接收用户展示清晰连续的视频图像。本申请实施例提供的技术方案可以通过编码端仅对信息量极少的语义关键点进行编码，并通过解码端在收到关键点后再重建恢复出高清人脸图像，相比于传统的视频传输方案，本申请能够很好地克服视频传输及时性低、图像不自然、图像模糊等问题。

以下分别从编码端和解码端两个部分对本申请实施例提供的图像处理方法等技术方案做出详细说明。

图5示意性地示出了本申请一个实施例中的图像处理方法的步骤流程图，该图像处理方法可以由图3所示的视频编码器执行。如图5所示，该图像处理方法主要可以包括如下的步骤S510至步骤S550。

在步骤S510中，获取待传输的视频片段，视频片段包括多个视频帧。

在本申请的一个实施例中，视频片段可以是通过图像采集设备实时采集到的具有指定时间长度的一段视频，视频片段也可以是从已采集的完整视频中裁剪得到的片段。

视频片段中包括有多个视频帧，一个视频帧即为一个视频图像。例如，一个视频片段的时间长度为2秒，其帧率为60帧每秒，那么该视频片段中即包括有120个连续的视频帧。

在步骤S520中，从视频片段中提取包括目标对象的第一视频帧以及与第一视频帧具有内容相关性的第二视频帧。

内容相关性是指第一视频帧与第二视频帧具有相似的视频内容，例如第一视频帧和第二视频帧中包括有相同的目标对象，并且目标对象具有相似的动作姿态。

在本申请的一个实施例中，目标对象可以是人脸，第一视频帧可以是包含人脸的关键帧，第二视频帧可以是与第一视频帧时间连续且内容相似的一个或者多个视频帧。

视频片段中可以包括一个或者多个第一视频帧，其中多个第一视频帧指的是两个或者以上的第一视频帧。

图6示意性地示出了本申请一个实施例中的提取视频帧的步骤流程图。如图6所示，在以上实施例的基础上，步骤S520中的从视频片段中提取包括目标对象的第一视频帧以及与第一视频帧具有内容相关性的第二视频帧，可以包括如下的步骤S610至步骤S630。

步骤S610：对视频片段中的各个视频帧进行特征提取，得到用于表示视频帧的图像内容的图像特征。

图像特征可以是用于表示视频帧的图像内容的具有指定长度的特征向量，例如可以基于视频帧的颜色直方图提取对应的特征值。

步骤S620：根据图像特征对视频帧进行聚类处理，得到由具有内容相关性的视频帧组成的聚类簇以及聚类簇的聚类中心。

在进行聚类处理时，可以首先随机选取若干数量的聚类中心，并分别计算图像特征与各个聚类中心之间的距离(如向量距离)，然后将该图像特征划分至与其距离最近的聚类中心，完成图像特征的划分后，即得到多个与聚类中心数量相同的聚类簇。根据聚类簇中各个图像特征的平均值，可以重新确定每个聚类簇的新的聚类中心。再次基础上不断重复图像特征与聚类中心的距离计算和划分步骤，最终在满足聚类的停止条件时获得多个聚类簇，并可以确定每个聚类簇的聚类中心。

步骤S630：将聚类簇中距离聚类中心最近的包括目标对象的视频帧确定为第一视频帧，并将聚类簇中的其他视频帧确定为与第一视频帧具有内容相关性的第二视频帧。

每个聚类簇中均包括有多个视频帧，其中与聚类中心距离最近的一个包括目标对象的视频帧即可选作第一视频帧，聚类簇中除第一视频帧以外的其他视频帧即被确定为与其具有内容相关性的第二视频帧。

在本申请的一个实施例中，也可以直接将视频片段中位于指定位置的视频帧作为第一视频帧，例如可以将视频片段的第一帧、最后一帧、或者中间的某一帧作为第一视频帧，除此以外的其他视频帧即作为第二视频帧。

在本申请的一个实施例中，也可以基于目标对象的运动分析来确定第一视频帧，例如可以在视频片段中分析目标对象的光流量，每次选择视频片段中光流移动次数最少的视频帧作为第一视频帧，除此以外的其他视频帧即作为第二视频帧。

在步骤S530中，对视频帧进行关键点检测，得到目标对象在视频帧中的关键点，关键点用于表示目标对象在视频帧中的运动姿态。

在本申请的一个实施例中，目标对象为人脸，则相应的关键点可以是人脸关键点。

在本申请的一个实施例中，对视频帧进行关键点检测的方法可以包括：将视频帧输入预先训练的目标对象识别模型；通过目标对象识别模型对视频帧中的目标对象进行关键点检测，得到用于表示目标对象的整体运动姿态的第一关键点以及用于表示目标对象内部的目标区域运动姿态的第二关键点。

在本申请实施例中，目标对象识别模型可以是人脸识别模型，基于该人脸识别模型可以检测各个视频帧中的人脸关键点。其中，用于表示人脸的整体运动姿态的第一关键点例如可以是分布在人脸边缘附近的一个或者多个关键点，这部分第一关键点可以用于捕捉人物头部整体的运动姿态，例如转头、低头、抬头等等。位于人脸内部的目标区域例如可以是眼睛、嘴巴、鼻子等位置所在的区域，用于表示人脸内部的目标区域运动姿态的第二关键点即可以是集中分布在眼睛、嘴巴、鼻子等位置的用于精确描述人脸五官的运动姿态的关键点，例如可以用于表示眼睛的睁开、闭合，嘴巴的张开与闭合等运动姿态。

图7示意性地示出了本申请一个实施例中基于半监督学习对目标对象识别模型进行模型训练的步骤流程图。如图7所示，在以上实施例的基础上，对目标目标对象识别模型进行模型训练的方法可以包括如下的步骤S710至步骤S740。

步骤S710：获取包括目标对象的图像样本以及与图像样本相关联的样本标签，样本标签用于标记第二关键点在图像样本中的位置坐标。

图像样本可以是包括人脸的人脸图像，样本标签是用于表示人脸中五官区域的若干关键点的位置坐标。

步骤S720：将图像样本以及样本标签输入目标对象识别模型。

目标对象识别模型可以是用于检测人脸的人脸识别模型，将人脸图像以及对应标注的部分人脸关键点标签共同输入至人脸识别模型。

步骤S730：通过目标对象识别模型对图像样本中的目标对象进行关键点检测，得到目标对象在图像样本中的第一关键点和第二关键点。

人脸识别模型可以对图像中的人脸进行关键点检测，检测得到的人脸关键点可以包括两类，其中一类属于第二关键点，即带有位置标注的五官区域内的关键点，另一类即属于未做位置标注的第一关键点。

步骤S740：获取样本标签与检测得到的第二关键点之间的损失误差，并根据损失误差更新目标对象识别模型的模型参数。

根据预先标注的第二关键点在图像中的位置以及模板对象实际输出的第二关键点的分布位置，可以确定损失误差，基于该损失误差进行反向传播可以确定目标对象识别模型中每个网络层中的各项权重的误差梯度，进而基于该误差梯度更新一部分或者全部的网络层中的各项权重。

在本申请发明人发现，利用成熟的人脸关键点检测算法dlib，在应用到视频中得到的关键点总是在时域上会出现抖动等不稳定情况，而驱动帧的关键点信息是否准确又在很大程度上影响最终的人脸生成效果。为了保证关键点检测在时域的稳定性，这里采用一种无监督和有监督相结合的方式。本申请实施例一共检测2N个关键点，其中N个无监督的关键点，N个有监督的关键点。无监督的部分是为了捕捉头部整体的运动姿态，例如转头、低头、抬头等等(如下图中5红色的关键点)；有监督的关键点主要集中在眼睛和嘴巴附近(如下图5个蓝色的关键点)，是为了精确描述五官的运动状态，如眼睛的睁开闭合、嘴巴的运动等，以便在解码端能够生成神态自然的人脸。

本申请实施例通过将N个无监督关键点和N个有监督关键点一起学习，采用人脸关键点检测算法得到关键点坐标作为label去监督2N中的N个关键点，这样做可以有效的降低这N个有监督关键点在时域上的不稳定性。

在步骤S540中，对第一视频帧、第一视频帧中的关键点以及第二视频帧中的关键点进行编码处理，得到图像编码数据。

对第一视频帧进行编码处理的方法可以采用如以上实施例中提供的视频编码方法，此处不再赘述。

在本申请的一个实施例中，可以首先对用于传输视频片段的数据传输网络进行网络检测，以确定数据传输网络的网络类型和网络信号强度，然后根据网络类型和网络信号强度确定数据传输网络是否属于弱网；若数据传输网络属于弱网，则对第一视频帧、第一视频帧中的关键点以及第二视频帧中的关键点进行编码处理；若数据传输网络不属于弱网，则对第一视频帧、第二视频帧、第一视频帧中的关键点以及第二视频帧中的关键点进行编码处理。

数据传输网络的类型除了有线通信链路以外，还包括有2G/3G/Edge/4G/5G/Wifi等多种移动通信网络的连接方式。不同的协议、不同的制式、不同的速率，使得移动应用运行的场景更加丰富。从网络传输的角度来说，需要额外关注的场景远远不止断网、网络故障等情况。在本申请的一个实施例中，弱网是指网络信号强度低于强度阈值的网络，强度阈值是与网络类型相关联的预设阈值，不同的网络类型可以关联至相同或者不同的强度阈值。例如，当检测到数据传输网络的网络类型为4G网络时，获取对应的强度阈值为-50dbm；若数据传输网络的网络信号强度小于-50dbm，则可以判定该网络属于弱网；若数据传输网络的网络信号强度大于或者等于-50dbm，则可以判定该网络不属于弱网。

在本申请的一个实施例中，也可以将网络带宽、丢包率或者网络延时中的一个或者多个参数作为网络质量参数，并确定网络质量参数低于参数阈值的网络属于弱网。例如，以网络延时作为网络质量参数，当数据传输网络的网络延时大于300ms时，可以判定该网络属于弱网。又例如，以丢包率作为网络质量参数，当数据传输网络的丢包率大于10％时，可以判定该网络属于弱网。

在本申请实施例中，当判断数据传输网络属于弱网，即网络质量不佳时，可以选择仅对第一视频帧、第一视频帧中的关键点以及第二视频帧中的关键点进行编码处理，由此可以大幅度地降低编码数据量，降低编码信息复杂度，并提高编码效率和数据传输效率。而当判断数据传输网络不属于弱网，即网络质量较好时，可以选择对第一视频帧、第二视频帧、第一视频帧中的关键点以及第二视频帧中的关键点进行编码处理，由此可以在网络带宽压力不大的情况下，进一步提高视频图像的清晰度。

在步骤S550中，将图像编码数据传输至解码端，以使解码端根据图像编码数据生成第二视频帧的重构图像。

在本申请的一个实施例中，由编码端向解码端进行视频传输前，可以基于加密算法对图像编码数据进行加密处理，从而提高数据传输的安全性和可靠性。在传输至解码端后，由解码端首先对加密后的编码数据进行解密处理，并在解密处理后做进一步的解码处理，其中携带的第一视频帧、第一视频帧中的关键点以及第二视频帧中的关键点等数据。在解码得到相应数据的基础上，解码端可以进行图像重构处理，以生成第二视频帧的重构图像。

图8示意性地示出了本申请实施例在解码端的图像处理方法的步骤流程图，该图像处理方法可以由图3所示的解码器执行。如图8所示，该图像处理方法主要可以包括如下的步骤S810至步骤S840。

在步骤S810中，接收由编码端传输的视频片段的图像编码数据。

在本申请的一个实施例中，解码端可以实时接收由编码端传输而来的对应于一个视频片段的图像编码数据。若该图像编码数据是由编码端基于加密密钥进行加密处理的数据，则解码端可以根据相应的解密密钥对加密后的数据进行解密处理，得到原始的明文数据。

在步骤S820中，对图像编码数据进行解码处理，得到第一视频帧、第一视频帧中的关键点以及第二视频帧中的关键点，关键点用于表示目标对象在视频帧中的运动姿态。

对图像编码数据进行解码处理的方法可以参考上方实施例中的解码器执行的解码方法，此处不再赘述。

在步骤S830中，根据第一视频帧中的关键点以及第二视频帧中的关键点，生成目标对象的运动姿态的变换信息。

在本申请的一个实施例中，目标对象的运动姿态的变换信息包括第一视频帧与第二视频帧之间的运动场(Motion Field)，当目标对象在两个视频帧之间出现运动姿态变化时，通过标记目标对象上各个像素点的运动速度即可得到相应的运动场。

在本申请的一个实施例中，根据第一视频帧中的关键点以及第二视频帧中的关键点，生成目标对象的运动姿态的变换信息的方法可以包括：在第一视频帧中的关键点与第二视频帧中的关键点之间建立一一对应的关键点映射关系；根据关键点映射关系生成各个关键点邻域的仿射变换参数；根据仿射变换参数、第一视频帧中的关键点以及第二视频帧中的关键点，对第一视频帧进行光流估计，得到第一视频帧与第二视频帧之间的运动场。

物体在图像序列中所表现得明暗变化称为光流，光流估计是通过检测图像像素点的强度随时间的变化进而推断出物体移动速度及方向的方法，本申请实施例基于对第一视频帧进行的光流估计，可以得到用于描述目标对象运动状态的运动场。

在步骤S840中，根据第一视频帧和变换信息生成第二视频帧的重构图像。

图9示意性地示出了本申请一个实施例中进行图像重构的步骤流程图。如图9所示，在以上实施例的基础上，步骤S840中的根据第一视频帧和变换信息生成第二视频帧的重构图像，可以包括如下的步骤S910至步骤S940。

步骤S910：对第一视频帧进行特征提取，得到对应于不同特征深度的多个第一图像特征。

在本申请的一个实施例中，可以利用预先训练的特征提取网络对第一视频帧进行特征提取，该特征提取网络可以包括多个连续分布且特征逐渐加深的特征提取层，将第一视频帧输入至该特征提取网络后，可以由各个特征提取层依次提取得到对应于不同特征深度的多个第一图像特征。

步骤S920：根据变换信息分别对各个特征深度的第一图像特征进行变换处理，得到对应于不同特征深度的形变特征。

按照变换信息对每个特征深度下提取到的第一图像特征进行变换处理，从而得到每个特征深度下对应的形变特征。在本申请的一个实施例中，变换信息可以是基于运动场生成的变换矩阵，第一图像特征为提取得到的特征图，基于特征图与变换矩阵进行矩阵运算，即可得到相应的形变特征。

步骤S930：对第一图像特征进行特征还原，得到对应于不同特征深度的第二图像特征。

与特征提取网络相对应的，本申请实施例可以通过反向配置的特征还原网络对各个特征深度的第一图像特征进行特征还原。其中每个特征深度下均可以还原得到一个对应的第二图像特征。

步骤S940：将对应于相同特征深度的形变特征和第二图像特征进行特征融合，并对融合后的特征进行映射处理，得到第二视频帧的重构图像。

对形变特征与第二图像特征进行特征融合的方法可以是直接将相应维度的特征值进行求和，或者可以是将相应维度的特征值计算平均值。

在本申请的一个实施例中，在经过特征融合后，可以通过具有不同网络尺度的多个输出网络，分别对融合后的特征进行映射处理，得到第二视频帧的多个重构图像，多个重构图像具有不同的图像分辨率。例如，第一视频帧的分辨率为256X256，本申请实施例进行图像重构后，可以得到分辨率同样为256X256的第二视频帧的重构图像。另外，通过配置多个输出网络，本申请实施例还可以同时获得分辨率为512X512的第二视频帧的重构图像，从而可以满足不同尺寸的视频图像显示需求。

在本申请的一个实施例中，可以利用预先训练的图像生成网络进行图像重构，图10示意性地示出了本申请一个实施例中的图像生成网络的网络架构图，该图像生成网络可以包括特征提取网络、光流估计网络、特征还原网络、特征输出网络等多个部分。

以卷积神经网络作为示例，如图10所示，特征提取网络包括多个依次加深的卷积层1001，在输入第一视频帧1002后，各个卷积层1001依次对输入特征进行卷积处理，从而提取得到对应不同特征深度的第一图像特征。

将第一视频帧1002、第一视频帧的关键点1003以及第二视频帧的关键点1004共同输入至光流估计网络1005。基于第一视频帧的关键点1003以及第二视频帧的关键点1004可以生成关键点邻域的仿射变换参数，然后基于关键点信息和仿射变换参数可以通过光流估计网络1005进行光流估计以生成由第一视频帧至第二视频帧的稠密运动场1006。

利用稠密运动场1006可以将不同特征深度的第一图像特征进行特征形变(warping)得到相应的形变特征。

特征还原网络包括多个依次第二图像特征深度的反卷积层1007，各个反卷积层1007依次对输入特征进行反卷积处理后，可以还原得到不同特征深度下的第二图像特征。

在相同的特征深度下，可以将形变特征与第二图像特征进行融合处理，以实现由第一视频帧向第二视频帧的图像重构。

网络输出层可以是具有不同输出维度的全连接层1008，基于全连接层1008可以输出重构的对应于不同图像分辨率的重构图像。

本申请实施例在不改变参考帧人脸尺度的情况下，图像生成网络可以输出不同尺度的重构人脸，以满足不同尺寸的显示需求。由于基于语义信息的AI人脸编码方案对人脸分辨率很敏感，当视频会议中的人脸分辨率提高时，方案整体的复杂度也会随之提高，难以满足实时视频通讯的低延时需求。为此，这里默认编码端参考帧的分辨率为256x256。在解码端，除了生成256x256的驱动帧人脸，还可以输出更高分辨率(如512x512)的驱动帧人脸。为此，在生成网络的输出端采用多尺度的输出层，并在训练时采用多尺度的监督信号(256和512分辨率的双重监督信号)。这样，在不显著增加时间复杂度的情况下，本申请实施例中的人脸生成网络可以在解码端输出多尺度的重构人脸。值得注意的是，在多尺度监督的优化下，不仅可以利用256x256的参考帧生成512x512的驱动帧重构人脸，256x256尺度下的重构人脸也比单尺度监督得到的人脸更加清晰。

在本申请的一个实施例中，尽管这里已经利用有监督的关键点来尽可能描述嘴部的运动姿态，但是由于关键点的数量有限，仍然很难精确描述嘴部的运动姿态。考虑到视频会议中一般都伴随着人讲话的语音信号，而语音信号又与人脸嘴部的运动有极强的相关性。为此，本申请实施例可以结合语音信号来对生成的人脸图像中的嘴周进行修复，使得嘴部姿态更加真实自然。

图11示意性地示出了本申请一个实施例中基于音频数据对重构图像进行修复的原理图。如图11所示，在本申请实施例中，可以获取与图像编码数据相关联的音频数据1101。基于长短期记忆网络LSTM或者其他网络模型可以对音频数据1101进行特征提取，得到相应的音频特征。

对第二视频帧的重构图像1102进行关键点检测，得到目标对象在重构图像中的关键点1103。

根据各个关键点1103在重构图像中的分布位置，可以确定位于目标对象内部的目标区域的关键点；例如可以确定人脸嘴部区域的关键点。

根据音频数据1101对目标区域的关键点1103进行位置修正，得到修正后的关键点1104。本申请实施例可以利用预先训练的多层感知器模型MLP对重构得到的关键点和音频特征进行映射处理，从而得到位置修正后的关键点。

根据修正后的关键点1104对重构图像1102进行局部图像修改，得到修复后的重构图像1105。

在本申请的一个实施例中，可以通过配置图像判别网络或者相似度判别网络的方式对图像生成网络进行联合训练，从而获得能够清晰准确地重构图像的图像生成网络。

图12示意性地示出了本申请一个实施例中对模型进行联合训练的网络架构。如图12所示，该网络架构整体包括了图像生成网络1201、图像判别网络1202和相似度判别网络1203。

在本申请的一个实施例中，对图像生成网络1201与图像判别网络1202进行联合训练的方法可以包括如下内容。

首先可以获取包括目标对象的第一图像样本以及与第一图像样本具有内容相关性的第二图像样本。

分别对第一图像样本(如第i-1帧图像Frame i-1)和第二图像样本(如第i帧图像Frame i)进行关键点检测，得到目标对象在第一图像样本中的第一关键点以及目标对象在第二图像样本中的第二关键点。

获取用于根据原始图像生成重构图像的图像生成网络1201以及用于判别图像是否为原始图像或者重构图像的图像判别网络1202。

将第一图像样本、第一关键点和第二关键点输入图像生成网络1201，以通过图像生成网络1201对第一图像样本进行图像重构处理，得到第二图像样本的重构图像Gen i。

分别将第二图像样本的重构图像Gen i以及第二图像样本Frame i输入图像判别网络1202，以通过图像判别网络1202对输入图像进行判别处理，得到输入图像为原始图像或者重构图像的判别信息。

根据判别信息交替更新图像生成网络和图像判别网络的网络参数。

在本申请的一个实施例中，联合训练图像生成网络1201和相似度判别网络1203的方法可以包括如下内容。

获取包括目标对象的第三图像样本(如第i-1帧图像Frame i-1)以及与第三图像样本具有时间相关性的第四图像样本(如第i帧图像Frame i)；

分别对第三图像样本Frame i-1和第四图像样本Frame i进行关键点检测，得到目标对象在第三图像样本Frame i-1中的第三关键点以及目标对象在第四图像样本Frame i中的第四关键点；

获取用于根据原始图像生成重构图像的图像生成网络1201以及用于判别相似度的相似度判别网络1203。

将第三图像样本Frame i-1、第四图像样本Frame i、第三关键点和第四关键点输入图像生成网络，以通过图像生成网络分别对第三图像样本和第四图像样本进行图像重构处理，得到第三图像样本的重构图像和第四图像样本的重构图像；

将第三图像样本的重构图像和第四图像样本的重构图像输入相似度判别网络1203，以通过相似度判别网络1203对输入图像进行判别处理，得到第三图像样本的重构图像与第四图像样本的重构图像的图像相似度；

根据图像相似度更新图像生成网络1201和相似度判别网络1203的网络参数。

应当注意，尽管在附图中以特定顺序描述了本申请中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

以下介绍本申请的装置实施例，可以用于执行本申请上述实施例中的图像处理方法。

图13示意性地示出了本申请实施例提供的位于解码端的图像处理装置的结构框图。如图13所示，图像处理装置1300包括：

获取模块1310，被配置为获取待传输的视频片段，所述视频片段包括多个视频帧；提取模块1320，被配置为从所述视频片段中提取包括所述目标对象的第一视频帧以及与所述第一视频帧具有内容相关性的第二视频帧；检测模块1330，被配置为对所述视频帧进行关键点检测，得到目标对象在所述视频帧中的关键点，所述关键点用于表示所述目标对象在所述视频帧中的运动姿态；编码模块1340，被配置为对所述第一视频帧、所述第一视频帧中的关键点以及所述第二视频帧中的关键点进行编码处理，得到图像编码数据；传输模块1350，被配置为将所述图像编码数据传输至解码端，以使所述解码端根据所述图像编码数据生成所述第二视频帧的重构图像。

在本申请的一些实施例中，基于以上实施例，检测模块1330被配置为：将所述视频帧输入预先训练的目标对象识别模型；通过所述目标对象识别模型对所述视频帧中的目标对象进行关键点检测，得到用于表示所述目标对象的整体运动姿态的第一关键点以及用于表示所述目标对象内部的目标区域运动姿态的第二关键点。

在本申请的一些实施例中，基于以上实施例，所述图像处理装置1300还包括：样本获取模块，被配置为获取包括目标对象的图像样本以及与所述图像样本相关联的样本标签，所述样本标签用于标记所述第二关键点在所述图像样本中的位置坐标；样本输入模块，被配置为将所述图像样本以及所述样本标签输入所述目标对象识别模型；样本检测模块，被配置为通过所述目标对象识别模型对所述图像样本中的目标对象进行关键点检测，得到所述目标对象在所述图像样本中的第一关键点和第二关键点；参数更新模块，被配置为获取所述样本标签与检测得到的第二关键点之间的损失误差，并根据所述损失误差更新所述目标对象识别模型的模型参数。

在本申请的一些实施例中，基于以上实施例，提取模块1320被配置为：对所述视频片段中的各个视频帧进行特征提取，得到用于表示所述视频帧的图像内容的图像特征；根据所述图像特征对所述视频帧进行聚类处理，得到由具有内容相关性的视频帧组成的聚类簇以及所述聚类簇的聚类中心；将所述聚类簇中距离所述聚类中心最近的包括目标对象的视频帧确定为第一视频帧，并将所述聚类簇中的其他视频帧确定为与所述第一视频帧具有内容相关性的第二视频帧。

在本申请的一些实施例中，基于以上实施例，编码模块1340被配置为：对用于传输所述视频片段的数据传输网络进行网络检测，以确定所述数据传输网络的网络类型和网络信号强度；根据所述网络类型和网络信号强度确定所述数据传输网络是否属于弱网；若所述数据传输网络属于弱网，则对所述第一视频帧、所述第一视频帧中的关键点以及所述第二视频帧中的关键点进行编码处理；若所述数据传输网络不属于弱网，则对所述第一视频帧、所述第二视频帧、所述第一视频帧中的关键点以及所述第二视频帧中的关键点进行编码处理。

图14示意性地示出了本申请实施例提供的位于编码端的图像处理装置的结构框图。如图14所示，图像处理装置1400包括：接收模块1410，被配置为接收由编码端传输的视频片段的图像编码数据；解码模块1420，被配置为对所述图像编码数据进行解码处理，得到第一视频帧、第一视频帧中的关键点以及第二视频帧中的关键点，所述关键点用于表示目标对象在视频帧中的运动姿态；生成模块1430，被配置为根据所述第一视频帧中的关键点以及所述第二视频帧中的关键点，生成所述目标对象的运动姿态的变换信息；重构模块1440，被配置为根据所述第一视频帧和所述变换信息生成所述第二视频帧的重构图像。

在本申请的一些实施例中，基于以上实施例，所述目标对象的运动姿态的变换信息包括所述第一视频帧与所述第二视频帧之间的运动场；生成模块1430被配置为：在所述第一视频帧中的关键点与所述第二视频帧中的关键点之间建立一一对应的关键点映射关系；根据所述关键点映射关系生成各个关键点邻域的仿射变换参数；根据所述仿射变换参数、所述第一视频帧中的关键点以及所述第二视频帧中的关键点，对所述第一视频帧进行光流估计，得到所述第一视频帧与所述第二视频帧之间的运动场。

在本申请的一些实施例中，基于以上实施例，重构模块1440被配置为：对所述第一视频帧进行特征提取，得到对应于不同特征深度的多个第一图像特征；根据所述变换信息分别对各个特征深度的第一图像特征进行变换处理，得到对应于不同特征深度的形变特征；对所述第一图像特征进行特征还原，得到对应于不同特征深度的第二图像特征；将对应于相同特征深度的形变特征和第二图像特征进行特征融合，并对融合后的特征进行映射处理，得到所述第二视频帧的重构图像。

在本申请的一些实施例中，基于以上实施例，重构模块1440还被配置为：通过具有不同网络尺度的多个输出网络，分别对融合后的特征进行映射处理，得到所述第二视频帧的多个重构图像，所述多个重构图像具有不同的图像分辨率。

在本申请的一些实施例中，基于以上实施例，所述图像处理装置1400还包括：音频获取模块，被配置为获取与所述图像编码数据相关联的音频数据；图像检测模块，被配置为对所述第二视频帧的重构图像进行关键点检测，得到目标对象在所述重构图像中的关键点；关键点确定模块，被配置为根据各个关键点在所述重构图像中的分布位置，确定位于所述目标对象内部的目标区域的关键点；位置修正模块，被配置为根据所述音频数据对所述目标区域的关键点进行位置修正，得到修正后的关键点；图像修复模块，被配置为根据修正后的关键点对所述重构图像进行局部图像修改，得到修复后的重构图像。

在本申请的一些实施例中，基于以上实施例，所述图像处理装置1400还包括：第一样本获取模块，被配置为获取包括目标对象的第一图像样本以及与所述第一图像样本具有内容相关性的第二图像样本；第一样本检测模块，被配置为分别对所述第一图像样本和所述第二图像样本进行关键点检测，得到所述目标对象在所述第一图像样本中的第一关键点以及所述目标对象在所述第二图像样本中的第二关键点；第一网络获取模块，被配置为获取用于根据原始图像生成重构图像的图像生成网络以及用于判别图像是否为原始图像或者重构图像的图像判别网络；第一图像重构模块，被配置为将所述第一图像样本、所述第一关键点和所述第二关键点输入所述图像生成网络，以通过所述图像生成网络对所述第一图像样本进行图像重构处理，得到所述第二图像样本的重构图像；图像判别模块，被配置为分别将所述第二图像样本的重构图像以及所述第二图像样本输入所述图像判别网络，以通过所述图像判别网络对输入图像进行判别处理，得到所述输入图像为原始图像或者重构图像的判别信息；第一参数更新模块，被配置为根据所述判别信息交替更新所述图像生成网络和所述图像判别网络的网络参数。

在本申请的一些实施例中，基于以上实施例，所述图像处理装置1400还包括：第二样本获取模块，被配置为获取包括目标对象的第三图像样本以及与所述第三图像样本具有时间相关性的第四图像样本；第二样本检测模块，被配置为分别对所述第三图像样本和所述第四图像样本进行关键点检测，得到所述目标对象在所述第三图像样本中的第三关键点以及所述目标对象在所述第四图像样本中的第四关键点；第二模型获取模块，被配置为获取用于根据原始图像生成重构图像的图像生成网络以及用于判别相似度的相似度判别网络；第二图像重构模块，被配置为将所述第三图像样本、所述第四图像样本、所述第三关键点和所述第四关键点输入所述图像生成网络，以通过所述图像生成网络分别对所述第三图像样本和所述第四图像样本进行图像重构处理，得到所述第三图像样本的重构图像和所述第四图像样本的重构图像；相似度判别模块，被配置为将所述第三图像样本的重构图像和所述第四图像样本的重构图像输入所述相似度判别网络，以通过所述相似度判别网络对输入图像进行判别处理，得到所述第三图像样本的重构图像与所述第四图像样本的重构图像的图像相似度；第二参数更新模块，被配置为根据所述图像相似度更新所述图像生成网络和所述相似度判别网络的网络参数。

本申请各实施例中提供的图像处理装置的具体细节已经在对应的方法实施例中进行了详细的描述，此处不再赘述。

图15示意性地示出了用于实现本申请实施例的电子设备的计算机系统结构框图。

需要说明的是，图15示出的电子设备的计算机系统1500仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图15所示，计算机系统1500包括中央处理器1501(Central Processing Unit，CPU)，其可以根据存储在只读存储器1502(Read-Only Memory，ROM)中的程序或者从存储部分1508加载到随机访问存储器1503(Random Access Memory，RAM)中的程序而执行各种适当的动作和处理。在随机访问存储器1503中，还存储有系统操作所需的各种程序和数据。中央处理器1501、在只读存储器1502以及随机访问存储器1503通过总线1504彼此相连。输入/输出接口1505(Input/Output接口，即I/O接口)也连接至总线1504。

以下部件连接至输入/输出接口1505：包括键盘、鼠标等的输入部分1506；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分1507；包括硬盘等的存储部分1508；以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分1509。通信部分1509经由诸如因特网的网络执行通信处理。驱动器1510也根据需要连接至输入/输出接口1505。可拆卸介质1511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1510上，以便于从其上读出的计算机程序根据需要被安装入存储部分1508。

特别地，根据本申请的实施例，各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1509从网络上被下载和安装，和/或从可拆卸介质1511被安装。在该计算机程序被中央处理器1501执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种图像处理方法，其特征在于，包括：

接收由编码端传输的视频片段的图像编码数据；

对所述图像编码数据进行解码处理，得到第一视频帧、第一视频帧中的关键点以及第二视频帧中的关键点，所述关键点用于表示目标对象在视频帧中的运动姿态；

根据所述第一视频帧中的关键点以及所述第二视频帧中的关键点，生成所述目标对象的运动姿态的变换信息；

根据所述第一视频帧和所述变换信息生成所述第二视频帧的重构图像。

2.根据权利要求1所述的图像处理方法，其特征在于，所述目标对象的运动姿态的变换信息包括所述第一视频帧与所述第二视频帧之间的运动场；根据所述第一视频帧中的关键点以及所述第二视频帧中的关键点，生成所述目标对象的运动姿态的变换信息，包括：

在所述第一视频帧中的关键点与所述第二视频帧中的关键点之间建立一一对应的关键点映射关系；

根据所述关键点映射关系生成各个关键点邻域的仿射变换参数；

根据所述仿射变换参数、所述第一视频帧中的关键点以及所述第二视频帧中的关键点，对所述第一视频帧进行光流估计，得到所述第一视频帧与所述第二视频帧之间的运动场。

3.根据权利要求1所述的图像处理方法，其特征在于，根据所述第一视频帧和所述变换信息生成所述第二视频帧的重构图像，包括：

对所述第一视频帧进行特征提取，得到对应于不同特征深度的多个第一图像特征；

根据所述变换信息分别对各个特征深度的第一图像特征进行变换处理，得到对应于不同特征深度的形变特征；

对所述第一图像特征进行特征还原，得到对应于不同特征深度的第二图像特征；

将对应于相同特征深度的形变特征和第二图像特征进行特征融合，并对融合后的特征进行映射处理，得到所述第二视频帧的重构图像。

4.根据权利要求3所述的图像处理方法，其特征在于，对融合后的特征进行映射处理，得到所述第二视频帧的重构图像，包括：

通过具有不同网络尺度的多个输出网络，分别对融合后的特征进行映射处理，得到所述第二视频帧的多个重构图像，所述多个重构图像具有不同的图像分辨率。

5.根据权利要求1至4中任意一项所述的图像处理方法，其特征在于，所述方法还包括：

获取与所述图像编码数据相关联的音频数据；

对所述第二视频帧的重构图像进行关键点检测，得到目标对象在所述重构图像中的关键点；

根据各个关键点在所述重构图像中的分布位置，确定位于所述目标对象内部的目标区域的关键点；

根据所述音频数据对所述目标区域的关键点进行位置修正，得到修正后的关键点；

根据修正后的关键点对所述重构图像进行局部图像修改，得到修复后的重构图像。

6.根据权利要求1至4中任意一项所述的图像处理方法，其特征在于，所述方法还包括：

获取包括目标对象的第一图像样本以及与所述第一图像样本具有内容相关性的第二图像样本；

分别对所述第一图像样本和所述第二图像样本进行关键点检测，得到所述目标对象在所述第一图像样本中的第一关键点以及所述目标对象在所述第二图像样本中的第二关键点；

获取用于根据原始图像生成重构图像的图像生成网络以及用于判别图像是否为原始图像或者重构图像的图像判别网络；

将所述第一图像样本、所述第一关键点和所述第二关键点输入所述图像生成网络，以通过所述图像生成网络对所述第一图像样本进行图像重构处理，得到所述第二图像样本的重构图像；

分别将所述第二图像样本的重构图像以及所述第二图像样本输入所述图像判别网络，以通过所述图像判别网络对输入图像进行判别处理，得到所述输入图像为原始图像或者重构图像的判别信息；

根据所述判别信息交替更新所述图像生成网络和所述图像判别网络的网络参数。

7.根据权利要求1至4中任意一项所述的图像处理方法，其特征在于，所述方法还包括：

获取包括目标对象的第三图像样本以及与所述第三图像样本具有时间相关性的第四图像样本；

分别对所述第三图像样本和所述第四图像样本进行关键点检测，得到所述目标对象在所述第三图像样本中的第三关键点以及所述目标对象在所述第四图像样本中的第四关键点；

获取用于根据原始图像生成重构图像的图像生成网络以及用于判别相似度的相似度判别网络；

将所述第三图像样本、所述第四图像样本、所述第三关键点和所述第四关键点输入所述图像生成网络，以通过所述图像生成网络分别对所述第三图像样本和所述第四图像样本进行图像重构处理，得到所述第三图像样本的重构图像和所述第四图像样本的重构图像；

将所述第三图像样本的重构图像和所述第四图像样本的重构图像输入所述相似度判别网络，以通过所述相似度判别网络对输入图像进行判别处理，得到所述第三图像样本的重构图像与所述第四图像样本的重构图像的图像相似度；

根据所述图像相似度更新所述图像生成网络和所述相似度判别网络的网络参数。

8.一种图像处理方法，其特征在于，包括：

获取待传输的视频片段，所述视频片段包括多个视频帧；

从所述视频片段中提取包括所述目标对象的第一视频帧以及与所述第一视频帧具有内容相关性的第二视频帧；

对所述视频帧进行关键点检测，得到目标对象在所述视频帧中的关键点，所述关键点用于表示所述目标对象在所述视频帧中的运动姿态；

对所述第一视频帧、所述第一视频帧中的关键点以及所述第二视频帧中的关键点进行编码处理，得到图像编码数据；

将所述图像编码数据传输至解码端，以使所述解码端根据所述图像编码数据生成所述第二视频帧的重构图像。

9.根据权利要求8所述的图像处理方法，其特征在于，对所述视频帧进行关键点检测，包括：

将所述视频帧输入预先训练的目标对象识别模型；

通过所述目标对象识别模型对所述视频帧中的目标对象进行关键点检测，得到用于表示所述目标对象的整体运动姿态的第一关键点以及用于表示所述目标对象内部的目标区域运动姿态的第二关键点。

10.根据权利要求9所述的图像处理方法，其特征在于，所述方法还包括：

获取包括目标对象的图像样本以及与所述图像样本相关联的样本标签，所述样本标签用于标记所述第二关键点在所述图像样本中的位置坐标；

将所述图像样本以及所述样本标签输入所述目标对象识别模型；

通过所述目标对象识别模型对所述图像样本中的目标对象进行关键点检测，得到所述目标对象在所述图像样本中的第一关键点和第二关键点；

获取所述样本标签与检测得到的第二关键点之间的损失误差，并根据所述损失误差更新所述目标对象识别模型的模型参数。

11.根据权利要求8至10中任意一项所述的图像处理方法，其特征在于，从所述视频片段中提取包括所述目标对象的第一视频帧以及与所述第一视频帧具有内容相关性的第二视频帧，包括：

对所述视频片段中的各个视频帧进行特征提取，得到用于表示所述视频帧的图像内容的图像特征；

根据所述图像特征对所述视频帧进行聚类处理，得到由具有内容相关性的视频帧组成的聚类簇以及所述聚类簇的聚类中心；

将所述聚类簇中距离所述聚类中心最近的包括目标对象的视频帧确定为第一视频帧，并将所述聚类簇中的其他视频帧确定为与所述第一视频帧具有内容相关性的第二视频帧。

12.一种图像处理装置，其特征在于，包括：

接收模块，被配置为接收由编码端传输的视频片段的图像编码数据；

解码模块，被配置为对所述图像编码数据进行解码处理，得到第一视频帧、第一视频帧中的关键点以及第二视频帧中的关键点，所述关键点用于表示目标对象在视频帧中的运动姿态；

生成模块，被配置为根据所述第一视频帧中的关键点以及所述第二视频帧中的关键点，生成所述目标对象的运动姿态的变换信息；

重构模块，被配置为根据所述第一视频帧和所述变换信息生成所述第二视频帧的重构图像。

13.一种图像处理装置，其特征在于，包括：

获取模块，被配置为获取待传输的视频片段，所述视频片段包括多个视频帧；

提取模块，被配置为从所述视频片段中提取包括所述目标对象的第一视频帧以及与所述第一视频帧具有内容相关性的第二视频帧；

检测模块，被配置为对所述视频帧进行关键点检测，得到目标对象在所述视频帧中的关键点，所述关键点用于表示所述目标对象在所述视频帧中的运动姿态；

编码模块，被配置为对所述第一视频帧、所述第一视频帧中的关键点以及所述第二视频帧中的关键点进行编码处理，得到图像编码数据；

传输模块，被配置为将所述图像编码数据传输至解码端，以使所述解码端根据所述图像编码数据生成所述第二视频帧的重构图像。

14.一种计算机可读介质，其上存储有计算机程序，该计算机程序被处理器执行时实现权利要求1至11中任意一项所述的图像处理方法。

15.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至11中任意一项所述的图像处理方法。