CN116091675B

CN116091675B - 一种图像处理方法、装置、设备及存储介质

Info

Publication number: CN116091675B
Application number: CN202310356189.7A
Authority: CN
Inventors: 李文娟
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-04-06
Filing date: 2023-04-06
Publication date: 2023-06-30
Anticipated expiration: 2043-04-06
Also published as: CN116091675A

Abstract

本申请实施例公开了一种图像处理方法、装置、设备及存储介质。其中方法包括：获取第一平面图像、第二平面图像及第二平面图像对应的内容描述信息，调用图像渲染模型在色彩维度下对第一平面图像和第二平面图像对应的内容描述信息进行渲染预测，得到第一预测图像，并调用图像渲染模型在内容维度下对第一平面图像和第二平面图像对应的内容描述信息进行渲染预测，得到第二预测图像，基于第二预测图像和第二平面图像之间的差异，以及第一预测图像与第二预测图像之间的差异，对图像渲染模型进行训练。可见，基于多个维度（颜色维度和内容维度）下的预测差异，可以对图像渲染模型进行更加充分的训练，从而提高图像渲染模型的预测准确度。

Description

一种图像处理方法、装置、设备及存储介质

技术领域

本申请涉及计算机技术领域，具体涉及一种图像处理方法、一种图像处理装置、一种计算机设备及一种计算机可读存储介质。

背景技术

随着科技研究的进步，三维建模技术飞速发展，并被广泛应用在动画、游戏等领域。完成建模的三维对象可以按照不同需求（如不同的观测位置，不同的采集精度等）进行渲染。研究发现，为了提高三维对象的渲染效率，在对三维对象进行渲染时，可以调用图像渲染模型基于三维对象的平面图像进行渲染预测，得到三维对象的渲染图像。如何提高图像渲染模型的预测准确度，成为目前研究的热门问题。

发明内容

本申请实施例提供了一种图像处理方法、装置、设备及计算机可读存储介质，能够提高图像渲染模型的预测准确度。

一方面，本申请实施例提供了一种图像处理方法，包括：

获取第一平面图像、第二平面图像及第二平面图像对应的内容描述信息；第一平面图像和第二平面图像是在同一观测位置对第一三维对象进行观测得到的图像；

调用图像渲染模型在色彩维度下对第一平面图像和第二平面图像对应的内容描述信息进行渲染预测，得到第一预测图像；

调用图像渲染模型在内容维度下对第一平面图像和第二平面图像对应的内容描述信息进行渲染预测，得到第二预测图像；

基于第一预测图像和第二平面图像之间的差异，以及第一预测图像与第二预测图像之间的差异，对图像渲染模型进行训练；训练好的图像渲染模型用于预测任一三维对象的渲染图像。

一方面，本申请实施例提供了一种图像处理装置，该图像处理装置包括：

获取单元，用于获取第一平面图像、第二平面图像及第二平面图像对应的内容描述信息；第一平面图像和第二平面图像是在同一观测位置对第一三维对象进行观测得到的图像；

处理单元，用于调用图像渲染模型在色彩维度下对第一平面图像和第二平面图像对应的内容描述信息进行渲染预测，得到第一预测图像；

以及用于调用图像渲染模型在内容维度下对第一平面图像和第二平面图像对应的内容描述信息进行渲染预测，得到第二预测图像；

以及用于基于第一预测图像和第二平面图像之间的差异，以及第一预测图像与第二预测图像之间的差异，对图像渲染模型进行训练；训练好的图像渲染模型用于预测任一三维对象的渲染图像。

在一种实施方式中，第一预测图像由M个网格构成，每个网格包括至少一个像素点，M为正整数；处理单元用于，调用图像渲染模型在色彩维度下对第一平面图像和第二平面图像对应的内容描述信息进行渲染预测，得到第一预测图像，具体用于：

调用图像渲染模型在色彩维度下对第一平面图像和第二平面图像对应的内容描述信息进行渲染预测，得到每个网格中各个像素点的颜色；

基于每个网格中各个像素点的颜色，确定M个网格的颜色；

根据M个网格的颜色，生成第一预测图像。

在一种实施方式中，图像渲染模型包括特征提取网络和解码网络；第二预测图像由K个像素点构成，K为正整数；处理单元用于，调用图像渲染模型在内容维度下对第一平面图像和第二平面图像对应的内容描述信息进行渲染预测，得到第二预测图像，具体用于：

调用特征提取网络在内容维度下基于第二平面图像对应的内容描述信息对第一平面图像进行特征提取，得到K个像素点的特征向量；

通过K个像素点的特征向量构造特征图；

调用解码网络对特征图进行解码处理，得到第二预测图像。

在一种实施方式中，第二平面图像对应的内容描述信息包括像素点i的位置信息，像素点i为K个像素点中的任一个像素点；

像素点i的特征向量是特征提取网络在内容维度下基于像素点i的位置信息对第一平面图像进行特征提取得到的。

在一种实施方式中，像素点i的位置信息的获取过程包括：

获取第一平面图像关联的维度指示信息；

获取像素点i的坐标；

对像素点i的坐标进行升维处理，得到像素点i的位置信息；像素点i的位置信息的维度与维度指示信息指示的维度匹配。

在一种实施方式中，第二平面图像包括第一三维对象的面部；第二平面图像对应的内容描述信息包括第一三维对象的状态信息，第一三维对象的状态信息包括以下至少一项：第一三维对象的姿势参数，第一三维对象的表情参数，第一三维对象的注视参数，以及第二平面图像关联的音频参数；

其中，第一三维对象的姿势参数用于指示第一三维对象相对于观测位置的刚性运动；第一三维对象的表情参数用于指示第一三维对象的非刚性面部变形；第一三维对象的注视参数用于指示第一三维对象的眼球运动。

在一种实施方式中，第二平面图像对应的内容描述信息包括第二平面图像关联的音频参数；处理单元用于，获取第二平面图像对应的内容描述信息，具体用于：

获取第二平面图像关联的音频流数据；

对音频流数据进行数据转换，得到第二平面图像关联的音频信号；

基于第二平面图像关联的音频信号，构造第二平面图像关联的音频特征；

将第二平面图像关联的音频特征，确定为第二平面图像关联的音频参数。

在一种实施方式中，第一平面图像和第二平面图像均属于同一视频的平面图像集合，且第一平面图像和第二平面图像在视频中的呈现时刻不同；处理单元用于，基于第二平面图像关联的音频信号，构造第二平面图像关联的音频特征，具体用于：

获取第二平面图像对应的观测图像集合，观测图像集合包括从至少两个不同观测位置对第二平面图像中的第一三维对象进行观测得到的观测图像；

将第二平面图像关联的音频信号与观测图像集合中各个观测图像的图像特征进行合并，得到第二平面图像关联的深度特征；

调用卷积网络基于第二平面图像关联的深度特征，生成音频编码信息；

获取音频编码信息对应的权重，并基于音频编码信息对应的权重和音频编码信息，计算第二平面图像关联的音频特征。

在一种实施方式中，处理单元用于，调用卷积网络基于第二平面图像关联的深度特征，生成音频编码信息，具体用于：

调用卷积网络对第二平面图像关联的深度特征进行截取处理，得到深度特征片段；

对深度特征片段进行编码处理，得到音频编码信息。

在一种实施方式中，处理单元用于，基于第一预测图像和第二平面图像之间的差异，以及第一预测图像与第二预测图像之间的差异，对图像渲染模型进行训练，具体用于：

计算第二预测图像和第二平面图像之间的欧式距离，得到第一损失值；

计算第一预测图像和第二预测图像之间的欧氏距离，得到第二损失值；

对第一损失值和第二损失值进行求和处理，得到图像渲染模型的处理损失；

基于图像渲染模型的处理损失，对图像渲染模型进行训练。

在一种实施方式中，处理单元还用于：

获取待处理平面图像和渲染图像对应的内容描述信息，待处理平面图像中包括第二三维对象；

调用训练好的图像渲染模型在内容维度下对待处理平面图像和渲染图像对应的内容描述信息进行渲染预测，得到渲染图像。

相应地，本申请提供了一种计算机设备，该计算机设备包括：

存储器，存储器中存储有计算机程序；

处理器，用于加载计算机程序实现上述图像处理方法。

相应地，本申请提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，该计算机程序适于由处理器加载并执行上述图像处理方法。

相应地，本申请提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述图像处理方法。

本申请实施例中，获取第一平面图像、第二平面图像及第二平面图像对应的内容描述信息，调用图像渲染模型在色彩维度下对第一平面图像和第二平面图像对应的内容描述信息进行渲染预测，得到第一预测图像，并调用图像渲染模型在内容维度下对第一平面图像和第二平面图像对应的内容描述信息进行渲染预测，得到第二预测图像，基于第二预测图像和第二平面图像之间的差异，以及第一预测图像与第二预测图像之间的差异，对图像渲染模型进行训练。可见，基于多个维度（颜色维度和内容维度）下的预测差异，可以对图像渲染模型进行更加充分的训练，从而提高图像渲染模型的预测准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种图像处理场景图；

图2为本申请实施例提供的一种图像处理方法的流程图；

图3为本申请实施例提供的另一种图像处理方法的流程图；

图4为本申请实施例提供的一种音频参数获取示意图；

图5为本申请实施例提供的一种渲染预测过程示意图；

图6为本申请实施例提供的一种图像处理装置的结构示意图；

图7为本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请涉及人工智能，计算机视觉技术和机器学习，下面对相关技术进行简单介绍：

人工智能（Artificial Intelligence，AI）：所谓AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。本申请实施例主要涉及通过优化后的图像渲染模型，对任一三维对象的平面图像进行渲染预测，得到渲染图像。

AI技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大应用程序的处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术（Computer Vision, CV）计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、追随和测量等，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。本申请实施例主要涉及通过图像渲染模型生成三维对象的渲染图像。

机器学习（Machine Learning，ML）是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。本申请实施例主要基于多个维度（色彩维度和内容维度）下的预测图像来构造预测差异，并通过该预测差异来对图像渲染模型进行训练，以提高图像渲染模型的预测准确度。

基于人工智能，计算机视觉技术和机器学习，本申请实施例提供了一种图像处理方案，以提高图像渲染模型的预测准确度。图1为本申请实施例提供的一种图像处理场景图，如图1所示，本申请提供的图像处理方案可由计算机设备101执行，此处的计算机设备101具体可以是终端设备或者服务器。其中，终端设备可以包括但不限于：智能手机（如Android手机、IOS手机等）、平板电脑、便携式个人计算机、移动互联网设备（MobileInternet Devices，简称MID）、车载终端、智能家电、无人飞行器、可穿戴设备等，本申请实施例对此不做限定。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN（Content Delivery Network，内容分发网络）、以及大数据和人工智能平台等基础云计算服务的云服务器，本申请实施例对此不做限定。

需要说明的是，图1中计算机设备的数量仅用于举例，并不构成本申请的实际限定；例如，图1中还可以包括计算机设备102，计算机设备101和计算机设备102可以通过有线或无线的方式进行连接，本申请对此不作限制。

在具体实现中，该图像处理方案的大致原理如下：

（1）计算机设备101获取第一平面图像、第二平面图像及第二平面图像对应的内容描述信息。第一平面图像和第二平面图像是在同一观测位置对第一三维对象进行观测得到的平面图像。第二平面图像中包括第一三维对象的面部。第二平面图像对应的内容描述信息用于描述第二平面图像中的内容。第二平面图像对应的内容描述信息包括第一三维对象的状态信息。第一三维对象的状态信息包括以下至少一项：第一三维对象的姿势参数，第一三维对象的表情参数，第一三维对象的注视参数，以及第二平面图像关联的音频参数；其中，第一三维对象的姿势参数用于指示第一三维对象相对于观测位置的刚性运动；第一三维对象的表情参数用于指示第一三维对象的非刚性面部变形；第一三维对象的注视参数用于指示第一三维对象的眼球运动。

在一种实施方式中，第一平面图像和第二平面图像是在同一时刻对同一观测位置对第一三维对象进行观测得到的平面图像，第一平面图像的分辨率低于第二平面图像的分辨率。

在另一种实施方式中，第一平面图像和第二平面图像均属于同一视频的平面图像集合，且第一平面图像和第二平面图像在视频中的呈现时刻不同；例如，第一平面图像是视频中t1时刻的平面图像，第二平面图像是视频中t2时刻的平面图像，t1<t2。

（2）计算机设备101调用图像渲染模型在色彩维度下对第一平面图像和第二平面图像对应的内容描述信息进行渲染预测，得到第一预测图像。在一种实施方式中，第一预测图像由M个网格构成，每个网格包括至少一个像素点，M为正整数。计算机设备101调用图像渲染模型在色彩维度下对第一平面图像和第二平面图像对应的内容描述信息进行渲染预测，得到每个网格中各个像素点的颜色。举例来说，假设每个网格包括N个像素点，N为正整数；则计算机设备101调用图像渲染模型在色彩维度下对第一平面图像和第二平面图像对应的内容描述信息进行渲染预测，得到第一预测图像中各个（即

个）像素点的颜色。在得到每个网格中各个像素点的颜色后，计算机设备101基于每个网格中各个像素点的颜色，确定M个网格的颜色；例如，假设网格i中包括N个像素点，计算机设备101可以计算网格i中N个像素点的颜色平均值，得到网格i的颜色；计算机设备101也可以统计网格i中各个颜色对应的像素点数量，将目标颜色确定为网格i的颜色，网格i中颜色为目标颜色的像素点数量最多；计算机设备101还可以基于注意力机制确定网格i中的至少一个关键像素点，并根据至少一个像素点的颜色确定网格i的颜色，网格i是M个网格中的任一个。在确定M个网格的颜色后，计算机设备101根据M个网格的颜色，生成第一预测图像。

（3）计算机设备101调用图像渲染模型在内容维度下对第一平面图像和第二平面图像对应的内容描述信息进行渲染预测，得到第二预测图像。在一种实施方式中，图像渲染模型包括特征提取网络和解码网络；第二预测图像由K个像素点构成，K为正整数。计算机设备101调用特征提取网络在内容维度下基于第二平面图像对应的内容描述信息对第一平面图像进行特征提取，得到K个像素点的特征向量。在一个实施例中，第二平面图像对应的内容描述信息包括像素点i的位置信息，像素点i为K个像素点中的任一个像素点；计算机设备101调用特征提取网络在内容维度下基于第二平面图像对应的内容描述信息对第一平面图像进行特征提取，得到K个像素点的特征向量的过程包括：调用特征提取网络在内容维度下基于像素点i的位置信息对第一平面图像进行特征提取，得到像素点i的特征向量。在另一个实施例中，第二平面图像对应的内容描述信息包括像素点i的位置信息和第一三维对象的状态信息，像素点i为K个像素点中的任一个像素点；计算机设备101调用特征提取网络在内容维度下基于第二平面图像对应的内容描述信息对第一平面图像进行特征提取，得到K个像素点的特征向量的过程包括：调用特征提取网络在内容维度下基于像素点i的位置信息和第一三维对象的状态信息，对第一平面图像进行特征提取，得到像素点i的特征向量。在得到K个像素点的特征向量后，计算机设备101通过K个像素点的特征向量构造特征图，并调用解码网络对特征图进行解码处理，得到第二预测图像。

（4）计算机设备101基于第二预测图像和第二平面图像之间的差异，以及第一预测图像与第二预测图像之间的差异，对图像渲染模型进行训练。训练好的图像渲染模型可以用于预测任一三维对象的渲染图像。在一种实施方式中，一方面，计算机设备101计算第二预测图像和第二平面图像之间的欧式距离，得到第一损失值；另一方面，计算机设备101计算第一预测图像和第二预测图像之间的欧氏距离，得到第二损失值。在得到第一损失值和第二损失值后，计算机设备对第一损失值和第二损失值进行求和处理，得到图像渲染模型的处理损失，并基于图像渲染模型的处理损失，对图像渲染模型进行训练；例如，基于图像渲染模型的处理损失面，调整图像渲染模型中的相关参数（如网络层数、卷积核的数量等）。

基于上述图像处理方案，本申请实施例提出更为详细的图像处理方法，下面将结合附图对本申请实施例提出的图像处理方法进行详细介绍。

请参阅图2，图2为本申请实施例提供的一种图像处理方法的流程图，该图像处理方法可以由计算机设备执行，该计算机设备可以是终端设备或者服务器。如图2所示，该图像处理方法可包括如下步骤S201-S204：

S201、获取第一平面图像、第二平面图像及第二平面图像对应的内容描述信息。

第一平面图像和第二平面图像是在同一观测位置对第一三维对象进行观测得到的平面图像。第一三维对象可以是人、游戏角色、卡通人物、或者其它生物。第一平面图像和第二平面图像中均包括第一三维对象的面部。第二平面图像对应的内容描述信息用于描述第二平面图像中的内容。第二平面图像对应的内容描述信息包括第一三维对象的状态信息。第一三维对象的状态信息包括以下至少一项：第一三维对象的姿势参数，第一三维对象的表情参数，第一三维对象的注视参数；其中，第一三维对象的姿势参数用于指示第一三维对象相对于观测位置的刚性运动（即第一三维对象的位置和朝向变化）；第一三维对象的表情参数用于指示第一三维对象面部相对于观测位置的非刚性变形（如面部皮肤变形）；第一三维对象的注视参数用于指示第一三维对象的眼球运动。

在一种实施方式中，第一平面图像和第二平面图像是在同一时刻对同一观测位置对第一三维对象进行观测得到的平面图像，第一平面图像的分辨率低于第二平面图像的分辨率。在此情况下，第一三维对象的状态信息用于指示第二平面图像中的第一三维对象相对于第一平面图像中的第一三维对象来说，未发生变化。

在另一种实施方式中，第一平面图像和第二平面图像均属于同一视频的平面图像集合，且第一平面图像和第二平面图像在视频中的呈现时刻不同；具体来说，第一平面图像是视频中t1时刻的平面图像，第二平面图像是视频中t2时刻的平面图像，t1≠t2。在此情况下，第一三维对象的状态信息用于指示第一平面图像中的第一三维对象在t1和t2时刻之间，相对于观测位置的变化。具体来说，通过第一三维对象的姿势参数（如旋转平移矩阵），可以指示第一平面图像中的第一三维对象在t1和t2时刻之间，相对于观测位置的位置和朝向变化。通过第一三维对象的表情参数，可以指示第一平面图像中的第一三维对象在t1和t2时刻之间，相对于观测位置的非刚性变形。第一三维对象的注视参数，可以指示第一平面图像中的第一三维对象的眼球在t1和t2时刻之间，相对于观测位置的眼球变化。

此外，当第一平面图像和第二平面图像均属于同一视频的平面图像集合时，第一三维对象的状态信息还可以包括第二平面图像关联的音频参数。第二平面图像关联的音频参数是基于第二平面图像关联的音频流数据（包括第一三维对象的音频流数据）得到的。

S202、调用图像渲染模型在色彩维度下对第一平面图像和第二平面图像对应的内容描述信息进行渲染预测，得到第一预测图像。

计算机设备调用图像渲染模型在色彩维度下对第一平面图像和第二平面图像对应的内容描述信息进行渲染预测可以理解为：计算机设备调用图像渲染模型基于第一平面图像和第二平面图像对应的内容描述信息，预测第一预测图像中各个像素点的颜色，并基于第一预测图像中各个像素点的颜色得到第一预测图像。

在一种实施方式中，第一预测图像由M个网格构成，每个网格包括至少一个像素点，M为正整数。计算机设备调用图像渲染模型在色彩维度下对第一平面图像和第二平面图像对应的内容描述信息进行渲染预测，得到每个网格中各个像素点的颜色。举例来说，假设每个网格包括N个像素点，N为正整数；则计算机设备调用图像渲染模型在色彩维度下对第一平面图像和第二平面图像对应的内容描述信息进行渲染预测，得到第一预测图像中各个（即

个）像素点的颜色。在得到每个网格中各个像素点的颜色后，计算机设备基于每个网格中各个像素点的颜色，确定M个网格的颜色；例如，假设网格i中包括N个像素点，计算机设备可以计算网格i中N个像素点的颜色平均值，得到网格i的颜色；计算机设备也可以统计网格i中各个颜色对应的像素点数量，将目标颜色确定为网格i的颜色，网格i中颜色为目标颜色的像素点数量最多；计算机设备还可以基于注意力机制确定网格i中的至少一个关键像素点，并根据至少一个像素点的颜色确定网格i的颜色，网格i是M个网格中的任一个。在确定M个网格的颜色后，计算机设备根据M个网格的颜色，生成第一预测图像。

S203、调用图像渲染模型在内容维度下对第一平面图像和第二平面图像对应的内容描述信息进行渲染预测，得到第二预测图像。

计算机设备调用图像渲染模型在内容维度下对第一平面图像和第二平面图像对应的内容描述信息进行渲染预测可以理解为：计算机设备调用图像渲染模型基于第一平面图像和第二平面图像对应的内容描述信息，预测第一预测图像中各个像素点的特征向量（用于指示像素点中的内容），并基于第一预测图像中各个像素点的特征向量得到第一预测图像。

在一种实施方式中，图像渲染模型包括特征提取网络和解码网络；第二预测图像由K个像素点构成，K为正整数。计算机设备调用特征提取网络在内容维度下基于第二平面图像对应的内容描述信息对第一平面图像进行特征提取，得到K个像素点的特征向量。

在一个实施例中，第二平面图像对应的内容描述信息包括像素点i的位置信息，像素点i为K个像素点中的任一个像素点；计算机设备调用特征提取网络在内容维度下基于第二平面图像对应的内容描述信息对第一平面图像进行特征提取，得到K个像素点的特征向量的过程包括：调用特征提取网络在内容维度下基于像素点i的位置信息对第一平面图像进行特征提取，得到像素点i的特征向量。

在另一个实施例中，第二平面图像对应的内容描述信息包括像素点i的位置信息和第一三维对象的状态信息，像素点i为K个像素点中的任一个像素点；计算机设备调用特征提取网络在内容维度下基于第二平面图像对应的内容描述信息对第一平面图像进行特征提取，得到K个像素点的特征向量的过程包括：调用特征提取网络在内容维度下基于像素点i的位置信息和第一三维对象的状态信息，对第一平面图像进行特征提取，得到像素点i的特征向量。

在得到K个像素点的特征向量后，计算机设备通过K个像素点的特征向量构造特征图，并调用解码网络对特征图进行解码处理，得到第二预测图像。

需要说明的是，当第二平面图像对应的内容描述信息包括第一三维对象的姿势参数，第一三维对象的表情参数，第一三维对象的注视参数和第二平面图像关联的音频参数时，可以让图像渲染模型提取到更多的特征（如通过第一三维对象的注视参数提取第一三维对象的眼球运动特征），从而提高图像渲染模型的准确度。

S204、基于第二预测图像和第二平面图像之间的差异，以及第一预测图像与第二预测图像之间的差异，对图像渲染模型进行训练。

训练好的图像渲染模型可以用于预测任一三维对象的渲染图像。在一种实施方式中，一方面，计算机设备计算第二预测图像和第二平面图像之间的欧式距离，得到第一损失值；另一方面，计算机设备计算第一预测图像和第二预测图像之间的欧氏距离，得到第二损失值。可以理解的是，通过计算图像间的欧式距离可以将图像间的差异（各个像素点之间的差异）转换为数值差异（损失值）。

在得到第一损失值和第二损失值后，计算机设备对第一损失值和第二损失值进行求和处理，得到图像渲染模型的处理损失，并基于图像渲染模型的处理损失，对图像渲染模型进行训练；例如，基于图像渲染模型的处理损失面，调整图像渲染模型中的相关参数（如网络层数、卷积核的数量等）。

可选的，若第一平面图像和第二平面图像是在同一时刻对同一观测位置对第一三维对象进行观测得到的平面图像，第一平面图像的分辨率低于第二平面图像的分辨率；则计算机设备可以对第一图像进行下采样处理，得到下采样图像；并基于第一预测图像与下采样图像之间的差异，以及第二预测图像与第二平面图像之间的差异，对图像渲染模型进行训练。

请参阅图3，图3为本申请实施例提供的另一种图像处理方法的流程图，该图像处理方法可以由计算机设备执行，该计算机设备可以是终端设备或者服务器。如图3所示，该图像处理方法可包括如下步骤S301-S306：

S301、获取第一平面图像、第二平面图像及第二平面图像对应的内容描述信息。

第一平面图像和第二平面图像均属于同一视频的平面图像集合，且第一平面图像和第二平面图像在视频中的呈现时刻不同；具体来说，第一平面图像是视频中t1时刻的平面图像，第二平面图像是视频中t2时刻的平面图像，t1≠t2。在此情况下，第一三维对象的状态信息用于指示第一平面图像中的第一三维对象在t1和t2时刻之间，相对于观测位置的变化。具体来说，通过第一三维对象的姿势参数（如旋转平移矩阵），可以指示第一平面图像中的第一三维对象在t1和t2时刻之间，相对于观测位置的位置和朝向变化。通过第一三维对象的表情参数，可以指示第一平面图像中的第一三维对象在t1和t2时刻之间，相对于观测位置的非刚性变形。第一三维对象的注视参数，可以指示第一平面图像中的第一三维对象的眼球在t1和t2时刻之间，相对于观测位置的眼球变化。

需要说明的是，本申请提供的图像处理方法可以专门应用在三维对象的面部渲染场景中，在此情况下，三维对象的姿势参数不包含三维对象的躯干运动。

此外，当第一平面图像和第二平面图像均属于同一视频的平面图像集合时，第一三维对象的状态信息还可以包括第二平面图像关联的音频参数。第二平面图像关联的音频参数是基于第二平面图像关联的音频流数据（包括第一三维对象的音频流数据）得到的。计算机设备基于第二平面图像关联的音频流数据得到第二平面图像关联的音频参数的具体流程如下：

计算机设备获取第二平面图像关联的音频流数据，第二平面图像关联的音频流数据包括第一三维对象的音频流数据（如第一三维对象的语音）。在得到第二平面图像关联的音频流数据后，计算机设备对音频流数据进行数据转换（如进行傅里叶变换），得到第二平面图像关联的音频信号。

在得到第二平面图像关联的音频信号后，计算机设备可以基于第二平面图像关联的音频信号，构造第二平面图像关联的音频特征。具体来说，计算机设备获取第二平面图像对应的观测图像集合，观测图像集合包括从至少两个不同观测位置对第二平面图像中的第一三维对象进行观测得到的观测图像。计算机设备将第二平面图像关联的音频信号与观测图像集合中各个观测图像的图像特征进行合并，得到第二平面图像关联的深度特征。通过将音频信号与图像特征进行合并，可以在后续数据处理（如调用图像渲染模型基于第二平面图像关联的音频参数进行渲染）的过程中挖掘图像与音频之间的内在联系，使得图像渲染模型训练更加充分。

在得到第二平面图像关联的深度特征后，计算机设备调用卷积网络（如一维卷积网络）基于第二平面图像关联的深度特征，生成音频编码信息。在一个实施例中，计算机设备调用卷积网络对第二平面图像关联的深度特征进行截取处理，得到深度特征片段。需要说明的是，卷积网络是采用训练数据进行训练后得到的，训练过程包括：采用待训练网络对训练数据进行截取处理，得到截取结果；基于截取结果和训练数据对应的标注结果之间的差异对待训练网络的参数（如卷积核的数量）进行调整，得到训练好的卷积网络。通过训练好的卷积网络对第二平面图像关联的深度特征进行截取处理，可以过滤深度特征中的噪声（如深度特征中包含的与背景音乐对应的特征）。

在得到深度特征片段后，计算机设备对深度特征片段进行编码处理，得到音频编码信息。计算机设备获取音频编码信息对应的权重。在得到音频编码信息和音频编码信息对应的权重后，计算机设备基于音频编码信息对应的权重和音频编码信息，计算第二平面图像关联的音频特征。具体可以表示为：

其中，

表示第二平面图像关联的音频特征，/>

为音频编码信息，/>

为音频编码信息对应的权重，j用于指示音频编码信息对应的深度特征片段在深度特征中的维度，u可以根据实际情况动态调整。

进一步地，计算机设备将第二平面图像关联的音频特征，确定为第二平面图像关联的音频参数。

图4为本申请实施例提供的一种音频参数获取示意图。如图4所示，在获取到第二平面图像关联的音频流数据后，对第二平面图像关联的音频流数据进行数据转换得到第二平面图像关联的音频信号，并基于该音频信号，构造第二平面图像关联的深度特征。在得到第二平面图像关联的深度特征后，一方面，通过卷积网络对第二平面图像关联的深度特征进行截取处理，得到深度特征片段，并对该深度特征片段进行编码处理，得到音频编码信息；另一方面，通过卷积网络获取各个音频编码信息的权重。在得到音频编码信息和音频编码信息的权重后，通过音频编码信息和音频编码信息的权重计算第二平面图像关联的音频参数。

在一种实施方式中，第一三维对象是对未上色的三维模型进行贴图得到的，贴图由在贴图空间的纹素数组所组成，一个纹素可以包括一个或者多个像素点。第一平面图像和第二平面图像的分辨率（精度），由采集设备（如游戏引擎相机）的属性（如光照强度、辐射方式等）决定。

S302、调用图像渲染模型在色彩维度下对第一平面图像和第二平面图像对应的内容描述信息进行渲染预测，得到每个网格中各个像素点的颜色。

第一预测图像由M个网格构成，每个网格包括至少一个像素点，M为正整数。

在一种实施方式中，渲染模型包括特征提取网络，第二平面图像对应的内容描述信息包括像素点i的位置信息和第一三维对象的状态信息，像素点i可以为第一预测图像的任一个网格中的任一个像素点。计算机设备调用特征提取网络在色彩维度下基于第一平面图像，像素点i的位置信息和第一三维对象的状态信息，预测像素点i的颜色。

在一种实现方式中，第一平面图像和第二平面图像均属于同一视频的平面图像集合，且第一平面图像和第二平面图像在视频中的呈现时刻不同，第一平面图像是视频中t1时刻的平面图像，第二平面图像是视频中t2时刻的平面图像，t1≠t2。第二平面图像对应的内容描述信息包括像素点i的位置信息，第一三维对象在t2时刻的姿势参数和第一三维对象在t2时刻的表情参数，则计算机设备调用特征提取网络在色彩维度下基于第一平面图像，像素点i的位置信息和第一三维对象的状态信息，预测像素点i的颜色可以表示为：

其中，

表示像素点i的颜色，/>

表示第一三维对象在t2时刻的姿势参数，/>

表示第一三维对象在t2时刻的表情参数。/>

表示调用特征提取网络在色彩维度下基于/>

预测相应像素点的颜色。

类似地，若第二平面图像对应的内容描述信息包括像素点i的位置信息和第一三维对象在t2时刻的姿势参数，则计算机设备调用特征提取网络在色彩维度下基于第一平面图像，像素点i的位置信息和第一三维对象的状态信息，预测像素点i的颜色可以表示为：

其中，

表示像素点i的颜色，/>

表示第一三维对象在t2时刻的姿势参数，

表示调用特征提取网络在色彩维度下基于/>

预测相应像素点的颜色。

按照上述实施方式，计算机设备可以得到每个网格中各个像素点的颜色。

S303、基于每个网格中各个像素点的颜色，生成第一预测图像。

在一种实施方式中，计算机设备基于每个网格中各个像素点的位置信息和颜色，确定该网格的颜色；例如，假设网格i中包括N个像素点，计算机设备101可以计算网格i中N个像素点的颜色平均值，得到网格i的颜色；计算机设备101也可以统计网格i中各个颜色对应的像素点数量，将目标颜色确定为网格i的颜色，网格i中颜色为目标颜色的像素点数量最多；计算机设备101还可以基于注意力机制确定网格i中的至少一个关键像素点，并根据至少一个像素点的颜色确定网格i的颜色，网格i是M个网格中的任一个。在确定M个网格的颜色后，计算机设备根据M个网格的位置信息和颜色，对M个网格进行组合，得到第一预测图像。

S304、调用图像渲染模型在内容维度下对第一平面图像和第二平面图像对应的内容描述信息进行渲染预测，得到K个像素点的特征向量。

在一种实施方式中，图像渲染模型包括特征提取网络；第二预测图像由K个像素点构成，K为正整数。当第一预测图像由M个网格构成，且每个网格包括N个像素点时，K可以等于

（如第一预测图像与第二预测图像分辨率相同），也可以不等于/>

（如第一预测图像与第二预测图像分辨率不同）。第二平面图像对应的内容描述信息包括像素点i的位置信息和第一三维对象的状态信息，像素点i为K个像素点中的任一个像素点。计算机设备调用特征提取网络在内容维度下基于第一平面图像，像素点i的位置信息和第一三维对象的状态信息，预测像素点i的特征向量。

其中，计算机设备获取像素点i的位置信息的具体方式为：获取第一平面图像关联的维度指示信息，维度指示信息用于指示第一平面图像关联的维度；在一个实施例中，第一平面图像关联的维度可以是基于第一平面图像的分辨率（精度）和映射函数计算得到的。

计算机设备获取像素点i的坐标，并对像素点i的坐标进行升维处理，得到像素点i的位置信息，像素点i的位置信息的维度与维度指示信息指示的维度匹配。对像素点i的坐标进行升维处理可以表示为：

其中，

表示像素点i的位置信息，/>

=（x,y）表示像素点i的坐标，S为第一平面图像关联的维度指示信息所指示的维度。

类似地，在一个实施例中，第二平面图像对应的内容描述信息中，第一三维对象的状态信息包括第一三维对象的姿势参数，该姿势参数可以是对第一三维对象的旋转平移矩阵进行升维处理后得到的，该姿势参数的维度与维度指示信息指示的维度匹配。在另一个实施例中，第二平面图像对应的内容描述信息中，第一三维对象的状态信息包括第一三维对象的注视参数，该注视参数可以是对第一三维对象的眼球运动指示信息进行升维处理后得到的，该注视参数的维度与维度指示信息指示的维度匹配。

需要说明的是，通过对像素点的坐标、第一三维对象的姿势参数和第一三维对象的注视参数进行升维处理，有助于图像渲染模型渲染出高频预测图像中的细节（如纹理）。

在一种实现方式中，第一平面图像和第二平面图像均属于同一视频的平面图像集合，且第一平面图像和第二平面图像在视频中的呈现时刻不同，第一平面图像是视频中t1时刻的平面图像，第二平面图像是视频中t2时刻的平面图像，t1≠t2。

若第二平面图像对应的内容描述信息包括像素点i的位置信息，第一三维对象在t2时刻的姿势参数，第一三维对象在t2时刻的表情参数和第一三维对象在t2时刻的注视参数，则计算机设备调用特征提取网络在内容维度下基于第一平面图像，像素点i的位置信息和第一三维对象的状态信息，预测像素点i的特征向量可以表示为：

其中，

表示像素点i的特征向量，/>

表示像素点i的位置信息，/>

表示对第一三维对象在t2时刻姿势参数进行升维处理后得到的姿势参数，/>

表示对第一三维对象在t2时刻注视参数进行升维处理后得到的注视参数，/>

表示第一三维对象在t2时刻的表情参数，/>

表示调用特征提取网络在内容维度下基于/>

预测相应像素点的特征向量。

类似地，若第二平面图像对应的内容描述信息包括像素点i的位置信息，第一三维对象在t2时刻的姿势参数，第一三维对象在t2时刻的表情参数，第一三维对象在t2时刻的注视参数和第二平面图像关联的音频参数，则计算机设备调用特征提取网络在内容维度下基于第一平面图像，像素点i的位置信息和第一三维对象的状态信息，预测像素点i的特征向量可以表示为：

其中，

表示像素点i的特征向量，/>

表示像素点i的位置信息，/>

表示第一三维对象在t2时刻的表情参数，/>

表示第二平面图像关联的音频特征，/>

表示调用特征提取网络在内容维度下基于/>

预测相应像素点的特征向量。

S305、基于K个像素点的特征向量，生成第二预测图像。

在一种实施方式中，图像渲染模型包括解码网络，计算机设备基于各个像素点的位置信息和特征向量，对K个像素点进行组合，得到特征图，并调用解码网络对特征图进行解码，得到第二预测图像。需要说明的是，在解码的过程中，还可以基于获取的第二平面图像的分辨率对特征图进行上采样处理，并对上采样结果进行解码，得到第二预测图像，第二预测图像的分辨率与第二平面图像的分辨率相同。

图5为本申请实施例提供的一种渲染预测过程示意图。如图5所示，计算机设备在获取第一平面图像和第二平面图像对应的内容描述信息后，首先通过特征提取网络（如多层感知机（Multilayer Perceptron，MLP））基于第一平面图像和第二平面图像对应的内容描述信息，一方面，从色彩维度预测第二平面图像中各个像素点的颜色，并通过第二平面图像中各个像素点的颜色生成第一预测图像；另一方面，从内容维度预测第二平面图像中各个像素点的特征，并通过第二平面图像中各个像素点的特征构建特征图，再调用解码网络对特征图进行解码，得到第二预测图像。

S306、基于第二预测图像和第二平面图像之间的差异，以及第一预测图像与第二预测图像之间的差异，对图像渲染模型进行训练。

在一种实施方式中，一方面，计算机设备计算第二预测图像和第二平面图像之间的欧式距离，得到第一损失值；另一方面，计算机设备计算第一预测图像和第二预测图像之间的欧氏距离，得到第二损失值。具体可以表示为：

其中，L为总体损失，

为第二预测图像，/>

为第二平面图像，/>

为第一预测图像，/>

表示第一损失值，/>

表示第二损失值。

训练好的图像渲染模型可以用于预测任一三维对象的渲染图像。

在一种实施方式中，计算机设备获取待处理平面图像和渲染图像对应的内容描述信息，并调用训练好的图像渲染模型在内容维度下对待处理平面图像和渲染图像对应的内容描述信息进行渲染预测，得到渲染图像；其中，待处理平面图像中包括第二三维对象。在一个实施例中，渲染图像对应的内容描述信息包括第二三维对象的姿势参数和第二三维对象的表情参数中的至少一项，渲染图像的分辨率高于待处理平面图像的分辨率。在另一个实施例中，待处理平面图像和渲染图像为同一视频在不同时刻的图像。渲染图像对应的内容描述信息包括以下至少一项：第二三维对象的姿势参数，第二三维对象的表情参数，第二三维对象的注视参数，以及渲染图像关联的音频参数。

在另一种实施方式中，计算机设备获取待处理平面图像和渲染图像对应的内容描述信息；其中，待处理平面图像中包括第二三维对象，内容描述信息包括至少一个像素点的位置信息和第二三维对象的状态信息。调用训练好的图像渲染模型在内容维度下对待处理平面图像和渲染图像对应的内容描述信息进行渲染预测，至少一个像素点的颜色。

本申请实施例中，获取第一平面图像、第二平面图像及第二平面图像对应的内容描述信息，调用图像渲染模型在色彩维度下对第一平面图像和第二平面图像对应的内容描述信息进行渲染预测，得到第一预测图像，并调用图像渲染模型在内容维度下对第一平面图像和第二平面图像对应的内容描述信息进行渲染预测，得到第二预测图像，基于第二预测图像和第二平面图像之间的差异，以及第一预测图像与第二预测图像之间的差异，对图像渲染模型进行训练。可见，基于多个维度（颜色维度和内容维度）下的预测差异，可以对图像渲染模型进行更加充分的训练，从而提高图像渲染模型的预测准确度。此外，当第二平面图像对应的内容描述信息中第一三维对象的状态参数为多个时，可以让图像渲染模型提取到更多的特征，进一步提高图像渲染模型的准确度。

上述详细阐述了本申请实施例的方法，为了便于更好地实施本申请实施例的上述方案，相应地，下面提供了本申请实施例的装置。

请参见图6，图6为本申请实施例提供的一种图像处理装置的结构示意图，图6所示的图像处理装置可以搭载在计算机设备中，该计算机设备具体可以是终端设备或者服务器。图6所示的图像处理装置可以用于执行上述图2和图3所描述的方法实施例中的部分或全部功能。请参见图6，该图像处理装置包括：

获取单元601，用于获取第一平面图像、第二平面图像及第二平面图像对应的内容描述信息；第一平面图像和第二平面图像是在同一观测位置对第一三维对象进行观测得到的平面图像；

处理单元602，用于调用图像渲染模型在色彩维度下对第一平面图像和第二平面图像对应的内容描述信息进行渲染预测，得到第一预测图像；

以及用于基于第二预测图像和第二平面图像之间的差异，以及第一预测图像与第二预测图像之间的差异，对图像渲染模型进行训练；训练好的图像渲染模型用于预测任一三维对象的渲染图像。

在一种实施方式中，第一预测图像由M个网格构成，每个网格包括至少一个像素点，M为正整数；处理单元602用于，调用图像渲染模型在色彩维度下对第一平面图像和第二平面图像对应的内容描述信息进行渲染预测，得到第一预测图像，具体用于：

基于每个网格中各个像素点的颜色，确定M个网格的颜色；

根据M个网格的颜色，生成第一预测图像。

在一种实施方式中，图像渲染模型包括特征提取网络和解码网络；第二预测图像由K个像素点构成，K为正整数；处理单元602用于，调用图像渲染模型在内容维度下对第一平面图像和第二平面图像对应的内容描述信息进行渲染预测，得到第二预测图像，具体用于：

通过K个像素点的特征向量构造特征图；

调用解码网络对特征图进行解码处理，得到第二预测图像。

在一种实施方式中，像素点i的位置信息的获取过程包括：

获取第一平面图像关联的维度指示信息；

获取像素点i的坐标；

在一种实施方式中，第二平面图像对应的内容描述信息包括第二平面图像关联的音频参数；处理单元602用于，获取第二平面图像对应的内容描述信息，具体用于：

获取第二平面图像关联的音频流数据；

在一种实施方式中，第一平面图像和第二平面图像均属于同一视频的平面图像集合，且第一平面图像和第二平面图像在视频中的呈现时刻不同；处理单元602用于，基于第二平面图像关联的音频信号，构造第二平面图像关联的音频特征，具体用于：

在一种实施方式中，处理单元602用于，调用卷积网络基于第二平面图像关联的深度特征，生成音频编码信息，具体用于：

对深度特征片段进行编码处理，得到音频编码信息。

在一种实施方式中，处理单元602用于，基于第一预测图像和第二平面图像之间的差异，以及第一预测图像与第二预测图像之间的差异，对图像渲染模型进行训练，具体用于：

基于图像渲染模型的处理损失，对图像渲染模型进行训练。

在一种实施方式中，处理单元602还用于：

根据本申请的一个实施例，图2和图3所示的图像处理方法所涉及的部分步骤可由图6所示的图像处理装置中的各个单元来执行。例如，图2中所示的步骤S201可由图6所示的获取单元601执行，步骤S202-步骤S204可由图6所示的处理单元602执行；图3中所示的步骤S301可由图6所示的获取单元601执行，步骤S302-步骤S306可由图6所示的处理单元602执行。图6所示的图像处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个（些）单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其它实施例中，图像处理装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本申请的另一个实施例，可以通过在包括中央处理单元（CPU）、随机存取存储介质（RAM）、只读存储介质（ROM）等处理元件和存储元件的例如计算机设备的通用计算装置上运行能够执行如图2和图3中所示的相应方法所涉及的各步骤的计算机程序（包括程序代码），来构造如图6中所示的图像处理装置，以及来实现本申请实施例的图像处理方法。计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算装置中，并在其中运行。

基于同一发明构思，本申请实施例中提供的图像处理装置解决问题的原理与有益效果与本申请方法实施例中图像处理方法解决问题的原理和有益效果相似，可以参见方法的实施的原理和有益效果，为简洁描述，在这里不再赘述。

请参阅图7，图7为本申请实施例提供的一种计算机设备的结构示意图，该计算机设备可以终端设备或者服务器。如图7所示，计算机设备至少包括处理器701、通信接口702和存储器703。其中，处理器701、通信接口702和存储器703可通过总线或其他方式连接。其中，处理器701（或称中央处理器（Central Processing Unit，CPU））是计算机设备的计算核心以及控制核心，其可以解析计算机设备内的各类指令以及处理计算机设备的各类数据，例如：CPU可以用于解析对象向计算机设备所发出的开关机指令，并控制计算机设备进行开关机操作；再如：CPU可以在计算机设备内部结构之间传输各类交互数据，等等。通信接口702可选的可以包括标准的有线接口、无线接口（如WI-FI、移动通信接口等），受处理器701的控制可以用于收发数据；通信接口702还可以用于计算机设备内部数据的传输以及交互。存储器703（Memory）是计算机设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的存储器703既可以包括计算机设备的内置存储器，当然也可以包括计算机设备所支持的扩展存储器。存储器703提供存储空间，该存储空间存储了计算机设备的操作系统，可包括但不限于：Android系统、iOS系统、Windows Phone系统等等，本申请对此并不作限定。

本申请实施例还提供了一种计算机可读存储介质（Memory），计算机可读存储介质是计算机设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质，当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了计算机设备的处理系统。并且，在该存储空间中还存放了适于被处理器701加载并执行的计算机程序。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器（non-volatile memory），例如至少一个磁盘存储器；可选的，还可以是至少一个位于远离前述处理器的计算机可读存储介质。

在一个实施例中，处理器701通过运行存储器703中的计算机程序，执行如下操作：

获取第一平面图像、第二平面图像及第二平面图像对应的内容描述信息；第一平面图像和第二平面图像是在同一观测位置对第一三维对象进行观测得到的平面图像；

基于第二预测图像和第二平面图像之间的差异，以及第一预测图像与第二预测图像之间的差异，对图像渲染模型进行训练；训练好的图像渲染模型用于预测任一三维对象的渲染图像。

作为一种可选的实施例，第一预测图像由M个网格构成，每个网格包括至少一个像素点，M为正整数；处理器701调用图像渲染模型在色彩维度下对第一平面图像和第二平面图像对应的内容描述信息进行渲染预测，得到第一预测图像的具体实施例为：

基于每个网格中各个像素点的颜色，确定M个网格的颜色；

根据M个网格的颜色，生成第一预测图像。

作为一种可选的实施例，图像渲染模型包括特征提取网络和解码网络；第二预测图像由K个像素点构成，K为正整数；处理器701调用图像渲染模型在内容维度下对第一平面图像和第二平面图像对应的内容描述信息进行渲染预测，得到第二预测图像的具体实施例为：

通过K个像素点的特征向量构造特征图；

调用解码网络对特征图进行解码处理，得到第二预测图像。

作为一种可选的实施例，第二平面图像对应的内容描述信息包括像素点i的位置信息，像素点i为K个像素点中的任一个像素点；

作为一种可选的实施例，像素点i的位置信息的获取过程包括：

获取第一平面图像关联的维度指示信息；

获取像素点i的坐标；

作为一种可选的实施例，第二平面图像包括第一三维对象的面部；第二平面图像对应的内容描述信息包括第一三维对象的状态信息，第一三维对象的状态信息包括以下至少一项：第一三维对象的姿势参数，第一三维对象的表情参数，第一三维对象的注视参数，以及第二平面图像关联的音频参数；

作为一种可选的实施例，第二平面图像对应的内容描述信息包括第二平面图像关联的音频参数；处理器701获取第二平面图像对应的内容描述信息的具体实施例为：

获取第二平面图像关联的音频流数据；

作为一种可选的实施例，第一平面图像和第二平面图像均属于同一视频的平面图像集合，且第一平面图像和第二平面图像在视频中的呈现时刻不同；处理器701基于第二平面图像关联的音频信号，构造第二平面图像关联的音频特征的具体实施例为：

作为一种可选的实施例，处理器701调用卷积网络基于第二平面图像关联的深度特征，生成音频编码信息的具体实施例为：

对深度特征片段进行编码处理，得到音频编码信息。

作为一种可选的实施例，处理器701基于第一预测图像和第二平面图像之间的差异，以及第一预测图像与第二预测图像之间的差异，对图像渲染模型进行训练的具体实施例为：

基于图像渲染模型的处理损失，对图像渲染模型进行训练。

作为一种可选的实施例，处理器701通过运行存储器703中的计算机程序，还执行如下操作：

基于同一发明构思，本申请实施例中提供的计算机设备解决问题的原理与有益效果与本申请方法实施例中图像处理方法解决问题的原理和有益效果相似，可以参见方法的实施的原理和有益效果，为简洁描述，在这里不再赘述。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，计算机程序适于被处理器加载并执行上述方法实施例的图像处理方法。

本申请实施例还提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述的图像处理方法。

本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

本申请实施例装置中的模块可以根据实际需要进行合并、划分和删减。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，可读存储介质可以包括：闪存盘、只读存储器（Read-Only Memory ，ROM）、随机存取器（RandomAccess Memory，RAM）、磁盘或光盘等。

以上所揭露的仅为本申请一种较佳实施例而已，当然不能以此来限定本申请之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本申请权利要求所作的等同变化，仍属于申请所涵盖的范围。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

获取第一平面图像、第二平面图像；所述第一平面图像和所述第二平面图像是在同一观测位置对第一三维对象进行观测得到的平面图像；所述第一平面图像和所述第二平面图像均属于同一视频的平面图像集合，且所述第一平面图像和所述第二平面图像在所述视频中的呈现时刻不同；

获取所述第二平面图像关联的音频流数据；

对所述音频流数据进行数据转换，得到所述第二平面图像关联的音频信号；

获取所述第二平面图像对应的观测图像集合，所述观测图像集合包括从至少两个不同观测位置对所述第二平面图像中的第一三维对象进行观测得到的观测图像；

将所述第二平面图像关联的音频信号与所述观测图像集合中各个观测图像的图像特征进行合并，得到所述第二平面图像关联的深度特征；

调用卷积网络基于所述第二平面图像关联的深度特征，生成音频编码信息；

获取所述音频编码信息对应的权重，并基于所述音频编码信息对应的权重和所述音频编码信息，计算所述第二平面图像关联的音频参数；

通过所述第二平面图像关联的音频参数，生成所述第二平面图像对应的内容描述信息；

调用图像渲染模型在色彩维度下对所述第一平面图像和所述第二平面图像对应的内容描述信息进行渲染预测，得到第一预测图像；

调用所述图像渲染模型在内容维度下对所述第一平面图像和所述第二平面图像对应的内容描述信息进行渲染预测，得到第二预测图像；

基于所述第二预测图像和所述第二平面图像之间的差异，以及所述第一预测图像与所述第二预测图像之间的差异，对所述图像渲染模型进行训练；训练好的图像渲染模型用于预测任一三维对象的渲染图像。

2.如权利要求1所述的方法，其特征在于，所述第一预测图像由M个网格构成，每个网格包括至少一个像素点，M为正整数；所述调用图像渲染模型在色彩维度下对所述第一平面图像和所述第二平面图像对应的内容描述信息进行渲染预测，得到第一预测图像，包括：

调用图像渲染模型在色彩维度下对所述第一平面图像和所述第二平面图像对应的内容描述信息进行渲染预测，得到每个网格中各个像素点的颜色；

基于每个网格中各个像素点的颜色，确定所述M个网格的颜色；

根据所述M个网格的颜色，生成第一预测图像。

3.如权利要求1所述的方法，其特征在于，所述图像渲染模型包括特征提取网络和解码网络；所述第二预测图像由K个像素点构成，K为正整数；所述调用所述图像渲染模型在内容维度下对所述第一平面图像和所述第二平面图像对应的内容描述信息进行渲染预测，得到第二预测图像，包括：

调用所述特征提取网络在内容维度下基于所述第二平面图像对应的内容描述信息对所述第一平面图像进行特征提取，得到所述K个像素点的特征向量；

通过所述K个像素点的特征向量构造特征图；

调用所述解码网络对所述特征图进行解码处理，得到第二预测图像。

4.如权利要求3所述的方法，其特征在于，所述第二平面图像对应的内容描述信息包括像素点i的位置信息，所述像素点i为所述K个像素点中的任一个像素点；

所述像素点i的特征向量是所述特征提取网络在内容维度下基于所述像素点i的位置信息对所述第一平面图像进行特征提取得到的。

5.如权利要求4所述的方法，其特征在于，所述像素点i的位置信息的获取过程包括：

获取所述第一平面图像关联的维度指示信息；

获取像素点i的坐标；

对所述像素点i的坐标进行升维处理，得到所述像素点i的位置信息；所述像素点i的位置信息的维度与所述维度指示信息指示的维度匹配。

6.如权利要求1所述的方法，其特征在于，所述第二平面图像包括所述第一三维对象的面部；所述第二平面图像对应的内容描述信息包括所述第一三维对象的状态信息，所述第一三维对象的状态信息包括以下至少一项：所述第一三维对象的姿势参数，所述第一三维对象的表情参数，所述第一三维对象的注视参数；

其中，所述第一三维对象的姿势参数用于指示所述第一三维对象相对于观测位置的刚性运动；所述第一三维对象的表情参数用于指示所述第一三维对象的非刚性面部变形；所述第一三维对象的注视参数用于指示所述第一三维对象的眼球运动。

7.如权利要求1所述的方法，其特征在于，所述调用卷积网络基于所述第二平面图像关联的深度特征，生成音频编码信息，包括：

调用卷积网络对所述第二平面图像关联的深度特征进行截取处理，得到深度特征片段；

对所述深度特征片段进行编码处理，得到音频编码信息。

8.如权利要求1所述的方法，其特征在于，所述基于所述第一预测图像和所述第二平面图像之间的差异，以及所述第一预测图像与所述第二预测图像之间的差异，对所述图像渲染模型进行训练，包括：

计算所述第二预测图像和所述第二平面图像之间的欧式距离，得到第一损失值；

计算所述第一预测图像和所述第二预测图像之间的欧氏距离，得到第二损失值；

对所述第一损失值和所述第二损失值进行求和处理，得到所述图像渲染模型的处理损失；

基于所述图像渲染模型的处理损失，对所述图像渲染模型进行训练。

9.如权利要求1所述的方法，其特征在于，所述方法还包括：

获取待处理平面图像和渲染图像对应的内容描述信息，所述待处理平面图像中包括第二三维对象；

调用训练好的图像渲染模型在内容维度下对所述待处理平面图像和所述渲染图像对应的内容描述信息进行渲染预测，得到渲染图像。

10.一种图像处理装置，其特征在于，所述图像处理装置包括：

获取单元，用于获取第一平面图像、第二平面图像；所述第一平面图像和所述第二平面图像是在同一观测位置对第一三维对象进行观测得到的图像；所述第一平面图像和所述第二平面图像均属于同一视频的平面图像集合，且所述第一平面图像和所述第二平面图像在所述视频中的呈现时刻不同；

获取所述第二平面图像关联的音频流数据；

处理单元，用于调用图像渲染模型在色彩维度下对所述第一平面图像和所述第二平面图像对应的内容描述信息进行渲染预测，得到第一预测图像；

以及用于调用所述图像渲染模型在内容维度下对所述第一平面图像和所述第二平面图像对应的内容描述信息进行渲染预测，得到第二预测图像；

以及用于基于所述第一预测图像和所述第二平面图像之间的差异，以及所述第一预测图像与所述第二预测图像之间的差异，对所述图像渲染模型进行训练；训练好的图像渲染模型用于预测任一三维对象的渲染图像。

11.一种计算机设备，其特征在于，包括：存储器和处理器；

存储器，所述存储器中存储有计算机程序；

处理器，用于加载所述计算机程序实现如权利要求1-9任一项所述的图像处理方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于被处理器加载并执行如权利要求1-9任一项所述的图像处理方法。